AB實(shí)驗(yàn),一般經(jīng)常叫他的英文名,ABTest,是一種有效的對(duì)比測(cè)試方法。
通過(guò)對(duì)比兩個(gè)不同的方案,選擇其中較好的結(jié)果作為決策依據(jù)。
ABTest在自然科學(xué)與互聯(lián)網(wǎng)行業(yè)領(lǐng)域經(jīng)常被用于研究影響因素的效果優(yōu)化以及不同條件下的優(yōu)劣評(píng)估,是一種非常有效且嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方法。
這一回我想與大家分享的是對(duì)于ABTest功能設(shè)計(jì)的總結(jié)以及一些問(wèn)題引發(fā)出的思考。談及ABTest就不得不提及谷歌發(fā)布的《Overlapping Experiment Infrastructure:?More, Better, Faster Experimentation》這篇論文,互聯(lián)網(wǎng)行業(yè)中各類(lèi)ABTest功能設(shè)計(jì)可以說(shuō)是大多源自此文,因此在介紹ABTest一些功能設(shè)計(jì)基礎(chǔ)時(shí)本文也將引用谷歌這篇論文介紹的內(nèi)容。那么話不多說(shuō),旅途開(kāi)啟。
01
—
ABTest
簡(jiǎn)介前文已簡(jiǎn)單提及ABTest的核心方法與作用。在互聯(lián)網(wǎng)行業(yè)中,常用于軟件亦或是網(wǎng)站功能的調(diào)優(yōu),通過(guò)抽樣進(jìn)行實(shí)驗(yàn),來(lái)驗(yàn)證方案是否有提升。
ABTest的原理其實(shí)并不難理解,保證除了需要實(shí)驗(yàn)的參數(shù)因素不變,觀察實(shí)驗(yàn)中的兩個(gè)方案各自的表現(xiàn)。從這里可以看出其實(shí)ABTest的本質(zhì)就是控制變量法。
在互聯(lián)網(wǎng)行業(yè)領(lǐng)域中,互聯(lián)網(wǎng)產(chǎn)品的載體一般為軟件或是網(wǎng)站,使用者為人?;ヂ?lián)網(wǎng)產(chǎn)品的ABTest即為針對(duì)人的實(shí)驗(yàn)。一次ABTest的流程,如下。
02
—
ABTest的功能設(shè)計(jì)
(一)實(shí)驗(yàn)評(píng)估指標(biāo)的確定
實(shí)驗(yàn)的開(kāi)始需要確認(rèn)需要研究的命題,對(duì)于互聯(lián)網(wǎng)產(chǎn)品而言,一般都是功能流程、界面元素衍生的行為效果優(yōu)化以及探索性的效果分析。
在進(jìn)行實(shí)驗(yàn)前,需要確認(rèn)對(duì)于研究的命題,該用什么指標(biāo)來(lái)評(píng)估實(shí)驗(yàn)的結(jié)果。
這個(gè)會(huì)影響到實(shí)驗(yàn)中該制定怎樣的實(shí)驗(yàn)方案。
現(xiàn)以網(wǎng)頁(yè)或者軟件中常見(jiàn)界面元素設(shè)計(jì)為例,在某個(gè)軟件或網(wǎng)站的推廣廣告素材中,現(xiàn)在設(shè)計(jì)了一版新的下載引導(dǎo)按鈕方案,如何定義結(jié)果效果呢?用數(shù)據(jù)數(shù)值來(lái)體現(xiàn)結(jié)果是非常直觀的,所以將方案的結(jié)果定義為一個(gè)代表結(jié)果的指標(biāo),此時(shí)這個(gè)指標(biāo)可以是下載引導(dǎo)按鈕的人均點(diǎn)擊次數(shù)。
實(shí)驗(yàn)評(píng)估指標(biāo)的確定,需要嚴(yán)格地與命題相關(guān),且必須要能代表實(shí)驗(yàn)流程的結(jié)果。
實(shí)驗(yàn)命題是研究新的下載引導(dǎo)按鈕是否比現(xiàn)有的更好,則實(shí)驗(yàn)流程則是需要將分別引入到兩個(gè)不同方案中,然后根據(jù)他們?cè)诓煌桨钢袑?duì)按鈕的點(diǎn)擊事件進(jìn)行埋點(diǎn)、事件上報(bào),進(jìn)而對(duì)數(shù)據(jù)進(jìn)行對(duì)比分析。
(二)用戶(hù)分流
實(shí)驗(yàn)方案是將用戶(hù)分別引入到兩個(gè)不同的方案中,為了保證實(shí)驗(yàn)的準(zhǔn)確性,需要確保除了下載按鈕的樣式不同,其他因素諸如界面中其他元素、用戶(hù)年齡、性別或地域等其他因素盡可能的在兩個(gè)方案中相同。此時(shí)可以隨機(jī)的將用戶(hù)分入兩個(gè)方案,即可相對(duì)的減少其他因素因偶然性集中,保證其他因素不會(huì)成為不平等的影響因素。用戶(hù)的分流是ABTest功能中非常重要的一步。
這里結(jié)合谷歌論文《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》(下稱(chēng)谷歌論文)中的方法說(shuō)明一下用戶(hù)分流。
首先是用戶(hù)流量的分配方式。
用戶(hù)分流,需要保證用戶(hù)進(jìn)入某個(gè)實(shí)驗(yàn)方案后,不會(huì)再進(jìn)入另一個(gè)方案。一般來(lái)說(shuō)一次AB實(shí)驗(yàn),即分為實(shí)驗(yàn)組與對(duì)照組,實(shí)驗(yàn)組即體驗(yàn)到新方案的用戶(hù)組,對(duì)照組則為保持舊方案的用戶(hù)組,用新舊方案對(duì)比來(lái)觀察效果。
此時(shí)如果單純的對(duì)用戶(hù)進(jìn)行簡(jiǎn)單的隨機(jī)分配,則同一個(gè)用戶(hù)可能會(huì)在不同時(shí)間進(jìn)入實(shí)驗(yàn)組與對(duì)照組,讓本次實(shí)驗(yàn)產(chǎn)生不具有參考性的行為。
另一方面則是簡(jiǎn)單的隨機(jī)分配如果將用戶(hù)分配到兩個(gè)不同的實(shí)驗(yàn)中,如果兩個(gè)實(shí)驗(yàn)有一定的聯(lián)系,則同樣會(huì)對(duì)實(shí)驗(yàn)產(chǎn)生影響。此時(shí)需要盡可能的保證用戶(hù)分配時(shí),保證以下兩點(diǎn)。
- 1. 用戶(hù)在一個(gè)實(shí)驗(yàn)中,只進(jìn)入一個(gè)用戶(hù)組
- 2. 在多個(gè)實(shí)驗(yàn)同時(shí)進(jìn)行時(shí),一個(gè)用戶(hù)只能參與一個(gè)實(shí)驗(yàn)
為了保證以上兩個(gè)前提,直接對(duì)用戶(hù)隨機(jī)分配就行不通了。此時(shí)我們需要找到用戶(hù)的唯一標(biāo)識(shí)來(lái)代表用戶(hù),當(dāng)發(fā)現(xiàn)用戶(hù)已經(jīng)進(jìn)入某個(gè)實(shí)驗(yàn)并成為了某個(gè)組的用戶(hù)后,則不再對(duì)他進(jìn)行分配。
在谷歌論文中介紹了使用取模的方法,例如研究用戶(hù)群體時(shí),可以對(duì)用戶(hù)ID進(jìn)行取模1000(或者100也可以,原理都是對(duì)流量進(jìn)行劃分,從中按序號(hào)取出對(duì)應(yīng)序列的用戶(hù));如果是研究使用設(shè)備時(shí),則可以對(duì)設(shè)備ID+用戶(hù)ID組合進(jìn)行取模。目前哈希取模是最為常用的方式。
(三)用戶(hù)分流的改進(jìn)
用戶(hù)分配好以后,可以開(kāi)始進(jìn)行實(shí)驗(yàn)了。比如說(shuō)取模后0到19為用戶(hù)組一,20到59為用戶(hù)組二,60到99為用戶(hù)組三。
這樣一個(gè)實(shí)驗(yàn)中就可以分配用戶(hù)組一為對(duì)照組,另外兩個(gè)用戶(hù)組作為實(shí)驗(yàn)組。但是此時(shí)就有一個(gè)問(wèn)題,如果我想同時(shí)進(jìn)行多個(gè)測(cè)試,就得先根據(jù)測(cè)試的不同,先對(duì)方案分配用戶(hù),然后對(duì)分配完的用戶(hù)再針測(cè)試中的方案對(duì)進(jìn)行一次分配。
如果之后每一次進(jìn)行同時(shí)多個(gè)實(shí)驗(yàn)都要這么處理,顯然不夠靈活。在谷歌論文中,為了靈活處理同時(shí)多實(shí)驗(yàn)的用戶(hù)分流,引入了流量域、層的概念。先了解一下谷歌論文中幾個(gè)名詞的定義。
- 域:指的是流量被劃分后的各個(gè)部分。例如我們把用戶(hù)分成各50%的兩個(gè)部分,即分成了兩個(gè)域。
- 層:指的是系統(tǒng)參數(shù)構(gòu)成的一個(gè)子集。例如從上例第一個(gè)50%的域中,我又將用戶(hù)分成了3類(lèi),各有一定占比,用UI、搜索結(jié)果和廣告結(jié)果區(qū)分。
- 實(shí)驗(yàn):指的是在一個(gè)流量被劃分的部分中,對(duì)0個(gè)或者多個(gè)系統(tǒng)參數(shù)進(jìn)行修改并請(qǐng)求處理的過(guò)程。這個(gè)可以簡(jiǎn)單理解我開(kāi)啟了一次AB實(shí)驗(yàn)。
那么結(jié)合谷歌論文中的示例圖,以提升廣告點(diǎn)擊率為例說(shuō)明一下這個(gè)分流思路。
如圖(1)所示,根據(jù)UI、搜索結(jié)果以及廣告結(jié)果將所有分成3個(gè)層,此時(shí)就可以同時(shí)做這3個(gè)參數(shù)的實(shí)驗(yàn)。
如圖(2)所示,引入了一個(gè)非重疊層的概念。圖(1)稱(chēng)之為重疊層,此時(shí)一個(gè)用戶(hù)進(jìn)入這個(gè)域后,可能會(huì)進(jìn)入3個(gè)實(shí)驗(yàn)中的其中一個(gè)。而當(dāng)一個(gè)用戶(hù)進(jìn)入圖(2)中左側(cè)的非重疊層,則只會(huì)進(jìn)入一個(gè)實(shí)驗(yàn),例如專(zhuān)門(mén)留了20%的用戶(hù)進(jìn)行專(zhuān)項(xiàng)的實(shí)驗(yàn),與此同時(shí)重疊層則由其他80%的用戶(hù)分成3個(gè)層,可以同時(shí)進(jìn)行3個(gè)實(shí)驗(yàn)。
使用如上方法對(duì)用戶(hù)分配后,如此一來(lái)就可以很靈活地進(jìn)行各種測(cè)試。測(cè)試的設(shè)計(jì)人員,可以根據(jù)不同參數(shù)先劃分好域,然后再選擇對(duì)應(yīng)的域進(jìn)行用戶(hù)分層,進(jìn)而設(shè)計(jì)實(shí)驗(yàn)。有趣的是域和層是可以互相重疊的,意思就是除了可以在域中劃分層,層中還可以劃分域,例如在UI層中再分成各占50%用戶(hù)的兩個(gè)域,再進(jìn)行實(shí)驗(yàn)。這個(gè)方式看上去很靈活,不過(guò)是需要十分大的用戶(hù)量來(lái)支持的。假如我只有5000的日活,做一個(gè)實(shí)驗(yàn)時(shí)將用戶(hù)對(duì)半分,如果再對(duì)其中一部分分層,可參與測(cè)試的用戶(hù)就非常有限了。所以說(shuō)這里重要的是方法,在實(shí)際使用過(guò)程中還是簡(jiǎn)潔點(diǎn),也便于使用者理解。
除此之外,谷歌論文中還引入了一個(gè)啟動(dòng)層(launch layer)的概念。
發(fā)布層與之前介紹的用于實(shí)驗(yàn)的層略有不同,根據(jù)谷歌論文描述:
(1)一個(gè)啟動(dòng)層處于默認(rèn)域中,例如啟動(dòng)層擁有這個(gè)層的全部流量
(2)啟動(dòng)層是參數(shù)的一個(gè)獨(dú)立分區(qū),例如一個(gè)參數(shù)最多只能同時(shí)在一個(gè)啟動(dòng)層和一個(gè)正常層中(在同一個(gè)域內(nèi))
(3)為了讓啟動(dòng)層和正常層配合重疊起作用,啟動(dòng)層中的實(shí)驗(yàn)有不同的含義。具體而言就是啟動(dòng)層為參數(shù)提供了另一種默認(rèn)值。換一句話說(shuō),如果正常的實(shí)驗(yàn)層中實(shí)驗(yàn)的方案參數(shù)沒(méi)有實(shí)驗(yàn)導(dǎo)致測(cè)試的參數(shù)修改覆蓋,此時(shí)啟動(dòng)層中的實(shí)驗(yàn)將使用指定的備用的參數(shù)值,使得啟動(dòng)層的實(shí)驗(yàn)就像一個(gè)普通的正常測(cè)試一樣。
如果正常的的實(shí)驗(yàn)層中的方案參數(shù)進(jìn)行了修改,此時(shí)啟動(dòng)層也會(huì)使用該參數(shù),而不是系統(tǒng)默認(rèn)值以及啟動(dòng)層實(shí)驗(yàn)中的值以上是谷歌論文中對(duì)于啟動(dòng)層的說(shuō)明。其實(shí)可以將其理解為有實(shí)驗(yàn)進(jìn)行時(shí),啟動(dòng)層會(huì)與其中一個(gè)保持一樣的測(cè)試方案,當(dāng)實(shí)驗(yàn)的測(cè)試參數(shù)修改,例如實(shí)驗(yàn)不同的下載引導(dǎo)按鈕樣式改變了,啟動(dòng)層中的樣式也會(huì)跟著改變。
我們可以將實(shí)驗(yàn)結(jié)果較好且理想的實(shí)驗(yàn)方案同步到啟動(dòng)層,將其當(dāng)作灰度測(cè)試,逐步提升參與實(shí)驗(yàn)的用戶(hù)量,當(dāng)確認(rèn)效果全量開(kāi)放以后刪除這個(gè)啟動(dòng)層。啟動(dòng)層可以當(dāng)作區(qū)別于AB實(shí)驗(yàn)這種對(duì)比測(cè)試性質(zhì)的一個(gè)驗(yàn)證性實(shí)驗(yàn)層,非常適用于灰度測(cè)試以及功能全量上線的流程。
(四)AA實(shí)驗(yàn)
前面談了用戶(hù)的分流,那么是不是就可以馬上使用這個(gè)流程進(jìn)行測(cè)試了呢?此時(shí)還不行。用戶(hù)分流時(shí)使用唯一標(biāo)識(shí)進(jìn)行哈希取模后,理論上說(shuō)所有用戶(hù)進(jìn)入不同實(shí)驗(yàn)與用戶(hù)組的概率是一樣的,即如果我進(jìn)行了一個(gè)實(shí)驗(yàn)分成實(shí)驗(yàn)組和對(duì)照組,這兩個(gè)組中的用戶(hù)性別之類(lèi)的分布應(yīng)該是均衡的,不會(huì)有顯著的區(qū)別。
如果用戶(hù)分流以后開(kāi)始進(jìn)行實(shí)驗(yàn)流程了,反饋的數(shù)據(jù)結(jié)果是否沒(méi)有問(wèn)題,例如埋點(diǎn)是否正常,上報(bào)的日志是否有誤進(jìn)而導(dǎo)致最終計(jì)算的數(shù)據(jù)是否有誤這些問(wèn)題,該如何進(jìn)行驗(yàn)證呢?
在AB實(shí)驗(yàn)前,可以通過(guò)AA實(shí)驗(yàn)來(lái)進(jìn)行功能的驗(yàn)證。
AA實(shí)驗(yàn)與AB實(shí)驗(yàn)非常類(lèi)似,只不過(guò)AA實(shí)驗(yàn)中并不需要將實(shí)驗(yàn)方案中的參數(shù)值分成不同方案進(jìn)行試驗(yàn),而是全部使用相同的參數(shù)值以及保證其他條件都一樣。在保證參與實(shí)驗(yàn)的參數(shù)與條件一致的情況下,如果最后出現(xiàn)了數(shù)據(jù)的明顯異常,則證明AB實(shí)驗(yàn)流程中某個(gè)環(huán)節(jié)存在問(wèn)題,是用戶(hù)分流、埋點(diǎn)還是其他問(wèn)題,此時(shí)就可以排查了。
03
—
實(shí)驗(yàn)的數(shù)據(jù)分析當(dāng)我進(jìn)行了一次實(shí)驗(yàn),目標(biāo)是測(cè)試一個(gè)手機(jī)應(yīng)用中,不同推廣文案導(dǎo)致的圖片點(diǎn)擊率哪個(gè)更好,我得到了其中某個(gè)圖片的人均點(diǎn)擊數(shù)量?jī)?yōu)于另外一個(gè)方案,是否就能將其當(dāng)作結(jié)論馬上上線使用呢?
如果用戶(hù)量足夠多,越接近用戶(hù)總量,那么這個(gè)結(jié)論可靠性就越高。但如果只是抽樣進(jìn)行了實(shí)驗(yàn),則結(jié)論未必可靠。這就涉及了實(shí)驗(yàn)中是否存在偶然性、隨機(jī)性導(dǎo)致了實(shí)驗(yàn)結(jié)果更好。為了確認(rèn)結(jié)論是否因隨機(jī)性導(dǎo)致,此時(shí)需要采用假設(shè)檢驗(yàn)的方案進(jìn)行驗(yàn)證。之所以要做這一步驗(yàn)證,是因?yàn)锳B實(shí)驗(yàn)是對(duì)用戶(hù)抽樣以后進(jìn)行測(cè)試,樣本是否能代表總體,樣本的數(shù)據(jù)結(jié)果是否有隨機(jī)性影響,都需要確認(rèn)以后才可以下結(jié)論。
由于假設(shè)檢驗(yàn)涉及諸多統(tǒng)計(jì)學(xué)知識(shí),所以這一部分僅結(jié)合AB實(shí)驗(yàn)進(jìn)行說(shuō)明,詳細(xì)的假設(shè)檢驗(yàn)方法以及驗(yàn)證方法朋友們可以學(xué)習(xí)概率論相關(guān)書(shū)籍的知識(shí)。
假設(shè)檢驗(yàn)的第一步,將你認(rèn)為的結(jié)論作為原假設(shè),與原假設(shè)對(duì)立的觀點(diǎn)作為備選假設(shè)。例如原假設(shè)為新的文案提升了廣告圖片的點(diǎn)擊率,備選假設(shè)則是沒(méi)有。
第二步則是選擇檢驗(yàn)統(tǒng)計(jì)量。此時(shí)需要了解實(shí)驗(yàn)評(píng)估指標(biāo)的概率分布。
對(duì)于人均點(diǎn)擊次數(shù)這樣的均值指標(biāo),需要使用t檢驗(yàn),此時(shí)數(shù)據(jù)屬于t分布。t檢驗(yàn)用于樣本含量小且總體標(biāo)準(zhǔn)差未知的正態(tài)分布,利用t分布推算差異產(chǎn)生的概率,進(jìn)而比較兩個(gè)平均值差異是否顯著。如果差異顯著,此時(shí)方可下結(jié)論說(shuō),新的廣告文案提升了點(diǎn)擊效果,否則只能視為一次偶然。
而對(duì)于留存率、點(diǎn)擊率這類(lèi)漏斗類(lèi)的指標(biāo),需要使用卡方檢驗(yàn),此時(shí)數(shù)據(jù)屬于卡方分布。卡方分布用于檢查實(shí)際結(jié)果與期望結(jié)果之間何時(shí)存在顯著差別,主要有兩個(gè)用途,一個(gè)是檢驗(yàn)擬擬合優(yōu)度,另一個(gè)則是檢驗(yàn)兩個(gè)變量的獨(dú)立性。卡方分布通過(guò)卡方這個(gè)檢驗(yàn)統(tǒng)計(jì)量來(lái)比較期望結(jié)果與實(shí)際結(jié)果之間的差別,進(jìn)而得出觀察頻數(shù)極值的發(fā)生概率。
兩種檢驗(yàn)方式有各自的檢驗(yàn)統(tǒng)計(jì)量,需要根據(jù)實(shí)驗(yàn)方案以及評(píng)估指標(biāo)進(jìn)行選擇。
第三步選擇確定拒絕域,拒絕域是拒絕原假設(shè)的檢驗(yàn)統(tǒng)計(jì)量所有數(shù)值的集合,此時(shí)先要定義顯著性水平,顯著性水平表示希望在觀察結(jié)果的不可能達(dá)到多大時(shí)拒絕原假設(shè),用α表示,常取5%或者1%,拒絕域的零界點(diǎn)用c標(biāo)識(shí),拒絕域則定義為小于顯著性水平的數(shù)值,即P(x<c)<α。
第四步為求p值,p值是某個(gè)小于或者等于拒絕域方向上的一個(gè)樣本數(shù)值的概率。p值可通過(guò)查詢(xún)概率表獲得。
第五步查看樣本結(jié)果是否位于拒絕域以?xún)?nèi),若p值小于顯著性水平,則位于拒絕域以?xún)?nèi)。
第六步做出決策,若樣本結(jié)果位于拒絕域以?xún)?nèi),則有充分證據(jù)拒絕原假設(shè),此時(shí)可以接受備選假設(shè)。
以上只是簡(jiǎn)單的介紹假設(shè)檢驗(yàn)的流程,其中設(shè)計(jì)的統(tǒng)計(jì)學(xué)知識(shí)與檢驗(yàn)方法,限于本文主題與篇幅便不再多言,有興趣的朋友可以通過(guò)概率論相關(guān)的書(shū)籍學(xué)習(xí)。最重要的是,AB實(shí)驗(yàn)得到數(shù)據(jù)后,并不是本次實(shí)驗(yàn)的結(jié)束,如果沒(méi)有客觀的分析來(lái)佐證結(jié)論,光靠表象數(shù)據(jù)來(lái)決策的AB實(shí)驗(yàn),其實(shí)也就是一次拍腦袋決策罷了。
04
—
關(guān)于ABTest的一些思考通過(guò)ABTest功能設(shè)計(jì)以及假設(shè)檢驗(yàn),似乎就完成了一次實(shí)驗(yàn)。不過(guò)對(duì)于實(shí)驗(yàn)依然有一些實(shí)際操作中的問(wèn)題值得關(guān)注。
(一)小樣本量與t檢驗(yàn)
在實(shí)際進(jìn)行ABTest的過(guò)程中,我們并不像谷歌一樣不愁流量,也許手上的產(chǎn)品就只有幾千甚至于幾百、幾十的用戶(hù)量,此時(shí)在用戶(hù)量較低,做完ABTest以后,是非常需要使用假設(shè)檢驗(yàn)來(lái)確認(rèn)結(jié)果的。
在學(xué)習(xí)假設(shè)檢驗(yàn)的過(guò)程中,在很多教科書(shū)介紹t檢驗(yàn)時(shí),當(dāng)樣本量小于30時(shí),則為小樣本使用t檢驗(yàn);超過(guò)30則為大樣本,此時(shí)則使用Z檢驗(yàn)。為什么是30?其實(shí)在做實(shí)驗(yàn)的時(shí)候不要拘泥于30這個(gè)數(shù)字,因?yàn)檫@就是一個(gè)曾經(jīng)科技還不發(fā)達(dá)時(shí)難以使用大數(shù)據(jù)樣本的年代,對(duì)于t分布劃分的一個(gè)參考數(shù)據(jù)。當(dāng)樣本量增加時(shí),t分布會(huì)越來(lái)越接近正態(tài)分布,此時(shí)做假設(shè)檢驗(yàn)時(shí)則可以直接使用正態(tài)分布代替t分布了。這就是30這個(gè)數(shù)字存在的意義,只不過(guò)是人為地劃定一個(gè)標(biāo)準(zhǔn),來(lái)定義t檢驗(yàn)的使用范圍。
通過(guò)t檢驗(yàn)中30這個(gè)樣本數(shù)據(jù),我想分享給大家的是千萬(wàn)不要陷入一個(gè)誤區(qū),大于30就是大樣本,此時(shí)因?yàn)闃颖緮?shù)據(jù)足夠大就不需要假設(shè)檢驗(yàn)來(lái)驗(yàn)證假設(shè)??陀^,是很難做到的。
(二)為什么不建議讓一個(gè)用戶(hù)進(jìn)入多個(gè)實(shí)驗(yàn)
在進(jìn)行ABTest的過(guò)程中,也許會(huì)同時(shí)進(jìn)行多個(gè)實(shí)驗(yàn),如果實(shí)驗(yàn)的參數(shù)基本沒(méi)有什么影響,理論上說(shuō)確實(shí)可以讓用戶(hù)同時(shí)參與多個(gè)實(shí)驗(yàn)。但是這件事是功能策劃者以及實(shí)驗(yàn)設(shè)計(jì)者難以保證的。
ABTest其實(shí)就是控制變量法,如果讓用戶(hù)進(jìn)入了多個(gè)實(shí)驗(yàn),此時(shí)就是增加了實(shí)驗(yàn)中的變量,為了嚴(yán)謹(jǐn)以及客觀的結(jié)論,用戶(hù)最好在同一時(shí)間只參與一個(gè)實(shí)驗(yàn),同時(shí)在實(shí)驗(yàn)期間內(nèi)只進(jìn)入成為一個(gè)用戶(hù)組的成員。
(三)關(guān)于數(shù)據(jù)時(shí)效性的關(guān)注
對(duì)于互聯(lián)網(wǎng)產(chǎn)品的ABTest而言,大多都會(huì)聚焦于以天為單位的核心行為與指標(biāo),因?yàn)槿祟?lèi)就是以天為單位進(jìn)行生活的。
我們常見(jiàn)的留存率、使用時(shí)長(zhǎng)以及訪問(wèn)次數(shù)這類(lèi)行為類(lèi)指標(biāo),都會(huì)因?yàn)橐归g休息白天使用而產(chǎn)生影響,此時(shí)對(duì)于產(chǎn)品數(shù)據(jù)的使用會(huì)根據(jù)人的習(xí)慣而體現(xiàn)規(guī)律。此時(shí)實(shí)驗(yàn)用天為單位的指標(biāo)作為實(shí)驗(yàn)評(píng)估指標(biāo)的粒度是完全沒(méi)問(wèn)題的。
但是也需要考慮更小粒度的數(shù)據(jù)來(lái)進(jìn)行實(shí)驗(yàn)。例如優(yōu)化廣告曝光點(diǎn)擊效果,此時(shí)以人均曝光次數(shù)、人均點(diǎn)擊次數(shù)為實(shí)驗(yàn)評(píng)估指標(biāo),通過(guò)小時(shí)粒度觀察早上10點(diǎn)到晚上10點(diǎn)這12個(gè)小時(shí)的數(shù)據(jù),并不會(huì)比以天為粒度的數(shù)據(jù)缺少客觀性,因?yàn)榭磸V告這個(gè)行為的頻率與習(xí)慣與24小時(shí)運(yùn)作的人類(lèi)生活習(xí)慣并沒(méi)有非常強(qiáng)的關(guān)聯(lián),如果可以快速的獲取數(shù)據(jù)就可以更加快速的決策。
同理在進(jìn)行廣告投放進(jìn)行用戶(hù)增長(zhǎng)時(shí),觀察一天引入的用戶(hù)數(shù)量的同時(shí),也可以觀察對(duì)比不同小時(shí)時(shí)間段的增長(zhǎng)效果,可以有效的分析投放的時(shí)間影響。
甚至基于需求都還可以考慮到分鐘粒度的數(shù)據(jù)。所以在進(jìn)行ABTest功能設(shè)計(jì)以及實(shí)驗(yàn)時(shí),對(duì)于數(shù)據(jù)粒度的需求和應(yīng)用也需要充分考慮。
(四)最后的碎碎念
行文下來(lái),不甚滿意。
我對(duì)于谷歌論文的理解并不是很深刻,也許還存在錯(cuò)誤,希望讀者多多賜教。本想把假設(shè)檢驗(yàn)也詳細(xì)說(shuō)明,但是這部分豐富的數(shù)理統(tǒng)計(jì)以及概率論知識(shí)讓這部分內(nèi)容的介紹,并不是一篇文章里的章節(jié)能說(shuō)清楚的,所以本文還是集中在ABTest這個(gè)主題上做分享介紹。
聽(tīng)聞字節(jié)跳動(dòng)與快手有非常強(qiáng)悍的ABTest平臺(tái),在撰文搜集資料期間也閱讀了一些公司分享的公開(kāi)文章,讓我對(duì)這后面的技術(shù)設(shè)計(jì)、產(chǎn)品功能設(shè)計(jì)更加著迷。
奈何沒(méi)有什么機(jī)會(huì)能參與實(shí)踐,是我的一大遺憾了。
總之不論文章好壞,希望能對(duì)ABtest感興趣的朋友們提供幫助。這本來(lái)是一篇寫(xiě)給我自己的總結(jié),今天也分享與你。
祝你生活愉快。
文:聽(tīng)雨少年 一個(gè)平凡的人,一個(gè)想變得有趣的人,一個(gè)愿意聆聽(tīng)故事的人。
本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/cgo/coo/76475.html