為什么要做A/B實(shí)驗(yàn)?

A/B實(shí)驗(yàn)是最直觀且科學(xué)的一種評(píng)估策略因果效應(yīng)的手段,如果我們想數(shù)據(jù)賦能業(yè)務(wù),A/B 實(shí)驗(yàn)是我們的基本工具。我們需要多個(gè)流量組提出多個(gè)策略想法,然后通過(guò)比較不同組的指標(biāo)表現(xiàn)來(lái)選擇最合適的方案。做ab實(shí)驗(yàn)需要兩個(gè)條件為前提:同質(zhì)性和無(wú)偏性。

實(shí)驗(yàn)中的不同組應(yīng)該是同質(zhì)的,這意味著它們都相同或極其相似以確保結(jié)果可比性,這通常通過(guò)平臺(tái)工具隨機(jī)分流來(lái)實(shí)現(xiàn)。實(shí)驗(yàn)也應(yīng)該是公正的,核心指標(biāo)只受實(shí)驗(yàn)策略本身的直接影響。只有控制了全部干擾因素,才有可能接近Treatment和Result之間的因果關(guān)系。

為什么要做A/B實(shí)驗(yàn)?

為什么優(yōu)先做AB實(shí)驗(yàn),而不采用前后對(duì)比等方式?

相比前后對(duì)比等方式,AB實(shí)驗(yàn)有以下優(yōu)勢(shì):

同質(zhì) – 保證可比性

  • 可以有效控制其他干擾因素。舉例來(lái)說(shuō),如果我們采用前后對(duì)比方式來(lái)觀察某項(xiàng)策略上線對(duì)核心指標(biāo)的提升效果,我們無(wú)法有效控制前后兩個(gè)時(shí)段的其他外部環(huán)境變量是一致的,例如其他策略影響或者周期性波動(dòng)等。而AB實(shí)驗(yàn)是對(duì)比不同用戶群體在同一時(shí)間的數(shù)據(jù),可以有效控制這些外部的干擾因素。
  • 可以避免選擇性偏差。舉例來(lái)說(shuō),如果抖音上線了一個(gè)新的功能,我們通過(guò)對(duì)比”使用過(guò)這個(gè)功能的用戶”和”未使用過(guò)這個(gè)功能的用戶”之間的數(shù)據(jù),來(lái)論證使用這個(gè)功能可以提升用戶的消費(fèi)興趣這個(gè)觀點(diǎn),則會(huì)犯了選擇性偏差這一錯(cuò)誤。原因是,會(huì)使用新功能的用戶本身就是對(duì)抖音更感興趣、使用更高頻的用戶,如果將會(huì)使用新功能的用戶和未使用新功能的用戶進(jìn)行對(duì)比,衡量的其實(shí)是高頻用戶和低頻用戶之間的差異,而非新功能帶來(lái)的策略效果。而AB實(shí)驗(yàn)由于會(huì)進(jìn)行隨機(jī)分流,對(duì)比的是同質(zhì)的用戶群體,因此可以避免選擇性偏差帶來(lái)的影響。

無(wú)偏 – 保證效果復(fù)現(xiàn)

  • 通過(guò)實(shí)驗(yàn)設(shè)計(jì)構(gòu)建上線后的真實(shí)情況以保證 A/B 觀測(cè)到的指標(biāo)收益可以真實(shí)地作用在全量上線后,避免單一實(shí)驗(yàn)觀測(cè)到很好的效果,但上線后大盤指標(biāo)未達(dá)預(yù)期等矛盾的現(xiàn)象;
  • 即便有以上所有的措施對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行保證,我們?nèi)匀挥锌赡苡^測(cè)到虛假的效果。因此,在分析實(shí)驗(yàn)數(shù)據(jù)時(shí)我們需要加上置信與否的概念,通過(guò)統(tǒng)計(jì)概率模型保證實(shí)驗(yàn)收益在上線后也有較高的可復(fù)現(xiàn)性;
為什么要做A/B實(shí)驗(yàn)?

AB實(shí)驗(yàn)的步驟是什么

如果希望執(zhí)行一個(gè)嚴(yán)謹(jǐn)科學(xué)的AB實(shí)驗(yàn),我們通常需要遵循以下六步曲:

為什么要做A/B實(shí)驗(yàn)?

1、明確策略假設(shè)以及實(shí)驗(yàn)變量

AB實(shí)驗(yàn)的第一步就是明確實(shí)驗(yàn)需求產(chǎn)生的背景以及實(shí)驗(yàn)?zāi)繕?biāo),即我們希望借助實(shí)驗(yàn)驗(yàn)證什么猜想假設(shè),并且我們需要從用戶角度以及數(shù)據(jù)角度去論證假設(shè)的可能性。

在有了一個(gè)明確且有數(shù)據(jù)支持的假設(shè)后,我們需要考慮我們的策略評(píng)估是否可以利用AB實(shí)驗(yàn)進(jìn)行。盡管A/B實(shí)驗(yàn)是策略評(píng)估的常用方法之一,但其有著特定的適用場(chǎng)景,在以下幾個(gè)場(chǎng)景,AB實(shí)驗(yàn)是無(wú)法應(yīng)用或者成本過(guò)高的:

  • 策略已經(jīng)全量上線,需要后置的評(píng)估策略上線效果;
  • 某些策略的滲透率過(guò)低,使用實(shí)驗(yàn)方法很難達(dá)到置信的樣本量,所以不開實(shí)驗(yàn);
  • 策略本身不具備實(shí)行隨機(jī)AB實(shí)驗(yàn)的條件,比如一部分用戶無(wú)法使用某類功能而另一類用戶則可以,這一情況會(huì)引發(fā)輿情問(wèn)題;
  • 進(jìn)行AB實(shí)驗(yàn)成本較高,ROI較低的情況。比如從開發(fā)角度,維護(hù)多套代碼成本過(guò)高。

確定可以采用AB實(shí)驗(yàn)對(duì)策略效果進(jìn)行評(píng)估后,這時(shí)需要確定實(shí)驗(yàn)變量。通常一個(gè)好的實(shí)驗(yàn)變量需要滿足以下幾點(diǎn):

  • 實(shí)驗(yàn)變量需要根據(jù)假設(shè)創(chuàng)建。如果實(shí)驗(yàn)變量與假設(shè)無(wú)關(guān),那么實(shí)驗(yàn)就失去了意義;
  • 需要符合單一變量原則,這樣我們才能通過(guò)對(duì)比發(fā)現(xiàn)因果性,并根據(jù)實(shí)驗(yàn)結(jié)果量化正向和負(fù)向的影響程度。舉例來(lái)說(shuō),如果實(shí)驗(yàn)組的策略是A1+B1,對(duì)照組的策略是A2+B2,那么我們就無(wú)法得知實(shí)驗(yàn)組和對(duì)照組的指標(biāo)差異是由于A策略的改動(dòng)導(dǎo)致的,還是B策略的改動(dòng)導(dǎo)致的。

2、定義關(guān)鍵指標(biāo)

對(duì)一個(gè)業(yè)務(wù)來(lái)說(shuō),指標(biāo)多種多樣。哪些指標(biāo)需要重點(diǎn)關(guān)注,哪些是僅僅關(guān)注,哪些可以不關(guān)注。這個(gè)指標(biāo)的定義為了說(shuō)明業(yè)務(wù)的什么情況?指標(biāo)變化代表了什么?

從指標(biāo)重要程度來(lái)看,指標(biāo)可以分為主要指標(biāo)、次要指標(biāo)和護(hù)欄指標(biāo)三類:

  • 主要指標(biāo):需要優(yōu)化的目標(biāo)指標(biāo),決定這個(gè)實(shí)驗(yàn)的最終發(fā)展方向。這類指標(biāo)不需要多;
  • 次要指標(biāo):次要指標(biāo)可以從多個(gè)角度反映實(shí)驗(yàn)策略的效果,輔助進(jìn)行全量決策;
  • 護(hù)欄指標(biāo):用于輔助保障 A/B 測(cè)試的質(zhì)量,衡量 A/B 測(cè)試是否符合業(yè)務(wù)上的長(zhǎng)期目標(biāo),不會(huì)因?yàn)閮?yōu)化短期指標(biāo)而打亂長(zhǎng)期目標(biāo),防止發(fā)生“撿芝麻掉西瓜”的情況;

從指標(biāo)類型來(lái)看,可以分為平均、計(jì)數(shù)、求和、比例、留存等等;

3、確定實(shí)驗(yàn)分流方式

分流指的是我們直接將整體用戶切割為幾塊,用戶只能在一個(gè)實(shí)驗(yàn)中。AB實(shí)驗(yàn)的核心思想在于尋找兩組同質(zhì)且與大盤類似的小流量對(duì)象群體,通過(guò)觀察不同策略在這兩組同質(zhì)對(duì)象群體上的表現(xiàn),來(lái)預(yù)估策略應(yīng)用到全量后的效果。因此,如何合理的分流找到這樣的對(duì)象群體,則成為了影響AB實(shí)驗(yàn)評(píng)估準(zhǔn)確性的關(guān)鍵因素。

這里需要注意分流對(duì)象與隨機(jī)單元。

  • 分流對(duì)象是需要根據(jù)核心指標(biāo)來(lái)確定的根據(jù)什么來(lái)進(jìn)行分流,例如在短視頻場(chǎng)景,我們的策略是提升消費(fèi)指標(biāo)則分流對(duì)象就是用戶,而如果我們的策略是提升創(chuàng)作者活躍度則分流對(duì)象就是創(chuàng)作者;
  • 隨機(jī)單元就是AB實(shí)驗(yàn)要達(dá)到隨機(jī)的最小單元。例如一個(gè)網(wǎng)站中,最小分流單元可能是頁(yè)面級(jí)別、訪問(wèn)/會(huì)話級(jí)別,或者是用戶級(jí)別;

我們需要保證實(shí)驗(yàn)的分流是均勻的,一般實(shí)踐中,主要采取AA空跑的方式來(lái)驗(yàn)證:

  • AA空跑:針對(duì)選定的實(shí)驗(yàn)組和對(duì)照組,在上實(shí)驗(yàn)策略前先空跑一段時(shí)間。如果空跑期的樣本量和各項(xiàng)指標(biāo)均無(wú)顯著差異,則認(rèn)為實(shí)驗(yàn)分流是均勻的。這種方式的缺點(diǎn)是需要空跑期,會(huì)延長(zhǎng)實(shí)驗(yàn)所需時(shí)間。(審核員分流也可以前置在隨機(jī)分流時(shí)觀測(cè)兩組歷史數(shù)據(jù)的差異,差異大建議重新分流)
  • 回溯:在進(jìn)行實(shí)驗(yàn)后,將實(shí)驗(yàn)期的用戶選出來(lái),觀察這些用戶在實(shí)驗(yàn)前的表現(xiàn)。如果實(shí)驗(yàn)期用戶在實(shí)驗(yàn)前的表現(xiàn)無(wú)顯著差異,則認(rèn)為分流是均勻的。

4、樣本量測(cè)算

對(duì)于AB實(shí)驗(yàn)來(lái)說(shuō),在實(shí)驗(yàn)的第Ⅰ/Ⅱ類錯(cuò)誤率確定的前提下,實(shí)驗(yàn)?zāi)軝z測(cè)到的敏感度會(huì)與實(shí)驗(yàn)樣本量呈現(xiàn)負(fù)相關(guān)關(guān)系。也就是說(shuō),實(shí)驗(yàn)希望能檢測(cè)到的指標(biāo)精度越高,所需要的樣本量就越大,這樣可以使實(shí)驗(yàn)的敏感度大于我們預(yù)期的策略效果提升(MDE)。

因此,針對(duì)我們希望檢測(cè)到的預(yù)估效果MDE(通常由離線測(cè)算所得,如5%/10%等),我們需要計(jì)算實(shí)驗(yàn)所需要的最小樣本量。在給定錯(cuò)誤容錯(cuò)率下,最小樣本量由MDE、均值、方差共同決定。此處需要注意的是不同的指標(biāo)類型的方差計(jì)算方式是不同的,在實(shí)操中如果分流單元和分析單元不一致需要特殊處理。

為什么要做A/B實(shí)驗(yàn)?

5、進(jìn)入實(shí)驗(yàn)期

在進(jìn)入實(shí)驗(yàn)期后,需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行日常監(jiān)測(cè),日常監(jiān)測(cè)主要觀察以下幾方面:

  • 樣本量。在實(shí)驗(yàn)的過(guò)程中,應(yīng)當(dāng)日常觀測(cè)實(shí)驗(yàn)組和對(duì)照組的樣本量是否均勻。如果在進(jìn)入實(shí)驗(yàn)期后,實(shí)驗(yàn)組相比對(duì)照組的樣本量出現(xiàn)顯著差異,應(yīng)當(dāng)立即排查樣本量不平的原因(實(shí)驗(yàn)策略導(dǎo)致分流不均?實(shí)驗(yàn)策略埋點(diǎn)上報(bào)有問(wèn)題?…)
  • 各項(xiàng)實(shí)驗(yàn)指標(biāo)。如果在實(shí)驗(yàn)的過(guò)程中,實(shí)驗(yàn)組和對(duì)照組的指標(biāo)出現(xiàn)不符合預(yù)期的差距,也應(yīng)當(dāng)立即排查該現(xiàn)象出現(xiàn)的原因。
  • 核心護(hù)欄指標(biāo)。如果實(shí)驗(yàn)策略對(duì)實(shí)驗(yàn)組的核心護(hù)欄指標(biāo)產(chǎn)生嚴(yán)重的負(fù)向影響,如商業(yè)化廣告收入嚴(yán)重下降,也應(yīng)立即同步各方,決定是否停止實(shí)驗(yàn)。

6、實(shí)驗(yàn)結(jié)果分析

在實(shí)驗(yàn)周期結(jié)束后,需要根據(jù)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析。分析的框架可以根據(jù)實(shí)驗(yàn)指標(biāo),衡量對(duì)主要指標(biāo)、次要指標(biāo)、護(hù)欄指標(biāo)分別的影響,從而給出是否全量的建議。在分析實(shí)驗(yàn)數(shù)據(jù)時(shí),通常會(huì)有以下問(wèn)題:

實(shí)驗(yàn)指標(biāo)不顯著怎么辦?

可以看一下核心指標(biāo)的走勢(shì),如果有單調(diào)遞增的趨勢(shì),可以適當(dāng)延長(zhǎng)實(shí)驗(yàn)時(shí)間再看一下效果,大樣本是王道。其次判斷統(tǒng)計(jì)功效問(wèn)題,如果在進(jìn)行了樣本量計(jì)算后,實(shí)驗(yàn)指標(biāo)依然不顯著,則一方面需要通過(guò)觀察實(shí)驗(yàn)指標(biāo)的相對(duì)/絕對(duì)差值考慮是否實(shí)驗(yàn)策略真的沒有顯著影響,另一方面可以通過(guò)CUPED等方法減小指標(biāo)方差,或者更換監(jiān)測(cè)指標(biāo)剔除無(wú)滲透用戶以提高指標(biāo)檢測(cè)精度。

是否可以通過(guò)實(shí)驗(yàn)數(shù)據(jù),找到對(duì)實(shí)驗(yàn)策略敏感的用戶群體?

找敏感用戶群體可以通過(guò)維度拆解的方式,觀察實(shí)驗(yàn)策略對(duì)不同用戶群體的影響差異;也可以通過(guò)causal tree/uplift model的方式,從模型角度計(jì)算單個(gè)用戶群體/單個(gè)用戶的CATE,從而對(duì)實(shí)驗(yàn)效果的異質(zhì)性進(jìn)行探究。

關(guān)注的多個(gè)實(shí)驗(yàn)指標(biāo)有正有負(fù),如何判斷是否可推全?

首先,確認(rèn)哪邊的指標(biāo)是本實(shí)驗(yàn)更重要的指標(biāo),同時(shí)關(guān)注護(hù)欄指標(biāo)和北極星指標(biāo)的情況(若護(hù)欄指標(biāo)和北極星指標(biāo)顯著負(fù)向,拒絕推全)。其次,判斷正負(fù)指標(biāo)是否存在相關(guān)性或者是否存在兌換關(guān)系,綜合盤整體收益是如何。

如果實(shí)驗(yàn)效果不好,沒有推全,是否說(shuō)明這個(gè)實(shí)驗(yàn)沒有任何價(jià)值?

事實(shí)上在各大公司中,大部分的AB實(shí)驗(yàn)結(jié)果都是失敗的。如果某個(gè)實(shí)驗(yàn)沒有推全,我們依然可以通過(guò)實(shí)驗(yàn)數(shù)據(jù),去探尋本次實(shí)驗(yàn)失敗的原因,從而發(fā)現(xiàn)是否有新的可能的改進(jìn)點(diǎn)。根據(jù)新的改進(jìn)點(diǎn)繼續(xù)進(jìn)行實(shí)驗(yàn),最終進(jìn)行策略的快速迭代。

作者| 趙小洛 數(shù)據(jù)分析師

本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/quan/78119.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2022-09-07 14:25
下一篇 2022-09-07 16:09

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論
特別提示:登陸使用搜索/分類/最新內(nèi)容推送等功能?>>