高清一级毛片一本到免费观看 ,久久久久青草线蕉亚洲,污视频黄色视频在线观看

A/B實(shí)驗(yàn)是最直觀且科學(xué)的一種評(píng)估策略因果效應(yīng)的手段，如果我們想數(shù)據(jù)賦能業(yè)務(wù)，A/B 實(shí)驗(yàn)是我們的基本工具。我們需要多個(gè)流量組提出多個(gè)策略想法，然后通過(guò)比較不同組的指標(biāo)表現(xiàn)來(lái)選擇最合適的方案。做ab實(shí)驗(yàn)需要兩個(gè)條件為前提：同質(zhì)性和無(wú)偏性。

實(shí)驗(yàn)中的不同組應(yīng)該是同質(zhì)的，這意味著它們都相同或極其相似以確保結(jié)果可比性，這通常通過(guò)平臺(tái)工具隨機(jī)分流來(lái)實(shí)現(xiàn)。實(shí)驗(yàn)也應(yīng)該是公正的，核心指標(biāo)只受實(shí)驗(yàn)策略本身的直接影響。只有控制了全部干擾因素，才有可能接近Treatment和Result之間的因果關(guān)系。

為什么優(yōu)先做AB實(shí)驗(yàn)，而不采用前后對(duì)比等方式？

相比前后對(duì)比等方式，AB實(shí)驗(yàn)有以下優(yōu)勢(shì)：

同質(zhì) – 保證可比性

可以有效控制其他干擾因素。舉例來(lái)說(shuō)，如果我們采用前后對(duì)比方式來(lái)觀察某項(xiàng)策略上線對(duì)核心指標(biāo)的提升效果，我們無(wú)法有效控制前后兩個(gè)時(shí)段的其他外部環(huán)境變量是一致的，例如其他策略影響或者周期性波動(dòng)等。而AB實(shí)驗(yàn)是對(duì)比不同用戶群體在同一時(shí)間的數(shù)據(jù)，可以有效控制這些外部的干擾因素。
可以避免選擇性偏差。舉例來(lái)說(shuō)，如果抖音上線了一個(gè)新的功能，我們通過(guò)對(duì)比”使用過(guò)這個(gè)功能的用戶”和”未使用過(guò)這個(gè)功能的用戶”之間的數(shù)據(jù)，來(lái)論證使用這個(gè)功能可以提升用戶的消費(fèi)興趣這個(gè)觀點(diǎn)，則會(huì)犯了選擇性偏差這一錯(cuò)誤。原因是，會(huì)使用新功能的用戶本身就是對(duì)抖音更感興趣、使用更高頻的用戶，如果將會(huì)使用新功能的用戶和未使用新功能的用戶進(jìn)行對(duì)比，衡量的其實(shí)是高頻用戶和低頻用戶之間的差異，而非新功能帶來(lái)的策略效果。而AB實(shí)驗(yàn)由于會(huì)進(jìn)行隨機(jī)分流，對(duì)比的是同質(zhì)的用戶群體，因此可以避免選擇性偏差帶來(lái)的影響。

無(wú)偏 – 保證效果復(fù)現(xiàn)

通過(guò)實(shí)驗(yàn)設(shè)計(jì)構(gòu)建上線后的真實(shí)情況以保證 A/B 觀測(cè)到的指標(biāo)收益可以真實(shí)地作用在全量上線后，避免單一實(shí)驗(yàn)觀測(cè)到很好的效果，但上線后大盤(pán)指標(biāo)未達(dá)預(yù)期等矛盾的現(xiàn)象；
即便有以上所有的措施對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行保證，我們?nèi)匀挥锌赡苡^測(cè)到虛假的效果。因此，在分析實(shí)驗(yàn)數(shù)據(jù)時(shí)我們需要加上置信與否的概念，通過(guò)統(tǒng)計(jì)概率模型保證實(shí)驗(yàn)收益在上線后也有較高的可復(fù)現(xiàn)性；

AB實(shí)驗(yàn)的步驟是什么

如果希望執(zhí)行一個(gè)嚴(yán)謹(jǐn)科學(xué)的AB實(shí)驗(yàn)，我們通常需要遵循以下六步曲：

1、明確策略假設(shè)以及實(shí)驗(yàn)變量

AB實(shí)驗(yàn)的第一步就是明確實(shí)驗(yàn)需求產(chǎn)生的背景以及實(shí)驗(yàn)?zāi)繕?biāo)，即我們希望借助實(shí)驗(yàn)驗(yàn)證什么猜想假設(shè)，并且我們需要從用戶角度以及數(shù)據(jù)角度去論證假設(shè)的可能性。

在有了一個(gè)明確且有數(shù)據(jù)支持的假設(shè)后，我們需要考慮我們的策略評(píng)估是否可以利用AB實(shí)驗(yàn)進(jìn)行。盡管A/B實(shí)驗(yàn)是策略評(píng)估的常用方法之一，但其有著特定的適用場(chǎng)景，在以下幾個(gè)場(chǎng)景，AB實(shí)驗(yàn)是無(wú)法應(yīng)用或者成本過(guò)高的：

策略已經(jīng)全量上線，需要后置的評(píng)估策略上線效果；
某些策略的滲透率過(guò)低，使用實(shí)驗(yàn)方法很難達(dá)到置信的樣本量，所以不開(kāi)實(shí)驗(yàn)；
策略本身不具備實(shí)行隨機(jī)AB實(shí)驗(yàn)的條件，比如一部分用戶無(wú)法使用某類功能而另一類用戶則可以，這一情況會(huì)引發(fā)輿情問(wèn)題；
進(jìn)行AB實(shí)驗(yàn)成本較高，ROI較低的情況。比如從開(kāi)發(fā)角度，維護(hù)多套代碼成本過(guò)高。

確定可以采用AB實(shí)驗(yàn)對(duì)策略效果進(jìn)行評(píng)估后，這時(shí)需要確定實(shí)驗(yàn)變量。通常一個(gè)好的實(shí)驗(yàn)變量需要滿足以下幾點(diǎn)：

實(shí)驗(yàn)變量需要根據(jù)假設(shè)創(chuàng)建。如果實(shí)驗(yàn)變量與假設(shè)無(wú)關(guān)，那么實(shí)驗(yàn)就失去了意義；
需要符合單一變量原則，這樣我們才能通過(guò)對(duì)比發(fā)現(xiàn)因果性，并根據(jù)實(shí)驗(yàn)結(jié)果量化正向和負(fù)向的影響程度。舉例來(lái)說(shuō)，如果實(shí)驗(yàn)組的策略是A1+B1，對(duì)照組的策略是A2+B2，那么我們就無(wú)法得知實(shí)驗(yàn)組和對(duì)照組的指標(biāo)差異是由于A策略的改動(dòng)導(dǎo)致的，還是B策略的改動(dòng)導(dǎo)致的。

2、定義關(guān)鍵指標(biāo)

對(duì)一個(gè)業(yè)務(wù)來(lái)說(shuō)，指標(biāo)多種多樣。哪些指標(biāo)需要重點(diǎn)關(guān)注，哪些是僅僅關(guān)注，哪些可以不關(guān)注。這個(gè)指標(biāo)的定義為了說(shuō)明業(yè)務(wù)的什么情況？指標(biāo)變化代表了什么？

從指標(biāo)重要程度來(lái)看，指標(biāo)可以分為主要指標(biāo)、次要指標(biāo)和護(hù)欄指標(biāo)三類：

主要指標(biāo)：需要優(yōu)化的目標(biāo)指標(biāo)，決定這個(gè)實(shí)驗(yàn)的最終發(fā)展方向。這類指標(biāo)不需要多；
次要指標(biāo)：次要指標(biāo)可以從多個(gè)角度反映實(shí)驗(yàn)策略的效果，輔助進(jìn)行全量決策；
護(hù)欄指標(biāo)：用于輔助保障 A/B 測(cè)試的質(zhì)量，衡量 A/B 測(cè)試是否符合業(yè)務(wù)上的長(zhǎng)期目標(biāo)，不會(huì)因?yàn)閮?yōu)化短期指標(biāo)而打亂長(zhǎng)期目標(biāo)，防止發(fā)生“撿芝麻掉西瓜”的情況；

從指標(biāo)類型來(lái)看，可以分為平均、計(jì)數(shù)、求和、比例、留存等等；

3、確定實(shí)驗(yàn)分流方式

分流指的是我們直接將整體用戶切割為幾塊，用戶只能在一個(gè)實(shí)驗(yàn)中。AB實(shí)驗(yàn)的核心思想在于尋找兩組同質(zhì)且與大盤(pán)類似的小流量對(duì)象群體，通過(guò)觀察不同策略在這兩組同質(zhì)對(duì)象群體上的表現(xiàn)，來(lái)預(yù)估策略應(yīng)用到全量后的效果。因此，如何合理的分流找到這樣的對(duì)象群體，則成為了影響AB實(shí)驗(yàn)評(píng)估準(zhǔn)確性的關(guān)鍵因素。

這里需要注意分流對(duì)象與隨機(jī)單元。

分流對(duì)象是需要根據(jù)核心指標(biāo)來(lái)確定的根據(jù)什么來(lái)進(jìn)行分流，例如在短視頻場(chǎng)景，我們的策略是提升消費(fèi)指標(biāo)則分流對(duì)象就是用戶，而如果我們的策略是提升創(chuàng)作者活躍度則分流對(duì)象就是創(chuàng)作者；
隨機(jī)單元就是AB實(shí)驗(yàn)要達(dá)到隨機(jī)的最小單元。例如一個(gè)網(wǎng)站中，最小分流單元可能是頁(yè)面級(jí)別、訪問(wèn)/會(huì)話級(jí)別，或者是用戶級(jí)別；

我們需要保證實(shí)驗(yàn)的分流是均勻的，一般實(shí)踐中，主要采取AA空跑的方式來(lái)驗(yàn)證：

AA空跑：針對(duì)選定的實(shí)驗(yàn)組和對(duì)照組，在上實(shí)驗(yàn)策略前先空跑一段時(shí)間。如果空跑期的樣本量和各項(xiàng)指標(biāo)均無(wú)顯著差異，則認(rèn)為實(shí)驗(yàn)分流是均勻的。這種方式的缺點(diǎn)是需要空跑期，會(huì)延長(zhǎng)實(shí)驗(yàn)所需時(shí)間。（審核員分流也可以前置在隨機(jī)分流時(shí)觀測(cè)兩組歷史數(shù)據(jù)的差異，差異大建議重新分流）
回溯：在進(jìn)行實(shí)驗(yàn)后，將實(shí)驗(yàn)期的用戶選出來(lái)，觀察這些用戶在實(shí)驗(yàn)前的表現(xiàn)。如果實(shí)驗(yàn)期用戶在實(shí)驗(yàn)前的表現(xiàn)無(wú)顯著差異，則認(rèn)為分流是均勻的。

4、樣本量測(cè)算

對(duì)于AB實(shí)驗(yàn)來(lái)說(shuō)，在實(shí)驗(yàn)的第Ⅰ/Ⅱ類錯(cuò)誤率確定的前提下，實(shí)驗(yàn)?zāi)軝z測(cè)到的敏感度會(huì)與實(shí)驗(yàn)樣本量呈現(xiàn)負(fù)相關(guān)關(guān)系。也就是說(shuō)，實(shí)驗(yàn)希望能檢測(cè)到的指標(biāo)精度越高，所需要的樣本量就越大，這樣可以使實(shí)驗(yàn)的敏感度大于我們預(yù)期的策略效果提升(MDE)。

因此，針對(duì)我們希望檢測(cè)到的預(yù)估效果MDE（通常由離線測(cè)算所得，如5%/10%等)，我們需要計(jì)算實(shí)驗(yàn)所需要的最小樣本量。在給定錯(cuò)誤容錯(cuò)率下，最小樣本量由MDE、均值、方差共同決定。此處需要注意的是不同的指標(biāo)類型的方差計(jì)算方式是不同的，在實(shí)操中如果分流單元和分析單元不一致需要特殊處理。

5、進(jìn)入實(shí)驗(yàn)期

在進(jìn)入實(shí)驗(yàn)期后，需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行日常監(jiān)測(cè)，日常監(jiān)測(cè)主要觀察以下幾方面：

樣本量。在實(shí)驗(yàn)的過(guò)程中，應(yīng)當(dāng)日常觀測(cè)實(shí)驗(yàn)組和對(duì)照組的樣本量是否均勻。如果在進(jìn)入實(shí)驗(yàn)期后，實(shí)驗(yàn)組相比對(duì)照組的樣本量出現(xiàn)顯著差異，應(yīng)當(dāng)立即排查樣本量不平的原因（實(shí)驗(yàn)策略導(dǎo)致分流不均？實(shí)驗(yàn)策略埋點(diǎn)上報(bào)有問(wèn)題？…）
各項(xiàng)實(shí)驗(yàn)指標(biāo)。如果在實(shí)驗(yàn)的過(guò)程中，實(shí)驗(yàn)組和對(duì)照組的指標(biāo)出現(xiàn)不符合預(yù)期的差距，也應(yīng)當(dāng)立即排查該現(xiàn)象出現(xiàn)的原因。
核心護(hù)欄指標(biāo)。如果實(shí)驗(yàn)策略對(duì)實(shí)驗(yàn)組的核心護(hù)欄指標(biāo)產(chǎn)生嚴(yán)重的負(fù)向影響，如商業(yè)化廣告收入嚴(yán)重下降，也應(yīng)立即同步各方，決定是否停止實(shí)驗(yàn)。

6、實(shí)驗(yàn)結(jié)果分析

在實(shí)驗(yàn)周期結(jié)束后，需要根據(jù)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析。分析的框架可以根據(jù)實(shí)驗(yàn)指標(biāo)，衡量對(duì)主要指標(biāo)、次要指標(biāo)、護(hù)欄指標(biāo)分別的影響，從而給出是否全量的建議。在分析實(shí)驗(yàn)數(shù)據(jù)時(shí)，通常會(huì)有以下問(wèn)題：

實(shí)驗(yàn)指標(biāo)不顯著怎么辦？

可以看一下核心指標(biāo)的走勢(shì)，如果有單調(diào)遞增的趨勢(shì)，可以適當(dāng)延長(zhǎng)實(shí)驗(yàn)時(shí)間再看一下效果，大樣本是王道。其次判斷統(tǒng)計(jì)功效問(wèn)題，如果在進(jìn)行了樣本量計(jì)算后，實(shí)驗(yàn)指標(biāo)依然不顯著，則一方面需要通過(guò)觀察實(shí)驗(yàn)指標(biāo)的相對(duì)/絕對(duì)差值考慮是否實(shí)驗(yàn)策略真的沒(méi)有顯著影響，另一方面可以通過(guò)CUPED等方法減小指標(biāo)方差，或者更換監(jiān)測(cè)指標(biāo)剔除無(wú)滲透用戶以提高指標(biāo)檢測(cè)精度。

是否可以通過(guò)實(shí)驗(yàn)數(shù)據(jù)，找到對(duì)實(shí)驗(yàn)策略敏感的用戶群體？

找敏感用戶群體可以通過(guò)維度拆解的方式，觀察實(shí)驗(yàn)策略對(duì)不同用戶群體的影響差異；也可以通過(guò)causal tree/uplift model的方式，從模型角度計(jì)算單個(gè)用戶群體/單個(gè)用戶的CATE，從而對(duì)實(shí)驗(yàn)效果的異質(zhì)性進(jìn)行探究。

關(guān)注的多個(gè)實(shí)驗(yàn)指標(biāo)有正有負(fù)，如何判斷是否可推全？

首先，確認(rèn)哪邊的指標(biāo)是本實(shí)驗(yàn)更重要的指標(biāo)，同時(shí)關(guān)注護(hù)欄指標(biāo)和北極星指標(biāo)的情況（若護(hù)欄指標(biāo)和北極星指標(biāo)顯著負(fù)向，拒絕推全）。其次，判斷正負(fù)指標(biāo)是否存在相關(guān)性或者是否存在兌換關(guān)系，綜合盤(pán)整體收益是如何。

如果實(shí)驗(yàn)效果不好，沒(méi)有推全，是否說(shuō)明這個(gè)實(shí)驗(yàn)沒(méi)有任何價(jià)值？

事實(shí)上在各大公司中，大部分的AB實(shí)驗(yàn)結(jié)果都是失敗的。如果某個(gè)實(shí)驗(yàn)沒(méi)有推全，我們依然可以通過(guò)實(shí)驗(yàn)數(shù)據(jù)，去探尋本次實(shí)驗(yàn)失敗的原因，從而發(fā)現(xiàn)是否有新的可能的改進(jìn)點(diǎn)。根據(jù)新的改進(jìn)點(diǎn)繼續(xù)進(jìn)行實(shí)驗(yàn)，最終進(jìn)行策略的快速迭代。

作者| 趙小洛數(shù)據(jù)分析師

本文經(jīng)授權(quán)發(fā)布，不代表增長(zhǎng)黑客立場(chǎng)，如若轉(zhuǎn)載，請(qǐng)注明出處：http://allfloridahomeinspectors.com/quan/78119.html

為什么要做A/B實(shí)驗(yàn)？

關(guān)于作者

kuko1028

發(fā)表回復(fù)

為什么要做A/B實(shí)驗(yàn)？

關(guān)于作者

kuko1028

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

阿L：聊一聊 AB測(cè)試平臺(tái)指標(biāo)配置

增長(zhǎng)黑客之道：了解真正的 A/B測(cè)試｜FEPulse

你所不知道的AB測(cè)試：起源，核心，模型

從“曹沖稱象”看設(shè)計(jì)增長(zhǎng)的核心在于量化，量化的核心在于分解

隨機(jī)測(cè)試和AB測(cè)試在風(fēng)控策略上的應(yīng)用

7步搭建AB測(cè)試閉環(huán)

發(fā)表回復(fù)

你所不知道的AB測(cè)試：起源，核心，模型