A/B測試,那些查了很多資料才弄懂的問題|喵爪筆記

作為一只老產(chǎn)品貓,對于業(yè)務(wù)理解、用戶調(diào)研、流程梳理、交互設(shè)計等,不能算得心應(yīng)手,也已經(jīng)形成自己的工作方法,但對于A/B測試功能設(shè)計,懂得這些遠遠不夠。

A/B測試作為一個決策工具,知道如何科學(xué)地進行實驗很重要。假設(shè)檢驗是用樣本去推斷總體,并不能保證結(jié)論的正確性,我們要知道這個工具/模型的邊界在哪里,知道它的約束條件和可能存在的陷阱,在產(chǎn)品和數(shù)據(jù)模型設(shè)計中充分考慮這些因素,才能搭建出真正有價值的工具。

所以我記錄了產(chǎn)品研究過程中發(fā)現(xiàn)的,那些對于產(chǎn)品經(jīng)理來說晦澀難懂但又很重要的問題,作為學(xué)習(xí)總結(jié)分享。

01

什么是A/B測試

A/B測試是指把平臺的流量進行均勻分組,每組投放不同方案,然后根據(jù)數(shù)據(jù)指標判斷方案間是否存在顯著性差異,最終進行方案決策,比如從廣告圖的不同配色方案中決定哪個更能吸引用戶。

主要包括以下步驟:

定義問題——分析現(xiàn)狀,提出假設(shè)。

實驗設(shè)計——設(shè)計實驗方案、定義評估指標、估算樣本量、確定分流策略、設(shè)置投放時長。

實驗投放——抽樣投放,收集實驗數(shù)據(jù)。

分析決策——分析效果數(shù)據(jù),決定發(fā)布版本或調(diào)整后繼續(xù)迭代測試。

02

評估指標設(shè)計

AB測試評估指標,一般會包括兩類:

原則上應(yīng)該保持穩(wěn)定的的指標。對比實驗應(yīng)該在保持其它因素相同的情況下,觀察某一變量對目標的影響。因此,我們要求實驗組和對照組的穩(wěn)定性指標不應(yīng)存在顯著性差異,以防止其它因素誤導(dǎo)實驗的最終決策。比如不同的廣告圖設(shè)計應(yīng)該不影響廣告欄位的曝光量。

方案效果評估指標。這是衡量方案效果提升的指標,比如廣告點擊率。評估指標可以有好幾個,設(shè)計時要注意覆蓋用戶體驗指標、業(yè)務(wù)轉(zhuǎn)化指標等。

記住,指標的設(shè)計是主觀的,因此一切數(shù)據(jù)都帶有個人主觀偏見,設(shè)計指標時應(yīng)時刻注意指標與業(yè)務(wù)的關(guān)聯(lián),避免錯誤的指標導(dǎo)致的錯誤結(jié)論。

另外,統(tǒng)計上有顯著性差異,并不能代表優(yōu)化方案帶來的效果提升有業(yè)務(wù)價值。

統(tǒng)計學(xué)家Gene V. Glass說:“統(tǒng)計顯著性(statistical significance)是有關(guān)于結(jié)果最無聊的事情,你應(yīng)該根據(jù)量化來描述結(jié)果。

不光只是指出某種治療對人會有影響,還應(yīng)當(dāng)告訴人們這種影響究竟有多大。”

因此,我們可以在實驗前根據(jù)業(yè)務(wù)經(jīng)驗確定每個效果評估指標的效應(yīng)值(effect size),然后在假設(shè)檢驗滿足顯著性水平要求的情況下,進一步計算方案的效應(yīng)值,判斷是否在業(yè)務(wù)上有顯著影響。

常用科恩公式衡量效應(yīng)大小:

A/B測試,那些查了很多資料才弄懂的問題(一)

分子為分組樣本均數(shù)差,分母為合并標準差。比如,對于廣告效果實驗,我們想觀察的是用戶有沒有點擊這個廣告圖片,屬于兩點分布,取值是0或者1,所以樣本均值=(取值為1的樣本數(shù))/樣本總數(shù)=點擊率。

雙獨立樣本合并標準差計算公式如下:

A/B測試,那些查了很多資料才弄懂的問題(一)

一般要求方案在統(tǒng)計意義上有顯著性提升,且提升幅度在業(yè)務(wù)上有現(xiàn)實意義,才認為優(yōu)化方案有價值。

A/B測試,那些查了很多資料才弄懂的問題(一)

03

樣本量估計

假設(shè)檢驗是用樣本去推斷總體,因此得到的結(jié)論也不是絕對正確的,存在兩類可能的錯誤:

棄真錯誤。零假設(shè)實際是成立的,但因為抽取的樣本恰好讓觀察值落入了拒絕域,導(dǎo)致拒絕零假設(shè)。在假設(shè)檢驗中,這個概率不大于顯著性水平α,所以假設(shè)檢驗已經(jīng)充分控制了棄真錯誤的概率。

納偽錯誤。零假設(shè)實際是不成立的,但因為抽取的樣本恰好落入了接受域,導(dǎo)致認為零假設(shè)成立。假設(shè)檢驗的α越小,納偽錯誤的概率β就越高,因此假設(shè)檢驗并沒有對這個錯誤概率進行控制。

在α確定的情況下,為使β變小,可以增加樣本量,但樣本量太多又會浪費流量資源,所以我們需要科學(xué)地確定最小樣本量。

統(tǒng)計學(xué)上,在α、β、effect size確定的情況下,可以通過下面公式求出最小樣本量:

單尾實驗樣本量——

A/B測試,那些查了很多資料才弄懂的問題(一)

雙尾實驗樣本量——

A/B測試,那些查了很多資料才弄懂的問題(一)

n——每組所需樣本量,因為AB測試一般至少2組,所以實驗所需樣本量為2n

α——第一類錯誤概率,一般取0.05

β——第二類錯誤概率,一般取0.2

z——正態(tài)分布的分位數(shù)函數(shù)

σ——標準差

u1-u2——優(yōu)化方案對評估指標提升值

上面的都是理論,怎么推導(dǎo)的我也沒怎么看懂

實際應(yīng)用中,不同軟件、計算工具用的公式也不一樣,沒搞明白誰更準確,不過最終算出來的樣本量其實差不多。

所以,我覺得產(chǎn)品經(jīng)理嘛,知道公式怎么用或者用哪些工具預(yù)估樣本量就可以了。

一般我們處理的都是比例類指標假設(shè)檢驗問題,下面用兩個公式舉例。假設(shè)目前轉(zhuǎn)化率p1=30%,我們希望通過新方案轉(zhuǎn)化率提升0.5%,即(p2-p1)=0.5%.設(shè)定α為0.05,β為0.2 。

公式一

A/B測試,那些查了很多資料才弄懂的問題(一)

公式二

A/B測試,那些查了很多資料才弄懂的問題(一)

計算出來的n分別是104355,104357。網(wǎng)上很多文章這里用的都是雙尾的樣本量,個人覺得這里用單尾就行,如理解有誤,歡迎指正

實驗前,計算出每個評估指標需要的樣本量,取最大值進行測試即可。

工具上有在線計算器、R(power.prop.test)、python(statsmodels.stats.power)等。

04

測試執(zhí)行時長

AB測試的執(zhí)行時長會影響測試結(jié)論的準確性。比如,時間太短的話,可能參與測試的用戶主要是產(chǎn)品高頻用戶,或者進入實驗的樣本量不足而影響測試結(jié)論。另外,新奇效應(yīng)可能導(dǎo)致優(yōu)化方案在短期內(nèi)帶來好的效果,但長期影響不大;或者由于學(xué)習(xí)曲線的存在,當(dāng)我們進行了一些視覺或者交互調(diào)整時,用戶短時間內(nèi)未適應(yīng)。

AB測試時間長度并沒有一個統(tǒng)一的標準,主要看測試的內(nèi)容和目標用戶的使用習(xí)慣,要與用戶使用周期相匹配,覆蓋多個周期才能得到足夠數(shù)量且有代表性的樣本,同時要注意包含工作日和節(jié)假日。

—— 如果覺得文章還OK,請轉(zhuǎn)發(fā) ——

特別提示:關(guān)注本專欄,別錯過行業(yè)干貨!

PS:本司承接 小紅書 / 淘寶逛逛 / 抖音 / 百度系 / 知乎 / 微博/大眾點評 等 全網(wǎng)各平臺推廣;

咨詢微信:139 1053 2512 (同電話)

首席增長官CGO薦讀:

更多精彩,關(guān)注:增長黑客(GrowthHK.cn)

增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達成各種營銷目標的新型團隊角色。從單線思維者時常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實現(xiàn)低成本甚至零成本帶來的有效增長…

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/cgo/product/40592.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2021-06-15 12:16
下一篇 2021-06-15 14:44

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論