增長(zhǎng)黑客之道:了解真正的 A/B測(cè)試|FEPulse

相信任何一位有互聯(lián)網(wǎng)公司工作經(jīng)驗(yàn)的同學(xué)對(duì)“A/B 測(cè)試”這個(gè)概念一定不陌生,簡(jiǎn)單理解就是將用戶隨機(jī)分成實(shí)驗(yàn)組和參照組,然后讓兩組用戶分別使用改版后和改版前的產(chǎn)品,最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析比較,如果實(shí)驗(yàn)組結(jié)果較好,則全量推廣改版后的產(chǎn)品,否則就維持舊版不動(dòng)。這樣理解完全沒(méi)毛病,但這只是 A/B 測(cè)試的最基本的概念,這篇文章通過(guò)在 To C 業(yè)務(wù)的實(shí)踐跟你聊聊你不知道的 A/B 測(cè)試。

1. 只有互聯(lián)網(wǎng)公司才會(huì)用 A/B 測(cè)試嗎?

如果你認(rèn)為只有互聯(lián)網(wǎng)公司才會(huì)用 A/B 測(cè)試,那就大錯(cuò)特錯(cuò)了。其實(shí)在我們的日常生活中,A/B 測(cè)試非常常見(jiàn),舉兩個(gè)例子讓大家感受一下。

1.1 物競(jìng)天擇,適者生存

最早使用 A/B 測(cè)試的是大自然,想象不到吧?我們知道物種的遺傳靠基因,但基因有兩種特性,一是忠實(shí)地復(fù)制自己以保持生物的基本特征,所以才會(huì)龍生龍,鳳生鳳,老鼠的兒子會(huì)打洞;另一個(gè)特性是基因突變,當(dāng)受到環(huán)境等因素影響時(shí),基因可能會(huì)發(fā)生突變。但誰(shuí)也不清楚這種突變是好還是壞,有可能基因突變導(dǎo)致了鐮刀型細(xì)胞貧血癥,這是一種紅細(xì)胞由正常的圓餅狀變成鐮刀型,導(dǎo)致紅細(xì)胞不能順利聚集在一起,從而造成貧血的一種惡性基因突變;但也有可能導(dǎo)致長(zhǎng)頸鹿的脖子越來(lái)越長(zhǎng),可以夠得著高處的樹(shù)葉,不至于在地面植物越來(lái)越稀少的環(huán)境下餓死。

這不正是大自然做的 A/B 測(cè)試實(shí)驗(yàn)嗎?那些復(fù)制自己保持生物基本特性的群體就是參照組,而那些基因突變的群體就是實(shí)驗(yàn)組,然后把兩者放入到真實(shí)的環(huán)境中測(cè)試,如果只有基因突變的群體活下來(lái),說(shuō)明實(shí)驗(yàn)組勝出,反之則實(shí)驗(yàn)組失敗。

1.2 A/B 測(cè)試助力總統(tǒng)競(jìng)選

2008 年,奧巴馬競(jìng)選美國(guó)總統(tǒng)成功,成為美國(guó)歷史上第一位黑人總統(tǒng),這背后縱然離不開(kāi)他的個(gè)人魅力,但他的競(jìng)選團(tuán)隊(duì)在背后發(fā)揮的作用也是舉足輕重的,其中的一個(gè)例子就是總統(tǒng)競(jìng)選官網(wǎng)的設(shè)計(jì)。

增長(zhǎng)黑客之道:了解真正的 A/B測(cè)試|FEPulse

競(jìng)選團(tuán)隊(duì)一共設(shè)計(jì)了四款競(jìng)選官網(wǎng)封面圖以及四款按鈕文案(如上圖所示),然后組合成 16 種官網(wǎng)樣式,給予每種樣式一定比例的流量,觀察一段時(shí)間后,從中選擇轉(zhuǎn)化率最高的那個(gè)方案。最終勝出的方案是“家庭封面 + LEARN MORE”組合,這個(gè)方案最終將總統(tǒng)競(jìng)選頁(yè)面的轉(zhuǎn)化率提高了 40.6%。

2. 什么是 A/B 測(cè)試

通過(guò)兩個(gè)例子,我們比較直觀地認(rèn)識(shí)了 A/B 測(cè)試,即將用戶隨機(jī)分成參照組和實(shí)驗(yàn)組,分別實(shí)驗(yàn),最終選擇效果較好的那一種方案。但如果深入研究,會(huì)發(fā)現(xiàn)另有一片天地。說(shuō)了這么久,我們看看到底什么是 A/B 測(cè)試以及它能夠做什么。

我們看下維基百科對(duì) A/B 測(cè)試的定義:

A/B 測(cè)試為一種隨機(jī)測(cè)試,將兩個(gè)不同的東西(即 A 和 B)進(jìn)行假設(shè)比較。該測(cè)試運(yùn)用統(tǒng)計(jì)學(xué)上的假設(shè)檢定和雙母體假設(shè)檢定。A/B 測(cè)試可以用來(lái)測(cè)試某一個(gè)變量?jī)蓚€(gè)不同版本的差異,一般是讓 A 和 B 只有該變量不同,再測(cè)試其他人對(duì)于 A 和 B 的反應(yīng)差異,再判斷 A 和 B 的方式何者較佳。

這個(gè)定義里提到了 3 點(diǎn),也是 A/B 測(cè)試的核心思想。

  • 兩個(gè)不同的方案:有對(duì)比才能辨別好壞,所以至少需要同時(shí)有兩個(gè)不同的方案在并行運(yùn)行;
  • 一個(gè)變量:就是中學(xué)里經(jīng)常提到的“控制變量法”,只有在單變量的情況下才能判定該變量的影響;
  • 優(yōu)良判斷規(guī)則:設(shè)置一定的衡量指標(biāo),比如 PV、點(diǎn)擊率等等,然后對(duì)比不同方案的指標(biāo)情況,確定孰優(yōu)孰劣。

那么哪些場(chǎng)景會(huì)用到 A/B 測(cè)試呢?從第 1 小節(jié)我們知道,A/B 測(cè)試的適用范圍實(shí)在廣泛,大到大自然的物種進(jìn)化,小到個(gè)人的行為選擇,我們把范圍收一收,僅限于互聯(lián)網(wǎng)公司內(nèi)。那又會(huì)有哪些場(chǎng)景呢?那又得從互聯(lián)網(wǎng)公司的各個(gè)方面來(lái)分析,比如廣告營(yíng)銷(xiāo),我們可以使用 A/B 測(cè)試來(lái)驗(yàn)證不同廣告策略的效果;比如算法優(yōu)化,我們可以使用 A/B 測(cè)試來(lái)比較不同模型或者參數(shù)對(duì)算法效果的影響;當(dāng)然最常見(jiàn)的還是產(chǎn)品的更新迭代,我們會(huì)使用 A/B 測(cè)試來(lái)驗(yàn)證新的改動(dòng)是否會(huì)帶動(dòng)數(shù)據(jù)的提升,那該如何做好 A/B 測(cè)試呢?

3. 如何做 A/B 測(cè)試

想要做好 A/B 測(cè)試,有六大要素,分別是實(shí)驗(yàn)基礎(chǔ)、安全穩(wěn)定、精確洞察、規(guī)模效率、特殊場(chǎng)景和實(shí)驗(yàn)文化,一一詳細(xì)地聊聊。

3.1 實(shí)驗(yàn)基礎(chǔ)

實(shí)驗(yàn)基礎(chǔ)可以保證 A/B 測(cè)試的基本功能可用,主要包含以下幾部分。

3.1.1數(shù)據(jù)上報(bào)與數(shù)據(jù)分析平臺(tái)

巧婦難為無(wú)米之炊,數(shù)據(jù)上報(bào)是實(shí)驗(yàn)的基礎(chǔ),如果沒(méi)有上報(bào)的數(shù)據(jù),那么將無(wú)法分析實(shí)驗(yàn)數(shù)據(jù),更別提比較實(shí)驗(yàn)的效果,所以我們需要業(yè)務(wù)進(jìn)行數(shù)據(jù)上報(bào)。我們會(huì)根據(jù)需要確定上報(bào)的數(shù)據(jù),PV/UV 是最基本的數(shù)據(jù),有的還會(huì)包括關(guān)鍵元素的點(diǎn)擊量、頁(yè)面停留時(shí)長(zhǎng)等等。

有了數(shù)據(jù)還不夠,還需要數(shù)據(jù)分析平臺(tái),讓我們可以在上面對(duì)數(shù)據(jù)進(jìn)行分析。

3.1.2 分流器

雖然我們知道 A/B 測(cè)試就是將用戶隨機(jī)分為參照組和實(shí)驗(yàn)組,然后對(duì)比實(shí)驗(yàn)效果,那問(wèn)題來(lái)了,參照組和實(shí)驗(yàn)組的用戶怎么確定?又如何保證隨機(jī)性?QQ 業(yè)務(wù)的用戶有個(gè)天然的用戶標(biāo)識(shí):QQ 號(hào),那么我們就會(huì)自然地想到給 QQ 號(hào)取 100 的余數(shù),余數(shù)相同的分為一組,那么就可以把所有的用戶分成 100 組,我們拿出其中一組做對(duì)照組,再拿出一組用戶做實(shí)驗(yàn)組。聽(tīng)起來(lái)是不是很完美?其實(shí)這里面還有一些問(wèn)題。首先,QQ 號(hào)有靚號(hào)和非靚號(hào)的區(qū)別,比如 6666 開(kāi)頭的用戶按照上面的規(guī)則都被分到了一組,靚號(hào)一般是需要購(gòu)買(mǎi)的,所以靚號(hào)用戶與普通用戶在活躍度等方面存在著差別,那就無(wú)法保證用戶的隨機(jī)性以及實(shí)驗(yàn)因素的單一性;其次,按照上面的規(guī)則,所有用戶最多被分成 100 組,那做了 100 次實(shí)驗(yàn)之后怎么辦?所以這種方式還會(huì)導(dǎo)致實(shí)驗(yàn)組很快被消耗完。有人說(shuō),可以把其中被用過(guò)的一組放置一段時(shí)間,消除前一個(gè)實(shí)驗(yàn)的影響,那就會(huì)導(dǎo)致第三個(gè)問(wèn)題:如果都用第 6 組作為實(shí)驗(yàn)組,即使前一次實(shí)驗(yàn)被放置了一段時(shí)間,那么你怎么就能確定數(shù)據(jù)變化是這次還是上次的實(shí)驗(yàn)造成的呢?所以為了解決這三個(gè)問(wèn)題,A/B 測(cè)試分流器必須要同時(shí)滿足三個(gè)條件:隨機(jī)性、無(wú)限性和互不干擾性。

隨機(jī)性

隨機(jī)性需要保證用戶的分組必須充分隨機(jī),不能造成具有相同屬性的用戶扎堆,比如 QQ 取余的方式就會(huì)導(dǎo)致靚號(hào)扎堆。那怎么保證隨機(jī)性呢?一種解決方案就是使用哈希函數(shù)。

無(wú)限性

所有的 QQ 號(hào)被哈希函數(shù)打散后分成若干組,無(wú)論分成多少組,總會(huì)被用完的,那如何實(shí)現(xiàn)無(wú)限分組呢?我們只需要對(duì)所有用戶重新洗牌分組即可。有兩種方式,我們可以換一種哈希函數(shù),但每次都要換一種哈希函數(shù)比較麻煩,另一種就比較簡(jiǎn)單,使用同一種哈希函數(shù),但每次洗牌時(shí)將放入不同的標(biāo)識(shí)作為 salt。

互不干擾性

將用戶重新打散的方式能否一定保證實(shí)驗(yàn)組之間互不干擾呢?我們洗牌的時(shí)候有時(shí)會(huì)發(fā)現(xiàn)牌沒(méi)洗完全,導(dǎo)致上一局某個(gè)人的很多牌在這一局中到了另一個(gè)人手里。那對(duì)全體用戶重新打散時(shí)會(huì)不會(huì)也出現(xiàn)這種情況:上一次的第 66 號(hào)組的大多數(shù)用戶被分到了這次的 88 號(hào)組里面?這種情況是可能的,如何避免呢?使用流量正交,即把上一次每一組的用戶平均分到新的分組中,比如上一次的 1 號(hào)組的所有用戶會(huì)被均勻打散到這次的所有組里面去。

3.1.3 A/B 測(cè)試配置系統(tǒng)

分流器可以將用戶均勻隨機(jī)分組,但具體的哪次產(chǎn)品改動(dòng)對(duì)應(yīng)哪組實(shí)驗(yàn)組,這需要專(zhuān)門(mén)的配置系統(tǒng)。

3.2 安全穩(wěn)定

有了實(shí)驗(yàn)基礎(chǔ)的幾個(gè)部分,我們便可以開(kāi)展 A/B 測(cè)試實(shí)驗(yàn)了,但線上的產(chǎn)品可不能僅僅能用就行,還要考慮安全穩(wěn)定。這里的安全穩(wěn)定不僅僅是 A/B 測(cè)試相關(guān)系統(tǒng)的安全穩(wěn)定,另一方面也指對(duì)測(cè)試的業(yè)務(wù)影響應(yīng)該盡量小,如果一次實(shí)驗(yàn)導(dǎo)致大盤(pán)總體的核心指標(biāo)下降 5%,那影響就非常大了。

那該如何保證 A/B 測(cè)試的安全穩(wěn)定呢?有幾個(gè)方面。

首先 A/B 測(cè)試系統(tǒng)應(yīng)該支持灰度遞增,比如一開(kāi)始僅拿 1% 的流量進(jìn)行實(shí)驗(yàn),在確定對(duì)大盤(pán)沒(méi)有負(fù)面影響或者有正面影響時(shí),在慢慢遞增灰度數(shù)量。如果一上來(lái)就拿 20% 甚至更多的量做實(shí)驗(yàn)的話,那很有可能會(huì)大盤(pán)數(shù)據(jù)造成影響。

其次我們需要監(jiān)控關(guān)鍵指標(biāo),我們需要設(shè)置一些關(guān)鍵指標(biāo)并且對(duì)這些指標(biāo)進(jìn)行監(jiān)控,比如給 DAU 設(shè)定一個(gè)閾值,當(dāng)實(shí)驗(yàn)時(shí)的閾值低于這個(gè)值時(shí),那就停止相關(guān)實(shí)驗(yàn),等待分析和處理后再重新實(shí)驗(yàn)。

最后需要對(duì) A/B 測(cè)試系統(tǒng)做一些限制,比如不允許灰度時(shí)直接放量到 100%。

3.3 精確洞察

在 A/B 測(cè)試系統(tǒng)功能可用并且安全穩(wěn)定的前提下,我們就需要考慮對(duì)實(shí)驗(yàn)數(shù)據(jù)的精確洞察。

首先需要進(jìn)行實(shí)驗(yàn)質(zhì)量測(cè)試,檢測(cè)數(shù)據(jù)是否可信,如果上報(bào)的數(shù)據(jù)不可信,那下面的分析比較都是徒勞的。

其次對(duì)于一些復(fù)雜場(chǎng)景的 A/B 測(cè)試來(lái)說(shuō),還需要做一些額外的工作進(jìn)行數(shù)據(jù)洞察,比如需要進(jìn)行用戶細(xì)分群組分析、分層抽樣、歸因分析等等,因?yàn)?To C 業(yè)務(wù)中主要針對(duì)單個(gè)改動(dòng)進(jìn)行 A/B 測(cè)試,所以這里不贅述復(fù)雜場(chǎng)景的數(shù)據(jù)洞察方法。

然后我們還要制定實(shí)驗(yàn)規(guī)范和審核機(jī)制,即使實(shí)驗(yàn)系統(tǒng)比較完善,但如果操作不規(guī)范也有可能導(dǎo)致實(shí)驗(yàn)故障。

3.4 規(guī)模效率

接下來(lái)我們要考慮如何提高規(guī)模效率,我們希望支持盡可能多的實(shí)驗(yàn)同時(shí)進(jìn)行,也希望用盡可能少的樣本得到更多的信息。

在“實(shí)驗(yàn)基礎(chǔ)”部分我們提到過(guò),A/B 實(shí)驗(yàn)的分流器應(yīng)該滿足隨機(jī)性、無(wú)限性和互不干擾性三個(gè)特性,其中的無(wú)限性指的是應(yīng)該支持對(duì)有限的用戶進(jìn)行無(wú)限的分組,以保證實(shí)驗(yàn)組充足可用。

如果實(shí)驗(yàn)之間互不影響,那只要實(shí)驗(yàn)組充足也就夠了。如果是多個(gè)實(shí)驗(yàn)并行并且互相之間有影響,或者一個(gè)實(shí)驗(yàn)里面有多個(gè)影響因素,那這種情況應(yīng)該怎么辦呢?業(yè)界像 Google、微軟對(duì)此都有一些研究,比如方差減少方法、多臂老虎機(jī)等等,這里也不再贅述。

3.5 特殊場(chǎng)景

正常情況下,如果 A/B 測(cè)試系統(tǒng)能夠包含以上四個(gè)部分,那么已經(jīng)非常完備了,但是還有一些特殊場(chǎng)景也會(huì)影響到 A/B 測(cè)試系統(tǒng)的設(shè)計(jì),這里簡(jiǎn)單提一下。

首先是網(wǎng)絡(luò)效應(yīng)。我們做 A/B 測(cè)試實(shí)驗(yàn)時(shí)默認(rèn)用戶與用戶之間是獨(dú)立,比如我所處的信息流業(yè)務(wù),絕大部分情況下,消費(fèi)信息流是用戶的獨(dú)立行為。但是還有一些像微信、QQ 這樣的社交業(yè)務(wù),用戶與用戶之間互相影響,參照組和實(shí)驗(yàn)組的用戶可能互相干擾,那么在設(shè)計(jì)實(shí)驗(yàn)時(shí)就要考慮這些。

其次是因果推斷。這經(jīng)常發(fā)生在無(wú)法隨機(jī)分配用戶的情況下,比如霧霾期間你出門(mén),你可能戴了口罩也有可能沒(méi)戴,戴或者不戴你只能選擇一個(gè)。這種情況下,用戶只有你一個(gè)人,再來(lái)一個(gè)人同時(shí)觀察行不行,不行,因?yàn)閮蓚€(gè)人的自身情況可能不一樣;那我今天和明天兩天對(duì)比行不行,也不行,今天和明天的霧霾情況可能會(huì)有差異。所以這類(lèi)問(wèn)題是有多個(gè)潛在結(jié)果,但你只能觀測(cè)到一種,其他情況只能推測(cè)。

還有增量模型。增量模型指的是利用機(jī)器學(xué)習(xí)和實(shí)驗(yàn)進(jìn)行有成本的營(yíng)銷(xiāo)策略,比如在預(yù)算固定的情況下如何最大化市場(chǎng)營(yíng)銷(xiāo)效果。

3.6 實(shí)驗(yàn)文化

如果說(shuō)前五個(gè)部分能夠代表一個(gè)團(tuán)隊(duì)的 A/B 測(cè)試的硬實(shí)力的話,那么實(shí)驗(yàn)文化就是軟實(shí)力了。

團(tuán)隊(duì)?wèi)?yīng)該營(yíng)造一個(gè)數(shù)據(jù)驅(qū)動(dòng)文化,知道什么是 A/B 測(cè)試實(shí)驗(yàn),什么時(shí)候該用 A/B 測(cè)試實(shí)驗(yàn)等等。另外團(tuán)隊(duì)成員之間還應(yīng)該經(jīng)?;ハ喾窒韺?shí)驗(yàn)案例和經(jīng)驗(yàn),交流趟過(guò)的坑、有沒(méi)有更好的實(shí)驗(yàn)方法,還可以交流一些行業(yè)前沿的成果等等。

4. 騰訊看點(diǎn)信息流的 A/B 測(cè)試實(shí)踐

隨著 2019 年 11 月份騰訊看點(diǎn)的成立,原本獨(dú)立的 QQ看點(diǎn)、QQ瀏覽器、看點(diǎn)快報(bào)進(jìn)行了整合,三端的更新迭代也趨于統(tǒng)一,功能研發(fā)也有序統(tǒng)一推進(jìn),其中一個(gè)便是短內(nèi)容的研發(fā)。

所謂短內(nèi)容,從字面理解就是內(nèi)容短小精悍的內(nèi)容。與傳統(tǒng)的圖文并茂、花樣復(fù)雜的信息流內(nèi)容相比,短內(nèi)容具有低門(mén)檻、快消費(fèi)、易傳播等特點(diǎn)。騰訊看點(diǎn)的短內(nèi)容原本只有“搞笑”這一個(gè)品類(lèi),但隨著業(yè)務(wù)發(fā)展,發(fā)現(xiàn)越來(lái)越多的品類(lèi)可以以短內(nèi)容的形式展現(xiàn),所以產(chǎn)品提出“短內(nèi)容支持多品類(lèi)”需求。

在功能開(kāi)發(fā)完成后,下一步就是 A/B 測(cè)試環(huán)節(jié),驗(yàn)證用戶是否喜歡新功能以及新功能對(duì)關(guān)鍵數(shù)據(jù)的影響。理想的步驟應(yīng)該就是進(jìn)行 A/B 測(cè)試實(shí)驗(yàn),然后進(jìn)行實(shí)驗(yàn)分析,判斷實(shí)驗(yàn)好壞,如果新版本效果較好那么就選擇新版本,否則就維持舊版本,如圖所示。

增長(zhǎng)黑客之道:了解真正的 A/B測(cè)試|FEPulse

在上了多品類(lèi)類(lèi)型的短內(nèi)容后,A/B 測(cè)試的實(shí)驗(yàn)結(jié)果顯示實(shí)驗(yàn)組每天的時(shí)長(zhǎng)均比參照組高 15%!看到這樣的數(shù)據(jù),你的第一反應(yīng)是什么:新功能有更好的效果。如果你這樣想,那表示你的 A/B 測(cè)試的能力還處于剛?cè)腴T(mén)的水平。我們先別急著對(duì)比分析,而是要先檢查數(shù)據(jù)是否正確。一般會(huì)有什么原因?qū)е聰?shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題呢?

可能是分流系統(tǒng),比如哈希函數(shù)導(dǎo)致分流不隨機(jī);可能是實(shí)驗(yàn)人員操作不規(guī)范,導(dǎo)致實(shí)驗(yàn)組不僅受本次實(shí)驗(yàn)影響還收到其他實(shí)驗(yàn)的影響;可能是數(shù)據(jù)上報(bào)的問(wèn)題,因?yàn)閿?shù)據(jù)上報(bào)口徑不一致導(dǎo)致數(shù)據(jù)有差異;也有可能是用戶的問(wèn)題,比如大量的網(wǎng)絡(luò)爬蟲(chóng)導(dǎo)致數(shù)據(jù)異常。也就是說(shuō),A/B 測(cè)試的任何環(huán)境都有可能導(dǎo)致數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題,那有什么檢查數(shù)據(jù)質(zhì)量的方法嗎?

這里有兩個(gè)方法。一是 A/A 測(cè)試,通過(guò)給參照組和實(shí)驗(yàn)組配置一樣的功能,然后測(cè)試實(shí)驗(yàn)數(shù)據(jù)是否有顯著偏差,如果出現(xiàn)了顯著偏差,那說(shuō)明數(shù)據(jù)質(zhì)量肯定是有問(wèn)題的;二是樣本比例測(cè)試,實(shí)驗(yàn)組和參照組的樣本比例一般是 1:1,如果兩者顯著不等于 1:1,那說(shuō)明其中一個(gè)用戶組丟失了一部分用戶。

所以,當(dāng)我們發(fā)現(xiàn)實(shí)驗(yàn)組的用戶時(shí)長(zhǎng)每天比參照組都要高 15% 時(shí),我們對(duì)數(shù)據(jù)質(zhì)量進(jìn)行了檢測(cè),最終發(fā)現(xiàn)原來(lái)是兩者的數(shù)據(jù)上報(bào)口徑存在差異,一個(gè)是把內(nèi)容中線的曝光和隱藏的間隔作為時(shí)長(zhǎng),另一個(gè)則是把內(nèi)容卡片的曝光和隱藏的間隔作為時(shí)長(zhǎng)。

因此,當(dāng)進(jìn)行完 A/B 測(cè)試后,先不要急著分析下結(jié)論,一定得確保實(shí)驗(yàn)數(shù)據(jù)質(zhì)量。這時(shí),我們更新下 A/B 測(cè)試的流程。

增長(zhǎng)黑客之道:了解真正的 A/B測(cè)試|FEPulse

在確定了數(shù)據(jù)質(zhì)量可靠的情況下,下面就需要對(duì)數(shù)據(jù)進(jìn)行分析。根據(jù) A/B 測(cè)試的目的或者業(yè)務(wù)類(lèi)型的不同,用來(lái)衡量實(shí)驗(yàn)效果的核心指標(biāo)也不同。大部分互聯(lián)網(wǎng)產(chǎn)品會(huì)以用戶指標(biāo)為核心指標(biāo),比如用戶次留、PV、UV、點(diǎn)擊率、使用時(shí)長(zhǎng)等等;有的特殊的互聯(lián)網(wǎng)產(chǎn)品,比如電商網(wǎng)站會(huì)有一些其他的核心指標(biāo),比如下單率、評(píng)分、聯(lián)系客服量等等。

確定了實(shí)驗(yàn)的核心衡量指標(biāo),下面就可以進(jìn)行實(shí)驗(yàn)分析了。如果發(fā)現(xiàn)實(shí)驗(yàn)組的指標(biāo)比參照組有所提升,即使有很細(xì)微的提升,那也是算是一個(gè)比較令人欣慰的現(xiàn)象,代表新的改動(dòng)對(duì)數(shù)據(jù)增長(zhǎng)有正向效果。但一般情況下,比較少有實(shí)驗(yàn)?zāi)軌蚱鸬秸蛐Ч?,或者說(shuō)需要經(jīng)過(guò)多次的改動(dòng)后才能迎合用戶。那如果我們發(fā)現(xiàn)實(shí)驗(yàn)效果是負(fù)向的,那該如何做呢,真的就像流程圖里面畫(huà)的那樣“保持舊版本”嗎?

相信大部分人肯定不會(huì)立馬決定放棄新版本的,一方面新版本注入了大家的心血,直接舍棄太可惜,另一方面新版本代表未來(lái)趨勢(shì)。所以在發(fā)現(xiàn)用戶更喜歡老版本時(shí),我們應(yīng)該想辦法改進(jìn)新版本。這里介紹一種“用戶細(xì)分群組分析”的方法。

所謂用戶細(xì)分群組分析,就是根據(jù)用戶的使用產(chǎn)品的用途將用戶進(jìn)行分組,嘗試分析哪部分用戶受影響最大,找出并解決他們的痛點(diǎn)。具體方法如下:1)用戶分組:用聚類(lèi)模型根據(jù)用戶的用途將用戶分組;2)分組實(shí)驗(yàn)分析:分析哪些用戶組是整體指標(biāo)下降的來(lái)源;3)重點(diǎn)組內(nèi)分析:對(duì)重點(diǎn)用戶組,分析用戶的行為痛點(diǎn);4)定位痛點(diǎn):根據(jù)數(shù)據(jù)洞察,在產(chǎn)品設(shè)計(jì)層面下定位痛點(diǎn);5)改進(jìn)迭代:針對(duì)痛點(diǎn)進(jìn)行改進(jìn);6)重新實(shí)驗(yàn):開(kāi)展新一期的實(shí)驗(yàn),驗(yàn)證改進(jìn)是否用幫助。

在騰訊看點(diǎn)短內(nèi)容引進(jìn)“長(zhǎng)內(nèi)容”類(lèi)型的內(nèi)容時(shí),發(fā)現(xiàn)實(shí)驗(yàn)組的核心數(shù)據(jù)要比參照組少 0.6% 左右。這里先普及下背景,短內(nèi)容頁(yè)面的內(nèi)容大多是圖文,即上面是文字下面是圖片的組合,短內(nèi)容的文字一般不超過(guò) 6 行,而長(zhǎng)內(nèi)容的文字行數(shù)不限。在引進(jìn)“長(zhǎng)內(nèi)容”時(shí),我們默認(rèn)將文字展開(kāi),對(duì)于數(shù)據(jù)的下滑,我們認(rèn)為長(zhǎng)內(nèi)容的文字部分較長(zhǎng),會(huì)減少其他內(nèi)容的曝光,所以設(shè)置了一條規(guī)則,長(zhǎng)內(nèi)容的文字部分超過(guò) 6 行則折疊,然后重新上線實(shí)驗(yàn),果然數(shù)據(jù)又恢復(fù)了正常。

在實(shí)驗(yàn)分析階段,我們了解到當(dāng)新版本沒(méi)有滿足預(yù)期效果時(shí),我們需要對(duì)新版本進(jìn)行迭代更新。我們?cè)俅瓮晟?A/B 測(cè)試的流程:

增長(zhǎng)黑客之道:了解真正的 A/B測(cè)試|FEPulse

在確定發(fā)布新版本后,我們便開(kāi)始進(jìn)行灰度發(fā)布。發(fā)布前期的節(jié)奏一般較慢,從 1% 放量到 10% 需要半天左右的時(shí)間,放量過(guò)程中需要保持對(duì)數(shù)據(jù)的監(jiān)控,在確認(rèn)沒(méi)有問(wèn)題后,會(huì)很快地從 10% 放量到 99%,保留 1% 的用戶在參照組繼續(xù)觀察,一周后 100% 全量。

5. 小結(jié)

本文主要介紹了 To C 業(yè)務(wù)的 A/B 測(cè)試。一個(gè)完善的 A/B 測(cè)試需要包含六個(gè)要素:實(shí)驗(yàn)基礎(chǔ)、安全穩(wěn)定、精確洞察、規(guī)模效率、特殊場(chǎng)景和實(shí)驗(yàn)文化,每個(gè)要素依次遞進(jìn);然后以騰訊看點(diǎn)信息流業(yè)務(wù)舉例,完善了 A/B 測(cè)試的流程,A/B 測(cè)試不僅僅只是簡(jiǎn)單的對(duì)比實(shí)驗(yàn)組和參照組效果,還需要在完成實(shí)驗(yàn)后對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查,以及在實(shí)驗(yàn)分析后進(jìn)行分析決策,如果新版本的效果不理想還需要迭代改進(jìn)。

文源:FEPulse

特別提示:關(guān)注本專(zhuān)欄,別錯(cuò)過(guò)行業(yè)干貨!

PS:本司承接 小紅書(shū)推廣/抖音推廣/百度系推廣/知乎推廣:關(guān)鍵詞排名,創(chuàng)意短視頻,筆記種草,代寫(xiě)代發(fā)等;

咨詢微信:139 1053 2512 (同電話)

首席增長(zhǎng)官CGO薦讀:

更多精彩,關(guān)注:增長(zhǎng)黑客(GrowthHK.cn)

增長(zhǎng)黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來(lái)達(dá)成各種營(yíng)銷(xiāo)目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來(lái)的有效增長(zhǎng)…

本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/cgo/31220.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2020-05-18 22:53
下一篇 2020-05-20 00:45

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論