劉生:Martech 營銷自動化從 AB測試開始|直隸暗察使

如今的企業(yè)營銷決策變革主要在兩個維度發(fā)生改變:

左手是市場導(dǎo)向型戰(zhàn)略,即公司業(yè)務(wù)的市場增長邏輯、增長區(qū)間在什么地方,偏宏觀戰(zhàn)略;

右手是消費者行為研究,即如何深入理解消費者偏好、促進精準(zhǔn)營銷轉(zhuǎn)化,偏微觀策略。

今天,數(shù)據(jù)驅(qū)動決策的理念、思維、工具都在革新左右手的增長邏輯。重要的是如何決策,即大數(shù)據(jù)應(yīng)該走向決策數(shù)據(jù)。

過去企業(yè)經(jīng)常談以消費者為中心,很容易陷入空洞的口號,主要過于依賴員工的理解和執(zhí)行,造成落地難度很大。如今,大量數(shù)字化觸點的建設(shè),使多維度數(shù)據(jù)的可獲得性大大提高,帶來了全新的連接關(guān)系。無論是 Martech 的前鏈路還是后鏈路營銷,這種連接直接促成了互動行為的數(shù)字化,一個最終的消費決策被分割成無數(shù)微觀的階段性消費者行為切面。而 AB 測試,就是對消費者行為切片進行量化反饋的過程,扮演著大數(shù)據(jù)向決策數(shù)據(jù)轉(zhuǎn)變的催化劑作用,也是數(shù)據(jù)決策的重要抓手。

早在 2007 年,谷歌就建設(shè)了完善的 AB 測試系統(tǒng),隨后實驗的頻率越來越高。現(xiàn)在谷歌每個月都會上線幾百個 AB 測試,谷歌通過這些實驗可獲得全年 20%+ 的增長,增加超過 10 億美元的營收;Facebook 的 CEO 會親自參與眾多的 AB 測試;Linkedin 把 AB 測試作為產(chǎn)品研發(fā)上線過程中的基本流程;國內(nèi)大廠中,小米是 AB 測試的先驅(qū)者,從 2010 年 8 月 16 日首個 MIUI 內(nèi)測版發(fā)布,就開始進行系統(tǒng)性的 AB 測試,測出天使米粉對哪些功能更感興趣并進行快速迭代,每個員工、米粉都積極參與到 AB 測試,并形成了小米“參與感”的文化底蘊;另外,字節(jié)跳動也是 AB 測試的應(yīng)用典范,自 2012 年成立以來,字節(jié)跳動先后將 AB 測試應(yīng)用在產(chǎn)品命名、交互設(shè)計、推薦算法、用戶增長、廣告優(yōu)化和市場活動等方方面面的決策中。

AB 測試背后,折射出的是企業(yè)“讓數(shù)據(jù)和事實說話”、“避免拍腦門”的決策機制。AB 測試堪稱是成功企業(yè)留住客戶、進行商業(yè)變現(xiàn)的奠基石。

在消費品行業(yè),AB 測試同樣大有所為。比如元氣森林正是通過 AB 測試,在氣泡水這一細分賽道里突圍而出。首先進行口味測試,測出天使用戶對哪一種口味更感興趣;再進行電商測試,看看驗證型的產(chǎn)品在電商渠道的情況,是否達到規(guī)?;瘶?biāo)準(zhǔn),再去進行線下鋪開;在門店測試中,通過各種 IOT 設(shè)備監(jiān)測消費者的互動和購買行為,調(diào)整選品和陳列策略,最終完成整個 DTC 測試。這套測試方法,本質(zhì)上就是推動從大數(shù)據(jù)到?jīng)Q策數(shù)據(jù)轉(zhuǎn)變的過程。

很多人一直把 AB 測試?yán)斫獬梢粋€技術(shù)行為,其實它是一種業(yè)務(wù)經(jīng)營行為,而且是一種科學(xué)的經(jīng)營行為。 我們不應(yīng)當(dāng)僅僅拿它作為一個工具,而應(yīng)當(dāng)將它變成一種思維,一種方法論,一種企業(yè)經(jīng)營策略。

AB 測試有很大的作用,但能用好 AB 測試的公司并不多,本文立意是 Martech 領(lǐng)域中如何用 AB 測試?yán)斫馕⒂^層面的消費者偏好并進行精準(zhǔn)營銷自動化,以及闡釋 AB 測試的底層邏輯。

什么是 AB 測試?

簡單來說,當(dāng)企業(yè)面臨決策的不確定時,可以從整體流量中劃出小部分流量,隨機、均勻地分出兩組,分別由兩組用戶進行測試,最終通過實驗數(shù)據(jù)對比確定更優(yōu)方案。實證科學(xué)本質(zhì)就是一種 AB 測試,將實驗對象分組、比較、校準(zhǔn),形成可復(fù)制的經(jīng)驗。用胡適的話,“大膽假設(shè)、小心求證”,而今由于行為數(shù)據(jù)的豐富,AB 測試成為 Martech 的底牌之一。

從心理上,消費者往往不知道自己要什么,但從行為上,我們能知道他們的真實選擇偏好,企業(yè)也由此可以動態(tài)做出決策。通過 AB 測試,確保每個決策都為企業(yè)帶來正向收益,實現(xiàn)復(fù)利效應(yīng),帶動持續(xù)增長。

下邊解釋幾個 AB 測試相關(guān)術(shù)語:

流量互斥層

是為了讓多個實驗?zāi)軌虿⑿胁幌嗷ジ蓴_,且都獲得足夠的流量而研發(fā)的流量分層技術(shù)。把總體流量“復(fù)制”無數(shù)遍,形成無數(shù)個流量層,讓總體流量可以被無數(shù)次復(fù)用,從而提高實驗效率。各層之間的流量是正交的,你可以簡單理解為:在流量層選擇正確的前提下,流量經(jīng)過科學(xué)的分配,可以保證各實驗的結(jié)果不會受到其他層實驗的干擾。

流量正交實驗

每個獨立實驗為一層,一份流量穿越每層實驗時,都會隨機打散再重組,保證每層流量數(shù)量相同。舉個例子。假設(shè)現(xiàn)在有 2 個實驗。實驗 A(實驗組標(biāo)記為 A1,對照組標(biāo)記為 A2)分布于實驗層 1,取用該層 100% 的流量;實驗 B(實驗組標(biāo)記為 B1,對照組標(biāo)記為 B2)分布于實驗層 2,也取用該層100% 的流量。(要注意,實驗層 1和實驗層 2實際上是同一批用戶,實驗層 2 只是復(fù)用了實驗層 1 的流量)如果把 A1 組的流量分成 2 半,一份放進 B1 組,一份放進 B2 組;再把 A2 組的流量也分成2半,一份放進 B1 組,一份放進 B2 組。那么兩個實驗對于流量的調(diào)用就會如下圖所示。此時實驗 A 和實驗 B 之間,就形成了流量“正交”。

劉生:Martech 營銷自動化從 AB測試開始|直隸暗察使

我們可以發(fā)現(xiàn),因為 A1 組的一半流量在 B1 中,另一半流量在 B2 中,因此即使 A1 的策略會對實驗 B 產(chǎn)生影響,那么這種影響也均勻的分布在了實驗 B 的兩個組之中;在這種情況下,如果 B1 組的指標(biāo)上漲了,那么就可以排除 B1 是受 A1 影響才形成上漲。這就是流量正交存在的意義。

互斥實驗所有互斥實驗使用同一流量層用戶,但不共享用戶,如果一個用戶 / 設(shè)備命中了實驗 A,就不會命中互斥的其他實驗。

實驗指標(biāo)在開始一個實驗時,目的是對比對照組和實驗組的某個或者某幾個指標(biāo)。如,分析活動頁面主圖的點擊次數(shù)時,需要上報注冊的點擊事件,然后在 AB 測試中配置指標(biāo),即可看到實驗中及實驗后的指標(biāo)對比。

流量過濾對 AB 測試的目標(biāo)用戶增加一些限制條件,規(guī)定被實驗命中的用戶必須符合(或不符合)條件,比如針對某個用戶分群,某些用戶標(biāo)簽進行過濾,進而精準(zhǔn)找到測試目標(biāo)人群,這種限制條件即“流量過濾”。

白名單用戶在實驗正式開啟之前,通常需要先選擇幾名用戶進入測試階段,觀察實驗是否能夠正常獲取想要收集的數(shù)據(jù),或執(zhí)行流程是否符合預(yù)期。參與這一步的用戶被稱為“白名單用戶”。

置信區(qū)間置信度區(qū)間就是用來對一組實驗數(shù)據(jù)的結(jié)果進行估計的區(qū)間范圍。舉個例子,我們現(xiàn)在進行一個實驗來體現(xiàn)活動落地頁中的圖案改變對用戶購買率的影響,其中采用了新策略 B 的實驗組,購買率提升均值為 5%,置信區(qū)間為[1.5%,8.5%]。怎么理解此處的置信區(qū)間呢?由于在 AB 實驗中我們采取小流量抽樣的方式,樣本不能完全代表總體,那么實際上策略 B 如果在總體流量中生效,不見得會獲得 5% 的增長。如果我們設(shè)策略 B 在總體流量中推行所導(dǎo)致的真實增長率為?μ,那么在這個案例中,μ?的真實取值會在 [1.5%,8.5%] 之間。值得注意的是,μ 并不是 100% 概率落在這一區(qū)間里,在計算置信區(qū)間的過程中,我們會先取一個置信度,計算這一置信度下的置信區(qū)間是多少,AB 實驗中我們通常計算 95% 置信度下的置信區(qū)間?;氐絼倓偟睦?,我們就可以得知,μ 的真實取值有 95% 的可能落在 [1.5%,8.5%] 之間。

置信度在實際操作中,會遇到實驗結(jié)論顯示新策略有用,但實際上全量發(fā)布新策略后沒用。在統(tǒng)計學(xué)中稱為第一類錯誤,用顯著性水平 ( α ) 來描述實驗者范這一類錯誤的概率,置信度 = 1 – α,當(dāng)某個實驗結(jié)論顯著性指標(biāo) α < 5%,則置信度 > 95%,我們認(rèn)為這個實驗結(jié)論指標(biāo)大概率是可信的,系統(tǒng)有超過 95% 的信心確認(rèn)這個實驗結(jié)論是準(zhǔn)確的。在 AB 測試中,由于只能抽取流量做小樣本實驗。樣本流量的分布與總體流量不會完全一致,這就導(dǎo)致沒有一個實驗結(jié)果可以 100% 準(zhǔn)確,即使數(shù)據(jù)漲了,也可能僅僅由抽樣誤差造成,跟我們采取策略無關(guān)。在統(tǒng)計學(xué)中,置信度的存在就是為了描述實驗結(jié)果的可信度。

校驗靈敏度 ( MDE )實際操作中,會遇到新策略其實有效,但實驗沒能檢測出來。在統(tǒng)計學(xué)中稱為第二類錯誤,用 β 來描述實驗者范這一類錯誤的概率,統(tǒng)計功效 = 1 – β,統(tǒng)計功效表示如果新策略是有效的,有多大概率在實驗中能夠檢測出來。通常認(rèn)為統(tǒng)計功效 > 80% 為有效檢測 。通過設(shè)置 MDE,并與新策略的目標(biāo)提升率進行比較,來避免實驗在靈敏度不足的情況下被過早做出非顯著結(jié)論而結(jié)束,錯失有潛力的新策略。MDE 越小,意味著要求測試的靈敏度越高,所需的樣本量也越大。如果 MDE 設(shè)置過于精細,不僅會浪費不必要的流量,同時實際收益可能不能彌補新策略的研發(fā)和推廣成本。靈敏度不足,比如預(yù)期 1% 就達標(biāo),但實驗靈敏度僅能檢測 5% 及以上,會導(dǎo)致錯失有潛力的新策略。

AB 測試究竟有什么魅力,能夠為企業(yè)帶來如此大的收益,被各大互聯(lián)網(wǎng)公司視為法寶。一方面 AB 測試只用整體流量中的一小部分進行實驗,避免了一個錯誤決策對整個公司用戶的嚴(yán)重影響,另一方面又能夠依靠數(shù)據(jù)對每個特征進行影響力量化,使得我們可以以較小的風(fēng)險對新特性進行評估,積極試錯積累經(jīng)驗,并且這個方法有能力排除其他因素(如同時開發(fā)的其他特性、時間因素等)的干擾;除了“好’或者‘不好“,也能夠給出定量的結(jié)果。之所以 AB 測試能夠用小部分流量進行抽樣,并量化誤差,得到相對準(zhǔn)確的預(yù)測結(jié)論,根源在于中心極限定理的存在。中心極限定理定告訴我們,如果我們從總體流量里不斷抽取樣本,做無數(shù)次小流量實驗,這無數(shù)次抽樣所觀測到的均值,近似呈現(xiàn)正態(tài)分布。這個分布以真值(所有抽樣的平均值) 為中心,抽樣均值越接近真值,出現(xiàn)的概率就越大;反之均值越偏離真值,出現(xiàn)的概率就越小。

對于一個待投放的營銷素材而言,假設(shè)以消費者點擊率為實驗指標(biāo),只要小流量抽樣次數(shù)足夠多,可以得到一個正態(tài)分布圖,抽樣次數(shù)越多,正態(tài)分布均值越趨近于真實的消費者點擊率。開啟實驗前,哪一個版本表現(xiàn)更好往往是未知的。傳統(tǒng)的 AB 測試依賴于統(tǒng)計顯著性的經(jīng)典假設(shè)檢驗,為對照版本和實驗版本分配定額流量,一般不允許在實驗期間變更每個版本的流量,因此該類實驗的缺陷比較明顯,即便已發(fā)現(xiàn)實驗版本明顯優(yōu)于對照版本,實驗期間我們還需要在對照版本上繼續(xù)花費流量直至實驗結(jié)束,以便獲得具有統(tǒng)計學(xué)意義的結(jié)論。但是在廣告投放、營銷活動推送等場景下,運營人員期望盡快獲得最大收益。此種場景就需要考慮如何在快速發(fā)現(xiàn)并收斂到高價值素材和不放棄對新素材的嘗試這兩者之間取得平衡( EE 問題),以追求收益的最大化。Martech 營銷自動化就是為了解決這類實驗場景,依托多臂老虎機?(MAB)強化學(xué)習(xí)手段,通過概率分布的思想找到最可能成為最優(yōu)解的實驗版本,快速加大分配流量,并實時計算實驗收益,達到收益最大化。

應(yīng)用舉例某公司準(zhǔn)備進行一次營銷活動,通過營銷自動化 AB 測試工具進行一次實驗,選出最佳素材,流程如下:

劉生:Martech 營銷自動化從 AB測試開始|直隸暗察使

1. 設(shè)計團隊準(zhǔn)備 3 個素材,交付到運營投放團隊;

2. 在營銷自動化平臺開啟 AB 測試,按照目標(biāo)人群標(biāo)簽過濾出 9000 人流量;配置實驗 1、實驗 2、實驗 3,分別對應(yīng)素材 1、素材 2、素材 3,初始流量比例各占 1/3;開啟互斥實驗;定義實驗指標(biāo)為用戶點擊率,記錄每個用戶看到素材后的點擊行為;

3. 實時獲取數(shù)據(jù),每隔 30 s 統(tǒng)計一次實驗效果;

4. 采用基于貝葉斯推斷的湯普森采樣,使用 Beta 分布對用戶點擊率的概率分布進行繪制,它有兩個正值參數(shù),α 和 β,決定了概率分布的形狀,兩個參數(shù)默認(rèn)值都為 1。

Beta 分布的均值是:α/(α+β)

Beta 分布的方差是:αβ/(α+β)2α+β+1)

使用 Python matlab 模擬不同 α 和 β 情況下 Beta 分布(如下圖),可以得到兩個重要信息:

1)α / (α + β) 越大,概率密度分布的中心位置越靠近 1,依據(jù)此概率分布產(chǎn)生的隨機數(shù)更大概率靠近 1,反之越靠近 0;

2)α + β 越大,分布越窄,集中度越高,這樣產(chǎn)生的隨機數(shù)更接近中心位置,從方差公式上能看出來。

劉生:Martech 營銷自動化從 AB測試開始|直隸暗察使

依據(jù)以上特性,結(jié)合本次實驗指標(biāo),定義 α 為素材被用戶點擊次數(shù),β 為素材未被用戶點擊素材次數(shù)。舉例來說,當(dāng)某個用戶看到素材 1 時,如果他點擊了素材,則 ?α += 1,否則,β + = 1。

經(jīng)過 30 s,進行實驗效果統(tǒng)計時,發(fā)現(xiàn)素材 1 的 α = 170,β = 82,素材 2 的 α = 82,β =170,素材 3 的 α = 30,β = 20,則 3 個素材點擊率的概率分布圖如下:

劉生:Martech 營銷自動化從 AB測試開始|直隸暗察使
劉生:Martech 營銷自動化從 AB測試開始|直隸暗察使

通過分布圖可以看到 素材 1 的點擊率平均值 0.674,素材 2 的點擊率平均值 0.325,素材 3 的點擊率平均值 0.6。可以看到在抽樣流量下素材 1 的效果明顯好于素材 2,但素材 3 由于命中的流量比較少,概率分布圖的方差很大,此時如果直接選擇素材 1 則有可能失去一次對更好素材的探索機會。這時湯普森采樣會從各素材的 Beta 分布中隨機獲取一個值,并選出隨機值最大的素材進行流量分配。比如素材 1 隨機得到 0.71,素材 2 隨機得到 0.286,素材 3 隨機得到 0.73,此時下一個用戶就會命中素材 3,并根據(jù)用戶點擊數(shù)據(jù)的真實反饋,重繪素材 3 的 Beta 分布。選擇湯普森采樣的好處就是平衡了 EE (?Exploration?& Exploitation?) 的問題,總體上點擊率越高,獲得的流量越大,同時兼顧了探索新素材的可能;

5. 具有一定初始流量后,各素材繪制的 Beta 分布圖逐漸產(chǎn)生差異,使用湯普森采樣,平均值靠近 1 的素材會更容易獲得新流量,而命中次數(shù)比較少的素材,因為集中度低,也有一定概率獲得流量。隨著真實流量的增加,最終收斂到某個最優(yōu)素材;6. 蒙特卡洛模擬是在已知各素材 Beta 分布的基礎(chǔ)上,多次從各素材隨機抽取,然后經(jīng)驗地計算出每一個素材的點擊率,此方法可以模擬海量流量,最大趨近于全量發(fā)布方案效果。當(dāng)真實流量放大到一定程度,與模擬收益相符最優(yōu)素材勝出,實驗收斂并結(jié)束。

總結(jié)

Martech 營銷自動化工具突出利用算法和大數(shù)據(jù)進行 AB 測試并自動化決策和執(zhí)行,取得收益最大化。這與傳統(tǒng) AB 測試最大區(qū)別是時間短、靈活度高,在廣告投放、營銷活動推送等場景下,運營人員可以嘗試更多營銷方案同時盡快收斂最大收益方案,這平衡了 EE (?Exploration?& Exploitation?) 問題。傳統(tǒng) AB 測試,長時間穩(wěn)定流量觀察數(shù)據(jù),得到具有統(tǒng)計意義的結(jié)論

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/cgo/market/45826.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2021-08-09 11:35
下一篇 2021-08-09 12:06

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論