導(dǎo)讀:本次跟大家分享的是哈啰出行精準(zhǔn)營(yíng)銷場(chǎng)景的算法與實(shí)踐,包括以下幾大部分:
- 精準(zhǔn)營(yíng)銷的背景和價(jià)值
- 精準(zhǔn)營(yíng)銷框架
- 精準(zhǔn)營(yíng)銷算法能力
- 未來(lái)方向

01
精準(zhǔn)營(yíng)銷的背景和價(jià)值
首先和大家分享精準(zhǔn)營(yíng)銷的背景和價(jià)值。
1. 精準(zhǔn)營(yíng)銷的業(yè)務(wù)背景

哈啰由出行逐漸邁向服務(wù)電商,除了兩輪以外,還包括本地生活、酒店和電動(dòng)車等多種業(yè)務(wù)。需要通過(guò)精準(zhǔn)營(yíng)銷去實(shí)現(xiàn)各個(gè)新業(yè)務(wù)的用戶增長(zhǎng)。我們的業(yè)務(wù)目標(biāo)是通過(guò)用戶全生命周期精準(zhǔn)營(yíng)銷和精細(xì)化運(yùn)營(yíng),去提升用戶增長(zhǎng)的北極星目標(biāo)。
2. 精準(zhǔn)營(yíng)銷的場(chǎng)景和流程

按照用戶生命周期來(lái)劃分,精準(zhǔn)營(yíng)銷的場(chǎng)景主要分為三個(gè)方面:
- 拉新:主要是充分去挖掘一些潛在用戶。
- 活躍:主要是為了留存和促活目前已經(jīng)有的存量用戶。
- 挽留:主要是通過(guò)一些精準(zhǔn)營(yíng)銷的方式去召回一些流失用戶,最終去提升各個(gè)新業(yè)務(wù)的DAU。
流程包括三大部分:
- 首先是who,也就是目標(biāo)群組;
- 接下來(lái)what,投什么內(nèi)容;
- 之后是how,以什么樣的方式去投。
最后進(jìn)行精準(zhǔn)營(yíng)銷。
3. 精準(zhǔn)營(yíng)銷業(yè)務(wù)痛點(diǎn)

精準(zhǔn)營(yíng)銷業(yè)務(wù)主要包含以下四個(gè)痛點(diǎn):
- 尋找精準(zhǔn)人群的效率低:主要表現(xiàn)在是要憑運(yùn)營(yíng)人工大量的去測(cè)試。
- ROI 比較低:主要表現(xiàn)在營(yíng)銷成本很高,但是實(shí)際的收益卻是很低。
- 算法覆蓋面低,接入效率較低:主要表現(xiàn)在僅能夠覆蓋部分人群的部分場(chǎng)景,定制化是很嚴(yán)重的。
- 未形成體系化:主要表現(xiàn)在缺乏營(yíng)銷后的分析優(yōu)化,沒(méi)有形成一個(gè)精準(zhǔn)營(yíng)銷的閉環(huán)。
4. 精準(zhǔn)營(yíng)銷項(xiàng)目?jī)r(jià)值

精準(zhǔn)營(yíng)銷的項(xiàng)目?jī)r(jià)值主要體現(xiàn)在以下兩個(gè)方面:
- 提效:主要表現(xiàn)在兩點(diǎn),第一點(diǎn)是提升精準(zhǔn)營(yíng)銷的效率,主要表現(xiàn)在運(yùn)營(yíng)可以直接對(duì)算法的精準(zhǔn)人群包去進(jìn)行營(yíng)銷,不用去做前期的大量測(cè)試。第二點(diǎn),主要是提升轉(zhuǎn)化率,主要是通過(guò)精準(zhǔn)營(yíng)銷人群模型的搭建,去提升業(yè)務(wù)點(diǎn)擊率,預(yù)計(jì)提升CTR的幅度是20%。
- 增收:通過(guò)精準(zhǔn)營(yíng)銷可以提升業(yè)務(wù)的訂單量,預(yù)計(jì)可以提升20%。
02
精準(zhǔn)營(yíng)銷框架
在搭建精準(zhǔn)營(yíng)銷框架之前,需要深入了解業(yè)務(wù),找到哈啰精準(zhǔn)營(yíng)銷場(chǎng)景的特點(diǎn),并找到對(duì)應(yīng)的解法。
1. 精準(zhǔn)營(yíng)銷場(chǎng)景特點(diǎn)與解法

通過(guò)前期的數(shù)據(jù)分析和調(diào)研發(fā)現(xiàn),目前哈啰精準(zhǔn)營(yíng)銷的場(chǎng)景特點(diǎn)和我們針對(duì)性的解法主要有以下三方面:
- 精準(zhǔn)營(yíng)銷場(chǎng)景眾多,定制化重復(fù)開(kāi)發(fā):算法從模塊化逐步走向組件化,以及最終走向的平臺(tái)化。
- 高質(zhì)量人群需要繼續(xù)擴(kuò)量:采用目前業(yè)界比較先進(jìn)的半監(jiān)督框架Pu-Learning。
- 種子用戶過(guò)少,不足以算法建模:去通過(guò)一些無(wú)監(jiān)督的學(xué)習(xí)方法,進(jìn)行智能放量。
2. 精準(zhǔn)營(yíng)銷業(yè)務(wù)框架

精準(zhǔn)營(yíng)銷的業(yè)務(wù)框架主要分為以下三大模塊:
- 特征處理:主要分為離線特征處理和實(shí)時(shí)特征處理,離線的特征處理主要是通過(guò)埋點(diǎn)數(shù)據(jù)計(jì)算出的離線表提前存儲(chǔ)到機(jī)器本地。實(shí)時(shí)特征主要是通過(guò)Flink去計(jì)算一些實(shí)時(shí)特征,將其存儲(chǔ)在Redis中。
- 精準(zhǔn)營(yíng)銷:包括算法、用戶分析平臺(tái)和投放平臺(tái)模塊。首先是算法,算法主要分為兩個(gè)點(diǎn),第一個(gè)就是行業(yè)包,所謂的行業(yè)包就是在Pu-Learning框架下的LookAlike建模方法。第二點(diǎn)是智能放量,通過(guò)Graph Embedding無(wú)監(jiān)督學(xué)習(xí)的方式去得到用戶之間的embedding,之后通過(guò)向量引擎去計(jì)算用戶和用戶之間的相似度,得到每個(gè)用戶的top n相似用戶。其次是用戶分析平臺(tái)模塊,運(yùn)營(yíng)首先創(chuàng)建由原子標(biāo)簽組成的種子人群群組,然后選擇是否進(jìn)行智能放量,如若選擇,算法將會(huì)返回放量后的目標(biāo)群組。再次是投放平臺(tái),當(dāng)運(yùn)營(yíng)在進(jìn)行任務(wù)投放時(shí),首先需要?jiǎng)?chuàng)建任務(wù),然后選擇任務(wù)方案,這個(gè)方案就是用戶分析平臺(tái)返回的目標(biāo)群組,之后進(jìn)行任務(wù)的下發(fā),以及一些ab效果的回收。
- 算法場(chǎng)景:主要是業(yè)務(wù)拉新、業(yè)務(wù)促活和業(yè)務(wù)流失?;顒?dòng)方面,主要包含資源位的投放,Banner,站內(nèi)信,或者是push。
3. 精準(zhǔn)營(yíng)銷技術(shù)框架

接下來(lái)站在技術(shù)的視角去看精準(zhǔn)營(yíng)銷的框架。
運(yùn)營(yíng)在創(chuàng)建營(yíng)銷任務(wù)時(shí),首先選擇任務(wù)方案,這個(gè)方案背后是用戶的目標(biāo)群組,此群組由兩個(gè)部分構(gòu)成:
- 由行業(yè)包形成的群組:通過(guò)一些離線的樣本和特征,離線訓(xùn)練模型,將模型部署在DataMan,最后形成一個(gè)離線的預(yù)測(cè)任務(wù)。此任務(wù)將輸出的數(shù)據(jù)存儲(chǔ)在hive表,此后將表數(shù)據(jù)存儲(chǔ)在ES中,形成標(biāo)簽,最終構(gòu)成目標(biāo)群組。
- 智能放量服務(wù)放量后的目標(biāo)群組:業(yè)務(wù)前端收集行為埋點(diǎn)數(shù)據(jù),將其存儲(chǔ)在kafka中,然后通過(guò)flink實(shí)時(shí)計(jì)算,將計(jì)算出的實(shí)時(shí)特征,存儲(chǔ)在Redis,當(dāng)智能放量服務(wù)使用時(shí),直接從特征平臺(tái)取數(shù)據(jù)。
03
精準(zhǔn)營(yíng)銷算法能力
1. Pu-Learning框架下的LookAlike建模方法

什么是lookAlike?它不是一種特定的算法,而是一種思想,主要是根據(jù)種子用戶去尋找相似的拓展人群。
怎么做lookAlike?主要分為兩個(gè)方法:利用機(jī)器學(xué)習(xí)模型進(jìn)行隱式人群拓展;利用社交圖結(jié)構(gòu)的相似人群拓展。其中機(jī)器學(xué)習(xí)模型主要分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三類,在有監(jiān)督學(xué)習(xí),分類過(guò)程中,所有的訓(xùn)練數(shù)據(jù)都是有標(biāo)簽的;在半監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的一部分是有標(biāo)簽的,另一部分沒(méi)有標(biāo)簽,并且沒(méi)標(biāo)簽數(shù)據(jù)的量常常遠(yuǎn)大于有標(biāo)簽的量。而在無(wú)監(jiān)督學(xué)習(xí)中是沒(méi)有標(biāo)簽的。

在做lookAlike的時(shí)候遇到的挑戰(zhàn),以及對(duì)應(yīng)解決方案:
- 新業(yè)務(wù)用戶特征稀疏:稀疏主要表現(xiàn)在,哈啰目前以兩輪流量給新業(yè)務(wù)導(dǎo)流,并且兩輪的用戶群體基數(shù)是比較大的。但是新業(yè)務(wù)在起量時(shí),用戶往往是比較少的,所以會(huì)導(dǎo)致用戶行為特征的稀疏。對(duì)此,采用的解決方案是使用兩輪特征。
- 可用特征較少:對(duì)此解決方案是分析各業(yè)務(wù)間的共性,得到業(yè)務(wù)之間的交叉特征。
- 高質(zhì)量人群需要繼續(xù)擴(kuò)量:對(duì)此采用的方案是采用的是業(yè)界目前比較先進(jìn)的Pu-Learning框架。

面對(duì)多個(gè)業(yè)務(wù)多階段發(fā)展的時(shí)候,算法迭代分為以下兩個(gè)階段:
- 采用GBM有監(jiān)督學(xué)習(xí)模型。正樣本是新業(yè)務(wù)真實(shí)轉(zhuǎn)化的種子用戶,負(fù)樣本是從一些未轉(zhuǎn)化的用戶里面隨機(jī)去選取的一部分樣本。由于各個(gè)業(yè)務(wù)間存在差異,業(yè)務(wù)成果提升30%-130% 不等。
- 采用TSA半監(jiān)督模型。此模型主要分為兩步,第一步在未標(biāo)記樣本中識(shí)別出一些可靠的負(fù)樣本,第二步在正樣本和第一步獲得的可靠負(fù)樣本上進(jìn)行有監(jiān)督的學(xué)習(xí)。

傳統(tǒng)TSA建模流程如下:
- 第一步:將正樣本混入未標(biāo)注樣本中(間諜樣本),將他們統(tǒng)一視為負(fù)樣本進(jìn)行第一次的模型訓(xùn)練,訓(xùn)練完之后,主要是通過(guò)選擇正樣本的分?jǐn)?shù)范圍去選擇出一些可靠的負(fù)樣本。具體如上圖。
- 第二步:在正樣本和第一步得到的可靠負(fù)樣本上進(jìn)行監(jiān)督學(xué)習(xí)。

優(yōu)化的TAS建模流程如下:
- 對(duì)傳統(tǒng)TSA的第一步,采用EM模型。其中EM中為間諜樣本分布的最小值,為算法離線指標(biāo)recall很高時(shí)的概率。
- 對(duì)正樣本進(jìn)行數(shù)據(jù)增強(qiáng),即對(duì)正樣本進(jìn)行擴(kuò)充,擴(kuò)充的方法是將[?2,1]間的樣本也視為真正樣本,而[0,?1]間的樣本視為真負(fù)樣本,輸入到DeepFM模型進(jìn)行訓(xùn)練。

優(yōu)化TSA的業(yè)務(wù)成果:在保證就是ROI不降低的情況下,人群數(shù)量擴(kuò) 3-10 倍。
2. Graph Embedding在精準(zhǔn)營(yíng)銷上的工業(yè)級(jí)應(yīng)用

Graph Embedding,主要是基于用戶關(guān)系鏈去尋找相似的人群。分為兩個(gè)步驟,首先是獲取用戶Embedding,其次計(jì)算用戶間Embedding相似度。首先是Embedding的獲取,主要是利用某種無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法得到。
在做Graph Embedding時(shí)面對(duì)的挑戰(zhàn)和對(duì)應(yīng)方案:
- 種子人群少,如何擴(kuò)量:無(wú)監(jiān)督計(jì)算Embedding相似度。
- 如何構(gòu)圖:時(shí)空信息構(gòu)圖。
- 如何增強(qiáng)序的概念:APP點(diǎn)擊序列。

時(shí)空信息構(gòu)圖由點(diǎn)、邊構(gòu)成。點(diǎn)指的是用戶。邊指的是用戶與用戶在同一地塊、同一時(shí)間、同時(shí)發(fā)生的行為。其中用戶行為,主要包括用戶對(duì)單車的掃碼和關(guān)鎖等。權(quán)重是無(wú)向等權(quán),即當(dāng)用戶在一個(gè)地塊一個(gè)時(shí)間段同時(shí)發(fā)生某種行為時(shí),它們之間會(huì)有一條邊,并且此邊是等權(quán)重的。

然后采用DeepWalk得到用戶的Embedding。DeepWalk的原理是先在圖中隨機(jī)走出一個(gè)路徑,之后將路徑序列輸入到Skip-Gram里進(jìn)行訓(xùn)練,最后得到用戶的向量。

但是上述做法存在一定的不足,即只考慮了用戶和用戶之間的關(guān)系,沒(méi)有將用戶之間本身的一些特性加到模型中。因此后續(xù)第二個(gè)迭代版本采用的是EGES模型,其主要和以上做法有兩點(diǎn)不同:
- 第一點(diǎn):把用戶Side information加入到模型。
- 第二點(diǎn):不同類型用戶Side information設(shè)置不同權(quán)重。

在前面兩個(gè)算法迭代版本中,主要是兩輪的騎行行為,用戶間的關(guān)系以及用戶本身特性三大方面的特征,但是要考慮哈啰APP的所有用戶,所以第三個(gè)迭代部分是將一些APP的行為序列給加進(jìn)去。

工業(yè)級(jí)向量相似度的計(jì)算方法,采用向量引擎Milvus,它的主要優(yōu)點(diǎn)有兩個(gè):
- 第一:可達(dá)到近實(shí)時(shí)查詢的效果。
- 第二:集成了多個(gè)向量索引庫(kù),可在限定的時(shí)間內(nèi)給業(yè)務(wù)返回結(jié)果。

此次業(yè)務(wù)成果主要體現(xiàn)在兩個(gè)方面:
- 覆蓋度:全面平臺(tái)化,0成本支持智能放量人群包,并覆蓋60%場(chǎng)景。
- 提升度:ROI提升20+%。
04
未來(lái)方向

最后來(lái)講一下我們對(duì)精準(zhǔn)營(yíng)銷的未來(lái)規(guī)劃。
- 首先是圖的構(gòu)建,因?yàn)閿?shù)據(jù)是模型的上限,在Graph Embedding里,首先要做到的是把圖構(gòu)建好。后續(xù)我們有兩個(gè)規(guī)劃,用戶公域點(diǎn)擊行為和用戶私域點(diǎn)擊行為。
- 第二是智能放量閾值,目前選擇閾值主要是運(yùn)營(yíng),比如想擴(kuò)10 倍或1000倍,就是隨機(jī)靠人工去拍板。后面希望建立一個(gè)閾值推薦機(jī)制,可以通過(guò)背后的算法推薦ROI最高情況下的放量倍數(shù)。
今天的分享就到這里,謝謝大家。
本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/cgo/product/64327.html