信息隨時(shí)隨刻在產(chǎn)生,它為世界指出兩條路:一條路布滿著那些故步自封、因循守舊企業(yè)的「尸體」;另一條則為擁有數(shù)據(jù)思維和掌握數(shù)據(jù)駕馭能力的企業(yè)鋪就康莊大道。
數(shù)據(jù)驅(qū)動(dòng)增長是我們持續(xù)關(guān)注討論的話題。神策數(shù)據(jù)創(chuàng)始人桑文鋒,以第一人稱視角,分享他如何在百度期間通過試驗(yàn)方式,提升「百度知道」項(xiàng)目核心指標(biāo)的實(shí)戰(zhàn)案例復(fù)盤,以及在百度內(nèi)部搭建數(shù)據(jù)平臺(tái)的階段始末。
桑文鋒,神策數(shù)據(jù)創(chuàng)始人兼 CEO,浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)碩士,在百度任職 8 年,從無到有構(gòu)建了百度用戶日志大數(shù)據(jù)平臺(tái),覆蓋數(shù)據(jù)收集、傳輸、元數(shù)據(jù)管理、作業(yè)流調(diào)度、海量數(shù)據(jù)查詢引擎及數(shù)據(jù)可視化等。
我如何將百度知道的核心指標(biāo)提升 7.5%
在我剛加入百度時(shí),「百度知道」已經(jīng)成立三年,采用「問答」的形式,每天有 9 萬多次提問和 25 萬多次回答。由于產(chǎn)品形態(tài)成熟、數(shù)據(jù)穩(wěn)定,所以優(yōu)化與提升空間非常狹小。
為了提升百度知道的核心指標(biāo)——回答量,我們開始研究用戶,并嘗試對(duì)不同用戶采用不同的策略。比如為他們展示不同的樣式和界面,以此來提升百度知道的產(chǎn)品黏性和價(jià)值。
在 2008 年初,我們開始嘗試通過待解決問題推薦的方式來提升回答量。
第一次,基于核心用戶。我們抽取了 35 萬個(gè)核心用戶群 —— 近 1個(gè)月回答問題的次數(shù)在 6 次之上的用戶群體 —— 為該用戶群體抽取了 17 萬多個(gè)興趣詞,并做了個(gè)性化推薦。
這次試驗(yàn)前后歷時(shí) 3 個(gè)多月,結(jié)果卻十分令人失望。我們發(fā)現(xiàn),用戶只是將回答問題的入口,從之前的分類頁面改到了個(gè)人中心,僅此而已,用戶回答量沒有發(fā)生變化。
對(duì)此,我們進(jìn)行了反思。一般來說產(chǎn)品的優(yōu)化與提升只有兩種思路,要么吸引更多新用戶,要么在單個(gè)用戶上「榨取」更多價(jià)值。既然老用戶被「榨取」得差不多了,不妨嘗試拉新用戶,進(jìn)而擴(kuò)大用戶規(guī)模。
因此,我們進(jìn)行了第二次嘗試,基于所有用戶做個(gè)性化推薦,而非僅針對(duì)核心用戶。
百度內(nèi)部當(dāng)時(shí)有一個(gè)項(xiàng)目叫「后羿」,起源于百度在 2008 年做個(gè)性化廣告的設(shè)想,即在用戶進(jìn)行搜索操作時(shí),基于用戶所搜索的關(guān)鍵詞和用戶行為記錄,為用戶推出相關(guān)廣告。
用戶通過瀏覽器進(jìn)行訪問的時(shí)候,都會(huì)種下一個(gè) Cookie,用戶在百度貼吧、百度知道、百度網(wǎng)頁所瀏覽的信息都能通過 Cookie 串到一起。這為后續(xù)進(jìn)行用戶行為分析打下了堅(jiān)實(shí)的根基。
于是,我們直接基于這些數(shù)據(jù),根據(jù)用戶的檢索和訪問頁面的標(biāo)題進(jìn)行興趣模型訓(xùn)練,抽取每個(gè)用戶權(quán)重最高的 5 個(gè)興趣詞,當(dāng)用戶訪問百度知道的詳情頁時(shí),我們基于每個(gè)用戶的興趣詞做實(shí)時(shí)搜索,將 7、8 個(gè)待解決的問題放到頁面右側(cè)。
這次嘗試效果非常好,新版上線后,百度知道的回答量提升了 7.5%,而我也因此獲得當(dāng)時(shí)百度個(gè)人的最高榮譽(yù) —— 「最佳百度人」獎(jiǎng)項(xiàng)。
接下來,我對(duì)百度知道又做了一些改良,比如讓推薦問題更具多樣性、按照用戶對(duì)「興趣點(diǎn)」發(fā)生的時(shí)間進(jìn)行權(quán)重調(diào)整等。但我也發(fā)現(xiàn)再往后提升就比較困難了,在這之后,我被安排到一個(gè)數(shù)據(jù)統(tǒng)計(jì)團(tuán)隊(duì)工作。
從零到一構(gòu)建百度大數(shù)據(jù)分析平臺(tái)
從 2008 年加入數(shù)據(jù)統(tǒng)計(jì)團(tuán)隊(duì)之后,我就開始專注在大數(shù)據(jù)分析平臺(tái)。當(dāng)時(shí)還沒有「大數(shù)據(jù)」的概念(大數(shù)據(jù)的概念大約在 2011 年出現(xiàn)),我在百度從零到一做這個(gè)事情的過程可以分成三個(gè)階段。
第一階段:2008 年,日志統(tǒng)計(jì)平臺(tái)
2008 年,百度流量已經(jīng)很大,尤其是百度知道、百度貼吧的數(shù)據(jù)量。前面提到,百度強(qiáng)調(diào)要用數(shù)據(jù)說話,這點(diǎn)我是非常認(rèn)可的。百度做產(chǎn)品、功能都要基于數(shù)據(jù)。但當(dāng)我們需要進(jìn)行流量統(tǒng)計(jì)和數(shù)據(jù)分析時(shí),就遇到了問題。
因?yàn)楦鳂I(yè)務(wù)都會(huì)有處理起來非常煩瑣的需求:要寫腳本。這導(dǎo)致整個(gè)需求響應(yīng)周期非常長,維護(hù)多個(gè)腳本十分麻煩,很容易出問題。當(dāng)時(shí)主要基于單機(jī)來計(jì)算,數(shù)據(jù)規(guī)模稍大的任務(wù),通常要跑好幾個(gè)小時(shí)。
為解決這個(gè)問題,我們當(dāng)時(shí)想到使用 Hadoop。
可以說 Hadoop 是整個(gè)大數(shù)據(jù)生態(tài)的根基,其作用就像 PC 領(lǐng)域的 Windows。通過它我們可以實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和分布式計(jì)算。當(dāng)然,我們現(xiàn)在所說的 Hadoop 生態(tài),還包括了數(shù)據(jù)傳輸、機(jī)器學(xué)習(xí)等其他組件。
當(dāng)時(shí) Hadoop 還只是測試版,使用起來非常不穩(wěn)定。我們?cè)谶M(jìn)行平臺(tái)設(shè)計(jì)時(shí),留有兩套計(jì)算接口:一套將數(shù)據(jù)提交到 Hadoop 平臺(tái),一套將數(shù)據(jù)提交到已有的單機(jī)服務(wù)。
Hadoop 到底能不能解決我們的日志統(tǒng)計(jì)問題,我們心里沒底。如果 Hadoop 滿足不了需求,我們就還是用單機(jī)做計(jì)算。
做一個(gè)平臺(tái)并不難,關(guān)鍵是怎么做一個(gè)好用的平臺(tái)。
我把常用的統(tǒng)計(jì)分析需求進(jìn)一步抽象,分別抽象為計(jì)數(shù)統(tǒng)計(jì)、去重統(tǒng)計(jì)和 Top N 統(tǒng)計(jì),并設(shè)計(jì)了一個(gè)界面,可以通過點(diǎn)選直接生成對(duì)應(yīng)的任務(wù),整個(gè)操作非常流暢。下圖當(dāng)時(shí)我們做的日志統(tǒng)計(jì)平臺(tái)架構(gòu)圖。
平臺(tái)發(fā)布后的效果讓我很震驚。首先是常規(guī)的需求開發(fā),從幾天降到了幾分鐘。其次是運(yùn)行周期,從單機(jī)計(jì)算變成一百多臺(tái)機(jī)器分布式計(jì)算,幾個(gè)小時(shí)的任務(wù)變成一兩分鐘。
經(jīng)過一年多的時(shí)間,整個(gè)公司都統(tǒng)一到這個(gè)平臺(tái)。這是我在百度做的最有成就感的一件事。
但是,基本統(tǒng)計(jì)需求得到解決后,很多新需求又被釋放出來。由于整個(gè)公司都在用,用于日志統(tǒng)計(jì)平臺(tái)的機(jī)器從 100 多臺(tái)增長到 5000 臺(tái),我們每個(gè)季度提預(yù)算的時(shí)候都要提 1000 臺(tái)機(jī)器,我心驚膽戰(zhàn),畢竟日志統(tǒng)計(jì)團(tuán)隊(duì)做的這些統(tǒng)計(jì)任務(wù)到底有多大價(jià)值,很難衡量。
后來我的團(tuán)隊(duì)從以計(jì)算為中心的思路,轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心,也就是構(gòu)建數(shù)據(jù)倉庫。
第二階段:2011 年,用戶數(shù)據(jù)倉庫
當(dāng)時(shí)百度已經(jīng)有幾十條業(yè)務(wù)線,這些業(yè)務(wù)線從源頭產(chǎn)生的數(shù)據(jù)質(zhì)量不高,而且推動(dòng)這些業(yè)務(wù)線進(jìn)行改造實(shí)在太難了。我們就采用折中的方式:保持源頭不動(dòng),將非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,使整個(gè)公司的業(yè)務(wù)線形成用戶數(shù)據(jù)倉庫。在這個(gè)基礎(chǔ)上,構(gòu)建不同業(yè)務(wù)的主題數(shù)據(jù),在此之上建立 BI 支持,這就形成了一個(gè)數(shù)據(jù)金字塔,如下圖所示。
這其中最核心的就是 User Data Warehouse 部分。我們當(dāng)時(shí)采用一種 Event(行為事件)模型,把用戶在百度進(jìn)行的任何一次行為記錄,都規(guī)范為一個(gè) Event。
Event 的屬性包括用戶 ID、時(shí)間、設(shè)備信息、行為特有的參數(shù)等。這樣,全百度的業(yè)務(wù)線都統(tǒng)一到一張表上,我們通過用戶 ID 把用戶在百度各個(gè)業(yè)務(wù)線的訪問行為全部抽出來,再這上面做數(shù)據(jù)挖掘、數(shù)據(jù)分析變得非常容易。
第三階段:2013 年,數(shù)據(jù)源管理
當(dāng)我們構(gòu)建整個(gè)數(shù)據(jù)金字塔,進(jìn)入新的數(shù)據(jù)階段后,又出現(xiàn)新的問題。雖然整個(gè)架子搭起來了,但是四處漏風(fēng)。
每次源頭的變更,我們都要進(jìn)行新的數(shù)據(jù)清洗和入庫工作,開發(fā)周期和后續(xù)的運(yùn)算周期非常長。業(yè)務(wù)線在上線之后不能馬上使用數(shù)據(jù),我們數(shù)據(jù)團(tuán)隊(duì)也疲于奔命。
痛定思痛,我們覺得問題的關(guān)鍵還是在數(shù)據(jù)源,要從源頭去解決這個(gè)問題。之后我們做的事情可以分成三塊:
- 第一塊是從數(shù)據(jù)源方面,將我們開發(fā)的內(nèi)部的結(jié)構(gòu)化日志打印庫和字段變更審核系統(tǒng),引入和 Google Protocol Buffer 作為結(jié)構(gòu)化的格式;
- 第二塊是開發(fā)新的實(shí)時(shí)傳輸系統(tǒng) Minos,將批量數(shù)據(jù)傳輸?shù)姆绞礁脑鞛閷?shí)時(shí)數(shù)據(jù)傳輸。
- 第三塊是查詢,對(duì)查詢引擎本身做了改造,改造的時(shí)候提出數(shù)據(jù)從源頭產(chǎn)生之后馬上就能通過查詢引擎分析的目標(biāo)。
在整個(gè)數(shù)據(jù)源管理的項(xiàng)目中,最難的不是系統(tǒng)組件的開發(fā),而是推動(dòng)各個(gè)業(yè)務(wù)線配合升級(jí)新的日志打印方式。
我當(dāng)時(shí)讓成員做了一個(gè) Web 版的中國地圖,把省份和大城市標(biāo)記為百度的核心業(yè)務(wù)線,每推動(dòng)一個(gè)地方完成改造就插上紅旗。經(jīng)過一年半的時(shí)間,這份地圖上都插滿了紅旗,這是我在百度做的第二有成就感的事情。
我相信,在不遠(yuǎn)的將來,不管你處在什么行業(yè)什么職位,數(shù)據(jù)分析都是你不得不具備的一種能力。為此我們還推出一本新書,名叫《數(shù)據(jù)驅(qū)動(dòng):從方法到實(shí)踐》。
本書提供給你一個(gè)極好的知識(shí)儲(chǔ)備的機(jī)會(huì),它有三點(diǎn)非常值得推薦:
- 第一,淺顯易懂地表達(dá)大數(shù)據(jù)的底層技術(shù),讓你能夠明白數(shù)據(jù)怎么產(chǎn)生,怎么加工,怎么存儲(chǔ)和運(yùn)算;
- 第二,拋開了晦澀難懂的各種模型和算法,將最普適的數(shù)據(jù)洞察和分析的方法呈現(xiàn)給你,讓你能迅速具備“閱讀數(shù)據(jù)”的能力;
- 第三,清晰地將電商、互聯(lián)網(wǎng)金融、零售、SaaS 軟件等行業(yè)鮮活的數(shù)據(jù)應(yīng)用案例呈現(xiàn)給你,讓你加深對(duì)數(shù)據(jù)應(yīng)用的理解。
相信大家閱讀此書后會(huì)更深入的了解,數(shù)據(jù)是如何驅(qū)動(dòng)企業(yè)發(fā)展與產(chǎn)品迭代的。
文:桑文鋒? ? 整理:范冰@增長官研究院
相關(guān)文章推薦:
《分析了近5萬首《全唐詩》,發(fā)現(xiàn)了這些有趣的秘密》
《從 0 到 1 搭建流量轉(zhuǎn)化分析體系》
《以紅酒電商為例,探討如何做到增長黑客》
更多精彩,關(guān)注:增長黑客(GrowthHK.cn)
增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長…
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/cgo/9638.html