從關(guān)鍵詞聚類的案例談?wù)剶?shù)據(jù)感

很多人想問能不能轉(zhuǎn)數(shù)據(jù)分析,以及如何學(xué)習(xí)數(shù)據(jù)分析。

那么以我的經(jīng)歷來說,我一直會(huì)強(qiáng)調(diào),數(shù)據(jù)分析一方面你可能認(rèn)為是技術(shù),是分析的手段和方法;但另一方面,數(shù)據(jù)感非常重要,有數(shù)據(jù)感的人,用一些簡(jiǎn)單粗糙的技術(shù),就可以挖掘出很多數(shù)據(jù)價(jià)值;但如果數(shù)據(jù)感不夠,那么,可能你技術(shù)很牛,會(huì)的算法和手段很多,但面對(duì)大量的有價(jià)值的數(shù)據(jù),依然可能會(huì)坐守金山而不自知。職場(chǎng)通病之 – 坐守金山不自知

最近,吳亦凡刷榜的新聞熱點(diǎn)很大,我在知識(shí)星球里吐槽了一句,我說當(dāng)年百度風(fēng)云榜的明星榜單,刷榜不要太夸張,現(xiàn)在可能情況好多了,刷榜的發(fā)現(xiàn)刷百度回報(bào)率太低,都去刷微博了。

然后我簡(jiǎn)單回顧了自己的一些工作,當(dāng)年我分析過百度的搜索日志,找到過一些凈化指數(shù)的方法,此外,還做過關(guān)鍵詞聚類的一些方案,有人就回復(fù)問我,這是怎么做的,我今天以這些為案例,來分享一下日常工作中,數(shù)據(jù)感是怎么體現(xiàn)的。

 

[title]1、百度指數(shù),如何防刷[/title]

 

百度指數(shù)來自于用戶搜索行為記錄的統(tǒng)計(jì),但這里的用戶搜索行為,是有一定疑問的,因?yàn)檫@里可能存在一些機(jī)器人,一些營銷公司,一些不那么合理的行為。

那么比較容易想到的防刷手段是什么呢,很多人應(yīng)該第一反應(yīng)是,看ip是否聚集對(duì)不對(duì),如果都是幾個(gè)固定ip出來的,肯定是刷出來的,但現(xiàn)在肉雞很多,代理服務(wù)器很多,撥號(hào)換一個(gè)ip成本也很低,那看什么,看客戶端類型是不是,如果客戶端類型分布很集中,說明搜索來自于同一批終端對(duì)不對(duì)。

但刷數(shù)據(jù)的方法,其實(shí)有很多種,比如,這不是教人學(xué)壞啊,如果你有一個(gè)訪問量高的網(wǎng)站或者app,或者找一個(gè)這樣的產(chǎn)品,塞點(diǎn)廣告費(fèi),然后你內(nèi)置一個(gè)js腳本刷搜索,用戶無感知的,這樣搜索就來自于完全真實(shí)的用戶環(huán)境,所有ip,客戶端類型,地區(qū)分布,時(shí)間分布,都是完全常態(tài)散布的對(duì)不對(duì),這時(shí)候你用以上的這些分布特征分析,一概無效了。

實(shí)際上很多防刷防作弊都是基于真實(shí)行為特征和刷數(shù)據(jù)的行為特征存在一些不一致,而刷數(shù)據(jù)的那些人,我告訴你們,數(shù)據(jù)思維都特別強(qiáng),他們會(huì)把各種特征偽造的跟真實(shí)行為非常接近,但當(dāng)時(shí)我有一招是刷數(shù)據(jù)的人想不到的。

你們執(zhí)行百度搜索的時(shí)候,可能很多人沒注意到,url里面有個(gè)參數(shù),是tn=…,這個(gè)參數(shù)是什么呢,是百度記錄搜索流量渠道的。當(dāng)時(shí)的背景還是pc為王的時(shí)候,還沒有移動(dòng)互聯(lián)網(wǎng),那時(shí)候其實(shí)百度自有流量,也就是用戶打開www.baidu.com進(jìn)行搜索的比例,其實(shí)最多也就50%,其他都是第三方渠道,比如各種導(dǎo)航網(wǎng)站,第三方瀏覽器,還有各種電信的dns劫持,這里的第三方渠道,從tn來講,也包括百度旗下的hao123。刷數(shù)據(jù)的人基本上沒注意過這個(gè),那么當(dāng)時(shí)我發(fā)現(xiàn),如果一個(gè)搜索詞的tn分布明顯異常,比如來自于百度自有渠道的超過95%,可以說明搜索量基本上是刷出來的,因?yàn)檎S脩羲阉餍袨椴皇沁@個(gè)分布。只靠這個(gè),其實(shí)就可以擠掉很多刷榜的數(shù)據(jù)水分。不過從公司角度講,刷榜帶來的虛假繁榮可能還不是壞事,就好比微博,你看那些明顯扯淡的明星數(shù)據(jù)作假,他們也是樂見其成。所以我當(dāng)時(shí)找工程師幫忙按照我的思路處理了數(shù)據(jù),搞了一份凈化版的數(shù)據(jù)做我的數(shù)據(jù)分析用,但百度指數(shù)那邊依然大量刷榜的領(lǐng)導(dǎo)們并未要求處理。

 

[title]2、百度關(guān)鍵詞如何聚類[/title]

 

百度關(guān)鍵詞聚類首先要看目標(biāo),為啥要說目標(biāo)呢。

其一,對(duì)百度業(yè)務(wù)收入的分析,我吹過這個(gè)牛,百度第一次知道自己不同行業(yè)收入分布的情況,是我做出來的,因?yàn)槲易隽松虡I(yè)詞聚類,數(shù)據(jù)分析后臺(tái)才提供了不同行業(yè)的收入分布,我做聚類之前,最開始是靠企業(yè)注冊(cè)的類型來統(tǒng)計(jì)的,但由于很多代理商偷懶,數(shù)據(jù)沒法看,超過50%的收入行業(yè)是其他,這怎么看。

當(dāng)時(shí)的技術(shù)思路也公開了,其實(shí)沒啥技術(shù)含量,但效果我覺得還行。

 

這里我曾經(jīng)提出過一個(gè)問題,在實(shí)現(xiàn)商業(yè)詞相關(guān)推薦的基礎(chǔ)上,如何實(shí)現(xiàn)有效的關(guān)鍵詞聚類呢?有評(píng)論猜對(duì)了,其實(shí)不復(fù)雜,找出每個(gè)行業(yè)的核心詞,基于關(guān)鍵詞與核心詞的關(guān)聯(lián)的延展,來實(shí)現(xiàn)自動(dòng)聚類,比如核心詞A,關(guān)聯(lián)詞B,然后C與B關(guān)聯(lián),這樣層級(jí)延展,并計(jì)算關(guān)聯(lián)衰減,如果一個(gè)詞和不同的行業(yè)核心詞都有關(guān)聯(lián),按照關(guān)聯(lián)度高的選擇。

實(shí)現(xiàn)不復(fù)雜,但實(shí)現(xiàn)效果好就需要體力活,什么體力活,就是看數(shù)據(jù),找壞案例,基于壞案例,優(yōu)化和調(diào)整行業(yè)核心詞。怎么找壞案例,針對(duì)不同行業(yè)類型,按關(guān)聯(lián)度從低到高排序,那些關(guān)聯(lián)度低的商業(yè)詞,很多都是分錯(cuò)類的,肉眼識(shí)別出來,看與核心詞的關(guān)聯(lián)路徑是怎樣的,以及用怎樣的核心詞可以讓它正確歸類。還有就是沒有被覆蓋到的關(guān)鍵詞,又有一定收入的,都列出來,看為什么覆蓋不到,能否從中找出幾個(gè)核心詞讓這些覆蓋到。

坦白說,技術(shù)好的人有更好的途徑做聚類,我不行,我技術(shù)不過關(guān),但我數(shù)據(jù)感好,我看數(shù)據(jù)津津有味,不累,這事是體力活,代碼跑一遍,肉眼看一遍,找出壞案例,調(diào)整核心詞,繼續(xù)跑,然后繼續(xù)看,就這樣,那么標(biāo)準(zhǔn)是什么呢?是收入的覆蓋率。標(biāo)準(zhǔn)也很重要,客戶提交的商業(yè)詞實(shí)在太多了,你說我標(biāo)準(zhǔn)是覆蓋80%的商業(yè)詞匯,那沒戲,我做不到。但覆蓋95%的收入,不難,覆蓋top 30%的商業(yè)詞就夠了,要做業(yè)務(wù)分析,所以這個(gè)95%已經(jīng)很不錯(cuò)了,至少比之前50%的其他要好太多吧,然后再慢慢優(yōu)化。很多時(shí)候呢,做數(shù)據(jù)分析的人,如果目標(biāo)感不對(duì),總是摳在技術(shù)指標(biāo)里出不來,那就會(huì)有太多不必要的技術(shù)開銷了,大公司還好說,值得,小公司肯定耗不起了。嗯,實(shí)話實(shí)說,開始百度規(guī)模還小,在數(shù)據(jù)分析方面不舍得投入人才,后來百度技術(shù)投入多了,我的那個(gè)粗糙版本早被人家專業(yè)技術(shù)人員用新方法取代了。

所以很多時(shí)候,我能做的事情不是因?yàn)槲壹夹g(shù)好,而是因?yàn)槲抑酪鍪裁?。以及如何用最低的技術(shù)開銷,去搞定這個(gè)事情。至于優(yōu)化和完善,可能需要更好的技術(shù)人員的配合。

這是商業(yè)詞聚類,其二,用戶搜索行為聚類

比如百度風(fēng)云榜有分類榜單,百度的分類榜單最早的更新是編輯完成的,但經(jīng)常有新的熱詞出現(xiàn),更新是不及時(shí)的,經(jīng)常有朋友來問,我們有個(gè)新游戲很火為什么沒有進(jìn)游戲榜,或者我們新發(fā)的小說現(xiàn)在指數(shù)特別好為什么小說榜沒有收錄。

那我后來就說,這事為什么不做成自動(dòng)的呢?一個(gè)新詞的指數(shù)飆升,我能知道它是什么類型的,比如“瑯琊榜”這個(gè)詞突然飆升了,系統(tǒng)能識(shí)別這是電視劇。

其實(shí)這事一點(diǎn)都不難,為什么呢,還是數(shù)據(jù)感,一個(gè)詞的熱度很高,那么只要不是刷出來的,一定會(huì)有很多相關(guān)的詞出現(xiàn),(咳咳,又是一個(gè)分析刷榜的技巧) 比如瑯琊榜這個(gè)詞指數(shù)很高,那么“電視劇 瑯琊榜”這個(gè)詞的指數(shù)一定不低。此外“瑯琊榜 在線看” 類似這樣的相關(guān)詞,都會(huì)有不少搜索量,這時(shí)候你就注意到,很多相關(guān)詞是有典型的行業(yè)特征詞根的,這個(gè)事就簡(jiǎn)單了,把所有行業(yè)特征詞根整理出來,然后遇到熱門詞出現(xiàn)的時(shí)候,先找到熱門詞的所有有搜索量的相關(guān)詞,再把這些相關(guān)詞分詞,包含特征詞根的按照詞根所屬行業(yè)聚合起來,按照搜索量計(jì)算關(guān)聯(lián)權(quán)值即可,有些詞本身存在多目標(biāo)特性,比如蘋果這個(gè)詞,但你基于蘋果的相關(guān)詞的詞根聚合,”電影 蘋果“,”蘋果手機(jī)“,“蘋果 栽種”,搜索指數(shù)一排序,你發(fā)現(xiàn),這個(gè)詞的用戶主要搜索目標(biāo)是通訊設(shè)備。少部分是電影和農(nóng)作物。

當(dāng)時(shí)沒有多想一步,其實(shí)可以做成深度學(xué)習(xí),基于已分類的熱門詞,對(duì)相關(guān)詞分詞,系統(tǒng)尋找規(guī)律,是可以找到一些行業(yè)特征詞根的,然后這個(gè)系統(tǒng)就可以成為自完善系統(tǒng)了,那時(shí)候還都是手動(dòng)找行業(yè)詞根。

以上這一段可能有點(diǎn)繞,其實(shí)慢慢思索一下,沒什么技術(shù)含量,都是簡(jiǎn)單的思路。

 

從關(guān)鍵詞聚類的案例談?wù)剶?shù)據(jù)感

 

那么想說明什么,如果一個(gè)人天天看搜索日志,看百度指數(shù),能不能產(chǎn)生如上的思路,這就是數(shù)據(jù)感,數(shù)據(jù)在這里,日志在這里,這是資源,然后你能想到什么,能找到什么可以做的事情,遇到問題怎么思考,別人問我,為什么百度熱榜沒收錄這個(gè)詞,一般人說,我去反饋一下,你想想,這事為什么不能做成自動(dòng)的,以及如何做成自動(dòng)的,數(shù)據(jù)感都藏在這里。

以上都是當(dāng)時(shí)隨手做的工作,當(dāng)時(shí)做的這種技術(shù)含量低的體力活很多,驅(qū)動(dòng)力主要是好奇心,還是那句話,如果你對(duì)數(shù)據(jù)不好奇,這碗飯可能你真的不適合。

我隨便說個(gè)例子,比如現(xiàn)在很多做運(yùn)營分析的都在提漏斗模型,當(dāng)然不同領(lǐng)域的一些具體數(shù)值定義有自己的標(biāo)準(zhǔn),但我話說回來,漏斗分析這個(gè)思路,如果你說,你做業(yè)務(wù)運(yùn)營,如果不看書,沒人教你,你就不知道有這個(gè)思路,你是領(lǐng)導(dǎo)手把手教,書上寫了你才知道這樣很有用,甚至還不知道究竟有多大用,那么只能證明你真的沒有數(shù)據(jù)感。這個(gè)東西,只要你做運(yùn)營,你就必須能意識(shí)到,并有意識(shí)去分析,當(dāng)然,書上和有經(jīng)驗(yàn)的人會(huì)給你一些業(yè)內(nèi)的標(biāo)準(zhǔn)和分析細(xì)節(jié)的輔導(dǎo),這個(gè)確實(shí)存在一定的經(jīng)驗(yàn)積累,但這個(gè)意識(shí),是不能靠教的。

 

信息安全這事,技術(shù)固然重要,但思維方式更重要,我說兩個(gè)案例,技術(shù)含量很低,但值得體會(huì)一下。

案例1,忘了有沒有提過,很多年前微軟有個(gè)本地漏洞是這樣的,用戶登錄本機(jī)windows系統(tǒng)的時(shí)候,可以打開輸入法,可以輸入中文用戶名。這合理吧。輸入法有個(gè)幫助按鈕,可以打開微軟系統(tǒng)幫助,這也合理吧,幫助系統(tǒng)有很大的菜單,輸入法之外也有很多其他的幫助,這到無所謂,但是某些幫助文件里存在外部鏈接,點(diǎn)擊鏈接會(huì)打開瀏覽器,那么打開瀏覽器后,你輸入c:\,就進(jìn)入硬盤瀏覽了。。。如果點(diǎn)擊cmd.exe就進(jìn)入dos,可以用命令行為所欲為了。

看這個(gè)流程,一點(diǎn)技術(shù)含量都沒有吧,說出來感覺,好像沒啥了不起吧,但這就是一個(gè)高危漏洞,第一個(gè)發(fā)現(xiàn)的人,就是黑客思維的典范。

 

案例2:說個(gè)最新案例

區(qū)塊鏈最近什么最火,賭場(chǎng)啊,前段時(shí)間以太坊上有個(gè)賭博程序,獎(jiǎng)金池積累到差不多價(jià)值2000萬人民幣的以太坊的樣子,被黑客拿走了,怎么拿走的呢,技術(shù)原理也不復(fù)雜。

玩法是這樣,獎(jiǎng)金池如果五分鐘無人下注,那么就會(huì)自動(dòng)掉落給最后下注的人,但這個(gè)獎(jiǎng)金池越滾越大,好多人都盯著下注對(duì)不對(duì),所以看上去永遠(yuǎn)不會(huì)掉落對(duì)不對(duì),但換個(gè)思路,區(qū)塊鏈的投注是需要礦池確認(rèn)的對(duì)不對(duì),如果五分鐘內(nèi)讓別人的投注不被確認(rèn)不就可以了,怎么做呢?買通礦池么?這么多礦池都不差錢,你咋買通?

其實(shí)有辦法,為什么呢,礦池的系統(tǒng)有個(gè)原則,優(yōu)先接受高交易傭金的交易,這個(gè)黑客就很簡(jiǎn)單,下注之后立即大批量創(chuàng)造很多轉(zhuǎn)賬交易,自己左手倒右手,但是交易傭金比正常值高很多,結(jié)果所有礦池幾乎塞滿了他的交易,其他交易都被排隊(duì)了,別人也有下注啊,就被擠到5分鐘后了,這樣,獎(jiǎng)池大獎(jiǎng)一人獨(dú)得,成本就是這短時(shí)間的交易手續(xù)費(fèi)和下注費(fèi)用。

 

 

文:caozsay/caoz的夢(mèng)囈(caozsay)

首席增長官CGO薦讀:

更多精彩,關(guān)注:增長黑客(GrowthHK.cn)

增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長…

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/quan/14776.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2018-11-13 20:46
下一篇 2018-11-17 16:39

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論