大家晚上好,我是侯天華。
今天很高興能夠與大家做一次針對(duì)數(shù)據(jù)分析的分享。我以數(shù)據(jù)分析人員的身份,曾參加過數(shù)次的數(shù)據(jù)分析項(xiàng)目,在這些項(xiàng)目中也間接地參與了大數(shù)據(jù)系統(tǒng)的搭建,今天也是希望能夠跟大家聊一聊我對(duì)數(shù)據(jù)分析的一些想法。
一、以往的數(shù)據(jù)分析
在今天的各類型企業(yè)中,數(shù)據(jù)分析崗位已經(jīng)基本得到普及和認(rèn)可,這個(gè)崗位的核心任務(wù)往往是支撐運(yùn)營和營銷,將企業(yè)內(nèi)部的數(shù)據(jù),客戶的數(shù)據(jù)進(jìn)行分析和總結(jié),形成以往工作情況的量化表現(xiàn),以及客戶的行為趨勢或特征等。
如果從更宏觀的角度來認(rèn)識(shí)數(shù)據(jù)分析崗位的話,每一個(gè)數(shù)據(jù)分析人員都明白,其實(shí)數(shù)據(jù)分析崗位要達(dá)到的目標(biāo)就是希望通過數(shù)據(jù)來發(fā)現(xiàn)潛在的規(guī)律,進(jìn)而幫助預(yù)測未來,這一點(diǎn)同數(shù)據(jù)挖掘的目標(biāo)一致。那么為什么在大多數(shù)公司都已經(jīng)具備的數(shù)據(jù)分析崗位基礎(chǔ)上,今天卻還是在反復(fù)提到數(shù)據(jù)挖掘這個(gè)概念,我們就需要來看看數(shù)據(jù)分析都有哪些是沒有做到的內(nèi)容。
1數(shù)據(jù)分散
多數(shù)數(shù)據(jù)分析崗位在公司中的崗位設(shè)置是隸屬在單一業(yè)務(wù)部門中作為一個(gè)支撐崗,只有少數(shù)的公司是將數(shù)據(jù)分析作為一個(gè)獨(dú)立的部門。其差異性在于,前者的數(shù)據(jù)分析所能分析的內(nèi)容僅限于自身部門所輸出的指標(biāo),比如投訴部門只看投訴處理過程中的數(shù)據(jù),銷售部門只看銷售過程中的數(shù)據(jù),一旦涉及到需要將各類指標(biāo)匯總分析的情況,這種組織架構(gòu)就會(huì)帶來極大的負(fù)面影響,由于不同部門具備自己部門指標(biāo)導(dǎo)出的權(quán)限,且與其他部門的配合并不影響績效任務(wù),所以這種跨部門采集數(shù)據(jù)的過程往往效率奇低。而數(shù)據(jù)分析最關(guān)鍵的就在于匯集更多的數(shù)據(jù)和更多的維度來發(fā)現(xiàn)規(guī)律,所以以往的數(shù)據(jù)分析多是做最基礎(chǔ)的對(duì)比分析以及帕累托分析,少有使用算法來對(duì)數(shù)據(jù)進(jìn)行挖掘的動(dòng)作,因?yàn)樵缴俚闹笜?biāo)以及越少的維度將會(huì)使得算法發(fā)揮的效果越差。
2指標(biāo)維度少
在以往的企業(yè)中,數(shù)字化管理更多的體現(xiàn)在日常運(yùn)維工作中,對(duì)于客戶端的數(shù)據(jù)采集雖然從很早以前就已經(jīng)開展,CRM系統(tǒng)的誕生已經(jīng)有很久的時(shí)間了,但是一直以來客戶端的數(shù)據(jù)維度卻十分缺失,其原因在于上述這些途徑所獲得的數(shù)據(jù)多為客戶與企業(yè)產(chǎn)生交互之后到交互結(jié)束之間的數(shù)據(jù),但是這段時(shí)間只是這個(gè)客戶日常生活中很少的一部分內(nèi)容,客戶在微博,微信上的行為特點(diǎn),關(guān)注的領(lǐng)域或是品牌,自身的性格特點(diǎn)等,可以說一個(gè)客戶真正的特點(diǎn),習(xí)慣,僅通過與企業(yè)的交互是無從知曉的,因此難以挖掘出有效的結(jié)論。
3少使用算法
在上述制約條件下,可想而知數(shù)據(jù)分析人員對(duì)于算法的使用必然是較少的,因?yàn)閿?shù)據(jù)分析依賴于大量的指標(biāo)、維度以及數(shù)據(jù)量,沒有這三個(gè)條件是難以發(fā)揮算法的價(jià)值的,而在排除掉算法后,數(shù)據(jù)分析人員更多的只能是針對(duì)有限的數(shù)據(jù)做最為簡單的分析方法,得出淺顯易懂的分析結(jié)論,為企業(yè)帶來的價(jià)值則可以想象。
4數(shù)據(jù)分析系統(tǒng)較弱
目前的數(shù)據(jù)分析多采用excel,部分?jǐn)?shù)據(jù)分析人員能夠使用到R或SPSS等軟件,但當(dāng)數(shù)據(jù)量達(dá)到TB或PB單位級(jí)別時(shí),這些軟件在運(yùn)算時(shí)將會(huì)消耗大量時(shí)間,同時(shí)原始的數(shù)據(jù)庫系統(tǒng)在導(dǎo)出數(shù)據(jù)時(shí)所花費(fèi)的時(shí)間也是相當(dāng)長的,因此對(duì)大數(shù)據(jù)量的分析工作,常規(guī)的系統(tǒng)支撐難以到達(dá)要求。
二、技術(shù)革命與數(shù)據(jù)挖掘
得益于互聯(lián)網(wǎng)對(duì)于人們生活的影響逐漸增大,我們發(fā)現(xiàn)數(shù)據(jù)正在瘋狂的增長。今天一個(gè)人一天的時(shí)間中有將近一半是在互聯(lián)網(wǎng)中度過的,一方面這些使用互聯(lián)網(wǎng)的交互都是能夠被捕捉記錄的,一方面由于碎片化時(shí)間的使用,客戶與企業(yè)交互的機(jī)會(huì)也變的越來越頻繁,進(jìn)一步保障了客戶數(shù)據(jù)的豐富。同時(shí)在大數(shù)據(jù)技術(shù)的支撐下,今天的系統(tǒng)能夠允許對(duì)這些大規(guī)模的數(shù)據(jù)量進(jìn)行高效的分析。
因此數(shù)據(jù)分析人員也能夠開始使用一些較為抽象的算法來對(duì)數(shù)據(jù)做更為豐富的分析。所以數(shù)據(jù)分析正式進(jìn)入到了數(shù)據(jù)分析2.0的時(shí)代,也就是數(shù)據(jù)挖掘的時(shí)代了。
三、數(shù)據(jù)處理流程
數(shù)據(jù)分析也即是數(shù)據(jù)處理的過程,這個(gè)過程是由三個(gè)關(guān)鍵環(huán)節(jié)所組成:數(shù)據(jù)采集,數(shù)據(jù)分析方法選取,數(shù)據(jù)分析主題選擇。這三個(gè)關(guān)鍵環(huán)節(jié)呈現(xiàn)金字塔形,其中數(shù)據(jù)采集是最底層,而數(shù)據(jù)分析主題選擇是最上層。
四、數(shù)據(jù)采集
數(shù)據(jù)采集即是如何將數(shù)據(jù)記錄下來的環(huán)節(jié)。在這個(gè)環(huán)節(jié)中需要著重說明的是兩個(gè)原則,即全量而非抽樣,以及多維而非單維。今天的技術(shù)革命和數(shù)據(jù)分析2.0主要就是體現(xiàn)在這個(gè)兩個(gè)層面上。
1全量而非抽樣
由于系統(tǒng)分析速度以及數(shù)據(jù)導(dǎo)出速度的制約,在非大數(shù)據(jù)系統(tǒng)支撐的公司中,做數(shù)據(jù)分析的人員也是很少能夠做到完全全量的對(duì)數(shù)據(jù)進(jìn)行收集和分析。在未來這將不再成為問題。
2多維而非單維
另一方面則在于數(shù)據(jù)的維度上,這在前邊同樣提及??傊槍?duì)客戶行為實(shí)現(xiàn)5W1H的全面細(xì)化,將交互過程的什么時(shí)間、什么地點(diǎn)、什么人、因?yàn)槭裁丛?、做了什么事情全面記錄下來,并將每一個(gè)板塊進(jìn)行細(xì)化,時(shí)間可以從起始時(shí)間、結(jié)束時(shí)間、中斷時(shí)間、周期間隔時(shí)間等細(xì)分;地點(diǎn)可以從地市、小區(qū)、氣候等地理特征、渠道等細(xì)分;人可以從多渠道注冊賬號(hào)、家庭成員、薪資、個(gè)人成長階段等細(xì)分;原因可以從愛好、人生大事、需求層級(jí)等細(xì)分;事情可以從主題、步驟、質(zhì)量、效率等細(xì)分。通過這些細(xì)分維度,增加分析的多樣性,從而挖掘規(guī)律。
五、數(shù)據(jù)分析方法選取
數(shù)據(jù)分析方法是通過什么方法去組合數(shù)據(jù)從而展現(xiàn)規(guī)律的環(huán)節(jié)。從根本目的上來說,數(shù)據(jù)分析的任務(wù)在于抽象數(shù)據(jù)形成有業(yè)務(wù)意義的結(jié)論。因?yàn)閱渭兊臄?shù)據(jù)是毫無意義的,直接看數(shù)據(jù)是沒有辦法發(fā)現(xiàn)其中的規(guī)律的,只有通過使用分析方法將數(shù)據(jù)抽象處理后,人們才能看出隱藏在數(shù)據(jù)背后的規(guī)律。
數(shù)據(jù)分析方法選取是整個(gè)數(shù)據(jù)處理過程的核心,一般從分析的方法復(fù)雜度上來講,我將其分為三個(gè)層級(jí),即常規(guī)分析方法,統(tǒng)計(jì)學(xué)分析方法跟自建模型。我之所以這樣區(qū)分有兩個(gè)層面上的考慮,分別是抽象程度以及定制程度。
其中抽象程度是說,有些數(shù)據(jù)不需要加工,直接轉(zhuǎn)成圖形的方式呈現(xiàn)出來,就能夠表現(xiàn)出業(yè)務(wù)人員所需要的業(yè)務(wù)意義,但有些業(yè)務(wù)需求,直接把數(shù)據(jù)轉(zhuǎn)化成圖形是難以看出來的,需要建立數(shù)據(jù)模型,將多個(gè)指標(biāo)或一個(gè)指標(biāo)的多個(gè)維度進(jìn)行重組,最終產(chǎn)生出新的數(shù)據(jù)來,那么形成的這個(gè)抽象的結(jié)果就是業(yè)務(wù)人員所需要的業(yè)務(wù)結(jié)論了?;谶@個(gè)原則,可以劃分出常規(guī)分析方法和非常規(guī)分析方法。
那么另一個(gè)層面是定制程度,到今天數(shù)學(xué)的發(fā)展已經(jīng)有很長的時(shí)間了,其中一些經(jīng)典的分析方法已經(jīng)沉淀,他們可以通用在多用分析目的中,適用于多種業(yè)務(wù)結(jié)論中,這些分析方法就屬于通用分析方法,但有些業(yè)務(wù)需求確實(shí)少見,它所需要的分析方法就不可能完全基于通用方法,因此就會(huì)形成獨(dú)立的分析方法,也就是專門的數(shù)學(xué)建模,這種情況下所形成的數(shù)學(xué)模型都是專門為這個(gè)業(yè)務(wù)主題定制的,因此無法適用于多個(gè)主題,這類分析方法就屬于高度定制的,因此基于這一原則,將非常規(guī)分析方法細(xì)分為統(tǒng)計(jì)學(xué)分析方法和自建模型類。
1常規(guī)分析方法
常規(guī)分析方法不對(duì)數(shù)據(jù)做抽象的處理,主要是直接呈現(xiàn)原始數(shù)據(jù),多用于針對(duì)固定的指標(biāo)、且周期性的分析主題。直接通過原始數(shù)據(jù)來呈現(xiàn)業(yè)務(wù)意義,主要是通過趨勢分析和占比分析來呈現(xiàn),其分析方法對(duì)應(yīng)同環(huán)比及帕累托分析這兩類。同環(huán)比分析,其核心目的在于呈現(xiàn)本期與往期之間的差異,如銷售量增長趨勢;而帕累托分析則是呈現(xiàn)單一維度中的各個(gè)要素占比的排名,比如各個(gè)地市中本期的銷售量增長趨勢的排名,以及前百分之八十的增長量都由哪幾個(gè)地市貢獻(xiàn)這樣的結(jié)論。常規(guī)分析方法已經(jīng)成為最為基礎(chǔ)的分析方法,在此也不詳細(xì)介紹了。
2統(tǒng)計(jì)學(xué)分析方法
統(tǒng)計(jì)學(xué)分析方法能夠基于以往數(shù)據(jù)的規(guī)律來推導(dǎo)未來的趨勢,其中可以分為多種規(guī)律總結(jié)的方式。根據(jù)原理多分為以下幾大類,包括有目標(biāo)結(jié)論的有指導(dǎo)學(xué)習(xí)算法,和沒有目標(biāo)結(jié)論的無指導(dǎo)學(xué)習(xí)算法,以及回歸分析。
其中有指導(dǎo)的學(xué)習(xí)算法簡單說就是有歷史數(shù)據(jù)里邊已經(jīng)給出一個(gè)目標(biāo)結(jié)論,然后分析當(dāng)各個(gè)變量達(dá)到什么情況時(shí),就會(huì)產(chǎn)生目標(biāo)結(jié)論。比如我們想判斷各項(xiàng)指標(biāo)需要達(dá)到什么水平時(shí)我們才認(rèn)定這個(gè)人患有心臟病的話,就可以把大量的心臟病人的各項(xiàng)指標(biāo)數(shù)據(jù)和沒有心臟病的正常人的各項(xiàng)指標(biāo)數(shù)據(jù)都輸入到系統(tǒng)中,目標(biāo)結(jié)論就是是否有心臟病,變量就是各項(xiàng)指標(biāo)數(shù)據(jù),系統(tǒng)根據(jù)這些數(shù)據(jù)算出一個(gè)函數(shù),這個(gè)函數(shù)能夠恰當(dāng)?shù)拿枋龈鱾€(gè)指標(biāo)的數(shù)據(jù)與最終這個(gè)是否是心臟病人之間的關(guān)系,也就是當(dāng)各個(gè)指標(biāo)達(dá)到什么臨界值時(shí),這個(gè)人就有心臟病的判斷,這樣以后再來病人,我們就可以根據(jù)各項(xiàng)指標(biāo)的臨界值。這個(gè)案例中的函數(shù)就是算法本身了,這其中的算法邏輯有很多種,包括常見的貝葉斯分類、決策樹、隨機(jī)森林樹以及支持向量機(jī)等,有興趣的朋友可以在網(wǎng)上看看各種算法的邏輯是怎么樣的。
另外無指導(dǎo)的學(xué)習(xí)算法因?yàn)闆]有一個(gè)給定的目標(biāo)結(jié)論,因此是將指標(biāo)之中所有有類似屬性的數(shù)據(jù)分別合并在一起,形成聚類的結(jié)果。比如最經(jīng)典的啤酒與尿布分析,業(yè)務(wù)人員希望了解啤酒跟什么搭配在一起賣會(huì)更容易讓大家接受,因此需要把所有的購買數(shù)據(jù)都放進(jìn)來,然后計(jì)算后,得出其他各個(gè)商品與啤酒的關(guān)聯(lián)程度或者是距離遠(yuǎn)近,也就是同時(shí)購買了啤酒的人群中,都有購買哪些其他的商品,然后會(huì)輸出多種結(jié)果,比如尿布或者牛肉或者酸奶或者花生米等等,這每個(gè)商品都可以成為一個(gè)聚類結(jié)果,由于沒有目標(biāo)結(jié)論,因此這些聚類結(jié)果都可以參考,之后就是貨品擺放人員嘗試各種聚類結(jié)果來看效果提升程度。在這個(gè)案例中各個(gè)商品與啤酒的關(guān)聯(lián)程度或者是距離遠(yuǎn)近就是算法本身了,這其中的邏輯也有很多中,包括Apriori等關(guān)聯(lián)規(guī)則、聚類算法等。
另外還有一大類是回歸分析,簡單說就是幾個(gè)自變量加減乘除后就能得出因變量來,這樣就可以推算未來因變量會(huì)是多少了。比如我們想知道活動(dòng)覆蓋率、產(chǎn)品價(jià)格、客戶薪資水平、客戶活躍度等指標(biāo)與購買量是否有關(guān)系,以及如果有關(guān)系,那么能不能給出一個(gè)等式來,把這幾個(gè)指標(biāo)的數(shù)據(jù)輸入進(jìn)去后,就能夠得到購買量,這個(gè)時(shí)候就需要回歸分析了,通過把這些指標(biāo)以及購買量輸入系統(tǒng),運(yùn)算后即可分別得出,這些指標(biāo)對(duì)購買量有沒有作用,以及如果有作用,那么各個(gè)指標(biāo)應(yīng)該如何計(jì)算才能得出購買量來?;貧w分析包括線性及非線性回歸分析等算法。
統(tǒng)計(jì)學(xué)分析方法還有很多,不過在今天多用上述幾大類分析方法,另外在各個(gè)分析方法中,又有很多的不同算法,這部分也是需要分析人員去多多掌握的。
3自建模型
自建模型是在分析方法中最為高階也是最具有挖掘價(jià)值的,在今天多用于金融領(lǐng)域,甚至業(yè)界專門為這個(gè)人群起了一個(gè)名字叫做寬客,這群人就是靠數(shù)學(xué)模型來分析金融市場。由于統(tǒng)計(jì)學(xué)分析方法所使用的算法也是具有局限性的,雖然統(tǒng)計(jì)學(xué)分析方法能夠通用在各種場景中,但是它存在不精準(zhǔn)的問題,在有指導(dǎo)和沒有指導(dǎo)的學(xué)習(xí)算法中,得出的結(jié)論多為含有多體現(xiàn)在結(jié)論不精準(zhǔn)上,而在金融這種錙銖必較的領(lǐng)域中,這種算法顯然不能達(dá)到需求的精準(zhǔn)度,因此數(shù)學(xué)家在這個(gè)領(lǐng)域中專門自建模型,來輸入可以獲得數(shù)據(jù),得出投資建議來。在統(tǒng)計(jì)學(xué)分析方法中,回歸分析最接近于數(shù)學(xué)模型的,但公式的復(fù)雜程度有限,而數(shù)學(xué)模型是完全自由的,能夠?qū)⒅笜?biāo)進(jìn)行任意的組合,確保最終結(jié)論的有效性。
六、數(shù)據(jù)分析主題選取
在數(shù)據(jù)分析方法的基礎(chǔ)上,進(jìn)一步是將分析方法應(yīng)用在業(yè)務(wù)需求中,基于業(yè)務(wù)主題的分析可以涉及太多的領(lǐng)域,從客戶的參與活動(dòng)的轉(zhuǎn)化率,到客戶的留存時(shí)長分析,再到內(nèi)部的各環(huán)節(jié)銜接的及時(shí)率和準(zhǔn)確度等等,每一種都有獨(dú)特的指標(biāo)和維度的要求,以及分析方法的要求,以我個(gè)人的經(jīng)驗(yàn)來看,主要分析主題都是圍繞著營銷、運(yùn)營、客戶這三大角度來開展的。
1營銷/運(yùn)營分析
營銷運(yùn)營分析多從過程及最終的成效上來進(jìn)行分析,包括營銷活動(dòng)從發(fā)布到客戶產(chǎn)生購買的過程的分析,運(yùn)營從客戶開始使用到停止使用為止的過程中的分析,前者更傾向于分析客戶行為的變動(dòng)趨勢,以及不同類型的客戶之間的行為差異,后者更傾向于分析在過程中服務(wù)的及時(shí)率和有效率,以及不同類型的客戶之間對(duì)于服務(wù)需求的差異。
在針對(duì)這部分分析主題時(shí),多采用常規(guī)分析方法,通過同環(huán)比以及帕累托來呈現(xiàn)簡單的變動(dòng)規(guī)律以及主要類型的客戶,但通過統(tǒng)計(jì)學(xué)分析方法,營銷分析可以根據(jù)有指導(dǎo)的學(xué)習(xí)算法,得出營銷成功與營銷失敗之間的客戶特征的差異,而運(yùn)營分析則可以根據(jù)無指導(dǎo)的學(xué)習(xí)算法,得出哪些特征的客戶對(duì)哪些服務(wù)是有突出的需求的,另外營銷和運(yùn)營分析都可以通過回歸分析來判斷,各項(xiàng)績效指標(biāo)中,哪些指標(biāo)是對(duì)購買以及滿意度有直接影響的。通過這些深入的挖掘,可以幫助指導(dǎo)營銷及運(yùn)營人員更好的完成任務(wù)。
2客戶分析
客戶分析除了與營銷和運(yùn)營數(shù)據(jù)關(guān)聯(lián)分析時(shí)候使用,另外單獨(dú)對(duì)于客戶特征的分析也是有很大價(jià)值的。這一部分分析更多需要通過統(tǒng)計(jì)學(xué)分析方法中的有指導(dǎo)和無指導(dǎo)的學(xué)習(xí)算法,一方面針對(duì)高價(jià)值客戶,通過有指導(dǎo)的學(xué)習(xí)算法,能夠看到哪些特征能夠影響到客戶的價(jià)值高低,從而為企業(yè)鎖定目標(biāo)客戶提供指導(dǎo);另一方面針對(duì)全體客戶,通過無指導(dǎo)的學(xué)習(xí)算法,能夠看到客戶可以大概分為哪幾種群落,針對(duì)每個(gè)群落的客戶展開焦點(diǎn)討論和情景觀察,從而挖掘不同群落客戶之間的需求差異,進(jìn)而為各個(gè)群落的客戶提供精準(zhǔn)營銷服務(wù)。
通過以上這些的操作,一個(gè)企業(yè)的數(shù)據(jù)分析或者說數(shù)據(jù)挖掘工作的完整流程就呈現(xiàn)了出來??梢钥吹?,無論是數(shù)據(jù)采集,還是分析方法,亦或是分析主題,在大數(shù)據(jù)和互聯(lián)網(wǎng)的支撐基礎(chǔ)上,在未來都將有大幅度的增加,數(shù)據(jù)分析人員將成為下一個(gè)階段的關(guān)鍵企業(yè)支撐人員,也即是在未來,在各個(gè)領(lǐng)域中,都將產(chǎn)生大量的寬客,或者增長黑客這樣的數(shù)據(jù)分析人員,來帶動(dòng)企業(yè)的發(fā)展。
我今天的分享就到這里,謝謝大家。
文:侯天華@鵜鶘全面客戶體驗(yàn)管理
相關(guān)文章推薦:
《如何獲取和討好超級(jí)用戶,數(shù)據(jù)驅(qū)動(dòng)營銷》
《大數(shù)據(jù)時(shí)代,增長黑客如何開展精準(zhǔn)營銷》
《在線人數(shù)秒翻100倍!花椒一直播映客答題數(shù)據(jù)注水了嗎?》
更多精彩,關(guān)注:增長黑客(GrowthHK.cn)
增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長…
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/cgo/product/8781.html