5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

評分模型是通過對潛在客戶和存量客戶的數(shù)據(jù)進行分析,用以預測他們未來表現(xiàn)的一種方法。

任何事情抓住了主要矛盾就能達到事半功倍的效果,在信貸領域,評分系統(tǒng)無疑是信貸領域的主要矛盾。

評分模型不管在技術含量,數(shù)據(jù)精確性,數(shù)據(jù)覆蓋度,以及人才稀缺性上都成為了信貸領域的核心。

評分模型掌握信貸審批的生殺大權(quán),不管是從哪里來的流量,鐵面無私。在了解評分模型之前,我們先看一個客戶的評分模型。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

這是大數(shù)據(jù)公司某盾出具的客戶貸前審查報告中,報告中客戶申請得分100分,(某盾分為0-100分制,分數(shù)越高,客戶風險越高)

通過評分模型能夠為決策者提供非常豐富的統(tǒng)計信息,輔助風險人員對客戶進行審批。

金融科技公司大昌公司產(chǎn)品經(jīng)理大熊,最近準備系統(tǒng)性梳理出評分模型的搭建過程,以決定是否是自己搭建評分模型還是外部采購通用評分模型。

讓我們跟隨著大熊了解評分模型的從0-1。

評分模型的分類評分模型按照場景可以分為信用評分,反欺詐評分,催收模型等。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

評分模型的使用場景最適合線上小額信貸業(yè)務,這類業(yè)務額度小,數(shù)量大,要求放款時效性強,需要很快的審批效率滿足用戶的體驗要求。

當下“秒批秒放”已經(jīng)成為了一款信貸產(chǎn)品的優(yōu)勢之一,背后的支撐就是評分模型。

比如大額信貸因為對擔保和抵押的要求,評分模型的作用就相對不是特別大。

比如房貸和車貸,需要對汽車和房產(chǎn)進行抵押,評分模型只能作為輔助作用。當然汽車哪怕被抵押了,還可能被倒賣,所以評分模型也會有關鍵作用。

評分模型的優(yōu)點

相比較人工審批動則幾十人的審批團隊,評分模型能夠大大提審審批的速度。

只要評分模型建立之后,那么相對人工審批的成本低,并且效率高,同時評分模型還能避免人工審批的主觀性,并且保持數(shù)據(jù)的一致性。

因為評分模型的存在,對審批之后的客戶還可以跟蹤其貸后表現(xiàn),從而優(yōu)化模型?!?/p>

因為評分模型的存在,我們可以對一定分數(shù)的客戶進行提額或者降額,從而支持精細化額度的運營訴求,最后的結(jié)果是對利潤更加可控。

評分模型的缺點:評分模型需要花費較長時間開發(fā),花費較長時間的資源,這不是所有企業(yè)都可以承受的。

同時評分模型只能統(tǒng)計預測,不能對個體進行完全確定的預測,即不能完全確認一個客戶的好壞,它只能給出客戶好壞可能性的比率。

·由于經(jīng)濟的變化,評分模型并不是完全保持一成不變的準確率,比如疫情來了,那么需要降低評分系統(tǒng)的預期。

評分模型的建設

評分模型的搭建過程分為8個步驟,當然線上跑模型需要單獨的系統(tǒng)支持,注呱說產(chǎn)品在其它文章中,我們專門講評分系統(tǒng)的搭建過程。

一、客群分析

不同的客群盡量需要不同的評分模型,比如給個人小額現(xiàn)金貸款,和汽車分期貸款,小微企業(yè)貸款就需要不同的評分模型。

如果大昌公司已經(jīng)有了針對大額現(xiàn)金貸款的評分模型,那么如果要新上一個小額現(xiàn)金產(chǎn)品,初期也可以把小額現(xiàn)金產(chǎn)品的客群納入大額現(xiàn)金貸的評分模型中,但是最好提前做數(shù)據(jù)驗證匹配度。

如果不經(jīng)過客群分析,胡亂套用比如汽車分期貸款的模型套用到小額現(xiàn)金貸款中,那顯然是不合時宜的,就如女人的高跟鞋再好看,給男人穿還是不合腳的。

二、業(yè)務梳理

在業(yè)務梳理階段,需要確認新產(chǎn)品的業(yè)務流程,比如是用app進件,還是通過經(jīng)銷商進件,不同的進件流程,意味著風險和信息采集不同,評分系統(tǒng)的建立也不同。

通常線下進件能夠收集的數(shù)據(jù)有限,第三方渠道進件收集數(shù)據(jù)也不全,最好是通過自有APP進件,這樣能夠收集的數(shù)據(jù)才是最全的。

三、建模方案

一般來看信用建模和反欺詐建模的場景最多,建模方案確認用什么算法模型,梳理能夠收集到的信息,如下圖。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

客戶信息分為描述類信息,行為類信息和關聯(lián)類信息,每一個信息種類下都有幾十個到上百個數(shù)據(jù)特征指標,想螞蟻金服每個客戶有幾千個數(shù)據(jù)指標也合情合理。

所謂生態(tài)公司的優(yōu)勢就在于數(shù)據(jù)的收集維度足夠多。

四、選擇樣本

選擇樣本要遵從以下幾個原則

(1)樣本必須能代表評分模型覆蓋的人群。例如大昌新業(yè)務是江浙滬的汽車金融業(yè)務,那么樣本客戶也需要是江浙滬的地區(qū)的客群,這是基本邏輯即要做什么客群業(yè)務,必須要用該客群的樣本。

(2)選擇樣本的不應該過少,通常至少要1000千,當然數(shù)量上當然是越多越好,如果樣本數(shù)量過少,評分在進行算法統(tǒng)計的時候,就失去了價值,因為算法需要足夠的數(shù)據(jù)量。

所以大熊這次準備了五千個客戶樣本用于測試。

(3)其次樣本中的客戶要明確定義好客戶和壞客戶,壞客戶不同的公司定義不一樣,大昌公司定義N3即連續(xù)逾期3個月,就要代償或者核銷,某銀行信用卡也可以定義逾期N2即代表壞客戶。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

上圖是大昌汽車金融業(yè)務部門N1逾期數(shù)據(jù),如果拿這份數(shù)據(jù)去做評分模型的樣本,大家覺得是否合適呢?

1.2.3.  三秒思考時間~

答案其實并不合適,N1只是輕微的逾期,在汽車金融實際業(yè)務中N1逾期率可能大于10%,如果把所有的N1都當作壞樣本,那么評分模型注定不夠準確。

(4)所抽取樣本的時段必須有建模所需要的數(shù)據(jù)。小額現(xiàn)金貸產(chǎn)品通常選擇1年之內(nèi)的申請人數(shù)據(jù),車貸產(chǎn)品一般選擇1-3年的申請人數(shù)據(jù)。

因為這些賬戶有充足的時間產(chǎn)生好的或壞的貸后表現(xiàn),時間太久的話這個時段的建模數(shù)據(jù)可能沒有,時間太短樣本數(shù)據(jù)沒有貸后表現(xiàn)。

五、建立模型

選取特征變量只是第一步,就是上面說的把能收集到的客戶信息都梳理出來。

由于互聯(lián)網(wǎng)已經(jīng)完全融入了我們的生活,我們的數(shù)據(jù)基本上在互聯(lián)網(wǎng)上有了留痕,這樣的好處是方便數(shù)據(jù)收集者建立更好的模型。

壞處是大部分數(shù)據(jù)沒有經(jīng)過我們的允許,被過度使用了,當然數(shù)據(jù)安全不在今天的討論范圍內(nèi)。比如分析信用卡逾期次數(shù),如果逾期次數(shù)多的客戶在貸后表現(xiàn)具不良,沒有逾期記錄的客戶貸后表現(xiàn)很好,那么信用卡逾期次數(shù)就是一個好和壞客戶的特征。

與此相反某一特定的特征變量可能在好、壞賬戶之間沒有任何區(qū)別,比如行為數(shù)據(jù)記錄客戶是吸煙和不吸煙,并不能和客戶的貸后表現(xiàn)直接關聯(lián),在這種情況下,這個特征就不會被用在評分卡中。

在評分建模的過程中可以收集幾百上千個特征,以尋找相應的特征是否在好、壞賬戶之間存在差異。

特征越多,開發(fā)成本越高,維護成本也越大,實際業(yè)務過程中應該靈活掌握,即使是一萬個特征變量或者個位數(shù)的特征變量,本文的方法論依舊成立。

這么多特征其實真正有作用的特征其實不多的,比如客戶的手機開機狀態(tài)、在網(wǎng)時長、公安網(wǎng)、法院網(wǎng)、個稅、信用卡逾期記錄等。
當特征變量很多的時候,就需要對每個特征變量進行分配權(quán)重,而分配權(quán)重 過程一個評分模型的設計框架就有了。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

在以上權(quán)重中,我們把前三項設置成超過80,粗暴但是有效,當然這是簡化的情況。

關于權(quán)重得分,我們找到網(wǎng)上一個例子,以廣州為例,假如其GDP的評分為9.5分,GDP增速評分為8分,人口增長評分為9分這個時候我們需要知道其綜合評分,我們給GDP 權(quán)重占比50%? GDP增速 權(quán)重占比30% 人口增長 權(quán)重占比20%

我們可以計算出其綜合評分為9.5*50%+8*30%+9*20%=8.95分

設置分數(shù)閾值,通過分數(shù)閾值,我們確定一個總分數(shù),理論上高于該分數(shù)的所有客戶都會通過,低于該分數(shù)的所有客戶都會被拒絕。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

在決定是否接受/拒絕某個客戶時,最有用的是模型預設好的各個分數(shù)段的審批結(jié)果和壞賬率。

比較理想的情況下我們提交的樣本,在評分模型的分布圖上符合正態(tài)分布。

但是如何設定通過和直接拒絕的分數(shù)閾值呢?可以通過核銷率和通過率來判斷。

在樣本中,假如我們 壞客戶是核銷客戶,當每個客戶都跑了一遍模型有了得分之后,那么我們是不是就可以算出每個得分區(qū)間,客戶的核銷率和通過率?

為了提高通過率,勢必放進來更多壞客戶,核銷率就會提高,這是一種權(quán)衡過程,就看我們當前的運營策略是先保通過率還是核銷率。

比如我們新接入了一家資金方,那么為了維護良好的開端,就需要保持通過率提供,等有了一定資產(chǎn)合作規(guī)模,在降低通過率,從而降低核銷率。

六、模型評估

一個評分模型的預測能力通常用兩種測度方法來評估:一種是K-S檢驗,另一種是區(qū)分度。

K-S值(數(shù)學家柯爾莫哥洛夫(Kolmogorov)和斯米洛夫(Smirnov)命名)計算和客戶和壞客戶的累積分布之間的差異。

我看看舉例KS值是怎么推導出來的,比如我們有5000個樣本數(shù)據(jù),這里面包含了好客戶和壞客戶,通過邏輯回歸等建模的方式(此處省去建模過程)我們得到了每個客戶都對應有一個信用分。

那么這份數(shù)據(jù)的客戶除了有好和壞的標簽,每個客戶也有對應的信用評分。

整個樣本中我們又可以把客戶分成四類樣本,他們分布是

True Positive (真正, TP)被模型預測為正的正樣本;

True Negative(真負 , TN)被模型預測為負的負樣本 ;

False Positive (假正, FP)被模型預測為正的負樣本;

False Negative(假負 , FN)被模型預測為負的正樣本;

其中每種類型的真實比例的計算公式如下:

True Positive Rate(真正率 , TPR)或靈敏度(sensitivity)?

TPR = TP /(TP + FN)?

正樣本預測結(jié)果數(shù) / 正樣本實際數(shù)

True Negative Rate(真負率 , TNR)或特指度(specificity) 

TNR = TN /(TN + FP)?

負樣本預測結(jié)果數(shù) / 負樣本實際數(shù)

False Positive Rate (假正率, FPR)?

FPR = FP /(FP + TN)?

被預測為正的負樣本結(jié)果數(shù) /負樣本實際數(shù)

False Negative Rate(假負率 , FNR)?

FNR = FN /(TP + FN)?

被預測為負的正樣本結(jié)果數(shù) / 正樣本實際數(shù)

定義 F(s|B)代表真負率,定義F(s|G)代表假負率,于是我們就可以得出一個樣本比率為縱坐標,信用得分為橫坐標的兩條曲線,如下圖。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

在真實貸款中,我們希望盡量把壞客戶拒絕,但是好客戶避免誤傷,我們的希望在數(shù)據(jù)上的提現(xiàn)就是F(s|B)-F(s|G) 的最大值。

而這個最大值就是KS值。

假如圖中相差最大處F(s|B)=0.8,F(xiàn)(s|G)=0.4,那么KS值=0.8-0.4=0.4。

好客戶和壞客戶之間的累積分布的間隔越大,說明建模后的信用評分區(qū)分度越大。

通常我們認為超過30個百分點KS值是可接受的,如果能超過50%那就屬于優(yōu)秀的水平了,KS值越大,越能體現(xiàn)建模的水平。

七、模型部署

如果一開始是如果你們的審批是線下后臺的審批,如果直接引入評分系統(tǒng),那么可能有大問題。

曾經(jīng)我們就有這樣的慘痛經(jīng)驗,上線了一個自認為很ok的模型,嚴重降低了進件團隊的通過率,被渠道老總強烈投訴!?

所以實施部署的關鍵是要高管、風險以及渠道團隊的充分理解,在模型部署之前應該充分培訓和宣導評分模型的戰(zhàn)略意義,并且初期評分模型盡量要有可解釋性,這樣才會給人信服。

評分系統(tǒng)還應該評分結(jié)果轉(zhuǎn)人工,在汽車金融業(yè)務中,有些經(jīng)銷商剛剛開始合作,他們故意用一些低質(zhì)量的客戶來進件,如果這時候的營銷策略是維護經(jīng)銷商關系,以壞賬換取信任,那么就要適當?shù)拈_綠燈,等到線下團隊和經(jīng)銷商的關系穩(wěn)固,才慢慢收緊審批標準。

轉(zhuǎn)人工的原因還有就是就是評分模型的數(shù)據(jù)源可能出現(xiàn)異常,那么就需要人工進行就調(diào)整。

作為產(chǎn)品設計者,預留后門是為了給自己留出生命線。

八、模型監(jiān)控

模型監(jiān)控的主要指標是客群穩(wěn)定性分析和特征變量穩(wěn)定性分析。

客群穩(wěn)定性報告將近期實際申請人的信用得分按分數(shù)段(以月或季度為單位)與預測分布進行比較。

客群穩(wěn)定性是發(fā)現(xiàn)潛在問題的一個很好的早期指標,該指標能夠很好的反饋當前客群是否存在明細變化。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

比如上圖中紅色的實際申請的客群,在0-4分的區(qū)間,實際發(fā)生的客群比預測的要高,說明實際的客群質(zhì)量下降了。

如果客群分布變化,你就知道進入的客群也是不同的,比如這時候就可以找渠道方進行溝通,表明最近的渠道質(zhì)量變化,客群質(zhì)量變化,在模型能力不變的情況下,最終影響的是盈利效果。

特征變量穩(wěn)定性分析是以時間維度與樣本的特征分布進行比較。

5000字!小白也能從0-1理解評分模型|呱說產(chǎn)品

上圖中2022Q2季度收入5000以下的實際客戶占比明細增大,這說明

客群以及經(jīng)濟環(huán)境,甚至是數(shù)據(jù)源本身出了問題,這時候就需要去尋找原因,否則模型最后的預測結(jié)果將不準確。

外部評分模型大昌公司可以定制開發(fā)自內(nèi)部的評分模型,但是如果如大順這樣的小消費金融公司,由于數(shù)據(jù)和開發(fā)資源都不夠,又想把風險模型做好,只能引入外部的評分模型。

目前國內(nèi)外部評分模型的公司也很多,比如同盾、百融、數(shù)美這樣的機構(gòu),他們根據(jù)行業(yè)客戶不同,推出了各種的行業(yè)評分

他們一般是根據(jù)和銀行以及小貸公司合作,積累了大量的數(shù)據(jù)資源,加上自身的技術積累,向外輸出評分模型也是符合市場需求。

根據(jù)行業(yè)可以區(qū)分汽車金融評分,線上小額貸款模型,信用卡、理財客戶模型等。

根據(jù)行業(yè)可以區(qū)分反欺詐模型、客戶信用評分模型,催收模型,收入預測模型,客戶流失模型。

由于這些廠商接入的金融機構(gòu)很多,通常他們是在頭部打造一個樣本,然后在向下推廣,像大順這樣的腰部以下企業(yè),完全可以信任他們的模型。如果是大昌這樣某部機構(gòu),作為第一個吃螃蟹的人,最好還是要對數(shù)據(jù)進行驗證,并且評判數(shù)據(jù)的好壞。

使用外部數(shù)據(jù)評分系統(tǒng)的好處是這些評分會不定期的更新,因為他們接入的機構(gòu)會越來越多,所以評分模型也在進化。

很多機構(gòu)的做法是同時接入很多機構(gòu)的評分模型,讓不同的評分模型進行交叉驗證,增強對客戶的識別能力。

總結(jié)

一直以來由于小微企業(yè)自身規(guī)模小,經(jīng)營風險大,缺乏擔保物等問題,常常很難達到傳統(tǒng)信貸機構(gòu)的放貸標準。?

在授權(quán)合規(guī)的前提下,評分模型可以收集銀行數(shù)據(jù)、稅務數(shù)據(jù)、企業(yè)行為數(shù)據(jù)和場景數(shù)據(jù)。

誰先建立了領先的企業(yè)評分模型,誰就能快速的搶占市場。

在個人信貸領域,領先的個人信用模型也是快速放款,自動審批,和降低風險水平的利器,是信貸領域真正的核心。

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/cgo/product/52982.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2021-12-15 15:23
下一篇 2021-12-15 16:07

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復

登錄后才能評論
特別提示:登陸使用搜索/分類/最新內(nèi)容推送等功能?>>