黃英持+鄭婷婷
【摘 要】為了研究運營商如何利用大數(shù)據(jù)的優(yōu)勢提高移動用戶信用評估的科學性與準確性,基于熵值法和分類決策樹模型,建立了移動用戶信用評估模型,詳細分析其實現(xiàn)原理,并給出實際應用場景。通過具體的應用,證明該模型能減少人工分析中更新計算公式的繁重工作量,高效、靈活、準確地完成用戶信用預測評估工作,具有科學性和實用性。
信用評價 熵值法 分類決策樹
1 引言
2015年1月5日,中國人民銀行發(fā)布通知,允許8家機構進行個人征信業(yè)務,這被看作是個人征信體系即將向商業(yè)機構開放的信號,推動了各種互聯(lián)網(wǎng)征信平臺的蓬勃快速發(fā)展。在此之前,金融機構和民間團體主要通過央行個人征信報告來獲取信息,但是對于藍領工人、學生、個體戶、自由職業(yè)者等用戶,并沒能建立個人信用記錄,金融機構和民間團體了解這些用戶信用記錄的成本也比較高,可能無法對這些用戶的信用風險進行準確的判斷。
現(xiàn)有的互聯(lián)網(wǎng)征信平臺依托互聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù),有巨大的價值,雖然也無法覆蓋到個人用戶的方方面面,也存在一些盲點,但相比互聯(lián)網(wǎng)企業(yè),移動運營商所擁有的數(shù)據(jù)資源是互聯(lián)網(wǎng)征信平臺先天缺失的,移動運營商在征信業(yè)務上有其獨特的、不可取代的優(yōu)勢,充分利用移動運營商擁有的優(yōu)質數(shù)據(jù)建立個人信用記錄,并與其他征信平臺合作整合,既能挖掘移動運營商的資產(chǎn)潛力,也能順應信息時代的發(fā)展潮流。
本文將立足于利用運營商大數(shù)據(jù)的優(yōu)勢提高移動用戶信用評估科學性、準確性的思想,基于熵值法和分類決策數(shù)模型,提出移動用戶信用評估方法與模型。
2 信用評估方法的歷史和現(xiàn)狀
信用評估方法大致經(jīng)歷了3個階段[1-2]:專家打分法、公式法、規(guī)則引擎計算法。
專家打分法由專家根據(jù)經(jīng)驗對每個離散指標值賦予指定的分數(shù)、每個指標賦予權重,然后綜合計算得出最終得分。專家打分法是最原始的評估方式,目前在一些特殊場景仍然使用這種方式,比如積分入戶、貸款審核等。
公式法是最簡單普及的信用評估方式,目前依然被廣泛使用。公式法由專家意見結合實際的業(yè)務運營經(jīng)驗制定出評估公式,計算機根據(jù)用戶的指標值可以直接計算出相應的信用得分。但隨著業(yè)務復雜度的增加和指標的膨脹,單一的公式法也體現(xiàn)出了明顯的局限性,無法適應業(yè)務需求,因此越來越多的系統(tǒng)采用規(guī)則引擎來實現(xiàn)。
規(guī)則引擎可以動態(tài)定義復雜的規(guī)則,在不同情況下采用不同的公式和參數(shù)計算。規(guī)則引擎法可以看作是加強版的公式法,但是仍然有許多局限性。這種方法計算方式更靈活,但是參數(shù)和公式仍然是預先擬定的,當業(yè)務情況發(fā)生變化時,仍然需要手動調整計算公式和規(guī)則、參數(shù)。
通過大數(shù)據(jù)進行評估預測[3-5],是信用評估方法未來的方向,采用機器學習算法是基于大數(shù)據(jù)進行訓練學習的,其過程如圖1所示。采用機器學習算法可以使訓練、預測評估、反饋形成閉環(huán),計算公式由大數(shù)據(jù)訓練產(chǎn)生,過程更加科學,只要定期運行訓練算法、更新模型就能應對業(yè)務情況的變化。
本文基于機器學習的信用評估方法,構建了信用評估的分類決策樹模型,該模型能提高信用評估的效率與準確性,現(xiàn)已應用于信用評估系統(tǒng),能通過Web Service返回評估結果。
3 移動用戶信用評價方法
信用評價模型采用決策樹分類算法和決策樹回歸算法進行預測[5-9]。決策樹模型首先必須有滿足一定數(shù)量和質量的樣本訓練集進行訓練,形成決策樹模型,然后在運營過程中持續(xù)擴大訓練樣本,達到較高的準確度。具體步驟如下:
采用專家打分法結合熵值法估算樣本的評價取值;
對樣本進行訓練,形成決策樹和回歸樹模型;
使用測試樣本對模型進行驗證;
使用模型預測用戶信用等級和評價。
3.1 生成樣本數(shù)據(jù)集
從移動公司數(shù)據(jù)部大數(shù)據(jù)平臺可獲取特定指標體系模型的樣本數(shù)據(jù),本文采集樣本為50 000筆數(shù)據(jù),其中40 000筆用于訓練數(shù)據(jù)集,10 000筆用于模型驗證。樣本的分布必須滿足對指標取值范圍的有效覆蓋,因此,提取樣本數(shù)據(jù)后必須驗證樣本中指標值的范圍。比如在用戶類型中包括:鉆石卡、金卡、銀卡、VIP卡、普通用戶,每個值必須有接近實際比例的數(shù)量,其他指標集同理。
3.2 估算樣本信用
傳統(tǒng)的估算方法一般使用專家法或者公式法。原始的專家打分法工作量太大,且專家打分主觀性隨意性和波動性無法保證,而公式法的主觀性也較強[6,10],因此本文采用專家打分法結合熵值法進行估算。具體步驟如下:
對參與估算的指標進行歸一標準化處理;
使用熵值法計算每個維度下面指標的權重;
使用專家打分法賦予維度權重;
使用指標權重和維度權重計算出信用得分;
根據(jù)信用得分賦予等級。
(1)指標歸一標準化
特征指標按類型可劃分為連續(xù)變量和離散變量。變量必須經(jīng)過歸一標準化處理后才能進行樣本集的信用積分和等級計算;對于離散變量,只有有序類型的指標才能參與計算。有序類型的指標由專家給出評分標準,如表1所示:
(2)計算維度指標權重
維度指標的權重計算采用熵值法。熵值法的基本思路是求出指標的熵,然后根據(jù)指標熵的冗余度求權重。熵值法的意義在于指標聚集度越高,則權重應該越低,防止計算出的結果區(qū)分度太低。假設有一個指標,絕大比例的樣本的得分均在區(qū)間[0.8, 0.9]中,則該指標的區(qū)分意義不大,權重應該降低。
計算維度指標i的熵采用的公式如下:
(3)
(4)
其中,hi是維度指標i的熵;樣本數(shù)量為n;k的計算公式為:
(5)
維度總共m個指標,第i個指標的權重計算公式為:
≤wi≤ (6)
由以上公式可獲得指標體系中五個維度下指標的權重。
(3)賦予維度權重
維度的權重屬于專家決策或者運營者決策的范疇,因此,維度權重di由專家打分法賦予,如表2所示:
表2 專家打分法賦予的維度權重
維度 身份特征 行為特征 信用歷史 賬戶狀況 人脈特征
權重 0.15 0.2 0.2 0.3 0.15
(4)計算樣本信用得分和等級
經(jīng)過上述步驟,可獲得指標歸一化標準分、維度指標權重、維度權重,則可以計算用戶的信用得分和信用等級。
設維度權重為di,維度指標權重為wi,樣本指標標準分為p,則:
維度得分公式為:
(7)
樣本信用得分公式為:
(8)
至此可得到每個樣本的信用得分。雖然對所有指標直接賦予權重也可以計算樣本得分,但是顯然使用熵值法更加科學準確,區(qū)分度更高。
3.3 構建分類決策樹模型
在訓練樣本中,除了采集原始的數(shù)據(jù)集外,還有一個通過計算出來的信用等級的指標,稱為決策指標。本文采用C4.5算法構建決策樹,首先將這個集合看成一個節(jié)點,然后選擇合適的屬性進行分裂。當判斷符合條件時,分裂結束,構建決策樹完成。
(1)選擇分裂屬性
C4.5算法在選擇分裂屬性時,選擇屬性熵增益率較高的優(yōu)先分裂。熵是用于衡量集合有序性(或者說“純度”)的一個度量。熵的增益率較高表明采用這個屬性分裂能最大限度提高整體的純度。
熵的計算公式是:
(9)
其中,Entropy(s)是集合s的熵,pi是屬性的不同性。比如一個集合有10個樣本,其中3個信用等級為2、5個信用等級為3、2個等級為4,則集合的不同性分別為3/10、5/10、2/10,而集合的熵為:
Entropy(s)=-3/10×log2(3/10)-1/2×log2(1/2)-
1/5×log2(1/5) (10)
熵的增益計算公式為:
(11)
其中,V(A)是屬性A的值域,S是樣本集合,Sv是S在屬性A上值等于v的樣本集合。
熵的增益率公式為:
(12)
其中:
(13)
其中,S1到Sc是c個值的屬性A分割S而形成的c個樣例子集。
使用增益比率代替增益來選擇屬性,會產(chǎn)生一個實際問題:當某個Si接近S時,分母可能為0或非常小。如果某個屬性對于S的所有樣例有幾乎同樣的值,這時要么導致增益比率未定義,要么是增益比率非常大。為了避免選擇這種屬性,可以采用這樣一些啟發(fā)式規(guī)則,比如先計算每個屬性的增益,然后僅對那些增益高過平均值的屬性應用增益比率測試(Quinlan 1986)。
(2)分裂節(jié)點
對于連續(xù)變量類型的指標,先對指標值進行排序,然后按定義bin的值,根據(jù)比例劃分成n份Sample,計算每份Sample的均值,選取相鄰兩個Sample均值的中間點作為切分點分裂。
對于離散變量,則分為兩種情況:當屬性值屬于有序變量時,直接按照屬離散屬性,每個屬性分裂成一個bin;當屬性變量屬于無序變量時,則遍歷所有的分裂組合,選擇熵的增益最小的分裂方式。
(3)分裂結束
重復以上過程,對每個屬性進行分裂,直到完成構建決策樹。判斷分裂是否結束的條件有:樹的高度是否達到最大值、樣本數(shù)量是否達到最小值、信息增益是否小于未分裂狀態(tài)。當分裂結束時,返回到該葉子節(jié)點中決策指標中比例最大的值。
(4)驗證模型
完成構建決策樹模型之后,對測量數(shù)據(jù)集進行預測,然后比較預測準確率,可以了解模型的預測準確率。實踐中,該模型經(jīng)過訓練后,準確率超過80%,具備一定的實用性。隨著后續(xù)運營中數(shù)據(jù)的持續(xù)積累和反復增量訓練,預計該模型的準確性和實用性會持續(xù)提高。
4 移動用戶信用評估模型應用
移動用戶信用評估模型的應用流程如圖2所示。信用評估系統(tǒng)從基礎數(shù)據(jù)模塊采集待評估用戶的基礎數(shù)據(jù),經(jīng)分析整理后計算熵值,構建決策樹模型進行評估。如果用戶對于授信平臺的評估結果有異議,可以向平臺提出核對申請,由平臺人工審核校正,人工矯正的數(shù)據(jù)可以作為下一輪訓練數(shù)據(jù)。外部平臺通過授信接口獲得移動用戶信用以后,作為用戶消費額度授信的基礎參考數(shù)據(jù)。
授信平臺信用接口模塊通過Web Service向外部提供信用查詢能力,移動用戶可通過公眾號、第三方平臺等方式獲取自己的信用狀況,如圖3所示:
5 結束語
本文建立了基于熵值法和決策樹的用戶信用評估模型,并充分利用了運營商的大數(shù)據(jù)優(yōu)勢,使用該模型實現(xiàn)了用戶信用的預測評估。該模型應用于移動用戶信用評估系統(tǒng),可以高效、靈活、準確地完成用戶信用的預測評估工作,減少了人工分析及更新的繁重工作量,具有科學性和實用性。
參考文獻:
[1] 趙靜嫻. 基于決策樹的信用風險評估方法研究[D]. 天津: 天津大學, 2009.
[2] 郭仌,梁世棟,方兆本. 消費者信用評估分析綜述[J]. 系統(tǒng)工程, 2001(6): 9-15.
[3] 申華. 基于數(shù)據(jù)挖掘的個人信用評分模型開發(fā)[D]. 廈門: 廈門大學, 2009.
[4] 葛繼科,趙永進,王振華,等. 數(shù)據(jù)挖掘技術在個人信用評估模型中的應用[J]. 計算機技術與發(fā)展, 2006(12): 172-174.
[5] 張麗娟,李舟軍. 分類方法的新發(fā)展:研究綜述[J]. 計算機科學, 2006(10): 11-15.
[6] 金劍,林成德. 基于混合型專家系統(tǒng)的資信評估系統(tǒng)模型設計與實現(xiàn)[J]. 計算機應用, 2003(4): 81-83.
[7] 王剛,韓立巖. 基于信息熵和回歸分析的信用風險評估研究[J]. 運籌與管理, 2003(5): 94-98.
[8] 葉中行,余敏杰. 基于遺傳算法和分類樹的信用分類方法[J]. 系統(tǒng)工程學報, 2006(4): 424-428.
[9] 李旭升,郭耀煌. 基于貝葉斯網(wǎng)絡分類的個人信用評估模型[J]. 統(tǒng)計與決策, 2006(20): 13-15.
[10] 田博,覃正. 電子商務中的信用模型研究[J]. 情報雜志, 2007,26(4): 42-44.