国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

移動用戶信用評估模型研究

2017-06-20 23:13:27黃英持鄭婷婷
移動通信 2017年11期
關鍵詞:決策樹增益信用

黃英持+鄭婷婷

【摘 要】為了研究運營商如何利用大數(shù)據(jù)的優(yōu)勢提高移動用戶信用評估的科學性與準確性,基于熵值法和分類決策樹模型,建立了移動用戶信用評估模型,詳細分析其實現(xiàn)原理,并給出實際應用場景。通過具體的應用,證明該模型能減少人工分析中更新計算公式的繁重工作量,高效、靈活、準確地完成用戶信用預測評估工作,具有科學性和實用性。

信用評價 熵值法 分類決策樹

1 引言

2015年1月5日,中國人民銀行發(fā)布通知,允許8家機構進行個人征信業(yè)務,這被看作是個人征信體系即將向商業(yè)機構開放的信號,推動了各種互聯(lián)網(wǎng)征信平臺的蓬勃快速發(fā)展。在此之前,金融機構和民間團體主要通過央行個人征信報告來獲取信息,但是對于藍領工人、學生、個體戶、自由職業(yè)者等用戶,并沒能建立個人信用記錄,金融機構和民間團體了解這些用戶信用記錄的成本也比較高,可能無法對這些用戶的信用風險進行準確的判斷。

現(xiàn)有的互聯(lián)網(wǎng)征信平臺依托互聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù),有巨大的價值,雖然也無法覆蓋到個人用戶的方方面面,也存在一些盲點,但相比互聯(lián)網(wǎng)企業(yè),移動運營商所擁有的數(shù)據(jù)資源是互聯(lián)網(wǎng)征信平臺先天缺失的,移動運營商在征信業(yè)務上有其獨特的、不可取代的優(yōu)勢,充分利用移動運營商擁有的優(yōu)質數(shù)據(jù)建立個人信用記錄,并與其他征信平臺合作整合,既能挖掘移動運營商的資產(chǎn)潛力,也能順應信息時代的發(fā)展潮流。

本文將立足于利用運營商大數(shù)據(jù)的優(yōu)勢提高移動用戶信用評估科學性、準確性的思想,基于熵值法和分類決策數(shù)模型,提出移動用戶信用評估方法與模型。

2 信用評估方法的歷史和現(xiàn)狀

信用評估方法大致經(jīng)歷了3個階段[1-2]:專家打分法、公式法、規(guī)則引擎計算法。

專家打分法由專家根據(jù)經(jīng)驗對每個離散指標值賦予指定的分數(shù)、每個指標賦予權重,然后綜合計算得出最終得分。專家打分法是最原始的評估方式,目前在一些特殊場景仍然使用這種方式,比如積分入戶、貸款審核等。

公式法是最簡單普及的信用評估方式,目前依然被廣泛使用。公式法由專家意見結合實際的業(yè)務運營經(jīng)驗制定出評估公式,計算機根據(jù)用戶的指標值可以直接計算出相應的信用得分。但隨著業(yè)務復雜度的增加和指標的膨脹,單一的公式法也體現(xiàn)出了明顯的局限性,無法適應業(yè)務需求,因此越來越多的系統(tǒng)采用規(guī)則引擎來實現(xiàn)。

規(guī)則引擎可以動態(tài)定義復雜的規(guī)則,在不同情況下采用不同的公式和參數(shù)計算。規(guī)則引擎法可以看作是加強版的公式法,但是仍然有許多局限性。這種方法計算方式更靈活,但是參數(shù)和公式仍然是預先擬定的,當業(yè)務情況發(fā)生變化時,仍然需要手動調整計算公式和規(guī)則、參數(shù)。

通過大數(shù)據(jù)進行評估預測[3-5],是信用評估方法未來的方向,采用機器學習算法是基于大數(shù)據(jù)進行訓練學習的,其過程如圖1所示。采用機器學習算法可以使訓練、預測評估、反饋形成閉環(huán),計算公式由大數(shù)據(jù)訓練產(chǎn)生,過程更加科學,只要定期運行訓練算法、更新模型就能應對業(yè)務情況的變化。

本文基于機器學習的信用評估方法,構建了信用評估的分類決策樹模型,該模型能提高信用評估的效率與準確性,現(xiàn)已應用于信用評估系統(tǒng),能通過Web Service返回評估結果。

3 移動用戶信用評價方法

信用評價模型采用決策樹分類算法和決策樹回歸算法進行預測[5-9]。決策樹模型首先必須有滿足一定數(shù)量和質量的樣本訓練集進行訓練,形成決策樹模型,然后在運營過程中持續(xù)擴大訓練樣本,達到較高的準確度。具體步驟如下:

采用專家打分法結合熵值法估算樣本的評價取值;

對樣本進行訓練,形成決策樹和回歸樹模型;

使用測試樣本對模型進行驗證;

使用模型預測用戶信用等級和評價。

3.1 生成樣本數(shù)據(jù)集

從移動公司數(shù)據(jù)部大數(shù)據(jù)平臺可獲取特定指標體系模型的樣本數(shù)據(jù),本文采集樣本為50 000筆數(shù)據(jù),其中40 000筆用于訓練數(shù)據(jù)集,10 000筆用于模型驗證。樣本的分布必須滿足對指標取值范圍的有效覆蓋,因此,提取樣本數(shù)據(jù)后必須驗證樣本中指標值的范圍。比如在用戶類型中包括:鉆石卡、金卡、銀卡、VIP卡、普通用戶,每個值必須有接近實際比例的數(shù)量,其他指標集同理。

3.2 估算樣本信用

傳統(tǒng)的估算方法一般使用專家法或者公式法。原始的專家打分法工作量太大,且專家打分主觀性隨意性和波動性無法保證,而公式法的主觀性也較強[6,10],因此本文采用專家打分法結合熵值法進行估算。具體步驟如下:

對參與估算的指標進行歸一標準化處理;

使用熵值法計算每個維度下面指標的權重;

使用專家打分法賦予維度權重;

使用指標權重和維度權重計算出信用得分;

根據(jù)信用得分賦予等級。

(1)指標歸一標準化

特征指標按類型可劃分為連續(xù)變量和離散變量。變量必須經(jīng)過歸一標準化處理后才能進行樣本集的信用積分和等級計算;對于離散變量,只有有序類型的指標才能參與計算。有序類型的指標由專家給出評分標準,如表1所示:

(2)計算維度指標權重

維度指標的權重計算采用熵值法。熵值法的基本思路是求出指標的熵,然后根據(jù)指標熵的冗余度求權重。熵值法的意義在于指標聚集度越高,則權重應該越低,防止計算出的結果區(qū)分度太低。假設有一個指標,絕大比例的樣本的得分均在區(qū)間[0.8, 0.9]中,則該指標的區(qū)分意義不大,權重應該降低。

計算維度指標i的熵采用的公式如下:

(3)

(4)

其中,hi是維度指標i的熵;樣本數(shù)量為n;k的計算公式為:

(5)

維度總共m個指標,第i個指標的權重計算公式為:

≤wi≤ (6)

由以上公式可獲得指標體系中五個維度下指標的權重。

(3)賦予維度權重

維度的權重屬于專家決策或者運營者決策的范疇,因此,維度權重di由專家打分法賦予,如表2所示:

表2 專家打分法賦予的維度權重

維度 身份特征 行為特征 信用歷史 賬戶狀況 人脈特征

權重 0.15 0.2 0.2 0.3 0.15

(4)計算樣本信用得分和等級

經(jīng)過上述步驟,可獲得指標歸一化標準分、維度指標權重、維度權重,則可以計算用戶的信用得分和信用等級。

設維度權重為di,維度指標權重為wi,樣本指標標準分為p,則:

維度得分公式為:

(7)

樣本信用得分公式為:

(8)

至此可得到每個樣本的信用得分。雖然對所有指標直接賦予權重也可以計算樣本得分,但是顯然使用熵值法更加科學準確,區(qū)分度更高。

3.3 構建分類決策樹模型

在訓練樣本中,除了采集原始的數(shù)據(jù)集外,還有一個通過計算出來的信用等級的指標,稱為決策指標。本文采用C4.5算法構建決策樹,首先將這個集合看成一個節(jié)點,然后選擇合適的屬性進行分裂。當判斷符合條件時,分裂結束,構建決策樹完成。

(1)選擇分裂屬性

C4.5算法在選擇分裂屬性時,選擇屬性熵增益率較高的優(yōu)先分裂。熵是用于衡量集合有序性(或者說“純度”)的一個度量。熵的增益率較高表明采用這個屬性分裂能最大限度提高整體的純度。

熵的計算公式是:

(9)

其中,Entropy(s)是集合s的熵,pi是屬性的不同性。比如一個集合有10個樣本,其中3個信用等級為2、5個信用等級為3、2個等級為4,則集合的不同性分別為3/10、5/10、2/10,而集合的熵為:

Entropy(s)=-3/10×log2(3/10)-1/2×log2(1/2)-

1/5×log2(1/5) (10)

熵的增益計算公式為:

(11)

其中,V(A)是屬性A的值域,S是樣本集合,Sv是S在屬性A上值等于v的樣本集合。

熵的增益率公式為:

(12)

其中:

(13)

其中,S1到Sc是c個值的屬性A分割S而形成的c個樣例子集。

使用增益比率代替增益來選擇屬性,會產(chǎn)生一個實際問題:當某個Si接近S時,分母可能為0或非常小。如果某個屬性對于S的所有樣例有幾乎同樣的值,這時要么導致增益比率未定義,要么是增益比率非常大。為了避免選擇這種屬性,可以采用這樣一些啟發(fā)式規(guī)則,比如先計算每個屬性的增益,然后僅對那些增益高過平均值的屬性應用增益比率測試(Quinlan 1986)。

(2)分裂節(jié)點

對于連續(xù)變量類型的指標,先對指標值進行排序,然后按定義bin的值,根據(jù)比例劃分成n份Sample,計算每份Sample的均值,選取相鄰兩個Sample均值的中間點作為切分點分裂。

對于離散變量,則分為兩種情況:當屬性值屬于有序變量時,直接按照屬離散屬性,每個屬性分裂成一個bin;當屬性變量屬于無序變量時,則遍歷所有的分裂組合,選擇熵的增益最小的分裂方式。

(3)分裂結束

重復以上過程,對每個屬性進行分裂,直到完成構建決策樹。判斷分裂是否結束的條件有:樹的高度是否達到最大值、樣本數(shù)量是否達到最小值、信息增益是否小于未分裂狀態(tài)。當分裂結束時,返回到該葉子節(jié)點中決策指標中比例最大的值。

(4)驗證模型

完成構建決策樹模型之后,對測量數(shù)據(jù)集進行預測,然后比較預測準確率,可以了解模型的預測準確率。實踐中,該模型經(jīng)過訓練后,準確率超過80%,具備一定的實用性。隨著后續(xù)運營中數(shù)據(jù)的持續(xù)積累和反復增量訓練,預計該模型的準確性和實用性會持續(xù)提高。

4 移動用戶信用評估模型應用

移動用戶信用評估模型的應用流程如圖2所示。信用評估系統(tǒng)從基礎數(shù)據(jù)模塊采集待評估用戶的基礎數(shù)據(jù),經(jīng)分析整理后計算熵值,構建決策樹模型進行評估。如果用戶對于授信平臺的評估結果有異議,可以向平臺提出核對申請,由平臺人工審核校正,人工矯正的數(shù)據(jù)可以作為下一輪訓練數(shù)據(jù)。外部平臺通過授信接口獲得移動用戶信用以后,作為用戶消費額度授信的基礎參考數(shù)據(jù)。

授信平臺信用接口模塊通過Web Service向外部提供信用查詢能力,移動用戶可通過公眾號、第三方平臺等方式獲取自己的信用狀況,如圖3所示:

5 結束語

本文建立了基于熵值法和決策樹的用戶信用評估模型,并充分利用了運營商的大數(shù)據(jù)優(yōu)勢,使用該模型實現(xiàn)了用戶信用的預測評估。該模型應用于移動用戶信用評估系統(tǒng),可以高效、靈活、準確地完成用戶信用的預測評估工作,減少了人工分析及更新的繁重工作量,具有科學性和實用性。

參考文獻:

[1] 趙靜嫻. 基于決策樹的信用風險評估方法研究[D]. 天津: 天津大學, 2009.

[2] 郭仌,梁世棟,方兆本. 消費者信用評估分析綜述[J]. 系統(tǒng)工程, 2001(6): 9-15.

[3] 申華. 基于數(shù)據(jù)挖掘的個人信用評分模型開發(fā)[D]. 廈門: 廈門大學, 2009.

[4] 葛繼科,趙永進,王振華,等. 數(shù)據(jù)挖掘技術在個人信用評估模型中的應用[J]. 計算機技術與發(fā)展, 2006(12): 172-174.

[5] 張麗娟,李舟軍. 分類方法的新發(fā)展:研究綜述[J]. 計算機科學, 2006(10): 11-15.

[6] 金劍,林成德. 基于混合型專家系統(tǒng)的資信評估系統(tǒng)模型設計與實現(xiàn)[J]. 計算機應用, 2003(4): 81-83.

[7] 王剛,韓立巖. 基于信息熵和回歸分析的信用風險評估研究[J]. 運籌與管理, 2003(5): 94-98.

[8] 葉中行,余敏杰. 基于遺傳算法和分類樹的信用分類方法[J]. 系統(tǒng)工程學報, 2006(4): 424-428.

[9] 李旭升,郭耀煌. 基于貝葉斯網(wǎng)絡分類的個人信用評估模型[J]. 統(tǒng)計與決策, 2006(20): 13-15.

[10] 田博,覃正. 電子商務中的信用模型研究[J]. 情報雜志, 2007,26(4): 42-44.

猜你喜歡
決策樹增益信用
基于增益調度與光滑切換的傾轉旋翼機最優(yōu)控制
為食品安全加把“信用鎖”
基于單片機的程控增益放大器設計
電子制作(2019年19期)2019-11-23 08:41:36
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
信用收縮是否結束
中國外匯(2019年9期)2019-07-13 05:46:30
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
信用中國網(wǎng)
信用消費有多爽?
基于決策樹的出租車乘客出行目的識別
清远市| 金坛市| 凤山县| 昂仁县| 广元市| 怀远县| 玉门市| 孟州市| 麦盖提县| 恩施市| 肃南| 德兴市| 珠海市| 鄯善县| 杭锦旗| 曲沃县| 绥中县| 翼城县| 云霄县| 开封市| 金华市| 安新县| 永登县| 那曲县| 随州市| 调兵山市| 手游| 雷州市| 定远县| 固镇县| 方山县| 白朗县| 宁津县| 晋中市| 县级市| 临邑县| 乌恰县| 司法| 元氏县| 福海县| 大姚县|