国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

移動用戶信用評估模型研究

2017-06-20 23:13:27黃英持鄭婷婷

移動通信 2017年11期

關鍵詞：決策樹增益信用

黃英持+鄭婷婷

【摘要】為了研究運營商如何利用大數(shù)據(jù)的優(yōu)勢提高移動用戶信用評估的科學性與準確性，基于熵值法和分類決策樹模型，建立了移動用戶信用評估模型，詳細分析其實現(xiàn)原理，并給出實際應用場景。通過具體的應用，證明該模型能減少人工分析中更新計算公式的繁重工作量，高效、靈活、準確地完成用戶信用預測評估工作，具有科學性和實用性。

信用評價熵值法分類決策樹

1 引言

2015年1月5日，中國人民銀行發(fā)布通知，允許8家機構進行個人征信業(yè)務，這被看作是個人征信體系即將向商業(yè)機構開放的信號，推動了各種互聯(lián)網(wǎng)征信平臺的蓬勃快速發(fā)展。在此之前，金融機構和民間團體主要通過央行個人征信報告來獲取信息，但是對于藍領工人、學生、個體戶、自由職業(yè)者等用戶，并沒能建立個人信用記錄，金融機構和民間團體了解這些用戶信用記錄的成本也比較高，可能無法對這些用戶的信用風險進行準確的判斷。

現(xiàn)有的互聯(lián)網(wǎng)征信平臺依托互聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)，有巨大的價值，雖然也無法覆蓋到個人用戶的方方面面，也存在一些盲點，但相比互聯(lián)網(wǎng)企業(yè)，移動運營商所擁有的數(shù)據(jù)資源是互聯(lián)網(wǎng)征信平臺先天缺失的，移動運營商在征信業(yè)務上有其獨特的、不可取代的優(yōu)勢，充分利用移動運營商擁有的優(yōu)質數(shù)據(jù)建立個人信用記錄，并與其他征信平臺合作整合，既能挖掘移動運營商的資產(chǎn)潛力，也能順應信息時代的發(fā)展潮流。

本文將立足于利用運營商大數(shù)據(jù)的優(yōu)勢提高移動用戶信用評估科學性、準確性的思想，基于熵值法和分類決策數(shù)模型，提出移動用戶信用評估方法與模型。

2 信用評估方法的歷史和現(xiàn)狀

信用評估方法大致經(jīng)歷了3個階段[1-2]：專家打分法、公式法、規(guī)則引擎計算法。

專家打分法由專家根據(jù)經(jīng)驗對每個離散指標值賦予指定的分數(shù)、每個指標賦予權重，然后綜合計算得出最終得分。專家打分法是最原始的評估方式，目前在一些特殊場景仍然使用這種方式，比如積分入戶、貸款審核等。

公式法是最簡單普及的信用評估方式，目前依然被廣泛使用。公式法由專家意見結合實際的業(yè)務運營經(jīng)驗制定出評估公式，計算機根據(jù)用戶的指標值可以直接計算出相應的信用得分。但隨著業(yè)務復雜度的增加和指標的膨脹，單一的公式法也體現(xiàn)出了明顯的局限性，無法適應業(yè)務需求，因此越來越多的系統(tǒng)采用規(guī)則引擎來實現(xiàn)。

規(guī)則引擎可以動態(tài)定義復雜的規(guī)則，在不同情況下采用不同的公式和參數(shù)計算。規(guī)則引擎法可以看作是加強版的公式法，但是仍然有許多局限性。這種方法計算方式更靈活，但是參數(shù)和公式仍然是預先擬定的，當業(yè)務情況發(fā)生變化時，仍然需要手動調整計算公式和規(guī)則、參數(shù)。

通過大數(shù)據(jù)進行評估預測[3-5]，是信用評估方法未來的方向，采用機器學習算法是基于大數(shù)據(jù)進行訓練學習的，其過程如圖1所示。采用機器學習算法可以使訓練、預測評估、反饋形成閉環(huán)，計算公式由大數(shù)據(jù)訓練產(chǎn)生，過程更加科學，只要定期運行訓練算法、更新模型就能應對業(yè)務情況的變化。

本文基于機器學習的信用評估方法，構建了信用評估的分類決策樹模型，該模型能提高信用評估的效率與準確性，現(xiàn)已應用于信用評估系統(tǒng)，能通過Web Service返回評估結果。

3 移動用戶信用評價方法

信用評價模型采用決策樹分類算法和決策樹回歸算法進行預測[5-9]。決策樹模型首先必須有滿足一定數(shù)量和質量的樣本訓練集進行訓練，形成決策樹模型，然后在運營過程中持續(xù)擴大訓練樣本，達到較高的準確度。具體步驟如下：

采用專家打分法結合熵值法估算樣本的評價取值；

對樣本進行訓練，形成決策樹和回歸樹模型；

使用測試樣本對模型進行驗證；

使用模型預測用戶信用等級和評價。

3.1 生成樣本數(shù)據(jù)集

從移動公司數(shù)據(jù)部大數(shù)據(jù)平臺可獲取特定指標體系模型的樣本數(shù)據(jù)，本文采集樣本為50 000筆數(shù)據(jù)，其中40 000筆用于訓練數(shù)據(jù)集，10 000筆用于模型驗證。樣本的分布必須滿足對指標取值范圍的有效覆蓋，因此，提取樣本數(shù)據(jù)后必須驗證樣本中指標值的范圍。比如在用戶類型中包括：鉆石卡、金卡、銀卡、VIP卡、普通用戶，每個值必須有接近實際比例的數(shù)量，其他指標集同理。

3.2 估算樣本信用

傳統(tǒng)的估算方法一般使用專家法或者公式法。原始的專家打分法工作量太大，且專家打分主觀性隨意性和波動性無法保證，而公式法的主觀性也較強[6，10]，因此本文采用專家打分法結合熵值法進行估算。具體步驟如下：

對參與估算的指標進行歸一標準化處理；

使用熵值法計算每個維度下面指標的權重；

使用專家打分法賦予維度權重；

使用指標權重和維度權重計算出信用得分；

根據(jù)信用得分賦予等級。

（1）指標歸一標準化

特征指標按類型可劃分為連續(xù)變量和離散變量。變量必須經(jīng)過歸一標準化處理后才能進行樣本集的信用積分和等級計算；對于離散變量，只有有序類型的指標才能參與計算。有序類型的指標由專家給出評分標準，如表1所示：

（2）計算維度指標權重

維度指標的權重計算采用熵值法。熵值法的基本思路是求出指標的熵，然后根據(jù)指標熵的冗余度求權重。熵值法的意義在于指標聚集度越高，則權重應該越低，防止計算出的結果區(qū)分度太低。假設有一個指標，絕大比例的樣本的得分均在區(qū)間[0.8， 0.9]中，則該指標的區(qū)分意義不大，權重應該降低。

計算維度指標i的熵采用的公式如下：

（3）

（4）

其中，hi是維度指標i的熵；樣本數(shù)量為n；k的計算公式為：

（5）

維度總共m個指標，第i個指標的權重計算公式為：

≤wi≤ （6）

由以上公式可獲得指標體系中五個維度下指標的權重。

（3）賦予維度權重

維度的權重屬于專家決策或者運營者決策的范疇，因此，維度權重di由專家打分法賦予，如表2所示：

表2 專家打分法賦予的維度權重

維度身份特征行為特征信用歷史賬戶狀況人脈特征

權重 0.15 0.2 0.2 0.3 0.15

（4）計算樣本信用得分和等級

經(jīng)過上述步驟，可獲得指標歸一化標準分、維度指標權重、維度權重，則可以計算用戶的信用得分和信用等級。

設維度權重為di，維度指標權重為wi，樣本指標標準分為p，則：

維度得分公式為：

（7）

樣本信用得分公式為：

（8）

至此可得到每個樣本的信用得分。雖然對所有指標直接賦予權重也可以計算樣本得分，但是顯然使用熵值法更加科學準確，區(qū)分度更高。

3.3 構建分類決策樹模型

在訓練樣本中，除了采集原始的數(shù)據(jù)集外，還有一個通過計算出來的信用等級的指標，稱為決策指標。本文采用C4.5算法構建決策樹，首先將這個集合看成一個節(jié)點，然后選擇合適的屬性進行分裂。當判斷符合條件時，分裂結束，構建決策樹完成。

（1）選擇分裂屬性

C4.5算法在選擇分裂屬性時，選擇屬性熵增益率較高的優(yōu)先分裂。熵是用于衡量集合有序性（或者說“純度”）的一個度量。熵的增益率較高表明采用這個屬性分裂能最大限度提高整體的純度。

熵的計算公式是：

（9）

其中，Entropy（s）是集合s的熵，pi是屬性的不同性。比如一個集合有10個樣本，其中3個信用等級為2、5個信用等級為3、2個等級為4，則集合的不同性分別為3/10、5/10、2/10，而集合的熵為：

Entropy（s）=-3/10×log2（3/10）-1/2×log2（1/2）-

1/5×log2（1/5）（10）

熵的增益計算公式為：

（11）

其中，V（A）是屬性A的值域，S是樣本集合，Sv是S在屬性A上值等于v的樣本集合。

熵的增益率公式為：

（12）

其中：

（13）

其中，S1到Sc是c個值的屬性A分割S而形成的c個樣例子集。

使用增益比率代替增益來選擇屬性，會產(chǎn)生一個實際問題：當某個Si接近S時，分母可能為0或非常小。如果某個屬性對于S的所有樣例有幾乎同樣的值，這時要么導致增益比率未定義，要么是增益比率非常大。為了避免選擇這種屬性，可以采用這樣一些啟發(fā)式規(guī)則，比如先計算每個屬性的增益，然后僅對那些增益高過平均值的屬性應用增益比率測試（Quinlan 1986）。

（2）分裂節(jié)點

對于連續(xù)變量類型的指標，先對指標值進行排序，然后按定義bin的值，根據(jù)比例劃分成n份Sample，計算每份Sample的均值，選取相鄰兩個Sample均值的中間點作為切分點分裂。

對于離散變量，則分為兩種情況：當屬性值屬于有序變量時，直接按照屬離散屬性，每個屬性分裂成一個bin；當屬性變量屬于無序變量時，則遍歷所有的分裂組合，選擇熵的增益最小的分裂方式。

（3）分裂結束

重復以上過程，對每個屬性進行分裂，直到完成構建決策樹。判斷分裂是否結束的條件有：樹的高度是否達到最大值、樣本數(shù)量是否達到最小值、信息增益是否小于未分裂狀態(tài)。當分裂結束時，返回到該葉子節(jié)點中決策指標中比例最大的值。

（4）驗證模型

完成構建決策樹模型之后，對測量數(shù)據(jù)集進行預測，然后比較預測準確率，可以了解模型的預測準確率。實踐中，該模型經(jīng)過訓練后，準確率超過80%，具備一定的實用性。隨著后續(xù)運營中數(shù)據(jù)的持續(xù)積累和反復增量訓練，預計該模型的準確性和實用性會持續(xù)提高。

4 移動用戶信用評估模型應用

移動用戶信用評估模型的應用流程如圖2所示。信用評估系統(tǒng)從基礎數(shù)據(jù)模塊采集待評估用戶的基礎數(shù)據(jù)，經(jīng)分析整理后計算熵值，構建決策樹模型進行評估。如果用戶對于授信平臺的評估結果有異議，可以向平臺提出核對申請，由平臺人工審核校正，人工矯正的數(shù)據(jù)可以作為下一輪訓練數(shù)據(jù)。外部平臺通過授信接口獲得移動用戶信用以后，作為用戶消費額度授信的基礎參考數(shù)據(jù)。

授信平臺信用接口模塊通過Web Service向外部提供信用查詢能力，移動用戶可通過公眾號、第三方平臺等方式獲取自己的信用狀況，如圖3所示：

5 結束語

本文建立了基于熵值法和決策樹的用戶信用評估模型，并充分利用了運營商的大數(shù)據(jù)優(yōu)勢，使用該模型實現(xiàn)了用戶信用的預測評估。該模型應用于移動用戶信用評估系統(tǒng)，可以高效、靈活、準確地完成用戶信用的預測評估工作，減少了人工分析及更新的繁重工作量，具有科學性和實用性。

參考文獻：

[1] 趙靜嫻. 基于決策樹的信用風險評估方法研究[D]. 天津：天津大學， 2009.

[2] 郭仌，梁世棟，方兆本. 消費者信用評估分析綜述[J]. 系統(tǒng)工程， 2001（6）： 9-15.

[3] 申華. 基于數(shù)據(jù)挖掘的個人信用評分模型開發(fā)[D]. 廈門：廈門大學， 2009.

[4] 葛繼科，趙永進，王振華，等. 數(shù)據(jù)挖掘技術在個人信用評估模型中的應用[J]. 計算機技術與發(fā)展， 2006（12）： 172-174.

[5] 張麗娟，李舟軍. 分類方法的新發(fā)展：研究綜述[J]. 計算機科學， 2006（10）： 11-15.

[6] 金劍，林成德. 基于混合型專家系統(tǒng)的資信評估系統(tǒng)模型設計與實現(xiàn)[J]. 計算機應用， 2003（4）： 81-83.

[7] 王剛，韓立巖. 基于信息熵和回歸分析的信用風險評估研究[J]. 運籌與管理， 2003（5）： 94-98.

[8] 葉中行，余敏杰. 基于遺傳算法和分類樹的信用分類方法[J]. 系統(tǒng)工程學報， 2006（4）： 424-428.

[9] 李旭升，郭耀煌. 基于貝葉斯網(wǎng)絡分類的個人信用評估模型[J]. 統(tǒng)計與決策， 2006（20）： 13-15.

[10] 田博，覃正. 電子商務中的信用模型研究[J]. 情報雜志， 2007，26（4）： 42-44.

猜你喜歡

決策樹增益信用

基于增益調度與光滑切換的傾轉旋翼機最優(yōu)控制

北京航空航天大學學報(2021年6期)2021-07-20 07:23:56

為食品安全加把“信用鎖”

公民與法治(2020年20期)2020-11-27 01:44:42

基于單片機的程控增益放大器設計

電子制作(2019年19期)2019-11-23 08:41:36

一種針對不均衡數(shù)據(jù)集的SVM決策樹算法

成都信息工程大學學報(2019年3期)2019-09-25 08:31:20

信用收縮是否結束

中國外匯(2019年9期)2019-07-13 05:46:30

基于Multisim10和AD603的程控增益放大器仿真研究

電子制作(2018年19期)2018-11-14 02:37:02

決策樹和隨機森林方法在管理決策中的應用

電子制作(2018年16期)2018-09-26 03:27:06

信用中國網(wǎng)

中國設備工程(2017年7期)2017-04-10 08:09:12

信用消費有多爽？

瞭望東方周刊(2016年45期)2016-12-07 16:03:39

基于決策樹的出租車乘客出行目的識別

中央民族大學學報(自然科學版)(2016年4期)2016-06-27 08:06:04

移動通信2017年11期

移動通信的其它文章: 2G退市后語音業(yè)務支撐問題探討; 2G清頻退市問題研究; TD—LTE和LTE FDD載波聚合部署策略分析及性能評估; 中國移動LTE FDD&TDD載波聚合部署建議; 高階MIMO實驗驗證及商用分析; 在800?MHz頻段進行C/L雙模組網(wǎng)的策略淺析及實例測試

清远市| 金坛市| 凤山县| 昂仁县| 广元市| 怀远县| 玉门市| 孟州市| 麦盖提县| 恩施市| 肃南| 德兴市| 珠海市| 鄯善县| 杭锦旗| 曲沃县| 绥中县| 翼城县| 云霄县| 开封市| 金华市| 安新县| 永登县| 那曲县| 随州市| 调兵山市| 手游| 雷州市| 定远县| 固镇县| 方山县| 白朗县| 宁津县| 晋中市| 县级市| 临邑县| 乌恰县| 司法| 元氏县| 福海县| 大姚县|