馬楠藍 李雨芹 曹 云 吳沁欣
(西華大學(xué),四川 成都 610039)
在構(gòu)建該信用風(fēng)險評估系統(tǒng)時,一是采用的是Weka軟件。該軟件能對數(shù)據(jù)進行初步處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則等,并實現(xiàn)可視化操作。本文對收集的數(shù)據(jù)采用了初步處理、利用Apriori關(guān)聯(lián)規(guī)則挖掘分析的方法。
二是利用MSBNx貝葉斯網(wǎng)分類工具,采用貝葉斯信念網(wǎng)絡(luò)分類進行類型劃分,利用相關(guān)的算法。以此確定出因素之間的相關(guān)關(guān)系以及相應(yīng)的概率,為模型的建立以及結(jié)論的產(chǎn)生提供參考依據(jù)。
本文選取6類最具代表性的指標,即財產(chǎn)狀況、年齡、婚姻狀況、有無固定電話、信用保證金額、信用等級。由于Weka軟件只識別英文,將以上6類用英文代替,分別是property、age、status、telephone、credit amount、class。調(diào)查結(jié)果如表1所示。
表1 樣本調(diào)查結(jié)果
首先對數(shù)據(jù)進行初步處理,以保證數(shù)據(jù)挖掘的質(zhì)量。依次進行數(shù)據(jù)缺失項處理;數(shù)據(jù)的標準化處理;數(shù)據(jù)的規(guī)范化處理,規(guī)范到[-1,+1]區(qū)間。
使用Apriori算法獲取關(guān)聯(lián)信息并進行分析,對初步處理的數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘。采用支持度、置信度2個指標,分別確定數(shù)據(jù)集的頻繁程度、Y在包含X的事物出現(xiàn)的概率。同時將滿足最小支持度、最小置信度閾值的規(guī)則稱為強規(guī)則。
首先,采用支持度閾值為25%、置信度閾值為85%,對挖掘的最佳關(guān)聯(lián)規(guī)則第 1、2條進行分析。結(jié)果表明有房產(chǎn)與信用額度有強關(guān)聯(lián)(lift=1.22>1);年齡在35~49與信用額度小關(guān)聯(lián)較小(lift=1.07)。隨后采用置信度閾值為55%進行分析,找出:“status=male single,telephone=none ==> property=real estate”規(guī)則的置信度和提升讀。結(jié)果表明有房產(chǎn)單身男性與沒有電話號碼有強關(guān)聯(lián)規(guī)(lift=1.22)。
通過上述過程得出的結(jié)果,運用MSBNx工具中的貝葉斯信念網(wǎng)絡(luò)分類方法進行分析,得出最終的結(jié)果。
貝葉斯信念網(wǎng)絡(luò)分類:首先,將年齡與信用額度離散成 3類,得到年齡與信用額度離散結(jié)果,隨后,構(gòu)建貝葉斯信念網(wǎng)絡(luò)分類進行類型劃分,如圖1中橢圓圈及箭頭所構(gòu)成的網(wǎng)絡(luò)。最后,可求得信用等級(class)好(Good)、壞(bad)的概率。例:求“有車、年齡超過 50歲、無電話、信用額小于 3000”的信貸評級。
圖1 信用風(fēng)險評估結(jié)果
根據(jù)系統(tǒng)給出的結(jié)果得出good、bad概率分別為0.835443、0.164557,信用等級好的概率大,故銀行可提供貸款給借款人。
由于實際情況復(fù)雜,本文只選取6類代表性指標調(diào)查,設(shè)計出信用風(fēng)險評估系統(tǒng),并給出操作示范。最終決策客觀、規(guī)范,實現(xiàn)風(fēng)險控制的目標。同時為其他需要信用風(fēng)險評估的機構(gòu)或組織提供了一個有效的操作方法,這是該信用風(fēng)險評估系統(tǒng)更為深層的作用。