◆馬宇州/ 東北農(nóng)業(yè)大學(xué) 隋學(xué)深/ 審計署審計科研所
我國商業(yè)銀行貸款風(fēng)險等級分類通常采用五級分類法。貸款五級分類法是以借款人的償還能力為核心,把銀行貸款按風(fēng)險程度或質(zhì)量高低分為正常貸款、關(guān)注貸款、次級貸款、可疑貸款和損失貸款五大類。有兩類屬于正常貸款,后三類屬于不良貸款。審計人員在對貸款風(fēng)險等級分類真實(shí)性進(jìn)行審計時,除了希望發(fā)現(xiàn)正常貸款和不良貸款之間相互錯分的情況外,還希望挖掘出正常貸款和不良貸款數(shù)據(jù)各自具有的分類規(guī)則特征。本文就是運(yùn)用決策樹方法挖掘分類規(guī)劃。決策樹方法是利用信息論中的信息增益尋找示例數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分支;之后在每個分支集中重復(fù)建立樹的下一個節(jié)點(diǎn)和分支,樹的質(zhì)量取決于分類精度和樹的大小。
從某商業(yè)銀行某一級分行某年度“借款憑證表”中隨機(jī)采集了10 萬條貸款記錄作為實(shí)驗(yàn)的原始數(shù)據(jù)。由于不良貸款(次級貸款、可疑貸款和損失貸款)記錄數(shù)占比較低,從10萬條貸款記錄中按照最大化的原則選擇出5350 條屬于不良貸款記錄的數(shù)據(jù)標(biāo)記為B 類數(shù)據(jù)。考慮到?jīng)Q策樹算法對類平衡的要求,即要使輸入決策樹運(yùn)算的兩類數(shù)據(jù)量大體相當(dāng),所以,從10萬條貸款記錄中隨機(jī)選擇出5343條屬于正常貸款(正常貸款和關(guān)注貸款)的數(shù)據(jù)標(biāo)記為A 類數(shù)據(jù)。A 類數(shù)據(jù)和B 類數(shù)據(jù)共10693 個貸款記錄數(shù)據(jù)作為初始實(shí)驗(yàn)數(shù)據(jù)。
根據(jù)對商業(yè)銀行“借款憑證表”中字段經(jīng)濟(jì)含義的理解,我們剔除那些和貸款五級分類耦合性較強(qiáng)的字段,為了提高運(yùn)算速度,還剔除了對正常貸款和不良貸款分類不相關(guān)的字段,即那些對分類沒有價值的字段。根據(jù)以上原則,我們對“借款憑證表”中的42 個字段進(jìn)行了屬性約簡,剔除掉的字段屬性有:借款憑證編號、借款合同編號、客戶代碼、機(jī)構(gòu)編碼、項(xiàng)目編號、借款憑證原始號碼、貸款類別、專項(xiàng)貸款類別、借款用途、貸款賬號、還款方式、分期還款周期標(biāo)志、保證形式、擔(dān)保合同編號、貸款四級分類、貸款五級分類、表內(nèi)欠息五級分類、表外欠息五級分類、訴訟時效提示日、操作員和增量標(biāo)志等共21 個;保留下來的字段屬性有:貸款性質(zhì)分類、貸款期限分類、基準(zhǔn)利率、利率浮動幅度百分比、幣種、借款金額、借款日期、到期日期、展期到期日、本憑證累計收回貸款、本憑證貸款余額、核銷金額、擔(dān)保方式、累計實(shí)收利息、利息收入、表內(nèi)應(yīng)收利息、表外應(yīng)收利息、表內(nèi)實(shí)收利息、表外實(shí)收利息、是否以資抵債和操作日期等共21個。
1.決策表構(gòu)建。用經(jīng)過預(yù)處理后的含有10693個A、B類混合數(shù)據(jù)構(gòu)建決策表。
2.決策表數(shù)據(jù)結(jié)構(gòu)說明。決策表中包含了21個經(jīng)過約簡后的屬性,由于算法計算過程中應(yīng)用的是屬性的英文名稱,為了方便對實(shí)驗(yàn)結(jié)果的理解,我們建立了21個條件屬性的英漢對照及屬性經(jīng)濟(jì)含義表,如表1所示。
圖1:銀行風(fēng)險等級分類規(guī)則提取決策樹
決策表中的決策屬性為貸款記錄的正常貸款或不良貸款分類,其中正常貸款類在決策表決策屬性中標(biāo)記為1,不良貸款類標(biāo)記為2。然后對決策表應(yīng)用基于決策樹的REPTree算法進(jìn)行分類規(guī)則挖掘,其模型參數(shù)為trees.REPTree-M30-V 0.0010-N3-S1-L-1,為了方便解釋和表述,我們將葉子結(jié)點(diǎn)限定的最小事件數(shù)選定為30 個,這樣決策數(shù)的規(guī)模為29,即Size of the tree:29。實(shí)驗(yàn)構(gòu)建的決策樹如圖1 所示,其分類規(guī)則提取表如圖2所示。
表1:實(shí)驗(yàn)數(shù)據(jù)屬性名稱英漢對照及經(jīng)濟(jì)含義表
圖2:REPTree算法對銀行風(fēng)險等級分類規(guī)則提取表
由圖2決策樹可見,利率浮動幅度百分比(LV_FLOATRANGE)這個屬性處于決策樹的根結(jié)點(diǎn)上,說明在本決策表中其分類能力是最強(qiáng)的,其次是操作日期(LV_OPDATE)這個屬性,還有借款金額(LV_LOANSUM)、本憑證貸款余額(LV_REST)、表外應(yīng)收利息(LV_ORECVINT)、擔(dān)保方式(LV_GUARWAY)、本憑證累計收回貸款(LV_TOTREPAY)和到期日期(LV_ENDDATE)等條件屬性都對正常貸款與不良貸款具有一定的分類能力。
由圖2可見,REPTree算法共提取出15條銀行風(fēng)險等級分類規(guī)則。以規(guī)則LV_FLOATRANGE <0.5 and LV_OPDATE <20090201 and LV_LOANSUM < 6225 and LV_OPDATE >=20071127: 1.97 (396/0.03) [205/0.03]為例,該項(xiàng)分類規(guī)則的含義是在決策表中條件屬性滿足利率浮動幅度百分比(LV_FLOATRANGE)小于0.5,操作日期(LV_OPDATE)在2007年11月27日和2009年2月1日之間,且借款金額(LV_LOANSUM)小于6225 萬元的事件共有604 個,其中屬于第2類(不良貸款類)的有396 個,屬于第1 類(正常貸款類)的有205 個,該項(xiàng)關(guān)聯(lián)規(guī)則在全體樣本集中發(fā)生的概率為(396+205)/10693=5.62%,即其支持度為5.62%,其置信度為396/(396+205)=65.6%,也就是說,當(dāng)某一條記錄滿足上述分類規(guī)則的條件時,那么該條貸款記錄屬于不良貸款的可能性是65.6%。
再以規(guī)則LV_FLOATRANGE >=0.5 and LV_OPDATE <20071004 and LV_FLOATRANGE >= 20.75 : 1.84(452/0.14)[238/0.12]為例,該項(xiàng)分類規(guī)則的含義是在決策表中條件屬性滿足利率浮動幅度百分比(LV_FLOATRANGE)大于0.5 且小于20.75,且操作日期(LV_OPDATE)在2007年10月4日之前的事件共有690 個,其中屬于第2 類(不良貸款類)的有452個,屬于第1 類(正常貸款類)的有238 個,該項(xiàng)分類規(guī)則在全體樣本集中發(fā)生的概率為(452+238)/10693=6.45%,即其支持度為6.45%,其置信度為452/(452+238)=65.5%,也就是說,當(dāng)某一條記錄滿足上述規(guī)則的條件時,那么該條貸款記錄屬于不良貸款的可能性是65.5%。
由于我們?yōu)榱丝刂茮Q策樹的規(guī)模,將葉子結(jié)點(diǎn)限定的最小事件數(shù)選定為30個,從而限制了其提取分類規(guī)則的置信度。如果我們將葉子結(jié)點(diǎn)限定的最小事件數(shù)選定為2 個,那么其決策樹的規(guī)模將大幅增加為231,在分類規(guī)則置信度提高的同時,其相應(yīng)的支持度也大幅下降。
確性,因此,對類似不純數(shù)據(jù)的提純處理是該領(lǐng)域未來進(jìn)行深入研究的一個重點(diǎn)。
本文的實(shí)驗(yàn)結(jié)果在一定程度上揭示了商業(yè)銀行信貸資產(chǎn)風(fēng)險等級分類的相關(guān)規(guī)律,有助于增強(qiáng)金融審計人員對不良貸款和正常貸款分類數(shù)量特征的理解。由于本研究采用的商業(yè)銀行實(shí)際生產(chǎn)數(shù)據(jù)中,可能存在一小部分不良貸款和正常貸款之間被相互錯分的情況,即商業(yè)銀行為使不良貸款率達(dá)標(biāo),將不良貸款人為錯分為正常貸款的情況;也可能存在少部分將正常貸款人為錯分為不良貸款的情況。這在一定程度上會干擾決策樹算法對分類規(guī)則提取的正
黃石市西塞山區(qū)審計局黨支部深入田園社區(qū),認(rèn)領(lǐng)社區(qū)困難群眾的“微心愿”,把溫暖送到居民手中。通過到困難群眾家中走訪慰問,為殘疾或單親困難家庭兒童送去書包等學(xué)習(xí)用品,詳細(xì)了解他們的生活現(xiàn)狀與學(xué)習(xí)情況,鼓勵他們積極面對生活,用點(diǎn)滴善舉溫暖困難群眾,使他們切實(shí)感受到黨和政府的關(guān)懷。
(梁倩倩 攝影報道)