徐 鵬
(中國石油天然氣股份有限公司華東化工銷售分公司 上海 200122)
商業(yè)銀行貸款風(fēng)險評估數(shù)據(jù)的審計模型構(gòu)建
徐 鵬
(中國石油天然氣股份有限公司華東化工銷售分公司 上海 200122)
在對商業(yè)銀行貸款風(fēng)險評估數(shù)據(jù)進行抽象和預(yù)處理的基礎(chǔ)上,根據(jù)審計的業(yè)務(wù)需求構(gòu)建了兩種不同的審計模型,然后根據(jù)不同的審計模型進行結(jié)果分析。
預(yù)測型決策樹;審計模型
在對數(shù)據(jù)進行預(yù)處理之后,數(shù)據(jù)的格式及類型已經(jīng)符合軟件的要求,這樣就可以對數(shù)據(jù)進行挖掘。在數(shù)據(jù)挖掘過程中,由于算法的不同可能會導(dǎo)致挖掘效果以及效率的不同。在審計模型方面,本研究決定使用決策樹模型,該模型中最常用的算法就是ID3與CLS,需要特別說明的是,利用ID3算法對CLS算法進行相關(guān)改進,可以提高算法的效率。
在本文的研究中,主要從兩個不同的角度來構(gòu)建決策樹模型。其中一個角度就是預(yù)測型決策樹,該模型的基本流程就是將所有貸款記錄分為兩個整體,一個整體是在審計年放出的,并且現(xiàn)在以及到期的正常貸款記錄。另外一個整體作為另一部分數(shù)據(jù),主要用來構(gòu)建數(shù)據(jù)挖掘模型,然后用該模型對五級分類進行預(yù)測,當(dāng)預(yù)測結(jié)果和現(xiàn)實情況不一致時,注明該記錄屬于異常貸款記錄,在今后的審計中要進行重點審計。按照這個基本流程,首先要將貸款憑證表劃分為正常貸款表和預(yù)測分析貸款表。在正常貸款表中,凡是屬于正常貸款的記錄,這些數(shù)據(jù)都是預(yù)測數(shù)據(jù)集的主要構(gòu)成;在預(yù)測分析貸款表中,凡是不屬于正常貸款記錄的數(shù)據(jù),都是構(gòu)成數(shù)據(jù)挖掘模型的主體。
微軟公司的AnalysisManager軟件是本決策樹的主要挖掘工具,Analysis是SQLServer的附屬產(chǎn)品,因此它與SQLServer在數(shù)據(jù)格式上具有高度的統(tǒng)一性。此外,Analysis還具有良好的用戶界面,具有向?qū)еС肿饔?。在多維數(shù)據(jù)的存儲和轉(zhuǎn)換方面,具有較高的靈活性,同時可伸縮架構(gòu)設(shè)計可以解決海量數(shù)據(jù)等多種難題,同時也集成了客戶端、數(shù)據(jù)源以及管理工具等。
在新建一個SQLServer數(shù)據(jù)庫之后,數(shù)據(jù)中間表的測試連接已經(jīng)建立好,也就是說預(yù)測分析表和正常貸款表已經(jīng)完成。在本文的研究案例中,考慮到貸款都是采用五級分類,并不是使用聚合級別進行數(shù)據(jù)挖掘,因此使用關(guān)系數(shù)據(jù)來設(shè)置挖掘模型,以此用來查詢Analysis服務(wù)器所支持的所有數(shù)據(jù)類型。在事例表的選擇上,因為建立數(shù)據(jù)挖掘模型中所需要的多個列都在事例表中,因此必須使用多個事例表,從而保證信息能夠分布式存在多個表中,這樣就能保證表與表之間的關(guān)系連接。所以,把法人基本信息表和預(yù)測分析貸款表作為編輯連接和表創(chuàng)建。在法人基本信息表中,其主鍵為客戶代碼,在預(yù)測分析貸款表中,其主鍵為借款憑證編號,兩張表通過客戶編號進行關(guān)。
在預(yù)測型決策樹中,選擇參數(shù)是一個非常重要的環(huán)節(jié),這影響著決策樹的輸出,因為數(shù)據(jù)挖掘引擎就是通過事例列屬性進行區(qū)分事例的,即通過事例表主鍵屬性區(qū)分。從單個事例表的角度來說,對于參數(shù)的選擇過程相對簡單,但是本文研究的案例具有多個事例表特征,所以要根據(jù)具體的審計業(yè)務(wù)來選擇相應(yīng)的參數(shù)。首先將貸款作為首要分析的事例,因此貸款憑證編號就是該事例的鍵列。接下來進行選擇輸入列操作,在該操作中,至少要選擇左側(cè)的可選列表中的一列作為數(shù)據(jù)挖掘模型的屬性,因為數(shù)據(jù)挖掘模型中信息的輸出都是通過輸出列完成的。在本研究案例中,主要是利用該模型來預(yù)測五級分類的基本情況,所以可預(yù)測列就是貸款五級分類。決策樹的根就是待預(yù)測字段。
如果一筆貸款的屬性和五級分類情況相互關(guān)聯(lián),那么數(shù)據(jù)挖掘模型在經(jīng)過分析之后就期望得出一些信息,那么表示這些屬性的列就在另一個選項中輸入。在決策樹中,不同的輸入列代表的是每個貸款的五級分類情況,使用ID3算法來發(fā)現(xiàn)其關(guān)聯(lián)關(guān)系,就必須慎重選擇輸入列,這個因果關(guān)系不可以太明確,否則就失去了數(shù)據(jù)挖掘的意義。
在選擇好參數(shù)和輸入輸出列之后,可以執(zhí)行數(shù)據(jù)挖掘模型,從而得到相應(yīng)的數(shù)據(jù)挖掘結(jié)果。決策樹結(jié)構(gòu)背后隱藏的較為簡單的邏輯是決策樹最重要的一個特點。內(nèi)容頁和架構(gòu)頁是挖掘模型編輯器底部的兩個主要選項,其中內(nèi)容頁主要用來顯示決策樹中各類數(shù)據(jù)的分布,架構(gòu)頁主要是用來對整個模型的結(jié)構(gòu)進行控制。
在數(shù)據(jù)文件模型瀏覽器中,主要有以下幾個主要區(qū)域:
1. 節(jié)點區(qū)域。該區(qū)域主要是說明該節(jié)點內(nèi)所有事例的規(guī)則。
2. 特性區(qū)域。該區(qū)域主要是以圖表的形式顯示節(jié)點的特性信息。
3. 內(nèi)容選擇區(qū)域。該區(qū)域可以將整個決策樹的完整視圖進行顯示。
4. 內(nèi)容詳情區(qū)域。該區(qū)域主要顯示決策樹中的焦點信息。
在決策樹中,不同的顏色代表的意義是不同的,顏色的深淺主要用來區(qū)分事例的密集度,顏色越深的表示該節(jié)點中所包含的事例數(shù)量就越大,顏色越淺的表示該節(jié)點中包含的事例數(shù)量就越小。在數(shù)據(jù)挖掘模型瀏覽器中,右側(cè)的下拉框可以選擇以哪種事例來顯示。其中251000是全部貸款記錄,也就是“全部”節(jié)點,顏色為黑色。特性區(qū)域中的全部事例數(shù)量為129883,所占比例為51.8%,其在五級分類中用“正?!北硎荆源祟愅?,其比例分別是51.8%,5.02%,2.31%,10.59%,30.28%。在決策樹的不同節(jié)點中,都可以查看該決策樹的支節(jié)點。
在圖形方面,其它兩個節(jié)點的密度要低于“管理特征”為01,02的兩個節(jié)點。當(dāng)點擊管理特征為01,02的節(jié)點時,可以查看其特征區(qū)域的信息,就可以發(fā)現(xiàn)管理特征為04時,損失貸款的比重高達78.32%,關(guān)注貸款與正常貸款的比例分別為8.78%、0.91%,那么該結(jié)果就可以為后續(xù)的審計工作提供有效借鑒,對于此類貸款有必要進行重點審計。按照此流程進行操作,還可以得到更多類似的信息,這些信息都能給實際工作或決策的制定作為參考。此外,通過分析每個節(jié)點的屬性以及相關(guān)特性,可以發(fā)現(xiàn)貸款屬性的取值會對五級分類產(chǎn)生一定的影響。需要特別說明的是,算法關(guān)系著整個決策樹的組織結(jié)構(gòu),這也是屬性在輸出中的重要性。在本文的研究案例中,“管理特征”這一屬性決定了決策樹的第一個級別,這也是影響五級分類的重要因素。除此之外,還有一個方法可以查看每個屬性的重要性,那就是對相關(guān)網(wǎng)絡(luò)進行分析。在相關(guān)網(wǎng)絡(luò)分析瀏覽器中,屬性的網(wǎng)絡(luò)表示的就是數(shù)據(jù)文件或相關(guān)模型,通過對這種模型進行識別,可以分析出數(shù)據(jù)的預(yù)測性與相關(guān)性,具體如圖4.8所示。
圖4.8 相關(guān)性網(wǎng)絡(luò)圖
在圖4.8中,箭頭代表的是相關(guān)性,節(jié)點與箭頭的顏色變化表示的是預(yù)測性的方向,并且隨著左側(cè)關(guān)聯(lián)性的降低,就能夠發(fā)現(xiàn)五級分類受到不同屬性的影響情況。
在本文的研究中,還有一種決策樹的構(gòu)建思路,可以稱之為決策樹的改進。使用Analysis確實能夠完成基本的功能需求,但是其功能不如Clementine強大,Clementine具有較強的理解能力和可視化能力,并且操作起來相對簡單,是目前使用最為廣泛的數(shù)據(jù)挖掘工具。Clementine中集成了標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程模型,該模型和本文中研究的邏輯思路具有較高的統(tǒng)一性,主要可以劃分成商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、模型評估以及結(jié)果部署等幾個過程。當(dāng)利用Clementine進行數(shù)據(jù)挖掘時,用戶能夠擁有更多的選擇。以生成決策樹為例,能夠?qū)Τ杀具M行評估,調(diào)整挖掘結(jié)果、設(shè)計新型變量、組變量以及減枝等。在保持原有數(shù)據(jù)的前提下,本文采用Clementine,通俗來說,就是根據(jù)國家對商業(yè)銀行貸款的約束,把五級分類劃分為兩大類,然后再用決策樹進行差別比較,這樣就可以得到更有效的審計發(fā)現(xiàn)。在使用Clementine軟件時,同樣需要對數(shù)據(jù)進行預(yù)處理以及表的拆分等,但是在該思路中,由于預(yù)測型決策樹已經(jīng)對表進行拆分,因此就不需要再對表進行拆分,而是在新的數(shù)據(jù)挖掘模型中,有選擇性的對已拆分的表進行重新整合,在執(zhí)行SQL語句后可以得到數(shù)據(jù)的輸出結(jié)果。
接下來操作“類型”選項,該模塊可以對數(shù)據(jù)的方向以及類型進行調(diào)整。完成上一步操作后,接下來就是設(shè)計新的變量,在本文研究的案例中,可疑、損失兩個等級為一類,次級、關(guān)注和正常三個等級為一類,為其設(shè)置如下條件:
貸款等級=‘次級’or貸款等級=‘關(guān)注’or貸款等級=‘正常’
貸款等級=‘損失’or貸款等級=‘可疑’
通過“類型”操作后可以將123與45設(shè)置為兩個相同變量的輸出值,并將其作為決策樹的根,此外還要選擇行業(yè)分類1,信貸對象,管理素質(zhì)等等作為決策樹的分支因素。然后實施兩個不同的決策樹,并且將減枝水平值設(shè)置的盡量大,以字符作為群體輸出方式。
在構(gòu)建完審計模型與運行模型之后,需要對審計結(jié)果進行分析。審計過程中最重要的因素就是企業(yè)的管理特征,在利用兩種不同的模型進行分組時,都采用了04管理特征作為最低級別的信貸評估等級,這表示審計的風(fēng)險可能因此升高,這也是進行實質(zhì)性測試的主要工作。在擔(dān)保方式的貸款中,信用與保證又是風(fēng)險級別較高的群組,因此我們可以確定一個不變的數(shù)值,從而衡量風(fēng)險的影響程度。對模型進行上述改進最終就是為了充分使用Clementine的相關(guān)功能,從而可以改變原有決策樹的相關(guān)屬性,保證審計效率的提高,同時也能增強審計的安全性。在審計工作人員進行具體分類時,還可以對五級分類的原因進行深層次分析。
使用決策樹進行數(shù)據(jù)挖掘最核心的就是歸納與分類,通過歸納和分類的方法可以提高審計人員對于風(fēng)險的識別能力。對不同字段的出現(xiàn)概率進行分類,可以把風(fēng)險較大的因素進行重點標(biāo)示,這樣可以方便審計人員進行審閱,同時還能提供相關(guān)的數(shù)據(jù)支撐。尤其是使用Clementine軟件時,能夠結(jié)合基本模型,有針對性地設(shè)計出有意義的變量,從而保證數(shù)據(jù)挖掘效率與效果的提升。除此之外,還可以為今后的再次挖掘工作奠定基礎(chǔ),只需要在原有模型的基礎(chǔ)上行稍微進行調(diào)整即可。以決策樹為例,此類分析方法和傳統(tǒng)的統(tǒng)計分析、趨勢分析以及比率分析不同,此類分析方法不用專注于財務(wù)信息,只需要對信息進行數(shù)字化處理即可,從純數(shù)學(xué)的角度去分析與審計,這樣使得審計工作更加科學(xué),同時可以對數(shù)據(jù)的關(guān)聯(lián)進行更好地分析。
徐鵬,男,漢,吉林長春,碩士研究生,中國石油天然氣股份有限公司華東化工銷售分公司。