摘要:隨著計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,商業(yè)銀行將信息技術(shù)應(yīng)用的經(jīng)營(yíng)和管理中,傳統(tǒng)的審計(jì)方法遇到了巨大的挑戰(zhàn)。由于傳統(tǒng)審計(jì)方法習(xí)慣于通過(guò)手工查賬、人工核對(duì)等方式進(jìn)行審計(jì),在被審計(jì)對(duì)象所包含的數(shù)據(jù)量越來(lái)越大的情況下,傳統(tǒng)審計(jì)方法已無(wú)法滿足現(xiàn)代審計(jì)的需要,無(wú)法對(duì)海量數(shù)據(jù)進(jìn)行有效的篩選和識(shí)別。而現(xiàn)階段審計(jì)人員對(duì)電子數(shù)據(jù)的應(yīng)用多數(shù)只體現(xiàn)在將審計(jì)的手工流程計(jì)算機(jī)化,還停留在通過(guò)計(jì)算機(jī)將審計(jì)數(shù)據(jù)進(jìn)行簡(jiǎn)單查詢、分類、匯總的程度上,未能對(duì)海量數(shù)據(jù)中隱藏或未知的信息進(jìn)行有效發(fā)掘。本文通過(guò)分析如何利用信息化手段,對(duì)內(nèi)部審計(jì)對(duì)象進(jìn)行審計(jì)線索挖掘,闡述了聚類分析方法的可行性和使用方法,并利用某商業(yè)銀行貸款數(shù)據(jù)進(jìn)行實(shí)證分析,檢測(cè)出貸款數(shù)據(jù)離群點(diǎn),為通過(guò)聚類分析方法發(fā)現(xiàn)審計(jì)線索的思路提供一些參考。
關(guān)鍵詞: 聚類分析;商業(yè)銀行;內(nèi)部審計(jì);貸款審計(jì)
一、內(nèi)部審計(jì)應(yīng)用數(shù)據(jù)挖掘方法的必要性
一方面是在信息化環(huán)境下,被審計(jì)對(duì)象經(jīng)營(yíng)和管理活動(dòng)中產(chǎn)生的大量信息資料儲(chǔ)存在各種信息介質(zhì)中,包括合同、憑證、交易數(shù)據(jù)等各類型的信息資料,紙質(zhì)介質(zhì)的使用數(shù)量大幅度減少,或紙質(zhì)介質(zhì)僅作為一個(gè)備份使用的存儲(chǔ)介質(zhì),審計(jì)線索相對(duì)于過(guò)去而言,變得更加模糊和隱蔽,增加了取證的難度。另一方面是隨著被審計(jì)對(duì)象處理的數(shù)據(jù)量隨著信息化技術(shù)的發(fā)展而呈幾何級(jí)數(shù)迅速增長(zhǎng),單憑人力已無(wú)法從海量的數(shù)據(jù)中較為快速地篩選出審計(jì)所需要數(shù)據(jù),因此審計(jì)單位必須具備較強(qiáng)的數(shù)據(jù)處理能力,才能達(dá)到全面覆蓋,精準(zhǔn)核查,突出重點(diǎn)的效果。數(shù)據(jù)挖掘就是從大量的、隨機(jī)的、模糊的數(shù)據(jù)中發(fā)掘潛藏在其中的有效信息,而聚類分析方法作為數(shù)據(jù)挖掘方法中的一個(gè)重要分析方法,用于發(fā)現(xiàn)與一般數(shù)據(jù)存在較大差別的離群點(diǎn)數(shù)據(jù),對(duì)于審計(jì)單位發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的審計(jì)線索有著較好的應(yīng)用效果。
二、聚類分析方法理論簡(jiǎn)介
聚類分析是一種定量分析方法,從數(shù)據(jù)分析的角度來(lái)看,聚類分析屬于對(duì)多個(gè)樣本進(jìn)行定量分析的多元統(tǒng)計(jì)分析方法,從結(jié)果來(lái)看,其分析原理就是將數(shù)據(jù)進(jìn)行聚合,希望單個(gè)類之內(nèi)的樣本相似度盡可能高,類與類之間的相似度盡可能低。聚類跟普通的分類方法的不同之處在于,在進(jìn)行聚類分析前,我們無(wú)法確定樣本會(huì)分成幾個(gè)組和什么樣的組,也不知道是按照什么規(guī)則來(lái)進(jìn)行類別的劃分,我們不對(duì)聚類分析的聚類條件進(jìn)行實(shí)質(zhì)性的確定,而是通過(guò)樣本之間的距離進(jìn)行自動(dòng)聚合。
從數(shù)據(jù)分析的角度來(lái)區(qū)分,聚類分析方法大致可劃分為四類
(一)劃分聚類
給定一個(gè)樣本數(shù)量為N 的集合,根據(jù)需要?jiǎng)澐殖蔏 個(gè)分區(qū),其中每個(gè)分區(qū)就是一個(gè)類別,給定K 個(gè)聚類中心點(diǎn),對(duì)所有樣本求和聚類中心點(diǎn)的距離,將與中心點(diǎn)距離小的樣本與中心點(diǎn)歸為一個(gè)類別,然后更新每個(gè)類別中的均值作為新的類別中心點(diǎn),然后不斷重復(fù)該過(guò)程,直到中心點(diǎn)的變化小于某個(gè)閥值。對(duì)于劃分聚類而言,需要先給定各個(gè)聚類中心點(diǎn),如果給定聚類中心不同,得到也結(jié)果也會(huì)有所不同。
(二)層次聚類
層次聚類方法可以分為分裂和凝聚兩種方法。分裂的方法是自上而下,一開(kāi)始將所有的樣本歸為一個(gè)類別,然后通過(guò)迭代分裂的方式將與類別中心點(diǎn)距離最遠(yuǎn)的樣本分離出去。凝聚方法與分裂方法剛好相反,它是自下而上,一開(kāi)始將所有樣本視為單獨(dú)一個(gè)類別,然后迭代合并距離相近的其他樣本,直至達(dá)到所規(guī)定的迭代終止條件。
(三)基于密度的聚類
其主要原理是只要在“鄰域”中的密度(樣本或變量的數(shù)目)超過(guò)給定的某個(gè)閥值,就繼續(xù)增長(zhǎng)類別的數(shù)量。具體方法是它會(huì)任意選擇一個(gè)樣本作為核心點(diǎn),然后找到所有這個(gè)核心點(diǎn)能夠達(dá)到密度可達(dá)的樣本集合,即為一個(gè)類別,接著繼續(xù)選擇一個(gè)沒(méi)有類別的樣本作為核心點(diǎn),重復(fù)以上的步驟,直到所有核心點(diǎn)均有類別為止。
(四)基于網(wǎng)格的聚類
它把對(duì)象空間量化為有限個(gè)相鄰的區(qū)間,形成一個(gè)網(wǎng)格結(jié)構(gòu),創(chuàng)建網(wǎng)格單元的集合,將每個(gè)樣本落入到一個(gè)網(wǎng)格中,所有的聚類操作都在這個(gè)網(wǎng)格結(jié)構(gòu)中進(jìn)行,并計(jì)算每個(gè)網(wǎng)格的密度,將密度低于閥值的網(wǎng)格刪除,將相鄰的網(wǎng)格聚合成為一個(gè)類別。
三、實(shí)證分析
(一)層次聚類分析方法概述
本次實(shí)例分析采取的是層次聚類分析方法,也叫系統(tǒng)聚類分析方法,本文此次使用的系統(tǒng)聚類方法為凝聚法,該聚類方法一開(kāi)始將每一個(gè)樣本作為單獨(dú)的一個(gè)類,然后迭代合并距離最相近的兩個(gè)類,得到一個(gè)新的類,直至達(dá)到終止條件,在凝聚法中采用的距離為歐式距離。
定義1:歐式距離也叫歐幾里得度量,它是常用的距離定義,一般用于描述n 維空間中的兩個(gè)點(diǎn)之間的距離,假設(shè)現(xiàn)有兩個(gè)點(diǎn),分別為x 點(diǎn)和y 點(diǎn),維度為n,則兩點(diǎn)之間的歐式距離為
(二)數(shù)據(jù)來(lái)源及指標(biāo)選取
為了更好地說(shuō)明聚類分析方法在內(nèi)部審計(jì)中的應(yīng)用,本文選取了某金融機(jī)構(gòu)截至2018 年末貸款余額在1,000 萬(wàn)元以上的客戶,貸款發(fā)放時(shí)間為2016 年1 月1 日至2018 年12 月31 日的貸款數(shù)據(jù)進(jìn)行聚類分析。
1.指標(biāo)選取
該次分析分析過(guò)程中不對(duì)客戶信息進(jìn)行區(qū)分比較,僅針對(duì)客戶的貸款行為數(shù)據(jù)進(jìn)行聚類分析。(1) 客戶號(hào)??蛻籼?hào)為每個(gè)貸款客戶的唯一標(biāo)識(shí),在審計(jì)分析中具有唯一性和不可替代性。(2)貸款次數(shù)。貸款次數(shù)為客戶從在統(tǒng)計(jì)期間一共發(fā)生的貸款次數(shù),反映了客戶貸款的頻次。(3)貸款余額。貸款余額為截至2018年末客戶在金融機(jī)構(gòu)的貸款余額。(4)平均貸款金額。平均貸款金額=統(tǒng)計(jì)期間總貸款金額÷貸款次數(shù),一定程度上反映了客戶單次貸款金額的數(shù)量。(5)平均貸款期限。平均貸款期限=統(tǒng)計(jì)期間總貸款期限÷貸款次數(shù),一定程度上反映了客戶單次貸款資金的使用時(shí)長(zhǎng),以月為計(jì)量單位。(6)擔(dān)保方式。擔(dān)保方式反映了貸款客戶的第二還款來(lái)源,“1”代表抵押或質(zhì)押擔(dān)保,“2”代表保證擔(dān)保,“3”代表信用/無(wú)擔(dān)保。(7)平均展期次數(shù)。平均展期次數(shù)=統(tǒng)計(jì)期間展期總次數(shù)÷ 貸款次數(shù),一定程度上反映了客戶的到期還款能力。(8)平均借新還舊次數(shù)。平均借新還舊次數(shù)為統(tǒng)計(jì)期間貸款形式為借新還舊的貸款占全部貸款的比例,一定程度上反映了客戶的資金流動(dòng)性。(9)平均累計(jì)逾期次數(shù)。平均累計(jì)逾期次數(shù)=統(tǒng)計(jì)期間逾期總次數(shù)÷ 貸款次數(shù),一定程度上反映了客戶的信用水平。(10)平均執(zhí)行利率。平均執(zhí)行利率為客戶的平均貸款利率。(11)七級(jí)分類指標(biāo)。七級(jí)分類指標(biāo)為客戶的貸款分類結(jié)果?!?1”代表正常一,“12”代表正常二,“21”代表關(guān)注一,“22”代表關(guān)注二,“30”代表次級(jí)類,“40”代表可疑類,“50”代表不良類,其中30、40、50為不良貸款,七級(jí)分類指標(biāo)反映了客戶的貸款質(zhì)量情況。
2.數(shù)據(jù)清洗
篩選條件為截至2018年末, 貸款余額為1,000萬(wàn)元以上的客戶,貸款發(fā)放時(shí)間為2016年1月1日至2018年12月31日,共篩選出客戶173名,貸款筆數(shù)2,968筆,其中64筆貸款的七級(jí)分類指標(biāo)出現(xiàn)數(shù)據(jù)缺失的情況,采用估計(jì)遺漏值的方法,選取七級(jí)分類平均值代替遺漏值,即七級(jí)分類指標(biāo)為空的數(shù)據(jù)采用“26”進(jìn)行代替。除以上數(shù)據(jù),未發(fā)現(xiàn)其他非正常數(shù)據(jù)。
3.數(shù)據(jù)標(biāo)準(zhǔn)化
在選取的11個(gè)指標(biāo)中,除客戶號(hào)外的10個(gè)維度的變量,存在數(shù)量級(jí)差別較大的情況,如果不對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,會(huì)導(dǎo)致結(jié)果出現(xiàn)嚴(yán)重偏差,使分析結(jié)果向數(shù)量級(jí)較大的變量方向進(jìn)行偏移。本文采取離差標(biāo)準(zhǔn)化的方式,假設(shè)x為標(biāo)準(zhǔn)化前的值,x?為標(biāo)準(zhǔn)化后的值,則x?= x?xminxmax?xmin,max為變量的最大值,min為變量的最小值。
(三)數(shù)據(jù)分析過(guò)程及結(jié)果
1.使用SPSS Statistic 22.0統(tǒng)計(jì)軟件對(duì)貸款數(shù)據(jù)進(jìn)行分析,分析過(guò)程如下
(1)數(shù)據(jù)定義。在變量視圖中輸入各維度變量,對(duì)指標(biāo)類型進(jìn)行定義,除將客戶號(hào)類型設(shè)置字符串外,其他指標(biāo)均設(shè)置為數(shù)值型。
(3)聚類分析。點(diǎn)擊分析-分類-聚類分析,將客戶號(hào)移至標(biāo)注個(gè)案中,剩余指標(biāo)移至變量中。統(tǒng)計(jì)方案范圍選擇3-7個(gè)類別。
(4)自定義聚類分析方法。聚類方法選擇組之間的鏈接,區(qū)間選擇歐式距離,標(biāo)準(zhǔn)化式選擇范圍0至1。
2.分析結(jié)果
由于數(shù)據(jù)量較大,SPSS的分析結(jié)果太長(zhǎng),因此無(wú)法一一在文中進(jìn)行表述,此處僅對(duì)聚類數(shù)為3類、4類、5類、6類、7類的結(jié)果進(jìn)行匯總統(tǒng)計(jì),從匯總結(jié)果可看出,類數(shù)從3到7,第一類結(jié)果均比較穩(wěn)定,隨著類數(shù)的增多,存在樣本從第一類中分解出來(lái)。對(duì)比聚類結(jié)果,發(fā)現(xiàn)離群點(diǎn)分別對(duì)應(yīng)客戶號(hào)尾數(shù)為7712、1575、6075的客戶。
(四)對(duì)分析結(jié)果進(jìn)行深入探索
將數(shù)據(jù)挖掘出來(lái)的3個(gè)離群點(diǎn)客戶作為分析重點(diǎn),對(duì)其全部貸款數(shù)據(jù)進(jìn)行深入分析。
1.尾號(hào)為7712的客戶,自2016年1月1日起,發(fā)生貸款筆數(shù)為1筆,貸款發(fā)放日期為2016年8月12日,貸款金額600萬(wàn)元,截至2018年12月31日,貸款余額52 5萬(wàn)元,原到期日為2018年8月2日,展期一次后到期日為2019年7月28日,累計(jì)逾期次數(shù)19次,逾期次數(shù)占還款次數(shù)的67.85%,有較高的違約風(fēng)險(xiǎn)。
2.尾號(hào)為1575的客戶,2017年4月28日發(fā)放借新還舊貸款兩筆,貸款金額共2,000萬(wàn)元,原到期日為2017年10月27日,展期兩次后到期日為2018年4月25日,累計(jì)逾期次數(shù)10次,占還款次數(shù)的83.33%,此后兩筆貸款辦理借新還舊,貸款發(fā)放日期為2018年4月24日,貸款金額1,850萬(wàn)元,到期日為2019年4月23日,截至2018年12月31日,貸款余額1,850萬(wàn)元,累計(jì)逾期次數(shù)7次,占還款次數(shù)的87.5%,貸款用途由住房開(kāi)發(fā)貸款轉(zhuǎn)換為流動(dòng)資金貸款,需要重點(diǎn)關(guān)注,有較高的違約風(fēng)險(xiǎn)。
3.尾號(hào)為6075的客戶,自2016年5月27日至2016年10月10日期間,共新發(fā)放貸款3筆,貸款金額2,500萬(wàn)元,執(zhí)行年利率為5%,截至2018年12月31日,剩余貸款2筆,貸款余額1,250萬(wàn)元,原到期日為2017年10月9日,展期1次后到期日為2018年10月8日,2018年10月8日發(fā)生逾期,即將逾期超過(guò)90天。
對(duì)數(shù)據(jù)挖掘所得的3個(gè)離群點(diǎn)客戶進(jìn)行深入探索后,僅從數(shù)據(jù)上分析,發(fā)現(xiàn)均存在辦理展期,累計(jì)逾期次數(shù)較多或已出現(xiàn)本金逾期等問(wèn)題,與其他貸款客戶相比,具有更高的違約風(fēng)險(xiǎn),且需考慮機(jī)構(gòu)是否存在在企業(yè)本身已存在經(jīng)營(yíng)困難,無(wú)力償還貸款,通過(guò)借新還舊或展期的方式掩蓋貸款資產(chǎn)質(zhì)量的情況。
四、結(jié)論
通過(guò)對(duì)173名客戶的2,968筆貸款數(shù)據(jù)進(jìn)行分析后,我們可以發(fā)現(xiàn),通過(guò)聚類分析方法,可以快速篩選出大量數(shù)據(jù)中的離群點(diǎn)數(shù)據(jù),對(duì)于商業(yè)銀行內(nèi)部審計(jì)人員而言,在進(jìn)行貸款方面的審計(jì)時(shí),可快速有效地甄選出與其他貸款客戶存在較大差別的異??蛻魯?shù)據(jù),確立審計(jì)重點(diǎn),提高審計(jì)效率,達(dá)到全面覆蓋,突出重點(diǎn)的目的。
作者簡(jiǎn)介:
李德明(1993.07-),男,本科學(xué)歷,中級(jí)會(huì)計(jì)師,研究方向:金融審計(jì)與計(jì)算機(jī)科學(xué)。