楊北京 劉新海
摘要:文章首先介紹數(shù)據(jù)挖掘的基本概念和處理步驟,然后討論征信系統(tǒng)和數(shù)據(jù)挖掘的關(guān)系,認為征信機構(gòu)作為數(shù)據(jù)工廠,數(shù)據(jù)挖掘的各種方法都可以找到很好的應(yīng)用場景,通過廣泛和深入地開展征信數(shù)據(jù)挖掘,能夠更好地為量化信用風險管理服務(wù)。文章梳理出征信系統(tǒng)數(shù)據(jù)挖掘的基本框架,著重探討基本征信數(shù)據(jù)挖掘:一方面處理的是基于信貸行為的基本數(shù)據(jù);另一方面應(yīng)用的是基本的、傳統(tǒng)的數(shù)據(jù)挖掘方法。根據(jù)數(shù)據(jù)挖掘方法論的不同,文章介紹相應(yīng)的信用風險數(shù)據(jù)挖掘應(yīng)用,并結(jié)合國際征信機構(gòu)的先進經(jīng)驗,給出具體應(yīng)用案例。文章最后指出在征信機構(gòu)全面開展數(shù)據(jù)挖掘的工作,不僅可以提高征信服務(wù)水平,還可為大數(shù)據(jù)時代的到來打下良好的基礎(chǔ)。
關(guān)鍵詞:數(shù)據(jù)挖掘;征信系統(tǒng);信貸行為;信用風險管理
一、 問題的提出
數(shù)據(jù)挖掘(Data Mining,DM)又稱知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是指從數(shù)據(jù)集合的海量數(shù)據(jù)中揭示出隱含的模式、發(fā)現(xiàn)先前未知的并有潛在價值的信息和知識的過程(Jiawei Han,MichelineKamber,Jian Pei;2012)。由于數(shù)據(jù)挖掘在應(yīng)用過程中可以幫助商業(yè)決策這調(diào)整市場策略,評估風險,獲得洞察力并進行正確決策,目前已經(jīng)是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)已成為許多互聯(lián)網(wǎng)和零售企業(yè)的重要支撐技術(shù)和核心競爭力之一,并被廣泛地應(yīng)用到管理和社會學科等諸多領(lǐng)域。對作為天然就具有大數(shù)據(jù)和云計算特征的征信業(yè)而言,數(shù)據(jù)挖掘技術(shù)的地位和重要性不言而喻。目前國外征信機構(gòu)正在廣泛利用數(shù)據(jù)挖掘技術(shù),進行信用風險管理方面的產(chǎn)品開發(fā),申請了許多關(guān)于數(shù)據(jù)挖掘的專利授權(quán),并開發(fā)出多種數(shù)據(jù)挖掘產(chǎn)品。數(shù)據(jù)挖掘技術(shù)已經(jīng)成為它們的核心競爭力,例如益佰利(Experian)、艾克飛(Equifax)、環(huán)聯(lián)(Trans Union)和鄧白氏(Dun & Bradstreet,D&B)等。
結(jié)合信用風險管理的目標:對個人消費者和企業(yè)的風險進行評估,減少交易過程中的信息不對稱,本文將征信數(shù)據(jù)挖掘的基本步驟敘述如下:
步驟一:確定商業(yè)目標。該步驟主要是確定數(shù)據(jù)挖掘所要解決的具體問題,比如發(fā)現(xiàn)信用風險特征、欺詐風險特征、客戶流失特征等;確定征信數(shù)據(jù)挖掘問題的覆蓋范圍,比如房貸產(chǎn)品、信用卡產(chǎn)品或汽車貸款產(chǎn)品等。商業(yè)目標不僅指明了數(shù)據(jù)挖掘方向,也是衡量數(shù)據(jù)挖掘效果的關(guān)鍵要素。
步驟二:數(shù)據(jù)采集。首先確定數(shù)據(jù)挖掘所涉及的具體數(shù)據(jù)庫或者數(shù)據(jù)來源渠道,例如申請數(shù)據(jù)庫、客戶基本信息數(shù)據(jù)庫、交易數(shù)據(jù)庫、市場營銷數(shù)據(jù)等,其次確定通過何種技術(shù)手段獲取這些有用的數(shù)據(jù)以及數(shù)據(jù)的有效期。
步驟三:數(shù)據(jù)清洗。消除噪聲和刪除不一致的數(shù)據(jù),進行數(shù)據(jù)質(zhì)量檢查,確保數(shù)據(jù)可靠。數(shù)據(jù)質(zhì)量是數(shù)據(jù)挖掘的前提和生命。若數(shù)據(jù)質(zhì)量不高,即使數(shù)據(jù)挖掘的技術(shù)再先進,耗費的功夫再大也無濟于事。
步驟四:數(shù)據(jù)整合和轉(zhuǎn)換。即將多種數(shù)據(jù)源整合在一起,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式,例如數(shù)據(jù)類型和數(shù)據(jù)格式的轉(zhuǎn)換,缺省值和極值的處理。
步驟五:數(shù)據(jù)挖掘。使用模式識別或機器學習的方法以及計算機信息處理手段,對大量數(shù)據(jù)進行加工和分析,來提取數(shù)據(jù)模式或者是系統(tǒng)性的模型。數(shù)據(jù)挖掘既高度依賴先進的統(tǒng)計方法和計算機技術(shù),也高度依賴數(shù)據(jù)分析人員的專業(yè)知識和經(jīng)驗。這是數(shù)據(jù)挖掘的核心。
步驟六:性能評判。并不是所有挖掘出來的模式或者模型都是有效的,根據(jù)某種指標度量(顯著性檢驗、準確性檢驗或者某種測度),確定挖掘結(jié)果是合乎邏輯、合乎情理和合乎直覺的。
步驟七:將數(shù)據(jù)挖掘的結(jié)果用于決策分析。根據(jù)數(shù)據(jù)挖掘的結(jié)果做出相應(yīng)的決策建議,例如改進風險管理策略、改進市場營銷策略、改進客戶服務(wù)策略等,以提高經(jīng)營管理的效益,實現(xiàn)數(shù)據(jù)挖掘的商業(yè)價值。
步驟八:數(shù)據(jù)挖掘結(jié)果應(yīng)用。挖掘所獲得知識(模式、模型、規(guī)律、策略等),最終需要付諸于應(yīng)用,以產(chǎn)生現(xiàn)實的經(jīng)濟效益。往往通過挖掘人員和IT技術(shù)人員合作,開發(fā)一些計算機應(yīng)用系統(tǒng)來實現(xiàn)。
步驟九:數(shù)據(jù)挖掘的跟蹤和提高。數(shù)據(jù)挖掘是一個不斷發(fā)現(xiàn)、不斷總結(jié)、不斷提高的過程。需要對數(shù)據(jù)挖掘的應(yīng)用進行跟蹤和反饋,分析問題,提煉經(jīng)驗,并且不斷地更新迭代。例如個人信用評分的模型每年都要重新挖掘和訓練。
二、 數(shù)據(jù)挖掘技術(shù)在對外的風險管理服務(wù)中的應(yīng)用
1. 聚類分析在對外的風險管理服務(wù)中的應(yīng)用。聚類分析(Clustering Analysis),也稱為自動分類,利用信用主體的信貸行為特征,根據(jù)(信貸行為、風險模式、信用主體基本信息)相似性的原則,自動歸類,劃分信用主體群(也稱為類)。信用主體的類可以描述一種特定的信用風險模式。聚類分析是面向信用風險管理的數(shù)據(jù)挖掘的基本方法。
在征信服務(wù)中的應(yīng)用:
(1)信用主體細分,金融學的微觀基礎(chǔ)是行為科學,無論公司行為或者是個人行為都具有一致性的特點,所以風險管理一直做的工作,就是試圖通過對公司、個人行為的分析來預判公司、個人的違約前景,并為此開發(fā)出一系列的風險模型,輔助授信決策。相對于公司客戶,個人客戶的行為更具有一致性和可預測性。俗話說,江山易改,本性難移,指的就是性格傾向的穩(wěn)定性和連續(xù)性。要直接在性格傾向于行為模式之間建立對應(yīng)關(guān)系,并不是很容易的事情,替代的方法就是分群,物以類聚,人以群分,只要把每個人所屬的人群類別定位準確,要預測其行為模式就比較容易。從統(tǒng)計分析看,特定人群的行為模式就有很高的同質(zhì)性,換言之,不同人群在行為模式上有著明顯的差別。根據(jù)不同的人群有著不同的風險模式,通過聚類分析,實現(xiàn)對不同的人群進行不同的信用風險管理,可以結(jié)合風險規(guī)則,通過聚類分析,將個人信用主體分為老齡消費群體、高凈值客戶群體、80/90后消費群體和新興城鎮(zhèn)居民群體,然后進行各自的風險模式分析。此外通過聚類分析,可以發(fā)現(xiàn)一些新的信用主體的行為模式,例如技術(shù)創(chuàng)新性企業(yè)會出現(xiàn)不同于一般企業(yè)的信貸行為,這就可能對應(yīng)著新的信用風險模式的出現(xiàn)。社會發(fā)展趨勢客戶細分客戶需求老齡消費者群體新興城鎮(zhèn)居民群體80/90后消費群體高凈值客戶群體低風險保本型的銀行產(chǎn)品對現(xiàn)有社保、醫(yī)保有效補充的社保產(chǎn)品醫(yī)療服務(wù)和生活服務(wù)更豐富的理財產(chǎn)品以咨詢?yōu)閷騻€性化的服務(wù)家族財富管理追求個性化、新鮮的金融產(chǎn)品互動式的7x24網(wǎng)銀服務(wù)移動金融服務(wù)人口老齡化富裕階層擴大80/90后消費群體不斷壯大農(nóng)村城鎮(zhèn)化和城鄉(xiāng)一體化低費用無抵押貸款,新型農(nóng)村信用貸款有農(nóng)村特色的理財產(chǎn)品和中間業(yè)務(wù)
(2)欺詐檢測。反欺詐是信用風險管理中的重要內(nèi)容,結(jié)合專家規(guī)則,聚類算法可以用于挖掘出異常欺詐行為。
征信機構(gòu)可以提供的反欺詐服務(wù)包括:
(1)文檔交叉核對:通過交叉對比對客戶的歷史信貸資料來發(fā)現(xiàn)異常情況。(2)共享已確認或疑似的欺詐行為:諸如英國的西法斯(CIFAS)等組織,在會員機構(gòu)之間共享確認的或懷疑的欺詐記錄。(3)欺詐評分:征信機構(gòu)可以為特定的信貸機構(gòu)或所有信貸機構(gòu)開發(fā)欺詐評分產(chǎn)品。(4)欺詐監(jiān)測系統(tǒng):通過建立欺詐監(jiān)測系統(tǒng),設(shè)置欺詐監(jiān)測規(guī)則來發(fā)現(xiàn)申請欺詐行為,還可以通過還款行為進行分析來發(fā)現(xiàn)銀行卡交易欺詐。
艾克飛公司也已開發(fā)出在線的數(shù)據(jù)挖掘產(chǎn)品防欺詐顧問(Equifax Fraud Advisor),可以自動地進行欺詐檢測,以減少手工操作帶來的風險。
2. 預測分析在對外的風險管理服務(wù)中的應(yīng)用。預測分析是指通過對已知的信用主體的數(shù)據(jù)(信貸行為和風險狀態(tài)/趨勢都已知),通過挖掘,構(gòu)建出預測模型,對未知的信用主體根據(jù)其信貸行為,預測出其風險狀態(tài)/趨勢。基于征信數(shù)據(jù)的預測分析是通過數(shù)據(jù)挖掘中的回歸模型來實現(xiàn)的,包括風險評估和風險預測,兩者區(qū)別在于:風險評估對目前的風險狀況進行量化描述;而風險預測是對未來的風險狀況進行量化描述。
在征信服務(wù)中的應(yīng)用:
(1)信用評分。信用評分原始模型是根據(jù)已知的信用主體的信用歷史資料,進行樣本學習,得到了信用評分模型,根據(jù)信用評分模型,來決定客戶是否可以貸款或所可以持有的金額權(quán)限,甚至是貸款利息率,從而保證還款等業(yè)務(wù)的安全性。隨著風險管理和數(shù)據(jù)挖掘水平的提高,信用評分已經(jīng)成為一個比較寬泛的概念,具體類型可達100多種,例如申請評分、欺詐評分、盈利評分、信貸審批評分、破產(chǎn)評分等。
局評分是基于征信機構(gòu)的數(shù)據(jù)開發(fā)而來的信用評分,它與放貸機構(gòu)自行開發(fā)的客戶化信用評分有所不同。它使用的是來自各放貸機構(gòu)上報的信息,基本涵蓋了借款人所有的信貸記錄,包括借款人的貸款余額總量、貸款總筆數(shù)和所以歷史違約記錄,以及一些公共信息源的數(shù)據(jù),這是單個放貸機構(gòu)無法擁有的。
(2)宏觀或中觀的信貸風險預測指數(shù)?;谡餍畔到y(tǒng)的海量數(shù)據(jù)資源,可為宏觀層面的風險預測提供具有前瞻性和準確性的數(shù)據(jù)信息。從國內(nèi)金融業(yè)的未來發(fā)展看,對中性的政策性信息的需求將越來越迫切。有外部監(jiān)管方面的原因,如資本監(jiān)管體制改革。也有來自銀行內(nèi)部管理的推動,比如對信貸市場整體走勢的信息需求,對涉及金融穩(wěn)定和系統(tǒng)性風險的信息需求等。另外從宏觀政策制定與實施的角度看,也需要了解和掌握中觀信息,所以存在很多的衍生需求。征信數(shù)據(jù)具有靈活豐富的數(shù)據(jù)維度(如行業(yè)、區(qū)域、規(guī)模;余額、新增、集中度;各類產(chǎn)品;期限、利率、五級分類等),可以制作出高信度的預警信息和有特色的信貸指數(shù)體系,生成行業(yè)、區(qū)域金融生態(tài)分析報告或相應(yīng)的產(chǎn)品。例如利用個人信用評分和經(jīng)濟形勢變化之間的關(guān)系,費埃哲公司(FICO)開發(fā)了FICO Economic Impact Index,主要分析宏觀經(jīng)濟環(huán)境變化引起的賬戶風險和組合產(chǎn)品風險。借款人在消費者的整個賬戶管理周期內(nèi)引入宏觀經(jīng)濟變化對其賬戶的風險分析,即FICO經(jīng)濟影響指數(shù),便于其做出更為有利的風險管理決策。
3. 分類分析在對外的風險管理服務(wù)中的應(yīng)用。分類(Classification)分析可以說是數(shù)據(jù)挖掘技術(shù)中最常用,最成熟的一種方法。分類分析可以看作是預測分析的一種特殊情況。在已知一些信用主體的類別標簽(這些類別的標簽可以是風險預警的級別,也可以是信用的等級)的情況下,對未知的信用主體的類別進行識別。主要的原理是基于對已有標簽的信用主體的類別和其行為特征之間通過數(shù)據(jù)挖掘建立映射模型,這種模型稱為分類模型,將未知信用主體的行為特征輸入到分類模型中,就可以得到該信用主體的類別。
在征信服務(wù)中的應(yīng)用:
(1)風險預警。風險主動預警是目前商業(yè)銀行最迫切需要的信用信息服務(wù)之一。目前商業(yè)銀行的貸后管理和催收部門通過定期查詢部分借款人的信用報告來跟蹤借款人信用行為的變化情況,但就目前單筆信用報告的查詢模式而言,如果抽樣進行查詢,則被查詢?nèi)说倪x取方法并無嚴格的科學依據(jù),無法保證覆蓋面;如果對本行的信貸客戶全部查詢,雖然可以保證覆蓋面,但系統(tǒng)資源和查詢費用的巨大開銷將嚴重降低全局查詢的投入產(chǎn)出比。因此,在借款人出現(xiàn)高風險事件時,如征信系統(tǒng)能主動通知其它與其有業(yè)務(wù)來往的商業(yè)銀行,則可以高效地解決這一矛盾。例如可以根據(jù)信用主體的如下信貸記錄將預警可以分無預警、輕度預警、中度預警和重度預警四級:(1)當前預期狀態(tài);(2)征信評分;(3)是否有信用卡取現(xiàn)情況;(4)最近12個月信用卡/貸款審批/擔保資格查詢次數(shù);(5)是否欠稅記錄;(6)是否有行政處罰記錄;(7)是否有電信欠費記錄。然后搜集樣本數(shù)據(jù),訓練預警分類模型。最后實現(xiàn)對信用主體的自動標示預警分類。
(2)信用評級。可以根據(jù)信用主體的債務(wù)、還款情況、收入和工作情況對其信用程度進行分類,為授信額度的確立以及其它風險管理措施提供依據(jù)。艾克飛公司開發(fā)出小企業(yè)風險級別預測(Small Business Risk Class),預測小企業(yè)的商業(yè)賬戶在未來12個月內(nèi)出現(xiàn)嚴重拖欠(90天以上)或破產(chǎn)的風險級別。賬戶風險分為1個級別~5個級別。該分析工具利用的信息包括商業(yè)支付信息、公共記錄以及來自SBFE的銀行信貸和金融租賃信息。
征信機構(gòu)可以為信貸機構(gòu)設(shè)計一系列評級模型,并協(xié)助放貸機構(gòu)制定客戶關(guān)系管理戰(zhàn)略。
(1)模型跟蹤和性能檢測:信用評級一定程度上客觀、量化地展示了客戶的信用風險,為保障評分模型有良好的預測能力,要不斷地進行模型跟蹤調(diào)整,征信機構(gòu)可以提供一些工具用來監(jiān)控評分模型的性能變化,判斷在客戶群發(fā)生變化時評分模型是否仍有良好的好壞區(qū)分能力。
(2)催收評級:對于有逾期記錄的客戶,通過催收評級進一步區(qū)分惡意拖欠的可能性,幫助放貸機構(gòu)針對不同情況定制催收方案,而不是采取單一的催收措施(例如所以逾期30天的客戶都會收到相同的催收信函)。這種更有針對性的催收方案能幫助信貸機構(gòu)有效減少損失,提高催收效率。
4. 相關(guān)性規(guī)則分析在對外的風險管理服務(wù)中的應(yīng)用。
定義:相關(guān)性規(guī)則(Association rule)分析是數(shù)據(jù)挖掘中一種簡單而又實用的技術(shù)。一個典型的例子就是“購物籃”分析,即通過發(fā)現(xiàn)消費者放入他們“購物籃”中的商品之間的關(guān)聯(lián)(頻繁地共同發(fā)生),分析顧客的購物習慣。在金融領(lǐng)域,相關(guān)性規(guī)則分析可以用來發(fā)現(xiàn)銀行客戶對所提供的金融服務(wù)于產(chǎn)品間的關(guān)聯(lián)性、不同信用產(chǎn)品價格之間的關(guān)聯(lián)性、不同市場變動趨勢之間的關(guān)聯(lián)性。在信用風險管理中,相關(guān)性規(guī)則挖掘可以發(fā)現(xiàn)信貸數(shù)據(jù)庫中信貸行為和信用風險之間的關(guān)聯(lián)性規(guī)則,這些規(guī)則反映了信用主體的風險模式。
在征信服務(wù)中的應(yīng)用:可以通過相關(guān)性規(guī)則分析來發(fā)現(xiàn)一些風險關(guān)聯(lián)模式(或風險特征要素),包括,例如信用主體信貸違約和信用主體的哪些基本信息有關(guān),例如收入、職業(yè)、年齡、經(jīng)營狀況和行業(yè)形勢等;自動地發(fā)現(xiàn)這些風險因素的相關(guān)關(guān)系,這也是大數(shù)據(jù)時代中所強調(diào)的重視數(shù)據(jù)內(nèi)部蘊含的相關(guān)關(guān)系的基本思想。從常識上來看,兩個因素可能毫不相關(guān),但是存在很強的關(guān)聯(lián)效應(yīng)。這就為信用評分或者其它風險量化分析選取主要的關(guān)聯(lián)因素(特征)提供依據(jù)。
三、 結(jié)語
征信機構(gòu)的核心資產(chǎn)是數(shù)據(jù),作為數(shù)據(jù)工廠,各種數(shù)據(jù)挖掘技術(shù)都可以得到很好地應(yīng)用。征信數(shù)據(jù)挖掘既可以面向不同的服務(wù)對象也可以應(yīng)用到不同的風險層面。本文重點研究的是基本征信數(shù)據(jù)挖掘:從數(shù)據(jù)角度來說,處理的信貸行為數(shù)據(jù)是最基本的征信數(shù)據(jù);從分析技術(shù)來說,所采用的數(shù)據(jù)挖掘方法不僅技術(shù)手段和應(yīng)用相對成熟而且國外知名征信機構(gòu)已有很多成功的應(yīng)用案例可以借鑒。通過對征信系統(tǒng)進行廣泛和深入地數(shù)據(jù)挖掘,不僅可以更好地進行量化風險管理和征信系統(tǒng)維護,還能為未來征信大數(shù)據(jù)時代的到來打下更好的基礎(chǔ)。
未來,本研究將繼續(xù)深入地探討征信數(shù)據(jù)挖掘的相關(guān)問題,例如如何深入開展基于聚類的客戶細分為信用風險服務(wù)。同時也關(guān)注一些熱點和前沿問題,例如對基于關(guān)聯(lián)關(guān)系的征信數(shù)據(jù)挖掘,基于非結(jié)構(gòu)化數(shù)據(jù)的征信數(shù)據(jù)挖掘,以及大數(shù)據(jù)、互聯(lián)網(wǎng)金融、社交媒體、移動終端對征信服務(wù)以及征信數(shù)據(jù)挖掘的影響用等熱點話題。
參考文獻:
[1] Jiawei Han, MichelineKamber,Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012.
[2] 陳建,信用評分模型技術(shù)與應(yīng)用[M].北京:中國財政經(jīng)濟出版社,2005.
[3] Bart Baesens、Tony van Gestel,Credit risk management:Basic Concepts,Oxford press,2009.
[4] 馬超群,蘭秋軍,陳為民.金融數(shù)據(jù)挖掘[M].北京:科學出版社,2008.
[5] Viktor Mayer-Sch?觟nberger、Kenneth Cukier.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
[6] 中國銀行和征信中心聯(lián)合課題組研究報告.征信系統(tǒng)在個人業(yè)務(wù)信用風險管理中的應(yīng)用,2013.
基金項目:國家自然科學基金青年基金(項目號:61105058);國家社會科學基金(項目號:13CJY011)。
作者簡介:楊北京(1980-),男,漢族,江蘇省宿遷市人,中國人民大學商學院博士生,研究方向為互聯(lián)網(wǎng)金融與電子商務(wù),現(xiàn)就職于中國工商銀行總行;劉新海(1976-),男,漢族,河南省南陽市人,中國人民銀行征信中心高級研究員,中國人民銀行金融研究所應(yīng)用經(jīng)濟學博士后,研究方向為金融大數(shù)據(jù)和征信數(shù)據(jù)挖掘。
收稿日期:2015-06-10。
一、 問題的提出
數(shù)據(jù)挖掘(Data Mining,DM)又稱知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是指從數(shù)據(jù)集合的海量數(shù)據(jù)中揭示出隱含的模式、發(fā)現(xiàn)先前未知的并有潛在價值的信息和知識的過程(Jiawei Han,MichelineKamber,Jian Pei;2012)。由于數(shù)據(jù)挖掘在應(yīng)用過程中可以幫助商業(yè)決策這調(diào)整市場策略,評估風險,獲得洞察力并進行正確決策,目前已經(jīng)是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)已成為許多互聯(lián)網(wǎng)和零售企業(yè)的重要支撐技術(shù)和核心競爭力之一,并被廣泛地應(yīng)用到管理和社會學科等諸多領(lǐng)域。對作為天然就具有大數(shù)據(jù)和云計算特征的征信業(yè)而言,數(shù)據(jù)挖掘技術(shù)的地位和重要性不言而喻。目前國外征信機構(gòu)正在廣泛利用數(shù)據(jù)挖掘技術(shù),進行信用風險管理方面的產(chǎn)品開發(fā),申請了許多關(guān)于數(shù)據(jù)挖掘的專利授權(quán),并開發(fā)出多種數(shù)據(jù)挖掘產(chǎn)品。數(shù)據(jù)挖掘技術(shù)已經(jīng)成為它們的核心競爭力,例如益佰利(Experian)、艾克飛(Equifax)、環(huán)聯(lián)(Trans Union)和鄧白氏(Dun & Bradstreet,D&B)等。
結(jié)合信用風險管理的目標:對個人消費者和企業(yè)的風險進行評估,減少交易過程中的信息不對稱,本文將征信數(shù)據(jù)挖掘的基本步驟敘述如下:
步驟一:確定商業(yè)目標。該步驟主要是確定數(shù)據(jù)挖掘所要解決的具體問題,比如發(fā)現(xiàn)信用風險特征、欺詐風險特征、客戶流失特征等;確定征信數(shù)據(jù)挖掘問題的覆蓋范圍,比如房貸產(chǎn)品、信用卡產(chǎn)品或汽車貸款產(chǎn)品等。商業(yè)目標不僅指明了數(shù)據(jù)挖掘方向,也是衡量數(shù)據(jù)挖掘效果的關(guān)鍵要素。
步驟二:數(shù)據(jù)采集。首先確定數(shù)據(jù)挖掘所涉及的具體數(shù)據(jù)庫或者數(shù)據(jù)來源渠道,例如申請數(shù)據(jù)庫、客戶基本信息數(shù)據(jù)庫、交易數(shù)據(jù)庫、市場營銷數(shù)據(jù)等,其次確定通過何種技術(shù)手段獲取這些有用的數(shù)據(jù)以及數(shù)據(jù)的有效期。
步驟三:數(shù)據(jù)清洗。消除噪聲和刪除不一致的數(shù)據(jù),進行數(shù)據(jù)質(zhì)量檢查,確保數(shù)據(jù)可靠。數(shù)據(jù)質(zhì)量是數(shù)據(jù)挖掘的前提和生命。若數(shù)據(jù)質(zhì)量不高,即使數(shù)據(jù)挖掘的技術(shù)再先進,耗費的功夫再大也無濟于事。
步驟四:數(shù)據(jù)整合和轉(zhuǎn)換。即將多種數(shù)據(jù)源整合在一起,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式,例如數(shù)據(jù)類型和數(shù)據(jù)格式的轉(zhuǎn)換,缺省值和極值的處理。
步驟五:數(shù)據(jù)挖掘。使用模式識別或機器學習的方法以及計算機信息處理手段,對大量數(shù)據(jù)進行加工和分析,來提取數(shù)據(jù)模式或者是系統(tǒng)性的模型。數(shù)據(jù)挖掘既高度依賴先進的統(tǒng)計方法和計算機技術(shù),也高度依賴數(shù)據(jù)分析人員的專業(yè)知識和經(jīng)驗。這是數(shù)據(jù)挖掘的核心。
步驟六:性能評判。并不是所有挖掘出來的模式或者模型都是有效的,根據(jù)某種指標度量(顯著性檢驗、準確性檢驗或者某種測度),確定挖掘結(jié)果是合乎邏輯、合乎情理和合乎直覺的。
步驟七:將數(shù)據(jù)挖掘的結(jié)果用于決策分析。根據(jù)數(shù)據(jù)挖掘的結(jié)果做出相應(yīng)的決策建議,例如改進風險管理策略、改進市場營銷策略、改進客戶服務(wù)策略等,以提高經(jīng)營管理的效益,實現(xiàn)數(shù)據(jù)挖掘的商業(yè)價值。
步驟八:數(shù)據(jù)挖掘結(jié)果應(yīng)用。挖掘所獲得知識(模式、模型、規(guī)律、策略等),最終需要付諸于應(yīng)用,以產(chǎn)生現(xiàn)實的經(jīng)濟效益。往往通過挖掘人員和IT技術(shù)人員合作,開發(fā)一些計算機應(yīng)用系統(tǒng)來實現(xiàn)。
步驟九:數(shù)據(jù)挖掘的跟蹤和提高。數(shù)據(jù)挖掘是一個不斷發(fā)現(xiàn)、不斷總結(jié)、不斷提高的過程。需要對數(shù)據(jù)挖掘的應(yīng)用進行跟蹤和反饋,分析問題,提煉經(jīng)驗,并且不斷地更新迭代。例如個人信用評分的模型每年都要重新挖掘和訓練。
二、 數(shù)據(jù)挖掘技術(shù)在對外的風險管理服務(wù)中的應(yīng)用
1. 聚類分析在對外的風險管理服務(wù)中的應(yīng)用。聚類分析(Clustering Analysis),也稱為自動分類,利用信用主體的信貸行為特征,根據(jù)(信貸行為、風險模式、信用主體基本信息)相似性的原則,自動歸類,劃分信用主體群(也稱為類)。信用主體的類可以描述一種特定的信用風險模式。聚類分析是面向信用風險管理的數(shù)據(jù)挖掘的基本方法。
在征信服務(wù)中的應(yīng)用:
(1)信用主體細分,金融學的微觀基礎(chǔ)是行為科學,無論公司行為或者是個人行為都具有一致性的特點,所以風險管理一直做的工作,就是試圖通過對公司、個人行為的分析來預判公司、個人的違約前景,并為此開發(fā)出一系列的風險模型,輔助授信決策。相對于公司客戶,個人客戶的行為更具有一致性和可預測性。俗話說,江山易改,本性難移,指的就是性格傾向的穩(wěn)定性和連續(xù)性。要直接在性格傾向于行為模式之間建立對應(yīng)關(guān)系,并不是很容易的事情,替代的方法就是分群,物以類聚,人以群分,只要把每個人所屬的人群類別定位準確,要預測其行為模式就比較容易。從統(tǒng)計分析看,特定人群的行為模式就有很高的同質(zhì)性,換言之,不同人群在行為模式上有著明顯的差別。根據(jù)不同的人群有著不同的風險模式,通過聚類分析,實現(xiàn)對不同的人群進行不同的信用風險管理,可以結(jié)合風險規(guī)則,通過聚類分析,將個人信用主體分為老齡消費群體、高凈值客戶群體、80/90后消費群體和新興城鎮(zhèn)居民群體,然后進行各自的風險模式分析。此外通過聚類分析,可以發(fā)現(xiàn)一些新的信用主體的行為模式,例如技術(shù)創(chuàng)新性企業(yè)會出現(xiàn)不同于一般企業(yè)的信貸行為,這就可能對應(yīng)著新的信用風險模式的出現(xiàn)。社會發(fā)展趨勢客戶細分客戶需求老齡消費者群體新興城鎮(zhèn)居民群體80/90后消費群體高凈值客戶群體低風險保本型的銀行產(chǎn)品對現(xiàn)有社保、醫(yī)保有效補充的社保產(chǎn)品醫(yī)療服務(wù)和生活服務(wù)更豐富的理財產(chǎn)品以咨詢?yōu)閷騻€性化的服務(wù)家族財富管理追求個性化、新鮮的金融產(chǎn)品互動式的7x24網(wǎng)銀服務(wù)移動金融服務(wù)人口老齡化富裕階層擴大80/90后消費群體不斷壯大農(nóng)村城鎮(zhèn)化和城鄉(xiāng)一體化低費用無抵押貸款,新型農(nóng)村信用貸款有農(nóng)村特色的理財產(chǎn)品和中間業(yè)務(wù)
(2)欺詐檢測。反欺詐是信用風險管理中的重要內(nèi)容,結(jié)合專家規(guī)則,聚類算法可以用于挖掘出異常欺詐行為。
征信機構(gòu)可以提供的反欺詐服務(wù)包括:
(1)文檔交叉核對:通過交叉對比對客戶的歷史信貸資料來發(fā)現(xiàn)異常情況。(2)共享已確認或疑似的欺詐行為:諸如英國的西法斯(CIFAS)等組織,在會員機構(gòu)之間共享確認的或懷疑的欺詐記錄。(3)欺詐評分:征信機構(gòu)可以為特定的信貸機構(gòu)或所有信貸機構(gòu)開發(fā)欺詐評分產(chǎn)品。(4)欺詐監(jiān)測系統(tǒng):通過建立欺詐監(jiān)測系統(tǒng),設(shè)置欺詐監(jiān)測規(guī)則來發(fā)現(xiàn)申請欺詐行為,還可以通過還款行為進行分析來發(fā)現(xiàn)銀行卡交易欺詐。
艾克飛公司也已開發(fā)出在線的數(shù)據(jù)挖掘產(chǎn)品防欺詐顧問(Equifax Fraud Advisor),可以自動地進行欺詐檢測,以減少手工操作帶來的風險。
2. 預測分析在對外的風險管理服務(wù)中的應(yīng)用。預測分析是指通過對已知的信用主體的數(shù)據(jù)(信貸行為和風險狀態(tài)/趨勢都已知),通過挖掘,構(gòu)建出預測模型,對未知的信用主體根據(jù)其信貸行為,預測出其風險狀態(tài)/趨勢。基于征信數(shù)據(jù)的預測分析是通過數(shù)據(jù)挖掘中的回歸模型來實現(xiàn)的,包括風險評估和風險預測,兩者區(qū)別在于:風險評估對目前的風險狀況進行量化描述;而風險預測是對未來的風險狀況進行量化描述。
在征信服務(wù)中的應(yīng)用:
(1)信用評分。信用評分原始模型是根據(jù)已知的信用主體的信用歷史資料,進行樣本學習,得到了信用評分模型,根據(jù)信用評分模型,來決定客戶是否可以貸款或所可以持有的金額權(quán)限,甚至是貸款利息率,從而保證還款等業(yè)務(wù)的安全性。隨著風險管理和數(shù)據(jù)挖掘水平的提高,信用評分已經(jīng)成為一個比較寬泛的概念,具體類型可達100多種,例如申請評分、欺詐評分、盈利評分、信貸審批評分、破產(chǎn)評分等。
局評分是基于征信機構(gòu)的數(shù)據(jù)開發(fā)而來的信用評分,它與放貸機構(gòu)自行開發(fā)的客戶化信用評分有所不同。它使用的是來自各放貸機構(gòu)上報的信息,基本涵蓋了借款人所有的信貸記錄,包括借款人的貸款余額總量、貸款總筆數(shù)和所以歷史違約記錄,以及一些公共信息源的數(shù)據(jù),這是單個放貸機構(gòu)無法擁有的。
(2)宏觀或中觀的信貸風險預測指數(shù)。基于征信系統(tǒng)的海量數(shù)據(jù)資源,可為宏觀層面的風險預測提供具有前瞻性和準確性的數(shù)據(jù)信息。從國內(nèi)金融業(yè)的未來發(fā)展看,對中性的政策性信息的需求將越來越迫切。有外部監(jiān)管方面的原因,如資本監(jiān)管體制改革。也有來自銀行內(nèi)部管理的推動,比如對信貸市場整體走勢的信息需求,對涉及金融穩(wěn)定和系統(tǒng)性風險的信息需求等。另外從宏觀政策制定與實施的角度看,也需要了解和掌握中觀信息,所以存在很多的衍生需求。征信數(shù)據(jù)具有靈活豐富的數(shù)據(jù)維度(如行業(yè)、區(qū)域、規(guī)模;余額、新增、集中度;各類產(chǎn)品;期限、利率、五級分類等),可以制作出高信度的預警信息和有特色的信貸指數(shù)體系,生成行業(yè)、區(qū)域金融生態(tài)分析報告或相應(yīng)的產(chǎn)品。例如利用個人信用評分和經(jīng)濟形勢變化之間的關(guān)系,費埃哲公司(FICO)開發(fā)了FICO Economic Impact Index,主要分析宏觀經(jīng)濟環(huán)境變化引起的賬戶風險和組合產(chǎn)品風險。借款人在消費者的整個賬戶管理周期內(nèi)引入宏觀經(jīng)濟變化對其賬戶的風險分析,即FICO經(jīng)濟影響指數(shù),便于其做出更為有利的風險管理決策。
3. 分類分析在對外的風險管理服務(wù)中的應(yīng)用。分類(Classification)分析可以說是數(shù)據(jù)挖掘技術(shù)中最常用,最成熟的一種方法。分類分析可以看作是預測分析的一種特殊情況。在已知一些信用主體的類別標簽(這些類別的標簽可以是風險預警的級別,也可以是信用的等級)的情況下,對未知的信用主體的類別進行識別。主要的原理是基于對已有標簽的信用主體的類別和其行為特征之間通過數(shù)據(jù)挖掘建立映射模型,這種模型稱為分類模型,將未知信用主體的行為特征輸入到分類模型中,就可以得到該信用主體的類別。
在征信服務(wù)中的應(yīng)用:
(1)風險預警。風險主動預警是目前商業(yè)銀行最迫切需要的信用信息服務(wù)之一。目前商業(yè)銀行的貸后管理和催收部門通過定期查詢部分借款人的信用報告來跟蹤借款人信用行為的變化情況,但就目前單筆信用報告的查詢模式而言,如果抽樣進行查詢,則被查詢?nèi)说倪x取方法并無嚴格的科學依據(jù),無法保證覆蓋面;如果對本行的信貸客戶全部查詢,雖然可以保證覆蓋面,但系統(tǒng)資源和查詢費用的巨大開銷將嚴重降低全局查詢的投入產(chǎn)出比。因此,在借款人出現(xiàn)高風險事件時,如征信系統(tǒng)能主動通知其它與其有業(yè)務(wù)來往的商業(yè)銀行,則可以高效地解決這一矛盾。例如可以根據(jù)信用主體的如下信貸記錄將預警可以分無預警、輕度預警、中度預警和重度預警四級:(1)當前預期狀態(tài);(2)征信評分;(3)是否有信用卡取現(xiàn)情況;(4)最近12個月信用卡/貸款審批/擔保資格查詢次數(shù);(5)是否欠稅記錄;(6)是否有行政處罰記錄;(7)是否有電信欠費記錄。然后搜集樣本數(shù)據(jù),訓練預警分類模型。最后實現(xiàn)對信用主體的自動標示預警分類。
(2)信用評級??梢愿鶕?jù)信用主體的債務(wù)、還款情況、收入和工作情況對其信用程度進行分類,為授信額度的確立以及其它風險管理措施提供依據(jù)。艾克飛公司開發(fā)出小企業(yè)風險級別預測(Small Business Risk Class),預測小企業(yè)的商業(yè)賬戶在未來12個月內(nèi)出現(xiàn)嚴重拖欠(90天以上)或破產(chǎn)的風險級別。賬戶風險分為1個級別~5個級別。該分析工具利用的信息包括商業(yè)支付信息、公共記錄以及來自SBFE的銀行信貸和金融租賃信息。
征信機構(gòu)可以為信貸機構(gòu)設(shè)計一系列評級模型,并協(xié)助放貸機構(gòu)制定客戶關(guān)系管理戰(zhàn)略。
(1)模型跟蹤和性能檢測:信用評級一定程度上客觀、量化地展示了客戶的信用風險,為保障評分模型有良好的預測能力,要不斷地進行模型跟蹤調(diào)整,征信機構(gòu)可以提供一些工具用來監(jiān)控評分模型的性能變化,判斷在客戶群發(fā)生變化時評分模型是否仍有良好的好壞區(qū)分能力。
(2)催收評級:對于有逾期記錄的客戶,通過催收評級進一步區(qū)分惡意拖欠的可能性,幫助放貸機構(gòu)針對不同情況定制催收方案,而不是采取單一的催收措施(例如所以逾期30天的客戶都會收到相同的催收信函)。這種更有針對性的催收方案能幫助信貸機構(gòu)有效減少損失,提高催收效率。
4. 相關(guān)性規(guī)則分析在對外的風險管理服務(wù)中的應(yīng)用。
定義:相關(guān)性規(guī)則(Association rule)分析是數(shù)據(jù)挖掘中一種簡單而又實用的技術(shù)。一個典型的例子就是“購物籃”分析,即通過發(fā)現(xiàn)消費者放入他們“購物籃”中的商品之間的關(guān)聯(lián)(頻繁地共同發(fā)生),分析顧客的購物習慣。在金融領(lǐng)域,相關(guān)性規(guī)則分析可以用來發(fā)現(xiàn)銀行客戶對所提供的金融服務(wù)于產(chǎn)品間的關(guān)聯(lián)性、不同信用產(chǎn)品價格之間的關(guān)聯(lián)性、不同市場變動趨勢之間的關(guān)聯(lián)性。在信用風險管理中,相關(guān)性規(guī)則挖掘可以發(fā)現(xiàn)信貸數(shù)據(jù)庫中信貸行為和信用風險之間的關(guān)聯(lián)性規(guī)則,這些規(guī)則反映了信用主體的風險模式。
在征信服務(wù)中的應(yīng)用:可以通過相關(guān)性規(guī)則分析來發(fā)現(xiàn)一些風險關(guān)聯(lián)模式(或風險特征要素),包括,例如信用主體信貸違約和信用主體的哪些基本信息有關(guān),例如收入、職業(yè)、年齡、經(jīng)營狀況和行業(yè)形勢等;自動地發(fā)現(xiàn)這些風險因素的相關(guān)關(guān)系,這也是大數(shù)據(jù)時代中所強調(diào)的重視數(shù)據(jù)內(nèi)部蘊含的相關(guān)關(guān)系的基本思想。從常識上來看,兩個因素可能毫不相關(guān),但是存在很強的關(guān)聯(lián)效應(yīng)。這就為信用評分或者其它風險量化分析選取主要的關(guān)聯(lián)因素(特征)提供依據(jù)。
三、 結(jié)語
征信機構(gòu)的核心資產(chǎn)是數(shù)據(jù),作為數(shù)據(jù)工廠,各種數(shù)據(jù)挖掘技術(shù)都可以得到很好地應(yīng)用。征信數(shù)據(jù)挖掘既可以面向不同的服務(wù)對象也可以應(yīng)用到不同的風險層面。本文重點研究的是基本征信數(shù)據(jù)挖掘:從數(shù)據(jù)角度來說,處理的信貸行為數(shù)據(jù)是最基本的征信數(shù)據(jù);從分析技術(shù)來說,所采用的數(shù)據(jù)挖掘方法不僅技術(shù)手段和應(yīng)用相對成熟而且國外知名征信機構(gòu)已有很多成功的應(yīng)用案例可以借鑒。通過對征信系統(tǒng)進行廣泛和深入地數(shù)據(jù)挖掘,不僅可以更好地進行量化風險管理和征信系統(tǒng)維護,還能為未來征信大數(shù)據(jù)時代的到來打下更好的基礎(chǔ)。
未來,本研究將繼續(xù)深入地探討征信數(shù)據(jù)挖掘的相關(guān)問題,例如如何深入開展基于聚類的客戶細分為信用風險服務(wù)。同時也關(guān)注一些熱點和前沿問題,例如對基于關(guān)聯(lián)關(guān)系的征信數(shù)據(jù)挖掘,基于非結(jié)構(gòu)化數(shù)據(jù)的征信數(shù)據(jù)挖掘,以及大數(shù)據(jù)、互聯(lián)網(wǎng)金融、社交媒體、移動終端對征信服務(wù)以及征信數(shù)據(jù)挖掘的影響用等熱點話題。
參考文獻:
[1] Jiawei Han, MichelineKamber,Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012.
[2] 陳建,信用評分模型技術(shù)與應(yīng)用[M].北京:中國財政經(jīng)濟出版社,2005.
[3] Bart Baesens、Tony van Gestel,Credit risk management:Basic Concepts,Oxford press,2009.
[4] 馬超群,蘭秋軍,陳為民.金融數(shù)據(jù)挖掘[M].北京:科學出版社,2008.
[5] Viktor Mayer-Sch?觟nberger、Kenneth Cukier.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
[6] 中國銀行和征信中心聯(lián)合課題組研究報告.征信系統(tǒng)在個人業(yè)務(wù)信用風險管理中的應(yīng)用,2013.
基金項目:國家自然科學基金青年基金(項目號:61105058);國家社會科學基金(項目號:13CJY011)。
作者簡介:楊北京(1980-),男,漢族,江蘇省宿遷市人,中國人民大學商學院博士生,研究方向為互聯(lián)網(wǎng)金融與電子商務(wù),現(xiàn)就職于中國工商銀行總行;劉新海(1976-),男,漢族,河南省南陽市人,中國人民銀行征信中心高級研究員,中國人民銀行金融研究所應(yīng)用經(jīng)濟學博士后,研究方向為金融大數(shù)據(jù)和征信數(shù)據(jù)挖掘。
收稿日期:2015-06-10。