吳建
摘要:隨著信息化的快速發(fā)展和中國金融業(yè)的日益繁重,數(shù)據(jù)挖掘技術(shù)作為一種前沿的信息處理技術(shù)被廣泛應(yīng)用與金融領(lǐng)域。數(shù)據(jù)挖掘的能夠?qū)鹑跇I(yè)中海量的數(shù)據(jù)進(jìn)行采集、轉(zhuǎn)換、分析、統(tǒng)計從而給金融企業(yè)以決策支持,使得金融企業(yè)在激烈的競爭中掌握主動、給金融企業(yè)更廣闊的發(fā)展空間。
關(guān)鍵詞:數(shù)據(jù)挖掘;金融領(lǐng)域;應(yīng)用
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)09-1982-03
The Using of Data Mining Technology in the Financial Field of Research
WU Jian
(The People Bank of China Hangzhou Branch , Hangzhou 310001, China)
Abstract: With the fast development of information technology and Chinese financial industry increasingly onerous, the data mining technology as a frontier of information processing technology is widely used in financial field. Data mining to financial data acquisition, conversion, analysis, statistics and financial enterprises to decision support, making the financial enterprises in the fierce competition to seize the initiative, to the financial enterprise vaster development space.
Key words: data Mining; financial field; application
從20世紀(jì)末開始,各行業(yè)收集數(shù)據(jù)以及利用信息的能力大幅提高,在政府辦公、工程開發(fā)、科學(xué)研究、商業(yè)運作等各領(lǐng)域都存在大量的數(shù)據(jù)庫,并且,數(shù)據(jù)庫的規(guī)模、容量呈現(xiàn)爆炸式的增長。在各個領(lǐng)域中保存的信息越來越多,在這暴漲式增長的數(shù)據(jù)背后包含有大量重要的信息,各行業(yè)希望能夠?qū)⑦@些信息提取處理進(jìn)行更進(jìn)一步的分析以便充分利用掌握的數(shù)據(jù)。在目前金融行業(yè)使用的數(shù)據(jù)庫大多數(shù)可以高效的進(jìn)行數(shù)據(jù)查詢、修改、統(tǒng)計,但是缺乏有限的規(guī)則去發(fā)現(xiàn)數(shù)據(jù)間的規(guī)則和關(guān)系,也很難預(yù)測數(shù)據(jù)未來的發(fā)展趨勢。缺乏有效的數(shù)據(jù)利用手段使得人們很難去分離有效的數(shù)據(jù),這導(dǎo)致了在信息爆炸的時代卻出現(xiàn)知識貧乏的現(xiàn)象。從而一個創(chuàng)新性的想法被提出,在這個信息急速增長的時代,信息爆炸是各行業(yè)面臨的問題。如何及時的從中發(fā)現(xiàn)有用的信息,如何不被信息的海洋淹沒,如何提高信息利用率呢?知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,并得到了迅速的發(fā)展,并且被越來越多的行業(yè)關(guān)注和使用。
1數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘(Data Mining)就是從隨機的、不完全的、大量的、模糊的、有噪聲的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的知識和信息的過程。
1.1數(shù)據(jù)挖掘方法
在數(shù)據(jù)挖掘中常用的分析方法包括:
1)分類(Classification):首先從海量的數(shù)據(jù)中篩選出經(jīng)過分類的信息訓(xùn)練集,在信息該訓(xùn)練集中采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分類,并且創(chuàng)建分類模型,對那些沒有分類數(shù)據(jù)重新分類,其中那些類的個數(shù)是預(yù)先定義好的、并且是確定的。例如信用卡申請者,分類為高、中、低風(fēng)險。
2)估計(Estimation):估計與分類在機理上相類似,它們的區(qū)別是,估值處理連續(xù)值的輸出而分類描述的是離散型變量的輸出;估值的量是不確定的而分類的類別是確定數(shù)目的。具體來說,估值能夠被看成是分類的上一步的工作,給定一些輸入數(shù)據(jù),通過估計操作,得到一些未知的具有連續(xù)變量的值,然后,根據(jù)分析預(yù)先設(shè)定的一些閾值,進(jìn)行分類。例如:銀行對與各個不同家庭貸款,運用估計,給各個客戶打分。然后根據(jù)得到的閾值,將貸款級別分類從而進(jìn)行差別待遇的放貸。
3)預(yù)測(Prediction):一般來說預(yù)測是通過估值和分類起作用的,換而言之,通過估值或者分類得出模型,通過得出的模型能夠?qū)ξ粗兞康念A(yù)測。通過這種方式來看,預(yù)言并沒有必要被分成一個獨特的類。預(yù)言的目的是通過變量的分析,對未來變量的一種預(yù)測,這種預(yù)測是可以在未來得到驗證的,也就是說,經(jīng)過一段時間后,就可以知道得出的預(yù)言的準(zhǔn)確性。關(guān)聯(lián)規(guī)則和相關(guān)性分組決定哪些事情會在一起發(fā)生。例如:超市中客戶在購買A產(chǎn)品的同時,經(jīng)常會購買B產(chǎn)品,那么A => B(關(guān)聯(lián)規(guī)則)。
4)聚類(Clustering):聚類是對要分析的記錄進(jìn)行分組,通過分析,把得到的相似記錄放在同一個聚集里。分類和聚類的不同之處是聚集不需要訓(xùn)練集、不依賴于預(yù)先定義好的類。一般來說,數(shù)據(jù)挖掘分析的第一步操作就是聚集。例如,"在一個企業(yè),某一種促銷能夠在那一類客戶中得到最大的影響?",對于這種命題,數(shù)據(jù)挖掘首先需要對企業(yè)所有的客戶進(jìn)行聚集,把所有的客戶放在各自的聚集里,然后對得到的那些聚集進(jìn)行分析,這樣很容易就能得出結(jié)果。
5)描述以及可視化(Description and Visualization)是數(shù)據(jù)挖掘得出的結(jié)果的一種表達(dá)方式。
1.2數(shù)據(jù)挖掘的過程
1)確定業(yè)務(wù)對象:清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。
2)數(shù)據(jù)準(zhǔn)備:①數(shù)據(jù)的選擇,搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。②數(shù)據(jù)的預(yù)處理,研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備。并確定將要進(jìn)行的挖掘操作的類型。③數(shù)據(jù)的轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。
3)數(shù)據(jù)挖掘:對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。
4)結(jié)果分析:解釋并評估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù)。
5)知識的同化:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
數(shù)據(jù)挖掘過程如下圖所示:
圖1數(shù)據(jù)挖掘過程
2采用數(shù)據(jù)挖掘技術(shù)提高金融業(yè)核心競爭力
知識特征是如今金融行業(yè)具有核心競爭力的標(biāo)志,金融行業(yè)中核心競爭力主要表現(xiàn)為知識競爭力。那么增強金融行業(yè)企業(yè)核心競爭力的有效方法應(yīng)該著力點在于挖掘金融企業(yè)內(nèi)在的知識,尤其是隱性知識,從而可以采取與之對應(yīng)的策略。從某種程度來說,數(shù)據(jù)挖掘的本質(zhì)就是挖掘金融企業(yè)內(nèi)在知識,因此,采用數(shù)據(jù)挖掘技術(shù)能夠提高金融企業(yè)的核心競爭力。
1)分析企業(yè)內(nèi)部知識
企業(yè)內(nèi)部知識主要包含與企業(yè)管理經(jīng)營有關(guān)的生產(chǎn)方式、組織結(jié)構(gòu)、組織建立方式內(nèi)部人際關(guān)系、人力資源以及戰(zhàn)略等知識、以上的知識對于協(xié)調(diào)企業(yè)內(nèi)部的各種經(jīng)營活動有很大的意義。采用數(shù)據(jù)挖掘技術(shù),金融企業(yè)管理者可以對企業(yè)內(nèi)部各種離散的知識、信息進(jìn)行采樣、分析和管理,并基于采樣分析的結(jié)果得出未來企業(yè)經(jīng)營可能會出現(xiàn)的一些問題,這樣就能夠采取應(yīng)對措施,以使得企業(yè)不斷的得以進(jìn)步。
2)挖掘金融企業(yè)外部知識
企業(yè)的外部知識一般來說是市場知識,這類知識是企業(yè)賴以生存的基礎(chǔ),沒有或者缺乏市場知識,那么企業(yè)可能不能在市場上運作。市場知識還可以分為潛在的和現(xiàn)實的市場、競爭對手的情況、供應(yīng)商信息和客戶信息都是可能對企業(yè)造成影響的外部因素,市場知識對于一家企業(yè)的營銷有重大的意義,有充分的市場知識使得企業(yè)容易制定正確的戰(zhàn)略決策。數(shù)據(jù)挖掘技術(shù)可以通過對那些企業(yè)外部知識的收集分析,得出對企業(yè)發(fā)展有潛在重大影響或者有重大影響的外部環(huán)境信息,使金融企業(yè)能抓住市場的機遇,改變經(jīng)營策略,使得企業(yè)能夠持續(xù)發(fā)展。
3數(shù)據(jù)挖掘技術(shù)在金融行業(yè)的應(yīng)用
金融行業(yè)一般需要收集和管理大量復(fù)雜的數(shù)據(jù),大部分金融機構(gòu)和銀行提供各種各樣的投資服務(wù)(如理財基金)、信用服務(wù)(如個人信用卡、貸款)和銀行服務(wù)(如個人存款)。由于信息的不對稱性、交易的頻繁性以及金融行業(yè)海量的數(shù)據(jù)信息,數(shù)據(jù)挖掘技術(shù)能夠從上述信息中收集到有效的信息,從而幫助投資部門和管理部門進(jìn)行有效的投資管理和監(jiān)督,并且還能夠幫助金融企業(yè)根據(jù)客戶以往的信息預(yù)測未來,這就能夠分析出潛在的信譽較差的客戶,幫助金融企業(yè)采取必要的措施減少壞賬和財產(chǎn)損失。
金融機構(gòu)收集到的金融數(shù)據(jù)通常具有高質(zhì)量、完整并且相對可靠,這就方便了系統(tǒng)化的數(shù)據(jù)挖掘和數(shù)據(jù)分析。對金融數(shù)據(jù)的數(shù)據(jù)挖掘通常有以下一些應(yīng)用分析情況:
1)顧客信用政策分析和貸款償還預(yù)測
顧客信用政策分析和貸款償還預(yù)測對銀行業(yè)務(wù)有著非常重要的意義。許多因索都會對顧客信用等級和貸款償還評定和履行產(chǎn)生不同的一些影響。數(shù)據(jù)挖掘的方法,如屬性相關(guān)評定和屬性選擇,能夠有助于剔除不相關(guān)因索、識別重要因索。比如與貸款償還風(fēng)險相關(guān)的因索包括負(fù)債率、信用史、受教育水平、居住地區(qū)、償還收入比、顧客收入水平、貸款期限和貸款率。通過分析顧客的償還史可以發(fā)現(xiàn),償還收入比是主要的影響因索,受負(fù)債率和教育水平就不是,于是,通過這樣的數(shù)據(jù)挖掘,銀行能夠根據(jù)上述規(guī)則制定貸款發(fā)放策略,有許多貸款申請曾經(jīng)被拒絕,但是基本信息表面其風(fēng)險是相對較低的顧客將能夠獲得審批。
2)為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計和構(gòu)造數(shù)據(jù)倉庫
首先需要為金融數(shù)據(jù)和銀行數(shù)據(jù)構(gòu)造數(shù)據(jù)倉庫,可以采用多維數(shù)據(jù)分析方法去分析這種數(shù)據(jù)的所有屬性,企業(yè)可以通過按部門、按地區(qū)、按月或者其他一些因索,查看稅收和債務(wù)變化,同時提供總和、最小、最大、平均值和其它一下統(tǒng)計信息。數(shù)據(jù)立方體、數(shù)據(jù)倉庫、多表征和事件驅(qū)動的數(shù)據(jù)立方體、離群點分析、類比較和特征化都會在數(shù)據(jù)挖掘和金融數(shù)據(jù)分析中發(fā)揮很大的作用。
3)洗錢犯罪和其它金融領(lǐng)域各種犯罪的偵破
幫助洗錢犯罪和其它金融領(lǐng)域各種犯罪的偵破,并且把金融領(lǐng)域中數(shù)據(jù)庫(如不同地區(qū)金融犯罪數(shù)據(jù)庫以及個人、企業(yè)銀行交易數(shù)據(jù)庫)中的信息相互交叉集成,從而得到的數(shù)據(jù)可能對偵破工作有幫助。然后可以采用一些數(shù)據(jù)分析工具異常模式的檢測,例如在一個月內(nèi)某個人發(fā)生了大量現(xiàn)金轉(zhuǎn)入或者轉(zhuǎn)出流動。使用的工具包括分類工具(對高度相關(guān)屬性分類并且過濾不相關(guān)的屬性)、數(shù)據(jù)鏈接分析工具(識別不同活動和顧客之間的聯(lián)系)、序列模式分析工具(刻畫異常訪問序列的特征)、可視化工具(用圖形的方式按顧客群或者按時間顯示交易活動)、離群點分析工具(檢測異常資金轉(zhuǎn)移量或其他行為)、聚類工具(將不同案例分組)。上述這些工具能夠識別活動的重要模式和聯(lián)系,幫助司法人員為詳細(xì)調(diào)查提供進(jìn)一步線索。
4)針對定向銷售的顧客聚類和分類
聚類和分類的方法可用于顧客群識別和定向銷售。使用多維聚類技術(shù),可以識別對貸款償有類似行為的顧客,使用分類識別可以影響顧客關(guān)于銀行業(yè)務(wù)決策的最重要因索。這些可以幫助金融企業(yè)識別顧客群,把所識別的顧客群歸類到一個合適的顧客群,從而進(jìn)行引導(dǎo)和推動性的消費。
4結(jié)束語
數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫和決策支持系統(tǒng)都是目前數(shù)據(jù)分析領(lǐng)域的前沿科學(xué)。在金融領(lǐng)域,隨著越來越多的金融機構(gòu)開始使用管理信息系統(tǒng)以及信息的爆炸式增長,把數(shù)據(jù)挖掘技術(shù)應(yīng)用到金融行業(yè)各個領(lǐng)域中,從而建立金融行業(yè)管理決策系統(tǒng),這一定可以為金融行業(yè)各級領(lǐng)導(dǎo)部門的運營決策提供切實可行的優(yōu)化金融資源、提高金融質(zhì)量的依據(jù),為金融機構(gòu)在未來的發(fā)展中發(fā)揮重要的作用、提供更廣闊的空間,使得金融行業(yè)在激烈的競爭中掌握主動,為金融行業(yè)的跨越式發(fā)展起到一個科學(xué)導(dǎo)向作用。
參考文獻(xiàn):
[1]李嶶,李宛州.基于數(shù)據(jù)倉庫技術(shù)的進(jìn)銷存系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程與應(yīng)用,2001(10):93-94.
[2] Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[3] Inmon W H.數(shù)據(jù)倉庫[M].機械工業(yè)出版社,2000.
[4]林字,等.數(shù)據(jù)倉庫原理與實踐[M].北京:人民郵電出版社,2003.
[5]張春陽,周繼恩,劉貴全,等.基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)建[J].計算機工程,2002(4):249-252.
[6]陳德軍,盛翊智,陳綿云.基于數(shù)據(jù)倉庫的OLAP在DSS中的應(yīng)用研究[J].計算機工程與應(yīng)用,2003(1):30-31.
[7]朱明.數(shù)據(jù)挖掘[M].合肥:中國科技大學(xué)出版社,2002.
[8]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002.