陳春江 周易達
【摘要】在經(jīng)濟時代,數(shù)據(jù)的重要性是不言而喻的。作者通過大量實踐,總結一些數(shù)據(jù)挖掘的應用方法,并在本文中用生動實例介紹給讀者,有著拋磚引玉的作用。
【關鍵詞】數(shù)據(jù)挖掘經(jīng)濟分析推理預測軟件
一、數(shù)據(jù)挖掘及其作用
數(shù)據(jù)挖掘(Data Mining,DM),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。它融合數(shù)據(jù)庫系統(tǒng)、人工智能、統(tǒng)計學、機器學習、信息科學等,是一個新興的多學科交叉應用領域[1]。簡單地說,數(shù)據(jù)挖掘就是把存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中“挖掘”或“找到”有趣知識的過程。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括行業(yè)監(jiān)管、商務管理、生產(chǎn)控制、市場分析、工程設計和科學探索等。
有一個“尿布與啤酒”的故事,可以用來說明數(shù)據(jù)挖掘的作用。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。沃爾瑪在這些原始交易數(shù)據(jù)的基礎上,利用數(shù)據(jù)挖掘技術方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,發(fā)現(xiàn)美國的太太們常叮囑她們的丈夫下班后到超市為小孩買尿布,而丈夫們中有30%~40%的人在買尿布的同時也為自己買一些啤酒。于是沃爾瑪干脆將尿布與啤酒擺在同一個貨架上,從而更方便了顧客,促進了銷售。按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術方法對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。那么,怎么樣來挖掘數(shù)據(jù)呢?
二、常用的數(shù)據(jù)挖掘方法和應用舉例
挖掘數(shù)據(jù),簡單來說就是要通過讀活數(shù)據(jù)(傳統(tǒng)方法)、知識運用(推理方法)、大海撈針(篩選方法)、專業(yè)軟件(技術方法)等方法或手段,挖掘出有用數(shù)據(jù)。
(一)讀活數(shù)據(jù)——傳統(tǒng)方法
通過閱讀政策、理論和報表數(shù)據(jù),運用政策傳導和理論根據(jù),去挖掘數(shù)據(jù)背后的真實狀況。在閱讀的基礎上,進一步計算比較基礎數(shù)據(jù)的增加值、增長率和標準值等變化規(guī)律,及時發(fā)現(xiàn)各指標在運行過程中發(fā)生的突變情況。在閱讀、比較的基礎上進一步分析。
分析實例一,利率對銀行的影響:2007年12月21日到2008年12月23日,央行連續(xù)4次下調(diào)基準利率,假設在銀行存貸款總額不變的情況下,存、貸款余額和銀行的利息收支變化情況如表一:
表一利率對銀行的影響
從銀行的角度來看,當基準利率下調(diào)時,支付的存款利息和收到的貸款利息都會減少,而且在存貸比保持某個比例時,利差會增大,而不是通常人們認為的那樣利差會減少。從消費者的角度來看,存款人少收的利息大于貸款人少付的利息,結果銀行增加的收入來自存款人減少的收入。
(二)知識運用——推理方法
通過經(jīng)濟理論知識來實證當前社會經(jīng)濟的情況或預測世界經(jīng)濟可能會出現(xiàn)的情況。
分析實例二,用奧肯定律來分析我國的GDP和失業(yè)率之間的關系:薩繆爾森和諾德豪斯合著的《經(jīng)濟學》第16版456頁確切表述,“按奧肯定律,GDP增長比潛在GDP增長每快2%,失業(yè)率上升1個百分點,公式表示為:失業(yè)率的變動=-(實際GDP的增長率-潛在GDP的增長率)/2”[2]。2008年,全年國內(nèi)生產(chǎn)總值同比增長9.6%。2009年GDP增長8.7%,則實際下降0.9個百分點,根據(jù)奧肯定律來推測,失業(yè)率應上升0.45個百分點,達到4.65%。
分析實例三,GDP與固定資產(chǎn)投資的關系:通過用加速模型對中國1978~1997年數(shù)據(jù)進行檢驗,從而推斷出那些以有效需求不足為假設前提的模型不能解釋中國的現(xiàn)實。其次,以供不應求為特征的存量調(diào)整模型能較好地解釋中國固定資產(chǎn)投資的決定因素。在正常年份,實際國內(nèi)生產(chǎn)總值增長1%,合理的實際固定資產(chǎn)投資應增長1.85%[3]。即GDP增長一個點,約需要投資增長2個點。因此,用GDP與投資總量之間的這種理論關系,可以推算出非信貸投資總額。比如:2008年保山市GDP增長率為13.1%(G),從GDP增速倒推,與其相適應的投資增速應在26.2%左右,但本地銀行貸款實際增長22.27億元,增速僅為16.84%,少增9.36%,表明可能有其他資金投放在本地;年初貸款余額N=131.79億元,S=N×G×2-M=131.79×13.1%×2-22.27=12.37億元。表明外地資金在本地當年投放12.37億元左右。
分析實例四,金融危機與菜農(nóng)的關系:美國金融危機后?圯中國涉外企業(yè)十分困難,大多處于關停狀態(tài)?圯大量農(nóng)民工返鄉(xiāng)?圯返鄉(xiāng)后自己種蔬菜(再說也無法買到原來吃的蔬菜)?圯以往這些農(nóng)民工日常消費的蔬菜沒有人消費,形成消費鏈斷裂?圯河南菜農(nóng)的蔬菜賣不出去?圯河南菜農(nóng)生產(chǎn)過剩。事實上,根據(jù)國新辦于2009年2月2日上午10時舉行新聞背景吹風會,離開本鄉(xiāng)鎮(zhèn)外出就業(yè)的農(nóng)民工的總量大概是1.3億人,大約有15.3%的農(nóng)民工因全球金融危機而失去了工作,或者沒找到工作。據(jù)此推算,全國大約有2000萬農(nóng)民工失去工作,或者還沒有找到工作而返鄉(xiāng)了。假設每個農(nóng)民工日均消費1市斤蔬菜,返鄉(xiāng)農(nóng)民工有2000萬,就意味著菜農(nóng)每天有2000萬斤蔬菜賣不出去。
(三)大海撈針——篩選方法
可以通過Excel的篩選命令,從眾多的數(shù)據(jù)中篩選出需要的信息。
分析實例五,異地貸款統(tǒng)計:在《銀行業(yè)非現(xiàn)場監(jiān)管信息系統(tǒng)》中,沒有對異地貸款信息專門統(tǒng)計,給異地貸款風險監(jiān)管帶來難度,可是,銀行業(yè)《風險預警系統(tǒng)》給我們提供了豐富的客戶信息資源?!讹L險預警系統(tǒng)》中包含了哪個銀行在什么地方對哪個企業(yè)授信多少、發(fā)放貸款多少,以及現(xiàn)在貸款的質(zhì)量怎么樣等48項信息。當銀行與企業(yè)不在同一個地方時,貸款就衍變?yōu)楫惖刭J款,考察全省匯總數(shù)據(jù),我們很快發(fā)現(xiàn),可以用篩選方法,將異地貸款統(tǒng)計出來。方法是:分別用篩選命令,篩選出注冊地在本地各縣區(qū)的所有客戶,并將其匯總在同一張Excel表中,再刪除本地銀行機構的客戶信息,剩下的就是外地銀行在本地客戶的貸款信息。反之,也可以篩選出本地銀行在外地客戶的貸款信息。
(四)專業(yè)軟件——技術方法
通過《銀行業(yè)非現(xiàn)場監(jiān)管信息系統(tǒng)》的查詢方法和分析模型,進行“時間序列分析”和“同質(zhì)同類比較分析”,可以挖掘出更多有用的監(jiān)管信息;通過Excel中強大的函數(shù)庫,可以獲得更多的統(tǒng)計分析結果;通過《馬克威分析系統(tǒng)》等專業(yè)分析軟件,可以從海量信息和數(shù)據(jù)中尋找規(guī)律和知識,建立起概念模型,為決策者提供科學的決策依據(jù)。
分析實例六,2009年全國貸款總額預測:根據(jù)2002年至2009年一季度貸款余額和全年貸款總量,以及2010年一季度的貸款余額,可以用回歸分析預測出2010年貸款總量。如表二所示:
表二金融機構人民幣信貸收支表(單位:億元)
表中用回歸分析預測函數(shù)FORECAST預測了2010年的全年貸款總量將達到47.9萬億元,F(xiàn)ORECAST(x,known_y's,known_x's)中的x是2010年一季度貸款余額;known_y's是2003至2009年的貸款總量,是因變量;known_x's是2003至2009年一季度貸款余額,是對應的自變量。在本例中,函數(shù)表達式是FORECAST(B11,C3:C10,B3:B10)。
在表中,如果計算同比增加量,2010年全年同比增加貸款7.96萬億元左右。如果以時間作為自變量,全年各項貸款余額作為因變量,畫出全年貸款余額折線圖和三階趨勢線,我們發(fā)現(xiàn),決定系統(tǒng)R2=0.997,接近于1,表示線性擬合程度較高。
考慮到出口減少,外匯儲備下降,貨幣生成機制發(fā)生變化,企業(yè)更加依賴銀行貸款等因素,貸款余額將遠不止45萬億元,事實上,2010末貸款余額達到了50.9萬億元,這說明這個回歸分析預測函數(shù)準確率還是很高的。
參考文獻
[1]劉明亮.數(shù)據(jù)挖掘技術標準綜述.計算機科學[J].2008年,(06):5.
[2]孫敬水.我國經(jīng)濟增長與就業(yè)關系的實證分析.經(jīng)濟問題探索[J],2007年(04):6.
[3]張華嘉.固定資產(chǎn)投資與經(jīng)濟增長.世界經(jīng)濟文匯[J].1999年(06):3.
作者簡介:陳春江(1964-),女,漢族,云南昆明市人,學士,副教授,計算機科學專業(yè),研究方向:計算機應用和區(qū)域經(jīng)濟研究;周易達(1962-),男,漢族,云南保山市人,學士,工程師,計算機科學專業(yè),研究方向:銀行業(yè)監(jiān)管和金融風險分析。