胡炎非
在過去10年里,人們使用信息技術(shù)處理和收集數(shù)據(jù)的能力得到極大的提高,數(shù)百萬個(gè)數(shù)據(jù)庫被廣泛應(yīng)用于商業(yè)、政府、科學(xué)研究和工程實(shí)施等領(lǐng)域。但這也帶來了新的挑戰(zhàn),一方面,數(shù)據(jù)過剩幾乎成為每個(gè)人都必須面臨的問題;另一方面,各類企業(yè)又往往面臨信息不足的問題。本研究就是從這些問題出發(fā),通過研究數(shù)據(jù)挖掘技術(shù),為系統(tǒng)提供新的知識(shí)數(shù)據(jù)庫。金融部門的日常業(yè)務(wù)都會(huì)產(chǎn)生大量數(shù)據(jù),利用現(xiàn)有的數(shù)據(jù)庫系統(tǒng),可以有效地實(shí)現(xiàn)數(shù)據(jù)錄入、查詢、統(tǒng)計(jì)等功能,但找不到數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。由于缺乏挖掘數(shù)據(jù)背后隱藏知識(shí)的手段,導(dǎo)致出現(xiàn)“數(shù)據(jù)爆炸但知識(shí)匱乏”的現(xiàn)象。同時(shí),金融機(jī)構(gòu)的經(jīng)營(yíng)必然存在金融風(fēng)險(xiǎn),風(fēng)險(xiǎn)管理是各金融機(jī)構(gòu)的重要工作。數(shù)據(jù)挖掘技術(shù)的使用不僅可以從大量的數(shù)據(jù)中找到隱藏的規(guī)律,還可以降低金融機(jī)構(gòu)的風(fēng)險(xiǎn)。學(xué)習(xí)和應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)我國(guó)的金融機(jī)構(gòu)具有重要意義。
金融風(fēng)險(xiǎn)是指可能導(dǎo)致企業(yè)、事業(yè)單位財(cái)產(chǎn)損失的風(fēng)險(xiǎn),即企業(yè)未來收入的不確定性和波動(dòng)性。根據(jù)金融風(fēng)險(xiǎn)的來源,可分為靜態(tài)風(fēng)險(xiǎn)和動(dòng)態(tài)風(fēng)險(xiǎn);按風(fēng)險(xiǎn)范圍可分為微觀風(fēng)險(xiǎn)和宏觀風(fēng)險(xiǎn);按金融機(jī)構(gòu)類別可分為銀行風(fēng)險(xiǎn)、證券風(fēng)險(xiǎn)、保險(xiǎn)風(fēng)險(xiǎn)和信托風(fēng)險(xiǎn)等。通過對(duì)風(fēng)險(xiǎn)的測(cè)量和理解,采取相應(yīng)的措施和處置方案,使風(fēng)險(xiǎn)最小化,利潤(rùn)最大化??梢?,金融風(fēng)險(xiǎn)監(jiān)測(cè)是一種規(guī)范金融投資安全與盈利能力之間平衡的金融管理方法。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)規(guī)模越來越大,價(jià)值密度也越來越低。數(shù)據(jù)挖掘是此背景下產(chǎn)生的一種技術(shù),主要功能是幫助人們挖掘數(shù)據(jù)信息的價(jià)值,并被廣泛應(yīng)用于商業(yè)信息處理領(lǐng)域。數(shù)據(jù)挖掘可以實(shí)現(xiàn)對(duì)商業(yè)業(yè)務(wù)數(shù)據(jù)信息的讀取、轉(zhuǎn)化、分析和智能處理,為商業(yè)決策活動(dòng)提供強(qiáng)有力的支持。
數(shù)據(jù)挖掘也被稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),是目前人工智能和數(shù)據(jù)庫領(lǐng)域的一個(gè)熱點(diǎn)問題。所謂數(shù)據(jù)挖掘指的是從數(shù)據(jù)庫中的大量數(shù)據(jù)中挖掘隱式的、先前未知的和有潛在價(jià)值的信息。數(shù)據(jù)挖掘是一種決策支持過程,主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等。數(shù)據(jù)挖掘?qū)τ诜治銎髽I(yè)數(shù)據(jù)再加以歸納推理,并從中挖掘潛在的信息是高度自動(dòng)化的,有利于幫助決策者調(diào)整市場(chǎng)策略,降低風(fēng)險(xiǎn),做出正確的決策。
數(shù)據(jù)分析常用的數(shù)據(jù)挖掘方法有分類、神經(jīng)網(wǎng)絡(luò)、回歸分析和偏差分析等,它們分別從不同角度對(duì)數(shù)據(jù)進(jìn)行挖掘。
(1)分類
分類是為了查明數(shù)據(jù)庫中一組數(shù)據(jù)對(duì)象的共同特征,并按分類模式分為不同的類,目的是通過分類模型將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。可應(yīng)用于客戶分類、客戶屬性和特征分析、顧客滿意度分析、顧客購(gòu)買趨勢(shì)預(yù)測(cè)等,如汽車零售商根據(jù)客戶的喜好,將汽車分為不同的類別,從而將新車的廣告手冊(cè)直接郵寄給具有這些偏好的客戶,從而大大增加交易機(jī)會(huì)。
(2)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性、自組織適應(yīng)性、并行處理、分布式存儲(chǔ)和高容錯(cuò)能力,非常適合解決數(shù)據(jù)挖掘問題,近年來引起越來越多人的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三類:以感知機(jī)、BP反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表的,用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;以Hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射。神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)是“黑盒”性,使人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程。
(3)回歸分析
回歸分析反映了數(shù)據(jù)庫中屬性值的特征,產(chǎn)生了將數(shù)據(jù)項(xiàng)映射到實(shí)值預(yù)測(cè)變量,并發(fā)現(xiàn)變量或?qū)傩灾g依賴性的函數(shù)。主要的研究問題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)和數(shù)據(jù)之間的相關(guān)性。它可以適用于市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)以及有針對(duì)性的促銷活動(dòng)等。
數(shù)據(jù)挖掘是為了解決傳統(tǒng)分析方法的不足,并處理大規(guī)模的數(shù)據(jù)分析。數(shù)據(jù)的快速增長(zhǎng)和數(shù)據(jù)分析方法的持續(xù)進(jìn)步,使人們能夠在現(xiàn)有的大量數(shù)據(jù)分析的基礎(chǔ)上提取隱藏在數(shù)據(jù)背后的有用信息。
信用風(fēng)險(xiǎn)的數(shù)據(jù)挖掘評(píng)估包括銀行信用卡風(fēng)險(xiǎn)評(píng)估和貸款信用評(píng)估等。信用風(fēng)險(xiǎn)是指不可抗力和惡意欺詐造成的、使債務(wù)人不能或不愿履行已簽訂合同而給銀行造成的損失。銀行對(duì)個(gè)人和企業(yè)的財(cái)務(wù)狀況發(fā)生變化的過程往往不能及時(shí)了解或者說被循環(huán)信用掩蓋。通過數(shù)據(jù)挖掘技術(shù),對(duì)區(qū)域差異、個(gè)人知識(shí)水平、收入水平、經(jīng)濟(jì)環(huán)境狀況、社會(huì)地位等客戶信用的影響因素進(jìn)行挖掘,可以迅速建立用戶信用等級(jí),然后給出不同的信用額度。它還可以全面揭示信用風(fēng)險(xiǎn)的關(guān)系和特征,提高信用違約預(yù)測(cè)的準(zhǔn)確性。Frydmann et al(1985)首次將決策樹模型運(yùn)用于違約企業(yè)和非違約企業(yè)的分類。此后,許多人將決策樹模型、神經(jīng)網(wǎng)絡(luò)法和遺傳算法用于違約判斷,以期得到更好的分類效果。目前市場(chǎng)上,數(shù)據(jù)挖掘工具提供了完整的展現(xiàn),如Brio公司的Brio. Enterprise,能全方位、多層次展現(xiàn)數(shù)據(jù)分析結(jié)果。
財(cái)務(wù)危機(jī)的本質(zhì)是財(cái)務(wù)風(fēng)險(xiǎn)的規(guī)模和高強(qiáng)度的集中爆發(fā),主要表現(xiàn)為財(cái)務(wù)狀況的極端惡化、支付危機(jī),甚至破產(chǎn)。這些公司都不同程度出現(xiàn)以下狀況:無法償還到期債務(wù)、巨額投資沒有回報(bào)、現(xiàn)金流不足、產(chǎn)品銷售不良、大量庫存積壓、涉及巨額訴訟賠償,以及主營(yíng)業(yè)務(wù)嚴(yán)重收縮。財(cái)務(wù)危機(jī)預(yù)警模型的建立可以為企業(yè)經(jīng)營(yíng)失敗和財(cái)務(wù)管理錯(cuò)誤進(jìn)行早期預(yù)警和早期控制,為決策者、投資者和債權(quán)人提供重要信息。國(guó)內(nèi)外學(xué)者利用數(shù)據(jù)挖掘中的主成分分析、邏輯回歸、線性回歸和神經(jīng)網(wǎng)絡(luò)等方法,來建立財(cái)務(wù)危機(jī)預(yù)警模型。首先根據(jù)特征向量和主成分貢獻(xiàn)率,計(jì)算出對(duì)于財(cái)務(wù)狀況影響最大的財(cái)務(wù)指標(biāo);接著以預(yù)測(cè)期公司的財(cái)務(wù)狀況為目標(biāo)變量;然后運(yùn)用邏輯回歸方法和決策樹方法對(duì)公司財(cái)務(wù)狀況進(jìn)行預(yù)測(cè);最后把各家公司綜合評(píng)分作為目標(biāo)變量,采用線性回歸和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行公司財(cái)務(wù)危機(jī)預(yù)警分析。
數(shù)據(jù)挖掘作為一種深度數(shù)據(jù)信息分析方法,對(duì)傳統(tǒng)評(píng)價(jià)方法無法獲得的各種因素之間隱藏的內(nèi)部聯(lián)系進(jìn)行綜合分析。該技術(shù)的應(yīng)用無疑有利于金融風(fēng)險(xiǎn)監(jiān)測(cè),能夠提供風(fēng)險(xiǎn)預(yù)警,使管理者能夠提前準(zhǔn)備,提供決策參考信息,大大降低風(fēng)險(xiǎn),提高企業(yè)競(jìng)爭(zhēng)力,促進(jìn)企業(yè)快速發(fā)展。