張瑞亭
[摘 要]隨著科學(xué)技術(shù)的飛速發(fā)展和人們獲取數(shù)據(jù)的多樣化,人類擁有的數(shù)據(jù)急劇增加。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)已成為新型戰(zhàn)略資源,是驅(qū)動創(chuàng)新的重要因素。如何獲取隱藏在數(shù)據(jù)背后的潛在的規(guī)律備受研究人員關(guān)注。數(shù)據(jù)挖掘是一門邊緣應(yīng)用學(xué)科,它的蓬勃發(fā)展是由于它在各個(gè)領(lǐng)域的廣泛應(yīng)用。結(jié)合金融數(shù)據(jù)的特點(diǎn)以及目前數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)存在的問題,研究未來金融專業(yè)數(shù)學(xué)的發(fā)展方向和動態(tài)趨勢,對于大數(shù)據(jù)時(shí)代下培養(yǎng)金融專業(yè)學(xué)生具有十分重要的意義。
[關(guān)鍵詞]數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 支持向量機(jī) 金融數(shù)據(jù)
[中圖分類號] F83 [文獻(xiàn)標(biāo)識碼] A [文章編號] 2095-3437(2014)14-0029-02
一、背景
數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源,其背后隱含著巨大的經(jīng)濟(jì)價(jià)值。近年來,“大數(shù)據(jù)”研究已經(jīng)備受關(guān)注。[1]例如,2012年,美國政府在國內(nèi)發(fā)布了“大數(shù)據(jù)”研究和《發(fā)展倡議》,投資約兩億美元發(fā)展大數(shù)據(jù)研究,用以強(qiáng)化國土安全、轉(zhuǎn)變教育學(xué)習(xí)模式和進(jìn)一步加速科學(xué)和工程領(lǐng)域的創(chuàng)新速度和水平。繼1993年美國宣布“信息高速公路”計(jì)劃后,這項(xiàng)決定標(biāo)志著美國的又一次重大科技發(fā)展部署。美國政府認(rèn)為“大數(shù)據(jù)”研究勢必對未來的科技、經(jīng)濟(jì)等各領(lǐng)域的發(fā)展帶來深遠(yuǎn)影響。在大數(shù)據(jù)應(yīng)用的技術(shù)需求牽引下,數(shù)據(jù)科學(xué)研究和人才培養(yǎng)引起了各國的重視。美國哥倫比亞大學(xué)和紐約大學(xué)、澳大利亞悉尼科技大學(xué)、日本名古屋大學(xué)、韓國釜山國立大學(xué)等紛紛成立數(shù)據(jù)科學(xué)研究機(jī)構(gòu);美國加州大學(xué)伯克利分校和伊利諾伊大學(xué)香檳分校、英國鄧迪大學(xué)等一大批高校開設(shè)了數(shù)據(jù)科學(xué)課程。
二、機(jī)器學(xué)習(xí)理論
機(jī)器學(xué)習(xí)(machine learning)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要研究內(nèi)容,在某種意義上,機(jī)器學(xué)習(xí)或?qū)⒄J(rèn)為是數(shù)據(jù)挖掘的同義詞。數(shù)據(jù)挖掘是指有組織、有目的地收集數(shù)據(jù)、分析數(shù)據(jù),從海量數(shù)據(jù)中尋找潛在規(guī)律,并使之為決策規(guī)劃提供有價(jià)值信息的技術(shù)。機(jī)器學(xué)習(xí)是人工智能的核心部分,在金融、工業(yè)、商業(yè)、互聯(lián)網(wǎng)以及航天等各個(gè)領(lǐng)域均發(fā)揮著重要的作用。對機(jī)器學(xué)習(xí)研究的進(jìn)展,必將對人工智能、數(shù)據(jù)挖掘領(lǐng)域的發(fā)展具有深遠(yuǎn)影響。
機(jī)器學(xué)習(xí)方法主要包括:Exper System(專家系統(tǒng))、K-Nearest Neighbor(K近鄰算法)、Decision Tree(決策樹)、Neural Net(神經(jīng)網(wǎng)絡(luò))、Support Vector Machine(支持向量機(jī))、Cluster Analysis(聚類分析)等。近幾年,研究人員將遺傳算法、神經(jīng)網(wǎng)絡(luò)、系統(tǒng)理論以及當(dāng)代數(shù)學(xué)研究的最新進(jìn)展,應(yīng)用于金融領(lǐng)域。這使得金融領(lǐng)域數(shù)據(jù)挖掘在金融管理中備受青睞。例如,產(chǎn)品定價(jià)、金融風(fēng)險(xiǎn)管理、投資決策甚至金融監(jiān)管都越來越重視金融數(shù)據(jù)挖掘,通過數(shù)據(jù)挖掘發(fā)現(xiàn)金融市場發(fā)展的潛在規(guī)律與發(fā)展動態(tài)。機(jī)器學(xué)習(xí)理論及其在金融領(lǐng)域的應(yīng)用成為了一個(gè)比較熱的研究領(lǐng)域。[2] [3]
三、金融數(shù)據(jù)的特點(diǎn)
在眾多機(jī)器學(xué)習(xí)方法中,基于Logistic回歸、判別分析等傳統(tǒng)的統(tǒng)計(jì)方法,對金融模型假定條件非常嚴(yán)格,在實(shí)際應(yīng)用中很難達(dá)到理想效果。其原因在于對金融數(shù)據(jù)的非線性和非平穩(wěn)性的操作具有片面局限性,在實(shí)際處理金融數(shù)據(jù)時(shí),既定假設(shè)與金融市場發(fā)展實(shí)際并不完全一致,這樣可能會影響模型的推廣能力和泛化能力。
基于分類樹方法、K-近鄰判別分析、遺傳算法等傳統(tǒng)的非參數(shù)統(tǒng)計(jì)方法,其預(yù)測能力較好,但不能量化解釋指標(biāo)的程度。例如,K-近鄰判別分析是一種非參數(shù)距離學(xué)習(xí)方法,通常按照數(shù)據(jù)樣本之間的距離或相關(guān)系數(shù)進(jìn)行度量,這樣會受到少數(shù)異常數(shù)據(jù)點(diǎn)的影響。但是,在相同樣本容量下,如果對于具體問題確實(shí)存在特定參數(shù)模型可以應(yīng)用時(shí),非參數(shù)方法效率相對較低。以神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等為典型的機(jī)器學(xué)習(xí)方法,優(yōu)點(diǎn)在于可以有效處理金融數(shù)據(jù)的非線性特性,并且不需要事先嚴(yán)格的統(tǒng)計(jì)假設(shè),這樣會表現(xiàn)出較強(qiáng)的適應(yīng)效果,充分體現(xiàn)人工智能、機(jī)器學(xué)習(xí)等方法的魅力。神經(jīng)網(wǎng)絡(luò)預(yù)測精度是各種機(jī)器學(xué)習(xí)方法中相對較好的,因?yàn)樵谝欢ǔ潭壬希窠?jīng)網(wǎng)絡(luò)可以按照任意精度近似非線性函數(shù),為高度非線性問題的建模和算法提供相應(yīng)支持。盡管神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)步有目共睹,但仍然存在一些難題。例如,通常難以確定隱層節(jié)點(diǎn)數(shù),并會存在“過學(xué)習(xí)”現(xiàn)象和局部極小值等問題。
四、支持向量機(jī)
傳統(tǒng)的統(tǒng)計(jì)模式識別方法是在樣本數(shù)目足夠多的情況下進(jìn)行的,但是樣本數(shù)目足夠多在實(shí)際問題里面往往難以保證。1968年Vapnik等人首次提出了統(tǒng)計(jì)學(xué)習(xí)理論,專門從事有限樣本情況下機(jī)器學(xué)習(xí)規(guī)律的研究。在此基礎(chǔ)上,1995年Vapnik等人首先提出支持向量機(jī)(Support Vector Machine,簡稱SVM)的學(xué)習(xí)方法,它是數(shù)據(jù)挖掘中的一項(xiàng)新的技術(shù)。SVM是機(jī)器學(xué)習(xí)研究領(lǐng)域的一項(xiàng)重大成果,主要研究如何根據(jù)有限學(xué)習(xí)樣本進(jìn)行模式識別和回歸預(yù)測,使在對未知樣本的估計(jì)過程中,期望風(fēng)險(xiǎn)最小。近年來,它被廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。近幾年的研究成果表明,SVM在實(shí)用算法研究、設(shè)計(jì)和實(shí)現(xiàn)方面已取得豐碩的成果,其在理論研究和算法實(shí)現(xiàn)方面都有突破性進(jìn)展,逐漸開始成為克服維數(shù)災(zāi)難和過學(xué)習(xí)等傳統(tǒng)問題的有力手段。支持向量機(jī)可以成功處理回歸分析和模式識別等諸多問題,并可推廣于預(yù)測和綜合評價(jià)等領(lǐng)域,因此可應(yīng)用于管理、經(jīng)濟(jì)等多種學(xué)科。支持向量機(jī)屬于一般化線性分類器,可以認(rèn)為是提克洛夫規(guī)則化(Tikhonov Regularization)方法的一個(gè)特例,其特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)。支持向量機(jī)的優(yōu)點(diǎn)表現(xiàn)在:1.它通過使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化代替?zhèn)鹘y(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,使用滿足Mercer 條件的核函數(shù),把輸入空間的數(shù)據(jù)變換到高維的Hilbert 空間,將向量映射到一個(gè)更高維的空間里。在這個(gè)空間里建立有一個(gè)最大間隔超平面,實(shí)現(xiàn)了由輸入空間中的非線性分析到Hilbert 空間中的線性分析。2.訓(xùn)練的復(fù)雜度與輸入空間的維數(shù)無關(guān),只與訓(xùn)練的樣本數(shù)目有關(guān)。3.稀疏性。決定最大間隔超平面的只是少數(shù)向量——支持向量,就推廣能力方面而言, 較少的支持向量數(shù)在統(tǒng)計(jì)意義上對應(yīng)好的推廣能力。4.本質(zhì)上,SVM算法是一個(gè)二次優(yōu)化問題,能保證所得到的解是全局最優(yōu)的解。綜上所述,SVM在一定程度上解決了以往困擾機(jī)器學(xué)習(xí)方法的很多問題,例如,模型選擇與“過學(xué)習(xí)”問題、非線性和高維小樣本等維數(shù)災(zāi)難問題、局部極小問題等。[4]正是由于SVM具有完備的理論基礎(chǔ)和出色的應(yīng)用表現(xiàn),使其在解決高維小樣本、非線性、壓縮感知以及高維模式識別問題中表現(xiàn)出獨(dú)特的優(yōu)勢,正成為自神經(jīng)網(wǎng)絡(luò)之后,機(jī)器學(xué)習(xí)領(lǐng)域中新的研究熱點(diǎn)之一。[5] [6]endprint
同其他機(jī)器學(xué)習(xí)方法比較,支持向量機(jī)更具嚴(yán)密的理論基礎(chǔ),因而在模型表現(xiàn)上也略勝一籌,被成功應(yīng)用于模式分類、非線性回歸,從使用效果來看,其結(jié)果較為理想。但從實(shí)踐角度分析來看,模型參數(shù)的選擇過度依賴人們的實(shí)驗(yàn)方法和實(shí)踐技能,在一定程度上降低了模型的推廣泛化能力和應(yīng)用領(lǐng)域。同時(shí)計(jì)算方面,訓(xùn)練時(shí)間過長、核參數(shù)的確定,在大訓(xùn)練樣本情況下, SVM面臨著維數(shù)災(zāi)難,甚至?xí)捎趦?nèi)存的限制導(dǎo)致無法訓(xùn)練。目前支持向量機(jī)在金融數(shù)據(jù)挖掘方面也存在一定的局限性,主要表現(xiàn)以下幾方面:動態(tài)適應(yīng)性、魯棒性、特征變量異質(zhì)性調(diào)整、模型推廣精度等不盡如人意;建模方法與技術(shù)還有待進(jìn)一步完善;支持向量機(jī)研究金融數(shù)據(jù)挖掘和金融問題的成果雖然不少,但大多集中在股票價(jià)格和股票市場走勢預(yù)測方面,關(guān)于公司財(cái)務(wù)危機(jī)預(yù)測、套期保值分析、金融市場連接機(jī)制分析及其創(chuàng)新成果方面有待加強(qiáng)。
五、結(jié)論
大數(shù)據(jù)時(shí)代下金融專業(yè)的數(shù)學(xué)重在以下方面的應(yīng)用:深度學(xué)習(xí)(Deep Learning)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘、分布式計(jì)算,如MR、Hadoop等,在大數(shù)據(jù)中預(yù)測最先取得突破的技術(shù)環(huán)節(jié)將會是分析中的大數(shù)據(jù)挖掘與關(guān)聯(lián)分析、存儲結(jié)構(gòu)和系統(tǒng)、數(shù)據(jù)采集和數(shù)據(jù)化。目前金融問題的研究方向和發(fā)展趨勢,主要集中在計(jì)量經(jīng)濟(jì)方法,例如,格蘭杰因果分析、向量自回歸、條件異方差、隨機(jī)波動分析等。這些計(jì)量經(jīng)濟(jì)方法和技術(shù)大部分使用了線性技術(shù),以及與金融市場不太吻合的理論假設(shè),基于這些方法的結(jié)果,例如,資產(chǎn)預(yù)測價(jià)格、發(fā)展動態(tài)以及風(fēng)險(xiǎn)評估結(jié)果和實(shí)際出入較大,影響了金融管理的效率。對于我們大學(xué)教師來說,如何將已有分析數(shù)據(jù)算法整合,讓學(xué)生抓住重點(diǎn),挖掘到比較可靠的信息或知識,都將成為金融專業(yè)數(shù)學(xué)研究的方向和目標(biāo)。
[ 注 釋 ]
[1] Anand Rajaraman Jeffrey David Ullman.大數(shù)據(jù)——互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].北京:人民郵電出版社,2012.
[2] Kumar, P.R. and Ravi, V. 2007. Bankruptcy prediction in banks and firms via statistical and intelligent techniques-a review. European Journal of Operational Research, 180(1):1-28.
[3] M. Oet, R. Eiben, T. Bianco,D.Gramlich, S. Ong, and J.Wang,“SAFE: an early warning system for systemic banking risk,”in Proceedings of the 24th Australasian Finance and BankingConference, SSRN, 2011.
[4] 沈傳河.金融問題中的支持向量機(jī)應(yīng)用研究[D].山東科技大學(xué)博士論文,2011.
[5] Chang C.C. and Lin, C.J., 2001. LIBSVM: A library for support vector machines.
[6] 鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[責(zé)任編輯:陳 明]endprint