蔡俊杰,王昂青,鄒金言,王逸捷,齊宇明
(上海金融學院,上?!?01209)
信息化
基于大數據與人工智能下的金融分析決策系統(tǒng)的設計與實現
蔡俊杰,王昂青,鄒金言,王逸捷,齊宇明
(上海金融學院,上海201209)
圍繞“互聯(lián)網+人工智能+普惠金融”的主題,立足于大數據及人工智能等,開發(fā)了一套網絡金融數據挖掘與分析決策系統(tǒng),從而實現金融數據的挖掘與分析及用戶輔助決策的功能,幫助規(guī)范金融市場、促進公眾理性投資。
大數據;輔助決策;人工智能;高維隨機矩陣;金融政策演化仿真
隨著互聯(lián)網的高速發(fā)展,社會已進入了一個“信息爆炸”的時代。金融數據作為網絡信息中尤為重要的一部分,公眾對其的需求也達到了新的高度。黨的十八屆三中全會關于“完善金融市場體系”重大改革的決定,為中國金融信息服務業(yè)發(fā)展提供了良好的政治環(huán)境;改革開放以來居民財富的增長、購買力的增加為金融信息服務業(yè)提供了充足的動力;互聯(lián)網的廣泛應用為金融信息服務業(yè)發(fā)展提供了廣闊的發(fā)展空間。
近年來,許多金融數據分析的研究團隊對Web的數據挖掘方法進行研究,挖掘方法也不斷更新。國外的金融挖掘方法都較為成熟,像Heritrix、Nutch等。國內關于金融數據挖掘領域的研究應用都處于初級階段,國內對金融數據和金融數據挖掘的研究理論、尤其對金融高頻數據與超高頻數據的研究應用更是處于起步階段[1]。目前在國內市場上,一方面,一般金融機構的咨詢服務專業(yè)性過強,對于廣大普通用戶而言門檻過高,大多數用戶難以據此做出直觀的判斷;另一方面,現有的金融機構面向普通用戶所推出的咨詢服務主要集中在銀行理財產品一類,具有很強的局限性,難以滿足用戶對金融信息的需求。
2.1金融信息服務軟件比較
2.1.1大智慧股票軟件
大智慧365金融終端是面向廣大投資者推出的專業(yè)級別產品,同時是市場上性價比最高的產品。大智慧的優(yōu)點是動態(tài)行情及時穩(wěn)定,F10功能較全;但是它的缺點是基本不具備智能分析決策功能,而且功能繁瑣,需要有一定的炒股經驗,并且付費版軟件價格昂貴。
2.1.2同花順免費股票軟件
同花順是一個提供行情顯示、行情分析和行情交易的股票軟件。同花順是永久免費使用、操作簡單、使用便捷、提供免費智能選股、技術選股服務等。同花順的優(yōu)點是能看港股、美股、期貨等行情,同時軟件資訊全面、形式多樣、指標我編我用等特點;缺點是特色功能太少,同時需要一定的炒股經驗。
2.1.3東方財富通
東方財富通是基于東方財富網推出的一款免費炒股軟件,從行情、資訊、指標功能等多角度全方面研發(fā)設計而成。特色功能包含滾動財經資訊、F9深度資料、內嵌交互平臺、全景盯盤界面、DDE決策等。東方財富通的優(yōu)點是各種特色數據很多,比如大小非解禁、高管持股動態(tài)和機構動態(tài)等;缺點是個性化公式、選股不方便。
2.1.4Wind資訊金融終端
Wind資訊金融終端提供最齊全的中國金融市場數據與信息,內容覆蓋股票、債券、基金、指數、權證、商品期貨、外匯、宏觀行業(yè)等多項品種,7×24×365不間斷的為證券分析師、基金經理等專業(yè)金融人士提供最準確、最及時、最完整的金融資訊,是馳騁中國金融市場的必備工具。它集成了ExcelAdd-in、Evaluator、EDB 和TAQEXP,優(yōu)點是信息及時、信息數據多、交易數據全、資訊專業(yè)。缺點則是收費較貴、操作復雜。
2.2市場分析
目前市場已經有許多傳統(tǒng)的金融數據信息服務供應商,如大智慧、金融界、同花順、wind、東方財富、和訊等,其市場份額大致如圖1分布:
圖1 傳統(tǒng)金融數據信息服務提供商市場份額
這些傳統(tǒng)的數據服務軟件提供的服務主要集中于普通的行情推送、行情展示、簡易的行情數據描述、普通無序的資訊等;即便是略微高級的level2行情服務也只能提高數據速度和部分篩選過的信息,并不能做到全面、準確、高效的幫助用戶掌握市場情況;然而如大智慧DTS這樣的高級服務平臺,需要專業(yè)的人士了解金融、計算機、數學等專業(yè)知識,才能合理應用。高級服務平臺專業(yè)過高,而且服務價格不菲,讓大多數非專業(yè)投資者望而卻步。
基于這樣的市場現狀,本項目研發(fā)出一套網絡金融數據挖掘與分析決策系統(tǒng),提供相關服務,滿足企業(yè)和個人的需求。
本課題擬開發(fā)一套網絡金融數據挖掘與分析決策系統(tǒng),圍繞“互聯(lián)網+人工智能+普惠金融”的主題,采用最新的技術,大數據技術、云計算技術以及人工智能技術;具體來講,將采用全局數據監(jiān)控技術、高頻金融數據建模、智能模型匹配優(yōu)化技術,以統(tǒng)一論的方式分析整個金融數據的高維隨機矩陣譜分析技術來對市場進行監(jiān)控預測,這在國內尚屬首次。與此同時,我們還采用網絡爬蟲、文本挖掘、鏈接排序算法等技術,結合金融政策演化仿真系統(tǒng),來實現對內外環(huán)境的監(jiān)控,熱點金融信息的追蹤及金融市場動態(tài)的分析。
3.1技術問題
在開發(fā)運營網絡金融數據挖掘與分析決策系統(tǒng)和服務、客戶端的過程中,會遇到一系列技術難關。主要有四點:第一,為了獲取網絡上及時有效的金融數據,需要研究開發(fā)一套網絡數據抓取以及數據倉儲軟件;第二,為了將金融數據和分析結果友好地呈現給用戶,需要研究有效的數據可視化技術;第三,金融數據的智能挖掘作為項目的技術核心,是提供優(yōu)質服務的根基,因此,項目將深入研究金融數學模型、數據挖掘智能算法、模型匹配智能算法等技術的原理與實現;第四,為了和用戶進行良好的交互,項目將研究服務器架設、維護以及與客戶端的對接的相關技術。
3.2解決方法
網絡金融數據挖掘與分析決策系統(tǒng),最主要有4個模塊:數據采集模塊、數據可視化模塊、模型分析模塊和系統(tǒng)管理模塊。
3.2.1數據采集模塊
數據采集模塊可以實現在網絡上實時跟蹤抓取用戶指定的金融數據,該模塊由采集規(guī)則學習和數據智能采集兩部分組成。為了實現網頁數據跟蹤抓取功能,本項目需要研究網絡上的金融數據結構和金融時間序列數據特征,根據這些特征,制定合適的方法在網頁上智能抓取指定的數據。
3.2.2數據可視化模塊
數據可視化模塊意在將金融數據與挖掘到的特征信息友好地呈現在用戶面前,該模塊由報表中心和金融數據展示兩部分組成。為了實現數據的可視化,將研究使用何種表格與圖形將有效的信息呈現在用戶面前,幫助用戶直觀地把握金融變動規(guī)律。
3.2.3模型分析模塊
模型分析模塊可以對已經獲得的數據采用多樣化的數理模型進行挖掘、分析、預測與決策,并利用決策樹進行模型選優(yōu),該模塊由傳統(tǒng)模型庫、智能模型庫、模型選優(yōu)算法三部分組成:1)傳統(tǒng)模型庫包含一系列分析金融數據的數學模型;2)智能模型庫包含一套由智能算法構成的預測與決策模型;3)通過模型選優(yōu)的方法在兩個模型庫中選出最優(yōu)的模型,并以此輔助用戶做投資決策。
為了實現上述功能,該項目擬將一系列經典數學模型收入到兩個模型庫中,并采用決策樹的方法對兩個庫中的模型進行選優(yōu)。與此同時將采用全局數據監(jiān)控技術、高頻金融數據建模、智能模型匹配優(yōu)化技術,采用以統(tǒng)一論的方式分析整個金融數據的高維隨機矩陣譜分析技術來對市場進行監(jiān)控預測。
3.2.4系統(tǒng)管理模塊
建立對用戶、數據一體化管理的軟件框架,其將包括用戶信息權限管理、系統(tǒng)運行實時監(jiān)控、系統(tǒng)日志管理、基礎數據庫管理等功能。
3.3理論支持
3.3.1金融數據結構分析
時間序列是金融數據的一種組織特征和表現方式,時間序列數據包括股票價格、基金價格和貨幣匯率等金融數據。金融數據時刻發(fā)生著變化,通過數據挖掘與分析對金融時間序列數據進行分析,處理大規(guī)模的數據,以大數據為基礎從而發(fā)現潛在的、可能存在的、有價值的規(guī)律與信息。
3.3.2數據挖掘技術
數據挖掘(英語:Datamining),從數據本身來看,通常數據挖掘需要有數據清理、數據變化、數據挖掘實施過程等。網頁數據挖掘基本過程如圖2所示:
圖2 PC網頁數據挖掘過程圖
3.3.3金融高頻數據與超高頻數據
金融高頻數據和超高頻數據的研究是金融計量學的一個全新的方向,一個嶄新的領域。金融高頻數據是指金融市場運行過程中以小時、分鐘或秒為采集頻率的數據,而超高頻數據則是指交易過程中實時采集的數據[2]。數據采集頻率越高,信息丟失越少,數據所包含的信息越接近于理論上的連續(xù)時間模型,所以近些年國內興起的高頻數據交易也有源可尋。利用高頻數據與超高頻數據能更加深刻的解釋金融市場所包含的價格運行規(guī)律、信息傳導機制以及更有益于對金融市場的分析與探索。同時有益于及時優(yōu)化模型,正確研究金融高頻數據的“日歷效應”有助于金融時間序列的長記憶特性,對價格日內波動的研究至關重要。
3.4關鍵技術
3.4.1高維隨機矩陣譜分析技術
一個以隨機變量為元素的矩陣稱之為隨機矩陣,而如果隨機矩陣的維數趨于無窮,則稱之為高維隨機矩陣。隨著金融與互聯(lián)網的不斷發(fā)展,現代的金融市場正在逐漸變成為一個匯聚大量數據、龐大信息和海量元素的系統(tǒng),大數據技術在金融市場中起著基礎的作用,主要體現在采集、儲存、分析挖掘、可視化等,而高維隨機矩陣譜分析技術作為新興的大數據分析方法,能將各類數據集成到高維矩陣中,從概率和統(tǒng)計的角度研究矩陣的特性和數據分布情況。高維隨機矩陣理論中表征的大數據結構是靈活多樣的,矩陣中的數據既可以是遵循某種分布的隨機數,也可以是確定數據,矩陣的構造原則是對行和列中元素進行調整以得到最優(yōu)的行列數比值[3]。
高維隨機矩陣的主要研究內容,隨機矩陣的經驗譜分布函數。
假設λ1,……,λn為矩陣A的實特征根。定義經驗譜分布函數:
隨機矩陣的一個基本問題是討論一系列給定的隨機矩陣序列函數FAn(x)的收斂問題。即找到其極限分布函數,其極限分布函數都是非隨機的,我們把它稱作隨機矩陣序列的極限譜分布。
3.4.2金融政策演化仿真技術
政策創(chuàng)新與擴散模型研究是金融政策效用的基礎。在政策創(chuàng)新與擴散的早期研究中,弗吉尼亞?格雷(VirginiaGray,1973)借鑒其他學科對創(chuàng)新與擴散的研究,提出了政策創(chuàng)新與擴散的經驗模型,他認為在政策創(chuàng)新擴散的初期,政策采納的發(fā)生相對不頻繁,然后隨著各種因素的影響,采納的比例會急劇上升。20世紀初興起了復雜網絡,20世紀中期出現了被大眾所熟知的復雜網絡,即隨即圖理論。但21世紀伊始隨著引入小世界網絡等模型,隨即圖理論遭到了各種猛烈的沖擊?;谡哐莼抡婕夹g以及政策傳播模型,從而實現對內外環(huán)境的監(jiān)控、熱點金融信息的追蹤、金融市場動態(tài)的分析及政府金融政策的演化仿真等。
4.1獲取個性化網絡金融數據
用戶可以通過數據抓取模塊的功能,根據自己的實際需求,在網絡上方便快捷地抓取相應的數據,降低了用戶信息的搜尋成本,一定程度上解決了用戶在市場上獲取信息難、信息不對稱的問題。
4.2挖掘與分析金融數據
通過使用模型分析模塊的功能,用戶可以用多樣化的方法對金融數據進行高效的分析。系統(tǒng)提供4.3幫助規(guī)范金融市場、促進公眾理性投資
了自動化模型選擇的方法,大大降低了對復雜金融數據分析的難度,適用于普通的用戶群體,為普通投資者的決策提供有效的指導;系統(tǒng)同時支持用戶自行選擇分析方法與模型,適合作為專業(yè)性較高的用戶群體的研究工具。
本系統(tǒng)通過科學的模型選優(yōu)方法,對用戶指定的金融數據進行挖掘分析,并給予用戶穩(wěn)健的決策指導,促使用戶理性投資,避免用戶對投資行為產生情緒化效應,從而達到規(guī)范和穩(wěn)定金融市場的目的。
4.4為政府經濟管理及決策提供依據
通過金融政策演化仿真,將政府的金融政策進行演化和預測,將仿真結果反饋到決策變量中,尋求最優(yōu)的金融政策變量,使得決策更加高效,從而避免政府的錯誤決策,使得風險得以控制,企業(yè)有更好的創(chuàng)新與發(fā)展,政府擁有更好的公信力。
[1]余春.基于數據挖掘技術的金融數據分析系統(tǒng)設計與實現[D].成都:電子科技大學,2014(6):69-78.
[2]唐振鵬.金融高頻數據和超高頻數據的研究現狀及展望[J].福州大學學報哲學(社會科學版),2008,22(4):14-20.
[3]嚴英杰,盛戈皞,王輝,等.基于高維隨機矩陣大數據分析模型的輸變電設備關鍵性能評估方法[J].中國電機工程學報,2016(2):435-445.
(編輯:劉楠)
Design and Implementation Intelligence under the Financial Analysis and Decision System of Based on Big Data and Artificial
Cai Junjie,Wang Angqing,Zou Jinyan,Wang Yijie,QiYuming
(Shanghai Finance University,Shanghai 201209)
This paper around the"Internet+AI+inclusive finance"theme,based on big data and artificial intelligence,to develop a network of financial data mining and decision analysis system,enabling mining and analysis of financial data and user assistance decision-making function,help regulate financialmarkets and promote rational public investment.
big data;AI;high-dimensional random matrix;decision support;monetary policy evolution simulation
TP311.13
A
2095-0748(2016)11-0086-03
10.16525/j.cnki.14-1362/n.2016.11.36
信息化
2016-04-26
上海金融學院2015年度上海市大學生創(chuàng)新創(chuàng)業(yè)訓練項目資助(201511639053)
蔡俊杰(1994—),男,山西晉中人,本科,研究方向:金融投資。