羅旺 曾花芝
文章編號(hào): 2095-2163(2018)03-0070-06中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A
摘要: 關(guān)鍵詞: (1 College of Computer Science and Software Engineering, Shenzhen University, Shenzhen Guangdong 518060, China;
2 College of Mechatronics and Control Engineering, Shenzhen University, Shenzhen Guangdong 518060, China)
Abstract: The new generation Internet, mobile Internet, cloud computing, and big data are strategic emerging industries that are being vigorously promoted in both HongKong and Shenzhen, which in recent years has rapid development momentum and has played a leading role in promoting the industrial upgrading of the two cities. However, due to historical reasons, some of the information pipelines and sources between Shenzhen and HongKong are not the same. In some cases of unusual stock transactions, the reasons behind them may not be clear. Therefore, it is of great and practical significance to analyze market sentiment and detect and prevent emergencies (including black box trading violations). This not only allows mainland shareholders to know in time the related (financial) events, news hot spots and market sentiments in HongKong, but also helps investors in Shenzhen and HongKong to grasp more comprehensive information and related event development trends, thus forming a relative judgements towards the recent trend of related stocks. Rational and objective judgments reduce investment risks caused by asymmetric information. This paper proposes a new text sentiment quantification method for the massive news data of the financial industry in HongKong, and proposes a new stock trend forecasting mechanism based on this method. This project intends to develop and implement a financial quantitative trading system based on sentiment analysis to verify the validity of the sentiment analysis method.
Key words:
作者簡(jiǎn)介:
收稿日期: 引言
新一代互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)是港、深兩地都在大力推動(dòng)的戰(zhàn)略性新興產(chǎn)業(yè),近年來發(fā)展勢(shì)頭迅猛,為推動(dòng)兩市的產(chǎn)業(yè)升級(jí)發(fā)揮著引領(lǐng)作用。同時(shí),作為國家戰(zhàn)略的前海深港現(xiàn)代服務(wù)業(yè)合作區(qū)已經(jīng)成為香港和深圳經(jīng)濟(jì)融合的支點(diǎn),前海合作區(qū)的發(fā)展重點(diǎn)主要是金融、現(xiàn)代物流、信息服務(wù)和科技創(chuàng)新服務(wù)四大產(chǎn)業(yè)。其中,金融在經(jīng)濟(jì)發(fā)展中處于舉足輕重的核心地位是不言而喻的?,F(xiàn)有研究表明,社交網(wǎng)絡(luò)的興起使得人們?cè)诨ヂ?lián)網(wǎng)上產(chǎn)生了大量的用戶內(nèi)容 (User Generated Content)。而且大規(guī)模云計(jì)算平臺(tái)的迅速發(fā)展,即使得當(dāng)下從這些用戶內(nèi)容中挖掘到隨時(shí)隨地發(fā)生的各種事件及社會(huì)輿情已經(jīng)具備了現(xiàn)實(shí)可能,從而在時(shí)間和空間上多方位地了解和股票券商相關(guān)的事件及股民的動(dòng)態(tài)需求。金融市場(chǎng)作為大眾投資的主要管道,在社交媒體中同樣得到了廣泛關(guān)注。金融和財(cái)經(jīng)事件的發(fā)現(xiàn)以及社會(huì)輿情分析,有助于大眾股民對(duì)金融證券市場(chǎng)、特別是股票走勢(shì)的判斷,并在此過程中滿足其行業(yè)需求與期待,從而在一定程度上幫助股民參詳并把握市場(chǎng)的走向。特別地,按照國家的戰(zhàn)略部署,在繼“滬港通”開始運(yùn)營之后,“深港通”作為最新的跨境證券股票交易市場(chǎng)即將開啟。如何積極響應(yīng)并對(duì)可能遇到的問題(比如異??缇辰灰仔袨椋┨峁┯辛Φ募夹g(shù)支持是 “深港通”亟需解決的重要問題。如何保護(hù)兩地股民的利益,檢測(cè)和預(yù)防突發(fā)事件(包括違紀(jì)黑箱交易)所帶來的影響并提供兩地股民必要的安全機(jī)制更是“深港通”能否成功的關(guān)鍵問題之一。
基于上述背景,針對(duì)證券行業(yè)應(yīng)用提出異常交易觸發(fā)的基于事件檢測(cè)和輿情分析的金融量化交易系統(tǒng)。由于歷史原因,深港兩地有些信息管道和來源也不一樣,在某些股票異常交易發(fā)生的情況下可能不清楚各自背后的原因。因此讓兩地的股民及時(shí)關(guān)注到在境內(nèi)外發(fā)生的相關(guān)(金融)事件以及社交網(wǎng)絡(luò)用戶追蹤議論的相關(guān)熱點(diǎn)事件,可以幫助深港股民掌握更加全面的信息及整體事件的發(fā)展態(tài)勢(shì),從而對(duì)相關(guān)股票的近期走勢(shì)形成相對(duì)理性與客觀的判斷,降低因信息不對(duì)稱而造成的投資風(fēng)險(xiǎn)。該系統(tǒng)將在促進(jìn)港、深經(jīng)濟(jì)建設(shè)與社會(huì)發(fā)展、加強(qiáng)兩地證券行業(yè)的交流與合作、培養(yǎng)具有互聯(lián)網(wǎng)思維的創(chuàng)新型金融人才等方面,產(chǎn)生巨大而深遠(yuǎn)的影響。
1國內(nèi)外研究現(xiàn)狀
1.1股票趨勢(shì)預(yù)測(cè)
一般而言,股票預(yù)測(cè)手段分為技術(shù)分析和基本分析。技術(shù)分析是僅從證券的市場(chǎng)行為來分析證券價(jià)格未來變化趨勢(shì)的方法。技術(shù)分析的理論基礎(chǔ)是建立在如下3個(gè)假設(shè)之上的:即市場(chǎng)的行為包含一切信息;價(jià)格沿趨勢(shì)移動(dòng);歷史會(huì)重復(fù)。其特點(diǎn)是通過對(duì)市場(chǎng)過去和現(xiàn)在的行為考據(jù),應(yīng)用數(shù)學(xué)和邏輯的方法,探索出一些典型的規(guī)律并據(jù)此預(yù)測(cè)證券市場(chǎng)的未來變化趨勢(shì)?;痉治鲇址Q基本面分析,是指證券投資分析人員根據(jù)經(jīng)濟(jì)學(xué)、金融學(xué)、財(cái)務(wù)管理學(xué)及投資學(xué)的基本原理,對(duì)決定證券投資價(jià)值及價(jià)格的基本要素,如宏觀經(jīng)濟(jì)指標(biāo)、經(jīng)濟(jì)政策走勢(shì)、行業(yè)發(fā)展?fàn)顩r、產(chǎn)品市場(chǎng)狀況、公司銷售和財(cái)務(wù)狀況,規(guī)范評(píng)估證券的投資價(jià)值,有效判斷證券的合理價(jià)位,從而提出相應(yīng)的投資建議的一種分析方法。
時(shí)下工作聚焦面對(duì)的預(yù)測(cè)對(duì)象包括股票市場(chǎng)指數(shù),如道瓊斯工業(yè)平均指數(shù)[1-2]、納斯達(dá)克指數(shù)[3],運(yùn)營實(shí)體公司則如Apple、Google、Microsoft。
1.2基于市場(chǎng)數(shù)據(jù)的預(yù)測(cè)
傳統(tǒng)的股票預(yù)測(cè)主要依賴市場(chǎng)的歷史數(shù)據(jù)進(jìn)行預(yù)測(cè),即通過對(duì)歷史股票交易數(shù)據(jù)序列建模來對(duì)未來股票價(jià)格走勢(shì)進(jìn)行預(yù)測(cè),屬于典型的技術(shù)分析。其中,自回歸條件異方差模型(ARCH)[4]和隨機(jī)波動(dòng)模型(SV)[5]已廣泛應(yīng)用于時(shí)間序列數(shù)據(jù)的建模。但這類方法只考慮歷史價(jià)格這種單一數(shù)據(jù)源,預(yù)測(cè)的效果具有很大的局限性。
1.3相關(guān)文本數(shù)據(jù)的預(yù)測(cè)
隨著社交網(wǎng)絡(luò)的興起和自然語言處理技術(shù)(Natural Language Processing)的進(jìn)步,基于輿情相關(guān)的文本數(shù)據(jù)進(jìn)行股票預(yù)測(cè)吸引了學(xué)界的研究興趣與高度重視。其中,財(cái)經(jīng)新聞網(wǎng)站由于具有信息專業(yè)、噪聲少的優(yōu)點(diǎn),受到研究者的廣泛推崇與青睞,如華爾街日?qǐng)?bào)[2]、雅虎財(cái)經(jīng)[6]等。該類預(yù)測(cè)模型從新聞的標(biāo)題或者正文中提取特征,并在此基礎(chǔ)上設(shè)計(jì)算法展開相關(guān)的模型預(yù)測(cè)。這些特征中,包含著用戶、金融公司或科研機(jī)構(gòu)傳達(dá)的對(duì)于市場(chǎng)或者股票的觀點(diǎn)和情緒。行為經(jīng)濟(jì)學(xué)指出,這些觀點(diǎn)和情緒與股票市場(chǎng)波動(dòng)息息相關(guān)。尤為關(guān)鍵的是,這類文本有時(shí)間點(diǎn)的提前性。
為了更加準(zhǔn)確、全面地傳達(dá)多方的觀點(diǎn)和情緒,特征提取是模型的關(guān)鍵步驟之一。除了傳統(tǒng)的詞袋模型(Bag-of-words)[7],如TF-IDF等,還有Google最新提出的體現(xiàn)詞匯關(guān)聯(lián)程度Word2Vec和針對(duì)多文檔的Doc2Vec[8]。
1.4預(yù)測(cè)模型
基于輸入的新聞樣本,機(jī)器學(xué)習(xí)算法通過訓(xùn)練得到最終的預(yù)測(cè)模型。輸入的新聞文本會(huì)經(jīng)過特征選擇處理成相應(yīng)的矩陣;模型輸出的目標(biāo)值是代表情感極性的正負(fù)數(shù)字。對(duì)于目前的這種分類問題,頗具實(shí)效并已經(jīng)廣泛采用的是K最鄰近(KNN)、邏輯回歸(Logistic)、樸素貝葉斯(Nave Bayes)、隨機(jī)森林(Random Forest)[9]等機(jī)器學(xué)習(xí)模型。
2情感模型
2.1基本概念及相關(guān)知識(shí)
(1)N-gram。 N-gram是大詞匯連續(xù)語音識(shí)別中常用的一種語言模型,對(duì)中文而言可稱之為漢語語言模型(Chinese Language Model,CLM)。漢語語言模型利用上下文中相鄰詞間的搭配信息,可以實(shí)現(xiàn)到漢字的自動(dòng)轉(zhuǎn)換。該模型基于這樣一種假設(shè),即:第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)運(yùn)算得到。常用的是二元的Bi-gram和三元的Tri-gram。
(2)詞向量。 近幾年來,隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,詞向量已經(jīng)拓展深入到自然語言處理的各個(gè)方面。傳統(tǒng)的詞向量表示方法是將詞表示為二進(jìn)制編碼性質(zhì)的向量,也就是一維詞向量(one-hot representation),向量的維度為詞表的大小,向量中的1代表該位置出現(xiàn)該詞,0代表該位置沒有出現(xiàn)該詞。但是這種一維表示方式的向量,2個(gè)詞之間相互獨(dú)立,難以捕捉隱含在詞語之間的語義關(guān)聯(lián),并且難以計(jì)算,特征稀疏,向量維度較高。隨后很多學(xué)者開始研究詞語的分布式表示,簡(jiǎn)稱詞向量。
2.2情感詞典準(zhǔn)備和新詞發(fā)現(xiàn)
對(duì)于中文這種沒有明確詞界限的語言,分詞算法的準(zhǔn)確率決定了此后工作中特征選擇是否能夠全面體現(xiàn)股票相關(guān)方的觀點(diǎn)和情緒。目前主流的中文分詞有結(jié)巴分詞、中科院分詞系統(tǒng)和NLTK處理包,根據(jù)已有的經(jīng)驗(yàn)總結(jié)和性能的比較,研究采用了結(jié)巴中文分詞。
由于前文提到的詞庫都是面向通用型的,適用于所有領(lǐng)域,即會(huì)使得當(dāng)將其應(yīng)用到特定領(lǐng)域時(shí)難免在性能上出現(xiàn)偏差與缺失。比如對(duì)于金融領(lǐng)域里的專業(yè)術(shù)語以及市場(chǎng)上出現(xiàn)的新詞不能很好地做到切分。為了減小通用詞庫的不足為實(shí)驗(yàn)帶來的影響,研究在原有詞庫的基礎(chǔ)上,又融合了知網(wǎng)的情感詞典和臺(tái)灣大學(xué)NTUSD詞典。為了應(yīng)對(duì)更生僻的專業(yè)詞和出現(xiàn)的新詞,進(jìn)一步引入N-gram來發(fā)現(xiàn)新的詞序信息[10],從而實(shí)現(xiàn)新詞發(fā)現(xiàn),確保能夠全面匯集股票相關(guān)方的觀點(diǎn)和情緒。研究中發(fā)現(xiàn)的部分金融領(lǐng)域的情感詞則如圖1所示。
齊挫造淡走低急跌重挫利淡熊市報(bào)升背馳回落下跌直下強(qiáng)拆扭轉(zhuǎn)走高標(biāo)青買超反彈高開微升上漲做多領(lǐng)跑新高偏軟盈利虧損錢荒牛市抄底連捷破頂反彈跳水?dāng)貍}阻力逃頂上望見底升溫2.3特征提取
本模型中,為了使機(jī)器學(xué)習(xí)算法更好地理解文本,且最終獲得更好的精準(zhǔn)度,研究中采用了多種特征提取方法。這里,將逐一給出闡釋解析如下。
(1)OneHot。 這里選擇使用的經(jīng)典的獨(dú)熱編碼(One-hot)是參考Harris的論文[11]中探討的原理來實(shí)現(xiàn)的。
(2)TF-IDF。 為了體現(xiàn)特征在訓(xùn)練集中的重要程度,研究中將TF-IDF公式略作修改,并用于金融新聞文本中。改進(jìn)后的公式可表述如下:idfi=log (Nni+1) (1)其中,N表示語料庫中所有的文本總數(shù),ni為包含詞i的文本數(shù)。
(3)Word Frequency。 基于情感詞典詞頻(Word-Frequency)的方法是參考了2016年周杰發(fā)表的論文[12],并由其引發(fā)推演而來。而對(duì)于一些較短的文本,為了更趨理想地降低多維度造成的誤差影響,實(shí)驗(yàn)過程中嘗試將所有情感詞Word-Frequency 壓縮成更低維度,經(jīng)過實(shí)驗(yàn)驗(yàn)證,分為積極和消極2個(gè)維度的特征提取后的機(jī)器學(xué)習(xí)算法的準(zhǔn)確性則為更高。
(4)Doc2Vec。 Doc2Vec是word2Vec的一個(gè)延伸,word2Vec是谷歌于2013年推出的最新款詞向量學(xué)習(xí)工具,迄今為止在點(diǎn)擊使用上已占據(jù)首位。該模型所選取的語言模型使用3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),綜合考慮了詞語的上下文信息,這種詞的特征表示不僅擴(kuò)充了詞的語義信息,而且還大幅提升了模型的訓(xùn)練速度。
(5)OutOfDict。 一個(gè)優(yōu)良的預(yù)測(cè)模型應(yīng)該擁有出色的泛化能力來處理更多的未知問題。因此,研究結(jié)合情感詞典和詞袋模型[7]中的Out-Of-Dict來防止情感詞典提取的特征所造成的模型過擬合,更加可觀地提高模型泛化能力。
2.4消除噪音
盡管金融新聞文本具有專業(yè)性強(qiáng)、噪聲低的優(yōu)點(diǎn),但是海量文本數(shù)據(jù)所造成的“噪聲干擾”會(huì)嚴(yán)重影響模型的準(zhǔn)確性。減小影響的辦法是去除原新聞文本中的非專業(yè)名詞和一些不重要的介詞。并且,研究收集了針對(duì)中文的常見停用詞和一些可能出現(xiàn)在新聞文本中但沒有意義的數(shù)字符號(hào),對(duì)其引入過濾處理后,以此增大代表金融相關(guān)方情緒和觀點(diǎn)的情感詞和動(dòng)詞對(duì)于模型的影響。
2.5模型選擇
為了更準(zhǔn)確地衡量出新聞數(shù)據(jù)中的情感,這里又研究嘗試了多種機(jī)器學(xué)習(xí)方法。各類方法的設(shè)計(jì)內(nèi)容可分述如下。
(1)NaiveBayes。 樸素貝葉斯(Naive Bayesian Model,NBM)是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,也是時(shí)下普及、流行的分類模型之一。因?yàn)镹BC模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)并不敏感,算法也比較簡(jiǎn)單。而在理論上,NBC模型與其它分類方法相比具有最小的誤差率,所以可將其作為候選模型之一,用于結(jié)果對(duì)比。
(2)Logistic Regression。又稱Logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘、疾病自動(dòng)診斷、經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域。其中的自變量既可以是連續(xù)的,也可以是分離的。通過Logistic回歸分析,可以得到自變量的權(quán)重,從而自動(dòng)進(jìn)行特征選擇。
(3)SVM。 支持向量機(jī)(Support Vector Machine, SVM),是常用的一種判別方法。在機(jī)器學(xué)習(xí)領(lǐng)域,是一個(gè)有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識(shí)別、分類以及回歸分析。在考察調(diào)研了大量文獻(xiàn)后,發(fā)現(xiàn)很多學(xué)者偏好選擇SVM用于建模分析?;诖?,這里也將其作為候選模型之一。
(4)隨機(jī)森林(Random Forest)。是指利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器。該分類器最早由Breiman等人提出,并已注冊(cè)為品牌商標(biāo)。在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,而且其輸出的類別是由個(gè)別樹輸出的類別總數(shù)而定。
(5)KNN 鄰近算法,或者說K最近鄰(k-Nearest Neighbor,kNN)分類算法。是數(shù)據(jù)挖掘分類技術(shù)中實(shí)效簡(jiǎn)單的方法之一。所謂K最近鄰,就是k個(gè)最近鄰居,是指每個(gè)樣本都可以用與其最接近的k個(gè)鄰居來表征與刻畫。kNN算法的核心思想是:如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在輸出分類結(jié)果決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。并且,該方法主要利用周圍有限的鄰近樣本,而非基于判別類域的方法來確定所屬類別,因此對(duì)于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其它方法更為適合。
3實(shí)驗(yàn)過程
3.1數(shù)據(jù)
新聞爬取量分析主要從日粒度和周粒度2個(gè)時(shí)間維度進(jìn)行分析,具體如圖2所示。這是每天的新聞爬取量的柱狀圖。由圖2可以看出,正常工作日大約是超過千余的新聞爬取量,周一到周五新聞數(shù)量比較穩(wěn)定,到周末新聞數(shù)量就大大降低。此外,在公眾假期,如國慶、五一等,新聞數(shù)量也會(huì)保持在較低的水平。這就說明香港金融市場(chǎng)的工作模式:周一到周五正常交易,周末、法定節(jié)假日以及特殊日期交易活動(dòng)較少。
截至2017-10-30日,數(shù)據(jù)庫中近5年的金融文本數(shù)據(jù)共有80余萬條,為了保證模型能夠適應(yīng)最新的情況,研究從最近一年的金融文本中隨機(jī)抽樣并且過濾掉重復(fù)新聞后,得到1 000條新聞文本。采用人工打標(biāo)的方式,為每條新聞增配上代表情感極性的標(biāo)簽。利用上述的特征選擇和噪音消除,將文本處理成機(jī)器學(xué)習(xí)算法可以理解的詞向量后提交至算法加工處理。構(gòu)建的新模型會(huì)根據(jù)新樣本來生成代表情感極性的標(biāo)記。數(shù)據(jù)從原始文本到詞向量的過程可如圖3所示。
3.2組合模型訓(xùn)練
將文本處理成詞向量的方法包括有:TF-IDF、Out-of-Dict、Word-Frequency、One-Hot、Word-Frequency(低維度)和Google的Word2Vec;對(duì)于機(jī)器學(xué)習(xí)算法,考慮到現(xiàn)有文獻(xiàn)成果和金融新聞文本特點(diǎn)挑取效果較好的KNN、Logistic、Nave Bayes、Random Forest,共計(jì)5*6(=30)種算法組合,進(jìn)行訓(xùn)練,而后選出準(zhǔn)確率最高的組合,實(shí)現(xiàn)對(duì)應(yīng)的特征提取方法優(yōu)化和機(jī)器學(xué)習(xí)算法的調(diào)參優(yōu)化。
模型的檢驗(yàn)分為穩(wěn)定性檢測(cè)和泛化能力檢測(cè)。對(duì)于模型穩(wěn)定性,由于項(xiàng)目周期較長,研究采用了K折交叉驗(yàn)證(K-fold cross validation)中的留一驗(yàn)證。為了測(cè)試模型對(duì)于新樣本的泛化能力,可從5年內(nèi)的樣本集合中隨機(jī)采樣,進(jìn)行人工打標(biāo)與模型打標(biāo),并提供最終的結(jié)果比對(duì)。
3.3多種組合方法的實(shí)驗(yàn)結(jié)果對(duì)比
這里,研究將所有的候選模型分別與已選取的特征選擇方法相結(jié)合,并以準(zhǔn)確率為標(biāo)準(zhǔn)對(duì)比了所有組合的性能,實(shí)驗(yàn)設(shè)計(jì)運(yùn)行結(jié)果如圖4所示。
需要指出的是,在100個(gè)和500個(gè)訓(xùn)練樣本的時(shí)候,由于樣本數(shù)量過少,研究并沒有采用特征提取中論及的Doc2Vec方法。隨著訓(xùn)練樣本的增多,邏輯回歸(Logistic)和隨機(jī)森林(Random-Forest)算法的準(zhǔn)確度提升較快并且比較穩(wěn)定。結(jié)合股票金融文本短小、更貼近標(biāo)準(zhǔn)的特點(diǎn),研究斟酌選定了基于詞袋模型(Out-of-Dict)和情感詞典的特征選擇方法與邏輯回歸算法作為最終模型進(jìn)行精準(zhǔn)調(diào)參和優(yōu)化,并且將其用在股票趨勢(shì)分析和預(yù)測(cè)中。
雖然研究選擇的模型整體準(zhǔn)確率偏高,但仍有部分樣本被分錯(cuò),分析猜奪后可知也許是因?yàn)檫@里選擇的模型具有一定的傾向性,或者研究中的樣本類別未臻至均衡而導(dǎo)致。為了檢測(cè)本文實(shí)驗(yàn)中被錯(cuò)分樣本的原因,又特別分析了結(jié)果的混淆矩陣。
研究中抽取最新的1 000條金融新聞文本(過濾掉一些重復(fù)新聞后有972條),進(jìn)行人工打標(biāo)后,按照3:1的比例分割訓(xùn)練集和測(cè)試集,得到如圖5所示的結(jié)果矩陣。其中,精確率(precision)為100%,召回率(accuracy)為94.52%。顯然,由圖5可以看出,本文的模型表示是正常的,而且類別比例是3∶1。同時(shí),本次研究中采用的是分層抽樣,因此數(shù)據(jù)本身的分布不存在問題。
4情感模型有效性分析
為了進(jìn)一步驗(yàn)證該情感模型的有效性,研究建立了一個(gè)基于情感分析的量化交易系統(tǒng),通過該系統(tǒng)展示實(shí)時(shí)的股價(jià)數(shù)據(jù)趨勢(shì)與本文提出的情感模型計(jì)算得到的主體情感的對(duì)應(yīng)關(guān)系。研究認(rèn)為,當(dāng)股價(jià)持續(xù)上漲時(shí),市場(chǎng)對(duì)應(yīng)的金融新聞的情感理論上應(yīng)該是積極的;當(dāng)股價(jià)持續(xù)下跌時(shí),市場(chǎng)對(duì)應(yīng)的新聞的情感理論上應(yīng)該是消極的?;谠摷僭O(shè),研究將試圖通過股價(jià)的趨勢(shì)變化與新聞情感正負(fù)的同步變化來驗(yàn)證本文設(shè)計(jì)的情感模型的有效性。
基于情感分析的量化交易系統(tǒng)是一個(gè)集成型系統(tǒng)。該系統(tǒng)主要包括輿情數(shù)據(jù)概括和金融輿情分析兩大模塊,囊括了新聞的爬取量的變化分析、新聞熱度分析以及兩者與新聞情感之間的關(guān)系,并從股票衍生品、恒生指數(shù)衍生品和股票本身的波動(dòng)幅度3方面與新聞情感、熱度進(jìn)行交叉分析,用實(shí)際的數(shù)據(jù)變化闡述了隱藏其中的基于情感因素的交易策略。
在該量化系統(tǒng)中,運(yùn)行時(shí)主要從股價(jià)走勢(shì)、新聞熱度和輿情分析這3個(gè)層面分析和預(yù)測(cè)股價(jià)走勢(shì)。其中,在股價(jià)走勢(shì)方面,研究通過多方渠道得到官方股價(jià)每日最高/低、開/收盤價(jià)格,并且定制了相應(yīng)的股價(jià)曲線圖和箱形圖供用戶使用和查看。在新聞熱度方面,研究統(tǒng)計(jì)了50支恒生指數(shù)成分股在5年內(nèi)的新聞熱度,并于每天分別配設(shè)了實(shí)時(shí)跟進(jìn)。而在輿情分析方面,基于預(yù)測(cè)模型抽取金融相關(guān)方對(duì)于股價(jià)走勢(shì)的觀點(diǎn)和情緒,并做出趨勢(shì)預(yù)測(cè)。
在量化交易系統(tǒng)中,研究使用金融輿情分析模塊來分析新聞情感與股價(jià)之間的關(guān)系。這里,金融輿情分析是指運(yùn)用前面章節(jié)建立的情感模型分析新聞的情感極性,然后根據(jù)正負(fù)新聞的數(shù)量變化與股價(jià)波動(dòng)的直接關(guān)系,推測(cè)出市場(chǎng)的狀態(tài)以及未來的股價(jià)走勢(shì)。
通過分析,新聞?shì)浨榕c股價(jià)是有很強(qiáng)的相關(guān)性的。當(dāng)正面新聞劇增或者負(fù)面新聞急劇積累時(shí),市場(chǎng)處于轉(zhuǎn)向期,股價(jià)也有了相應(yīng)方向的走勢(shì)。
如圖6所示,作為2017年漲幅最大的股票,恒大上半年股價(jià)幾乎原地踏步,新聞?shì)浾撘卜从称降?;但下半年開始股價(jià)瘋漲,輿論也一片叫好。同樣地,還有平安保險(xiǎn)。這些實(shí)例都無疑論證了本文的情感分析方法的有效性。
5結(jié)束語
隨著新一代互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)的發(fā)展,在證券行業(yè),券商們已經(jīng)意識(shí)到大數(shù)據(jù)的重要性。但相對(duì)于銀行和保險(xiǎn)業(yè),證券行業(yè)的大數(shù)據(jù)應(yīng)用起步相對(duì)較晚,對(duì)于大數(shù)據(jù)的研究與應(yīng)用正處于初級(jí)階段。因此將大數(shù)據(jù)研究應(yīng)用到證券行業(yè),分析其新聞數(shù)據(jù)的情緒變化具有深遠(yuǎn)的意義。本項(xiàng)目主要研究目的是針對(duì)香港金融市場(chǎng)海量的新聞數(shù)據(jù)展開情感分析,主要工作內(nèi)容包括如下方面:
(1)針對(duì)目前國內(nèi)金融行業(yè)大數(shù)據(jù)應(yīng)用的不足以及香港市場(chǎng)廣闊的研究前景,研究針對(duì)香港的新聞文本數(shù)據(jù)進(jìn)行情感分析。
(2)采用了混合新詞發(fā)現(xiàn)算法,建立了專門針對(duì)金融領(lǐng)域的詞典。
(3)對(duì)比分析了主流的情感分析方法,建立了一個(gè)可靠的情感模型。
(4)提出股票的情感因素對(duì)股價(jià)趨勢(shì)具有顯著影響,并給出了實(shí)驗(yàn)仿真驗(yàn)證。
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)量日趨增加,對(duì)在線媒體的新聞進(jìn)行情感分析,現(xiàn)有的研究算法普遍耗時(shí)較長,并且仍然依賴人工標(biāo)記的數(shù)據(jù),這已無法適應(yīng)急劇增長的數(shù)據(jù)需求??梢钥紤]利用數(shù)據(jù)和模型并行化來優(yōu)化模型算法,例如可以利用Spark, Hadoop等云計(jì)算框架對(duì)已有的算法實(shí)現(xiàn)改進(jìn),提高效率。盡管模型采用了多種方法,但并沒有在深度學(xué)習(xí)的框架上進(jìn)行訓(xùn)練,學(xué)習(xí)時(shí)間相對(duì)較長,可以采用現(xiàn)有的流行框架開展后續(xù)的深入研究。
參考文獻(xiàn)
[1] BOLLEN J, MAO Huina, ZENG Xiaojun.Twitter mood predicts the stock market[J]. Journal of Computational Science, 2011,2(1):1-8.
[2] ANTWEILER W, FRANK M Z. Is all that talk just noise? The information content of internet stock message boards[J]. Journal of Finance,2004,59(3):1259-1294.
[3] RACHLIN G, LAST M, ALBERG D, et al. ADMIRAL: A data mining based financial trading system[C]//2007 IEEE Symposium on Computational Intelligence and Data Mining. Honolulu, HI, USA:IEEE, 2007:720-725.
[4] ENGLE R F. Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation[J]. Econometrica,1982,50(4):987-1007.
[5] TAYLOR S J. Modeling financial time series[M]. Chichester,UK:Wiley,1986.
[6] SCHUMAKER R P, ZHANG Yulei, HUANG C N, et al. Evaluating sentiment in financial news articles[J]. Decision Support Systems,2012,53(3):458-464.
[7] CSURKA G, DANCE C R, FAN Lixin, et al. Visual categorization with bags of keypoints[C]//Workshop on statistical learning in computer vision. Prague:Springer-Verlag,2004:1-22.
[8] GOLDBERG Y, LEVY O. word2vec explained: Deriving Mikolov et al.'s negative-sampling word-embedding method[J]. arXiv preprint arXiv:1402.3722,2014.
[9] BREIMAN L. Random Forests[J]. Machine Learning,2001,45:5-32.
[10]BUTLER M, KEELJ V. Financial forecasting using character N-Gram analysis and readability scores of annual reports[M]//Gao Y, JAPKOWICZ N.Advances in artificial intelligence. Berlin/Heidelberg: Springer,2009,5549:39-51.
[11]HARRIS D, HARRIS S. Digital design and computer architecture[M]. 2nd ed. San Francisco, CA, USA:Morgan Kaufmann Publishers Inc,2012.
[12]周杰. 基于情感詞典與句型分類的中文微博情感分析研究[J].銀川:寧夏大學(xué),2016.