戴德寶,蘭玉森,范體軍,趙 敏
(1.上海大學(xué) 管理學(xué)院,上海 200444;2.華東理工大學(xué) 商學(xué)院,上海 200237;3.上海大學(xué)悉尼工商學(xué)院,上海 201800)
《世界互聯(lián)網(wǎng)發(fā)展報(bào)告2018》和《中國(guó)互聯(lián)網(wǎng)發(fā)展報(bào)告2018》藍(lán)皮書(shū)數(shù)據(jù)顯示:2017年,中國(guó)數(shù)字經(jīng)濟(jì)總量達(dá)27.2萬(wàn)億元,對(duì)GDP增長(zhǎng)貢獻(xiàn)率達(dá)55%,全球數(shù)字經(jīng)濟(jì)規(guī)模達(dá)12.9萬(wàn)億美元,中國(guó)位居全球第二。以互聯(lián)網(wǎng)為代表的信息技術(shù)和人類生產(chǎn)生活深度融合,引領(lǐng)創(chuàng)新,驅(qū)動(dòng)轉(zhuǎn)型。社交平臺(tái)作為數(shù)字經(jīng)濟(jì)呈現(xiàn)形式之一,現(xiàn)已是消費(fèi)者或投資者交換觀點(diǎn)、情感和知識(shí)的重要渠道。與調(diào)查問(wèn)卷、檔案數(shù)據(jù)和訪談?dòng)涗浀刃畔⒃聪啾?,社交平臺(tái)數(shù)據(jù)能夠規(guī)避傳統(tǒng)信息收集方式的滯后、缺失和高投入等弊端,具有用戶基數(shù)大、社交性強(qiáng)、涉入性高、響應(yīng)速度快等優(yōu)勢(shì)。借助博客、微博和論壇等不同社交平臺(tái)在線文本,利用文本挖掘和情感分析技術(shù)可以研究許多相關(guān)主題[1]:使用在線評(píng)論分析結(jié)果減少網(wǎng)絡(luò)購(gòu)物不確定性和風(fēng)險(xiǎn)[2],使用社交平臺(tái)用戶的產(chǎn)品感知和意見(jiàn)挖掘結(jié)果優(yōu)化產(chǎn)品品質(zhì)和提高品牌價(jià)值[3],發(fā)現(xiàn)學(xué)習(xí)社區(qū)對(duì)學(xué)習(xí)效果的影響與促進(jìn)作用[4],檢驗(yàn)在線投資者情緒與資本市場(chǎng)的關(guān)聯(lián)狀況[5-6]。網(wǎng)絡(luò)社交平臺(tái)已成為在線商品和服務(wù)交易數(shù)據(jù)觀察利用空間。黨和政府給予高度評(píng)價(jià)、期望和要求,十九大報(bào)告提出“貫徹新發(fā)展理念,建設(shè)現(xiàn)代化經(jīng)濟(jì)體系”。“互聯(lián)網(wǎng)+金融”促進(jìn)金融體制改革,允許優(yōu)質(zhì)企業(yè)申辦網(wǎng)絡(luò)銀行[7-8],開(kāi)放小額貸款平臺(tái),允許互聯(lián)網(wǎng)企業(yè)施行消費(fèi)貸款,利用用戶原創(chuàng)內(nèi)容(user generated content,UGC)分析用戶行為和預(yù)測(cè)市場(chǎng)趨勢(shì)。
金融市場(chǎng)規(guī)律研究或趨勢(shì)分析有助于金融機(jī)構(gòu)和投資者防范金融風(fēng)險(xiǎn)、增強(qiáng)現(xiàn)代金融監(jiān)管并促進(jìn)金融體系良性運(yùn)轉(zhuǎn)。股市分析技術(shù)證明資本市場(chǎng)有后驗(yàn)規(guī)律但難以把握未來(lái),股價(jià)是否能夠預(yù)測(cè)莫衷一是。由于新信息隨機(jī)性和不可預(yù)知性,股票價(jià)格處于無(wú)規(guī)則行走模式,未來(lái)價(jià)格根本賭注是現(xiàn)在價(jià)格,預(yù)測(cè)準(zhǔn)確率將不超過(guò)50%。然而許多研究結(jié)果表明股價(jià)不遵循隨機(jī)漫步理論,而是受公司財(cái)務(wù)情況、宏觀經(jīng)濟(jì)指標(biāo)和歷史交易數(shù)據(jù)等眾多因素影響,可以使用多維度的數(shù)據(jù)預(yù)測(cè)[9],股票走勢(shì)預(yù)測(cè)準(zhǔn)確率到達(dá)56%即為滿意[10]。金融學(xué)、心理學(xué)和行為學(xué)等結(jié)合派生的行為金融學(xué)[11]認(rèn)為股票價(jià)格并非只由企業(yè)內(nèi)在價(jià)值決定,很大程度上受投資者心理和行為影響?;谕顿Y者情緒的股價(jià)預(yù)測(cè)研究框架主要涵蓋以下三個(gè)方面。
(1)情緒資源。一是網(wǎng)上新聞:金融新聞否定句與股價(jià)相關(guān)關(guān)系[12]以及紐約時(shí)報(bào)和40個(gè)世界金融指數(shù)聯(lián)系研究有力支持行為金融學(xué)新經(jīng)濟(jì)范式作用[13]。二是社交媒體資源:社交平臺(tái)的投資者文本情緒影響股價(jià)[14]。由于微博推文內(nèi)容無(wú)法聚焦和用戶地理位置無(wú)法確定等缺陷[15],近期研究選擇股民聚集度高、話題專業(yè)性強(qiáng)、情緒傳遞性快的財(cái)經(jīng)論壇(如StockTwits[16]、Yahoo財(cái)經(jīng)網(wǎng)[10,17]和東方財(cái)富網(wǎng)[18-20])挖掘投資者情緒。
(2)情緒指標(biāo)。一是與數(shù)量相關(guān)指標(biāo):Google搜索量(Search Volume Index,SVI)的增長(zhǎng)能夠預(yù)示未來(lái)兩周股價(jià)上漲[21],股吧社區(qū)發(fā)帖量影響股價(jià)[20];二是與情緒相關(guān)指標(biāo):各類社交媒體整體情緒與股票回報(bào)和投資風(fēng)險(xiǎn)有關(guān),且優(yōu)越于傳統(tǒng)媒體[22]。影響股價(jià)的情緒可分為六個(gè)維度:Calm、Alert、Sure, Vital、Kind和Happy等[6],或者五個(gè)維度:強(qiáng)烈買入、買入、中性、賣出和強(qiáng)烈賣出等[18]。
(3)預(yù)測(cè)對(duì)象。一是個(gè)股股價(jià)走勢(shì):多家公司Twitter情緒和異常股票回報(bào)相關(guān)[5],投資者瀏覽行為及情緒變化能夠有效預(yù)測(cè)股票[23],投資者情緒通過(guò)網(wǎng)絡(luò)自媒體傳播會(huì)影響多只股票收益[20];二是股票價(jià)格指數(shù)(即股指)預(yù)測(cè):滬深300指數(shù)探究投資者情緒與股價(jià)存在因果關(guān)系[15,19]。常見(jiàn)預(yù)測(cè)股指包括道瓊斯指數(shù)(DJIA)[6]、標(biāo)準(zhǔn)普爾指數(shù)(S&P500)[14]、上證指數(shù)(SSEC)[24]等。
金融市場(chǎng)預(yù)測(cè)方法包含經(jīng)典統(tǒng)計(jì)學(xué)的多元回歸模型[18,22]、自向量回歸模型[25]以及支持向量機(jī)(support vector machine, SVM)[10,14,24]、神經(jīng)網(wǎng)絡(luò)[6,14,25]、隨機(jī)森林[14]等現(xiàn)代機(jī)器學(xué)習(xí)方法,SVM和BP神經(jīng)網(wǎng)絡(luò)應(yīng)用最多。傳統(tǒng)回歸分析以嚴(yán)格假設(shè)和充足先驗(yàn)為前提,難以構(gòu)建有效金融預(yù)測(cè)模型,機(jī)器學(xué)習(xí)能夠自主學(xué)習(xí)反復(fù)改善和優(yōu)化算法,結(jié)果滿意[26]。其他如Adaboost、LinearSVC等方法遜于SVM和BP神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜非線性問(wèn)題的處理。
許多基于文本挖掘的金融市場(chǎng)關(guān)聯(lián)或預(yù)測(cè)文獻(xiàn)研究直接將單一維度情緒變量(積極情緒或消極情緒)直接加入模型,而且少有對(duì)非線性和高噪音情緒數(shù)據(jù)進(jìn)行處理,容易驗(yàn)證是否與金融市場(chǎng)關(guān)聯(lián),難以取得較好的預(yù)測(cè)效果。本文通過(guò)抓取東方財(cái)富股票論壇數(shù)據(jù),借鑒天氣或事件的金融關(guān)聯(lián)分析過(guò)程[27],不僅剔除中性或噪音數(shù)據(jù),而且選取相關(guān)性強(qiáng)的情緒數(shù)據(jù)參與投資者情緒指數(shù)設(shè)計(jì),基于情緒數(shù)據(jù)和股指數(shù)據(jù)非線性特征,利用SVM和BP神經(jīng)網(wǎng)絡(luò)兩類模型進(jìn)行股指預(yù)測(cè),證明投資者情緒與股指存在內(nèi)在聯(lián)系,并且預(yù)測(cè)高效,以期為投資者、上市公司和政府監(jiān)管部門的決策支持提供良好參考價(jià)值。
基于文本挖掘和機(jī)器學(xué)習(xí)的股指預(yù)測(cè)內(nèi)容包括股指和情緒兩種數(shù)據(jù)的預(yù)處理和平穩(wěn)性檢驗(yàn)、預(yù)測(cè)組合指數(shù)構(gòu)建及數(shù)據(jù)生成、常用兩種股指預(yù)測(cè)的機(jī)器學(xué)習(xí)算法檢驗(yàn)等四個(gè)部分。
(1)情緒數(shù)據(jù)獲取與預(yù)處理。投資者情緒文本數(shù)據(jù)源于東方財(cái)富網(wǎng)股吧論壇實(shí)戰(zhàn)吧,使用Python共抓取帖子368586條,跨度:2016年7月19日至2017年12月29日。通過(guò)編寫(xiě)帖子清洗規(guī)則剔除不能表達(dá)投資者情緒的主題帖,共保留帖子217445條。清洗規(guī)則包括圖片(無(wú)文字)、鏈接(無(wú)文字)、亂符(無(wú)意思)和實(shí)盤組合(系統(tǒng)自動(dòng)生成)等四種相關(guān)類型;文本情緒分類方面,利用基于詞典的中文情感分析方法[28]對(duì)帖子情感打分。詞典由情感詞、程度副詞和否定詞三類詞匯組成,根據(jù)式(1)計(jì)算帖子綜合情感得分。情感詞包括通用情感詞典和專用情感詞(陰跌、利好、誘多、狗莊和割肉等)。
PostScore=Wr·
(1)
其中,PostScore為情感綜合得分,m為一個(gè)帖子標(biāo)題的情感詞數(shù)目,n和nn分別為第i個(gè)情感詞前面程度副詞數(shù)量和否定副詞數(shù)量;Ws、Wm和Wr分別為對(duì)應(yīng)帖子標(biāo)題的各情感詞分值、各標(biāo)點(diǎn)符號(hào)分值和反問(wèn)詞分值;Wd和Wn分別為對(duì)應(yīng)情感詞前面的程度副詞分值和否定副詞分值。
本實(shí)驗(yàn)主要研究積極與消極情緒參與的股指預(yù)測(cè),將不同情緒帖子數(shù)量按天歸類處理,得到一般積極、中度積極、高度積極、一般消極、中度消極、高度消極六個(gè)具有情緒傾向的時(shí)間序列數(shù)據(jù)[24],分別計(jì)入變量PI、PII、PIII、NI、NII、NIII。
(2)股市交易數(shù)據(jù)獲取。上證指數(shù)(000001)交易數(shù)據(jù)導(dǎo)出自通達(dá)信金融終端,時(shí)段自2016年7月19日至2017年12月29日356個(gè)交易日的歷史信息:收盤價(jià)(CLOSE)、開(kāi)盤價(jià)(OPEN)、最高價(jià)(HIGH)、最低價(jià)(LOW)、成交量(VOL)和成交額(AMO),綜合考慮相關(guān)系數(shù)矩陣結(jié)果及變量實(shí)際意義,選取收盤價(jià)表示上證指數(shù)數(shù)據(jù)(SSEC)。
(1)數(shù)據(jù)標(biāo)準(zhǔn)化。為消除股票交易數(shù)據(jù)和投資者論壇情緒數(shù)據(jù)間的量綱關(guān)系,提高數(shù)據(jù)可比性,需對(duì)兩類數(shù)據(jù)按照式(2)進(jìn)行標(biāo)準(zhǔn)化(Z-Score)處理,μ為樣本數(shù)據(jù)均值,σ為樣本數(shù)據(jù)標(biāo)準(zhǔn)差。
z=(x-μ)/σ
(2)
(2)單位根檢驗(yàn)。是通過(guò)對(duì)時(shí)間序列矩的隨機(jī)游走檢驗(yàn)排除統(tǒng)計(jì)數(shù)據(jù)的偏誤及模型的偽回歸,保證預(yù)測(cè)模型的穩(wěn)定性,不存在單位根則時(shí)間序列平穩(wěn)。本文選用ERS(Eiliot, Rothenberg and Sock Point Optimal Test)檢驗(yàn)單位根,避免檢驗(yàn)包含常數(shù)項(xiàng)和趨勢(shì)變量項(xiàng)。
檢驗(yàn)結(jié)果(見(jiàn)表1)表明:SSEC、OPEN、HIGH、LOW四個(gè)時(shí)間序列變量的ERS檢驗(yàn)統(tǒng)計(jì)值大于在10%置信度下的臨界值,這些時(shí)間序列變量包含單位根,是非平穩(wěn)的。
注:表1和表2中,當(dāng)顯著性水平為1%、5%和10%時(shí),檢驗(yàn)臨界值分別為1.972、3.240和4.447。
(3)差分時(shí)間序列單位根檢驗(yàn)。將所有變量按照式(3)進(jìn)行一階差分運(yùn)算后得到新的序列變量,分別記作:DSSEC、DOPEN、DHIGH、DLOW、DVOL、DAMO、DPI、DPII、DPIII、DNI、DNII、DNIII,Xt和Xt-1分別為t和t-1時(shí)段變量值。
D(X)=Xt-Xt-1
(3)
對(duì)一階差分后各時(shí)間序列進(jìn)行單位根檢驗(yàn)(見(jiàn)表2)發(fā)現(xiàn):ERS統(tǒng)計(jì)值均小于在1%置信度下的臨界值,最大ERS值為0.233,各時(shí)間序列趨于平穩(wěn)狀態(tài)。
(1)相關(guān)性分析。上證指數(shù)歷史交易數(shù)據(jù)變量差分后采用Pearson相關(guān)分析法發(fā)現(xiàn)各變量相互影響且存在相關(guān)性(見(jiàn)表3),可進(jìn)行有效的股指預(yù)測(cè)。本文將選取DOPEN、DHIGH、DLOW、DVOL、DAMO五個(gè)變量構(gòu)造上證交易組合指數(shù)。
表2 差分時(shí)間序列的單位根檢驗(yàn)
表3 各變量間的相關(guān)系數(shù)矩陣
注:**表示在1%水平(雙側(cè))上顯著相關(guān)。
(2)Granger因果關(guān)系檢驗(yàn)。假設(shè)投資者易受其他投資者情緒影響而選擇非理性投資,需要對(duì)上證指數(shù)和六組投資者情緒時(shí)間序列進(jìn)行Granger因果關(guān)系檢驗(yàn),分析和驗(yàn)證投資者情緒變化是否關(guān)乎市場(chǎng)波動(dòng),是否能夠預(yù)測(cè)股指信息[6]。Granger因果關(guān)系檢驗(yàn)解釋是:變量x是否為變量y的產(chǎn)生原因可以觀察當(dāng)前y在多大程度上能被過(guò)去x解釋。如果x滯后值能提高y解釋程度,說(shuō)明x有助于y的預(yù)測(cè),y是由x的Granger因果引起[29]。盡管Granger因果關(guān)系檢驗(yàn)結(jié)果不等于實(shí)際因果關(guān)系,但本文目的不是測(cè)試實(shí)際因果關(guān)系,而是測(cè)試投資者情緒時(shí)間序列是否存在上證指數(shù)時(shí)間序列的預(yù)測(cè)信息。
除去雙休日和法定節(jié)假日,股票實(shí)際交易日為一周5天,滯后期可分別選取為1天到5天。Granger因果關(guān)系檢驗(yàn)結(jié)果(見(jiàn)表4)表明:一般積極情緒(DPI)在滯后1天到滯后3天與上證指數(shù)存在較為顯著的Granger因果關(guān)系(p值<0.04)。圖1為DPI(t-3)和DSSEC(t)兩個(gè)時(shí)間序列對(duì)比圖,陰影部分表示DSSEC與滯后3天的DPI時(shí)間序列存在重疊或者有相同趨勢(shì)。無(wú)論是Granger因果關(guān)系檢驗(yàn)結(jié)果還是時(shí)間序列圖,都可從中得出一般積極情緒與上證指數(shù)存在顯著相關(guān)關(guān)系,即DPI可用于預(yù)測(cè)上證指數(shù)。
表4 Granger因果關(guān)系檢驗(yàn)結(jié)果
注:表格中的數(shù)值為p值,表示“檢驗(yàn)行名稱不是SSEC因果關(guān)系”,其中*表示在顯著性水平為5%下顯著。
圖1 上證指數(shù)與一般積極時(shí)間序列情緒對(duì)比圖注:灰色背景部分為上證指數(shù)和滯后3天的一般積極情緒走勢(shì)相同區(qū)域。
(3)因子分析和指數(shù)構(gòu)建。本文選用多維度指標(biāo)方法避免投資者情緒使用單一指標(biāo)代理變量的代理有偏和信息不足問(wèn)題,通過(guò)對(duì)六個(gè)變量(DOPEN、DHIGH、DLOW、DVOL、DAMO、DPI)因子分析得出上證投資者情緒綜合指數(shù)(SSECInvestor Sentiment Index,SSECISI)。為驗(yàn)證投資者情緒對(duì)股指預(yù)測(cè)的高效性,從SSECISI中剔除DPI,僅利用DOPEN、DHIGH、DLOW、DVOL、DAMO五個(gè)變量構(gòu)建上證交易組合指數(shù)(SSECPortfolio Index,SSECPI)。使用主成分分析法先對(duì)因子載荷矩陣進(jìn)行方差最大正交變換求得因子得分(式4)和方差貢獻(xiàn)率(見(jiàn)表5),然后根據(jù)因子得分和方差貢獻(xiàn)率的加權(quán)平均(式5)獲得SSECPI和SSECISI數(shù)據(jù)[29]。
Fj=βj1X1+βj2X2+…+βjpXp,j=1,2,…,m
(4)
其中,F(xiàn)j為因子j的因子得分,βjp為成份Xp的因子得分系數(shù)。
(5)
其中,F(xiàn)為綜合得分,即本文構(gòu)造的指數(shù),Vj為因子j的貢獻(xiàn)率。
(1)建模預(yù)測(cè)。Granger因果關(guān)系檢驗(yàn)表明情緒數(shù)據(jù)含有股指走勢(shì)信息,可以選取預(yù)測(cè)方法構(gòu)建預(yù)測(cè)模型。基于情緒數(shù)據(jù)和股指數(shù)據(jù)的非線性特征以及機(jī)器學(xué)習(xí)模型的良好非線性數(shù)據(jù)處理能力[26],本文選取構(gòu)建機(jī)器學(xué)習(xí)預(yù)測(cè)模型,希望能很好解釋投資者情緒與股指趨勢(shì)的非線性關(guān)系。因?yàn)镾VM和BP神經(jīng)網(wǎng)絡(luò)都能處理非線性數(shù)據(jù)而又各有所長(zhǎng),本文則采用SVM和BP兩種方法對(duì)比驗(yàn)證,避免隨機(jī)和偶然,以發(fā)現(xiàn)更好的適用方法。
建模前先將356個(gè)交易日的上證指數(shù)和投資者情緒數(shù)據(jù)作為樣本,根據(jù)不同時(shí)長(zhǎng)分為三組:第1組時(shí)長(zhǎng)18個(gè)月,起始日期為2016/07/19,樣本量、訓(xùn)練集、測(cè)試集分別為365、267、89天;第2組時(shí)長(zhǎng)9個(gè)月,起始日期為2017/04/05,樣本量、訓(xùn)練集、測(cè)試集分別為185、136、49天;第3組時(shí)長(zhǎng)4.5個(gè)月,起始日期為2017/08/16,樣本量、訓(xùn)練集、測(cè)試集分別為93、72、21天。為檢驗(yàn)上證投資者情緒綜合指數(shù)對(duì)上證指數(shù)收盤價(jià)預(yù)測(cè)結(jié)果的影響,特設(shè)計(jì)3組不同排列的輸入變量:P0,PSSECPI和PSSECISI。P0選取上證指數(shù)交易日t前3天的收盤價(jià)(SSECt-3,2,1),PSSECPI和PSSECISI是在P0基礎(chǔ)上分別加入滯后1天至3天的交易組合指數(shù)(SSECPIt-3,2,1)和投資者情緒綜合指數(shù)(SSECISIt-3,2,1),如式(6)所示:
(6)
本實(shí)驗(yàn)使用BP神經(jīng)網(wǎng)絡(luò)和SVM兩種方法對(duì)三組輸入向量分別實(shí)驗(yàn)。實(shí)驗(yàn)前通過(guò)歸一化處理消除變量量綱,將數(shù)據(jù)歸于[0,1]之間,如式(7)所示:
X*=(X-Xmin)/(Xmax-Xmin)
(7)
其中,Xmax和Xmin分別為測(cè)試集中各變量的最大和最小值。
運(yùn)行環(huán)境與參數(shù)設(shè)置方面,BP神經(jīng)網(wǎng)絡(luò):Kosmogorov定理證明合理結(jié)構(gòu)和恰當(dāng)權(quán)值的三層前饋網(wǎng)絡(luò)具備逼近任意連續(xù)函數(shù)能力,故隱含層層數(shù)皆設(shè)置為1;根據(jù)反復(fù)實(shí)驗(yàn)和擇優(yōu)原則,設(shè)置隱含層神經(jīng)元個(gè)數(shù)為6;學(xué)習(xí)速率為0.01,最小訓(xùn)練誤差目標(biāo)為0.001,最大迭代次數(shù)為100。SVM:數(shù)值型變量分類方式采用∈類支持向量回歸機(jī)(EPS-SVR),Kernel非線性映射函數(shù)(核函數(shù))選取雙曲正切函數(shù)(Tanhdot),核參數(shù)為1/k(k為特征向量的個(gè)數(shù)),懲罰參數(shù)C為1。
表5 SSECPI與SSECISI因子分析結(jié)果
采用走勢(shì)準(zhǔn)確率(Direction,向上或向下)對(duì)SVM和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度進(jìn)行評(píng)價(jià)。其定義如下:
(8)
(2)算法準(zhǔn)確率檢驗(yàn)。本文分別采用BP神經(jīng)網(wǎng)絡(luò)和SVM方法對(duì)P0、PSSECPI、PSSECISI三組樣本進(jìn)行實(shí)驗(yàn)得股指走勢(shì)準(zhǔn)確率對(duì)比結(jié)果(見(jiàn)表6):SVM預(yù)測(cè)準(zhǔn)確率普遍優(yōu)于BP神經(jīng)網(wǎng)絡(luò);SVM-PSSECISI模型預(yù)測(cè)準(zhǔn)確率在59%-70%,大于股指預(yù)測(cè)準(zhǔn)確率滿意值56%[12],具有有效性;兩種預(yù)測(cè)方法的平均預(yù)測(cè)準(zhǔn)確率發(fā)現(xiàn)PSSECISI>PSSECPI>P0,說(shuō)明上證交易組合指數(shù)模型比純股指預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率高,而上證投資者情緒綜合指數(shù)模型又比上證交易組合指數(shù)模型的預(yù)測(cè)準(zhǔn)確率更高。綜合結(jié)果表明使用機(jī)器學(xué)習(xí)進(jìn)行股指預(yù)測(cè),SVM方法下的投資者情緒數(shù)據(jù)參與的綜合預(yù)測(cè)模型最優(yōu)。
表6 BP神經(jīng)網(wǎng)絡(luò)與SVM模型走勢(shì)準(zhǔn)確率(%)
(1)預(yù)測(cè)效果分析。本實(shí)驗(yàn)中SVM預(yù)測(cè)效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò),可能原因是BP神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)的欠擬合和過(guò)擬合問(wèn)題,而SVM核函數(shù)能將復(fù)雜非線性問(wèn)題轉(zhuǎn)變?yōu)榫€性問(wèn)題,增強(qiáng)魯棒性;PSSECPI>P0的原因在于市場(chǎng)交易的收盤價(jià)不由單一歷史收盤價(jià)決定,而是歷史多期多指標(biāo)(開(kāi)盤價(jià)、最高價(jià)、最低價(jià)、成交量、成交額)的共同作用,類似于量?jī)r(jià)技術(shù)分析模型(Trade Amount Per Index,TAPI)效果;PSSECISI>PSSECPI的原因是多指標(biāo)數(shù)據(jù)綜合效應(yīng)依然不能完全準(zhǔn)確決定市場(chǎng)趨勢(shì),不能全面反映投資者的主客觀決策依據(jù)。資本市場(chǎng)投資決策的復(fù)雜性說(shuō)明需要補(bǔ)充更多的信息來(lái)源(如投資者情緒數(shù)據(jù))才能盡量準(zhǔn)確預(yù)判市場(chǎng)趨勢(shì);時(shí)長(zhǎng)對(duì)比結(jié)果并不全是第3組>第2組>第1組,但第3組最優(yōu),第2組在所有BP神經(jīng)網(wǎng)絡(luò)算法下低于第1組,在SVM算法下PSSECPI效果低于第1組,說(shuō)明時(shí)長(zhǎng)在預(yù)測(cè)中的重要性,第3組單季度范圍數(shù)據(jù)預(yù)測(cè)效果可能因?yàn)闊o(wú)周期成分?jǐn)_動(dòng)而好于另外兩組,年度數(shù)據(jù)與三個(gè)季度數(shù)據(jù)則出現(xiàn)預(yù)測(cè)準(zhǔn)確率排序不確定現(xiàn)象;另外,預(yù)測(cè)準(zhǔn)確度還與數(shù)據(jù)采集和預(yù)處理相關(guān),清洗規(guī)則、標(biāo)準(zhǔn)化方法和情感詞典完備性都會(huì)影響在線情緒數(shù)據(jù)質(zhì)量。
(2)文本挖掘技術(shù)。以文本格式為主導(dǎo)的網(wǎng)絡(luò)非結(jié)構(gòu)化數(shù)據(jù)據(jù)稱占據(jù)全球全部數(shù)據(jù)量80%以上,包括電子郵件、文件、報(bào)告、表格、通話記錄、新聞稿、博客、微博、微信、問(wèn)答、論壇、評(píng)論等,而純數(shù)字化數(shù)據(jù)占比較少。文本挖掘成為新型商業(yè)分析需求技術(shù),用以觀察各類商業(yè)行為及其效果。本文預(yù)測(cè)效果分析先決條件就是文本挖掘系列技術(shù):文本數(shù)據(jù)采集和清洗、文本數(shù)據(jù)分詞、文本情感詞典構(gòu)建、文本數(shù)據(jù)情感打分、情感數(shù)據(jù)標(biāo)準(zhǔn)化等。如輿情和評(píng)價(jià)等其他文本數(shù)據(jù)一樣,一方面,金融論壇情緒數(shù)據(jù)獲取與加工過(guò)程雖然沒(méi)有太大的技術(shù)難度,但會(huì)遇到前所未有的相應(yīng)領(lǐng)域數(shù)據(jù)處理規(guī)則問(wèn)題:數(shù)據(jù)采集規(guī)則、數(shù)據(jù)清洗規(guī)則、情感詞判分規(guī)則、情感語(yǔ)句判分規(guī)則等。這些已有的文本數(shù)據(jù)加工規(guī)則都稱不上完善或標(biāo)準(zhǔn),目前還需要根據(jù)具體場(chǎng)景生成相關(guān)參數(shù)。另一方面,預(yù)測(cè)只能利用部分?jǐn)?shù)據(jù)成分,而且是參與預(yù)測(cè)。獲取文本時(shí)序數(shù)據(jù)后,再進(jìn)行標(biāo)準(zhǔn)化后就可以參與分析和預(yù)測(cè)。本文在預(yù)測(cè)前還做對(duì)數(shù)據(jù)進(jìn)行平穩(wěn)性檢驗(yàn)和相關(guān)分析,發(fā)現(xiàn)股指數(shù)據(jù)和加工所得的情緒數(shù)據(jù)都存在較大波動(dòng)(非平穩(wěn)性),轉(zhuǎn)而思考使用差分?jǐn)?shù)據(jù),檢驗(yàn)合規(guī)后進(jìn)行相關(guān)分析,結(jié)果是一般積極情緒與股指有明顯的相關(guān)。然后使用相關(guān)文本數(shù)據(jù)成分與股指其他指標(biāo)組合構(gòu)建新預(yù)測(cè)指數(shù)數(shù)據(jù),而不是直接使用文本數(shù)據(jù)預(yù)測(cè)股指趨勢(shì)。
(3)機(jī)器學(xué)習(xí)預(yù)測(cè)技術(shù)。機(jī)器學(xué)習(xí)技術(shù)用于解決常規(guī)非線性問(wèn)題,本文股指與文本兩樣數(shù)據(jù)都是非線性數(shù)據(jù),不宜使用平滑類預(yù)測(cè)模型,而是選取BP神經(jīng)網(wǎng)路和SVM兩種常用機(jī)器學(xué)習(xí)模型進(jìn)行股指預(yù)測(cè),并發(fā)現(xiàn)更為適用的模型,結(jié)果是SVM算法優(yōu)于BP神經(jīng)網(wǎng)絡(luò),其他應(yīng)用場(chǎng)景也可能相反。為觀察時(shí)長(zhǎng)影響,在預(yù)測(cè)過(guò)程分別使用三組時(shí)長(zhǎng)不等數(shù)據(jù)對(duì)比試驗(yàn),結(jié)果是短時(shí)預(yù)測(cè)效果更好。這說(shuō)明基于文本非線性數(shù)據(jù)的預(yù)測(cè)研究需要考察方法、模型和時(shí)長(zhǎng)等多維情形,更為復(fù)雜的數(shù)據(jù)可以采用機(jī)器學(xué)習(xí)與小波分析相結(jié)合預(yù)測(cè)。針對(duì)復(fù)雜的非線性數(shù)據(jù)源,預(yù)測(cè)的科學(xué)化、嚴(yán)謹(jǐn)性還需要更好的基準(zhǔn)數(shù)據(jù)庫(kù)和算法才能實(shí)現(xiàn)??拼笥嶏w人為參與機(jī)器同傳事件說(shuō)明機(jī)器學(xué)習(xí)目前還不具備理想的算法,要求機(jī)器實(shí)時(shí)隨機(jī)同傳翻譯則忽視個(gè)性化語(yǔ)音和專業(yè)化詞匯訓(xùn)練過(guò)程。如無(wú)大量語(yǔ)料庫(kù)作用,機(jī)器學(xué)習(xí)難以勝任無(wú)規(guī)律的隨機(jī)問(wèn)題(未加訓(xùn)練的方言、術(shù)語(yǔ)和外來(lái)詞等)。如果允許預(yù)先降噪和優(yōu)化原始數(shù)據(jù),滯后機(jī)器學(xué)習(xí)就會(huì)更好。另外,機(jī)器學(xué)習(xí)今天被廣泛地應(yīng)用于人工智能,實(shí)現(xiàn)途徑就是完善地專業(yè)數(shù)據(jù)庫(kù)和場(chǎng)景適用算法,諸如可接受的網(wǎng)絡(luò)翻譯和語(yǔ)音識(shí)別等普適性業(yè)務(wù)以及多數(shù)據(jù)源的投資理財(cái)服務(wù)等。
通過(guò)抓取網(wǎng)絡(luò)論壇情緒文本,提取金融專業(yè)詞匯進(jìn)行文本挖掘,實(shí)現(xiàn)文本挖掘數(shù)據(jù)的專業(yè)化和精準(zhǔn)化;應(yīng)用關(guān)聯(lián)分析方法構(gòu)建投資者情緒綜合指數(shù),消除直接使用情緒數(shù)據(jù)進(jìn)行預(yù)測(cè)的有偏性;利用機(jī)器學(xué)習(xí)方法設(shè)計(jì)良好的股指預(yù)測(cè)模型,提升股指走勢(shì)預(yù)測(cè)準(zhǔn)確性,證明基于SVM的上證投資者情緒綜合指數(shù)模型進(jìn)行股指預(yù)測(cè)更加有效。
在線情緒數(shù)據(jù)可不可用?怎么利用?怎樣用得更好?“可不可用”其實(shí)還是認(rèn)識(shí)問(wèn)題:主觀性、隨意性和主體差異性綜合形成在線情緒數(shù)據(jù)的復(fù)雜性,情感詞匯量化精準(zhǔn)性影響在線情緒數(shù)據(jù)測(cè)度的科學(xué)性。在線情緒數(shù)據(jù)為現(xiàn)代研究接受與采用的主要原因是規(guī)模上超越局部復(fù)雜性和科學(xué)性的大數(shù)據(jù)宏觀統(tǒng)計(jì)規(guī)律;“怎么利用”問(wèn)題是要超越傳統(tǒng)科學(xué)的因果律以大數(shù)據(jù)思維發(fā)現(xiàn)事物內(nèi)在或外在關(guān)聯(lián)性。在線情緒數(shù)據(jù)已被研究者用于數(shù)據(jù)挖掘,發(fā)現(xiàn)和驗(yàn)證市場(chǎng)規(guī)律,預(yù)測(cè)市場(chǎng)走勢(shì)。專業(yè)數(shù)據(jù)公司和數(shù)據(jù)擁有者已開(kāi)始使用在線大數(shù)據(jù)對(duì)用戶開(kāi)展跟蹤畫(huà)像、精準(zhǔn)推薦、輔助產(chǎn)品和服務(wù)設(shè)計(jì)、市場(chǎng)定價(jià)等諸多行為決策;在線情緒數(shù)據(jù)要“用得更好”前提是:建構(gòu)包容網(wǎng)絡(luò)語(yǔ)言的數(shù)據(jù)化、科學(xué)化和動(dòng)態(tài)化專業(yè)詞庫(kù),使用結(jié)構(gòu)化界面設(shè)計(jì)記錄網(wǎng)絡(luò)用戶結(jié)構(gòu)化數(shù)據(jù)(星級(jí)、關(guān)鍵詞、摘要、數(shù)據(jù)圖片),通過(guò)文本分析算法自動(dòng)生成關(guān)鍵詞,應(yīng)對(duì)現(xiàn)階段人工智能技術(shù)還未完全成熟的情況。
數(shù)據(jù)分析和決策支持離不開(kāi)國(guó)內(nèi)外經(jīng)濟(jì)形勢(shì)研判,中美貿(mào)易摩擦逐漸深入和激烈,科技和金融是中美最大差距領(lǐng)域,也是增強(qiáng)我國(guó)經(jīng)濟(jì)驅(qū)動(dòng)力的兩個(gè)方向:硬策略和軟策略?;ヂ?lián)網(wǎng)技術(shù)學(xué)習(xí)與應(yīng)用最為成功,主要?dú)w因于我國(guó)政府對(duì)此因勢(shì)而謀、應(yīng)勢(shì)而動(dòng)和順勢(shì)而為的默許、鼓勵(lì)、支持和管控。金融市場(chǎng)雖與市場(chǎng)經(jīng)濟(jì)同時(shí)開(kāi)啟,但未在經(jīng)濟(jì)總量大幅攀升中獲取經(jīng)驗(yàn),歷經(jīng)多次股災(zāi),投資者、上市公司和監(jiān)管部門依然存在非理性行為。十九大報(bào)告強(qiáng)調(diào)我國(guó)當(dāng)前三大攻堅(jiān)戰(zhàn):防范和化解重大風(fēng)險(xiǎn)、精準(zhǔn)脫貧、污染防治,以解決經(jīng)濟(jì)快速發(fā)展引致的潛在和顯性的宏觀大問(wèn)題。后兩項(xiàng)解決三農(nóng)和環(huán)境問(wèn)題,消除貧困和增加消費(fèi),改善環(huán)境和提高生活品質(zhì)。重中之重的是重大風(fēng)險(xiǎn)問(wèn)題,包括金融失控風(fēng)險(xiǎn)、結(jié)構(gòu)失衡風(fēng)險(xiǎn)、生產(chǎn)過(guò)剩風(fēng)險(xiǎn)以及多種風(fēng)險(xiǎn)組合形成的整體系統(tǒng)風(fēng)險(xiǎn)。因此,資本市場(chǎng)各個(gè)主體和服務(wù)支持者(在線平臺(tái)和專業(yè)數(shù)據(jù)企業(yè))要充分利用各類大數(shù)據(jù),順應(yīng)國(guó)家和社會(huì)需求,積極穩(wěn)定地投資該投資的,支持該支持的,管制該管制的。積極收集網(wǎng)絡(luò)用戶的聲音和挖掘網(wǎng)絡(luò)用戶需求,汲取經(jīng)驗(yàn),預(yù)判未來(lái),理性決策,防范各類金融風(fēng)險(xiǎn)。
第一,分析和利用在線投資者情緒數(shù)據(jù),防范社會(huì)金融系統(tǒng)風(fēng)險(xiǎn),保障市場(chǎng)健康發(fā)展。歷次金融危機(jī)說(shuō)明資本市場(chǎng)有其自身的周期律,經(jīng)濟(jì)過(guò)熱、流動(dòng)失控、技術(shù)瓶頸、國(guó)家競(jìng)爭(zhēng)和資本操控等復(fù)雜成因的單一或綜合作用會(huì)導(dǎo)致一國(guó)或多國(guó)金融系統(tǒng)風(fēng)險(xiǎn),監(jiān)管部門需要將在線投資者情緒數(shù)據(jù)和行為金融學(xué)研究成果納入市場(chǎng)監(jiān)管新依據(jù)。僅采用交易數(shù)據(jù)甄別擾亂市場(chǎng)的違法違規(guī)操作不具備普遍監(jiān)管效果。監(jiān)管部門分析和利用在線投資者情緒數(shù)據(jù):了解廣大投資者對(duì)于資本市場(chǎng)整體態(tài)度和輿情態(tài)勢(shì)以及對(duì)于監(jiān)管措施的意見(jiàn)和建議,追蹤金融事件和極端問(wèn)題,及時(shí)調(diào)整監(jiān)管方向并快速切入監(jiān)管相關(guān)市場(chǎng)主體。監(jiān)管部門還能夠從數(shù)據(jù)分析在線投資者情緒,監(jiān)管和防范股市劇烈波動(dòng),杜絕個(gè)人或機(jī)構(gòu)發(fā)表批量輿論操控股價(jià)。
第二,完善面向大數(shù)據(jù)的技術(shù)能力,防范平臺(tái)技術(shù)安全風(fēng)險(xiǎn),增加平臺(tái)數(shù)據(jù)收益。如電商平臺(tái)一樣,社交平臺(tái)正常運(yùn)營(yíng)需要設(shè)備和技術(shù)保證。阿里、百度、京東、騰訊、當(dāng)當(dāng)?shù)葒?guó)內(nèi)著名互聯(lián)網(wǎng)公司都發(fā)生過(guò)宕機(jī)事件,折射出因用戶量、數(shù)據(jù)量和峰值要求的技術(shù)安全問(wèn)題。目前用戶消費(fèi)、溝通交流和娛樂(lè)等生活習(xí)慣都已經(jīng)網(wǎng)絡(luò)化,勢(shì)必增加了平臺(tái)數(shù)據(jù)流量,同時(shí)也挑戰(zhàn)平臺(tái)承載能力。在軟硬件技術(shù)保障的前提下,除了收割廣告和流量收益外,平臺(tái)企業(yè)利用在線投資者情緒數(shù)據(jù)還可以:在法律允許范圍內(nèi)售賣用戶行為數(shù)據(jù)獲利,采用外包或自行分析方式獲得數(shù)據(jù)分析中間成果或最終成果并進(jìn)行售賣獲利。平臺(tái)企業(yè)進(jìn)行數(shù)據(jù)分析的優(yōu)越性在于數(shù)據(jù)的完備性,有利于個(gè)股、單個(gè)投資者、板塊和整體股指的深入和精準(zhǔn)分析,趨勢(shì)預(yù)測(cè)和薦股結(jié)果會(huì)更加讓人信服。平臺(tái)競(jìng)爭(zhēng)本質(zhì)上就是技術(shù)、服務(wù)和用戶的競(jìng)爭(zhēng),繼而是服務(wù)器群、數(shù)據(jù)量和數(shù)據(jù)分析與挖掘的競(jìng)爭(zhēng),保障安全,攫取數(shù)據(jù)收益。
第三,成立大數(shù)據(jù)分析部門,助力上市公司研判市場(chǎng)趨勢(shì),精準(zhǔn)投融資決策。資本市場(chǎng)行情影響上市公司財(cái)務(wù)戰(zhàn)略決策,利好行情會(huì)有更多資本進(jìn)入,方便增發(fā)股票和加大融資,也方便購(gòu)買股票和加大投資。在線情緒數(shù)據(jù)能夠幫助上市公司判斷投資者對(duì)資本市場(chǎng)行情的主觀評(píng)價(jià)與投資愿望,相關(guān)研究結(jié)果有助于上市公司判斷資本市場(chǎng)行情,及時(shí)做好融資和投資決策。新建大型或小型社交網(wǎng)站或在著名社交網(wǎng)站平臺(tái)開(kāi)設(shè)企業(yè)專欄用于發(fā)現(xiàn)投資者的情緒信息和評(píng)價(jià)細(xì)節(jié),并做好公司運(yùn)營(yíng)層面的管理與控制,通過(guò)積極的經(jīng)營(yíng)戰(zhàn)略和積極的在線承諾防止相關(guān)負(fù)面情緒擴(kuò)大化,保持良好聲譽(yù)和品牌價(jià)值;有條件的上市公司建議成立大數(shù)據(jù)部門,招聘數(shù)據(jù)分析與挖掘人才,實(shí)現(xiàn)多源數(shù)據(jù)分析和利用的專業(yè)化和科學(xué)化,形成更為精準(zhǔn)的投融資決策;小型上市公司可通過(guò)多種渠道購(gòu)買在線情緒數(shù)據(jù)或者數(shù)據(jù)分析結(jié)果,觀察市場(chǎng),了解自己,把握先機(jī)。
第四,關(guān)注在線情緒數(shù)據(jù)和相關(guān)成果,增強(qiáng)個(gè)體投資合理性和穩(wěn)健性,避免盲從風(fēng)險(xiǎn)。投資成為人們?nèi)粘I铌P(guān)鍵訴求,然而普遍存在一種“賭徒式”投機(jī)心理和“傳銷式”操作模式,無(wú)視交易數(shù)據(jù)、基本面數(shù)據(jù)和資本市場(chǎng)規(guī)律,缺乏對(duì)在線情緒數(shù)據(jù)的觀察、分析與思考。非法股評(píng)專家、薦股師和金融衍生品的推銷者利用微信群或QQ群誘導(dǎo)盲目的投資者。大量股民的非理性為個(gè)人或機(jī)構(gòu)提供操縱股票的信心而導(dǎo)致股市劇烈波動(dòng),形成監(jiān)管難度和散戶損失。因此,個(gè)體投資者需要關(guān)注網(wǎng)絡(luò)上其他投資者情緒數(shù)據(jù)和相關(guān)研究成果,輔助其他投資技術(shù)方法,參照基本面數(shù)據(jù)和交易走勢(shì)數(shù)據(jù),利用在線情緒數(shù)據(jù)的共識(shí)性投資態(tài)度和傾向,進(jìn)行合理投資決策,避免投資過(guò)熱和消極投資。
第五,理性對(duì)待人工智能熱,優(yōu)化資本布局,遵循技術(shù)與商業(yè)協(xié)同發(fā)展規(guī)律。資本布局首要追求是高回報(bào),也易在經(jīng)濟(jì)熱度上迷信“高風(fēng)險(xiǎn)”。普華永道預(yù)測(cè):2030年,中國(guó)GDP將達(dá)38萬(wàn)億美金,有7 萬(wàn)億美金為人工智能(AI)驅(qū)動(dòng)。高盛預(yù)測(cè):2025年,全球AI金融服務(wù)規(guī)模達(dá)340-430億美元,AI零售業(yè)規(guī)模將會(huì)高達(dá)540億美元。國(guó)際權(quán)威機(jī)構(gòu)CB Insights統(tǒng)計(jì):2017年,全球范圍內(nèi)有152億美元投資進(jìn)入AI領(lǐng)域,中國(guó)公司為73億美元,占比48%,位列第一。2017年被稱為AI商業(yè)化元年。與之相反的數(shù)據(jù)是騰訊研究院的AI研究報(bào)告:中美倒閉AI企業(yè)總數(shù)已超過(guò)50家,AI企業(yè)將迎來(lái)“倒閉潮”。原因是一些急功近利的資本誤入商業(yè)上的“偽創(chuàng)新”和“偽概念”,無(wú)視或不清楚“自動(dòng)”、“智能”與“智慧”的區(qū)別。投資主體和支持平臺(tái)都需要理性認(rèn)識(shí)技術(shù)演進(jìn)和拓展規(guī)律,保障AI技術(shù)與商業(yè)協(xié)同發(fā)展,重實(shí)干、重過(guò)程和重階段,承擔(dān)機(jī)會(huì)風(fēng)險(xiǎn)而不是技術(shù)瓶頸風(fēng)險(xiǎn)。技術(shù)瓶頸的突破可由研究機(jī)構(gòu)和部門借助政府基金和高風(fēng)險(xiǎn)研發(fā)資本先行攻關(guān)實(shí)現(xiàn)。
第六,共享服務(wù)平臺(tái)與大數(shù)據(jù)信息,實(shí)現(xiàn)城市發(fā)展的智慧化、特色化和均衡化。全國(guó)范圍內(nèi),應(yīng)該拆除各類公路收費(fèi)站、取消各類通信區(qū)域限制(長(zhǎng)途電話)、升級(jí)通信技術(shù)服務(wù)(5G技術(shù))、完善各級(jí)政府辦公及政策信息和各類企業(yè)生產(chǎn)與服務(wù)信息。城市群范圍內(nèi),在交通、住房和相關(guān)配套服務(wù)都已逐步完備的條件下,需要通過(guò)現(xiàn)代通信和大數(shù)據(jù)技術(shù)獲取各類在線市民聲音,改進(jìn)各類民生服務(wù),逐步實(shí)現(xiàn)城市群內(nèi)的各類信息智慧化共享。在此基礎(chǔ)上實(shí)現(xiàn)城市發(fā)展的特色化和均衡化:供應(yīng)鏈上,大型城市發(fā)展企業(yè)集團(tuán)總部,中型城市發(fā)展企業(yè)分部,小型城市發(fā)展零部件生產(chǎn)基地;產(chǎn)業(yè)升級(jí)上,相對(duì)發(fā)達(dá)的城市可以傾向于發(fā)展芯片、新材料、精密加工等高端研發(fā)和制造產(chǎn)業(yè),相對(duì)落后的城市可以優(yōu)先發(fā)展人工智能應(yīng)用、大數(shù)據(jù)分析、軟件外包等輕、快、高產(chǎn)業(yè)。