●胡 婧 葉建木
基于微博信息的股票交易預(yù)測(cè)研究
●胡 婧 葉建木
本文利用微博信息對(duì)股票市場(chǎng)交易進(jìn)行預(yù)測(cè)是大數(shù)據(jù)時(shí)代的研究熱點(diǎn),具有明顯的現(xiàn)實(shí)意義。本文選取我國(guó)股票市場(chǎng)上中證100指數(shù)成分股的微博數(shù)據(jù)作為樣本,研究了微博數(shù)據(jù)指標(biāo)與股票交易量、交易金額的相關(guān)性,并利用BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練了微博數(shù)據(jù)指標(biāo)與股票交易指標(biāo)并對(duì)個(gè)股的交易量和交易金額進(jìn)行了預(yù)測(cè)。結(jié)果表明,與傳統(tǒng)的基于歷史數(shù)據(jù)預(yù)測(cè)方法相比,基于微博數(shù)據(jù)指標(biāo)的預(yù)測(cè)模型穩(wěn)定性更高,預(yù)測(cè)結(jié)果與實(shí)際交易量和交易金額更接近,具有一定的應(yīng)用價(jià)值。
微博 股票 相關(guān)性 BP神經(jīng)網(wǎng)絡(luò) 預(yù)測(cè)
微博(也稱新浪微博)是一款為網(wǎng)民提供娛樂、休閑、生活等服務(wù)的信息分享和交流平臺(tái),其所具備的私信、評(píng)論、轉(zhuǎn)發(fā)、點(diǎn)贊等功能,極大地便捷了用戶間的交流。截至2016年3月底,微博月活躍用戶2.61億,日活躍用戶達(dá)1.2億,其中包括大量政府機(jī)構(gòu)、企業(yè)、公職人員和其他個(gè)人的認(rèn)證賬號(hào)。開放的傳播機(jī)制使新浪微博成為中國(guó)的“公共議事廳”。微博時(shí)效性強(qiáng)、大眾參與度高,可以比較準(zhǔn)確和實(shí)時(shí)地反映社會(huì)整體的心理和行為,研究者也能夠利用網(wǎng)絡(luò)爬蟲技術(shù)從微博獲取與股市密切相關(guān)的政策、企業(yè)信息和投資者情緒等信息,為股票市場(chǎng)預(yù)測(cè)的研究提供了一個(gè)新的方向和途徑。
Bollen等 (2010)最早利用微博(Twitter)研究公眾情感與股票市場(chǎng)的關(guān)系,采用OpinionFinder和GPOMS兩種情緒追蹤工具對(duì)微博進(jìn)行情感分類,研究發(fā)現(xiàn)“冷靜”維度的情緒指數(shù)與三天后的道瓊斯工業(yè)指數(shù)顯著相關(guān)。此后的研究者做了大量探討微博與股票市場(chǎng)指數(shù)關(guān)系的工作。Zhang等(2011)使用Twitter測(cè)量投資者的希望和恐懼程度,得出情緒指數(shù)與股指呈負(fù)相關(guān),但與市場(chǎng)波動(dòng)指數(shù)(Volatility Index,VIX)呈正相關(guān)的結(jié)論。Arafat等(2013)建立了一個(gè)基于云計(jì)算的算法系統(tǒng),驗(yàn)證了公眾情緒與公司市場(chǎng)活力之間的比例關(guān)系。國(guó)內(nèi)學(xué)者的研究主要借鑒了國(guó)外的相關(guān)經(jīng)驗(yàn),同時(shí)結(jié)合中國(guó)實(shí)際情況進(jìn)行實(shí)證分析。多數(shù)研究成果,如王美今和孫建軍(2004),韓立巖和伍燕然(2007),劉麗文和王鎮(zhèn)(2016)等人的研究都支持投資者情緒與市場(chǎng)收益率存在相關(guān)關(guān)系。
現(xiàn)有的利用微博對(duì)不同國(guó)家金融市場(chǎng)預(yù)測(cè)的研究,主要是通過情感分析方法和數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行的。情感分析主要依托于詞庫(kù),然而漢語(yǔ)復(fù)雜多變,且詞庫(kù)的更新速度遠(yuǎn)不及網(wǎng)絡(luò)語(yǔ)言與情緒的發(fā)展速度,詞語(yǔ)傾向性很難把握,因此,在研究我國(guó)股票市場(chǎng)預(yù)測(cè)時(shí),利用情感分析建立基于微博等網(wǎng)絡(luò)平臺(tái)的投資者情緒指數(shù)的研究存在較大的誤差和改進(jìn)余地。基于此,本文研究微博上股票投資者的行為,不使用情感分析,而是通過建立微博指標(biāo),尋找其與股票交易信息之間存在的聯(lián)系。
滬深300指數(shù)是由滬深證券交易所于2005年聯(lián)合發(fā)布的,從滬深證券市場(chǎng)中選取300只規(guī)模較大、流動(dòng)性較強(qiáng)的A股作為樣本編制而成的成分股指數(shù),總市值約占滬深市場(chǎng)的60%。中證100指數(shù)是由滬深300指數(shù)樣本股中規(guī)模最大的100只股票組成的成分股指數(shù),具有市場(chǎng)影響力突出、社會(huì)討論廣泛、引導(dǎo)作用明顯的特點(diǎn)。本文以中證100指數(shù)的成分股為依據(jù),使用集搜客GOOSEEKER網(wǎng)頁(yè)抓取工具抓取了2016年1月至6月這100只股票的相關(guān)微博總量,并選取該區(qū)間內(nèi)微博討論量最多的若干只個(gè)股作為樣本進(jìn)行研究。經(jīng)過測(cè)試,為了達(dá)到排除無(wú)關(guān)或干擾信息的目的,將爬取關(guān)鍵詞設(shè)定為“股票代碼+股票名稱”,以得到較為精準(zhǔn)的個(gè)股微博數(shù)據(jù)。
利用集搜客爬取到的數(shù)據(jù)以Excel電子表格形式儲(chǔ)存,刪去重復(fù)微博并整理計(jì)算后可以獲得個(gè)股每日微博數(shù)據(jù)指標(biāo),如表1所示。
表1 個(gè)股每日微博數(shù)據(jù)指標(biāo)
(一)微博數(shù)據(jù)與當(dāng)日股票指標(biāo)的相關(guān)性
為了驗(yàn)證個(gè)股微博信息是否能夠預(yù)測(cè)股票走勢(shì),首先需要確認(rèn)微博指標(biāo)與股票指標(biāo)是否存在相關(guān)性。
本文選取開盤價(jià)、最高價(jià)、收盤價(jià)、最低價(jià)、交易量、交易金額、漲幅等七項(xiàng)指標(biāo),并從上交所和深交所各選取了一只代表性個(gè)股(300104樂視網(wǎng)和000002萬(wàn)科A)與表1中的五項(xiàng)指標(biāo)分別進(jìn)行相關(guān)性檢驗(yàn)。表2和表3給出了樂視網(wǎng)和萬(wàn)科A在2016年6月和2016年8月股票交易日內(nèi)的微博指標(biāo)與股票指標(biāo)的相關(guān)系數(shù)。
綜合表2和表3中的數(shù)據(jù)可以看出,交易日當(dāng)日的微博數(shù)據(jù)指標(biāo)和其股票表現(xiàn)情況均存在一定的相關(guān)性:盡管微博指標(biāo)與股票價(jià)格(開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià))的相關(guān)性存在個(gè)股差異,但是就樂視網(wǎng)和萬(wàn)科A這兩只股票而言,微博數(shù)、互動(dòng)數(shù)、轉(zhuǎn)發(fā)數(shù)與股票交易量、交易金額的相關(guān)系數(shù)均高于0.5,處于較高水平。這說(shuō)明在社交媒體討論該只個(gè)股的人數(shù)越多、范圍越廣,則該股的成交量和成交金額越大,符合基于常識(shí)的預(yù)期。值得一提的是,顯著的負(fù)相關(guān)性對(duì)研究也是有意義的,利用反向指標(biāo)進(jìn)行預(yù)測(cè)同樣具有可行性。
表2 2016年6月樂視網(wǎng)(300104)微博指標(biāo)與股票指標(biāo)相關(guān)系數(shù)
表3 2016年8月萬(wàn)科A(000002)微博指標(biāo)與股票指標(biāo)相關(guān)系數(shù)
近年來(lái),大量的研究顯示,與傳統(tǒng)媒介相比,社交網(wǎng)絡(luò)(如微博)作為新興投資者信息交流平臺(tái),能夠更加實(shí)時(shí)、準(zhǔn)確、迅速地反映上市公司重大信息披露對(duì)公眾造成的影響。
2016年6月,樂視網(wǎng)微博數(shù)大體上較為平穩(wěn),但是3日和30日呈現(xiàn)井噴態(tài)勢(shì),分別超過當(dāng)月均值的10倍及4倍。樂視網(wǎng)2015年12月5日停牌籌劃重大事項(xiàng),直到2016年6月3日復(fù)牌,復(fù)牌當(dāng)日引發(fā)熱議,然而表現(xiàn)不佳當(dāng)日跌停,后續(xù)微博討論驟減;6月30日樂視網(wǎng)漲停,或與樂視成為酷派股東且正積極籌備樂視金融有關(guān),也引發(fā)了較大規(guī)模討論。同樣,2016年8月,萬(wàn)科A微博討論數(shù)量在4、5兩日達(dá)到最高值。8月4日,萬(wàn)科A股票漲停,媒體稱恒大買入萬(wàn)科股票,比例或超過2%,引發(fā)投資者熱議并發(fā)酵至次日。這些都驗(yàn)證了前人的研究結(jié)果,作為國(guó)內(nèi)主流社交網(wǎng)絡(luò),微博是網(wǎng)絡(luò)信息傳遞的重要途徑,能夠?qū)崟r(shí)體現(xiàn)社會(huì)公眾的行為表現(xiàn),具有反映人們行為及后果的意義。
(二)微博數(shù)據(jù)與次日股票指標(biāo)的相關(guān)性
個(gè)股數(shù)據(jù)與其微博內(nèi)容體現(xiàn)的社會(huì)特征在同一天的相關(guān)性并不能起到預(yù)測(cè)功能。因此,本文同樣檢驗(yàn)了樂視網(wǎng)和萬(wàn)科A在2016年6月和2016年8月的微博指標(biāo)與次日股票指標(biāo)的相關(guān)性,見表4、表5??梢钥闯?,與表2、表3相比,相關(guān)系數(shù)有所降低,但是投資者的交易行為與前一日的社會(huì)行為之間仍然存在著一定聯(lián)系。交易量、交易金額與微博數(shù)、互動(dòng)總數(shù)、轉(zhuǎn)發(fā)數(shù)的相關(guān)系數(shù)都保持在0.3以上,對(duì)股票交易數(shù)據(jù)進(jìn)行預(yù)測(cè)仍然具有可行性。
表4 2016年6月樂視網(wǎng) (300104)微博指標(biāo)與次日股票指標(biāo)相關(guān)系數(shù)
表5 2016年8月萬(wàn)科A(000002)微博指標(biāo)與次日股票指標(biāo)相關(guān)系數(shù)
上一節(jié)的研究結(jié)果顯示,(T-1)日的投資者微博行為與T日的股票交易行為存在相關(guān)性,因此可以利用這一結(jié)論來(lái)預(yù)測(cè)投資者的行為,以及該行為其對(duì)股票交易價(jià)格和成交量變化的作用。
然而,由于股票市場(chǎng)參與者眾多,容易受到多方因素的影響,是一個(gè)非線性、大規(guī)模的復(fù)雜系統(tǒng),傳統(tǒng)的利用財(cái)務(wù)指標(biāo)進(jìn)行線性模型預(yù)測(cè)的方法并不適用。而BP神經(jīng)網(wǎng)絡(luò)可以進(jìn)行大規(guī)模并行處理,具有很強(qiáng)的非線性逼近能力及自學(xué)習(xí)、自適應(yīng)能力,符合預(yù)測(cè)的要求。因此本文利用MATLAB R2012b中BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行股票預(yù)測(cè)研究,構(gòu)建四層BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,其結(jié)構(gòu)如圖1所示。
圖1 本文BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(一)微博指標(biāo)對(duì)股票交易的預(yù)測(cè)
將表1中的五個(gè)微博指標(biāo),即微博數(shù)、互動(dòng)參與率、互動(dòng)總數(shù)、互動(dòng)均值和轉(zhuǎn)發(fā)數(shù)設(shè)定為輸入向量,股票交易量和交易金額設(shè)定為輸出向量。經(jīng)過多次試驗(yàn),確定隱層第一層和隱層第二層節(jié)點(diǎn)數(shù)分別為8個(gè)和22個(gè)。
將最近30個(gè)自然日的數(shù)據(jù)作為訓(xùn)練樣本。為了避免輸入、輸出變量之間數(shù)量級(jí)差異造成的誤差,對(duì)全部樣本進(jìn)行了歸一化處理。學(xué)習(xí)率設(shè)定為0.05,目標(biāo)為0.0000001,設(shè)定輸入數(shù)據(jù)的20%為測(cè)試數(shù)據(jù)、20%為變化數(shù)據(jù)、60%為訓(xùn)練數(shù)據(jù),隨后進(jìn)行10000次訓(xùn)練,最后對(duì)樣本數(shù)據(jù)反歸一化。訓(xùn)練結(jié)果如圖2所示。由此即得到本文所需的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)系統(tǒng)Ⅰ。在系統(tǒng)中輸入五項(xiàng)個(gè)股微博指標(biāo),即可對(duì)下一交易日的股票交易量及交易金額;進(jìn)行預(yù)測(cè)。
圖2 萬(wàn)科A2016年8月微博指標(biāo)訓(xùn)練結(jié)果
(二)歷史交易數(shù)據(jù)對(duì)股票交易的預(yù)測(cè)
為了驗(yàn)證該系統(tǒng)的準(zhǔn)確性,本文同樣建立了基于萬(wàn)科A股票歷史數(shù)據(jù)對(duì)股票交易量及金額的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)系統(tǒng)Ⅱ。該系統(tǒng)采取相同的研究方法,五個(gè)輸入變量分別為(T-1)日、(T-2)日、(T-3)日交易量和(T-1)日、(T-2)日交易金額,兩個(gè)輸出變量為T日的股票交易量和交易金額。同樣,將最近30個(gè)自然日的數(shù)據(jù)作為訓(xùn)練樣本,其他參數(shù)設(shè)置與系統(tǒng)Ⅰ一致。訓(xùn)練結(jié)果如圖3。
圖3 萬(wàn)科A2016年8月歷史交易數(shù)據(jù)訓(xùn)練結(jié)果
(三)股票交易預(yù)測(cè)偏差的比較分析
利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)系統(tǒng)Ⅰ和系統(tǒng)Ⅱ,分別對(duì)萬(wàn)科A的交易數(shù)據(jù)進(jìn)行預(yù)測(cè)。將預(yù)測(cè)結(jié)果與實(shí)際股票交易數(shù)據(jù)進(jìn)行比較,偏差結(jié)果如圖4、圖5。
圖4 兩個(gè)預(yù)測(cè)系統(tǒng)對(duì)萬(wàn)科A2016年9月交易量預(yù)測(cè)偏差對(duì)比
圖5兩個(gè)預(yù)測(cè)系統(tǒng)對(duì)萬(wàn)科A2016年9月交易金額預(yù)測(cè)偏差對(duì)比
圖4 、圖5中,百分比表示通過微博指標(biāo)預(yù)測(cè)和基于歷史數(shù)據(jù)預(yù)測(cè)水平與實(shí)際交易水平的偏差。0.0%即表示萬(wàn)科A實(shí)際成交水平。
觀察預(yù)測(cè)偏差的絕對(duì)值,與微博指標(biāo)預(yù)測(cè)相比,基于股票歷史數(shù)據(jù)的預(yù)測(cè)總體上偏差更大,預(yù)測(cè)結(jié)果僅有兩天低于實(shí)際交易量或交易金額。
微博指標(biāo)預(yù)測(cè)偏差較小且比較平穩(wěn),預(yù)測(cè)結(jié)果始終在實(shí)際交易情況附近變化,偏差幅度絕對(duì)值基本不超過100%;基于股票歷史數(shù)據(jù)的預(yù)測(cè)結(jié)果偏差較大且波動(dòng)明顯,偏差最大值甚至分別超過500%和600%?;谖⒉┲笜?biāo)的預(yù)測(cè)遠(yuǎn)遠(yuǎn)好于基于歷史數(shù)據(jù)的預(yù)測(cè)。
本文在對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理的基礎(chǔ)上,通過數(shù)據(jù)挖掘技術(shù)分析微博(weibo.com)上投資者的社會(huì)行為,尋求個(gè)股微博指標(biāo)與個(gè)股交易信息之間的相關(guān)關(guān)系,最后使用BP神經(jīng)網(wǎng)絡(luò)展開預(yù)測(cè),構(gòu)建股票交易情況預(yù)測(cè)模型。
研究發(fā)現(xiàn),股票的微博指數(shù)與其當(dāng)日及次日的股票信息都具有相關(guān)關(guān)系,特別是與股票交易量、交易金額之間的相關(guān)性較強(qiáng),投資者股票交易行為和微博體現(xiàn)的社會(huì)行為之間有具有一定聯(lián)系。借助本文構(gòu)建的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,可以利用微博指標(biāo)對(duì)股票交易量及交易金額進(jìn)行預(yù)測(cè),效果遠(yuǎn)好于以股票歷史數(shù)據(jù)為基礎(chǔ)的預(yù)測(cè)。
因此,本文具有一定的現(xiàn)實(shí)意義,對(duì)股票市場(chǎng)成交量的變化能起到一定的預(yù)測(cè)作用,對(duì)市場(chǎng)投資者和監(jiān)管層均有較好的啟示意義。然而,基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法仍然非常粗糙,有待進(jìn)一步改進(jìn),以提高預(yù)測(cè)準(zhǔn)確性,增加實(shí)際運(yùn)用價(jià)值。
(作者單位:武漢理工大學(xué)管理學(xué)院)
[1]韓立巖,伍燕然.投資者情緒與IPOs之謎——抑價(jià)或者溢價(jià)[J].管理世界,2007,(03).
[2]胡軍,王甄.微博、特質(zhì)性信息披露與股價(jià)同步性[J].金融研究,2015,(11).
[3]劉麗文,王鎮(zhèn).投資者情緒對(duì)不同類型股票收益影響的實(shí)證研究[J].金融理論與實(shí)踐,2016,(02).
[4]宋彧婕.基于網(wǎng)絡(luò)信息的金融市場(chǎng)預(yù)測(cè)研究[D].電子科技大學(xué),2015.
[5]湯姚楠,劉亞臣.基于大數(shù)據(jù)的城市經(jīng)濟(jì)學(xué)研究方法思考[J].建筑經(jīng)濟(jì),2015,(12).
[6]王美今,孫建軍.中國(guó)股市收益、收益波動(dòng)與投資者情緒[J].經(jīng)濟(jì)研究,2004,(10).
[7]許興軍,顏鋼鋒.基于BP神經(jīng)網(wǎng)絡(luò)的股價(jià)趨勢(shì)分析[J].浙江金融,2011,(11).
[8]余志紅.投資者情緒對(duì)個(gè)股收益的預(yù)測(cè)——來(lái)自微博大數(shù)據(jù)挖掘的證據(jù)[D].中南大學(xué),2013.
[9]張?zhí)m廷.大數(shù)據(jù)的社會(huì)價(jià)值與戰(zhàn)略選擇[D].中共中央黨校, 2014.
[10]Arafat J.Analyzing Public Emotion and Predicting Stock Market Using,Social Media[J].American Journal of Engineering Research,2013,(02).
[11]Bollen J,Mao H,Zeng X.Twitter mood predicts the stock market[J].Journal of Computational Science,2010,(02).
[12]Zhang X,Fuehres H,Gloor P A,et al.Predicting Stock Market Indicators Through Twitter“I hope it is not as bad as I fear”[J].Procedia-Social and Behavioral Sciences,2011,(26).