孫明璇,李莉莉
(青島大學(xué) 經(jīng)濟(jì)學(xué)院,山東 青島 266000)
股市作為連接投資者與上市公司的重要紐帶,在優(yōu)化資源配置的同時(shí),亦是國(guó)民經(jīng)濟(jì)的“晴雨表”,股市的變化直接反映了人們對(duì)未來(lái)經(jīng)濟(jì)形勢(shì)的預(yù)期。把握股市的走勢(shì),對(duì)上市公司融資與投資者決策有著重要意義,同時(shí)有利于維護(hù)金融秩序的穩(wěn)定。因此揭示股市變動(dòng)的規(guī)律及其影響因素成為經(jīng)濟(jì)學(xué)家,心理學(xué)家,甚至數(shù)學(xué)家的熱點(diǎn)研究問(wèn)題。在對(duì)股票市場(chǎng)的研究中,傳統(tǒng)方法多基于歷史數(shù)據(jù)。隨著互聯(lián)網(wǎng)以及大數(shù)據(jù)技術(shù)的發(fā)展,投資者的信息來(lái)源更加多樣化,更傾向于在網(wǎng)絡(luò)社交媒體中發(fā)表觀點(diǎn),這些社交平臺(tái)中的信息便形成了一個(gè)大數(shù)據(jù)庫(kù)。挖掘其中有價(jià)值的信息,為股市研究提供了新的思路。
Malkiel 和Fama 提出的有效市場(chǎng)假說(shuō)是傳統(tǒng)金融領(lǐng)域的核心假設(shè)之一,其認(rèn)為在有效資本市場(chǎng)中投資者是完全理性的,且資產(chǎn)的交易價(jià)格已經(jīng)包含了所有市場(chǎng)信息,即使一些投資者是非理性的,金融資產(chǎn)的價(jià)格仍能在市場(chǎng)發(fā)展過(guò)程中回到基礎(chǔ)價(jià)格水平[1]。然而在現(xiàn)實(shí)證券市場(chǎng)中投資者間存在異質(zhì)性,面對(duì)相同信息時(shí),不同投資者對(duì)信息的理解并不相同。因此現(xiàn)實(shí)市場(chǎng)中存在著眾多套利機(jī)會(huì),有效市場(chǎng)假說(shuō)受到挑戰(zhàn)。在學(xué)者們的質(zhì)疑中,行為金融學(xué)逐步形成,在套利和有限理性的基礎(chǔ)上,從噪聲、心理偏差和投資者情緒等方面對(duì)資產(chǎn)收益進(jìn)行了分析。行為金融學(xué)認(rèn)為,證券收益不僅受其內(nèi)在價(jià)值的影響,在很大程度上還受到投資者情緒的影響。情緒是人對(duì)客觀事物的態(tài)度和反應(yīng),投資者情緒是投資者群體中不同個(gè)體對(duì)某件事的相似反應(yīng)的集合,對(duì)于投資者情緒與股市的相關(guān)性,學(xué)者們?cè)缬写祟?lèi)研究。Pietro Veronesi 證明了投資者情緒在對(duì)股票收益波動(dòng)的研究中占重要地位[2],John Nofsinger 認(rèn)為金融市場(chǎng)、金融行為和社會(huì)情緒間存在相互作用[3]。然而與情緒相關(guān)的學(xué)術(shù)研究一直面臨著如何精確衡量的問(wèn)題,由于對(duì)情緒的直接測(cè)量并不真正存在,間接代理變量被廣泛使用。例如,楊陽(yáng)和萬(wàn)迪昉以央視看盤(pán)指數(shù)和換手率構(gòu)成投資者情緒指數(shù),通過(guò)TGARCH-M(1,1)模型證明,在熊市階段,投資者的樂(lè)觀情緒對(duì)上證綜指日收益波動(dòng)的沖擊大于悲觀情緒對(duì)其的沖擊。而牛市階段相反,即悲觀情緒對(duì)收益波動(dòng)的影響更大[4]。Alain Frugier選用道富投資者信心指數(shù)代表投資者情緒,發(fā)現(xiàn)在某些情況下參考投資者情緒的決策能獲得更高的投資回報(bào)并降低投資風(fēng)險(xiǎn)[5]。有更多類(lèi)似文獻(xiàn)使用間接或直接指標(biāo)來(lái)構(gòu)建投資者情緒指數(shù)。
隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的快速發(fā)展,成千上萬(wàn)的信息源通過(guò)網(wǎng)絡(luò)提供著連續(xù)且即時(shí)的信息流,更多來(lái)自網(wǎng)絡(luò)數(shù)據(jù)的間接指標(biāo),如在線搜索量、新聞數(shù)量、社交媒體評(píng)論等,被用來(lái)表達(dá)投資者情緒。Johan Bollen 等,Antonios Siganos 等使用多種在線文本情感分析工具,如OpinionFinder、GPOMS 以及LIWC,分別以每日Twitter 中評(píng)論和Facebook 中評(píng)論為數(shù)據(jù)來(lái)源提取投資者情緒,生成積極、消極兩種情緒時(shí)間序列,發(fā)現(xiàn)投資者情緒與股市收益和股票價(jià)格波動(dòng)率間存在一定聯(lián)系[6-7]。Axel 等以Twitter 為數(shù)據(jù)源,獲取其中“股市”等關(guān)鍵詞下的專(zhuān)家評(píng)論和普通用戶評(píng)論,參考哈佛大學(xué)發(fā)布的心理詞典(HGIV-4)生成專(zhuān)家情緒向量與普通用戶情緒向量,使用支持向量機(jī)等方法發(fā)現(xiàn)Twitter 中某類(lèi)情緒的變化能夠反映股市收益的走勢(shì),且與普通用戶情緒相比,專(zhuān)家情緒對(duì)收益率的預(yù)測(cè)準(zhǔn)確度更高[8]。
貼吧、社交平臺(tái)等互聯(lián)網(wǎng)信息源同樣引起了國(guó)內(nèi)學(xué)者的關(guān)注。金秀等依據(jù)貝葉斯算法對(duì)財(cái)經(jīng)股吧中的信息進(jìn)行分類(lèi)構(gòu)成投資者情緒指數(shù),并通過(guò)相關(guān)性分析、格蘭杰因果檢驗(yàn)等證明了投資者情緒對(duì)不同市場(chǎng)狀態(tài)下的股票收益存在非對(duì)稱(chēng)性影響,且對(duì)呈下行趨勢(shì)的股票收益有更強(qiáng)的預(yù)測(cè)性[9]。戴德寶等同樣從股吧論壇中抓取帖子,利用基于詞典的文本分析技術(shù),結(jié)合機(jī)器學(xué)習(xí)方法證明了加入投資者情緒能夠提高對(duì)上證綜指走勢(shì)預(yù)測(cè)的準(zhǔn)確性[10]。石善沖等,梅立興等,將ROST 文本分析工具應(yīng)用于網(wǎng)絡(luò)中的文章和評(píng)論構(gòu)建情緒指數(shù),發(fā)現(xiàn)投資者情緒,尤其是其中的消極情緒對(duì)股票收盤(pán)價(jià)有較準(zhǔn)確的預(yù)測(cè)[11-12]。
新浪微博是目前國(guó)內(nèi)最大的博客類(lèi)社交網(wǎng)站,大量投資者情緒映射于微博平臺(tái)上,近年來(lái)許多學(xué)者已證明新浪微博可為股票價(jià)格預(yù)測(cè)提供有效信息。賴(lài)凱聲等參考漢語(yǔ)詞典和國(guó)外詞庫(kù)建立了微博情緒詞庫(kù),篩選得到與股市高度相關(guān)的情緒詞,統(tǒng)計(jì)詞頻數(shù)加權(quán)計(jì)算得微博情緒綜合指數(shù)。通過(guò)協(xié)整方程和誤差修正模型發(fā)現(xiàn)微博情緒與上證綜指間存在長(zhǎng)期均衡關(guān)系[13]。黃潤(rùn)鵬等的研究得到相似結(jié)論,并進(jìn)一步指出較為極端的情緒更易引起上證綜指的變化[14]。又有王夫樂(lè)等從微博中提取投資者情緒,以上證綜指、深市成指和滬深300 的日收益為研究對(duì)象,建立回歸模型后發(fā)現(xiàn),當(dāng)微博情緒高漲時(shí)股市收益會(huì)隨之升高,而情緒的波動(dòng)對(duì)股市收益存在負(fù)面影響??傮w情緒偏向消極時(shí),股市收益對(duì)情緒的變化更為敏感,且情緒對(duì)收益的影響存在顯著的小公司效應(yīng)和節(jié)假日效應(yīng)[15]。
在關(guān)于投資者情緒對(duì)股市影響的研究中,除情緒變量的選擇外,模型的選擇也是重要一點(diǎn)。股市中往往存在長(zhǎng)期記憶現(xiàn)象,因此在選擇實(shí)證模型時(shí)應(yīng)考慮該特征。具有長(zhǎng)期記憶效應(yīng)的時(shí)間序列,其自相關(guān)函數(shù)的衰減速度比具有短期記憶的時(shí)間序列慢得多。Barkoulas,Panas,Sibbertsen等學(xué)者分別基于Hurst 指數(shù)、經(jīng)典R/S 分析以及修正R/S 分析等方法,證明了歐洲部分國(guó)家的股票市場(chǎng)收益率序列具有明顯的長(zhǎng)期記憶特征[16-18]。李志生和劉正捷通過(guò)R/S 分析以及相關(guān)性檢驗(yàn),發(fā)現(xiàn)我國(guó)股票市場(chǎng)收益率中存在顯著的長(zhǎng)期記憶效應(yīng)[19]。長(zhǎng)期記憶效應(yīng)揭示了資本市場(chǎng)的非線性結(jié)構(gòu),使得傳統(tǒng)線性模型無(wú)法有效解釋市場(chǎng)的本質(zhì),因此一些長(zhǎng)期記憶模型被提出[20][17]。其中基于已實(shí)現(xiàn)波動(dòng)率(RV)的模型更充分地利用了日內(nèi)高頻交易數(shù)據(jù)中的信息,在預(yù)測(cè)中有更好的表現(xiàn),相比于傳統(tǒng)的GARCH、SV 等模型具有多方面優(yōu)勢(shì)。最為廣泛使用的是Corsi 提出的HAR-RV模型和Andersen 提出的ARFIMA-RV 模型[21-22]。本文選擇ARFIMA-RV 模型進(jìn)行實(shí)證分析。
綜合上述國(guó)內(nèi)外文獻(xiàn),已有研究中通常以一到兩種情緒指數(shù)代理投資者情緒,缺少針對(duì)不同種類(lèi)情緒的細(xì)化分析。在對(duì)情緒與股市關(guān)系的探討中,目前只發(fā)現(xiàn)投資者情緒對(duì)股市收盤(pán)價(jià)和收益率存在影響,還沒(méi)有關(guān)于投資者情緒與中國(guó)股市波動(dòng)間相關(guān)性的研究?;谖⒉┬畔⒀芯客顿Y者情緒對(duì)中國(guó)股市波動(dòng)的影響,一方面為有效挖掘并細(xì)化分析微博數(shù)據(jù)中的情感提供了思路,另一方面為加入投資者情緒的中國(guó)股市波動(dòng)預(yù)測(cè)提供了佐證。
根據(jù)學(xué)者們的已有研究,本文以新浪微博作為數(shù)據(jù)來(lái)源。使用微博數(shù)據(jù)代表投資者情緒有以下幾個(gè)優(yōu)點(diǎn),第一,截至2019 年6 月新浪微博的月活躍用戶達(dá)到4.86 億,且仍在不斷增長(zhǎng),日發(fā)布內(nèi)容超過(guò)一億條,有許多股市投資者活躍其中。同時(shí)其信息傳播的廣度和速度,以及擁有的數(shù)據(jù)量是其它媒體平臺(tái)無(wú)法相比的。第二,與傳統(tǒng)媒體不同,微博文本不需要特定的結(jié)構(gòu)和嚴(yán)謹(jǐn)?shù)倪壿?,每條微博限定為最多140 個(gè)字,能夠更直觀地從中觀察到用戶情緒,同時(shí)獲得多種極性的情感,有利于研究不同種類(lèi)的情緒對(duì)股市的影響。第三,微博數(shù)據(jù)可具體到分鐘,我們能夠確定每條微博的發(fā)布時(shí)間,便于篩選出研究時(shí)期內(nèi)的數(shù)據(jù)。因此本文使用新浪微博中情緒代表投資者情緒。為獲得基于新浪微博的情緒數(shù)據(jù),采用以下三個(gè)步驟。
第1 步,微博文本收集。常用微博獲取方法有新浪API 和網(wǎng)絡(luò)爬蟲(chóng)兩種,而使用新浪API 對(duì)可獲取的微博內(nèi)容與條數(shù)有諸多限制。因此本文選擇基于python 開(kāi)發(fā)的網(wǎng)絡(luò)爬行器,結(jié)合新浪搜索引擎,對(duì)特定關(guān)鍵詞下,特定時(shí)間范圍內(nèi)的微博內(nèi)容遍歷抓取。給定初始網(wǎng)頁(yè)集合,爬蟲(chóng)將根據(jù)已設(shè)定的規(guī)則從集合中第一個(gè)網(wǎng)頁(yè)出發(fā),獲取該網(wǎng)頁(yè)內(nèi)指定的全部?jī)?nèi)容,再以該網(wǎng)頁(yè)為節(jié)點(diǎn),提取下一步要進(jìn)行爬取的網(wǎng)頁(yè)地址,垂直抓取數(shù)據(jù)。過(guò)程中記錄已爬取網(wǎng)頁(yè),不存在重復(fù)抓取,直到集合內(nèi)網(wǎng)頁(yè)全部爬取完畢。為解決新浪微博對(duì)爬蟲(chóng)運(yùn)行的限制,我們構(gòu)造cookies 模擬登陸并控制爬行速度避免IP 受限。該種方式獲取的文本數(shù)據(jù)全面且有效,已得到較為廣泛的使用。第2 步,文本預(yù)處理。爬取的數(shù)據(jù)中包含大量HTML 標(biāo)簽。為了便于后續(xù)處理以獲得相對(duì)干凈的數(shù)據(jù),使用一些腳本命令刪除所有標(biāo)簽。第3 步,語(yǔ)義分析。語(yǔ)義分析是獲取情緒數(shù)據(jù)的最重要步驟。
機(jī)器學(xué)習(xí)和情感詞典匹配是中文文本分析中最常用的兩種方法。機(jī)器學(xué)習(xí)中又包括神經(jīng)網(wǎng)絡(luò),支持向量機(jī)以及樸素貝葉斯拓?fù)涞确椒ā4祟?lèi)方法的應(yīng)用時(shí)間較短且參數(shù)設(shè)置復(fù)雜,設(shè)置不恰當(dāng)將會(huì)影響情感分析的結(jié)果,因此本文選用較為成熟且常用的基于情感詞典的中文文本分析方法。
該方法參考許啟發(fā)等的研究[23],主要有以下幾步:(1)對(duì)數(shù)據(jù)進(jìn)行清洗去噪,將微博文本按中文語(yǔ)義和語(yǔ)言習(xí)慣做分詞處理。(2)提取出每條微博分詞后所得的單字、詞語(yǔ)、習(xí)慣搭配等在情緒詞典中遍歷,篩選出能夠與詞典匹配的詞語(yǔ)或單字并計(jì)分,獲得單條微博的不同種類(lèi)情緒得分組成情緒向量,過(guò)程詳見(jiàn)圖1。
情感詞典的選擇是文本情感分析中的關(guān)鍵一步,目前常用的詞典有中文情感詞匯本體庫(kù)(大連理工大學(xué)創(chuàng)建)、知網(wǎng)情感詞典、玻森中文語(yǔ)義詞典以及中文情感極性詞典(臺(tái)灣大學(xué)創(chuàng)建)。中文情感詞匯本體庫(kù)中將情感細(xì)分為七大類(lèi)二十一小類(lèi),劃分方式較其它情感詞典更為細(xì)致,且對(duì)每個(gè)情感詞給出了等級(jí)評(píng)分,因此本文選擇中文情感詞匯本體庫(kù)作為基礎(chǔ)詞典??紤]到中文語(yǔ)義的復(fù)雜性,單一詞典缺乏準(zhǔn)確性,因此在分析過(guò)程中又綜合了知網(wǎng)情感詞典和知網(wǎng)程度副詞詞典。知網(wǎng)情感詞典中收錄了“愛(ài)”“快樂(lè)”等836 個(gè)中文正面情感詞語(yǔ)和“不是滋味兒”等1 254 個(gè)中文負(fù)面情感詞語(yǔ),以及“對(duì)勁兒”“不可或缺”等3 730 個(gè)中文正面評(píng)價(jià)詞語(yǔ),“不滿意”“后悔”等3 116 個(gè)中文負(fù)面評(píng)價(jià)詞語(yǔ)。程度副詞詞典中收錄有中文程度級(jí)別詞語(yǔ)219 個(gè)。同時(shí)我們加入了“別”“不”等976 個(gè)否定詞作為分析輔助。
對(duì)于部分情感(比如樂(lè),哀,好,怒),若分詞后的文本中發(fā)現(xiàn)有否定詞與情感詞相鄰,該類(lèi)情感將發(fā)生反轉(zhuǎn)。若分詞后的文本中發(fā)現(xiàn)有程度副詞與情感詞相鄰,將情感詞根據(jù)副詞的程度等級(jí)加上相應(yīng)權(quán)重。此外,考慮到所獲得的微博文本內(nèi)容是用戶對(duì)股市的討論,其中包含大量未被已有情緒詞典標(biāo)記的專(zhuān)業(yè)術(shù)語(yǔ),這些詞語(yǔ)也應(yīng)加入分析。在詞語(yǔ)的選擇上有兩點(diǎn)要求:第一,該詞為股市中常用的專(zhuān)業(yè)術(shù)語(yǔ),第二,該詞語(yǔ)在微博平臺(tái)中經(jīng)常被使用?;谝陨蟽牲c(diǎn),參考陳云松和嚴(yán)飛的研究[24],從新浪微博的熱詞庫(kù)中篩選出作為股市術(shù)語(yǔ)的熱詞加入情感詞典。表1 中示例了所使用到的情感詞典。
表1 情感詞典示例
為捕捉時(shí)間序列的長(zhǎng)期記憶效應(yīng),分整自回歸移動(dòng)平均模型(ARFIMA)在經(jīng)濟(jì)學(xué)和金融學(xué)中得到廣泛的采用。ARFIMA 模型以能夠刻畫(huà)時(shí)間序列短期記憶特征的ARMA 模型為基礎(chǔ)發(fā)展而來(lái),將差分由整數(shù)階拓展到分?jǐn)?shù)階。設(shè)時(shí)間序列yt滿足以下ARFIMA(p,d,q)模型:
B是滯后算子,εt是滿足均值為零的獨(dú)立同分布(i.i.d),u為序列yt的均值,θ=(d,?1,…,?p,ψ1,…,ψq)′是未知參數(shù)向量。若特征根全部位于單位圓外,則yt服從ARFIMA 模型。參數(shù)d為分整差分參數(shù),刻畫(huà)時(shí)間序列的長(zhǎng)期記憶特征,其取值范圍為:-0.5 在使用高頻數(shù)據(jù)的資產(chǎn)波動(dòng)性建模中,常以已實(shí)現(xiàn)波動(dòng)率作為研究對(duì)象。因此,本文對(duì)已實(shí)現(xiàn)波動(dòng)率(RV)建立了ARFIMA(p,d,q)模型,標(biāo)記為ARFIMA-RV。已實(shí)現(xiàn)波動(dòng)率為交易日內(nèi)的日內(nèi)收益率平方和,其中日內(nèi)收益率的計(jì)算公式為[25]: t表示觀察日,t=1,2,3,…,t,對(duì)特定的一天i=2,3,…72,歐美股市中,在每個(gè)交易日的6 小時(shí)內(nèi),有72 個(gè)以5 分鐘為間隔的收盤(pán)價(jià)觀測(cè)值,Pt,i為第t日在第i個(gè)五分鐘觀測(cè)點(diǎn)上的收盤(pán)價(jià)格。RV的計(jì)算公式如下: 評(píng)價(jià)一個(gè)模型的優(yōu)劣,不僅要看其樣本內(nèi)擬合能力,更重要的是看其樣本外的預(yù)測(cè)能力,因此我們還需對(duì)模型的樣本外預(yù)測(cè)能力進(jìn)行檢驗(yàn)。這里我們選擇滾動(dòng)時(shí)間窗的預(yù)測(cè)方法,對(duì)樣本外滾動(dòng)預(yù)測(cè)的過(guò)程簡(jiǎn)要舉例說(shuō)明:假設(shè)樣本總體共有t=1,2,…,899 個(gè)交易日,首先用前個(gè)交易日的已實(shí)現(xiàn)波動(dòng)率估計(jì)模型參數(shù),利用所得估計(jì)參數(shù)遞推出第900 個(gè)交易日的已實(shí)現(xiàn)波動(dòng)率預(yù)測(cè)值。固定估計(jì)樣本的區(qū)間長(zhǎng)度為899 天,然后將估計(jì)樣本的區(qū)間向后移動(dòng)一天,重新對(duì)模型進(jìn)行估計(jì),得到新的估計(jì)參數(shù)后遞推出第901 個(gè)交易日的已實(shí)現(xiàn)波動(dòng)率預(yù)測(cè)值,重復(fù)這一過(guò)程直到得到第n個(gè)交易日的已實(shí)現(xiàn)波動(dòng)率預(yù)測(cè)值。 得到已實(shí)現(xiàn)波動(dòng)率的預(yù)測(cè)值后,可通過(guò)比較損失函數(shù)的大小對(duì)預(yù)測(cè)精度進(jìn)行評(píng)估。具體使用哪種損失函數(shù)來(lái)刻畫(huà)預(yù)測(cè)偏差更為合理,學(xué)者們沒(méi)有一致的觀點(diǎn)。較常用的為平均絕對(duì)誤差(MAE)和均方根誤差(RMSE),本文即采二者作為評(píng)價(jià)指標(biāo),具體公式如下: 由于絕對(duì)誤差有正有負(fù),因此計(jì)算絕對(duì)誤差時(shí),采用絕對(duì)誤差的絕對(duì)值。 上海證券綜合指數(shù)(簡(jiǎn)稱(chēng)“上證綜指”或“上證指數(shù)”)以上交所中包括A 股與B 股的全部上市股票為樣本股。不僅反映了上海證券交易所的股價(jià)走勢(shì),同時(shí)反映了中國(guó)證券市場(chǎng)整體的發(fā)展情況,是投資者了解大盤(pán)行情的重要參考指標(biāo)。我們以5 分鐘為抽樣頻率,收集上證綜指的高頻收盤(pán)價(jià)格,中國(guó)股票市場(chǎng)每個(gè)交易日的交易時(shí)間為4 小時(shí),則每個(gè)交易日可獲得48 個(gè)高頻數(shù)據(jù)。參考上文中對(duì)已實(shí)現(xiàn)波動(dòng)率的介紹,計(jì)算得到每個(gè)交易日的已實(shí)現(xiàn)波動(dòng)率,簡(jiǎn)記為“RV”(下文中所提及的波動(dòng)率均為已實(shí)現(xiàn)波動(dòng)率)。樣本區(qū)間為2012 年1 月4 日至2019 年7 月5 日,累計(jì)1832個(gè)交易日。數(shù)據(jù)來(lái)源于“Wind 數(shù)據(jù)庫(kù)”和“Resset高頻數(shù)據(jù)庫(kù)”。 新浪微博于2009 年上線,經(jīng)過(guò)發(fā)展至2011 年形成較大的固定用戶群體,因此我們將研究的起始時(shí)間定于2012 年。以“上證指數(shù)”“上證綜指”“股票”“A 股”“B 股”多個(gè)詞語(yǔ)為搜索關(guān)鍵詞,使用python 爬蟲(chóng)技術(shù)分別抓取2012 年1 月4 日至2019 年7 月5 日間各個(gè)關(guān)鍵詞下的每日微博評(píng)論。為保證與股票市場(chǎng)對(duì)應(yīng),只爬取發(fā)布日期為股票交易日的微博文本,同時(shí)為準(zhǔn)確提取發(fā)布者的主觀情緒,在抓取時(shí),限定只獲取用以表達(dá)發(fā)布者主觀觀點(diǎn)的原創(chuàng)微博,過(guò)濾掉轉(zhuǎn)發(fā)內(nèi)容,最終獲得總計(jì)1 833 784 條博文。對(duì)所得數(shù)據(jù)進(jìn)行初步處理,由于各個(gè)關(guān)鍵詞下的微博評(píng)論內(nèi)容可能有重疊,首先對(duì)數(shù)據(jù)進(jìn)行去重,對(duì)同一天內(nèi),同一人所發(fā)布的完全相同的評(píng)論,僅保留其中一條。之后進(jìn)一步清洗:剔除用戶昵稱(chēng);剔除話題名稱(chēng)(帶有“#話題名稱(chēng)?!弊謽?;剔除用戶定位等與情緒無(wú)關(guān)信息。 在構(gòu)建情緒時(shí)間序列時(shí),首先對(duì)清洗并分詞后的文本進(jìn)行如上文中圖1 所示的情感分析,再對(duì)同一股票交易日內(nèi)所有單條微博的情緒向量求均值,可得當(dāng)日情緒向量,將每日情緒向量按日期排列后得到多維度的微博情緒時(shí)間序列。由于情感分析過(guò)程中發(fā)現(xiàn)包含“怒”這一小類(lèi)情緒的微博文本較少,因此手動(dòng)剔除“怒”情緒,得到“樂(lè)”“哀”“好”“惡”“驚”“懼”六維情緒時(shí)間序列,將各個(gè)維度分別簡(jiǎn)記為“m1”“m2”“m3”“m4”“m5”和“m6”。為使研究更全面,本文又將六小類(lèi)情緒中的“哀”“惡”“驚”“懼”歸為消極情緒,將“樂(lè)”和“好”歸為積極情緒,在已有情感詞典的基礎(chǔ)上,構(gòu)建了只包含“積極”與“消極”兩個(gè)大類(lèi)情緒的詞典,以相同方式獲得積極情緒時(shí)間序列(簡(jiǎn)記為“p”)和消極情緒時(shí)間序列(簡(jiǎn)記為“n”)。又將兩大類(lèi)情緒合并為一大類(lèi),即只對(duì)情感詞典中的詞或短語(yǔ)進(jìn)行標(biāo)記和計(jì)分,并不對(duì)詞語(yǔ)的情感極性做區(qū)分,獲得每日微博綜合情緒時(shí)間序列,簡(jiǎn)記為”m”。各類(lèi)情緒時(shí)間序列與RV的時(shí)序圖見(jiàn)圖2至圖4。 觀察圖2 發(fā)現(xiàn),2015 年間股市呈現(xiàn)大幅波動(dòng),其他時(shí)間段內(nèi)波動(dòng)率有正常的上下變動(dòng),但整體平穩(wěn)。除2015 年中股市暴跌時(shí)期外,微博綜合情緒與已實(shí)現(xiàn)波動(dòng)率的走勢(shì)較為一致。圖3 中積極情緒與消極情緒的走勢(shì)與圖2 的微博綜合情緒有相似之處。觀察圖4 發(fā)現(xiàn),“哀”“驚”“懼”三小類(lèi)情緒在樣本區(qū)間內(nèi)的波動(dòng)幅度較大,其高峰和低谷都與股市波動(dòng)率的峰、谷有一定重合?!皹?lè)”“好”“惡”三類(lèi)小情緒整體走勢(shì)平穩(wěn),僅從時(shí)序圖難以觀察其與股市波動(dòng)的相關(guān)性。 使用經(jīng)典R/S 分析法與GPH 檢驗(yàn)法對(duì)已實(shí)現(xiàn)波動(dòng)率序列的長(zhǎng)期記憶性進(jìn)行驗(yàn)證,分析微博情緒與已實(shí)現(xiàn)波動(dòng)率間的格蘭杰因果關(guān)系,確定ARFIAM-RV 模型的滯后階數(shù)后進(jìn)行參數(shù)估計(jì)、預(yù)測(cè)與結(jié)果檢驗(yàn)。 在進(jìn)行檢驗(yàn)與建模前,先對(duì)各變量做簡(jiǎn)單描述統(tǒng)計(jì)以觀察其分布特征。描述統(tǒng)計(jì)結(jié)果如表2所示。 由表2 可知,已實(shí)現(xiàn)波動(dòng)率序列與各微博情緒序列均表現(xiàn)出“有偏”且“尖峰”特征,同時(shí)各個(gè)時(shí)間序列的J-B 統(tǒng)計(jì)量在1%置信水平下均顯著,說(shuō)明各序列均不服從正態(tài)分布。圖5 為已實(shí)現(xiàn)波動(dòng)率的自相關(guān)性檢驗(yàn)結(jié)果。 如圖5 所示,在滯后20 期中,已實(shí)現(xiàn)波動(dòng)率的Q統(tǒng)計(jì)量在1%置信水平下均顯著,說(shuō)明已實(shí)現(xiàn)波動(dòng)率有顯著的自相關(guān)性。 在對(duì)時(shí)間序列的長(zhǎng)期記憶性檢驗(yàn)中,經(jīng)典R/S分析方法和GPH 檢驗(yàn)方法被廣泛使用。經(jīng)典R/S分析法驗(yàn)證了時(shí)間序列長(zhǎng)期記憶性的同時(shí)估計(jì)了該記憶性所持續(xù)的時(shí)間,該方法估計(jì)了時(shí)間序列的Hurst 指數(shù)。若Hurst≥1,則時(shí)間序列非平穩(wěn)且不存在長(zhǎng)期記憶效應(yīng);若0.5 在ADF 單位根檢驗(yàn)中,所有序列均呈現(xiàn)平穩(wěn)性。為進(jìn)一步探討投資者情緒對(duì)股市波動(dòng)的影響,使用格蘭杰因果分析,具體結(jié)果如表3 所示。 表3 格蘭杰因果檢驗(yàn)結(jié)果 由表3 可知,滯后一天的投資者情緒普遍與股市波動(dòng)間存在顯著的格蘭杰因果關(guān)系,隨著滯后期的增加,與股市波動(dòng)間有顯著因果關(guān)系的投資者情緒逐漸減少。 本文主要研究投資者情緒是否對(duì)中國(guó)股票市場(chǎng)波動(dòng)存在影響,因此對(duì)ARFIMA-RV 模型進(jìn)行擴(kuò)展,加入情緒解釋變量,擴(kuò)展模型如下: 在格蘭杰因果檢驗(yàn)中,滯后一天的投資者情緒與股市波動(dòng)間存在最為廣泛的因果關(guān)系,因此選擇滯后一天的情緒解釋變量加入模型。在參數(shù)p和q的選擇上,依照Akaike(AIC)信息準(zhǔn)則以及Schwartz(SBC)信息準(zhǔn)則兩種途徑,并結(jié)合已實(shí)現(xiàn)波動(dòng)率的自相關(guān)檢驗(yàn)結(jié)果共同確定,最終選擇的模型參數(shù)為p=1,q=1。表4 為模型估計(jì)結(jié)果。 表4 ARFIMA-RV 模型參數(shù)估計(jì)結(jié)果 從表4 可看出,參數(shù)d的估計(jì)值均顯著且在0.2 至0.5 之間,說(shuō)明已實(shí)現(xiàn)波動(dòng)率序列平穩(wěn)且存在長(zhǎng)期記憶效應(yīng),與前文中檢驗(yàn)結(jié)果相符。 表4 中的模型估計(jì)結(jié)果表明,投資者情緒的變化的確對(duì)股市波動(dòng)有一定影響。首先,微博綜合情緒(m)對(duì)次日的股市波動(dòng)存在顯著的正向影響,其估計(jì)系數(shù)為0.186。兩大類(lèi)情緒中,消極情緒(n)均對(duì)次日股市波動(dòng)存在顯著的正向影響,其估計(jì)系數(shù)為0.182,而積極情緒(p)對(duì)次日股市波動(dòng)不存在顯著影響。六小類(lèi)情緒中,哀(m2)、好(m3)、惡(m4)和懼(m6)均對(duì)次日股市波動(dòng)存在顯著的正向影響,而樂(lè)(m1)和驚(m5)對(duì)次日股市波動(dòng)不存在顯著影響。其次,不同種類(lèi)的情緒對(duì)股市波動(dòng)的影響大小不同,從六小類(lèi)情緒看,盡管偏向積極情感極性的“好(m3)”對(duì)次日股市波動(dòng)存在顯著影響,但其影響系數(shù)為0.036,該值遠(yuǎn)小于偏向消極情感極性的“懼(m6)”的估計(jì)系數(shù)0.229。同時(shí)也小于哀(m2)的估計(jì)系數(shù)0.157 以及惡(m4)的估計(jì)系數(shù)0.059。總的來(lái)說(shuō),偏向消極極性的情緒尤其是對(duì)股市的恐懼情緒,對(duì)次日股市波動(dòng)的影響要大于偏向積極極性的情緒。最后,從模型的擬合效果看,加入“懼(m6)”情緒解釋變量的模型其AIC 值最小,為1.33;次之是加入消極情緒(n)解釋變量的模型,其AIC 值為1.39;再次之是加入微博綜合情緒(m)解釋變量的模型,其AIC 值為1.41,這說(shuō)明在一定程度上細(xì)化情緒分類(lèi)有助于預(yù)測(cè)股市波動(dòng)。 對(duì)2019 年2 月1 日至2019 年7 月5 日的已實(shí)現(xiàn)波動(dòng)率進(jìn)行樣本外預(yù)測(cè)。分別選擇微博綜合情緒,兩大類(lèi)情緒中對(duì)次日股市波動(dòng)影響較大的消極情緒,以及六小類(lèi)情緒中對(duì)次日股市波動(dòng)影響最大的“懼”情緒作為情緒解釋變量,加入ARFIMA-RV(1,d,1)模型。根據(jù)上文中所介紹的滾動(dòng)時(shí)間窗預(yù)測(cè)方法,將樣本數(shù)據(jù)的95%作為遞增預(yù)測(cè)的窗口長(zhǎng)度,即將估計(jì)樣本的區(qū)間長(zhǎng)度固定為1732 天,共獲得100 個(gè)已實(shí)現(xiàn)波動(dòng)率的預(yù)測(cè)值。為使分析更全面,我們同時(shí)采用了未加入情緒解釋變量的ARFIMA-RV(1,d,1)模型,僅以已實(shí)現(xiàn)波動(dòng)率的歷史數(shù)據(jù)預(yù)測(cè)未來(lái)波動(dòng)率。選擇上文中介紹的RMSE 和MAE 兩種常用損失函數(shù)對(duì)模型預(yù)測(cè)的準(zhǔn)確性進(jìn)行度量,結(jié)果如表5 所示。 表5 各模型樣本外預(yù)測(cè)的損失函數(shù) 表5 的結(jié)果表明:第一,加入各個(gè)情緒解釋變量后,模型預(yù)測(cè)的準(zhǔn)確性與未加入情緒解釋變量時(shí)相比有了明顯提高,說(shuō)明加入情緒變量,能夠提高對(duì)股市波動(dòng)預(yù)測(cè)的準(zhǔn)確性。第二,模型中加入微博綜合情緒后,損失函數(shù)MAE 的值為0.256,損失函數(shù)RMSE 的值為0.390,二者均高于加入消極情緒后模型預(yù)測(cè)的損失函數(shù)(MAE 為0.240,RMSE 為0.355)。證明加入消極情緒的模型比加入微博綜合情緒的模型具有更高的預(yù)測(cè)準(zhǔn)確度,這表明,將投資者情緒細(xì)化為具有情感極性的兩大類(lèi)情緒更有利于預(yù)測(cè)中國(guó)股市波動(dòng)。第三,模型中加入小類(lèi)情緒“懼”后,損失函數(shù)MAE 的值為0.241,RMSE 的值為0.363,二者均低于加入微博綜合情緒的預(yù)測(cè)模型,但高于加入消極情緒的預(yù)測(cè)模型。這說(shuō)明將偏向消極的情緒再細(xì)分為某一消極情緒小類(lèi)時(shí)并不能提高對(duì)股市波動(dòng)預(yù)測(cè)的準(zhǔn)確性。總的來(lái)說(shuō),對(duì)比僅以已實(shí)現(xiàn)波動(dòng)率歷史值為解釋變量的模型,在損失函數(shù)MAE 下,加入三種不同情緒解釋變量的模型在預(yù)測(cè)精度上分別提升了7.2%、8.8%、8.7%;在損失函數(shù)RMSE 下,三種擴(kuò)展模型在預(yù)測(cè)精度上分別提升了8.2%、11.7%、10.9%。其中,加入消極情緒解釋變量后,模型的預(yù)測(cè)精度提升幅度最大。 本文旨在揭示投資者情緒對(duì)中國(guó)股市波動(dòng)的影響,一方面給出了利用情感詞典和新浪微博數(shù)據(jù)對(duì)投資者情緒細(xì)化分析的方法和測(cè)量結(jié)果,另一方面使用擴(kuò)展的ARFIMA-RV 模型進(jìn)行實(shí)證檢驗(yàn)。本文以“上證指數(shù)”等搜索關(guān)鍵詞下的新浪微博數(shù)據(jù)和上證綜指高頻數(shù)據(jù)為研究對(duì)象,以從新浪微博中挖掘的情感時(shí)間序列代表投資者情緒,同時(shí)計(jì)算得到“上證綜指”的每日已實(shí)現(xiàn)波動(dòng)率代表中國(guó)股市波動(dòng),實(shí)證檢驗(yàn)投資者情緒的變化對(duì)股市波動(dòng)的影響。得到以下幾條結(jié)論:第一,將情緒區(qū)分為兩大類(lèi)后,消極情緒對(duì)次日股市波動(dòng)存在顯著正向影響,而積極情緒對(duì)次日股市波動(dòng)不存在顯著影響。將情緒細(xì)分為六小類(lèi)后,“哀”“好”“惡”“懼”四小類(lèi)情緒均對(duì)次日股市波動(dòng)存在顯著的正向影響,其中“懼”對(duì)股市波動(dòng)的影響系數(shù)最大。而“樂(lè)”“驚”兩個(gè)小類(lèi)情緒對(duì)次日股市波動(dòng)不存在顯著影響。證明投資者情緒確實(shí)能夠影響股市波動(dòng)。第二,加入情緒解釋變量的模型,其預(yù)測(cè)精度均高于未加入情緒解釋變量的模型。經(jīng)過(guò)比較,加入消極情緒作為解釋變量的模型,其損失函數(shù)最低,預(yù)測(cè)效果最好,說(shuō)明將投資者情緒納入分析有助于預(yù)測(cè)股市波動(dòng)。 根據(jù)以上結(jié)論,監(jiān)管者應(yīng)重視情緒對(duì)股市的沖擊,可以將新浪微博作為引導(dǎo)投資者情緒的平臺(tái),通過(guò)合理疏導(dǎo)幫助個(gè)人投資者進(jìn)行理性投資,同時(shí)收集觀測(cè)平臺(tái)中投資者情緒的變化,建立完善的金融風(fēng)險(xiǎn)應(yīng)對(duì)機(jī)制,對(duì)股市中的重大事件做出及時(shí)、適當(dāng)?shù)幕貞?yīng),避免造成投資者的大范圍恐慌進(jìn)而導(dǎo)致股市震蕩。作為投資者,也可以微博平臺(tái)為視角對(duì)股市行情進(jìn)行觀察,若發(fā)現(xiàn)微博中負(fù)面評(píng)論較多時(shí),應(yīng)謹(jǐn)慎投資,防范風(fēng)險(xiǎn)。 燕山大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2020年1期(二)預(yù)測(cè)與評(píng)價(jià)方法
四、數(shù)據(jù)選取與處理
(一)股票數(shù)據(jù)
(二)投資者情緒
五、實(shí)證分析
(一)簡(jiǎn)單描述統(tǒng)計(jì)與檢驗(yàn)
(二) RV 的長(zhǎng)期記憶特征檢驗(yàn)
(三)格蘭杰因果分析
(四)模型估計(jì)
(五)樣本外預(yù)測(cè)結(jié)果
六、結(jié)論與建議
——以莫言?紅高粱家族?為例
——以河北省為例