張書煜 王瑤 范婷婷 趙理 王旭澤
[摘要]社交媒體中的信息是一個大數(shù)據(jù)庫,通過微博搜索抓取社交媒體中投資者微博數(shù)據(jù),利用中文語義分析技術,將該投資者情緒劃分成六個等級,構建社交媒體中投資者的情緒指數(shù),并且以同時段的股市為研究對象,基于VAR模型,運用Granger因果關系檢驗、脈沖響應函數(shù),探討社交媒體中不同程度的投資者情緒傾向與股市收益之間的預測能力和雙向反饋關系。
[關鍵詞]社交媒體;投資者情緒;股市收益;大數(shù)據(jù)
[DOI]10.13939/j.cnki.zgsc.2015.25.065
1 引 言
行為金融學認為,情緒可以深刻地影響個人的行為和決策。夏雨禾(2010)通過對438個樣本的分析,對新浪微博互動的結構性要素以及發(fā)生機制進行了深入探究,研究結果發(fā)現(xiàn),新浪微博是一個文化性、個人性和情緒性的互動空間。楊維(2011)從微博傳播的及時性、草根性的特征出發(fā),探討了在網(wǎng)絡輿情形成過程中微博起到的作用。梁坤,蔣翠清,丁勇(2013)利用特征提取等技術,抽取中文社會媒體上的干系人的話題,同時構建股票收益率的回歸模型,研究中文社會媒體上千系人和話題的活動狀況對股票收益率的影響。研究結果表明,中文社會媒體上不同干系人對股票收益的影響不同。而喬智和耿志民(2013)討論了股吧對個人投資者情緒的影響研究,運用實證方法驗證了個人投資者情緒與股市收益間存在的相關關系。徐琳(2013)基于微博中的投資者情緒的研究,使得讓投資者知情股市收益研究,微博信息不僅反映了該信息發(fā)布者的心理和行為,同時也能夠影響相關投資者的投資行為。
2 研究模型與方法
2.1 主要模型
本文采用向量自回歸模型(VAR)來檢驗社交媒體中的投資者情緒與股市收盤價、股市成交量之間的時滯關系。VAR模型把系統(tǒng)中每一個內(nèi)生變量作為系統(tǒng)中所有內(nèi)生變量的滯后項的函數(shù)來構造模型,其一般形式為:
其中, 是k維內(nèi)生變量向量,Yt-1(i=1,2,…,P)是滯后內(nèi)生變量向量,Xt-i(i =0,1,…,r)是d維外生變量向量或滯后外生變量向量,P、r分別是內(nèi)生變量和外生變量的滯后階數(shù)。At是k*k維系數(shù)矩陣,Bi是k*d維系數(shù)矩陣,這些矩陣都是待估計的參數(shù)矩陣。εt是由k維隨機誤差項構成的向量,其元素相互之間可以同期相關,但不能與各自的滯后項相關以及不能與各自的滯后項相關以及不能與模型右邊的變量相關。
2.2 研究方法
第一,使用深圳視界信息技術有限公司研發(fā)的網(wǎng)頁采集軟件八爪魚數(shù)據(jù)采集系統(tǒng)抓取海量的微博數(shù)據(jù)。該平臺以分布式云計算平臺為核心,從各種不同的網(wǎng)站或者網(wǎng)頁獲取大量的規(guī)范化數(shù)據(jù)。第二,以天為單位歸類微博數(shù)據(jù),并且清洗不能表現(xiàn)投資者情緒的垃圾數(shù)據(jù),如非原創(chuàng)微博或者只包含鏈接地址的微博等。第三,運用中文語析分析工具,分析微博中包含的情感信息,量化投資者情緒。本課題將從兩個層面來分析和量化投資者情緒信息:第一個層面可以將投資者情緒分為兩個維度——積極情緒傾向和消極情緒傾向;第二個層面講積極情緒和消極情緒繼續(xù)細分,可分為一般、中度和高度積極情緒傾向以及一般、中度和高度消極情緒傾向。第四,接下來我們將會把得到的數(shù)據(jù)資料用專業(yè)軟件Eviews進行整理并加以分析,以便我們制作出相應的統(tǒng)計圖表等,最終基于大數(shù)據(jù)對投資者情緒與股市收益之間的相互關系進行分析。第五,通過Granger因果關系檢驗,論述和驗證社會情緒變化與股票市場變化確實存在相關關系。第六,使用脈沖響應函數(shù)進行股市收益走勢預測的實證分析,得出投資者情緒和股市收益走勢相互間的預測能力,并提出改善方案。
3 實證研究
3.1 數(shù)據(jù)來源——社交媒體中的投資者情緒數(shù)據(jù)
本文的數(shù)據(jù)來源于新浪微博平臺,采用“微博搜索”的方式繼續(xù)對股市相關的信息進行監(jiān)測挖掘。在新浪微博界面,以股票名稱為關鍵詞,按時間搜索相應的與該只股票相關的原創(chuàng)微博信息。以“華誼兄弟”為實例研究對象,研究華誼兄弟公司從2014年9月19日到2015年2月28日,該公司在新浪微博的投資者情緒與股市收益之間的關系。微博的發(fā)表時間跨度為2014年9月19日至2014年12月5日,我們抓取到微博數(shù)量為1286688條。
股市收益指數(shù)樣本來自上證綜合指數(shù)和深圳成分指數(shù),包括上證綜合指數(shù)收盤價、日成交量和深圳成分指數(shù)的收盤價、日成交量。股票數(shù)據(jù)均使用浙江核新同花順網(wǎng)絡信息股份有限公司提供的同花順軟件獲得的。t日上證綜合指數(shù)的和深圳成分指數(shù)的股指收益率Rt的計算公式為
其中Pt為t日股指的收盤價,Pt-1為(t-l)日股指的收盤價。樣本區(qū)間為2014年11月17日至2015年2月28日。
3.2 數(shù)據(jù)分析
(1)量化投資者情緒。利用ROST Content Mining(簡稱ROST CM)的情感分析模塊對每天的微博進行情緒傾向分析。本文實驗利用ROST CM分析情緒的統(tǒng)計結果如圖1所示。
針對ROST CM對于投資者情緒的分類,將分析三段積極情緒(一般、中度、高度)和三段消極情緒(一般、中度、高度)與股市收益之間的相互影響,不使用中性情緒作為實驗數(shù)據(jù)。
同時,選取該公司于2014年11月16日至2015年2月28日每天的綜合指數(shù)收盤價和成交量產(chǎn)生的時間序列進行比較,并且,每個類別的情緒傾向數(shù)據(jù)之間也能進行比較,需要對實驗數(shù)據(jù)進行Z-Score標準化處理。轉化函數(shù)為:
其中,X為變量X的均值,σ為變量x的標準差。經(jīng)過處理的數(shù)據(jù)符合均值為0標準差為1的標準正態(tài)分布。
(2)變量的基本描述。由于VAR模型的建立和Granger因果檢驗都要求使用的時間序列是平穩(wěn)時間序列。表1是運用增廣的迪基一福勒檢驗(ADF檢驗)各時間序列單位根的檢驗結果。
情緒的時間序列和股票數(shù)據(jù)的時間序列一階差分的ADF檢驗的t統(tǒng)計量都比1%、5%、10%檢驗水平下的臨界值小,因此可以拒絕原假設,即可以認為情緒時間序列和股票數(shù)據(jù)的時間序列一階查分沒有單位根,也即社交媒體中的投資者情緒的時間序列和股票數(shù)據(jù)的時間序列是一階差分平穩(wěn)的。
(3) Granger因果關系檢驗。Granger因果關系檢驗可以用來確定經(jīng)濟變量之間是否存在因果關系以及影響的方向。因此采用Granger因果關系檢驗分析社交媒體中的投資者情緒對股市收益的預測能力。
分別將社交媒體的投資者一般積極情緒(Pl)、中度積極情緒(P2)、高度積極情緒(P3)、一般消極情緒(Nl)、中度消極情緒(N2)、高度消極情緒(N3)指數(shù)與股市收益(SY)和股市成交量做兩兩檢驗。表2列出滯后期1階到5階響應的部分Granger因果關系檢驗結果。
可以發(fā)現(xiàn),一是社交媒體上的投資者高度消極情緒傾向不是引起股市收盤價變化的Granger原因在滯后期為3時被拒絕;二是股市收盤價不是一般積極情緒傾向的Granger原因在滯后期為5時被拒絕;三是社交媒體中的投資者高度積極情緒的Granger原因在滯后期為1時被拒絕;四是社交媒體中投資者高度消極情緒傾向不是股市收盤價的Granger原因在滯后期為2時被拒絕;五是社交媒體中投資者的中度積極情緒、高度積極情緒、一般消極情緒和中度消極情緒不是股市成交量的Granger原因被拒絕,說明社交媒體中投資者較為顯著的情緒是股市成交量的Granger原因;六是股市成交量不是社交媒體中投資者一般消極情緒的Granger原因被拒絕,說明股市成交量是社交媒體中投資者一般消極情緒的Granger原因。
(4)脈沖響應函數(shù)分析。脈沖響應函數(shù)用于衡量來自某個內(nèi)生變量的隨機擾動項的一個標準差沖擊(稱為“脈沖”)對VAR模型中所有內(nèi)生變量當前值和未來值的影響。如圖2所示,圖中的橫軸表示時期數(shù),縱軸表示脈沖響應函數(shù)大小,實線為脈沖響應函數(shù),紅色虛線為正負兩倍標準差偏離帶(+2S.E)。
圖2 (a)描述了社交媒體中投資者的高度積極情緒和高度消極情緒與股市收盤價之間的兩兩響應。在圖2(a)中可以看到,社交媒體中的高度積極情緒,在受到股市收盤價的一個正向單位標準差沖擊時,沒有立即響應,在第1期中期出現(xiàn)響應,并在第2期內(nèi)達到負向最大值,并在第6期后逐漸減弱并且趨向于0。說明股票的收盤價變動對社交媒體中的高度積極情緒只存在較短時間內(nèi)的影響,并且會對社交媒體中的投資者造成一定影響,大約持續(xù)5個交易日內(nèi)。
圖2 (b)中,受社交媒體中投資者的高度消極情緒的一個正向單位標準差沖擊時,股市收盤價第一期前期沒有立即響應,在之后產(chǎn)生正向影響,在第3期中期達到正向最大后立即減弱,并且趨向于0。說明社交媒體中的高度消極情緒對股市收盤價只存在短期同向影響,持續(xù)在前10個交易日左右。
圖2 (c)和圖2(d)可以看到,股市成交量對社交媒體中投資者中度積極情緒和高度積極情緒的擾動立即做出了響應,第一期的響應大約為0.5左右且為正向。之后,股市成交量對投資者中度積極情緒和高度積極情緒的響應有所下降,并趨近于0,說明社交媒體中投資者的中度積極情緒和高度積極情緒對股市成交量存在短期同向影響,并且投資者的中度積極情緒持續(xù)時間較投資者的高度積極情緒的持續(xù)時間長。
在圖2 (e)中可以看到,股市成交量對社交媒體中投資者的中度消極情緒擾動立即做出了響應,第1期的響應為0.7左右,在第2期減弱到0.2左右。之后,股市成交量對投資者的中度消極情緒的擾動開始上升,在第3期中期達到最大(為2.5左右),且為正向的。接著,股市成交量對投資者的中度消極情緒的響應有所下降,在第10期后,響應趨向于0??梢?,社交媒體中的投資者中度消極情緒的變動會對股市成交量造成正向影響,且持續(xù)時間超過10期。
圖2 (f)描述的是社交媒體中投資者的一般消極情緒與股市成交量的響應。從圖中可以看到,社交媒體中投資者的一般消極情緒對股市成交量的擾動立即做出了負向響應。在第2期中期達到負向最大值,并在之后逐漸減弱,在第10期左右逐漸趨近于0。從中可以看出股市成交量的變動會對社交媒體中投資者的一般消極情緒造成影響,持續(xù)時間比較長,且前4期影響較為明顯。
4 結論與展望
通過微博大數(shù)據(jù)搜索抓取社交媒體中投資者微博數(shù)據(jù)為樣本,以同時段的股市為研究對象,利用中文語義分析技術,將該投資者情緒劃分成六個等級,并且構建了社交媒體中投資者的情緒指數(shù),并且基于VAR模型,運用Granger因果關系檢驗、脈沖響應函數(shù),探討社交媒體中不同程度的投資者情緒傾向與股市收益之間的預測能力和雙向反饋關系。研究結果表明:
第一,中文社交媒體中的投資者情緒變化能夠有效地反映出股市收盤價和成交量的變化。第二,社交媒體中投資者不同等級傾向的情緒對股市收盤價和股市成交量的影響是不同的。一般積極情緒對股市收益沒有產(chǎn)生顯著的影響,中度、高度積極情緒對股市收益產(chǎn)生短期影響,中度消極情緒對股市收益產(chǎn)生持續(xù)時間較長的影響。第三,股市的收盤價和成交量均會引起社交媒體中投資者不同程度的情緒變化。
結論有益于投資者以社交媒體為觀察視角進行有效的投資決策和判斷,同時端正投資心態(tài)和增強風險意識。同時也有益于決策者利用社交媒體提供的大量的有效信息來合理地管理股票市場。