董現(xiàn)壘等
摘要:基于MCMC算法,本文實(shí)現(xiàn)了狀態(tài)空間模型和貝葉斯先驗(yàn)下的變量選擇模型的迭代過(guò)程,分別解決了對(duì)CCI的時(shí)間及季節(jié)性趨勢(shì)的估計(jì)問(wèn)題和對(duì)社交媒體的信息挖掘問(wèn)題,進(jìn)而擬合了中國(guó)消費(fèi)者信心指數(shù)。結(jié)果表明,社交媒體的信息挖掘可以在一定程度上成為測(cè)算CCI的一種新方法。研究還發(fā)現(xiàn): 中國(guó)CCI隨時(shí)間有緩慢下降的趨勢(shì);中國(guó)消費(fèi)者信心總會(huì)在新年前較低而新年過(guò)后更高; 從大眾的社交媒體行為來(lái)看,人們對(duì)于中國(guó)當(dāng)前的經(jīng)濟(jì)運(yùn)行和經(jīng)濟(jì)前景抱有一定的消極情緒。
關(guān)鍵詞:消費(fèi)者信心;Google Trends; MCMC; 狀態(tài)空間;變量選擇
DOI:10.13956/j.ss.1001-8409.2015.XX.XX
中圖分類號(hào):O212.8; N032; F224.7 文獻(xiàn)標(biāo)識(shí)碼: 文章編號(hào):
關(guān)鍵詞:消費(fèi)者信心;Google Trends; MCMC; 狀態(tài)空間;變量選擇
DOI:10.13956/j.ss.1001-8409.2015.XX.XX
中圖分類號(hào):O212.8; N032; F224.7 文獻(xiàn)標(biāo)識(shí)碼: 文章編號(hào):
引言
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們的生活正在變得越來(lái)越社交化。社交媒體的內(nèi)容往往同社會(huì)的、經(jīng)濟(jì)的、政策的以及其他的各種事件相關(guān)聯(lián)。有效地獲取和分析社交媒體信息有利于科學(xué)、深入地理解人們的心理與網(wǎng)絡(luò)行為之間的潛在關(guān)系?;谛袨榻?jīng)濟(jì)學(xué)理論,已經(jīng)有大量研究成果表明人們的社交媒體行為與某些社會(huì)、經(jīng)濟(jì)的指標(biāo)之間具有內(nèi)在關(guān)聯(lián)。比如,Kietzmann等發(fā)現(xiàn)了社交媒體的傳播行為會(huì)對(duì)一個(gè)公司的聲譽(yù)、銷售額甚至競(jìng)爭(zhēng)過(guò)程產(chǎn)生巨大的影響[1]。Bollen等發(fā)現(xiàn)社交媒體中的大眾情緒的變化會(huì)對(duì)股票指數(shù)產(chǎn)生影響[2]。Gilad通過(guò)分析博客的情感預(yù)測(cè)了電影票房收入的問(wèn)題[3]。Asur等利用Twitter中的消息預(yù)測(cè)了電影票房,同時(shí)分析了如何利用Twitter來(lái)改善社交媒體的預(yù)測(cè)功能[4]。Scott等利用谷歌趨勢(shì)和谷歌相關(guān)性數(shù)據(jù)即時(shí)預(yù)測(cè)了月銷售的變化等[5]。薛可等利用社交媒體信息分析了意見(jiàn)領(lǐng)袖與受眾定位對(duì)品牌傳播的影響[6]。這些成果都表明,人們的社交媒體行為與社會(huì)的、經(jīng)濟(jì)的一系列指標(biāo)具有密切關(guān)聯(lián)。
社交媒體的流行導(dǎo)致了海量冗雜的網(wǎng)絡(luò)信息,如何從社交媒體中提取那些對(duì)個(gè)體有價(jià)值的信息成為一個(gè)難題。Scott等[5]在2014年首先將空間狀態(tài)模型和變量選擇模型通過(guò)MCMC算法結(jié)合在一起,利用Google Trends和Google Correlate的數(shù)據(jù)對(duì)解雇賠償以及企業(yè)銷售等問(wèn)題做了即時(shí)預(yù)測(cè)。本文將借鑒該思路,以消費(fèi)者信心指數(shù)(CCI)為例,闡明一種社交媒體數(shù)據(jù)的建模和分析方法。
CCI反映了消費(fèi)者群體對(duì)于一個(gè)國(guó)家或者地區(qū)經(jīng)濟(jì)形勢(shì)以及經(jīng)濟(jì)前景的信心強(qiáng)弱,其對(duì)于經(jīng)濟(jì)形勢(shì)的未來(lái)走向具有重要的預(yù)測(cè)作用。當(dāng)下,利用調(diào)查問(wèn)卷進(jìn)行抽樣調(diào)查獲得該數(shù)據(jù)是國(guó)際上通用的做法。但是,調(diào)查問(wèn)卷的信息并不總是可靠的,比如它可能會(huì)受到社會(huì)整合偏見(jiàn)的影響[7],并且,這種信息獲取方式具有滯后性,而且成本較高。本文通過(guò)分析社交媒體網(wǎng)絡(luò)中的信息,挖掘社交媒體數(shù)據(jù)對(duì)CCI的影響規(guī)律和預(yù)測(cè)作用。進(jìn)一步地,提出一種基于社交媒體的,更客觀、經(jīng)濟(jì)、有效的信息(CCI)獲取方式。
1 數(shù)據(jù)與方法
1.1 數(shù)據(jù)
在建模分析過(guò)程中,選取以下3類數(shù)據(jù)源:
1. 由中國(guó)國(guó)家統(tǒng)計(jì)局公布的中國(guó)消費(fèi)者信心指數(shù)(CCI)的歷史數(shù)據(jù)。
2. 與大眾自信心相關(guān)的情緒狀態(tài)量表(POMS)以及與消費(fèi)者信心相關(guān)的中國(guó)經(jīng)濟(jì)學(xué)家信心調(diào)查問(wèn)卷。
3. 通過(guò)Google Trends獲得的人們?cè)诰W(wǎng)絡(luò)中對(duì)特定話題的搜索量隨時(shí)間變化的時(shí)間序列。
我們將第一類由中國(guó)官方發(fā)布的CCI作為被解釋變量和參考標(biāo)準(zhǔn)。第二類數(shù)據(jù)作為與消費(fèi)者信心相關(guān)的話題來(lái)源。第三類數(shù)據(jù)來(lái)源為回歸中的解釋變量,體現(xiàn)了社交媒體信息對(duì)CCI的影響。
1.1.1 中國(guó)消費(fèi)者信心指數(shù)
CCI從2009年11月之后由國(guó)家統(tǒng)計(jì)局委托Nielsen公司通過(guò)大規(guī)模市場(chǎng)調(diào)研獲得并由國(guó)家統(tǒng)計(jì)局統(tǒng)一公布[8]。由于前后的統(tǒng)計(jì)方法的差異,CCI數(shù)據(jù)前后差異過(guò)大,見(jiàn)圖1。因?yàn)樨惾~斯方法對(duì)于可觀測(cè)值的數(shù)量要求并不嚴(yán)格,因此,只對(duì)2009年11月之后的數(shù)據(jù)進(jìn)行建模和分析,觀測(cè)數(shù)據(jù)從2009年12月到2014年7月,共56個(gè)觀測(cè)值。同時(shí)利用2014年8月的數(shù)據(jù)對(duì)模型進(jìn)行了一步即時(shí)預(yù)測(cè),作為對(duì)模型穩(wěn)健性的檢驗(yàn)。
1.1.2 調(diào)查問(wèn)卷
1. 中國(guó)經(jīng)濟(jì)學(xué)家信心問(wèn)卷。為了選取能夠體現(xiàn)消費(fèi)者信心的經(jīng)濟(jì)類社交媒體話題,我們參考了中國(guó)消費(fèi)者信心問(wèn)卷和中國(guó)經(jīng)濟(jì)學(xué)家信心問(wèn)卷。比較這兩種調(diào)查問(wèn)卷,經(jīng)濟(jì)學(xué)家信心調(diào)查問(wèn)卷的問(wèn)題更專業(yè),更廣泛,其與與消費(fèi)者信心相關(guān)的經(jīng)濟(jì)類話題也更多。于是,以經(jīng)濟(jì)學(xué)家信心調(diào)查問(wèn)卷為主要參考,獲得與消費(fèi)者信心相關(guān)的經(jīng)濟(jì)類社交媒體話題,見(jiàn)表1前34個(gè)話題。
2. 情緒狀態(tài)量表(POMS)。我們從POMS中獲得16個(gè)與心理學(xué)自信心相關(guān)的話題[9],見(jiàn)表1后16個(gè)話題。
1.1.3 Google Trends
Google Trends可以為用戶提供輸入檢索詞的檢索量隨時(shí)間變化的趨勢(shì)。Google Trends將搜索的問(wèn)題分為25個(gè)大類,見(jiàn)表2。也就是對(duì)于每一個(gè)檢索詞來(lái)說(shuō),都可以在Google Trends的25個(gè)類別中分別進(jìn)行檢索。將每個(gè)話題在每個(gè)類別中進(jìn)行檢索,則每個(gè)話題最多可以生成25個(gè)時(shí)間序列。剔除那些因?yàn)樗阉髁刻俣荒苌蓵r(shí)間序列的話題或者話題的類,最后獲得158個(gè)心理類的和257個(gè)經(jīng)濟(jì)類的共415個(gè)時(shí)間序列, 作為模型中的解釋變量。