国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

貝葉斯視角下社交媒體數(shù)據(jù)的挖掘與應(yīng)用研究

2015-10-27 03:02:18董現(xiàn)壘等
軟科學(xué) 2015年9期

董現(xiàn)壘等

摘要:基于MCMC算法,本文實(shí)現(xiàn)了狀態(tài)空間模型和貝葉斯先驗(yàn)下的變量選擇模型的迭代過(guò)程,分別解決了對(duì)CCI的時(shí)間及季節(jié)性趨勢(shì)的估計(jì)問(wèn)題和對(duì)社交媒體的信息挖掘問(wèn)題,進(jìn)而擬合了中國(guó)消費(fèi)者信心指數(shù)。結(jié)果表明,社交媒體的信息挖掘可以在一定程度上成為測(cè)算CCI的一種新方法。研究還發(fā)現(xiàn): 中國(guó)CCI隨時(shí)間有緩慢下降的趨勢(shì);中國(guó)消費(fèi)者信心總會(huì)在新年前較低而新年過(guò)后更高; 從大眾的社交媒體行為來(lái)看,人們對(duì)于中國(guó)當(dāng)前的經(jīng)濟(jì)運(yùn)行和經(jīng)濟(jì)前景抱有一定的消極情緒。

關(guān)鍵詞:消費(fèi)者信心;Google Trends; MCMC; 狀態(tài)空間;變量選擇

DOI:10.13956/j.ss.1001-8409.2015.XX.XX

中圖分類號(hào):O212.8; N032; F224.7 文獻(xiàn)標(biāo)識(shí)碼: 文章編號(hào):

關(guān)鍵詞:消費(fèi)者信心;Google Trends; MCMC; 狀態(tài)空間;變量選擇

DOI:10.13956/j.ss.1001-8409.2015.XX.XX

中圖分類號(hào):O212.8; N032; F224.7 文獻(xiàn)標(biāo)識(shí)碼: 文章編號(hào):

引言

隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們的生活正在變得越來(lái)越社交化。社交媒體的內(nèi)容往往同社會(huì)的、經(jīng)濟(jì)的、政策的以及其他的各種事件相關(guān)聯(lián)。有效地獲取和分析社交媒體信息有利于科學(xué)、深入地理解人們的心理與網(wǎng)絡(luò)行為之間的潛在關(guān)系?;谛袨榻?jīng)濟(jì)學(xué)理論,已經(jīng)有大量研究成果表明人們的社交媒體行為與某些社會(huì)、經(jīng)濟(jì)的指標(biāo)之間具有內(nèi)在關(guān)聯(lián)。比如,Kietzmann等發(fā)現(xiàn)了社交媒體的傳播行為會(huì)對(duì)一個(gè)公司的聲譽(yù)、銷售額甚至競(jìng)爭(zhēng)過(guò)程產(chǎn)生巨大的影響[1]。Bollen等發(fā)現(xiàn)社交媒體中的大眾情緒的變化會(huì)對(duì)股票指數(shù)產(chǎn)生影響[2]。Gilad通過(guò)分析博客的情感預(yù)測(cè)了電影票房收入的問(wèn)題[3]。Asur等利用Twitter中的消息預(yù)測(cè)了電影票房,同時(shí)分析了如何利用Twitter來(lái)改善社交媒體的預(yù)測(cè)功能[4]。Scott等利用谷歌趨勢(shì)和谷歌相關(guān)性數(shù)據(jù)即時(shí)預(yù)測(cè)了月銷售的變化等[5]。薛可等利用社交媒體信息分析了意見(jiàn)領(lǐng)袖與受眾定位對(duì)品牌傳播的影響[6]。這些成果都表明,人們的社交媒體行為與社會(huì)的、經(jīng)濟(jì)的一系列指標(biāo)具有密切關(guān)聯(lián)。

社交媒體的流行導(dǎo)致了海量冗雜的網(wǎng)絡(luò)信息,如何從社交媒體中提取那些對(duì)個(gè)體有價(jià)值的信息成為一個(gè)難題。Scott等[5]在2014年首先將空間狀態(tài)模型和變量選擇模型通過(guò)MCMC算法結(jié)合在一起,利用Google Trends和Google Correlate的數(shù)據(jù)對(duì)解雇賠償以及企業(yè)銷售等問(wèn)題做了即時(shí)預(yù)測(cè)。本文將借鑒該思路,以消費(fèi)者信心指數(shù)(CCI)為例,闡明一種社交媒體數(shù)據(jù)的建模和分析方法。

CCI反映了消費(fèi)者群體對(duì)于一個(gè)國(guó)家或者地區(qū)經(jīng)濟(jì)形勢(shì)以及經(jīng)濟(jì)前景的信心強(qiáng)弱,其對(duì)于經(jīng)濟(jì)形勢(shì)的未來(lái)走向具有重要的預(yù)測(cè)作用。當(dāng)下,利用調(diào)查問(wèn)卷進(jìn)行抽樣調(diào)查獲得該數(shù)據(jù)是國(guó)際上通用的做法。但是,調(diào)查問(wèn)卷的信息并不總是可靠的,比如它可能會(huì)受到社會(huì)整合偏見(jiàn)的影響[7],并且,這種信息獲取方式具有滯后性,而且成本較高。本文通過(guò)分析社交媒體網(wǎng)絡(luò)中的信息,挖掘社交媒體數(shù)據(jù)對(duì)CCI的影響規(guī)律和預(yù)測(cè)作用。進(jìn)一步地,提出一種基于社交媒體的,更客觀、經(jīng)濟(jì)、有效的信息(CCI)獲取方式。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)

在建模分析過(guò)程中,選取以下3類數(shù)據(jù)源:

1. 由中國(guó)國(guó)家統(tǒng)計(jì)局公布的中國(guó)消費(fèi)者信心指數(shù)(CCI)的歷史數(shù)據(jù)。

2. 與大眾自信心相關(guān)的情緒狀態(tài)量表(POMS)以及與消費(fèi)者信心相關(guān)的中國(guó)經(jīng)濟(jì)學(xué)家信心調(diào)查問(wèn)卷。

3. 通過(guò)Google Trends獲得的人們?cè)诰W(wǎng)絡(luò)中對(duì)特定話題的搜索量隨時(shí)間變化的時(shí)間序列。

我們將第一類由中國(guó)官方發(fā)布的CCI作為被解釋變量和參考標(biāo)準(zhǔn)。第二類數(shù)據(jù)作為與消費(fèi)者信心相關(guān)的話題來(lái)源。第三類數(shù)據(jù)來(lái)源為回歸中的解釋變量,體現(xiàn)了社交媒體信息對(duì)CCI的影響。

1.1.1 中國(guó)消費(fèi)者信心指數(shù)

CCI從2009年11月之后由國(guó)家統(tǒng)計(jì)局委托Nielsen公司通過(guò)大規(guī)模市場(chǎng)調(diào)研獲得并由國(guó)家統(tǒng)計(jì)局統(tǒng)一公布[8]。由于前后的統(tǒng)計(jì)方法的差異,CCI數(shù)據(jù)前后差異過(guò)大,見(jiàn)圖1。因?yàn)樨惾~斯方法對(duì)于可觀測(cè)值的數(shù)量要求并不嚴(yán)格,因此,只對(duì)2009年11月之后的數(shù)據(jù)進(jìn)行建模和分析,觀測(cè)數(shù)據(jù)從2009年12月到2014年7月,共56個(gè)觀測(cè)值。同時(shí)利用2014年8月的數(shù)據(jù)對(duì)模型進(jìn)行了一步即時(shí)預(yù)測(cè),作為對(duì)模型穩(wěn)健性的檢驗(yàn)。

1.1.2 調(diào)查問(wèn)卷

1. 中國(guó)經(jīng)濟(jì)學(xué)家信心問(wèn)卷。為了選取能夠體現(xiàn)消費(fèi)者信心的經(jīng)濟(jì)類社交媒體話題,我們參考了中國(guó)消費(fèi)者信心問(wèn)卷和中國(guó)經(jīng)濟(jì)學(xué)家信心問(wèn)卷。比較這兩種調(diào)查問(wèn)卷,經(jīng)濟(jì)學(xué)家信心調(diào)查問(wèn)卷的問(wèn)題更專業(yè),更廣泛,其與與消費(fèi)者信心相關(guān)的經(jīng)濟(jì)類話題也更多。于是,以經(jīng)濟(jì)學(xué)家信心調(diào)查問(wèn)卷為主要參考,獲得與消費(fèi)者信心相關(guān)的經(jīng)濟(jì)類社交媒體話題,見(jiàn)表1前34個(gè)話題。

2. 情緒狀態(tài)量表(POMS)。我們從POMS中獲得16個(gè)與心理學(xué)自信心相關(guān)的話題[9],見(jiàn)表1后16個(gè)話題。

1.1.3 Google Trends

Google Trends可以為用戶提供輸入檢索詞的檢索量隨時(shí)間變化的趨勢(shì)。Google Trends將搜索的問(wèn)題分為25個(gè)大類,見(jiàn)表2。也就是對(duì)于每一個(gè)檢索詞來(lái)說(shuō),都可以在Google Trends的25個(gè)類別中分別進(jìn)行檢索。將每個(gè)話題在每個(gè)類別中進(jìn)行檢索,則每個(gè)話題最多可以生成25個(gè)時(shí)間序列。剔除那些因?yàn)樗阉髁刻俣荒苌蓵r(shí)間序列的話題或者話題的類,最后獲得158個(gè)心理類的和257個(gè)經(jīng)濟(jì)類的共415個(gè)時(shí)間序列, 作為模型中的解釋變量。

泸定县| 长葛市| 黔江区| 龙川县| 莒南县| 彰化市| 独山县| 中牟县| 江华| 吉安县| 高台县| 塔河县| 长沙县| 岑溪市| 通江县| 昆明市| 武山县| 上蔡县| 兖州市| 北安市| 视频| 永宁县| 革吉县| 临沧市| 宁波市| 林周县| 阿巴嘎旗| 周至县| 乐安县| 香港 | 昆山市| 达州市| 新蔡县| 紫阳县| 金华市| 筠连县| 沿河| 万荣县| 迁安市| 拜城县| 吉木乃县|