付麗麗
【摘 要】本文是研究網(wǎng)絡(luò)搜索數(shù)據(jù)與北京CPI的關(guān)系及預(yù)測能力的先導(dǎo)步驟,利用與CPI相關(guān)的關(guān)鍵詞在百度指數(shù)網(wǎng)站獲取的搜索數(shù)據(jù),探究采用因子分析法進(jìn)行網(wǎng)絡(luò)搜索指數(shù)的合成,最后給出了北京CPI網(wǎng)絡(luò)搜索指數(shù)的合成公式。
【關(guān)鍵詞】網(wǎng)絡(luò)搜索指數(shù);指數(shù)合成;CPI
中圖分類號: F224;F49文獻(xiàn)標(biāo)識碼: A文章編號: 2095-2457(2019)19-0078-002
DOI:10.19694/j.cnki.issn2095-2457.2019.19.036
1 問題提出
居民消費價格指數(shù)(Consumer Price Index,CPI)是反映宏觀經(jīng)濟(jì)形勢特別是通貨膨脹程度的一個重要指標(biāo),它體現(xiàn)了居民的生活成本高低。北京市統(tǒng)計局通過人工方式在全市固定地點通過手持?jǐn)?shù)據(jù)采集器定時調(diào)查商品價格,每個月發(fā)布一次CPI數(shù)據(jù)。隨著大數(shù)據(jù)日益受到重視,一些學(xué)者已經(jīng)開始運(yùn)用網(wǎng)絡(luò)搜索數(shù)據(jù)來研究失業(yè)率(Ettredge et al.,2005)[1]、CPI(孟婷婷、2017)[2]等從宏觀經(jīng)濟(jì)現(xiàn)象,對互聯(lián)網(wǎng)用戶利用關(guān)鍵詞在網(wǎng)絡(luò)進(jìn)行搜索而產(chǎn)生的沉淀在搜索引擎等網(wǎng)站上的大數(shù)據(jù)對經(jīng)濟(jì)現(xiàn)象進(jìn)行預(yù)測。
網(wǎng)絡(luò)搜索數(shù)據(jù)能否成功預(yù)測經(jīng)濟(jì)現(xiàn)象,關(guān)鍵在于關(guān)鍵詞的選擇以及隨后的搜索指數(shù)合成方法。關(guān)鍵詞的產(chǎn)生有兩種方式:一種是互聯(lián)網(wǎng)用戶根據(jù)自己的學(xué)識、需求、認(rèn)知而主動思考出來的,一種是網(wǎng)站根據(jù)用戶的搜索行為主動推薦的。與CPI相關(guān)的關(guān)鍵詞的選擇就是選取與實際CPI指數(shù)走勢相關(guān)且趨向一致的那些關(guān)鍵詞的搜索數(shù)據(jù)。關(guān)鍵詞選擇好后不能直接利用關(guān)鍵詞在網(wǎng)站上的搜索數(shù)據(jù)來建立預(yù)測模型,這是因為,相關(guān)的關(guān)鍵詞的數(shù)量較多,關(guān)鍵詞之間有共線性,如果僅僅用各個關(guān)鍵詞的搜索數(shù)據(jù)直接構(gòu)建模型,模型會比較復(fù)雜,各變量間的共線性問題會使模型達(dá)不到理想的效果,因此需要進(jìn)行關(guān)鍵詞搜索數(shù)據(jù)(網(wǎng)絡(luò)搜索指數(shù))的合成。本文正是基于這一目的,以百度的關(guān)鍵詞搜索指數(shù)為樣本來探索用因子分析的方法進(jìn)行關(guān)鍵詞搜索指數(shù)的合成,為后續(xù)構(gòu)建預(yù)測模型打下基礎(chǔ)。
2 文獻(xiàn)綜述
從查閱的文獻(xiàn)來看,網(wǎng)絡(luò)搜索指數(shù)的文獻(xiàn)多散見于各種研究網(wǎng)絡(luò)搜索指數(shù)與經(jīng)濟(jì)及社會現(xiàn)象的文獻(xiàn)里,作為模型構(gòu)建前數(shù)據(jù)處理的一種方式,只有極個別的文獻(xiàn)研究了網(wǎng)絡(luò)搜索指數(shù)的方法。彭賡等(2013)采用谷歌趨勢推薦關(guān)鍵詞的功能進(jìn)行了四層推薦選取關(guān)鍵詞,之后采用逐步回歸法進(jìn)行搜索指數(shù)的合成[3]。崔東佳(2014)通過百度搜索引擎搜索與奇瑞、大眾及寶馬三個品牌汽車相關(guān)的關(guān)鍵詞,通過采用綜合賦權(quán)、錯位逐步合成方法對三個品牌相關(guān)的關(guān)鍵詞得到的搜索量計算相應(yīng)的網(wǎng)絡(luò)搜索指數(shù)[4]。孫毅等(2014)認(rèn)為現(xiàn)有的網(wǎng)絡(luò)搜索指數(shù)的方法主要有直接合成法、相關(guān)性合成法、時差相關(guān)合成法[5]。殷三杰(2018)運(yùn)用文本挖掘方法及時差相關(guān)分析法篩選關(guān)鍵詞,接著使用逐步回歸分析、Adaptive-Lasso算法、主成分分析三種降維方法進(jìn)行比較,用于選擇變量[6]。
從以往的文獻(xiàn)可以看出,網(wǎng)絡(luò)搜索的指數(shù)有不同的合成方法。因子分析是針對變量間有相關(guān)性且變量數(shù)量比較多的情況下的一種降維方法,它能夠從眾多的原有變量中綜合出少數(shù)具有代表性的因子,因此本文嘗試用這種方法進(jìn)行網(wǎng)絡(luò)搜索指數(shù)的合成。
3 數(shù)據(jù)的采集和預(yù)處理
本文的樣本數(shù)據(jù)來自于百度指數(shù)平臺上的數(shù)據(jù),選取“CPI”為初始關(guān)鍵詞,利用百度CPI需求圖譜推薦的20個關(guān)鍵詞,篩選出重復(fù)的、不相關(guān)的、無意義的關(guān)鍵詞,保留了四個關(guān)鍵詞,進(jìn)行第二層選取,依此類推到第四層,共得到151個關(guān)鍵詞。之后,采集這些關(guān)鍵詞的搜索指數(shù),時間范圍是2013年1月至2018年12月共72個月的月度數(shù)據(jù),采集區(qū)域的選項是北京,采集設(shè)備的選項是PC端。北京CPI數(shù)據(jù)來自于國家統(tǒng)計局的同比月度數(shù)據(jù)。
用以上151個關(guān)鍵詞在百度指數(shù)平臺上獲取的搜索數(shù)據(jù),與實際的CPI值進(jìn)行皮爾遜(Pearson)相關(guān)系數(shù)的計算,選取了相關(guān)系數(shù)大于0.4的關(guān)鍵詞共計18個。
4 因子分析
4.1 前提條件檢驗
因子分析要求原有的變量之間應(yīng)該具有較強(qiáng)的相關(guān)關(guān)系,利用KMO檢驗和巴特利特球體檢驗來判斷原始變量是否適合做因子分析。
運(yùn)行軟件所得檢驗結(jié)果如表1所示。
根據(jù)檢驗結(jié)果,數(shù)據(jù)的KMO檢驗值為0.678>0.6,Bartlett球體檢驗相應(yīng)的概率值接近0.000,小于顯著性水平0.05,表明數(shù)據(jù)適合作因子分析。
4.2 因子提取
本文選取特征值大于1的因子,并且根據(jù)公共因子在變量總方差中所占的累計百分?jǐn)?shù)來選取因子。根據(jù)因子提取和因子旋轉(zhuǎn)結(jié)果,前四個因子的特征值分別為6.839、4.280、2.205、1.032,各因子的貢獻(xiàn)率分別為37.995%、23.777%、12.251%、5.732%,能夠解釋原有18個變量總方差的79.755%。據(jù)此,本文將提取4個公共因子。
按照方差極大法對因子載荷矩陣旋轉(zhuǎn)后得到結(jié)果如表2所示。
從表2可以看出,第1個因子在物價上漲、CPI是什么、物價、CPI、外匯牌價表、中國投資、存款這七個變量上有較高的載荷。加息、央行、央行加息、存款利率、通脹、通貨膨脹這六個變量在第2個因子的載荷較高。準(zhǔn)備金、物價指數(shù)、美元匯率在第三個因子上的載荷較高。中國股市、基金在第四個因子的載荷較高。
通過因子得分的協(xié)方差矩陣,可以看出,4個因子完全是正交的、沒有線性相關(guān)性。這說明提取的四個因子能夠解釋原有18個變量所包含的信息。
4.3 網(wǎng)絡(luò)搜索指數(shù)合成計算
按照這四個因子分別占四個因子累計方差貢獻(xiàn)率的比值來計算四個因子的系數(shù)即權(quán)重。由此得出北京CPI的網(wǎng)絡(luò)搜索綜合指數(shù)的計算公式為:
F=0.48F1+0.3F2+0.15F3+0.07F4
5 結(jié)論
本文基于CPI相關(guān)的關(guān)鍵詞的百度網(wǎng)絡(luò)搜索數(shù)據(jù),利用因子分析法探索了網(wǎng)絡(luò)搜索指數(shù)合成的方法,并給出了樣本數(shù)據(jù)的北京CPI網(wǎng)絡(luò)搜索綜合指數(shù)的計算公式。這其中的難點就在于如何篩選出能夠反映所要預(yù)測某一現(xiàn)象的關(guān)鍵詞,這是采用任何網(wǎng)絡(luò)搜索指數(shù)合成方法的前提。
【參考文獻(xiàn)】
[1]MICHAEL E, JOHN G,GILBERT K. Using web-based search data to predict macroeconomic statistics[J]. Communications of the ACM,2005,48(11):87-92.
[2]孟婷婷.我國CPI波動及外部影響因素研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2017.
[3]彭賡,蘇亞軍,李娜.失業(yè)率預(yù)測研究——基于網(wǎng)絡(luò)搜索數(shù)據(jù)及改進(jìn)的逐步回歸模型[J].現(xiàn)代管理科學(xué),2013(12):40-43.
[4]崔東佳.大數(shù)據(jù)時代背景下的品牌汽車銷量預(yù)測的實證研究[D].河南大學(xué)碩士學(xué)位論文,2014.
[5]孫毅,戴維,董紀(jì)昌,呂本富.基于主成分分析的網(wǎng)絡(luò)搜索數(shù)據(jù)合成方法研究[J].數(shù)學(xué)的實踐與認(rèn)識,2014,44(21).
[6]殷三杰.加入網(wǎng)絡(luò)搜索數(shù)據(jù)的居民消費價格指數(shù)預(yù)測[D].西北師范大學(xué),2018.