国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

北京CPI網(wǎng)絡(luò)搜索指數(shù)合成研究

2019-08-29 02:58:06付麗麗
科技視界 2019年19期
關(guān)鍵詞:百度變量文獻(xiàn)

付麗麗

【摘 要】本文是研究網(wǎng)絡(luò)搜索數(shù)據(jù)與北京CPI的關(guān)系及預(yù)測能力的先導(dǎo)步驟,利用與CPI相關(guān)的關(guān)鍵詞在百度指數(shù)網(wǎng)站獲取的搜索數(shù)據(jù),探究采用因子分析法進(jìn)行網(wǎng)絡(luò)搜索指數(shù)的合成,最后給出了北京CPI網(wǎng)絡(luò)搜索指數(shù)的合成公式。

【關(guān)鍵詞】網(wǎng)絡(luò)搜索指數(shù);指數(shù)合成;CPI

中圖分類號: F224;F49文獻(xiàn)標(biāo)識碼: A文章編號: 2095-2457(2019)19-0078-002

DOI:10.19694/j.cnki.issn2095-2457.2019.19.036

1 問題提出

居民消費價格指數(shù)(Consumer Price Index,CPI)是反映宏觀經(jīng)濟(jì)形勢特別是通貨膨脹程度的一個重要指標(biāo),它體現(xiàn)了居民的生活成本高低。北京市統(tǒng)計局通過人工方式在全市固定地點通過手持?jǐn)?shù)據(jù)采集器定時調(diào)查商品價格,每個月發(fā)布一次CPI數(shù)據(jù)。隨著大數(shù)據(jù)日益受到重視,一些學(xué)者已經(jīng)開始運(yùn)用網(wǎng)絡(luò)搜索數(shù)據(jù)來研究失業(yè)率(Ettredge et al.,2005)[1]、CPI(孟婷婷、2017)[2]等從宏觀經(jīng)濟(jì)現(xiàn)象,對互聯(lián)網(wǎng)用戶利用關(guān)鍵詞在網(wǎng)絡(luò)進(jìn)行搜索而產(chǎn)生的沉淀在搜索引擎等網(wǎng)站上的大數(shù)據(jù)對經(jīng)濟(jì)現(xiàn)象進(jìn)行預(yù)測。

網(wǎng)絡(luò)搜索數(shù)據(jù)能否成功預(yù)測經(jīng)濟(jì)現(xiàn)象,關(guān)鍵在于關(guān)鍵詞的選擇以及隨后的搜索指數(shù)合成方法。關(guān)鍵詞的產(chǎn)生有兩種方式:一種是互聯(lián)網(wǎng)用戶根據(jù)自己的學(xué)識、需求、認(rèn)知而主動思考出來的,一種是網(wǎng)站根據(jù)用戶的搜索行為主動推薦的。與CPI相關(guān)的關(guān)鍵詞的選擇就是選取與實際CPI指數(shù)走勢相關(guān)且趨向一致的那些關(guān)鍵詞的搜索數(shù)據(jù)。關(guān)鍵詞選擇好后不能直接利用關(guān)鍵詞在網(wǎng)站上的搜索數(shù)據(jù)來建立預(yù)測模型,這是因為,相關(guān)的關(guān)鍵詞的數(shù)量較多,關(guān)鍵詞之間有共線性,如果僅僅用各個關(guān)鍵詞的搜索數(shù)據(jù)直接構(gòu)建模型,模型會比較復(fù)雜,各變量間的共線性問題會使模型達(dá)不到理想的效果,因此需要進(jìn)行關(guān)鍵詞搜索數(shù)據(jù)(網(wǎng)絡(luò)搜索指數(shù))的合成。本文正是基于這一目的,以百度的關(guān)鍵詞搜索指數(shù)為樣本來探索用因子分析的方法進(jìn)行關(guān)鍵詞搜索指數(shù)的合成,為后續(xù)構(gòu)建預(yù)測模型打下基礎(chǔ)。

2 文獻(xiàn)綜述

從查閱的文獻(xiàn)來看,網(wǎng)絡(luò)搜索指數(shù)的文獻(xiàn)多散見于各種研究網(wǎng)絡(luò)搜索指數(shù)與經(jīng)濟(jì)及社會現(xiàn)象的文獻(xiàn)里,作為模型構(gòu)建前數(shù)據(jù)處理的一種方式,只有極個別的文獻(xiàn)研究了網(wǎng)絡(luò)搜索指數(shù)的方法。彭賡等(2013)采用谷歌趨勢推薦關(guān)鍵詞的功能進(jìn)行了四層推薦選取關(guān)鍵詞,之后采用逐步回歸法進(jìn)行搜索指數(shù)的合成[3]。崔東佳(2014)通過百度搜索引擎搜索與奇瑞、大眾及寶馬三個品牌汽車相關(guān)的關(guān)鍵詞,通過采用綜合賦權(quán)、錯位逐步合成方法對三個品牌相關(guān)的關(guān)鍵詞得到的搜索量計算相應(yīng)的網(wǎng)絡(luò)搜索指數(shù)[4]。孫毅等(2014)認(rèn)為現(xiàn)有的網(wǎng)絡(luò)搜索指數(shù)的方法主要有直接合成法、相關(guān)性合成法、時差相關(guān)合成法[5]。殷三杰(2018)運(yùn)用文本挖掘方法及時差相關(guān)分析法篩選關(guān)鍵詞,接著使用逐步回歸分析、Adaptive-Lasso算法、主成分分析三種降維方法進(jìn)行比較,用于選擇變量[6]。

從以往的文獻(xiàn)可以看出,網(wǎng)絡(luò)搜索的指數(shù)有不同的合成方法。因子分析是針對變量間有相關(guān)性且變量數(shù)量比較多的情況下的一種降維方法,它能夠從眾多的原有變量中綜合出少數(shù)具有代表性的因子,因此本文嘗試用這種方法進(jìn)行網(wǎng)絡(luò)搜索指數(shù)的合成。

3 數(shù)據(jù)的采集和預(yù)處理

本文的樣本數(shù)據(jù)來自于百度指數(shù)平臺上的數(shù)據(jù),選取“CPI”為初始關(guān)鍵詞,利用百度CPI需求圖譜推薦的20個關(guān)鍵詞,篩選出重復(fù)的、不相關(guān)的、無意義的關(guān)鍵詞,保留了四個關(guān)鍵詞,進(jìn)行第二層選取,依此類推到第四層,共得到151個關(guān)鍵詞。之后,采集這些關(guān)鍵詞的搜索指數(shù),時間范圍是2013年1月至2018年12月共72個月的月度數(shù)據(jù),采集區(qū)域的選項是北京,采集設(shè)備的選項是PC端。北京CPI數(shù)據(jù)來自于國家統(tǒng)計局的同比月度數(shù)據(jù)。

用以上151個關(guān)鍵詞在百度指數(shù)平臺上獲取的搜索數(shù)據(jù),與實際的CPI值進(jìn)行皮爾遜(Pearson)相關(guān)系數(shù)的計算,選取了相關(guān)系數(shù)大于0.4的關(guān)鍵詞共計18個。

4 因子分析

4.1 前提條件檢驗

因子分析要求原有的變量之間應(yīng)該具有較強(qiáng)的相關(guān)關(guān)系,利用KMO檢驗和巴特利特球體檢驗來判斷原始變量是否適合做因子分析。

運(yùn)行軟件所得檢驗結(jié)果如表1所示。

根據(jù)檢驗結(jié)果,數(shù)據(jù)的KMO檢驗值為0.678>0.6,Bartlett球體檢驗相應(yīng)的概率值接近0.000,小于顯著性水平0.05,表明數(shù)據(jù)適合作因子分析。

4.2 因子提取

本文選取特征值大于1的因子,并且根據(jù)公共因子在變量總方差中所占的累計百分?jǐn)?shù)來選取因子。根據(jù)因子提取和因子旋轉(zhuǎn)結(jié)果,前四個因子的特征值分別為6.839、4.280、2.205、1.032,各因子的貢獻(xiàn)率分別為37.995%、23.777%、12.251%、5.732%,能夠解釋原有18個變量總方差的79.755%。據(jù)此,本文將提取4個公共因子。

按照方差極大法對因子載荷矩陣旋轉(zhuǎn)后得到結(jié)果如表2所示。

從表2可以看出,第1個因子在物價上漲、CPI是什么、物價、CPI、外匯牌價表、中國投資、存款這七個變量上有較高的載荷。加息、央行、央行加息、存款利率、通脹、通貨膨脹這六個變量在第2個因子的載荷較高。準(zhǔn)備金、物價指數(shù)、美元匯率在第三個因子上的載荷較高。中國股市、基金在第四個因子的載荷較高。

通過因子得分的協(xié)方差矩陣,可以看出,4個因子完全是正交的、沒有線性相關(guān)性。這說明提取的四個因子能夠解釋原有18個變量所包含的信息。

4.3 網(wǎng)絡(luò)搜索指數(shù)合成計算

按照這四個因子分別占四個因子累計方差貢獻(xiàn)率的比值來計算四個因子的系數(shù)即權(quán)重。由此得出北京CPI的網(wǎng)絡(luò)搜索綜合指數(shù)的計算公式為:

F=0.48F1+0.3F2+0.15F3+0.07F4

5 結(jié)論

本文基于CPI相關(guān)的關(guān)鍵詞的百度網(wǎng)絡(luò)搜索數(shù)據(jù),利用因子分析法探索了網(wǎng)絡(luò)搜索指數(shù)合成的方法,并給出了樣本數(shù)據(jù)的北京CPI網(wǎng)絡(luò)搜索綜合指數(shù)的計算公式。這其中的難點就在于如何篩選出能夠反映所要預(yù)測某一現(xiàn)象的關(guān)鍵詞,這是采用任何網(wǎng)絡(luò)搜索指數(shù)合成方法的前提。

【參考文獻(xiàn)】

[1]MICHAEL E, JOHN G,GILBERT K. Using web-based search data to predict macroeconomic statistics[J]. Communications of the ACM,2005,48(11):87-92.

[2]孟婷婷.我國CPI波動及外部影響因素研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2017.

[3]彭賡,蘇亞軍,李娜.失業(yè)率預(yù)測研究——基于網(wǎng)絡(luò)搜索數(shù)據(jù)及改進(jìn)的逐步回歸模型[J].現(xiàn)代管理科學(xué),2013(12):40-43.

[4]崔東佳.大數(shù)據(jù)時代背景下的品牌汽車銷量預(yù)測的實證研究[D].河南大學(xué)碩士學(xué)位論文,2014.

[5]孫毅,戴維,董紀(jì)昌,呂本富.基于主成分分析的網(wǎng)絡(luò)搜索數(shù)據(jù)合成方法研究[J].數(shù)學(xué)的實踐與認(rèn)識,2014,44(21).

[6]殷三杰.加入網(wǎng)絡(luò)搜索數(shù)據(jù)的居民消費價格指數(shù)預(yù)測[D].西北師范大學(xué),2018.

猜你喜歡
百度變量文獻(xiàn)
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
抓住不變量解題
也談分離變量
Robust adaptive UKF based on SVR for inertial based integrated navigation
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
百度遭投行下調(diào)評級
IT時代周刊(2015年8期)2015-11-11 05:50:22
SL(3,3n)和SU(3,3n)的第一Cartan不變量
兴化市| 邳州市| 凤城市| 达日县| 昔阳县| 鸡西市| 沿河| 绥阳县| 阆中市| 滕州市| 鲜城| 阿拉善右旗| 社会| 万安县| 疏附县| 邯郸市| 苗栗市| 临清市| 册亨县| 周宁县| 城口县| 湘潭县| 岳阳县| 池州市| 合肥市| 河曲县| 阿勒泰市| 阜康市| 杨浦区| 兰西县| 喀什市| 商水县| 新河县| 桐柏县| 遂宁市| 通化市| 德昌县| 临猗县| 昌平区| 措美县| 赣州市|