基于網(wǎng)絡(luò)搜索量的世園會客流量預(yù)測

2013-04-29 00:44:03姜東民崔麗敏管田超

中國管理信息化 2013年8期

姜東民崔麗敏管田超

[摘要]信息技術(shù)的飛速發(fā)展，網(wǎng)絡(luò)已經(jīng)深入到人們生活中的每個角落，各大搜索引擎記錄了數(shù)以億計的搜索關(guān)注和需求，隱含了大量的有價值的信息和數(shù)據(jù)。本文以世園會為例，充分挖掘網(wǎng)絡(luò)搜索數(shù)據(jù)，揭示了網(wǎng)絡(luò)搜索和世園會客流量之間存在的關(guān)系。以西安世園會為實(shí)例，建立回歸模型，運(yùn)用Eviews軟件檢驗(yàn)網(wǎng)絡(luò)搜索數(shù)據(jù)和世園會客流量之間的相關(guān)性、協(xié)整性、因果關(guān)系等，驗(yàn)證模型的可用性，并用之進(jìn)行青島世園會客流量的預(yù)測。

[關(guān)鍵詞]預(yù)測；網(wǎng)絡(luò)搜索量；客流量；世園會；回歸模型

doi：10.3969/j.issn.1673-0194.2013.08.023

[中圖分類號]F201[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194（2013）08-0044-04

0 引言

世園會是建設(shè)國際化大都市的重要突破口，展示了國家經(jīng)濟(jì)、科學(xué)技術(shù)、農(nóng)業(yè)園林藝術(shù)等方面的成就。世園會是世界各國展示花卉園林園藝精品、開展科技文化交流的盛會，也是各國人民相聚、相知、相互交流、增進(jìn)友誼的平臺。同時，我們也力求以世園會為契機(jī)，傳遞好中國政府推進(jìn)科學(xué)發(fā)展、建設(shè)生態(tài)文明的執(zhí)政理念，充分展示我國加強(qiáng)生態(tài)建設(shè)、再造秀美山川的巨大成就。對世園會客流量的準(zhǔn)確預(yù)測有助于更好地為盛會召開做好準(zhǔn)備服務(wù)實(shí)現(xiàn)此次盛會的價值，促進(jìn)我國社會、經(jīng)濟(jì)、文化等各方面的全面發(fā)展。

對于客流量的預(yù)測，許多學(xué)者都提出了自己的模型，預(yù)測方法已有300多種，歸納起來大致分為定性預(yù)測和定量預(yù)測2類。常用的定性預(yù)測方法有頭腦風(fēng)暴法、專家調(diào)查法、主觀概率法、相互影響分析法等；定量預(yù)測方法有指數(shù)平滑法、回歸分析法、馬爾可夫分析法、客流調(diào)查法、灰色系統(tǒng)法、神經(jīng)網(wǎng)絡(luò)法等。當(dāng)然有時也會把多種方法結(jié)合起來運(yùn)用以提高擬合度和準(zhǔn)確度。然而，這些傳統(tǒng)的預(yù)測方法需要依托于傳統(tǒng)的數(shù)據(jù)，這些數(shù)據(jù)是由官方統(tǒng)計、定期發(fā)布的，雖然具有很高的可信度和一定的權(quán)威性，但是時效性差、難以查詢、獲取的成本太高。因此，本文采用了一種新的方法來獲取數(shù)據(jù)：網(wǎng)絡(luò)數(shù)據(jù)，同時運(yùn)用最基本的方法進(jìn)行分析，建立新的預(yù)測模型。

1 數(shù)據(jù)處理

隨著信息技術(shù)的發(fā)展，互聯(lián)網(wǎng)已經(jīng)深入到人們的生活中，成為必不可少的一部分。人們早已習(xí)慣了出行或者購物之前上網(wǎng)查詢相關(guān)的信息，這些查詢信息所用的關(guān)鍵詞可以被搜索引擎記錄下來，并形成了系統(tǒng)的數(shù)據(jù)，為各個方面的應(yīng)用提供數(shù)據(jù)支持。

1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取及關(guān)鍵詞的選擇

1.1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取方法

目前提供這種關(guān)鍵詞搜索指數(shù)的主要有百度和谷歌，即百度指數(shù)（http：//index.baidu.com）和谷歌趨勢（http：//www.google.com/trends/）。百度指數(shù)是用以反映關(guān)鍵詞在過去30天內(nèi)的網(wǎng)絡(luò)曝光率及用戶關(guān)注度，它能形象地反映該關(guān)鍵詞每天的變化趨勢。谷歌趨勢（又名：Google Trends ）有2個功能：①查看關(guān)鍵詞在Google的搜索次數(shù)及變化趨勢，②查看網(wǎng)站流量（Google trends for websites）。

1.1.2 關(guān)鍵詞的選取

對于關(guān)鍵詞的選取，搜索引擎優(yōu)化（SEO）會提供關(guān)鍵詞優(yōu)化工具得到相關(guān)聯(lián)的關(guān)鍵詞，另外還有一些是專門的關(guān)鍵詞挖掘工具，比如百度推廣、谷歌關(guān)鍵詞工具（Google AdWords）、站長工具（http：//www.7c.com/keyword/）、愛站網(wǎng)（http：//www.aizhan.com/）。本文采用一種動態(tài)選擇的方法：先根據(jù)經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞，然后運(yùn)用上述工具找到相關(guān)聯(lián)的關(guān)鍵詞，去掉搜索量少的；以上一步剩余的關(guān)鍵詞為基準(zhǔn)關(guān)鍵詞，用相關(guān)工具找到關(guān)聯(lián)關(guān)鍵詞，并進(jìn)行篩選，如此進(jìn)行循環(huán)，直到相關(guān)聯(lián)的關(guān)鍵詞出現(xiàn)大量重復(fù)。

1.2 網(wǎng)絡(luò)數(shù)據(jù)的處理方法

互聯(lián)網(wǎng)提供海量的數(shù)據(jù)，從這些數(shù)據(jù)中找到有用的信息需要經(jīng)過數(shù)據(jù)挖掘和處理。本文運(yùn)用最簡單的數(shù)學(xué)模型得出良好的效果。本文需要進(jìn)行協(xié)整性檢驗(yàn)、因果關(guān)系檢驗(yàn)，所以選擇計量經(jīng)濟(jì)學(xué)觀察（Eviews）來分析處理關(guān)鍵詞的搜索量指數(shù)。

1.2.1 Eviews簡介

Eviews是Econometrics Views的縮寫，主要應(yīng)用在經(jīng)濟(jì)學(xué)領(lǐng)域，可用于回歸分析與預(yù)測（regression and forecasting）、時間序列（Time series）以及橫截面數(shù)據(jù)（cross-sectional data ）分析。EViews提供單元根檢驗(yàn)（用于單個序列的ADF，Phillips-Perron，KPSS，DFGLS，ERS 和 Ng-Perron，及用于面板數(shù)據(jù)（panel data）的Levin-Lin-Chu，Breitung， Im-Pesaran-Shin，F(xiàn)isher和 Hadri），協(xié)整檢驗(yàn)（帶有MacKinnon-Haug-Michelis關(guān)鍵值和p值），因果關(guān)系檢驗(yàn)，自相關(guān)和部分自相關(guān)函數(shù)，Q統(tǒng)計和互相關(guān)函數(shù)。與其他統(tǒng)計軟件（如Excel、SAS、SPSS）相比，Eviews功能優(yōu)勢是回歸分析與預(yù)測。

1.2.2 關(guān)鍵詞搜索數(shù)據(jù)處理的具體步驟

1.2.2.1 相關(guān)性檢驗(yàn)

把世園會的客流量叫做因變量，用Y來表示；各個關(guān)鍵詞的搜索量叫做自變量，用Xi來表示。變量之間存在的不確定的數(shù)量關(guān)系稱為相關(guān)關(guān)系，研究這種相關(guān)關(guān)系是統(tǒng)計分析中一項重要內(nèi)容。相關(guān)系數(shù)是兩個變量之間相關(guān)關(guān)系密切程度的一個指標(biāo)，能夠較為客觀、準(zhǔn)確地測量變量之間的這種相關(guān)關(guān)系，在本模型中把相關(guān)系數(shù)大的關(guān)鍵詞列入到模型中。

1.2.2.2 平穩(wěn)性檢驗(yàn)

如果一個隨機(jī)過程的均值和方差在時間過程上都是常數(shù)，并且在任何兩時期的協(xié)方差值僅依賴于該兩時期間的距離或滯后，而不依賴于計算這個協(xié)方差的實(shí)際時間，就稱它為平穩(wěn)的。將一個隨機(jī)游走變量（即非平穩(wěn)數(shù)據(jù)）對另一個隨機(jī)游走變量進(jìn)行回歸可能導(dǎo)致荒謬的結(jié)果，證明兩者之間的關(guān)系是不存在的。

有時候時間序列的高度相關(guān)僅僅是因?yàn)槎咄瑫r隨時間有向上或向下變動的趨勢，并沒有真正的聯(lián)系，這種情況就稱為“偽回歸”（Spurious Regression）。

1.2.2.3 建立回歸方程并進(jìn)行協(xié)整性檢驗(yàn)

有時雖然兩個變量都是隨機(jī)游走的，但它們的某個線形組合卻可能是平穩(wěn)的，稱這兩個變量是協(xié)整的。

由于很多時間序列數(shù)據(jù)都是不平穩(wěn)的，可能受某些共同因素的影響，從而在時間上表現(xiàn)出共同的趨勢，即變量之間存在一種穩(wěn)定的關(guān)系，因此某種線性組合可能是平穩(wěn)的，即存在協(xié)整關(guān)系。

檢驗(yàn)的方法：對于檢驗(yàn)時間序列Xi和Y之間是否存在協(xié)整關(guān)系，首先用OLS建立回歸方程并進(jìn)行估計。然后，檢驗(yàn)殘差是否是平穩(wěn)的，因?yàn)槿绻鸛i和Y沒有協(xié)整關(guān)系，任一線性組合都是非平穩(wěn)的，殘差也將是非平穩(wěn)的。

1.2.2.4 模型的預(yù)測

進(jìn)行完一系列的準(zhǔn)備工作后，要做的是運(yùn)用建好的模型進(jìn)行預(yù)測，把預(yù)測的客流量和真實(shí)的客流量進(jìn)行分析，比較其誤差，最后進(jìn)行模型的修正，取得較好的擬合度。

2 實(shí)證分析

2.1 數(shù)據(jù)來源

本文以西安世園會為研究對象，西安世園會是A2+B1級別，2011年4月28日開始到2011年10月22日結(jié)束，在開園期間設(shè)有專門人員統(tǒng)計每天的客流量發(fā)布在官方指定的媒介上，本文以此數(shù)據(jù)作為回歸模型y=c+■βixi+ei中的因變量y，其中c為常數(shù)項，ei為回歸方程的殘差。自變量xi（各個關(guān)鍵詞的搜索量）來源于谷歌趨勢，以周為單位進(jìn)行處理，并與因變量y在時間上一一對應(yīng)。

2.2 關(guān)鍵詞的選取

首先是按照經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞，然后以此為基礎(chǔ)，運(yùn)用前面介紹的關(guān)鍵詞查找工具找到一系列的關(guān)鍵詞。比如，有經(jīng)驗(yàn)得到的基準(zhǔn)關(guān)鍵詞為西安，運(yùn)用愛站網(wǎng)可以得到相關(guān)關(guān)鍵詞西安天氣、西安公交、西安旅游、西安吧、西安辦證、西安事變、西安地鐵等等。之后用谷歌趨勢找出每個關(guān)鍵詞的搜索量指數(shù)，去掉因?yàn)樗阉髁刻俣鵁o法形成搜索指數(shù)的關(guān)鍵詞，進(jìn)行初步的篩選，如表1所示。

關(guān)鍵詞確定后畫出各個關(guān)鍵詞和客流量之間的關(guān)系圖，初步判定關(guān)鍵詞和客流量之間的相關(guān)關(guān)系，去掉相關(guān)性差的關(guān)鍵詞，關(guān)鍵詞和客流量的相關(guān)關(guān)系圖如圖1所示。

然后用Eviews計算出關(guān)鍵詞和客流量之間的相關(guān)系數(shù)，結(jié)果如表2所示。

2.3 關(guān)鍵詞序列的平穩(wěn)性檢驗(yàn)

為確保各關(guān)鍵詞和客流量之間存在著回歸關(guān)系，提高模型的準(zhǔn)確度，需要對序列進(jìn)行平穩(wěn)性檢驗(yàn)，運(yùn)用Augmented Dickey-Fuller test（增項DF單位根檢驗(yàn)）進(jìn)行檢驗(yàn)，判斷是否平穩(wěn)的標(biāo)準(zhǔn)是檢驗(yàn)統(tǒng)計量大于臨界值則拒絕原假設(shè)，即序列式不平穩(wěn)；反之，序列式平穩(wěn)。通過平穩(wěn)性檢驗(yàn)，得出各關(guān)鍵詞組成的時間序列二階差分在各個顯著性水平下都是平穩(wěn)的，結(jié)果如表3所示。

2.4 回歸模型的建立和協(xié)整檢驗(yàn)

根據(jù)以上分析，確定出可以用于模型建立的關(guān)鍵詞，運(yùn)用Eviews用最小二乘法建立回歸模型，得出因變量系數(shù)、殘差以及殘差和真實(shí)數(shù)據(jù)之間的關(guān)系圖，由于自變量較多、各自變量的系數(shù)也較大，具體的回歸模型用圖2顯示；圖3為所建模型與世園會真實(shí)客流量之間的擬合關(guān)系圖。

由上可知，所建模型的擬合度是88%，具有較高的準(zhǔn)確度，可以用于預(yù)測。

為了使模型更具有說服力，驗(yàn)證因變量和自變量之間具有長期穩(wěn)定性，即協(xié)整性檢驗(yàn)，具體方法是檢驗(yàn)回歸方程的殘差是否平穩(wěn)序列，如果是平穩(wěn)序列則說明是具有長期穩(wěn)定性；反之則沒有，結(jié)果如表4所示。

由表4分析可知?dú)埐钍瞧椒€(wěn)序列，所以存在協(xié)整關(guān)系。

2.5 模型預(yù)測

青島世園會與西安世園會的相似之處：

（1）級別都是A2+B1。

（2）在第六次人口普查時，青島常住人口871.51萬，西安常住人口846.78萬，常住人口數(shù)量基本持平。

（3）西安的景點(diǎn)共有20處，青島的景點(diǎn)共有16處，在總數(shù)上接近。

（4）2011年西安GDP3 864.21億元人民幣，常住人口846萬，人均GDP：45 676.24元人民幣；青島GDP5 666億元，常住人口872萬，人均GDP：64 977元人民幣。

綜上所述，西安和青島都是旅游城市，人口數(shù)量，經(jīng)濟(jì)發(fā)展總量基本相當(dāng)，世園會級別相同。因此，可以把上面建立的模型用于青島世園會的客流量預(yù)測。具體的方法是：找到與西安世園會相類似的關(guān)鍵詞，比如用青島代替西安、棧橋代替兵馬俑、青島天氣代替西安天氣等，把這些與青島有關(guān)的關(guān)鍵詞的搜索量作為模型中相對應(yīng)的自變量的數(shù)值，代入模型求值即可得出搜索量一定時青島世園會的客流量。

3 結(jié) 論

本文提出了一種基于網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行青島世園會客流量預(yù)測模型，根據(jù)西安和青島兩個城市的諸多相似之處，通過使用西安世園會的數(shù)據(jù)進(jìn)行實(shí)例驗(yàn)證，把建立好的模型用于青島世園會的預(yù)測。該模型采用網(wǎng)絡(luò)數(shù)據(jù)作為分析的依據(jù)，避免了傳統(tǒng)數(shù)據(jù)的弊端，同時使用簡單的回歸模型，避免了灰色理論、神經(jīng)網(wǎng)絡(luò)等方法的繁瑣的計算，取得了較高的擬合度和準(zhǔn)確度。另外，該方法具有較高的時效性，能夠更早地被相關(guān)的人員利用，提早為各項工作做好準(zhǔn)備。

主要參考文獻(xiàn)

[1]J Ginsberg，M H Mohebbi，R S Patel，etc. Detecting Influenza Epidemics Using Search Engine Query Data[J]. Nature，2009，457：1012-1014.

[2]劉穎，呂本富，彭賡.網(wǎng)絡(luò)搜索數(shù)據(jù)對股票市場的預(yù)測能力：理論分析與實(shí)證檢驗(yàn)[J].經(jīng)濟(jì)管理，2011（1）.

[3]袁慶玉，彭賡，劉穎，等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷售預(yù)測研究[J].管理學(xué)家：學(xué)術(shù)版，2011（1）.

[4]周子健.基于網(wǎng)絡(luò)搜索量的上海世博會國際影響力研究[J].藝海，2011（5）.

[5]王小平，孫彩賢.基于多元回歸模型的2010年上海世博會客流量預(yù)測分析[J].江漢大學(xué)學(xué)報，2010（2）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于網(wǎng)絡(luò)搜索量的世園會客流量預(yù)測