姜東民 崔麗敏 管田超
[摘要]信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)深入到人們生活中的每個角落,各大搜索引擎記錄了數(shù)以億計的搜索關(guān)注和需求,隱含了大量的有價值的信息和數(shù)據(jù)。本文以世園會為例,充分挖掘網(wǎng)絡(luò)搜索數(shù)據(jù),揭示了網(wǎng)絡(luò)搜索和世園會客流量之間存在的關(guān)系。以西安世園會為實(shí)例,建立回歸模型,運(yùn)用Eviews軟件檢驗(yàn)網(wǎng)絡(luò)搜索數(shù)據(jù)和世園會客流量之間的相關(guān)性、協(xié)整性、因果關(guān)系等,驗(yàn)證模型的可用性,并用之進(jìn)行青島世園會客流量的預(yù)測。
[關(guān)鍵詞]預(yù)測;網(wǎng)絡(luò)搜索量;客流量;世園會;回歸模型
doi:10.3969/j.issn.1673-0194.2013.08.023
[中圖分類號]F201[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194(2013)08-0044-04
0 引 言
世園會是建設(shè)國際化大都市的重要突破口,展示了國家經(jīng)濟(jì)、科學(xué)技術(shù)、農(nóng)業(yè)園林藝術(shù)等方面的成就。世園會是世界各國展示花卉園林園藝精品、開展科技文化交流的盛會,也是各國人民相聚、相知、相互交流、增進(jìn)友誼的平臺。同時,我們也力求以世園會為契機(jī),傳遞好中國政府推進(jìn)科學(xué)發(fā)展、建設(shè)生態(tài)文明的執(zhí)政理念,充分展示我國加強(qiáng)生態(tài)建設(shè)、再造秀美山川的巨大成就。對世園會客流量的準(zhǔn)確預(yù)測有助于更好地為盛會召開做好準(zhǔn)備服務(wù)實(shí)現(xiàn)此次盛會的價值,促進(jìn)我國社會、經(jīng)濟(jì)、文化等各方面的全面發(fā)展。
對于客流量的預(yù)測,許多學(xué)者都提出了自己的模型,預(yù)測方法已有300多種,歸納起來大致分為定性預(yù)測和定量預(yù)測2類。常用的定性預(yù)測方法有頭腦風(fēng)暴法、專家調(diào)查法、主觀概率法、相互影響分析法等;定量預(yù)測方法有指數(shù)平滑法、回歸分析法、馬爾可夫分析法、客流調(diào)查法、灰色系統(tǒng)法、神經(jīng)網(wǎng)絡(luò)法等。當(dāng)然有時也會把多種方法結(jié)合起來運(yùn)用以提高擬合度和準(zhǔn)確度。然而,這些傳統(tǒng)的預(yù)測方法需要依托于傳統(tǒng)的數(shù)據(jù),這些數(shù)據(jù)是由官方統(tǒng)計、定期發(fā)布的,雖然具有很高的可信度和一定的權(quán)威性,但是時效性差、難以查詢、獲取的成本太高。因此,本文采用了一種新的方法來獲取數(shù)據(jù):網(wǎng)絡(luò)數(shù)據(jù),同時運(yùn)用最基本的方法進(jìn)行分析,建立新的預(yù)測模型。
1 數(shù)據(jù)處理
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)深入到人們的生活中,成為必不可少的一部分。人們早已習(xí)慣了出行或者購物之前上網(wǎng)查詢相關(guān)的信息,這些查詢信息所用的關(guān)鍵詞可以被搜索引擎記錄下來,并形成了系統(tǒng)的數(shù)據(jù),為各個方面的應(yīng)用提供數(shù)據(jù)支持。
1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取及關(guān)鍵詞的選擇
1.1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取方法
目前提供這種關(guān)鍵詞搜索指數(shù)的主要有百度和谷歌,即百度指數(shù)(http://index.baidu.com)和谷歌趨勢(http://www.google.com/trends/)。百度指數(shù)是用以反映關(guān)鍵詞在過去30天內(nèi)的網(wǎng)絡(luò)曝光率及用戶關(guān)注度,它能形象地反映該關(guān)鍵詞每天的變化趨勢。谷歌趨勢(又名:Google Trends )有2個功能:①查看關(guān)鍵詞在Google的搜索次數(shù)及變化趨勢,②查看網(wǎng)站流量(Google trends for websites)。
1.1.2 關(guān)鍵詞的選取
對于關(guān)鍵詞的選取,搜索引擎優(yōu)化(SEO)會提供關(guān)鍵詞優(yōu)化工具得到相關(guān)聯(lián)的關(guān)鍵詞,另外還有一些是專門的關(guān)鍵詞挖掘工具,比如百度推廣、谷歌關(guān)鍵詞工具(Google AdWords)、站長工具(http://www.7c.com/keyword/)、愛站網(wǎng)(http://www.aizhan.com/)。本文采用一種動態(tài)選擇的方法:先根據(jù)經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞,然后運(yùn)用上述工具找到相關(guān)聯(lián)的關(guān)鍵詞,去掉搜索量少的;以上一步剩余的關(guān)鍵詞為基準(zhǔn)關(guān)鍵詞,用相關(guān)工具找到關(guān)聯(lián)關(guān)鍵詞,并進(jìn)行篩選,如此進(jìn)行循環(huán),直到相關(guān)聯(lián)的關(guān)鍵詞出現(xiàn)大量重復(fù)。
1.2 網(wǎng)絡(luò)數(shù)據(jù)的處理方法
互聯(lián)網(wǎng)提供海量的數(shù)據(jù),從這些數(shù)據(jù)中找到有用的信息需要經(jīng)過數(shù)據(jù)挖掘和處理。本文運(yùn)用最簡單的數(shù)學(xué)模型得出良好的效果。本文需要進(jìn)行協(xié)整性檢驗(yàn)、因果關(guān)系檢驗(yàn),所以選擇計量經(jīng)濟(jì)學(xué)觀察(Eviews)來分析處理關(guān)鍵詞的搜索量指數(shù)。
1.2.1 Eviews簡介
Eviews是Econometrics Views的縮寫,主要應(yīng)用在經(jīng)濟(jì)學(xué)領(lǐng)域,可用于回歸分析與預(yù)測(regression and forecasting)、時間序列(Time series)以及橫截面數(shù)據(jù)(cross-sectional data )分析。EViews提供單元根檢驗(yàn)(用于單個序列的ADF,Phillips-Perron,KPSS,DFGLS,ERS 和 Ng-Perron,及用于面板數(shù)據(jù)(panel data)的Levin-Lin-Chu,Breitung, Im-Pesaran-Shin,F(xiàn)isher和 Hadri),協(xié)整檢驗(yàn)(帶有MacKinnon-Haug-Michelis關(guān)鍵值和p值),因果關(guān)系檢驗(yàn),自相關(guān)和部分自相關(guān)函數(shù),Q統(tǒng)計和互相關(guān)函數(shù)。與其他統(tǒng)計軟件(如Excel、SAS、SPSS)相比,Eviews功能優(yōu)勢是回歸分析與預(yù)測。
1.2.2 關(guān)鍵詞搜索數(shù)據(jù)處理的具體步驟
1.2.2.1 相關(guān)性檢驗(yàn)
把世園會的客流量叫做因變量,用Y來表示;各個關(guān)鍵詞的搜索量叫做自變量,用Xi來表示。變量之間存在的不確定的數(shù)量關(guān)系稱為相關(guān)關(guān)系,研究這種相關(guān)關(guān)系是統(tǒng)計分析中一項重要內(nèi)容。相關(guān)系數(shù)是兩個變量之間相關(guān)關(guān)系密切程度的一個指標(biāo),能夠較為客觀、準(zhǔn)確地測量變量之間的這種相關(guān)關(guān)系,在本模型中把相關(guān)系數(shù)大的關(guān)鍵詞列入到模型中。
1.2.2.2 平穩(wěn)性檢驗(yàn)
如果一個隨機(jī)過程的均值和方差在時間過程上都是常數(shù),并且在任何兩時期的協(xié)方差值僅依賴于該兩時期間的距離或滯后,而不依賴于計算這個協(xié)方差的實(shí)際時間,就稱它為平穩(wěn)的。將一個隨機(jī)游走變量(即非平穩(wěn)數(shù)據(jù))對另一個隨機(jī)游走變量進(jìn)行回歸可能導(dǎo)致荒謬的結(jié)果,證明兩者之間的關(guān)系是不存在的。
有時候時間序列的高度相關(guān)僅僅是因?yàn)槎咄瑫r隨時間有向上或向下變動的趨勢,并沒有真正的聯(lián)系,這種情況就稱為“偽回歸”(Spurious Regression)。
1.2.2.3 建立回歸方程并進(jìn)行協(xié)整性檢驗(yàn)
有時雖然兩個變量都是隨機(jī)游走的,但它們的某個線形組合卻可能是平穩(wěn)的,稱這兩個變量是協(xié)整的。
由于很多時間序列數(shù)據(jù)都是不平穩(wěn)的,可能受某些共同因素的影響,從而在時間上表現(xiàn)出共同的趨勢,即變量之間存在一種穩(wěn)定的關(guān)系,因此某種線性組合可能是平穩(wěn)的,即存在協(xié)整關(guān)系。
檢驗(yàn)的方法:對于檢驗(yàn)時間序列Xi和Y之間是否存在協(xié)整關(guān)系,首先用OLS建立回歸方程并進(jìn)行估計。然后,檢驗(yàn)殘差是否是平穩(wěn)的,因?yàn)槿绻鸛i和Y沒有協(xié)整關(guān)系,任一線性組合都是非平穩(wěn)的,殘差也將是非平穩(wěn)的。
1.2.2.4 模型的預(yù)測
進(jìn)行完一系列的準(zhǔn)備工作后,要做的是運(yùn)用建好的模型進(jìn)行預(yù)測,把預(yù)測的客流量和真實(shí)的客流量進(jìn)行分析,比較其誤差,最后進(jìn)行模型的修正,取得較好的擬合度。
2 實(shí)證分析
2.1 數(shù)據(jù)來源
本文以西安世園會為研究對象,西安世園會是A2+B1級別,2011年4月28日開始到2011年10月22日結(jié)束,在開園期間設(shè)有專門人員統(tǒng)計每天的客流量發(fā)布在官方指定的媒介上,本文以此數(shù)據(jù)作為回歸模型y=c+■βixi+ei中的因變量y,其中c為常數(shù)項,ei為回歸方程的殘差。自變量xi(各個關(guān)鍵詞的搜索量)來源于谷歌趨勢,以周為單位進(jìn)行處理,并與因變量y在時間上一一對應(yīng)。
2.2 關(guān)鍵詞的選取
首先是按照經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞,然后以此為基礎(chǔ),運(yùn)用前面介紹的關(guān)鍵詞查找工具找到一系列的關(guān)鍵詞。比如,有經(jīng)驗(yàn)得到的基準(zhǔn)關(guān)鍵詞為西安,運(yùn)用愛站網(wǎng)可以得到相關(guān)關(guān)鍵詞西安天氣、西安公交、西安旅游、西安吧、西安辦證、西安事變、西安地鐵等等。之后用谷歌趨勢找出每個關(guān)鍵詞的搜索量指數(shù),去掉因?yàn)樗阉髁刻俣鵁o法形成搜索指數(shù)的關(guān)鍵詞,進(jìn)行初步的篩選,如表1所示。
關(guān)鍵詞確定后畫出各個關(guān)鍵詞和客流量之間的關(guān)系圖,初步判定關(guān)鍵詞和客流量之間的相關(guān)關(guān)系,去掉相關(guān)性差的關(guān)鍵詞,關(guān)鍵詞和客流量的相關(guān)關(guān)系圖如圖1所示。
然后用Eviews計算出關(guān)鍵詞和客流量之間的相關(guān)系數(shù),結(jié)果如表2所示。
2.3 關(guān)鍵詞序列的平穩(wěn)性檢驗(yàn)
為確保各關(guān)鍵詞和客流量之間存在著回歸關(guān)系,提高模型的準(zhǔn)確度,需要對序列進(jìn)行平穩(wěn)性檢驗(yàn),運(yùn)用Augmented Dickey-Fuller test(增項DF單位根檢驗(yàn))進(jìn)行檢驗(yàn),判斷是否平穩(wěn)的標(biāo)準(zhǔn)是檢驗(yàn)統(tǒng)計量大于臨界值則拒絕原假設(shè),即序列式不平穩(wěn);反之,序列式平穩(wěn)。通過平穩(wěn)性檢驗(yàn),得出各關(guān)鍵詞組成的時間序列二階差分在各個顯著性水平下都是平穩(wěn)的,結(jié)果如表3所示。
2.4 回歸模型的建立和協(xié)整檢驗(yàn)
根據(jù)以上分析,確定出可以用于模型建立的關(guān)鍵詞,運(yùn)用Eviews用最小二乘法建立回歸模型,得出因變量系數(shù)、殘差以及殘差和真實(shí)數(shù)據(jù)之間的關(guān)系圖,由于自變量較多、各自變量的系數(shù)也較大,具體的回歸模型用圖2顯示;圖3為所建模型與世園會真實(shí)客流量之間的擬合關(guān)系圖。
由上可知,所建模型的擬合度是88%,具有較高的準(zhǔn)確度,可以用于預(yù)測。
為了使模型更具有說服力,驗(yàn)證因變量和自變量之間具有長期穩(wěn)定性,即協(xié)整性檢驗(yàn),具體方法是檢驗(yàn)回歸方程的殘差是否平穩(wěn)序列,如果是平穩(wěn)序列則說明是具有長期穩(wěn)定性;反之則沒有,結(jié)果如表4所示。
由表4分析可知?dú)埐钍瞧椒€(wěn)序列,所以存在協(xié)整關(guān)系。
2.5 模型預(yù)測
青島世園會與西安世園會的相似之處:
(1)級別都是A2+B1。
(2)在第六次人口普查時,青島常住人口871.51萬,西安常住人口846.78萬,常住人口數(shù)量基本持平。
(3)西安的景點(diǎn)共有20處,青島的景點(diǎn)共有16處,在總數(shù)上接近。
(4)2011年西安GDP3 864.21億元人民幣 ,常住人口846萬 ,人均GDP:45 676.24元人民幣;青島GDP5 666億元,常住人口872萬,人均GDP:64 977元人民幣。
綜上所述,西安和青島都是旅游城市,人口數(shù)量,經(jīng)濟(jì)發(fā)展總量基本相當(dāng),世園會級別相同。因此,可以把上面建立的模型用于青島世園會的客流量預(yù)測。具體的方法是:找到與西安世園會相類似的關(guān)鍵詞,比如用青島代替西安、棧橋代替兵馬俑、青島天氣代替西安天氣等,把這些與青島有關(guān)的關(guān)鍵詞的搜索量作為模型中相對應(yīng)的自變量的數(shù)值,代入模型求值即可得出搜索量一定時青島世園會的客流量。
3 結(jié) 論
本文提出了一種基于網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行青島世園會客流量預(yù)測模型,根據(jù)西安和青島兩個城市的諸多相似之處,通過使用西安世園會的數(shù)據(jù)進(jìn)行實(shí)例驗(yàn)證,把建立好的模型用于青島世園會的預(yù)測。該模型采用網(wǎng)絡(luò)數(shù)據(jù)作為分析的依據(jù),避免了傳統(tǒng)數(shù)據(jù)的弊端,同時使用簡單的回歸模型,避免了灰色理論、神經(jīng)網(wǎng)絡(luò)等方法的繁瑣的計算,取得了較高的擬合度和準(zhǔn)確度。另外,該方法具有較高的時效性,能夠更早地被相關(guān)的人員利用,提早為各項工作做好準(zhǔn)備。
主要參考文獻(xiàn)
[1]J Ginsberg,M H Mohebbi,R S Patel,etc. Detecting Influenza Epidemics Using Search Engine Query Data[J]. Nature,2009,457:1012-1014.
[2]劉穎,呂本富,彭賡.網(wǎng)絡(luò)搜索數(shù)據(jù)對股票市場的預(yù)測能力:理論分析與實(shí)證檢驗(yàn)[J].經(jīng)濟(jì)管理,2011(1).
[3]袁慶玉,彭賡,劉穎,等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷售預(yù)測研究[J].管理學(xué)家:學(xué)術(shù)版,2011(1).
[4]周子健.基于網(wǎng)絡(luò)搜索量的上海世博會國際影響力研究[J].藝海,2011(5).
[5]王小平,孫彩賢.基于多元回歸模型的2010年上海世博會客流量預(yù)測分析[J].江漢大學(xué)學(xué)報,2010(2).