国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)搜索量的世園會客流量預(yù)測

2013-04-29 00:44:03姜東民崔麗敏管田超
中國管理信息化 2013年8期
關(guān)鍵詞:回歸模型客流量預(yù)測

姜東民 崔麗敏 管田超

[摘要]信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)深入到人們生活中的每個角落,各大搜索引擎記錄了數(shù)以億計的搜索關(guān)注和需求,隱含了大量的有價值的信息和數(shù)據(jù)。本文以世園會為例,充分挖掘網(wǎng)絡(luò)搜索數(shù)據(jù),揭示了網(wǎng)絡(luò)搜索和世園會客流量之間存在的關(guān)系。以西安世園會為實(shí)例,建立回歸模型,運(yùn)用Eviews軟件檢驗(yàn)網(wǎng)絡(luò)搜索數(shù)據(jù)和世園會客流量之間的相關(guān)性、協(xié)整性、因果關(guān)系等,驗(yàn)證模型的可用性,并用之進(jìn)行青島世園會客流量的預(yù)測。

[關(guān)鍵詞]預(yù)測;網(wǎng)絡(luò)搜索量;客流量;世園會;回歸模型

doi:10.3969/j.issn.1673-0194.2013.08.023

[中圖分類號]F201[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194(2013)08-0044-04

0 引 言

世園會是建設(shè)國際化大都市的重要突破口,展示了國家經(jīng)濟(jì)、科學(xué)技術(shù)、農(nóng)業(yè)園林藝術(shù)等方面的成就。世園會是世界各國展示花卉園林園藝精品、開展科技文化交流的盛會,也是各國人民相聚、相知、相互交流、增進(jìn)友誼的平臺。同時,我們也力求以世園會為契機(jī),傳遞好中國政府推進(jìn)科學(xué)發(fā)展、建設(shè)生態(tài)文明的執(zhí)政理念,充分展示我國加強(qiáng)生態(tài)建設(shè)、再造秀美山川的巨大成就。對世園會客流量的準(zhǔn)確預(yù)測有助于更好地為盛會召開做好準(zhǔn)備服務(wù)實(shí)現(xiàn)此次盛會的價值,促進(jìn)我國社會、經(jīng)濟(jì)、文化等各方面的全面發(fā)展。

對于客流量的預(yù)測,許多學(xué)者都提出了自己的模型,預(yù)測方法已有300多種,歸納起來大致分為定性預(yù)測和定量預(yù)測2類。常用的定性預(yù)測方法有頭腦風(fēng)暴法、專家調(diào)查法、主觀概率法、相互影響分析法等;定量預(yù)測方法有指數(shù)平滑法、回歸分析法、馬爾可夫分析法、客流調(diào)查法、灰色系統(tǒng)法、神經(jīng)網(wǎng)絡(luò)法等。當(dāng)然有時也會把多種方法結(jié)合起來運(yùn)用以提高擬合度和準(zhǔn)確度。然而,這些傳統(tǒng)的預(yù)測方法需要依托于傳統(tǒng)的數(shù)據(jù),這些數(shù)據(jù)是由官方統(tǒng)計、定期發(fā)布的,雖然具有很高的可信度和一定的權(quán)威性,但是時效性差、難以查詢、獲取的成本太高。因此,本文采用了一種新的方法來獲取數(shù)據(jù):網(wǎng)絡(luò)數(shù)據(jù),同時運(yùn)用最基本的方法進(jìn)行分析,建立新的預(yù)測模型。

1 數(shù)據(jù)處理

隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)深入到人們的生活中,成為必不可少的一部分。人們早已習(xí)慣了出行或者購物之前上網(wǎng)查詢相關(guān)的信息,這些查詢信息所用的關(guān)鍵詞可以被搜索引擎記錄下來,并形成了系統(tǒng)的數(shù)據(jù),為各個方面的應(yīng)用提供數(shù)據(jù)支持。

1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取及關(guān)鍵詞的選擇

1.1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取方法

目前提供這種關(guān)鍵詞搜索指數(shù)的主要有百度和谷歌,即百度指數(shù)(http://index.baidu.com)和谷歌趨勢(http://www.google.com/trends/)。百度指數(shù)是用以反映關(guān)鍵詞在過去30天內(nèi)的網(wǎng)絡(luò)曝光率及用戶關(guān)注度,它能形象地反映該關(guān)鍵詞每天的變化趨勢。谷歌趨勢(又名:Google Trends )有2個功能:①查看關(guān)鍵詞在Google的搜索次數(shù)及變化趨勢,②查看網(wǎng)站流量(Google trends for websites)。

1.1.2 關(guān)鍵詞的選取

對于關(guān)鍵詞的選取,搜索引擎優(yōu)化(SEO)會提供關(guān)鍵詞優(yōu)化工具得到相關(guān)聯(lián)的關(guān)鍵詞,另外還有一些是專門的關(guān)鍵詞挖掘工具,比如百度推廣、谷歌關(guān)鍵詞工具(Google AdWords)、站長工具(http://www.7c.com/keyword/)、愛站網(wǎng)(http://www.aizhan.com/)。本文采用一種動態(tài)選擇的方法:先根據(jù)經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞,然后運(yùn)用上述工具找到相關(guān)聯(lián)的關(guān)鍵詞,去掉搜索量少的;以上一步剩余的關(guān)鍵詞為基準(zhǔn)關(guān)鍵詞,用相關(guān)工具找到關(guān)聯(lián)關(guān)鍵詞,并進(jìn)行篩選,如此進(jìn)行循環(huán),直到相關(guān)聯(lián)的關(guān)鍵詞出現(xiàn)大量重復(fù)。

1.2 網(wǎng)絡(luò)數(shù)據(jù)的處理方法

互聯(lián)網(wǎng)提供海量的數(shù)據(jù),從這些數(shù)據(jù)中找到有用的信息需要經(jīng)過數(shù)據(jù)挖掘和處理。本文運(yùn)用最簡單的數(shù)學(xué)模型得出良好的效果。本文需要進(jìn)行協(xié)整性檢驗(yàn)、因果關(guān)系檢驗(yàn),所以選擇計量經(jīng)濟(jì)學(xué)觀察(Eviews)來分析處理關(guān)鍵詞的搜索量指數(shù)。

1.2.1 Eviews簡介

Eviews是Econometrics Views的縮寫,主要應(yīng)用在經(jīng)濟(jì)學(xué)領(lǐng)域,可用于回歸分析與預(yù)測(regression and forecasting)、時間序列(Time series)以及橫截面數(shù)據(jù)(cross-sectional data )分析。EViews提供單元根檢驗(yàn)(用于單個序列的ADF,Phillips-Perron,KPSS,DFGLS,ERS 和 Ng-Perron,及用于面板數(shù)據(jù)(panel data)的Levin-Lin-Chu,Breitung, Im-Pesaran-Shin,F(xiàn)isher和 Hadri),協(xié)整檢驗(yàn)(帶有MacKinnon-Haug-Michelis關(guān)鍵值和p值),因果關(guān)系檢驗(yàn),自相關(guān)和部分自相關(guān)函數(shù),Q統(tǒng)計和互相關(guān)函數(shù)。與其他統(tǒng)計軟件(如Excel、SAS、SPSS)相比,Eviews功能優(yōu)勢是回歸分析與預(yù)測。

1.2.2 關(guān)鍵詞搜索數(shù)據(jù)處理的具體步驟

1.2.2.1 相關(guān)性檢驗(yàn)

把世園會的客流量叫做因變量,用Y來表示;各個關(guān)鍵詞的搜索量叫做自變量,用Xi來表示。變量之間存在的不確定的數(shù)量關(guān)系稱為相關(guān)關(guān)系,研究這種相關(guān)關(guān)系是統(tǒng)計分析中一項重要內(nèi)容。相關(guān)系數(shù)是兩個變量之間相關(guān)關(guān)系密切程度的一個指標(biāo),能夠較為客觀、準(zhǔn)確地測量變量之間的這種相關(guān)關(guān)系,在本模型中把相關(guān)系數(shù)大的關(guān)鍵詞列入到模型中。

1.2.2.2 平穩(wěn)性檢驗(yàn)

如果一個隨機(jī)過程的均值和方差在時間過程上都是常數(shù),并且在任何兩時期的協(xié)方差值僅依賴于該兩時期間的距離或滯后,而不依賴于計算這個協(xié)方差的實(shí)際時間,就稱它為平穩(wěn)的。將一個隨機(jī)游走變量(即非平穩(wěn)數(shù)據(jù))對另一個隨機(jī)游走變量進(jìn)行回歸可能導(dǎo)致荒謬的結(jié)果,證明兩者之間的關(guān)系是不存在的。

有時候時間序列的高度相關(guān)僅僅是因?yàn)槎咄瑫r隨時間有向上或向下變動的趨勢,并沒有真正的聯(lián)系,這種情況就稱為“偽回歸”(Spurious Regression)。

1.2.2.3 建立回歸方程并進(jìn)行協(xié)整性檢驗(yàn)

有時雖然兩個變量都是隨機(jī)游走的,但它們的某個線形組合卻可能是平穩(wěn)的,稱這兩個變量是協(xié)整的。

由于很多時間序列數(shù)據(jù)都是不平穩(wěn)的,可能受某些共同因素的影響,從而在時間上表現(xiàn)出共同的趨勢,即變量之間存在一種穩(wěn)定的關(guān)系,因此某種線性組合可能是平穩(wěn)的,即存在協(xié)整關(guān)系。

檢驗(yàn)的方法:對于檢驗(yàn)時間序列Xi和Y之間是否存在協(xié)整關(guān)系,首先用OLS建立回歸方程并進(jìn)行估計。然后,檢驗(yàn)殘差是否是平穩(wěn)的,因?yàn)槿绻鸛i和Y沒有協(xié)整關(guān)系,任一線性組合都是非平穩(wěn)的,殘差也將是非平穩(wěn)的。

1.2.2.4 模型的預(yù)測

進(jìn)行完一系列的準(zhǔn)備工作后,要做的是運(yùn)用建好的模型進(jìn)行預(yù)測,把預(yù)測的客流量和真實(shí)的客流量進(jìn)行分析,比較其誤差,最后進(jìn)行模型的修正,取得較好的擬合度。

2 實(shí)證分析

2.1 數(shù)據(jù)來源

本文以西安世園會為研究對象,西安世園會是A2+B1級別,2011年4月28日開始到2011年10月22日結(jié)束,在開園期間設(shè)有專門人員統(tǒng)計每天的客流量發(fā)布在官方指定的媒介上,本文以此數(shù)據(jù)作為回歸模型y=c+■βixi+ei中的因變量y,其中c為常數(shù)項,ei為回歸方程的殘差。自變量xi(各個關(guān)鍵詞的搜索量)來源于谷歌趨勢,以周為單位進(jìn)行處理,并與因變量y在時間上一一對應(yīng)。

2.2 關(guān)鍵詞的選取

首先是按照經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞,然后以此為基礎(chǔ),運(yùn)用前面介紹的關(guān)鍵詞查找工具找到一系列的關(guān)鍵詞。比如,有經(jīng)驗(yàn)得到的基準(zhǔn)關(guān)鍵詞為西安,運(yùn)用愛站網(wǎng)可以得到相關(guān)關(guān)鍵詞西安天氣、西安公交、西安旅游、西安吧、西安辦證、西安事變、西安地鐵等等。之后用谷歌趨勢找出每個關(guān)鍵詞的搜索量指數(shù),去掉因?yàn)樗阉髁刻俣鵁o法形成搜索指數(shù)的關(guān)鍵詞,進(jìn)行初步的篩選,如表1所示。

關(guān)鍵詞確定后畫出各個關(guān)鍵詞和客流量之間的關(guān)系圖,初步判定關(guān)鍵詞和客流量之間的相關(guān)關(guān)系,去掉相關(guān)性差的關(guān)鍵詞,關(guān)鍵詞和客流量的相關(guān)關(guān)系圖如圖1所示。

然后用Eviews計算出關(guān)鍵詞和客流量之間的相關(guān)系數(shù),結(jié)果如表2所示。

2.3 關(guān)鍵詞序列的平穩(wěn)性檢驗(yàn)

為確保各關(guān)鍵詞和客流量之間存在著回歸關(guān)系,提高模型的準(zhǔn)確度,需要對序列進(jìn)行平穩(wěn)性檢驗(yàn),運(yùn)用Augmented Dickey-Fuller test(增項DF單位根檢驗(yàn))進(jìn)行檢驗(yàn),判斷是否平穩(wěn)的標(biāo)準(zhǔn)是檢驗(yàn)統(tǒng)計量大于臨界值則拒絕原假設(shè),即序列式不平穩(wěn);反之,序列式平穩(wěn)。通過平穩(wěn)性檢驗(yàn),得出各關(guān)鍵詞組成的時間序列二階差分在各個顯著性水平下都是平穩(wěn)的,結(jié)果如表3所示。

2.4 回歸模型的建立和協(xié)整檢驗(yàn)

根據(jù)以上分析,確定出可以用于模型建立的關(guān)鍵詞,運(yùn)用Eviews用最小二乘法建立回歸模型,得出因變量系數(shù)、殘差以及殘差和真實(shí)數(shù)據(jù)之間的關(guān)系圖,由于自變量較多、各自變量的系數(shù)也較大,具體的回歸模型用圖2顯示;圖3為所建模型與世園會真實(shí)客流量之間的擬合關(guān)系圖。

由上可知,所建模型的擬合度是88%,具有較高的準(zhǔn)確度,可以用于預(yù)測。

為了使模型更具有說服力,驗(yàn)證因變量和自變量之間具有長期穩(wěn)定性,即協(xié)整性檢驗(yàn),具體方法是檢驗(yàn)回歸方程的殘差是否平穩(wěn)序列,如果是平穩(wěn)序列則說明是具有長期穩(wěn)定性;反之則沒有,結(jié)果如表4所示。

由表4分析可知?dú)埐钍瞧椒€(wěn)序列,所以存在協(xié)整關(guān)系。

2.5 模型預(yù)測

青島世園會與西安世園會的相似之處:

(1)級別都是A2+B1。

(2)在第六次人口普查時,青島常住人口871.51萬,西安常住人口846.78萬,常住人口數(shù)量基本持平。

(3)西安的景點(diǎn)共有20處,青島的景點(diǎn)共有16處,在總數(shù)上接近。

(4)2011年西安GDP3 864.21億元人民幣 ,常住人口846萬 ,人均GDP:45 676.24元人民幣;青島GDP5 666億元,常住人口872萬,人均GDP:64 977元人民幣。

綜上所述,西安和青島都是旅游城市,人口數(shù)量,經(jīng)濟(jì)發(fā)展總量基本相當(dāng),世園會級別相同。因此,可以把上面建立的模型用于青島世園會的客流量預(yù)測。具體的方法是:找到與西安世園會相類似的關(guān)鍵詞,比如用青島代替西安、棧橋代替兵馬俑、青島天氣代替西安天氣等,把這些與青島有關(guān)的關(guān)鍵詞的搜索量作為模型中相對應(yīng)的自變量的數(shù)值,代入模型求值即可得出搜索量一定時青島世園會的客流量。

3 結(jié) 論

本文提出了一種基于網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行青島世園會客流量預(yù)測模型,根據(jù)西安和青島兩個城市的諸多相似之處,通過使用西安世園會的數(shù)據(jù)進(jìn)行實(shí)例驗(yàn)證,把建立好的模型用于青島世園會的預(yù)測。該模型采用網(wǎng)絡(luò)數(shù)據(jù)作為分析的依據(jù),避免了傳統(tǒng)數(shù)據(jù)的弊端,同時使用簡單的回歸模型,避免了灰色理論、神經(jīng)網(wǎng)絡(luò)等方法的繁瑣的計算,取得了較高的擬合度和準(zhǔn)確度。另外,該方法具有較高的時效性,能夠更早地被相關(guān)的人員利用,提早為各項工作做好準(zhǔn)備。

主要參考文獻(xiàn)

[1]J Ginsberg,M H Mohebbi,R S Patel,etc. Detecting Influenza Epidemics Using Search Engine Query Data[J]. Nature,2009,457:1012-1014.

[2]劉穎,呂本富,彭賡.網(wǎng)絡(luò)搜索數(shù)據(jù)對股票市場的預(yù)測能力:理論分析與實(shí)證檢驗(yàn)[J].經(jīng)濟(jì)管理,2011(1).

[3]袁慶玉,彭賡,劉穎,等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷售預(yù)測研究[J].管理學(xué)家:學(xué)術(shù)版,2011(1).

[4]周子健.基于網(wǎng)絡(luò)搜索量的上海世博會國際影響力研究[J].藝海,2011(5).

[5]王小平,孫彩賢.基于多元回歸模型的2010年上海世博會客流量預(yù)測分析[J].江漢大學(xué)學(xué)報,2010(2).

猜你喜歡
回歸模型客流量預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(B卷)
選修2-2期中考試預(yù)測卷(A卷)
基于嵌入式系統(tǒng)的商場客流量統(tǒng)計算法
不必預(yù)測未來,只需把握現(xiàn)在
農(nóng)村秸稈處理方式的影響因素
東方教育(2016年9期)2017-01-17 00:43:44
國際旅游外匯收入影響因素分析
電子商務(wù)影響因素的計量分析
商(2016年28期)2016-10-27 20:23:05
恩格爾系數(shù)與消費(fèi)者支出模式變動的關(guān)系
商(2016年6期)2016-04-20 18:59:54
基于AFC數(shù)據(jù)的城軌站間客流量分布預(yù)測
徐水县| 黄骅市| 安新县| 北宁市| 平原县| 湘西| 大渡口区| 正阳县| 特克斯县| 老河口市| 乌拉特中旗| 丘北县| 宿迁市| 治县。| 清镇市| 景宁| 明光市| 玉山县| 青田县| 正阳县| 凤冈县| 唐河县| 德兴市| 葫芦岛市| 鸡东县| 天峻县| 蕉岭县| 汉寿县| 大余县| 长子县| 铜梁县| 涿鹿县| 白水县| 友谊县| 江川县| 四平市| 东兰县| 夏河县| 芷江| 安新县| 买车|