李 莼 曹艷姣 呂本富
基于網絡搜索指數的游客人數預測研究
——以新疆阿勒泰冰雪旅游為例
李 莼 曹艷姣 呂本富
文章主要對新疆阿勒泰地區(qū)的旅游需求進行預測。通過選取影響阿勒泰地區(qū)旅游人數的影響因子建模,采用網絡搜索指數合成方法對旅游人數進行預測,得到2013年9~12月的旅游人數預測數據,較之傳統的時間序列模型,預測精度有一定的改進。
影響因素 網絡搜索 旅游人數預測
從研究方法的角度來看,國內對旅游需求的預測多采用時間序列的分析方法,較少使用計量模型進行影響因素分析。所謂時間序列的分析是指以時間序列反映的社會經濟現象的發(fā)展過程和規(guī)律性進行引伸外推,進而預測其發(fā)展趨勢。由于此方法并不考慮造成這種趨勢的內在原因,一般不作為政策評價的依據。計量模型是基于回歸理論估計旅游需求及其決定因素之間的定量關系,其模型的構建有著比較嚴格的理論基礎,在一定程度上可以解釋旅游需求變化的原因,能夠為制定旅游經濟政策提供決策依據。文章通過建立新疆各地區(qū)旅游人數影響因素的計量模型,借鑒得到決定阿勒泰旅游需求的主要影響因素,對阿勒泰地區(qū)的旅游需求進行預測。
結合阿勒泰地區(qū)的實際情況,本文選擇的自變量包括如下維度:旅游質量、旅游價格、替代價格、收入、特殊事件的虛擬變量、滯后一期變量(滯后因變量和自變量)、收入的平方項、交叉項等。考慮到數據的可獲得性,因變量選取新疆14個地州和烏魯木齊市2008~2012年的旅游接待人數,經過對模型不斷調整,最終得到模型(如表1)。
模型含有10個自變量,由表1可以看到,模型調整后R2為0.881,F值為80.440,F檢驗通過,表明模型自變量的各個因素對阿勒泰地區(qū)的旅游人數有影響。模型的設定置信水平=5%,在此水平下,模型中自變量前的系數除去全疆高速公路里程、特殊事件(負向)兩個變量外,全部通過顯著性檢驗,P值幾乎都為0.000,且各變量前的符號與預期相符。
A級以上旅游景區(qū)個數變量前的系數顯著為正,說明A級以上旅游景區(qū)個數作為旅游質量的一個重要組成部分,是影響人們出游的重要因素。在其他因素不變的情況下,旅游景區(qū)質量越好,吸引到該地的游客越多。距離與A級以上旅游景區(qū)個數的交叉項系數顯著為正,說明與烏魯木齊距離受到目的地A級以上旅游景區(qū)個數的正向調節(jié)。目的地A級以上旅游景區(qū)個數作為調節(jié)變量對與烏魯木齊距離這個變量施加了正向影響。盡管與烏魯木齊距離變量前的系數顯著為負,但是交叉項因調節(jié)變量對旅游需求的正向影響而顯示系數為正。由此可以得到旅游質量是影響阿勒泰地區(qū)旅游業(yè)發(fā)展的重要因素,應當充分挖掘當地特色資源,形成特色旅游產業(yè)鏈。
表1 模型最終結果
全疆高速公路里程變量沒有通過顯著性檢驗。
與烏魯木齊距離變量前的系數顯著為負,說明距離是影響人們出游的一個重要因素。在其他因素不變的情況下,距離烏魯木齊越遠,到該地的旅游人數越少。由此可以得到阿勒泰旅游業(yè)的健康發(fā)展需要道路交通設施的不斷完善及營造有利于游客觀光游覽等出行的便利條件。
旅游知名度前的系數顯著為正,說明目的地的知名度是影響人們出游的重要因素。在其他因素不變的情況下,目的地知名度越高,吸引到該地的游客越多。由此可以得到加強阿勒泰地區(qū)的宣傳力度有助于阿勒泰旅游產業(yè)的發(fā)展。阿勒泰地區(qū)旅游知名度的提高有賴于當地特色的旅游資源、良好的服務水平和有效的宣傳手段。
全國人均可支配收入的平方項系數顯著說明人均收入對旅游業(yè)的影響是存在二次曲線相關的。新疆城鎮(zhèn)居民消費指數變量前沒有通過顯著性檢驗。
特殊事件通過設定兩個虛擬變量來實現。特殊事件(正向)指當發(fā)生對旅游人數有推動作用的事件時,該變量取值為1,其余情況變量取值為0;特殊事件(負向)指當發(fā)生對旅游人數有阻礙作用的事件時,該變量取值為1,其余情況變量取值為0。特殊事件基本不可預測。正向特殊事件變量前的系數顯著為正說明大型賽事等對阿勒泰地區(qū)旅游發(fā)展有促進作用,負向特殊事件變量前的系數統計不顯著。
滯后一期旅游人數變量前的系數為正,說明阿勒泰地區(qū)旅游人數存在周期波動,前一期因變量會對后一期的因變量有正向影響。
本文采用網絡搜索指數合成方法對阿勒泰地區(qū)旅游人數進行預測,所需要的阿勒泰旅游人數月度數據來自新疆阿勒泰旅游局官方統計網站,選取2011年6月到2013年9月共計27個月度數據。網絡搜索關鍵詞的搜索數據來源于百度指數,時間范圍限制在2011年6月到2013年9月,且對搜索數據做如下限定:搜索來自中國(包含港澳臺),不包含國外的搜索。
首先,隨著信息技術的迅速發(fā)展,互聯網已經成為消費者獲得信息的最大平臺。利用互聯網搜索引擎進行搜索已經成為消費者獲取信息的重要工具之一。同時,搜索引擎會將消費者搜索信息記錄下來,這些被留存下來的信息則成為未來學術研究的重要數據來源。其次,關于旅游人數預測的方法國內已有相當的研究,但這些方法主要是利用已有歷史數據進行預測,具有較大的滯后性,預測精度會受限。隨著網絡技術對社會行為研究的深入,針對旅游行為的預測也加入研究的行列。基于網絡搜索技術的旅游行為預測研究主要集中在網絡關注度與旅游客流關系的研究上。綜上,基于網絡搜索數據合成指數方法對新疆阿勒泰地區(qū)旅游人數進行預測具有一定的必要性和可行性。
1.網絡搜索關鍵詞的選取
通過對旅游基本理論和旅游者行為分析,確立了可旅游活動六要素:從衣、食、住、行、購、娛來拓展,結合阿勒泰地區(qū)旅游的具體情況,人工選擇了“阿勒泰特色食物、阿勒泰酒店、阿勒泰農家樂、阿勒泰特色節(jié)日、阿勒泰機場、阿勒泰汽車站、阿勒泰購物、阿勒泰娛樂”等初始關鍵詞。其次,利用百度搜索推薦關鍵詞功能,獲得相關性較大的關鍵詞,并剔除重復詞語,最終得到268個關鍵詞,并組成關鍵詞詞庫(如表2所示)。
表2 部分關鍵詞
2.指數合成
首先,計算所選定的每個關鍵詞的月度搜索量與阿勒泰地區(qū)的月度旅游人數的皮爾遜相關系數(即簡單相關系數),考慮到旅游人數與關鍵詞搜索量的時滯性,為了獲得相對穩(wěn)定的簡單相關系數,對每一關鍵詞計算7次相關系數,即通過分別計算阿勒泰旅游人數與提前0~6期(0~6個月份)的268個關鍵詞的搜索數據可以得到。為了便于關鍵詞的篩選與最終合成指數,對相關系數做如下規(guī)定:相關系數大于等于0.7的入選,相關系數小于0.7,表明關鍵詞與旅游人數的線性相關性不強,所以暫不考慮。表3為42個相關系數大于0.7的關鍵詞及滯后期數,指數合成關鍵詞如下:
表3說明阿勒泰地區(qū)旅游人數與多數關鍵詞滯后0、1、2期的搜索指數存在較強的相關性。說明從整體來看,游客一般會在出行前當月或者提前一個月來搜索相關信息。
從選定的42個關鍵詞中運用錯位相加的方法,通過相關系數選擇與旅游人數關聯性最強的關鍵詞,進而合成指數用以對阿勒泰地區(qū)的月度旅游人數進行預測。具體來講,就是基于各個關鍵詞0~6期最大的簡單相關系數確定每一個關鍵詞的滯后期數,不斷選取最大相關系數的關鍵詞,對原始的、全部確定好的滯后搜索數據進行錯位,采用擬合程度最高的關鍵詞選取方法最終合成指數(如表4所示),選定10個關鍵詞,擬合程度達到96.57%。
表3 關鍵詞相關系數及滯后期數
表4 指數合成步驟
從圖1可以直觀看到,2012年5月到2013年9月共計17個月度阿勒泰旅游人數與關鍵詞的合成指數存在趨勢一致性(峰值和低值出現月份一致)。因此,通過錯位相加自動篩選關鍵詞合成指數的方法預測阿勒泰地區(qū)旅游人數具有較強的實踐性。
利用合成指數,建立阿勒泰旅游人數的時間序列模型,根據此模型預測得到阿勒泰地區(qū)2013年9~12月的旅游人數月度數據。
首先,因為被解釋變量旅游人數與解釋變量合成指數都是時間序列數據,因此,在建立模型之前我們需要對兩列數據進行平穩(wěn)性檢驗,避免模型最終出現偽回歸現象。本文采用AugmentedDickey-Fuller(ADF)單位根檢驗。該檢驗的原假設是該序列至少有一個單位根,即序列是不平穩(wěn)的;拒絕原假設意味著該序列是平穩(wěn)序列(檢驗結果如表5所示)。
表5 變量的平穩(wěn)性檢驗
從表5可以看到,變量y(旅游人數)和x(合成指數)在5%的顯著性水平下拒絕原假設,通過了單位根檢驗,即旅游人數和合成指數是平穩(wěn)序列,因此,可直接建立時間序列模型。
其次,以旅游人數為被解釋變量,以滯后一期的旅游人數、合成指數為自變量,建立回歸模型(結果如表6)。
表6 模型結果
由表6可以看到,模型整體通過F檢驗,F-statistic為0.000,自變量x和y(-1)全部通過t檢驗,R2達到0.9151。整體來看,模型擬合效果較好。
最后,以2013年9~12月數據為檢驗數據,根據已得到的模型對該時段阿勒泰旅游人數進行預測(結果如表7所示)。
由表7可看到,指數合成和ARMA(1,1)兩種模型結果相比較而言,指數合成方法計算得到的平均誤差率為9.9%,小于ARMA(1,1)的平均誤差率12.9%。雖然指數合成方法的平均誤差率略低,但就絕對值而言,指數合成計算得到的平均誤差率依然偏高,原因是多方面的。
表7 兩種模型結果對比表
首先,建立有關阿勒泰地區(qū)旅游影響因素的計量模型。該模型包括因變量——阿勒泰地區(qū)旅游人數和10個自變量。模型結果表明自變量前的系數除全疆高速公路里程、特殊事件(負向)兩個變量外,都通過顯著性檢驗,P值幾乎都為0.000,且各變量前的符號與預期相符。因此,從挖掘當地旅游景區(qū)潛力、發(fā)展特色旅游、提高服務水平、改善基礎設施環(huán)境、實現旅游業(yè)“一條龍服務”幾個維度出發(fā),有助于阿勒泰旅游業(yè)形成較為完整的產業(yè)鏈,實現可持續(xù)發(fā)展。
其次,建立阿勒泰地區(qū)旅游人數的預測模型。本文采用網絡搜索指數合成的方法,充分考慮社會行為對需求預測的影響,較之傳統的時間序列模型,如ARMA等預測精度有一定的改進。盡管如此,模型的擬合結果有待于進一步改善。一是關鍵詞的選取需更加準確,可擴大關鍵詞的選詞范圍。本文42個關鍵詞中僅有5個關鍵詞與旅游人數的相關系數超過90%,有18個超過80%,總體來說,關鍵詞的相關性并不是非常好。二是對游客去往國內旅游目的地而言,通常游客會在出行前一個月對目的地相關信息進行檢索,也就是說滯后期為0,這點也可以從關鍵詞相關系數即滯后期看到,滯后期為0的關鍵詞占有較大比例,這就使得本文使用網絡搜索合成指數方法時不能充分利用歷史數據,使用該方法對旅游人數進行預測會影響預測精度。三是應用時間序列模型,需要較長時期的數據以保證歷史信息能夠充分利用,獲得較高的預測精度。如果能夠獲得阿勒泰地區(qū)旅游人數的周數據或日數據,最終擬合結果應該具有更高的精確度。
BurgerC.,DohnalM.,KathradaM.,etal.,APractitionersGuidetoTime-seriesMethodsforTourismDemandforEcasting-ACaseStudyofDurban,SouthAfrica,TourismManagement,2001,22(4).
Lim Christine,McAleer Michael,Time Series Forecasts of International Travel Demand for Australia,TourismManagement,2002,23.
李山、邱榮旭、陳玲:《基于百度指數的旅游景區(qū)網絡空間關注度:時間分布及其前兆效應》,《地理與地理信息科學》2009年第6期。
馬麗君、孫根年、黃蕓瑪等:《城市國內客流量與游客網絡關注度時空相關分析》,《經濟地理》2011年第4期。
龍茂興、孫根年、馬麗君等:《區(qū)域旅游網絡關注度與客流量時空動態(tài)比較分析——以四川為例》,《地域研究與開發(fā)》2011年第3期。
孫毅、呂本富:《網絡搜索與經濟行為相關性研究》,《管理評論》2011年第7期。
責任編輯:王慧君
F592.745
A
1009-5330(2016)06-0046-06
李莼,中國科學院大學經濟與管理學院管理學博士(北京 100190)、新疆污染物監(jiān)控與信息中心(新疆烏魯木齊 830000);曹艷姣,中國科學院大學經濟與管理學院碩士生;呂本富,中國科學院大學經濟與管理學院教授(北京 100190)。