郭榮榮,閔素芹,郭曉航
(中國(guó)傳媒大學(xué) 數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024)
隨著社會(huì)的發(fā)展和人民收入水平的不斷提高,人們對(duì)于旅游的需求也在逐步變大,使得我國(guó)旅游業(yè)呈現(xiàn)出一片欣欣向榮的景象。旅游的熱門選擇大部分集中在知名度高、自然風(fēng)景秀麗的地點(diǎn),同時(shí)旅游產(chǎn)業(yè)具有周期性的特點(diǎn),季節(jié)的替換將直接影響旅游人數(shù)的數(shù)量。為了保持我國(guó)旅游業(yè)持續(xù)健康的發(fā)展,合理規(guī)劃旅游產(chǎn)業(yè)就顯得及其重要,而在這里發(fā)揮重要作用的就是對(duì)旅游需求的預(yù)測(cè)。及時(shí)準(zhǔn)確地預(yù)測(cè)旅游需求,不僅有助于旅游部門能夠及時(shí)預(yù)防景區(qū)容納與游客人數(shù)需求不匹配的現(xiàn)象,而且有利于旅游從業(yè)者調(diào)整旅游服務(wù)的供給,避免出現(xiàn)供求失衡的現(xiàn)象,從而提高旅游的經(jīng)濟(jì)效益[1]。
對(duì)旅游需求的預(yù)測(cè)最早使用的方法是自回歸移動(dòng)平均(ARMA)模型和它的拓展形式、加入誤差修正項(xiàng)的自回歸分布滯后(ARDL)模型、選取多個(gè)預(yù)測(cè)模型進(jìn)行對(duì)比等[2]。在上面這些模型的基礎(chǔ)上進(jìn)行預(yù)測(cè)雖然具有合理性,實(shí)際上卻忽略了對(duì)旅游需求有指示性的相關(guān)變量,隨著網(wǎng)絡(luò)的飛速發(fā)展,旅游前游客會(huì)通過(guò)電子設(shè)備搜索目的地的相關(guān)信息。因此,國(guó)內(nèi)外學(xué)者對(duì)互聯(lián)網(wǎng)搜索量的加入是否能夠提高傳統(tǒng)模型預(yù)測(cè)精度這一問(wèn)題,展開了很多研究。例如:秦夢(mèng)和劉漢[2]、劉漢和王永蓮[3]利用旅游需求的混頻預(yù)測(cè)研究,并且將它與傳統(tǒng)的同頻預(yù)測(cè)模型作比較,研究結(jié)果證實(shí)基于網(wǎng)絡(luò)搜索數(shù)據(jù)的混頻預(yù)測(cè)模型的預(yù)測(cè)精度要比傳統(tǒng)的同頻模型預(yù)測(cè)精度更高。Park等[4]、任樂(lè)和崔東佳[5]通過(guò)對(duì)不同地區(qū)旅游人數(shù)的預(yù)測(cè),研究結(jié)果表明加入谷歌搜索數(shù)據(jù)或百度指數(shù)的模型能夠有效的提高模型預(yù)測(cè)精度,并且使得樣本外預(yù)測(cè)更加具有有效性,同時(shí)也可提高擬合優(yōu)度。Ghysels等提出混頻數(shù)據(jù)抽樣(MIDAS)模型,能夠?qū)⒏鱾€(gè)頻率不同的數(shù)據(jù)加入到同一模型里,從而不需要對(duì)原始數(shù)據(jù)進(jìn)行分析處理[6]。以上觀點(diǎn)表明了混頻數(shù)據(jù)模型具有很好的預(yù)測(cè)效果。
因此,本文將高頻百度指數(shù)數(shù)據(jù)應(yīng)用到低頻旅游需求的預(yù)測(cè)中,并構(gòu)建基于百度指數(shù)的混頻數(shù)據(jù)模型,對(duì)北京旅游需求進(jìn)行短期的預(yù)測(cè)研究,為北京游客量的短期預(yù)測(cè)提供方法支持[3]。利用月度數(shù)據(jù)預(yù)測(cè)季度數(shù)據(jù)時(shí),當(dāng)季度數(shù)據(jù)中第一個(gè)月的數(shù)據(jù)發(fā)布之后,就可以使用MIDAS模型來(lái)預(yù)測(cè)季度北京旅游需求。利用網(wǎng)絡(luò)的及時(shí)性對(duì)游客量的進(jìn)行預(yù)測(cè),不僅有利于旅游行業(yè)制定和調(diào)整旅游的發(fā)展規(guī)劃,而且能夠提高旅游需求預(yù)測(cè)的精確性。相對(duì)于已有的研究來(lái)看,本文主要研究基于混頻數(shù)據(jù)模型對(duì)北京旅游人數(shù)進(jìn)行短期預(yù)測(cè),利用北京美食百度指數(shù)的月度數(shù)據(jù)來(lái)預(yù)測(cè)北京旅游人數(shù)的季度數(shù)據(jù)。具體方法步驟是,首先簡(jiǎn)單的介紹了北京旅游人數(shù)的MIDAS模型,以及四種不同的權(quán)重形式和估計(jì)方法;其次,構(gòu)建加入百度指數(shù)數(shù)據(jù)的混頻數(shù)據(jù)模型,得到了北京旅游人數(shù)的預(yù)測(cè)結(jié)果;最后,結(jié)合分析得到了本文的結(jié)論。
北京旅游需求選用北京季度接待國(guó)內(nèi)旅游區(qū)(點(diǎn))游客人數(shù)來(lái)反應(yīng),下面簡(jiǎn)稱為北京旅游人數(shù),數(shù)據(jù)來(lái)源于北京市統(tǒng)計(jì)局官方網(wǎng)站,時(shí)間范圍為2015年第一季度至 2019年第四季度。百度指數(shù)能夠提供免費(fèi)的分析數(shù)據(jù)功能,可以反映出基于不同關(guān)鍵詞的用戶關(guān)注度[7]。在百度指數(shù)中以“北京美食”為關(guān)鍵詞,并將時(shí)間范圍設(shè)為2015年1月至 2019年12月,即可得到北京美食所對(duì)應(yīng)的百度指數(shù)日數(shù)據(jù)。每月百度指數(shù)日數(shù)據(jù)所對(duì)應(yīng)的平均值,即為本文所使用的百度指數(shù)月度數(shù)據(jù)。
由圖1可以看出,北京季度旅游人數(shù)與北京美食百度指數(shù)月度數(shù)據(jù)波動(dòng)趨勢(shì)大體相仿,但波動(dòng)幅度有所差異,且北京旅游人數(shù)總體呈上升趨勢(shì),這反映了我國(guó)人民生活水平的提高,對(duì)旅游的需求也在不斷增加。同時(shí)也可以看出無(wú)論是來(lái)北京的旅游人數(shù)還是北京美食的搜索量都表現(xiàn)出了顯著的季節(jié)性,其中北京旅游人數(shù)在每年的6到8月以及10月較高,北京美食搜索量的關(guān)注度集中體現(xiàn)在每年的6月到8月。此外,它們的基本走勢(shì)表現(xiàn)出來(lái)了一定的趨同性,變化幅度大致相同。這說(shuō)明百度指數(shù)在一定程度上能夠表現(xiàn)出人們喜歡來(lái)北京旅游的意愿,對(duì)預(yù)測(cè)來(lái)北京的旅游人數(shù)能夠起到作用,也為后文的建模提供了參考。
圖1 北京季度旅游人數(shù)與北京美食百度指數(shù)月度數(shù)據(jù)的走勢(shì)圖
混頻數(shù)據(jù)抽樣模型(MIDAS)是Ghysels基于分布滯后模型的基礎(chǔ)上提出來(lái)的,它最大的優(yōu)勢(shì)是可以提取高頻數(shù)據(jù)中隱藏的重要且有效的信息,進(jìn)而可以把提取出來(lái)的信息進(jìn)行分析和預(yù)測(cè)。本文將比較分析指數(shù)Almon權(quán)重函數(shù)、Almon權(quán)重函數(shù)、Beta權(quán)重函數(shù)、UMIDAS權(quán)重函數(shù)這4種權(quán)重函數(shù)形式下混頻數(shù)據(jù)抽樣模型的預(yù)測(cè)精度,并在其中選擇出預(yù)測(cè)精度最高的多項(xiàng)式權(quán)重函數(shù)形式。
單變量MIDAS(m,k)模型是指單獨(dú)考慮一個(gè)解釋變量對(duì)被解釋變量產(chǎn)生的影響,研究?jī)烧咧g的動(dòng)態(tài)關(guān)系[8]。因此,北京旅游人數(shù)預(yù)測(cè)的MIDAS模型可以表示為:
(1)
自回歸單變量混頻數(shù)據(jù)抽樣模型MIDAS(m,k)—AR(ρ)的原理:它是在混頻數(shù)據(jù)抽樣模型的基礎(chǔ)上,思考前期的北京旅游人數(shù)對(duì)當(dāng)期北京旅游人數(shù)的影響。換言之就是考慮了北京旅游人數(shù)自身之間的動(dòng)態(tài)效應(yīng)。模型的表達(dá)式寫為如下的形式[9]:
(2)
其中,j表示北京旅游人數(shù)的滯后階數(shù),p是它的最大滯后階數(shù),λj表示北京旅游人數(shù)各個(gè)滯后期對(duì)當(dāng)前的影響反應(yīng)。
(3)淬火溫度 當(dāng)材料和原始組織一定時(shí),相變溫度隨加熱速度增大而提高,為得到合格的淬火組織,相應(yīng)的淬火溫度也應(yīng)隨之提高。通常加熱速度越大,淬火溫度的上下限越高,允許的淬火溫度范圍越大。
MIDAS模型估計(jì)中的重要問(wèn)題是有關(guān)權(quán)重函數(shù)W(k;θ)中的滯后階數(shù)K和參數(shù)向量θ的選擇,這與權(quán)重函數(shù)的選擇有關(guān)系,因?yàn)槎囗?xiàng)式權(quán)重對(duì)減少模型的待估計(jì)參數(shù)很有效果[10]。本文共討論了4種多項(xiàng)式權(quán)重對(duì)混頻數(shù)據(jù)抽樣模型預(yù)測(cè)精度的影響,并在其中選擇出了最優(yōu)的多項(xiàng)式權(quán)重形式。
Almon多項(xiàng)式函數(shù),其基本形式為:
(3)
指數(shù)Almon多項(xiàng)式函數(shù),使用范圍最廣,可以構(gòu)造出各種不同的權(quán)重函數(shù)。它能夠保證權(quán)重?cái)?shù)為正數(shù),同時(shí)能夠使方程得到零逼近誤差的性質(zhì),基本形式為:
(4)
Beta多項(xiàng)式函數(shù)可以構(gòu)造各種形式的權(quán)重函數(shù),同時(shí)它是只帶有兩個(gè)參數(shù)的多項(xiàng)式函數(shù),具體形式為:
(5)
UMIDAS多項(xiàng)式函數(shù)是指沒(méi)有基礎(chǔ)模型里對(duì)多項(xiàng)式權(quán)重的限制,具體形式為:
(6)
對(duì)2015年第一季度至 2019年第四季度的北京旅游人數(shù)進(jìn)行建模,并加入百度指數(shù)的月度數(shù)據(jù),然后分別利用不同形式權(quán)重函數(shù)的混頻數(shù)據(jù)模型對(duì)2015年第一季度至2018年第四季度的基于百度指數(shù)的旅游需求混頻數(shù)據(jù)模型進(jìn)行估計(jì),根據(jù)該模型可以預(yù)測(cè)出2019年第一季度至 2019年第四季度的北京旅游人數(shù)。
本文首先根據(jù)MIDAS模型的樣本預(yù)測(cè)精度確定出北京旅游人數(shù)和北京美食百度指數(shù)的最優(yōu)滯后階數(shù)和最優(yōu)參數(shù)估計(jì)。以2015年第一季度至 2018年第四季度的北京旅游人數(shù)和相應(yīng)時(shí)間內(nèi)的月度北京美食百度指數(shù)為模型的估計(jì)樣本,在此基礎(chǔ)上對(duì)2019年第一季度至 2019年第四季度的北京旅游人數(shù)進(jìn)行樣本外預(yù)測(cè)。在研究的過(guò)程中,以均方根誤差(RMSE:Root Mean Square Error)指標(biāo)作為判斷模型好壞的根據(jù),因?yàn)镽MSE指標(biāo)對(duì)于反映模型的預(yù)測(cè)精度有較好的效果。混頻數(shù)據(jù)模型的預(yù)測(cè)精度越高RMSE的值越小。
在下面的分析過(guò)程中,為了展示RMSE隨變量滯后階數(shù)的變化而產(chǎn)生的變動(dòng),經(jīng)過(guò)多次試驗(yàn)的反復(fù)修改,最后確定北京美食百度指數(shù)月度數(shù)據(jù)的滯后階數(shù)從1階到12階,低頻北京旅游人數(shù)的滯后階數(shù)從0階到5階,以確定月度北京美食百度指數(shù)與季度北京旅游人數(shù)的最優(yōu)滯后階數(shù)。利用4種參數(shù)權(quán)重形式和不同滯后階數(shù)的北京美食百度指數(shù)與北京旅游人數(shù)來(lái)構(gòu)造不同的混頻數(shù)據(jù)模型。在參數(shù)估計(jì)的時(shí)候,用均方根誤差RMSE最小的原則來(lái)確定高頻北京美食百度指數(shù)和低頻北京旅游人數(shù)的最優(yōu)滯后階數(shù)和最優(yōu)權(quán)重函數(shù)形式[11]。各混頻數(shù)據(jù)模型的樣本外預(yù)測(cè)精度如表1所示。
表1 不同混頻模型RMSE值
在表1中本文只寫出了具有代表性的北京旅游人數(shù)滯后階數(shù)的MIDAS模型的預(yù)測(cè)精度。北京旅游人數(shù)滯后階數(shù)的MIDAS模型預(yù)測(cè)精度隨著高頻數(shù)據(jù)北京美食百度指數(shù)滯后階數(shù)的變動(dòng),其樣本外預(yù)測(cè)精度也在發(fā)生變化。由表1可以看出,當(dāng)北京旅游人數(shù)的滯后階數(shù)是1階時(shí),北京美食的百度指數(shù)的最優(yōu)滯后階數(shù)是3階,同時(shí)最優(yōu)多項(xiàng)式權(quán)重形式是Beta,它的預(yù)測(cè)精度是627.8102;當(dāng)北京旅游人數(shù)的滯后階數(shù)是2階時(shí),北京美食的百度指數(shù)最優(yōu)滯后階數(shù)是3階,同時(shí)最優(yōu)多項(xiàng)式權(quán)重形式是Exp-Almon,它的預(yù)測(cè)精度是578.7345;當(dāng)北京旅游人數(shù)的滯后階數(shù)是3階時(shí),北京美食的百度指數(shù)最優(yōu)滯后階數(shù)是5階,同時(shí)最優(yōu)多項(xiàng)式權(quán)重形式是Exp-Almon,它的預(yù)測(cè)精度是492.2571。通過(guò)對(duì)比可知,當(dāng)北京旅游人數(shù)的滯后階數(shù)是3階、北京美食的百度指數(shù)最優(yōu)滯后階數(shù)是5階時(shí),指數(shù)Almon混頻數(shù)據(jù)模型(AR(3)-Exp-Almon(3,5))的模型預(yù)測(cè)具有較高的精度。
由上面的分析可以看出當(dāng)北京旅游人數(shù)的滯后階數(shù)是3階、北京美食的百度指數(shù)最優(yōu)滯后階數(shù)是5階時(shí),指數(shù)Almon權(quán)重混頻預(yù)測(cè)精度較高。為了充分比較預(yù)測(cè)結(jié)果,下面列出了在滯后階數(shù)相同時(shí),指數(shù)Almon權(quán)重、Almon權(quán)重、Beta權(quán)重、UMIDAS權(quán)重的混頻預(yù)測(cè)結(jié)果的具體數(shù)值。
由表2可以看出這四種權(quán)重的混頻預(yù)測(cè)人數(shù)與2019第一季度至2019年第四季的北京實(shí)際旅游人數(shù)誤差較小,與實(shí)際結(jié)果接近程度很高。同時(shí)也可以看出不同形式的權(quán)重函數(shù)預(yù)測(cè)出來(lái)的結(jié)果是不同的,會(huì)對(duì)預(yù)測(cè)來(lái)北京旅游的人數(shù)是有影響的。
表2 不同混頻模型預(yù)測(cè)2019年北京旅游人數(shù)值(萬(wàn)人次)
因此當(dāng)北京旅游人數(shù)的滯后階數(shù)是3階、北京美食的百度指數(shù)最優(yōu)滯后階數(shù)是5階時(shí),分別采用指數(shù)Almon、Almon、Beta、UMIDAS權(quán)重函數(shù)的MIDAS-AR模型對(duì) 2015年第一季度至 2018年第四季度的北京旅游人數(shù)和相應(yīng)時(shí)間內(nèi)的月度北京美食百度指數(shù)數(shù)據(jù)的混頻模型進(jìn)行估計(jì),并根據(jù)該模型對(duì)2019年第一季度至 2019年第四季度的北京旅游人數(shù)進(jìn)行預(yù)測(cè),其預(yù)測(cè)結(jié)果如圖2所示。
圖2 MIDAS模型預(yù)測(cè)結(jié)果
由圖2可以看出,指數(shù)Almon權(quán)重函數(shù)的MIDAS預(yù)測(cè)模型預(yù)測(cè)精度較高,主要是由于高頻北京美食百度指數(shù)數(shù)據(jù)作用于低頻北京旅游人數(shù)的方式上,同時(shí)也可以看出加入月度數(shù)據(jù)的MIDAS模型預(yù)測(cè)結(jié)果與實(shí)際大致符合
因此,旅游需求預(yù)測(cè)需要考慮到加入具有預(yù)測(cè)效果的百度指數(shù)搜索數(shù)據(jù),它可以體現(xiàn)游客在旅游之前做的準(zhǔn)備工作、游玩時(shí)所參與的活動(dòng)以及旅游后在網(wǎng)絡(luò)上留下的反饋痕跡,這些都隱含著非常多豐富的信息[12]?;祛l數(shù)據(jù)模型能夠把這類數(shù)據(jù)合理應(yīng)用,同時(shí)也對(duì)旅游需求預(yù)測(cè)模型起到了良好的補(bǔ)充作用。
準(zhǔn)確的旅游需求模型預(yù)測(cè),不僅對(duì)旅游業(yè)的從業(yè)者來(lái)說(shuō)具有非常重要的參考價(jià)值,同樣也對(duì)于游客的行為產(chǎn)生了重要的影響。本文以北京旅游人數(shù)作為旅游需求的代替變量,利用了加入百度指數(shù)數(shù)據(jù)的混頻數(shù)據(jù)模型對(duì)旅游需求進(jìn)行預(yù)測(cè)分析。實(shí)證結(jié)果表明:加入百度指數(shù)月度數(shù)據(jù)的混頻數(shù)據(jù)模型預(yù)測(cè)結(jié)果與實(shí)際情況非常接近,這主要是因?yàn)榘俣戎笖?shù)可以表現(xiàn)游客的在線行為,即表現(xiàn)了游客對(duì)旅游目的地的關(guān)注行為,而這種關(guān)注行為在百度指數(shù)中得到了體現(xiàn)。由于百度指數(shù)是傳統(tǒng)意義上影響旅游需求以外的因素,所以能夠?qū)β糜涡枨箢A(yù)測(cè)結(jié)果加以改進(jìn)。而指數(shù)Almon權(quán)重的MIDAS模型比其它不同權(quán)重形式的MIDAS模型預(yù)測(cè)精度高,這表明了混頻數(shù)據(jù)模型所采用的權(quán)重形式不同,旅游需求預(yù)測(cè)的結(jié)果也不相同。因此我們?cè)诜治鲱A(yù)測(cè)時(shí),需要進(jìn)行優(yōu)化處理去找到最合適的預(yù)測(cè)模型,從而將它用于旅游需求的預(yù)測(cè)中。
基于百度指數(shù)的混頻數(shù)據(jù)模型對(duì)北京旅游需求的預(yù)測(cè)具有有效性,同時(shí)百度指數(shù)與混頻數(shù)據(jù)模型相結(jié)合也使得旅游需求的預(yù)測(cè)兼具時(shí)效性和準(zhǔn)確性的特點(diǎn)。本文的結(jié)論為其它地區(qū)或景點(diǎn)旅游需求的預(yù)測(cè)提供了新思路,游客及旅游業(yè)相關(guān)部門可據(jù)此及時(shí)準(zhǔn)確地預(yù)測(cè)旅游人數(shù),以實(shí)現(xiàn)該地區(qū)旅游產(chǎn)業(yè)的蓬勃發(fā)展,具有指導(dǎo)、實(shí)踐意義。
百度指數(shù)所蘊(yùn)含的信息十分豐富,本文用“北京美食”這個(gè)關(guān)鍵詞作為百度指數(shù)月度數(shù)據(jù)的代表還具有一些不足。具體的可以將游客旅行前后的行為,例如游客在出行之前會(huì)從衣、食、住、行、游、購(gòu)等方面來(lái)選取相關(guān)關(guān)鍵詞,若把這些關(guān)鍵詞都包括進(jìn)行研究,這樣研究得到的結(jié)果會(huì)加大可信度。