江雨兮
(上海理工大學(xué) 中英國際學(xué)院,上海 200000)
隨著人們生活水平的提高,旅游業(yè)得到高速發(fā)展。為了優(yōu)化配置旅游行業(yè)的市場和資源,精確預(yù)測旅游人數(shù),把握旅游業(yè)發(fā)展趨勢是有必要的[1]。
目前,我國旅游市場趨勢的預(yù)測研究主要采用定量分析的方法來預(yù)測旅游業(yè)的發(fā)展趨勢。國內(nèi)學(xué)者關(guān)于旅游業(yè)發(fā)展研究的文獻(xiàn)分析,對旅游客流量的研究大多是從時間或空間的角度進(jìn)行的[2]。主要使用方法是傳統(tǒng)的統(tǒng)計模型,如引力模型[3],灰色模型[4]。
從國際研究的角度看,國外旅游業(yè)發(fā)展趨勢的研究主要集中在定量分析統(tǒng)計數(shù)據(jù)上,再與定性方法相結(jié)合來預(yù)測。在人工智能模型得到廣泛應(yīng)用之前,主要用傳統(tǒng)的回歸模型預(yù)測旅游業(yè)的發(fā)展趨勢;如運用時間序列、神經(jīng)網(wǎng)絡(luò)、計量經(jīng)濟(jì)模型等方法對旅游業(yè)發(fā)展趨勢的預(yù)測[5-6]。隨著近年來先進(jìn)技術(shù)的飛速發(fā)展,越來越多的研究集中在具有更高預(yù)測精度的測量技術(shù)上[7-8]。模型逐漸由單一化向多樣化發(fā)展。Wong等[9]對香港入境游客分別采用ARIMA、ADLM、ECM和VAR四種不同的單一模型以及三種不同方法的組合模型(平均分配權(quán)重法;方差——協(xié)方差法;折現(xiàn)均方預(yù)測誤差法)進(jìn)行預(yù)測,比較指標(biāo),獲得組合模型對于預(yù)測旅游人數(shù)具有較高的預(yù)測精度的結(jié)論。
一般來說,無論在國內(nèi)還是國外,由于旅游市場本身是一個復(fù)雜的系統(tǒng),具有許多不確定的、不可控的影響因素,僅僅使用單一模型來預(yù)測難以取得較為精確的預(yù)測結(jié)果。因此國內(nèi)外學(xué)者開始嘗試將模型組合的預(yù)測方法,使用新的組合模型來提高預(yù)測的精度。而在此之前還未有人對福建省入境游客人數(shù)變化趨勢進(jìn)行研究。游客人數(shù)數(shù)據(jù)的動態(tài)性和非線性性,該數(shù)據(jù)是非平穩(wěn)的、復(fù)雜的難以預(yù)測的時間序列。因此,本文考慮將ARIMA模型與SVR模型組合來預(yù)測,將通過ARIMA-SVR組合模型分析研究福建省入境游客人數(shù)的變化趨勢,對線性預(yù)測模型與非線性預(yù)測模型的關(guān)系進(jìn)行探討。
本文收集了福建省1979-2020年的旅游人數(shù)數(shù)據(jù)。主要采用ARIMA模型以及SVR模型分別研究福建省入境游客人數(shù)變化趨勢的線性、非線性部分。接著將線性建模結(jié)果與非線性預(yù)測得到的殘差相結(jié)合,得到的結(jié)果即采用ARIMA-SVR模型預(yù)測的福建省入境游客人數(shù)。最后在與對比模型的比對下,通過判斷模型預(yù)測評價指標(biāo)的大小,得出ARIMA-SVR組合模型能夠更為精確地預(yù)測福建省入境游客人數(shù)變化趨勢。
ARIMA(Autoregressive Integrated Moving Average)模型,是一種常見的時間序列預(yù)測模型。其特點:只要由內(nèi)生變量進(jìn)行構(gòu)造,簡單易于實現(xiàn);在ARIMA模型用于時間序列時,要求序列必須是平穩(wěn)的。如果序列不平穩(wěn),則必須多次微分將其平穩(wěn)化。多階整體也就是通過多次微分變換的非平穩(wěn)時間序列;ARIMA模型能勾勒出時序數(shù)據(jù)的大局線性趨勢。ARIMA模型對非穩(wěn)定的數(shù)據(jù)以及數(shù)據(jù)非線性部分無法精確擬合。ARIMA(p,d,q),p、q被稱為自回歸項的滯后階數(shù)和移動平均項的滯后階數(shù),差分時間序列使其平穩(wěn)化所造成的次數(shù)用d表示。ARIMA(p,d,q)被稱為差分自回歸移動平均模型[10]。
SVR(Support Vector Regression)算法是常用的機(jī)器學(xué)習(xí)算法且模型性能優(yōu)秀。它最早由Vapnik教授在20世紀(jì)90年代時提出。隨著計算機(jī)技術(shù)的發(fā)展,支持向量機(jī)模型得到了快速的發(fā)展和廣泛的應(yīng)用。支持向量機(jī)的算法原理是確定特定的核函數(shù)(kernel)使得特征空間能夠得到擴(kuò)展,使得樣本進(jìn)行線性可分性的分析;對于線性不可分割的情況,要使用線性算法處理樣本的非線性特征,最終使得樣本在高維特征空間中能實現(xiàn)線性可分[11]。SVR模型的特點:僅用部分支持向量來做超平面的決策,無需依賴全部數(shù)據(jù);對缺失數(shù)據(jù)較敏感;可以使用多種多樣的核函數(shù)靈活解決非線性回歸問題,對于小樣本有很好的預(yù)測精度,泛化能力強(qiáng)。
本文將采用如下步驟構(gòu)建組合模型來進(jìn)行福建省入境游客人數(shù)的預(yù)測。
(1)輸入1979-2012年數(shù)據(jù)作為ARIMA模型的訓(xùn)練集,構(gòu)建ARIMA模型對線性部分進(jìn)行分析,假設(shè)預(yù)測結(jié)果為根據(jù)2013-2018年的測試集數(shù)據(jù)得出序列的殘差為Nt,Nt中容納了序列Yt的非線性關(guān)系;
(2)通過重構(gòu)前一步得到的序列Nt得到SVR樣本集,并利用SVR模型預(yù)測殘差以得到預(yù)測結(jié)果
由于ARIMA和SVR的單一模型各有不同的優(yōu)點和缺點,但在解決線性模型和非線性模型的問題時,兩者具有不同的優(yōu)點。因此,這兩種模型是相輔相成的。因此,為了預(yù)測旅游人數(shù)可以將兩個結(jié)合起來得到精度更高的結(jié)果。假設(shè)線性自相關(guān)部分Lt與非線性殘差Nt兩個部分被看作時間序列Yt的組合,用公式表示就是Yt=Lt+Nt。利用組合后的ARIMA-SVR組合模型來期望得到預(yù)測精度更優(yōu)的結(jié)果。
組合預(yù)測原理如圖1所示:
圖1 ARIMA-SVR組合預(yù)測模型原理
本文從福建省統(tǒng)計年鑒中獲取1979-2020年的福建省入境游客人數(shù)的年度數(shù)據(jù),共42條記錄,數(shù)據(jù)真實可靠,見表1。
表1 1979-2020年福建省入境旅游人數(shù)表
在數(shù)據(jù)處理方面,將1979-2020年福建省入境游客人數(shù)時間序列繪制成時序圖,如圖2所示。通過繪圖展示,我們可以初步從1979-2019年從福建省入境游客人數(shù)數(shù)據(jù)中看出序列是否有著明顯的長期增長的趨勢。除2020年新冠疫情的出現(xiàn),導(dǎo)致福建省入境游客數(shù)量急劇減少。
圖2 1979-2020年福建省入境游客人數(shù)時序圖
福建省入境游客人數(shù)容易受到各種因素的影響使用單一模型來預(yù)測福建省入境游客人數(shù)的變化趨勢可能是困難的,并且在預(yù)測精度方面,也難以達(dá)到預(yù)期的效果。因此,在單一模型預(yù)測精度不高的情況下,我們采用ARIMA-SVR組合模型對福建省入境游客人數(shù)進(jìn)行預(yù)測。
我們能夠清晰地從圖2的時間序列圖中看出,福建省的旅游人數(shù)有長期的增長趨勢,因此我們需要對福建省入境游客人數(shù)時間序列做差分運算。一階差分后的序列也能明顯顯示出了長期的增長趨勢。
如圖3所示,福建省入境游客人數(shù)時間序列經(jīng)過一階差分后的時間序列呈現(xiàn)出長期的穩(wěn)定性,基本上在0附近波動上下均勻波動。
圖3 福建省入境游客人數(shù)一階差分時序圖
為了更準(zhǔn)確地描述數(shù)據(jù)穩(wěn)定性,可以使用ADF檢驗單位根來進(jìn)行檢驗是否平穩(wěn)。若序列是平穩(wěn)的,則可以直接用ARIMA模型來擬合,反之則要經(jīng)過差分轉(zhuǎn)換。ADF單位根檢驗結(jié)果見表2。
表2 福建省入境游客人數(shù)二階差分的單位根檢驗結(jié)果
我們可以從ADF檢驗看出,序列的p值等于0.021 8,p值小于顯著性水平α(α=0.05),以上計算結(jié)果表明,單位根檢驗結(jié)果顯著,一階差分后的序列不存在單位根,所以我們可以說一階差分序列是穩(wěn)定的。為了更加準(zhǔn)確地確定模型的階數(shù),我們利用AIC準(zhǔn)則,通過AIC值來說明模型擬合度越高。分別計算各模型的AIC值,結(jié)果可知ARIMA(1,1,1)的AICc值最小,可以求出ARIMA(0,1,1)的AIC值、AICc值以及BIC值分別為1 266.11、252.71以及255.07。再對ARIMA(0,1,1)模型進(jìn)行檢驗擬合得出模型參數(shù)的顯著性,結(jié)果見表3。
表3 模型參數(shù)的顯著性檢驗結(jié)果
最后將所得的ARIMA(1,1,1)模型進(jìn)行參數(shù)的顯著性檢驗。檢驗結(jié)果顯示,估計出的系數(shù)除以其的標(biāo)準(zhǔn)差(s.e.)得到的商的絕對值大于1.96,落入拒絕域,拒絕原假設(shè)。因此,沒有必要重新修正所建立的模型。最后選持的時間序列模型為ARIMA(1,1,1)模型。
現(xiàn)在我們利用所建立的ARIMA(1,1,1)模型對2013-2020年福建省全年的旅游人數(shù)進(jìn)行預(yù)測,結(jié)果如圖4所示。
圖4 2013-2020年福建省入境游客人數(shù)ARIMA模型預(yù)測
利用模型預(yù)測值與測試集比較求出誤差,分析 模型的均方根誤差、平均絕對誤差、平均百分比誤差等幾個用來衡量精度指標(biāo),來進(jìn)行對比分析模型的預(yù)測精度,見表4。
由表4得知,模型預(yù)測值與實際值的誤差較小,平均百分比誤差為2.269 8。模型的平均絕對百分比誤差值為9.601、平均絕對比例誤差為0.653。表明ARIMA(1,1,1)模型擬合的效果較為良好,精度滿足要求。
表4 評價預(yù)測精度指標(biāo)
然而,由于福建省入境游客客流量受到國家政策、經(jīng)濟(jì)形勢、突發(fā)事件等因素的影響,要想利用單一的ARIMA模型進(jìn)行長期的、絕對準(zhǔn)確的預(yù)測較為困難。因此我們?nèi)孕鑼υ撃P瓦M(jìn)行一些改進(jìn)。
為了選擇一個最優(yōu)個數(shù)能夠使得循環(huán)殘差數(shù)據(jù)的誤差最小,我們采用第N次選擇N個殘差數(shù)據(jù),保留誤差為它的第N+1個殘差數(shù)據(jù)作為模型輸出的方法。所以最優(yōu)個數(shù)定為4時能讓模型循環(huán)殘差的誤差最小。
通過模型選定的最優(yōu)循環(huán)殘差個數(shù),可以得出結(jié)論,福建省入境游客人數(shù)的殘差與前4年旅游人數(shù)的殘差高度相關(guān)。在R軟件中調(diào)用e1071程輯包來實現(xiàn)SVR建模,核函數(shù)為高斯核函數(shù)。參數(shù)采用十折交叉驗證獲得,通過擇優(yōu)選擇懲罰系數(shù)C=10 000以及gamma=0.000 01,作為最優(yōu)參數(shù)來對2016-2020年福建省入境游客人數(shù)殘差進(jìn)行預(yù)測。
表5 基于ARIMA-SVR福建省入境游客人數(shù)預(yù)測結(jié)果
為了引入對比模型,我們分別采用單一的SVR模型以及ARIMA模型對福建省入境游客人數(shù)進(jìn)行了預(yù)測分析。利用滑動窗口對SVR模型進(jìn)行訓(xùn)練,訓(xùn)練集為1979-2016年福建省入境游客人數(shù)序列x(t)。
運用通過訓(xùn)練集構(gòu)建好的SVR模型和ARIMA模型對2017-2020年的福建省入境游客人數(shù)進(jìn)行預(yù)測,得出來的預(yù)測結(jié)果與測試集,即2017-2020年實際數(shù)據(jù)做比較,計算得出誤差,結(jié)果如圖5和表6所示。通過折線圖和誤差表比對,我們可以清晰地看出,單個ARIMA和SVR模型在短期預(yù)測可能得到更精確地效果。但是ARIMA-SVR組合預(yù)測模型在較為長期預(yù)測中,能夠結(jié)合ARIMA模型在求解線性問題以及SVR模型在解決非線性問題上的優(yōu)勢。使得預(yù)測出來的結(jié)果具有更高的預(yù)測精度和更小的誤差。
表6 2017-2020年3個模型預(yù)測誤差對比
圖5 2017-2020年3個模型預(yù)測折線圖對比
這表明雖然單一模型短期預(yù)測比較有優(yōu)勢,但對于解決復(fù)雜且不穩(wěn)定的時間序列問題,它們都必定不是最優(yōu)模型。而本文使用的ARIMA-SVR組合模型分別結(jié)合了ARIMA模型和SVR模型各自獨有的優(yōu)點,使得預(yù)測精度有效地提高,預(yù)測誤差大幅度減小。
根據(jù)模型精度評價可以得出,相比與單個的ARIMA和SVR模型,我們所建立的更高精度、誤差更小的ARIMA-SVR組合預(yù)測模型,克服了單一模型只能對序列線性或者非線性部分進(jìn)行預(yù)測的弊端,更能充分地捕捉已知福建省入境游客人數(shù)數(shù)據(jù)中隱含的信息,從而來預(yù)測未來幾年的數(shù)據(jù)。因此我們利用ARIMA-SVR組合模型以及1979-2020年福建省入境游客人數(shù)序列來預(yù)測每年的旅游人數(shù)。
從實際數(shù)據(jù)可以看到,2019、2020兩年間,福建省入境游客人數(shù)仍在趨增,兩年間福建省入境游客人數(shù)將增長到每年千萬人次級別,分別為9 194 023、5 815 290人次,結(jié)果說明ARIMA-SVR組合模型預(yù)測的數(shù)據(jù)具有一定的科學(xué)性和一定的參考意義。能夠為有關(guān)部門及早地、準(zhǔn)確地制定旅游規(guī)劃,優(yōu)化旅游市場資源配置提供依據(jù)。
經(jīng)濟(jì)的高速發(fā)展使得旅游業(yè)大力興起,隨著福建省頒布一系列促進(jìn)旅游業(yè)發(fā)展的政策,福建省入境游客人數(shù)將必將呈現(xiàn)出持續(xù)增長的趨勢。雖然游客數(shù)量的增加給景區(qū)帶來了豐厚的利潤,但也不可避免地帶來了一連串的交通、安全、服務(wù)質(zhì)量問題,和疫情防控方面的高度要求,從而導(dǎo)致旅游服務(wù)質(zhì)量急劇下降,市場趨于混亂。針對上述問題,本文對福建省入境游客人數(shù)進(jìn)行預(yù)測,綜合過去的信息,并使用定性和定量的方法來揭示旅游人數(shù)數(shù)據(jù)的變化趨勢,以便為社會和經(jīng)濟(jì)發(fā)展提供判斷的方向,提前制定相應(yīng)的政策來促進(jìn)社會的穩(wěn)定發(fā)展。
然而,在現(xiàn)實生活中福建省入境游客人口的波動規(guī)律與其他數(shù)據(jù)不同,包含數(shù)據(jù)之間的線性關(guān)系以及其非線性特征。因此以往單一的預(yù)測方法存在一定的限制,不能很好地滿足我們所需求的預(yù)測精度。組合預(yù)測的方法能夠較好地吸取單一模型的特點,互補(bǔ)模型之間的不足,基于這一點我們選擇使用ARIMA-SVR組合模型來預(yù)測福建省入境游客人數(shù)的變化趨勢,此模型較好地結(jié)合了單一模型各有的優(yōu)勢,構(gòu)建ARIMA模型處理福建省入境游客人數(shù)的線性趨勢,SVR模型預(yù)測福建省入境游客人數(shù)變化的非線性規(guī)律。最后引入對比模型,根據(jù)對比模型精度結(jié)果表明,該組合模型相比于單一模型能夠提高預(yù)測的準(zhǔn)確性,準(zhǔn)確把握福建省入境游客人數(shù)的變化趨勢,并且比單一模型更合理、更可靠,可作為一種有效的工具用于福建省入境游客人數(shù)時間序列的預(yù)測。