靳鑫元+羅珊
【摘要】本文基于百度指數(shù)進(jìn)行旅游關(guān)鍵詞的挖掘,運(yùn)用決策樹(shù)、bagging、隨機(jī)森林和支持向量機(jī)四種算法模型對(duì)旅游關(guān)鍵詞與平遙古城游客流量關(guān)系進(jìn)行分析,并比較了各模型的擬合度、穩(wěn)定性及預(yù)測(cè)效果。實(shí)證研究發(fā)現(xiàn),隨機(jī)森林模型穩(wěn)定性最好,SVM模型擬合和預(yù)測(cè)效果最好,因此SVM模型可以作為最終的平遙古城客流量預(yù)測(cè)模型。
【關(guān)鍵詞】平遙古城 百度指數(shù) 機(jī)器學(xué)習(xí) 預(yù)測(cè)
一、引言
近年來(lái),我國(guó)旅游產(chǎn)業(yè)規(guī)模不斷擴(kuò)大,平遙古城作為中國(guó)境內(nèi)保存最完整的古代縣城與票號(hào)文化發(fā)源地,游客量快速增長(zhǎng),逐年增加的游客對(duì)古城承載力及景區(qū)建設(shè)提出了更高要求。與此同時(shí),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及大數(shù)據(jù)時(shí)代的到來(lái),旅游信息傳播形式、游客信息搜索方式、旅游消費(fèi)行為等均發(fā)生了巨大改變。許多旅游經(jīng)營(yíng)者、旅游企業(yè)及政府機(jī)構(gòu)都通過(guò)互聯(lián)網(wǎng)平臺(tái)發(fā)布旅游信息,隨之互聯(lián)網(wǎng)平臺(tái)也成為廣大游客出游的重要信息來(lái)源,相應(yīng)產(chǎn)生的網(wǎng)絡(luò)搜索數(shù)據(jù)則逐漸成為高質(zhì)量的游客旅游搜索行為數(shù)據(jù)庫(kù)。2011年百度推出的百度指數(shù)可以直接、客觀地反映某特定時(shí)間段內(nèi)的社會(huì)熱點(diǎn)、用戶(hù)興趣和需求,并且實(shí)證表明利用百度指數(shù)這一網(wǎng)絡(luò)搜索指數(shù)進(jìn)行預(yù)測(cè)克服了傳統(tǒng)預(yù)測(cè)中存在的數(shù)據(jù)滯后以及數(shù)據(jù)量不足的缺陷,結(jié)果更為準(zhǔn)確、更具時(shí)效性。因此,本文依托百度指數(shù)的時(shí)效性,挖掘旅游網(wǎng)絡(luò)關(guān)注度和實(shí)際旅游需求的關(guān)系,預(yù)測(cè)景區(qū)客流量,對(duì)指導(dǎo)旅游管理部門(mén)做出科學(xué)、合理的決策安排,促進(jìn)旅游可持續(xù)發(fā)展具有重要意義。
二、指標(biāo)選取與數(shù)據(jù)
(一)指標(biāo)選取
根據(jù)指標(biāo)選取理論的分析可知,用戶(hù)搜索行為反映了用戶(hù)近期行為,但由于搜索用戶(hù)的異質(zhì)性,不同用戶(hù)對(duì)某一事物的關(guān)注度有所不同,從而使得搜索關(guān)鍵詞也具有多樣性,且關(guān)鍵詞應(yīng)包含與目標(biāo)事物相關(guān)的各個(gè)方面。因此,本文在已有文獻(xiàn)基礎(chǔ)上,根據(jù)相關(guān)旅游經(jīng)驗(yàn)及人們外出旅行時(shí)的主要考慮因素,即衣、食、住、行、游5個(gè)方面,通過(guò)百度指數(shù)“趨勢(shì)研究”和“需求圖譜”兩個(gè)模塊來(lái)進(jìn)行關(guān)鍵詞的提取,這5個(gè)方面涵蓋了平遙天氣、平遙牛肉、平遙古城住宿、平遙古城門(mén)票、平遙古城旅游攻略等多方面信息。本文將這5個(gè)方面的相關(guān)詞作為初始關(guān)鍵詞,運(yùn)用百度關(guān)鍵詞挖掘進(jìn)行關(guān)鍵詞搜索,從而得到最終的關(guān)鍵詞指標(biāo)。
(二)數(shù)據(jù)說(shuō)明
本文的關(guān)鍵詞數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從百度指數(shù)網(wǎng)頁(yè)源代碼中提取得到的。在利用初始詞進(jìn)行關(guān)鍵詞搜索過(guò)程中,剔除沒(méi)有數(shù)據(jù)對(duì)應(yīng)和數(shù)據(jù)量很少的關(guān)鍵詞,最終得到57個(gè)關(guān)鍵詞從2011年12月到2014年12月共162周的數(shù)據(jù)。平遙古城旅游客流量數(shù)據(jù)來(lái)自山西省旅游局,選取的時(shí)間區(qū)間為2011年12月至2014年12月,共37個(gè)數(shù)據(jù)。由于我們得到的關(guān)鍵詞數(shù)據(jù)為周度數(shù)據(jù),而本文研究的是月度數(shù)據(jù),所以要對(duì)關(guān)鍵詞數(shù)據(jù)進(jìn)行處理,將周度數(shù)據(jù)轉(zhuǎn)化為月度數(shù)據(jù),即按照日歷中各月周數(shù)進(jìn)行加總,將每月最后幾天數(shù)據(jù)按所在周的天數(shù)作為權(quán)重,將該周的數(shù)據(jù)按權(quán)重分配到相鄰月中,最終得到37個(gè)月的搜索指數(shù)數(shù)據(jù)。
三、實(shí)證分析
首先對(duì)模型擬合和預(yù)測(cè)有兩點(diǎn)說(shuō)明:一是擬合樣本區(qū)間為2011年12月到2014年10月,共35個(gè)數(shù)據(jù),用于預(yù)測(cè)檢驗(yàn)的樣本區(qū)間為2014年的11月到12月2個(gè)月的數(shù)據(jù)。二是在模型擬合效果的比較上,本文引入MSE和NMSE兩個(gè)指標(biāo),分別代表模型的穩(wěn)定性和擬合度。
(一)搜索關(guān)鍵詞確定
首先,利用簡(jiǎn)單手動(dòng)篩選,觀察所有關(guān)鍵詞數(shù)據(jù),將趨勢(shì)變化不明顯或幾乎無(wú)變化趨勢(shì)的剔除;然后,利用Pearson相關(guān)系數(shù)篩選,分別計(jì)算各關(guān)鍵詞與因變量的Pearson相關(guān)系數(shù),將相關(guān)系數(shù)小于0.6的剔除;最后,利用線性回歸篩選,并診斷回歸的多重共線性和自相關(guān),利用逐步回歸及AIC準(zhǔn)則選出最終的4個(gè)關(guān)鍵詞:平遙古城旅游攻略、平遙古城地圖、山西旅游景點(diǎn)大全、平遙住宿。
(二)模型估計(jì)
在篩選關(guān)鍵詞過(guò)程中,我們構(gòu)建了一個(gè)線性回歸方程,回歸估計(jì)如下:
從回歸結(jié)果看,總體擬合效果較好,變量系數(shù)均通過(guò)顯著性檢驗(yàn),因此該線性模型似乎具有較好預(yù)測(cè)效果。但為進(jìn)一步考察模型假設(shè)是否成立,我們進(jìn)行殘差的Shapiro-Wilk正態(tài)性檢驗(yàn),并且刻畫(huà)了因變量直方圖及對(duì)應(yīng)的線性分布圖,檢驗(yàn)結(jié)果均表明因變量不服從正態(tài)分布,因此本文利用線性回歸進(jìn)行模型模擬時(shí)并不能滿(mǎn)足其對(duì)因變量分布的假定,從而會(huì)產(chǎn)生較大誤差,影響擬合和預(yù)測(cè)效果。
故本文采用了對(duì)數(shù)據(jù)分布沒(méi)有任何假定且結(jié)果可用交叉驗(yàn)證方法來(lái)評(píng)判的四種機(jī)器學(xué)習(xí)方法進(jìn)行模型擬合及預(yù)測(cè),并比較了決策樹(shù)、bgging、隨機(jī)森林、支持向量機(jī)這四種算法模型的擬合度、穩(wěn)定性與預(yù)測(cè)效果。
(三)模型結(jié)果分析
使用以上四種算法估計(jì)模型,計(jì)算出各模型的MSE和NMSE,結(jié)果見(jiàn)表1。
從模型的擬合度和穩(wěn)定性來(lái)看,回歸樹(shù)和Bagging都存在明顯不足,其MSE和NMSE 值均大于另外兩個(gè)模型,回歸樹(shù)模型在所有模型中擬合效果最差。而隨機(jī)森林和支持向量機(jī)(SVM)這兩種模型的效果較好,其中隨機(jī)森林的擬合度和穩(wěn)定性最佳,SVM模型的擬合度較好,但模型穩(wěn)定性不佳。最后分別用以上算法模型對(duì)樣本期外兩個(gè)月的客流量進(jìn)行預(yù)測(cè),并將其與真實(shí)值對(duì)比,計(jì)算其平均誤差率,結(jié)果見(jiàn)表2。
如表2所示,模型擬合效果較差的回歸樹(shù)和bagging的預(yù)測(cè)效果仍不理想,平均誤差率分別達(dá)到了11.55%和7.18%,與真實(shí)客流量數(shù)據(jù)相比存在較大偏差。同時(shí),擬合效果最佳的隨機(jī)森林預(yù)測(cè)效果并不理想,其平均誤差率達(dá)8.54%,甚至差于bagging。而SVM模型的平均誤差率僅有1.46%,具有較好的預(yù)測(cè)效果。分析原因,筆者認(rèn)為可能是由于bagging、回歸樹(shù)、隨機(jī)森林三種算法模型的分類(lèi)原理本質(zhì)上源于歸納算法,這類(lèi)模型在結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集上學(xué)習(xí)能力和適應(yīng)性不夠強(qiáng),有效性和伸縮性不足,而SVM則采取了與傳統(tǒng)模型不同的思想,具有較強(qiáng)的泛化能力,所以預(yù)測(cè)結(jié)果與實(shí)際較為接近。
四、結(jié)論
本文在分析旅游客流量和百度搜索指數(shù)關(guān)系的基礎(chǔ)上,運(yùn)用一系列方法篩選出與旅游客流量相關(guān)性最高的四個(gè)關(guān)鍵詞,并運(yùn)用回歸樹(shù)、bagging、隨機(jī)森林和SVM四種機(jī)器學(xué)習(xí)算法模型對(duì)客流量數(shù)據(jù)進(jìn)行了擬合和預(yù)測(cè)。研究具體結(jié)論主要有三點(diǎn),一是主要或潛在游客主要通過(guò)對(duì)“平遙古城旅游攻略”、“平遙古城地圖”、“山西旅游景點(diǎn)大全”、“平遙住宿”等關(guān)鍵詞的搜索來(lái)獲取平遙古城旅游信息。二是回歸樹(shù)、bagging、隨機(jī)森林和SVM模型中,擬合效果最好的是隨機(jī)森林和SVM模型,穩(wěn)定性最好的為隨機(jī)森林模型,回歸樹(shù)、bagging的擬合度和穩(wěn)定性都較差;預(yù)測(cè)效果最好的為SVM。因此,綜合擬合度、穩(wěn)定性和預(yù)測(cè)效果可知,SVM模型的整體效果最好,可以作為最終的平遙古城旅游客流量預(yù)測(cè)模型。三是利用關(guān)鍵詞的百度指數(shù)來(lái)對(duì)平遙古城旅游客流量進(jìn)行預(yù)測(cè),可以在每月月底得到較為準(zhǔn)確的數(shù)據(jù),這比相關(guān)部門(mén)公布的數(shù)據(jù)提前了15天左右,具有較高的時(shí)效性。
參考文獻(xiàn)
[1]Choi H,Varian H.Predicting the Present with Google Trends[J].Economic Record,2009,88(s1):2-9.
[2]黃先開(kāi),張麗峰.百度指數(shù)與旅游景區(qū)游客量的關(guān)系及預(yù)測(cè)研究——以北京故宮為例[J].旅游學(xué)刊,2013,28(11):93-100.
[3]殷杰,鄭向敏.基于VECM模型的景區(qū)網(wǎng)絡(luò)關(guān)注度與旅游人數(shù)的關(guān)系研究——以鼓浪嶼為例[J].福建農(nóng)林大學(xué)學(xué)報(bào),2015,18(5):68-75.
作者簡(jiǎn)介:靳鑫元(1991-),女,漢族,河北保定人,碩士,山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院研究生,研究方向:應(yīng)用統(tǒng)計(jì)、數(shù)據(jù)挖掘;羅珊(1992-),女,漢族,貴州遵義人,碩士,貴州大學(xué)經(jīng)濟(jì)學(xué)院研究生,研究方向:商業(yè)銀行經(jīng)營(yíng)與管理。