金悅奇 柏昌順 朱杰
[摘要]通過(guò)采集和挖掘互聯(lián)網(wǎng)大數(shù)據(jù),以舟山普陀山景區(qū)為例,研究網(wǎng)絡(luò)關(guān)鍵詞搜索量、網(wǎng)上酒店預(yù)訂率、網(wǎng)絡(luò)氣象預(yù)報(bào)等大數(shù)據(jù)與景區(qū)旅游客流量的數(shù)據(jù)相關(guān)性。采用Lasso回歸算法構(gòu)建預(yù)測(cè)模型,并提出基于大數(shù)據(jù)的景區(qū)客流量預(yù)測(cè)系統(tǒng)設(shè)計(jì)。
[關(guān)鍵詞]大數(shù)據(jù);客流量預(yù)測(cè);Lasso回歸;數(shù)據(jù)挖掘
[DOI]1013939/jcnkizgsc201716322
隨著國(guó)內(nèi)旅游需求的不斷提升,快速有效地預(yù)測(cè)旅游景區(qū)客流量已經(jīng)成為提高旅游景區(qū)服務(wù)品質(zhì)和建設(shè)智慧旅游景區(qū)的重要課題。傳統(tǒng)的旅游客流量預(yù)測(cè)主要是基于靜態(tài)的歷史數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,通常會(huì)忽視或者不能及時(shí)反映一些重要因素對(duì)客流量的影響,如天氣變化、互聯(lián)網(wǎng)熱點(diǎn)。而借助互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)可以通過(guò)實(shí)時(shí)數(shù)據(jù)采集、跟蹤研究目標(biāo)景區(qū)游客在互聯(lián)網(wǎng)上產(chǎn)生的大量行為數(shù)據(jù),進(jìn)行挖掘分析,使得在實(shí)際景區(qū)客流量預(yù)測(cè)應(yīng)用中具有動(dòng)態(tài)響應(yīng)及時(shí)等優(yōu)越性。本文以舟山普陀山景區(qū)為例研究基于互聯(lián)網(wǎng)大數(shù)據(jù)的景區(qū)客流量短期動(dòng)態(tài)預(yù)測(cè)及其系統(tǒng)設(shè)計(jì)。
1景區(qū)客流量有關(guān)大數(shù)據(jù)分析
11景區(qū)客流量數(shù)據(jù)探索分析
本文以普陀山景區(qū)為例對(duì)影響客流量因素進(jìn)行大數(shù)據(jù)分析,首先對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)按照是否適合計(jì)算機(jī)自動(dòng)采集進(jìn)行抽取,將抽取的數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)來(lái)源; 其次再根據(jù)舟山景區(qū)的特點(diǎn)篩選相關(guān)性強(qiáng)的因素。初步選取以下因素作為自變量,包括天氣因素:氣溫(x1)、風(fēng)力(x2);OTA酒店預(yù)訂率(x3);關(guān)鍵詞搜索指數(shù)(x4);節(jié)假日因素(x5):包括一般節(jié)假日和特定宗教節(jié)日;經(jīng)濟(jì)因素:經(jīng)濟(jì)景氣指數(shù)(x6)、消費(fèi)者信心指數(shù)(x7)等,分析它們與景區(qū)客流量(y)之間的關(guān)系。
根據(jù)以上選定因素對(duì)舟山普陀山景區(qū)2015—2016年數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,獲得主要變量數(shù)據(jù)的統(tǒng)計(jì)描述如表1所示。
在描述性統(tǒng)計(jì)分析了解數(shù)據(jù)的整體情況后,然后進(jìn)行相關(guān)分析,通過(guò)Pearson相關(guān)系數(shù)初步判斷應(yīng)變量與自變量之間的線性相關(guān)程度。其中,經(jīng)濟(jì)因素:經(jīng)濟(jì)景氣指數(shù)(x6)、消費(fèi)者信心指數(shù)(x7)與景區(qū)客流量(y)之間線性相關(guān)不明顯,而且變化幅度很小。因此,篩去經(jīng)濟(jì)景氣指數(shù)(x6)、消費(fèi)者信心指數(shù)(x7)兩個(gè)變量。
12模型構(gòu)建
在以上數(shù)據(jù)分析的基礎(chǔ)上,建立回歸預(yù)測(cè)模型,算法上主要采用Lasso回歸方法,Lasso方法較傳統(tǒng)的最小二乘法等更利于參數(shù)估計(jì)和變量選擇。Lasso回歸優(yōu)化問(wèn)題可以表示為:
2景區(qū)客流量預(yù)測(cè)系統(tǒng)設(shè)計(jì)方案
21預(yù)測(cè)系統(tǒng)框架與流程
景區(qū)客流量預(yù)測(cè)系統(tǒng)由網(wǎng)絡(luò)數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)庫(kù)存儲(chǔ)與處理子系統(tǒng)和預(yù)測(cè)輸出子系統(tǒng)等組成。其中,網(wǎng)絡(luò)數(shù)據(jù)采集子系統(tǒng)負(fù)責(zé)自動(dòng)化采集互聯(lián)網(wǎng)相關(guān)大數(shù)據(jù);數(shù)據(jù)庫(kù)存儲(chǔ)與處理子系統(tǒng)負(fù)責(zé)將網(wǎng)絡(luò)數(shù)據(jù)采集子系統(tǒng)收集的互聯(lián)網(wǎng)相關(guān)大數(shù)據(jù)進(jìn)行規(guī)范化并存儲(chǔ)處理;預(yù)測(cè)輸出子系統(tǒng)負(fù)責(zé)將數(shù)據(jù)庫(kù)存儲(chǔ)與處理子系統(tǒng)處理好的數(shù)據(jù)應(yīng)用回歸預(yù)測(cè)模型計(jì)算并按照需要的方式輸出結(jié)果。整個(gè)景區(qū)客流量預(yù)測(cè)系統(tǒng)的基本框架與流程如下圖所示。
景區(qū)客流量預(yù)測(cè)系統(tǒng)流程
上圖中系統(tǒng)主要流程可以分為:
(1)數(shù)據(jù)導(dǎo)入:從互聯(lián)網(wǎng)大數(shù)據(jù)中初步選取預(yù)測(cè)模型所需數(shù)據(jù),然后導(dǎo)入預(yù)測(cè)系統(tǒng)數(shù)據(jù)輸入接口。
(2)數(shù)據(jù)預(yù)處理:將導(dǎo)入的數(shù)據(jù)統(tǒng)一處理成規(guī)范化格式,以便數(shù)據(jù)庫(kù)存儲(chǔ)及預(yù)測(cè)模型處理。
(3)機(jī)器學(xué)習(xí):將預(yù)處理的數(shù)據(jù)進(jìn)行挖掘、分析對(duì)回歸預(yù)測(cè)模型參數(shù)進(jìn)行驗(yàn)證和調(diào)整。
(4)多元回歸預(yù)測(cè):根據(jù)回歸預(yù)測(cè)模型計(jì)算未來(lái)若干期的景區(qū)客流量預(yù)測(cè)數(shù)據(jù)。
(5)預(yù)測(cè)輸出:將預(yù)測(cè)模型計(jì)算結(jié)果通過(guò)需要的方式如可視化等進(jìn)行輸出。
22預(yù)測(cè)系統(tǒng)功能設(shè)計(jì)
系統(tǒng)主要核心功能包括互聯(lián)網(wǎng)數(shù)據(jù)采集、數(shù)據(jù)處理及存儲(chǔ)、自適應(yīng)的預(yù)測(cè)輸出三部分功能。其中,互聯(lián)網(wǎng)數(shù)據(jù)采集功能的實(shí)現(xiàn)主要通過(guò)兩類途徑:一是通過(guò)互聯(lián)網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái),如百度、APIStore等提供的互聯(lián)網(wǎng)大數(shù)據(jù)API接口,主要采集的相關(guān)數(shù)據(jù)格式為JSON。例如,天氣預(yù)報(bào)、節(jié)假日、搜索指數(shù)等。二是對(duì)互聯(lián)網(wǎng)特定相關(guān)網(wǎng)站網(wǎng)頁(yè)進(jìn)行抓取通過(guò)DOM分析取得對(duì)應(yīng)數(shù)據(jù)。例如,OTA酒店預(yù)定、景區(qū)等數(shù)據(jù)則采用HTMLParser等網(wǎng)頁(yè)分析工具實(shí)現(xiàn)對(duì)指定網(wǎng)頁(yè)相關(guān)數(shù)據(jù)抓取。
數(shù)據(jù)預(yù)處理及存儲(chǔ)功能主要采用PDO+TinyDB+Rserve組合。其中,PDO是訪問(wèn)數(shù)據(jù)庫(kù)的一個(gè)輕量級(jí)的、一致性的接口,它提供了一個(gè)數(shù)據(jù)訪問(wèn)抽象層。TinyDB是一種適合存儲(chǔ)JSON格式的輕量級(jí)面向文件的數(shù)據(jù)庫(kù)。Rserve是R語(yǔ)言與其他語(yǔ)言如Java/PHP/Python等進(jìn)行通信的服務(wù)程序,支持基于TCP/IP的遠(yuǎn)程連接,支持遠(yuǎn)程執(zhí)行R腳本。
預(yù)測(cè)模塊功能設(shè)計(jì)采用以adaptive LASSO回歸為基礎(chǔ)的自適應(yīng)算法。首先根據(jù)adaptive LASSO算法先確定一組回歸系數(shù),然后通過(guò)這組回歸系數(shù)進(jìn)行疊代演進(jìn)。最終的預(yù)測(cè)結(jié)果通過(guò)基于JS的異步模塊輸出,該功能主要采用XMLHttpRuquest對(duì)象技術(shù),在創(chuàng)建的XHR對(duì)象上注冊(cè)回調(diào)方法來(lái)實(shí)現(xiàn)異步輸出。
3預(yù)測(cè)有效性驗(yàn)證
景區(qū)客流量預(yù)測(cè)系統(tǒng)的主要作用是為相關(guān)決策提供依據(jù),所以預(yù)測(cè)數(shù)據(jù)的誤差是評(píng)價(jià)預(yù)測(cè)系統(tǒng)有效性的重要指標(biāo)。為能夠較準(zhǔn)確地驗(yàn)證評(píng)價(jià)景區(qū)客流量預(yù)測(cè)系統(tǒng)的有效性,選擇最近5期的系統(tǒng)預(yù)測(cè)數(shù)據(jù)與舟山普陀山管委會(huì)統(tǒng)計(jì)的實(shí)際值進(jìn)行誤差分析,主要采用平均絕對(duì)誤差、均方根誤差和平均絕對(duì)百分誤差三個(gè)統(tǒng)計(jì)量指標(biāo)從不同角度來(lái)驗(yàn)證客流量預(yù)測(cè)系統(tǒng)的有效性。預(yù)測(cè)結(jié)果的各項(xiàng)評(píng)價(jià)指標(biāo)值如表2所示。
根據(jù)表2的預(yù)測(cè)統(tǒng)計(jì)量指標(biāo)數(shù)據(jù),各項(xiàng)誤差值均在實(shí)際需求可接受的合理范圍內(nèi)。因此,該客流量預(yù)測(cè)可以被視為是有效的。
4結(jié)語(yǔ)
本文分析了互聯(lián)網(wǎng)大數(shù)據(jù)與旅游景區(qū)客流量之間的相關(guān)性,挖掘了大數(shù)據(jù)中影響景區(qū)客流量的主要因素,并且基于Lasso回歸構(gòu)建了景區(qū)客流量預(yù)測(cè)模型。在預(yù)測(cè)模型的基礎(chǔ)上設(shè)計(jì)了包括互聯(lián)網(wǎng)數(shù)據(jù)采集、存儲(chǔ)、分析輸出等功能的客流量預(yù)測(cè)系統(tǒng),通過(guò)對(duì)舟山普陀山景區(qū)客流量的實(shí)際數(shù)據(jù)預(yù)測(cè),驗(yàn)證了基于大數(shù)據(jù)的旅游景區(qū)客流量預(yù)測(cè)的有效性。
參考文獻(xiàn):
[1]ThomasWMiller預(yù)測(cè)分析中的建模技術(shù):商務(wù)問(wèn)題與R語(yǔ)言解決方案[M].北京:電子工業(yè)出版社,2016
[2]Lawrence SMaisel,Gary Cokins大數(shù)據(jù)預(yù)測(cè)分析[M].北京:人民郵電出版社,2014
[3]類興彪,韓興勇氣候舒適度與年內(nèi)客流量逐月變化相關(guān)性分析——以舟山為例[J].旅游論壇,2010,3(1):106-111
[4]胡曉虹舟山旅游氣候舒適度與客流量年相關(guān)性研究[J].北方經(jīng)濟(jì),2012(24):76-77
[5]蘇培培風(fēng)景區(qū)旅游客流量短期預(yù)測(cè)方法研究[D].合肥:合肥工業(yè)大學(xué),2013
[6]沈振,王捷基于灰色預(yù)測(cè)模型的長(zhǎng)三角水運(yùn)量預(yù)測(cè)[J].中國(guó)航海,2010,33(3):101-104
[7]宋國(guó)峰,梁昌勇,梁焱,等改進(jìn)遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的旅游景區(qū)日客流量預(yù)測(cè)[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(9):2136-2141