陸利軍,廖小靖
(1.湖南財政經濟學院 人文與藝術學院,湖南 長沙 410205;2.聯(lián)合國教科文組織國際自然與文化遺產空間技術中心(HIST)衡陽分中心,湖南 衡陽 421008)
旅游者行為預測一直是學術界和企業(yè)界關注的熱點問題。單就旅游者行為數據的獲取而言,在傳統(tǒng)的預測研究中,學者們往往主要依賴訪談法、觀察法、日志法和調查問卷等調查方法獲取相關基礎數據[1]。隨著人類進入互聯(lián)網時代,人類行為產生的數據痕跡為行為預測開辟了一個新的基礎數據來源。研究證明,網絡搜索、網頁瀏覽和評論數據與諸多經濟類、社會類行為存在很高的關聯(lián)性,而利用上述網絡行為數據進行經濟與社會行為預測是切實可行的[2]。近年來,網絡行為數據也被廣泛用于測量旅游者行為[3,4]。
然而,互聯(lián)網用戶的多元性和異質性直接導致了網絡行為數據的復雜和多維性。具體來說,在旅游者消費整個過程的不同步驟中,消費者往往傾向于使用不同的查詢方式和選用不同的核心關鍵詞來搜索他們在互聯(lián)網上的興趣點。換言之,在明確了利用網絡行為數據進行經濟與社會行為預測的可行性之后,如何選擇有效的數據預處理方法,構建網絡行為指數已然成為了研究者們關注的重要內容。因此,基于相對連貫的內在邏輯,將核心關鍵詞合成為統(tǒng)一的旅游搜索指數,并選擇適當的數據預處理方法,設計合理的預測流程對基于網絡搜索、瀏覽和評論數據進行的信息分析和旅游者行為預測活動的性能至關重要。
從信息分析與預測活動的整體技術路徑上看,初始關鍵詞和核心關鍵詞篩選、網絡搜索指數合成,及預測分析模型構建是基于網絡行為數據預測消費者行為的關鍵環(huán)節(jié)。
既有文獻研究中,對于最終用于信息分析與預測的關鍵詞的選擇不盡相同。根據黃先開等學者的歸納總結,目前關鍵詞選取的技術方法主要有3 種:技術取詞法、直接取詞法和范圍取詞 法[5]。其中,Ginsberg 等在其著名的“谷歌流感預測”研究中運用的是技術取詞法[6]。然而,鑒于技術選詞法對計算設備相對較高的要求,大多數研究主要運用已有分類表或關鍵詞表和直接采用與對象相關的關鍵詞的做法[7]。
在旅游者消費行為研究中,學者們主要采用的是直接取詞法和范圍取詞法選擇關鍵詞。如,李曉炫等根據旅游消費者的信息需求,依據個人經驗選擇若干個關鍵詞,通過直接加總方法合成搜索指數Index8[8]。魏瑾瑞等結合旅游者旅游信息搜尋行為的一般特征,從吃、住、行、游、購等五個方面選取初始關鍵詞,繼而利用百度指數依賴于語義挖掘技術獲得拓展關鍵詞,最后應用范圍取值法對既有關鍵詞進行再篩選,最后形成區(qū)域旅游指數[9]。
單就核心關鍵詞的選擇而言,研究者們往往都是憑借研究經驗,從自己的研究目標出發(fā)做出選擇。因此,盡管很多基于網絡搜索的信息分析與預測研究都很好的證明了基于研究人員憑借經驗選擇的關鍵詞與研究對象之間的強相關性,也可以有效預測研究對象的變化趨勢。但是,這種相關性目前尚無理論基礎作為支撐,缺乏對內在機制的揭示,難以令人信服。
根據孫毅等人的研究,網絡搜索指數的合成方法可以大致歸納為直接合成法、相關性合成法和時差相關合成法三類[1]。其中,直接合成法的操作流程最為直接,研究者只需對選定的關鍵詞的搜索量做簡單加總,形成合成指數即可,且無關關鍵詞數量多少[10]。相關性合成法是指以關鍵詞與研究對象的相關性為參考指標,將相關性較高的關鍵詞合成得到擬合度較高的搜索指數。時差相關合成法則認為,鑒于同期搜索和事后搜索的關鍵詞對因變量不具備預測作用,關鍵詞選擇除了需要測算其與因變量之間的相關性之外,還應該引入“時差”維度對關鍵詞進行篩選。如,在股票市場研究中,劉穎等使用時差相關合成法將與上證指數相關的百度搜索關鍵詞合成為股民行動指數等三類先行指數[11],也取得較好的預測效果。
作為旅游消費者的一種主動選擇,搜索關鍵詞能夠真實地反映旅游消費者的信息需求及興趣點不足為奇。但是,值得關注的問題在于,單個關鍵詞僅能夠反映旅游消費者的單個關注側面或者興趣點,而衡量研究對象的消費行為總體趨勢則需要由盡可能全面的關鍵詞共同體現(xiàn)。構建一種具有科學性和可操作性的網絡搜索指數合成方法至關重要。
綜上所述,雖說這個新的、由機器數據驅動的研究領域著實取得了一定程度的突破,但總體而言,學術界并未形成一套完整的理論分析和概念框架,尚未就用于選擇初始關鍵詞的依據、核心關鍵詞的篩選步驟和方法、最終解釋關鍵詞權重的賦予、反映旅游消費者行為趨勢的網絡搜索指數的合成步驟與方法,以及旅游消費者行為預測分析模型的構建達成共識。
因其具有的高水平交互性和定制性,互聯(lián)網逐漸成為為旅游消費者行為研究提供基礎數據來源的主要手段。然而,多數研究往往都是研究者們憑借自己的研究經驗,從研究的具體目標出發(fā)進行關鍵詞的選擇。隨著研究的不斷深入,也有學者意識到了這種缺乏理論分析與概念框架支持的關鍵詞選擇的局限性。之后,學術界開始從理性選擇等實證主義范式和解釋主義、后現(xiàn)代主義等非實證主義范式出發(fā)為旅游消費者行為構建理論分析框架。其中,最具有代表性的研究成果是Mathieson 和Wall 于1982年提出的包括動機、信息搜集、決策和活動等四個方面內容的線性旅游行為模型[12]?;谠摼€性旅游行為模型,魏瑾瑞等[8]和孫燁[3]等均構建了相應的區(qū)域旅游指數。劉慧悅等則基于發(fā)生學范式,對網絡旅游信息搜索行為的發(fā)生機制做出了類似描述,并在此基礎上選取“九寨溝門票”和“九寨溝旅游攻略”等關鍵詞,對旅游者網絡信息需求與景區(qū)游客量之間的關系做出了系統(tǒng)分析[13]。
綜上所述,無論是從宏觀框架設計,還是從微觀分析層面,現(xiàn)有關于旅游消費者行為的研究成果均已經有了一定的積累。但是,這些研究主要做的是靜態(tài)的橫切面研究,而現(xiàn)有的橫切面研究可能無法捕捉到旅游消費者選擇過程中偏好的動態(tài)變化。面對信息技術普遍應用等環(huán)境因素的變化,這些靜態(tài)的研究顯然難以對旅游者消費行為作出令人滿意的解釋。深入挖掘不同時間節(jié)點上旅游者消費時的考量因素,并在旅游行為動態(tài)模型構建過程中,充分考慮旅游者消費的體驗性、空間性和當地消費性等系列特征,從而更加全面和深入解釋旅游消費者行為的動態(tài)變化規(guī)律勢在必行。因此,論文從理論解釋框架構建、初始關鍵詞選擇、核心關鍵詞篩選和搜索指數合成等問題出發(fā),嘗試提出一種網絡行為數據的預處理方法,對探索網絡行為數據與旅游消費者行為間的關聯(lián)關系是具有普適性意義的。
選擇域最早由Howard 等人于1969年提出[14],Woodside 等人首次將這一概念引入旅游決策研究領域[15]。該理論認為,和其他消費一樣,旅游者消費的行為過程也是一個不斷減少備選方案的漏斗式篩選過程。在此過程中,旅游者根據其偏好程度將備選項逐步分類,并按照類別歸入不同的“域”中,從而縮小決策范圍,直到做出最終決策[16]。鑒于網絡行為數據支持下旅游者行為的復雜性、動態(tài)性和偶然性特征和選擇域理論在解釋旅游消費者行為動態(tài)變化方面具有的優(yōu)勢,論文嘗試通過引入選擇域理論,以深入挖掘不同時間節(jié)點上旅游者消費的影響因素,并在旅游行為動態(tài)模型的構建過程中,充分考慮旅游者消費的體驗性、空間性和消費性等特征,從而更加全面和深入地解釋旅游消費者行為的動態(tài)變化規(guī)律。
基于網絡行為數據的旅游者消費是一個復雜,動態(tài)和偶然的行為過程[17]。旅游消費的每個章節(jié)都解決了旅游行為的一個方面,且每一個章節(jié)都可以進一步劃分為個別的“劇集”,更為重要的問題在于,這些劇集與消費者行為本身的替代解決方案的評估息息相關。
如下圖1所示,旅游選擇域模型的關注點在于通過一系列選擇域對備選目的地進行評估,選擇域模型也大都是包含兩個,或三個階段的概念化模型,與此對應的是,從知覺域到初期域到后期域再到最終決策,每個行為步驟都可以通過互聯(lián)網搜索中的特定查詢來反映。一般來說,知覺域包含旅游消費者當前正在考慮的全部消費選擇。由于旅游者所能夠意識到的消費選擇又是有限的,所以知覺域又只是全部機會域的一個組成部分。下一步,旅游消費者還需要通過對包含在考慮域內的目的地備選方案和特質進行評估和選擇,最終作出決策。
圖1 選擇域視角的旅游者消費行為動態(tài)過程①1969年,Howard 提出選擇域這一概念,并引入知覺域、非知覺域和激活域等類別來描述備選方案在選擇過程中的變化情況。其中,知覺域意為消費者知道的所有消費選項,非知覺域意為消費者不知道的消費選項,而激活域意為消費者真正考慮購買的消費選項。后繼研究將這一概念體系繼續(xù)細化,并根據消費者個人喜好發(fā)展出不同的類型域,其中包括行動域(信息搜索范圍),惰性域(非真正需要范圍),烏托邦域(有意愿但是無法行動),模糊域(無明確表態(tài))和拒絕域等相關概念。
上述基于選擇域理論的旅游者消費行為分析模型通過描述消費者決策的“漏斗過程”著重闡釋了旅游者在對目的地選擇過程中所進行的信息搜索和選擇評估過程。
其中,第一階段為知覺域階段,即在旅游者消費需求產生之后,旅游消費者能夠有所知覺的所有相關旅游者消費品范圍,旅游消費者在這一階段的信息需求是對其有所知覺的旅游者消費品進行系統(tǒng)搜索,為其后期獲得更加合理的消費方案儲備盡可能充分的信息;
第二階段為初期考慮域,即為旅游消費者在一定時期內可能會考慮的旅游者消費品范圍,旅游消費者在這一階段的信息搜索行為主要集中在查詢其愿意且能夠加以考慮并收集信息的旅游者消費品及其相關因素;
第三階段為后期考慮域,即消費者即將采取有針對性行動的旅游者消費品,旅游消費者在這一階段的信息需求是查詢旅游消費者將有針對性采取行動的旅游者消費品及其相關要素;第四階段為最終決策階段,即消費者最終確定選擇的旅游者消費品,旅游消費者在這一階段的信息需求是即時查詢與該旅游者消費品相關聯(lián)的吃、住、行、游、購、娛等消費要素。
系統(tǒng)梳理既有文獻中基于網絡行為數據的預測方法的基礎上,論文首先采用Pearson 和Spearman 等兩種簡單相關分析方法篩選出與旅游者消費行為具有高相關性的關鍵詞;其次,采用時差相關分析方法篩選出對旅游者消費行為具有超前指示作用的關鍵詞;再次,采用關鍵詞集中度分析方法保留穩(wěn)定性較高的關鍵詞;最后,選擇采用主成分分析法對經過上述步驟篩選出來的,相關性高、且具有領先性的關鍵詞構建旅游網絡搜索指數,將該指數作為預測模型的重要變量?;谙到y(tǒng)合成法的旅游網絡搜索指數構建整體流程如下圖2所示:
圖2 .旅游網絡搜索指數系統(tǒng)合成法構建的整體流程
1.初始關鍵詞的選擇
基于網絡行為數據的信息分析與預測和傳統(tǒng)的信息分析與預測活動最大的不同在于其分析與預測是針對網絡搜索行為展開的,而這種網絡搜索行為是通過關鍵詞的使用來表現(xiàn)的。關鍵詞選擇是基于網絡行為數據的信息分析與預測的基礎。論文的關鍵詞選擇步驟如下:
1)基于選擇域理論視角,分析知覺域、初期域、后期域和最終決策等四個階段中影響旅游消費者行為的主要因素,在此基礎上明確初始關鍵詞;2)通過百度指數需求圖譜功能中的關鍵詞推薦功能和站長工具的關鍵詞挖掘服務獲得擴展關鍵詞;3)通過在網絡搜索引擎中輸入上一步驟中明確的3~5 個初始關鍵詞,從互聯(lián)網新聞、論壇和博客中收集宏觀、中觀和微觀的文本。然后,論文使用中文分詞工具對結果進行文本挖掘,并提取與研究相關的高頻關鍵詞列表;對上述關鍵詞進行清洗、合并后形成的關鍵詞列表便是研究對象。
2.關鍵詞的初步篩選
1)相關測量:Pearson 與Spearman 方法
相關系數具體是指各個網絡搜索關鍵詞曲線與旅游者消費行為曲線之間的相似性。系數越大,兩者間的相似性就越大。論文主要采用Pearson相關系數和Spearman 相關系測量各個網絡搜索關鍵詞與旅游者消費行為之間的相關性。其中,Pearson 相關系數的計算公式為:
式中:r為相關系數,為變量,分別為變量xi,yi的樣本平均數。
鑒于論文的研究目標,論文將閾值設定為0.5。即,選擇運用Pearson 與Spearman 方法測算出的相關度均大于0.5的關鍵詞作為分析對象。
2)時差測量:時差相關分析
時差相關性是計算時間序列超前性、一致性或滯后關系的一種常用方法。論文主要采用時差相關分析方法來計算關鍵詞的前導周期,選擇最具預測性的關鍵詞,公式如下:
式中:rl表示與l的互相關系數;yt表示t時點的旅游者消費行為,表示y的平均值;x表示關鍵詞的搜索關注度,表示x的平均值;l是x的前導周期。
鑒于論文的研究目標,論文選擇對因變量具有預先指示作用的關鍵詞作為分析對象。
3)關鍵詞的優(yōu)化選擇:穩(wěn)定性檢驗
關鍵詞的搜索量是一個隨時間變化的數據。關鍵詞集中度也是一個隨時間變化的數值,并呈現(xiàn)出一定的波動。關鍵詞集中度的計算公式如下:
式中:CRi,t表示關鍵詞i在t時間的集中度,si,t表示i在t時間的搜索量,t時間的單位一般為天、周、月、季節(jié)和年。所有關鍵詞在t時間的集中度之和為1。
鑒于論文的主要目的為探索基于旅游網絡搜索指數的旅游者消費行為發(fā)展趨勢變化,直接選擇具有穩(wěn)定特征的關鍵詞,剔除具有突變特征的關鍵詞。
4)數據預測效果的評估:MAPE 和RMSE方法
在預測研究中,預測效果評估方法最常用的包括MAPE 和RMSE 兩種。計算公式如下:
式中:Yi表示預測值,Ai表示原值。
根據前述的初始關鍵詞的選擇、核心關鍵詞的篩選和搜索指數的合成方法,論文以四川省阿壩州四姑娘山為研究對象,基于游客接待量數據與核心關鍵詞網絡行為數據對四姑娘山旅游客流量進行預測分析,以進一步驗證系統(tǒng)合成法的有效性。
如李瑋娜所言,選擇域理論之所以受到旅游研究學界的廣泛認可,其主要價值集中體現(xiàn)在如下兩個方面:其一,旅游者的消費過程是一個全新的過程,旅游者在這個過程中需要收集信息,對備選方案進行評估;其二、這種消費行為帶有某種風險,并意味著旅游者的高度參與水平。之所以選擇四川省阿壩州四姑娘山作為實證研究對象,從很大程度上是因為四姑娘山的選擇過程完全符合上述兩個條件。
換言之,旅游者愿意,或者說必須花費更多的時間去慎重的考察與其旅游行為相關的一切影響因素,且采用更廣泛的決策行為對比;此外,選擇四姑娘山作為實證研究對象還得益于四姑娘山的智慧景區(qū)建設成果支撐。自2015年9月25日起,四姑娘山開始對外公開發(fā)布景區(qū)日度游客接待量數據(網站地址為:https://www.sgns.cn/news/number)。綜上,論文從百度指數①因論文僅涉及國內游客量預測研究,根據Statcounter 中的搜索引擎市場占有率排行榜(中國)歷史統(tǒng)計數據,百度搜索在2011.01-2018.09 的平均市場占有率達到了71.39%。因此,考慮覆蓋面和網民使用率,論文選擇使用百度搜索引擎提供的關鍵詞百度指數及搜索引擎使用率作為基礎統(tǒng)計數據。此外,有學者運用I網絡=I百度/R百度使用率公式對關鍵詞的百度搜索指數進行修正以彌補關鍵詞的百度搜索指數因百度搜索使用率的不斷變化而無法全面反映關鍵詞的網絡搜索變化趨勢的不足,論文經過測算認為,百度使用率的變化對關鍵詞的網絡搜索變化趨勢的影響并不大,故未對關鍵詞的百度搜索指數進行修正。網站截選了從2015年10月1日到2018年9月30日共1 096 個周期。
1.初始關鍵詞的選擇
1)論文基于選擇域理論視角,在既有文獻的基礎上分析知覺域、初期域、后期域和最終決策等階段中影響旅游消費者行為的主要因素,并在此基礎上明確初始關鍵詞10 個。
2)以上述10 個初始關鍵詞為基礎,通過百度指數中的需求圖譜功能中的關鍵詞推薦功能獲得擴展關鍵詞200 個;通過站長工具的關鍵詞挖掘服務獲得擴展關鍵詞200 個。
3)從主流旅游網站抓取游記數據和評論數據,然后使用中文分詞工具對結果進行文本挖掘,并提取與研究相關的高頻關鍵詞。經過關鍵詞列表整合、同義詞合并、重復詞去重,論文最終選擇詞頻顯示最高的前200 個關鍵詞。數據來源分布如表1 所述。
表1 數據來源及其核心關鍵詞分布表
4)將上述幾個階段獲得的關鍵詞進行清洗,主要包括合并同義關鍵詞和移除重復關鍵詞等兩個步驟,經過數據清洗后剩余核心關鍵詞309 個;
5)將上一步驟剩余的309 個關鍵詞輸入到百度指數中,以獲得每個關鍵詞的時間序列數據量。因為部分關鍵詞的搜索頻次太低,百度指數無法顯示它們的搜索量,這樣的關鍵詞就是所謂的無效關鍵詞。需要把它們從原來的集合中刪除。
經過上述各個步驟處理,最終剩余的可用于下階段分析的有效關鍵詞的數量為115 個(表2)。
2.確定觀測關鍵詞
1)關鍵詞相關度分析
本部分分別采用Pearson 與Spearman 方法對115 個關鍵詞的搜索量變化趨勢和四姑娘山旅游消費者數量日度數據進行相關性分析,以篩選出合適的觀測關鍵詞。依據公式(1)的Pearson 相關系數計算公式,得到115 個關鍵詞與YTSVI的相關系數表,如表3所示。
表2 網絡搜索關鍵詞
依據Spearman 相關系數計算式,得到115個關鍵詞與YTSVI的相關系數,如表4所示。
表3 采用Pearson 方法得到候選關鍵詞與YTSVI 的相關系數(部分)?
表4 采用Spearman 方法得到候選關鍵詞與YTSVI 的相關系數(部分)?
論文以0.5 為閾值,按照Pearson 與Spearman 相關分析結果,最終得到29 個關鍵詞可以作為觀測關鍵詞。
2)時差相關分析
本部分采用公式(2)對上一步驟得出的29個關鍵詞分別進行時差相關系數計算,得到29 個關鍵詞與YTSVI的時差相關系數表,如表5所示。
從表5 可以看出,二郎山、景區(qū)、海拔和貢嘎雪山與四姑娘山等四個關鍵詞與YTSVI之間不存在時差關系,其余25 個關鍵詞與YTSVI均存在1期到21 期不等的領先特征。
3)關鍵詞集中度分析
本部分采用公式(3)對上一步驟得出的25 個關鍵詞分別進行關鍵詞集中度計算,得到表4 中的25 個關鍵詞的集中度變化率最大值與最小值的差異均小于1,表現(xiàn)較為穩(wěn)定?;谙嚓P性、時差相關和關鍵詞集中度分析,論文認為,從預測旅游者消費行為發(fā)展趨勢的角度來看,上述25 個具有預測特征的關鍵詞可以最終確定為核心觀測關鍵詞。
3.合成旅游搜索指數(權重的賦予)
通過SPSS 軟件,得到各因子的貢獻率,累積貢獻率和成分矩陣,如表6~7所示。
表5 29 個關鍵詞的時差相關系數表(部分)
表6 核心關鍵詞方差分解主成分提取表
表7 核心關鍵詞成分矩陣
然后,以每個主成分所對應的特征值占所提取主成分總的特征值之和的比例作為權重計算主成分綜合模型,即可得到綜合主成分模型,如方程(6)所示。最后計算綜合主成分值,繪制基于系統(tǒng)合成方法的旅游網絡搜索指數。
式(6)中:
F1=0.603X2+0.667X12+0.647X16+0.610X22+ 0.716X28+0.587X34+0.826X39+0.605X63+0.613X66+ 0.632X68+0.768X69+0.536X107
F2=0.641X15+0.610X30+0.780X56+0.736X59+ 0.750X93+0.763X101
F3=0.687X20+0.768X60+0.578X112+0.883X114
F4=0.703X38+0.721X90+0.588X94
研究以既有文獻中常用的AR 模型和BP 神經網絡模型為基準模型,分別以采用直接合成法、相關性合成法獲得的SVI-1 和SVI-2 等兩組數據為參照,與采用系統(tǒng)合成法獲得的TSVI 指數進行對比研究。借鑒Hulth、Ginsberg、Xu 等人的研究成果,研究采用交叉驗證的方法探索網絡搜搜數據與旅游消費者行為之間的相關性。
根據交叉驗證模式的基本流程,選擇2015年10月01日到2018年6月31日的數據作為測試數據集,用于分析預測模型的建立;以2018年7月1日到2018年9月30日的數據為驗證數據集,用于驗證分析預測模型的效果。
1.AR 時間序列模型檢驗
以四姑娘山日度旅游消費者數量為因變量,分別SVI-1、SVI-2 和TSVI 指數為自變量,構建AR 時間序列預測模型。
如下方程(7)~(9)所示預測結果如圖3所示:
其中,μt=0.863 9μt-1-0.106 4μt-2+εtYt
其中,μt=0.847 3μt-1-0.207 9μt-2+0.122 2μt-3+εt
其中,μt=0.153 0μt-1+0.863 8μt-2-106 4μt-3+εt
圖3 以SVI-1、SVI-2 和TSVI 指數為自變量,以四川省阿壩州四姑娘山日度旅游消費者數量為因變量,構建的AR 模型測算出的預測值和旅游消費者數量原值對比序列圖(圖3)。
圖3 SVI-1、SVI-2 和TSVI 指數AR 模型預測值和旅游消費者數量原值序列對比
從上表8 中不難看出,相對于采用直接合成法、相關性合成法獲得的SVI-1 和SVI-2 等兩組數據,采用系統(tǒng)合成法獲得的TSVI 指數構建的AR 預測模型測算出的預測值序列與原值最為接近;而相比之下,采用直接合成法、相關性合成法獲得的SVI-1 和SVI-2 等兩組數據構建的AR預測模型測算出的預測序列與原值之間的預測誤差均較大。
2.BP 神經網絡檢驗
以四川省阿壩州四姑娘山日度旅游消費者數量為因變量,SVI-1、SVI-2 和TSVI 指數為自變量,分別構建BP 神經網絡模型。論文采用三層結構的神經網絡,輸入層為2 個神經元,隱藏層為25個,輸出層為1 個神經元,學習率為0.001,迭代次數為1000 次。經過訓練,獲得預測結果如圖4所示:
圖4 以SVI-1、SVI-2 和TSVI 指數為自變量,以四姑娘山日度旅游消費者數量為因變量,分別構建的三個BP 神經網絡模型測算出的預測值和旅游消費者數量原值對比序列圖。從圖4 中不難看出,相對于采用直接合成法、相關性合成法獲得的SVI-1 和SVI-2 等兩組數據,采用系統(tǒng)合成法獲得的TSVI 指數在BP 神經網絡預測模型中的表現(xiàn)最佳。
表8 SVI-1-AR、SVI-2-AR、TSVI-AR 時間序列模型參數 對比
圖4 SVI-1、SVI-2 和TSVI 指數BP 神經網絡模型預測值和旅游消費者數量原值序列對比
3.預測精度比較
為了評價預測精度,研究使用MAPE 和RMSE 方法對計算結果進行了檢測,來比較哪種方法的預測精度更高。
如表9所示,在三組測試數據集合的6 個預測模型中,無論使用哪個預測模型,TSVI 的預測精度都顯著優(yōu)于SVI-1 與SVI-2。從某種程度上說,相對于直接合成法與相關性合成法,研究構建的旅游網絡搜索指數系統(tǒng)合成法是一種更有效的網絡行為數據預處理方法。
表9 模型預測效果MAPE、RMSE 評估結果
由于具有高水平交互性和定制性,互聯(lián)網逐漸成為為旅游消費者行為提供信息來源的主要手段之一,學術界也因此對網絡行為數據與旅游消費者行為之間關系的關注也與日俱增。研究主要對關鍵詞篩選、搜索指數合成和預測模型選定等方面作出了有益探索。
基于網絡行為數據的旅游者消費是一個充滿了復雜性、動態(tài)性和偶然性的行為過程。針對這種充滿復雜性的旅游者消費行為,研究構建了一個基于選擇域理論的旅游者消費行為分析模型。在這一個不斷減少備選方案的漏斗式篩選過程中,旅游者根據其偏好程度將備選項逐步分類,并按照類別歸入不同的“域”中,從而縮小決策范圍,直到做出最終決策。
基于選擇域理論視角,研究提出一種網絡行為數據的預處理方法。首先采用簡單相關分析方法篩選出與旅游者消費行為具有高相關性的關鍵詞;其次,采用時差相關分析方法篩選出對旅游者消費行為具有領先性的關鍵詞;再次,采用集中度分析方法保留穩(wěn)定性高的關鍵詞;最后,采用主成分分析法構建旅游網絡搜索指數,并將該指數作為預測模型的重要變量。
為了驗證系統(tǒng)合成法的有效性,研究采用了交叉驗證的方法。研究以既有文獻中常用的AR模型和BP 神經網絡模型為基準模型;分別以采用直接合成法、相關性合成法獲得的SVI-1 和SVI-2 等兩組數據為參照,與采用系統(tǒng)合成法獲得的TSVI 指數進行對比。研究發(fā)現(xiàn):TSVI 指數在AR 和BP 等預測模型中的表現(xiàn)均優(yōu)于SVI-1和SVI-2。
總之,基于選擇域理論視角,本研究提出一種網絡行為數據的預處理方法,并以既有文獻中常用的AR 時間序列和BP 神經網絡為基準模型,以采用系統(tǒng)合成法獲得的TSVI 指數與采用直接合成法、相關性合成法獲得的SVI-1 和SVI-2 指數進行了系統(tǒng)對比研究,以驗證系統(tǒng)合成法的有效性對探索網絡行為數據與消費者行為之間關系是具有普適性意義的。但是,應該意識到的問題在于,在現(xiàn)實生活中,網絡行為數據只是幫助旅游消費者作出消費選擇的主要信息來源之一,而并非全部來自網絡。文中所涉及到的所有數據均來自于網絡,必然會遺漏許多有價值的信息。除此以外,初始關鍵詞庫和關鍵詞的合成方法都會直接影響消費者行為預測的信度和效度。所以,進一步探索能夠闡述網絡行為數據和旅游者消費行為之間內在機制的理論解釋框架;能夠更加科學的選取核心關鍵詞、更加系統(tǒng)的合成關鍵詞搜索指數方法,從而構建更加具有普適性的旅游消費者行為解釋模型還需要進行更為深入地研究。