江 帆 林珊珊 應(yīng)天煜 潘 冰 周亞慶
(1.浙江大學(xué)管理學(xué)院 浙江杭州 310058;2.美國賓夕法尼亞州立大學(xué)健康與人類發(fā)展學(xué)院 美國賓夕法尼亞州帕克 16802)
隨著信息技術(shù)高速發(fā)展和互聯(lián)網(wǎng)快速普及,人、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)模式的高度復(fù)雜化和數(shù)據(jù)量的爆炸式增長,對經(jīng)濟(jì)發(fā)展、社會治理、國家管理、人民生活等各方面都產(chǎn)生了重大影響。廣義上來說,大數(shù)據(jù)是指在指定時間內(nèi),無法使用傳統(tǒng)軟硬件工具和IT 技術(shù)獲取、管理、分析的數(shù)據(jù)(李國杰、程學(xué)旗,2012)。Gantz 和Reinsel(2011)總結(jié)了大數(shù)據(jù)的4V 特點,即Volume(體量大)、Variety(種類多)、Velocity(生成速度快)和Value(價值大但密度低)。大數(shù)據(jù)及相關(guān)技術(shù)為改進(jìn)科學(xué)研究做出了巨大貢獻(xiàn),旅游研究就是其中一個典型例子。用戶、設(shè)備和系統(tǒng)操作這三大數(shù)據(jù)來源提供了豐富的旅游相關(guān)大數(shù)據(jù)。首先,互聯(lián)網(wǎng)促進(jìn)了社交媒體的快速發(fā)展,為傳播用戶生成內(nèi)容(UGC)數(shù)據(jù)提供了廣闊的平臺。其次,由于物聯(lián)網(wǎng)(IoT)的蓬勃發(fā)展,各種傳感器設(shè)備不斷涌現(xiàn),用于追蹤游客的活動和環(huán)境狀況,提供了大量的時空數(shù)據(jù)。最后,旅游是一個包含了一系列操作的復(fù)雜系統(tǒng),如網(wǎng)絡(luò)搜索、網(wǎng)頁訪問、在線預(yù)訂等,它們產(chǎn)生了相應(yīng)的網(wǎng)絡(luò)搜索數(shù)據(jù)、網(wǎng)頁訪問數(shù)據(jù)、在線預(yù)訂數(shù)據(jù)等事務(wù)型數(shù)據(jù)?;谶@3 個主要來源的大數(shù)據(jù),學(xué)術(shù)界和業(yè)界可以更好地探索和理解游客行為和旅游市場(Li,Xu & Tang,et al.,2018)。大數(shù)據(jù)的出現(xiàn)為旅游學(xué)的深入研究奠定了堅實的數(shù)據(jù)基礎(chǔ),彌補(bǔ)了傳統(tǒng)數(shù)據(jù)收集方法在代表性和準(zhǔn)確性上的不足,也為公眾參與旅游平臺建設(shè)提供了新途徑(郝志剛,2016)。
國外旅游學(xué)界很早就開始關(guān)注大數(shù)據(jù)研究,并開展了豐富的實證和理論研究。已有學(xué)者對國外旅游大數(shù)據(jù)研究進(jìn)行了詳盡的綜述,如Li、Xu 和Tang 等(2018)根據(jù)數(shù)據(jù)來源將旅游大數(shù)據(jù)分為用戶生成內(nèi)容(UGC)數(shù)據(jù)、設(shè)備數(shù)據(jù)、事務(wù)型數(shù)據(jù)三大類,并從研究重點、數(shù)據(jù)特征、分析技術(shù)及未來研究方向4 個維度,對每一類數(shù)據(jù)的相關(guān)研究進(jìn)行了系統(tǒng)綜述。
雖然社會各界都開始意識到大數(shù)據(jù)所蘊藏的巨大價值,但國內(nèi)對旅游大數(shù)據(jù)的起步早關(guān)注晚,相關(guān)研究相對分散,尚未形成系統(tǒng)化的研究布局。目前旅游大數(shù)據(jù)的研究和應(yīng)用在國內(nèi)方興未艾,亟須更加理性的思考及反思(潘冰、李云鵬,2017)。在本文選取的358 篇文章中,有13 篇從不同角度對旅游大數(shù)據(jù)或其技術(shù)使用研究做了理論性綜述,其中2 篇是基于國外旅游大數(shù)據(jù)的文獻(xiàn),探析了大數(shù)據(jù)在旅游研究中的運用(曾忠祿、王興,2020)及其研究熱點和具體特征(吳開軍,2019),但分析視角較為宏觀,未深入探討細(xì)分?jǐn)?shù)據(jù)類型的具體情況。其他研究則聚焦旅游大數(shù)據(jù)研究的某一具體方面:或關(guān)注特定類型的旅游大數(shù)據(jù)研究,如旅游數(shù)字足跡(李君軼,2013)、地理標(biāo)簽照片(王麗,2018)、追溯技術(shù)(藍(lán)牙、Wi-Fi 及GPS 數(shù)據(jù))(袁雨果、鄭偉民,2019)、在線評論數(shù)據(jù)(張補(bǔ)宏、周旋、廣新菊,2017);或梳理具體數(shù)據(jù)分析技術(shù)的應(yīng)用(王英杰、張桐艷、李鵬等,2020;楊敏、李君軼、徐雪,2020),但立足特定場景(林開淼、郭進(jìn)輝、林育彬等,2020),缺乏對旅游大數(shù)據(jù)研究的整體把握。此外,這些文獻(xiàn)主要考察不同的研究領(lǐng)域,沒有充分考慮各數(shù)據(jù)類型所特有的數(shù)據(jù)特征和數(shù)據(jù)分析方法。上述綜述文獻(xiàn)多將國外研究作為目標(biāo)文獻(xiàn),未充分考慮中國本土研究情境,在數(shù)據(jù)類型上也未進(jìn)行擴(kuò)展和創(chuàng)新。因此,本文試圖彌補(bǔ)上述研究空隙,對旅游研究中不同類型的大數(shù)據(jù)進(jìn)行全面的文獻(xiàn)綜述,并從研究主題、數(shù)據(jù)特征和分析技術(shù)3 個角度對各類型大數(shù)據(jù)進(jìn)行系統(tǒng)分析,描繪國內(nèi)旅游大數(shù)據(jù)研究的進(jìn)展及未來發(fā)展趨勢的全景圖,以期推進(jìn)國內(nèi)旅游大數(shù)據(jù)研究的發(fā)展。
本文使用兩級關(guān)鍵詞進(jìn)行交叉組合式檢索,一級關(guān)鍵詞為“旅游”“酒店”“目的地”“景區(qū)”“大數(shù)據(jù)”,二級關(guān)鍵詞為旅游大數(shù)據(jù)細(xì)分類型(如用戶生成/原創(chuàng)內(nèi)容、線上/在線評論、線上/在線圖片)及數(shù)據(jù)分析方法(如數(shù)據(jù)挖掘、文本分析)。用于檢索的數(shù)據(jù)庫鎖定中國知網(wǎng)(CNKI)截至2021年1月13日發(fā)表的文獻(xiàn),選取“SCI”“EI”“核心”和“CSSCI”作為期刊來源選項,只將期刊文獻(xiàn)作為研究對象,不包括書評、報告、學(xué)位論文等。經(jīng)過進(jìn)一步人工審核,篩選出關(guān)于旅游大數(shù)據(jù)的實證研究,最終選定358 篇作為本研究的文獻(xiàn)樣本。之后,研究團(tuán)隊對文獻(xiàn)的基本信息(包括作者、年份、題目、期刊),以及文獻(xiàn)主題及數(shù)據(jù)信息(包括研究主題、數(shù)據(jù)類型、研究方法、數(shù)據(jù)收集方法、數(shù)據(jù)分析方法及數(shù)據(jù)來源等)分別進(jìn)行背靠背提取、比對與整理匯總,為每一數(shù)據(jù)類型建立一個文獻(xiàn)數(shù)據(jù)庫,示例見表1。
表1 本研究數(shù)據(jù)庫示例Tab.1 An example of the database used in this study
從期刊來源看,發(fā)表數(shù)量前五位的期刊分別是《旅游學(xué)刊》《經(jīng)濟(jì)地理》《資源開發(fā)與市場》《地域研究與開發(fā)》及《旅游科學(xué)》,文獻(xiàn)數(shù)量占本研究文獻(xiàn)總量的34.1%(見表2)。從發(fā)展趨勢來看,國內(nèi)旅游大數(shù)據(jù)研究起步較早但關(guān)注較晚。2001年出現(xiàn)了第一篇相關(guān)研究,2001年至2008年是探索階段,年發(fā)文量低于3 篇,且部分年份沒有相關(guān)論文發(fā)表。2009年至2013年這一階段的發(fā)文量雖然不高,但相比第一階段,文章發(fā)表數(shù)量相對穩(wěn)定,年均發(fā)文量5篇。2013年之后,國內(nèi)旅游大數(shù)據(jù)研究進(jìn)入了迅速發(fā)展期,發(fā)表的論文占查找論文總量的92%,年均發(fā)文量迅速增至41 篇。2018年達(dá)到頂峰,發(fā)表的文章達(dá)到65 篇。根據(jù)這一系列數(shù)據(jù)的趨勢判斷,今后幾年國內(nèi)旅游大數(shù)據(jù)研究將會繼續(xù)發(fā)展,對這一領(lǐng)域的理性回顧對于剖析現(xiàn)存難題、豐富現(xiàn)有研究具有重要意義。
表2 文獻(xiàn)期刊來源(5 篇及以上)Tab.2 Source of journal articles(5 and above)
研究方法包括質(zhì)性研究、定量研究、混合研究以及文獻(xiàn)綜述4 種。鑒于旅游大數(shù)據(jù)獲取的特殊性,本文進(jìn)一步區(qū)分?jǐn)?shù)據(jù)獲取方法,包括一手?jǐn)?shù)據(jù)、二手?jǐn)?shù)據(jù)以及混合數(shù)據(jù)3 種。統(tǒng)計發(fā)現(xiàn):已有國內(nèi)旅游大數(shù)據(jù)研究多以質(zhì)性研究為主,占比54%;定量研究占比39%;混合研究僅占7%。研究數(shù)據(jù)多使用二手?jǐn)?shù)據(jù)(89%),且大部分使用單一類型的二手大數(shù)據(jù)(85%),僅有4%使用了混合數(shù)據(jù)。對于具體的數(shù)據(jù)分析方法,筆者將根據(jù)3 種不同的數(shù)據(jù)類型依次進(jìn)行深入剖析。
Li、Xu 和Tang 等(2018)根據(jù)數(shù)據(jù)來源的不同,將旅游大數(shù)據(jù)細(xì)分為3 類:用戶生成內(nèi)容(UGC)數(shù)據(jù)、設(shè)備數(shù)據(jù)和事務(wù)型數(shù)據(jù)。UGC 數(shù)據(jù)指由游客產(chǎn)生的數(shù)據(jù),而根據(jù)分享內(nèi)容的不同,UGC 數(shù)據(jù)又分為在線文本數(shù)據(jù)和在線圖片數(shù)據(jù)。設(shè)備數(shù)據(jù)指由機(jī)器產(chǎn)生的數(shù)據(jù),包括GPS 數(shù)據(jù)、藍(lán)牙數(shù)據(jù)、移動漫游數(shù)據(jù)、Wi-Fi 數(shù)據(jù)、RFID 數(shù)據(jù)以及其他設(shè)備數(shù)據(jù)。事務(wù)型數(shù)據(jù)指用戶與機(jī)器執(zhí)行網(wǎng)上交互活動時產(chǎn)生的數(shù)據(jù),包括網(wǎng)絡(luò)搜索數(shù)據(jù)、網(wǎng)頁瀏覽數(shù)據(jù)、在線預(yù)訂數(shù)據(jù)等。根據(jù)本文文獻(xiàn)檢索結(jié)果,國內(nèi)暫時還沒有圍繞藍(lán)牙數(shù)據(jù)、Wi-Fi 數(shù)據(jù)、RFID 數(shù)據(jù)以及消費卡數(shù)據(jù)開展的相關(guān)研究,但筆者補(bǔ)充了中國情境所特有的微博簽到數(shù)據(jù)以保持相對完整性。結(jié)合旅游者游前、游中和游后的三階段行為,最終匯總之后的中國旅游大數(shù)據(jù)類型如圖1 所示:UGC 數(shù)據(jù)(在線文本數(shù)據(jù)、在線圖片數(shù)據(jù)、微博簽到數(shù)據(jù));設(shè)備數(shù)據(jù)(GPS 數(shù)據(jù)、移動通信數(shù)據(jù)、氣象數(shù)據(jù));事務(wù)型數(shù)據(jù)(網(wǎng)絡(luò)搜索數(shù)據(jù)、網(wǎng)絡(luò)瀏覽數(shù)據(jù)、在線預(yù)訂數(shù)據(jù))。
圖1 中文文獻(xiàn)旅游大數(shù)據(jù)分類Fig.1 Classif ication of tourism big data studies in China
從圖2(a)可以看出,目前國內(nèi)旅游大數(shù)據(jù)研究的數(shù)據(jù)類型分布十分不均勻:UGC 數(shù)據(jù)是應(yīng)用最廣泛的數(shù)據(jù)類型,占所有數(shù)據(jù)類型的72%,其中在線文本數(shù)據(jù)的占比高達(dá)76%;設(shè)備數(shù)據(jù)和事務(wù)型數(shù)據(jù)分別占比17%和11%。數(shù)據(jù)可得性的差異是導(dǎo)致數(shù)據(jù)類型分布不均勻的主要原因。在所有類型的旅游大數(shù)據(jù)中,UGC 數(shù)據(jù)獲取成本和難度都最低,因此使用范圍最廣。其余數(shù)據(jù)的使用受制于隱私安全或獲取成本等客觀條件,所以獲得相對困難。如在線預(yù)訂數(shù)據(jù)和移動漫游數(shù)據(jù)中包含較多的隱私信息,只有特定企業(yè)和政府部門能夠獲取。部分學(xué)者通過購買獲取運營商數(shù)據(jù),但成本過高,可行性有限。部分?jǐn)?shù)據(jù)收集依賴專門的實驗器材和大量的人力資源,如雇傭游客使用GPS 手持機(jī)器設(shè)備收集GPS 數(shù)據(jù),研究成本較高。圖2(b)匯總了每種數(shù)據(jù)類型的研究年份分布,從中可以發(fā)現(xiàn),大部分?jǐn)?shù)據(jù)類型的研究整體呈波動上升趨勢,其中2013年是一個明顯的增長點,2018年左右達(dá)到頂峰。早期學(xué)者使用較多的是氣象數(shù)據(jù)和GPS 數(shù)據(jù),氣象數(shù)據(jù)的研究在2009年發(fā)表較多,但在其他新興數(shù)據(jù)崛起的移動信息時代逐漸衰落。2016年之后,隨著信息化技術(shù)的發(fā)展和各式共享平臺的出現(xiàn),網(wǎng)絡(luò)搜索數(shù)據(jù)、在線文本數(shù)據(jù)、在線圖片數(shù)據(jù)等其他類型數(shù)據(jù)的相關(guān)研究開始出現(xiàn)。之后在線文本數(shù)據(jù)的研究一直處于領(lǐng)先位置,年發(fā)文量遠(yuǎn)高于其他數(shù)據(jù)類型研究。值得注意的是,2018年,在其他類型數(shù)據(jù)發(fā)文量呈現(xiàn)上升趨勢時,在線文本數(shù)據(jù)研究出現(xiàn)了小波谷,這預(yù)示著國內(nèi)學(xué)者的注意力開始從在線文本數(shù)據(jù)轉(zhuǎn)移到其他數(shù)據(jù)。一年之后,使用GPS 數(shù)據(jù)、網(wǎng)絡(luò)搜索數(shù)據(jù)和微博簽到數(shù)據(jù)的研究都大幅度增加。在線預(yù)訂數(shù)據(jù)、網(wǎng)頁瀏覽數(shù)據(jù)等受限于數(shù)據(jù)可得性,相關(guān)研究一直很少。表3匯總了各類旅游大數(shù)據(jù)的研究結(jié)果,后續(xù)將圍繞表中內(nèi)容詳細(xì)展開。
表3 旅游研究中不同類型大數(shù)據(jù)的比較Tab.3 Comparison of diff erent types of big data in tourism research
圖2 數(shù)據(jù)類型比例及年份分布Fig.2 Distribution of data types and published years
社交媒體的普及為旅游者提供了可以自由分享信息的平臺,這些信息包括文字、圖片和志愿者地理信息(Volunteered Geographic Information),對應(yīng)產(chǎn)生了在線文本數(shù)據(jù)、在線圖片數(shù)據(jù)和微博簽到數(shù)據(jù)。
在線文本數(shù)據(jù)具有方便、快捷、低門檻的特點,是旅游大數(shù)據(jù)的主要來源之一(李春曉、李輝、劉艷箏等,2020)。目前游客線上分享的文本內(nèi)容主要包括兩類:在線評論和游記。
(1)研究主題
由于所表達(dá)的信息內(nèi)容不同,在線評論數(shù)據(jù)和游記數(shù)據(jù)的研究主題也存在差異。評論數(shù)據(jù)更多表達(dá)旅游者對旅游產(chǎn)品的態(tài)度,因此常被用來衡量游客滿意度,探究滿意度的具體構(gòu)成(繆秀梅、陳燁天、米傳民,2019)及其影響因素(黎冬梅、朱沆,2007),以評估和改善酒店的線上口碑(吳維芳、高寶俊、楊海霞等,2017)或有效提升景區(qū)管理水平(趙春艷、陳美愛,2019)。另外,在線評論數(shù)據(jù)也被廣泛運用于旅游目的地感知形象研究中(張珍珍、李君軼,2014)。值得注意的是,已有學(xué)者在單一旅游目的地感知形象研究的基礎(chǔ)上進(jìn)行了拓展,如比較傳統(tǒng)方法收集的數(shù)據(jù)與評論數(shù)據(jù)在探究旅游形象感知上的異同(張珍珍、李君軼,2014)。UGC 評論數(shù)據(jù)還被用于旅游情感分析。如挖掘游客情感特征(叢麗、何繼紅,2020)并根據(jù)情感評價詞前的副詞和轉(zhuǎn)折詞區(qū)分情感強(qiáng)度(劉逸、保繼剛、陳凱琪,2017),或基于情感分析的結(jié)果計算情感傾向以便于了解網(wǎng)絡(luò)輿情(周倩、姜磊、程旅航等,2020)。除了將評論作為數(shù)據(jù)來源探究旅游者或目的地的相關(guān)特征之外,也有研究將在線游客評論看作影響因子,觀察其對景區(qū)接待量(賴勝強(qiáng)、唐雪梅、朱敏,2011)和消費者態(tài)度(楊穎、朱毅,2014)的影響。近年來,亦有學(xué)者分析評論數(shù)據(jù)本身,探究影響在線評論有用性(卓四清、馮永洲,2015)和可信度(張思豆、李君軼、魏歡,2016)的因素。
游記對旅游目的地形象塑造和傳播同樣具有重要影響(郭風(fēng)華、王琨、張建立等,2015)。為彌補(bǔ)單向研究的局限性,有學(xué)者將游記數(shù)據(jù)和官方宣傳文本結(jié)合起來,對比游客感知形象和官方宣傳形象,發(fā)現(xiàn)二者之間存在的異同,由此提出針對性的營銷和發(fā)展建議(仲寧、吳小根、汪俠等,2018)。也有學(xué)者利用游記挖掘旅游地意象,如彭丹和黃燕婷(2019)利用網(wǎng)絡(luò)有機(jī)文本分析麗江古城旅游地意象,發(fā)現(xiàn)麗江古城旅游地意象的主題可以歸納為本真性的意象、浪漫性的意象以及商業(yè)化的意象3 類。此外,游記敘述了旅游故事和途中感受,因此成為除量表之外進(jìn)行旅游體驗研究的重要數(shù)據(jù)來源。多數(shù)研究利用游記對旅游活動、景觀等的旅游體驗進(jìn)行分析,有學(xué)者在此基礎(chǔ)上提煉理論模型,如徒步旅游中的旅游體驗本質(zhì)模型(謝彥君、樊友猛,2017)及旅游體驗價值感知基礎(chǔ)模型(黃杰、馬繼、謝霞等,2017)。同時,作為數(shù)字足跡的一種,游記為旅游流和游客時空行為研究提供了大量的開放數(shù)據(jù)資源(嚴(yán)江平、唐萍、李巍,2016),且有利于優(yōu)化現(xiàn)有的旅游推薦模型(孫文平、常亮、賓辰忠等,2019)。
盡管相較于游記和評論,微信數(shù)據(jù)包含更多的個性化信息,但受限于數(shù)據(jù)可得性及個人隱私,微信數(shù)據(jù)很少被用在旅游研究中。茍思遠(yuǎn)、李剛和張可心等(2016)進(jìn)行了首次探索,他們針對某一旅游者(W 教授)的朋友圈,根據(jù)其逐日活動記錄探究其時空行為特征。
(2)數(shù)據(jù)特征
在線文本數(shù)據(jù)主要來自國內(nèi)主流旅游網(wǎng)站,如攜程旅行、去哪兒、馬蜂窩、驢媽媽等。其中,攜程旅行網(wǎng)是國內(nèi)最大、受眾最廣的在線旅行社平臺(Online Travel Agency)。Trip Advisor 及其子網(wǎng)站到到網(wǎng)則是收集國外評論的主要網(wǎng)站。也有針對特定旅游類型的網(wǎng)站,如專注徒步旅游的窮游網(wǎng)、磨房網(wǎng)等主流戶外旅游網(wǎng)站(謝彥君、樊友猛,2017),專注騎行旅游體驗的“騎行圈”(李艷、嚴(yán)艷、贠欣,2015)等。研究還發(fā)現(xiàn),57%利用評論數(shù)據(jù)的研究和76%利用游記的研究都使用了兩種及兩種以上的網(wǎng)站作為數(shù)據(jù)來源以保證樣本的代表性和可信度。
旅游網(wǎng)站的開放為旅游研究提供了豐富且海量的在線文本數(shù)據(jù)。目前國內(nèi)研究常用網(wǎng)絡(luò)信息采集軟件進(jìn)行在線文本數(shù)據(jù)的抓取,如火車頭采集器和八爪魚采集器,也有研究使用網(wǎng)絡(luò)爬蟲工具如Gooseeker、BeautifulSoup、PhantomJS、Selenium、Web Spider 等。這些數(shù)據(jù)抓取軟件和爬蟲工具的出現(xiàn),大大降低了在線文本數(shù)據(jù)獲取的難度和成本。
(3)分析技術(shù)
在線文本數(shù)據(jù)的分析過程一般包括4 個階段:確定數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘。鑒于大數(shù)據(jù)分析的特殊性,本文將重點闡述后兩個階段的數(shù)據(jù)分析技術(shù)。數(shù)據(jù)預(yù)處理是分析處理在線文本數(shù)據(jù)的一個關(guān)鍵環(huán)節(jié),決定了數(shù)據(jù)結(jié)論的準(zhǔn)確性和有效性。這一環(huán)節(jié)可分為4 個步驟:①數(shù)據(jù)清洗,刪除不完整、不準(zhǔn)確或是無用的記錄,刪除重復(fù)信息或明顯作假信息,剔除與研究主題不符的信息(鐘櫟娜,2015)。②數(shù)據(jù)轉(zhuǎn)化,即同義詞替換歸并和語言轉(zhuǎn)換(宋振春、趙彩虹、李旭東,2018)。③分詞,將完整的語句打散成為各類詞語的組合,剔除無效詞,保留旅游相關(guān)的關(guān)鍵詞及形容詞、程度副詞等。這一步可以利用分詞軟件輔助進(jìn)行,如ROST Content Mining(簡稱ROST CM)、ICTCLAS 分詞系統(tǒng)以及分詞工具包IKAnalyzer、Word2Vec。④建立詞庫方便后續(xù)分析。
數(shù)據(jù)挖掘,即挖掘出數(shù)據(jù)中隱藏的人們感興趣的、有價值的信息,并將其提煉成可直接使用的知識(陶雪嬌、胡曉峰、劉洋,2013),這是在線文本數(shù)據(jù)分析的關(guān)鍵步驟。目前的研究多使用傳統(tǒng)文本分析方法,如內(nèi)容分析法、扎根理論及重要性 - 表現(xiàn)性分析法(IPA)來分析旅游現(xiàn)象(賈衍菊,2017)。隨著網(wǎng)絡(luò)媒體發(fā)展,有研究者開始將傳統(tǒng)內(nèi)容分析方法與網(wǎng)絡(luò)信息結(jié)合起來,形成與數(shù)字化環(huán)境相適應(yīng)的網(wǎng)絡(luò)內(nèi)容分析法,對網(wǎng)站和在線文字交流記錄進(jìn)行分析(熊偉、許俊華,2010)。具體數(shù)據(jù)分析技術(shù)有詞頻分析、網(wǎng)絡(luò)語義分析、社會網(wǎng)絡(luò)分析、情感分析與聚類分析等?,F(xiàn)在已經(jīng)開發(fā)了許多有效的數(shù)據(jù)挖掘工具和軟件包用于分析處理文本數(shù)據(jù),如ROST Content Mining、UCINET、NVivo 和SPSS 等。其中武漢大學(xué)沈陽教授研究團(tuán)隊研發(fā)的ROST CM 應(yīng)用最為廣泛,是目前國內(nèi)學(xué)者對網(wǎng)絡(luò)文本進(jìn)行研究分析的常用工具之一(董正秀、黃震方,2018)。
除了上述傳統(tǒng)文本數(shù)據(jù)分析方法,已有學(xué)者引入深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能中的數(shù)據(jù)挖掘技術(shù)來探究旅游現(xiàn)象。如李君軼、任濤和陸路正(2020)利用邏輯/算法編程方法、機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法挖掘評論數(shù)據(jù),探索基于文本大數(shù)據(jù)的游客情感最優(yōu)計算方法。馬超、李綱和陳思菁等(2020)使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法,識別多模態(tài)評論數(shù)據(jù)對其感知有用性的影響。李琴、李少波和王安虹等(2018)利用神經(jīng)網(wǎng)絡(luò)語言模型,提出一種基于旅游在線評論人流量監(jiān)控技術(shù)的新方法并提出景區(qū)門票浮動制。
網(wǎng)絡(luò)和社交媒體的發(fā)展,也催生了許多非結(jié)構(gòu)化信息的共享平臺,如圖片分享平臺,游客可以在社交媒體或旅游網(wǎng)站發(fā)布帶有地理位置標(biāo)記的圖片。
(1)研究主題
本研究搜集到基于在線圖片數(shù)據(jù)的旅游研究文獻(xiàn)共37 篇,根據(jù)具體研究對象,可進(jìn)一步劃分成兩部分:對圖片內(nèi)容的研究和對圖片所帶地理標(biāo)簽的研究。根據(jù)凝視理論,圖片在一定程度上可以反映出游客對于旅游目的地的感知偏好及其行為特征(張坤、李春林、張津沂,2020),因此,對圖片內(nèi)容進(jìn)行分析的研究聚焦于旅游目的地形象(鄧寧、鐘櫟娜、李宏,2018;鄧寧、劉耀芳、牛宇等,2019)、旅游意象(孔令怡、吳江、魏玲玲等,2018)、旅游體驗(潘莉、張夢、張毓峰,2014)3 個方面。如果單純利用圖片的地理標(biāo)簽進(jìn)行研究,此時的在線圖片數(shù)據(jù)與GPS、Wi-Fi 和藍(lán)牙等其他追蹤技術(shù)所得數(shù)據(jù)所發(fā)揮的作用一致,可以實現(xiàn)對旅游者行為軌跡的刻畫,因此常被用于游客時空行為、旅游流和旅游興趣點挖掘這幾類研究中(王守成、郭風(fēng)華、傅學(xué)慶等,2014;丁娟、李俊峰,2015;羅秋菊、梁思賢,2016)。
(2)數(shù)據(jù)特征
國內(nèi)旅游研究的在線圖片數(shù)據(jù)的獲取主要有兩大來源:一是專業(yè)的圖片共享網(wǎng)站,最常見的是Flickr 和Panoramio(二者占所有圖片數(shù)據(jù)來源的45%),這些平臺都提供了免費開放的數(shù)據(jù)接口,方便獲得圖片數(shù)據(jù)及其元數(shù)據(jù),且數(shù)據(jù)成本低。除了圖片本身,在線圖片數(shù)據(jù)還提供了元數(shù)據(jù)。元數(shù)據(jù)包含了用戶相關(guān)信息(照片ID 和用戶ID)、圖片時間信息(拍攝時間和上傳時間)、地理位置信息(照片拍攝地點的經(jīng)緯度)以及描述性信息(標(biāo)題)等,這些字段在旅游者時空行為等相關(guān)研究中發(fā)揮了非常重要的作用(羅秋菊、梁思賢,2016)。二是各大旅游網(wǎng)站,如馬蜂窩、攜程旅行等,通過軟件抓取獲得圖片數(shù)據(jù)。
(3)分析技術(shù)
作為一種特殊的數(shù)據(jù)類型,圖片是一種隱喻能力很強(qiáng)的視覺符號,能反映出游客心中深層次的真實感受。因此,對圖片中所蘊含的深層含義的挖掘是這一類型研究的重點。針對圖片內(nèi)容進(jìn)行分析的主要分析方法有內(nèi)容分析法、隱喻抽取技術(shù)或符號學(xué)相關(guān)分析方法,以及社會網(wǎng)絡(luò)分析法。其中,內(nèi)容分析法最為常見。隱喻提取技術(shù)是由哈佛商學(xué)院教授扎爾特曼(Zaltman)提出的一種質(zhì)性研究方法,其主要思路是通過與深度訪談法結(jié)合,讓受訪者選擇圖片并講述圖片背后的獨特故事,以揭露受訪者內(nèi)心的深層想法(潘莉、張夢、張毓峰,2014)。孔令怡、吳江和魏玲玲等(2018)就運用隱喻抽取技術(shù),解析了鳳凰古城的目的地意象。符號學(xué)中的相關(guān)分析方法也能對圖片內(nèi)容進(jìn)行深入剖析,如李靜和戴光全(2019)使用羅蘭·巴特圖像符號學(xué)分析法,結(jié)合內(nèi)容分析,從明示符號和隱含符號的分析角度探究節(jié)慶旅游體驗。社會網(wǎng)絡(luò)分析法是研究社會結(jié)構(gòu)的最新方法,將關(guān)注屬性作為節(jié)點,探究各屬性之間的關(guān)系(Scott,2000)。王素潔、黃楷伊和董玉潔(2018)就利用社會網(wǎng)絡(luò)分析法構(gòu)建了中國目的地形象屬性的共現(xiàn)關(guān)系網(wǎng)絡(luò)。上述幾種圖片內(nèi)容分析方法相對傳統(tǒng),近年來,已有學(xué)者引入計算機(jī)視覺學(xué)習(xí)和圖像處理的深度學(xué)習(xí)算法來輔助圖片內(nèi)容識別及分類。其中,深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)已被廣泛應(yīng)用于圖像分類、物體檢索、姿態(tài)估計、圖像分割、人臉識別等領(lǐng)域,極大提升了圖像識別的準(zhǔn)確性(盧宏濤、張秦川,2016)。鄧寧、劉耀芳和牛宇等(2019)使用卷積神經(jīng)網(wǎng)絡(luò),對Flickr 上不同來源地旅游者拍攝的北京圖片的表征內(nèi)容進(jìn)行分析,并使用了哥倫比亞大學(xué)Chen 等基于圖片深度學(xué)習(xí)研發(fā)的分析工具——Deep Senti Bank,分析UGC 圖片所反映出的情感形象。張坤、李春林和張津沂(2020)使用殘差神經(jīng)網(wǎng)絡(luò)這一場景識別模型,對北京入境游客拍攝的圖片進(jìn)行視覺內(nèi)容識別及分類,最終劃分出10 種感知類型和103 類場景類別。
針對圖片地理標(biāo)簽,常見的分析步驟包括:(1)使用核密度估計或空間聚類分析法識別出游客地理興趣點。核密度估計是一種非參數(shù)密度的空間密度方法,能將點的信息擴(kuò)展到面上(李春明、王亞軍、劉尹等,2013)。比較常見的空間聚類分析法有DBSCAN 聚類分析(丁娟、李俊峰,2015)、基于密度峰值的空間聚類(DPC)(徐志明、梁循、李志宇等,2018)。(2)運用GIS 空間分析方法,進(jìn)一步分析其空間分布特征。質(zhì)性分析軟件(如NVivo、UCINET)、空間技術(shù)分析軟件ArcGIS,以及可視化軟件(NetDraw、CoreDraw)的推出,簡化了在線圖片數(shù)據(jù)分析流程,對推進(jìn)該領(lǐng)域研究具有重要作用。
位置服務(wù)技術(shù)(Location-based service,LBS)使得用戶可以通過移動設(shè)備記錄當(dāng)前的位置、圖片等志愿者地理信息,產(chǎn)生“簽到數(shù)據(jù)”(王錄倉、嚴(yán)翠霞、李巍,2017)。簽到數(shù)據(jù)包含用戶活動的時空信息,能有效反映出用戶的行為軌跡(宋曉宇、許鴻斐、孫煥良等,2013),因此多被用于分析游客時空行為(張子昂、黃震方、靳誠等,2015)和旅游流時空特征及其結(jié)構(gòu)演化(閆閃閃、梁留科、索志輝等,2017)。也有學(xué)者同時關(guān)注了地理標(biāo)簽和微博內(nèi)容,探究城市游客情感體驗的時空演變及其規(guī)律(李君軼、朱函杰、付利利,2020)。微博簽到數(shù)據(jù)可通過新浪微博的API 開放平臺獲取,選取時間、經(jīng)緯度、用戶性別和常住地址等相關(guān)字段(陳曦、李嘯虎、關(guān)靖云,2019),之后通過百度LBS 開放平臺對地址信息進(jìn)行解析,將其轉(zhuǎn)換為經(jīng)緯度坐標(biāo)并導(dǎo)入ArcMap,編寫屬性,轉(zhuǎn)化為GIS 平臺可以使用的位置數(shù)據(jù),與研究區(qū)域地圖進(jìn)行關(guān)聯(lián)匹配。與傳統(tǒng)旅游網(wǎng)站相比,微博具有信息量大、互動性強(qiáng)、方便快捷等特點(王錄倉、嚴(yán)翠霞、李巍,2017)。但微博文本的信息過于發(fā)散,并且形式多樣、結(jié)構(gòu)復(fù)雜,因此數(shù)據(jù)清洗是數(shù)據(jù)分析前的一個關(guān)鍵步驟。除了要刪去不清晰不完整的數(shù)據(jù)外,據(jù)相關(guān)研究經(jīng)驗,還需剔除獲取數(shù)據(jù)中用戶發(fā)布第一條和最后一條微博間隔時間為30 天以上的數(shù)據(jù)(王錄倉、嚴(yán)翠霞、李巍,2017),之后使用時間分層法和核密度分析方法進(jìn)行數(shù)據(jù)分析(陳曦、李嘯虎、關(guān)靖云,2019)。
進(jìn)入Web 2.0 時代后,物聯(lián)網(wǎng)已經(jīng)滲透到旅游活動的全流程中,游客可以通過物聯(lián)網(wǎng)進(jìn)行通信、定位以及信息獲取。各種設(shè)備(如傳感器)產(chǎn)生的數(shù)據(jù)已被廣泛運用在游客軌跡追蹤的研究中。此外,考慮到氣候?qū)τ慰蛻敉饣顒雍途皡^(qū)旅游業(yè)發(fā)展的重要影響,氣象站收集的氣象數(shù)據(jù)也包含在設(shè)備數(shù)據(jù)中。
作為一種定位數(shù)據(jù),GPS 數(shù)據(jù)能有效觀測到游客移動,具有精度高、回應(yīng)率高、數(shù)據(jù)格式便于后續(xù)處理和分析等諸多優(yōu)勢,因此成為目前旅游研究中運用最廣的追溯技術(shù)(袁雨果、鄭偉民,2019)。
(1)研究主題
作為一種游客移動數(shù)據(jù)采集技術(shù),GPS 對研究旅游者時空行為模式非常有效,因此GPS 數(shù)據(jù)最常用在旅游者時空行為模式挖掘及后續(xù)的旅游規(guī)劃研究中。具體來說,旅游者時空行為模式包括了游客活動節(jié)奏挖掘(黃瀟婷、張曉珊、趙瑩,2015)和旅游者行為模式演化(王章郡、溫碧燕、方忠權(quán)等,2018)。在上述研究基礎(chǔ)上,學(xué)者進(jìn)一步擴(kuò)展,提出了游客時空行為評價體系(黃瀟婷、李玟璇、張海平等,2016),設(shè)計出更加科學(xué)的產(chǎn)品和路線規(guī)劃方法。如黃瀟婷、朱樹未和趙瑩(2016)根據(jù)旅游者時空分布特征和旅游時空行為模式,對香港海洋公園的產(chǎn)品設(shè)計提出建議。趙瑩、張朝枝和金鈺涵(2018)探究了主題公園內(nèi)的演藝活動對旅游者時空行為的影響。李淵、林曉云和江和洲等(2017)將游客時空行為模式的研究結(jié)果擴(kuò)展到景區(qū)公廁優(yōu)化配置和景區(qū)線路設(shè)計中(李淵、丁燕杰、王德,2016)。作為新興的軌跡數(shù)據(jù),有學(xué)者將GPS 數(shù)據(jù)與傳統(tǒng)手段收集的數(shù)據(jù)進(jìn)行對比。如黃瀟婷(2014)發(fā)現(xiàn)GPS 數(shù)據(jù)與傳統(tǒng)的日志調(diào)查數(shù)據(jù)在游客行為的研究中各有利弊。李淵、王秋穎和王德(2017)則對比了GPS 數(shù)據(jù)與傳統(tǒng)的日志調(diào)查數(shù)據(jù)的精度,指出傳統(tǒng)問卷調(diào)研與現(xiàn)代GPS 相結(jié)合的研究方法將是個體精細(xì)化行為建模研究等領(lǐng)域的重要趨勢。
(2)數(shù)據(jù)特征
目前GPS 采集游客移動信息的主要數(shù)據(jù)渠道有兩個:便攜式GPS 設(shè)備和智能手機(jī)中支持獲取GPS 的應(yīng)用程序。前者是最主要的數(shù)據(jù)來源(在GPS 文獻(xiàn)中占比48%),所得數(shù)據(jù)回應(yīng)度和精度都比較高,但存在樣本量較小且研究成本過高的問題。從現(xiàn)實角度考慮,傳統(tǒng)GPS 數(shù)據(jù)更適合封閉型景區(qū)的小范圍的時空行為研究;城市、區(qū)域、國家等較大尺度的大范圍研究則需要大樣本,使用GPS 數(shù)據(jù)成本過高,但近年來支持GPS 數(shù)據(jù)的手機(jī)應(yīng)用程序的興起,為大范圍研究提供了便利。開放的APP 及專業(yè)的旅游GPS 軌跡數(shù)據(jù)平臺,如六只腳平臺,為旅游研究提供了免費的GPS 軌跡數(shù)據(jù)(呂旭濤、洪鵬飛,2018)。騰訊也開放了騰訊位置大數(shù)據(jù)網(wǎng)站(https://heat.qq.com),提供位置流量數(shù)據(jù)、區(qū)域熱力數(shù)據(jù)及人口遷徙數(shù)據(jù),已經(jīng)有學(xué)者將這些數(shù)據(jù)應(yīng)用到旅游流研究中(潘竟虎、賴建波,2019;許珺、徐陽、胡蕾等,2020)。
(3)分析技術(shù)
黃瀟婷、李玟璇和張海平等(2016)使用手持GPS 設(shè)備數(shù)據(jù),獲取有效GPS 軌跡511 條,用于數(shù)據(jù)分析的點達(dá)60.81 萬個,但是此研究獲取到的GPS軌跡數(shù)受限于設(shè)備數(shù)量及周轉(zhuǎn)次數(shù)。若采用手機(jī)APP 或者嵌入式GPS 模塊等數(shù)據(jù)收集方法,所搜集的海量數(shù)據(jù)無法用傳統(tǒng)的數(shù)據(jù)分析方法進(jìn)行處理。針對這一類型的數(shù)據(jù)處理,常見的做法是:①將具有空間數(shù)據(jù)處理和空間分析功能的GIS 與具有精確空間定位能力的GPS 結(jié)合,采用地理信息技術(shù)實現(xiàn)地理數(shù)據(jù)可視化表達(dá)和測量(張自川、萬恩璞、田衛(wèi),2002)。如ArcGIS 技術(shù)將定位點轉(zhuǎn)換成線、面等更高維的表現(xiàn)形式,繪制出旅游者三維時空路徑,以更直觀地了解其運動軌跡。同時,結(jié)合停留點檢測,可發(fā)現(xiàn)最受游客歡迎的景點或探索新景點,以合理化游客時間分配。②對游客旅游行為模式進(jìn)行探索。這一階段常用聚類分析,單獨根據(jù)軌跡進(jìn)行聚類,識別不同的旅行軌跡;或根據(jù)不同要素(如軌跡、停留時間等)劃分不同時空行為模式的游客群體(劉培學(xué)、廖茂林、張捷等,2018)。有學(xué)者優(yōu)化了GPS 數(shù)據(jù)處理的方法,設(shè)計了基于GPS 軌跡柵格化的旅游行為空間模式表達(dá)方法(郎月華、李仁杰、傅學(xué)慶,2019)。
相較GPS 數(shù)據(jù)(占設(shè)備數(shù)據(jù)旅游研究的59%),移動通信數(shù)據(jù)、氣象數(shù)據(jù)的相關(guān)研究則較少。移動通信數(shù)據(jù)由電信運營商收集,包括實名身份數(shù)據(jù)、用戶的實時上網(wǎng)行為、位置以及社交數(shù)據(jù)等,具有全面性、多維性、中立性、完整性的特點,對于旅游全流程研究有很大價值(李玲,2017)。近年來城市智慧旅游建設(shè)初見成效,已有政府開放其大數(shù)據(jù)平臺,如南京市政府率先使用移動運營商數(shù)據(jù),開放“南京智慧旅游大數(shù)據(jù)運行監(jiān)測平臺”,為研究者提供客流相關(guān)數(shù)據(jù)(戴文、丁蕾、吳晨等,2019)。但目前國內(nèi)大部分移動數(shù)據(jù)還是掌握在運營商手中,獲取成本較高,加之涉及用戶隱私等問題,研究者獲取難度較大。因此,這一數(shù)據(jù)類型的研究處于探索階段,研究多在探討數(shù)據(jù)可靠性問題(趙瑩、張朝枝、金鈺涵,2018),完善基于移動通信數(shù)據(jù)的客流統(tǒng)計指標(biāo)體系(宋廷山、郭思亮,2020),呼吁運營數(shù)據(jù)在學(xué)術(shù)研究中的運用(李玲,2017)等。移動通信數(shù)據(jù)的相關(guān)實證研究較少,只有少量的實證研究聚焦旅游流(段莉瓊、劉少俊、劉澤華等,2018;許丹丹、王茜雅、張建新等,2020)。
氣候是旅游業(yè)賴以生存的極為重要的自然資源,氣候變化會直接或間接作用于旅游業(yè)(閻友兵、張靜,2016)。目前研究中使用的氣象數(shù)據(jù)大部分來自氣象監(jiān)測站點的統(tǒng)計數(shù)據(jù),大多關(guān)注氣候舒適度的時空特征(柏秦鳳、霍治國、賀楠等,2009)和氣候舒適度評價(任健美、??〗堋⒑屎绲?,2004;向?qū)毣荩?015)。2016年后,越來越多的學(xué)者開始關(guān)注霧霾天氣對入境旅游的影響(閻友兵、張靜,2016)。劉俊、王勝宏、金朦朦等(2019)的最新研究結(jié)合微博簽到數(shù)據(jù)和氣象數(shù)據(jù),提取出全國293 個城市的桃花觀賞日期數(shù)據(jù)集及時空格局,為賞花游客出行提供了數(shù)據(jù)和模型依據(jù)。
事務(wù)型數(shù)據(jù)是指廣義的人物交互或人機(jī)交互產(chǎn)生的一系列數(shù)據(jù),包括網(wǎng)絡(luò)搜索數(shù)據(jù)、網(wǎng)頁瀏覽數(shù)據(jù)與在線預(yù)訂數(shù)據(jù)。
旅游服務(wù)的特殊性使得旅游決策往往伴有較高的風(fēng)險,旅游者會采取各種方式優(yōu)化決策,其中最主要的方法就是旅游信息搜索。游客主動進(jìn)行信息檢索所留下的痕跡,可以反映出游客的真實興趣。
(1)研究主題
網(wǎng)絡(luò)搜索數(shù)據(jù)主要被用于旅游預(yù)測研究中,少數(shù)研究關(guān)注目的地網(wǎng)絡(luò)關(guān)注度(許艷、陸林、趙海溶,2020)。表4 列出了旅游預(yù)測領(lǐng)域利用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行的典型研究,可以看出,目前國內(nèi)網(wǎng)絡(luò)搜索數(shù)據(jù)的研究尚處在發(fā)展階段,還有很大的探索空間。此外,現(xiàn)有的旅游預(yù)測研究大都關(guān)注游客量的預(yù)測,而隨著基于網(wǎng)絡(luò)技術(shù)的社會行為研究的深入,針對旅游行為的預(yù)測也逐漸受到研究者關(guān)注(黃先開、張麗峰、丁于思,2013)。
表4 網(wǎng)絡(luò)搜索數(shù)據(jù)在旅游預(yù)測領(lǐng)域的相關(guān)研究Tab.4 Tourism forecasting studies on Internet search data
續(xù)表
(2)數(shù)據(jù)特征
(3)分析技術(shù)
關(guān)鍵詞選取是進(jìn)行網(wǎng)絡(luò)搜索數(shù)據(jù)相關(guān)性研究的關(guān)鍵環(huán)節(jié)之一。目前廣泛使用的關(guān)鍵詞選取方法包括技術(shù)取詞法、直接取詞法和范圍取詞法等(黃先開、張麗峰、丁于思,2013),國內(nèi)研究主要采用后兩種,但面臨核心關(guān)鍵詞遺漏的風(fēng)險(孫毅、呂本富,2011)。已有少數(shù)學(xué)者意識到了這一問題,開始探索關(guān)鍵詞提取的新方法,如構(gòu)建旅游指數(shù)以提升準(zhǔn)確性(魏瑾瑞、崔浩萌,2018)。傳統(tǒng)的旅游預(yù)測方法主要使用歷史數(shù)據(jù),延遲性高且預(yù)測精度低。而與網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測模型的結(jié)合克服了傳統(tǒng)預(yù)測方法的滯后性,具有更好的時效性(黃先開、張麗峰、丁于思,2013)。大部分研究直接使用原始數(shù)據(jù),并將所選關(guān)鍵詞引入預(yù)測模型(李君軼、楊敏,2007),也有研究構(gòu)建復(fù)合指數(shù),如搜索指數(shù)(任武軍、李新,2018),使用協(xié)整檢驗與格蘭杰因果分析考察指數(shù)與實際游客量之間的關(guān)系(孫燁、張宏磊、劉培學(xué)等,2017),之后使用自回歸移動模型(ARMA)、ARIMA 預(yù)測模型、VAR 模型等常見旅游預(yù)測模型進(jìn)行預(yù)測。
目前國內(nèi)旅游研究使用最多的事務(wù)型數(shù)據(jù)是網(wǎng)絡(luò)搜索數(shù)據(jù),相比之下,網(wǎng)頁瀏覽數(shù)據(jù)和在線預(yù)訂數(shù)據(jù)受數(shù)據(jù)可得性的限制,使用率低得多?,F(xiàn)有的利用網(wǎng)頁瀏覽數(shù)據(jù)的實證研究主要關(guān)注影響網(wǎng)站流量的因素,如龐璐和李君軼(2014)利用大眾點評網(wǎng)站,研究顧客點評對餐廳網(wǎng)頁瀏覽量的影響,并進(jìn)一步探究了哪些口碑因素是吸引消費者瀏覽餐廳網(wǎng)頁的關(guān)鍵因素。曠蕓(2013)以旅游網(wǎng)站網(wǎng)絡(luò)日志作為研究對象,通過回歸分析及相關(guān)分析模型,研究了網(wǎng)站流量的影響因素。而使用在線預(yù)訂數(shù)據(jù)的研究大都依據(jù)評論量和預(yù)訂量之間存在的線性關(guān)系,用在線評論數(shù)量近似替代同期網(wǎng)上預(yù)訂量展開研究(張夢、張廣宇、葉作亮,2011)。
大數(shù)據(jù)時代催生了多源異構(gòu)數(shù)據(jù),其蘊含的經(jīng)濟(jì)價值、社會價值和研究價值使社會各界都開始重視大數(shù)據(jù)開發(fā)和應(yīng)用,旅游領(lǐng)域亦是如火如荼地開展了大量的實證研究。本文借鑒Li、Xu 和Tang 等(2018)對旅游大數(shù)據(jù)的分類,根據(jù)國內(nèi)研究現(xiàn)狀,分別從研究主題、數(shù)據(jù)特征和分析技術(shù)3 個維度系統(tǒng)闡釋了各細(xì)分類型大數(shù)據(jù)的研究進(jìn)展。
首先,相比國外研究,國內(nèi)旅游大數(shù)據(jù)研究處于較為前沿的位置,大數(shù)據(jù)很早就被應(yīng)用到國內(nèi)旅游研究中,且目前仍處于快速發(fā)展時期。根據(jù)Li、Xu和Tang 等(2018)的研究結(jié)果,國外旅游大數(shù)據(jù)的研究從2007年開始,最高年發(fā)文量為30 篇,而國內(nèi)第一篇相關(guān)研究出現(xiàn)在2001年(宋靜、姜有山、張銀意等,2001),最多一年發(fā)文量高達(dá)65 篇。發(fā)表在國內(nèi)學(xué)術(shù)期刊的旅游大數(shù)據(jù)論文的質(zhì)量較高,但利用不同數(shù)據(jù)類型的旅游研究分布不均。UGC 數(shù)據(jù)是國內(nèi)旅游大數(shù)據(jù)研究中的主導(dǎo)類型(占72%),被廣泛應(yīng)用于游客滿意度、旅游目的地形象、旅游體驗和游客情感挖掘等研究領(lǐng)域,其中在線文本數(shù)據(jù)的研究占據(jù)“半壁江山”(占總體55%)。在Li、Xu 和Tang 等(2018)所提出的旅游大數(shù)據(jù)分類的基礎(chǔ)上,國內(nèi)學(xué)者充分挖掘中國情境特點,將微博簽到數(shù)據(jù)應(yīng)用到游客時空行為和旅游流等主題的研究中,還有學(xué)者嘗試?yán)梦⑿艛?shù)據(jù)開展研究(茍思遠(yuǎn)、李剛、張可心等,2016),擴(kuò)展了已有的旅游大數(shù)據(jù)研究框架。相比UGC 數(shù)據(jù),設(shè)備數(shù)據(jù)(占17%)和事務(wù)型數(shù)據(jù)(占11%)的研究則相對較少,但這兩類數(shù)據(jù)在旅游者時空行為和旅游預(yù)測的研究中具有很高的價值。研究方法上,已有國內(nèi)旅游大數(shù)據(jù)研究中以質(zhì)性研究居多(占54%),多使用二手?jǐn)?shù)據(jù)(占89%)。
在對每一細(xì)分類型大數(shù)據(jù)的相關(guān)文獻(xiàn)分別從研究主題、數(shù)據(jù)特征和分析技術(shù)3 個維度進(jìn)行系統(tǒng)梳理之后,本研究發(fā)現(xiàn)不同類型的數(shù)據(jù)適用的研究主題與其數(shù)據(jù)特征有很大關(guān)系。如在線文本數(shù)據(jù)可以表達(dá)游客對旅游產(chǎn)品的態(tài)度和體驗,因此可被用于旅游滿意度和旅游體驗的研究中。網(wǎng)絡(luò)搜索數(shù)據(jù)可以反映出游客的真實興趣,有助于旅游預(yù)測和旅游目的地關(guān)注度的研究。一些研究主題可以使用不同類型的大數(shù)據(jù)進(jìn)行探究,如旅游流研究可以使用在線圖片數(shù)據(jù)(元數(shù)據(jù))、微博簽到數(shù)據(jù)、GPS 數(shù)據(jù)以及移動通信數(shù)據(jù),但每一類數(shù)據(jù)的數(shù)據(jù)特征導(dǎo)致其適用范圍存在差異:在線圖片數(shù)據(jù)、微博簽到數(shù)據(jù)以及移動通信數(shù)據(jù)可用于宏觀層面的游客軌跡分析;GPS 數(shù)據(jù)精度較高,僅適用微觀層面的旅游流動研究。在線文本數(shù)據(jù)和在線圖片數(shù)據(jù)都可以被用在旅游目的地形象及旅游體驗研究中,但二者在所傳遞的信息及情感強(qiáng)度上存在差異:文本數(shù)據(jù)更能反映出游客的情緒和情感體驗,而圖片數(shù)據(jù)能體現(xiàn)更多的游客認(rèn)知形象。
此外,本研究發(fā)現(xiàn)國內(nèi)旅游大數(shù)據(jù)研究已經(jīng)取得較大進(jìn)展,研究主題和數(shù)據(jù)的選取充分融合中國情境,體現(xiàn)了中國特色,在很多方面也做出了創(chuàng)新。首先,在研究主題上,國內(nèi)學(xué)者在傳統(tǒng)研究重點的基礎(chǔ)上進(jìn)行了兩點創(chuàng)新:第一,對比傳統(tǒng)數(shù)據(jù)收集方法與旅游大數(shù)據(jù)在同一研究主題中得出的結(jié)果,如比較問卷調(diào)查數(shù)據(jù)和在線評論數(shù)據(jù)在探究旅游形象感知上的異同(張珍珍、李君軼,2014),對比游記數(shù)據(jù)和官方宣傳文本所折射的游客感知形象和官方宣傳形象的差異(仲寧、吳小根、汪俠等,2018),比較GPS 數(shù)據(jù)和傳統(tǒng)日志調(diào)查數(shù)據(jù)在游客行為研究中的差異(黃瀟婷,2014 ;李淵、王秋穎、王德,2017);第二,利用大數(shù)據(jù)擴(kuò)展已有理論或提煉理論模型,如徒步旅游中的旅游體驗本質(zhì)模型(謝彥君、樊友猛,2017)和旅游體驗價值感知基礎(chǔ)模型(黃杰、馬繼、謝霞等,2017)。
其次,在數(shù)據(jù)獲取上,雖然目前國內(nèi)很多的設(shè)備數(shù)據(jù)和事務(wù)型數(shù)據(jù)都掌握在運營商或政府部門手中,但業(yè)界和政府都在努力拓寬數(shù)據(jù)渠道,推動學(xué)術(shù)界與政府和業(yè)界合作。地方政府已開始開放其大數(shù)據(jù)平臺(包含移動通信數(shù)據(jù))供研究者使用,如南京智慧旅游監(jiān)測平臺和浙江省旅游大數(shù)據(jù)平臺。也有專業(yè)的數(shù)據(jù)平臺免費開放GPS 軌跡數(shù)據(jù),如六只腳平臺和騰訊位置大數(shù)據(jù)網(wǎng)站。
最后,在數(shù)據(jù)分析方法上,國內(nèi)學(xué)者已經(jīng)熟練掌握了傳統(tǒng)的大數(shù)據(jù)分析和挖掘方法,并從3 條途徑對現(xiàn)有技術(shù)進(jìn)行了創(chuàng)新:第一,引入其他學(xué)科領(lǐng)域的數(shù)據(jù)處理技術(shù),如應(yīng)用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能中的數(shù)據(jù)挖掘技術(shù)來探究旅游現(xiàn)象(如:李琴、李少波、王安虹等,2018;李君軼、任濤、陸路正,2020;馬超、李綱、陳思菁等,2020)。第二,改進(jìn)現(xiàn)有數(shù)據(jù)挖掘技術(shù),提升旅游大數(shù)據(jù)分析的效率和精度。如劉逸、保繼剛和陳凱琪(2017)在旅游評論的情感分析中充分考慮中國游客表達(dá)的語義邏輯特征,對情緒詞匯前的副詞和轉(zhuǎn)折詞做出進(jìn)一步解析并賦予不同系數(shù),以此區(qū)分游客情緒的強(qiáng)弱。第三,開發(fā)專門針對中國語言環(huán)境的數(shù)據(jù)挖掘工具和軟件,如武漢大學(xué)沈陽教授研究團(tuán)隊研發(fā)的ROST CM,被國內(nèi)學(xué)者廣泛用于在線文本數(shù)據(jù)的處理和分析。
國內(nèi)旅游大數(shù)據(jù)研究取得的成就需要肯定,但仍然可以從拓展研究領(lǐng)域和開發(fā)新的數(shù)據(jù)源及分析技術(shù)等角度來進(jìn)一步提升現(xiàn)有研究水平。
首先,研究主題的擴(kuò)展可從以下3 個角度展開。第一,目前游客滿意度、游客體驗及感知旅游目的地形象的相關(guān)文獻(xiàn),多從單一游客群體切入,缺乏群體間的比較研究,而不同類型甚至是同一類型的旅游大數(shù)據(jù),其行為主體也存在差異,因此,今后既要關(guān)注國內(nèi)外跨文化群體的比較,也要關(guān)注中國本土情境的國內(nèi)文化群體比較。第二,使用兩種及兩種以上大數(shù)據(jù)的研究僅占4%,其實,許多研究主題可以通過多源異構(gòu)的旅游大數(shù)據(jù)進(jìn)行探究,如在線文本數(shù)據(jù)和在線圖片數(shù)據(jù)都可以被用在旅游目的地形象及旅游體驗研究中,但二者所側(cè)重的內(nèi)容不同。未來研究可以考慮在同一研究主題中使用不同類型的數(shù)據(jù)進(jìn)行分析,實現(xiàn)優(yōu)勢互補(bǔ),豐富研究結(jié)論,并且對單一數(shù)據(jù)類型的研究結(jié)果進(jìn)行交叉驗證。第三,旅游業(yè)是一個高敏感性產(chǎn)業(yè),容易受到各種不確定因素的影響。近年來,國內(nèi)外發(fā)生了許多突發(fā)事件(如2020年暴發(fā)的新冠肺炎疫情),這些公共突發(fā)事件給國內(nèi)外旅游行業(yè)帶來了嚴(yán)重沖擊。而大數(shù)據(jù)相對傳統(tǒng)數(shù)據(jù)的一個最大優(yōu)勢就是具有時效性和前兆性(孫燁、張宏磊、劉培學(xué)等,2017)。已有很多文獻(xiàn)證實了網(wǎng)絡(luò)搜索數(shù)據(jù)能夠很好地預(yù)測游客量,但很少有研究將這些結(jié)論延伸到旅游預(yù)警領(lǐng)域。網(wǎng)絡(luò)評論也能很好地反映事件發(fā)生之后游客對某一目的地的態(tài)度和意向轉(zhuǎn)變,從而輔助旅游預(yù)測和預(yù)警研究。
其次,相比國外大數(shù)據(jù)研究,國內(nèi)研究的數(shù)據(jù)類型分布不均更為嚴(yán)重。國外研究中,UGC、設(shè)備數(shù)據(jù)和事務(wù)型數(shù)據(jù)的占比分別為47%、36%和17%(Li,Xu & Tang,et al.,2018),國內(nèi)則為72%、17%和11%。雖然國內(nèi)研究使用了微博簽到數(shù)據(jù)和微信數(shù)據(jù)等新數(shù)據(jù),但所涵蓋的數(shù)據(jù)種類仍然少于國外研究,如Li、Xu 和Tang 等(2018)的研究中展示了14 種旅游大數(shù)據(jù),而國內(nèi)研究僅包含9 種。因此,研究者有必要進(jìn)一步拓寬國內(nèi)旅游大數(shù)據(jù)的數(shù)據(jù)源渠道,彌補(bǔ)數(shù)據(jù)類型上的缺失。根據(jù)數(shù)據(jù)可得性難易程度由高到低,分為如下3 種情況:① 被政府或特定組織管控的數(shù)據(jù),如目前國內(nèi)大部分的設(shè)備數(shù)據(jù)和事務(wù)型數(shù)據(jù)都掌握在運營商或政府部門手中,由于涉及用戶隱私問題,研究者很難獲取。這一問題是許多學(xué)科學(xué)術(shù)研究的痛點。雖然已有政府開始開放其大數(shù)據(jù)平臺供研究者使用,但想進(jìn)一步解決這一問題,還需要依靠學(xué)術(shù)界與業(yè)界的聯(lián)動。② 有獲取渠道但成本過高的數(shù)據(jù),如目前主要的GPS 數(shù)據(jù)收集方法還是借助專業(yè)GPS 手持設(shè)備,無論是人力成本還是設(shè)備成本都很高。研究者可以充分利用智能手機(jī)中支持GPS 功能的移動應(yīng)用程序,或解鎖其他能提供嵌入式GPS支持的載體,如內(nèi)置GPS 功能的手表、共享自行車等,來拓寬數(shù)據(jù)獲取渠道。③ 尚未出現(xiàn)在國內(nèi)研究中但有研究價值的數(shù)據(jù),如RFID 數(shù)據(jù)、藍(lán)牙數(shù)據(jù)、Wi-Fi 數(shù)據(jù)、消費卡數(shù)據(jù)。日常生活中也有很多值得研究但尚未引入的數(shù)據(jù),如音頻/視頻數(shù)據(jù)與景區(qū)監(jiān)控數(shù)據(jù)等,這些數(shù)據(jù)對解析游客行為模式能發(fā)揮重要作用。在未來研究中,學(xué)術(shù)界還可以考慮將中外旅游大數(shù)據(jù)研究進(jìn)行整合和對比分析,從更全面的角度了解旅游大數(shù)據(jù)的實證研究成果。
最后,鑒于近年來大數(shù)據(jù)研究逐漸出現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化3 種大數(shù)據(jù)融合的趨勢(孟小峰、慈祥,2013),學(xué)術(shù)界急需探究如何在不損毀數(shù)據(jù)價值的前提下進(jìn)行數(shù)據(jù)的冗余縮減和壓縮(李學(xué)龍、龔海剛,2015)。在數(shù)據(jù)分析方法上,雖然已有國內(nèi)學(xué)者引入了一些計算機(jī)領(lǐng)域和數(shù)據(jù)挖掘的新興數(shù)據(jù)分析技術(shù),但大數(shù)據(jù)分析技術(shù)日新月異,新技術(shù)層出不窮。數(shù)據(jù)復(fù)雜性的增加也導(dǎo)致對分析技術(shù)的效率和精度的要求不斷提升。因此,今后旅游研究可以考慮與人工智能、數(shù)據(jù)挖掘領(lǐng)域的專家跨界合作,將更多數(shù)據(jù)挖掘方法引入旅游研究當(dāng)中。
文景2022年4期