宋瀟瀟 李云鵬 李勇
[摘 要]大數(shù)據(jù)為旅游研究提供了廣泛的數(shù)據(jù)來源,拓展了旅游研究的廣度和深度。然而,對基于中國本土旅游大數(shù)據(jù)應(yīng)用而形成的學(xué)術(shù)研究成果及其研究趨勢卻缺乏系統(tǒng)性的認(rèn)識和評判。文章以中國知網(wǎng)(CNKI)為數(shù)據(jù)來源,系統(tǒng)性地總結(jié)了發(fā)表在中文學(xué)術(shù)期刊上的旅游大數(shù)據(jù)的學(xué)術(shù)研究進(jìn)展,并在此基礎(chǔ)上提出未來的研究方向。研究發(fā)現(xiàn):年度發(fā)文量總體上呈增長趨勢,2018年為顯著增長點。在數(shù)據(jù)類型上,主要分為用戶生成內(nèi)容數(shù)據(jù)、設(shè)備數(shù)據(jù)和運營數(shù)據(jù)三大基本類型,其中,用戶生成內(nèi)容數(shù)據(jù)已被廣泛應(yīng)用于旅游研究,設(shè)備數(shù)據(jù)和運營數(shù)據(jù)的使用仍需深入挖掘。在數(shù)據(jù)來源上,主要為攜程旅行、馬蜂窩旅游網(wǎng)和新浪微博等社交媒體,并且大多數(shù)研究依靠單一的數(shù)據(jù)來源。在研究方法上,計量經(jīng)濟(jì)模型等傳統(tǒng)定量方法仍是主流分析方法;定性分析和混合研究方法,尤其是文本分析和機器學(xué)習(xí)等跨學(xué)科方法使用較少。在研究主題上,研究內(nèi)容呈多元化和碎片化特點,包括旅游感知與體驗、旅游者行為、旅游流、旅游預(yù)測、評論管理、網(wǎng)絡(luò)關(guān)注度、旅游資源分布和模型構(gòu)建與改進(jìn)等多主題。未來研究應(yīng)從數(shù)據(jù)、方法和理論多視角深化旅游大數(shù)據(jù)研究,包括加強產(chǎn)學(xué)研合作和多源數(shù)據(jù)的協(xié)同共享、文本分析和機器學(xué)習(xí)等跨學(xué)科方法的使用、交叉學(xué)科研究和理論構(gòu)建等。
[關(guān)鍵詞]旅游;大數(shù)據(jù);數(shù)據(jù)類型;數(shù)據(jù)來源;分析方法;應(yīng)用領(lǐng)域
[中圖分類號] F592.7 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1674-3784(2023)04-0123-13
大數(shù)據(jù)作為知識經(jīng)濟(jì)時代的重要資源,是社會生產(chǎn)和生活過程中產(chǎn)生的海量、多源數(shù)據(jù)的集合。大數(shù)據(jù)具有體量大(Volume)、類型多(Variety)、速度快(Velocity)和價值密度低(Value)的4V 特征[1],是對傳統(tǒng)數(shù)據(jù)的有力補充,能夠為增強決策過程提供有價值的見解,已經(jīng)被廣泛應(yīng)用于金融、教育、醫(yī)療和交通等多個領(lǐng)域。大數(shù)據(jù)在旅游領(lǐng)域中的應(yīng)用也越來越普遍和深入,為旅游研究提供了重要的數(shù)據(jù)來源,拓展了旅游研究的廣度和深度。近年來,旅游大數(shù)據(jù)研究成果頗為豐富[2-3],并呈現(xiàn)鮮明的跨學(xué)科、多元化與碎片化特征。鑒于此,對大數(shù)據(jù)在旅游研究中的應(yīng)用這一研究主題進(jìn)行全面、系統(tǒng)的文獻(xiàn)回顧,具有梳理性、整合性和指導(dǎo)性的學(xué)術(shù)價值和實踐價值。
已有學(xué)者對現(xiàn)有研究成果進(jìn)行了系統(tǒng)性回顧與總結(jié),并進(jìn)行了綜述,這些綜述文章大致可以分為兩類:一類是梳理大數(shù)據(jù)在旅游研究中的應(yīng)用,主要從數(shù)據(jù)來源、數(shù)據(jù)類型、研究方法和研究主題等方面進(jìn)行系統(tǒng)性綜述,并提出未來的研究方向[4][5]301,[6]168,[7];另一類是對單一的旅游大數(shù)據(jù)類型或應(yīng)用領(lǐng)域進(jìn)行梳理與總結(jié)[8-9][10]37。上述綜述文章為理解旅游大數(shù)據(jù)的學(xué)術(shù)研究進(jìn)展提供了重要方向,但仍存在一定的局限性。這種局限主要體現(xiàn)在,學(xué)界在對旅游大數(shù)據(jù)研究進(jìn)行分析和綜述時,大多基于英文旅游大數(shù)據(jù)學(xué)術(shù)研究,在客觀反映中國本土旅游大數(shù)據(jù)發(fā)展特色方面還不足。盡管少數(shù)學(xué)者已經(jīng)嘗試對中國旅游大數(shù)據(jù)的實踐與應(yīng)用研究進(jìn)行評述,但尚難以形成系統(tǒng)性和指導(dǎo)性的知識體系。事實上,基于對大數(shù)據(jù)實踐的豐富經(jīng)驗和多維應(yīng)用,中國旅游大數(shù)據(jù)學(xué)術(shù)領(lǐng)域已經(jīng)取得了豐富的成果。因此,本研究遵循“研究概況→旅游大數(shù)據(jù)基本類型及其來源→旅游大數(shù)據(jù)分析方法→大數(shù)據(jù)在國內(nèi)旅游研究中的應(yīng)用領(lǐng)域”的分析框架,對發(fā)布在中文學(xué)術(shù)期刊上的旅游大數(shù)據(jù)(以下簡稱“中文旅游大數(shù)據(jù)”)的學(xué)術(shù)研究進(jìn)展進(jìn)行系統(tǒng)性梳理,并在此基礎(chǔ)上提出未來的研究方向。
1 數(shù)據(jù)來源與研究方法
本研究采用系統(tǒng)性文獻(xiàn)回顧方法,以2007年(國內(nèi)最早出現(xiàn)旅游大數(shù)據(jù)學(xué)術(shù)研究的時間)至2021年發(fā)表在中文學(xué)術(shù)期刊上的旅游大數(shù)據(jù)代表性文獻(xiàn)為研究對象,系統(tǒng)梳理了國內(nèi)旅游大數(shù)據(jù)研究現(xiàn)狀。文獻(xiàn)檢索與篩選過程主要包括以下步驟:第一,選擇中國知網(wǎng)(CNKI)為數(shù)據(jù)獲取來源。第二,期刊來源類別同時選擇“核心期刊”“CSSCI”①“CSCD”② ,不包括著作專題章節(jié)、會議論文集、學(xué)位論文等,時間跨度為2021年及其之前的所有年份。第三,使用多個關(guān)鍵詞組合進(jìn)行高級搜索,主要包括“旅游/酒店/共享住宿/民宿/Airbnb③ + 大數(shù)據(jù)”“旅游/酒店/共享住宿/民宿/Airbnb+ 在線評論”“旅游/酒店/共享住宿/民宿/Airbnb+ 社交媒體”“旅游/酒店/共享住宿/民宿/Airbnb+ 百度指數(shù)”“旅游/酒店/共享住宿/民宿/Airbnb+POI④ ”(檢索時間為2021年4月)。第四,為了避免遺漏重要文獻(xiàn),筆者分別于2021年8月、2022年1月和2022年4月重復(fù)上述步驟進(jìn)行補充檢索。此外,在閱讀文獻(xiàn)的過程中采用滾雪球的方法補充相關(guān)重要文獻(xiàn)。需要指出的是,《旅游論壇》和《旅游導(dǎo)刊》兩本期刊不在以上期刊篩選規(guī)則中,但是鑒于它們被國內(nèi)部分高校及學(xué)者們作為中文旅游研究成果發(fā)表的推薦期刊,本研究將《旅游論壇》和《旅游導(dǎo)刊》上發(fā)表的旅游大數(shù)據(jù)研究也納入研究對象。經(jīng)過上述檢索和篩選,共得到702篇文獻(xiàn)。對于這些文獻(xiàn),通過閱讀題名、摘要、關(guān)鍵詞和正文內(nèi)容來剔除重復(fù)的、相關(guān)程度低的以及非學(xué)術(shù)研究類(期刊短篇評論性文章、筆談文章等)的文獻(xiàn),共保留了311篇發(fā)表于中文學(xué)術(shù)期刊的旅游大數(shù)據(jù)實證文章和文獻(xiàn)綜述類文章作為最終的研究樣本。
2 研究概況
2.1 時間分布
圖1為中文旅游大數(shù)據(jù)學(xué)術(shù)研究的年度發(fā)文量曲線。整體上,中文旅游大數(shù)據(jù)學(xué)術(shù)研究的年度發(fā)文量呈增長趨勢,這表明旅游大數(shù)據(jù)這一研究領(lǐng)域越來越受到學(xué)者的關(guān)注。第1篇關(guān)于中文旅游大數(shù)據(jù)的研究論文,2007年發(fā)表于《旅游科學(xué)》,其作者李君軼和楊敏利用Web數(shù)據(jù)挖掘技術(shù)對旅游需求進(jìn)行了分析和預(yù)測[11]。根據(jù)Li等學(xué)者的研究[5]303,英文旅游大數(shù)據(jù)研究的最早發(fā)表時間為2007年,這表明國內(nèi)外旅游大數(shù)據(jù)研究的起步時間是一致的。此外,中文旅游大數(shù)據(jù)研究的發(fā)文數(shù)量自2018年起顯著增長,之后每年的發(fā)文數(shù)量保持較為穩(wěn)定的水平。
2.2 期刊來源
研究樣本共包括101個期刊的311篇學(xué)術(shù)研究,涵蓋經(jīng)濟(jì)、管理、地理、計算機、統(tǒng)計等不同學(xué)科,呈現(xiàn)跨學(xué)科特點。從圖2可以看出,旅游大數(shù)據(jù)研究載文量排名前十的期刊為《旅游學(xué)刊》(29篇)、《經(jīng)濟(jì)地理》(22篇)、《旅游論壇》(16篇)、《地域研究與開發(fā)》(14篇)、《資源開發(fā)與市場》(12篇)、《地理與地理信息科學(xué)》(11篇)、《地理科學(xué)》(10篇)、《數(shù)據(jù)分析與知識發(fā)現(xiàn)》(9篇)、《南開管理評論》(8篇)、《旅游導(dǎo)刊》(8篇),總刊文量為139篇。在排名前十的期刊中,人文經(jīng)濟(jì)地理類期刊包括《旅游學(xué)刊》《經(jīng)濟(jì)地理》《旅游論壇》《地域研究與開發(fā)》《地理科學(xué)》《旅游導(dǎo)刊》,說明大數(shù)據(jù)對國內(nèi)人文經(jīng)濟(jì)地理學(xué)研究產(chǎn)生了深刻影響。同時,人文經(jīng)濟(jì)地理類學(xué)術(shù)期刊在刊發(fā)旅游大數(shù)據(jù)研究上也具有較高的影響力⑤ 。
2.3 研究場景
大數(shù)據(jù)在旅游領(lǐng)域具有非常廣泛的應(yīng)用場景,包括旅游景區(qū)、酒店、共享住宿和餐飲等。國內(nèi)旅游大數(shù)據(jù)研究中,旅游景區(qū)是最常使用的研究場景,這主要是因為旅游景區(qū)是旅游業(yè)的核心要素,是旅游產(chǎn)品的主體成分,尤其是智慧景區(qū)的建設(shè)離不開大數(shù)據(jù)的支撐。其次為酒店、共享住宿和餐飲場景。部分文章未區(qū)分具體的旅游場景,而是以整個旅游目的地或多種旅游資源為研究對象。
3 旅游大數(shù)據(jù)類型
Li等學(xué)者將旅游大數(shù)據(jù)分為用戶生成內(nèi)容(user-generated content,UGC)數(shù)據(jù)、設(shè)備數(shù)據(jù)和交易數(shù)據(jù)3 種類型,分別由用戶、設(shè)備和運營產(chǎn)生[5]305。鄧寧等學(xué)者將常見的大數(shù)據(jù)類型劃分為移動通信運營商數(shù)據(jù)、在線旅游平臺數(shù)據(jù)、用戶生成數(shù)據(jù)、交通數(shù)據(jù)、消費數(shù)據(jù)、搜索引擎數(shù)據(jù)和旅游供應(yīng)商的內(nèi)部數(shù)據(jù)[12]3-4。Sivarajah等學(xué)者指出,大數(shù)據(jù)包括文本內(nèi)容(即結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化)和多媒體內(nèi)容(視頻、圖像、音頻)[13]?;谏鲜鑫墨I(xiàn),本研究將旅游大數(shù)據(jù)的基本類型分為UGC數(shù)據(jù)、設(shè)備數(shù)據(jù)和運營數(shù)據(jù),從而構(gòu)建了一個更具概括性與完整性的旅游大數(shù)據(jù)分類標(biāo)準(zhǔn)體系(圖3)。
其中,UGC數(shù)據(jù)主要包括文本數(shù)據(jù)、圖像數(shù)據(jù)、數(shù)值數(shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù);設(shè)備數(shù)據(jù)主要包括手機基站定位數(shù)據(jù)、興趣點(point of interest,POI)數(shù)據(jù)、基于位置的服務(wù)(location based services,LBS)簽到數(shù)據(jù)、GPS數(shù)據(jù)和遙感數(shù)據(jù);運營數(shù)據(jù)主要包括網(wǎng)絡(luò)搜索數(shù)據(jù)、在線預(yù)訂數(shù)據(jù)、網(wǎng)站瀏覽數(shù)據(jù)、客流量數(shù)據(jù)和平臺描述性運營數(shù)據(jù)。這一劃分標(biāo)準(zhǔn)與現(xiàn)有分類相比,涵蓋類別更為全面且劃分更為清晰簡潔。比如,相較于Li等學(xué)者的分類[5]305,本研究在UGC數(shù)據(jù)中新增了數(shù)值數(shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù)。與鄧寧等學(xué)者的分類[12]3-4 相比,本研究將網(wǎng)絡(luò)搜索數(shù)據(jù)、在線預(yù)訂數(shù)據(jù)、網(wǎng)站瀏覽數(shù)據(jù)、客流量數(shù)據(jù)和平臺描述性運營數(shù)據(jù)等統(tǒng)一歸入運營數(shù)據(jù),劃分更為清晰簡潔。
結(jié)合本研究所劃分的旅游大數(shù)據(jù)的基本類型,進(jìn)一步地梳理了它們的主要來源(圖4),可以歸納為社交媒體(UGC數(shù)據(jù)和運營數(shù)據(jù)主要來源)、通信運營商(設(shè)備數(shù)據(jù)主要來源)、地圖服務(wù)商(設(shè)備數(shù)據(jù)主要來源)、搜索引擎(運營數(shù)據(jù)主要來源)、旅游企業(yè)(運營數(shù)據(jù)主要來源)和大數(shù)據(jù)平臺(設(shè)備數(shù)據(jù)和運營數(shù)據(jù)主要來源)。社交媒體包括在線旅游服務(wù)平臺、旅游社交分享平臺和在線生活服務(wù)平臺,通信運營商包括中國移動、中國聯(lián)通和中國電信,兩大地圖服務(wù)商為百度地圖與高德地圖,搜索引擎主要包括百度與谷歌,旅游企業(yè)包括旅游景區(qū)、酒店和旅游科研機構(gòu)等,大數(shù)據(jù)平臺包括地理空間數(shù)據(jù)云、騰訊位置大數(shù)據(jù)等。
3.1 用戶生成內(nèi)容(UGC)數(shù)據(jù)
UGC數(shù)據(jù)包括不同終端用戶生成的數(shù)據(jù),可以分為文本數(shù)據(jù)、圖像數(shù)據(jù)、數(shù)值數(shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù)??傮w上,文本數(shù)據(jù)是使用最為廣泛的大數(shù)據(jù)類型之一,包括在線評論、網(wǎng)絡(luò)游記和游記攻略等,具有時效性強、樣本量足和信息量大等特點,能夠反映旅游者的需求與偏好[14]1092。近年來,圖像數(shù)據(jù)也越來越引起學(xué)者們的重視,旅游者拍攝的照片具有內(nèi)在主觀性,是旅游者表達(dá)對旅游目的地偏好和旅游體驗的另一種重要體現(xiàn)。圖像數(shù)據(jù)能夠印證文本數(shù)據(jù)的合理性,增強結(jié)論的可信度。此外,被分析的數(shù)據(jù)還包括評論數(shù)量和分?jǐn)?shù)等。音頻數(shù)據(jù)和視頻數(shù)據(jù)尚未被廣泛使用。雖然UGC數(shù)據(jù)具有內(nèi)容豐富、可獲得性高等優(yōu)點,但也存在一些缺點。一方面,文本、音頻和視頻等UGC數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù),具有格式多樣化和處理流程復(fù)雜等特征,因而具有較高的處理難度;另一方面,信息過載可能會造成數(shù)據(jù)質(zhì)量難以衡量,比如在線評論中會摻雜虛假信息和廣告等,需要建立過濾和監(jiān)管機制以便有效識別這些無效信息。
UGC數(shù)據(jù)主要來源于各大社交媒體,包括在線旅游服務(wù)平臺、旅游社交分享平臺和在線生活服務(wù)平臺等。在線旅游服務(wù)平臺是獲取UGC數(shù)據(jù)的最主要來源。其中,攜程旅行是旅游者預(yù)訂旅游服務(wù)和搜索信息的重要途徑,能夠保證樣本的數(shù)量和質(zhì)量,因此是當(dāng)前旅游研究使用最多的數(shù)據(jù)來源平臺。其他在線旅游服務(wù)平臺包括去哪兒旅行、TripAdvisor(貓途鷹)、同程旅行、途牛旅游網(wǎng)、Airbnb(愛彼迎)、小豬民宿、途家民宿、螞蟻短租網(wǎng)、Booking.com(繽客網(wǎng))等。旅游社交分享平臺和在線生活服務(wù)平臺也是重要的數(shù)據(jù)來源。社交分享平臺中,新浪微博能夠生產(chǎn)大量的旅游內(nèi)容,已經(jīng)成為社會化旅游的重要生態(tài)節(jié)點,越來越多的研究使用新浪微博大數(shù)據(jù)。馬蜂窩旅游網(wǎng)擁有豐富、全面的旅游攻略信息和網(wǎng)絡(luò)游記數(shù)據(jù),常被用于旅游研究。還有的研究是通過博客和六只腳社區(qū)等途徑獲取數(shù)據(jù)。在圖像數(shù)據(jù)的獲取上,許多研究使用圖片分享網(wǎng)站Flicker和Panoramio。主要的在線生活服務(wù)平臺包括美團(tuán)網(wǎng)和大眾點評網(wǎng),可以借此獲取在線評論數(shù)據(jù)和POI等地理位置數(shù)據(jù)。
3.2 設(shè)備數(shù)據(jù)
設(shè)備數(shù)據(jù)包括手機基站定位數(shù)據(jù)、POI數(shù)據(jù)、LBS簽到數(shù)據(jù)、GPS數(shù)據(jù)和遙感數(shù)據(jù)。手機基站定位數(shù)據(jù)可分為信令數(shù)據(jù)(位置變換信息)、話單數(shù)據(jù)(通話詳細(xì)記錄)和話務(wù)量數(shù)據(jù)(匯總性手機通話或上網(wǎng)流量數(shù)據(jù))[10]39,[15],具有信息實時性、真實性、準(zhǔn)確性、連續(xù)性和全覆蓋性等特點。中國移動、中國聯(lián)通和中國電信三大通信運營商是手機基站定位數(shù)據(jù)的主要來源。手機基站定位數(shù)據(jù)在旅游研究中的應(yīng)用處于探索階段,現(xiàn)有研究中使用最多的是手機信令數(shù)據(jù)和脫敏通信記錄數(shù)據(jù)。手機基站定位數(shù)據(jù)對于旅游研究具有重要價值,但是在獲取和使用過程中也面臨諸多挑戰(zhàn),如獲取難度大、獲取成本高、個人隱私泄露等問題。使用此類數(shù)據(jù)時需做好數(shù)據(jù)脫敏工作,保護(hù)個人隱私。如何有效辨別手機用戶是否為旅游者是關(guān)鍵也是最困難的問題。POI數(shù)據(jù)包括地理數(shù)據(jù)點的名稱、經(jīng)緯度、地址和分類等信息,具有地理信息精度較高、數(shù)據(jù)量豐富等特征,近年來使用POI數(shù)據(jù)的研究逐漸增多。高德地圖與百度地圖這兩大地圖服務(wù)商是POI數(shù)據(jù)的主要獲取來源。LBS簽到數(shù)據(jù)也是基于位置服務(wù)的核心數(shù)據(jù)之一,簽到數(shù)據(jù)能夠映射用戶的旅游意向與偏好,為旅游流和旅游者時空行為研究提供新的數(shù)據(jù)源[16]。目前,應(yīng)用最為廣泛的是新浪微博簽到數(shù)據(jù)。GPS數(shù)據(jù)可以通過手持GPS追蹤設(shè)備和支持GPS的移動應(yīng)用程序獲取,具有精細(xì)度高和連續(xù)性等優(yōu)點,在揭示旅游者時空行為特征方面具有優(yōu)勢,因此常被用于旅游行為研究。也有研究使用遙感數(shù)據(jù),其遙感數(shù)據(jù)大多來自地理空間數(shù)據(jù)云等大數(shù)據(jù)平臺。
3.3 運營數(shù)據(jù)
運營數(shù)據(jù)主要包括網(wǎng)絡(luò)搜索數(shù)據(jù)、在線預(yù)訂數(shù)據(jù)、網(wǎng)站瀏覽數(shù)據(jù)、客流量數(shù)據(jù)和平臺描述性運營數(shù)據(jù)。大部分運營數(shù)據(jù)獲取難度大,在旅游研究中的應(yīng)用有限。這可能是因為大多數(shù)運營數(shù)據(jù)由旅游經(jīng)營者(酒店、旅行社和景區(qū)管理者)和政府部門控制,可獲得性較低[5]317,數(shù)據(jù)壁壘造成的“信息孤島”現(xiàn)象已經(jīng)成為大數(shù)據(jù)應(yīng)用面臨的主要問題。作為運營數(shù)據(jù)的一部分,基于搜索引擎的網(wǎng)絡(luò)搜索數(shù)據(jù)獲取門檻相對較低。主流的網(wǎng)絡(luò)搜索數(shù)據(jù)來自百度指數(shù)和谷歌趨勢,國外研究主要使用谷歌趨勢,國內(nèi)研究主要使用百度指數(shù)。百度指數(shù)依托百度搜索引擎,是以百度海量網(wǎng)民的搜索行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺。通過計算各個搜索關(guān)鍵詞在百度搜索引擎中的加權(quán)頻次,百度指數(shù)可以一定程度上反映搜索者的潛在需求和關(guān)注度。因此,百度指數(shù)被學(xué)者們廣泛使用。在研究旅游需求與網(wǎng)絡(luò)搜索之間的關(guān)系時,選取恰當(dāng)?shù)木W(wǎng)絡(luò)搜索關(guān)鍵詞至關(guān)重要。當(dāng)前關(guān)鍵詞的選取方法主要有技術(shù)取詞法、直接取詞法和范圍取詞法[17]94。在線預(yù)訂數(shù)據(jù)、網(wǎng)站瀏覽數(shù)據(jù)、客流量數(shù)據(jù)和平臺描述性運營數(shù)據(jù)也是重要的運營數(shù)據(jù),主要來源于旅游景區(qū)、酒店和旅游科研機構(gòu)等旅游企業(yè)。地理空間數(shù)據(jù)云和騰訊位置大數(shù)據(jù)等大數(shù)據(jù)平臺是設(shè)備數(shù)據(jù)和運營數(shù)據(jù)的來源之一?,F(xiàn)有研究中涉及的旅游企業(yè)和大數(shù)據(jù)平臺包括各地監(jiān)測平臺、政府官方網(wǎng)站、景區(qū)管理部門、美國地質(zhì)勘探局、康奈爾大學(xué)、InsideAirbnb、地理空間數(shù)據(jù)云、騰訊位置大數(shù)據(jù)、聚數(shù)力(dataju)平臺和Glovis網(wǎng)站等。
4 旅游大數(shù)據(jù)分析方法
旅游大數(shù)據(jù)的處理與分析遵循“數(shù)據(jù)獲取→數(shù)據(jù)預(yù)處理→數(shù)據(jù)分析”三步驟(圖5)。第一步,關(guān)于旅游大數(shù)據(jù)的獲取,不同來源的大數(shù)據(jù)對應(yīng)不同的獲取方式。比如,社交媒體和地圖服務(wù)商提供的數(shù)據(jù)主要通過各自開放的API接口或者網(wǎng)絡(luò)爬蟲的方式獲取。手機基站定位數(shù)據(jù)主要由通信運營商或與之合作的監(jiān)測平臺提供??傮w而言,現(xiàn)有文獻(xiàn)對數(shù)據(jù)獲取部分的介紹不夠規(guī)范,部分文獻(xiàn)并沒有在文中明確說明所使用數(shù)據(jù)的獲取方法。第二步,在正式分析數(shù)據(jù)之前,需要進(jìn)行數(shù)據(jù)預(yù)處理。對于數(shù)值數(shù)據(jù),通常需要進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)修正、重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)分類和數(shù)據(jù)驗證等處理步驟。對于非數(shù)值型數(shù)據(jù),比如文本數(shù)據(jù),則需要遵循重復(fù)文本刪除、文本分詞、詞性標(biāo)注和停用詞刪除等處理步驟。圖像數(shù)據(jù)的處理流程主要包括重復(fù)圖片刪除、圖片元數(shù)據(jù)和圖片評論清洗等步驟。第三步,對數(shù)據(jù)進(jìn)行正式分析。目前使用的分析方法包括定量分析法、定性分析法、文本分析法、機器學(xué)習(xí)方法和社會網(wǎng)絡(luò)分析方法等。其中,定量分析法在國內(nèi)旅游大數(shù)據(jù)研究中占主導(dǎo)地位,社會網(wǎng)絡(luò)分析方法經(jīng)常被用于分析旅游流網(wǎng)絡(luò)結(jié)構(gòu)特征,而定性分析法、混合研究方法以及文本分析法和機器學(xué)習(xí)方法等跨學(xué)科方法的使用仍有待加強。
4.1 定量分析法
傳統(tǒng)定量分析法仍然是目前主流的分析方法,包括各種計量經(jīng)濟(jì)模型和GIS與空間分析法等?,F(xiàn)有研究中使用的計量經(jīng)濟(jì)模型與方法包括多元線性回歸、負(fù)二項回歸、有序概率單位(Probit)回歸、分位數(shù)回歸、向量自回歸(vector autoregression,VAR)、自回歸求和移動平均模型(autoregressiveintegrated moving average model,ARIMA)和方差分析等。GIS和空間分析法可實現(xiàn)空間數(shù)據(jù)分析,經(jīng)常與數(shù)理統(tǒng)計結(jié)合分析,包括最近鄰指數(shù)、核密度估計(kernel density estimation,KDS)、 熱點分析(Getis-Ord G i* )、莫蘭指數(shù)(Moran's I)、LISA 集聚圖、柵格計算、緩沖區(qū)分析、標(biāo)準(zhǔn)差橢圓和地理探測器等空間分析算法。主要使用的分析工具包括SPSS、Stata、Eviews、ArcGIS、Geoda和Arcmap等。
4.2 定性分析法
在旅游大數(shù)據(jù)研究中,定性分析法主要指基于扎根理論的編碼方法。僅有少量研究使用單一的定性分析法,比如使用NVivo定性研究軟件進(jìn)行編碼分析。另外一些研究將基于扎根理論的編碼與文本分析法或社會網(wǎng)絡(luò)分析方法相結(jié)合。
4.3 文本分析法
文本分析法是分析文本大數(shù)據(jù)的重要方法,包括詞頻分析、詞頻-逆文檔率(term frequency-inversedocument frequency,TF-IDF)、產(chǎn)生詞向量的相關(guān)模型(Word2Vec)、主題模型、情感分析和語義網(wǎng)絡(luò)分析等。由于旅游平臺上有大量評論、攻略、社交數(shù)據(jù),文本數(shù)據(jù)是使用最多的旅游大數(shù)據(jù)類型,因此文本分析法在旅游大數(shù)據(jù)研究中的應(yīng)用也較為普遍。具體而言,詞頻分析是文本挖掘的重要手段,是最基礎(chǔ)也是目前使用最為廣泛的文本分析法。主題模型在主題識別、語義挖掘方面具有顯著的優(yōu)勢。
現(xiàn)有研究主要運用隱含狄利克雷分布(latentdirichlet allocation,LDA)主題模式從文本中挖掘用戶信息,對詞語進(jìn)行主題聚類,從而實現(xiàn)主題識別和分類。目前,主流的文本情感分析方法包括基于情感詞典的情感分析、基于機器學(xué)習(xí)的情感分析和混合方法[18]179。語義網(wǎng)絡(luò)分析主要以詞頻分析為基礎(chǔ),關(guān)注的焦點不是詞語本身,而是詞與詞之間的關(guān)系模式[19],也是研究中經(jīng)常使用的分析方法之一?,F(xiàn)有研究多使用Stanford POS tagger軟件對文本信息進(jìn)行預(yù)處理,在此基礎(chǔ)上使用Leximancer、ROST CM、百度AI開放平臺中的情感傾向分析API、Textblob、KH Coder、SentiWordNet、R 軟件和Protégé等軟件進(jìn)行正式的文本分析。其中,ROST CM 是最常使用的文本分析工具。
4.4 機器學(xué)習(xí)方法
機器學(xué)習(xí)模型主要被用于分類和預(yù)測任務(wù),在旅游大數(shù)據(jù)研究中的應(yīng)用處于初步階段,尤其是預(yù)測模型的使用較為缺乏。支持向量機(support vectormachine,SVM)是一種有監(jiān)督學(xué)習(xí)的分類器,是目前應(yīng)用于旅游文本分類任務(wù)最常見的分類算法,K-means聚類和樸素貝葉斯也是使用較多的分類算法。其他機器學(xué)習(xí)分類模型包括深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)、人工神經(jīng)網(wǎng)絡(luò)(artificialneural network,ANN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneural networks,CNN)、文本卷積神經(jīng)網(wǎng)絡(luò)(text convolutional neural network,TextCNN)、雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-directional longshort-term memory recurrent neural networks,bidirectionalLSTM RNN)、基于景點知識的多任務(wù)聯(lián)合學(xué)習(xí)的分類模型(knowledge-based multi-taskjoint learning classification model,KB-MJLCM)等。用于預(yù)測的機器學(xué)習(xí)模型包括Lasso 回歸、XGBoost模型、BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型和基于相似用戶(similarity)、景點熱度(popular)、時間(time)的SPT 景點推薦算法等。常用的分析軟件包括Python和圖片深度學(xué)習(xí)分析工具DeepSenti Bank等。
4.5 社會網(wǎng)絡(luò)分析方法
社會網(wǎng)絡(luò)方法主要分析行動者之間的相互關(guān)系及其在整個網(wǎng)絡(luò)中所處的地位。學(xué)者們經(jīng)常將社會網(wǎng)絡(luò)分析方法與旅游地理學(xué)中的GIS和空間分析方法結(jié)合使用,用于旅游流網(wǎng)絡(luò)結(jié)構(gòu)整體特征與節(jié)點特征分析。常用的分析軟件包括Ucinet和Netdraw軟件、Gephi和DataViz可視化數(shù)據(jù)分析軟件等。
5 大數(shù)據(jù)在國內(nèi)旅游研究中的應(yīng)用領(lǐng)域
旅游大數(shù)據(jù)研究內(nèi)容呈多元化特征。大數(shù)據(jù)在國內(nèi)旅游研究中的九大應(yīng)用領(lǐng)域分別為旅游感知與體驗、旅游者行為、旅游流、旅游預(yù)測、評論管理、網(wǎng)絡(luò)關(guān)注度、旅游資源分布、模型構(gòu)建與改進(jìn)和其他應(yīng)用領(lǐng)域。
5.1 旅游感知與體驗研究
旅游的本質(zhì)是為旅游者提供難忘、愉快和身臨其境的體驗,了解旅游者的旅游感知與體驗對提高目的地管理水平和聲譽、改善旅游者體驗起到重要作用。以往研究大多采用問卷或訪談等“小數(shù)據(jù)”的方式探討旅游體驗,存在研究主體主觀性和結(jié)論缺乏普適性等問題[20]。相比之下,在線評論、游記和旅游攻略等UGC數(shù)據(jù)更能夠客觀反映旅游者的旅游感知與體驗,是此類研究的重要數(shù)據(jù)源。關(guān)于大數(shù)據(jù)的旅游感知與體驗研究可大致分為3個子主題:(1)旅游景區(qū)等旅游目的地形象感知研究,主要集中在感知形象要素構(gòu)成和影響因素兩個方面[21-22]。在研究目的地形象感知時,“認(rèn)知-情感”三維模型,即認(rèn)知形象、情感形象和整體形象已經(jīng)得到了學(xué)界的基本認(rèn)同[23-24]。(2)情感體驗研究,包括積極和消極情感挖掘以及影響因素等方面[25-27]。旅游情感一直是國內(nèi)外旅游領(lǐng)域的重要研究話題,能夠深入反映旅游者的旅游體驗,并進(jìn)一步影響滿意度、忠誠度、行為意向等[28]。(3)滿意度研究,主要探討滿意度評價水平以及影響因素[29-31]。
5.2 旅游者行為研究
旅游者行為是旅游領(lǐng)域的主流研究內(nèi)容之一。信息技術(shù)的快速發(fā)展改變了旅游者的行為模式,也為旅游者行為研究提供了新的數(shù)據(jù)源?;诖髷?shù)據(jù)的旅游者行為研究主要包括旅游者時空行為、旅游者偏好和旅游者行為意向等。旅游者時空行為是旅游者行為研究的重要分支,反映了旅游者在旅行過程中的時間和空間行為?;赨GC數(shù)據(jù)和設(shè)備數(shù)據(jù)的旅游者時空行為模式研究已經(jīng)取得了豐碩成果。相比之下,現(xiàn)有研究對其影響因素的探討尚不充分。郭旸等學(xué)者的研究表明,旅游者時空行為模式特征受旅游者的客源地、旅游停留時間、景點開放時間和同伴類型等因素的影響[32]。梁嘉祺等學(xué)者發(fā)現(xiàn),空間特征、時間預(yù)算和人際互動等時空環(huán)境因素能夠影響游客時空行為[33]。也有研究探討了旅游者偏好和旅游者行為意向等問題。比如,王紅麗等學(xué)者探討了房東自我展示信息主題對房客預(yù)訂行為的影響,并驗證了信任的中介機制作用[34]。
5.3 旅游流研究
旅游流有狹義和廣義之分,廣義的旅游流包括游客流、物質(zhì)流、能量流和文化流等,狹義的旅游流僅指游客流[35]。大多數(shù)研究采用狹義的旅游流,即在旅游空間區(qū)域內(nèi),旅游者基于相似的旅游需求而引起的集體性空間移動現(xiàn)象。旅游流是大數(shù)據(jù)在旅游研究中應(yīng)用的主要領(lǐng)域,設(shè)備數(shù)據(jù)和UGC 數(shù)據(jù)是使用的主要數(shù)據(jù)類型。旅游流的研究內(nèi)容多樣,主要包括以下5個子主題:(1)旅游流時空分布特征及演化模式研究;(2)旅游流網(wǎng)絡(luò)結(jié)構(gòu)特征及演化模式研究,這也是旅游流研究成果最為豐富的子主題;(3)影響因素與作用機制研究,現(xiàn)有大多數(shù)研究停留在討論旅游流特征和分布規(guī)律的層面,缺乏對影響因素的深入剖析;(4)旅游流預(yù)測研究;(5)旅游流空間效應(yīng)研究。在研究尺度上,涵蓋宏觀到微觀各級尺度,包括國家、省際、城市和景區(qū)等,現(xiàn)有研究主要以城市尺度為主。
5.4 旅游預(yù)測研究
準(zhǔn)確的需求預(yù)測可以幫助旅游從業(yè)者作出商業(yè)決策,也可以幫助旅游目的地決策者制定旅游發(fā)展政策[36]?;诖髷?shù)據(jù)的旅游需求預(yù)測包括游客出行預(yù)測、旅游地到達(dá)人數(shù)預(yù)測、酒店需求預(yù)測、游客偏好預(yù)測等,主要的數(shù)據(jù)來源是游客出行前在互聯(lián)網(wǎng)上的檢索數(shù)據(jù)[6]167。國內(nèi)有關(guān)旅游預(yù)測的大數(shù)據(jù)研究相對有限,現(xiàn)有研究主要對旅游客流量進(jìn)行預(yù)測[17]98,[37],也有少許研究關(guān)注酒店客房需求預(yù)測、酒店價格預(yù)測和用戶偏好預(yù)測等。比如,曹睿等學(xué)者基于XGBoost機器學(xué)習(xí)模型,對共享住宿房源價格進(jìn)行了預(yù)測[38]。
5.5 評論管理研究
從評論者和評論內(nèi)容等視角研究評論有用性和商家評論管理策略也是重要話題之一。評論有用性能夠減少消費者搜索成本,幫助消費者及時獲取有效信息,并影響其消費決策[39]。評論特征(負(fù)面評論、低評論星級、評分一致性和評論長度)和評論者特征對評論有用性有顯著影響[40-41]。商家評論管理策略是該研究主題下的另一重要研究內(nèi)容。及時和準(zhǔn)確的評論管理策略能夠促進(jìn)服務(wù)提供者和消費者的在線互動。尤其在服務(wù)失敗的情境下,作為一種有效的服務(wù)補救策略,評論管理能夠彌補服務(wù)失敗帶來的不利影響,減少損失,恢復(fù)商家聲譽。研究表明,管理者在線管理反饋策略會影響評論有用性和顧客滿意度[42-43]。但是,管理者回復(fù)并不總是產(chǎn)生積極影響,機械式回復(fù)反而會適得其反[44]。
5.6 網(wǎng)絡(luò)關(guān)注度研究
國內(nèi)旅游網(wǎng)絡(luò)關(guān)注度研究已經(jīng)取得了豐富的成果。在數(shù)據(jù)來源上,百度指數(shù)是重要的數(shù)據(jù)渠道。在研究主題上,基于大數(shù)據(jù)的旅游網(wǎng)絡(luò)關(guān)注度研究主要集中在以下兩個方面:(1)旅游網(wǎng)絡(luò)關(guān)注度時空分布特征及影響因素,這是目前國內(nèi)旅游網(wǎng)絡(luò)關(guān)注度的主要研究方向;(2)旅游網(wǎng)絡(luò)關(guān)注度與旅游需求(主要體現(xiàn)在旅游目的地客流量和旅游流)的關(guān)系研究,該主題在前期相關(guān)研究中已經(jīng)引起學(xué)者們的關(guān)注。大部分研究認(rèn)為,網(wǎng)絡(luò)關(guān)注度與旅游目的地客流量或旅游流之間是正相關(guān)關(guān)系[45]。值得注意的是,方葉林等學(xué)者指出,網(wǎng)絡(luò)關(guān)注度只是影響客流量的眾多因素之一,而非決定性因素,網(wǎng)絡(luò)關(guān)注度與游客量之間可能表現(xiàn)為“名副其實”“名小于實”“名不副實”3種“錯位關(guān)系”[46]。在研究視角上,目前研究主要聚焦城市和旅游景區(qū)等旅游目的地的網(wǎng)絡(luò)關(guān)注度,也有研究關(guān)注旅游細(xì)分市場(如體育旅游、溫泉旅游)、旅游輿情、旅游安全、旅游滿意度和旅游要素等視角。
5.7 旅游資源分布研究
旅游資源是旅游業(yè)的基礎(chǔ),可分為自然風(fēng)景和人文景觀旅游資源。在本研究中,旅游資源的范圍相對廣泛,既包括旅游景區(qū)、酒店等服務(wù)基礎(chǔ)設(shè)施,也涵蓋學(xué)校、公交站點等地理實體。借助POI等地理位置數(shù)據(jù)探討旅游資源的分布特征以及影響因素是目前的主要研究內(nèi)容;一方面,部分研究關(guān)注旅游景區(qū)的空間分布及影響因素,研究尺度多為省域和市域尺度;另一方面,部分學(xué)者聚焦某種具體的旅游資源類型的空間分布,如鄉(xiāng)村旅游和森林休閑旅游資源等。
5.8 模型構(gòu)建與改進(jìn)研究
部分研究側(cè)重利用大數(shù)據(jù)特征改進(jìn)現(xiàn)有算法或提出新的算法,提高算法效率和擴(kuò)大算法適用度,以提高現(xiàn)有模型的質(zhì)量。通過融入文本和圖片等不同類型的大數(shù)據(jù)特征和構(gòu)建特定領(lǐng)域的專屬詞庫等途徑,都可以實現(xiàn)算法和模型質(zhì)量的改進(jìn)。劉逸等學(xué)者通過界定旅游專屬詞庫、語義邏輯規(guī)則和情感乘數(shù)3個旅游文本情感分析的過濾參數(shù),構(gòu)建了基于網(wǎng)絡(luò)文本大數(shù)據(jù)的旅游目的地情感評價模型[14]1101,為旅游情感分析模型的改進(jìn)作出了重要貢獻(xiàn)。此類研究的主要內(nèi)容包括情感分析模型的對比與改進(jìn)、評論有用性識別/虛假評論識別、旅游景點或酒店推薦模型優(yōu)化和大數(shù)據(jù)旅游統(tǒng)計模型構(gòu)建等。
5.9 其他主題研究
除了上述主要應(yīng)用領(lǐng)域,也有文獻(xiàn)研究旅游危機管理、平臺定價機制、企業(yè)績效、旅游目的地品牌營銷和旅游線路設(shè)計與規(guī)劃等主題。比如,楊帥等學(xué)者基于Airbnb在線房源數(shù)據(jù),探究了共享住宿定價的重要影響因素,并從國家文化價值觀的視角解釋了各個影響因素在不同國家之間的作用差異[47]。徐峰等學(xué)者檢驗了基于認(rèn)知、情感和制度的3種信任構(gòu)建機制對共享住宿預(yù)訂量的影響[48]。
6 結(jié)論與展望
本文從研究概況、旅游大數(shù)據(jù)基本類型及其來源、旅游大數(shù)據(jù)分析方法和大數(shù)據(jù)在國內(nèi)旅游研究中的應(yīng)用領(lǐng)域等方面對國內(nèi)旅游大數(shù)據(jù)的學(xué)術(shù)研究進(jìn)展進(jìn)行了全面系統(tǒng)的梳理與分析,并在此基礎(chǔ)上提出未來研究的方向。圖6為旅游大數(shù)據(jù)研究的分析框架圖。
6.1 研究結(jié)論
(1)從研究概況來看,中文旅游大數(shù)據(jù)研究的發(fā)文量總體上呈增長趨勢,2018年為顯著增長點,之后保持較為穩(wěn)定的發(fā)表水平;中文旅游大數(shù)據(jù)研究的來源期刊涵蓋經(jīng)濟(jì)、管理、地理、計算機、統(tǒng)計等不同學(xué)科,呈現(xiàn)鮮明的跨學(xué)科特點;大數(shù)據(jù)已被廣泛應(yīng)用于旅游景區(qū)、酒店、共享住宿和餐飲等多旅游場景;國內(nèi)外旅游大數(shù)據(jù)研究的起步時間保持同步,且研究熱度持續(xù)升溫。
(2)從數(shù)據(jù)類型來看,國內(nèi)旅游大數(shù)據(jù)可分為UGC數(shù)據(jù)、設(shè)備數(shù)據(jù)和運營數(shù)據(jù)3種基本類型。通過對比可以發(fā)現(xiàn),國內(nèi)外學(xué)術(shù)研究對旅游大數(shù)據(jù)的類型劃分大致相同。具體而言,UGC數(shù)據(jù),尤其是文本數(shù)據(jù),是使用最多的旅游大數(shù)據(jù)類型,圖像數(shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù)的使用仍有待深入挖掘;設(shè)備數(shù)據(jù)私密性強,獲取門檻和成本高,在旅游研究中的應(yīng)用處于探索階段;運營數(shù)據(jù)可獲得性低,在旅游領(lǐng)域的運用有限;多類型大數(shù)據(jù)的融合使用有待充分挖掘。
(3)從數(shù)據(jù)來源來看,攜程旅行、馬蜂窩旅游網(wǎng)等社交媒體是最主要的旅游大數(shù)據(jù)來源,網(wǎng)絡(luò)爬蟲技術(shù)的日益成熟使得此類數(shù)據(jù)的可獲得性較高,獲取成本較低,但是從通信運營商和旅游企業(yè)等途徑獲取數(shù)據(jù)仍較為困難;大多數(shù)研究使用單一來源數(shù)據(jù),多源數(shù)據(jù)的使用雖然受限但已經(jīng)引起學(xué)者的重視,目前多源數(shù)據(jù)融合主要為在線評論或游記等文本數(shù)據(jù)的融合;國內(nèi)外旅游大數(shù)據(jù)研究最主要的數(shù)據(jù)來源都是社交媒體,不同的是,在網(wǎng)絡(luò)搜索數(shù)據(jù)的使用上中文研究大多使用百度指數(shù)、英文研究主要使用谷歌趨勢。
(4)從分析方法來看,計量經(jīng)濟(jì)模型和GIS空間分析法等傳統(tǒng)定量方法是主流研究方法,其中GIS和大數(shù)據(jù)的結(jié)合適用于大尺度的空間行為研究,這說明不同的研究方法適用于不同的研究問題;定性分析法和混合方法的使用不夠廣泛;文本分析和機器學(xué)習(xí)等跨學(xué)科方法和工具的使用不夠深入?,F(xiàn)有研究中使用的文本分析工具相對單一,最常用的分析工具為ROST CM 軟件。在機器學(xué)習(xí)方法的使用上,學(xué)者們大多使用分類模型,機器學(xué)習(xí)預(yù)測模型的使用非常缺乏。相比之下,國外研究對機器學(xué)習(xí)方法的使用更為深入。
(5)從研究內(nèi)容來看,旅游大數(shù)據(jù)的研究主題比較豐富且呈現(xiàn)多元化趨勢,包括旅游感知與體驗、旅游者行為、旅游流、旅游預(yù)測、評論管理、網(wǎng)絡(luò)關(guān)注度、旅游資源分布、模型構(gòu)建與改進(jìn)和其他主題等九大主題;國內(nèi)外旅游大數(shù)據(jù)研究在旅游感知與體驗、旅游者行為等主流研究方向上保持一致,其差異之處是國外旅游預(yù)測的研究成果已經(jīng)比較豐富,而國內(nèi)旅游預(yù)測的研究成果相對較少;旅游大數(shù)據(jù)的研究內(nèi)容具有跨學(xué)科屬性,用于分析的樣本文獻(xiàn)涵蓋經(jīng)濟(jì)、管理、地理、計算機、統(tǒng)計等不同學(xué)科,體現(xiàn)了旅游大數(shù)據(jù)研究的跨學(xué)科性;在研究類型上,現(xiàn)有旅游大數(shù)據(jù)文章多為大數(shù)據(jù)驅(qū)動的應(yīng)用型研究,理論型的旅游大數(shù)據(jù)研究發(fā)展受限,即以實證研究為主,文獻(xiàn)綜述和理論構(gòu)建研究較為缺乏,其中中英文研究基本保持一致,相對而言國外綜述文章多于國內(nèi);旅游大數(shù)據(jù)的研究深度有待進(jìn)一步挖掘,如現(xiàn)有旅游流研究主要聚焦旅游流時空演化特征和旅游流空間網(wǎng)絡(luò)結(jié)構(gòu)特征,即只停留在分析事物特征層面,缺乏對內(nèi)在機理的研究;旅游大數(shù)據(jù)的研究視角較為單一,現(xiàn)有研究主要基于旅游者的微觀視角展開研究,對當(dāng)?shù)鼐用瘛⒙糜纹髽I(yè)和政策制定與管理者等其他利益相關(guān)者的關(guān)注不夠。
6.2 研究展望
(1)在數(shù)據(jù)類型上,未來研究應(yīng)進(jìn)一步挖掘并使用圖像數(shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù)等不同類型的UGC數(shù)據(jù)。UGC數(shù)據(jù)是國內(nèi)旅游大數(shù)據(jù)研究中使用最多的數(shù)據(jù)類型,使用在線評論數(shù)據(jù)的研究占據(jù)“半壁江山”[49],而不同類型的UGC數(shù)據(jù)具有不同的數(shù)據(jù)屬性,在處理方法以及內(nèi)容映射上均存在差異性[50],能夠從不同視角反映研究問題,對旅游研究具有潛在的應(yīng)用價值;注重設(shè)備數(shù)據(jù)和運營數(shù)據(jù)的深入挖掘,并與其他類型的數(shù)據(jù)融合使用,如設(shè)備數(shù)據(jù)與網(wǎng)絡(luò)搜索數(shù)據(jù)的融合、文本數(shù)據(jù)與網(wǎng)絡(luò)搜索數(shù)據(jù)的融合。多類型的大數(shù)據(jù)能夠互相補充驗證研究結(jié)果,增強研究可靠性。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)(實地調(diào)研數(shù)據(jù))之間也可以相互驗證數(shù)據(jù)質(zhì)量,兩者的一致性可以增強研究結(jié)果的科學(xué)性和準(zhǔn)確性。
(2)在數(shù)據(jù)來源上,未來研究應(yīng)更加注重多源數(shù)據(jù)的挖掘與使用。多源數(shù)據(jù)之間可以互相補充和交叉驗證,在增加研究內(nèi)容豐富性的同時,可以提高研究結(jié)果的準(zhǔn)確性和科學(xué)性,因此是未來重要的研究趨勢之一。比如,與基于單一搜索引擎大數(shù)據(jù)的旅游需求預(yù)測相比,基于搜索引擎和在線評論的多源大數(shù)據(jù)對旅游需求具有更好的短期預(yù)測效果[51]。因此,加強產(chǎn)學(xué)研合作,實現(xiàn)多源數(shù)據(jù)協(xié)同共享將成為推動旅游大數(shù)據(jù)研究進(jìn)一步發(fā)展的關(guān)鍵。
(3)在研究方法上,多媒體數(shù)據(jù)帶來的機遇之一是方法創(chuàng)新,綜合使用經(jīng)濟(jì)學(xué)、管理學(xué)、地理學(xué)、計算機科學(xué)和統(tǒng)計學(xué)等多學(xué)科的方法和工具是未來重要趨勢之一。第一,未來研究應(yīng)更多地使用混合研究方法,比如通過傳統(tǒng)問卷調(diào)查方法輔助驗證文本分析或扎根理論編碼。第二,未來研究應(yīng)深化文本分析法和機器學(xué)習(xí)模型的使用。一方面,拓寬文本分析法和機器學(xué)習(xí)模型的應(yīng)用“寬度”;另一方面,挖掘文本分析法和機器學(xué)習(xí)模型的應(yīng)用“深度”,即要重視算法和模型的優(yōu)化改進(jìn)。第三,未來研究也要借助更多新的分析工具。比如,探索文本分析和視頻數(shù)據(jù)處理新軟件。
(4)在研究內(nèi)容上,旅游預(yù)測是國外旅游大數(shù)據(jù)研究的熱點之一,近年來的研究重點關(guān)注短期高頻的預(yù)測和新預(yù)測模型的應(yīng)用,未來研究應(yīng)重視旅游預(yù)測這一研究內(nèi)容;未來研究應(yīng)結(jié)合哲學(xué)、倫理、管理、經(jīng)濟(jì)、心理和計算機等多學(xué)科視角進(jìn)行研究,如深入探討大數(shù)據(jù)背景下旅游者的隱私和倫理問題、加強情感分析研究等;未來研究需要堅持理論驅(qū)動和數(shù)據(jù)驅(qū)動“雙驅(qū)并進(jìn)”,推動旅游大數(shù)據(jù)研究進(jìn)入新的發(fā)展階段;應(yīng)用大數(shù)據(jù)挖掘與分析技術(shù)研究旅游流的演化特征和旅游者行為特征,并在此基礎(chǔ)上分析其影響機制已經(jīng)成為研究的重要方向,旅游流和旅游者時空行為與其他主題的交叉研究可能是未來新的方向;未來研究應(yīng)關(guān)注多元視角,從旅游者、社區(qū)居民、旅游企業(yè)和政策制定與管理者等多利益相關(guān)者視角展開研究。旅游業(yè)的可持續(xù)發(fā)展離不開利益相關(guān)者之間的協(xié)同合作,未來研究可以借助大數(shù)據(jù)區(qū)分和揭示旅游者和當(dāng)?shù)鼐用竦臅r空行為;探討5G數(shù)字經(jīng)濟(jì)背景下政府和平臺企業(yè)對大數(shù)據(jù)隱私安全的保護(hù)問題;從管理者的視角研究評論管理策略和旅游危機管理等主題。
注釋
①CSSCI:Chinese Social Sciences Citation Index,中文社會科學(xué)引文索引,是由南京大學(xué)中國社會科學(xué)研究評價中心開發(fā)研制的數(shù)據(jù)庫,用來檢索中文社會科學(xué)領(lǐng)域的論文收錄和文獻(xiàn)被引用情況。
②CSCD:Chinese Science Citation Database,中國科學(xué)引文數(shù)據(jù)庫,由中國科學(xué)院文獻(xiàn)情報中心創(chuàng)建。
③Airbnb:AirBed and Breakfast,愛彼迎。
④POI:Point of Interest,興趣點。
⑤感興趣的讀者可來函索取詳細(xì)的期刊名稱、學(xué)科分布和載文量等具體數(shù)據(jù)。
參考文獻(xiàn)
[1] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2] LI X,LAW R.Network analysis of big data research intourism[J].Tourism management perspectives,2020,33:100608.
[3] MARIANI M,BAGGIO R.Big data and analytics inhospitality and tourism:a systematic literature review[J].International journal of contemporary hospitalitymanagement,2022(1):231-278.
[4] 陸保一,韋俊峰,明慶忠,等.基于知識圖譜的中國旅游大數(shù)據(jù)應(yīng)用研究進(jìn)展[J].經(jīng)濟(jì)地理,2022(1):230-240.
[5] LI J J,XU L Z,TANG L,et al.Big data in tourism research:a literature review[J].Tourism management,2018,68:301-323.
[6] 曾忠祿,王興.大數(shù)據(jù)在旅游研究中的運用:國際文獻(xiàn)研究[J].情報雜志,2020(10):165-168.
[7] 吳開軍.旅游大數(shù)據(jù)研究熱點及特征探析:基于國外文獻(xiàn)的分析[J].統(tǒng)計與信息論壇,2019(4):105-113.
[8] 陳雪,張宏磊,徐一帆,等.旅游研究中的圖像研究進(jìn)展與展望[J].旅游學(xué)刊,2021(3):127-140.
[9] LI X,LAW R,XIE G,et al.Review of tourism forecastingresearch with internet data[J].Tourism management,2021,83:104245.
[10] 鄭偉民,李夢玲,莊歆怡,等.手機基站定位數(shù)據(jù)在旅游領(lǐng)域的應(yīng)用綜述[J].旅游導(dǎo)刊,2021(4):37-57.
[11] 李君軼,楊敏.基于Web數(shù)據(jù)挖掘的旅游需求分析與預(yù)測[J].旅游科學(xué),2007(6):47-52.
[12] 鄧寧,曲玉潔.我國旅游大數(shù)據(jù)的產(chǎn)業(yè)實踐:現(xiàn)狀、問題及未來[J].旅游導(dǎo)刊,2021(4):1-15.
[13] SIVARAJAH U,KAMAL M M,IRANI Z,et al.Critical analysis of Big Data challenges and analyticalmethods[J].Journal of business research,2017,70:263-286.
[14] 劉逸,保繼剛,朱毅玲.基于大數(shù)據(jù)的旅游目的地情感評價方法探究[J].地理研究,2017(6):1091-1105.
[15] 趙瑩,張朝枝,金鈺涵.基于手機數(shù)據(jù)可靠性分析的旅游城市功能空間識別研究[J].人文地理,2018(3):137-144.
[16] 王錄倉,嚴(yán)翠霞,李巍.基于新浪微博大數(shù)據(jù)的旅游流時空特征研究以蘭州市為例[J].旅游學(xué)刊,2017(5):94-105.
[17] 黃先開,張麗峰,丁于思.百度指數(shù)與旅游景區(qū)游客量的關(guān)系及預(yù)測研究以北京故宮為例[J].旅游學(xué)刊, 2013(11):93-100.
[18] ALAEI A R,BECKEN S,STANTIC B.Sentiment analysisin tourism:capitalizing on big data[J].Journalof travel research,2019(2):175-191.
[19] 孫曉東,倪榮鑫.中國郵輪游客的產(chǎn)品認(rèn)知、情感表達(dá)與品牌形象感知基于在線點評的內(nèi)容分析[J].地理研究,2018(6):1159-1180.
[20] 李春曉,李輝,劉艷箏,等.多彩華夏:大數(shù)據(jù)視角的入境游客體驗感知差異深描[J].南開管理評論, 2020(1):28-39.
[21] 春雨童,王傳生,計衛(wèi)星,等.基于網(wǎng)絡(luò)文本分析的重游意向旅游形象感知研究以廈門鼓浪嶼風(fēng)景名勝區(qū)及北京故宮博物院為例[J].地域研究與開發(fā),2021(4):96-101.
[22] 李婷,武剛,梁麗芳,等.基于網(wǎng)絡(luò)評論的五臺山旅游目的地游后形象感知研究[J].干旱區(qū)資源與環(huán)境,2021(8):192-198.
[23] 鄧寧,劉耀芳,牛宇,等.不同來源地旅游者對北京目的地形象感知差異基于深度學(xué)習(xí)的Flickr圖片分析[J].資源科學(xué),2019(3):416-429.
[24] 陸利軍,廖小平.基于UGC數(shù)據(jù)的南岳衡山旅游目的地形象感知研究[J].經(jīng)濟(jì)地理,2019(12):221-229.
[25] 叢麗,何繼紅.野生動物旅游景區(qū)游客情感特征研究以長隆野生動物世界為例[J].旅游學(xué)刊,2020(2):53-64.
[26] 劉逸,保繼剛,陳凱琪.中國赴澳大利亞游客的情感特征研究基于大數(shù)據(jù)的文本分析[J].旅游學(xué)刊, 2017(5):46-58.
[27] 史達(dá),王志敏.綠色飯店用戶體驗基于在線評論的深度學(xué)習(xí)研究[J].旅游科學(xué),2019(6):62-76.
[28] 陳鋼華,李萌.旅游者情感研究進(jìn)展:歷程、主題、理論與方法[J].旅游學(xué)刊,2020(7):99-116.
[29] 郭曉姝,葉強,祁阿瑩,等.解釋駁斥管理反饋策略對消費者滿意度的影響[J].管理科學(xué),2020(5):58-71.
[30] 謝秋逸,周年興,軒源,等.基于百度AI開放平臺的北京市共享住宿顧客滿意度及需求層次研究[J].南京師大學(xué)報(自然科學(xué)版),2021(1):64-70.
[31] 何瓊峰.基于扎根理論的文化遺產(chǎn)景區(qū)游客滿意度影響因素研究以大眾點評網(wǎng)北京5A 景區(qū)的游客評論為例[J].經(jīng)濟(jì)地理,2014(1):168-173.
[32] 郭旸,胡雅靜,林玥.基于手機信令和網(wǎng)絡(luò)游記數(shù)據(jù)的游客時空行為分析:以上海迪士尼樂園外地游客為例[J].旅游論壇,2020(1):13-22.
[33] 梁嘉祺,姜珊,陶犁.基于網(wǎng)絡(luò)游記語義分析和GIS可視化的游客時空行為與情緒關(guān)系實證研究以北京市為例[J].人文地理,2020(2):152-160.
[34] 王紅麗,周夢楠.Airbnb房東自我展示的信息分類及其對房客信任與預(yù)訂行為的影響研究[J].管理學(xué)報,2021(9):1307-1316.
[35] 馬斌斌,陳興鵬,陳芳婷.基于社交大數(shù)據(jù)的敦煌旅游流多尺度時空分異特征[J].經(jīng)濟(jì)地理,2021(3):202-212.
[36] WEN L,LIU C,SONG H Y,et al.Forecastingtourism demand with an improved mixed data samplingmodel[J].Journal of travel research,2021(2):336-353.
[37] 周曉麗,唐承財.基于網(wǎng)絡(luò)搜索大數(shù)據(jù)的5A 級景區(qū)客流量預(yù)測分析[J].干旱區(qū)資源與環(huán)境,2020(3):204-208.
[38] 曹睿,廖彬,李敏,等.基于XGBoost的在線短租市場價格預(yù)測及特征分析模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021(6):51-65.
[39] LEUNG D.Unraveling the interplay of review depth,review breadth,and review language style on reviewusefulness and review adoption[J].International journalof hospitality management,2021,97:102989.
[40] 徐峰,張新,馬良,等.在線評論動態(tài)性偏差對評論有用性影響研究[J].管理學(xué)報,2020(9):1383-1390.
[41] 史達(dá),王樂樂,衣博文.在線評論有用性的深度數(shù)據(jù)挖掘基于TripAdvisor的酒店評論數(shù)據(jù)[J].南開管理評論,2020(5):64-75.
[42] 陳遠(yuǎn)高,應(yīng)夢茜,畢然,等.管理者回復(fù)對在線評論與有用性關(guān)系的調(diào)節(jié)效應(yīng):基于TripAdvisor的實證研究[J].管理工程學(xué)報,2021(5):110-116.
[43] 郭曉姝,張焱,徐健.道歉承諾類管理反饋策略對顧客二次滿意度的影響基于顧客多樣情緒調(diào)節(jié)效應(yīng)[J].中國管理科學(xué),2021(2):217-227.
[44] LIU S,WANG N,GAO B Z,et al.To be similar or tobe different? The effect of hotel managers'rote responseon subsequent reviews[J].Tourism management,2021,86:104346.
[45] 王碩,曾克峰,童潔,等.黃金周風(fēng)景名勝區(qū)旅游客流量與網(wǎng)絡(luò)關(guān)注度相關(guān)性分析:以廬山、華山、八達(dá)嶺長城風(fēng)景名勝區(qū)為例[J].經(jīng)濟(jì)地理,2013(11):182-186.
[46] 方葉林,程雪蘭,黃震方,等.國家重點風(fēng)景名勝區(qū)網(wǎng)絡(luò)關(guān)注度與游客量的錯位特征及機理[J].經(jīng)濟(jì)地理,2020(4):204-213.
[47] 楊帥,陳建宏,柯丹,等.共享住宿定價策略的跨國差異:國家文化價值觀在共享經(jīng)濟(jì)中的調(diào)節(jié)作用[J].南開管理評論,2021(3):60-73.
[48] 徐峰,張新,梁乙凱,等.信任構(gòu)建機制對共享民宿預(yù)訂量的影響基于Airbnb的實證研究[J].旅游學(xué)刊,2021(12):127-139.
[49] 江帆,林珊珊,應(yīng)天煜,等.中國旅游大數(shù)據(jù)研究:二十年回顧與展望[J].旅游導(dǎo)刊,2022(4):68-104.
[50] GREWAL R,GUPTA S,HAMILTON R.Marketinginsights from multimedia data:text,image,audio,andvideo[J].Journal of marketing research,2021(6):1025-1033.
[51] LI H Y,HU M M,LI G.Forecasting tourism demandwith multisource big data[J].Annals of tourism research,2020,83:102912.
[責(zé)任編輯:連云凱]