彭濤 劉小安 劉暢 孫連英 劉宇
[摘要]通過大數(shù)據(jù)技術(shù)對海量的用戶貢獻(xiàn)內(nèi)容構(gòu)建數(shù)據(jù)分析系統(tǒng)框架,以酒店為例,進(jìn)行多維度分析及可視化應(yīng)用?;赥ripAdvisor網(wǎng)站的列表和點(diǎn)評信息,通過分布式爬蟲框架爬取所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理,采用分布式文件系統(tǒng)存儲數(shù)據(jù),在此基礎(chǔ)上運(yùn)用統(tǒng)計建模及自然語言處理方法進(jìn)行數(shù)據(jù)分析研究,借助第三方框架對分析結(jié)果進(jìn)行可視化。研究者在使用該框架時,可以根據(jù)自身需求從多個維度進(jìn)行數(shù)據(jù)分析及可視化應(yīng)用。該框架能夠有效地對旅游評論大數(shù)據(jù)進(jìn)行多維度的統(tǒng)計分析,進(jìn)而為旅游相關(guān)人員提供基于旅游評論大數(shù)據(jù)的參考信息。
[關(guān)鍵詞]旅游評論;觀點(diǎn)分析;大數(shù)據(jù);數(shù)據(jù)可視化
[中圖分類號]F 592[文獻(xiàn)標(biāo)志碼]A[文章編號]10050310(2019)01005707
Research on a Multidimensional Data Analysis and Visualization
Framework Based on Traveller Review
Peng Tao1,Liu Xiaoan2,Liu Chang1,Sun Lianying3,Liu Yu4
(1. College of Robotics, Beijing Union University, Beijing 100101, China; 2. Smart City College, Beijing Union University,
Beijing 100101, China; 3. College of Urban Rail Transit and Logistics, Beijing Union University,
Beijing 100101, China; 4. Tourism College, Beijing Union University, Beijing 100101, China)
Abstract: This study aims to establish a multidimensional data analysis and visualization framework based on traveller review and uses a case study to apply our data analysis and visualization framework. A distributed crawler framework was developed to craw data. A preprocessing method was applied to improve data quality. A distributed file system was used to store data. Based on massive review data, some models were built and nature language process methods were applied for data analysis. At last, the result data was visualized using thirdparty visualization framework. Users could analyse and visualize traveller review data from multiple dimensions, as well as find valuable information. This framework can analyse and visualize traveller review data from multiple dimensions and help tourismrelated personnel find valuable information from big data.
Keywords: Traveller review; Opinion analysis;
Big data; Data visualization
0引言
隨著大數(shù)據(jù)時代的到來和第三方旅游點(diǎn)評網(wǎng)站的迅速發(fā)展
及普及,在線評論已成為消費(fèi)者獲取信息的重要來源,并對旅游者的旅游行為產(chǎn)生了重大影響,同時也為研究者提供了海量的用戶貢獻(xiàn)內(nèi)容(User Generated Content,UGC)[1]。面對這些海量的旅游信息,通過智能化手段對信息進(jìn)行處理,挖掘其中包含的有價值旅游信息,反饋給旅游者、旅游企業(yè)、旅游管理部門及旅游研究者就顯得非常重要。已有研究在面對海量UGC時,主要通過爬蟲工具[2]、問卷調(diào)查[3]、網(wǎng)上調(diào)研[4]等基于小樣本的、有代表性的數(shù)據(jù)進(jìn)行研究。這些研究方法既滯后于整體的旅游業(yè)發(fā)展的需求,又無法體現(xiàn)海量信息可實(shí)現(xiàn)廣域空間及多維度研究的巨大價值。
本文選取全球最大的旅游點(diǎn)評網(wǎng)站TripAdvisor(全球領(lǐng)先的旅游網(wǎng)站)作為數(shù)據(jù)源,通過分析TripAdvisor網(wǎng)站上酒店、景點(diǎn)和餐飲的點(diǎn)評信息(包括文本、圖片),使用分布式爬蟲框架爬取所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理(過濾、修正),將數(shù)據(jù)存儲到Hadoop分布式文件系統(tǒng)中。在此基礎(chǔ)上結(jié)合統(tǒng)計建模和自然語言處理方法、Java Web技術(shù)、Python語言以及D3數(shù)據(jù)可視化工具,構(gòu)建面向旅游評論大數(shù)據(jù)的多維度分析及可視化系統(tǒng),并將其進(jìn)行應(yīng)用實(shí)踐。研究結(jié)果將為旅游研究人員、旅游者、旅游企業(yè)及旅游管理部門提供基于旅游大數(shù)據(jù)分析的實(shí)踐系統(tǒng)框架。
1相關(guān)研究
在信息化時代,需求越來越個性化的旅游者更多地依靠網(wǎng)絡(luò)、智能移動終端、移動應(yīng)用軟件來滿足自己的旅游需求;旅游者在線安排行程,利用社會化媒體進(jìn)行評級,撰寫點(diǎn)評、博文及點(diǎn)贊,產(chǎn)生大量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)?;诖?,越來越多的旅游研究學(xué)者開始利用這些數(shù)據(jù)進(jìn)行相關(guān)研究。目前,既有研究集中在以下幾個方面:沈體雁等[5]通過抓取旅游局官網(wǎng)數(shù)據(jù)構(gòu)建目的地網(wǎng)絡(luò)形象;王佳果等[6]利用網(wǎng)絡(luò)文本進(jìn)行質(zhì)性分析;王琨等[7]、靜恩明等[8]基于旅游評論進(jìn)行旅游地關(guān)注度及空間格局分析;Cenni等[9]、程翠瓊等[2]、李素科等[10]通過旅游網(wǎng)絡(luò)文本進(jìn)行情感分析;王帆[11]、皮瑞等[12]、鐘彥清等[13]基于旅游評論進(jìn)行目的地形象感知分析;汪秋菊等[14]、楊艷霞[15]基于網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行旅游預(yù)警的研究;逯燕玲等[16 ]進(jìn)行區(qū)域競爭力評價與空間優(yōu)化研究。
通過對已有研究進(jìn)行分析發(fā)現(xiàn),基于大數(shù)據(jù)的分析有力地推動了相關(guān)旅游研究,但較之于不斷增長的海量在線數(shù)據(jù),既有旅游研究的廣度和深度都有限,對于海量數(shù)據(jù)的利用程度,僅是“冰山”之一角,究其原因,在于數(shù)據(jù)采集不足和數(shù)據(jù)分析框架缺失兩個方面:
北京聯(lián)合大學(xué)學(xué)報2019年1月
第33卷第1期彭濤等:旅游評論多維度分析及可視化的研究
1) 已有研究主要通過爬蟲工具[2]、問卷調(diào)查[3]、網(wǎng)上調(diào)研[4]等基于小樣本的、有代表性的數(shù)據(jù)進(jìn)行研究。研究所基于的數(shù)據(jù)量往往處于幾百到幾萬條信息的量級,而實(shí)際旅游產(chǎn)生的數(shù)據(jù)量遠(yuǎn)大于幾萬條數(shù)據(jù),這使得已有研究存在片面性。研究的基礎(chǔ)數(shù)據(jù)存在缺失和不完全的地方,必然影響研究結(jié)果和結(jié)論的有效性和可靠性。
2) 目前利用大數(shù)據(jù)進(jìn)行分析研究的學(xué)者多是社會學(xué)、地理學(xué)或管理學(xué)背景,其學(xué)科背景決定了其無法駕馭“大數(shù)據(jù)”的分析技術(shù);而在計算機(jī)技術(shù)領(lǐng)域也沒有成型開放的面向旅游研究人員提供大數(shù)據(jù)支持和多維度統(tǒng)計分析的網(wǎng)站或系統(tǒng)。上述原因使得旅游領(lǐng)域研究人員通過大數(shù)據(jù)的方法進(jìn)行行業(yè)研究存在困難。
因此,本文以旅游研究和計算機(jī)相結(jié)合的思路,嘗試構(gòu)建基于旅游評論大數(shù)據(jù)的統(tǒng)計分析框架,并進(jìn)行實(shí)踐應(yīng)用,為旅游研究相關(guān)人員提供基于旅游大數(shù)據(jù)分析的實(shí)踐系統(tǒng)框架,以推進(jìn)旅游行業(yè)與大數(shù)據(jù)技術(shù)深度結(jié)合。
2系統(tǒng)設(shè)計
21系統(tǒng)架構(gòu)設(shè)計
整個系統(tǒng)架構(gòu)從下至上分為大數(shù)據(jù)采集及預(yù)處理層、大數(shù)據(jù)存儲及分析層、大數(shù)據(jù)可視化層,如圖1所示。
圖1系統(tǒng)架構(gòu)設(shè)計
Fig.1Design of system structure
大數(shù)據(jù)采集及預(yù)處理層是整個系統(tǒng)的基礎(chǔ),該層采用層級數(shù)據(jù)爬取的方法,設(shè)計基于分布式技術(shù)和多線程技術(shù)的爬蟲框架來爬取數(shù)據(jù),主要包括全國省、市、縣數(shù)據(jù)爬蟲,全國酒店、景點(diǎn)和餐飲列表數(shù)據(jù)爬蟲及全國酒店、景點(diǎn)和餐飲評論數(shù)據(jù)爬蟲;在此基礎(chǔ)上,通過過濾程序和修正程序,過濾無效的數(shù)據(jù),修正有效數(shù)據(jù)中的部分格式和缺省值等信息,進(jìn)而為統(tǒng)計和分析提供高質(zhì)量、高可靠的源數(shù)據(jù)。
大數(shù)據(jù)存儲及分析層是整個系統(tǒng)的核心,該層采用分布式大數(shù)據(jù)存儲和計算框架Hadoop搭建分布式存儲和計算環(huán)境,運(yùn)用自然語言處理工具,建立各維度數(shù)據(jù)分析模型進(jìn)行數(shù)據(jù)分析,采用MySQL作為結(jié)果存儲數(shù)據(jù)庫。該部分通過計算機(jī)集群方式,提供大容量的存儲和高效率的計算性能。
大數(shù)據(jù)可視化層是整個系統(tǒng)的最高層,直接面向旅游研究人員、旅游者、旅游企業(yè)及旅游管理部門,主要通過Java Web技術(shù)、Python語言和D3數(shù)據(jù)可視化工具,將爬取到的數(shù)據(jù)和統(tǒng)計分析的結(jié)果數(shù)據(jù)以列表、詞云圖、直方圖等多種形式進(jìn)行數(shù)據(jù)可視化。
22關(guān)鍵分析模型
1) 熱點(diǎn)城市選擇模型
通過對爬取到的數(shù)據(jù)進(jìn)行分析,熱點(diǎn)城市的影響因子包括景點(diǎn)、酒店、餐飲的數(shù)量以及對應(yīng)的評論數(shù)量,因此熱點(diǎn)城市計算方法如公式(1)、(2)、(3)所示:
Ci=WTiXi,(1)
WTi=[wi1,wi2,wi3,wi4,wi5,wi6],
(2)
XTi=[xia,xih,xir,xiac,xihc,xirc]。(3)
其中,Ci表示城市i的熱度總分,由因子向量Xi和權(quán)重向量WTi線性相乘得到。xia,xih,xir,xiac,xihc,xirc分別表示該城市景點(diǎn)數(shù)量、酒店數(shù)量、餐飲數(shù)量、景點(diǎn)評論數(shù)量、酒店評論數(shù)量、餐飲評論數(shù)量。
在綜合TripAdvisor旅游信息特點(diǎn)的基礎(chǔ)上,分別賦予wi1=01, wi2=01, wi3=01, wi4=024, wi5=023,wi6=023權(quán)重值,用于熱點(diǎn)城市得分加權(quán)。
2) 用戶關(guān)注度模型
本文采用結(jié)巴分詞工具對用戶評論信息進(jìn)行處理,獲取用戶關(guān)注熱點(diǎn)及其關(guān)注度。首先將用戶評論文本進(jìn)行分詞、去停用詞和詞頻統(tǒng)計操作;然后通過分析得到,體現(xiàn)用戶關(guān)注度的詞匯主要以名詞、名形詞、名動詞為主,因此對分詞結(jié)果得到的詞匯進(jìn)行詞性分類,從中篩選出名詞、名形詞、名動詞作為候選詞;最后基于TF/IDF權(quán)重的關(guān)鍵詞提取方法,得到用戶關(guān)注熱點(diǎn)詞及其詞頻,并通過公式(4)和(5)計算關(guān)注度:
Fw=fwfw,
(4)
Nw=e1+Fw。
(5)
其中,fw表示詞的詞頻,fw是所有關(guān)鍵詞和名詞的詞頻之和,F(xiàn)w表示詞w歸一化后的頻度,Nw表示詞w的關(guān)注度。
3) 跨語言用戶觀點(diǎn)分析模型
觀點(diǎn)是由觀點(diǎn)持有者、目標(biāo)對象和觀點(diǎn)表達(dá)組成。一個觀點(diǎn)可以表示成五元組,如公式(6)所示:
Oj,ajk,soijkl,hi,tl。(6)
其中,Oj為目標(biāo)對象,ajk為對象的特征,soijkl為觀點(diǎn)所表達(dá)的情感值,hi為觀點(diǎn)持有者,tl為觀點(diǎn)表達(dá)時間。在此基礎(chǔ)上,為了進(jìn)行跨語言觀點(diǎn)分析,將公式(6)拓展成公式(7):
Oj,ajk,soijkl,hi,tl,li。(7)
其中,li表示觀點(diǎn)所用語言。通過對爬取到的數(shù)據(jù)進(jìn)行進(jìn)一步分析,并根據(jù)TripAdvisor網(wǎng)站提供的專業(yè)分類標(biāo)準(zhǔn),定義Oj目標(biāo)對象列表如表1所示。
表1目標(biāo)對象列表
Table 1Target object list
大分類小分類
酒店星級酒店、特色酒店、家庭式酒店
餐飲餐廳、甜點(diǎn)、咖啡與茶、面包糕點(diǎn)、酒吧酒館
景點(diǎn)景點(diǎn)與地標(biāo)、博物館、自然與公園、動物園與水族宮……
對于每大類目標(biāo)對象,通過對TripAdvisor網(wǎng)站定義的酒店、景點(diǎn)、餐飲的各項指標(biāo)進(jìn)行分析,定義其對象特征如表2所示。
表2對象特征表
Table 2Object features list
目標(biāo)對象特征
酒店性價比、位置、舒適度、服務(wù)、衛(wèi)生
景點(diǎn)整體印象
餐飲服務(wù)、食品、性價比、氛圍
定義觀點(diǎn)所表達(dá)的情感值分為5級,分別是:很糟、差、一般、很好、非常好。進(jìn)而將半結(jié)構(gòu)化的旅游評論數(shù)據(jù)表示成結(jié)構(gòu)化的旅游評論觀點(diǎn)模型(即五元組)。在此基礎(chǔ)上,通過統(tǒng)計和歸一化處理,進(jìn)行觀點(diǎn)分析。
3系統(tǒng)應(yīng)用
圖2各類酒店數(shù)量分布直方圖
Fig.2Distribution of all kinds of hotels
為了驗(yàn)證系統(tǒng)架構(gòu)的有效性,以全國酒店、景點(diǎn)和餐飲數(shù)據(jù)為例,結(jié)合本文提出的系統(tǒng)框架進(jìn)行實(shí)踐和應(yīng)用。通過3個多月的數(shù)據(jù)爬取工作,爬取到的數(shù)據(jù)(數(shù)據(jù)的時間范圍是2006年10月至2016年5月)包括:全國省、市、縣數(shù)據(jù)339條(不含港澳臺),全國酒店、景點(diǎn)和餐飲具體數(shù)據(jù)量如表3所示。
表3全國酒店、景點(diǎn)和餐飲具體數(shù)據(jù)量統(tǒng)計表
Table 3Statistical table of the number of Chinese hotel,
sight spot and restaurant條
數(shù)據(jù)類型酒店景點(diǎn)餐飲合計
列表數(shù)據(jù)70 031109 95523 043203 029
評論數(shù)據(jù)626 536226 520155 3931 008 449
照片數(shù)據(jù)41 96583 89257 218183 075
在這些數(shù)據(jù)的基礎(chǔ)上,以酒店為例,進(jìn)行酒店分布統(tǒng)計、評論熱度統(tǒng)計、熱點(diǎn)城市用戶關(guān)注度分析及北京市星級酒店跨語言觀點(diǎn)分析。
31酒店分布統(tǒng)計
從酒店列表數(shù)據(jù)中,根據(jù)酒店的地理位置信息和酒店的分類信息對酒店進(jìn)行統(tǒng)計,結(jié)果如表4所示,并以堆疊直方圖的形式展現(xiàn),如圖2所示。
表4酒店數(shù)量統(tǒng)計表(部分)
Table 4Statistical table of hotel number
地域酒店數(shù)量地域酒店數(shù)量
廣東省10 324上海市4 866
浙江省7 547湖北省4 187
北京市7 048福建省4 155
云南省6 758湖南省4 119
江蘇省6 606陜西省4 058
山東省6 036遼寧省3 776
四川省4 872廣西3 520
從整體上看,全國酒店分布大多集中在廣東省、北京市、上海市、浙江省、江蘇省等國際化大都市和沿海城市,而在內(nèi)陸地區(qū),酒店數(shù)量相對少很多;但是云南省的酒店數(shù)量卻也較多,通過圖2可以進(jìn)一步發(fā)現(xiàn),云南省之所以酒店數(shù)量較多是因?yàn)樵撌“罅康募彝ナ骄频?,如麗江、大理等地的家庭式民宿酒店業(yè)態(tài)發(fā)達(dá)。
從具體類別上看,星級酒店在各類型酒店(星級酒店、特色酒店、家庭式酒店)中占有很大比例,并且在除云南省之外的各個省市中也占有較大的比例;而對于家庭式酒店,主要集中于云南省、浙江省、廣東省和福建省,究其原因,在于云南省的大理和麗江等地、浙江省的杭州市、廣東省的毗鄰港澳地區(qū)的區(qū)域以及福建省的廈門等地,是國內(nèi)休閑度假旅游發(fā)達(dá)地區(qū),進(jìn)而培育了大量的家庭式的民宿酒店;特色酒店分布較為均衡,沒有特別大的差距。
32酒店評論熱度統(tǒng)計
從酒店評論數(shù)據(jù)中,以省份信息作為分類對酒店評論數(shù)量進(jìn)行統(tǒng)計,并按評論熱度進(jìn)行排序,得到結(jié)果如表5所示。
表5酒店評論熱度(前14名)
Table 5Top 14 cities of hotel review number
地域評論熱度地域評論熱度
北京市187 846四川省48 587
上海市164 094陜西省45 265
廣東省159 699福建省42 518
浙江省86 552湖南省39 445
江蘇省81 995云南省37 010
山東省57 061廣西32 992
湖北省53 672遼寧省30 119
33熱點(diǎn)城市用戶關(guān)注度分析
根據(jù)熱點(diǎn)城市選擇模型和前面所得到的統(tǒng)計結(jié)果,進(jìn)一步計算得到城市排名的前10名分別為:北京、上海、廣州、深圳、西安、成都、武漢、杭州、重慶、廈門。
本文選取前兩名(即北京和上海)為例,分別進(jìn)行用戶在酒店方面的關(guān)注度分析,得到數(shù)據(jù)結(jié)果如表6所示。
表6北京、上海酒店方面關(guān)注度列表(部分)
Table 6Hotel focus list of Beijing and Shanghai
北京上海
熱點(diǎn)詞關(guān)注度熱點(diǎn)詞關(guān)注度
酒店285酒店286
房間285房間285
感覺279感覺279
設(shè)施277設(shè)施277
交通276交通276
早餐275早餐276
價格275價格275
環(huán)境275上海275
北京275隔音274
服務(wù)員274服務(wù)員274
地理位置274環(huán)境274
隔音274地理位置274
性價比274地鐵274
地鐵274性價比274
服務(wù)態(tài)度273前臺274
熱情273服務(wù)態(tài)度273
圖3北京酒店的用戶關(guān)注度詞云圖
Fig.3Word cloud diagram of users
attention to Beijing hotels
圖4上海酒店的用戶關(guān)注度詞云圖
Fig.4Word cloud diagram of users attention
to Shanghai hotels
進(jìn)一步將用戶關(guān)注度結(jié)果以詞云圖的形式可視化展示,如圖3和圖4所示。
從列表和詞云圖可以看出,北京和上海這兩座熱點(diǎn)城市在酒店方面,用戶關(guān)注熱點(diǎn)較為集中,主要包括房間、感覺、設(shè)施、交通、早餐、價格、環(huán)境、隔音、地理位置、性價比、服務(wù)員、服務(wù)態(tài)度、地鐵等。
由此可見,用戶對于酒店的關(guān)注點(diǎn)不僅僅是價格、地理位置、設(shè)施等酒店的基礎(chǔ)設(shè)施,還包括早餐質(zhì)量、服務(wù)態(tài)度、房間隔音效果等一些細(xì)節(jié)服務(wù)。因此,酒店管理人員可參考分析結(jié)果,從這些方面進(jìn)一步提升酒店的服務(wù)質(zhì)量。
34跨語言用戶觀點(diǎn)分析
以北京市星級酒店為例,進(jìn)行跨語言用戶觀點(diǎn)分析。北京市星級酒店評論共有180 257條,其評論語言分布比例如圖5所示。
圖5評論語言分布圖
Fig.5Distribution of users comments language
其中,圖5藍(lán)色區(qū)域是中文評論占比,紅色區(qū)域是英文評論占比,其他區(qū)域是各個小語種評論占比。經(jīng)計算得到,中文評論在總評論中占759%,英文評論在總評論中占161%,兩種語言在總評論中占92%,因此本文選取中文和英文評論進(jìn)行分析。
首先通過北京市星級酒店評論數(shù)據(jù),構(gòu)造出觀點(diǎn)六元組,得到結(jié)果如表7所示。
表7北京星級酒店觀點(diǎn)六元組(部分)
Table 7Comments sixgram of star hotels in Beijing
目標(biāo)對象特征情感值觀點(diǎn)持有者時間語言類型
星級酒店性價比4LizBrighton_UK2010-08-11中文
星級酒店位置3龍鳳常居2010-04-04
中文
星級酒店舒適度5Mux1232015-12-02
中文
星級酒店衛(wèi)生4lian1322016-01-14
中文
星級酒店服務(wù)4lian1322016-01-14
中文
星級酒店性價比3HadarS_122016-01-17英文
星級酒店位置4Lovetotravelalot72016-01-04英文
其中觀點(diǎn)所表達(dá)的情感值分為5級,分別是:很糟、差、一般、很好、非常好,其對應(yīng)的分?jǐn)?shù)分別為1、2、3、4、5。
然后從六元組中篩選出所有的中文評論和所有的英文評論,對性價比、位置、舒適度、衛(wèi)生、服務(wù)這5類特征分別進(jìn)行打分統(tǒng)計和歸一化處理,得到結(jié)果如表8和表9所示。
表8中文評論觀點(diǎn)傾向性分布表
Table 8Distribution of Chinese users
comments tendency
打分性價比位置舒適度衛(wèi)生服務(wù)
100090004000800070012
200300022002800220030
302670197022301630217
405240531053105580518
501710246021002490224
表9英文評論觀點(diǎn)傾向性分布表
Table 9Distribution of English users
comments tendency
打分性價比位置舒適度衛(wèi)生服務(wù)
100280014002300250041
200450034004000330049
301720145015201080142
403560301031102760275
503990505047505590494
為了從多角度來進(jìn)行對比,本文進(jìn)一步將結(jié)果數(shù)據(jù)進(jìn)行可視化,如圖6所示。
圖6中英文評論用戶觀點(diǎn)傾向性對比圖
Fig.6Comparison of Chinese and English
users comments tendency
其中基線以上為正向情感傾向,包括很好、非常好;基線以下為非正向情感傾向,包括一般、差、很糟。結(jié)合圖表可以看出,整體而言,中外游客對北京市星級酒店評價較高,并且對于各個特征(性
價比、位置、舒適度、衛(wèi)生、服務(wù))外國游客認(rèn)可度比中國游客更高。從局部來看,外國游客對酒店各個特征的觀點(diǎn)主要集中在“非常好”這一情感傾向,而中國游客對酒店各個特征的觀點(diǎn)主要集中在“很好”這一情感傾向。對于各個特征而言,中外游客
均對“性價比”特征的非正向情感傾向最多。由此可見,北京市的星級酒店很受中外游客歡迎,并且很多外國游客都覺得北京的星級酒店非常好;此外,中外游客、尤其是中國游客認(rèn)為北京市星級酒店的性價比不夠高。
上述結(jié)果顯示,通過本文提出的系統(tǒng)框架,能夠有效地對旅游大數(shù)據(jù)進(jìn)行數(shù)據(jù)采集和相關(guān)的數(shù)據(jù)分析。
4結(jié)語
本文將旅游研究和計算機(jī)相結(jié)合,構(gòu)建了基于旅游評論大數(shù)據(jù)的統(tǒng)計分析框架,并根據(jù)框架進(jìn)行具體的旅游大數(shù)據(jù)分析實(shí)踐,在此基礎(chǔ)上進(jìn)行了相關(guān)數(shù)據(jù)分析與知識發(fā)現(xiàn),為旅游領(lǐng)域研究人員提供基于大數(shù)據(jù)的研究實(shí)踐框架。在今后的工作中,主要可以從以下兩點(diǎn)開展進(jìn)一步的深入研究:
1)? 構(gòu)建更多的數(shù)據(jù)爬取框架,從更多的數(shù)據(jù)源(如去哪兒網(wǎng))獲取旅游評論數(shù)據(jù),并將來自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,從而獲得更豐富的數(shù)據(jù)。
2) 結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,對評論數(shù)據(jù)進(jìn)行更多角度、更為深入的數(shù)據(jù)分析與知識挖掘,以獲取更多知識。
[參考文獻(xiàn)]
[1]高寶俊, 孫含琳, 王寒凝. 在線評論對酒店訂滿率的影響研究[J]. 旅游學(xué)刊, 2016, 31(4):109-117.
[2]程翠瓊, 徐健. 面向網(wǎng)絡(luò)游記時間特征的情感分析模型[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2017, 1(2):87-95.
[3]李莉, 張捷. 互聯(lián)網(wǎng)信息評價對游客信息行為和出游決策的影響研究[J]. 旅游學(xué)刊, 2013, 28(10):23-29.
[4]張?zhí)靻枺?吳明遠(yuǎn). 基于扎根理論的旅游幸福感構(gòu)成——以互聯(lián)網(wǎng)旅游博客文本為例[J]. 旅游學(xué)刊, 2014, 29(10):51-60.
[5]沈體雁, 黃寧, 彭長江,等. 中國景區(qū)網(wǎng)絡(luò)形象指數(shù)研究——基于互聯(lián)網(wǎng)內(nèi)容分析方法[J]. 旅游學(xué)刊, 2015, 30(6):80-90.
[6]王佳果, 王堯. 基于NVivo軟件的互聯(lián)網(wǎng)旅游文本的質(zhì)性研究——以貴州黔東南肇興的旅游者文本為例[J]. 旅游論壇, 2009, 2(1):30-34.
[7]王琨, 郭風(fēng)華, 李仁杰,等. 基于TripAdvisor的中國旅游地國際關(guān)注度及空間格局[J]. 地理科學(xué)進(jìn)展, 2014, 33(11):1462-1473.
[8]靜恩明, 郭風(fēng)華, 李仁杰,等. 基于新浪旅游博客的河北省A級景區(qū)網(wǎng)絡(luò)關(guān)注度研究[J]. 地理與地理信息科學(xué), 2015, 31(3):118-122.
[9]Cenni I, Goethals P. Negative hotel reviews on TripAdvisor: A crosslinguistic analysis[J]. Discourse,Context & Media, 2017, 16:22-30.
[10]李素科, 蔣嚴(yán)冰. 基于情感特征聚類的半監(jiān)督情感分類[J]. 計算機(jī)研究與發(fā)展, 2013, 50(12):2570-2577.
[11]王帆. 鎮(zhèn)北堡西部影城旅游形象感知研究——基于游客網(wǎng)絡(luò)評論的內(nèi)容分析[J]. 旅游縱覽(下半月),2015(12):218-220.
[12]皮瑞, 鄭鵬.“網(wǎng)評少林”:少林寺旅游認(rèn)知、情感、整體形象研究[J].干旱區(qū)資源與環(huán)境,2017,31(4):201-207.
[13]鐘彥清, 羅明春. 基于網(wǎng)絡(luò)文本分析云南石林旅游形象感知[J]. 新西部(理論版), 2016(9):19-21.
[14]汪秋菊, 劉宇. 基于網(wǎng)絡(luò)關(guān)注度的旅游景區(qū)客流量預(yù)警:研究框架與實(shí)證分析——以國家游泳中心水立方為例[J]. 旅游論壇, 2014, 7(5):9-15+25.
[15]楊艷霞. 基于本體的旅游網(wǎng)絡(luò)評論情感分析與預(yù)警系統(tǒng)[J]. 計算機(jī)與數(shù)字工程, 2016, 44(4):649-652.
[16]逯燕玲,何丹,齊震宇.北京市旅游區(qū)域競爭力評價與空間優(yōu)化研究[J]. 北京聯(lián)合大學(xué)學(xué)報,2017,31(3): 31-40.