国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于社交媒體的海南旅游景區(qū)評價數(shù)據集

2019-11-18 08:10:46林振宇解吉波覃佐淼楊騰飛趙靜
關鍵詞:海南島數(shù)據量文件夾

林振宇,解吉波,覃佐淼,楊騰飛,趙靜

1.海南省地球觀測重點實驗室,海南三亞 572000

2.中國科學院遙感與數(shù)字地球研究所,數(shù)字地球重點實驗室,北京 100094

3.河南理工大學,河南焦作 454000

數(shù)據庫(集)基本信息簡介

數(shù)據庫(集)名稱 基于社交媒體的海南旅游景區(qū)評價數(shù)據集數(shù)據作者 林振宇,解吉波,覃佐淼,楊騰飛,趙靜數(shù)據通信作者 解吉波(xiejb@radi.ac.cn)數(shù)據時間范圍 2012年1月至2018年10月地理區(qū)域 地理范圍包括海南島(北緯 18°10′-20°10′,東經 108.37°-111.03°)。數(shù)據量 58.8 MB數(shù)據格式 *.rar, *.sql, *.xlsx數(shù)據服務系統(tǒng)網址 http://www.sciencedb.cn/dataSet/handle/714基金項目 海南省重大科技計劃項目(ZDKJ2016021)數(shù)據庫(集)組成數(shù)據集由1個壓縮包組成,主要包括5個文件夾,數(shù)據量約125 MB,壓縮后數(shù)據量約58.8 MB。5個文件夾分別為美團、同程、途牛、攜程、樣例數(shù)據,每個文件夾下由各旅游網站的景區(qū)評論數(shù)據組成,以兩種數(shù)據形式存放(*.sql, *.xlsx)。

引 言

旅游是海南省的經濟支柱產業(yè)之一,對其他相關產業(yè)的發(fā)展有著較強的帶動作用。研究和提高海南各景區(qū)的服務質量,滿足游客多元化的旅游需求,對進一步促進海南旅游產業(yè)的發(fā)展至關重要。

隨著旅游互聯(lián)網的快速發(fā)展,大量和旅游景區(qū)相關的用戶評論信息為旅游業(yè)的發(fā)展研究提供了有力數(shù)據支持。更多的潛在游客,會在出行前根據這些評論信息制定旅游路線,協(xié)助旅游決策[1-3]。通常,這些數(shù)據信息多以文本、圖片的形式出現(xiàn)在各大社交媒體平臺上。這些信息通常表達了游客對于相關景區(qū)的意見、建議和滿意度,從而為景區(qū)質量和服務的進一步提升提供有效參考。目前,國內外已有不少學者對景區(qū)的社交媒體信息展開相關研究,并從不同方面探討它們的應用。如文獻[4]以眾包的形式收集秦皇島高校大學生對當?shù)芈糜尉皡^(qū)的評論信息,并結合這些數(shù)據提供者的個人信息開展用戶畫像的旅游情境化推薦服務研究;文獻[5]利用多模態(tài)的景點信息(文本、地理標記圖片以及視頻生成景點的信息摘要),根據用戶的查詢?yōu)橛脩魝€性化地推薦景點;文獻[6-8]基于簽到記錄數(shù)據來進行旅游路線的推薦等。然而目前,可用的基于社交媒體的開放旅游景區(qū)評論數(shù)據集并不多,這嚴重制約了旅游信息挖掘的研究。為此,本文以海南島為研究對象,從主流旅游網站(包括美團網、途牛網、同程網以及攜程網等)上收集和處理了2012-2018年間所有4A和5A級旅游景區(qū)的評論數(shù)據構建了數(shù)據集。

1 數(shù)據采集和處理方法

本數(shù)據集的生產流程包括數(shù)據采集與清洗,數(shù)據管理和數(shù)據分類。數(shù)據制作流程如圖1所示。

圖1 數(shù)據集制作流程圖

1.1 景區(qū)評論數(shù)據的采集與清洗

該部分數(shù)據以海南島4A和5A級景區(qū)為研究對象,將4A和5A級景區(qū)分為4種類型,分別為自然景區(qū)、歷史人文景區(qū)、民俗風情景區(qū)、休閑度假景區(qū)。獲取了2012-2018共7年的評論數(shù)據,這些數(shù)據主要來源于包括美團、攜程、同程以及途牛在內的4個旅游網站。原始數(shù)據形式為HTML,本文通過Java編程語言對其進行了解析和清洗,最終形成了283 072條結構化文本數(shù)據。其中,數(shù)據清洗操作包括全半角字符的轉化、繁簡體文字的轉化、去除同一用戶的多次評論以及文本去重等。同時,為方便讀者使用,該部分數(shù)據以sql和xlsx兩種格式存儲。如下表1-4顯示了數(shù)據的基本結構信息,如圖2展示了旅游景區(qū)在海南島的分布情況。

表1 海南島自然景區(qū)名稱及評論數(shù)據量

表2 海南島歷史人文景區(qū)名稱及評論數(shù)據量

表3 海南島民俗風情景區(qū)名稱及評論數(shù)據量

表4 海南島休閑度假景區(qū)名稱及評論數(shù)據量

序號 名稱 等級 美團 攜程 同程 途牛 地址7 清水灣旅游區(qū) 4A 0 330 0 0 陵水

圖2 旅游景區(qū)在海南島分布情況

1.2 數(shù)據分類

景區(qū)社交媒體評論信息蘊含著公眾對于景區(qū)不同方面的評價,這對于發(fā)現(xiàn)和解決旅游景區(qū)存在的問題,提高游客滿意度等具有重要的參考價值。為此,本數(shù)據集從多個主題對這些評論信息進行公眾情感分類。

我們根據整個文本的情感傾向,將該文本分為積極情感、消極情感和中性情感3個類別[9],用以從宏觀上對該景區(qū)作出評價。從細粒度主題上分,我們則根據國家A級景區(qū)的評價指標,基于這些評價指標對該景區(qū)作出情感分類,旨在從多個主題方面刻畫景區(qū)質量,以提供個性化服務需求。其中細粒度的主題指標包括景區(qū)飲食(飲食口味、飲食價格)、景區(qū)娛樂(娛樂趣味性、項目價格)、景區(qū)購物(物價、商業(yè)氛圍)、景區(qū)游覽(購票、景色、導游解說)、景區(qū)特色、景區(qū)衛(wèi)生、景區(qū)交通、景區(qū)住宿、景區(qū)服務質量、景區(qū)安全10個方面。圖3為根據國家A級景區(qū)評價指標的細粒度分類標準。

圖3 細粒度分類標準

2 數(shù)據樣本描述

2.1 數(shù)據集信息

本數(shù)據集從美團、攜程、同程和途牛4個旅游網站上收集并處理了海南島所有4A和5A級景區(qū)的評論數(shù)據,數(shù)據的時間跨度為7年(2012-2018年)。

整個數(shù)據集由1個壓縮文件包組成,壓縮文件包由5個文件夾組成。其中4個文件夾分別以上述4個旅游網站命名,每個文件夾下分別為24個景區(qū)在該旅游網站中的所有評論數(shù)據,數(shù)據儲存格式包括sql和xlsx,命名規(guī)則為“旅游網站+景區(qū)名稱”;第5個文件夾以樣例數(shù)據命名,該文件夾下為經過分類處理的數(shù)據,命名規(guī)則為“旅游網站+景區(qū)名稱+積極/消極/中性+分類細則序號〔1 景區(qū)飲食(11飲食口味,12飲食價格),2 景區(qū)交通,3 景區(qū)特色,4 景區(qū)游覽(41購票,42 景色,43 導游解說),5 景區(qū)住宿,6 景區(qū)衛(wèi)生,7 景區(qū)娛樂(71娛樂趣味性,72 項目價格),8 景區(qū)服務質量,9 景區(qū)購物(91 物價,92商業(yè)氛圍),10 景區(qū)安全〕”。數(shù)據集詳細信息如表5。

表5 海南島旅游數(shù)據集信息

2.2 分類樣本描述

樣本集以途牛網上分界洲島旅游區(qū)的評論數(shù)據為基礎,將這些原始數(shù)據進行多個主題的情感分類,從而得到表6所示的結果。

表6 示例樣本情況

3 數(shù)據質量控制和評估

評論海南景區(qū)旅游質量的社交媒體平臺有很多。為保障數(shù)據的豐富性,我們通過比較選出了具有代表性的4個旅游網站,以確保最大程度地獲取相關信息。數(shù)據收集完成后,我們人工檢查了數(shù)據的有效性并刪除了不完整的及與海南旅游景區(qū)無關的評論數(shù)據。在分類樣例中,本文所用的細粒度主題則是根據國家A級景區(qū)的評價指標來擬定。對于分類樣例中的文本情感類別標簽,我們安排了2個同事進行人工判讀,并對結果進行復議和討論,以確保最終分類的正確性。

4 數(shù)據使用方法和建議

本數(shù)據集包含海南島4A級以上所有景區(qū)2012-2018年以來283 072條社交媒體評論數(shù)據。研究人員可通過互聯(lián)網文本情感分析算法抽取公眾對景區(qū)不同主題特征的態(tài)度信息,同時結合時間維度從公眾觀測的角度探究景區(qū)質量的變化特征,為景區(qū)網絡口碑、形象管理等提供數(shù)據參考。通過互聯(lián)網主題聚類算法,如LDA(Latent Dirichlet Allocation)、K-means聚類算法、或者簡單的詞頻計算等語義挖掘算法從各景區(qū)海量評論信息中抽取公眾關注熱點,以服務于旅游景區(qū)的個性化推薦、景區(qū)發(fā)展規(guī)劃等。官方發(fā)布的諸如旅游景區(qū)統(tǒng)計年鑒等數(shù)據,可以與本數(shù)據集作為相互驗證和補充的數(shù)據,將會在景區(qū)容量管理、景區(qū)傳播效果評價、景區(qū)形象管理、景區(qū)熱度分析、景區(qū)質量評價分析、景區(qū)發(fā)展趨勢等研究上發(fā)揮重要作用。

猜你喜歡
海南島數(shù)據量文件夾
磁力文件夾
基于大數(shù)據量的初至層析成像算法優(yōu)化
計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據量法
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數(shù)據量傳輸系統(tǒng)設計與研究
電子制作(2019年13期)2020-01-14 03:15:18
調動右鍵 解決文件夾管理三大難題
是海南省還是海南島?
TC一鍵直達常用文件夾
電腦迷(2015年1期)2015-04-29 21:24:13
看透win2000&XP系統(tǒng)文件夾
關于海南島戰(zhàn)役作戰(zhàn)方針的考察
軍事歷史(1994年6期)1994-08-15 08:56:38
囊谦县| 措勤县| 张掖市| 南昌县| 黔西县| 滦平县| 冀州市| 思茅市| 新民市| 渑池县| 唐海县| 临颍县| 溆浦县| 江孜县| 探索| 吕梁市| 淮南市| 通辽市| 和田市| 甘孜| 鸡东县| 瓦房店市| 时尚| 保山市| 临澧县| 辽中县| 华蓥市| 郓城县| 务川| 邳州市| 万源市| 巨鹿县| 瑞金市| 禹城市| 夹江县| 祥云县| 灵武市| 昌平区| 通州区| 刚察县| 当阳市|