林振宇,解吉波,覃佐淼,楊騰飛,趙靜
1.海南省地球觀測重點實驗室,海南三亞 572000
2.中國科學院遙感與數(shù)字地球研究所,數(shù)字地球重點實驗室,北京 100094
3.河南理工大學,河南焦作 454000
數(shù)據庫(集)基本信息簡介
數(shù)據庫(集)名稱 基于社交媒體的海南旅游景區(qū)評價數(shù)據集數(shù)據作者 林振宇,解吉波,覃佐淼,楊騰飛,趙靜數(shù)據通信作者 解吉波(xiejb@radi.ac.cn)數(shù)據時間范圍 2012年1月至2018年10月地理區(qū)域 地理范圍包括海南島(北緯 18°10′-20°10′,東經 108.37°-111.03°)。數(shù)據量 58.8 MB數(shù)據格式 *.rar, *.sql, *.xlsx數(shù)據服務系統(tǒng)網址 http://www.sciencedb.cn/dataSet/handle/714基金項目 海南省重大科技計劃項目(ZDKJ2016021)數(shù)據庫(集)組成數(shù)據集由1個壓縮包組成,主要包括5個文件夾,數(shù)據量約125 MB,壓縮后數(shù)據量約58.8 MB。5個文件夾分別為美團、同程、途牛、攜程、樣例數(shù)據,每個文件夾下由各旅游網站的景區(qū)評論數(shù)據組成,以兩種數(shù)據形式存放(*.sql, *.xlsx)。
旅游是海南省的經濟支柱產業(yè)之一,對其他相關產業(yè)的發(fā)展有著較強的帶動作用。研究和提高海南各景區(qū)的服務質量,滿足游客多元化的旅游需求,對進一步促進海南旅游產業(yè)的發(fā)展至關重要。
隨著旅游互聯(lián)網的快速發(fā)展,大量和旅游景區(qū)相關的用戶評論信息為旅游業(yè)的發(fā)展研究提供了有力數(shù)據支持。更多的潛在游客,會在出行前根據這些評論信息制定旅游路線,協(xié)助旅游決策[1-3]。通常,這些數(shù)據信息多以文本、圖片的形式出現(xiàn)在各大社交媒體平臺上。這些信息通常表達了游客對于相關景區(qū)的意見、建議和滿意度,從而為景區(qū)質量和服務的進一步提升提供有效參考。目前,國內外已有不少學者對景區(qū)的社交媒體信息展開相關研究,并從不同方面探討它們的應用。如文獻[4]以眾包的形式收集秦皇島高校大學生對當?shù)芈糜尉皡^(qū)的評論信息,并結合這些數(shù)據提供者的個人信息開展用戶畫像的旅游情境化推薦服務研究;文獻[5]利用多模態(tài)的景點信息(文本、地理標記圖片以及視頻生成景點的信息摘要),根據用戶的查詢?yōu)橛脩魝€性化地推薦景點;文獻[6-8]基于簽到記錄數(shù)據來進行旅游路線的推薦等。然而目前,可用的基于社交媒體的開放旅游景區(qū)評論數(shù)據集并不多,這嚴重制約了旅游信息挖掘的研究。為此,本文以海南島為研究對象,從主流旅游網站(包括美團網、途牛網、同程網以及攜程網等)上收集和處理了2012-2018年間所有4A和5A級旅游景區(qū)的評論數(shù)據構建了數(shù)據集。
本數(shù)據集的生產流程包括數(shù)據采集與清洗,數(shù)據管理和數(shù)據分類。數(shù)據制作流程如圖1所示。
圖1 數(shù)據集制作流程圖
該部分數(shù)據以海南島4A和5A級景區(qū)為研究對象,將4A和5A級景區(qū)分為4種類型,分別為自然景區(qū)、歷史人文景區(qū)、民俗風情景區(qū)、休閑度假景區(qū)。獲取了2012-2018共7年的評論數(shù)據,這些數(shù)據主要來源于包括美團、攜程、同程以及途牛在內的4個旅游網站。原始數(shù)據形式為HTML,本文通過Java編程語言對其進行了解析和清洗,最終形成了283 072條結構化文本數(shù)據。其中,數(shù)據清洗操作包括全半角字符的轉化、繁簡體文字的轉化、去除同一用戶的多次評論以及文本去重等。同時,為方便讀者使用,該部分數(shù)據以sql和xlsx兩種格式存儲。如下表1-4顯示了數(shù)據的基本結構信息,如圖2展示了旅游景區(qū)在海南島的分布情況。
表1 海南島自然景區(qū)名稱及評論數(shù)據量
表2 海南島歷史人文景區(qū)名稱及評論數(shù)據量
表3 海南島民俗風情景區(qū)名稱及評論數(shù)據量
表4 海南島休閑度假景區(qū)名稱及評論數(shù)據量
序號 名稱 等級 美團 攜程 同程 途牛 地址7 清水灣旅游區(qū) 4A 0 330 0 0 陵水
圖2 旅游景區(qū)在海南島分布情況
景區(qū)社交媒體評論信息蘊含著公眾對于景區(qū)不同方面的評價,這對于發(fā)現(xiàn)和解決旅游景區(qū)存在的問題,提高游客滿意度等具有重要的參考價值。為此,本數(shù)據集從多個主題對這些評論信息進行公眾情感分類。
我們根據整個文本的情感傾向,將該文本分為積極情感、消極情感和中性情感3個類別[9],用以從宏觀上對該景區(qū)作出評價。從細粒度主題上分,我們則根據國家A級景區(qū)的評價指標,基于這些評價指標對該景區(qū)作出情感分類,旨在從多個主題方面刻畫景區(qū)質量,以提供個性化服務需求。其中細粒度的主題指標包括景區(qū)飲食(飲食口味、飲食價格)、景區(qū)娛樂(娛樂趣味性、項目價格)、景區(qū)購物(物價、商業(yè)氛圍)、景區(qū)游覽(購票、景色、導游解說)、景區(qū)特色、景區(qū)衛(wèi)生、景區(qū)交通、景區(qū)住宿、景區(qū)服務質量、景區(qū)安全10個方面。圖3為根據國家A級景區(qū)評價指標的細粒度分類標準。
圖3 細粒度分類標準
本數(shù)據集從美團、攜程、同程和途牛4個旅游網站上收集并處理了海南島所有4A和5A級景區(qū)的評論數(shù)據,數(shù)據的時間跨度為7年(2012-2018年)。
整個數(shù)據集由1個壓縮文件包組成,壓縮文件包由5個文件夾組成。其中4個文件夾分別以上述4個旅游網站命名,每個文件夾下分別為24個景區(qū)在該旅游網站中的所有評論數(shù)據,數(shù)據儲存格式包括sql和xlsx,命名規(guī)則為“旅游網站+景區(qū)名稱”;第5個文件夾以樣例數(shù)據命名,該文件夾下為經過分類處理的數(shù)據,命名規(guī)則為“旅游網站+景區(qū)名稱+積極/消極/中性+分類細則序號〔1 景區(qū)飲食(11飲食口味,12飲食價格),2 景區(qū)交通,3 景區(qū)特色,4 景區(qū)游覽(41購票,42 景色,43 導游解說),5 景區(qū)住宿,6 景區(qū)衛(wèi)生,7 景區(qū)娛樂(71娛樂趣味性,72 項目價格),8 景區(qū)服務質量,9 景區(qū)購物(91 物價,92商業(yè)氛圍),10 景區(qū)安全〕”。數(shù)據集詳細信息如表5。
表5 海南島旅游數(shù)據集信息
樣本集以途牛網上分界洲島旅游區(qū)的評論數(shù)據為基礎,將這些原始數(shù)據進行多個主題的情感分類,從而得到表6所示的結果。
表6 示例樣本情況
評論海南景區(qū)旅游質量的社交媒體平臺有很多。為保障數(shù)據的豐富性,我們通過比較選出了具有代表性的4個旅游網站,以確保最大程度地獲取相關信息。數(shù)據收集完成后,我們人工檢查了數(shù)據的有效性并刪除了不完整的及與海南旅游景區(qū)無關的評論數(shù)據。在分類樣例中,本文所用的細粒度主題則是根據國家A級景區(qū)的評價指標來擬定。對于分類樣例中的文本情感類別標簽,我們安排了2個同事進行人工判讀,并對結果進行復議和討論,以確保最終分類的正確性。
本數(shù)據集包含海南島4A級以上所有景區(qū)2012-2018年以來283 072條社交媒體評論數(shù)據。研究人員可通過互聯(lián)網文本情感分析算法抽取公眾對景區(qū)不同主題特征的態(tài)度信息,同時結合時間維度從公眾觀測的角度探究景區(qū)質量的變化特征,為景區(qū)網絡口碑、形象管理等提供數(shù)據參考。通過互聯(lián)網主題聚類算法,如LDA(Latent Dirichlet Allocation)、K-means聚類算法、或者簡單的詞頻計算等語義挖掘算法從各景區(qū)海量評論信息中抽取公眾關注熱點,以服務于旅游景區(qū)的個性化推薦、景區(qū)發(fā)展規(guī)劃等。官方發(fā)布的諸如旅游景區(qū)統(tǒng)計年鑒等數(shù)據,可以與本數(shù)據集作為相互驗證和補充的數(shù)據,將會在景區(qū)容量管理、景區(qū)傳播效果評價、景區(qū)形象管理、景區(qū)熱度分析、景區(qū)質量評價分析、景區(qū)發(fā)展趨勢等研究上發(fā)揮重要作用。