国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于在線評論的游客情感分析模型構建

2016-11-19 16:22涂海麗唐曉波
現(xiàn)代情報 2016年4期
關鍵詞:在線評論情感分析模型構建

涂海麗 唐曉波

〔摘 要〕在線旅游社區(qū)中的用戶評論客觀真實地反映了游客關于旅游景點和服務的感受,本文基于在線評論數(shù)據(jù)構建了一個游客情感分析模型。該模型首先從多個知名旅游網站的評論社區(qū)中獲取關于某旅游目的地的評論文本并進行預處理,利用領域本體構建方法構建旅游本體,將處理后的評論文本與旅游本體進行匹配,得出本體各屬性的分類評論集,運用情感程度加權規(guī)則計算這些評論集的情感極性均值,得出游客關于旅游各要素總體情感傾向,并進行可視化分析與展示。該方法能夠直觀顯示游客關于旅游目的地的總體情感傾向,為旅游經營者改進服務提供參考,以廬山旅游為例,驗證了該模型的可行性。

〔關鍵詞〕在線評論;情感分析;旅游本體;可視化;模型構建

DOI:10.3969/j.issn.1008-0821.2016.04.013

〔中圖分類號〕F724.6 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)04-0070-08

〔Abstract〕User reviews in online travel community truly reflect visitors feeling about the tourist attractions and services,this paper builds a tourist sentiment analysis model based on online reviews.Firstly,the paper acquired comments text about some tourism destination from the comment community of a few well-known tourist sites and made a pretreatment.secondly,the paper used domain ontology construction method to build tourist body,and matched the texts after processing to tourism body,drew classification commentaries on each property of the body.Thirdly,using emotional extent weighting rules,the paper calculated the emotional polarity average value of these commentaries,got tourists whole emotional tendencies about all elements of tourism,and the paper gave a visual analysis and presentation.In this way,the paper could visual display tourists whole emotional tendencies about the tourism destination,and it could provide reference for improving services by tourism operators.Taking Lushan Tourism as an example,the paper verified the feasibility of the model.

〔Key words〕online review;sentiment analysis;tourism ontology;visualization;model building

隨著在線旅游的興起和網絡旅游社區(qū)的出現(xiàn),越來越多的旅游者傾向于借助互聯(lián)網規(guī)劃自己的旅游出行計劃,購買相關的酒店服務、交通運費、景點門票等,并在網上分享各自的旅游體驗以及對旅游地服務的看法。Double Click[1]進行了一項針對美國旅游業(yè)網絡客戶的研究,發(fā)現(xiàn)有近一半以上的旅游者在做出購買決定前會在互聯(lián)網上搜索相關產品的介紹及其他旅游者對旅游的評論信息,網絡評論對于旅游者的旅游決策有著重要的影響。其中旅游網站中的旅游社區(qū)是旅游者表達自己旅游意愿、尋求旅游幫助和發(fā)表游后體會的重要平臺。旅游社區(qū)中的點評內容大都真實反映了旅游者所見、所感、所想。如果充分收集這些信息并對其進行綜合分析,直觀地揭示游客關于旅游服務要素的褒貶態(tài)度或情感傾向,將有助于旅游者了解先行者對某個旅游地的情感傾向,優(yōu)化旅游決策;旅游經營者可以了解游客對其服務的意見或褒貶態(tài)度,從而揚長避短,贏得競爭優(yōu)勢。然而,在線旅游評論的內容都是碎片化的,且篇幅長短不一,需要對其重新進行分類和情感分析,才能挖掘其中反映用戶褒貶態(tài)度或情感傾向的有用信息。情感分析(Sentiment Analysis)又稱評論挖掘或意見挖掘(Opinion Mining),指的是對某些商品評論的文本內容進行分析,發(fā)現(xiàn)評論人對這些商品的褒貶態(tài)度和意見[2]。主要任務包括主題抽取、意見持有者識別、評論范圍確定和情感極性分析[3]。基于在線評論的情感分析是Web信息挖掘的一個新興領域,近年來受到計算機科學、經濟學、管理學等相關學科的廣泛關注。以往關于在線商品評論的情感分析的數(shù)據(jù)主要來自電子商務網站,而選擇的主要產品是數(shù)碼相機、筆記本電腦、手機、汽車,很少有關于旅游的,原因可能是前者都是實體產品,比較容易確定其主題的屬性特征,而旅游是一種服務,牽涉的服務主題和服務項目較多,不容易確定其屬性特征。

在線旅游評論是用戶生成內容(User Generated Content,簡稱UGC)的一種,是用戶關于旅游感受和情感的自然流露,反映了游客對旅游服務的關注點,因此,有必要從用戶關注角度來確定旅游屬性特征分類,從而進行情感分析。本文基于游客關注的旅游六大要素(吃、住、行、游、購、娛)視角,從不同網站的旅游社區(qū)中獲取關于同一旅游地的評論數(shù)據(jù),分析每一個要素游客的評論點(如吃的方面游客可能從口味、衛(wèi)生、環(huán)境、價格等方面展開評論;住的方面可能從舒適性、房價、方便性等方面進行評論;等等),根據(jù)這些評論點和前人研究的基礎,構建旅游本體以揭示旅游要素與其屬性特征之間的關系,將旅游本體與利用自然語言處理后的評論文本進行匹配,在此基礎上,對在線旅游評論進行情感分析與可視化,一方面有助于旅游經營者了解游客對旅游景點和服務的褒貶態(tài)度,以便提供更好的服務;另一方面為潛在客戶提供旅游決策參考。

1 相關研究

旅游在線評論是網絡口碑傳播的重要途徑,是旅行社或旅游經營者開展網絡營銷重點關注的內容之一。目前,國外學者的研究主要集中在旅游在線評論對酒店預訂、酒店業(yè)績、消費者決策行為的影響等方面。Vermeulen等運用關注集理論研究在線評論對顧客酒店預訂的影響,實證結果表明,不管是積極的還是消極的在線評論都增加了顧客對酒店的關注度,特別是不太出名的酒店,評論的專業(yè)性對酒店積極的影響不大[4]。Yea等關于網上評論對酒店客房銷售的影響進行了實證研究,研究結果表明在線消費者評論和酒店的經營業(yè)績之間有顯著關系[5]。Rhee等通過收集旅游網站上某個酒店的405條客戶評論,分析不同客戶群(跟團游、企業(yè)游、家庭游、國內游客和國外游客)對同一酒店各屬性重要性的看法,結果表明價值和房間是各客戶群都認為是最重要的屬性,但不同客戶群在酒店其他屬性重要性排名上有所不同[6]。國內關于旅游在線評論的研究主要集中在消費者對旅游主題的評價維度、在線評論對旅游決策的影響等方面,相關文獻并不多見。趙學鋒等以攜程網上消費者對酒店的評論中的詞語進行聚類,得到其中隱含的消費者最關注的酒店評價維度[7]。張夢等認為,在線評論內容對消費者購買意愿有重要影響[8]。

在線評論一直是商家了解客戶反饋以及消費者購物的重要參考而備受關注,如何將碎片化的用戶評論內容進行自動化情感/意見分類并可視化展示,并挖掘其中隱藏的規(guī)律,以便更好地輔助商家和消費者決策服務,是競爭情報領域關注的熱點之一。由于在線評論表達語法隨意、新造詞多、主客觀句摻雜,而基于在線評論的情感分析需要識別主觀句,并將評論主題特征與相應的情感詞或主觀詞自動提取,然后計算情感極性值。因此,基于在線評論的情感分析方面的研究主要集中在主題特征提取、主觀句識別、特征-情感詞抽取和情感極性計算等方面。Wallace等基于f-LDA模型按用戶關心的各個方面抽取醫(yī)生在線評論進行情感分類[9]。Deng等認為虛假餐館評論誤導消費者的選擇。文章通過分類設置,分析了虛假評論所有特征,認為虛假評論永遠是絕對的正面或負面,并提出了一種基于情感分析算法來檢測網上餐館虛假評論[10]。Liu等考慮當評語集合隨著時間的推移的情緒變化,并研究制定適應在線評論的情感分析模型問題。選擇電影的評論和他們的票房收入為實驗數(shù)據(jù),研究使用提取的自適應模式進行銷售預測的可能性[11]。Xueke X等提出了一種新生成主題模型,聯(lián)合縱橫/情感(JAS)模型,從網上顧客評論中提取屬性和屬性相關的情緒詞匯[12]。Xianghua F等提出了一個基于LDA主題模型和HowNet詞典的無監(jiān)督的方法來自動發(fā)現(xiàn)中國網絡社會評論的多方位情感分析,實驗結果表明,該方法不僅可以取得很好的話題分區(qū)的效果,也有利于提高情感分析的準確性[13]。Shi H等提出了一種無人監(jiān)督的細粒度情感分析模型識別一個句子中的多方面情感的方法[14]。Somprasertsri等通過應用依賴關系,結合基于概率模型的本體知識,提出了基于句法信息和語義信息的挖掘產品特征和意見的做法[15]。

目前基于旅游在線評論的研究和基于在線評論的情感分析方面的研究已取得了一些成果,但還存在一些問題:①基于旅游在線評論的研究主要集中在評論對于游客出行決策的影響的實證研究,大多采用采訪或問卷的方法獲取調研數(shù)據(jù),較少涉及對評論內容的研究;②現(xiàn)有涉及評論內容的研究主要針對酒店運用聚類等方法進行評論維度的劃分,鮮有針對旅游目的地的研究;③旅游領域針對在線評論的情感分析方面的研究還是一個新的領域,現(xiàn)有相關文獻較少;④基于在線評論的情感分析也存在主題特征難以準確提取、特征-情感詞的準確匹配等問題。本文在借鑒前人研究成果的基礎上,構建了一個基于在線評論的游客情感分析模型,針對旅游在線評論內容,嘗試利用自然語言處理技術和本體構建技術,獲取評論主題特征,并分類提取屬性-情感詞對,設計情感極性量化計算規(guī)則,分析游客關于旅游目的地旅游要素的細粒度情感傾向,并進行可視化展示,為后來者的出行決策和旅游經營者服務優(yōu)化方向提供參考。

2 基于在線評論的游客情感分析模型

本文基于在線評論構建的游客情感分析模型如圖1所示。主要工作包括:數(shù)據(jù)獲取與預處理、自然語言處理、旅游本體構建、屬性比對與依存句法分析、屬性-情感詞對抽取與情感傾向分析和游客情感傾向的可視化。

2.1 旅游評論數(shù)據(jù)獲取與預處理

我們的數(shù)據(jù)來自于同城旅游網、攜程網、窮驢網旅游社區(qū)中的用戶評論,為了獲取網絡社區(qū)中用戶關于某一旅游地的評論數(shù)據(jù),我們首先打開這些網站,進入到在線社區(qū)模塊,運用網站中提供的站內搜索功能,以某一旅游目的地為關鍵詞進行在線評論的搜索,在顯示關于此目的地旅游的評論數(shù)據(jù)后,利用網絡信息采集工具抓取評論數(shù)據(jù),每一條記錄內容包括用戶名(或用戶號)、評論內容、回復數(shù)(指回復該評論的用戶數(shù)),采集到的所有數(shù)據(jù)導出到EXCEL文件保存。為了確保采集到的數(shù)據(jù)對研究問題有價值,需要把一些無用的數(shù)據(jù)清理掉,以減少噪音數(shù)據(jù)干擾。需要過濾掉的數(shù)據(jù)主要包括:(1)干擾信息。主要是一些廣告信息和與檢索關鍵詞匹配但與主題無關的信息,都需要刪除。(2)某一用戶多次重復的評論,這種評論數(shù)據(jù)是用戶為了賺取積分等滿足自己某個目的而產生,對統(tǒng)計真實正負面評論會造成“虛高”干擾,因而,需將重復記錄刪除,只保留該用戶重復記錄中的一條記錄作為該用戶關于某主題的評論數(shù)據(jù)。(3)規(guī)范表述。網絡中有一些比較隨意的表述,為了分析方便,將其規(guī)范化、統(tǒng)一化。經過預處理后的數(shù)據(jù),為與檢索關鍵詞匹配的評論集,將其保存以備下一步使用。

2.2 自然語言處理

2.2.1 分詞與詞性標注

預處理后的評論數(shù)據(jù)集中的文本長短不一,有些是客觀描述游客廬山旅游經歷的,而且一條記錄中并不是所有的內容都是對旅游的主觀評論,而情感分析的對象是關于某主題的主觀評論,因此需要在預處理文本中提取主觀句。一般來說,帶有情感詞或評價詞的句子表達了人們對某事物的某種感想、意見或看法,被認為是主觀句。而要獲取帶情感詞或評價詞的句子就要先對評論集中的每一條記錄進行分詞、詞性標注和分句處理。

分詞與詞性標注是在線評論情感分析的基礎,目前有很多分詞工具,而分詞的正確率是選擇分詞工具首要考慮的因素,中科院ICTCLAS 2015分詞系統(tǒng)分詞正確率達到98.45%,是用戶公認的分詞系統(tǒng),具有分詞、詞性標注、命名實體識別和新詞識別等功能,本文運用該系統(tǒng)對預處理后的評論集進行分詞、詞性標注和命名實體識別,我們主要關注的是名詞、形容詞、動詞和副詞,因為這些詞對中文情感分析起關鍵作用。

2.2.2 分句與主觀句提取

中文一般以句號、感嘆號、問號為一句完整的話的斷句符號,我們也以這3種符號為分句依據(jù)。由于在線評論語言表達的隨意性,可能存在一個用戶評論內容的末尾沒有標點符號或不是斷句符號的現(xiàn)象,我們將人工添加上句號,以使該用戶的評論內容完整。將詞性標注后的單句逐一與HowNet詞典進行比對,如果不包含情感詞語或評價詞語,表示該句可能只是敘述或客觀描述句,沒有發(fā)表意見,不是主觀句,不進行情感分類。否則,表示該句為主觀句,我們將這些主觀句進行保存,每個主觀句保存為一條記錄,每條記錄除了保存一個主觀句之外,還需保存這條記錄原用戶名/號、主題屬性詞對(初始值為空)、該評論回復數(shù)(每個句子的回復數(shù)與該句所在的原用戶名/號的回復數(shù)相同)。

2.3 旅游本體構建

上一步雖然提取了評論中的主觀句,但是不是每一句都是對旅游目的地旅游要素的評價,如“真是太舒服了”、“出來旅游,心情舒暢”等只是旅游者心情的釋放,并不是對旅游要素的評價或正負向情感的流露,因此,需要將關于旅游要素的主觀句子二次提取,并依據(jù)旅游各要素的相關屬性(即游客關注點,如飲食方面,游客可能關注口味、價格、衛(wèi)生、環(huán)境等)對二次提取的主觀句進行分類,以便對目的地旅游各要素游客關注點進行情感分析與可視化。目前,關于主觀句二次提取與分類的方法主要有兩種:詞頻統(tǒng)計和構建領域本體。前者是將所有產品屬性出現(xiàn)的頻次分別進行統(tǒng)計,按出現(xiàn)頻次的高低順序進行排名,提取前若干名屬性作為評論對象,對其進行情感分析;后者建立領域本體,確立主題及其屬性之間的關系,然后將二次提取的主觀句與本體屬性匹配,從而將評論對象分類,分別計算其情感極性值。本文選擇后者,構建旅游本體,然后分屬性統(tǒng)計評論情感傾向。

領域本體的構建是個復雜的工程,需要領域專家個本體構建專家的通力合作才能夠完成,本文借鑒領域本體構建的相關研究成果,構建本文需要的本體庫,簡化本體構建過程。根據(jù)旅游體驗的六大要素:吃、住、行、游、購、娛,參考已有旅游本體構建框架[16-17]和旅游網站中用戶評論關注點,運用本體構建工具Protege4.3構建旅游本體。

2.4 依存句法分析與屬性-情感詞對抽取

旅游本體構建好后,本體概念屬性就可以表達出來,將上一步提取的主觀句中的名詞逐一與旅游本體中概念屬性進行比對,這里存在3種情況:(1)主觀句中的名詞至少有一個與旅游本體屬性匹配,保存該條記錄,對該句做依存句法分析。(2)主觀句中沒有顯式名詞,只有情感詞或評價詞,將手動分析該句評價對象,如果與旅游本體屬性匹配,添加該屬性到該條記錄的主題屬性詞字段值中,使得該隱性主題屬性顯性化,保存該條記錄,并將該屬性作為該句的顯式主題屬性,對該句做依存句法分析;否則,將不做任何操作。(3)主觀句中的名詞與旅游本體屬性全部不匹配,說明該句評論與主題無關,刪除該句。針對3種情況中可做依存句法分析的句子,借助哈爾濱工業(yè)大學社會計算與信息檢索研究中心研制的在線語言技術平臺(LTP)上提供的API代碼[18],運用Python語言以GET方式調用REST API,得到這些句子的依存句法分析結果。

根據(jù)依存句法分析后句中詞與詞之間在語義層面上的修飾關系,可以識別和抽取出句中的屬性-情感詞對。抽取的規(guī)則如下:匹配領域本體屬性集,識別出評價集中的命名實體以及命名實體所依賴的語法元素。若依賴關系為ATT(定中關系)、ADV(狀中結構)或SBV(主謂關系),而且其依賴的語法元素詞性為形容詞、其他名詞修飾詞、副詞、動詞或者習慣用語,則認為該命名實體為評價對象,其依賴的語法元素對應的詞為情感評價詞。如圖2為對某一評論句進行依存句法分析的結果示例,圖中命名實體與修飾詞之間的依賴關系為SBV,修飾詞的詞性為形容詞,因此可以抽取屬性情感詞對“觀光車很貴”。

2.5 情感傾向分析與可視化

對于上一步的規(guī)則抽取屬性-情感詞對,要特別注意處理否定詞和程度副詞對情感極性的影響。(1)否定詞的處理,如果有否定詞與情感詞存在依存關系,這里可能有3種情況:如果是否定詞修飾的是另一個否定詞,則為雙重否定,抽取的屬性-情感詞對的極性不變;如果否定詞修飾的是情感詞,則將抽取的屬性-情感詞對的極性進行反轉;如果否定詞修飾的是包含程度副詞的情感詞,則調整屬性-情感詞對的極性程度。(2)程度副詞的處理,考察程度副詞與情感詞是否有依存關系,如果有,調整屬性-情感詞對的極性程度;否則,屬性-情感詞對的極性不變。按屬性將抽取的屬性-情感詞對分類,為了了解所有用戶對同一屬性的整體情感傾向,我們將情感詞、帶程度副詞的情感詞的極性進行量化,參考HowNet字典中給出的褒貶情感詞的強烈程度,將不同程度分為4個等級,如表1所示:

表1中,有程度副詞修飾的情感詞,其總極性值=程度副詞的極性值情感詞的極性值。如“廬山很美”表達的情感值為21=2;“門票稍貴”表達的情感值為1.5(-1)=-1.5。帶否定詞的情感極性計算按否定詞處理辦法的實際情況來定。另外,評論的回復數(shù)表達了其他用戶對該評論的關注與認同,將一定程度調整該評論的情感值,我們對有回復的評論添加一個加權值,該值的計算方法為:加權值=該評論的回復數(shù)/總回復數(shù),那么該條評論最終的情感極性值=計算的總極性值(1+加權值)。我們從游客評論關注點、游客關于某主題特征的正負向情感訴求點兩方面,利用Excel來對游客關于旅游目的地情感傾向進行可視化展示,詳見實證分析部分。

3 實證分析

3.1 數(shù)據(jù)處理

本文選取廬山旅游作為實證研究實例。之所以選擇廬山旅游,原因有二:一是在線旅游評論所涉及旅游地域范圍太廣,相應的屬性特征不統(tǒng)一,評論數(shù)據(jù)體量大價值稀疏,如果選取所有的旅游評論數(shù)據(jù),分析起來沒有可比性且收集資料難度較大,因此沒必要籠統(tǒng)地收集所有的評論;二是廬山旅游具有游客所關注的旅游要素的典型性。游——廬山擁有以雄、奇、險、秀而聞名于世的自然景觀和聚宗教、政治、教育于一體的人文景觀,是觀光旅游的首選,也是避暑、療養(yǎng)、寫生、攝影的勝地;吃、住——山上賓館、酒店、招待所、農家旅社、小吃店、飯館應有盡有,能滿足不同層次游客的需求;購——廬山茶餅、三石、云霧茶等特產,牯嶺鎮(zhèn)是廬山吃、住、購的中心地帶;行——山上有觀光車、纜車;娛——廬山度假村中的溫泉浴、廬山影院、高空索道行走表演等娛樂項目。廬山的這些旅游要素給游客留下了深刻的印象,旅游在線評論中關于廬山旅游的評論數(shù)據(jù)豐富,可以很好地支持本文的研究。

在進入同城旅游網、攜程網、窮驢網旅游社區(qū)后,以“廬山旅游”為關鍵詞進行在線評論的搜索,利用八爪魚采集器4.1.5版抓取了9 937條評論數(shù)據(jù),并作如下預處理:①將一些干擾信息如“到廬山旅游,請跟我來……”、“廬山旅游精品”、“廬山旅游咨詢”、“終于見到廈門的廬山真面目了”關于廈門旅游或其他地方旅游的信息刪除。②刪除同一個人的重復評論。③將表述不夠規(guī)范的詞替換為規(guī)范表達,如:“贊”、“美呆了”分別改成“好”、“太美了”。經過預處理后得到9 746條數(shù)據(jù)。對預處理后的廬山旅游評論分詞、詞性標注、分句和主觀句提取后,共獲得10 324個關于廬山評論的主觀句。主觀句提取的部分結果如圖3所示。廬山旅游本體構建結構如圖4所示。3.2 結果分析

本文共獲得9 427對屬性-情感詞對。根據(jù)2.5設計的情感極性計算規(guī)則,我們將抽取的屬性-情感詞對逐一計算其情感極性值,并按主題-屬性分類求其情感極性平均值,得到廬山旅游評論情感分類均值,如圖5所示。

由圖5中可知,游客對廬山旅游的絕大部分要素指標表現(xiàn)出正向情感,少數(shù)指標表現(xiàn)出負向情感。如果把表2的廬山旅游評論情感分類均值N依據(jù)表1分成4個區(qū)間:N≥2(表示非常滿意)、1≤N<2(表示比較滿意)、0≤N<1(表示還算滿意)、N<0(表示不滿意),則可以看出,評論用戶對廬山的景色、選購的商品、住宿的衛(wèi)生條件以及有關娛樂方面的服務、設施、趣味和性價比都非常滿意;而對廬山整體觀光價值、購物的服務、購物環(huán)境、飲食口味、餐飲服務、用餐環(huán)境、住宿服務、住宿的設施等方面比較滿意;對廬山的景區(qū)服務、交通的方便性和安全性方面還算滿意;但對各種價格,如門票價、購買的商品價格、餐飲價格、住宿費以及景區(qū)纜車和觀光車等交通票價不太滿意。

可以從游客關于某主題屬性的評論數(shù)看出游客評論主要關注點,而游客關于廬山旅游各要素的評論數(shù)并不均勻,圖6(a)顯示了獲取的九千多條記錄中關于各主題-屬性的評論數(shù)占比,占比越大,說明游客越關注該主題屬性。從圖中可以看出,廬山所有的主題屬性(依據(jù)圖3廬山旅游本體)中游客對廬山的景色最為關注,評價數(shù)最多,占到39.22%(近四成),結合圖5來看,游客對廬山景色的評價的情感均值達到2.27,表示非常滿意,說明廬山美景是名不虛傳,實至名歸。評價數(shù)靠前的主題特征還有娛樂服務、娛樂趣味性和景區(qū)服務。從提取的屬性-情感詞對中看出,娛樂趣味性和服務主要涉及溫泉浴、廬山戀影院、沖浪、高空表演等娛樂項目,從娛樂的趣味性和服務方面游客都有極好的體驗。

游客對景區(qū)服務的評論情感均值為0.9,屬于還算滿意范圍。圖6(c)和圖6(d)顯示了游客關于景區(qū)服務正面評價項和負面評價項的訴求點,正面評價的方面有取訂票方便(這也是關于景區(qū)服務評論中評論數(shù)量最多的,查看原始評論,發(fā)現(xiàn)主要是因為采取網絡訂票,現(xiàn)場取票的購票方式,減少了游客排隊等待的時間)、衛(wèi)生狀況好、服務周到態(tài)度好、以及景區(qū)管理有序。負面評價的方面有景區(qū)管理混亂、取票不方便、服務態(tài)度不好、導游很黑。值得注意的是,正負向評論中有服務態(tài)度、取票方便性、景區(qū)管理3個共同項游客持相反態(tài)度,我們認為,除了游客個體對服務要求的高低程度不同外,景區(qū)服務質量的提升更是關鍵,特別是節(jié)假日人流高峰期,如果服務質量得不到保障,將會引起網絡負面評論的連鎖反應,而相反,如果廬山景區(qū)管理部門在服務態(tài)度、服務周到方面管理有序性等方面更多地從游客角度出發(fā)進行改進,更好地滿足游客需求,將會使廬山服務的口碑更上一層樓。

值得一提的是,在所有的評論主題中,關于價格的評論情感值都為負,游客對廬山的各種價格表示了不滿。圖6(b)顯示了門票價格的游客評價項,除了少數(shù)游客覺得便宜實惠外(從原始評論數(shù)據(jù)中看出,主要是將促銷活動價與平常時期價格相比、網絡訂票優(yōu)惠價與實地購票價格相比的評價),大部分游客對票價的意見是門票貴、大小門票、收費景點多,特別是重復收門票問題在廬山旅游官網上的一篇紀實報道中得到印證,報道中提到“票中票”問題一直是廬山面臨的歷史難題,并從2015年3月份起,在核心景區(qū)實行“一票制”[19]。這一舉措將提高游客對廬山旅游的滿意度,如果能夠合理調整其他價格的收費方式或降低收費標準將大大提高用戶體驗。

4 結束語

旅游在線評論反映了游客關于旅游服務的真實感受,怎樣準確把握旅游用戶對旅游目的地的滿意度和需求,是旅游市場營銷領域長期關注的問題,具有重要的研究意義和商業(yè)價值。本文根據(jù)在旅游線評論語言表達的隨意性和關于某一主題評論內容的分散性等特點,綜合運用網絡數(shù)據(jù)獲取技術、自然語言處理技術、本體構建技術、情感分析與可視化技術,以廬山旅游為例,對用戶評論進行情感分析與可視化展示。從研究結果來看,本文提出的方法是可行的,運用這些技術能夠將網上碎片化的用戶生成數(shù)據(jù)轉化為對其他用戶和旅游經營者有用的直觀信息,以輔助旅游者選擇出行地,幫助經營者了解客戶意見,進而優(yōu)化旅游服務。此外,本文的研究方法可以為旅游研究領域自動、全面地獲取在線客戶知識提供借鑒,也可以為旅游評論挖掘系統(tǒng)的構建提供參考。但是,本文尚存在一些缺憾和不足,本文中隱式評論對象的識別,是通過人為添加的方式來完成的,應在自動識別和準確率上做進一步改進的研究;對于屬性-情感詞對的抽取方法也應做進一步改進,盡量獲取更多的匹配數(shù)[20]。另外,由于用戶評論數(shù)據(jù)是動態(tài)變化的,如何自動跟蹤用戶評論,并進行情感分類和可視化,是下一步需要研究方向。

參考文獻

[1]Double Click.Search before the Purchase-Understanding Buyer Search Activity as it Builds to Online Purchase[R].2005(http:∥www.doubleclick com/insight/pdfs/searchpurchase0502.pdf).

[2]張紫瓊,葉強,李一軍.互聯(lián)網商品評論情感分析研究綜述[J].管理科學學報,2010,13(6):84-96.

[3]Pang B,Lee L,Vaithyanathan S Thumbs up?Sentiment classification using machine learning techniques[C]∥Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing(EMNLP),Morristown NJ USA,Association for Computational Linguistics,2002:79-86.

[4]Vermeulen I E,Seegers D.Tried and tested:The impact of online hotel reviews on consumer consideration[J].Tourism Management,2009,30(1):123-127.

[5]Ye Q,Law R,Gu B.The impact of online user reviews on hotel room sales[J].International Journal of Hospitality Management,2009,28(1):180-182.

[6]Rhee H T,Yang S B.How does hotel attribute importance vary among different travelers?An exploratory case study based on a conjoint analysis[J].Electronic Markets,2014:1-16.

[7]趙學鋒,湯慶,張睿,等.基于客戶評論和語料庫的在線酒店信譽維度挖掘[J].圖書情報工作,2012,56(12):124-129.

[8]張夢,楊穎,葉作亮.酒店網絡評論內容特征對消費者購買意愿的影響——基于時間距離和社會距離情景的實驗研究[J].旅游學刊,2012,27(11):97-104.

[9]Wallace B C,Paul M J,Sarkar U,et al.A large-scale quantitative analysis of latent factors and sentiment in online doctor reviews[J].Journal of the American Medical Informatics Association,2014,21(6):1098-1103.

[10]Deng X,Chen R.Sentiment Analysis Based Online Restaurants Fake Reviews Hype Detection[M]∥Web Technologies and Applications.Springer International Publishing,2014:1-10.

[11]Liu Y,Yu X,An A,et al.Riding the tide of sentiment change:sentiment analysis with evolving online reviews[J].World Wide Web,2013,16(4):477-496.

[12]Xueke X,Xueqi C,Songbo T,et al.Aspect-level opinion mining of online customer reviews[J].Communications,China,2013,10(3):25-41.

[13]Xianghua F,Guo L,Yanyan G,et al.Multi-aspect sentiment analysis for Chinese online social reviews based on topic modeling and HowNet lexicon[J].Knowledge-Based Systems,2013,37:186-195.

[14]Shi H,Zhou G,Qian P,et al.An Unsupervised Fine-grained Sentiment Analysis Model for Chinese Online Reviews[J].International Information Institute(Tokyo).Information,2012,15(10):127-135.

[15]Somprasertsri G,Lalitrojwong P.Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization[J].J.UCS,2010,16(6):938-955.

[16]馮欣,王成良.本體在旅游信息系統(tǒng)中的應用研究[J].計算機與現(xiàn)代化,2010,26(3):128-132.

[17]Marrese-Taylor E,Velásquez J D,Bravo-Marquez F.A novel deterministic approach for aspect-based opinion mining in tourism products reviews[J].Expert Systems with Applications,2014,41(17):7764-7775.

[18]Wanxiang Che,Zhenghua Li,Ting Liu.LTP:A Chinese Language Technology Platform.In Proceedings of the Coling 2010:Demonstrations,Beijing,China.2010,(8):13-16.

[19]廬山旅游事業(yè)趕超發(fā)展紀實[EB/OL].http:∥www.china-lushan.com:88/xinwenzhongxin/yaowen/2015-04-16/6011.html,2015-04-16.

[20]唐曉波,王洪艷.微博產品評論挖掘模型研究[J],情報雜志,2013,32(2):107-111.

(本文責任編輯:郭沫含)

猜你喜歡
在線評論情感分析模型構建
基于SVM的產品評論情感分析系統(tǒng)的設計與實現(xiàn)
基于詞典與機器學習的中文微博情感分析
在線評論情感屬性的動態(tài)變化
基于云計算的大學生移動學習模型構建
高中物理解題的模型構建
文本觀點挖掘和情感分析的研究
消費者個體行為偏好對在線評論真實性的影響機理研究