◎萬英亮
以網(wǎng)絡(luò)評論文本為素材,使用網(wǎng)絡(luò)爬蟲獲取網(wǎng)絡(luò)評論數(shù)據(jù),利用長短期記憶網(wǎng)絡(luò)(LSTM)建立三分類的情感分析模型,采用文本關(guān)聯(lián)性分析和依存語法分析對評論中的核心詞與語法進行研究,對廈門的整體形象、吸引要素、負面評價等多個方面進行分析。結(jié)果顯示:整體來看游客對廈門的印象總體傾向于積極方面,負面感知很少,游客對廈門的感知比較偏向于自然風(fēng)景與美食。但吸引要素中,歷史人文景點相對較少提及,作為一座擁有悠久文明的城市,廈門為實現(xiàn)成為文化、人文、文藝之城仍需努力。
自1975 年Hunt 首先提出旅游目的地形象,有關(guān)目的地形象的研究就隨著科學(xué)技術(shù)的發(fā)展而不斷深入。旅游目的地形象是指旅游者對于目的地的感知之和,學(xué)術(shù)界普遍將其分為認知形象、情感形象和總體形象三部分。
隨著硬件能力的提升以及數(shù)據(jù)量的增長,利用網(wǎng)絡(luò)文本數(shù)據(jù)和數(shù)據(jù)分析工具來對旅游目的地形象進行深入分析成為可能。同時,也為管理者制定優(yōu)化目的地形象的方案提供了參考依據(jù)。
使用網(wǎng)絡(luò)評論文本進行情感分析能夠?qū)ι鐣浨檫M行預(yù)測,這是文本情感分析技術(shù)受到重視的原因。人工神經(jīng)網(wǎng)絡(luò)在文本領(lǐng)域的廣泛應(yīng)用,為文本情感分析的突破提供了可能。2011 年,哈工大推出了中文語言技術(shù)平臺(LTP),因其優(yōu)秀的中文文本處理能力,而使它受到中文自然語言處理研究者的歡迎。
廈門歷史悠久、海天一色,素有“海上花園”的美稱,榮獲“聯(lián)合國人居獎”。由于知名度和關(guān)注度較高,有關(guān)廈門的旅游評價容易抓取,因此選擇廈門為研究對象,利用Python 爬取數(shù)據(jù),并將原始數(shù)據(jù)處理后進行分詞;通過LSTM 進行情感分類;計算網(wǎng)絡(luò)評價中關(guān)鍵詞的相關(guān)性;使用LTP 進行依存語法分析,進而對廈門的總體形象、積極形象、消極形象以及影響因素進行分析,以期確定廈門在游客心中的形象,為廈門旅游的可持續(xù)發(fā)展提供幫助。
1.分詞方法。任何文本都需要經(jīng)過斷詞處理方可進行分析,但中文斷詞相較于英文斷詞顯得困難許多,因為中文有兩種特色,其一,詞間不用空格分隔、其二,一字可以位于詞首詞中或詞末,也可以單字成詞,這兩種特色使得斷詞結(jié)果產(chǎn)生歧義,且很難保證任一結(jié)果百分之百準(zhǔn)確。
本文使用jieba 分詞處理中文分詞問題。在分詞前,jieba 分詞載入詞典至一前綴樹中,接著對每一語句分詞時,利用詞典生成的前綴樹生成一有向無環(huán)圖,該有向無環(huán)圖的每一節(jié)點代表語句的長度位置、每一條邊代表jieba 分詞查找前綴樹所得可能存在于句中的詞語,而每一條完整的路徑代表可能的分詞方案。
2.關(guān)聯(lián)性分析。對文本關(guān)鍵詞關(guān)聯(lián)性的分析是挖掘文本信息的一種重要技術(shù)。本文對核心關(guān)鍵詞相關(guān)性進行計算過程中使用了關(guān)聯(lián)規(guī)則,它是形如的邏輯表達式,和為不相交的集合。關(guān)聯(lián)規(guī)則用支持度和置信度來度量關(guān)聯(lián)的強度,支持度確定規(guī)則可以用于給定數(shù)據(jù)集的頻繁程度,而置信度確定在包含的事務(wù)中出現(xiàn)的頻繁程度。支持度和置信度:
3.依存句法分析。利用分析句中單位間依存關(guān)系來確定其句法結(jié)構(gòu)是依存語法分析的核心思想。依存句法分析的依存關(guān)系有五條公理,具體如下:
(1)句子中僅含一個獨立成分。
(2)句子中的其它成分都依存于某一成分,每個詞都會有入口。
(3)句子中各成分不能同時依存于兩個及以上的其他成分,即每個單成分不會有兩個入口。
(4)如果成分依存于成分,在句中位置位于和之間,則或直接依存于,或直接依存于和間的某一個成分,這對成分的具體范圍進行約束,避免了交叉。
(5)中心成分(核心動詞)的左右兩面成分相互的不產(chǎn)生依存關(guān)系。
4.長短期記憶網(wǎng)絡(luò)。長短期記憶網(wǎng)絡(luò)在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的鏈?zhǔn)浇Y(jié)構(gòu)中加入LSTM 單元,通過不同的門限控制,可以加強模型的記憶能力,解決訓(xùn)練過程中梯度消失的問題。LSTM 廣泛運用于處理序列信息,在文本分類領(lǐng)域有較好的表現(xiàn)。
本研究以廈門為例,使用Python 對同程網(wǎng)進行評價數(shù)據(jù)爬取。在爬取過程中將重復(fù)、無意義以及包含廣告的評價刪去。共搜集了2014 年1 月1 日至2016 年7 月10日的4010 條游客點評。
1.評論數(shù)據(jù)預(yù)處理。在去除原始文本數(shù)據(jù)中無意義詞和英文字符之后,使用Python 環(huán)境下的jieba 庫對文本數(shù)據(jù)分詞進行處理。將處理后的網(wǎng)絡(luò)評價數(shù)據(jù)用Python 環(huán)境下的wordcloud 庫進行處理,得到了游客對廈門評價的高頻詞詞云圖。
圖1 廈門網(wǎng)評詞云
詞云中詞的形狀大小表明了詞語在網(wǎng)絡(luò)評價出現(xiàn)的頻率高低。
2.評論數(shù)據(jù)LSTM 情感分類。將游客對廈門的評論文本按照情感傾向性進行分類,根本上仍屬于文本分類問題,本文將主觀性的網(wǎng)絡(luò)評論文本分為積極、中性、負面三種情感傾向。將酒店、旅游以及電影點評網(wǎng)站收集積極到的積極、中性、負面評論各15000 條作為LSTM 情感分類的訓(xùn)練集,將原始數(shù)據(jù)作為訓(xùn)練集通過Python 環(huán)境下的gensim 庫進行詞向量化后經(jīng)LSTM 迭代20 輪。
使用訓(xùn)練好的模型對測試集文本數(shù)據(jù)進行情感分類的精度達到0.8742,分類效果很好,表明適合用于對文本情感傾向性的分析。將分類數(shù)據(jù)同真實得分進行比較,可知使用LSTM 進行網(wǎng)評情感分類結(jié)果與真實結(jié)果基本接近,并且絕大部分游客對廈門持有積極態(tài)度,只有少數(shù)游客對于廈門存在一定的負面情緒。
3.評論數(shù)據(jù)關(guān)鍵詞關(guān)聯(lián)性分析。對網(wǎng)評數(shù)據(jù)分詞結(jié)果的頻率前30 個關(guān)鍵詞進行建模,得到關(guān)聯(lián)規(guī)則結(jié)果,顯示“鼓浪嶼”支持度僅次于最高的“廈門”,被確認為是次核心詞,說明“鼓浪嶼”最深受來到廈門游客的喜愛。
在游客對于“鼓浪嶼”、“廈門大學(xué)”等標(biāo)志性旅游景點游玩后很有感觸說明網(wǎng)友,且“喜歡”常出現(xiàn)在“廈門”相關(guān)的評論中,說明游客對廈門給出的評價主要是正面的。
本文使用依存句法分析對游客積極感知因素進行探索。依存句法分析結(jié)果顯示了語句中元素的具體結(jié)構(gòu),以“廈門風(fēng)景很好”短句為例:
圖2 依存句法分析示例
如圖2 所示,該短句中存在3 組相互依存關(guān)系,每組依存關(guān)系都有一個核心詞與一個受支配詞組成,圖3 中折線從核心詞指向受配詞。如“風(fēng)景”和“好”為主謂關(guān)系(SBV),,受支配詞為“風(fēng)景”,核心詞為“好”,短句中的核心詞(HED)為“棒”。通過依存句法分析從游客評論數(shù)據(jù)中提取廈門特征與情感態(tài)度組合,分別繪制出廈門特征、情感詞云圖如下圖所示。
圖3 依存句法提取廈門特征詞云
圖4 依存句法提取情感詞云
由圖3 可知。特征詞主要有:“廈門”、“鼓浪嶼”、“廈門大學(xué)”、“曾厝垵”、“中山路”、“海鮮”、“環(huán)島路”、“海灘”、“芒果”、“小店”。對特征詞進一步歸類,可以發(fā)現(xiàn)在游客看來,自然風(fēng)光是廈門最突出的特征??梢哉f絕大多數(shù)的游客就是為了欣賞海島風(fēng)景而來到廈門的。其次是美食類的詞語:芒果、海鮮,這充分說明飲食是廈門重要的吸引要素。而胡里山炮臺、曾厝垵 、南普陀寺、梵天寺等人文歷史景點無論從詞匯數(shù)量還是頻率上都較低。
從圖4 可以看出,游客對廈門的印象以“好吃”、“喜歡”、“清新”為主。游客對于廈門的第一感覺用“好吃”這樣的詞語來形容??梢娒朗呈菑B門一個明顯的特征。廈門的特色美食給游客留下的深刻的影響,尤其是經(jīng)營了數(shù)十年的廈門老字號總讓游客們流連忘返?!扒逍隆北磉_了游客對廈門空氣質(zhì)量的評價,作為環(huán)海城市,徐徐海風(fēng)是廈門俘獲游客心靈的法寶。
本文對游客的負面評論進行概念化、逐一登錄并提煉,經(jīng)過三級編碼過程,最終將這些負面評論凝結(jié)為5 個核心類屬、16個二級子類。5 個核心類屬分別為旅游體驗、旅游設(shè)施、旅游安全、旅游服務(wù)與旅游環(huán)境。
可以得知,在5 個核心類屬當(dāng)中,負面評價主要集中在旅游體驗類屬上(71。23%),排在首位。游客普遍認為物品價格虛高、商業(yè)化嚴(yán)重。除此之外,也有游客提出太多的小店商品相似,十分乏味。另外就是游客太多、環(huán)境嘈雜,降低了旅游體驗質(zhì)量。旅游環(huán)境是排名第二的消極感知因素。其中交通問題最為突出,廈門風(fēng)景優(yōu)美,但部分景點規(guī)劃不佳,道路狹窄,加之游客眾多,時常造成寸步難行的交通環(huán)境。此外餐飲企業(yè)油污排出;旅游安全方面如小偷很多,要留意自己的隨聲物品;旅游服務(wù)方面如店員態(tài)度冷淡等負面評論也有出現(xiàn)。
隨著大數(shù)據(jù)時代的到來,如何從非結(jié)構(gòu)化的網(wǎng)絡(luò)評論數(shù)據(jù)中挖掘出游客的觀點以及隱含的語境情感信息,繪制出旅游者角度的旅游目的地形象是新環(huán)境下旅游工作者要面臨的挑戰(zhàn)。
本文通過構(gòu)建LSTM 三分類的情感分析模型,對文本數(shù)據(jù)進行文本關(guān)聯(lián)性分析以及依存句法分析,對廈門的認知形象、情感形象、整體形象、吸引要素、負面評價及原因進行探究,可知從認知形象構(gòu)成要素來看,特色景點和美食為突出的要素,包括鼓浪嶼、廈門大學(xué)等標(biāo)志景點;芒果、沙茶面等地方美食。而歷史人文景點,如胡里山炮臺、曾厝垵、卻較少被游客提及。從形象情感態(tài)度來看,游客普遍認為廈門“不錯”、“好吃”、“清新”。說明游客對廈門總體評價比較積極,滿意度較高。游客對廈門的負面旅游體驗主要歸類為旅游體驗和旅游環(huán)境兩大方面,其中的商品因素最為突出,游客認為廈門商品價格過貴、道路狹窄、環(huán)境嘈雜等。作為一座擁有悠久文明的城市,廈門需要加大對歷史人文景點的重視和開發(fā),并且對游客的負面評價做出及時反饋,這有利于廈門旅游產(chǎn)業(yè)的健康和可持續(xù)發(fā)展。