摘要:隨著移動(dòng)互聯(lián)網(wǎng)發(fā)展,越來越多的游客在線訂購(gòu)旅游產(chǎn)品和服務(wù),并通過網(wǎng)絡(luò)分享他們的旅游體驗(yàn)和評(píng)價(jià)。這些旅游網(wǎng)絡(luò)點(diǎn)評(píng)不僅為其他游客提供了寶貴的參考意見,也對(duì)旅游企業(yè)管理者具有重要的指導(dǎo)意義。所以,對(duì)這些評(píng)價(jià)進(jìn)行分析,及時(shí)掌握旅游網(wǎng)絡(luò)輿情是相當(dāng)重要的。本文抓取游客在網(wǎng)絡(luò)上的評(píng)價(jià)文本數(shù)據(jù),通過機(jī)器學(xué)習(xí)的方法對(duì)文本進(jìn)行情感分析,進(jìn)行詞頻分析并繪制詞頻統(tǒng)計(jì)的詞云圖,為旅游企業(yè)提高服務(wù)質(zhì)量提供了數(shù)據(jù)參考。
關(guān)鍵詞:情感分析;詞頻分析;網(wǎng)絡(luò)評(píng)價(jià)
ResearchonTourists'OnlineEvaluationofScenicSpotsBbasedonSsentimentAnalysisTechnology
WangXinyu
NanjingTourismVocationalCollegeJiangsuNanjing211100
Abstract:Withthedevelopment?;oftheInternet,moreandmoretouristsordertravelproductsandservicesonlineandsharetheirtravelexperienceandevaluation.Thesetourismonlinereviewsnotonlyprovidevaluablereferenceopinionsforothertourists,butalsohaveimportantguidingsignificancefortourismenterprisemanagers.So,itisquiteimportanttoanalyzetheseevaluationsandtimelygraspthetourismnetworkpublicopinion.Thisarticlecapturestextualdataoftourists'evaluationsontheinternet,conductssentimentanalysisonthetextthroughmachinelearningmethods,performswordfrequencyanalysis,anddrawsawordcloudmapofwordfrequencystatistics,providingdatareferencefortourismenterprisestoimproveservicequality.
Keywords:Sentimentanalysis;Wordfrequencyanalysis;Onlinereviews
1研究背景
隨著移動(dòng)互聯(lián)網(wǎng)發(fā)展,越來越多的游客選擇通過手機(jī)在線訂購(gòu)旅游產(chǎn)品(如:景區(qū)門票、酒店客房等)并實(shí)時(shí)分享他們的旅游體驗(yàn)和評(píng)價(jià)。這些旅游網(wǎng)絡(luò)點(diǎn)評(píng)不僅為其他游客提供了寶貴的參考意見,也對(duì)旅游企業(yè)管理者具有重要的指導(dǎo)意義。旅游的點(diǎn)評(píng)實(shí)際上是一種主觀的文本信息,這種主觀的信息在過去只能通過人工篩選的方法進(jìn)行分析,人工的方法只適合少量的游客點(diǎn)評(píng),并不適合當(dāng)前海量的網(wǎng)絡(luò)點(diǎn)評(píng)。隨著信息處理技術(shù)的發(fā)展,出現(xiàn)了情感分析技術(shù),情感分析[1]通常是指對(duì)一段有主觀性情感的文本進(jìn)行分析的過程,情感分析有很強(qiáng)的實(shí)用價(jià)值,例如,通過對(duì)某酒店服務(wù)評(píng)論的情感分析,可以發(fā)現(xiàn)顧客對(duì)該酒店軟硬件設(shè)施和服務(wù)的褒貶態(tài)度和意見,從而改進(jìn)設(shè)施并改善服務(wù),贏得競(jìng)爭(zhēng)優(yōu)勢(shì);通過對(duì)游客對(duì)某條旅游線路的評(píng)論情感分析,旅行社可以了解游客對(duì)該線路的態(tài)度傾向分布,從而優(yōu)化路線,提高服務(wù)品質(zhì),從競(jìng)爭(zhēng)中脫穎而出。
從知網(wǎng)檢索的情況來看,鄭文英[2]最早把情感分析技術(shù)應(yīng)用于旅游目的地的旅游點(diǎn)評(píng)研究;覃國(guó)蓉等[3]應(yīng)用旅游網(wǎng)絡(luò)評(píng)論情感分析方法實(shí)現(xiàn)了一個(gè)實(shí)用的系統(tǒng),可以實(shí)時(shí)監(jiān)控有關(guān)旅游企業(yè)的網(wǎng)絡(luò)輿情;王新宇[1]利用情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法,對(duì)旅游網(wǎng)絡(luò)點(diǎn)評(píng)進(jìn)行了感情分析。以上這些為早期近情感分析技術(shù)應(yīng)用于旅游業(yè)的研究,這些方法一般都是通過某種通用的計(jì)算機(jī)編程語(yǔ)言進(jìn)行編程實(shí)現(xiàn)網(wǎng)絡(luò)點(diǎn)評(píng)的抓取、情感分析,比較復(fù)雜。近幾年,隨著python語(yǔ)言的流行、網(wǎng)絡(luò)數(shù)據(jù)抓取的工具出現(xiàn)等技術(shù)的進(jìn)步,感情分析技術(shù)在旅游業(yè)應(yīng)用的研究也逐漸增加。如:郝若琳[4]等,以四川省5A級(jí)景區(qū)為研究對(duì)象,以攜程網(wǎng)游客評(píng)論為研究?jī)?nèi)容,使用ROSTCM6.0軟件進(jìn)行數(shù)據(jù)分析處理,探究游客對(duì)景區(qū)的情感傾向;陳浩[5]基于Python軟件和NLP自然語(yǔ)言處理情感得分算法,在對(duì)在線評(píng)論進(jìn)行情感分析的基礎(chǔ)上還運(yùn)用了機(jī)器學(xué)習(xí)的方法進(jìn)行在線文本的情感分類。
通過以上研究,可以發(fā)現(xiàn)情感分析技術(shù)能幫助旅游企業(yè)從互聯(lián)網(wǎng)上海量的產(chǎn)品評(píng)論中獲取對(duì)產(chǎn)品綜合、全面的評(píng)價(jià)信息。本文以泰山景區(qū)為例,對(duì)該景區(qū)的線上評(píng)論進(jìn)行收集采樣、經(jīng)過中文分詞、詞匯預(yù)處理、對(duì)詞匯出現(xiàn)的數(shù)量進(jìn)行統(tǒng)計(jì),得出高頻詞,并定量計(jì)算出各條評(píng)價(jià)的情感傾向概率。
2研究過程
2.1評(píng)價(jià)數(shù)據(jù)的獲取
本次研究相關(guān)數(shù)據(jù)通過python語(yǔ)言編制程序抓取,采集數(shù)據(jù)由攜程旅行網(wǎng)采集,通過解析網(wǎng)頁(yè)中的json數(shù)據(jù)格式,可以提取比較“清潔”的點(diǎn)評(píng)數(shù)據(jù),在數(shù)據(jù)的預(yù)處理階段,只需通過程序處理掉停用詞即可,停用詞是被認(rèn)為對(duì)文本分析貢獻(xiàn)較小的詞匯,在預(yù)處理階段被移除這些詞,?可以減少文本的冗余和無關(guān)信息,?從而提高文本分析的效率和準(zhǔn)確性。?目前,中文停用詞表主要有哈工大停用詞表、百度停用詞表和四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞表等幾個(gè)版本,選擇其中一個(gè)或綜合在一起均可以起到較好的效果。本次研究最終抓取攜程網(wǎng)上泰山景區(qū)的游客評(píng)價(jià)文本3000條。(因?yàn)槟壳皵y程網(wǎng)僅提供最近3000條的游客評(píng)價(jià)信息)
2.2詞頻分析
2.2.1中文分詞
因?yàn)橛慰偷脑u(píng)價(jià)文本是完整的一段漢字序列,要想得到游客的用詞,就必需進(jìn)行中文分詞。中文分詞指的是將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。分詞的過程實(shí)際上就是將連續(xù)、完整的漢字序列,按照一定的方法,組合成詞序列的過程。中文分詞的實(shí)現(xiàn),一般均是在程序中直接調(diào)用某個(gè)成品分詞系統(tǒng)的接口函數(shù),jieba目前被認(rèn)為是最好用的基于Python實(shí)現(xiàn)的分詞系統(tǒng),很容易就可以實(shí)現(xiàn)分詞調(diào)用和詞性標(biāo)注,可以一定程度上實(shí)現(xiàn)的未登錄詞識(shí)別,還能通過自建詞庫(kù),擴(kuò)展實(shí)現(xiàn)新詞的登錄。本次研究采用了jieba對(duì)游客評(píng)價(jià)文本進(jìn)行中文分詞,并編程對(duì)詞頻進(jìn)行統(tǒng)計(jì)和排序,進(jìn)一步得到高頻詞。以下代碼實(shí)現(xiàn)了對(duì)整段漢字序列的分詞并進(jìn)行詞頻統(tǒng)計(jì)。
words=jieba.cut(txt)#變量txt中為需要進(jìn)行中文分詞的字符串
counts={}#counts為數(shù)字字典,該字典存放統(tǒng)計(jì)好的詞匯和出現(xiàn)的次數(shù)
forwordinwords:
ifwordnotinstopwords:
#不統(tǒng)計(jì)字?jǐn)?shù)為一的詞
iflen(word)==1:
continue
else:
counts[word]=counts.get(word,0)+1
2.2.2高頻詞的可視化
如果將數(shù)據(jù)可視化后,能夠更加直觀、生動(dòng)的表達(dá)數(shù)據(jù),讓數(shù)據(jù)的使用者能夠迅速理解和利用數(shù)據(jù)。詞云圖,是一種文本數(shù)據(jù)的圖片可視化表達(dá)方式,一般是由詞匯組成類似云的圖形,用于大量文本數(shù)據(jù)的可視化。Pyhton語(yǔ)言通過wordcloud包,可以非常方便的實(shí)現(xiàn)詞云圖的繪制,從而完成本次研究中游客評(píng)價(jià)中高頻詞的可視化。以下程序段展示了如何快速生成一張?jiān)~云圖。
wc=WordCloud() #初始化一個(gè)詞云圖
wc.background_color="white" #設(shè)置背景色為白色
wc.max_words=500 #設(shè)置最大詞匯數(shù)量
wc.font_path=r"c:\windows\fonts\STHUPO.ttf"#設(shè)置字體
wc.width=800 #設(shè)置圖片寬度
wc.height=600 #設(shè)置圖片高度
wc.generate_from_frequencies(counts) #根據(jù)詞頻生成詞云圖
wc.to_file("wc.png") #寫入文件
2.3情感分析
目前研究文本情感傾向,主要使用兩種方法,分別是:基于機(jī)器學(xué)習(xí)的方法和基于情感詞典的方法,前者需要用到標(biāo)注好的情感詞典進(jìn)行分析,而基于機(jī)器學(xué)習(xí)的方法是利用分類技術(shù)來處理文本,分類技術(shù)一般是使用某種學(xué)習(xí)算法來確定分類模型常用的機(jī)器學(xué)習(xí)分類法有:最大熵、樸素貝葉斯文本算法、支持向量機(jī)模型[1]。由于技術(shù)的發(fā)展,目前利用機(jī)器學(xué)習(xí)的方法進(jìn)行文本的情感分析已經(jīng)非常方便,有許多軟件工具或者是基于python的包,SnowNLP就是這樣一個(gè)包,可以非常容易的實(shí)現(xiàn)文本的情感分析,其原理主要就是應(yīng)用了機(jī)器學(xué)習(xí)的方法,即采用樸素貝葉斯分類器,將文本分為積極、中性和消極三種類別,先將大量的文本數(shù)據(jù)進(jìn)行標(biāo)注,然后提取文本的特征(如:情感詞匯、詞頻等),然后用分類器對(duì)這些特征進(jìn)行訓(xùn)練,得到每個(gè)特征對(duì)應(yīng)的情感類別的概率,綜合這些概率,確定整個(gè)文本的情感屬性類別。SnowNLP的這種方法在實(shí)現(xiàn)應(yīng)用中效果較好,但語(yǔ)料庫(kù)需要根據(jù)應(yīng)用場(chǎng)景進(jìn)行變換,故SNowNLP也提供自定義語(yǔ)料庫(kù)的訓(xùn)練功能,本次研究利用從網(wǎng)上抓取的景區(qū)評(píng)價(jià)信息,構(gòu)建了旅游評(píng)價(jià)的語(yǔ)料庫(kù),并進(jìn)行了訓(xùn)練。
SNowNLP包的使用比較簡(jiǎn)單,以下代碼段對(duì)txt文本進(jìn)行了情感分析,變量v保存了一個(gè)介于0至1之間的值,該值越大,表示正向傾向概率越高。
sout=snownlp.SnowNLP(txt)
v=sout.sentiments
2.4實(shí)驗(yàn)結(jié)果及分析
2.4.1高頻詞結(jié)果
提取詞頻分析的高頻詞排名前30的結(jié)果如表1所示,使用排名前500的詞繪制詞云圖如圖1所示。
從高頻詞和可視化的詞去圖的數(shù)據(jù)可以看出,游客最感興趣的還是泰山的景點(diǎn)名稱,如:泰山、日出、天門、南天門、玉皇頂?shù)?;?duì)于登山的也很關(guān)注,如:下山、爬山、上山、索道、纜車等;還有一些與體驗(yàn)相關(guān)的詞,如;可以、非常、值得、沒在、不錯(cuò)等;通過提取排名前300的詞匯,還可以發(fā)現(xiàn):排隊(duì)、很累、講解、拍照、賓館、買票、拐棍、礦泉水、住宿等與旅游的六要素相關(guān)的詞匯。通過人工分類,得出與六要素相關(guān)的部門詞匯如表2所示。
2.4.2情感分析結(jié)果
如前文所述,SnowNLP對(duì)某段文本進(jìn)行情感分析的結(jié)果是一個(gè)界于0至1之間的一個(gè)浮點(diǎn)數(shù),離1越近,就表示正向傾向概率越高,離0越近,表示正向傾向概率越低。本次實(shí)驗(yàn)情感分析游客對(duì)該景區(qū)的正向傾向平均得分為0.7086,即游客們對(duì)景區(qū)的評(píng)價(jià)的正向傾向概率為0.7086,從這個(gè)正向傾向分值來看,這說明游客對(duì)泰山景區(qū)的評(píng)價(jià)尚可,還是比較滿意的。
從正向傾向得分低的評(píng)價(jià)來看,主要反應(yīng)在這票務(wù)、設(shè)施方面,以下各摘錄兩條游客的評(píng)價(jià)。
票務(wù)方面:“我就不明白為啥網(wǎng)上訂不到現(xiàn)場(chǎng)掃碼能買,一個(gè)外地人,如果網(wǎng)上顯示的沒票,誰(shuí)能去門口碰運(yùn)氣呢,而且我白天咨詢景區(qū)工作人員,問說網(wǎng)上顯示不能訂票了,我現(xiàn)場(chǎng)能買票嗎,明確告訴我不能,太氣憤了?!?、“網(wǎng)上買的票,有身份證二維碼不能進(jìn),到檢票口不行又返回最底下取票,生氣,真麻煩挺好的心情沒了?!?/p>
設(shè)施方面:“就是衛(wèi)生間衛(wèi)生太差,滿地水,臭哄哄的,觀日出的賓館衛(wèi)生和條件太差,位列中國(guó)十大名山之一,和其他名山比,條件差太遠(yuǎn)?!薄ⅰ吧缴闲l(wèi)生間實(shí)在太差太臟,根本就是很久沒人清理過衛(wèi)生,很久沒有維護(hù)過公共設(shè)施!好幾個(gè)都沒有水可以洗手!”。
3結(jié)論及展望
本文使用詞頻分析和情感分析,對(duì)從網(wǎng)絡(luò)上抓取的泰山景區(qū)游客點(diǎn)評(píng)數(shù)據(jù)進(jìn)行了分析,得出了高頻詞,并繪制了詞云圖,從高頻詞和詞云圖,可以發(fā)現(xiàn)這些高頻詞與旅游和相關(guān)的。通過情感分析技術(shù),逐條對(duì)游客的評(píng)價(jià)進(jìn)行了分析,得出游客對(duì)泰山景區(qū)的還是比較認(rèn)可的,正向傾向?yàn)?.7086,有一定的提升空間。本次研究還列出了最差和最優(yōu)的前50條評(píng)價(jià),可以供企業(yè)參考,以改進(jìn)服務(wù)。本文對(duì)高頻詞的分類,采用的是人工分類,效率不高。許多研究采用了LDA進(jìn)行分類,LDA是一種主題模型,它可以將詞匯分解成若干主題,它是一種非監(jiān)督學(xué)習(xí)算法,在文本挖掘領(lǐng)域有著廣泛的應(yīng)用,使用Python語(yǔ)言中庫(kù)可以很方便的實(shí)現(xiàn)LDA算法,目前有很幾種庫(kù)可以實(shí)現(xiàn),如:gensim、sklearn、pyLDAvis等等。下一步將采用LDA算法對(duì)游客點(diǎn)評(píng)的文本分詞進(jìn)行主題分類,更高效、客觀的得出詞頻的主題分類。
此次的研究成果,還可以應(yīng)用于教學(xué)中,反哺教學(xué)?!堵糜螖?shù)據(jù)挖掘》是南京旅游職業(yè)學(xué)院電子商務(wù)專業(yè)開設(shè)的一門專業(yè)核心課程,該課程的主要內(nèi)容就是利用python語(yǔ)言為編程語(yǔ)言,選用適合的數(shù)據(jù)挖掘方法,對(duì)收集來的旅游數(shù)據(jù)進(jìn)行處理,從數(shù)據(jù)中提取有用信息。該課程開設(shè)的目的,就是使學(xué)生具備一定的數(shù)據(jù)采集、預(yù)處理、分析及可視化能力,并在將來的實(shí)際工作中,更深入地理解旅游業(yè)務(wù)數(shù)據(jù)、從中發(fā)現(xiàn)機(jī)會(huì)。本次研究的過程,可以設(shè)計(jì)成實(shí)訓(xùn)案例,讓學(xué)生們動(dòng)手做完:網(wǎng)絡(luò)點(diǎn)評(píng)數(shù)據(jù)抓取、中文分詞、詞頻統(tǒng)計(jì)、詞云圖繪制以及情感分析整個(gè)針對(duì)游客點(diǎn)評(píng)的文本分析過程。如何設(shè)計(jì)好這個(gè)案例,并且應(yīng)用到教學(xué)中,也是今后進(jìn)一步研究的內(nèi)容。
參考文獻(xiàn):
[1]王新宇.基于情感詞典與機(jī)器學(xué)習(xí)的旅游網(wǎng)絡(luò)評(píng)價(jià)情感分析研究[J].計(jì)算機(jī)與數(shù)字工程,2016,44(04):578-582+766.
[2]鄭文英.旅行目的地中文評(píng)論的情感分析研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2010.
[3]覃國(guó)蓉,葉志成,莊檳豪,等.旅游網(wǎng)絡(luò)評(píng)論情感分析方法研究及系統(tǒng)實(shí)現(xiàn)[J]. 深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2015,13(03):57-62.
[4]郝若琳.四川省5A級(jí)旅游景區(qū)線上評(píng)論的文本情感分析[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,(12):1-3.
[5]陳浩.黃鶴樓旅游景區(qū)在線文本情感分析研究[D].蚌埠:安徽財(cái)經(jīng)大學(xué),2021.
基金資助:江蘇省高校哲學(xué)社會(huì)科學(xué)重點(diǎn)研究基地“新時(shí)代應(yīng)用型旅游人才研究中心“子課題;項(xiàng)目名稱:新時(shí)代應(yīng)用型旅游人才的勝任力研究;項(xiàng)目編號(hào):2020SKJD04;南京旅游職業(yè)學(xué)院電子商務(wù)數(shù)據(jù)分析1+X證書試點(diǎn);項(xiàng)目編號(hào):2019X2
作者簡(jiǎn)介:王新宇(1976—),男,漢族,江蘇泰州人,碩士,副教授,研究方向:智慧旅游。