肖文杰 張艷芳
摘 要:從微觀尺度出發(fā),利用在線評論大數(shù)據(jù)對景區(qū)的網(wǎng)絡(luò)口碑進行研究。選取張家界國家森林公園為研究對象,從大數(shù)據(jù)視角入手,以新浪微博和馬蜂窩等平臺為信息中介,抓取并研究案例相關(guān)評論數(shù)據(jù),構(gòu)建樸素貝葉斯情感分類器對張家界國家森林公園的網(wǎng)絡(luò)口碑進行分析。結(jié)果表明,與近幾年相比,研究案例在2018年的網(wǎng)絡(luò)口碑有一定程度的下降,與現(xiàn)實情況吻合;此外評論的分類準(zhǔn)確率、召回率以及F值等評價指標(biāo)均在90%左右,研究結(jié)果和研究方法對分析景區(qū)的網(wǎng)絡(luò)口碑具有參考價值。
關(guān)鍵詞:在線評論;網(wǎng)絡(luò)口碑;旅游景區(qū);情感分類器
0 引言
互聯(lián)網(wǎng)的發(fā)展經(jīng)歷了Web1.0到Web2.0的轉(zhuǎn)變,信息傳播方式由被動接收轉(zhuǎn)變?yōu)槿缃竦碾p向互動。雙向互動的信息傳播方式促使一大批互動交流平臺如雨后春筍般出現(xiàn),為互聯(lián)網(wǎng)用戶通過網(wǎng)絡(luò)表達自己的意見和觀點提供了有效渠道。微博和微信就是典型。以新浪微博為例,截至2019年3月底,微博活躍用戶數(shù)達4.65億,日活躍用戶數(shù)達2.03億,大規(guī)模用戶評論體現(xiàn)了用戶群體的觀點。在大數(shù)據(jù)時代,深入挖掘大數(shù)據(jù)的內(nèi)在價值,是開展相關(guān)研究的新途徑和新思路,可為決策提供客觀、理性的參考依據(jù)。
旅游目的地的網(wǎng)絡(luò)口碑關(guān)系到旅游目的地的旅游形象,影響到游客的旅游決策,因此旅游目的地的網(wǎng)絡(luò)口碑成為旅游研究熱點之一。所謂網(wǎng)絡(luò)口碑(internet word-of-mouth,IWOM)[1],是指客戶在網(wǎng)上發(fā)布、借助互聯(lián)網(wǎng)傳遞給其他潛在消費者的與企業(yè)產(chǎn)品以及服務(wù)等有關(guān)的各種評價[2],而將網(wǎng)絡(luò)口碑引入旅游學(xué)科最早由林巧等[3]完成。國外學(xué)者對于旅游行業(yè)的網(wǎng)絡(luò)口碑主要聚焦于酒店領(lǐng)域,具體而言涉及酒店網(wǎng)絡(luò)口碑傳播[4]、酒店網(wǎng)絡(luò)口碑滿意度[5]和網(wǎng)絡(luò)口碑預(yù)測[6]等方面。國內(nèi)不少學(xué)者關(guān)注旅游城市的旅游網(wǎng)絡(luò)口碑,主要從網(wǎng)絡(luò)口碑的影響力[7-11]和形象感知[12-13]進行研究。通過網(wǎng)絡(luò)口碑對潛在赴藏游客產(chǎn)生從眾心理進而間接影響潛在赴藏游客的購買行為是網(wǎng)絡(luò)口碑影響力的表現(xiàn)之一[11]。網(wǎng)絡(luò)口碑也可對一個旅游城市產(chǎn)生正反兩面的旅游形象感知,如朱翠蘭[13]通過AHP方法以福建省廈門市為研究對象,研究了網(wǎng)絡(luò)口碑文本,分析出廈門市旅游形象感知的正反兩方面因素。上述文獻雖然涉及到網(wǎng)絡(luò)口碑評價,但是相關(guān)文獻較少,主要采用內(nèi)容分析等方法進行定性研究。
近幾年,網(wǎng)絡(luò)口碑評價獲得了較多關(guān)注,學(xué)者們從不同角度對其進行定量研究。張若愚[14]利用LTP語言云分析句子之間的依存關(guān)系,形成景區(qū)特征與情感詞的關(guān)聯(lián)詞對,然后采用LDA主題模型將景區(qū)相關(guān)的在線評論劃分為18個主題,并將與主題相關(guān)的詞語歸類,構(gòu)建網(wǎng)絡(luò)口碑評價指標(biāo)體系,接著將之前得到的情感詞并入指標(biāo)體系并根據(jù)情感詞數(shù)量賦予指標(biāo)權(quán)重,最終對情感詞進行情感傾向判斷后采用層次分析法得出網(wǎng)絡(luò)口碑的綜合得分;邱燕[15]則根據(jù)旅游要素理論構(gòu)建了網(wǎng)絡(luò)口碑指標(biāo),并利用層次分析法(AHP)為每個關(guān)鍵詞賦予相應(yīng)的權(quán)重,最后以網(wǎng)絡(luò)爬蟲技術(shù)獲取有關(guān)景區(qū)的網(wǎng)絡(luò)輿情信息為數(shù)據(jù)源,計算每個景區(qū)的網(wǎng)絡(luò)口碑指數(shù)。
上述文獻的研究思路都是通過構(gòu)建網(wǎng)絡(luò)口碑指標(biāo)體系后采用層次分析法評價網(wǎng)絡(luò)口碑。然而,研究過程主要采用層次分析方法(AHP),學(xué)者在賦予評價指標(biāo)權(quán)重時,所參考的依據(jù)主要是網(wǎng)絡(luò)爬蟲數(shù)據(jù)中與指標(biāo)相關(guān)的詞匯量。而網(wǎng)絡(luò)爬蟲得到的數(shù)據(jù)不一定全面,也即網(wǎng)絡(luò)爬蟲的詞匯量并不一定具有代表性。因此,研究結(jié)論的科學(xué)合理性不可避免地受到影響。
本文創(chuàng)新之處在于利用樸素貝葉斯算法分析游客的情感傾向后,結(jié)合詞頻工具分析游客網(wǎng)絡(luò)口碑中正負(fù)面因素,最終給出提升網(wǎng)絡(luò)口碑的建議。雖然在網(wǎng)絡(luò)口碑研究領(lǐng)域,有不少學(xué)者利用樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、Kmeans等機器學(xué)習(xí)算法研究情感傾向[16-20],但是聚焦到旅游行業(yè)的相關(guān)文獻較少,并未發(fā)現(xiàn)有依據(jù)新浪微博、馬蜂窩等OTA網(wǎng)絡(luò)平臺評論數(shù)據(jù)進行張家界國家森林公園網(wǎng)絡(luò)口碑相關(guān)研究。
本文選取典型旅游景區(qū)作為微觀尺度的研究案例,從大數(shù)據(jù)視角入手,以新浪微博及馬蜂窩等OTA網(wǎng)絡(luò)平臺的評論數(shù)據(jù)為數(shù)據(jù)源,采用樸素貝葉斯方法對景區(qū)網(wǎng)絡(luò)口碑評價進行研究。
4.3 進一步實驗與討論
根據(jù)上述結(jié)論,除2018年外,近幾年張家界國家森林公園的網(wǎng)絡(luò)口碑整體屬于良好狀態(tài),但還有提升空間。對在線評論作進一步實驗分析和討論,過程如下:在對所有在線評論進行情感分類后,形成“好評”和“差評”兩個數(shù)據(jù)集,通過Python應(yīng)用Jieba工具的詞頻統(tǒng)計接口統(tǒng)計兩個數(shù)據(jù)集中出現(xiàn)的高頻詞匯,對高頻詞匯進行歸納總結(jié),即可得出張家界國家森林公園網(wǎng)絡(luò)口碑的正負(fù)面因素,深入分析正負(fù)面因素,為提升張家界國家森林公園的網(wǎng)絡(luò)口碑提出相應(yīng)建議。
(1)張家界國家森林公園網(wǎng)絡(luò)口碑正面因素。在線評論中“好評”數(shù)據(jù)集出現(xiàn)頻率較高的詞匯有“風(fēng)景”“優(yōu)美”“漂亮”“美不勝收”“巧奪天工”“性價比高”“值得”等。歸納起來,游客對張家界國家森林公園的“好評”集中在風(fēng)景美、性價比高這兩個因素上。風(fēng)景美在山有山的奇特、水有水的清秀;性價比高在景區(qū)內(nèi)景點多,可游玩時間長,一張門票有效期可達3天。
(2)張家界國家森林公園網(wǎng)絡(luò)口碑負(fù)面因素。在線評論“差評”數(shù)據(jù)集中出現(xiàn)頻率較高的詞匯有“排隊”“等待”“人多”“亂”“累”“熱”等。游客對張家界國家森林公園的“差評”主要表現(xiàn)在人多排隊現(xiàn)象嚴(yán)重,造成了游客在旅游過程中出現(xiàn)擁擠、線路混亂等現(xiàn)象,進而嚴(yán)重影響了旅游體驗。
(3)提升張家界森林公園網(wǎng)絡(luò)口碑的建議。以揚長避短為原則,加大宣傳正面因素、有效改進負(fù)面因素。具體而言,有如下建議:加強與游客在微博等新媒體上的互動頻率,對游客的評論及時給予反饋,對優(yōu)秀的評論可給予獎勵并以多種渠道進行宣傳;在旅游旺季限制游客流量,一方面限制每日的售票數(shù)量,為提高游客體驗,提前以多種方式公布每日已售票數(shù)和剩余票,并開通多種訂票渠道,另一方面在景區(qū)內(nèi)對人流較多的景點和路線采取分流措施;景區(qū)內(nèi)增加相應(yīng)公共設(shè)施減少因天氣變化對游客造成的不便,如階梯處增設(shè)防滑墊、景點增設(shè)躲雨或遮陽之處、在公共區(qū)域提前告示天氣變化。