張旭輝,張 郴,李雅南,徐梓榆,黃震方
(1.南京師范大學地理科學學院,江蘇 南京 210023) (2.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023)
餐飲服務是城市[1]及城市旅游[2]的重要組成部分,地方特色餐飲作為代表城市文化、風格等要素的標簽[3],也逐漸成為反映城市旅游發(fā)展水平的晴雨表[4]. 隨著體驗經(jīng)濟的興起,餐飲消費逐漸向精神性消費轉(zhuǎn)變[5],游客更加重視消費過程中的精神享受和社會歸屬感[6]. 因此研究餐飲體驗,對促進城市餐飲業(yè)健康發(fā)展、擴大城市旅游影響力不可小覷[7].
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和用戶規(guī)模的爆發(fā)性增長,大量游客在旅游線上平臺[8]、微博[9]及博客[10-11]發(fā)布對旅游目的地的點評、游記、攻略等文字信息. 相較于線下問卷和訪談數(shù)據(jù),網(wǎng)絡文本數(shù)據(jù)在數(shù)據(jù)采集上受時空約束較小,且信息內(nèi)容往往更加全面、深入地反映游客的真實想法. 因此,基于旅游網(wǎng)絡文本已成為當前國內(nèi)外開展旅游研究的一大重要趨勢[12-15].
目前基于旅游網(wǎng)絡文本的研究主要是對旅游地形象關(guān)鍵感知元素提取[16-19]和雙向情感分類[20-23]. 研究方法主要是運用內(nèi)容分析法,對網(wǎng)絡游記詞頻分析和語義網(wǎng)絡分析. 這類研究在方法機理上大多是對旅游文本高頻詞的頻數(shù)統(tǒng)計[24-26],但是漢語博大精深,往往一詞多義,并且一篇旅游餐飲文本往往具有情感多元的特點,所以如何探尋文本背后的內(nèi)在語義,準確發(fā)現(xiàn)游客對餐飲評價的真實情感,運用智能數(shù)據(jù)分析手段對情感分類進行拆解,建立雙向情感語義關(guān)聯(lián),是旅游餐飲文本分析亟待解決的重要問題. 近年來,張郴等將該方法運用于對旅游地個性[27]及形象感知的研究[28],并提出了以該方法為支撐、線上線下數(shù)據(jù)聯(lián)動的旅游地三元空間思想[29].
基于此,本研究建構(gòu)融合注意力機制的卷積神經(jīng)網(wǎng)絡模型,旨在對旅游餐飲文本背后的深層語義關(guān)聯(lián)進行深度挖掘,探尋影響游客積極餐飲體驗的激勵因素和消極餐飲體驗的保健因素,并進行影響機制分析,這適用于旅游網(wǎng)絡文本自身特質(zhì). 當前餐飲體驗研究在城市旅游競爭力提升中的重要作用不斷凸顯,提升游客對旅游目的地餐飲店的滿意度,是提升城市形象、凸顯城市特色,進而實現(xiàn)城市旅游吸引力的關(guān)鍵.
1.1.1 旅游餐飲概念界定
目前,比較權(quán)威的旅游餐飲(tourist catering)概念是指為旅游者旅行游覽過程中提供的餐飲服務[30]. 在傳統(tǒng)的旅游六要素“食、住、行、游、購、娛”中,“食”排在了首位,故而“食”是旅游中的重要環(huán)節(jié),研究旅游餐飲,對促進城市經(jīng)濟發(fā)展、提高城市競爭力和影響力具有重要意義[31]. 不同于社會餐飲,旅游餐飲的概念主要體現(xiàn)在地方特色性和全面性. 其中,旅游餐飲概念的全面性體現(xiàn)在它覆蓋了所有旅游者的飲食活動,貫穿于整個旅游行程之中,因此,對旅游餐飲的研究具有普遍性的意義.
1.1.2 旅游餐飲體驗研究現(xiàn)狀
有學者基于問卷分析法和數(shù)理統(tǒng)計分析方法,探討了感官體驗、情感體驗、關(guān)聯(lián)體驗對品牌忠誠的影響機制[32]. 這是基于線下問卷的方式展開. 還有學者基于線上餐飲評論文本,利用機器學習方法中的自然語言處理技術(shù),分析了大量在線餐飲評論,實證研究了餐飲店顧客價值的潛在影響因素與餐飲體驗之間的關(guān)系[33]. 目前在餐飲文本情感研究中,主要從情感極性和情感特征提取兩方面展開,通過分析游客情感,開展旅游餐飲體驗研究;利用機器學習中的監(jiān)督學習方法預測餐飲文本的情感極性. 但是有不同聲音提出,基于機器學習的方法只能判斷出情感的極性而不能表達出情感傾向性的強烈程度,因此提出了將TF-IDF同情感詞典相結(jié)合的情感分析算法. 情感分析任務中最重要的環(huán)節(jié)就是從因素紛雜、情感多元的餐飲文本中提取出情感特征,所以也有研究從中文餐飲評論數(shù)據(jù)集中提取中文語義特征和文本情感特征[34].
1.2.1 機器學習在旅游網(wǎng)絡文本分析中的應用
機器學習方法在旅游網(wǎng)絡文本中的應用主要體現(xiàn)在對文本情感分析研究. 目前對旅游網(wǎng)絡文本進行情感分析是基于詞典和基于機器學習方法[35]. 基于情感詞典的計算方法,依賴人工設(shè)定的規(guī)則和情感詞典,當文本結(jié)構(gòu)較復雜或包含未收錄的情感詞時,就會有一定的局限性,而機器學習方法不需要人工定義規(guī)則,概括能力較強,能夠應用于大規(guī)模的數(shù)據(jù)處理,同時可以對分析結(jié)果進行定量評價. 但是由于尚無完善的旅游情感標注數(shù)據(jù)集,所以機器學習方法尚未在旅游文本情感分析中得到充分應用.
同內(nèi)容分析法中的簡單詞頻統(tǒng)計分析相比,機器學習方法對旅游網(wǎng)絡文本挖掘更加深入,能夠發(fā)現(xiàn)文本背后深層語義關(guān)聯(lián),也可以較為準確地反映游客對旅游目的地的體驗感受. 但是旅游餐飲文本要素繁雜,僅僅靠機器學習中的神經(jīng)網(wǎng)絡還無法進一步探尋影響游客對目的地餐飲體驗背后的作用機制,因此還需要借助注意力機制.
1.2.2 機器學習中注意力機制的研究應用
注意力機制在網(wǎng)絡文本研究中,主要是將注意力機制和循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、雙向門限循環(huán)網(wǎng)絡、雙向長短時記憶網(wǎng)絡結(jié)合,進行文本分類. 傳統(tǒng)文本分類方法,可以歸結(jié)為特征工程和分類器兩個部分,但是特征工程工作量較大,再加上近年來深度學習在自然語言處理領(lǐng)域表現(xiàn)優(yōu)異,基于深度學習的文本分類方法引起國內(nèi)外學者的關(guān)注.
除此之外,注意力機制在網(wǎng)絡文本的特征提取中也發(fā)揮了重要作用. 引入注意力機制,利用權(quán)重可視化分析技術(shù),可以更加直觀地獲取重要特征信息. 與此同時,基于注意力機制的深度神經(jīng)網(wǎng)絡模型在文本特征提取目標任務中也取得了較好的成果. 自注意力機制可以有效捕獲文本內(nèi)部的結(jié)構(gòu)及依賴關(guān)系,進行特征學習時提取到的特征含義將更加豐富,進一步對原始數(shù)據(jù)的特征信息進行更高層次的抽象,從而提升模型性能,因此可以基于自注意力模型進行中文短文本情感分析.
數(shù)據(jù)收集工作于2020年6月進行,本研究抓取了2015年1月—2020年6月的游記文本,并將其用文檔的形式,存儲到本地文件夾. 去除重復的、文字較少、以圖片為主的游記后,共得到668條游記. 因為本研究屬于監(jiān)督訓練模型,需要已經(jīng)標注好的數(shù)據(jù)集,所以將351條游記文本作為訓練集,并將其按照積極、消極和中立的情感分類,進行手動標記,最后把剩余的317條游記文本作為測試集,即訓練結(jié)束后用來測試文本分類效果的文本集.
由于從攜程、途牛、馬蜂窩這三個旅游在線平臺爬取的旅游文本中包含的數(shù)字、符號等無用信息會對模型構(gòu)建造成干擾,所以需對其文本預處理. 本研究首先用Python的正則表達式進行文本去噪,然后進行分詞處理,使用Python中的jieba分詞包,將文本中的一句話劃分為若干個相互不關(guān)聯(lián)的詞語. 中文分詞后,文本中出現(xiàn)的所有詞語都會被劃分,而有些沒有實際意義的詞會加大后續(xù)工作量,所以還需引入停用詞優(yōu)化分詞的實際效果.
圖1 基于注意力機制的卷積神經(jīng)網(wǎng)絡模型建構(gòu)Fig.1 Construction of convolutional neural network model based on Attention mechanism
數(shù)據(jù)預處理之后,引入卷積神經(jīng)網(wǎng)絡作為本次的研究模型. 采用基于注意力機制的卷積神經(jīng)網(wǎng)絡,模型有2條路徑,每條路徑配1個注意力機制,兩者在中間層會共享一些基礎(chǔ)的特征語義表達,具體如圖1所示. 此模型有2個通道:正/非正文本集合、負/非負文本集合.
首先,選取word2vec中的“Skip-gram”模型. 盡管“Skip-gram”的訓練時間相對“CBOW”模型較長,但它在數(shù)據(jù)量較少或生僻詞含量較多的情況下,會使經(jīng)過多次調(diào)整得到的詞向量具有更高的準確度,因此比較適合餐飲文本.
然后,構(gòu)建卷積神經(jīng)網(wǎng)絡模型. 第1層是輸入層,該層的任務是將詞向量組成句子矩陣. 由于文本短語義信息較少,因此在不同的輸入層調(diào)用了2種不同方式訓練的詞向量,這種方式能夠獲取更多的語義信息. 第2層是卷積層,該層的任務是對輸入的矩陣通過卷積核進行卷積運算,一般會選擇多種尺寸卷積核對輸入矩陣進行卷積運算,以便獲取較多語義單元信息. 其特征計算公式如式(1)所示:
(1)
式中,W為卷積核矩陣,Ti:i+h-1表示文本矩陣的第i至i+h-1行,輸出的是C((n-h+1)×k)特征矩陣,如式(2)所示:
C=f((n-h+1)×k+b),
(2)
式中,f為激活函數(shù),f(x)=max(0,x),b為偏置項. 第3層是池化層,該層的任務是以局部代表性元素代表該區(qū)域特征達到特征降維的效果. 第4層是全連接層,該層的任務是將池化層輸出的特征組合成最終的特征向量. 將輸入按照濾波器的順序組合成特征向量,輸出全連接至soft-max決策層. 最后1層是 soft-max 層,soft-max是一個概率分類器,可以根據(jù)概率P進行類別分類.該層的輸入是全連接的特征向量,輸出是判斷的類別,計算公式如式(3)所示:
P=SoftMax(Wcv+bc).
(3)
最后,引入Attention機制. 數(shù)據(jù)源(Source)本質(zhì)可以理解為由一系列的鍵值對
(4)
圖2 保健文本分類準確率Fig.2 Accuracy rate of healthcare text classification
圖3 保健文本分類損失率Fig.3 Loss rate of healthcare text classification
研究結(jié)果顯示,保健因素由價格、區(qū)位交通和服務組成,具體結(jié)果如表1所示. 本文首先將人工標記的“負和非負”的訓練集通過卷積神經(jīng)網(wǎng)絡模型進行學習,然后對測試文本分類,分類效果如圖2所示. 從圖2可以看出,訓練集的準確率在不斷上升,可以達到97%的準確率,而驗證集,即從訓練集中隨機抽取20%的文本組成的文本集,準確率也可以達到70%左右,并且訓練集的損失率是在不斷降低(見圖3).
表1 基于Attention機制的保健因素及組成要素Table 1 Healthcare factors and components based on Attention mechanism
本研究將屬于保健因素的文本融合在一起,引入注意力機制模型,選取權(quán)重排名前32位的詞匯,結(jié)合表1和圖4可以看到,“價格”的權(quán)重為0.125 8,在所有的詞匯中是最高的,“人均”和“貴”的權(quán)重分別為0.108 2和0.019 4,并且“人均”的權(quán)重在所有詞匯的排序中位列第二,因此本文根據(jù)這3個詞匯將其歸為餐飲價格和人均消費. 由于指向的都是和價格有關(guān),所以第1個保健因素就是價格. 從中可以看出,游客在旅游的過程中比較在意的是經(jīng)濟因素,大家首先會去關(guān)注價格,追求性價比更高的餐飲店或者小吃店,如果覺得實際花費和餐飲體驗不匹配,或是價格比較貴,高于心理預期,就容易產(chǎn)生不滿情緒. 從以下選取的部分游記內(nèi)容便可以得到佐證. 例如,游客在游記中寫道:“其實就是四川缽缽雞的做法,穿成一串串賣,價格適中,但像我們這種食量還是很容易吃成一頓主食的預算的. ” “粉絲吃到嘴里很有彈性,里面的鴨腸鴨血什么的也沒有異味,應該洗得比較干凈,現(xiàn)在是越來越貴,份量越來越少了. ”
“位置”和“地鐵”的權(quán)重分別為0.088 6和0.035 1,在所有詞匯中位居前列,說明它們是餐飲保健因素中較為重要的影響因素. 除此之外,權(quán)重為0.025 9的“距離”也是影響因素之一,說明游客會在意餐飲店的地理位置是否優(yōu)越、交通方式是否便捷,因此可以將區(qū)位交通歸納為第2個保健因素. 對于外地游客來說,來到一個陌生的地方,如果餐飲店的位置偏僻、距離地鐵站較遠,或是為了吃到心心念念的美食,但由于距離太遠,只能放棄計劃,這樣可能就會心生不滿.
“衛(wèi)生”的權(quán)重較高,為0.053 0,在所有的詞匯中位列第四,還有“新鮮”“干凈”“筷子”詞匯,權(quán)重分別為0.018 1、0.016 7、0.008 9,從以上結(jié)果可以看出,衛(wèi)生環(huán)境是游客較為看重的,尤其是飲食的衛(wèi)生狀況,例如菜品是否新鮮干凈、碗筷消毒措施有沒有做好. 另外,“耐心”“熱情”和“親切”反應的都是一種服務態(tài)度,對于餐飲業(yè)來說,保持耐心、親切、熱情的服務態(tài)度,是每一個服務人員必須具備的,這些都是游客評價餐飲店好壞的重要衡量指標之一. 而上述提到的衛(wèi)生也是服務的一部分,所以將服務作為第3個保健因素,服務的好壞會直接影響到游客對餐飲店的意象感知和情感評價.
圖4 保健因素被Attention到的前32位詞匯權(quán)重Fig.4 The top 32 vocabulary weights of healthcare factors by Attention
研究結(jié)果顯示,激勵因素由口味、名氣和文化環(huán)境組成,具體結(jié)果如表2所示. 本文首先將人工標記的“正和非正”的訓練集通過卷積神經(jīng)網(wǎng)絡模型進行學習,然后對測試文本分類,分類效果如圖5所示. 從圖5可以看出,訓練集的準確率在不斷上升,可以達到98%的準確率,而驗證集準確率也可以達到90%左右,并且訓練集的損失率也是在不斷降低(見圖6).
表2 基于Attention機制的激勵因素及組成要素Table 2 Motivational factors and components based on Attention mechanism
圖5 激勵文本分類準確率Fig.5 Accuracy rate of motivational text classification
圖6 激勵文本分類損失率Fig.6 Loss rate of motivational text classification
本研究將屬于激勵因素的文本融合在一起,引入注意力機制模型,選取權(quán)重排名前32位的詞匯. 結(jié)合表2 和圖7可以看出,權(quán)重為0.097 0的“淮揚菜”在所有詞匯中位列第二,“火鍋”以0.092 2的權(quán)重緊隨其后,“農(nóng)家樂”的權(quán)重0.023 8也較高,“清真”“燒烤”“自助餐”的權(quán)重分別為0.014 1、0.009 3、0.008 1. 對于眾多旅游者來說,如果到了一個具有特色的城市,卻沒有品嘗當?shù)氐拿牢?就如同沒有去過一樣. 當游客領(lǐng)略過南京古城的文化之后,緊接著就是對南京當?shù)氐拿朗车奶剿? 在南京可以品嘗到正宗的淮揚菜,體驗農(nóng)家樂餐廳及清真餐廳,這些特色餐飲會給游客留下深刻印象. 而對于有的游客來說,吃到火鍋、燒烤、自助餐這樣的人氣餐飲就心滿意足,獲得了超出期望的餐飲體驗,產(chǎn)生積極情緒. 所以本文將特色餐飲和人氣餐飲歸納為口味,作為第1個激勵因素.
文本將“名氣”歸為第2個激勵因素. 從結(jié)果來看,權(quán)重為0.038 9的“好評”、0.019 0的“名不虛傳”及0.007 2的“網(wǎng)紅”指向的是網(wǎng)絡評價. 隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們喜歡將餐飲體驗發(fā)布到線上平臺,這將成為還未前去“打卡”的人們的重要參考標準. 評論內(nèi)容的好評越多,就越容易被青睞,這正是游記中“南京小吃,中國四大小吃之一,位列之首. 鹽水鴨、麻辣小龍蝦、鴨血粉絲湯等特色美食頗受大眾的好評”的體現(xiàn). 除此之外,網(wǎng)紅餐飲店對于增加游客滿意度也會額外加分,就像游記中描述的“老門東網(wǎng)紅小吃都聚在一起,在L型的巷子里,門前都排隊好長. 老公費了好大的功夫幫我買了:小鄭燒餅所有口味都來一個、藍老大糖粥、梅花糕、黃勤記涼粉、小魚鍋貼、肉燕等等”. 另外,權(quán)重為0.008 3的“老字號”和 0.007 2 的“老店”也是影響因素之一,因為一些標有“老字號”的傳統(tǒng)老店,也會給游客留下深刻的印象.
“精致”的權(quán)重為0.042 5,位列第五,“獨特”“風格”“民國”分別以0.039 3、0.037 2、0.025 9的權(quán)重緊隨其后. 餐飲店的格調(diào)和文化氛圍會給游客帶來意外之喜,產(chǎn)生積極情緒. 菜品好吃固然重要,餐飲店的裝潢和風格同樣不容忽視. 如果餐飲店裝潢很精致,就很容易讓游客產(chǎn)生積極情緒. 除此之外,權(quán)重為0.016 4的“明清”也是不可忽視的因素之一,明清文化氛圍在餐飲店建筑風格中的體現(xiàn),將會給每一位外地游客對文化底蘊深厚、歷史和現(xiàn)代化并存的南京留下深刻印象. 綜上所述,本文將文化環(huán)境歸為第3個激勵因素.
圖7 激勵因素被Attention到的前32位詞匯權(quán)重Fig.7 The top 32 vocabulary weights of motivational factors by Attention
(1)本研究通過構(gòu)建雙因素機制模型,將游客對旅游餐飲的體驗情感分為積極、中立、消極三個情感傾向,由此發(fā)現(xiàn)由負、非負組成的保健因素和正、非正組成的激勵因素兩個層面,突破了“二元對立”傳統(tǒng)情感分析思路,發(fā)現(xiàn)了不同層級下的影響體驗元素及其影響機制.
(2)本研究使用的基于注意力機制的機器學習的卷積神經(jīng)網(wǎng)絡模型,可以較好地展現(xiàn)文本背后的深層語義和內(nèi)在隱含關(guān)聯(lián),發(fā)現(xiàn)保健因素由價格、區(qū)位交通和服務構(gòu)成;激勵因素由口味、名氣和文化環(huán)境構(gòu)成.
(3)借助Attention機制,本文根據(jù)要素的權(quán)重大小進行排序,發(fā)現(xiàn)價格是保健因素中平均權(quán)重最高的因素,之后是區(qū)位交通和服務;口味是激勵因素中平均權(quán)重最高的因素,之后是名氣和文化環(huán)境. 通過優(yōu)先解決權(quán)重較高的要素,可以更全面和更有針對性地為城市旅游地餐飲管理提供實用的見解.