国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工計算模型與機器學(xué)習(xí)模型的情感捕捉效度比較研究
——以旅游評論數(shù)據(jù)為例

2021-11-26 03:29孟令坤保繼剛趙創(chuàng)鈿
南開管理評論 2021年5期
關(guān)鍵詞:校驗人工機器

○ 劉 逸 孟令坤 保繼剛 趙創(chuàng)鈿

引言

在當(dāng)前信息化時代的新生活環(huán)境中,出現(xiàn)海量由用戶生產(chǎn)的數(shù)據(jù)(UGC, User Generated Content),為探索、解析復(fù)雜多變的消費者行為和社會經(jīng)濟現(xiàn)象提供了新的內(nèi)容和路徑。得益于智能手機終端、互聯(lián)網(wǎng)電商和社交媒體的普及,消費者在日常生活休閑娛樂消費過程中產(chǎn)生大量具備商業(yè)價值的分享數(shù)據(jù),如點贊、簽到、評分、點評、照片和體驗性文字等數(shù)據(jù)。這些每日生產(chǎn)的海量商業(yè)數(shù)據(jù)大部分以非結(jié)構(gòu)化或多源異構(gòu)形式存在。如何采集、解析和利用這些數(shù)據(jù)是當(dāng)前諸多學(xué)科關(guān)注的熱點。

早在十余年前,管理信息系統(tǒng)領(lǐng)域已經(jīng)開始研究這類數(shù)據(jù)的有用性和信度,特別是商業(yè)評論數(shù)據(jù),并用于各種理論校驗和分析預(yù)測。[1-4]李實等指出,挖掘在線商品評論的重點是情感分類,然而缺乏有效的辦法來快速和準(zhǔn)確地識別商品屬性和消費者意見之間的關(guān)系;[2]利用語言規(guī)則來編制分析算法,可以獲得較高的精度,但是需要大量手工工作,難以解決復(fù)雜的語義表達識別問題;[1]所以,傾向于使用機器學(xué)習(xí)的方法來識別產(chǎn)品特征所觸發(fā)的消費者情感。[3]十余年之后,UGC的有用性已經(jīng)得到了較為廣泛的認(rèn)可,諸多研究利用UGC來解釋新現(xiàn)象和捕獲新趨勢。[5]正如Ma等學(xué)者所言,整合統(tǒng)計學(xué)、概率論等多學(xué)科知識的機器學(xué)習(xí)算法已成為研究的熱潮,[6]例如Tourism Management和MIS Quarterly這兩個頂級期刊上關(guān)于UGC的文章,多使用機器學(xué)習(xí)算法進行數(shù)據(jù)挖掘。[7-9]這類算法以“自動學(xué)習(xí)”而不用人工編制規(guī)則的優(yōu)勢成為解讀海量、多源、異構(gòu)數(shù)據(jù)的重要利器,在市場營銷、接待業(yè)管理、信息管理等管理學(xué)領(lǐng)域[6,10,11]和地理科學(xué)、社會學(xué)和城市規(guī)劃等其他領(lǐng)域[12,13]均得到積極的應(yīng)用。

自然語言處理中的機器學(xué)習(xí)算法本質(zhì)上是基于統(tǒng)計學(xué)或神經(jīng)網(wǎng)絡(luò)算法編制的數(shù)學(xué)程序模型,其優(yōu)勢是可以從學(xué)習(xí)語料中自動識別出分析對象中高頻度出現(xiàn)的規(guī)律,由此對新處理的信息可以輸出計算結(jié)果。從投入成本和工作效率上看,機器學(xué)習(xí)方法占絕對優(yōu)勢,一方面它只需要提供簡單的標(biāo)簽數(shù)據(jù)進行訓(xùn)練,省去了建模的邏輯推演及復(fù)雜數(shù)據(jù)結(jié)構(gòu)的清洗,可以快速得到計算結(jié)果;另一方面,隨著學(xué)習(xí)語料的增加,這些模型的準(zhǔn)確度可以不斷提高,理論上可以接近極限。然而這一類算法存在算法“黑箱”弊端,即在得到結(jié)果之后,無法歸因和推演所研究對象的機制。而這一點,正是傳統(tǒng)的、基于自然語言邏輯處理的算法模型所具備的優(yōu)勢,由于這類模型往往采用人為定義的規(guī)則對數(shù)據(jù)進行處理,本文將其統(tǒng)稱為“人工計算模型”。它的優(yōu)勢在于,可以根據(jù)分析者的需求和所處理文本的語法邏輯,設(shè)定分析規(guī)則和步驟,并且有針對性地根據(jù)分析內(nèi)容展開深度解釋,其缺點是需要對不同類型、不同語言的文本進行建模并展開校驗。

本文認(rèn)為,管理學(xué)科所涉及的研究問題在復(fù)雜性和不確定性方面尚未達到廣大研究學(xué)者難以駕馭的程度。過分倚重機器學(xué)習(xí)模型不利于我們發(fā)現(xiàn)機制和解釋現(xiàn)象,相對而言,傳統(tǒng)的人工計算模型擁有不可替代的機制探索作用。那么機器學(xué)習(xí)對于強調(diào)邏輯和規(guī)則的人工計算模型是否有著絕對替代優(yōu)勢?我們是否應(yīng)該把海量數(shù)據(jù)的趨勢捕捉(如情感分類)問題交給機器學(xué)習(xí)模型,而放棄對其數(shù)據(jù)分析邏輯進行探究?

一、評論數(shù)據(jù)挖掘方法與問題

1.文本情感計算方法與存在問題

文本情感計算屬于情感分析(Sentiment Analysis)研究,[14]是自然語言處理(Natural Language Processing,NLP)的一個研究領(lǐng)域,[15]主要是指分析信息背后隱含的情緒狀態(tài),從而判斷或評估信息發(fā)布者的態(tài)度和意見,將定性的文本數(shù)據(jù)轉(zhuǎn)換成定量的情感數(shù)據(jù)。文本情感計算的技術(shù)思路是通過文本挖掘技術(shù)和自然語言處理技術(shù),將文本情感分為不同類別,從而達到判斷情感傾向的目的。[16]當(dāng)前研究仍然以情感傾向分類(Sentiment Classification)為主,即將情感分為正面、負(fù)面和中性三類。[6]

情感分析研究最早可追溯到20世紀(jì)70年代末到80年代初,到了21世紀(jì)初,研究者才開始關(guān)注文本隱含的情緒、情感,文本情感計算研究逐漸增多。Hu等首次將文本情感計算拓展到市場營銷領(lǐng)域,[17]對產(chǎn)品的消費者評論應(yīng)用文本挖掘技術(shù),也因為情感計算可以有效幫助管理者獲取消費者對產(chǎn)品和競爭產(chǎn)品的態(tài)度,文本情感計算研究逐漸從計算機科學(xué)領(lǐng)域擴展到管理科學(xué)領(lǐng)域。目前,越來越多的管理學(xué)領(lǐng)域研究者開始針對商品評論應(yīng)用文本情感計算技術(shù)。

國外的相關(guān)研究發(fā)展歷史較長,積累了豐富的研究成果,主要可以分為技術(shù)開發(fā)類研究與實證應(yīng)用類研究兩類。前者需要研究者具備大量的自然語言處理、數(shù)學(xué)和計算機科學(xué)的背景知識,目前主要有兩個技術(shù)開發(fā)方向:基于統(tǒng)計或神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)模型和基于自然語言邏輯、需要人工設(shè)定語義規(guī)則的人工計算模型。實證類研究將情感計算作為一種定性數(shù)據(jù)(評論)定量化的工具,從而幫助探究商品評論的經(jīng)濟價值、[18]有用性,[19]或者與傳統(tǒng)的理論相結(jié)合進一步分析,如消費者行為、[20]服務(wù)質(zhì)量、意見領(lǐng)袖[11]等理論,實證類研究主要使用上述兩類計算方法來進行評論的情感分類,因此選擇準(zhǔn)確且合適的情感計算方法對研究結(jié)論極其重要。

與國外相比,國內(nèi)的相關(guān)研究尚處于起步階段,所使用的數(shù)據(jù)集中于影評數(shù)據(jù)、[4]微博文本[21]和商品在線評論,[22]計算技術(shù)也可以分為機器學(xué)習(xí)模型和人工計算模型兩類。研究領(lǐng)域主要圍繞零售業(yè)和酒店業(yè),對評論的經(jīng)濟價值、[4]在線口碑[22]和消費者滿意度[23]等管理學(xué)問題進行了探索。值得強調(diào)的是,由于中文表達復(fù)雜、語義豐富、看重上下文語境,且形式上缺乏英文文本中的空格難以分詞,使得英文的分類技術(shù)難以適用于中文,開展中文文本情感挖掘需要自行開發(fā)模型,難度大,因此中文文本情感計算技術(shù)進展相對緩慢。

2.文本情感分類中的機器學(xué)習(xí)模型和人工計算模型

基于機器學(xué)習(xí)的情感計算是指計算機根據(jù)文本數(shù)據(jù)情況抽取表達情感約束的特征。與人工計算模型一樣,都遵循分類判別—情感計算的邏輯,只是在分類方法上采取了非人類自然語言邏輯,通過建立技術(shù)模型自行總結(jié)規(guī)則,根據(jù)特征計量進行分類。[24]通過幫助計算機提前學(xué)習(xí)內(nèi)在規(guī)律性信息的文本數(shù)據(jù)被稱為“訓(xùn)練語料”。從給予機器的訓(xùn)練語料是否帶有人工標(biāo)注或者標(biāo)簽角度來看,可以將機器學(xué)習(xí)分為有監(jiān)督、半監(jiān)督及無監(jiān)督的機器學(xué)習(xí)。[25]從特征上進行對比,無監(jiān)督機器學(xué)習(xí)雖然省去了大量人工標(biāo)注的時間,但正確率普遍低于有監(jiān)督的機器學(xué)習(xí),[16]效果不佳,[26]因此在文本情感分類中一般采用有監(jiān)督的機器學(xué)習(xí)。有監(jiān)督的機器學(xué)習(xí)文本情感計算算法需要訓(xùn)練和測試兩個階段,包括構(gòu)建語料庫、特征表示與提取、性能評價等。[27]

當(dāng)前基于機器學(xué)習(xí)的文本情感分類技術(shù)不斷進步發(fā)展,較為主流的分類算法包括單一分類和集成分類兩類。[27]使用這些傳統(tǒng)機器學(xué)習(xí)算法的同時,研究人員還需設(shè)置相關(guān)規(guī)則或序列標(biāo)注,克服模型判斷中忽略不帶情感色彩的情感詞的缺點。因此盡管這些算法性能優(yōu)越,仍然無法靈活地進行特征擴展,而可以主動學(xué)習(xí)特征的深度學(xué)習(xí)方法逐漸受到關(guān)注。[28-30]

深度學(xué)習(xí)作為多層的神經(jīng)網(wǎng)絡(luò),可以模擬人腦復(fù)雜的層次化認(rèn)知規(guī)律,充分借鑒人腦的多分層結(jié)構(gòu),模擬神經(jīng)元的連接交互、逐層分析處理信息,賦予機器獲得“抽象概念”的能力。[31]基于上述優(yōu)勢,深度學(xué)習(xí)在文本情感分類中被大量應(yīng)用,王文凱等結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM),構(gòu)建了微博情感分析模型,添加句子結(jié)構(gòu)特征加強深層語義學(xué)習(xí)。[32]盡管理論上深度學(xué)習(xí)的“自主學(xué)習(xí)”能力更強,但目前仍然屬于亟待發(fā)展的新領(lǐng)域,捕捉深層語義信息方面的能力有所欠缺,[33]并且在實際應(yīng)用中需要海量的語料和長時間訓(xùn)練,計算能力受限,普及率仍然無法趕上傳統(tǒng)的機器學(xué)習(xí)模型。

人工計算模型的核心邏輯是通過匹配情感詞典與文本中的詞語,統(tǒng)計和分析文本中情感詞的褒貶性,判斷文本的情感傾向。因此,該類模型早期主要的研究方向集中在情感詞典的開發(fā)和優(yōu)化上,模型開發(fā)一般在上述詞典的基礎(chǔ)之上進行融合和擴展。[34]但僅考慮情感詞典中的情感詞對文本進行情感計算會導(dǎo)致上下文信息的缺失,從而影響文本情感判斷。因此隨著研究的深入,語義規(guī)則的開發(fā)逐漸得到重視,即利用語法、詞語出現(xiàn)位置等規(guī)則對情感詞進行加權(quán),[35]其中劉逸等提出的旅游情感評估(TSE)模型考慮網(wǎng)絡(luò)評論行為的特征,提出了“情感乘數(shù)”規(guī)則,消減人們在公共場所發(fā)表意見時的正面傾向,是一種創(chuàng)新性的規(guī)則。[36]總的來說,人工計算模型的質(zhì)量取決于情感詞典和語義規(guī)則的質(zhì)量。

3.人機之爭,孰優(yōu)孰劣

傳統(tǒng)研究多從假設(shè)規(guī)律開始,到收集數(shù)據(jù)和開展實證研究,而機器學(xué)習(xí)幾乎不做任何預(yù)設(shè),完全由計算機來判別規(guī)律是否存在,然后再進行總結(jié)歸納。從范式的角度來看,這個演變過程是革命性和顛覆性的。本文認(rèn)為,除了葉強團隊提出的準(zhǔn)確率問題外,[1-3]機器學(xué)習(xí)算法存在著算法邏輯的“黑箱效應(yīng)”,是不可回避的重大缺陷。[6]就文本情感計算而言,機器學(xué)習(xí)方法雖然能得到較高的情感傾向分類正確率,但只能通過測試結(jié)果選擇是否相信模型,并強烈依賴于訓(xùn)練語料。如果更換研究主題,只能提供新的語料進行訓(xùn)練,無法提煉出一般性模型進行推廣應(yīng)用。而分類效果較好的有監(jiān)督學(xué)習(xí)分類方法,即深度學(xué)習(xí),需要付出很高的標(biāo)注代價,并重復(fù)訓(xùn)練以達到較好的分類效果,模型更加復(fù)雜,抽取參數(shù)較多,模型的穩(wěn)定性易受干擾。[16]相比之下,人工計算模型通過人為設(shè)定情感判定規(guī)則,一旦解決了語義識別問題并建立詞庫,即可快速大量地進行情感分析工作,并且可以根據(jù)實際情況隨時調(diào)整詞庫和分析重點。[25]

盡管管理學(xué)在十余年前便認(rèn)識到了機器學(xué)習(xí)算法的局限,也認(rèn)為自然語言邏輯是較優(yōu)做法,但是最終學(xué)者們還是選擇效率優(yōu)先,走向了以機器學(xué)習(xí)法為主導(dǎo)的道路。不過近年來,開始有學(xué)者嘗試回歸傳統(tǒng)的人工方法,并開展了十分積極的校驗。劉逸等從旅游活動的內(nèi)容和游客表達的特征出發(fā),基于專屬詞庫、語法邏輯和情感乘數(shù),提出了一個評估旅游目的地正負(fù)面情感的方法——TSE模型,并且初步證實其有效性。[36,37]目前,該模型已被應(yīng)用于中澳游客情感意象對比和自然、人文旅游目的地的情感意象對比等多項研究中。[38-40]該方法從某種程度上對當(dāng)下基于人工智能的機器學(xué)習(xí)法提出了新的挑戰(zhàn)和應(yīng)用場景,但是在模型建設(shè)方面不夠規(guī)范,也尚未與基于機器學(xué)習(xí)的情感計算模型進行對比,在情感計算的準(zhǔn)確度上孰優(yōu)孰劣尚未可知,方法信度有待驗證。

綜上所述,本研究選擇旅游評論數(shù)據(jù),面向人工算法與機器學(xué)習(xí)算法兩種范式,利用評論文本的情感捕捉效度問題開展比較研究。本研究發(fā)現(xiàn),當(dāng)前淘寶、京東等主流電商的商品評論和新浪微博等社交平臺網(wǎng)絡(luò)評論的真實性問題存疑。由于刷單刷積分、提高曝光率、惡性競爭等原因,諸多商家會采用深度誘導(dǎo)(甚至直接要求)的方式,讓用戶提供圖文并茂的優(yōu)質(zhì)好評,①一些社交平臺用戶會購買僵尸賬號來制造虛假評論。②這些現(xiàn)象已經(jīng)引起學(xué)界關(guān)注,但目前尚未出現(xiàn)成熟的無效、虛假評論自動清洗工具,只能通過大量、耗時的人工清洗提升實驗數(shù)據(jù)的真實性,而一項針對大眾點評網(wǎng)虛假評論的研究發(fā)現(xiàn),[41]人工識別虛假評論的準(zhǔn)確率僅為53.1%-61.9%。[41]相比之下,在線旅游網(wǎng)站上的旅游目的地景點評論不直接面向景區(qū)等營利性主體,受商業(yè)利益驅(qū)動去控評的現(xiàn)象較少,較為樸實,噪音較小,真實性較高。同時旅游評論數(shù)據(jù)獲取難度較低,完整性高,也與本研究選取的TSE模型開發(fā)環(huán)境相匹配,因此我們選擇旅游目的地的景點評論作為實驗數(shù)據(jù)。該數(shù)據(jù)作為一種基于旅游活動的綜合性體驗態(tài)度的情感表達,能夠真實反映游客的情感態(tài)度,同時具備海量、實時、樣本全覆蓋等優(yōu)點,是一種全新且良好的研究素材,其有效性已經(jīng)在管理學(xué)和地理學(xué)中被初步證實。[36,42,43]本文聚焦對旅游評論的情感分類階段,暫不探討觀點挖掘,屬于情感分析問題,其本質(zhì)是通過一定的算法對不同類型的情感分類并計算出各自的強度,進一步對文本的主觀態(tài)度、情緒或觀點進行語義定向或極性分析,從而快速提取長文本的情感傾向、觀點和態(tài)度。[44]本研究的核心問題是判斷對于人工計算規(guī)則而言,機器學(xué)習(xí)算法在海量數(shù)據(jù)的情感捕獲中是否具有壓倒性優(yōu)勢。

二、研究方法與設(shè)計

本文利用訓(xùn)練構(gòu)建傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)模型,同時加入人工計算模型,對同一組校驗數(shù)據(jù)分別進行情感分類,將與校驗數(shù)據(jù)的相似性作為衡量模型情感評價效果的標(biāo)準(zhǔn),由此判斷三類模型的情感分類準(zhǔn)確率。

基于全面和不重復(fù)的原則,本研究在傳統(tǒng)機器學(xué)習(xí)模型中選擇了四個經(jīng)典且主流的分類模型:樸素貝葉斯、邏輯回歸模型(Softmax)、隨機森林和梯度提升決策樹(GBDT)基本涵蓋了傳統(tǒng)機器學(xué)習(xí)的核心類別。在深度學(xué)習(xí)方面,監(jiān)督式深度學(xué)習(xí)模型中的TextCNN(基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法)和TextRNN(基于循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類算法)兩個主流經(jīng)典模型被選入。在人工計算模型中,考慮到模型分類效果和校驗應(yīng)用場景的針對性,本文選擇劉逸等開發(fā)的TSE模型。[36]為完成本研究的測度,共需要準(zhǔn)備三套數(shù)據(jù):(1)訓(xùn)練機器學(xué)習(xí)6個模型所需的語料,簡稱“訓(xùn)練語料”;(2)用于給7個模型進行情感評價的旅游目的評論數(shù)據(jù),簡稱“實驗數(shù)據(jù)”;(3)用于校驗7個模型評價準(zhǔn)確度的問卷調(diào)查數(shù)據(jù)和人工判讀數(shù)據(jù),分別簡稱為“問卷校驗數(shù)據(jù)”和“人工校驗數(shù)據(jù)”。需要注意的是,人工校驗數(shù)據(jù)是通過人工判讀得到評論的情感得分,理論上是最為準(zhǔn)確的數(shù)據(jù)。

1.訓(xùn)練語料說明

本研究訓(xùn)練數(shù)據(jù)來自游客發(fā)布在旅游或生活服務(wù)類網(wǎng)站上關(guān)于某旅游目的地的短評論,這類數(shù)據(jù)的優(yōu)點是數(shù)據(jù)較為簡潔、內(nèi)容直接、長度適中、方便處理,同時具有清晰的時間、ID、評論對象和評分等屬性。本次選取了8個在線網(wǎng)站:主打旅游社交分享的馬蜂窩(Mafengwo)和貓途鷹(Tripadvisor中文版),提供在線旅行服務(wù)的攜程(Ctrip)、百度旅游(Baidu Travel)、驢媽媽(Lvmama)、美團(Meituan)、途牛(Tuniu),以及旅游信息平臺去哪兒(Qunar)。利用Python網(wǎng)絡(luò)爬蟲工具,采集上述網(wǎng)站中8個監(jiān)測點(與校驗數(shù)據(jù)一致,詳見第二節(jié)“校驗數(shù)據(jù)說明”)排名前20景點對應(yīng)年份的評論數(shù)據(jù),采集時間為2018年10月,保留28份實驗點樣本約60萬條數(shù)據(jù)。

從上述60萬條數(shù)據(jù)中抽取共20204條評論進行人工閱讀,賦予正面、負(fù)面和中性三類情感傾向的標(biāo)簽(-1、0、1,分別代表負(fù)面、中性和正面情感傾向),注意挑選含有情感觀點的評論。其中10204條評論用于訓(xùn)練機器學(xué)習(xí)6個模型,包括1842條中性評論、2870條負(fù)面評論及5492條正面評論,其余10000條作為“人工校驗數(shù)據(jù)”。

評論及其標(biāo)簽構(gòu)成“訓(xùn)練語料”,將其分為兩部分:80%(8163條)作為“訓(xùn)練用語料”,創(chuàng)建傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)模型,其余20%做“測試用語料”,評估模型泛化效果。具體語料選擇情況見表1。

表1 訓(xùn)練語料情況

2.校驗數(shù)據(jù)說明

本研究的“問卷校驗數(shù)據(jù)”來自聯(lián)合國世界旅游組織開展的旅游與可持續(xù)發(fā)展監(jiān)測活動問卷調(diào)查數(shù)據(jù)。2006年至今,聯(lián)合國世界旅游組織每年在常熟、成都、黃山、焦作、陽朔、西雙版納、喀納斯、洛陽、開封、張家界10個監(jiān)測點開展旅游可持續(xù)發(fā)展監(jiān)測活動,采用問卷調(diào)查的方式對旅游可持續(xù)發(fā)展指標(biāo)進行測度。其中針對游客整體滿意度,采取李克特5分量表的形式進行調(diào)查,1-5分對應(yīng)“非常不滿意”“不滿意”“中立”“滿意”和“非常滿意”。該數(shù)據(jù)較為科學(xué)地反映了游客對于旅游產(chǎn)品、服務(wù)、資源特色的綜合性感知和態(tài)度,作為參照數(shù)據(jù)較為客觀,且具備一定的科學(xué)性。

由于問卷數(shù)據(jù)中部分年份和地點的滿意度數(shù)據(jù)缺失,因此只保留了8個監(jiān)測點(黃山、洛陽、成都、西雙版納、焦作、張家界、喀納斯、陽朔)不同年份的滿意度數(shù)據(jù),共28個實驗點。考慮到之后對比的統(tǒng)一性和可行性,將問卷中的滿意度轉(zhuǎn)化為正面感知比例,即選擇3分以上的被調(diào)查游客占全部被調(diào)查游客的比例作為正面比例,3分為中性比例,低于3分為負(fù)面比例。

“人工校驗數(shù)據(jù)”是指對應(yīng)28個實驗點,收集相關(guān)旅游目的地對應(yīng)年份的旅游評論,從中抽取1萬條進行人工閱讀,賦予正面、負(fù)面和中性三類情感傾向標(biāo)簽,統(tǒng)計正面情感傾向標(biāo)簽的比例,作為人工校驗數(shù)據(jù)。兩類校驗數(shù)據(jù)的分布狀況見表2。

表2 校驗數(shù)據(jù)正面評價比例情況

3.實驗數(shù)據(jù)說明

本研究實驗數(shù)據(jù)來自游客發(fā)布在旅游或生活服務(wù)類網(wǎng)站上關(guān)于28個實驗點的短評論,考慮到監(jiān)測活動中的問卷調(diào)查均在暑期開展(喀納斯監(jiān)測時間為10月份),而結(jié)合評論人工閱讀情況和文獻支持可知,季節(jié)氣候、游客量等因素會嚴(yán)重影響游客對旅游目的地及景點的滿意度,進而影響評論中的情感表達,結(jié)合游客評論的時間滯后性和評論數(shù)量的保證,因此本研究只選取了2014-2018年相應(yīng)監(jiān)測點中6-8月的評論數(shù)據(jù)(喀納斯的評論數(shù)據(jù)時間選取9、10、11三個月),作為實驗數(shù)據(jù)。獲取評論數(shù)據(jù)后對數(shù)據(jù)進行了去重工作,刪除了評論中的重復(fù)項,最終得到244974條旅游評論。讓訓(xùn)練好的機器學(xué)習(xí)模型和TSE模型對上述評論進行情感傾向判斷,統(tǒng)計各個模型的計算結(jié)果,即判斷出的正面情感傾向評論數(shù)量占總體評論的比例,構(gòu)成“實驗數(shù)據(jù)”。

4.實驗流程

整體實驗流程如圖1所示,主要分為兩大步驟:首先進行機器學(xué)習(xí)的模型訓(xùn)練,并經(jīng)過性能評估達到要求;然后利用訓(xùn)練好的機器學(xué)習(xí)模型和TSE模型,進行交叉校驗,使用均方根誤差度量不同模型對旅游評論的情感分類效果。

圖1 實驗流程

5.方法說明

(1)模型原理介紹

TSE模型的情感評價原理是基于語義邏輯和情感偏好糾正下的詞頻統(tǒng)計法,主要包含建立旅游情感專屬詞庫、設(shè)定語義邏輯和選定情感乘數(shù)矯正評論正面傾向三部分內(nèi)容,語義邏輯主要從程度副詞、否定副詞和轉(zhuǎn)折連詞三個方面進行設(shè)定。本研究在原TSE模型基礎(chǔ)上,結(jié)合采集的實驗數(shù)據(jù)進行修正:①更新旅游情感專屬詞庫,刪去了136個難以判斷情感傾向或旅游情境中使用頻率低的詞語,增加正面情感詞99個,負(fù)面情感詞115個;②新增程度副詞5個。模型的計算邏輯如下:

其中γ為文本情感得分,包括1(正面)、-1(負(fù)面)、0(中性)三種結(jié)果,gn為否定副詞的數(shù)量,ga為轉(zhuǎn)折連詞的數(shù)量,gdp為正面詞前的程度副詞數(shù)量,gdn為負(fù)面詞前的程度副詞數(shù)量,P為正面詞數(shù)量,N為負(fù)面詞數(shù)量,e為情感乘數(shù);其他模型的原理和準(zhǔn)備方法如表3所示。

表3 不同模型原理及準(zhǔn)備方法總結(jié)

(2)機器學(xué)習(xí)模型訓(xùn)練

本文中模型訓(xùn)練的實驗環(huán)境安裝Tensorflow(基于數(shù)據(jù)流編程的符號數(shù)學(xué)系統(tǒng))模塊和Gensim(開源的第三方Python工具包)完成文本向量化及機器學(xué)習(xí)算法訓(xùn)練的基礎(chǔ)配置工作,使用Python編程語言。⑦

① 文本預(yù)處理。包括分詞、去除停用詞及特殊字符。中文分詞(Chinese Word Segmentation)指將連續(xù)的漢字序列切分成單獨的詞,如“賣相不好看味道一般般”,進行分詞后得到的詞語列表為“賣相不好看味道一般般”。本次研究使用Jieba中文分詞工具。⑧Jieba中文分詞支持三種分詞模式:精確模式、全模式和搜索引擎模式,這里采用默認(rèn)模式即精確模式進行文本分析。Jieba中文分詞支持增加自定義詞典,以便包含專有名詞和Jieba詞庫中沒有的詞,避免這些詞被切分開,同時保證更高的正確率,考慮到旅游評論中包含很多專有性詞語,在此添加了TSE模型中建立的旅游情感詞庫。停用詞(Stop Words)指數(shù)量很大但很少單獨表達文檔相關(guān)程度信息的功能詞,通常分為兩類:應(yīng)用廣泛的詞語與介詞、連接詞、數(shù)字等。去除這類詞語可以節(jié)省儲存空間和提高搜索效率。特殊字符包括單位符號、制表符等。

② 文本向量化。由于計算機無法識別自然語言,因此需要將預(yù)處理后的詞語列表轉(zhuǎn)換為數(shù)字列表,本文使用Word2vec算法⑨將大量詞語映射為高維向量表,然后文本根據(jù)自身蘊含的詞語構(gòu)建文本向量矩陣。Word2vec算法共有兩種模型:連續(xù)詞袋模型(CBOW)和Skip-gram(相當(dāng)于CBOW模型的鏡像)。這里使用的是Gensim封裝的Skip-gram模型,該模型輸入特征詞的詞向量可以輸出該詞匯對應(yīng)的上下文詞向量,具備高效、準(zhǔn)確等優(yōu)點。[45]共輸入212萬條評論數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),綜合考慮前人工作基礎(chǔ)和運算效率,選擇的向量維數(shù)為128維,窗口大小設(shè)定為5。

樸素貝葉斯模型在訓(xùn)練時未使用Word2vec算法進行詞向量表示,原因在于樸素貝葉斯只需要計算詞語概率,不需要學(xué)習(xí)語義特征。

③ 模型訓(xùn)練。中文文本分類模型訓(xùn)練的基本原理分為三層。輸入層是文本向量,隱藏層對文本向量進行權(quán)重、偏置和函數(shù)激勵的處理,輸出層輸出邏輯回歸結(jié)果,判斷輸入文本是否屬于同一類。傳統(tǒng)機器學(xué)習(xí)模型和深度學(xué)習(xí)的差別在于深度學(xué)習(xí)含有多個隱藏層。經(jīng)過參數(shù)優(yōu)化過程,隨機森林和GBDT模型均采用了200棵樹,樹的深度設(shè)定為5,深度學(xué)習(xí)方法中主要使用了神經(jīng)網(wǎng)絡(luò),都是將多維數(shù)組數(shù)據(jù)的輸入編碼轉(zhuǎn)換為低維度的向量。參考經(jīng)典文獻和前人工作基礎(chǔ),TextCNN卷積核數(shù)量設(shè)定為128,大小為3、4、5,邊緣擴充的方式為Valid(不進行任何處理,只使用原始圖像,不允許卷積核超出原始圖像邊界),采用了正則化防止過擬合,[46]TextRNN使用了LSTM的結(jié)構(gòu),隱藏層維數(shù)為200。[47]考慮到旅游評論文本的平均長度,兩者的限制最大長度均為50個詞語。為了便于理解和比較,TextCNN和TextRNN在全連接層都使用Softmax作為神經(jīng)網(wǎng)絡(luò)最后一層的分類器。

(3) 均方根誤差度量

本研究采取均方根誤差(RMSE)的方法對模型情感評價的效果進行校驗,通過計算7個模型的實驗數(shù)據(jù)和校驗數(shù)據(jù)之間的均方根誤差來觀察數(shù)據(jù)組之間的相似性,均方根最小的模型即情感評價效果較優(yōu)。均方根誤差也稱標(biāo)準(zhǔn)誤差,是觀測值和真值偏差的平方與觀測次數(shù)n比值的平方根。在實際測量中,真值只能用最可信賴(最佳)值來代替,本文使用問卷校驗數(shù)據(jù)和人工校驗數(shù)據(jù)代替真值。均方根誤差對一組數(shù)據(jù)中的特大或特小誤差反應(yīng)十分敏感,因此可以很好反映出測量的精密度,即數(shù)據(jù)之間的相似度。具體公式如下所示:

其中,n為觀測次數(shù),即實驗點的數(shù)量(28);Xobs,i為觀測值,即實驗數(shù)據(jù);Xmodel,i為真值,即問卷校驗數(shù)據(jù)和人工校驗數(shù)據(jù)。

三、實驗結(jié)果

1.模型測試效果

將測試用語料的評論輸入訓(xùn)練好的模型,得到每條評論數(shù)據(jù)的情感傾向(測試結(jié)果),與語料帶有的情感標(biāo)簽(真實結(jié)果)進行對比。本研究選取常用的精確率(P)、召回率(R)和F1值(F1)三個指標(biāo)評估所有機器學(xué)習(xí)模型的分類效果,F(xiàn)1為P和R的調(diào)和平均值,受極端值影響較小,可以兼顧模型分類的精確率和召回率,便于對模型訓(xùn)練效果進行比較。各個指標(biāo)的計算方法如下:

其中,TP(True Positive)把正類預(yù)測為正類的數(shù)量,F(xiàn)P(False Positive)把負(fù)類預(yù)測為正類的數(shù)量,F(xiàn)N(False Negative)把正類預(yù)測為負(fù)類的數(shù)量。

表4 分類判別混淆矩陣

各類模型關(guān)于評估指標(biāo)的結(jié)果如表5??梢钥闯觯疃葘W(xué)習(xí)算法中的三個模型F1值較高,可以達到0.8,精確率和召回率接近,比較穩(wěn)定。除樸素貝葉斯以外,其他模型的召回率較為接近,查全效果普遍較好。樸素貝葉斯中負(fù)面評論的精確率和召回率差別最大,而正面評論則差別相對較小,原因可能是貝葉斯法要求表達文本的主題詞之間相互獨立,而這種條件在實際文本中往往難以滿足,因此效果上無法達到理論的最大值。所有模型的精確率都達到了75%左右,GBDT模型、TextCNN和TextRNN模型的精確率非常接近80%,查準(zhǔn)率較高。簡而言之,訓(xùn)練出的模型基本符合要求,可以投入下一步實驗和校驗使用。

表5 基于Word2vec特征的各種模型效果

2.情感分類對比效果

為了更好地對比實驗數(shù)據(jù)與校驗數(shù)據(jù)的偏離程度,以問卷校驗數(shù)據(jù)作為基準(zhǔn)數(shù)據(jù),將其余8組數(shù)據(jù)與問卷校驗數(shù)據(jù)進行對比,差距最大為1,最小為0,由此進行歸一化處理,以實驗點作為橫坐標(biāo)的點線圖形式對比實驗數(shù)據(jù)與校驗數(shù)據(jù)的差異,具體如圖2所示。

圖2 各模型情感分類準(zhǔn)確率對比

結(jié)合圖2和表6可以看出,人工校驗數(shù)據(jù)與0刻度線偏離程度最小,均方根誤差為0.0829,部分實驗點幾乎不存在偏差,說明人工校驗數(shù)據(jù)和問卷校驗數(shù)據(jù)最為接近,兩者作為校驗數(shù)據(jù)是合理的。

表6 各模型實驗與校驗數(shù)據(jù)的均方根誤差

總的來說,從圖表的結(jié)果可以看出,Softmax在兩次校驗中均表現(xiàn)良好,均方根誤差最小,TextCNN在與問卷校驗數(shù)據(jù)的校驗中表現(xiàn)良好,位列第二;但在與人工校驗數(shù)據(jù)校驗中表現(xiàn)相對不佳,同樣隨機森林模型表現(xiàn)也是如此。TSE模型在兩次校驗中都保持排名第三,且與前兩名模型的均方根誤差均小于0.001,模型效果差距較小,總體略遜于Softmax模型,而與隨機森林和TextCNN模型的準(zhǔn)確率相似,但具有較高的穩(wěn)定性,優(yōu)勢明顯。

樸素貝葉斯均方根誤差最大且與其他模型差距較大,原因可能在于旅游評論中決定情感傾向的屬性不是相互獨立的,無法滿足樸素貝葉斯的要求。此外,根據(jù)Ng等的研究,[48]樸素貝葉斯可以在小數(shù)據(jù)上面取得更好的效果,隨著數(shù)據(jù)的增多、特征維度的增大,Softmax的效果更好。隨機森林模型使用多個決策樹,比起單一決策樹的GBDT模型更優(yōu),實際結(jié)果也如此。TextRNN模型盡管為深度學(xué)習(xí)模型但表現(xiàn)不佳,原因可能是該模型在上下文的記憶關(guān)聯(lián)上丟失信息,不夠穩(wěn)定。同為深度學(xué)習(xí)模型的TextCNN的情感評價不夠穩(wěn)定,原因可能是深度神經(jīng)網(wǎng)絡(luò)在人工特征工程建立及語義理解方面容易缺失信息,因此在測試集上表現(xiàn)較佳,但對于實驗數(shù)據(jù)則無法應(yīng)用訓(xùn)練得到的特征進行傾向判斷。

四、結(jié)論與啟示

本文通過旅游評論數(shù)據(jù),對比基于情感詞典與語義規(guī)則的TSE模型與6個基于機器學(xué)習(xí)的模型的效度,得到以下兩個結(jié)論。第一,機器學(xué)習(xí)算法已經(jīng)可以實現(xiàn)較高的捕捉精度,但整體并不能對人工計算模型形成壓倒性優(yōu)勢。在旅游評論的實驗場景下,盡管機器學(xué)習(xí)類模型Softmax表現(xiàn)較突出,位居第一,但是基于人工計算的TSE模型表現(xiàn)相對良好,準(zhǔn)確率與TextCNN模型和隨機森林模型一同位居第二,而且在穩(wěn)定性上有明顯優(yōu)勢。第二,人工計算模型是兼顧效率和穩(wěn)定性的優(yōu)質(zhì)方法。在所有比較中TSE模型排名第二,且穩(wěn)定性最佳,而深度學(xué)習(xí)算法在以旅游評論為代表的數(shù)據(jù)分析場景下的準(zhǔn)確度仍然具有一定的不確定性。從整體模型測試結(jié)果來看,深度學(xué)習(xí)系列模型的F1值最大,模型較為穩(wěn)定,體現(xiàn)其對于傳統(tǒng)機器學(xué)習(xí)的優(yōu)越性。但是部分深度學(xué)習(xí)類模型測試效果較好,實際校驗效果較差。

對于管理信息系統(tǒng)領(lǐng)域而言,本文的主要貢獻在于肯定了人工計算方法具有鮮明的科學(xué)價值,對推動信息管理研究和情感捕捉技術(shù)進程有著積極的作用。葉強團隊[1-3]十余年前已經(jīng)開啟了文本情感捕捉研究,但因中文語義復(fù)雜性,在方法上存在較大的處理難度。隨后學(xué)者們一直沒有解決語義邏輯的處理問題,而在機器學(xué)習(xí)算法興起之后,這個難題日漸被束之高閣,直到最近的研究,依然是傾向于采用機器學(xué)習(xí)法。[7,49-51]本文所做的嘗試正是對此難題的積極突破,也是對機器學(xué)習(xí)熱潮的一次批判性思考。雖然中文語法博大精深,但是TSE模型的嘗試證實了編制語義規(guī)則來捕捉消費者情感分析是切實可行的,與機器學(xué)習(xí)算法相比并不遜色。這間接地體現(xiàn)了人工計算方法的優(yōu)勢,因為研究者可以根據(jù)研究需求靈活調(diào)整算法,也可以進一步構(gòu)建旅游六要素(吃住行游購娛)的子模型。其核心工作量僅在于重新建立詞庫,而無需更改語義規(guī)則和情感程度副詞規(guī)則。但如果采用機器學(xué)習(xí)模型則需要重新進行語料訓(xùn)練、校驗等步驟,才能獲得分析模型。這一點可以從本文對TSE模型詞庫的優(yōu)化工作中得到印證。

相對于深度學(xué)習(xí)模型而言,較為傳統(tǒng)的機器學(xué)習(xí)算法對于旅游評論這類短文本和白話語句情感捕捉,具有較高的效率。盡管深度學(xué)習(xí)模型(如TextRNN模型)近年來在諸多領(lǐng)域被廣泛使用,但在本次校驗中并未超越傳統(tǒng)機器學(xué)習(xí)。這一點呼應(yīng)了機器學(xué)習(xí)領(lǐng)域關(guān)于“奧卡姆剃刀定律”的觀點及Wolpert等提出的“沒有免費的午餐”定理,[52]即在機器學(xué)習(xí)領(lǐng)域沒有完美的模型,復(fù)雜的技術(shù)未必能提供更好的效率。本文認(rèn)為,對于評論文本這類較為直白的文本可能并不需要使用深度學(xué)習(xí)這類復(fù)雜的機器學(xué)習(xí)算法,對評論文本語義邏輯和情感詞庫的深入挖掘結(jié)合傳統(tǒng)的機器學(xué)習(xí)算法可能是更加有效的研究路徑。

本文使用多方法、兩套數(shù)據(jù)開展交叉校驗,未局限于傳統(tǒng)研究中的精確率、召回率和F1值等校驗指標(biāo),而是將文本情感分類效果直接與傳統(tǒng)的問卷調(diào)查方法和人工閱讀的情感分類相對比,為文本情感分類的模型測試提供一次有價值的嘗試和新的思路。本文的啟示在于提醒研究者不要一味追求新技術(shù)和智能化,而應(yīng)該重視人工與機器學(xué)習(xí)方法結(jié)合使用,兩者交融而不是二取其一。盡管人工計算模型未能成為最優(yōu)模型,但當(dāng)前機器學(xué)習(xí)算法的不確定性及不可逆推的屬性會直接影響輸出結(jié)果和置信度。因此,當(dāng)我們無法得知決策的邏輯過程為何時,廣泛使用這類方法并不利于管理學(xué)理論創(chuàng)新,需要在未來的研究中給予充分重視。

注釋

① 新華網(wǎng).打擊電商“虛假評論”亟須技術(shù)創(chuàng)新行業(yè)共治.http://www.xinhuanet.com/2019-12/27/c_1125393478.htm。

② 中新網(wǎng).揭微博僵尸粉買賣亂象:明碼標(biāo)價團隊運營.http://www.chinanews.com/fz/2013/03-15/4647482.shtml。

③ 樸素貝葉斯假定特征間不存在相互依賴關(guān)系,然后根據(jù)訓(xùn)練集的先驗概率和條件概率,計算待測樣本類別的后驗概率,計算速度快、容易實現(xiàn),并且在大多數(shù)情況下效果較好。Softmax回歸是Logistic回歸的通用型,修改了Logistic回歸的損失函數(shù),可以適應(yīng)多分類問題,是一種判別模型。

④ 基于Boosting算法,將所有決策樹的每一個葉子節(jié)點當(dāng)做新的特征,如果輸入的樣本落入某個葉子節(jié)點,該節(jié)點的取值為1,否則為0,這樣可以構(gòu)造一個特征向量,應(yīng)用該模型可以發(fā)現(xiàn)多種區(qū)分性的特征及特征組合,省去人工尋找特征和特征組合的步驟。

⑤ Collobert等第一次將CNN模型引入自然語言處理領(lǐng)域,是深度學(xué)習(xí)最成功、應(yīng)用最廣泛的模型之一,[31]注重全局模糊感知。

⑥ RNN強調(diào)對鄰近位置信息的重構(gòu),適用于自然語言處理的上下文關(guān)系,LSTM模型繼承了RNN的優(yōu)勢,同時彌補了其由于梯度消失/爆炸無法處理長期依賴的不足。

⑦ 該模型訓(xùn)練工作由中山大學(xué)旅游學(xué)院劉逸和趙瑩副教授的大數(shù)據(jù)研究團隊提供支持。

⑧ 該工具調(diào)用較為方便,分詞效果也表現(xiàn)良好,在文本分析中被廣泛使用。

⑨ Word2vec算法在NNLM及Log-Bi-Linear模型基礎(chǔ)上進行開發(fā),由Mikolov等提出,是一種計算量較小的詞向量表示方法,且可以在大規(guī)律語料上進行分布式訓(xùn)練,彌補傳統(tǒng)方法“詞匯鴻溝”和維數(shù)災(zāi)難的缺點,[34]優(yōu)于傳統(tǒng)的特征選擇方法,目前有許多研究將Word2vec用于評論情感分類。

猜你喜歡
校驗人工機器
人工3D脊髓能幫助癱瘓者重新行走?
機器狗
使用Excel朗讀功能校驗工作表中的數(shù)據(jù)
機器狗
人工,天然,合成
人工“美顏”
未來機器城
電子式互感器校驗方式研究
基于FPGA的CRC32校驗查找表算法的設(shè)計
人工制冷
呼图壁县| 遵义县| 衡阳市| 桂东县| 嘉禾县| 含山县| 绥阳县| 方山县| 遵义市| 靖安县| 泽普县| 江源县| 夏津县| 浠水县| 洛南县| 游戏| 藁城市| 临沭县| 马山县| 汕头市| 阳春市| 中山市| 鄄城县| 射阳县| 报价| 浠水县| 宝应县| 都安| 平阴县| 泰兴市| 肃南| 灌云县| 攀枝花市| 惠安县| 清苑县| 德州市| 鹤庆县| 托克逊县| 宿松县| 柘荣县| 缙云县|