李俊杰,宗成慶,3*
(1.中國科學(xué)院自動(dòng)化研究所,模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室 北京 100190;2.中國科學(xué)院大學(xué)計(jì)算機(jī)與控制學(xué)院,北京 100190;3.中國科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心,北京 100190)
高速發(fā)展的互聯(lián)網(wǎng)給用戶提供了眾多的服務(wù)和產(chǎn)品評(píng)論平臺(tái),例如餐飲領(lǐng)域的大眾點(diǎn)評(píng)和Yelp、電影領(lǐng)域的豆瓣電影和互聯(lián)網(wǎng)電影資料庫(IMDb)等.這些平臺(tái)包含了大量的用戶評(píng)論,對這些評(píng)論文本進(jìn)行情感分類是自然語言處理領(lǐng)域的研究熱點(diǎn)之一.本研究關(guān)注的任務(wù)是文檔級(jí)別的情感分類,目的是根據(jù)文本所表達(dá)的含義和情感信息將文本劃分成兩種(褒義的或貶義的)或幾種類型[1].傳統(tǒng)方法[2-5]主要是從文本中抽取特征,用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,分類效果取決于特征的手動(dòng)設(shè)計(jì)和選擇.
繼深度學(xué)習(xí)方法在計(jì)算機(jī)視覺、語音識(shí)別等領(lǐng)域取得成功之后,越來越多的學(xué)者關(guān)注如何用這項(xiàng)技術(shù)來提高情感分類的效果[6-9].基于深度學(xué)習(xí)的文本情感分類較傳統(tǒng)方法在準(zhǔn)確率上有了大幅提升,但現(xiàn)有模型仍然存在著一個(gè)缺點(diǎn):這些模型只考慮文本信息而忽略了評(píng)論發(fā)布者以及評(píng)論中評(píng)價(jià)對象的信息,然而這兩類信息對情感分類是非常有用的,主要體現(xiàn)在三個(gè)方面:1) 用戶的用詞差異.不同的用戶有著各自的用詞習(xí)慣和特點(diǎn).假設(shè)評(píng)論的得分范圍為1~3分(其中1,2和3分分別表示貶義、中性和褒義),一個(gè)苛刻的用戶可能在評(píng)論中屢次出現(xiàn)“好”,“不錯(cuò)”等這樣表現(xiàn)強(qiáng)烈褒義的詞匯,但是最后的整體得分可能是2分.而在一個(gè)較為隨意的用戶發(fā)表的評(píng)論中,可能會(huì)出現(xiàn)“一般”“還行”等,最后的得分卻是3分.充分考慮不同用戶的用詞習(xí)慣,對情感分類是有幫助的.2) 用 戶對不同評(píng)價(jià)對象的不同偏好.面對同一個(gè)產(chǎn)品,不同的用戶可能會(huì)關(guān)注它的不同屬性,這些屬性也常被稱為評(píng)價(jià)對象.例如在酒店領(lǐng)域,評(píng)價(jià)對象包括“服務(wù)”、“價(jià)格”、“地理位置”等,在選擇酒店時(shí),一些用戶可能會(huì)比較在意“價(jià)格”,而另外一部分用戶可能會(huì)更關(guān)注于“地理位置”.針對不同的用戶,區(qū)別對待這些評(píng)價(jià)對象對情感極性判別會(huì)有幫助.3) 評(píng)價(jià)對象的修飾詞差異.同樣的詞匯修飾不同的評(píng)價(jià)對象可能表達(dá)不同的情感極性.比如“長”這個(gè)評(píng)價(jià)詞,修飾“手機(jī)的待機(jī)時(shí)間”時(shí),表示的是褒義,修飾“酒店的服務(wù)等待時(shí)間”時(shí),表示的是貶義.因此需要根據(jù)不同的評(píng)價(jià)對象區(qū)分對待詞匯.
針對用戶的用詞差異,文獻(xiàn)[10-12]在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的模型中融入了用戶信息,使得該模型可以捕捉用戶在選詞上的差異性,然而上述工作沒有考慮用戶對不同評(píng)價(jià)對象的不同偏好以及評(píng)價(jià)對象的修飾詞差異.為了能將這兩類信息充分考慮,本研究提出了一個(gè)基于用戶和評(píng)價(jià)對象的層次化注意力網(wǎng)絡(luò)(hierarchical user aspect attention networks,HUAAN)模型,該模型首先利用一個(gè)層次化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來編碼不同層級(jí)的信息,包括詞匯層、句子層、評(píng)價(jià)對象層以及文檔層;然后為了同時(shí)考慮用戶在用詞上的差異和對評(píng)價(jià)對象的不同偏好,在得到詞匯層和評(píng)價(jià)對象層的表示之后,引入了基于用戶的注意力機(jī)制來區(qū)分對待不同的詞匯和不同的評(píng)價(jià)對象;最后為了考慮評(píng)價(jià)對象的修飾詞差異,還引入了基于評(píng)價(jià)對象的詞匯層注意力機(jī)制來區(qū)分對待不同的評(píng)價(jià)對象對上下文詞匯的影響.
HUAAN模型的整體結(jié)構(gòu)如圖1所示,一共包含了5個(gè)部分:詞匯層編碼、詞匯層注意力機(jī)制、句子層編碼、句子層注意力機(jī)制和評(píng)價(jià)對象層注意力機(jī)制.表1給出了本研究使用的一些數(shù)學(xué)符號(hào)及其物理意義.
圖1 HUAAN的結(jié)構(gòu)
符號(hào)物理意義D數(shù)據(jù)集d,d一篇評(píng)論文本及其向量表示mD中所有評(píng)價(jià)對象的數(shù)目nd中句子的數(shù)目ai,ai第i個(gè)評(píng)價(jià)對象及其向量表示u,ud的發(fā)布者及其向量表示si,sid中的第i個(gè)句子及其向量表示lisi中的所有詞匯數(shù)目wij,wijsi中的第j個(gè)詞及其向量表示AijAij=1表示句子si里面包含評(píng)價(jià)對象ajAij=0表示句子si里面沒有包含評(píng)價(jià)對象ajhijd中wij的隱層向量表示hid中si的隱層向量表示xid中評(píng)價(jià)對象ai的向量表示αij,βij,γi詞匯層、句子層和評(píng)價(jià)對象層的注意力權(quán)重p評(píng)論文本d被賦予各個(gè)類別的概率分布pk評(píng)論文本d被賦予類別k的概率gd評(píng)論文本d對應(yīng)的情感類別C總類別數(shù)目
假設(shè)有一個(gè)關(guān)于某個(gè)領(lǐng)域(例如酒店)的評(píng)論文本的數(shù)據(jù)集D,該領(lǐng)域有m個(gè)評(píng)價(jià)對象a1,a2,…,am, 它們分別表示“服務(wù)”、“位置”和“食物”等.d是D中的一篇評(píng)論文本,它的發(fā)布者為u.為了獲取評(píng)論文本描述的評(píng)價(jià)對象,本研究采用文獻(xiàn)[13-14]提出的關(guān)聯(lián)規(guī)則挖掘算法為每個(gè)句子賦予一個(gè)評(píng)價(jià)對象集合,這部分內(nèi)容將在2.1節(jié)詳細(xì)介紹.下面將介紹HUAAN基于長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)[15]的序列編碼模塊及HUAAN的其它各個(gè)組成部分.
由于HUAAN的建模過程是從詞匯到句子,再從句子到文檔,并且句子是一個(gè)詞匯的序列,文檔是句子的序列,因此序列模型是HUAAN的一個(gè)基本模塊.該模塊使用的模型是LSTM模型.LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊形式,它通常被用于處理序列數(shù)據(jù)并且可以避免傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)出現(xiàn)的梯度爆炸或者是梯度消失的問題.LSTM通過引入記憶單元和門的機(jī)制來捕捉序列中長距離的依賴關(guān)系.LSTM的計(jì)算公式如下:
it=σ(Wixt+Uiht-1),
(1)
ft=σ(Wfxt+Ufht -1),
(2)
ot=σ(Woxt+Uoht -1),
(3)
(4)
(5)
ht=tanh(ot⊙ct),
(6)
其中:σ表示logistic sigmoid函數(shù);⊙表示點(diǎn)乘的操作符;it、ft、ot和ct分別表示t時(shí)刻的輸入門、遺忘門、輸出門和記憶單元的激活向量,這些向量和隱層向量ht擁有相同的維度;Wi、Wf、Wo、Wc和Ui、Uf、Uo、Uc分別表示LSTM模型輸入門、遺忘門、輸出門和記憶單元的關(guān)于輸入向量和隱層向量的模型參數(shù).
詞匯層編碼:HUAAN首先將句子si中的每個(gè)詞wij編碼成向量wij,然后使用雙向LSTM來編碼wij的上下文信息,從而得到它的隱層表示.具體計(jì)算方法如下:
(7)
(8)
(9)
詞匯層注意力機(jī)制:句子中所有的詞匯在組成句子的表示時(shí)具有不同的重要性,并且不同的用戶有著不同的用詞習(xí)慣以及同一個(gè)詞匯修飾不同的評(píng)價(jià)對象時(shí)體現(xiàn)的情感極性可能會(huì)有差異.于是,本研究引入基于用戶和評(píng)價(jià)對象的注意力機(jī)制來區(qū)別對待句子中不同的詞匯,計(jì)算方式如下:
si=∑jαijhij,
(10)
其中,αij度量的是在考慮用戶信息和評(píng)價(jià)對象信息后,句子中第j個(gè)詞在構(gòu)建整個(gè)句子si的表示時(shí)的重要程度.用戶u和評(píng)價(jià)對象ai被編碼成向量u和ai. 由于句子si可能會(huì)包含多個(gè)評(píng)價(jià)對象,這些評(píng)價(jià)對象向量的平均向量ti被用來表示這個(gè)句子中評(píng)價(jià)對象的編碼向量:
(11)
然后用式(12)和(13)計(jì)算αij:
(12)
(13)
其中,mij為未歸一化的注意力權(quán)重αij對應(yīng)的值,vw、Ww h、Ww u、Ww a和bw分別表示計(jì)算mij時(shí)的前饋神經(jīng)網(wǎng)絡(luò)中對應(yīng)的點(diǎn)積權(quán)重、隱層向量權(quán)重、用戶向量權(quán)重、評(píng)價(jià)對象向量權(quán)重和偏置.
句子層編碼:在得到句子向量si之后,本研究使用雙向LSTM編碼句子并得到隱層表示hi:
(14)
(15)
(16)
句子層注意力機(jī)制:這里介紹的是如何從句子層的表示得到評(píng)價(jià)對象層的表示.由于一篇評(píng)論中可能會(huì)有幾個(gè)句子同時(shí)描述同一個(gè)評(píng)價(jià)對象,然而這些句子對形成該評(píng)價(jià)對象的表示時(shí)所起的作用是有差異的.句子的前后順序以及句子之間的關(guān)系可能都會(huì)影響該句子在構(gòu)成某評(píng)價(jià)對象表示時(shí)的重要性.于是本研究采用句子層注意力機(jī)制對這類差異進(jìn)行建模,其計(jì)算公式如下:
(17)
(18)
xk=∑iβi khi,
(19)
其中,li k為未歸一化的注意力權(quán)重βi k對應(yīng)的值,vs、Ws h、Ws a和bs分別指的是計(jì)算li k時(shí)的前饋神經(jīng)網(wǎng)絡(luò)中對應(yīng)的點(diǎn)積權(quán)重、隱層向量權(quán)重、評(píng)價(jià)對象向量權(quán)重和偏置.
評(píng)價(jià)對象層注意力機(jī)制:對于同樣的產(chǎn)品或者是服務(wù),不同用戶關(guān)注的東西會(huì)有差異.這種差異會(huì)導(dǎo)致最后的文檔表示的不同,進(jìn)而影響情感分類的結(jié)果.因此HUAAN在評(píng)價(jià)對象層時(shí)使用基于用戶的注意力機(jī)制來區(qū)分對待不同的評(píng)價(jià)對象,并最終得到整個(gè)評(píng)論文本的向量表示d[16-17]:
(20)
(21)
d=∑iγixi,
(22)
其中,ri為未歸一化的注意力權(quán)重γi對應(yīng)的值,va、Wa h、Wa u和ba分別表示計(jì)算ri時(shí)的前饋神經(jīng)網(wǎng)絡(luò)中對應(yīng)的點(diǎn)積權(quán)重、隱層向量權(quán)重、用戶向量權(quán)重和偏置.
計(jì)算得到評(píng)論文本向量d后,可通過式(23)計(jì)算出評(píng)論文本d屬于各個(gè)類別的概率分布P,
P=softmax(Wlhd+b),
(23)
其中Wlh和b分別表示計(jì)算概率時(shí)的softmax層對應(yīng)的權(quán)重參數(shù)和偏置.
最后采用最小化負(fù)對數(shù)似然為訓(xùn)練目標(biāo):
(24)
其中,1{·}是一個(gè)示性函數(shù),當(dāng)函數(shù)內(nèi)部值為真時(shí),返回1,否則返回0.
為了驗(yàn)證HUAAN的有效性,在數(shù)據(jù)集IMDb和 Yelp2014中進(jìn)行測試,這2個(gè)數(shù)據(jù)集為Tang等[10]構(gòu)建的公開數(shù)據(jù)集.在進(jìn)行測試之前,需對數(shù)據(jù)進(jìn)行預(yù)處理,本研究采用 Stanford CoreNLP[18]對數(shù)據(jù)進(jìn)行預(yù)處理:詞語切分、句子切分和詞性標(biāo)注.文獻(xiàn)[13-14]提出的關(guān)聯(lián)規(guī)則挖掘算法可以從評(píng)論文本中的每個(gè)句子挖掘評(píng)價(jià)對象.該算法從評(píng)論語料里抽取頻繁出現(xiàn)的名詞組成評(píng)價(jià)對象集合.之后,通過簡單匹配句子里面的詞匯和評(píng)價(jià)對象集合里面的詞匯,為每個(gè)句子得到該句子描述的評(píng)價(jià)對象.假如一個(gè)句子里面的詞匯都沒有出現(xiàn)在評(píng)價(jià)對象集合中,這個(gè)句子會(huì)被賦予一個(gè)特殊的評(píng)價(jià)對象標(biāo)簽 “others(其他)”.這里設(shè)定評(píng)價(jià)對象的數(shù)目是100,其中包括這個(gè)特殊評(píng)價(jià)對象(others)的符號(hào).為了提高詞性標(biāo)注的準(zhǔn)確率和獲取評(píng)價(jià)對象集合的質(zhì)量,本研究刪除了包含超過100個(gè)詞的句子的評(píng)論文本.表2給出了預(yù)處理后數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù).
表2 IMDb和Yelp2014數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)
數(shù)據(jù)集按照8∶1∶1的比例劃分為訓(xùn)練集、開發(fā)集和測試集,使用準(zhǔn)確率A來度量整體情感分類的性能并使用均方根誤差RMSE來度量預(yù)測的標(biāo)簽與標(biāo)準(zhǔn)答案標(biāo)簽的差異性.
采用文獻(xiàn)[11]中訓(xùn)練好的詞向量來初始化HUAAN中的詞向量,詞向量的維度取200.用戶和評(píng)價(jià)對象的編碼向量維度均設(shè)定為200,并且隨機(jī)初始化.LSTM隱層參數(shù)和記憶單元的維度均設(shè)定為200維.訓(xùn)練時(shí)使用adadelta算法更新參數(shù),并使用開發(fā)集來調(diào)整超參數(shù).
HUAAN將與下面的基線系統(tǒng)進(jìn)行比較.
1) Majority是一種啟發(fā)式的方法.首先統(tǒng)計(jì)得到訓(xùn)練集出現(xiàn)最多的標(biāo)簽,然后用這個(gè)標(biāo)簽作為所有測試集樣本的標(biāo)簽.
2) Trigram+支持向量機(jī)(SVM)是一種傳統(tǒng)方法.以評(píng)論文本的一元語法、二元語法和三元語法作為特征來訓(xùn)練SVM分類器.
3) AvgWordVec+SVM是一種很簡單的基于詞向量的方法.通過平均評(píng)論中所有詞匯的詞向量得到評(píng)論向量,然后將這個(gè)評(píng)論向量作為特征來訓(xùn)練SVM分類器.
4) HAN[19]用一個(gè)層次化的模型對評(píng)論進(jìn)行建模,并且使用注意力機(jī)制來區(qū)分對待不同的詞匯.該方法僅僅依賴文本信息,并取得了在僅僅考慮文本信息的情況下目前的最好結(jié)果.
5) NSC+UPA[11]是目前最好的模型.通過考慮用戶信息和產(chǎn)品信息來提高文檔級(jí)別情感分類的效果.
表3給出了HUAAN及基線系統(tǒng)的情感分類結(jié)果,這些結(jié)果可以分為2組:1) 僅僅考慮文本信息的,2) 同時(shí)考慮文本和用戶信息.
表3 IMDb和Yelp2014數(shù)據(jù)集上的情感分類結(jié)果
注:HUAAN-user為HUAAN的變體,刪減了用戶信息;NSC+UPA-pro為NSC+UPA的變體,刪減了產(chǎn)品信息.
第1組的實(shí)驗(yàn)結(jié)果表明Majority效果非常差,因?yàn)樗鼪]有包含任何的文本信息.基于一元語法、二元語法和三元語法的Trigram+SVM模型在文檔級(jí)別情感分類表現(xiàn)較好,遠(yuǎn)好于基于平均詞向量的AvgWordVec SVM模型.HAN通過用一個(gè)層次化的模型對文本進(jìn)行建模,取得了更好的結(jié)果.最后,HUAAN-user比HAN、AvgWordVec+SVM和Trigram+SVM在IMDb數(shù)據(jù)集上的情感分類準(zhǔn)確率分別高出1.7,12.3和2.1個(gè)百分點(diǎn),在Yelp2014數(shù)據(jù)集上分別高出了1.4,11.3和12.0個(gè)百分點(diǎn).
第2組的實(shí)驗(yàn)結(jié)果表明,用戶信息確實(shí)對文檔的情感分類效果有幫助.當(dāng)考慮了用戶信息之后,HUAAN比HUAAN-user在IMDb和Yelp2014的準(zhǔn)確率分別高出4.9和1.5個(gè)百分點(diǎn).與當(dāng)前最先進(jìn)系統(tǒng)NSC+UPA相比,HUAAN也取得了接近的實(shí)驗(yàn)結(jié)果.值得一提的是NSC+UPA不僅考慮了用戶信息,還用同樣的方式考慮了產(chǎn)品信息,然而HUAAN卻只考慮了用戶信息.為了公平比較HUAAN和NSC+UPA,本研究測試了NSC+UPA去掉產(chǎn)品信息后的模型NSC+UPA-pro的結(jié)果.與NSC+UPA-pro相比,HUAAN在數(shù)據(jù)集IMDB和Yelp2014上的準(zhǔn)確率分別高出了0.4和1.2個(gè)百分點(diǎn).這表明在同等的條件下HUAAN模型要優(yōu)于NSC+UPA.
本研究測試了幾種注意力機(jī)制模型在HUAAN不同層的作用,當(dāng)測試某一層時(shí),只改變當(dāng)前層的注意力機(jī)制,其他層的注意力機(jī)制與HUAAN相同,結(jié)果如表4所示:
1) 與AVG相比,詞匯層、句子層和評(píng)價(jià)對象層的ATT模型都能提升情感分類的效果.
2) 與ATT相比,UsrATT和AspATT在各層都對情感分類效果有提升,表明本研究提出的這兩種機(jī)制可以很好地捕捉到用戶和評(píng)價(jià)對象在不同層的特點(diǎn).
3) HUAAN在詞匯層的變體實(shí)驗(yàn)結(jié)果表明,引入U(xiǎn)srATT會(huì)比引入AspATT效果要好.這個(gè)現(xiàn)象說明詞匯層面用戶的差異性會(huì)比評(píng)價(jià)對象的差異性對情感分類的影響更大.當(dāng)這兩者被同時(shí)考慮時(shí),模型可以取得最好的結(jié)果.
為了展示HUAAN可以很好地捕捉不同的用戶用詞偏好,給出如表5所示(詞匯底色越深表示該詞匯的注意力權(quán)重越大)的例子.這個(gè)例子包含的兩句話,分別是“The hotel is really good with nothing.”和“The food is very good and the hotel is well located.”.前句由用戶A所寫,后句由用戶B發(fā)布.這兩句話都含有詞匯“good”,但是兩句話出現(xiàn)在不同的評(píng)論中:第一句話出現(xiàn)在一個(gè)評(píng)分為2星的評(píng)論里而第二句話出現(xiàn)在一個(gè)評(píng)分為5星的評(píng)論里,因此在預(yù)測這兩篇評(píng)論時(shí),詞匯“good”的作用是不同的.HAN使用局部注意力機(jī)制來獲取詞匯權(quán)重?zé)o法區(qū)分這兩句話中“good”的差異,均賦予了很高的注意力權(quán)重;但是HUAAN基于用戶的模型區(qū)分對待這個(gè)詞匯,進(jìn)而獲得更高的準(zhǔn)確率.
表4 不同的注意力機(jī)制模型的情感分類效果
注:AVG為平均池化層注意力機(jī)制;ATT是局部語義注意力模型[13];UsrATT為本研究提出的基于用戶的注意力機(jī)制;AspATT為本研究提出的基于評(píng)價(jià)對象的注意力機(jī)制;Usr+Asp ATT為將基于用戶的注意力機(jī)制和基于評(píng)價(jià)對象的注意力機(jī)制融合.HUAAN在詞匯層、句子層和評(píng)價(jià)對象層分別采用的是Usr+Asp ATT,AspATT和UsrAtt.
情感分類是情感分析[20-21]中的一個(gè)很典型的問題.繼深度學(xué)習(xí)方法在計(jì)算機(jī)視覺、語音識(shí)別等領(lǐng)域取得成功之后,越來越多的學(xué)者關(guān)注如何用這項(xiàng)技術(shù)來提高情感分類的效果.它最大的優(yōu)勢就是不依賴人工定義特征,自動(dòng)從文本中抽取有用的特征來做分類.Socher等[6-7,22]構(gòu)建了一系列的遞歸神經(jīng)網(wǎng)絡(luò)的模型來學(xué)習(xí)句子的表示,取得了很好的效果.Kim[23]采用卷積神經(jīng)網(wǎng)絡(luò)做情感分類也取得了不錯(cuò)的結(jié)果.
表5 詞匯層注意力權(quán)重展示
很多工作[19,24]使用層次化的模型對文檔建模,通過得到詞匯層和句子層的語義表示得到整個(gè)文檔的語義表示,這類方法在文檔級(jí)別情感分類中取得了非常好的效果.盡管如此,這些工作都只關(guān)注于文本內(nèi)容本身而忽視了發(fā)布文本的用戶,然而這些用戶卻對確定文本的傾向性有著至關(guān)重要的作用.目前已有一些工作[10-12,25-28]將用戶信息引入到情感分類中:Tang等[10]在卷積網(wǎng)絡(luò)的模型中添加用戶偏好的矩陣和向量;Chen等[11]將用戶表示成一個(gè)向量,然后將其融合到一個(gè)層次化的模型來考慮用戶信息對情感分類的作用;Amplayo等[27]研究了針對冷啟動(dòng)的用戶,如何融入用戶信息來提升情感分類的效果.盡管這些方法都取得了較好的效果,但是它們對用戶信息的考慮還不夠充分,僅考慮了用戶對不同詞匯的偏好,而忽略了用戶對不同評(píng)價(jià)對象的喜好差異.本研究提出的HUAAN模型可以充分考慮用戶信息并同時(shí)考慮了這兩類信息,且在相同條件下優(yōu)于NSC+UPA系統(tǒng).
本研究提出了HUAAN模型來對評(píng)論文本進(jìn)行情感分類,該模型用一個(gè)層次化的結(jié)構(gòu)對詞匯信息、句子信息、評(píng)價(jià)對象信息和用戶信息進(jìn)行編碼,并且引入基于用戶的注意力機(jī)制來充分考慮詞匯層面的用戶偏好和評(píng)價(jià)對象層面的用戶偏好.通過在兩個(gè)公開的數(shù)據(jù)集中做的實(shí)驗(yàn)表明,融入了用戶信息和評(píng)價(jià)對象信息之后,HUAAN能在同等條件下超過NSC+UPA系統(tǒng)的情感分類準(zhǔn)確率.
進(jìn)一步的研究工作將著重從以下兩個(gè)方面入手:
1) 本研究僅使用了最簡單的評(píng)價(jià)對象抽取算法來抽取文本中的評(píng)價(jià)對象,下一步可以嘗試更加復(fù)雜的評(píng)價(jià)對象抽取的方法,對比不同評(píng)價(jià)對象抽取算法對模型的影響.
2) 本研究僅使用了用戶本身信息,還可以拓展為用戶的屬性,如年齡、地域等,下一步可以嘗試考慮如何引入這類信息到本研究的模型中,用來更好地提升情感分類的效果.