邱祥慶 劉德喜 萬常選 李 靜 劉喜平 廖國瓊
1(江西財經(jīng)大學信息管理學院 南昌 330013) 2(福建江夏學院電子信息科學學院 福州 350108) 3(數(shù)據(jù)與知識工程江西省高校重點實驗室(江西財經(jīng)大學) 南昌 330013) 4(福建江夏學院數(shù)據(jù)分析與智能決策研究所 福州 350108)
隨著WEB2.0時代的到來,通過在線社交媒體來搜集用戶觀點變得越來越普遍,推特、臉書、微博等平臺已成為與讀者分享想法和觀點的有效渠道.這些信息獲取的便利性大大吸引了那些觀點挖掘者,并被用于商務(wù)、社會、教育和娛樂等特定目的.在此背景下,情感分析作為自然語言處理中的一個研究領(lǐng)域越來越受到學術(shù)界和工業(yè)界的關(guān)注[1],該領(lǐng)域中的情感分類、情感檢測、情感預測等也成為近年來研究的熱點.
然而對文本進行情感分類、檢測或預測只是一種淺層的分析,對政策制定者、社會管理或服務(wù)者、商業(yè)組織或企業(yè)來說,他們有時更關(guān)心主觀文本所表達的某種情感背后更深層次的原因.下面通過3個示例分別從社會治理、餐飲住宿、心理健康這3個領(lǐng)域來說明情感原因提取任務(wù)的應用場景及其意義.
示例1.“突然被告知公司裁員了……很不幸我中招了雖然沒了工作但是有幾萬塊的賠償拿……也不知道是開心還是不開心……本命年果然有些不順……希望疫情快快過去讓我這個失業(yè)人士找到個滿意的工作遇到可愛的同事暖心的領(lǐng)導求求惹?(1)數(shù)據(jù)來源自CCIR 2020疫情期間網(wǎng)民情緒識別數(shù)據(jù)集”
示例1中的“不幸”“不順”等詞表達的是負面的情感,對文本進行更深入的挖掘,可以得出該負面情感的原因是“公司裁員了”,也就是說,對于該民眾來講失業(yè)是他最擔心最害怕的事情.對此,政府可以從如何復工復產(chǎn)、擴大就業(yè)等角度入手來緩解民眾的情緒.
新冠疫情給社會帶來了巨大的沖擊,很多人會通過網(wǎng)絡(luò)來發(fā)表自己的感受,從這些在線社交文本中可以了解到民眾的真實情感以及其產(chǎn)生的原因.情感原因提取(emotion cause extraction, ECE)可以為相關(guān)部門進行災后民眾心理健康輔導以及災后重建政策的制定提供輔助.同理,在網(wǎng)絡(luò)輿情方面,如果能迅速提取人們情感變化的原因,則可以在第一時間針對性地進行疏導,減少負面影響.此外,傳統(tǒng)的輿情監(jiān)控一般只在事件已經(jīng)發(fā)生或者已造成不良影響后才可能監(jiān)控到,但文本情感原因研究則可以基于對歷史事件的分析,對其中觸發(fā)民眾異常情感的原因進行歸納推導,從而提前判斷有可能產(chǎn)生異常的輿論事件.
示例2.“房間的隔音太差!我定的房朝內(nèi)街,對講機聲和空調(diào)聲極大!建議加裝雙層玻璃窗!(2)數(shù)據(jù)來源自譚松波等的酒店評論語料ChnSentiCorp.”
示例2中,傳統(tǒng)的情感分析可以識別出文檔中表達的負面情感,通過方面級情感分析可進一步知道用戶不滿的對象是酒店的設(shè)施,但這還是不夠的,如果能再進一步分析出是因為“隔音太差”和“對講機聲和空調(diào)聲極大”造成對設(shè)施的不滿,那么酒店的管理人員就能更清楚地知道為什么顧客不喜歡他們的酒店,而不是簡單的喜好分類,從而有明確的改進方向.
示例3.“為什么我的父母都不理解我,看到我手腕上的傷只會罵我打我,讓我更絕望,我也好想死,但哪一次是成功的呢?(3)數(shù)據(jù)來源自譚松波等的酒店評論語料ChnSentiCorp”
示例3中,文本反映出用戶存在心理問題,有自殺的傾向,如果能把用戶為什么有這種負面情緒或者說為什么想自殺的原因“父母都不理解我”提取出來,在進行心理輔導時就更有針對性.
民眾的心理健康問題也日益突出,很多患者由于某些主觀原因并不愿意通過傳統(tǒng)途徑來獲取幫助,他們反而愿意通過在線社交媒體來尋求支持.因此,在通過帖子發(fā)現(xiàn)心理健康異常或情緒異常的用戶后,提取帖子中反映出的“情感原因”,可以提高疏導的針對性,改善心理輔導效果.
以上示例顯示,情感原因的自動提取具有廣泛的應用場景.同時,情感原因的自動提取需要能夠?qū)ξ谋菊Z義和情感表達有更深刻的理解,需要探索更有效的自然語言處理技術(shù),甚至需要利用心理和認知領(lǐng)域的知識,因此具有較高的學術(shù)研究價值.
近年來已有不少學者關(guān)注情感原因提取這一重要方向.目前從事情感原因提取研究的團隊主要集中在國內(nèi)[2-32],其中Lee等人[2]在2009年開始從事情感原因提取的相關(guān)研究,Xu等人[14]做了大量基礎(chǔ)性工作并發(fā)布了目前唯一公開的中文情感原因數(shù)據(jù)集,Xia等人[25]于2019年提出情感原因?qū)μ崛∪蝿?wù),為情感原因提取研究打開了一個新的方向.近3年,該領(lǐng)域的研究更是處于一個明顯的上升勢頭.
雖然在情感原因提取這一領(lǐng)域目前產(chǎn)生了不少很好的成果,但并沒有相關(guān)的綜述報道,因此,本文對基于文本的情感原因自動提取的相關(guān)成果進行全面回顧和分析,梳理情感原因自動提取的主要方法和模型,廓清該領(lǐng)域的發(fā)展狀況與趨勢,展望未來發(fā)展方向,旨在為情感分析工作的深入研究提供參考.
情感原因簡單理解就是導致或誘發(fā)某種情感產(chǎn)生的直接或間接原因,而文本情感原因提取則是從蘊含情感的文本中提取出描述情感產(chǎn)生原因的事件、子句、短語或詞.不同學者從不同的學科和角度出發(fā),對情感原因的理解也不盡相同.考慮到一些文獻中將“情感”和“情緒”視為2種完全不同的概念,本文中所指的“情感”是更為廣義的概念,它既包括普通的正向、負向和中性的情感含義,也包括高興、生氣、害怕等具體層面的情緒含義.
由于觸發(fā)情感的原因事件可能是名詞短語、動詞短語,也可能是由若干個短語組成的短句,這其中涉及許多復雜的語言學知識,造成傳統(tǒng)的短語級情感原因提取任務(wù)復雜度大、提取準確率不高.因此,2016年Gui等人[15]提出了子句級情感原因提取任務(wù),即從給定的包含情感的文檔中提取出觸發(fā)該情感的原因,并以子句的粒度進行提取.
由于需要事先對情感子句中的情感關(guān)鍵詞及其情感類別進行標注,這限制了其在現(xiàn)實場景中的應用.2019年,Xia等人[25]又在此基礎(chǔ)上提出了“情感原因?qū)Α碧崛∪蝿?wù),該任務(wù)將情感子句和情感原因子句進行組合形成“情感原因?qū)Α?,提取任?wù)的目標是成對地提取文檔中潛在的情感子句和相應的情感原因子句,其優(yōu)勢在于提取原因子句時不需要提前知道情感子句的具體位置和情感類別.
情感原因提取任務(wù)和情感原因?qū)μ崛∪蝿?wù)的形式化定義如下:
給定一篇包含情感關(guān)鍵詞和情感原因的文檔d,將該文檔按子句的粒度進行劃分d={c1,c2,…,cn},n為文檔中子句的數(shù)量.每個子句ci包含若干個單詞,即ci={w1,w2,…,wk},k為子句中單詞的數(shù)量,其中包含了情感關(guān)鍵詞E的子句稱為情感子句記為cemo,包含情感原因的子句稱為情感原因子句記為ccau.
子句級情感原因提取的目的是提取出文檔中所有能夠觸發(fā)情感關(guān)鍵詞E的原因子句ccau,即由E→ccau.值得注意的是,某個情感可能由多個原因觸發(fā),因此,情感原因子句ccau的數(shù)量可能不止一個.
相對于這種子句級的粗粒度情感原因提取,細粒度情感原因提取則是以詞或者短語塊的粒度來對情感原因的邊界進行限定,即在情感原因子句ccau中提取出子字符串Wcau={wi,wi+1,…,wj},0≤i≤j≤k.
對于“情感原因?qū)Α碧崛∪蝿?wù),其輸入為文檔d中的所有子句,輸出則是以Pair對的形式進行組織,即給出二元組的集合P={(cemo,ccau)1,…,(cemo,ccau)i,…,(cemo,ccau)m},任務(wù)的目標是提取出文檔中所有的情感原因?qū)?cemo,ccau)i,其中ccau子句是cemo子句所對應的原因(注:同一個情感可能由不同的原因觸發(fā),同一個原因也可能觸發(fā)不同的情感).該任務(wù)與傳統(tǒng)情感原因提取任務(wù)的最大區(qū)別在于其并不需要事先對情感子句cemo進行標注,也就是任務(wù)本身并不依賴于是否給定情感關(guān)鍵詞E.
下面給出2個任務(wù)的1個實例:
給定文檔d=“昨天上午,一名警察帶著丟失的錢拜訪了那個老人,并告訴他小偷已經(jīng)抓住了.老人十分高興,并把錢存進了銀行.”,將其劃分為5個子句.
除了干預措施,在必要的時候,藥師可以建議患者轉(zhuǎn)診到指定呼吸科醫(yī)師或更有經(jīng)驗的醫(yī)師處就診,以調(diào)整藥師自己不能確定的治療方案。
c1=“昨天上午”;
c2=“一名警察帶著丟失的錢拜訪了那個老人”;
c3=“并告訴他小偷已經(jīng)抓住了”;
c4=“老人十分高興”;
c5=“并把錢存進了銀行”.
子句級情感原因提取任務(wù)是在給定子句c4中表達的情感關(guān)鍵詞“高興”的基礎(chǔ)上提取出觸發(fā)“高興”這一情感的原因是子句c2和c3,即“高興”→c2,“高興”→c3.而對于短語級的情感原因提取則需要輸出:“高興”→“警察帶著丟失的錢”,“高興”→“小偷已經(jīng)抓住了”.情感原因?qū)μ崛∪蝿?wù)則無需對情感關(guān)鍵詞進行標注,直接輸出文檔中的情感和對應原因的子句對,即(c4,c2)和(c4,c3).
相對于傳統(tǒng)的情感分析研究任務(wù),情感原因提取的研究仍處于起步階段,該領(lǐng)域公開發(fā)表的研究文獻相對較少,本綜述選取了近10年公開發(fā)表的情感原因研究文獻作為研究對象,從提取粒度、研究方法、研究對象等多個角度對情感原因的研究工作進行分類歸納和總結(jié),其統(tǒng)計結(jié)果如表1所示:
Table 1 Statistical Data of the Literature Classification for Emotion Cause Extraction
情感原因提取任務(wù)從原因粒度來看主要有短語級和子句級兩大類,近幾年的研究大都是以子句為粒度,將情感原因的提取作為分類問題來進行處理.從研究對象來看主要分為微博類的短文本和新聞類的長文本兩大類,現(xiàn)有的公開語料為基于新浪新聞的長文本.從研究方法來看,主要有基于規(guī)則、基于統(tǒng)計和基于深度學習這三大類,其中近幾年的研究大都是以深度學習模型為基礎(chǔ).在語料的語言類型上,雖然曾有不同的學者從中文、英文、日文、意大利文這4種語言上開展研究,但目前研究最多的還是中文語料.
基于規(guī)則的情感原因提取方法主要是通過分析語料庫,找出與文本情感原因相關(guān)的語言學線索并構(gòu)建相關(guān)規(guī)則,之后利用規(guī)則提取導致情感變化的原因.
Lee等人[2-5]首先針對“高興”和“驚訝”這2種最基本的情感設(shè)計了若干語言學規(guī)則,對其進行情感原因的提取和分析.他們從情感認知理論出發(fā),認為情感原因主要有動詞類原因和名詞類原因2種,設(shè)計了一套標注模式對包含文本情感原因的語料庫進行標注,該標注模式對樣本的情感類別列表、包含情感關(guān)鍵詞的焦點句、焦點句中情感詞的類別、焦點句的前一子句和后一子句等幾個方面進行了標注.然后,利用使役動詞、感官動詞、連詞、介詞以及其他線索詞提取出如表2所示的6組文本情感原因語言學線索詞.他們隨后又基于表2中定義的線索詞
Table 2 Linguistic Cue Words for Emotion Cause Events[4]表2 情感原因事件語言學線索詞[4]
生成了如表3所示的14條語言學規(guī)則.最后,根據(jù)這些規(guī)則開發(fā)了一套基于規(guī)則的情感原因提取系統(tǒng).
Table 3 Linguistic Rules for Emotion Cause Extraction 1[4]表3 情感原因提取語言學規(guī)則集1[4]
以上規(guī)則的構(gòu)建主要是基于語言學線索詞、情感關(guān)鍵詞、情感原因以及三者相對位置的組合.以規(guī)則1“C(B/F)+Ⅲ(F)+K(F):C=F/B中Ⅲ組之前最近的名詞/動詞”為例,該規(guī)則表明原因位于第Ⅲ組線索詞(使役動詞:讓,令,使)的前面,因此為了提取原因C,就要在包含情感動詞的焦點句F或者F之前的子句B中,找到第Ⅲ組線索詞之前并且離之最近的名詞或動詞,并將包含該名詞或動詞的子句提取為原因子句.如對于文本“伊拉克細菌武器的曝光,使聯(lián)合國大為震驚”可以提取成滿足規(guī)則1的形式,即“[C伊拉克細菌武器的曝光],[Ⅲ使]聯(lián)合國大為[K震驚]”,其中“使”為線索詞,“震驚”為情感關(guān)鍵詞,“伊拉克細菌武器的曝光”為原因子句.在Lee等人[3-5]研究的基礎(chǔ)上,Gui等人[12]又針對微博短文本的特點,增加了如表4所示的4條匹配規(guī)則.
Li等人[34]于2013年構(gòu)建了一個中文微博情感語料庫,基于觸發(fā)情感原因的事件是情感的重要組成部分這一理論,提出一種利用情感原因作為特征之一來進行情感分類的方法,其情感原因事件的提取仍采用基于規(guī)則的方法.Neviarouskaya等人[35]則根據(jù)Ortony等人[76]于1988年提出的22類情感認知模型OCC構(gòu)建了一個情感標注語料庫,并通過依存句法分析、語義分析提取出了8種類型的情感原因提取規(guī)則.Gao等人[30-31]也是基于OCC模型設(shè)計了一個層次結(jié)構(gòu)的情感原因分類體系模型ECOCC(emotion cause OCC),隨后利用情感觸發(fā)條件機制從事件結(jié)果、主體行為和實體對象這3類評價對象出發(fā),將與模型框架中的情感規(guī)則相匹配的文本成份分為了6類,并分別設(shè)計了對應的評價成分和評價標準,其中在規(guī)則產(chǎn)生上引入了基礎(chǔ)情感產(chǎn)生規(guī)則、復合情感產(chǎn)生規(guī)則以及延伸情感產(chǎn)生規(guī)則,最后通過建立子事件集的模型,從外部事件和內(nèi)部事件2個角度來實現(xiàn)對情感原因的提取.
Table 4 Linguistic Rules for Emotion Cause Extraction 2[12]表4 情感原因提取語言學規(guī)則集2[12]
除了手工設(shè)計規(guī)則外,也有一些學者嘗試借助一些外部知識來進行規(guī)則的自動構(gòu)建.Russo等人[44]借助情感原因知識庫,利用相關(guān)語言模式之間的相互作用關(guān)系,提出了一種自動提取意大利報紙文章中可能引起情感或情感狀態(tài)變化原因的方法.該方法主要采用了最大期望算法(expectation maximization, EM)聚類模型和分類器的數(shù)據(jù)挖掘技術(shù),自動歸納事件原因短語表達的規(guī)則.Yada等人[36]則采用了自舉(bootstrapping)方法來自動獲取情感原因的提取規(guī)則.該方法認為當某一情感的原因事件出現(xiàn)在另一個具有相同情感的句子中時,2個句子中位于情感原因和情感詞之間的線索短語應該具備相同的連接功能.例如“過生日令我十分開心”和“過生日讓我十分開心”這2句話具備相同的情感“開心”和原因事件“過生日”,那么它們之間的線索短語“令”和“讓”就應該具備相同的功能.因此,他們先通過人工給定的線索短語來收集情感原因;然后,從包含與先前收集的情感原因相似的情感短語中獲得新的連接線索短語,通過迭代不斷地提取出新的線索短語.
傳統(tǒng)基于統(tǒng)計的機器學習方法主要通過設(shè)計情感原因特征,然后將情感原因提取問題看作是一個文本分類或序列標注問題,進行有監(jiān)督的文本情感原因提取.此類方法一般先假定觸發(fā)情感的原因是一個或者一系列的事件,情感原因就在情感詞附近.因此,先找出一段話中有意義的實詞,然后確定分類的特征,比如事件特征、語言學特征、距離特征、詞法特征等,最后利用這些特征完成情感原因的分類或序列標注.已有文獻中,用于情感原因提取的特征大致可分為6類.
1) 事件特征
Talmy[77]從認知學角度出發(fā),認為情感常常是由1個或多個事件觸發(fā)產(chǎn)生的.Balahur等人[78]也將情感的產(chǎn)生看成是動態(tài)的過程,這一動態(tài)過程主要是由一系列引發(fā)情感的事件所觸發(fā),他們通過構(gòu)建“情感-事件”常識庫來建立情感與其引發(fā)事件之間的關(guān)系,并在此基礎(chǔ)上進行情感分類.因此,早期基于規(guī)則和基于統(tǒng)計機器學習的情感原因提取研究大都是將情感原因當成是一種特殊事件來進行提取,如Lee等人[3,5]是從規(guī)則中提取事件,Chen等人[4]則是用機器學習的方法來提取事件特征.
Gui等人[14-15]使用遵循萬維網(wǎng)聯(lián)盟(World Wide Web Consortium, W3C)標準的情感標記語言方案,建立了新浪新聞情感原因標注數(shù)據(jù)集,并提出了一種事件驅(qū)動的情感原因提取方法,該方法通過對包含情感的文本上下文進行句法分析來提取事件.同時他們對情感原因事件進行了正式定義,并通過七元組的方式來進行事件結(jié)構(gòu)的表示.事件七元組的形式化定義為
e=(AttO1,O1,Adv,P,Cpl,AttO2,O2).
(1)
該定義基于中文是一種典型的主謂賓(SVO)結(jié)構(gòu),七元組中的AttO1和AttO2分別表示主語對象O1和賓語對象O2的屬性;P是謂語,表示一種動作或者行為;Adv是用于修飾謂語P的狀語;Cpl則是謂語P的補語.由于一個事件中不一定會包含所有的7個元素,因此元組中某些元素的值可以為空.在通過依存句法對句子進行解析后,使用事件樹進行表達和存儲,最后再利用基于卷積核(樹核)的支持向量機(support vector machine, SVM)算法進行情感原因事件的提取.同時,考慮到實際處理的需要,文獻[14-15]的作者還設(shè)計了不同形式的核函數(shù)來進行分類.
王九碩[32]也從事件角度出發(fā)提出了一種用于中文微博文本的情感原因提取方法.該方法抽取博文中包含的子事件并標記,然后通過情感原因成分比例來挖掘情感與原因成分之間的對應關(guān)系,并以此提取出博文中包含的情感原因成分,找出與情感對應的原因事件.
2) 語言學特征
Chen等人[4]在前期研究的基礎(chǔ)上,提出一種多標簽分類方法來提取情感原因,該方法不僅可以檢測多個原因子句的問題,還可以捕獲遠距離的信息.他們將語言學線索詞和語言學規(guī)則作為特征,同時考慮到手工設(shè)計特征的復雜性以及覆蓋率低的問題,他們還設(shè)計了泛化性更好的特征來提取局部功能詞結(jié)構(gòu)、長距離連詞結(jié)構(gòu)以及中文所特有的一些泛化動詞和認知動詞結(jié)構(gòu),這些泛化特征的設(shè)計可以有效地保證特征的完備性.
Gui等人[12]構(gòu)建了一個包含1 333條語料的微博情感原因標注文本,并從中構(gòu)造了25條情感原因匹配規(guī)則,隨后從規(guī)則、距離、詞性等角度進行特征的設(shè)計,最后采用SVM算法和條件隨機場(conditional random field, CRF)算法進行情感原因分類和序列標注.其中,規(guī)則特征的使用方法是將規(guī)則轉(zhuǎn)換為二元邏輯特征,即如果某子句符合某條規(guī)則,那么其對應的特征就是1,否則為0.除了基本的規(guī)則特征,情感原因出現(xiàn)的位置和其上下文之間也存在著一定的語言學規(guī)則.
Gao等人[30-31]以22種細粒度的情感類型為基礎(chǔ),設(shè)計相關(guān)的提取規(guī)則,構(gòu)建情感詞匯,用于分析不同的情感原因觸發(fā)不同情感的比例情況,在此基礎(chǔ)上設(shè)計了多種語言學相關(guān)特征,用于中文微博的情感原因提取.這些特征包括各種表情符、程度副詞(如“極其”“很”“欠”“較”“稍”等)、否定詞、標點符號(如“!!!!”等)、連詞(如“但是”)等.袁麗[13]也是在構(gòu)建微博文本情感原因數(shù)據(jù)集的基礎(chǔ)上,利用統(tǒng)計模型提取了微博文本的情感原因提取規(guī)則,并結(jié)合句子距離、詞語距離、候選詞詞性、表情符號、情感關(guān)鍵詞及其詞性等特征進行文本情感原因的提取.王趙煜[16]則基于中國知網(wǎng)情感詞典(HowNet)和同義詞詞林的常識庫擴展方法構(gòu)造了一個認知常識庫,并結(jié)合語言學特點,將常識庫中的知識作為特征,用于情感原因的提取.
3) 距離特征
距離特征主要包括子句間的距離特征和詞語間的距離特征,其中子句間的距離特征是指情感原因子句和情感表達子句之間的相對距離,詞語間的距離特征則是指情感原因子句中觸發(fā)情感的詞語和情感表達子句中情感關(guān)鍵詞之間的相對距離.
針對子句的距離特征,文獻[12]對中文微博情感原因數(shù)據(jù)集的分析表明,有近60%的情感原因和情感表達是在同一子句,有近30%的情感原因子句是在情感表達子句的前一子句或后一子句,在這30%的情感原因子句中有近80%是位于情感表達子句的前一子句.文獻[15]對新浪新聞情感原因數(shù)據(jù)集的分析表明,有23.6%的情感原因和情感表達位于同一子句,有54.45%的情感原因子句位于情感表達子句的前一子句,因此可將子句的距離特征設(shè)置為-2,-1,0,1,2等,其中-2或-1分別表示位于情感表達子句前面的第2句或前一句,0表示和情感表達子句位于同一子句,即該子句就是情感表達子句,以此類推.
詞語間的距離特征則是考慮到詞語上下文的語境以及語用的特點,距離情感表達關(guān)鍵詞越近的實詞,其成為觸發(fā)情感產(chǎn)生的關(guān)鍵詞的可能性就越大.因此,可以將某實詞的距離特征值設(shè)置為“1”或“-1”表示它位于情感表達關(guān)鍵詞右邊或左邊且是距離其最近的第1個實詞.
基于以上2種距離特征,文獻[13]利用線性鏈條件隨機場的特征,將文本情感原因提取問題看作是一個序列標注問題,在語言學特征和微博語義特征的基礎(chǔ)上,添加詞語距離特征和子句距離特征,提高標注的準確性.
4) 詞法特征
考慮到情感原因通常包括名詞性原因和動詞性原因,因而詞語的詞法特征,如詞性(part-of-speech, POS)等,也作為一種特征被用于情感原因提取任務(wù).詞法特征可分為情感原因候選詞詞法特征和情感關(guān)鍵詞詞法特征.其中,情感原因候選詞詞法特征主要考慮該詞的詞性是否是名詞、動詞、代詞、限定詞等,它主要用于對候選的情感原因子句中的詞語進行判別;而情感關(guān)鍵詞的詞法特征則是指情感關(guān)鍵詞的詞性,主要有動詞、名詞、形容詞、語氣詞等.情感關(guān)鍵詞的詞性和情感原因之間存在著一定的關(guān)聯(lián),例如文獻[13]發(fā)現(xiàn),名詞性的情感原因其情感關(guān)鍵詞一般為動詞或形容詞.除了基本的詞性特征外,李逸薇等人[7]也將子句中名詞個數(shù)、動詞個數(shù)作為特征.
5) 上下文特征
文本中的子句以及詞語并不是獨立的,子句之間和詞語之間都存在著上下文的語義關(guān)聯(lián)以及一些常識性關(guān)聯(lián).文獻[7]設(shè)計了上一子句中的動詞、名詞、標簽以及下一子句中的動詞、名詞這5個特征作為上下文特征,用于情感原因的提取.
6) 主題特征
情感的產(chǎn)生和文本的主題存在較大的相關(guān)性,相同或相似的主題會觸發(fā)相同或相似的情感.因此在利用主題模型方面,Song等人[37]提出了一個概念層面的情感原因模型CECM(concept-level emotion cause model),用來發(fā)現(xiàn)微博用戶在特定熱點事件中多樣化情感的原因.CECM使用改進的二元詞主題監(jiān)督模型來檢測某事件相關(guān)的推文中的情感主題,然后使用PageRank來檢測有意義的多詞表達作為情感原因.同時,該模型還能夠檢測出情感表情符和情感之間的關(guān)系.文獻[13]也利用了主題模型來提取情感認知知識和情感的語義知識.
除以上6類特征外,Ho等人[38]結(jié)合心理學相關(guān)知識,提出了一種利用高階隱馬爾可夫(hidden Markov model, HMM)模型來模擬心理狀態(tài)序列引發(fā)情感的過程,其核心思想在于:先將輸入文本轉(zhuǎn)換為導致心理狀態(tài)的一系列事件,然后使用HMM對導致情感變化的狀態(tài)序列進行建模.在構(gòu)造HMM狀態(tài)和將輸入文本與這些狀態(tài)的匹配過程中,將向量空間模型(vector space model, VSM)和潛在語義分析(latent semantic analysis, LSA)作為語義相似度比較機制,該機制可以檢測出一些通用術(shù)語所表達的情感,并最終在數(shù)據(jù)集上取得了較好的效果.該方法既考慮了作為情感喚起過程的情感心理特征,又考慮了作為輸入文本語法關(guān)系的語言信息.
與傳統(tǒng)的機器學習方法不同,Xu等人[45]從信息檢索的角度出發(fā),基于文檔排序的思想,提出了一種基于學習排序的方法來提取情感原因.該方法以文檔中被觸發(fā)的情感詞作為查詢,以情感段落中的各候選子句作為候選文檔,設(shè)計了一套原因?qū)虻淖泳浼壟判蚍椒?,用于對候選子句進行排序.該方法的重點在于將候選子句表示為包含情感獨立特征和情感依賴特征的特征向量,學習有效的子句排序模型.其中情感獨立的特征(子句長度、POS、線索詞等)用于捕捉候選原因子句觸發(fā)情感的可能性;而情感依賴特征(相對位置、詞向量相似度、主題相似度)則用于捕捉候選原因子句與情感詞之間的相關(guān)性.在排序方法上,文獻[45]的作者分別從pointwise,pairwise,listwise這3個級別出發(fā),采用了多種經(jīng)典的信息檢索排序算法來進行學習排序.
隨著深度學習在自然語言處理領(lǐng)域中的廣泛應用,基于神經(jīng)網(wǎng)絡(luò)的方法從2017年開始被應用于文本情感原因提取.其一般過程為:首先將詞映射到向量空間中;其次通過神經(jīng)網(wǎng)絡(luò)模型來對文本特征進行自動提??;最后使用softmax函數(shù)將結(jié)果映射到概率空間來完成情感原因的提取.
從深度學習技術(shù)發(fā)展的脈絡(luò)來看,神經(jīng)網(wǎng)絡(luò)模型經(jīng)歷了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)、長短時記憶網(wǎng)絡(luò)(long short-term memory, LSTM)、門控循環(huán)網(wǎng)絡(luò)(gate recurrent unit, GRU)、Transformer、圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network, GCN)等基礎(chǔ)模型的演變,現(xiàn)有的基于深度學習的情感原因提取模型也是在這些模型的基礎(chǔ)上,通過組合、變形、融合注意力機制等方式來構(gòu)造更為復雜的模型,提升提取效果.由于大多數(shù)模型都涉及好幾項技術(shù)的交叉,特別是注意力機制基本在每個模型上都有一定程度的應用,因此本節(jié)對用于情感原因提取任務(wù)的深度學習模型進行介紹時行文的組織為:首先介紹采用基礎(chǔ)神經(jīng)網(wǎng)絡(luò)的幾種典型模型,隨后介紹涉及多種基礎(chǔ)模型的混合模型,最后分析在神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上借助特定技術(shù)(如多任務(wù)、知識蒸餾等)來融入外部信息進行輔助的幾個代表性模型.本節(jié)的總體組織結(jié)構(gòu)如圖1所示.
Fig. 1 Emotion cause extraction based on deep learning圖1 基于深度學習的情感原因提取技術(shù)
2.3.1 基礎(chǔ)神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機制模型
1) CNN
Gui等人[17]受問答領(lǐng)域的啟發(fā),將情感關(guān)鍵詞作為查詢詞,將其上下文作為查詢文本,通過問答的方式來判斷當前子句是否為情感原因.他們基于該思想設(shè)計了名為ConvMS-Memnet(convolutional multiple-slot memory network)的模型,該模型利用CNN的卷積機制,并通過多槽記憶網(wǎng)絡(luò)來實現(xiàn)對遠距離上下文信息的建模,達到同時提取詞級序列特征和詞匯特征的目的.為了驗證網(wǎng)絡(luò)深度的作用,他們分別設(shè)計了單層的網(wǎng)絡(luò)模型,如圖2所示,以及多層的網(wǎng)絡(luò)模型.傅科達[46]也在句子級別上分別設(shè)計了基于端到端、基于詞向量、基于注意力機制、基于關(guān)鍵詞-值網(wǎng)絡(luò)等多種記憶網(wǎng)絡(luò)模型來提取情感原因.
Fig. 2 A CNN and memory network based model for ECE[17]圖2 基于CNN和記憶網(wǎng)絡(luò)的情感原因提取模型[17]
Chen等人[10]針對中文微博中的情感原因提取問題,提出了一種分層卷積神經(jīng)網(wǎng)絡(luò)模型來提取微博中的事件特征,該模型設(shè)計了子句級編碼器和子推文級編碼器來分別處理特征稀疏問題和事件信息不足問題.首先,底層的子句級編碼器結(jié)合多個神經(jīng)網(wǎng)絡(luò)提取每個子句的局部特征;然后,上層的子推文級編碼器將這些局部特征作為一個序列,通過卷積神經(jīng)網(wǎng)絡(luò)為每個子句提取序列特征.此外,考慮到由于小規(guī)模實驗數(shù)據(jù)中的特征稀疏問題,其子句級編碼器還提取了2種相互補充的局部特征,即基于卷積神經(jīng)網(wǎng)絡(luò)的顯著特征和基于注意力網(wǎng)絡(luò)的加權(quán)特征.
Diao等人[47]也提出了一種基于注意力的上下文卷積網(wǎng)絡(luò)模型EACN(enhanced-representation attention convolutional-context network),該模型采用了一種新的處理機制,即在情感詞信息背后引入分層上下文,并將這種上下文作為輸入,通過卷積運算提取情感原因,充分捕捉子句之間的層次語義關(guān)系,從而構(gòu)建復雜句子結(jié)構(gòu)中情感詞及其情感成因之間的關(guān)系,以便更好地理解情感詞及其上下文語境.
慕永利等人[48-49]則是從解決數(shù)據(jù)集不平衡性的角度出發(fā),提出了一種基于集成CNN的情感原因提取方法.該方法充分利用了CNN中的卷積和池化等相關(guān)技術(shù)來對句子的語義信息進行融合.此外,考慮到情感原因數(shù)據(jù)集中非原因子句和原因子句的不平衡性,他們將非原因子句集合分解為多個子集并與原因子句集組合構(gòu)成多個較平衡的數(shù)據(jù)集,然后分別通過一個單獨的CNN模型進行訓練,最后將它們進行集成并用于最終的提取.
鄭勝協(xié)[50]設(shè)計了名為CAES(compare aggregate model with embedding selector)的網(wǎng)絡(luò)模型,該模型在CNN的基礎(chǔ)上,結(jié)合互注意力機制和自注意力機制,并利用K-max方式對注意力權(quán)重進行剪枝.其中互注意力機制用于捕獲情感詞和子句的關(guān)系,自注意力機制用于捕獲每個子句自身內(nèi)部詞語的重要性,而剪枝則可以去除不相關(guān)的文本片段在注意力歸一化時造成的噪音.此外,他還把情感原因發(fā)現(xiàn)問題當成一個排序問題,利用pairwise-rank方式進行建模.
2) LSTM
為了進一步挖掘子句間的因果關(guān)系,Ding等人[26]創(chuàng)新性地提出,除了文本本身的內(nèi)容外,子句的相對位置信息和全局標簽信息對于情感原因的提取也至關(guān)重要.其中相對位置信息主要是表示候選子句和情感句之間的相對距離,而全局標簽則是為了表示除當前子句外的其他所有子句的當前預測結(jié)果.為了整合這些信息,他們提出基于雙向長短時記憶(bidirectional long short term memory, BiLSTM)的PAE-DGL(relative position augmented embedding learning- reordered prediction with dynamic global labels)模型,如圖3所示,以統(tǒng)一的端到端的方式來編碼這3個要素(文本內(nèi)容、相對位置和全局標簽),模型中采用了一種相對位置增廣的嵌入學習算法,將任務(wù)從一個獨立的預測問題轉(zhuǎn)化為一個包含動態(tài)全局標簽信息的重排序預測問題.該方法最大的創(chuàng)新在于在預測過程中能夠隨著已有子句的預測結(jié)果動態(tài)調(diào)整當前子句的預測結(jié)果,也就是說如果前一個子句被預測出有較高的概率為原因子句,則其后的子句被預測為原因子句的概率則自動降低,反之亦然.
注:P代表相對位置,V代表位置向量,r代表子句的向量表示,DGL代表動態(tài)全局標簽向量.Fig. 3 A relative position and global label based model for ECE[26]圖3 基于相對位置和全局標簽的情感原因提取模型[26]
夏林旭等人[51]同樣采用注意力機制和BiLSTM神經(jīng)網(wǎng)絡(luò)模型來進行情感原因的提取,但他們采用字符向量來表示文本的語義信息,并且在提取文本特征時還結(jié)合了人工提取的子句特征.
與現(xiàn)有大多數(shù)研究僅針對單用戶的單條微博內(nèi)容進行情感原因提取不同的是,Cheng等人[8]于2017年提出了一種基于多用戶結(jié)構(gòu)(某一微博下多個用戶的交互,其中最原始發(fā)布的微博稱為原推文,其回復稱為子推文)的中文微博情感原因提取方法.為此,他們首先專門設(shè)計了一種情感原因標注方案,用來處理在多用戶結(jié)構(gòu)中某個用戶的情感原因可能來自于其他用戶這一復雜情況,并基于該標注方案構(gòu)建情感原因標注語料庫;然后,通過對該語料庫的分析,提出了基于子推文和基于原推文的2種情感原因提取任務(wù);最后基于LSTM模型來實現(xiàn)情感原因的提取.
3) GRU
Fan等人[21]通過對語篇的上下文信息進行建模,并引入外部情感知識庫來進一步輔助情感原因的發(fā)現(xiàn),在此基礎(chǔ)上提出了一種正則化的層次神經(jīng)網(wǎng)絡(luò)(regularized hierarchical neural network, RHNN)模型,如圖4所示.
Fig. 4 A knowledge regularization based model for ECE[21]圖4 基于知識正則化的情感原因提取模型[21]
該模型通過GRU并結(jié)合層次化注意力網(wǎng)絡(luò)來對詞級和子句級的語篇結(jié)構(gòu)信息進行建模,并最終為子句表征生成有用信息.考慮到情感原因子句中存在一些蘊含情感極性的關(guān)鍵詞,及情感原因子句和情感子句中情感詞的相對位置關(guān)系,他們還設(shè)計了基于情感字典和相對位置的正則化機制來對訓練模型中損失函數(shù)進行約束.
4) GCN
隨著圖卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,該技術(shù)也被廣泛應用于鏈接預測、事件檢測以及推薦系統(tǒng)等領(lǐng)域,許多自然語言處理(natural language processing, NLP)任務(wù)中的問題也通過圖卷積神經(jīng)網(wǎng)絡(luò)得到了成功解決.現(xiàn)有的情感原因提取方法大多通過注意力機制或聯(lián)合學習來獲取語義信息,其子句編碼器大都是以LSTM或GRU為基礎(chǔ)序列模型.這類模型難以刻畫子句之間的長距離或全局依賴,從而忽略子句間的深層依賴關(guān)系.因此,Hu等人[52]提出了一種基于子句依存關(guān)系的融合語義和結(jié)構(gòu)約束的圖卷積網(wǎng)絡(luò)結(jié)構(gòu)(graph convolutional structure with fusion of semantics and structural constrict, FSS-GCN)模型,如圖5所示,該模型通過將GCN基礎(chǔ)模型和基于注意力引導的圖卷積神經(jīng)網(wǎng)絡(luò)(attention guided graph convolutional network, AGGCN)作為子句級編碼器,利用子句之間的依賴關(guān)系來加深對文本語義的理解.模型還通過不斷向網(wǎng)絡(luò)中注入結(jié)構(gòu)約束,將焦點從全局結(jié)構(gòu)縮小到局部結(jié)構(gòu),使得該模型能夠選擇性地注意到有助于情感原因分析的相關(guān)子句.
注:M為FSS-GCN模塊的堆疊個數(shù),L為每個FSS-GCN模塊中GCN的層數(shù).Fig. 5 A GCN based model with fusion of semantics and structural constrict for ECE[52]圖5 融合語義和結(jié)構(gòu)約束的圖卷積網(wǎng)絡(luò)情感原因提取模型[52]
2.3.2 基礎(chǔ)神經(jīng)網(wǎng)絡(luò)混合模型
1) CNN+LSTM
Li等人[53-54]認為,前期的研究方法忽略了可能為情感原因提供線索的上下文,然而上下文中的子句在激發(fā)某種特定情感方面發(fā)揮著不同的作用.借助于注意力機制的特點,他們提出基于情感上下文感知的共注意力機制神經(jīng)網(wǎng)絡(luò)(co-attention neural network,CANN)模型.該方法首先通過BiLSTM模型對原因候選子句和情感子句進行編碼,然后送入CNN的卷積層進行情感原因提取.此后,他們又提出基于多注意力機制的神經(jīng)網(wǎng)絡(luò)(multi-attention-based neural network, MANN)模型,如圖6所示.該模型通過BiLSTM整合詞語的上下文信息,并利用多注意力機制捕獲情感子句和候選子句之間的相互影響,生成情感子句和候選原因子句的向量表示.其中的多注意力機制主要分為情感詞引導的注意力和候選子句引導的注意力.
Fig. 6 A multi-attention-based model for ECE[54]圖6 基于多注意力機制的情感原因提取模型[54]
Fig. 7 A multiple level hierarchical network-based model for ECE[55]圖7 基于多級別層次網(wǎng)絡(luò)的情感原因提取模型[55]
2) CNN+GRU
在利用基本的深度學習模型配合注意力機制的基礎(chǔ)上,也有一些學者從情感分析問題本身出發(fā),從文本粒度的角度開展研究.在文本分析粒度方面,Yu等人[55]基于層次化網(wǎng)絡(luò)的多級別子句選擇框架來提取情感原因,框架由低到高依次由詞級、短語級和子句級3個網(wǎng)絡(luò)構(gòu)成,如圖7所示.具體地,通過基于內(nèi)容和位置注意力矩陣的單詞級網(wǎng)絡(luò)建模單詞級信息,通過CNN建模短語級信息,通過雙向門循環(huán)單元(bidirectional gated recurrent unit, Bi-GRU)建模子句級信息.這種多級別的建模方式的優(yōu)點在于綜合考慮了文檔特征的多個因素,如詞的位置、不同的語義級別(單詞和短語)、子句的交互等.
Diao等人[56]將情感原因提取作為一個機器閱讀理解問題,設(shè)計了一個名為MBiAS(multi-granularity bidirectional attention stream)的多粒度雙向注意力流網(wǎng)絡(luò)模型,模型中的雙向注意流層能夠捕獲情感查詢感知上下文表示中的深層次交互,從而學習和理解其中的語義關(guān)聯(lián).模型在字符級、詞級、類別級、句子級和位置級等多個層面對上下文段落和查詢進行建模,隨后基于雙向注意流機制,從查詢-上下文和上下文-查詢2個方向獲取情感查詢感知的上下文表示.
3) RNN+Transformer
2018年以來,基于自注意力機制的Transformer模型在深度學習領(lǐng)域大放異彩.Xia等人[27]在前期研究的基礎(chǔ)上利用Transformer模型設(shè)計了名為RTHN(RNN-transformer hierarchical network)的聯(lián)合情感原因提取框架,同步地對多個子句進行編碼和分類.該框架由一個基于RNN的低層詞級編碼器和一個基于Transformer的高層子句級編碼器組成,前者用于在每個子句中編碼多個單詞,后者用于學習文檔中多個子句之間的相關(guān)性.此外,該模型還將相對位置信息和全局預測信息編碼到轉(zhuǎn)換器中,以便更好地捕獲子句之間的因果關(guān)系.
4) BiLSTM+CRF
在用傳統(tǒng)的CRF進行情感原因提取時,由于特征的提取效果與詞之間的距離有很大關(guān)系,而原因子句和情感關(guān)鍵詞之間經(jīng)常相隔較長的距離,這就限制了CRF的抽取效果.而傳統(tǒng)的LSTM模型雖然有強大的序列建模能力,能夠處理較長的文本數(shù)據(jù),但對輸出標簽的約束能力較弱,無法很好地反映當前時間步的標簽是否受其他時刻標簽的影響.因此,張晨等人[57]從序列標注的角度出發(fā),將條件隨機場與神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一種基于BiLSTM+CRF的情感原因提取和表情符情感識別的聯(lián)合模型.模型將情感原因提取以及情感識別形式化為統(tǒng)一的序列標注問題,充分利用了情感與其原因之間的全局關(guān)聯(lián)性.
2.3.3 外部信息輔助模型
1) 任務(wù)輔助——多任務(wù)聯(lián)合學習模型
隨著多任務(wù)學習技術(shù)在深度學習中的廣泛應用,有一些學者從多任務(wù)學習的角度對情感原因提取開展研究.Chen等人[9]提出了一種基于神經(jīng)網(wǎng)絡(luò)的情感分類和情感原因提取的聯(lián)合方法,如圖8所示,針對情感分類和情感原因提取需要不同類型的特征(分別基于情感和事件),提出了一種聯(lián)合編碼器,使用統(tǒng)一的框架來提取2個子任務(wù)的特征,并用多任務(wù)模型同時學習2個分類器.此外,由于實驗數(shù)據(jù)存在特征稀疏問題,注意力網(wǎng)絡(luò)無法有效提取到能夠表達事件的特征,因此在進行聯(lián)合編碼時只用LSTM提取事件特征,而增加注意力機制以提取情感特征.該方法本質(zhì)上是一種多任務(wù)學習,它試圖借助情感分析的2個子任務(wù)之間的內(nèi)在關(guān)聯(lián)來提升效果.
注:haux代表輔助向量表示,hmain代表主向量表示,prev代表前一子句,fol代表后一子句,cur代表當前子句, emokw代表情感關(guān)鍵詞,context代表上下文,cause代表原因,class代表情感類別(首字母不論大小寫).Fig. 8 A multi-task model for ECE[9]圖8 多任務(wù)情感原因提取模型[9]
Hu等人[58]認為每一個子句都可以從情感和原因2個角度來理解,并以此提出了一種情感原因聯(lián)合檢測(emotion cause joint detectoin, ECJD)模型,將情感識別和原因提取作為2個子任務(wù),與情感原因聯(lián)合提取這一主任務(wù)統(tǒng)一到同一個框架中,以同步和聯(lián)合的方式來增強子任務(wù)之間的交互.他們將問題形式化為一個四分類問題(普通子句、情感子句、原因子句、既是情感也是原因子句).子句的特征表示從情感和原因的雙重視角來評估,即從情感的角度關(guān)注子句對情感的貢獻,同時也從原因的角度關(guān)注子句對原因的貢獻.余傳明等人[59]也提出了一個基于LSTM和多任務(wù)的情感原因提取模型,該模型利用詞性標注這一輔助任務(wù)來幫助情感原因提取主任務(wù).
2) 規(guī)則輔助——基于知識蒸餾的模型
深度神經(jīng)網(wǎng)絡(luò)的訓練往往依賴于大量高質(zhì)量的標注數(shù)據(jù),但缺乏對人工構(gòu)造的語言表達規(guī)則的有效利用,同時也存在解釋性和可控性不強等問題.恰當?shù)乩靡?guī)則或?qū)W習規(guī)則可以提高模型的可解釋性,減少訓練樣本的數(shù)量.
Fig. 9 A rule distillation based model for ECE[22]圖9 基于規(guī)則蒸餾的情感原因提取模型[22]
巫繼鵬等人[22]將情感原因發(fā)現(xiàn)的語言學規(guī)則通過知識蒸餾技術(shù)引入到模型訓練中,從而實現(xiàn)傳統(tǒng)基于規(guī)則的方法和深度學習方法的有機融合.他們提出了一種結(jié)合規(guī)則蒸餾的情感原因發(fā)現(xiàn)模型RD-HAN,該模型由四大組件構(gòu)成:教師編碼器ET、學生編碼器ES、分類器H、辨別器D,如圖9所示.其中教師編碼器和學生編碼器均為結(jié)合位置信息和殘差結(jié)構(gòu)并基于Bi-GRU的層次注意力網(wǎng)絡(luò).這一層次網(wǎng)絡(luò)結(jié)構(gòu)用于捕獲詞級和子句級的序列特征,而注意力機制用于捕獲子句與情感表達之間的潛層語義表示.
模型中教師編碼器是一種融入了語言學規(guī)則的復雜編碼器,為了有效利用語言學規(guī)則并將其嵌入到深度神經(jīng)網(wǎng)絡(luò)中,文獻[22]的作者將原始的輸入文本根據(jù)情感詞、原因線索詞、情感持有者以及情感原因這4種角色進行了標注和編碼,并通過規(guī)則約束訓練得到教師編碼器.而學生編碼器的輸入不需要包括額外的規(guī)則信息,但通過知識蒸餾的方式它可以從教師編碼器中隱式地學習到規(guī)則的相關(guān)信息.
分類器的作用是判斷某子句是否為原因子句,辨別器的作用則是用于判斷輸出到底是來自教師編碼器還是學生編碼器.模型首先對教師編碼器和分類器進行訓練,訓練的輸入既包括文本語義的編碼信息也包括規(guī)則角色的編碼信息;接著固定分類器來對學生編碼器進行訓練,此時的輸入就只包括文本語義的編碼信息;最后再通過基于對抗學習的知識蒸餾技術(shù)來交替訓練辨別器和學生編碼器,其目的在于讓學生編碼器的輸出能夠盡量接近教師編碼器的輸出.
3) 知識輔助——融合外部知識的模型
考慮已有的情感原因提取模型性能均受到情感層面的語義信息融合不足以及語料庫規(guī)模有限的影響,也有一些學者嘗試將外部知識引入到模型中.Hu等人[60]提出了一種融合外部情感知識的情感原因識別(external sentiment knowledge for emotion cause detection, ExSenti-ECD)模型,該模型采用了一種情感特定的嵌入方法,將情感文本中包含的外部情感知識編碼成詞向量,以此來提高詞向量中對于情感知識的表示能力.他們首先將多個公開的語料庫合并成一個新的包含情感極性的語料庫,然后采用BERT模型對其進行預訓練,以此來賦予模型更高的融合文本情感信息的能力.
Diao等人[47]也從增強情感語義表示這一角度出發(fā),提出了一種利用情感詞及其同義詞的語義增強表示方法.該方法對普通詞向量、情感詞向量以及基于同義詞詞林的情感詞同義詞向量這3種向量進行融合,獲得增強的向量表示,隨后將其添加到基于注意機制的詞級和子句級向量表示中,捕獲其中與情感相關(guān)的重要信息.
基于規(guī)則文本情感原因提取中,規(guī)則的構(gòu)建過程相當于情感的語義理解過程,所以規(guī)則清晰易懂,并且準確率比較高,計算復雜度也相對較低.但是基于規(guī)則的方法局限性也是明顯的.首先,規(guī)則通常依賴于語言學線索詞,但在情感文本語料庫中,含有語言學線索詞的情感句子比例較低,制定的規(guī)則并不能完全覆蓋所有的語言現(xiàn)象,造成覆蓋度低、泛化能力差的問題.其次,同一個子句可能同時匹配多個規(guī)則,容易造成規(guī)則沖突.再者,基于規(guī)則的方法通常無法應對包含多個原因子句的情況.最后,不同領(lǐng)域語料的語言結(jié)構(gòu)有一定的區(qū)別,針對特定領(lǐng)域的文本制定的規(guī)則并不能很好地適用于其他領(lǐng)域.
基于統(tǒng)計機器學習的方法主要依賴于特征工程.對于情感原因提取任務(wù)來說,除了考慮傳統(tǒng)的語法、語義、詞性、上下文等特征外,相對位置、情感、語言學等特征也起到十分關(guān)鍵的作用.該類方法的優(yōu)點在于通過概率來描述模型的不確定性,從而進行不確定性推理,具有較強的泛化能力,它們能夠根據(jù)特征工程最大限度地從原始數(shù)據(jù)中提取特征,供算法和模型使用,并且在數(shù)據(jù)的驅(qū)動下不斷地進行參數(shù)優(yōu)化.然而,特征工程是一件十分繁瑣的任務(wù),需要有較強的業(yè)務(wù)背景和很高的人力成本.另外,情感和情感原因之間存在不同程度的因果語義關(guān)聯(lián),如何設(shè)計和提取有效特征來反映這種深層次的因果語義關(guān)系,仍然面臨許多挑戰(zhàn).
基于深度學習的方法優(yōu)勢在于:它拋開或簡化了繁瑣的特征工程設(shè)計,能夠自動從數(shù)據(jù)中學習到有效的特征表示.在情感原因提取任務(wù)中,通常的做法是在充分理解語義的基礎(chǔ)上,采用深度神經(jīng)網(wǎng)絡(luò)模型并結(jié)合注意力來捕獲原因子句和情感子句之間的關(guān)聯(lián).由于多任務(wù)學習可以通過多個相關(guān)任務(wù)之間的聯(lián)合訓練來捕獲任務(wù)間的一些內(nèi)在關(guān)聯(lián),因此結(jié)合多任務(wù)機制也是當前許多主流模型所采用的一種解決方案.同時,由于文本情感原因提取涉及較為復雜的語言學和情感認知領(lǐng)域的知識,因此目前取得較好效果的模型則是通過知識蒸餾或者知識正則化的方式來利用這些知識.然而,深度神經(jīng)網(wǎng)絡(luò)模型本質(zhì)上是一種數(shù)據(jù)驅(qū)動的模型,對樣本的數(shù)量和標注質(zhì)量有較高的要求,在情感原因提取任務(wù)上,數(shù)據(jù)資源的缺乏在一定程度上限制了該類模型的效果和應用場景.
總的來說,情感原因提取方法是隨著機器學習技術(shù)的發(fā)展而不斷更新,在其發(fā)展的早期一般是以基于規(guī)則的方法為主,隨后是基于統(tǒng)計的機器學習方法,而近幾年則是以深度學習方法為主流.但由于情感原因提取與傳統(tǒng)情感分析相比是一種更深層次的文本挖掘任務(wù),因此與傳統(tǒng)的文本分類相比,如果僅僅用時下主流的深度模型進行文本分類難以取得理想的效果,所以現(xiàn)有的一些效果較好的模型均是將深度學習技術(shù)與傳統(tǒng)方法相結(jié)合,通過引入外部知識來提升效果,例如融入規(guī)則知識或引入額外設(shè)計的特征等.
除模型本身的特點外,語種也是影響模型選擇的重要因素.這主要是由于不同語種本身的語言特點以及數(shù)據(jù)資源的情況引起的.
首先,不同語種在語素識別、詞性標注、詞義消歧、詞匯粒度抽取、句法結(jié)構(gòu)分析、指代消解等方面均存在差異,這些差異會影響情感原因提取方法的選擇和提取效果.
Fig. 10 A multi task based model for emotion casue pair extraction[25]圖10 基于多任務(wù)的情感原因?qū)μ崛∧P蚚25]
以一詞多義現(xiàn)象的影響為例,文獻[21]用同樣的模型分別在英文和中文數(shù)據(jù)集上開展了實驗,實驗結(jié)果表明SVM和Word2vec方法在中文數(shù)據(jù)集上性能相差不大,但在英文數(shù)據(jù)集中SVM方法比Word2vec方法的F1值高了11個點,一個主要原因就是一詞多義限制了Word2vec的效果.而文獻[21]的作者提出的深度神經(jīng)網(wǎng)絡(luò)模型在中文數(shù)據(jù)集上的F1值達到了79.14%;而在英文數(shù)據(jù)集上卻只有59.75%.此外,Oberl?nder等人[61]對比了序列標注方法和基于子句的分類方法在英文情感原因數(shù)據(jù)集上的效果,實驗結(jié)果表明目前在中文數(shù)據(jù)集上廣泛采用的子句級粒度的分類方法并不適合于英文語料.
其次,許多方法和模型中都會利用如情感詞典、預訓練語言模型等外部資源來豐富語義的表示,但不同語種可利用的外部資源在種類、質(zhì)量上存在差別,這也會影響模型的選擇和最終的效果,使得一些小語種上的情感原因提取研究聚焦在知識庫或者數(shù)據(jù)集的構(gòu)建上.例如文獻[44]通過眾包方式來獲取意大利文的語料,并構(gòu)建相應的情感常識庫來輔助情感原因的提取,文獻[36]則是通過自舉的方式對日文的情感原因標注集進行自動擴充.最后,標注數(shù)據(jù)的缺乏限制了在某些語種上研究方法的選擇.現(xiàn)有的深度學習技術(shù)通常是需要有大量的標注數(shù)據(jù),如果數(shù)據(jù)量太少,基于規(guī)則或者統(tǒng)計的方法或許也是不錯的選擇.
傳統(tǒng)的情感原因提取任務(wù)需要對情感句先進行標注,這大大限制了其應用場景.Xia等人[25]在前期研究的基礎(chǔ)上,提出了情感和情感原因聯(lián)合提取任務(wù),即情感原因?qū)μ崛?emotion cause pair extraction, ECPE).文獻[25]的作者提出了一種“2階段”的方法進行情感原因?qū)Φ穆?lián)合提?。弘A段1:獨立的情感子句提取和原因子句提??;階段2:情感原因的配對和過濾.階段1中主要設(shè)計了2種多任務(wù)網(wǎng)絡(luò)模型來進行子句的提取,一種為獨立的多任務(wù)學習模型,另一種為交互的多任務(wù)學習模型(如圖10所示),其中后者是對前者的一個增強版本,它能夠捕獲情感和原因之間的內(nèi)在關(guān)系.階段2則是通過笛卡兒積來對階段1提取出的情感子句和原因子句配對,再通過因果分析對配對結(jié)果進行過濾.
Shan等人[62]認為圖10的Inter-EC模型并沒有充分考慮情感子句和原因子句的相關(guān)性,并且對于上下文的利用也十分有限,因此他們在該模型基礎(chǔ)上提出了一種基于Transformer的組件來對子句進行編碼.該組件通過自注意力機制將更遠距離的上下文信息編碼進子句的向量表示,從而優(yōu)化不同任務(wù)間的交互.
Yu等人[63]則認為“2階段”方法中情感子句提取任務(wù)與原因子句提取任務(wù)之間僅僅通過單向關(guān)聯(lián)并不能充分利用二者之間的相關(guān)性,而且第1階段的誤差將會直接降低第2階段的性能.針對這2個不足,他們提出了一個相互輔助的多任務(wù)模型,通過添加2個與原任務(wù)相同的輔助任務(wù)來促進情感子句和原因子句的提取.該模型將2個輔助任務(wù)產(chǎn)生的預測結(jié)果作為彼此主要任務(wù)的額外特征,從而建立情感與原因提取的雙向關(guān)聯(lián).其次,為了減少誤差傳播對第2階段的影響,Yu等人還針對這種“任務(wù)對”形式的模型通過“自蒸餾”的知識蒸餾技術(shù)進行訓練,進一步提升第1階段任務(wù)提取的準確率.
雖然文獻[62-63]提出的方法在一定程度上提高了情感原因?qū)μ崛∪蝿?wù)的效果,但這種“2階段”的Pipeline方法不可避免地存在誤差傳遞的問題.為了從根本上解決該問題,近2年有越來越多的學者嘗試通過構(gòu)建“端到端”(end-to-end)的統(tǒng)一模型來一次性地完成情感原因?qū)Φ奶崛?由于情感原因?qū)Φ奶崛∩婕暗角楦凶泳涞奶崛 ⒃蜃泳涞奶崛∵@2個基本任務(wù),因此這些端到端的模型基本上還是基于多任務(wù)學習的思想而設(shè)計的,模型間的區(qū)別主要體現(xiàn)在情感原因子句對的構(gòu)建方式及處理上.
相對于情感原因提取任務(wù),情感原因?qū)μ崛∪蝿?wù)中,情感子句與原因子句的配對是關(guān)鍵.傳統(tǒng)的“2階段”方法是通過先篩選出可能的情感子句集合和原因子句集合,然后再將2個集合以笛卡兒積的方式來構(gòu)造候選的子句對.該方法存在的問題主要是計算代價較大,同時由于情感子句或原因子句在階段1未被正確提取導致子句對缺失.因此,很多學者嘗試了不同的子句對構(gòu)建方式.
1) 基于關(guān)系分類的子句配對
Wu等人[64]專門設(shè)計了一個“子句對關(guān)系分類”子任務(wù)來處理子句的配對問題,并將該任務(wù)與情感識別和原因提取任務(wù)一起進行多任務(wù)聯(lián)合學習.在該模型中子句對關(guān)系的識別并不依賴于情感識別或者原因提取的結(jié)果.在進行子句對關(guān)系分類這一任務(wù)時,如果將所有的子句都進行兩兩配對,那么真正具有因果關(guān)系的子句對樣本將極其不平衡.因此,在訓練階段對于子句的選取是以數(shù)據(jù)集中的真實標簽為依據(jù),只有子句對c1,c2中的c1為包含情感子句,或者c2為原因子句,該子句對才會被用作訓練樣本.
2) 基于矩陣變換的子句配對
Ding等人[28]提出了ECPE-2D(emotion cause pair extraction two dimensional)模型,該模型先視文檔中所有子句既是情感子句也是原因子句,在此基礎(chǔ)上兩兩配對,構(gòu)造一個2維方陣進行子句對的表示.由于方陣中真正有因果交互的子句對只占很小的一部分,基于Transformer設(shè)計了基于窗口大小限制、基于行列十字交叉等變換方法對2維方陣中的子句交互進行建模,再通過一個標準的二分類預測來完成情感原因?qū)Φ奶崛?
文獻[28]的方法雖然在一定程度上減少了子句對匹配時的計算復雜度,但在對篩選出的子句對進行預測時本質(zhì)上還是只依賴于當前的子句對,而借助于雙仿射矩陣及其計分函數(shù)則可以從全局的角度計算每一候選子句對中是否為因果關(guān)系的可能性.因此通過雙仿射機制來處理子句對這種以“對”形式存在的目標時就有其一定的優(yōu)勢.Tang等人[65]構(gòu)建了一個基于多注意力和雙仿射機制的多任務(wù)模型LAE-MANN(latent variable enhanced multi-level attentional neural network).該模型首先利用自注意力機制和互注意力機制來識別情感詞和情感子句的關(guān)系,以及情感子句和原因子句間的關(guān)系;隨后,通過構(gòu)建一個雙仿射矩陣來表示所有的候選子句對;最后基于自注意力和互注意力的結(jié)果,通過多級注意力模塊計算每一個子句對的特征表示,用于最終的預測.Song等人[66]則將情感原因?qū)Φ奶崛】闯墒菑那楦凶泳涞皆蜃泳涞挠邢蜴溄訉W習過程,并為此設(shè)計了一個端到端情感原因?qū)μ崛∧P?end to end emotion cause pair extraction, E2EECPE).在進行關(guān)系預測時,由于傳統(tǒng)的方法是針對無向的情形而設(shè)計的,因此,文獻[66]的作者通過雙仿射注意力機制來為每一個節(jié)點生成“指向該節(jié)點”和“從該節(jié)點發(fā)出”2種獨立的表示,最后通過雙仿射變換來構(gòu)建一個非對稱且方向依賴的子句對表示矩陣.
3) 基于解析式轉(zhuǎn)移系統(tǒng)的子句配對
Fan等人[23]提出TransECPE(transition-based emotion cause pair extraction)模型,將情感原因?qū)Τ槿∪蝿?wù)轉(zhuǎn)換成一個通過動作序列來構(gòu)造有向圖的過程,圖中邊的方向和標簽表明子句之間的觸發(fā)關(guān)系,有向圖的構(gòu)建依賴于一種新型的基于轉(zhuǎn)移系統(tǒng)的解析器.該文定義了包含6個動作以及對應狀態(tài)轉(zhuǎn)換的動作集,然后利用棧、緩沖器來進行動作的選擇和歸約,其目標是尋找一個最優(yōu)的動作序列.此外,針對某個子句可能既是情感子句也是原因子句的情形,該文還專門設(shè)計了一個二分類器進行判斷,并定義了特定的動作來對其進行處理.此外,由于該模型是以從左到右的順序來處理輸入序列,從而減少了需要解析的潛在配對數(shù)量,從時間效率上來講是一種線性的時間復雜度,大大低于將所有子句以笛卡兒積形式來處理時的情形.
4) 基于局部鄰域搜索的子句配對
當人類在處理情感原因?qū)μ崛∪蝿?wù)時,情感子句和原因子句的提取及匹配是同時進行的,這一過程主要是通過局部搜索來完成,即當一個子句被標記為情感子句時,人們就會自然而然地在它的局部上下文中去尋找它對應的原因子句.局部搜索的好處在于可以避免一些在局部范圍外的錯誤配對.此外,人們不僅會判斷局部范圍內(nèi)的這一子句是否是原因子句,還會判斷它是否與情感子句相匹配,這就可以避免在局部上下文范圍內(nèi)的錯誤匹配.通過對現(xiàn)有主流情感原因數(shù)據(jù)集的分析表明,情感原因子句大都位于情感子句的附近.
Cheng等人[67]提出了一種對稱式局部搜索網(wǎng)絡(luò)(symmetric local search network, SLSN)模型,通過局部搜索同時進行情感原因子句檢測和匹配.該模型由對稱的情感子網(wǎng)絡(luò)和原因子網(wǎng)絡(luò)構(gòu)成,每一個子網(wǎng)絡(luò)由子句表示學習器和局部對搜索器(local pair search, LPS)組成,其中局部對搜索器是一種專門設(shè)計的跨子網(wǎng)組件,它能夠?qū)植克阉鞯纳舷挛姆秶M行限制.在局部搜索過程中,LPS首先判斷目標子句是否為情感子句;然后再判斷本地上下文窗口內(nèi)的每個子句是否是相應的原因;最后,模型為文檔中的每個子句輸出“對標簽”(目標子句是否為情感/原因子句,其本地上下文窗口中的子句是否為對應的原因/情感子句),再基于該標簽來提取最終的情感原因?qū)?
Ding等人[29]提出了一種基于多標簽聯(lián)合學習的情感原因?qū)μ崛∧P?emotion cause pair extraction based on multi-label learning, ECPE-MLL).該方法先假設(shè)文檔中的所有子句都是情感子句,并以每個情感子句為支點引入一個面向情感的滑動窗口;然后在每個滑動窗口內(nèi)使用一個多標簽學習框架提取一個或多個可以與當前情感子句配對的原因子句,其中滑動窗口的設(shè)置本質(zhì)上也是一種基于局部搜索的策略.
此外,也有不少研究利用圖神經(jīng)網(wǎng)絡(luò)模型的特性來處理子句間的局部搜索問題.Wei等人[68]提出RANKCP(rank clause pair)模型,將情感原因?qū)Φ奶崛】闯墒且环N排序問題,他們將文檔看成是全連接的子句圖,利用圖注意力網(wǎng)絡(luò)模型來學習子句的表示,模型利用多個圖注意層來加強對子句間相互作用的建模,并通過自適應地融合其他子句的信息來生成每個子句的表示,隨后采用基于核的子句相對位置嵌入方案來進一步增強子句對的表示.在生成候選子句對時,文獻[68]也采用添加約束的方式,將子句對中2子句的相對位置限制在一定的范圍內(nèi),最終通過對候選子句對的預測分數(shù)進行排序來實現(xiàn)情感原因?qū)Φ奶崛?Fan等人[69]也是根據(jù)情感和原因之間的位置相關(guān)性,設(shè)計了一個范圍控制器來縮小情感原因?qū)Φ念A測分布和真實分布之間的差異,進而將情感原因?qū)Φ念A測限制在一個高概率區(qū)域內(nèi).
Chen等人[11]則考慮了另一種形式的局部鄰域搜索問題,他們在對情感-原因的共現(xiàn)屬性分析的基礎(chǔ)上指出,在一個局部鄰域中,如果一個候選對被檢測為情感-原因?qū)?,其他候選對通常是非情感-原因?qū)?因此,在建模上下文信息時,這種“對級別”的依賴關(guān)系也應該考慮進去.這里的“局部鄰域”是指一個候選子句對的集合,這些子句對中情感候選子句都是相同的,而原因候選子句彼此間的距離是比較近的.通過構(gòu)造對圖(pair graph)和對圖卷積網(wǎng)絡(luò)(PairGCN)來建模局部鄰域候選對之間的依賴關(guān)系,圖中的節(jié)點是候選的情感原因?qū)?,而?jié)點間邊則設(shè)計了3種類型的依存關(guān)系,即自循環(huán)邊、原因候選子句間距離為1的邊、原因候選子句間距離為2的邊,每一種依賴關(guān)系都有其各自的傳播上下文信息的方式.
5) 基于序列標注的子句配對
與大部分研究將情感原因?qū)μ崛∪蝿?wù)當成是子句級的二分類問題不同,Chen等人[70]和Yuan等人[24]將情感原因?qū)μ崛∪蝿?wù)轉(zhuǎn)換成子句級的序列標注問題,并分別設(shè)計了不同的標注模式來對文檔中的所有子句進行整體標注.其中文獻[70]設(shè)計了因果標簽集和情感標簽集來對文檔中的每一子句進行標注.因果標簽集為四分類(O表示非情感原因句,E表示情感句,C表示原因句,B表示既是情感句也是原因句),情感標簽集為傳統(tǒng)的7類情感標簽(O表示不含情感,H表示高興,Sa表示傷心,A表示生氣,D表示厭惡,Su表示驚訝,F(xiàn)表示害怕),這種標注方式更易于區(qū)分不同情感類型的情感原因?qū)?例如標簽(B-A)表示該子句既是情感子句也是原因子句,同時該子句對應的情感為生氣.在此基礎(chǔ)上設(shè)計了一個端到端的統(tǒng)一序列標注模型來進行情感原因?qū)Φ奶崛?,該模型包?個卷積神經(jīng)網(wǎng)絡(luò)、2個BiLSTM網(wǎng)絡(luò)和1個CRF,卷積神經(jīng)網(wǎng)絡(luò)用于編碼鄰域信息,2個BiLSTM網(wǎng)絡(luò)分別用于預測因果標簽和情感標簽,CRF用于實現(xiàn)子句級的序列標注.
文獻[24]則將子句之間關(guān)系直接以距離的方式編碼到標簽中.每一個子句的標簽由類型標簽和距離標簽組成,類型標簽只分為2種:“C”表示原因子句和“O”表示非原因子句;距離標簽集為{-(n-1),…,-1,0, 1,…;n-1,⊥},距離標簽的值代表了該子句與對應情感句之間的相對距離.例如,標簽(C,2)表示該子句為原因子句,而情感子句位于其右邊第2個子句.如果當前子句為非原因子句,那么距離標簽就為特殊符號“⊥”.基于該標注模式,先通過BERT來對子句進行編碼,再通過BiLSTM來進一步對子句級的上下文進行建模,最后通過softmax對每一子句進行標簽預測.該模型的優(yōu)點在于它采用的是一種端到端的模式來自左向右地處理輸入文本,其時間復雜度總是線性的,從而大大提高了模型的訓練和推理速度.實驗表明,該模型比當時的SOTA模型(文獻[65]中提出的LAE-MANN)在訓練階段快了36%、在推理階段快了44%,并且F1值也高了2.26個百分點.
針對文本的情感原因研究除了第2節(jié)和第3節(jié)介紹的主流研究任務(wù)外,近2年也有一些學者從語義角色、條件因果、文本對話、社會情感、提取粒度、子句級序列標注等角度開展相關(guān)研究,為情感原因的研究提供了新的視角.
1) 語義角色.Oberl?nder 等人[39]從語義角色的角度出發(fā),分析了情感體驗者、情感原因、情感目標這3種不同的情感語義角色是如何使得機器學習能夠進行情感推理的.他們在5個數(shù)據(jù)集上進行情感分類的訓練,訓練時至少標注了其中的一種語義角色,同時以一種可控的方式來隱藏其他角色,以驗證不同角色的作用.實驗結(jié)果表明情感原因和情感目標攜帶了許多情感信息,而情感體驗者則是一個干擾因子.同時發(fā)現(xiàn),如果將情感角色的位置信息提供給模型會有更好的分類效果.
2) 條件因果.Chen等人[71]認為有些情感子句和原因子句之間的因果關(guān)系只有在特定語境條件下才會成立,因此他們定義了一個新任務(wù),用于判斷給定的文本對(情感子句,原因子句)在不同的上下文語境中是否存在有效的因果關(guān)系.同時,針對該新任務(wù),在情感原因?qū)?shù)據(jù)集基礎(chǔ)上通過人工標注和負采樣的方式構(gòu)建了新的數(shù)據(jù)集.
3) 文本對話.現(xiàn)有的情感原因研究大多以新聞或微博類文本為研究對象,而Poria等人[40]構(gòu)建了一個名為RECCON(recognizing emotion cause in conversations)的數(shù)據(jù)集,用于提取對話中的情感原因.該文作者定義了原因塊提取和情感原因推理2個子任務(wù),并設(shè)計了相關(guān)的模型和評價指標來開展實驗.該文作者還分析了文本塊的數(shù)量、情感動力學、常識、復雜的共指關(guān)系等給情感推理帶來的挑戰(zhàn).
4) 社會情感.Xiao等人[72]提出了社會情感原因提取(social emotion cause extraction, SECE)任務(wù).社會情感是指讀者在閱讀某些文本類的文檔時產(chǎn)生的情感,該任務(wù)考察的是讀者層面的情感而非作者層面的情感.該文作者提出了一種詞匯增強的記憶網(wǎng)絡(luò)模型來應對這一新的任務(wù),模型主要通過構(gòu)建的情感誘發(fā)詞典和情感記憶的動態(tài)機制來實現(xiàn)情感原因的提取,該機制可以在每個子句中迭代地學習特定的情感相關(guān)信息,并在訓練過程中動態(tài)更新.
5) Span塊提取.Li等人[73]認為現(xiàn)有的情感原因研究大多局限于子句層面的二分類,但并非子句中的所有詞都能表達有用的情感原因信息,因此他們提出了更細粒度的情感原因塊(span)提取任務(wù),并結(jié)合情感感知注意力、上下文感知注意力和位置感知注意力等機制,構(gòu)造了原因塊提取和原因塊分類兩大模塊來進行情感原因的提取.
6) 子句級序列標注.Xiao等人[74]認為現(xiàn)有的研究大都只針對子句的情感依賴性語言表征進行了建模,而忽略了包括因果指示符在內(nèi)的子句的情感獨立性特征.因此,該文作者提出一種上下文多視圖注意力網(wǎng)絡(luò)(context-aware multi-view, COMV)用于情感原因提取,并將任務(wù)轉(zhuǎn)換成子句級的序列標注問題,即將文檔中的所有子句視為一個整體,共同預測這些子句的標簽.模型主要通過注意力機制來分別學習以情感導向為視角的情感依賴特征表示和以子句導向為視角的情感獨立特征表示.Liang等人[75]同樣將情感原因提取看成是子句級的序列標注問題,提出一種基于注意力的BiLSTM-CRF模型.模型首先通過BiLSTM來分別捕獲上下文信息以及情感表達和候選子句的潛在語義關(guān)系;隨后設(shè)計2種注意力機制來分別編碼情感表達與候選子句、相對位置和候選子句之間的相互影響;最后,將獲得的子句表示送入條件隨機場進行子句標注.
由于情感原因數(shù)據(jù)集在標注過程中需要耗費大量的人力,因此公開的數(shù)據(jù)集并不多.Lee等人[5]于2010年構(gòu)造了第1個用于情感原因分析的中文數(shù)據(jù)集,該數(shù)據(jù)集中包含了6 058個句子條目,這些條目是基于高興、傷心、恐懼、生氣、吃驚這五大類情緒而提取的,其中72%的條目中有表達明確的情感,在這些表達情感的條目中80%都包含了情感原因.
Gui等人[15]在2016年發(fā)布了一個基于新浪新聞的情感原因數(shù)據(jù)集,這個數(shù)據(jù)集包括2 105篇文檔,共11 799個子句,2 167個情感原因子句,其中,包含一個原因子句的文檔2 046篇,包含2個原因子句的文檔56篇,包含3個原因子句的文檔3篇.該數(shù)據(jù)集是目前唯一被公開發(fā)布的中文情感原因數(shù)據(jù)集,近年來的許多研究工作都基于這個數(shù)據(jù)集進行.該數(shù)據(jù)集遵循W3C的情感標記語言(emotion markup language)格式進行標注,主要標簽及含義如表5所示:
Table 5 Label Interpretation for Emotion Cause Corpus表5 情感原因語料中標簽及含義說明表
以文本“勸說過程中,消防官兵了解到,該女子是由于對方拖欠工程款,家中又急需用錢,生活壓力大,無奈才選擇跳樓輕生.”標注示例如下:
勸說過程中,
消防官兵了解到,
該女子是由于對方拖欠工程款,
length=“7”
對方拖欠工程款
家中急需用錢,
length=“7”
家中又急需用錢
生活壓力大,
length=“5”
生活壓力大
無奈才選擇跳樓輕生
keywords-length=“2”
無奈
對該數(shù)據(jù)集的其他統(tǒng)計信息如表6、表7所示,其中表6表示情感類型的分布情況,表7表示情感原因子句和情感子句的相對位置關(guān)系.
此外,針對“情感原因?qū)μ崛 边@一新任務(wù),Xia等人[25]對上述數(shù)據(jù)集進行了整合,并形成了適合于該新任務(wù)的情感原因?qū)?shù)據(jù)集.Chen等人[71]從為原因子句構(gòu)造不同上下文語境的角度出發(fā),在情感原因?qū)?shù)據(jù)集基礎(chǔ)上通過人工標注和負采樣的方式構(gòu)建了條件因果情感原因數(shù)據(jù)集.
Table 6 Distribution of Emotions表6 情感類型的分布情況
Table 7 Relative Position of Emotion Cause Clause and Emotion Clause
雖然在情感計算領(lǐng)域有許多對情感類別進行標注的英文數(shù)據(jù)集,但專門針對情感原因任務(wù)而設(shè)計的英文數(shù)據(jù)集并不多.Gao等人[79]在2017年NTCIR13會議上專門為情感原因提取子任務(wù)發(fā)布的數(shù)據(jù)集包括中文數(shù)據(jù)集和英文數(shù)據(jù)集,其中中文數(shù)據(jù)集即為5.1節(jié)中提到的新浪新聞數(shù)據(jù)集,英文數(shù)據(jù)集的語料則取材自英文小說.該英文數(shù)據(jù)集包括2 156篇文檔的16 259條子句,其中原因子句2 421條,包含1個、2個和3個原因子句的文檔分別為1 949篇、164篇和32篇,其標注方法與表5一致.
Ghazi等人[41]利用FrameNet的情感導向框架自動建立一個包含情感和情感原因標注的英文數(shù)據(jù)集,其中包括820條包含情感原因的情感句子和1 594條未包含情感原因的情感句子.該數(shù)據(jù)集的標注相對比較簡單,每個句子的開頭標注具體的情感類別,如果句子中包含有情感原因,則用causecause的形式標注對應的文本塊,示例如下.
1) 含情感原因句的標注示例
These days he is quite happycause
2) 不含情感原因句的標注示例
Bernice was so angry she could hardly speak.
考慮到傳統(tǒng)的情感分析任務(wù)僅僅檢測文本中所表達的情感,這其實是一種簡化,會導致對分析結(jié)果的一種過度概括的解釋,因為它并沒有考慮到誰經(jīng)歷了一種情感以及為什么有這種情感.在心理學看來,情感在角色和他們所參與的事件之間的互動中起著至關(guān)重要的作用,因此針對沒有專門的語料庫來捕捉這種互動的情況.Kim等人[42]于2018年提供了一個來自于Gutenber項目的基于關(guān)系情感標注(relational emotion annotation, REMAN)的公共可用語料庫.該語料庫是針對小說文本中情感和實體之間的關(guān)系進行語義角色標注,由1 720條句子三元組構(gòu)成,其中1 115條是包含情感的.三元組的中間元素為包含情感的句子,第1個元素為該情感句的上一句,第3個元素為該情感句的下一句.數(shù)據(jù)集只對三元組中的中間句子進行標注,其前后句子只是用于輔助標注者更好地理解情感句的上下文.標注者從情感的具體類別、情感體驗者(experiencer)、情感目標(target)以及情感原因(cause)等方面進行標注,如圖11所示.其中對情感原因的標注主要是將句子中的情感觸發(fā)短語、實體/事件標注出來.REMAN語料中的標簽及含義如表8所示.
注:character為角色,event為事件,fear為情感標簽,target為目標對象,cause為原因,experiencer為情感體驗者.Fig. 11 An annotation example for REMAN圖11 REMAN標注示例
Table 8 Label Interpretation for REMAN表8 REMAN語料中標簽及含義說明表
圖11所示文本“We saw Martin coming limping towards us and were afraid that he had hurt his foot.”中涉及情感原因相關(guān)的部分標注示例如下:
(注:為了便于讀者理解,此處對各ID編號進行了簡化,在涉及字符相對位置時未加入前一子句的長度,只涉及在當前句子中的相對位置.)
其中涉及到的情感類型有“fear”、事件有“Martin coming limping towards us”和“that he had hurt his foot”,2個事件均被標注為情感“fear”的原因.此外,由于該語料庫是面向情感分析的整個體系進行的標注,并非只針對情感原因這一個任務(wù),因而目前并未見有基于該語料庫開展情感原因提取研究的文獻.
Bostan等人[80]于2020年發(fā)布了一個包含5 000條新聞標題的“GoodNewsEveryone”情感角色英文數(shù)據(jù)集,該數(shù)據(jù)集對每個新聞標題中的情感體驗者、線索詞、情感目標和情感原因等與情感有關(guān)的語義角色進行了標注.這是目前為止與情感原因有關(guān)的最大規(guī)模的英文數(shù)據(jù)集.由于其語料來源是新聞標題,因此每條文本的長度并不大,平均只有13個單詞.
此外,Balahur等人[43]構(gòu)建了一個EmotiNet知識庫,用于表示和存儲對現(xiàn)實生活環(huán)境的情感反應,為情感原因的研究提供了很好的語義資源.該知識庫主要基于ISEAR(international survey on emotion antecedents and reactions)語料庫中一系列關(guān)于情感狀況的自我報告,通過對示例樣本進行聚類,并使用語義角色提取三元組信息.
除了英文數(shù)據(jù)集外,文獻[44]針對意大利語料開展情感原因提取的研究.該文作者首先在基于眾包的方式獲取的新聞?wù)Z料關(guān)鍵詞上進行情感狀態(tài)和情感原因事件提取;隨后構(gòu)建了包含32 525個單詞的情感上下文語料庫,并分別對情感關(guān)鍵詞、情感原因短語、情感原因詞元進行了標注,其對應的標簽分別為emotionWordcausePhrasecauseEmotion.語料中共包含356個情感詞、104個情感原因短語、84個情感原因詞元.
文獻[36]則采用了自舉的技術(shù)對日文語料進行情感原因數(shù)據(jù)集的構(gòu)建.其語料主要來自報刊文章、門戶網(wǎng)站的新聞、問答網(wǎng)站的帖子.每種語料均采樣了約100 000條包含情感詞的句子,然后在此基礎(chǔ)上,以少量人工標注的情感原因線索短語為種子,采用自舉技術(shù)通過迭代方式不斷提取新的線索短語,并最終達到樣本增廣效果.
情感原因提取任務(wù)的評測指標最早是由Lee等人[3]提出的,評估的主要指標為傳統(tǒng)的準確率(precision,P)、召回率(recall,R)和F1值,計算公式分別為:
(2)
(3)
(4)
其中,GF表示人工標注的原因數(shù)據(jù)集,SF表示系統(tǒng)提取出來的原因數(shù)據(jù)集,Si表示某個句子,emj表示情感關(guān)鍵詞或情感子句,GCListj和SCListj分別是對應于emj的人工標注情感原因列表和系統(tǒng)提取出來的情感原因列表.Score是記分函數(shù),用于對系統(tǒng)結(jié)果和人工結(jié)果進行對比.由于一種情感可能由多個原因觸發(fā),記分函數(shù)計算的是2個原因文本列表GCListj和SCListj中原因子句之間的重疊程度,即原因子句之間的字符串匹配程度.考慮到原因提取的復雜性,文獻[3]中使用了2種匹配方案:方案1中,只要系統(tǒng)結(jié)果和人工結(jié)果中的2個原因存在交集,這2個原因子句就算匹配成功;方案2則更為嚴格,它考慮了系統(tǒng)結(jié)果和人工結(jié)果中原因子句之間重疊文本的長度.
以上評測指標是針對提取粒度為詞的情況,近年來的情感原因提取任務(wù)大都是以子句為提取粒度,此時評測指標中對于準確率和召回率的計算則依據(jù)文獻[15]簡化為:
(5)
(6)
其中,correct_causes是系統(tǒng)提取正確的原因子句,proposed_causes則是系統(tǒng)提取出來的原因子句,annotated_causes表示人工標注的原因子句.
針對“情感原因?qū)Α碧崛∵@一新任務(wù),其測評對象由單個原因子句擴充成了情感及情感原因組合而成的一對子句.句子中有n個原因子句,該任務(wù)需要提取出n個子句對.目前,該任務(wù)上的評測是以子句對為粒度的,只有子句對提取正確才算是匹配成功,并沒有對子句對中單獨的某一項的提取結(jié)果進行評測.因此其評測指標與子句級情感原因提取的評測指標是一樣的,即在形式與式(5)、式(6)一致,只是將公式中相關(guān)參數(shù)的下標由correct_causes,proposed_causes,annotated_causes分別替換成correct_pairs,proposed_pairs,annotated_pairs,分別表示系統(tǒng)提取正確的情感原因?qū)?、系統(tǒng)提取出來的情感原因?qū)腿斯俗⒌那楦性驅(qū)?
表9給出了在同一數(shù)據(jù)集(Gui等人[15]在2016年發(fā)布的情感原因數(shù)據(jù)集)上不同的情感原因提取方法的實驗結(jié)果.表9顯示,在情感原因提取任務(wù)上,基于深度學習模型的各項指標總體上均高于傳統(tǒng)的基于規(guī)則和基于統(tǒng)計機器學習的方法.
Table 9 Comparison of Performance with Existing Models for ECE
基于規(guī)則的方法由于規(guī)則設(shè)計的復雜性及覆蓋率低的影響,其效果并不理想,即使融入了知識庫以及傳統(tǒng)的機器學習方法,其最好的F1效果也未達到60%;基于統(tǒng)計機器學習的方法中目前效果最好的模型主要采用了SVM算法,這其中核函數(shù)的設(shè)計是影響效果的關(guān)鍵.
雖然總體上看基于深度學習的方法性能最優(yōu),但情感原因提取任務(wù)并非普通的文本分類任務(wù),如果僅僅依靠時下主流的基礎(chǔ)深度學習模型,則優(yōu)勢并不明顯.例如文獻[18]采用傳統(tǒng)的SVM算法并結(jié)合裝袋(bagging)的分類器技術(shù)同樣能取得與一些主流深度學習模型相當?shù)男Ч?從各模型的實驗效果看,大部分的深度學習模型在實驗效果中差距并不大,如文獻[26,53,55]等,其F1值均在72%左右,而文獻[22]由于在深度學習模型中融合了傳統(tǒng)的規(guī)則知識,因此在F1值上有近2個百分點的提升.目前情感原因提取任務(wù)取得SOTA效果的是文獻[21]提出的模型,其F1值達到了79.14%.該模型最大的特點在于其引入了情感詞典知識以及子句的相對位置這2項外部知識來對深度學習模型的損失函數(shù)進行約束.這表明,要將深度學習模型與傳統(tǒng)的方法相結(jié)合才能在情感原因提取問題上取得較好的提升.
由表9可以看出,目前情感原因提取任務(wù)的最好模型在F1值上仍然沒有能夠超過80%.這說明,現(xiàn)在的研究方法在對性能的提升上已經(jīng)遇到了瓶頸,未來必須要有更具創(chuàng)新的思路才可能有新的突破.
表10是“情感原因?qū)Α碧崛∪蝿?wù)上不同模型的實驗結(jié)果,使用的數(shù)據(jù)集依然是Gui等人[15]發(fā)布的數(shù)據(jù)集,只是按情感原因?qū)Τ槿∪蝿?wù)進行了重新整理.
Table 10 Comparison of Performance with Existing Models for ECPE
雖然情感原因?qū)μ崛∪蝿?wù)是2019年提出,但近2年來已涌現(xiàn)出10余個針對該任務(wù)的模型.表10中除了前3個模型是采用“2階段”的訓練方式外,其余模型均為統(tǒng)一的端到端的訓練方式.從模型效果來看后者明顯高于前者,這也再次體現(xiàn)了端到端訓練方法的優(yōu)點.這些端到端的模型大部分都采用了多任務(wù)聯(lián)合學習的思想,模型間的主要區(qū)別在于子句對的構(gòu)建及處理方式上.
從表10可以看出,雖然各模型在最終的實驗效果上各有千秋,但局部搜索的方式總體上還是優(yōu)于其他方式,這主要是由于實驗數(shù)據(jù)集中原因子句和情感子句間的相對位置存在很明顯的特點,即大部分原因子句都離情感子句比較近,而局部搜索的配對方式能更好地建模這2種子句間的這種特殊位置關(guān)系.
文獻[11]利用圖卷積神經(jīng)網(wǎng)絡(luò)來建模子句對之間的關(guān)聯(lián),并取得了該任務(wù)上的SOTA效果,這也進一步反映出圖神經(jīng)網(wǎng)絡(luò)在建模鄰域關(guān)系中的優(yōu)勢.此外,文獻[24,70]中基于序列標注的模型也體現(xiàn)出了一定的競爭力,這主要是由于文檔中各子句之間的標簽本身存在一種相互制約的關(guān)系,傳統(tǒng)的子句級二分類方法大多是對每一個子句進行獨立的預測,而序列標注是從整體上對所有子句進行標注,因而能夠更好地捕獲這種子句標簽之間的依賴關(guān)系.
當然,從表10的模型效果也可以看出,情感原因?qū)μ崛∪蝿?wù)目前的SOTA效果僅為72%左右,與傳統(tǒng)的情感原因提取任務(wù)上近80%的SOTA效果相比仍存在不小差距,這主要是由于前者在提取時沒有給定明確的情感子句信息.盡管情感原因?qū)μ崛∪蝿?wù)的應用場景更廣泛,但其提取的難度高于情感原因提取,存在更大的挑戰(zhàn).
文本情感原因提取是情感計算的一個新興方向,得益于近年來自然語言處理和深度學習技術(shù)的飛速發(fā)展,該領(lǐng)域也越來越受到學者的關(guān)注,并產(chǎn)生了較為豐富的成果,特別是近2年在如ACL等自然語言處理國際頂會上均有不少關(guān)于情感原因提取的文章.
早期學者提出的基于規(guī)則的方法充分利用了語言學機制,規(guī)則清晰易懂,準確率較高,同時也為后期基于統(tǒng)計的機器學習方法和基于深度學習的方法提供了很好的理論基礎(chǔ).此后學者利用特征工程從統(tǒng)計機器學習的角度出發(fā),設(shè)計了大量有效的情感原因提取特征,提高了該任務(wù)的準確率和覆蓋率.然而,基于規(guī)則的方法和基于統(tǒng)計的方法均需要消耗大量的人力成本,較難適應新的領(lǐng)域或不同的數(shù)據(jù).
深度學習技術(shù)在文本情感分析問題上獲得了成功應用,啟發(fā)研究者通過構(gòu)造端到端的深度神經(jīng)網(wǎng)絡(luò)模型來解決情感原因提取問題,像注意力機制、多任務(wù)聯(lián)合學習、知識蒸餾等技術(shù)均在該領(lǐng)域得到了有效的應用,這些深度學習技術(shù)的應用在很大程度上降低了傳統(tǒng)方法所帶來的人力消耗,促進了情感原因提取技術(shù)的發(fā)展.然而,從文獻中的實驗結(jié)果看,情感原因提取的研究仍然還有提升空間,一些最新的深度學習成果仍未能廣泛地應用于該領(lǐng)域.情感原因提取工作所面臨的挑戰(zhàn)主要體現(xiàn)在7個方面:
1) 情感原因語料庫較少,涵蓋領(lǐng)域不夠豐富
近年來使用較多的情感原因數(shù)據(jù)集只有文獻[15]中發(fā)布的中文數(shù)據(jù)集,但該數(shù)據(jù)集中標注語料仍相對較少,只有2 000余條,若采用一些復雜的深度網(wǎng)絡(luò),算法較容易產(chǎn)生過擬合,并且由于樣本的不均衡或者樣本數(shù)太少,導致個別情感原因無法被很好地學習和表達,影響提取的準確率.此外,該數(shù)據(jù)集中的樣本都是新聞類的長文本,其文本特點并不適用于時下流行的在線社交短文本類的情感原因提取工作,也較難遷移到其他語種上.
情感原因本質(zhì)上是觸發(fā)情感的某種事件或者場景,而這些事件或場景的種類是五花八門的,在生活中各個領(lǐng)域發(fā)生的事件都有可能觸發(fā)人的某類情感,例如娛樂事件、體育事件、社會事件、政治事件等.此外,某類事物本身也可能觸發(fā)人的情感,就像平時我們說的“觸景生情”一樣.而現(xiàn)有數(shù)據(jù)集中采集的數(shù)據(jù)只是來自于社會新聞領(lǐng)域,在沒有足夠豐富的語料的情況下,僅僅依靠現(xiàn)有數(shù)據(jù)來訓練是很難達到理想效果的,哪怕在當前數(shù)據(jù)集中表現(xiàn)良好,也難以泛化到其他領(lǐng)域.標注語料無論在種類還是數(shù)量上的匱乏都在很大程度上給方法設(shè)計帶來很大的限制.
因此,情感原因標注數(shù)據(jù)集的擴展和新建仍然是未來開展情感原因提取任務(wù)中一項十分重要的基礎(chǔ)工作.
2) 情感語義特征的挖掘仍不夠充分
從文獻看,通過深度學習的方法自動抽取文本的特征已成為主流,其中詞向量的表示和預訓練語言模型便是深度學習在自然語言處理中的一大研究成果.詞向量是詞的一種分布式表示,向量間的相對相似度和語義相似度是相關(guān)的.然而,傳統(tǒng)的詞向量是根據(jù)上下文詞語學習獲得的,只包含語義和語法信息,而詞語的情感信息對于情感分析任務(wù)至關(guān)重要,現(xiàn)有大多數(shù)詞向量學習方法忽略了詞語的情感信息,不能很好地解決情感分類以及情感原因提取等任務(wù).
同樣地,目前一些主流的預訓練語言模型在獲得句子的向量表示時并不能很好地反映出該句子中所蘊含的情感傾向.并且,對于情感原因子句來說,它雖然本身并不包含情感詞,但該子句能夠觸發(fā)人類情感,因此,理想的預訓練模型應該將這種雖非情感表達但又能觸發(fā)某種情感的子句進行學習并表示出來,例如從“他中彩票了”這一句子中學習出其包含的觸發(fā)正向情感的語義,從“他參加比賽輸了”學習出其包含的觸發(fā)負向情感的語義.
除此之外,不同領(lǐng)域的情感及情感原因表達也存在差異,因此如何將特定領(lǐng)域中文本的情感信息融入到詞向量和句子向量中,從而提供更深層的語義表征,這值得進一步探索.
3) 情感和原因的內(nèi)在因果分析不夠深入
對現(xiàn)有情感原因語料庫的統(tǒng)計發(fā)現(xiàn),每篇文檔大都包含多個子句,但情感原因子句則相對較少,通常只有一句,這要求模型能夠很好地建模情感和情感原因之間的內(nèi)在關(guān)系.雖然現(xiàn)有的基于深度學習的方法在提取深層語義特征方面有一定的優(yōu)勢,但情感與情感原因之間的因果關(guān)聯(lián)和普通事件及其原因之間的因果關(guān)聯(lián)存在一定差別,它和情感本身有很大的關(guān)系.現(xiàn)有的一些情感原因提取模型經(jīng)常錯誤地把普通事件的原因識別成情感的原因,或者根本就無法找出情感原因,這其中除了訓練數(shù)據(jù)不充分外,還有一大原因就在于對情感及其原因之間的因果分析還不夠深入,二者之間的關(guān)聯(lián)還無法準確提取.
普通的因果關(guān)系可以通過一些顯式的因果連詞來發(fā)現(xiàn),例如“因為”“所以”“由于”等,但情感和情感原因之間有時候并不存在這種顯式的因果連接.人類在判斷觸發(fā)情感的事件時經(jīng)常依據(jù)的是一種常識信息.就像打比賽輸了就會不開心,贏了就會高興,被人打了就會傷心,這些都是很自然的一種情感常識.除此之外,對于情感原因提取、情感分類、情感角色提取等目的不同但存在相關(guān)性的任務(wù),它們彼此之間能否通過構(gòu)建多任務(wù)模型來挖掘內(nèi)在的情感因果關(guān)聯(lián),這些都有待學者進一步的研究.
4) 隱式情感語境下情感原因提取有待研究
目前的情感原因提取研究中,其數(shù)據(jù)集中每個樣本都是包含情感子句的,各類模型都有借助情感子句特別是情感子句中的情感詞來輔助情感原因子句的提取.然而,情感原因提取的另一挑戰(zhàn)在于很多語句中可能并沒有用明顯的情感詞來表達情感,此時傳統(tǒng)的借助情感詞來提取情感原因的方法就行不通了.例如“這家店的裝修風格讓人有一種活在詩里的感覺.”,這其中“讓人有一種活在詩里的感覺”表達的其實是一種褒義的情感,而造成這種情感的原因就是“裝修風格”,很明顯這種表達缺少顯式情感詞作為情感引導,且表達更為含蓄和隱晦.如何有效地挖掘隱式情感和情感原因之間的關(guān)聯(lián),進而把情感原因“裝修風格”提取出來,這一任務(wù)難度顯然更具挑戰(zhàn)性.
雖然已有的情感原因?qū)Τ槿》椒ú恍枰獙η楦凶泳渲械那楦羞M行顯式標注,但該數(shù)據(jù)集中的情感子句里面還是包含了顯式的情感關(guān)鍵詞,因此已有的方法能否很好地應對這種無顯式情感關(guān)鍵詞的情形還有待進一步驗證.雖然可以將現(xiàn)有的隱式情感分析手段結(jié)合到情感原因提取的任務(wù)上,以流水線的方式先進行隱式情感的提取,然后再以提取出的情感為基礎(chǔ)進行情感原因的提取,但這種2步式的方式會帶來誤差的傳遞以及較大的計算代價.
此外,現(xiàn)有的隱式情感分析研究一般是指用戶在文本中有表達出情感只是未使用明顯的情感詞,但情感原因并非是用戶針對某件事物所表達的觀點,而是它可能就是事物本身,也就是說情感原因子句很可能只是一種對客觀發(fā)生的事件的一種描述,它本身是不帶有任何主觀色彩的.例如“我走在路上滑了一跤”這句話本身并不包含任何主觀情緒在里面,但是我們通過常識可以判斷“滑了一跤”這種事件會觸發(fā)人的某種不愉快的情感.這也就是上文提到的對文本情感語義的深層次挖掘問題.如何更有效地處理該問題也是未來很有挑戰(zhàn)性的一項工作.
5) 自然語言處理技術(shù)的發(fā)展對情感原因研究帶來的機遇
現(xiàn)有的情感原因模型在技術(shù)方面主要以CNN,LSTM,GRU,Transformer等深度學習模型為基礎(chǔ),同時配合注意力機制、知識蒸餾技術(shù)等.近幾年自然語言處理技術(shù)的飛速發(fā)展也給情感原因的研究帶來了許多新的機遇,像圖神經(jīng)網(wǎng)絡(luò)、知識圖譜、對抗學習、少樣本學習等新技術(shù)在自然語言處理方面的廣泛應用都為情感原因的研究提供了新的解決思路.首先,情感原因的提取是需要借助外部領(lǐng)域知識的,例如情感方面的常識以及語言學的知識.而知識圖譜能夠?qū)⒕W(wǎng)絡(luò)上的信息和數(shù)據(jù)資源關(guān)聯(lián)為語義知識,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認知思維.如果在現(xiàn)有的通用預訓練語言模型基礎(chǔ)上再融合常識及領(lǐng)域知識圖譜,則可以更有效地對文本語義進行表示.
其次,情感和情感原因之間本質(zhì)上是一種特殊的因果關(guān)系,現(xiàn)有的模型也是期望挖掘出子句和子句間的這種因果關(guān)聯(lián).從傳統(tǒng)的基于規(guī)則的方法可知,文檔語篇信息的句法結(jié)構(gòu)和語篇關(guān)系在情感原因提取中是十分重要的.通過圖的方式對關(guān)系進行挖掘和建模是一種樸素的想法,因此時下較為流行的圖神經(jīng)網(wǎng)絡(luò)也是一種很值得嘗試的方案,例如通過將子句建模成節(jié)點,然后構(gòu)建圖神經(jīng)網(wǎng)絡(luò)來識別節(jié)點間的關(guān)系.
最后,針對現(xiàn)有情感原因標注數(shù)據(jù)太少的問題,也可以嘗試利用少樣本學習、數(shù)據(jù)增強或者偽標簽技術(shù)等方式來解決.
6) 情感原因提取任務(wù)的新挑戰(zhàn)
隨著情感分析研究的不斷深入,也會對情感原因的研究提出新的需求,例如由現(xiàn)有子句級的“粗粒度”分析轉(zhuǎn)向“短語級”或者“文本塊”級的“細粒度”分析.同時,情感原因研究也只是情感分析的一部分,從情感認知的角度來看,一個完整的情感表達是涉及情感、情感主體、情感目標、情感原因、情感結(jié)果等多種語義角色的,因此,未來對情感中各種語義角色的研究也會給情感原因及情感分析的研究帶來新的機遇和挑戰(zhàn).
此外,現(xiàn)有的情感原因提取都是針對個體的,但對決策者來說,群體的情感及其原因才更具參考價值,因此群體情感原因提取也是未來情感原因研究的一個新方向.
7) 情感原因提取的應用
情感原因提取作為一種更深層次的情感挖掘,不僅能夠豐富情感計算領(lǐng)域的研究成果,為情感分析提供新的研究方向,而且也能為人工智能和自然語言處理的一些分支提供有益幫助.例如,在商品推薦領(lǐng)域,如果在進行商品推薦算法設(shè)計時,能準確地定位用戶對某商品喜惡的具體原因,就能更有針對性結(jié)合這些原因來進行商品的推薦.在人機對話領(lǐng)域,現(xiàn)有的一些人機對話技術(shù)能夠識別出用戶在對話過程中的情感變化,并通過該情感來引導文本的生成,如果能夠進一步提取出用戶表現(xiàn)該情感的原因,就能在生成回復時結(jié)合具體的原因事件提供更具方向性的文本回復.
最后,心理學、語言認知學、社會學領(lǐng)域的研究成果能夠為情感原因研究提供更為豐富的理論基礎(chǔ),而情感原因的研究也可以反過來促進這些領(lǐng)域的研究和發(fā)展.例如,利用模型自動提取大規(guī)模文本中的情感原因,為探索心理學、語言認知學和社會學規(guī)律提供大規(guī)模樣本.
作者貢獻聲明:邱祥慶負責資料收集、研究方案的構(gòu)思和設(shè)計、論文撰寫及修訂;劉德喜提供研究思路、論文組織結(jié)構(gòu)的設(shè)計、論文審閱及修訂、全過程監(jiān)督;萬常選、劉喜平、廖國瓊負責論文審閱及修訂;李靜負責論文圖表及參考文獻的核實及修訂.