林鴻飛,張冬瑜,楊 亮,鄭樸琪
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
人工智能是一門致力于賦予計(jì)算機(jī)擁有人類智慧的學(xué)科,旨在讓計(jì)算機(jī)既具有超越人類的感知計(jì)算能力,同時(shí)又能夠具有較好的情感交流能力.為了讓計(jì)算機(jī)理解人類的情感,需要深入了解和挖掘人類自身的情感特征,而情感隱喻是人類情感表達(dá)的重要方式.在此背景下,情感隱喻計(jì)算的研究具有重要的理論和應(yīng)用價(jià)值.
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,特別是微博、論壇、社交網(wǎng)站等網(wǎng)絡(luò)媒介的迅速崛起,公眾廣泛參與到社會(huì)事件、政治活動(dòng)、產(chǎn)品服務(wù)等方面的評(píng)論中,由此產(chǎn)生了海量具有豐富情感傾向的評(píng)價(jià)性信息.這些信息往往含有大量的隱喻,人們迫切希望計(jì)算機(jī)能夠快速地分析和處理這些文本評(píng)論所傳遞的情感,從而滿足產(chǎn)品銷售、輿情監(jiān)控以及信息預(yù)測(cè)等方面的需求.
隱喻不僅在語(yǔ)言交流中占有重要地位,也是人們理解抽象概念的主要方式,人們常常使用隱喻對(duì)難以描述的未知概念進(jìn)行認(rèn)知與表達(dá)[1].例如,在隱喻句“時(shí)間是金錢”中,通過“金錢”這個(gè)熟悉而具體的源域概念實(shí)現(xiàn)了對(duì)“時(shí)間”這個(gè)抽象目標(biāo)域概念的表述.基于生理體驗(yàn)的人類情感也是一種抽象、難以描述的概念,通常需要用隱喻來表達(dá)[2].
一般來說,隱喻有兩種情感表達(dá)方式[3]:一是用隱喻直接描寫情感,指用隱喻描寫情感狀態(tài)和行為.例如使用隱喻句“He was boiling inside”“他的肺要?dú)庹恕眮肀磉_(dá)“生氣”的情感;“I′m feeling down”“她整日以淚洗面”來表示“傷心”;“She beamed with pleasure”“小明頓時(shí)心花怒放”來表達(dá)“高興”.二是通過隱喻構(gòu)建情感,即用隱喻觀察、傳遞、構(gòu)建情感.例如“整條馬路都癱瘓了”“會(huì)議引發(fā)了一場(chǎng)暴風(fēng)雨”“Lisa is a peach”.這些隱喻雖然不是對(duì)情感的直接描述,但是卻傳遞出了“焦慮”“厭惡”“喜愛”等情感.情感隱喻是用以描述或構(gòu)建情感的隱喻[2],它們比“生氣”“傷心”“高興”等對(duì)情感的直接表達(dá)更加生動(dòng)、形象,是情感概念建立與表達(dá)的主要方式.
日常交流中每3 個(gè)句子就會(huì)出現(xiàn)一句隱喻[4],隱喻的普遍性以及在情感表達(dá)中的重要地位決定了情感隱喻計(jì)算研究的重要性.然而情感隱喻屬于思維領(lǐng)域[5],認(rèn)知的特性決定了其計(jì)算模型和方法需要模擬人類智能,對(duì)諸如“How can I kill a process”“她是只母老虎”這樣具有非字面義(non-literal meaning)的語(yǔ)言進(jìn)行分析和解釋.因此,情感隱喻計(jì)算是自然語(yǔ)言處理及人工智能研究面臨的一項(xiàng)棘手任務(wù)和嚴(yán)峻挑戰(zhàn),是情感計(jì)算向縱深發(fā)展的關(guān)鍵問題之一.
情感隱喻的研究開始于Lakoff等的《我們賴以生存的隱喻》[1],距今已經(jīng)有30多年的歷史,期間涌現(xiàn)了大批學(xué)者和研究成果.尤其最近十余年,隨著互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展和人工智能的迫切需求,隱喻及情感計(jì)算研究有了很大的進(jìn)展.學(xué)者們重視隱喻在思維和語(yǔ)言中的核心地位,提出了大量隱喻計(jì)算模型以及隱喻的情感分析方法.由此,情感隱喻計(jì)算開始了全新的探索并取得了很多有價(jià)值的成果,但同時(shí)也面臨著巨大的困難和挑戰(zhàn).
基于上述分析,可以認(rèn)為對(duì)于情感隱喻的計(jì)算應(yīng)以認(rèn)知語(yǔ)言學(xué)為理論指導(dǎo),以情感詞匯本體、情感常識(shí)庫(kù)、情感隱喻知識(shí)庫(kù)等為基礎(chǔ),以機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、文本挖掘等方法為技術(shù)支撐,實(shí)現(xiàn)由定性到定量的情感隱喻分析與計(jì)算,從而輔助相關(guān)隱喻研究者開展相應(yīng)的工作,提高隱喻識(shí)別和理解的效率與精度.
本文首先對(duì)情感隱喻計(jì)算的發(fā)展歷程加以梳理,然后從相關(guān)情感隱喻理論基礎(chǔ)出發(fā),從資源建設(shè)、隱喻的識(shí)別與理解、情感隱喻識(shí)別與理解三個(gè)方面總結(jié)和分析情感隱喻計(jì)算的研究進(jìn)展,并探討情感隱喻計(jì)算研究的應(yīng)用,最后提出面臨的挑戰(zhàn)和對(duì)未來的展望.
這個(gè)階段從兩千多年前的亞里士多德時(shí)期一直到20世紀(jì)的七八十年代,以隱喻的語(yǔ)言學(xué)研究為主要成果,構(gòu)建了隱喻本質(zhì)和工作機(jī)制等主要理論框架.早在兩千多年前的亞里士多德時(shí)期,隱喻被看作是用一種事物替代另一種事物的修辭現(xiàn)象,這種修辭觀在隱喻研究中占據(jù)了長(zhǎng)期的統(tǒng)治地位.直到20世紀(jì)七八十年代,以Lakoff為代表的學(xué)者們從認(rèn)知語(yǔ)言學(xué)角度對(duì)隱喻進(jìn)行了研究,指出人類思維的概念體系是通過以人體體驗(yàn)為基礎(chǔ)的隱喻建立起來的,把隱喻看作是對(duì)抽象、復(fù)雜的情感進(jìn)行概念化的重要手段.其中以Lakoff的《我們賴以生存的隱喻》以及Ricoeur[6]、Ortony[7]等學(xué)者的論著為主要代表.對(duì)情感隱喻進(jìn)行深入研究并做出突出貢獻(xiàn)的是語(yǔ)言學(xué)家Kvecses,他以Lakoff的概念隱喻理論為框架,發(fā)展和完善了情感隱喻相關(guān)的理論和研究方法[8].Lakoff建立在認(rèn)知基礎(chǔ)上的隱喻理論幾乎滲透到了隱喻研究的每個(gè)學(xué)科和領(lǐng)域,成為當(dāng)代隱喻研究最重要的理論依據(jù).
從20世紀(jì)的80年代到21世紀(jì)初,隱喻的跨學(xué)科研究越來越廣泛和深入,尤其是自然語(yǔ)言處理的不斷成熟,隱喻自動(dòng)處理研究正式開始并形成了基本的計(jì)算思路和框架.這個(gè)時(shí)期出現(xiàn)了許多隱喻自動(dòng)處理和情感分析的技術(shù)和方法,其中以基于知識(shí)和基于統(tǒng)計(jì)為兩種主要方法,并且開展了通用的語(yǔ)義知識(shí)庫(kù)以及專門的隱喻知識(shí)庫(kù)語(yǔ)料資源建設(shè)研究.例如WordNet[9]是通用知識(shí)庫(kù)的代表,組織了詞匯語(yǔ)義信息及其相互關(guān)系;專門的隱喻知識(shí)庫(kù)包括 Master Metaphor List(MML)[10]等.
“情感計(jì)算”是由美國(guó)麻省理工學(xué)院的Picard在1997 年提出的研究領(lǐng)域[11],當(dāng)初主要關(guān)注圖像識(shí)別領(lǐng)域的人臉表情識(shí)別.后來隨著互聯(lián)網(wǎng)的迅速發(fā)展,逐步擴(kuò)展到文本情感計(jì)算,主要通過文本包含的情感語(yǔ)義因素進(jìn)行情感分析,而對(duì)于隱喻的情感計(jì)算研究還沒有開展.語(yǔ)料資源建設(shè)也以手工構(gòu)建為主,規(guī)模較小,缺乏隱喻知識(shí)自動(dòng)獲取及推理等功能.
進(jìn)入21世紀(jì)以來,隨著自然語(yǔ)言處理、人工智能技術(shù)的突飛猛進(jìn)以及情感計(jì)算研究的深入,基于隱喻語(yǔ)料庫(kù)的統(tǒng)計(jì)研究方法相對(duì)于手工構(gòu)建規(guī)則的方法表現(xiàn)出越來越強(qiáng)勁的優(yōu)勢(shì)和發(fā)展勢(shì)頭,學(xué)者們提出了基于統(tǒng)計(jì)技術(shù)的隱喻計(jì)算模型和方法[12-14],隱喻的情感計(jì)算研究也逐步展開[15].具體地說,詞匯語(yǔ)義及詞匯獲取技術(shù)的提高使準(zhǔn)確獲取語(yǔ)料庫(kù)中的詞匯、領(lǐng)域、關(guān)系等信息變?yōu)榭赡?,再加上機(jī)器學(xué)習(xí)性能的改善,大規(guī)模情感隱喻自動(dòng)處理具有了新的方法和途徑.
與傳統(tǒng)的基于手工構(gòu)建知識(shí)的方法相比,基于統(tǒng)計(jì)的方法更加高效、準(zhǔn)確、穩(wěn)定,還可以處理大規(guī)模數(shù)據(jù),情感隱喻語(yǔ)料資源的規(guī)模進(jìn)一步擴(kuò)大.隱喻計(jì)算和情感計(jì)算研究雖然都取得了進(jìn)展,但是兩者結(jié)合的情感隱喻計(jì)算研究缺乏,情感隱喻計(jì)算研究仍處在初步探索階段[16-19]:大部分隱喻識(shí)別與理解研究仍局限于某一領(lǐng)域或者特定類型的語(yǔ)篇;面向隱喻的情感計(jì)算多數(shù)停留在對(duì)情感隱喻褒貶的分析上而缺少喜怒哀樂等多類別情感的研究;情感隱喻的語(yǔ)料資源建設(shè)數(shù)量不足,尤其在隱喻的情感標(biāo)注等方面缺乏系統(tǒng)、深入研究.
在這個(gè)階段,情感隱喻計(jì)算得到了一些會(huì)議、期刊和組織機(jī)構(gòu)的關(guān)注.國(guó)際著名的計(jì)算語(yǔ)言學(xué)會(huì)議ACL從2012年起主辦了關(guān)于自然語(yǔ)言處理技術(shù)下隱喻計(jì)算模型專題研討會(huì),至今舉辦三屆,收錄了關(guān)于隱喻語(yǔ)料標(biāo)注、隱喻情感計(jì)算模型以及隱喻情感特征提取等研究成果.一些自然語(yǔ)言處理的著名國(guó)際會(huì)議EMNLP、LREC 以及人工智能領(lǐng)域的AAAI、ACII、HCI等最近幾年都出現(xiàn)了隱喻及情感計(jì)算相關(guān)主題研討會(huì).國(guó)內(nèi)外許多大學(xué)和研究機(jī)構(gòu)也廣泛開展了情感計(jì)算研究,例如歐洲的日內(nèi)瓦大學(xué)、伯明翰大學(xué)、約克大學(xué)、飛利浦公司;美國(guó)的卡內(nèi)基梅隆大學(xué)、麻省理工學(xué)院、IBM 公司;日本的東京大學(xué)、早稻田大學(xué)、索尼公司;國(guó)內(nèi)的北京大學(xué)、廈門大學(xué)、浙江大學(xué)、哈爾濱工業(yè)大學(xué)等.另外,值得注意的是近幾年的公共評(píng)測(cè),推動(dòng)了情感隱喻計(jì)算方法的進(jìn)步.ACL在2015年組織的語(yǔ)義評(píng)測(cè)中首次加入了Twitter中比喻性語(yǔ)言的情感分析任務(wù);著名的國(guó)際文本檢索會(huì)議(TREC)以及亞洲語(yǔ)言信息檢索評(píng)測(cè)會(huì)議(NTCIR)每年都有情感分析相關(guān)任務(wù);國(guó)內(nèi)第一個(gè)中文情感分析評(píng)測(cè)COAE 開始于2008年,極大地促進(jìn)了中文情感分析的發(fā)展.
概念隱喻理論認(rèn)為隱喻是用已知概念理解未知概念的認(rèn)知過程,其工作機(jī)制是從源域到未知概念目標(biāo)域的映射[1].人類在認(rèn)知過程中會(huì)遇到許多難以描述的復(fù)雜概念,這時(shí)就會(huì)通過隱喻的方式用其他已知概念去理解和構(gòu)建復(fù)雜的未知概念.例如在隱喻“效率是生命”中,就是利用“生命”去解釋“效率”這個(gè)概念,“生命”的屬性諸如“珍貴”通過映射的方式延伸到了“效率”的概念上.隱喻映射的基本表達(dá)式是“X is Y”,其中X 代表未知概念,Y 代表已知概念.“X is Y”,即用Y 來構(gòu)建概念X 的時(shí)候,是把Y 的概念結(jié)構(gòu)映射到了X上.事實(shí)上,X 映射的只是Y 的部分而非全部屬性,至于映射與Y 的哪部分屬性相關(guān)由經(jīng)驗(yàn)知識(shí)、文化、語(yǔ)境等因素決定.Lakoff等[20]把隱喻源域到目標(biāo)域概念結(jié)構(gòu)的映射分為源域結(jié)構(gòu)的位置、源域的關(guān)系、源域的屬性和源域的知識(shí).例如,在“LIFE IS A JOURNEY”這個(gè)概念隱喻中包含了如圖1所示的映射.
圖1 概念隱喻映射LIFE IS A JOURNEYFig.1 Mapping of conceptual metaphor LIFE IS A JOURNEY
情感建立在人類體驗(yàn)的基礎(chǔ)上,是認(rèn)知過程中重要的組成部分[2].然而情感抽象且豐富,諸如喜、怒、哀、樂等情感很難表達(dá)與描述.在這種情況下,人們常常把情感隱喻化,使用隱喻描述與表達(dá)抽象的情感.例如“怒發(fā)沖冠”“跑斷腿”“眉開眼笑”“I′m six feet off the ground”等.因此,以人類經(jīng)驗(yàn)為前提的情感隱喻是將抽象、模糊情感概念化的主要方式.情感隱喻主要分為兩類:一類是情感的隱喻構(gòu)建,即用隱喻觀察、傳遞、構(gòu)建情感,隱喻并不是對(duì)某種情感的直接描述,例如“這是部讓我這輩子都不想再進(jìn)電影院的電影”;另一類是情感的隱喻表達(dá),即用隱喻描寫情感狀態(tài)和情感行為,例如“She got red with anger”.
人類具有很多共同的生理機(jī)制和心理體驗(yàn),因此以人體體驗(yàn)為基礎(chǔ)的情感隱喻在不同語(yǔ)言中具有相似的概念映射系統(tǒng)[5].例如英語(yǔ)和漢語(yǔ)都存在以“體溫下降”作為“恐懼”情感的隱喻,因此出現(xiàn)了“她的話使他不寒而栗”“他嚇得手腳冰涼”“The story chills my blood”等隱喻表達(dá).研究顯示,人類語(yǔ)言分享著很多基本相同的情感概念隱喻[2].語(yǔ)言學(xué)家Kvecses[21]在對(duì)多種語(yǔ)言大量分析的基礎(chǔ)上對(duì)情感隱喻共性以及跨語(yǔ)言與文化的多樣性進(jìn)行了廣泛深入研究,依據(jù)心理狀態(tài)概括總結(jié)了體溫變化、皮膚顏色(狀態(tài))變化、身體動(dòng)作等七大類基本情感概念隱喻.
Master Metaphor List[10]是一個(gè)以情感和心理為主要方面的隱喻數(shù)據(jù)庫(kù),包括203個(gè)隱喻映射以及對(duì)應(yīng)的隱喻實(shí)例.數(shù)據(jù)庫(kù)中的映射以本體的方式組織(例如,隱喻“Anger is hot fluid in a container”是更加普遍的隱喻“Anger is heat”的特殊示例),從出版文獻(xiàn)、在線論壇以及學(xué)生作文中收集隱喻實(shí)例,手工編輯而成.
數(shù)據(jù)庫(kù)包括心理事件(mental events)、情感(emotions)、事件結(jié)構(gòu)(event structure)和其他(others)4個(gè)隱喻范疇.在此范疇下根據(jù)隱喻的目標(biāo)域劃分為69個(gè)詞條以及詞條下的203個(gè)隱喻類別及映射.在情感(emotions)隱喻范疇中,共有憤怒(anger)、愛(love)等6個(gè)詞條.詞條下的隱喻類別又包括源域、目標(biāo)域、例句和注釋,個(gè)別類別中還有特殊情況下的子類別(special sub-case).
例如,在詞條“EMOTION”下的“EMOTIONAL STABILITY IS CONTACT WITH THE GROUND”類別示例如圖2所示.
該示例由6 個(gè)部分組成.首先是詞條“EMOTION”下的隱喻類別“EMOTIONAL STABILITY IS CONTACT WITH THE GROUND”,然后列出了8個(gè)例句以及此類隱喻的源域(Source domain)和目標(biāo)域(Target domain).注釋對(duì)此類隱喻的來源和相關(guān)類別進(jìn)行了解釋說明,最后還列出參考書目.
圖2 詞條示例Fig.2 Demo of lexical item
Master Metaphor List(MML)以概念隱喻理論為指導(dǎo),對(duì)隱喻進(jìn)行了較為清晰、系統(tǒng)的分類與解釋,是較容易理解的概念隱喻資源.因此,大量隱喻計(jì)算研究以MML 為基礎(chǔ)展開,同時(shí)很多隱喻數(shù)據(jù)資源在建設(shè)中都借鑒了MML的理論和方法,其中包括MetaBank、Metalude、Hamburg Metaphor Database等許多有影響力的隱喻數(shù)據(jù)庫(kù).但是MML中對(duì)映射的理論框架并不明晰,并且根據(jù)專家的直覺建立隱喻概念,缺少充足的詞匯證據(jù)證明其重要性,這導(dǎo)致了諸如情感概念化等結(jié)論令人質(zhì)疑.另外,MML 情感隱喻的目標(biāo)域概念中只包含了生氣、愛、希望等最基本類別,劃分層級(jí)過于粗略;雖然源域概念相對(duì)較多(34個(gè)),但是也沒有更細(xì)層級(jí)的劃分.
Metalude[22]是一個(gè)包括9 000多個(gè)詞條的英語(yǔ)隱喻在線交互語(yǔ)料庫(kù).與MML 相同,Metalude也是以概念隱喻理論為基礎(chǔ),根據(jù)源域和目標(biāo)域來排列和組織語(yǔ)料庫(kù)中的隱喻.其語(yǔ)料主要來源于 The Oxford English Dictionary、 Collins COBUILD English Dictionary、 Cambridge International Dictionary of English等英語(yǔ)詞典.Metalude最大的特點(diǎn)是其收集的隱喻都是已經(jīng)固定的/詞匯化的隱喻,這點(diǎn)與MML憑借知覺的隱喻研究完全不同.Metalude根據(jù)詞匯學(xué)理論對(duì)“詞匯化隱喻”制定了嚴(yán)格的識(shí)別標(biāo)準(zhǔn):所收錄詞匯必須在當(dāng)代英語(yǔ)詞典中有隱喻義項(xiàng)出現(xiàn),收錄的隱喻基本類別出現(xiàn)在詞典中的詞匯數(shù)目不能少于6個(gè),并且這些詞匯在Cobuild Bank 英語(yǔ)數(shù)據(jù)庫(kù)中出現(xiàn)的頻率至少要達(dá)到200次.
Metalude把隱喻目標(biāo)域分為6個(gè)基本類,源域分為4個(gè)基本類,此外目標(biāo)域和源域還包括不同層級(jí)的子類別.
目標(biāo)域6 個(gè)基本類:(1)價(jià)值、數(shù)量、質(zhì)量(values,quantities &qualities);(2)情感、經(jīng)驗(yàn)、關(guān)系 (emotions,experience & relationship);(3)思維、言語(yǔ)(thinking &speaking);(4)活動(dòng)、運(yùn)動(dòng)(activity & movement);(5)人類、人類感知、社會(huì)(human,senses &society);(6)事物、物質(zhì)(things &substances).
源域4個(gè)基本類:(1)事物和物質(zhì)(things &substances),包括物體、植物、物質(zhì)、金錢、液體、食物等;(2)人體、動(dòng)物和感覺(human body,animal &senses);(3)活動(dòng)和運(yùn)動(dòng)(activity &movement);(4)位置和空間(place &space).例如,“情感是空間”就是源域與目標(biāo)域基本類別構(gòu)成的概念隱喻,此概念下又包括源域?yàn)椤吧舷隆钡?類情感隱喻“情感是高”“高興是高”“傷心是低”“平靜是平衡”以及相應(yīng)的例句.如圖3所示(坐標(biāo)的列是目標(biāo)域基本類,坐標(biāo)的行是源域基本類).每個(gè)隱喻類別下又包含若干詞條,詞條由字面義、隱喻義、詞性、實(shí)例等信息組成.
圖3 Metalude的源域和目標(biāo)域的基本類Fig.3 The root analogy of source and target domain in Metalude
Metalude從概念和詞匯兩個(gè)層次標(biāo)注了語(yǔ)料,對(duì)隱喻的源域和目標(biāo)域進(jìn)行了較為細(xì)致的劃分,并且詞條的字面意義和隱喻意義都有中文標(biāo)注,非常有利于中英隱喻對(duì)比研究以及面向中國(guó)學(xué)生的英語(yǔ)教學(xué).但是,構(gòu)建初期在詞匯數(shù)據(jù)收集的時(shí)候,對(duì)于隱喻類別項(xiàng)的選擇過分依賴認(rèn)知科學(xué)理論而忽視了隱喻的語(yǔ)義網(wǎng)絡(luò),因此Metalude中隱喻類別的選擇和劃分還不夠系統(tǒng).并且由于該語(yǔ)料庫(kù)的構(gòu)建目的之一是幫助英語(yǔ)學(xué)習(xí)者的詞匯學(xué)習(xí),所以規(guī)定每個(gè)基本類別所轄的詞條不超過50個(gè),這樣就不得不減少一些類別中具有價(jià)值的詞條.在這種情況下,各類別下詞條的數(shù)量設(shè)置也不夠完善.
Hamburg Metaphor Database[23]是一個(gè)包含了1 656個(gè)隱喻實(shí)例的法、德雙語(yǔ)隱喻知識(shí)庫(kù).語(yǔ)料主要來源于一些特定領(lǐng)域的報(bào)紙等媒體資源,從概念和詞匯兩個(gè)方面進(jìn)行語(yǔ)料標(biāo)注.其中的概念隱喻標(biāo)注部分以Master Metaphor List為基礎(chǔ)并加以擴(kuò)充,使用WordNet數(shù)據(jù)庫(kù)作為詞匯標(biāo)注的資源.HMD 建設(shè)項(xiàng)目從2002年開始,初期160多條實(shí)例由漢堡大學(xué)的碩士研究生手工編輯,按照概念隱喻的基本框架對(duì)法語(yǔ)和德語(yǔ)隱喻源域和目標(biāo)域進(jìn)行了對(duì)應(yīng)的翻譯和標(biāo)注.
起初的目標(biāo)并不是為了自然語(yǔ)言處理提供數(shù)據(jù)資源,而是用于社會(huì)語(yǔ)言學(xué)的研究.后來HMD在隱喻實(shí)例概念標(biāo)注的基礎(chǔ)上增加了詞匯標(biāo)注,并開發(fā)了自動(dòng)標(biāo)注技術(shù),獲取1 000多條新增隱喻實(shí)例,并逐漸發(fā)展為主要服務(wù)于隱喻計(jì)算的語(yǔ)料資源.
HMD 的標(biāo)注結(jié)構(gòu)如圖4所示.從圖中可以看出,HMD 標(biāo)注了隱喻實(shí)例的來源信息,包括語(yǔ)料庫(kù)中書籍、刊物的作者、標(biāo)題、卷號(hào)、頁(yè)數(shù)、出版日和文件名,文章來源信息的作者、標(biāo)題、年份、地址、出版者等信息.給隱喻實(shí)行編號(hào),并標(biāo)注語(yǔ)言類型、實(shí)例、隱喻詞、隱喻意義、字面意義、源域和目標(biāo)域.其中源域和目標(biāo)域的標(biāo)注使用了兩套標(biāo)簽,一套是根據(jù)MML 的概念隱喻建立的英語(yǔ)標(biāo)簽,另一套是對(duì)應(yīng)的德語(yǔ)或者法語(yǔ)標(biāo)簽.
圖4 HMD 標(biāo)注結(jié)構(gòu)Fig.4 HMD label structure
HMD 使用德語(yǔ)和法語(yǔ)語(yǔ)料建設(shè)資源,是隱喻資源建設(shè)跨語(yǔ)言研究的代表.但是由于文化等原因,概念隱喻在不同語(yǔ)言中存在著不對(duì)應(yīng)的問題.例如,HMD 構(gòu)建中發(fā)現(xiàn),德語(yǔ)的概念域標(biāo)簽有時(shí)會(huì)比英語(yǔ)的Master Metaphor List 更加具體,甚至有時(shí)候在德語(yǔ)語(yǔ)料庫(kù)中發(fā)現(xiàn)的隱喻概念在MML中根本不存在.尤其對(duì)于表述社會(huì)團(tuán)體的概念較為常見,例如,德語(yǔ)的概念隱喻“政黨是家庭”在英語(yǔ)的MML數(shù)據(jù)庫(kù)中并不存在.
作為BNC Baby語(yǔ)料庫(kù)的子庫(kù),VU Amsterdam Metaphor Corpus[24]是目前規(guī)模最大的手工標(biāo)注隱喻語(yǔ)料庫(kù).它在2010年10月完成語(yǔ)料標(biāo)注,包括新聞文本、學(xué)術(shù)文本、小說和會(huì)話4種體裁,規(guī)模達(dá)到200 000個(gè)英語(yǔ)單詞.VU Amsterdam Metaphor Corpus從語(yǔ)言方面對(duì)隱喻詞匯進(jìn)行了標(biāo)注,并沒有涉及隱喻概念標(biāo)注.按照隱喻標(biāo)記詞(例如like、as等)的有無對(duì)語(yǔ)料庫(kù)中的隱喻進(jìn)行分類和組織,并把“擬人”單獨(dú)列為一項(xiàng)隱喻類別.
Pragglejaz Group在標(biāo)注中設(shè)計(jì)了一套隱喻識(shí)別程序 MIPVU (Metaphor Identification Procedure VU),依據(jù)嚴(yán)格的詞匯界定及詞義的字典釋義對(duì)隱喻進(jìn)行字面義與隱喻義的劃分并進(jìn)行系統(tǒng)識(shí)別.這是在他們以前的MIP識(shí)別程序基礎(chǔ)上的改進(jìn)和補(bǔ)充,利用Fleiss′Kappa統(tǒng)計(jì)分析方法得出其標(biāo)注一致性達(dá)到了0.85.
VU Amsterdam Metaphor Corpus已經(jīng)廣泛應(yīng)用到隱喻計(jì)算的研究中,并對(duì)俄語(yǔ)等其他語(yǔ)言的隱喻語(yǔ)料庫(kù)標(biāo)注起到了指導(dǎo)作用.其中的隱喻識(shí)別程序MIPVU 降低了隱喻識(shí)別中的主觀性,也得到了廣泛的應(yīng)用.但是研究仍然停留在語(yǔ)言層面上,并沒有對(duì)隱喻在概念層面上的識(shí)別給予關(guān)注.
SentiWordNet[25]是一個(gè)面向情感分類和觀點(diǎn)挖掘應(yīng)用的開源詞匯資源.從SentiWordNet 1.0到升級(jí)版的SentiWordNet 3.0,目前全世界已有超過300個(gè)研究組織得到授權(quán),在各種情感研究課題中使用.SentiWordNet 是 在SentiWordNet同義詞集自動(dòng)標(biāo)注的基礎(chǔ)上建立起來的.每個(gè)同義詞集都包含褒、貶、中性3個(gè)級(jí)別及每個(gè)級(jí)別下的得分pos(s)、neg(s)和obj(s).每個(gè)得分在[0,1.0].具有多種語(yǔ)義的詞語(yǔ)可能具有不同的級(jí)別和得分,其得分總和為1.例如在形容詞“estimable”語(yǔ)義為“may be computed or estimated”的同義詞集中的情感標(biāo)注為中性得分1.0,貶0,褒0;然而在語(yǔ)義為“deserving of respect or high regard”的同義詞集中為褒0.75,貶0,中性0.25.
該詞典為情感分析提供了重要的資源,但是情感分類仍簡(jiǎn)單劃分為褒、貶、中性,缺少更細(xì)致的情感劃分.
中文的情感語(yǔ)義資源隨著中文信息處理技術(shù)和情感分析技術(shù)的發(fā)展,也獲得較為長(zhǎng)足的發(fā)展,從無到有,主要體現(xiàn)在北京大學(xué)的“漢語(yǔ)概念詞典CCD[26]”,Dong 等 的“知 網(wǎng)Hownet[27]”,臺(tái)灣大學(xué)的“情感極性詞典NTUSD”[28],大連理工大學(xué)的“情感詞匯本體[29]”“情感語(yǔ)料庫(kù)[30]”“情感常識(shí)知識(shí)庫(kù)[31]”等一系列情感語(yǔ)義資源,初步解決了情感分類的語(yǔ)義基礎(chǔ),但是對(duì)于隱喻的情感分析所需要的知識(shí)體系更為復(fù)雜和精細(xì),構(gòu)建的成本更大,牽涉到認(rèn)知科學(xué)、語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué),造成目前的漢語(yǔ)情感隱喻的知識(shí)庫(kù)和評(píng)測(cè)語(yǔ)料極度缺乏.
情感隱喻識(shí)別與理解是情感隱喻計(jì)算的主要部分,重點(diǎn)研究作者如何通過隱喻把文本話題的情感傳遞給讀者,是一種更具挑戰(zhàn)性的情感計(jì)算研究.與字面語(yǔ)言相比,隱喻是典型的非字面表達(dá),常常通過隱晦、間接的語(yǔ)言表達(dá)情感.例如在句子“你就是個(gè)備胎”中,并沒有情感詞匯出現(xiàn),“備胎”的字面義也沒有情感因素,但是其隱喻義“排在第二的情人”卻能傳遞出說話者不滿、生氣的負(fù)面情感.如果再去考慮隱喻出現(xiàn)的語(yǔ)境或者作者對(duì)于目標(biāo)域概念的態(tài)度,情感隱喻計(jì)算將更具挑戰(zhàn)性.
目前情感隱喻識(shí)別和理解處在剛剛起步階段,對(duì)詞匯特征關(guān)注較多,以識(shí)別和理解本體、喻體語(yǔ)義的矛盾沖突為總體思路,包括基于語(yǔ)義知識(shí)和基于機(jī)器學(xué)習(xí)兩種主要方法.基于語(yǔ)義知識(shí)方法的基本思路是把情感隱喻知識(shí)和規(guī)則形式化為語(yǔ)義分析器,可以對(duì)輸入情感隱喻進(jìn)行分析和理解.基于機(jī)器學(xué)習(xí)的基本思路是從大規(guī)模語(yǔ)料資源中“學(xué)習(xí)”領(lǐng)域知識(shí),從而進(jìn)行情感隱喻識(shí)別或?qū)崿F(xiàn)以源域與目標(biāo)域間相似度計(jì)算為基礎(chǔ)的情感隱喻理解.早期研究中基于語(yǔ)義的方法較多,近10年來隨著機(jī)器學(xué)習(xí)的飛速發(fā)展,基于機(jī)器學(xué)習(xí)的方法在情感隱喻計(jì)算中得到了較快的發(fā)展.下面對(duì)主要工作加以簡(jiǎn)單回顧.
Fass[32]是最早對(duì)隱喻文本識(shí)別技術(shù)進(jìn)行研究的學(xué)者之一,在Wilks[33]有關(guān)語(yǔ)義選擇優(yōu)先中斷工作的基礎(chǔ)上,手工構(gòu)建語(yǔ)義選擇限制知識(shí),判斷字面意思和語(yǔ)境意思是否存在語(yǔ)義上的沖突,從而完成隱喻識(shí)別.例如,在句子“My car drinks gasoline”中,動(dòng)詞“drink”的主語(yǔ)應(yīng)該是具有生命的語(yǔ)義類,而“my car”是沒有生命的,句子主語(yǔ)和謂語(yǔ)產(chǎn)生了語(yǔ)義沖突,據(jù)此識(shí)別為隱喻.Fass開發(fā)了一個(gè)met* 系統(tǒng),能夠?qū)ψ置媪x、隱喻、轉(zhuǎn)喻和異常進(jìn)行區(qū)分.該系統(tǒng)首先根據(jù)是否違反語(yǔ)義選擇限制判斷是字面義還是非字面義,在非字面義的情況下,繼續(xù)使用手工構(gòu)建的語(yǔ)義限制(例如container for content),檢驗(yàn)是否是轉(zhuǎn)喻或者具有轉(zhuǎn)喻關(guān)系.如果系統(tǒng)不能識(shí)別出轉(zhuǎn)喻,就繼續(xù)在知識(shí)庫(kù)中尋找隱喻或者隱喻關(guān)系.例如,句子“My car drinks gasoline”的框架結(jié)構(gòu)可以表示為(car,drink,gasoline),因?yàn)閏ar并不具有animal語(yǔ)義下位關(guān)系,所以不能滿足優(yōu)先語(yǔ)義的框架(animal,drink,liquid).另外,系統(tǒng)在非轉(zhuǎn)喻和隱喻的情況下,會(huì)給出語(yǔ)義異常類的辨別結(jié)果.Fass的方法依靠手工構(gòu)建的語(yǔ)義選擇限制知識(shí),其規(guī)模有限.
在最近的研究中,Wilks等[34]改進(jìn)了Fass的方法,從詞典VerbNet和WordNet中獲取語(yǔ)義優(yōu)選知識(shí),自動(dòng)識(shí)別那些已經(jīng)固定的、詞匯化的隱喻.這種方法假設(shè)一個(gè)單詞在WordNet中的首要(最主要)詞義并不是它在所在句子的語(yǔ)境詞義,但是有一個(gè)WordNet中的次要詞義滿足該詞的語(yǔ)境,那么這個(gè)詞就是隱喻用法,WordNet中的次要詞義就是它的隱喻義.例如在句子“She married a brick”中,“brick”的首要詞義是“a physical object”,而“marry”的語(yǔ)義優(yōu)先選擇應(yīng)該是“people”,但是“brick”的第二個(gè)詞義是“a reliable person”,滿足優(yōu)選語(yǔ)義,判定為隱喻,“a reliable person”為隱喻義.Wilks等使用語(yǔ)義分類器識(shí)別詞典注釋中動(dòng)詞的名詞主題和它們的語(yǔ)義角色,從而提取出WordNet中上位詞,并把它們定義為語(yǔ)義優(yōu)選.與手工構(gòu)建語(yǔ)義知識(shí)相比,這種方法自動(dòng)獲得語(yǔ)義優(yōu)選限制,但是這種依靠詞典中詞義注釋順序的方法有時(shí)候并不準(zhǔn)確.例如,有些詞在WordNet中的首要詞義就是隱喻的詞義,而第二詞義才是字面意思,此外Wilks等對(duì)自己工作的評(píng)價(jià)是沒有對(duì)隱喻和轉(zhuǎn)喻進(jìn)行區(qū)分.
Strzalkowski等[35]從詞匯和語(yǔ)義特征兩個(gè)方面對(duì)情感隱喻進(jìn)行了研究.隱喻映射被劃分為概念和關(guān)系兩種主要表達(dá)方式.概念包括源域概念和目標(biāo)域概念,關(guān)系是指從源域中“借用”到目標(biāo)域的概念.例如,在隱喻“Government regulations are crushing small businesses”中,句子主語(yǔ)“government regulations”和謂語(yǔ)動(dòng)詞“crush”產(chǎn)生了語(yǔ)義沖突,crush是從源域概念(例如physical burden)中借用的動(dòng)詞應(yīng)用到目標(biāo)域概念中,這種隱喻映射表達(dá)被稱為“關(guān)系”表達(dá)式.據(jù)此,Strzalkowski等把目標(biāo)域和源域(概念或者關(guān)系)的隱喻表達(dá)分別根據(jù)情感詞典劃分出情感,再通過社會(huì)語(yǔ)言學(xué)理論基礎(chǔ)上建立的模型Affect Calculus識(shí)別整個(gè)隱喻句子的情感極性.實(shí)驗(yàn)表明這種方法對(duì)于本體的情感為中性(neutral)的情感隱喻識(shí)別具有較高的準(zhǔn)確率,但對(duì)情感詞典依賴性較大,并且是對(duì)隱喻內(nèi)部的情感識(shí)別,對(duì)于語(yǔ)境等因素沒有考慮.
Zhang等[36]對(duì)幾種特別類型隱喻表達(dá)的情感進(jìn)行研究,包括:實(shí)體隱喻(即概念隱喻“情感是實(shí)體”下的隱喻表達(dá),例如“Anger ran through me”“Fear drags me down”);食物隱喻(即概念隱喻“情感是食物”下的隱喻表達(dá),例如“X is a pizza”);動(dòng)物隱喻(即概念隱喻“情感是動(dòng)物”下的隱喻表達(dá),例如“Lisa is a pig”);憤怒隱喻(即概念隱喻“憤怒是容器里液體中的熱”下的隱喻表達(dá),例如“She exploded completely”);尺寸隱喻(即隱喻中傳遞情感的尺寸的形容詞,例如“Shut your big fat mouth”).其基本思路是在句法和語(yǔ)義分析基礎(chǔ)上,使用包括決策樹、樸素貝葉斯、支持向量機(jī)的機(jī)器學(xué)習(xí)方法,并根據(jù)WordNet和WordNet-affect詞典中的領(lǐng)域知識(shí)辨別語(yǔ)義和情感等信息.以“實(shí)體隱喻”為例,對(duì)于句子“Anger runs through me”,Rasp句法識(shí)別工具首先識(shí)別出句子的結(jié)構(gòu)“nnl(a singular common noun subject:anger)+vvz(present-tense lexical verb phrase:runs)+ppiol(object:me)”,并把主語(yǔ)名詞“anger”送到語(yǔ)義詞典中,然后句子的語(yǔ)義和句法結(jié)構(gòu)就被標(biāo)記出來“e3-(semantic tag:anger)+vvza(runs)+ppiol(me)”.標(biāo)注的句子作為分類器(決策樹、樸素貝葉斯、支持向量機(jī))的訓(xùn)練集,用于識(shí)別此類型的隱喻表達(dá).然后識(shí)別出的隱喻表達(dá)通過WordNet-affect的情感領(lǐng)域標(biāo)簽進(jìn)行情感處理.例如,當(dāng)分類器識(shí)別出輸入句子“Panic is dragging me down”為實(shí)體隱喻類型后,再使用WordNet-affect辨別其主語(yǔ)“panic”的情感為“害怕”“負(fù)面情感”,即panic:fear(negative emotion).Zhang等嘗試了對(duì)多種類型的情感隱喻進(jìn)行研究,但其概念隱喻并沒有考慮文化差異性,其研究對(duì)英語(yǔ)之外其他語(yǔ)言并不具有普遍適用性.
Kozareva[37]開展了多語(yǔ)言隱喻情感極性和效價(jià)識(shí)別研究.從政治演講、政治相關(guān)網(wǎng)站和在線報(bào)紙等資源中收集數(shù)據(jù),建立了英語(yǔ)、西班牙語(yǔ)、俄語(yǔ)和波斯語(yǔ)4種語(yǔ)言的數(shù)據(jù)集.其中以句子級(jí)別的隱喻句為主,也包括一些短語(yǔ).一般情況下,其語(yǔ)境定為隱喻句前后的一個(gè)句子(最多3個(gè)句子).采用人工的方式對(duì)隱喻句的情感極性和效價(jià)進(jìn)行標(biāo)注,其中情感極性分為“正”(positive)、“負(fù)”(negative)兩種,效價(jià)級(jí)別從-3 到+3.并且標(biāo)注者還要提供語(yǔ)境、本體、喻體、比喻部分的信息.然后利用機(jī)器學(xué)習(xí)的方法,把情感極性任務(wù)作為分類問題處理.同時(shí)參考心理學(xué)家關(guān)于語(yǔ)境特征和觸發(fā)詞表的研究建立特征集,從隱喻本身、語(yǔ)境和源域、目標(biāo)域等幾方面研究其對(duì)于情感的影響.但是其研究?jī)H限于政治管理領(lǐng)域,應(yīng)用范圍較小,情感種類也僅限于褒貶而沒有涉及多種類情感.
近年來,深度學(xué)習(xí)研究方法在許多研究領(lǐng)域取得了不錯(cuò)的效果,其中詞嵌入[38]是一種將詞表示為連續(xù)詞向量的技術(shù),其已被廣泛用于多個(gè)自然語(yǔ)言處理的任務(wù)中.然而,詞嵌入技術(shù)也存在一些弊端,即所得到的詞向量的質(zhì)量依賴于訓(xùn)練的語(yǔ)料,且不能有效地利用結(jié)構(gòu)化數(shù)據(jù),缺少語(yǔ)義信息等.最近一些研究表明[39],將語(yǔ)義信息等結(jié)構(gòu)化數(shù)據(jù)加入詞向量訓(xùn)練過程中,可以得到更為高質(zhì)量的詞向量.基于豐富的隱喻語(yǔ)料庫(kù)資源,可將結(jié)構(gòu)化的隱喻語(yǔ)料知識(shí)融入詞向量訓(xùn)練過程,使得詞向量可以學(xué)習(xí)到相關(guān)隱喻信息,即獲取一些概念層面的詞義信息.在“學(xué)習(xí)”了結(jié)構(gòu)化的隱喻語(yǔ)料知識(shí)后,根據(jù)該詞向量間的相似度進(jìn)行重排序,可以在一定程度上幫助研究者解決隱喻識(shí)別和隱喻理解的問題.
此外,語(yǔ)言通常被認(rèn)為具有明顯的樹結(jié)構(gòu),也就是說,在進(jìn)行語(yǔ)法或語(yǔ)義組合時(shí),通常不是按照詞的順序進(jìn)行組合,而是先組合語(yǔ)法或語(yǔ)義關(guān)系比較近的詞或短語(yǔ).基于以上的語(yǔ)言學(xué)理論,在引入深度學(xué)習(xí)技術(shù)處理自然語(yǔ)言問題時(shí),可利用語(yǔ)言的樹結(jié)構(gòu)來構(gòu)建深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即遞歸神經(jīng)網(wǎng)絡(luò)[40].在隱喻識(shí)別方面,很多研究人員采用基于語(yǔ)法搭配的方法進(jìn)行隱喻識(shí)別.而隱喻識(shí)別在一定程度上可被看作是語(yǔ)義關(guān)系分類任務(wù),用以識(shí)別兩個(gè)距離較遠(yuǎn)的實(shí)體之間的語(yǔ)義關(guān)系,它們中間的詞往往對(duì)序列模型構(gòu)成干擾,通過結(jié)合語(yǔ)句的句法分析樹型結(jié)構(gòu),則有助于排除這些干擾,再結(jié)合以句法樹結(jié)構(gòu)構(gòu)造的遞歸神經(jīng)網(wǎng)絡(luò)等相關(guān)深度學(xué)習(xí)模型,可對(duì)隱喻較為有效地識(shí)別.
網(wǎng)絡(luò)評(píng)論的急速增加迫切需要利用計(jì)算機(jī)自動(dòng)分析處理這些情感信息,這使得情感計(jì)算研究得到了廣泛的關(guān)注和應(yīng)用.目前的應(yīng)用領(lǐng)域主要包括智能機(jī)器人、用戶評(píng)論分析、信息預(yù)測(cè)、輿情監(jiān)控、問答系統(tǒng)、機(jī)器翻譯等.但是情感隱喻的應(yīng)用研究還處于起步階段,所以下面以機(jī)器翻譯、問答系統(tǒng)、評(píng)論分析為例,對(duì)情感隱喻計(jì)算的應(yīng)用前景進(jìn)行簡(jiǎn)要論述.
情感隱喻的識(shí)別是機(jī)器翻譯最棘手的問題之一,目前句子層面的機(jī)器翻譯主要采用直譯的方法,其結(jié)果和人工翻譯具有很大差距.在機(jī)器翻譯中融入情感隱喻計(jì)算可以很大程度上提升翻譯的性能,具體來說,就是在翻譯的過程中搭建一個(gè)隱喻識(shí)別引擎,以情感詞匯本體和隱喻本體為基礎(chǔ),以機(jī)器學(xué)習(xí)技術(shù)和模式識(shí)別方法為手段,將包含隱喻的句子作為輸入,對(duì)源語(yǔ)言與目標(biāo)語(yǔ)言的隱喻關(guān)系進(jìn)行匹配和識(shí)別,輸出隱喻的本體和喻體等信息,從而進(jìn)一步提升機(jī)器翻譯的精確性,彌補(bǔ)隱喻內(nèi)容因直譯而帶來的歧義,輔助并提升機(jī)器翻譯的整體性能.
例如“她是父母的掌上明珠”這個(gè)隱喻句的百度翻譯結(jié)果是“She is a pearl in the palm of parents”.由此可以看出,直譯的翻譯方式不能翻譯出像“She is the apple of her parents′eye”這樣地道的譯句.其根源在于計(jì)算機(jī)對(duì)復(fù)雜語(yǔ)言知識(shí)和規(guī)律認(rèn)識(shí)有限.在這種情況下,情感隱喻語(yǔ)料資源可以讓計(jì)算機(jī)獲得人類具有的“知識(shí)”,采用以語(yǔ)義為核心的翻譯方法,實(shí)現(xiàn)從源語(yǔ)到譯語(yǔ)語(yǔ)義層面的轉(zhuǎn)換,使機(jī)器翻譯更加接近人類對(duì)語(yǔ)言的理解,從而提高翻譯性能.例如,情感隱喻語(yǔ)料資源可以幫助機(jī)器翻譯實(shí)現(xiàn)以下功能:通過英漢喻底建立關(guān)聯(lián),獲取知識(shí)庫(kù)中已有且標(biāo)注的同喻底隱喻;對(duì)輸入的隱喻句子進(jìn)行成分分析,運(yùn)用實(shí)體識(shí)別與抽取算法抽取句中對(duì)應(yīng)的本體與喻體信息,并計(jì)算該信息與知識(shí)庫(kù)中情感隱喻的語(yǔ)義相似度;根據(jù)相似性結(jié)果排序,推薦相似性較高的K個(gè)翻譯結(jié)果作為候選結(jié)果;引入Frequently Asked Questions(FAQ)機(jī)制,即常見的問題項(xiàng)目與對(duì)應(yīng)問題的解答,記錄用戶的采納結(jié)果,重復(fù)利用,實(shí)現(xiàn)高質(zhì)量的情感隱喻的機(jī)器翻譯.因此,情感隱喻計(jì)算研究,尤其是情感隱喻識(shí)別在機(jī)器翻譯中具有廣闊的應(yīng)用前景.
聊天機(jī)器人是一個(gè)用來模擬人類對(duì)話或者聊天的程序,作為問答系統(tǒng)的延伸和擴(kuò)展,聊天機(jī)器人不僅需要對(duì)用戶所提出的問題進(jìn)行回答,同時(shí)要充分地把握用戶在聊天中的情感趨勢(shì),給出符合用戶情感狀態(tài)的答案,并能夠適當(dāng)對(duì)后續(xù)聊天中的情感走向進(jìn)行引導(dǎo).因此,情感隱喻計(jì)算對(duì)聊天機(jī)器人性能的提升至關(guān)重要.例如,聊天機(jī)器人需要根據(jù)對(duì)話內(nèi)容,理解用戶在聊天中所提到的雙關(guān)語(yǔ),并根據(jù)其隱含的意思給出符合用戶心理的回答.
聊天機(jī)器人的隱喻理解同樣也需要搭建一個(gè)情感隱喻識(shí)別引擎,該引擎將用戶聊天內(nèi)容作為輸入,以情感隱喻的喻底作為輸出,充分領(lǐng)會(huì)本次會(huì)話的上下文信息,同時(shí)借助情感隱喻語(yǔ)義資源和各種領(lǐng)域知識(shí),給出相應(yīng)的回答內(nèi)容.通過情感隱喻識(shí)別引擎聊天機(jī)器人能夠更深層次地把握用戶所關(guān)心的話題和情感的變化,從而展開更為人性化的對(duì)話.
對(duì)于產(chǎn)品或者服務(wù)的用戶評(píng)論分析是情感計(jì)算中的應(yīng)用熱點(diǎn).分析和挖掘用戶評(píng)論中所蘊(yùn)含的情感需要借助情感常識(shí)庫(kù)和情感隱喻本體等資源.首先,需要基于這些資源對(duì)用戶評(píng)論中的情感隱喻詞匯進(jìn)行抽?。蝗缓?,根據(jù)詞匯所具有的情感來判別句子整體所具有的情感傾向性,特別是與隱喻相關(guān)的情感;最后,從整體上挖掘出用戶的情感狀態(tài),并根據(jù)用戶現(xiàn)有狀態(tài)調(diào)整產(chǎn)品和服務(wù)的供應(yīng),提升用戶的滿意度.
國(guó)內(nèi)外很多產(chǎn)品評(píng)論的海量信息中會(huì)有大量情感隱喻存在,例如評(píng)論電影時(shí)人們會(huì)說“真是個(gè)鬼才導(dǎo)演!”“國(guó)產(chǎn)片的頂配”;對(duì)一款旅行社旅游產(chǎn)品可能評(píng)論“太腐敗了!”.但是目前對(duì)于用戶評(píng)論情感分析基本方法是在自動(dòng)獲取評(píng)論的基礎(chǔ)上,挖掘出產(chǎn)品主要評(píng)價(jià)詞和屬性信息,然后分析處理.據(jù)此國(guó)內(nèi)外研發(fā)了很多評(píng)論情感分析系統(tǒng):例如對(duì)產(chǎn)品網(wǎng)絡(luò)評(píng)價(jià)信息進(jìn)行情感分析,并提供個(gè)性推薦[41];對(duì)在線購(gòu)物產(chǎn)品評(píng)價(jià)意見進(jìn)行分析和可視化展示[42],根據(jù)在線評(píng)論的情感分析結(jié)果進(jìn)行廣告推薦等[43].由于情感隱喻計(jì)算研究剛剛起步,在以上過程中很少有研究關(guān)注其中的情感隱喻.這導(dǎo)致了情感計(jì)算中因?yàn)楹雎源罅看嬖诘姆亲置嬲Z(yǔ)言——情感隱喻而出現(xiàn)精度問題.因此,情感隱喻計(jì)算有助于對(duì)網(wǎng)絡(luò)評(píng)論中情感的理解,可以進(jìn)一步提高人機(jī)交互的性能,為用戶和制造商提供決策參考.
本文從情感隱喻計(jì)算研究歷程回顧開始,從情感隱喻資源建設(shè)、情感隱喻識(shí)別與理解相關(guān)研究及應(yīng)用幾個(gè)方面論述了情感隱喻計(jì)算的研究進(jìn)展,最后提出以下幾點(diǎn)面臨的問題和挑戰(zhàn).
(1)情感隱喻分類問題.目前情感隱喻計(jì)算中對(duì)于情感類別基本上是“褒、貶”的二情感分類,而很少有“喜、怒、哀、樂”等多情感分類研究.然而現(xiàn)實(shí)文本中存在著豐富情感,因此要求計(jì)算機(jī)能夠理解甚至生成人類的各種情感.但是由于多類別情感語(yǔ)料的缺乏,多類別情感隱喻計(jì)算成為了一項(xiàng)困難的任務(wù)和有待解決的問題.
(2)資源建設(shè)問題.情感隱喻的認(rèn)知性決定了它對(duì)知識(shí)具有很強(qiáng)的依賴性.因此情感語(yǔ)料庫(kù)、情感詞匯本體等資源建設(shè)對(duì)于情感隱喻計(jì)算非常重要.但是目前專門用于情感隱喻計(jì)算的資源建設(shè)極度缺乏,現(xiàn)有的隱喻資源主要針對(duì)普遍出現(xiàn)的概念隱喻,較少考慮到隱喻的情感計(jì)算問題.面向情感隱喻計(jì)算的資源建設(shè)也需要結(jié)合語(yǔ)言學(xué)研究成果,開展情感隱喻的概念層面和語(yǔ)言層面的研究.目前面臨著情感隱喻的特征形式、情感語(yǔ)義標(biāo)注體系、人工標(biāo)注的主觀性和個(gè)體差異等諸多具有挑戰(zhàn)性的問題.
(3)文化差異問題.情感隱喻在不同語(yǔ)言和文化中存在顯著的差異.語(yǔ)言學(xué)家對(duì)于情感隱喻在不同文化中的形成機(jī)制以及相似性和差異性做了大量研究,但目前這些研究成果并沒有廣泛應(yīng)用于情感隱喻計(jì)算研究中.因此,利用語(yǔ)言學(xué)與心理學(xué)研究成果,充分考慮情感隱喻在不同文化中的差異性,建立具有適用性的計(jì)算模型將是一個(gè)新的課題.
(4)研究方法問題.目前情感隱喻研究仍較為依賴語(yǔ)義關(guān)系,基于機(jī)器學(xué)習(xí)的方法主要通過在海量語(yǔ)料中“學(xué)習(xí)”得到相應(yīng)的模式或規(guī)則,對(duì)情感隱喻進(jìn)行識(shí)別,但是缺乏對(duì)隱喻的“理解”,缺乏先驗(yàn)知識(shí)引導(dǎo),識(shí)別的精度不理想.隨著深度學(xué)習(xí)的興起,通過深度學(xué)習(xí)技術(shù)對(duì)語(yǔ)料中的情感隱喻知識(shí)進(jìn)行“提煉”,可以更好地輔助計(jì)算機(jī)理解情感隱喻,以指導(dǎo)計(jì)算機(jī)更為準(zhǔn)確地識(shí)別情感隱喻,實(shí)現(xiàn)情感隱喻的可計(jì)算化.
[1] Lakoff G,Johnson M.Metaphors We Live By[M].Chicago:The University of Chicago Press,1980.
[3] Goatly A.Metaphor as resource for the conceptualization and expression of emotion[M]//Ahmad K.Affective Computing and Sentiment Analysis:Emotion,Metaphor and Terminology.Berlin:Springer-Verlag,2011:19-27.
[4] Richards I A.The Philosophy of Rhetoric [M].London:Oxford University Press,1936.
[6] Ricoeur P.The Rule of Metaphor[M].London:Routledge,1978.
[7] Ortony A.Metaphor and Thought[M].Cambridge:Cambridge University Press,1979:72-123.
[9] Miller G A.WordNet:a lexical database for English language[J].Communications of the ACM,1995,38(11):39-41.
[10] Lakoff G,Espenson J,Goldberg A,etal.Master Metaphor List,Second Edition[DB/OL].(1991-01-01)http://araw.mede.uic.edu/~alansz/metaphor/METAPHORLIST.pdf.
[11] Picard R W.Affective Computing[M].Cambridge:MIT Press,1997.
[12] Shutova E.Models of metaphor in NLP [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.East Stroudsburg: Association for Computational Linguistics,2010:688-697.
[13] Shutova E,SUN Lin.Unsupervised metaphor identification using hierarchical graph factorization clustering[C]//Proceedings of NAACL-HLT 2013.Atlanta:ACL,2013:978-988.
[14] 田 嘉,蘇 暢,陳怡疆.隱喻計(jì)算研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(1):40-51.TIAN Jia,SU Chang,CHEN Yi-jiang.Computational metaphor processing[J].Journal of Software,2015,26(1):40-51.(in Chinese)
[15] 林鴻飛,許 侃,任 惠.基于詞匯范疇和語(yǔ)義相似的顯性情感隱喻識(shí)別機(jī)制[J].大連理工大學(xué)學(xué)報(bào),2012,52(5):761-766.LIN Hong-fei,XU Kan,REN Hui.Mechanism of dominant sentimental metaphor identification based on lexical domain and semantic similarity [J].Journal of Dalian University of Technology,2012,52(5):761-766.(in Chinese)
[16] Ghosh A,LI Guo-fu,Veale T,etal.SemEval-2015 task 11:Sentiment analysis of figurative language in Twitter [C]// Proceedings of the International Workshop on Semantic Evaluation.Denver:[s n],2015.
[17] Reyes A,Rosso P.On the difficulty of automatically detecting irony:beyond a simple case of negation [J].Knowledge and Information Systems,2014,40(3):595-614.
[18] Veale T.A context-sensitive,multi-faceted model of lexico-conceptual affect [C]//50th Annual Meeting of the Association for Computational Linguistics,ACL 2012- Proceedings of the Conference.East Stroudsburg:ACL,2012:75-79.
[19] Turney P D,Neuman Y,Assaf D,etal.Literal and metaphorical sense identification through concrete and abstract context[C]//EMNLP 2011-Conference on Empirical Methods in Natural Language Processing,Proceedings of the Conference.East Stroudsburg:ACL,2011.
[20] Lakoff G,Turner M.More Than Cool Reason:A Field Guide to Poetic Metaphor [M].Chicago:University of Chicago Press,1989.
[22] Goatly A,Project LLE,Lingnan University.Metalude—Metaphor at Lingnan University [DB/OL].(2002-01-01)http://www.ln.edu.hk/lle/cwd03/lnproject_chi/introduction.html.
[23] Lonneker-Rodman B.The Hamburg Metaphor Database project:issues in resource creation [J].Language Resources and Evaluation,2008,42(3):293-318.
[24] Steen G J,Dorst A G,Herrmann J B,etal.VU Amsterdam Metaphor Corpus[Z].Oxford:Oxford Text Archives,2010.
[25] Baccianella S,Esuli A,Sebastiani F.SentiWordNet 3.0:An enhanced lexical resource for sentiment analysis and opinion mining[C]//Proceedings of the Seventh Conference on International Language Resources and Evaluation.Valletta:LREC,2010.
[26] 于江生,俞士汶.中文概念詞典的結(jié)構(gòu)[J].中文信息學(xué)報(bào),2002,16(4):12-20.YU Jiang-sheng,YU Shi-wen.The structure of Chinese concept dictionary[J].Journal of Chinese Information Processing,2002,16(4):12-20.(in Chinese)
[27] DONG Qiang,DONG Zhen-dong.Hownet and the Computation of Meaning [M].London:World Scientific Publishing Company,1988.
[28] Ku L W,Lo Y S,Chen H H.Using polarity scores of words for sentence-level opinion extraction[C]// Proceedings of NTCIR-6 Workshop Meeting.Tokyo:NTCIR,2007:316-322.
[29] 徐琳宏,林鴻飛,潘 宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.XU Lin-h(huán)ong,LIN Hong-fei,PAN Yu,etal.Constructing the affective lexicon ontology [J].Journal of the China Society for Scientific and Technical Information,2008,27(2):180-185.(in Chinese)
[30] 徐琳宏,林鴻飛,趙 晶.情感語(yǔ)料庫(kù)的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008,22(1):116-122.XU Lin-h(huán)ong,LIN Hong-fei,ZHAO Jing.Construction and analysis of emotional corpus[J].Journal of Chinese Information Processing,2008,22(1):116-122.(in Chinese)
[31] 陳建美,林鴻飛.中文情感常識(shí)知識(shí)庫(kù)的構(gòu)建[J].情報(bào)學(xué)報(bào),2009,28(4):492-498.CHEN Jian-mei,LIN Hong-fei.Constructing the affective common sense knowledge base [J].Journal of the China Society for Scientific and Technical Information,2009,28(4):492-498.(in Chinese)
[32] Fass D.met*:A method for discriminating metonymy and metaphor by computer [J].Computational Linguistics,1991,17(1):49-90.
[33] Wilks Y.A preferential pattern-seeking semantics for natural language inference [J].Artificial Intelligence,1975,6(1):53-74.
[34] Wilks Y,Adam D,James A,etal.Automatic metaphor detection using large-scale lexical resources and conventional metaphor extraction[C]//Proceedings of the First Workshop on Metaphor in NLP.Atlanta:NLP,2013:36-44.
[35] Strzalkowski T,Shaikh S,Cho K,etal.Computing effect in metaphors[J].Communications of the ACM,2008,57(1):107-113.
[36] ZHANG Li,Barnden J.Affect and metaphor sensing in virtual drama[J].International Journal of Computer Games Technology,2010:512563.
[37] Kozareva Z.Multilingual affect polarity and valence prediction in metaphor-rich texts[C]//ACL 2013-51st Annual Meeting of the Association for Computational Linguistics,Proceedings of the Conference.East Stroudsburg:ACL,2013.
[38] Mikolov T,Sutskever I,Chen K,etal.Distributed representations of words and phrases and their compositionality [J].Eprint Arxiv,2013:3111-3119.
[39] Rothe S,Schütze H.AutoExtend:Extending word embeddings to embeddings for Synsets and Lexemes[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics.Beijing:Association for Computational Linguistics,2015.
[40] Mikolov T,Karafiát M,Burget L,etal.Recurrent neural network based language model [C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,INTERSPEECH 2010.Bonn:International Speech Communication Association,2010:1045-1048.
[41] LI Nan,Wu D D.Using text mining and sentiment analysis for online forums hotspot detection and forecast [J].Decision Support Systems,2010,48(2):354-368.
[42] XU Kai-quan,Liao S S,LI Jie-xun,etal.Mining comparative opinions from customer reviews for competitive intelligence [J].Decision Support Systems,2011,50(4):743-754.
[43] QIU Guang,HE Xiao-fei,ZHANG Feng,etal.DASA:Dissatisfaction-oriented advertising based on sentiment analysis [J].Expert Systems with Applications,2010,37(9):6182-6191.
(第55卷卷終)