鄒博偉,周國棟,朱巧明
(蘇州大學 自然語言處理實驗室,江蘇 蘇州 215006)
?
否定與不確定信息抽取研究綜述
鄒博偉,周國棟,朱巧明
(蘇州大學 自然語言處理實驗室,江蘇 蘇州 215006)
否定與不確定表達在自然語言中廣泛存在,正確識別此類信息并將其與準確信息分開處理,在信息抽取、情感分析、文本挖掘等自然語言處理任務中具有重要研究價值。自從2008年BioScope語料庫發(fā)布以來,針對否定與不確定信息抽取研究舉辦了多次大規(guī)模評測會議和學術(shù)論壇,為采集語料、明確任務及性能評測等提供了交流平臺,否定與不確定信息抽取逐漸成為自然語言處理領域的研究熱點。該文簡要介紹了否定與不確定信息抽取的研究背景、任務定義、相關(guān)語料等,并通過回顧和分析該領域的研究現(xiàn)狀,展望未來的發(fā)展趨勢。
否定信息;不確定信息;自然語言處理
隨著信息抽取技術(shù)的發(fā)展,越來越多的相關(guān)應用試圖從海量信息中獲取所需要的信息, 在Hobbs[1]提出的信息抽取通用體系中,并沒有對信息的準確性進行甄別,因此,若抽取到的知識來源于表示否定、推測或可能等非準確信息(Lakoff[2]),則很難保證所獲取知識的可靠性。否定與不確定信息抽取研究目前主要集中在面向生物醫(yī)學科技文獻的信息抽取任務中,根據(jù)在BioScope生物醫(yī)學語料庫上的統(tǒng)計,針對實驗結(jié)果或臨床現(xiàn)象的推斷通常涉及否定或不確定表達,其比例分別達到13.45%和17.70%,因此,準確識別和抽取否定與不確定信息具有重要意義。近年來,各類面向否定與不確定信息抽取研究的評測會議和專刊的出現(xiàn),也表明了該研究的重要性: BioNLP’2009事件抽取評測[3]將否定信息和不確定信息抽取作為其三個關(guān)鍵任務之一;CoNLL’2010[4]專門針對不確定信息抽取設置了評測任務;期刊ComputationalLinguistics在2012年第2期出版了針對否定與不確定信息抽取研究的???http://www.mitpressjournals.org/toc/coli/38/2。
Morante等[5]從符號語言學的角度詳細描述了否定信息和不確定信息。否定信息通常關(guān)系到一個命題運算符及其語義作用范圍,它反轉(zhuǎn)了命題的可靠性或真實性;不確定信息描述了事物的或然性,是介于確定和否定之間的表達類型。早期的否定與不確定信息抽取研究一直停留在語言學層面,例如,Horn[6]最早從語言學的角度對否定信息進行了詳細地分類。由于不同應用對信息抽取需求的差別,否定與不確定信息抽取通常面向特定領域的信息抽取任務,例如,在面向科技文獻的信息抽取研究中,Hyland[7]通過對該領域語料的分析,詳細闡述了科技文獻中含有大量不確定信息及將其與可靠信息區(qū)分處理的思想。隨著自然語言處理相關(guān)技術(shù)的不斷發(fā)展,開始有研究嘗試自動識別否定或不確定信息,例如,F(xiàn)riedman等[8]在生物醫(yī)學領域最早使用信息抽取技術(shù)識別包含否定和不確定信息的語言片段,后來,F(xiàn)riedman等[9]開發(fā)了醫(yī)學語言處理(Medical Language Processing,簡寫為MLP)平臺,該系統(tǒng)能夠識別生物醫(yī)學文獻中的否定信息。在否定與不確定信息自動抽取的早期研究中,最著名的系統(tǒng)是由Chapman等[10]開發(fā)的基于正則表達式算法的NegEx系統(tǒng),該系統(tǒng)用于自動識別醫(yī)學診斷記錄中的否定結(jié)論,之后,圍繞該系統(tǒng)的相關(guān)研究一直未間斷,逐漸形成了基于啟發(fā)式規(guī)則的否定與不確定信息抽取方法;另一方面,隨著BioScope語料庫(Vincze 等[11])的公布,以及各種評測會議的開展,大量基于機器學習方法的否定與不確定信息抽取技術(shù)開始出現(xiàn)。
目前,否定與不確定信息抽取研究主要圍繞以下三個要素: 線索詞(Cue)、覆蓋域(Scope)和聚焦點(Focus)。線索詞是指一句話中能夠“標識”出否定或不確定含義的單詞或短語,例1和例2中,以粗體表示的“不會”和“可能”分別作為否定線索詞和不確定線索詞;覆蓋域是指線索詞的語義覆蓋范圍,通常為句子中的某一連續(xù)片段(以方括號表示),如例1中,否定線索詞“不會”否認了命題“在今年夏天之前簽下內(nèi)馬爾”的真實性,而“巴塞羅那主席羅塞爾表示”是事實,不在否定線索詞的覆蓋域內(nèi);聚焦點指線索詞的語義作用點(以波浪線表示),例如,將例1的否定命題“不會在今年夏天之前簽下內(nèi)馬爾”與另一否定命題“不會簽下內(nèi)馬爾”比較后,不難發(fā)現(xiàn),前者中的否定線索詞“不會”針對的是“在今年夏天之前”,至于會不會在其他時間“簽下內(nèi)馬爾”則不知道,據(jù)此判斷,其聚焦點是“在今年夏天之前”。
例1 巴塞羅那主席羅塞爾表示 [不會在今年夏天之前簽下內(nèi)馬爾]。
例2 國際金價持續(xù)下跌的原因 [可能是周五塞浦路斯央行賣出黃金儲備]。
否定與不確定信息抽取技術(shù)已經(jīng)成功應用在很多自然語言處理方向上。例如,在情感分析中,Turney[12]、Councill等[13]和Li等[14]的研究表明: 情感詞對載體的極性不僅與其本身極性相關(guān),還與作用在其上的否定詞相關(guān),因此,處于否定詞覆蓋域中的情感詞需要反轉(zhuǎn)極性;同時,不確定詞的覆蓋域在判斷情感強度上也起到了重要作用,例如,“這部電影 [或許真的有他們說得那么好看]。”,正極性的情感詞“好看”處于不確定詞“或許”的覆蓋域中,可降為弱正極性。除了情感分析,否定與不確定信息抽取研究還涉及了以下自然語言處理應用: Averbuch等[15]采用信息增益的方法構(gòu)建否定上下文信息模版,應用在醫(yī)學信息搜索引擎中;Bachenko等[16]將不確定信息作為識別欺詐描述文本的指示器之一;Baker等[17]利用自動標注的不確定信息提高了機器翻譯系統(tǒng)的性能。
本文簡要介紹了否定與不確定信息抽取研究的背景、任務、評測和語料,重點論述和分析了該領域的相關(guān)研究及其相互關(guān)系,并在篇尾展望了否定與不確定信息抽取研究的未來發(fā)展。本文組織如下,第二節(jié)簡要介紹否定與不確定信息抽取的相關(guān)任務及評測標準;第三節(jié)介紹該領域中較為成熟的語料庫和標注規(guī)則;第四節(jié)著重介紹否定與不確定信息抽取研究及發(fā)展現(xiàn)狀;第五節(jié)概述現(xiàn)有研究存在的問題,以及對該研究未來的發(fā)展趨勢進行展望。
本節(jié)介紹了目前否定和不確定信息抽取研究涉及的三個子任務: 線索詞識別、覆蓋域識別和聚焦點識別,以及任務評測指標。
計算自然語言學會議CoNLL’2010*http://www.inf.u-szeged.hu/rgai/conll2010st/index.html#intro針對不確定信息抽取研究提出了兩個子任務[4]: 線索詞識別和覆蓋域識別。在該評測中,線索詞識別任務僅僅要求判斷句子中是否包含不確定信息,而未將識別線索詞作為目標,目前大多數(shù)研究通常會給出線索詞識別的性能;覆蓋域識別任務要求根據(jù)前一任務中識別的線索詞,判斷該句子內(nèi)部表示不確定含義的片段。Blanco等[18]發(fā)現(xiàn)否定覆蓋域中的內(nèi)容在很多情況下可以再進一步分為事實內(nèi)容和否定內(nèi)容,該區(qū)分對更細粒度的文本語義理解具有重要意義。基于此,Blanco等提出了面向否定信息的聚焦點識別任務。該任務的主要目標是,在線索詞的覆蓋域中,識別其針對或強調(diào)的內(nèi)容。Blanco等還基于PropBank語料庫[19]標注了聚焦點識別語料。
以上提到的三個子任務具有不同側(cè)重點: 線索詞作為一種語義標記*注意: 并非所有否定或不確定詞都可以作為線索詞。例如,在否定信息識別任務中,本文認為雙重否定屬于一種修辭方式,而非真正意義上的否定。,其作用是標識出句子中包含的否定或不確定語義;覆蓋域則劃定了否定或不確定語義延伸的范圍,重點在于指示出線索詞管轄的片段;而聚焦點則是對否定或不確定內(nèi)容更細粒度的表示,是覆蓋域中被強調(diào)的部分?,F(xiàn)有研究通常面向否定或不確定信息,針對其中一個或若干子任務開展研究工作。
目前通常使用兩類指標來衡量否定與不確定信息抽取系統(tǒng)的性能: (1)正確率(Accuracy)。正確率以句子為基本單位,要求系統(tǒng)結(jié)果與正確答案嚴格匹配,該指標反映了系統(tǒng)判斷出正確結(jié)果的能力;(2)準確率(Precision)、召回率(Recall)和F值。該指標通常以進行判別的實例為基本單位,反映了系統(tǒng)能夠正確判斷給定句子中是否包含否定或不確定信息的能力。
2008年BioScope語料庫出現(xiàn)之前,大多數(shù)研究通常采用人工或半自動方法收集否定或不確定信息語料,例如,Medlock等[20]以線索詞為特征,從生物醫(yī)學文獻中半自動獲取包含不確定信息的訓練樣本。常用的否定與不確定信息抽取語料有: (1) BioScope生物醫(yī)學語料庫。該語料庫標注了否定和不確定線索詞及其覆蓋域;(2) 維基百科語料。該語料利用維基百科中缺乏事實證明的描述文本(Weasels)構(gòu)建語料。
3.1 BioScope語料庫
為體現(xiàn)生物醫(yī)學文獻中語言的異構(gòu)性,BioScope語料庫[11]包含了四種不同來源的語料: GENIA語料庫[21]中的文本摘要語料、五篇果蠅功能基因組文獻的全文、四篇英國醫(yī)學委員會(BMC)生物信息學網(wǎng)站的開源文章以及1 954篇放射學臨床報告。其中,GENIA語料庫是一個生物醫(yī)學文獻集合,BioScope語料庫包含了其中的1 999條聯(lián)機醫(yī)學文獻分析和檢索系統(tǒng)的摘要,主題為“人”、“血細胞”和“副本因子”。標注者手工針對BioScope語料庫中14 541個句子標注了否定和不確定線索詞及其覆蓋域。BioScope語料庫根據(jù)語料類型不同分為三個子語料庫,分別為摘要(Abstract)語料庫、全文(Full Paper)語料庫和臨床記錄(Clinical Report)語料庫,詳細統(tǒng)計信息如表1所示。
表1 BioScope語料庫統(tǒng)計信息
CoNLL’2010評測在BioScope語料庫的基礎上構(gòu)建了評測任務的測試數(shù)據(jù)集,該語料集合增加了1篇隨機從2009年10月BMC生物信息學??汐@取的論文全文和五篇GENIA語料庫的論文全文,全文語料總數(shù)為15篇,摘要語料和臨床記錄語料則與BioScope語料庫一致。此外,評測機構(gòu)還提供了未標注的150篇PubMed Central全文,這部分數(shù)據(jù)與標注數(shù)據(jù)一樣進行了預處理工作,以此作為領域內(nèi)的數(shù)據(jù)樣本,供評測者使用。
3.2 維基百科語料
維基百科(Wikipedia)是基于wiki技術(shù)的多語言百科全書協(xié)作計劃,任何人都可以編輯維基百科中的任何文章及條目,但其要求編輯者針對缺乏證據(jù)支持的內(nèi)容添加模糊標簽*http://simple.wikipedia.org/wiki/Wikipedia:WEASEL(Weasel Tag),此類數(shù)據(jù)通常為缺乏證據(jù)支持的觀點或闡述,其中包含了大量無證據(jù)的推斷,因此被認為是不確定信息,維基百科要求分離出此類信息,以便在證據(jù)充足或得到補充時對其重新編輯。Ganter等[22]認為這些片段與Hyland[7]對模糊信息的描述相似,因此,Ganter等通過維基百科收集了這類信息并進行人工標注。但由于維基百科更新速度快,模糊標簽存在時間短且特別稀疏,抽取出的語料規(guī)模較為有限。
CoNLL’2010評測也同時采用了維基百科作為語料來源之一,隨機抽取了438個Weasel段落,人工標注了最常見的不確定線索詞,然后在其他維基百科段落中抽取包含這些不確定線索詞的句子作為訓練數(shù)據(jù)和測試數(shù)據(jù),但該語料沒有標注出線索詞對應的覆蓋域信息。CoNLL’2010評測中的不確定句子識別任務收集了11 111個句子作為訓練集,其中2 484個句子包含不確定信息;測試集使用了9 634個句子,其中2 234個句子含有不確定信息。維基百科語料的相關(guān)數(shù)據(jù)統(tǒng)計見表2。評測會議還提供了100萬條經(jīng)過預處理但未標注的維基百科段落,作為領域內(nèi)的數(shù)據(jù)樣本供評測者使用。
表2 維基百科語料統(tǒng)計信息
有關(guān)否定與不確定信息的研究最初僅局限于語言學,F(xiàn)riedman等[8]首次將否定與不確定信息抽取技術(shù)引入自然語言處理領域。早期的相關(guān)研究大多基于啟發(fā)式規(guī)則的方法識別否定與不確定信息,此類方法實現(xiàn)簡單并且準確率較高,但其可擴展性差;后來,研究者通過構(gòu)建否定與不確定信息語料庫,借助機器學習方法,利用各種自然語言處理模型來抽取否定與不確定信息。
4.1 線索詞識別研究
早期的線索詞識別任務往往以判斷句子中是否包含否定或不確定信息為目標,這樣即便沒有正確識別線索詞也可能導致最終的檢測結(jié)果正確,因此,大多數(shù)研究將正確識別線索詞作為評價否定與不確定信息抽取方法的主要指標。線索詞識別研究的方法包括基于詞表、基于模版、基于統(tǒng)計和基于序列標注等方法。
基于詞表的線索詞識別研究依賴于構(gòu)建線索詞詞表。Kilicoglu等[24]提出了一種基于詞表的半自動方法,為構(gòu)建和精煉這個詞表,Kilicoglu等從WordNet和生物醫(yī)學的專業(yè)詞表中手工提取了不確定概念和事實概念的語義和詞法關(guān)系,添加到詞表中,用來判斷句子中是否包含不確定信息或者事實型信息。
基于模版的線索詞識別研究的關(guān)鍵在于模版的準確獲取與可擴展性。Sanchez等[25]構(gòu)建了基于完全依存分析的啟發(fā)式系統(tǒng),用于識別生物學文本中否定的蛋白質(zhì)相互作用信息,該系統(tǒng)使用線索詞和句法樹特征尋找否定表達的潛在結(jié)構(gòu)。
基于統(tǒng)計的線索詞識別研究的重點在于如何獲取各種有效的句法或語義特征,并將其進行篩選和融合,獲得有效的全局特征。Light等[26]以詞作為特征,嘗試使用支持向量機(Support Vector Machine)分類器判斷醫(yī)學論文摘要中的句子是否包含不確定信息;后來Georgescul[27]利用基于高斯徑向基核函數(shù)(Gaussian Radial basis Kernel Function)的SVM分類器改進了Light的方案,并通過調(diào)整類別權(quán)重克服了訓練數(shù)據(jù)不平衡的問題,在Georgescul的系統(tǒng)中同樣僅使用了詞特征,取得了CoNLL’2010-Task1W(基于維基百科語料的不確定句子識別子任務)評測的最好性能,F(xiàn)值達到60.2%。?zgür等[28]采用線索詞的多種特征進行融合,包括詞干、詞性、位置、依存關(guān)系、前后詞及關(guān)鍵詞共現(xiàn)等特征,通過SVM分類器識別線索詞。?vrelid等[29]將線索詞識別問題看作二元分類問題,判斷每個單詞是否是線索詞,其使用的特征包括詞、詞原型、詞性及句法范疇等信息。
由于線索詞可能由多個連續(xù)的單詞構(gòu)成,因此有些研究將線索詞的識別任務轉(zhuǎn)化為序列標注問題。Tang等[30]采用基于條件隨機場模型(Conditional Random Field Model)的序列標注方法和大規(guī)?;谶吔缒P?Large Margin-based Model)分類器訓練數(shù)據(jù),以詞性、命名實體和組塊等作為特征,取得了CoNLL’2010-Task1B(基于BioScope語料的不確定句識別子任務)的最好性能,F(xiàn)值為86.4%,而在Wikipedia數(shù)據(jù)集上卻僅取得了55%的F值,同一方法在不同領域中表現(xiàn)出了不同的性能,表明基于序列標注的線索詞識別方法依賴于領域內(nèi)的文本特征;Verbeke等[31]提出了基于kLog[32]的核方法來解決不確定線索詞識別任務,其特點在于能夠?qū)⑸舷挛男畔⑥D(zhuǎn)化成圖模型,使用基于圖的核函數(shù)來獲取句子內(nèi)部詞之間的關(guān)系,從而識別線索詞,Verbeke在CoNLL’2010提供的Wikipedia數(shù)據(jù)集進行了實驗,將F值提高到61.5%(該任務的評測最好結(jié)果為60.2%)。
4.2 覆蓋域識別研究
最早的覆蓋域識別系統(tǒng)是由Chapman等[10,33]開發(fā)的基于正則表達式的NegEx系統(tǒng),該系統(tǒng)根據(jù)一個由183個否定詞/短語組成的線索詞列表識別否定信息,并規(guī)定距離線索詞六個窗口以內(nèi)為否定線索詞的覆蓋域;Goldin等[34]擴展了NegEx系統(tǒng)的功能,利用基于統(tǒng)計的樸素貝葉斯和基于符號規(guī)則的決策樹分類器,判斷該詞窗口是否可以作為覆蓋域;Goryachev等[35]在哈佛醫(yī)學院的一份技術(shù)報告中指出,他們比較了四種不同的否定線索詞識別方法的性能,在1 745份出院報告數(shù)據(jù)集上的實驗表明,基于正則表達式方法優(yōu)于基于分類的方法,其中ExNeg系統(tǒng)性能最好。Harkema等[36]針對生物醫(yī)學信息抽取研究開發(fā)了ConText系統(tǒng),該系統(tǒng)是ExNeg系統(tǒng)的升級擴展版,采用了上下文中線索詞、偽線索詞及其覆蓋域等特征,ConText系統(tǒng)不僅識別否定信息,還能夠識別假設或經(jīng)驗等非事實性信息。目前,覆蓋域識別研究大體可劃分為基于啟發(fā)式規(guī)則的方法與基于機器學習的方法兩類。
基于啟發(fā)式規(guī)則的覆蓋域識別研究大多通過尋找和提取線索詞與其覆蓋域中某些元素的關(guān)系,生成模版或規(guī)則,這些關(guān)系通常包括句法關(guān)系、實體關(guān)系或淺層語義關(guān)系等。Huang等[37]首次提出在句法樹結(jié)構(gòu)上,利用啟發(fā)式規(guī)則判定句法樹結(jié)點是否處于某個否定詞的作用范圍之內(nèi)。然而,這種基于句法規(guī)則的方法往往針對某一類線索詞的覆蓋域識別任務比較有效,但可擴展性較差,很難延伸到其他類別的覆蓋域識別任務上。Rokach等[38]提出了一種基于模版的方法識別否定詞的作用范圍,該方法的好處是可以自動學習和提取模版,尤其是當線索詞為短語時,該方法的性能明顯好于現(xiàn)有的基于機器學習的方法。?zgür[28]利用基于句法特征模版的啟發(fā)式規(guī)則判斷不確定線索詞的覆蓋域,在BioScope的文摘語料和全文語料上分別取得了79.89%和61.13%的準確率。?vrelid[29]則將依存句法結(jié)構(gòu)引入不確定詞覆蓋域識別的研究中,定義啟發(fā)式規(guī)則,識別不確定線索詞的覆蓋域。Apostolova[39]從BioScope語料庫中自動抽取出一套“詞-句法”模式集合,然后利用這個模式集合識別否定詞和不確定詞的覆蓋域,這種基于規(guī)則的方法取得了與機器學習算法相當?shù)男阅堋?/p>
自2008年BioScope語料庫發(fā)布后,基于機器學習的覆蓋域識別研究成為熱門。Morante等[40]首次采用機器學習方法對否定詞的覆蓋域進行識別,他們將覆蓋域識別問題看作分類問題,針對每個給定的否定詞,從左至右依次判斷句子中的每一個單詞是否落入該否定詞的覆蓋域之內(nèi),最后根據(jù)標記結(jié)果,進行后處理,以確保每個否定詞的覆蓋域都是連續(xù)的。Morante等[41]將多分類器方法優(yōu)化到單分類器,采用基于存儲算法的分類器,并且在淺層句法特征的基礎上加入了依存句法特征,獲得了CoNLL’2010-Task2(覆蓋域識別子任務)評測的最好性能,F(xiàn)值達到57.3%。Zhu等[42]和Li等[43]發(fā)現(xiàn),在語義角色標注中,謂詞的作用范圍與覆蓋域類似,如果將線索詞看作謂詞,則覆蓋域識別的問題就可以轉(zhuǎn)化為論元標注問題,通過該想法,他們提出了一種基于簡化的淺層語義分析模型的覆蓋域識別方法。Zou等[44]采用基于樹核的方法獲取覆蓋域的句法結(jié)構(gòu)特征,同時還針對不同詞性的線索詞自動建立各自獨立的分類器,在BioScope文章摘要語料庫上,將否定線索詞和不確定線索詞的覆蓋域識別任務的性能(F值)分別提高到76.90%和84.21%。
除了線索詞和覆蓋域識別研究,針對否定和不確定信息其他要素(例如聚焦點、實體等)進行識別的相關(guān)研究較少。本文第二章中提到聚焦點識別任務,該任務識別覆蓋域中線索詞所強調(diào)的內(nèi)容,屬于更細粒度的否定與不確定信息抽取任務,由Blanco等[18]首次提出,該研究通過自動標注動詞性謂詞的語義角色來判斷與動詞相關(guān)的否定線索詞的聚焦點。此外,Elkin等[45]采用否定賦值語法規(guī)則識別電子病例中被否定或具有不確定性的概念,如實體、事件等。
目前,否定與不確定信息抽取研究大都集中在句子內(nèi)部線索詞及其覆蓋域識別任務上,針對此類任務,相關(guān)研究機構(gòu)組織了大量的評測會議和學術(shù)論壇,并發(fā)布了標準語料庫。然而,在否定與不確定信息抽取研究中,仍存在很多問題沒有解決甚至沒有提出。本章將具體闡述否定與不確定信息抽取研究未來的發(fā)展趨勢,主要集中在以下幾個方面:
(1) 語義層面的否定與不確定信息抽取研究
BioScope語料庫的標注規(guī)范和CoNLL’2010評測中均將否定與不確定線索詞對應的覆蓋域定義為其句法作用范圍,這種定義使得覆蓋域識別任務受到句法分析的嚴重制約,Morante等[23]指出,按照該定義,覆蓋域通常會將被否定或不確定線索詞所修飾的主語排斥在外。因此,否定與不確定信息抽取研究需要從語義上劃分出更細粒度的要素。Blanco等[18]首次提出了聚焦點識別任務,重點研究否定線索詞語義上所修飾的內(nèi)容。隨著淺層語義分析技術(shù)的不斷發(fā)展,否定與不確定信息抽取將涉及更多語義層面的研究,例如,否定或不確定線索詞的修飾目標(實體、事件等),否定或不確定信息的發(fā)布者,以及與這些目標相關(guān)聯(lián)的各種語義角色等。
(2) 面向篇章的否定與不確定信息抽取研究
如本章開頭所述,目前,否定與不確定信息抽取研究的對象往往集中在句子內(nèi)部,如果這些信息分布在篇章的不同句子中(如對話、問答等),則無法通過現(xiàn)有的檢測技術(shù)識別此類信息。因此,跨句子的否定與不確定信息抽取將成為領域內(nèi)的研究重點,這就對系統(tǒng)正確識別線索詞、覆蓋域及聚焦點等提出了更高的要求,而僅依賴句法結(jié)構(gòu)的方法無法完全解決這一問題,需要結(jié)合篇章結(jié)構(gòu)分析、指代消解等技術(shù)來實現(xiàn)面向篇章的否定與不確定信息抽取研究。
(3) 隱式線索詞的否定與不確定信息抽取研究
現(xiàn)有研究在抽取否定或不確定信息時,均以是否存在線索詞為標準,然而,在某些特殊的上下文語境中,存在不含明顯線索詞的否定與不確定信息。例如,“你要對這件事負法律責任!”“誰說的?”,這段問答中并沒有出現(xiàn)明顯的否定線索詞,但根據(jù)上下文不難理解,第二個說話者否定了前者的論斷,反問修辭代替了否定線索詞的功能;再例如,“桑托斯俱樂部對允許內(nèi)馬爾轉(zhuǎn)會一事并沒有明確表態(tài)?!薄爸挥蝎@得桑托斯俱樂部的批準,內(nèi)馬爾才能在諾坎普亮相?!保@兩段話表述了兩件事,一是桑托斯俱樂部是否允許內(nèi)馬爾轉(zhuǎn)會是不確定的,二是說沒有這個允許內(nèi)馬爾就不能在新東家亮相,前一描述中“沒有明確表態(tài)”即為不確定信息的線索,表明該事件不確定,而后一描述中沒有任何線索,但根據(jù)上下文的含義可知,內(nèi)馬爾不能在諾坎普亮相這一事件也是不確定的,前后事件之間的條件關(guān)系使得這種不確定性得到傳遞。通過對以上兩個例子的分析表明,隱式線索詞的否定與不確定信息抽取需要借助上下文中更多的隱含信息,以及實體或事件之間的潛在關(guān)聯(lián)進行識別。
(4) 面向漢語的否定與不確定信息抽取研究
面向英語的否定與不確定信息自動抽取研究已經(jīng)取得了初步的成果,然而,面向漢語的否定與不確定抽取研究仍處于摸索階段。目前有兩方面問題亟待解決: 第一個問題是語料庫的構(gòu)建。語料庫建設是開展相關(guān)研究的重要基礎,除了通過人工標注的途徑,本文認為可以利用已有語料(如Chinese PropBank)嘗試自動輔助人工標注構(gòu)建漢語否定與不確定信息抽取語料庫,其優(yōu)點在于既降低了標注成本,又使得在使用該語料的同時,可以利用其他標注信息。否定與不確定信息屬于語義層面的表述,依賴于具體語言特征(如語法、修辭等),因此,開展面向漢語的否定與不確定信息抽取研究的第二個問題在于,需要有針對性地引入適應漢語的相關(guān)自然語言處理技術(shù)。
綜上所述,否定與不確定信息抽取研究主要集中在線索詞識別和覆蓋域界定兩個子任務上,在生物醫(yī)學自然語言處理領域已經(jīng)取得了初步的成果,并應用于相關(guān)領域的信息抽取、情感分析和問答技術(shù)等任務中。隨著BioScope語料庫的發(fā)布和CoNLL’2010評測的開展,否定與不確定信息抽取研究逐漸成為自然語言處理領域的研究熱點。
目前,大多數(shù)否定與不確定信息抽取研究集中在句法層面,嚴重依賴于句法分析的結(jié)果,因此,需要在語義層面定義更細粒度的否定與不確定信息要素;其次,跨句子的否定與不確定信息很難使用現(xiàn)有方法進行抽取,借助篇章結(jié)構(gòu)分析的相關(guān)技術(shù)可以收集到更多的上下文信息,實現(xiàn)基于篇章的否定與不確定信息抽?。淮送?,在某些特定的上下文環(huán)境中,并沒有明顯的線索詞指示出否定或不確定信息,需要依靠事件或?qū)嶓w之間的關(guān)系進行推理,從而識別此類否定或不確定信息;最后,面向漢語的否定與不確定信息自動抽取研究剛剛起步,面臨著語料庫匱乏的問題,同時,如何獲得有效特征也是亟待解決的問題。
總之,否定與不確定信息抽取研究仍未完善,未來的研究將集中在: 語義層面的否定與不確定信息要素抽取研究;面向篇章的否定與不確定信息抽取研究;隱式線索詞的否定與不確定信息抽取研究;以及面向漢語的否定與不確定信息抽取研究等方面。
[1] Hobbs J R. The Generic Information Extraction System[C]//Proceedings of the 5th conference on Message understanding. Stroudsburg, PA, USA: Association for Computational Linguistics, 1993: 87-91.
[2] Lakoff G. Linguistics and Natural Logic[J]. Journal of Synthese, 1972, 22(2): 151-271.
[3] Kim J D, Ohta T, Pyysalo S, et al. Overview of BioNLP’09 Shared Task on Event Extraction[C]//Proceedings of the BioNLP’2009 Workshop Companion Volume for Shared Task. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009: 1-9.
[4] Farkas R, Vincze V, Mora G, et al. The CoNLL’2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text[C]//Proceedings of the 14th Conference on Computational Natural Language Learning. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 1-12.
[5] Morante R and Sporleder C. Modality and Negation: An Introduction to the Special Issue[J]. Computational Linguistics, 2012, 38(2): 223-260.
[6] Horn L R. A Natural History of Negation[M]. Chicago: Univ. of Chicago Press, 1989.
[7] Hyland K. Hedging in Scientific Research Articles[M]. Amsterdam: John Benjamins, 1998.
[8] Friedman C, Alderson P O, Austin J, et al. A General Natural-language Text Processor for Clinical Radiology[J]. Journal of the American Medical Informatics Association, 1994, 1(2):161-174.
[9] Friedman C and Hripcsak G. Natural Language Processing and its Future in Medicine[J]. Journal of Academic Medicine, 1999, 74(8):890-895.
[10] Chapman W W, Bridewell W, Hanbury P, et al. A Simple Algorithm for Identifying Negated Findings and Diseases in Discharge Summaries[J]. Journal of Biomedical Informatics, 2001, 34(5):301-310.
[11] Vincze V, Szarvas G, Farkas R, et al. The BioScope Corpus: Biomedical Texts Annotated for Uncertainty, Negation and their Scopes[J]. Journal of BMC Bioinformatics, 2008, 9(11):S9.
[12] Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2002: 417-424.
[13] Councill I G, McDonald R, Velikovich L. What’s Great and What’s Not: Learning to Classify the Scope of Negation for Improved Sentiment Analysis[C]//Proceedings of the Workshop on Negation and Speculation in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 51-59.
[14] Li SS, Lee YM, Chen Y, et al. Sentiment Classification and Polarity Shifting[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 635-643.
[15] Averbuch M, Karson T, Ben-Ami B, et al. Context-Sensitive Medical Information Retrieval[J]. Journal of Studies in Health Technology and Informatics, 2004, 107(Pt1): 282-286.
[16] Bachenko J, Fitzpatrick E and Schonwetter M. Verification and Implementation of Language-Based Deception Indicators in Civil and Criminal Narratives[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2008: 41-48.
[17] Baker K, Bloodgood M, Dorr B J, et al. A Modality Lexicon and Its Use in Automatic Tagging[C]//Proceedings of the 7th Conference on International Language Resources and Evaluation, 2010: 1402-1407.
[18] Blanco E and Dan Moldovan. Semantic Representation of Negation Using Focus Detection[C]//Proceedings of 49th Annual Meeting of the Association for Computational Linguistics, Stroudsburg, PA, USA: Association for Computational Linguistics, 2011: 19-24.
[19] Palmer M, Gildea D, Kingsbury P. The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics[J], 2005, 31(1):71-106.
[20] Medlock B, Briscoe T. Weakly Supervised Learning for Hedge Classification in Scientific Literature[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2007: 992-999.
[21] Collier N, Park H S, Ogata N. The GENIA Project: Corpus-Based Knowledge Acquisition and Information Extraction from Genome Research Papers[C]//Proceedings of the 9th Conference on European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1999: 271-272.
[22] Ganter V, Strube M. Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia Tags and Shallow Linguistic Features[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009: 173-176.
[23] Morante R, Schrauwen S, Daelemans W. Corpus-based Approaches to Processing the Scope of Negation Cues: an Evaluation of the State of the Art[C]//Proceedings of 9th International Conference on Computational Semantics. Bos J. and Pulman S. (editors), 2011: 350-354.
[24] Kilicoglu H, Bergler S. Recognizing Speculative Language in Biomedical Research Articles: A Linguistically Motivated Perspective[J]. Journal of BMC Bioinformatics, 2008, 9(11):S10.
[25] Sanchez G O, Poesio M. Negation of Protein-Protein Interactions: Analysis and Extraction. Journal of BMC Bioinformatics[J], 2007, 23(13): 424-432.
[26] Light M, Qiu XY, Srinivasan P. The Language of Bioscience: Facts, Peculations, and Statements in Between[C]//Proceedings of the HLT BioLINK’2004. Stroudsburg, PA, USA: Association for Computational Linguistics, 2004: 17-24.
[27] Georgescul M. A Hedgehop over a Max-Margin Framework Using Hedge Cues[A]//Shared Task Proceedings of the 14th Conference on Computational Natural Language Learning. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 26-31.
[28] ?zgür A, Radev D R. Detecting Speculations and their Scopes in Scientific Text[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009: 1398-1407.
[29] ?vrelid L, Velldal E, Oepen S. Syntactic Scope Resolution in Uncertainty Analysis[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 1379-1387.
[30] Tang BZ, Wang XL, Wang X, et al. A Cascade Method for Detecting Hedges and their Scope in Natural Language Text[C]//Proceedings of the 14th Conference on Computational Natural Language Learning. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 13-17.
[31] Verbeke M, Frasconi P, Van Asch V, et al. Kernel-based Logical and Relational Learning with kLog for Hedge Cue Detection[C]//Proceedings of the 22th Meeting of Computational Linguistics in the Netherlands. Tilburg, the Netherlands, 2011: 1-6.
[32] Frasconi P, Costa F, De Raedt L, et al. KLog-A Language for Logical and Relational Learning with Kernels[R]. http://www.dsi.unifi.it/~paolo/ps/klog.pdf. 2011.
[33] Chapman W W, Hanbury P, Cooper G F, et al. 2001. Evaluation of Negation Phrases in Narrative Clinical Reports[C]//Proceedings of the American Medical Informatics Association Symposium. Washington, DC, 2001: 105-109.
[34] Goldin I M, Chapman W W. Learning to Detect Negation with ‘Not’ in Medical Texts[C]//Workshop at the 26th ACM SIGIR Conference. 2003.
[35] Goryachev S, Sordo M, Zeng QT, et al. Implementation and Evaluation of Four Different Methods of Negation Detection[R]. Technical Report, DSG. 2006.
[36] Harkema H, Dowling J N, Thornblade T, et al. ConText: An Algorithm for Determining Negation, Experiencer, and Temporal Status From Clinical Reports[J]. Journal of Biomedical Informatics, 2009,42(5): 839-851.
[37] Huang Y, Lowe HJ. A Novel Hybrid Approach to Automated Negation Detection in Clinical Radiology Reports[J]. Journal of the American Medical Informatics Association, 2007, 14(3):304-311.
[38] Rokach L, Romano R, Maimon O. Negation Recognition in Medical Narrative Reports[J]. Information Retrieval Online, 2008, 11(6): 499-538.
[39] Apostolova E, Tomuro N, Fushman D D. Automatic Extraction of Lexico-Syntactic Patterns for Detection of Negation and Speculation Scopes[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011: 283-287.
[40] Morante R, Liekens A, Daelemans W. Learning the Scope of Negation in Biomedical Texts[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2008: 715-724.
[41] Morante R, Van Asch V, Daelemans W. Memory-Based Resolution of In-Sentence Scopes of Hedge Cues[C]//Proceedings of the 14th Conference on Computational Natural Language Learning. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 40-47.
[42] Zhu QM, Li JH, Wang HL, et al. A Unified Framework for Scope Learning via Simplified Shallow Semantic Parsing[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 714-724.
[43] Li JH, Zhou GD, Wang HL, et al. Learning the Scope of Negation via Shallow Semantic Parsing[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010: 671-679.
[44] Zou BW, Zhou GD, Zhu QM. Tree Kernel-based Negation and Speculation Scope Detection with Structured Syntactic Parse Features[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA: Association for Computational Linguistics, 2013: 968-976.
[45] Elkin PL, Brown SH, Bauer BA, et al. A Controlled Trial of Automated Classification of Negation from Clinical Notes[J]. BMC Medical Informatics and Decision Making, 2005, 5(13):13.
Negation and Speculation Extraction: An Overview
ZOU Bowei, ZHOU Guodong, ZHU Qiaoming
(Natural Language Processing Lab, Soochow University, Suzhou, Jiangsu 215006,China)
Negation and speculation expressions exist extensively in natural language. Identifying and separating them from the reliable information have important value for many natural language processing tasks, such as information extraction, sentiment analysis, and text mining. Since the release of BioScope corpus in 2008, several large-scale evaluation conferences and workshops provided platforms for scholars to collect corpora, define tasks, and perform evaluations. Negation and speculation information extraction has gradually become a hot topic in nature language processing in recent years. This survey mainly introduces the research background, task definition, and corpora for negation and speculation information extraction. In addition, this paper also reviews and analyzes the present researches, and outline its developing trends.
negation; speculation; natural language processing
鄒博偉(1984—),博士研究生,主要研究領域為自然語言處理、信息抽取。E-mail:zoubowei@gmail.com周國棟(1967—),博士,教授,主要研究領域為自然語言處理、信息抽取。E-mail:gdzhou@suda.edu.cn朱巧明(1964—),博士,教授,主要研究領域為中文信息處理、分布式計算。E-mail:qmzhu@suda.edu.cn
1003-0077(2015)04-0016-09
2013-08-19 定稿日期: 2015-06-16
國家自然科學基金(61272260, 61331011, 61273320),江蘇省高校自然科學基金重大項目(11KJA520003)
TP391
A