楊 博,蔡東風,楊 華
(1. 沈陽航空航天大學 知識工程研究中心,遼寧 沈陽 110136;2. 沈陽航空航天大學 計算機學院,遼寧 沈陽 110136)
從自由文本中抽取有用的結(jié)構(gòu)化信息在當前大數(shù)據(jù)時代已獲得廣泛關(guān)注,這種淺層語義表示是文本蘊含、知識庫構(gòu)建、問答等復雜語義任務(wù)的重要基礎(chǔ)。但傳統(tǒng)的有監(jiān)督方法并不能勝任海量信息抽取,主要是受限于訓練數(shù)據(jù)。近年來有兩種無監(jiān)督的文本理解方法關(guān)注于淺層語義,即機器閱讀[1]和閱讀式學習[2]。兩者的差異在于:首先是對文本的表示方式不同,機器閱讀需表示成固定的實體—關(guān)系三元組結(jié)構(gòu)(Arg1, Rel, Arg2),而閱讀式學習需根據(jù)依存句法樹表示成更為靈活的關(guān)系—實體結(jié)構(gòu),可以抽取多于兩個實體的關(guān)系對,而且關(guān)系并不限于動詞短語,而是基于依存的關(guān)系對(中心詞、關(guān)系、修飾詞);其次是文本領(lǐng)域的不同,機器閱讀不限制主題與領(lǐng)域,而閱讀式學習僅關(guān)注限定領(lǐng)域的文本以構(gòu)建特定主題的語義模型。
雖然有時僅僅通過基于動詞的實體關(guān)系不能完整地表達語義信息,但機器閱讀的主要貢獻是對抽取模式的發(fā)展,即能適應大規(guī)模文本的開放式信息抽取(Open Information Extraction, OIE)[3]。與機器閱讀互補的是,以依存分析為基礎(chǔ)的閱讀式學習含有豐富的句法特征,這樣可以保證信息量及準確性,但其代價就是抽取效率的下降。因此,既要適應從海量文本中高效地抽取淺層語義信息,也要盡量抽取細微的完整信息,以利于后續(xù)深層語義任務(wù)的進行,是本文主要探討的內(nèi)容。
開放式信息抽取按關(guān)系參數(shù)復雜程度可分為二元、多元等類別,本文第二部分將按此路線對典型的OIE系統(tǒng)予以闡述;鑒于目前主流的OIE系統(tǒng)尚無法實現(xiàn)隱含關(guān)系抽取,本文第三部分將介紹采用Markov邏輯、本體推理等聯(lián)合推理方式進行深層隱含信息抽取的新方法;第四部分進行總結(jié)與展望。
傳統(tǒng)的信息抽取是在限定文本領(lǐng)域、限定語義單元類型的條件下進行的,這顯然不適用于無法預先定義實體-關(guān)系類型的大規(guī)模文本。尤其是隨著互聯(lián)網(wǎng)的飛速發(fā)展,如何從海量的非結(jié)構(gòu)化Web文本中快速、自動、準確地抽取有用信息就顯得尤為重要。華盛頓大學在開放式信息抽取領(lǐng)域積累了許多頗具代表性的成果,以下按時間順序?qū)IE的幾個具有里程碑意義的系統(tǒng)予以介紹與分析。
2.1.1 KnowItAll和TextRunner
KnowItAll[4]是由傳統(tǒng)信息抽取向開放式信息抽取過度的一個有益嘗試: 為解決語料非均勻性問題,KnowItAll采用詞性標記而不是句法分析,也無需命名實體識別,由識別向抽取轉(zhuǎn)變;在自動抽取方面,采用領(lǐng)域獨立的抽取模板來標注小規(guī)模訓練語料并使用bootstrapping擴展到未知的大規(guī)模語料,能從大量網(wǎng)頁中抽取多種實體關(guān)系。盡管 KnowItAll的訓練過程為自監(jiān)督,但抽取并不完全是自動的,即需要用戶在每次抽取信息之前指出一個感興趣的關(guān)系,當語料規(guī)模龐大、內(nèi)容復雜時,預定義所有感興趣的關(guān)系也確實是個問題,效率并不理想。
OIE的目標是從非限定領(lǐng)域的文本中自動發(fā)現(xiàn)所有可能的關(guān)系。隨著第一個OIE系統(tǒng)——TextRunner[5-6]的問世,真正意義上的大規(guī)模、領(lǐng)域獨立、高效的目標得以實現(xiàn)。TextRunner(O-CRF)利用啟發(fā)式規(guī)則從賓州樹庫訓練樣本,采用二階線性鏈CRF抽取器從開放式文本中自動抽取關(guān)系三元組,其輸入是含詞性標記和NP語塊分析的語句(由OpenNLP工具實現(xiàn)),輸出格式是(ei,rij,ej)(i 2.1.2 WOE TextRunner能自動抽取Web文本中大量的實體關(guān)系,但在準確率和召回率方面還不夠理想。2010年,Wu Fei提出一種源于Wikipedia的OIE方法——WOE[7],通過將Infobox的屬性值與相應語句匹配生成特定關(guān)系訓練樣本,與Kylin[8]相同,再從這些樣本中抽象出關(guān)系獨立(開放)的訓練數(shù)據(jù)經(jīng)自監(jiān)督學習得到抽取器。WOE的抽取器有兩個:WOEpos和WOEparse。WOEpos僅包含詞性、NP語塊、大寫、標點等淺層特征,學習算法與TextRunner相同,通過訓練Mallet機器學習軟件包中的二階CRF模型輸出兩名詞短語間確定的關(guān)系詞,與TextRunner相比效率相仿,準確率和召回率略有提升;而WOEparse包含依存分析等深層句法特征,學習通過識別兩名詞短語間的最短依存路徑進行,并采用通用句法模板判斷該最短依存路徑是否表示兩名詞短語間的某種語義關(guān)系,但最短路徑并不能完全確定語義關(guān)系,比如“Anna was not born in UK”按最短依存路徑的抽取結(jié)果為(Anna, BornIn, UK),這顯然違背了原句語義,所以還需附加修飾語和“auxpass”、“neg”等依存標記,形成擴展路徑。通過對Wikipedia語料的訓練可知,出現(xiàn)頻率較高的5個句法模板是:N-nsubj→V←prep-N、N-nsubjpass→V←prep-N、N-nsubj→V←dobj-N、N-nsubjpass→V←agent-N 、N-nsubj→V←dobj-N←prep-N。從[7]中的實驗結(jié)果可知,采用句法特征的WOEparse能明顯改善實體關(guān)系抽取效果,但代價就是抽取速度的下降,要比TextRunner慢30倍。 2.1.3 ReVerb和R2A2 針對TextRunner抽取出的無信息量和錯誤信息以及WOE中句法特征對抽取速度影響的不足,第2代OIE——ReVerb[9]對此予以改進,其抽取器是邏輯回歸分類器,由淺層句法特征(詞性、NP語塊)訓練得到。ReVerb的特色之處是應用淺層句法約束來消除錯誤信息并減少無信息量的信息抽取,該句法約束針對關(guān)系短語,關(guān)系短語的構(gòu)成有3種情況:①一個簡單的動詞短語;②動詞短語與緊隨其后的介詞或虛詞(如born in);③動詞短語與其后的簡單名詞短語并且以介詞或虛詞結(jié)尾(如has great admiration for)。經(jīng)300句測試語料發(fā)現(xiàn),有85%的二元動詞關(guān)系短語滿足該約束,不滿足約束的情況有:8%為非連續(xù)短語結(jié)構(gòu)(如X turned Y off);4%為關(guān)系短語不在實體之間(如…the Y that X discovered);3%為詞性不匹配(如X to attack Y)。但僅通過句法約束抽取出的關(guān)系短語不一定有價值(可能包含很多實體),還需進行詞性約束。ReVerb以動詞關(guān)系抽取為主,得到滿足約束的關(guān)系后再依據(jù)鄰近原則確定左右實體,其問題也主要在于此,即關(guān)系短語能準確得到,但實體詞經(jīng)常出錯,比如“Women in China can have the status either equal to men or respected by the society”的抽取結(jié)果為(China, can have, the status),但事實上Arg1應為women,Arg2也因被截斷而出錯。其他的常見錯誤是將大于二元的關(guān)系誤認為二元關(guān)系,如“He lent me a book”的抽取結(jié)果為(He, lent, me)。 實體結(jié)構(gòu)按出現(xiàn)頻率可分為簡單名詞短語(如Calciumpreventsosteoporosis)、附加介詞(如Lake Michigan is one ofthefiveGreatLakesofNorthAmerica)、并列結(jié)構(gòu)(如GoogleandAppleare headquartered in Silicon Valley)、獨立從句(如Scientists estimatethat80%ofoilremainsathreat)、關(guān)系從句(如Russia,whichmarcheswithChina, has the largest territory in the world)等情況,其中簡單名詞短語最為普遍,這也是ReVerb之前的OIE系統(tǒng)成功的原因。但對于其他情況,ReVerb常見的實體錯誤就不可避免了,為此R2A2[10]融入了實體學習組件ArgLearner以更好地判別實體的邊界。ArgLearner首先確定Arg1、Arg2,再進一步識別兩者的左右邊界,其中Arg1的右邊界利用Weka機器學習軟件包中的REPTree決策樹學習器識別,Arg1的左邊界和Arg2的右邊界利用Mallet機器學習軟件包中的CRF分類器識別,鑒于Arg2通常在關(guān)系短語之后,所以無需獨立確定其左邊界。通過實驗發(fā)現(xiàn),R2A2對Arg1的改善較明顯,適用于簡單名詞短語、附加介詞、并列結(jié)構(gòu)等情況,對Arg2的改善略遜于Arg1,且R2A2的準確率與召回率明顯高于ReVerb。 2.1.4 OLLIE 以上提及的OIE系統(tǒng)已經(jīng)可以有效地進行大規(guī)模網(wǎng)絡(luò)信息抽取,但仍然有兩個主要缺陷: 一是僅抽取以動詞為核心的關(guān)系,這樣會遺漏以其他句法實體(如名詞、形容詞等)為核心的重要信息;二是忽略上下文全局信息,僅對語句的局部進行分析,使得部分抽取結(jié)果并非事實。為此,文獻[11]提出新一代OIE系統(tǒng)——開放式語言學習信息抽取(Open Language Learning for Information Extraction, OLLIE),彌補了以往OIE的不足。如表1所示,用ReVerb、 WOE對前3句進行抽取是沒有任何結(jié)果的,但采用OLLIE可得到擴展后的準確結(jié)果;用ReVerb、WOE對后兩句抽取的結(jié)果并不完整,采用OLLIE可抽取出融入了上下文的完整信息。 表1 OLLIE信息抽取實例 為抽取擴展的以動詞、名詞、形容詞等為核心的關(guān)系,OLLIE的關(guān)系抽取分3個步驟進行。第一步是構(gòu)建bootstrapping集,將由ReVerb抽取的高置信度的三元組作為初始集合,再采用bootstrapping方法自動構(gòu)建較大規(guī)模的訓練集,為確保信息與初始種子一致,可將依存路徑長度作為約束以保留主干成分。這種將訓練數(shù)據(jù)推廣到未知關(guān)系的方式普遍適用于OIE,若關(guān)系詞與種子匹配,便可學習到開放模板以應用于其他關(guān)系抽取。 第二步是學習開放模板,開放模板是從依存路徑到開放式抽取的一種映射,表2列出了OLLIE頻率較高的模板。其中,模板5的slot指依存路徑中不在種子關(guān)系對中出現(xiàn)的空位節(jié)點,需在詞性和詞法上限制,若其不與關(guān)系對成反義則可跳過,如“Federer hired Annacone as a coach”的種子關(guān)系對為(Annacone; is the coach of; Federer),hired即為空位詞。對候選模板要進行以下4項檢查: ①依存路徑?jīng)]有空位節(jié)點;②關(guān)系節(jié)點在Arg1與Arg2中間;③若模板中有介詞,需與關(guān)系中的介詞匹配;④路徑中沒有nn或amod邊。其中依存分析使用高效的Malt分析器,以適應大規(guī)模信息抽取。若滿足條件,可作為無詞法約束的句法模板(表2的1~3模板);若不滿足條件,對候選模板的關(guān)系和空位詞還需在詞法和語義上約束,如表2的4~5模板,采用相似詞匯列表等方式,可借助WordNet等實現(xiàn)。 第三步是用開放模板從未知語句抽取二元關(guān)系。先將開放模板與語句的依存分析結(jié)果匹配以識別實體與關(guān)系的基節(jié)點,再擴展為與之前抽取相關(guān)的全部信息。如圖1所示是對語句“I learned that the 2012 Sasquatch music festival is scheduled for May 25th until May 28th”的依存分析結(jié)果。將表2中抽取模式1與該句匹配,可知arg1對應“festival”,rel對應“scheduled”,arg2對應“25th”及介詞“for”,但抽取(festival, be scheduled for, 25th)的意義不大,于是進行擴展。將邊為amod(形容詞), nn(名詞組合), det(冠詞), neg(否定詞), prep_of(介詞of), num(數(shù)字),quantmod(數(shù)量短語)的詞組成名詞短語,當核心名詞不恰當時,還需擴展標記為rcmod(關(guān)系從句), infmod(動詞不定式), partmod(分詞),ref(指代詞), prepc_of的邊, 因為這些是表達重要信息的關(guān)系從句。對于關(guān)系短語,需擴展標記為advmod(副詞), mod(修飾詞),aux(助動詞),auxpass(被動詞),cop(系動詞),prt(動詞短語)的邊,當dobj(直接賓語), iobj(間接賓語)不在實體中出現(xiàn)時也要在此步擴展。在識別這些詞后,需按原句次序排列,如圖1的抽取結(jié)果為(the Sasquatch music festival, be scheduled for, May 25th)。 圖1 依存分析樹實例 此外,OLLIE還融入上下文分析的功能以解決部分抽取結(jié)果并非事實的不足,即為關(guān)系對擴展一個額外的域。如表1的第4句增加了表示歸因的AttributedTo域,第5句增加了表示條件為真的ClausalModifier域以使結(jié)果準確有效。附加域通過依存分析實現(xiàn): 如歸因結(jié)構(gòu)在依存分析中標記為ccomp,但不是所有的ccomp邊都為歸因結(jié)構(gòu),還要借助VerbNet進行匹配;又如狀語從句在依存分析中標記為advcl,篩選后再將從句的首個詞與訓練集(如if, when, although, because等)匹配,若符合便增加ClausalModifier域。 OLLIE與以往的OIE相比有兩個重大突破: 一是擴展了關(guān)系抽取范圍,可以識別以名詞、形容詞等成分為核心的關(guān)系;二是融入上下文信息,使結(jié)果更具事實性。OLLIE美中不足的是: 易受依存分析錯誤的影響,開放模板不能保證適應所有情況,二元實體關(guān)系會忽略一些重要信息等。從文獻[11]中的實驗結(jié)果可知,OLLIE與Reverb等相比已經(jīng)表現(xiàn)出無可爭議的優(yōu)越性,對OIE的深入發(fā)展具有重要意義。 現(xiàn)有的OIE方法多數(shù)關(guān)注二元實體的抽取,文獻[12]中基于語義角色標注的OIE分析顯示,在考察的英文語句中有40%的實體關(guān)系為n元的。不恰當?shù)靥幚韓元實體關(guān)系會導致抽取結(jié)果不完整、無信息量甚至錯誤。如對于語句“The first commercial airline flight was from St. Petersburg to Tampa in 1914”,至少可以抽取出3個關(guān)系對:(the first commercial airline flight, was from, St. Petersburg),(the first commercial airline flight, was to, Tampa),(the first commercial airline flight, was in, 1914)。但采用ReVerb等OIE系統(tǒng)是無法得到這些關(guān)系的。盡管ReVerb可以識別各句中的若干從句,但僅能抽取各從句中的一組關(guān)系對。淺層句法信息雖然提高了OIE的效率,卻無法抽取高階n元事件。目前對Wikipedia進行高階事件抽取已有一些研究,但需要限制實體類型,如文獻[13]從Infobox中抽取時間、地點、類別信息等,文獻[14-15]可從英文語句抽取n元事件,但至少要包含一個時間信息。 文獻[16]在Wanderlust[17]的基礎(chǔ)上,提出一種可對任意實體類型進行n元信息抽取的方法——KRAKEN。KRAKEN將Stanford依存分析結(jié)果作為輸入,按以下3個步驟進行: (1) 檢測事件短語:KRAKEN將事件短語視為一系列動詞、修飾語和介詞,如has been known、deserves to own等,通過aux, cop, xcomp, acomp, prt, auxpass等依存標記連接。檢測到的事件短語可包含一個動詞,也可包含不與上述依存標記連接的詞。 (2) 檢測實體主導詞:對事件短語的每個詞,依據(jù)依存路徑查找實體主導詞,如依存路徑nsubj-↓表示一個向下的類型為nsubj的連接,該連接所指向的即為實體主導詞。如圖2所示,一個事件短語是was coined,根據(jù)依存路徑rcmod-↑-appos-↑可找到主語Doublethink。 (3) 檢測全部實體:從實體主導詞遞歸地尋找向下的連接可得到全部實體。經(jīng)過以上3步可形成事件,若事件短語至少含有一個實體,則將其抽取為事件。如圖2中,由依存路徑prep-↓-pobj-↓可找到2個實體(Orwell和the novel 1984);從該句可抽取出2個n元事件,即WasCoined(Doublethink,(by) Orwell,(in) the novel 1984)和Describes(Doublethink, fictional concept)。 圖2 n元OIE實例 文獻[16]將KRAKEN與ReVerb進行比較,結(jié)果表明KRAKEN可較為準確地抽取完整的n元事件,彌補了ReVerb的不足。但KRAKEN在檢測錯誤依存分析時采用了啟發(fā)式信息,使得實驗的500句有155句跳過,而且深層句法特征使得效率下降,不能勝任大規(guī)模Web文本的情況。未來的一個發(fā)展方向是對事件短語及實體的規(guī)范化,如文獻[18-19]中的無監(jiān)督聚類方法可促進相似事件短語或?qū)嶓w的聚類,文獻[20]中的遠距離監(jiān)督方法將事件整合到現(xiàn)有的知識庫中,以此提高召回率和實用性,也可利用文獻[21]中的由依存關(guān)系獲取子句集合,并依據(jù)子句類型靈活組合的方法抽取更為多樣的n元關(guān)系。將二元實體關(guān)系抽取擴展為語義豐富的n元關(guān)系是必然趨勢,也是一個前沿方向。 信息抽取是自然語言處理的一個重要分支,也是知識發(fā)現(xiàn)的前提,一個主要難點在于并非所有的實體關(guān)系都可以明顯地直接抽取,隱含關(guān)系也是普遍存在的,如“牛奶含有鈣”也可說成“鈣可從牛奶中提取”或“喝牛奶可預防骨質(zhì)疏松”等。之前的很多方法都不涉及隱含關(guān)系抽取,如自動內(nèi)容抽取會議ACE2007的語料庫雖同時標注了明顯和隱含關(guān)系,但評測時通常忽略后者,目前主流的OIE系統(tǒng)也無法實現(xiàn)。若對抽取出的信息不加以規(guī)范和歸納,是無法發(fā)掘文本中隱含的深層語義關(guān)系的,此時引入聯(lián)合推理,可以極大地改善此局面,能自動推理得到更為豐富的信息,促進對文本的理解。文獻[22]就極力推崇采用聯(lián)合推理的方法處理自然語言的問題。目前概率聯(lián)合推理主要包括Markov邏輯和由粗略至精細(coarse-to-fine)的本體推理兩種,以下分別予以闡述。 Markov邏輯網(wǎng)(Markov Logic Networks, MLN)[23]是一種將Markov網(wǎng)絡(luò)與一階邏輯相結(jié)合的統(tǒng)計關(guān)系學習框架,為大規(guī)模Markov網(wǎng)提供了一種簡練的邏輯語言,為一階邏輯增加了不確定性處理能力,在語義角色標注[24]、共指消解[25]、文本蘊含[26]、實體鏈接消歧[27]等研究中得到很好的應用。 MLN可看作一種用一階邏輯公式來實例化Markov網(wǎng)絡(luò)的模板語言,是公式Fj及其相應權(quán)重wj的集合,其基本推理任務(wù)是MAP(Maximum a Posteriori)推理,即尋找一個值使得可滿足的子句的權(quán)值之和最大。MLN能夠在對象實體和關(guān)系不斷變化中自動調(diào)整其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),不僅避免了隱馬爾科夫模型的獨立性假設(shè),而且與線性鏈結(jié)構(gòu)的條件隨機場相比可擴展成任意的網(wǎng)絡(luò)結(jié)構(gòu),更為通用。 之前利用MLN處理信息抽取問題,需要限定類別和領(lǐng)域[28],既然開放式信息抽取是今后的發(fā)展趨勢,那么在OIE中融入聯(lián)合推理,使兩者相得益彰,是很好的研究方法。 3.1.1 StatSnowball和EntSum 文獻[29]提出一種無監(jiān)督自學習的知識挖掘模型——統(tǒng)計滾雪球(StatSnowball),即對初始種子進行bootstrapping循環(huán)迭代,直到不再生成新的可信模板或知識為止,MLN是其底層引擎(由alchemy工具包實現(xiàn))。MLN的一個主要任務(wù)是定義能反映普遍規(guī)律的一階邏輯模板公式,在序列標記任務(wù)中可定義句子級別的公式以模擬線性鏈CRF,即InField(ti, REL-S)∧Verb(ti+1)?InField(ti+1, REL-C),含義為若前一個詞是關(guān)系詞的開始(REL-S)且當前詞為動詞則當前詞很可能是關(guān)系詞的延續(xù)(REL-C),結(jié)果表明MLN要好于CRF。文獻[29]中也將StatSnowball用于二元OIE任務(wù),模板分別利用經(jīng)驗和l1范式選取(即MLN中的結(jié)構(gòu)學習),因為使用MLN作為底層統(tǒng)計模型,故可以實現(xiàn)各種級別的聯(lián)合抽取(如在網(wǎng)頁級別還可定義公式:SimilarToken(t1,t2)∧F1(t1)∧F2(t2)∧InField(t1,+f)?InField(t2,+f),含義為對于同類關(guān)系,相似的詞應有相似的標記,其中+號表明該公式對于不同的實例需要分別實例化并賦予不同權(quán)重),故能融合跨關(guān)系的知識以提高抽取效率。 StatSnowball與OIE的不同之處是:OIE需人工選擇特征經(jīng)自學習得到抽取器,而StatSnowball是自動產(chǎn)生和選擇模板以形成抽取器。與傳統(tǒng)Snowball[30]方法相比,Snowball使用嚴格的關(guān)鍵字匹配模板,只能抽取少量的固定種類的關(guān)系,而且手工設(shè)計的模板可移植性差,而StatSnowball不存在這類問題。 在StatSnowball 的基礎(chǔ)上,文獻[31]提出一種實體識別和關(guān)系抽取的聯(lián)合模型——EntSum。以往的信息抽取通常將實體與關(guān)系的識別分開進行,鑒于兩者緊密相關(guān),將實體—關(guān)系抽取聯(lián)合處理,會改善抽取效果。EntSum模型由基于擴展CRF的命名實體識別模塊和基于StatSnowball的bootstrapping關(guān)系抽取模塊組成,兩模塊用迭代方法結(jié)合起來,使得關(guān)系抽取的模板語法特征和知識語義特征能被實體識別利用,可在保證準確率的同時提高召回率,兩項任務(wù)均得到更好的效果。 3.1.2 基于thebeast引擎的OIE 文獻[32]使用MLN另一個常用引擎thebeast實現(xiàn)了二元OIE,其主要思想類似于語義角色標注,即關(guān)系短語rij可作為謂語,而實體是謂語的某種語義角色,所以可先抽取謂語,而且將實體—關(guān)系抽取聯(lián)合進行。在thebeast工具包中,公式分局部與全局兩種,可涉及任意個可觀察基原子(由已知信息可獲得的證據(jù)謂詞)但只包含一個隱基原子(需經(jīng)過推理判別其真值的查詢謂詞)的公式為局部公式。為實現(xiàn)OIE,可定義如表3所示的3個局部公式。 表3 局部公式 與局部公式不同,全局公式可包含多個隱基原子,用來處理涉及多個實體—關(guān)系時的約束關(guān)系,以保持一致性。為實現(xiàn)OIE,可定義如表4所示的9個全局公式。 表4 全局公式 如對于語句“With the rapid rise of mechanization in the late 19th and 20th centuries, farming tasks could be done with a speed and on a scale previously impossible.”由公式⑴可推斷“be done”為謂語,由公式(2)可推斷“be done with”為關(guān)系短語,由公式⑶可推斷“farming tasks”、“a speed”可作為謂語的某種語義角色,由公式(4)~(6)可推斷“farming tasks”、“a speed”分別在“be done with”之前和之后,且可構(gòu)成三元組(farming tasks, be done with, a speed),由公式(7)~(8)也可由三元組反過來驗證實體與關(guān)系短語的確切的前后位置(雙向聯(lián)合推理),由公式(9)~(10),若已知該句的實體及關(guān)系,且該句與其它句相似,則可推斷其它句的實體及關(guān)系,公式(11)~(12)在結(jié)構(gòu)上進行約束,即謂語的每個語義角色僅有一個,可避免冗余。 Thebeast中的MAP推理采用以整數(shù)線性規(guī)劃(Integer Linear Programming, ILP)[33]為基本求解器(base solver)的割平面推理(Cutting Plane Inference, CPI)算法[34],權(quán)重學習采用在線最大邊際(Online Max-Margin)算法[35]進行。從文獻[32]中的實驗結(jié)果可知,采用基于MLN的聯(lián)合推理方法進行開放式信息抽取,對實體、關(guān)系抽取的準確率、召回率、F值等主要評價指標均優(yōu)于TextRunner,從而說明聯(lián)合推理的方法要好于獨立抽取的效果。 但上述方法同樣存在無信息量的問題,從WOE及OLLIE的經(jīng)驗可知,采用句法特征可增加信息量,于是可引入可觀察謂詞dep(h,m,d),表示h處有指向m處的依存弧d。本文定義了如表5所示的部分模板,很容易將其轉(zhuǎn)化為Markov邏輯公式。 表5 基于句法特征的部分抽取規(guī)則 將深層句法特征融入聯(lián)合推理中,可得到更為豐富的信息抽取結(jié)果,如從“The professor of UCLA, Judea Pearl, won the A.M. Turing Award of the year”中不僅可得到(Judea Pearl, won, the A.M. Turing Award),還可抽取出(Judea Pearl, is, a professor of UCLA)、(A.M. Turing, is, an award)等基本信息,這是僅僅通過動詞所不能表達的。同時,為減輕深層句法特征對抽取效率的影響,可采用Malt、DepPattern等高效的句法分析器。此外,開放式信息抽取不應局限于二元實體,可設(shè)計能從語句中抽取多元實體關(guān)系的模板,比如“{The peasant}nsubjcarries{the rabbit}dobj, {holding}xcompit by its ears”、“Benoit talked to Michel in order tosecure{the account}dobj”等句式。應用聯(lián)合推理進行n元完整信息抽取將是未來的發(fā)展趨勢。 信息抽取不應局限于從非結(jié)構(gòu)化文本中高效并準確地挖掘信息,而應為更高層次的應用(如決策、問答等)起到輔助的作用;抽取結(jié)果構(gòu)成的知識庫也不應成為靜態(tài)的存儲信息的容器,而應成為能從文本的隱含事實中推斷新信息的知識挖掘模型。多數(shù)現(xiàn)有的信息抽取系統(tǒng)僅僅抽取文本中敘述的事實,并非真正意義上的知識庫,如OLLIE能從Web文本中抽取大量實體關(guān)系,但并未對其有效組織。有些系統(tǒng)融入了規(guī)則學習,如NELL(the Never-Ending Language Learner)[36]采用半監(jiān)督的bootstrapping方法,給定初始本體類別和種子(如personHasCitizenship: 與眾不同的是,KOG[39]應用MLN聯(lián)合推理方法將Wikipedia的Infobox與WordNet相結(jié)合自動構(gòu)建出豐富的本體結(jié)構(gòu),既避免了Wikipedia的異構(gòu)、冗余、不規(guī)范的缺陷,也彌補了WordNet缺乏屬性結(jié)構(gòu)的不足,形成實體—屬性—值的機器可讀的結(jié)構(gòu),為Wikipedia進行包含SQL查詢、專題瀏覽等功能的深層問答應用做了鋪墊;VELVET[40]僅需輸入種子本體,利用聯(lián)合推理在背景知識庫與目標關(guān)系間自動建立最佳本體映射,通過遠距離監(jiān)督為目標關(guān)系啟發(fā)式地生成訓練樣本,并采用本體平滑方法學習關(guān)系抽取器,能在最弱監(jiān)督下抽取關(guān)系,也為結(jié)構(gòu)化知識庫的構(gòu)建奠定了基礎(chǔ)。文獻[41]利用句法和語義特征將OIE與關(guān)系聚類、消歧等技術(shù)整合,自動構(gòu)建出基于Wikipedia的較為完備的語義網(wǎng)絡(luò),也為大規(guī)模語義信息的本體化提供一種思路。 Markov邏輯作為目前較為理想的一階邏輯概率模型,既能使一階謂詞邏輯、產(chǎn)生式規(guī)則煥發(fā)生機,又能充分利用概率方法處理不確定性問題,使兩者優(yōu)勢互補,但其應用很大程度上受限于推理效率,其表達能力仍為命題邏輯的層次。文獻[42]指出,圖模型中的近似推理仍為NP難問題,即便是非常受限的命題語言也不易于處理。但近期提升概率推理(Lifted Probabilistic Inference)[43]使得推理的簡化成為可能,OLPI[44]就通過coarse-to-fine的本體結(jié)構(gòu)提高了推理和學習效率。文獻[45]將其與Markov邏輯整合,提出了簡易Markov邏輯(Tractable Markov Logic, TML),并證明是目前最為豐富和高效的邏輯語言之一。在TML中,領(lǐng)域知識分解為若干部分,各部分取自事物類的層次化結(jié)構(gòu),依據(jù)此結(jié)構(gòu),各部分進一步分解為子部分,以此類推。 TML知識庫是規(guī)則的集合,有3種形式,如表6所示(x、X分別表示變量和常量)。 表6 TML的語言形式 子類規(guī)則表示C1是C2的子類,而且相同類的子類是獨立的。子部分規(guī)則含意為C1類的對象包含C2類的n個子部分P,默認為n=1。子部分規(guī)則為不帶權(quán)重的嚴格公式,因為局部分解的不確定性可通過子類規(guī)則表達。而且嚴格公式之間不存在矛盾,因為有矛盾的知識庫的分配函數(shù)為零。關(guān)系規(guī)則表示類C對象的子部分P1,P2…之間存在關(guān)系R,R為不存在這樣的關(guān)系。關(guān)系規(guī)則的參數(shù)采用權(quán)重而不是概率,使得TML知識庫更為簡潔,因為權(quán)重僅需表示從父類到子類的對數(shù)概率的變化,這樣就可以省略無變化的關(guān)系。 TML的層次化類圖中的節(jié)點表示類(非葉節(jié)點)或?qū)嵗?葉節(jié)點),若滿足Is(B,A)則有從A到B的邊,且圖中必須有既不是任何類的子類也不是其子部分的頂層類,頂層類中僅有一個對象。如圖3所示,是描述食物鏈的簡略TML知識庫,其含義為頂層對象食物鏈包含捕食性、寄生性、碎食性3個子部分,捕食性食物鏈又可細分為高級消費者(通常為肉食性動物)、次級消費者(通常為植食性動物)、生產(chǎn)者(通常為植物)等子類,在高級消費者這一子類中,河馬、鱷魚這兩個子部分的關(guān)系為捕食。 圖3 TML知識庫舉例 TML的表示能力很強,允許概率繼承層次化結(jié)構(gòu)和高樹寬的關(guān)系模型,如規(guī)模為n的非遞歸概率上下文無關(guān)文法可用TML知識庫在多項式計算復雜度內(nèi)表示,證明詳見文獻[45]。 作為一種邏輯語言,TML與描述邏輯很相似,但減少了很多限制,如允許在某子類的子部分之間存在任意參數(shù)的關(guān)系。TML易于處理是因為層次化類結(jié)構(gòu)與局部分解的嵌套組合降低了MLN分配函數(shù)的復雜度,即每步僅處理一個子集,能進行高效的大規(guī)模一階邏輯推理,適用于語義Web等很多領(lǐng)域。 自然語言中的許多表述在句法和語義上可分解為層次化的類/局部結(jié)構(gòu),文本通常包含對象間存在的各種關(guān)系。自然語言中的概念和關(guān)系包含的豐富的本體結(jié)構(gòu)通過TML能簡潔地表示事件與關(guān)系的語義信息,從而可將從非結(jié)構(gòu)化文本抽取到的信息組織成TML知識庫。文獻[46]就提出了一種利用TML將語句分析、事件抽取、知識庫歸納聯(lián)合處理的設(shè)想。利用TML進行信息抽取及知識庫構(gòu)建是一個很有前景的領(lǐng)域,雖然TML的理論剛提出不久,應用案例尚未成熟,但可以預見TML在本體知識推理中將扮演重要角色。 開放式信息抽取能在無人工標注的非限定領(lǐng)域的海量文本中自動抽取非限定語義單元類型的實體關(guān)系對,是從非結(jié)構(gòu)化文本中挖掘知識的主要途徑,對深入理解文本起到關(guān)鍵作用。本文按時間順序,對KnowItAll、TextRunner、WOE、ReVerb、R2A2等典型二元OIE系統(tǒng)進行總結(jié)與分析,其主要局限是僅抽取以動詞為核心的關(guān)系,而且未兼顧上下文全局信息,這樣會使信息量及置信度不足。新一代OLLIE系統(tǒng)針對這兩點進行了深度改進,使二元實體關(guān)系抽取提升到較高水平。但實際的實體關(guān)系并非僅此而已,高階n元實體關(guān)系占有較大比例。KRAKEN系統(tǒng)巧妙地引入句法特征,通過依存路徑可較為準確地檢測到n元實體關(guān)系,為OIE的發(fā)展又開創(chuàng)了先河。 但上述開放式實體關(guān)系抽取方法無法深入字里行間以達到推斷文本深層含義的目的。為實現(xiàn)機器閱讀的深入理解文本的宏偉目標,采用聯(lián)合推理的方法可有效推斷出文本傳達出的更為豐富的信息。本文將概率聯(lián)合推理分為Markov邏輯和coarse-to-fine本體推理兩類,并分析了StatSnowball、EntSum、thebeast等采用Markov邏輯進行開放式信息抽取的方法?;贛arkov邏輯的OIE在某種程度上可提升性能,但限于推理效率的瓶頸,與實現(xiàn)高效的大規(guī)模網(wǎng)絡(luò)信息抽取仍有一定距離,而且固定格式的平面結(jié)構(gòu)關(guān)系對也不利于知識庫構(gòu)建、決策、問答等深層語義任務(wù)的進行。在提升概率推理的基礎(chǔ)上,以TML為代表的本體推理的提出突破了Markov邏輯的困境,可以清晰地構(gòu)建出層次化的本體知識庫,有效地表示復雜的知識體系,以支持推理及自動知識發(fā)現(xiàn)。 信息抽取是進行決策、問答等深層語義任務(wù)的主要渠道,然而目前大多數(shù)方法是將各階段目標分解為獨立的子任務(wù)再集成,這樣做的弊端是: ①前一階段無法識別的在后續(xù)階段不再出現(xiàn),而后續(xù)階段要依賴之前的結(jié)果進行,信息因此而不完整;②前一階段識別錯誤的對后續(xù)階段又是誤導,而此時后續(xù)階段又無法通過其它信息糾正錯誤,錯誤率因此而累積;③后續(xù)階段任務(wù)會為之前的任務(wù)提供很多有用的特征,而如果順序式處理各階段任務(wù)將屏蔽此輔助與優(yōu)化的功能。之所以采用聯(lián)合推理進行信息抽取,一方面可以推斷表面文字所不能顯示的深層隱含信息,另一方面就是綜合各階段子任務(wù),相互融合、相互補充、相互促進,像杠桿一樣在各方面之間尋求平衡,以趨向整體上的理想效果。如果說開放式信息抽取是機器閱讀的強有力的采集工具,Markov邏輯又為其錦上添花的話,那么基于本體結(jié)構(gòu)的聯(lián)合推理方法將是在自動深入理解文本的征程上邁出的深遠的一步。 [1] Oren Etzioni, Michele Banko, Michael J. Cafarella. Machine reading[C]//Proceedings of AAAI Conference on Artificial Intelligence, 2006. [2] K Barker, B Agashe, S Chaw, et al. Learning by reading: A prototype system, performance baseline and lessons learned[C]//Proceedings of 22nd National Conference of Artificial Intelligence, 2007. [3] 趙軍,劉康,周光有,蔡黎.開放式文本信息抽取[J].中文信息學報,2011,25(6):98-110. [4] O Etzioni, M Cafarella, D Downey, et al. Unsupervised named-entity extraction from the web: An experimental study[J]. Artificial Intelligence, 2005, 165(1):91-134. [5] Michele Banko, Michael J Cafarella, Stephen Soderland, et al. Open information extraction from the web[C]//Proceedings of IJCAI, 2007. [6] Michele Banko, Oren Etzioni. The tradeoffs between open and traditional relation extraction[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics, 2008. [7] F Wu, D S Weld. Open information extraction using Wikipedia[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics, 2010: 118-127. [8] Fei Wu, Daniel S Weld. Automatically semantifying Wikipedia[C]//Proceedings of the 16th Conference on Information and Knowledge Management, 2007. [9] Anthony Fader, Stephen Soderland, Oren Etzioni. Identifying relations for open information extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2011. [10] Oren Etzioni, Anthony Fader, Janara Christensen, et al. Open information extraction: the second generation[C]//Proceedings of International Joint Conference on Artificial Intelligence, 2011. [11] Mausam, Michael Schmitz, Robert Bart, Stephen Soderland, Oren Etzioni. Open Language Learning for Information Extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CONLL), 2012. [12] Janara Christensen, Mausam, Stephen Soderland, Oren Etzioni. An analysis of open information extraction based on semantic role labeling[C]//Proceedings of K-CAP, 2011: 113-120. [13] Johannes Hoffart, Fabian M. Suchanek, Klaus Berberich, et al. YAGO2: A Spatrally and Iemporally Enhanced Knowledge Base Powwikipedia[J].Artificial Intelligence, 2013,194:28-16. [14] Xiao Ling, Daniel S.Weld. Temporal information extraction[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence, 2010. [15] Gerhard Weikum, Nikos Ntarmos, Marc Spaniol, et al. Longitudinal analytics on web archive data: It’s about time![C]//Proceedings of CIDR, 2011: 199-202. [16] Alan Akbik, Alexander Loser. KRAKEN: N-ary Facts in Open Information Extraction[C]//Proceedings of AKBC-WEKEX at NAACL, 2012: 52-56. [17] Alan Akbik, Jurgen Bross. Wanderlust: Extracting semantic relations from natural language text using dependency grammar patterns[C]//Proceedings of the 1st Workshop on Semantic Search at 18th WWWW Conference, 2009. [18] D T Bollegala, Y Matsuo, M Ishizuka. Relational duality: Unsupervised extraction of semantic relations between entities on the web[C]//Proceedings of the 19th international conference on world wide web, 2010: 151-160. [19] Bonan Min, Shuming Shi, Ralph Grishman, Chin-Yew Lin. Ensemble Semantics for Large-scale Unsupervised Relation Extraction[C]//Proceedings of Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012: 1027-1037. [20] M Mintz, S Bills, R Snow, D Jurafsky. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 2009: 1003-1011. [21] Del Corro L, Gemulla R. ClansIE: Clanse-based Open Information Extraction[C]//Proceedings of the 22nd International conference on world wide web, 2013: 355-366. [22] Andrew McCallum. Joint Inference for Natural Language Processing[C]//Proceedings of the 13th Conference on Computational Natural Language Learning, 2009. [23] P Domingos, D Lowd. Markov Logic: An Interface Layer for Artificial Intelligence[M]. Morgan & Claypool, San Rafael, CA, 2009. [24] Wanxiang Che, Ting Liu. Jointly Modeling WSD and SRL with Markov Logic[C]//Proceedings of the 23rd International Conference on Computational Linguistics, 2010: 161-169. [25] Yang Song, Jing Jiang, Wayne Xin Zhao, et al. Joint Learning for Coreference Resolution with Markov Logic[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2012. [26] Xipeng Qiu, Ling Cao, Zhao Liu, Xuan jing Huang. Recongnizing Inference in Iexts with Markov Logic Networks[J]. ACM Language Information Processing, 2012, 11(4), Article 15. [27] Hongjie Dai, Richard Tzong-Han Tsai, Wen-Lian Hsu. Entity Disambiguation Using a Markov Logic Network[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 846-855. [28] Hoifung Poon, Pedro Domingos. Joint Inference in Information Extraction[C]//Proceedings of the 22nd National Conference on Artificial Intelligence, 2007: 913-918. [29] Jun Zhu, Zaiqing Nie, Xiaojiang Liu, Bo Zhang, Jirong Wen. StatSnowball: a statistical approach to extracting entity relationships[C]//Proceedings of the 18th international conference on World Wide Web, 2009: 101-110. [30] E Agichtein, L Gravano. Snowball: Extracting relations from large plain-text collections[C]//Proceedings of the 5th ACM International Conference on Di-gital Libraries, 2000. [31] Xiaojiang Liu, Nenghai Yu. People Summarization by Combining Named Entity Recognition and Relation Extraction[J]. Journal of Convergence Information Technology, 2010, 5(10): 233-241. [32] Yongbin Liu, Bingru Yang. Joint Inference: a Statistical Approach for Open Information Extraction[J]. Appl. Math. Inf. 2012, 6(2): 627-633. [33] James Clarke. Global Inference for Sentence Compression: An Integer Linear Programming Approach[D]. PHD thesis, University of Edinburgh, 2008. [34] Sebastian Riedel. Efficient Prediction of Relational Structure and its Application to Natural Language Processing[D]. PHD thesis, University of Edinburgh, 2009. [35] Tuyen N. Huynh, Raymond J. Mooney. Online Max-Margin Weight Learning for Markov Logic Networks [C]//Proceedings of the 11th SIAM International Conference on Data Mining, 2011: 642-651. [36] A Carlson, J. Betteridge, B. Kisiel, et al. Toward an architecture for never-ending language learning[C]//Proceedings of the 24th National Conference on Artificial Intelligence, 2010: 1306-1313. [37] Thahir Mohamed, Estevam R. Hruschka Jr., Tom M.Mitchell. Discovering Relations between Noun Categories[C]//Proceedings of EMNLP, 2011. [38] S Schoenmackers. Inference over the web[D]. PHD thesis, University of Washington, 2011. [39] Fei Wu, Daniel S. Weld. Automatically refining the wikipedia infobox ontology[C]//Proceedings of the 17th International Conference on World Wide Web, 2008. [40] Congle Zhang, Raphael Hoffmann, Daniel S. Weld. Ontological Smoothing for Relation Extraction with Minimal Supervision[C]//Proceedings of AAAI, 2012. [41] A Moro, R Navigli. Integrating Syntactic and Semantic Analysis into the Open Information Extraution Paradigm[C]//Proceedings of IJCAI, 2013. [42] D Roth. On the hardness of approximate reasoning[J]. Artificial Intelligence, 1996, 82:273-302. [43] V Gogate, P Domingos. Probabilistic theorem proving[C]//Proceedings of the 27th Conference on Uncertainty in Artificial Intelligence, 2011:256-265. [44] C Kiddon, P Domingos. Coarse-to-fine inference and learning for first-order probabilistic models[C]//Proceedings of the 25th AAAI Conference on Artificial Intelligence, 2011:1049-1056. [45] P Domingos, Austin Webb. A Tractable First-Order Probabilistic Logic[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence, 2012. [46] Chloe Kiddon, Pedro Domingos. Knowledge Extraction and Joint Inference Using Tractable Markov Logic [C]//Proceedings of AKBC-WEKEX at NAACL, 2012: 79-83.2.2 n元開放式實體關(guān)系抽取
3 基于聯(lián)合推理的開放式信息抽取
3.1 基于Markov邏輯網(wǎng)的OIE
3.2 基于本體推理的信息抽取
4 總結(jié)與展望