陳慧煒
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
在信息爆炸的今天,如何從海量的電子文檔中快速有效地獲得所需要的信息,成為了信息化時代亟待解決的問題,信息抽取便是在這種需求下應(yīng)運而生的,以期把人們從大量、低效的文本閱讀勞動中解放出來。
信息抽取是指從一段文本中抽取指定的一類信息并將其形成結(jié)構(gòu)化的數(shù)據(jù),填入一個數(shù)據(jù)庫中供用戶查詢使用的過程。信息抽取已經(jīng)成為自然語言處理研究中的一個熱點,近年來在許多應(yīng)用領(lǐng)域得以成功應(yīng)用。
公安領(lǐng)域的文本信息主要有業(yè)務(wù)人員日常工作中記錄下來的已經(jīng)入庫的半結(jié)構(gòu)化案件信息,和一些沒有入庫的文檔中的非結(jié)構(gòu)化信息。面對日益增長的大量案件、涉案人員等信息數(shù)據(jù),目前公安部門面臨的問題是:偵查人員需要花費很多時間在閱讀案件筆錄上,如何將各類案件文本中的信息點分析出來,對涉案人員、案情信息等進行電子化管理,便于日后的查詢與單位之間的信息共享;如何利用過往案件的信息,分析當前案情,挖掘線索,串并案件。信息抽取技術(shù)是解決這些問題的基礎(chǔ)工作。
信息抽取系統(tǒng)的設(shè)計主要有知識工程方法和機器學(xué)習(xí)方法。
早期的信息抽取系統(tǒng)都是基于知識工程方法建立的,依靠人工編寫抽取模式,使系統(tǒng)能處理特定知識領(lǐng)域的信息抽取問題。如CIRCUS系統(tǒng)、LIEP系統(tǒng)、PALKA系統(tǒng)、RAPIER系統(tǒng)等。規(guī)則本身的學(xué)習(xí)和提取成為信息抽取的關(guān)鍵,而信息抽取則退居為次要過程。這種方法要求編寫抽取模式的知識工程師對該知識領(lǐng)域有深入的了解。而由人建立的規(guī)則很難保證具有整體的系統(tǒng)性和邏輯性,并且這些規(guī)則一般具有高度的領(lǐng)域相關(guān)性和較差的可移植性。因此,迫切需要尋找更加有效的方法來自動學(xué)習(xí)信息抽取的規(guī)則,這種形勢使得機器學(xué)習(xí)在信息抽取系統(tǒng)中的應(yīng)用研究顯得尤為重要和迫切。
機器學(xué)習(xí)方法是利用機器學(xué)習(xí)技術(shù)讓信息抽取系統(tǒng)通過訓(xùn)練文本來獲得抽取模式,實現(xiàn)特定領(lǐng)域的信息抽取功能。任何對該知識領(lǐng)域比較熟悉的人都可以根據(jù)事先約定的規(guī)則來標記訓(xùn)練文本。利用這些訓(xùn)練文本訓(xùn)練后,系統(tǒng)能夠處理沒有標記的新的文本。BBN公司的SIFT系統(tǒng),完全采用統(tǒng)計的方法,代表了在這個發(fā)展方向上跨出的重要一步。典型的機器學(xué)習(xí)方法有基于特征向量的機器學(xué)習(xí)方法,如支持向量機(SVM);有基于統(tǒng)計模型的機器學(xué)習(xí)方法,如隱馬爾科夫模型(HMM)、最大熵模型(ME)和條件隨機場模型(CRF);有基于核函數(shù)的機器學(xué)習(xí)方法,以及多種機器學(xué)習(xí)方法的集成等?,F(xiàn)有研究成果表明,當多學(xué)習(xí)模型集成中的個體學(xué)習(xí)模型差異較大時,集成的效果會較好。
知識工程方法的設(shè)計初始階段較容易,但是要實現(xiàn)較完善的規(guī)則庫的過程往往比較耗時耗力。機器學(xué)習(xí)方法抽取規(guī)則的獲取是通過學(xué)習(xí)自動獲得的,但是該方法需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證系統(tǒng)的抽取質(zhì)量。所以,采取何種方法要視任務(wù)和資源而定,若訓(xùn)練語料容易獲得,則傾向于機器學(xué)習(xí)的方法;若語言資源如詞表等容易獲得,則傾向于手工編寫規(guī)則。
命名實體識別的任務(wù)被定義為識別出文本中出現(xiàn)的專有名稱和有意義的數(shù)量短語并加以歸類。命名實體是文本中基本的信息元素,是正確理解文本的基礎(chǔ)。狹義地講,命名實體是指現(xiàn)實世界中的具體的或抽象的實體,如人、組織、公司、地點等,通常用唯一的標志符(專有名稱)表示,如人名、組織名、公司名、地名等。廣義地講,命名實體還可以包含時間、數(shù)量表達式等。至于命名實體的確切含義,只能根據(jù)具體應(yīng)用來確定。命名實體識別是信息抽取系統(tǒng)的一個基本而又重要的任務(wù)。
命名實體識別發(fā)展至今已經(jīng)取得了很多成果。1987年開始由DARPA資助舉辦的MUC-6和MUC-7會議設(shè)立的命名實體專項評測大大推動了英語命名實體識別技術(shù)的發(fā)展,到1998年MUC最后一屆會議時,不少系統(tǒng)都已經(jīng)具備相當程度的大規(guī)模真實文本的處理能力,最好的成績準確率和召回率達到了95%和92%。中文NE識別的難處在于其缺乏形式標志、分詞錯誤會對其造成影響、內(nèi)部常包含有常用字詞以及詞義模糊,需要更大量的研究工作。
命名實體識別任務(wù)要完成兩個事情:一是找到文本中表達命名實體的詞語,二是準確給出該命名實體的分類,其技術(shù)大多依賴于命名實體的類別。不同的類別所采用的識別技術(shù)也不一樣。研究較多的幾種類別是人名、地名、組織機構(gòu)名、時間、數(shù)字。研究表明(張素香,2007),不是一個模型能夠完全解決所有的實體識別任務(wù)的,需要結(jié)合實體類型,采用不同的子模型識別能夠極大地改善實體識別的性能。
中文命名實體的識別不光是信息抽取的基礎(chǔ),其研究同時也是分詞、句法分析、問答系統(tǒng)、機器翻譯等任務(wù)的基礎(chǔ),故對其研究,能從一定程度上對其他任務(wù)有所借鑒意義。
事件信息抽?。ê喎Q事件抽?。┦切畔⒊槿∠到y(tǒng)的另一個工作,是在命名實體識別基礎(chǔ)之上實施的一個過程。其旨在利用計算機從文本中自動地抽取特定類型的事件及其事件要素,是信息抽取研究中最具挑戰(zhàn)性的任務(wù)之一。
就前人研究情況來看,事件抽取主要有兩種方法:模式匹配的方法和機器學(xué)習(xí)的方法。模式匹配的方法是指對于某類事件的識別和抽取是在一些模式的指導(dǎo)下進行的,采用各種模式匹配算法將待抽取的句子和已經(jīng)抽出的模板匹配。例如Surdeanu和Harabagiu針對開放域的事件抽取系統(tǒng)FSA等。這種方法準確率較高,但往往依賴于具體領(lǐng)域,可移植性差。機器學(xué)習(xí)的方法把事件抽取任務(wù)看作分類問題,把主要精力放在分類器的構(gòu)建和特征的發(fā)現(xiàn)、選擇上。主要包括兩個過程,即事件探測和事件元素識別。所謂事件元素,也就是平常所說的事件模板中的槽(Slot),或事件的參與者(Participants)。
觸發(fā)詞為事件語句的錨定和事件類別的確定提供了很大的幫助。關(guān)于如何構(gòu)建觸發(fā)詞集合,傳統(tǒng)方法是將文本中每個詞作為候選觸發(fā)詞,構(gòu)建訓(xùn)練實例進行多元分類,但由于觸發(fā)詞只占候選觸發(fā)詞的一小部分,因此會引入大量的反例(趙妍妍,2008)。于江德(2007)對于“職務(wù)變動”類事件抽取的觸發(fā)詞表采用手工的方式構(gòu)建,并借助于《現(xiàn)代漢語詞典》和《同義詞詞林》,構(gòu)建出的觸發(fā)詞表包含了136個職務(wù)變動類事件的觸發(fā)詞。趙妍妍(2007)使用哈工大信息檢索研究室的《同義詞詞林(擴展版)》自動擴展種子觸發(fā)詞,通過查找過濾構(gòu)建“種子觸發(fā)詞——事件類別”對照表,以便生成候選事件及其候選類別。
隨著科技的進步,公安辦公逐步實現(xiàn)了信息化,案件信息直接填入了相應(yīng)的數(shù)據(jù)庫中,因此該領(lǐng)域的工作大多集中于數(shù)據(jù)挖掘,即從已有數(shù)據(jù)中發(fā)現(xiàn)隱含的相似案件、犯罪趨勢、犯罪特點等信息。但仍存在相當一部分的文檔,或是偵查人員的案件筆錄,或是網(wǎng)上的案件信息,以文本的形式存在,需要信息抽取技術(shù)從中抽取案件相關(guān)實體和事件,進而存入數(shù)據(jù)庫中供后續(xù)的數(shù)據(jù)挖掘分析。
美國克萊蒙研究生院的Chih Hao Ku等人2008年報導(dǎo)正在開發(fā)一個自動的犯罪信息報導(dǎo)與調(diào)查訪談系統(tǒng)。該系統(tǒng)認為以往的格式化筆錄由于種種原因會遺漏一些信息,故利用基于認知心理的訪談技術(shù),喚起證人足夠多的回憶信息,讓其用自然語言記錄案件情況,進而用信息抽取技術(shù)從證人敘述與訪談對話記錄中抽取犯罪相關(guān)實體。在信息抽取模塊,采用了基于知識庫和基于規(guī)則的方法。定義了“姓名、代詞、時間、方式、武器、人物屬性、場景、私人財物、顏色、身體部位、動作、事件、衣物”等實體類型。根據(jù)實體特點,針對性地利用一些如維基百科、網(wǎng)頁博客、UCR官方信息、FrameNet等知識庫資源,建立了一個有索引的詞表,每個子表下設(shè)子類,如私人財物詞條下設(shè)包、首飾、錢、電腦、電話等,如此產(chǎn)生了126個子表,分別應(yīng)用于相應(yīng)的規(guī)則構(gòu)建。IE模塊采用了Gate系統(tǒng),包括:分詞、索引、分句、詞性標注、名詞短語劃分、正字校對、以及JAPE(Java Annotations Pattern Engine)規(guī)則構(gòu)建等子模塊。對于系統(tǒng)所產(chǎn)生的名詞短語采用過濾算法,使提取的短語只與案件相關(guān)。 (Chih Hao Ku etal.,2008(a);Chih Hao Ku etal.,2008(b);Alicia Iriberrietal.,2008)。 另一個工作是美國亞利桑那州大學(xué)進行的一個基于神經(jīng)網(wǎng)絡(luò)的實體抽取系統(tǒng)。利用知識庫、機器學(xué)習(xí)、少量手工規(guī)則的方法,對人名、住址、工具、麻醉藥物、私人財物等實體進行了識別和抽取。 (Michael Chau etal.,2002;Hsin chun Chen etal.,2004)
國內(nèi)在該領(lǐng)域?qū)跀?shù)據(jù)庫的構(gòu)建和數(shù)據(jù)挖掘技術(shù)研究的較多,對自然語言文本進行信息抽取研究的較少。喬春庚(2007)基于公安案件文本,對領(lǐng)域詞匯的獲取、命名實體的識別、實體關(guān)系的抽取等模塊進行了研究。其搭建的分層的公安領(lǐng)域案件信息抽取系統(tǒng),能夠輸出各層次的中間成果。徐亞娟(2008)采用文本挖掘的相關(guān)技術(shù),主要實現(xiàn)了給定案件的相似性判別和文本聚類的功能。其在信息抽取階段的算法主要思想是:根據(jù)分詞結(jié)果得到的詞性標注信息,通過掃描分詞得到的結(jié)果串,去除一些無關(guān)的詞性的詞語,并結(jié)合專門的關(guān)鍵詞庫,完成信息的提取,最后得到結(jié)構(gòu)化的文本信息,存入數(shù)據(jù)庫中。
信息抽取是數(shù)據(jù)挖掘的第一步處理任務(wù),若對案件文本進行了很好的信息抽取,不僅能夠使業(yè)務(wù)人員免于閱讀大量的案件,節(jié)省時間和人力,而且是后期的數(shù)據(jù)挖掘如串并相似案件、挖掘破案線索、歸納犯罪趨勢等方面工作的良好基礎(chǔ)。
現(xiàn)代信息抽取技術(shù)的研究,一方面,在努力地向投入應(yīng)用發(fā)展,擴大抽取的文本類型的范圍、擴大面向領(lǐng)域的范圍,使科學(xué)技術(shù)能夠真正地為人們生產(chǎn)生活提供方便,最大程度地解放勞動力;另一方面,在努力地探索如何加快其基礎(chǔ)研究,使信息抽取技術(shù)實現(xiàn)革命性技術(shù)進步,使機器向高效自動處理任務(wù)邁進,盡量減輕研究者的勞動。這些,都需要學(xué)界人士的不斷努力。