李笑妃
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
在審視了手機(jī)短信和3G通信技術(shù)的發(fā)展現(xiàn)狀后,中科院張松懋研究員于2008年提出將3D動(dòng)畫(huà)自動(dòng)生成技術(shù)應(yīng)用在手機(jī)短信上的想法,即將發(fā)送的中文短信經(jīng)系統(tǒng)處理分析后生成的3D動(dòng)畫(huà)發(fā)送給接收方,命名為全過(guò)程計(jì)算機(jī)輔助手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)[1](簡(jiǎn)稱為手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)). 處理過(guò)程大致分為四個(gè)階段,短信信息抽取,情節(jié)定性規(guī)劃,場(chǎng)景定量規(guī)劃,網(wǎng)絡(luò)渲染. 手機(jī)3D動(dòng)畫(huà)自動(dòng)生成技術(shù)將動(dòng)畫(huà)自動(dòng)生成技術(shù)應(yīng)用于中文手機(jī)短信領(lǐng)域,不僅立足于一個(gè)嶄新的應(yīng)用角度,并嘗試研究和解決過(guò)程中出現(xiàn)的問(wèn)題,這在人工智能領(lǐng)域具有一定的研究意義和價(jià)值.
信息抽取處于手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)首要和關(guān)鍵的位置,而實(shí)體關(guān)系抽取作為信息抽取領(lǐng)域的重要研究課題[2],其主要目的是抽取句子中已標(biāo)記實(shí)體對(duì)之間的語(yǔ)義關(guān)系,即在實(shí)體識(shí)別的基礎(chǔ)上確定無(wú)結(jié)構(gòu)文本中實(shí)體對(duì)之間的關(guān)系類(lèi)別,并形成結(jié)構(gòu)化的數(shù)據(jù)便于存儲(chǔ)和取用,例如,輸入一個(gè)帶有標(biāo)記實(shí)體的句子“< e1 > 曹德旺< /e2 > 任< e2 > 福耀玻璃集團(tuán)< /e2 > 董事長(zhǎng),是一名優(yōu)秀的中國(guó)民營(yíng)企業(yè)家. ”,實(shí)體關(guān)系抽取系統(tǒng)能自動(dòng)識(shí)別實(shí)體“曹德旺”和“福耀玻璃集團(tuán)”的關(guān)系是雇傭關(guān)系.
關(guān)系抽取技術(shù)對(duì)自然語(yǔ)言處理的許多應(yīng)用如本體構(gòu)建、自動(dòng)文摘、自動(dòng)問(wèn)答、知識(shí)庫(kù)構(gòu)建等具有重要的意義. 傳統(tǒng)的關(guān)系抽取依賴于定義好的關(guān)系類(lèi)型體系,如定義的雇傭關(guān)系、整體部分關(guān)系、位置關(guān)系等.目前的一系列研究也主要是圍繞內(nèi)容自動(dòng)抽取會(huì)議(ACE)所設(shè)計(jì)的任務(wù)展開(kāi),所抽取的關(guān)系類(lèi)型一般也同ACE定義的一致.
1998 年,美國(guó)國(guó)防高級(jí)研究計(jì)劃委員會(huì)(Defense Advanced Research Project Agency,DARPA) 資助的最后一屆消息理解會(huì)議(Message Understanding Conference,MUC) 首次引入了實(shí)體關(guān)系抽取任務(wù).1999 年,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(National Institute of Standards and Technology,NIST) 組織了自動(dòng)內(nèi)容抽取(Automatic Content Extraction,ACE)評(píng)測(cè),其中的一項(xiàng)重要評(píng)測(cè)任務(wù)就是實(shí)體關(guān)系識(shí)別[3]. 與MUC相比,ACE的實(shí)體關(guān)系語(yǔ)料的語(yǔ)種數(shù)量和數(shù)據(jù)規(guī)模都有了大幅度的增加. ACE 2008 的關(guān)系抽取任務(wù)共定義了Agent-Artifact、General-Affiliation、Metonymy、Organization-Affiliation、Part-Whole、Person-Social、Physical 7 個(gè)大類(lèi)的實(shí)體關(guān)系,細(xì)分為User-Owner-Inventor-Manufacturer、Citizen-Resident-Religion-Ethnicity、Organization-Location等18 個(gè)子類(lèi)的實(shí)體關(guān)系[4]. SemEval (Semantic Evaluation) 是繼MUC、ACE后信息抽取領(lǐng)域又一重要評(píng)測(cè)會(huì)議,該會(huì)議吸引了大量的院校和研究機(jī)構(gòu)參與測(cè)評(píng). SemEval-2007 的評(píng)測(cè)任務(wù)4 定義了7 種普通名詞或名詞短語(yǔ)之間的實(shí)體關(guān)系,但其提供的英文語(yǔ)料庫(kù)規(guī)模較小. 隨后,SemEval-2010 的評(píng)測(cè)任務(wù)8 對(duì)其進(jìn)行了豐富和完善,將實(shí)體關(guān)系類(lèi)型擴(kuò)充到9 種,分別是: Component-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和 Entity-Origin. 考慮到句子實(shí)例中實(shí)體對(duì)的先后順序問(wèn)題,引入“Other”類(lèi)對(duì)不屬于前述關(guān)系類(lèi)型的實(shí)例進(jìn)行描述,共生成19種實(shí)體關(guān)系. SemEval-2010 評(píng)測(cè)引發(fā)了普通名詞或名詞短語(yǔ)間實(shí)體關(guān)系抽取研究的新高潮[5].
本文在句法語(yǔ)義分析的基礎(chǔ)上對(duì)中文短信文本進(jìn)行關(guān)系抽取,針對(duì)于手機(jī)3D動(dòng)畫(huà)系統(tǒng)對(duì)動(dòng)畫(huà)的表現(xiàn)情況將關(guān)系分為4種,包括: 顏色關(guān)系、形態(tài)關(guān)系、描述關(guān)系、位置關(guān)系,如短信“我想吃紅蘋(píng)果”,經(jīng)過(guò)本文處理得到“蘋(píng)果”和“紅”屬于顏色關(guān)系; 短信“雨下的真大啊”經(jīng)處理后得到“雨”和“大”屬于形態(tài)關(guān)系,形態(tài)關(guān)系即表示物體的大小、長(zhǎng)短等的描述; 短信“我的心情很好; ”經(jīng)本文處理得到“心情”和“好”這樣的描述關(guān)系. 由于前三種關(guān)系可以同屬于描述類(lèi)型,所以前三種關(guān)系用同一語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,得到同一規(guī)則集,只是在用規(guī)則集進(jìn)行關(guān)系抽取的過(guò)程中細(xì)分為了三種關(guān)系. 短信“我書(shū)包在床上”,經(jīng)本文處理后得到“書(shū)包”和“床上”屬于位置關(guān)系. 位置關(guān)系單獨(dú)標(biāo)注,單獨(dú)訓(xùn)練.
在傳統(tǒng)的語(yǔ)義關(guān)系抽取中,實(shí)體與實(shí)體之間的關(guān)系是預(yù)先定義好的. 在關(guān)系抽取中先后出現(xiàn)了基于規(guī)則的方法,其中有基于ontology實(shí)現(xiàn)信息抽取中的關(guān)系抽取[6],取得比較不錯(cuò)的效果. 隨著機(jī)器學(xué)習(xí)的發(fā)展,人們將關(guān)系抽取看成一個(gè)分類(lèi)問(wèn)題,首先標(biāo)出句子中的實(shí)體,然后通過(guò)一個(gè)分類(lèi)器判斷實(shí)體對(duì)之間的關(guān)系.目前,有監(jiān)督學(xué)習(xí)方法是最基本的實(shí)體關(guān)系抽取方法,其主要思想是在已標(biāo)注的訓(xùn)練數(shù)據(jù)的基礎(chǔ)上訓(xùn)練模型,然后對(duì)測(cè)試數(shù)據(jù)的關(guān)系類(lèi)型進(jìn)行識(shí)別. 有監(jiān)督學(xué)習(xí)方法包括基于特征的方法、基于核函數(shù)的方法[7]和基于規(guī)則的方法.
基于特征向量的方法是一種簡(jiǎn)單、有效的實(shí)體關(guān)系抽取方法,其主要思想是從關(guān)系句子實(shí)例的上下文中提取有用信息(包括詞法信息、語(yǔ)法信息)作為特征,構(gòu)造特征向量,通過(guò)計(jì)算特征向量的相似度來(lái)訓(xùn)練實(shí)體關(guān)系抽取模型. 該方法的關(guān)鍵在于尋找類(lèi)間有區(qū)分度的特征,形成多維加權(quán)特征向量,然后采用合適的分類(lèi)器進(jìn)行分類(lèi). 文獻(xiàn)[8]在詞法特征、實(shí)體原始特征的基礎(chǔ)上,融入依存句法關(guān)系、核心謂詞、語(yǔ)義角色標(biāo)注等特征,實(shí)驗(yàn)結(jié)果表明該方法能有效提高實(shí)體關(guān)系抽取的性能.
基于核函數(shù)的實(shí)體關(guān)系抽取方法不需要構(gòu)造特征向量,而是把結(jié)構(gòu)樹(shù)作為處理對(duì)象,通過(guò)計(jì)算它們之間的相似度來(lái)進(jìn)行實(shí)體關(guān)系抽取. 在基于核函數(shù)的中文實(shí)體關(guān)系抽取研究方面,劉克彬[9]利用卷積核函數(shù)中的字符串序列核進(jìn)行實(shí)體關(guān)系抽取,并借用《知網(wǎng)》中的詞匯語(yǔ)義相似度計(jì)算方法計(jì)算中文特征詞串的相似度,實(shí)驗(yàn)結(jié)果表明其F值達(dá)到了84%,這也說(shuō)明語(yǔ)義信息能提高中文語(yǔ)義關(guān)系抽取系統(tǒng)的性能.
基于規(guī)則的方法需要對(duì)待處理語(yǔ)料通過(guò)人工或機(jī)器學(xué)習(xí)的方法總結(jié)歸納出相應(yīng)的規(guī)則或模板[10],然后采用規(guī)則或模板匹配的方法進(jìn)行實(shí)體關(guān)系抽取. 近年來(lái),實(shí)體關(guān)系抽取研究者構(gòu)建了多個(gè)基于規(guī)則的實(shí)體關(guān)系抽取系統(tǒng)[11,12].
機(jī)器學(xué)習(xí)中規(guī)則歸納即“規(guī)則學(xué)習(xí)”是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一組能用于對(duì)未見(jiàn)實(shí)例進(jìn)行判別的規(guī)則. 與神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)這樣的“黑箱模型”相比,規(guī)則學(xué)習(xí)具有更好的可解釋性,能使用戶更直觀地對(duì)判別過(guò)程有所了解. 另外,數(shù)理邏輯具有極強(qiáng)的表達(dá)能力,絕大多數(shù)人類(lèi)知識(shí)都能通過(guò)數(shù)理邏輯進(jìn)行簡(jiǎn)潔的刻畫(huà)和表達(dá). 如: “爸爸的爸爸是爺爺”這樣的知識(shí)不易用函數(shù)式描述,而用一階邏輯可以方便的寫(xiě)成“爺爺(X,Y)← 爸爸 (X,Z)∧爸爸 (Z,Y)”. FOIL (First-Order Inductive Learner)[12]是著名的規(guī)則學(xué)習(xí)算法,首次由Quinlan在1993年提出,該算法分為正例和負(fù)例提取規(guī)則,FOIL算法采用信息增益來(lái)提取最好的一個(gè)屬性值生成規(guī)則,而且一次只生成一條規(guī)則,再生成規(guī)則之后,將被規(guī)則覆蓋的訓(xùn)練集刪除,繼續(xù)從剩余的訓(xùn)練集中尋找最好的屬性值. 因?yàn)樗前衙}規(guī)則學(xué)習(xí)過(guò)程通過(guò)變量替換等操作直接轉(zhuǎn)化為一階規(guī)則學(xué)習(xí)的,因此比一般的歸納邏輯程序設(shè)計(jì)技術(shù)更高效. 文獻(xiàn)[13]結(jié)合了Apriori算法和FOIL算法實(shí)現(xiàn)文本分類(lèi),準(zhǔn)確率達(dá)到了99%.
句法分析[14]將句子由一個(gè)線性序列轉(zhuǎn)化為一棵結(jié)構(gòu)化的依存分析樹(shù),通過(guò)依存弧上的關(guān)系標(biāo)記反映句子中詞匯之間的句法關(guān)系. 與短語(yǔ)結(jié)構(gòu)相比,句法結(jié)構(gòu)具有形式簡(jiǎn)潔、易于標(biāo)注、便于應(yīng)用等優(yōu)點(diǎn),逐漸受到學(xué)術(shù)界和工業(yè)界的重視. 語(yǔ)義分析默認(rèn)要建立在句法分析的基礎(chǔ)上,中文的句法是從西方引進(jìn)來(lái)的,而中文嚴(yán)重缺乏形態(tài)的變化,詞類(lèi)與句法成分沒(méi)有嚴(yán)格的對(duì)應(yīng)關(guān)系,導(dǎo)致中文句法分析的精度始終上不去. 目前LTP-Cloud已經(jīng)聯(lián)合北京城市學(xué)院標(biāo)注了1萬(wàn)句中文語(yǔ)義依存分析樹(shù)[15],且已經(jīng)有初步的實(shí)驗(yàn)結(jié)果. 如句子“男孩跑步,女孩跳舞”得到的句法分析與語(yǔ)義分析分別如圖1和圖2所示,所以為了提高關(guān)系抽取的準(zhǔn)確率,本文采用句法分析與語(yǔ)義分析相結(jié)合的方式進(jìn)行訓(xùn)練與測(cè)試.
圖1 句法分析示例
圖2 語(yǔ)義分析示例
《同義詞詞林》是一部漢語(yǔ)分類(lèi)詞典,其中每一條詞語(yǔ)都用一個(gè)編碼來(lái)表示其語(yǔ)義類(lèi)別. 本文所用的《同義詞詞林》為《同義詞詞林(擴(kuò)展版)》,是哈爾濱工業(yè)大學(xué)信息檢索研究室在《同義詞詞林》的基礎(chǔ)上研制的. 最終的詞表包含77 429條詞語(yǔ),其中一詞多義的詞語(yǔ)為8860個(gè),共分為12個(gè)大類(lèi),94個(gè)中類(lèi),1428個(gè)小類(lèi),小類(lèi)下再以同義原則劃分詞群,最細(xì)的級(jí)別為原子詞群,這樣詞典中的詞語(yǔ)之間就體現(xiàn)了良好的層次關(guān)系. 不同級(jí)別的分類(lèi)結(jié)果可以為自然語(yǔ)言處理提供不同顆粒度的語(yǔ)義類(lèi)別信息,《同義詞詞林》語(yǔ)義信息能顯著提高中文關(guān)系抽取的性能,文獻(xiàn)[16]就是根據(jù)《同義詞詞林》完成了實(shí)體關(guān)系抽取,最高F值達(dá)到81.8%.
LTP-Cloud是由哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心研發(fā)的云端自然語(yǔ)言處理服務(wù)平臺(tái). 后端依托于歷時(shí)10年形成的語(yǔ)言技術(shù)平臺(tái),語(yǔ)言云為用戶提供了包括分詞、詞性標(biāo)注、依存句法分析、命名實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注、語(yǔ)義依存分析在內(nèi)的豐富高效的自然語(yǔ)言處理服務(wù)[17]. 本文在哈爾濱工業(yè)大學(xué)LTP-Cloud平臺(tái)的基礎(chǔ)上,對(duì)語(yǔ)料進(jìn)行初步處理,獲取含有句法語(yǔ)義分析的XML文檔,對(duì)XML文檔進(jìn)行特征路徑的提取,然后經(jīng)過(guò)一階歸納學(xué)習(xí)器進(jìn)行訓(xùn)練,得到匹配規(guī)則. 最后通過(guò)規(guī)則進(jìn)行預(yù)測(cè),得到關(guān)系抽取結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果評(píng)估. 具體過(guò)程如圖3所示. 下面章節(jié)將對(duì)主要過(guò)程進(jìn)行詳細(xì)介紹.
圖3 基于句法語(yǔ)義分析的關(guān)系抽取過(guò)程
短信中的實(shí)體本身以及實(shí)體之間有多方面的屬性,每一個(gè)屬性刻畫(huà)的信息可以將關(guān)系組合的具體化,所以關(guān)系抽取問(wèn)題可以轉(zhuǎn)化成路徑特征組合問(wèn)題,從短信文本中抽取出關(guān)于實(shí)體的路徑特征,然后使用一階歸納學(xué)習(xí)器的思想來(lái)組合這些路徑特征.
比如短信“黃色的蘋(píng)果”,經(jīng)過(guò)LTP-Cloud處理后得到如圖4所示結(jié)果.
圖4 LTP-Cloud處理結(jié)果示意
帶標(biāo)記的路徑提取結(jié)果為:
Path1-Path3表示短信各個(gè)分詞實(shí)體之間的關(guān)系以及實(shí)體本身的性質(zhì),path1 表示“黃色”詞性是“n”,“蘋(píng)果”詞性是“n”; “黃色”與“蘋(píng)果”之間的句法關(guān)系是“ATT”,語(yǔ)義關(guān)系是“Feat”; “id1”和“id2”分別表示實(shí)體在XML結(jié)果中的位置,是一種唯一性標(biāo)識(shí). 如果把實(shí)體“黃色”、“蘋(píng)果”等變量替換成對(duì)應(yīng)的詞性,則得到帶標(biāo)記的路徑path1-path3泛化后的結(jié)果F1-F3即為路徑特征.
同樣對(duì)于短信“我看見(jiàn)有紅色的蘋(píng)果”得到帶標(biāo)記的路徑為:
泛化后的路徑特征為:
可以看到第一條短信的F1與第二條短信的F4是一樣的,并且F1與F4所對(duì)應(yīng)的帶標(biāo)記的路徑path1與path4就是表示顏色關(guān)系的實(shí)體對(duì)的組合. 所以(n,n,n,n,ATT,Feat) 可以作為一條匹配規(guī)則.
類(lèi)似于一階歸納學(xué)習(xí)器FOIL,使用從一般到特殊的策略來(lái)組合路徑特征,與FOIL不同的是,在學(xué)習(xí)規(guī)則的時(shí)候,不以單個(gè)實(shí)體作為規(guī)則中的基本單位,而是以路徑特征為基本單位. 規(guī)則獲取算法流程如下.
算法. 規(guī)則獲取(Acquire Rules)
Input: Training Set D=P∪N,P: positive dataset,N: negative dataset
Output: Mapping rules set R for D
1. Rule R←Φ
2. While |P|>min_message do
3. Selected path feature set Sf←Φ
4. P′←P N′←N
7. for message a∈P′ do
5. while |N′|>0 and r.length<Maxrule.length do
6. Candidate path feature Sp←Φ SN←Φ
8. and fato Sp
9. end for
10. for message b∈N′ do
11. and fbto Sp
14. Computer FoilGain of f
12. end for
13. for path feature f∈Spdo
15. end for
16. find feature foptfrom Spwith maximum FoilGain
17. add foptto Sf
19. end while
18. remove from P′、N′ all example not satisfied fopt
20. get rule r from Sfand add r to R
21. remove all the message that satisfied r from P
22. end while
其中第3-20行描述了如何通過(guò)組合路徑特征來(lái)學(xué)習(xí)匹配規(guī)則. 首先目標(biāo)特征路徑集合Sf初始化為空集,正負(fù)訓(xùn)練數(shù)據(jù)集P和N分別初始化為P′和N′; 再通過(guò)最大信息增益值獲取當(dāng)前最優(yōu)路徑特征,并把選擇的特征fopt添加到特征集合Sf中,循環(huán)該過(guò)程直到N′為空,即選擇的路徑特征組合沒(méi)有匹配到N′中的短信; 在內(nèi)層循環(huán)中第5-19行,當(dāng)N′為空時(shí)結(jié)束,得到一條規(guī)則,然后刪除所有的P′中的匹配短信,當(dāng)N′不為空時(shí)加特征進(jìn)行路徑特征組合,直到N′為空為止.
FoilGain即為信息增益,可以度量當(dāng)前路徑特征集合Sf添加路徑特征后所增加的信息量. 假設(shè)Sf是當(dāng)前選擇的路徑特征集合,|P|和|N|分別表示數(shù)據(jù)集中滿足Sf的正例與反例的個(gè)數(shù),如果添加一個(gè)新的路徑特征f,路徑特征集合變成Sf′,使得Sf′的正例個(gè)數(shù)和反例個(gè)數(shù)變成|P′|和|N′|則添加路徑特征f后獲得的信息增益是:
信息增益值最大的被選擇加入到路徑特征集合Sf中,路徑特征組成的集合則構(gòu)成了一條關(guān)系抽取規(guī)則.
根據(jù)手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)的表現(xiàn)能力將關(guān)系抽取分為顏色關(guān)系、位置關(guān)系、形態(tài)關(guān)系和描述關(guān)系四種,由于本文將關(guān)系抽取過(guò)程看作是分類(lèi)的過(guò)程,所以這里的評(píng)價(jià)方式也采用常規(guī)的準(zhǔn)確率P、召回率R和F值. 準(zhǔn)確率使針對(duì)預(yù)測(cè)結(jié)果而言的,它表示的是預(yù)測(cè)為正的樣本中有多少是真正的正樣本. 公式表達(dá)如下:
召回率是針對(duì)原來(lái)的樣本而言的,它表示的是樣本中的正例有多少被預(yù)測(cè)正確. 公式表達(dá)如下:
由于R和P指標(biāo)有時(shí)候會(huì)出現(xiàn)矛盾的情況,這樣就需要綜合考慮他們,最常見(jiàn)的方法就是F值,通過(guò)計(jì)算F值來(lái)評(píng)價(jià)結(jié)果,常見(jiàn)的F計(jì)算方法如下:
本文用同樣的設(shè)計(jì)方案對(duì)有無(wú)借助語(yǔ)義分析結(jié)果兩種情況做對(duì)比實(shí)驗(yàn),如下文所示.
本文的關(guān)系抽取包括顏色關(guān)系、形態(tài)關(guān)系、描述關(guān)系、位置關(guān)系四部分,考慮到符合前三者關(guān)系的短信中路徑特征相同,所以將顏色關(guān)系、形態(tài)關(guān)系和描述關(guān)系結(jié)合在一起進(jìn)行規(guī)則學(xué)習(xí),而位置關(guān)系則單獨(dú)處理.
使用Java語(yǔ)言實(shí)現(xiàn)了本文中的規(guī)則獲取算法考,慮到手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)處理的文本短小精悍,包羅萬(wàn)象,所以語(yǔ)料庫(kù)主要來(lái)自三個(gè)方面:
(1) 手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)歷來(lái)的測(cè)試短信,經(jīng)處理去重隨機(jī)抽取1000條文本.
(2) 北京郵電大學(xué)處理后的10萬(wàn)條短信中提取8000條.
(3) 1998年1月份《人民日?qǐng)?bào)》隨機(jī)提取4000條句子.
其中表示顏色關(guān)系、位置關(guān)系和描述關(guān)系的短文本有8546條,表示位置關(guān)系的短文本有1697條. 使用LTP-Cloud對(duì)短文本進(jìn)行預(yù)處理,從中提取出路徑特征,用規(guī)則學(xué)習(xí)算法進(jìn)行學(xué)習(xí). 考慮到算法復(fù)雜度以及文本的特點(diǎn),需要對(duì)路徑特征組合的最大長(zhǎng)度做出限制,多次試驗(yàn)最終把最大長(zhǎng)度設(shè)置為8,即規(guī)則包含的路徑特征個(gè)數(shù)最大為8.
同樣使用Java語(yǔ)言設(shè)計(jì)實(shí)現(xiàn)測(cè)試系統(tǒng),該測(cè)試系統(tǒng)即為關(guān)系抽取系統(tǒng),該系統(tǒng)通過(guò)匹配規(guī)則集可以抽出短信中包含的關(guān)系以及關(guān)系組合. 系統(tǒng)主要分兩個(gè)部分,第一部分是顏色關(guān)系、形態(tài)關(guān)系、描述關(guān)系的抽取,本文把這三種關(guān)系統(tǒng)稱為描述型關(guān)系,第二部分是位置關(guān)系的抽取. 測(cè)試預(yù)料主要來(lái)自兩方面,一方面是手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)中除去訓(xùn)練集的部分短信300條,另一方面是北京郵電大學(xué)10萬(wàn)條短信中抽取的550條,總共850條短文本.
描述型關(guān)系抽取過(guò)程如圖5所示,在顏色關(guān)系與形態(tài)關(guān)系的抽取過(guò)程中,需結(jié)合《同義詞詞林(擴(kuò)展版)》獲取表示顏色和形態(tài)的類(lèi)別,同時(shí)得到該類(lèi)別下的所有詞群. 如果帶標(biāo)記的路徑中所包含的實(shí)體能夠在詞群中找到所對(duì)應(yīng)的原子,則表示短信中含有顏色關(guān)系或者位置關(guān)系,然后結(jié)合帶標(biāo)記的路徑推導(dǎo)出相應(yīng)的關(guān)系組合; 否則可判定為描述關(guān)系,同樣結(jié)合帶標(biāo)記的路徑抽取出描述關(guān)系的組合. 與描述型關(guān)系抽取過(guò)程類(lèi)似,位置關(guān)系的抽取首先是進(jìn)行規(guī)則匹配,得到帶標(biāo)記的路徑,然后再根據(jù)帶標(biāo)記的路徑分析結(jié)果,找到關(guān)系組合.
圖5 描述性關(guān)系抽取過(guò)程
本文根據(jù)不同的路徑特征進(jìn)行對(duì)比實(shí)驗(yàn),分析借助語(yǔ)義分析后的關(guān)系抽取效果. 通過(guò)訓(xùn)練實(shí)驗(yàn)得到借助語(yǔ)義分析的描述型關(guān)系的規(guī)則集條數(shù)為126條,未借助語(yǔ)義分析的規(guī)則集條數(shù)為103條,位置關(guān)系的規(guī)則學(xué)習(xí)也得到兩個(gè)數(shù)據(jù)24條與32條,表1為得到的描述型關(guān)系與位置關(guān)系規(guī)則集示例.
表1 規(guī)則集示例
短信“看見(jiàn)桌子上有紅色蘋(píng)果和大西瓜,心情好呀”,通過(guò)帶語(yǔ)義分析的規(guī)則匹配,得到如圖6所示的IE輸出結(jié)果結(jié)果. 其中的Relation標(biāo)簽下的文本是本文關(guān)系抽取結(jié)果的結(jié)構(gòu)化表示形式. 短信包含有四種關(guān)系,其中顏色關(guān)系有兩個(gè)組合一個(gè)是“蘋(píng)果“與”紅”,表示形態(tài)關(guān)系的標(biāo)簽為Form,關(guān)系組合為“西瓜”與“大”; “心情”與“好”構(gòu)成描述關(guān)系的組合; 最后一條Location表示的是位置關(guān)系,即“蘋(píng)果; 西瓜”與“桌子上”構(gòu)成位置關(guān)系組合,表示前者的位置是“桌子上”.通過(guò)這些關(guān)系輸出可以為手機(jī)3D動(dòng)畫(huà)系統(tǒng)提供可供動(dòng)畫(huà)表現(xiàn)的信息,比如可以刻畫(huà)水果的顏色與大小,還能對(duì)物體出現(xiàn)在動(dòng)畫(huà)中的位置做出規(guī)劃. 圖7(a)與圖7(b)即為手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)生成在關(guān)系處理前和處理后的動(dòng)畫(huà)截圖,由圖7(b)可以看出蘋(píng)果是紅色的,并且在桌子; 西瓜也在桌子上. 表現(xiàn)了位置關(guān)系和顏色關(guān)系,更能表現(xiàn)短信所要表達(dá)的內(nèi)容. 并對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估得到表2的評(píng)估結(jié)果. 另外,文獻(xiàn)[18]所提出的中文實(shí)體關(guān)系抽取方法是中文實(shí)體關(guān)系抽取領(lǐng)域較為經(jīng)典的方法之一,本文將關(guān)系分成兩類(lèi)描述性關(guān)系與位置關(guān)系,同時(shí)變成了二分類(lèi)問(wèn)題. 將本文的基于語(yǔ)義分析的實(shí)驗(yàn)結(jié)果與文獻(xiàn)[18]的研究結(jié)果進(jìn)行了比較得到圖8所示對(duì)比圖.
表2 實(shí)驗(yàn)評(píng)估結(jié)果(單位: %)
圖6 短信關(guān)系抽取結(jié)果示例
圖7 手機(jī)3D動(dòng)畫(huà)生成系統(tǒng)最終動(dòng)畫(huà)截圖
分析上述結(jié)果可以看出,本文所述方法在借助語(yǔ)義分析情況下顏色關(guān)系和形態(tài)關(guān)系抽取方面準(zhǔn)確率比較高,原因是在關(guān)系抽取過(guò)程中結(jié)合了《同義詞詞林(擴(kuò)展板)》,從而囊括了顏色與形態(tài)的幾乎所有情況,并且表示顏色和形態(tài)的實(shí)體詞詞性也比較單一,主要是名詞或者形容詞,所以準(zhǔn)確率比較高. 而位置關(guān)系抽取效果相對(duì)較差,召回率低,只有65%,造成這種情況的原因一方面是位置關(guān)系訓(xùn)練語(yǔ)料庫(kù)規(guī)模比較小; 另一方面是表示短文本的路徑特征的選取以及路徑特征間的順序不太合適; 再一方面就是在對(duì)語(yǔ)料庫(kù)的結(jié)果標(biāo)注存在很大的人為因素. 考慮到目前手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)的表現(xiàn)能力,關(guān)系抽取主要要求準(zhǔn)確率高.在使用經(jīng)典關(guān)系抽取算法得到的結(jié)果中,可以看出在手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)中,本文的方法取得了比較不錯(cuò)的結(jié)果,可以應(yīng)用到目前的手機(jī)3D動(dòng)畫(huà)系統(tǒng)中.
圖8 實(shí)驗(yàn)結(jié)果對(duì)比圖
本文研究的主要內(nèi)容是首次在手機(jī)3D動(dòng)畫(huà)信息抽取系統(tǒng)中添加關(guān)系抽取. 提出了一種基于規(guī)則學(xué)習(xí)的短文本關(guān)系抽取方法. 首先結(jié)合手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng),定義了顏色關(guān)系、形態(tài)關(guān)系、描述關(guān)系和位置關(guān)系四種類(lèi)型,然后在句法、語(yǔ)義分析的基礎(chǔ)上,通過(guò)一階規(guī)則學(xué)習(xí)算法獲取關(guān)系抽取的規(guī)則集,測(cè)試集通過(guò)匹配規(guī)則集得到關(guān)系類(lèi)型并抽取出對(duì)應(yīng)的關(guān)系組合,最后以結(jié)構(gòu)化的形式將關(guān)系輸出到信息抽取結(jié)果中,為手機(jī)3D動(dòng)畫(huà)系統(tǒng)提供更多可供動(dòng)畫(huà)表現(xiàn)的信息.
本文的研究是在句法分析、語(yǔ)義分析的基礎(chǔ)上進(jìn)行的,研究對(duì)象是中文的短文本,而目前中文的語(yǔ)義分析效果還不是很理想,這就降低了關(guān)系抽取的準(zhǔn)確率.另外,人為標(biāo)注語(yǔ)料庫(kù)存在很大的局限性和主觀性,限制了語(yǔ)料庫(kù)的規(guī)模,質(zhì)量也不高,進(jìn)而影響規(guī)則的學(xué)習(xí).針對(duì)以上不足,在后續(xù)關(guān)系抽取的研究過(guò)程中,需要充分利用自然語(yǔ)言處理的最新研究成果,實(shí)現(xiàn)自動(dòng)化或半自動(dòng)化標(biāo)注語(yǔ)料庫(kù),提高關(guān)系抽取的準(zhǔn)確率.
1吳中彪. 全過(guò)程計(jì)算機(jī)輔助手機(jī)3D動(dòng)畫(huà)自動(dòng)生成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[碩士學(xué)位論文]. 北京: 北京工業(yè)大學(xué),2011.11-38.
2陳宇,鄭德權(quán),趙鐵軍. 基于Deep Belief Nets的中文名實(shí)體關(guān)系抽取. 軟件學(xué)報(bào),2012,23(10): 2572-2585.
3http://www.ldc.Upupenn.edu/Projects/ACE/.
4Chan YS,Roth D. Exploiting background knowledge for relation extraction. Proceedings of the 23rd International Conference on Computational Linguistics. Beijing,China.2010. 152-160.
5Hendrickx I,Kim SN,Kozareva Z,et al. SemEval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals. Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions.Boulder,CO,USA. 2009. 94-99.
6Chen GC,Zhao JY,Cohen T,et al. Using ontology fingerprints to disambiguate gene name entities in the biomedical literature. Database,2015,(2015): bav034.
7王敏. 基于多代理策略的中文實(shí)體關(guān)系抽取[碩士學(xué)位論文]. 大連: 大連理工大學(xué),2011. 1-55.
8郭喜躍,何婷婷,胡小華,等. 基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取. 中文信息學(xué)報(bào),2014,28(6): 183-189.
9劉克彬,李芳,劉磊,等. 基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn). 計(jì)算機(jī)研究與發(fā)展,2007,44(8): 1406-1411.
10Du XZ,Doermann D,Abd-Almageed W. Signature matching using supervised topic models. Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm,Sweden. 2014. 327-332.
11McDonald DM,Chen H,Su H,et al. Extracting gene pathway relations using a hybrid grammar: The Arizona relation parser. Bioinformatics,2004,20(18): 3370-3378.[doi: 10.1093/bioinformatics/bth409]
12Quinlan JR,Cameron-Jones RM. FOIL: A midterm report.European Conference on Machine Learning: ECML-93.Vienna,Austria. 1993. 1-20.
13汪雪君. 基于規(guī)則的分類(lèi)方法研究[碩士學(xué)位論文]. 漳州:閩南師范大學(xué),2013: 1-47.
14劉挺,車(chē)萬(wàn)翔,李正華. 語(yǔ)言技術(shù)平臺(tái). 中文信息學(xué)報(bào),2011,25(6): 53-62.
15邵艷秋,邱立坤,梁春霞,等. 中文語(yǔ)義依存關(guān)系資源建設(shè)及分析技術(shù)研究. 第十一屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議. 洛陽(yáng),中國(guó). 2011.
16劉丹丹,彭成,錢(qián)龍華,等. 《同義詞詞林》在中文實(shí)體關(guān)系抽取中的作用. 中文信息學(xué)報(bào),2014,28(2): 91-99.
17http://www.ltpc loud.com/intro/.
18徐芬,王挺,陳火旺. 基于SVM方法的中文實(shí)體關(guān)系抽取.第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集. 大連,中國(guó).2007. 497-502.