蔡?hào)|風(fēng),趙奇猛,饒 齊,王裴巖
(沈陽(yáng)航空航天大學(xué) 知識(shí)工程研究中心,遼寧 沈陽(yáng) 110136)
基于馬爾科夫邏輯網(wǎng)的中文專利最大名詞短語(yǔ)識(shí)別
蔡?hào)|風(fēng),趙奇猛,饒 齊,王裴巖
(沈陽(yáng)航空航天大學(xué) 知識(shí)工程研究中心,遼寧 沈陽(yáng) 110136)
缺少標(biāo)注語(yǔ)料和難以識(shí)別動(dòng)詞和名詞類是阻礙中文專利最大名詞短語(yǔ)識(shí)別的主要問(wèn)題。針對(duì)上述問(wèn)題,該文提出了一種基于馬爾科夫邏輯網(wǎng)的中文最大名詞短語(yǔ)識(shí)別方法。該方法避免對(duì)開(kāi)放類的名詞短語(yǔ)的識(shí)別,而將主要精力放在了相對(duì)封閉的分隔符的識(shí)別上,利用句子自身特征、領(lǐng)域遷移特征以及雙語(yǔ)對(duì)齊特征來(lái)識(shí)別最大名詞短語(yǔ)的邊界。結(jié)果說(shuō)明,雙語(yǔ)信息較好地促進(jìn)了動(dòng)詞、介詞、連詞等MNP邊界的識(shí)別。MNP識(shí)別的F值可達(dá)83.27%。
最大名詞短語(yǔ);馬爾科夫邏輯網(wǎng);中文專利
文本的實(shí)體和概念通??捎删渲械拿~短語(yǔ)來(lái)描述,識(shí)別出句中的名詞短語(yǔ),也就基本抓住了文本所包含的主要意思[1]。最大名詞短語(yǔ)(Maximal-length Noun Phrase, MNP),即句子中不被其他任何名詞短語(yǔ)所嵌套的名詞短語(yǔ)。
早期MNP識(shí)別相關(guān)工作主要圍繞以英文為主的西方語(yǔ)言中進(jìn)行,且具有實(shí)用性。從早期基于規(guī)則的方法[2-3],到后期基于統(tǒng)計(jì)模型的方法,其中很多是在馬庫(kù)斯等[4]基礎(chǔ)上展開(kāi)的。
相對(duì)于英文的MNP識(shí)別,中文由于存在著大量套疊現(xiàn)象[5],進(jìn)一步加大了對(duì)MNP識(shí)別的難度。李文捷等[6]較早開(kāi)展了中文MNP識(shí)別的工作,使用詞性標(biāo)記對(duì)和短語(yǔ)邊界共現(xiàn)概率識(shí)別句中的MNP,其開(kāi)放測(cè)試的準(zhǔn)確率達(dá)到了71.3%。代翠等[7]提出一種利用邊界特征和內(nèi)部結(jié)構(gòu)特征,基于統(tǒng)計(jì)和規(guī)則的方法,系統(tǒng)開(kāi)放測(cè)試結(jié)果F值達(dá)到了90.2%。鑒萍等[8]提出了一種同時(shí)利用“分歧點(diǎn)”的概率和確定性的雙向標(biāo)注技術(shù)的識(shí)別方法,在封閉測(cè)試中,F(xiàn)值為86.9%。錢(qián)小飛等[9]提出融合多模型識(shí)別結(jié)果,以及使用針對(duì)性的規(guī)則識(shí)別歧義邊界的集成方法,在清華大學(xué)TCT樹(shù)庫(kù)上的MNP識(shí)別的F值達(dá)到89.46%。Zhou等[10]在CTB5.1樹(shù)庫(kù)語(yǔ)料上,使用句法分析結(jié)果的重排序策略對(duì)MNP進(jìn)行識(shí)別取得較好的結(jié)果。
相對(duì)于通用領(lǐng)域的中文MNP識(shí)別的眾多研究,針對(duì)中文專利文獻(xiàn)MNP識(shí)別的研究甚少,其主要原因是缺少標(biāo)注的領(lǐng)域語(yǔ)料以及其中的動(dòng)詞和名詞類識(shí)別困難。針對(duì)這一問(wèn)題,本文從MNP邊界分析著手,提出一種在雙語(yǔ)摘要基礎(chǔ)上,結(jié)合通用領(lǐng)域語(yǔ)料的遷移特征,應(yīng)用馬爾科夫邏輯網(wǎng)自動(dòng)識(shí)別MNP的方法。
本文的后續(xù)組織結(jié)構(gòu)如下: 第二部分為本文提出的中文專利MNP的自動(dòng)識(shí)別方法;第三部分為實(shí)驗(yàn)結(jié)果及分析;最后是結(jié)論及將來(lái)工作介紹。
專利文獻(xiàn)句子用詞嚴(yán)謹(jǐn)、形式規(guī)范和結(jié)構(gòu)性強(qiáng),一定程度上來(lái)說(shuō)適合使用規(guī)則進(jìn)行結(jié)構(gòu)成分的識(shí)別。但中文專利句子長(zhǎng)度過(guò)長(zhǎng)、大量未登錄術(shù)語(yǔ)和動(dòng)詞的頻繁使用的特點(diǎn)又增加了對(duì)句子整體結(jié)構(gòu)識(shí)別的難度。
本文對(duì)中文專利語(yǔ)料的分析發(fā)現(xiàn),能夠充當(dāng)MNP外邊界分割符的詞類有介詞、動(dòng)詞、連詞、標(biāo)點(diǎn)符號(hào)、副詞等。相對(duì)于識(shí)別存在大量未登錄詞的名詞集合,我們通過(guò)對(duì)相對(duì)封閉的分隔符集的識(shí)別來(lái)達(dá)到MNP識(shí)別的目的。即使如此,對(duì)動(dòng)詞這類分隔符的識(shí)別也是較為困難的,原因在于漢語(yǔ)中動(dòng)詞的使用非常靈活,一個(gè)動(dòng)詞經(jīng)常具有多種語(yǔ)法功能,導(dǎo)致出現(xiàn)大量的語(yǔ)法歧義現(xiàn)象。例如,“……生成MNP[滾動(dòng)角指令]驅(qū)動(dòng)MNP[第二單軸轉(zhuǎn)臺(tái)]轉(zhuǎn)動(dòng)……”,其含有的動(dòng)詞集合為{“生成”, “滾動(dòng)”, “驅(qū)動(dòng)”, “轉(zhuǎn)”, “轉(zhuǎn)動(dòng)”},這里稱為候選分割符集,而其中只有“生成”、“驅(qū)動(dòng)”和“轉(zhuǎn)動(dòng)”是正確的分隔符。對(duì)于動(dòng)詞類分隔符識(shí)別的難度主要體現(xiàn)在兩點(diǎn): 一是動(dòng)詞邊界特征不明顯;二是在專利中經(jīng)常作為名詞性術(shù)語(yǔ)短語(yǔ)的構(gòu)成部分出現(xiàn)。而英文屬于屈折語(yǔ),其詞特征和句法特征比較明顯,可以很好輔助中文MNP邊界的識(shí)別。
本文設(shè)想利用中英平行語(yǔ)料的詞對(duì)齊信息來(lái)輔助漢語(yǔ)的MNP識(shí)別。然而在實(shí)際應(yīng)用中,會(huì)存在兩個(gè)問(wèn)題: 一是中文和英文的詞并不是一一對(duì)應(yīng),會(huì)有不同程度的省略等;二是即使雙語(yǔ)信息都較為全面,算法以及雙語(yǔ)詞典規(guī)模的限制也并不能保證詞對(duì)齊的完全召回以及正確。出于上述考慮,本文同時(shí)利用句子局部信息、其他領(lǐng)域遷移的特征信息以及雙語(yǔ)信息來(lái)實(shí)現(xiàn)中文專利MNP識(shí)別,利用馬爾科夫邏輯網(wǎng)對(duì)上述三類信息進(jìn)行統(tǒng)一表示。
本文的整體系統(tǒng)框架流程圖如圖1所示。
圖1 系統(tǒng)流程圖
本文的中文專利MNP識(shí)別方法包括四部分內(nèi)容: 雙語(yǔ)語(yǔ)料的獲取與預(yù)處理、候選分割符集獲取、特征遷移以及馬爾科夫邏輯網(wǎng)的構(gòu)建。
2.1 雙語(yǔ)語(yǔ)料獲取與預(yù)處理
中文專利文獻(xiàn)和學(xué)術(shù)論文一般都會(huì)提供雙語(yǔ)的標(biāo)題和摘要。這兩類文獻(xiàn)的中英標(biāo)題與摘要都是相關(guān)行業(yè)專業(yè)人員精心編寫(xiě),質(zhì)量較高。
本文從世界知識(shí)產(chǎn)權(quán)組織WIPO網(wǎng)站自動(dòng)抓取了電子和計(jì)算機(jī)相關(guān)方向的24 485篇專利文獻(xiàn)的中英標(biāo)題和中英摘要部分,作為原始平行語(yǔ)料。
本文將雙語(yǔ)標(biāo)題充作高質(zhì)量的句對(duì)齊語(yǔ)料。而摘要部分通常由多個(gè)句子組成,為了獲得較好的詞對(duì)齊結(jié)果,需要預(yù)先對(duì)雙語(yǔ)摘要進(jìn)行句對(duì)齊。對(duì)英文摘要的分句使用開(kāi)源工具OpenNLP得到。中文摘要段落的斷句則是通過(guò)識(shí)別“……、。、!、?、;”等標(biāo)點(diǎn)符號(hào)完成的。緊接著,通過(guò)CTK/CSA(champol-lion sentence aligner)對(duì)已經(jīng)完成斷句的中英文摘要進(jìn)行句對(duì)齊,CTK/CSA (champollion sentence aligner)是一種基于雙語(yǔ)詞典和句子長(zhǎng)度的句對(duì)齊算法。雙語(yǔ)詞典對(duì)句對(duì)齊至關(guān)重要,本文通過(guò)動(dòng)態(tài)獲取每對(duì)中英摘要詞對(duì)齊來(lái)補(bǔ)充CTK/CSA的雙語(yǔ)詞典。簡(jiǎn)而言之,獲取雙語(yǔ)摘要初始的詞對(duì)齊,將可信度高的詞對(duì)齊(中到英和英到中都存在對(duì)齊)加入CTK/CSA詞典,在此基礎(chǔ)上再次進(jìn)行句對(duì)齊。接著,在句對(duì)齊的基礎(chǔ)上進(jìn)行基于詞典的詞對(duì)齊,得到雙語(yǔ)詞對(duì)齊語(yǔ)料。
2.2 候選分隔符詞表收集
候選分隔符詞表收集來(lái)源主要有賓州中文樹(shù)庫(kù)CTB5.1、北大詞表和3 000常用詞以及本實(shí)驗(yàn)室標(biāo)注的中文專利依存樹(shù)庫(kù)(CPDT1.0)。其中,專利依存樹(shù)庫(kù)CPDT的句子來(lái)源有生化、機(jī)電等學(xué)科的中文專利文獻(xiàn)摘要部分,其標(biāo)注的類別有分詞(Seg)、詞類(Pos)、實(shí)體塊(Chunk)和依存句法。中文專利依存樹(shù)庫(kù)的相關(guān)統(tǒng)計(jì)信息見(jiàn)表1。
表1 中文專利依存樹(shù)庫(kù)相關(guān)數(shù)據(jù)
從樹(shù)庫(kù)獲取候選分隔符集的主要依據(jù)是該詞所標(biāo)注的詞性屬于介詞、動(dòng)詞、連詞、標(biāo)點(diǎn)符號(hào)、副詞等分隔符詞類集且在MNP界外。收集的候選分隔符詞表各類別統(tǒng)計(jì)如表2。
表2 候選分隔符詞表相關(guān)數(shù)據(jù)
2.3 特征遷移
專利領(lǐng)域標(biāo)注資源的缺乏,制約著基于統(tǒng)計(jì)學(xué)習(xí)的中文專利MNP識(shí)別方法的性能。將其它領(lǐng)域的已有標(biāo)注資源作為擴(kuò)充信息遷移到目標(biāo)領(lǐng)域加以有效利用,可以在一定程度上緩解特征稀疏問(wèn)題。本方法基于一種遷移其他領(lǐng)域的字和詞級(jí)別特征信息能夠帶來(lái)中文專利MNP識(shí)別性能提升的假設(shè),并驗(yàn)證。本文特征遷移的來(lái)源有兩個(gè),一是賓州中文樹(shù)庫(kù)CTB5.1,二是中文專利樹(shù)庫(kù)CPDT1.0。
進(jìn)一步說(shuō),為使從兩個(gè)語(yǔ)料庫(kù)遷移的特征分布能夠相似,也即本文使用相同的句子切分方法依次對(duì)CTB5.1和CPDT1.0中的句子重新進(jìn)行切分。句子切分方法見(jiàn)算法1。
算法1 句子切分算法
輸入: 雙語(yǔ)詞對(duì)詞典bi_dict,所有候選分隔符集合candidate_separator_set,句子串sen_str
結(jié)果: 對(duì)sen_str進(jìn)行切分后的詞串word_str
第三方工具: 開(kāi)源工具ICTCLAS
步驟:
1. 使用詞典bi_dict對(duì)句子串sen_str應(yīng)用最大正向初步切分,得到sen_seg_str
2. 使用candidate_separator_set對(duì)步驟1結(jié)果sen_seg_str中沒(méi)處理的塊應(yīng)用最大正向切分,得到can_seg_str
3. ICTCLAS不加載用戶詞典的情形下對(duì)can_seg_str中沒(méi)處理的塊進(jìn)一步切分,得到word_str
6. 返回切分結(jié)果word_str
需要說(shuō)明該算法定義為句子切分而不是分詞是因?yàn)槲覀儫o(wú)需名詞等分詞的正確性,需要確保的是句中的候選分隔符都能夠被準(zhǔn)確地切分出來(lái)。算法中雙語(yǔ)詞典的應(yīng)用可以很好地轉(zhuǎn)換中文到英文以解決切分的交集型歧義。如“使用具”可被正確的切分為“使 用具”。
對(duì)于2.2節(jié)中獲取到的候選分隔符詞表中的每個(gè)詞進(jìn)行特征提取。特征集包括不同窗口字級(jí)特征和詞級(jí)特征。字級(jí)特征包括: 字級(jí)公共組合特征C_Com;C_L1-R1,即分隔符的左1字與右1字的組合;C_R1-R2,分割符的右1字與右2字的組合;C_L1-R1-R2,分隔符的左1字、右1字與右2字的組合。詞級(jí)特征包括: 詞級(jí)公共組合特征W_Com;W_L1-R1,分割符的左1詞與右1詞的組合;W_R1-R2,分隔符的右1詞與右2詞的組合;W_L1-R1-R2,分隔符的左1詞、右1詞與右2詞的組合。
最后,為了計(jì)算各個(gè)候選分隔符集相關(guān)特征的權(quán)重,需要統(tǒng)計(jì)正例和負(fù)例的出現(xiàn)次數(shù)。如式(1)所示。
(1)
其中,featureYesNum表示候選詞是正例的情況下該特征出現(xiàn)的次數(shù),featureTotal表示候選詞正例和負(fù)例情況下該特征出現(xiàn)的次數(shù)。
2.4 MLN模型的構(gòu)建
馬爾科夫邏輯網(wǎng)[11](Markov Logic Networks,MLN)是一種將馬爾科夫網(wǎng)絡(luò)概率的思想應(yīng)用到確定性一階邏輯的框架。從兩方面來(lái)說(shuō),一是可以使用一階邏輯來(lái)描述構(gòu)建復(fù)雜Markov網(wǎng)更加方便,二是一階邏輯同時(shí)具備了概率推理的能力。
在本文的方法中,對(duì)于每個(gè)候選分隔符而言,其有兩種狀態(tài),True和False。True表示該候選分隔符為正確的分隔符,即MNP外邊界。False表示該候選分隔符并不是正確的MNP邊界。其概率如公式(2)所示。
(2)
其中,wi是邏輯公式的權(quán)重,公式包括局部公式和全局公式,ni代表取值為真的公式個(gè)數(shù)。判斷該詞是否為分隔符只需判斷P(yj=True)是否大于設(shè)定的閾值。
有關(guān)MNP識(shí)別的MLN的構(gòu)建包括謂詞的定義和邏輯公式的定義。公式的權(quán)重則由統(tǒng)計(jì)學(xué)習(xí)得到。
2.4.1 謂詞定義
本文中定義的謂詞如表3所示。
表3 謂詞定義
上述表3中僅有maybeSeg是隱式謂詞。隱謂詞的值是通過(guò)觀察謂詞與隱謂詞以及隱謂詞與隱謂詞之間的邏輯關(guān)系公式推斷出的,因此,需要定義描述謂詞之間關(guān)系的邏輯公式。本文定義了17個(gè)邏輯公式,包括六個(gè)局部公式和11個(gè)全局公式。局部公式描述了觀察謂詞與隱謂詞之間的關(guān)系。全局公式則可表示隱謂詞之間的關(guān)系。
2.4.2 局部公式定義
通過(guò)對(duì)語(yǔ)料的觀察發(fā)現(xiàn),我們可以將句中的自身信息集成使用。如,對(duì)于連詞與介詞,在字符個(gè)數(shù)大于等于2的情況下是分隔符的可能性比較高。而在字符個(gè)數(shù)是1的則不高,見(jiàn)式(3)和式(4)。如在“圖像”中的“像”字符個(gè)數(shù)是1,在這里作為名詞一部分。
(3)
(4)
判斷候選分隔符與其上下文搭配的字串是否成詞使用到了北大詞表。其中,因?yàn)橹形膶@泻芏鄬I(yè)術(shù)語(yǔ),如果僅僅使用北大詞表會(huì)出現(xiàn)很多未登陸此,如“聚像控件”。為了補(bǔ)充未登陸詞,我們發(fā)現(xiàn)可以通過(guò)中英標(biāo)題對(duì)中的詞語(yǔ)很好地部分解決,如“一種虛擬攝像機(jī)規(guī)劃布局方法和系統(tǒng)<==>Virtual video camera planning and distributing method and system”。英文不需要分詞,連詞如“and”等干擾詞很容易去掉。確定例句中的“像”是否可能組成一個(gè)新的未登陸詞方法是: 調(diào)用金山詞典接口翻譯標(biāo)題中的英文,比對(duì)中文標(biāo)題,如果“像”都出現(xiàn),則說(shuō)明是。
對(duì)于候選分隔符的判斷也可依據(jù)其上下文特征。在遷移特征集中,若候選分隔符在當(dāng)前上下文中通常作為分隔符,那么在當(dāng)前句子中,該候選詞也很有可能作為分隔符,見(jiàn)式(5)。反之,見(jiàn)式(6)。
(5)
(6)
在候選分割符的判別中,對(duì)動(dòng)詞的決策難度最大。判斷候選動(dòng)詞是否為動(dòng)詞除了簡(jiǎn)單詞性(如VBZ)以及序列結(jié)構(gòu)(如“is
圖2 動(dòng)詞結(jié)構(gòu)模式
其中,“WORD”表示匹配一個(gè)單詞,*表示匹配0個(gè)或任意一個(gè)字符。判斷候選動(dòng)詞是否為分隔符見(jiàn)式(7)
(7)
同樣,依據(jù)候選詞詞性是否為Noun或Nouns來(lái)判斷其是否為名詞,如果是,則可能不是分隔符,見(jiàn)式(8)。
(8)
2.4.3 全局公式定義
對(duì)于上下文一致的候選分隔符最終的輸出應(yīng)該保持一致。如“MNP[一種視頻信息記錄裝置],包括MNP[視頻信息]記錄”中的“記錄”一詞則不是分隔符,見(jiàn)式(9)。
(9)
對(duì)于動(dòng)詞來(lái)說(shuō),其左右經(jīng)常會(huì)出現(xiàn)修飾語(yǔ),本文將其左邊的修飾語(yǔ)稱為左修飾,其右邊的修飾語(yǔ)稱為右修飾。左右修飾如“進(jìn)行”和“了”。如果該動(dòng)詞是分隔符,則其左右修飾也可能是分隔符,如式(10)和式(11)所示。
(10)
(11)
對(duì)于被識(shí)別為形容詞Adj,副詞Adv的候選分割符,在Adj+Noun的組合結(jié)構(gòu)中,即形容詞修飾名詞的結(jié)構(gòu),若Adj不是分割符,則Noun也不是。同理,若Noun不是分隔符,則Adj也不是。見(jiàn)式(12)和式(13)。
(12)
(13)
對(duì)于Adv+V組合,即副詞修飾動(dòng)詞的情形,若Adv是分隔符,則V就可能是分隔符,同理,若V是分隔符,則Adv也可能是分隔符,見(jiàn)式(14)和式(15)。
(14)
(15)
對(duì)于并列結(jié)構(gòu)中的候選詞,盡量保持它們輸出的一致性,本文使用的是啟發(fā)式規(guī)則,如“壓縮,解碼和存儲(chǔ)”中,“壓縮”、“解碼”、“存儲(chǔ)”都作為分隔符。公式的定義如式(16)所示。
(16)
在專利文本中對(duì)并列連詞的處理不容忽視。本文主要對(duì)有標(biāo)記的并列結(jié)構(gòu)進(jìn)行處理,以塊為處理單位,塊的劃分以標(biāo)點(diǎn)符號(hào)為依據(jù)。對(duì)于在塊中只有一個(gè)并列標(biāo)記的情況,如果其左右都沒(méi)有分隔符,則該連詞可能不是分隔符,反之則是。對(duì)于并列標(biāo)記在開(kāi)始與結(jié)束位置的情況,將其視作分隔符,見(jiàn)式(17)~式(19)。
(17)
(18)
(19)
對(duì)于在同一塊中出現(xiàn)的多個(gè)并列標(biāo)記,若并列標(biāo)記之間不出現(xiàn)分隔符,則并列標(biāo)記可能不是分隔符,反之則是分隔符。如“……線形酚樹(shù)脂、紅外吸收染料、熱分解型產(chǎn)酸源……”。
另如,“與”既可為連詞,也可為介詞。處理方法是,從該詞開(kāi)始直到動(dòng)詞分隔符,中間如果不含有“的”,則為分隔符,如,“……與MNP[通信網(wǎng)絡(luò)]相連……”。同理,從該詞開(kāi)始,直到分隔符,中間如果含有“的”,則不為分隔符,如,“……MNP[與輸入內(nèi)容相對(duì)應(yīng)的元數(shù)據(jù)],……”。
本文從自動(dòng)抓取的24 485篇專利摘要中均勻隨機(jī)采樣220句進(jìn)行人工標(biāo)注,作為測(cè)試語(yǔ)料。實(shí)驗(yàn)性能使用準(zhǔn)確率、召回率和F-值來(lái)進(jìn)行評(píng)價(jià)。其中,系統(tǒng)對(duì)正確識(shí)別采用了嚴(yán)格的定義,即當(dāng)且僅當(dāng)MNP 的左右邊界都被正確識(shí)別時(shí)為正確。
3.1 閾值的選擇
閾值被用來(lái)最終界定一個(gè)詞是否為分隔符,如式(2)所示,若計(jì)算得到的候選分隔符的概率值大于設(shè)定的閾值,則將其判定為分隔符。為了解閾值對(duì)MLN- MULTI模型(由全部公式組成)的影響,本文針對(duì)遷移特征來(lái)源的兩種樹(shù)庫(kù)分別測(cè)試不同閾值下的MNP識(shí)別性能,用詞作為遷移特征,窗口長(zhǎng)度是2,閾值步長(zhǎng)是0.01,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 左: 賓州樹(shù)庫(kù)閾值結(jié)果分布圖 右: 專利樹(shù)庫(kù)閾值結(jié)果分布圖
單個(gè)分隔符的正確性隨著segThreshold值的增大而相應(yīng)提高,作為一個(gè)整體MNP的識(shí)別卻不一定。一個(gè)MNP由多個(gè)候選分隔符組合而最終確定,segThreshold如果過(guò)高,則會(huì)遺漏正確的分隔符,最終導(dǎo)致MNP識(shí)別不正確。相反,如果segThreshold過(guò)低,單個(gè)分隔符正確性不可靠,同樣導(dǎo)致MNP的錯(cuò)誤,故 segThreshold只能在一個(gè)合理區(qū)間。從上圖可得出,無(wú)論是賓州樹(shù)庫(kù)還是專利樹(shù)庫(kù),區(qū)間[0.5-0.7]是較為合理的,在此區(qū)間segThreshold的取值對(duì)最終MNP識(shí)別的影響不大。另外,本文提供的兩個(gè)庫(kù)在0.5處都有不錯(cuò)的表現(xiàn)。所以,下文實(shí)驗(yàn)的segThreshold均設(shè)置為該點(diǎn)。
3.2 模型的驗(yàn)證
我們?cè)O(shè)置了四組對(duì)比試驗(yàn),相應(yīng)定義了四個(gè)模型。ChSelfTransfer是由僅僅包含中文專利句子自身特征和遷移特征的一階公式組成的模型。MaxEntropy是由包含除全局公式外所有其他公式組成的模型。MLN-MULTI是由所有公式組成的模型。MLN-MULTI- NoTransfer是由包含除遷移特征公式外其余公式組成的模型。需要說(shuō)明的是,以上所有模型的窗口長(zhǎng)度選取的是2,遷移的特征在詞的粒度。結(jié)果如表4所示。
表4 不同模型下的結(jié)果對(duì)比
從表4中可以看到,使用了雙語(yǔ)對(duì)齊信息的MaxEntropy組較僅使用中文信息的ChSelfTransfer組,其F值的提高了15.54%,可見(jiàn)雙語(yǔ)信息的引入對(duì)MNP識(shí)別性能的提升效果顯著。其原因在于,借助高質(zhì)量的雙語(yǔ)詞典及詞對(duì)齊信息,我們能更準(zhǔn)確從句子中切分出候選分隔符,特別是動(dòng)詞性的候選分隔符,進(jìn)而能在此基礎(chǔ)上對(duì)MNP邊界進(jìn)行判別。
MLN- MULTI組與MLN-MULTI- NoTransfer組的對(duì)比,其F值提高了至少5.33%,可見(jiàn)遷移特征對(duì)于專利MNP識(shí)別也有明顯幫助。遷移特征的引入,豐富了候選分隔符的特征集,有效地應(yīng)對(duì)了特征稀疏的問(wèn)題。
從表4中我們也可以看到,從賓州樹(shù)庫(kù)遷移特征的表現(xiàn)要好于從專利樹(shù)庫(kù)遷移特征,這表明,至少在詞級(jí)別的特征遷移上,語(yǔ)料的領(lǐng)域相關(guān)性對(duì)于專利MNP識(shí)別的影響并不大,而賓州樹(shù)庫(kù)的語(yǔ)料規(guī)模較專利樹(shù)庫(kù)更大,可以得到更豐富的詞特征,所以在MNP識(shí)別上表現(xiàn)更優(yōu)。
3.3 與其他方法比較
由于未發(fā)現(xiàn)同等條件下使用雙語(yǔ)作為輸入的系統(tǒng),本文只能利用當(dāng)前輸入是單語(yǔ)較為優(yōu)越的系統(tǒng)作對(duì)比。MLN- MULTI與目前表現(xiàn)較好的模型在中文專利MNP識(shí)別上的結(jié)果如表5所示。
表5 MLN-MULTI與其他模型的對(duì)比
需要說(shuō)明的是,在測(cè)試句中,有一句的字符長(zhǎng)度超過(guò)了Berkeley句法解析器的解析范圍,為了公平的對(duì)比,所有模型都過(guò)濾了該句。相比較而言,本文的方法具有更好的識(shí)別效果。
本文提出一種面向雙語(yǔ)摘要的中文專利MNP識(shí)別的方法,利用馬爾科夫邏輯網(wǎng)對(duì)句子局部信息、其他領(lǐng)域遷移的特征信息以及中英雙語(yǔ)信息三類信息進(jìn)行統(tǒng)一整合。實(shí)驗(yàn)結(jié)果表明,加入其他領(lǐng)域遷移特征,有效地緩解了目標(biāo)語(yǔ)料中的特征稀疏問(wèn)題,中英雙語(yǔ)對(duì)齊信息的引入,也對(duì)MNP識(shí)別起到很好的輔助作用。
本文的后續(xù)改進(jìn)工作將從以下兩個(gè)方面展開(kāi): 一是為解決語(yǔ)料特征稀疏的問(wèn)題,可對(duì)遷移特征的進(jìn)一步泛化,如,對(duì)詞性單一的特征進(jìn)行詞性泛化;二是可進(jìn)一步利用句子間一致性的特征信息,有些句子對(duì)應(yīng)的英文信息完整,有助于MNP的識(shí)別,而有些被省略,跨句的推理可以保證MNP識(shí)別的一致性。
[1] 周強(qiáng),孫茂松,黃昌寧. 漢語(yǔ)最長(zhǎng)名詞短語(yǔ)的自動(dòng)識(shí)別[J]. 軟件學(xué)報(bào), 2000,11(2): 195-201.
[2] Church K. A stochastic parts program and noun phrase parser for unrestricted[C]//Proceedings of the Second Conference on Applied Natural Language Processing. Texas, 1988: 136-143.
[3] Voutilainen A. NPTool, a detector of English noun phrases[C]//Proceedings of the Workshop on Very Large Corpora Association for Computational Linguistics. 1993: 48-57.
[4] Ramshaw L, Marcus M. Text chunking using transformation-based learning[C]//Proceedings of the Third Workshop on Very Large Corpora. 1995: 82-94.
[5] 陸儉明. 漢語(yǔ)句法成分特有的套疊現(xiàn)象[G]. 陸儉明自選集. 鄭州:河南教育出版社, 1993: 174-192.
[6] 李文捷,周明,潘海華,等. 基于語(yǔ)料庫(kù)的中文最長(zhǎng)名詞短語(yǔ)的自動(dòng)提取[J]. 計(jì)算語(yǔ)言學(xué)進(jìn)展與應(yīng)用, 1995: 119-124.
[7] 代翠,周俏麗,蔡?hào)|風(fēng),等. 統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語(yǔ)最長(zhǎng)名詞短語(yǔ)自動(dòng)識(shí)別[J]. 中文信息學(xué)報(bào), 2008,22(6):110-115.
[8] 鑒萍,宗成慶. 基于雙向標(biāo)注融合的漢語(yǔ)最長(zhǎng)短語(yǔ)識(shí)別方法[J]. 智能系統(tǒng)學(xué)報(bào), 2009: 406-413.
[9] 錢(qián)小飛,侯敏. 基于混合策略的漢語(yǔ)最長(zhǎng)名詞短語(yǔ)識(shí)別[J]. 中文信息學(xué)報(bào), 2013, 27(6):16-22.
[10] ZHOU Q, ZHANG L, CAI D, et al. Maximal-length noun phrases identification based on re-ranking using parsing[J]. Journal of Computational Information Systems, 2013, 9(6): 2441-2449.
[11] Domingos P, Lowd D. Markov logic: an interface layer for artificial intelligence[J]. Synthesis Lectures on Artificial Intelligence and Machine Learning, 2009, 3(1): 1-155.
Chinese Patents Maximal-length Noun Phrases Identification Using Markov Logic
CAI Dongfeng, ZHAO Qimeng, RAO Qi, WANG Peiyan
(Knowledge Engineering Research Center, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)
The main problems that limited the development of Maximal-length Noun Phrases recognition on Chinese patent literatures are the lack of annotated corpus and the difficulty of recognizing verbs and nouns. This paper presents a new Markov Logic approach to maximal-length noun phrases identification from Chinese patents. Instead of recognizing various of noun phrases, the approach focuses on the identification of MNP’s boundary markers. To recognize Chinese patents MNPs, three categories of features, i.e. word features from sentences, transfer features from TreeBanks and bilingual features from patents’ abstractions, are employed. The experiment results show that bilingual features can bring a notable improvement on identification of MNP boundary markers such as verbs, prepositions and conjunctions. And the F-score on MNP identification reaches 83.27%.
MNP;MLN;Chinese patent
蔡?hào)|風(fēng)(1958—),博士,教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄?、自然語(yǔ)言處理。E-mail:caidf@vip.163.com趙奇猛(1988—),碩士研究生,主要研究領(lǐng)域?yàn)殚_(kāi)放式信息抽取。E-mail:zhaomeng1123@126.com饒齊(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿 -mail:hbraoqi@gmail.com
1003-0077(2016)04-0021-08
2014-08-05 定稿日期: 2015-02-09
國(guó)家“十二五”科技支撐計(jì)劃項(xiàng)目(2012BAH14F00);國(guó)家自然科學(xué)基金(61073123)
TP391
A