基于中心語塊擴(kuò)展的漢藏基本名詞短語對的識別

2013-10-15 01:51:02諾明花劉匯丹馬龍龍丁治明

中文信息學(xué)報(bào) 2013年4期

諾明花，劉匯丹，馬龍龍，吳健，丁治明

（中國科學(xué)院軟件研究所，北京100190）

1 引言

淺層句法分析也稱作部分句法分析或語塊分析（chunking）。它主要是識別句子中某些結(jié)構(gòu)相對簡單的獨(dú)立成分。例如，非遞歸的名詞短語、動詞短語等。這些被識別出的結(jié)構(gòu)通常被稱作語塊（chunk），語塊和短語這兩個(gè)概念可以換用［1］。目前最具代表性的語塊分析任務(wù)是基本名詞短語識別。

名詞短語翻譯是機(jī)器翻譯的一個(gè)子任務(wù)。雙語語料庫是從事統(tǒng)計(jì)機(jī)器翻譯／輔助翻譯等自然語言處理研究必不可少的基礎(chǔ)資源。構(gòu)建雙語語料庫的關(guān)鍵技術(shù)之一是對齊，即在雙語文本中找到互為翻譯的源文和譯文片段，對齊的單位包括篇章、段落、句子、短語、詞語等，不同的自然語言應(yīng)用要求做到不同單位的對齊。漢藏輔助翻譯工作已經(jīng)具備了大規(guī)模的漢藏句子對齊語料［2］和藏文分詞工具［3－4］。短語級別的對齊工作剛剛開始，目前還未看到漢藏基本名詞對齊相關(guān)研究報(bào)道。較大規(guī)模的漢藏短語詞典的構(gòu)建，僅靠手工對齊是不現(xiàn)實(shí)的，因此研究漢藏短語自動對齊方法是有意義且必要的。鑒于現(xiàn)代藏語句法結(jié)構(gòu)，本文先從名詞為中心詞的基本名詞短語（BaseNP）入手，識別漢藏基本名詞短語互譯對。

2 相關(guān)研究

目前英語基本名詞短語的研究已相對比較深入并且滲透到語法分析、信息檢索等應(yīng)用領(lǐng)域。早在1991年，Abney［5］提出了語塊分析的策略，并引進(jìn)句法塊概念后，淺層句法分析，特別是BaseNP的識別得到了普遍的關(guān)注，國內(nèi)外出現(xiàn)了很多BaseNP識別的方法，許多有效的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法被應(yīng)用到英語語塊識別中，并且取得了較好的識別效果。

Ramshaw和 Marcus［6］在他們的開創(chuàng)性工作中，把NP語塊分析問題作為機(jī)器學(xué)習(xí)問題，并提出標(biāo)準(zhǔn)數(shù)據(jù)集和評價(jià)指標(biāo)。2000年舉行的自然語言學(xué)習(xí)國際會議（CONLL－2000）推出了組塊共享任務(wù)［7］，旨在統(tǒng)一組塊類別，開發(fā)出一個(gè)大規(guī)模的英語組塊庫，為基于統(tǒng)計(jì)的不同分析方法的探索提供統(tǒng)一的訓(xùn)練和測試語料庫。此項(xiàng)共享任務(wù)采用了Abney的組塊描述框架，擴(kuò)展其他基本組塊，其中名詞短語組塊是從Ramshaw和Marcus的工作發(fā)展而來的。在研討會中的很多系統(tǒng)利用了機(jī)器學(xué)習(xí)方法，其中，最有代表性的是Kudo和 Matsumoto［8］應(yīng)用的支持向量機(jī)（Support Vector Machine，SVM）的方法［8］。此后，許多新的統(tǒng)計(jì)學(xué)習(xí)的方法被應(yīng)用到了BaseNP識別中，例如，條件隨機(jī)場（Conditional Random Fields，CRF）［9］、Winnow 算法［10］、結(jié)構(gòu)學(xué)習(xí)方法（Structural Learning Methods）［11］等。Ando和Zhang提出了一種半監(jiān)督學(xué)習(xí)（Semi－supervised Learning）的英文BaseNP識別方法并取得了目前最好的識別結(jié)果［11］。

因?yàn)闈h語名詞短語結(jié)構(gòu)的復(fù)雜性，漢語語言學(xué)界對名詞短語結(jié)構(gòu)的看法尚未形成成熟而統(tǒng)一的意見。在漢語BaseNP研究方面，趙軍［12］依據(jù)張衛(wèi)國對名詞短語中三類定語的論述，首先提出了漢語基本名詞短語的嚴(yán)格形式化定義，闡明了它的語言學(xué)內(nèi)涵，提出了基于轉(zhuǎn)換的中文基本名詞短語識別方法和模型［13］。還有許多其他的方法用于漢語基本名詞短語的識別，例如，利用隱馬爾科夫模型（Hidden Markov Model，HMM）［14］、利用最大熵（Maximum Entropy，ME）方法［15］、利用基于記憶的學(xué)習(xí)方法（Memory－based Learnig）［16］和利用組合分類器的方法［17］等。徐昉采用一種新的錯誤驅(qū)動的組合分類器方法，與單獨(dú)使用基于轉(zhuǎn)化的方法、條件隨機(jī)場方法以及支持向量機(jī)方法相比較，顯著提高了中文BaseNP識別效果［18］。目前，漢語還沒有像CoNLL－2000那樣的標(biāo)準(zhǔn)數(shù)據(jù)集和評估系統(tǒng)，因此無法評價(jià)不同的中文BaseNP識別系統(tǒng)。

藏語BaseNP研究還處于起步階段。2003年，江荻初步闡述了藏語組塊分析的基本觀念［19］，同時(shí)對藏語組塊構(gòu)成的類型和標(biāo)記形式做了廣泛的描述。其后，詳細(xì)分析了藏語的組塊計(jì)算處理問題，并落實(shí)到計(jì)算處理方法上［20］。從形式標(biāo)記著手提出解決非謂動詞自動識別的方法。而在藏語名詞組塊分析中，黃行［21］針對現(xiàn)代藏語名詞組塊的構(gòu)成與結(jié)構(gòu)，對名詞組塊做了初步定義，并根據(jù)名詞組塊的句法功能開展了名詞組塊的分類研究。嘗試解決詞格標(biāo)記的同形問題和詞根黏著問題。對于采用零標(biāo)記的名詞組塊，利用其他上下文隱性標(biāo)記加以處理，其中主賓語名詞組塊的識別率均達(dá)到了可接受的程度［22］。

雙語名詞短語自動抽取相關(guān)成果發(fā)表較少。劉冬明提出了一種在漢英雙語語料庫句子對齊的基礎(chǔ)上，自動進(jìn)行漢英名詞短語劃分和對應(yīng)的方法［23］。他將短語分高頻和低頻短語分別處理，對于高頻短語，利用英語短語和漢語詞在雙語語料庫中的關(guān)聯(lián)信息，采用一種迭代重估算法進(jìn)行雙語短語的對應(yīng)；對于低頻短語，根據(jù)雙語詞典中源詞和譯詞之間的對應(yīng)信息，結(jié)合一套人工編寫的句法規(guī)則進(jìn)行雙語低頻短語的對應(yīng)，從而提高了覆蓋率。屈剛用基于“有效句型”概念和“翻譯中相對不變準(zhǔn)則”的短語對齊模型對源語言和目標(biāo)語言句法樹間對應(yīng)關(guān)系排除歧義［24］。這個(gè)模型的輸入是源語言（英語）、目標(biāo)語言（漢語）候選句法分析樹集。漢藏雙語BaseNP的研究還未見相關(guān)報(bào)道。

3 漢藏基本名詞短語對齊框架

對于不同的語言，名詞短語的結(jié)構(gòu)有著較大的差異，定義的方式也往往不同。英語基本名詞短語定義為簡單的非嵌套的名詞短語，即一個(gè)基本名詞短語內(nèi)部不能再包含有更小的名詞短語。通過對漢藏雙語語料的分析，鑒于雙語短語對的源語言是漢語，我們參考文獻(xiàn)［12］提出的從限定性定語的角度出發(fā)的漢語基本名詞短語的概念，定義本文所抽取的藏語基本名詞短語的概念。

定義1：藏語基本名詞短語（BaseNP）

BaseNP→BaseNP＋BaseNP

BaseNP→BaseNP＋名詞

BaseNP→限定性定語＋BaseNP

BaseNP→限定性定語＋名詞

限定性定語→形容詞｜區(qū)別詞｜動詞｜名詞｜處所詞｜（數(shù)詞＋量詞）

其中，為了抽取結(jié)合比較緊密的一般名詞短語，“的”字短語作定語及并列的名詞性成分都在藏語基本名詞短語范圍內(nèi)。本文工作目標(biāo)是建立漢藏雙語基本名詞短語詞典。因此，只抽取兩個(gè)或以上單詞構(gòu)成的短語。

定義2：漢藏名詞短語準(zhǔn)等價(jià)對

漢藏準(zhǔn)等價(jià)對是短語級的對齊，設(shè)符號 “?”表示對齊關(guān)系，短語用詞序列表示，漢藏準(zhǔn)等價(jià)對的定義表示如下。

＜Cr1，Cr2，…，Crq＞?＜Tt1，Tt2，…，Ttp＞

關(guān)于此定義的說明為：由于漢語和藏語語義上的差別，很難在語法層面上找到一個(gè)定義使得漢語名詞短語和藏語名詞短語完全等價(jià)，因此本文稱為漢藏準(zhǔn)等價(jià)名詞短語，以下簡稱漢藏名詞短語對。

下面介紹本文提出的漢藏基本名詞短語對自動抽取框架。分兩步完成。首先，抽取漢語基本名詞短語。這一步以漢藏句子對齊的語料為基礎(chǔ)，用Stanford parser對雙語語料中的所有漢語句子做句法分析，從句法樹中抽取所有NP。自動抽取的NP存在一定的誤差，我們進(jìn)行適當(dāng)?shù)娜斯ずY選后作為漢語基本名詞短語。第二步是從已得到的漢語基本名詞短語出發(fā)，用不同的基于中心語塊擴(kuò)展的方法找到藏語短語譯文。處理流程如圖1所示。

圖1 漢藏基本名詞短語對齊流程圖

識別過程主要分三步來完成。

1.預(yù)處理。句子對齊的漢語語料和藏語語料以一行一句的形式分開存儲。漢語和藏語語料均分別做分詞處理后用GIZA＋＋①http：／／code.google.com／p／giza－pp／downloads／list自動詞對齊。

2.識別漢語基本名詞短語。用Stanford Chinese parser②http：／／www－nlp.stanford.edu／software／lex－parser.shtml對漢語語料做句法分析，自動抽取句法樹中的NP得到分詞的漢語基本名詞短語，并存儲短語及它所在的句號。

3.找對齊的藏語基本名詞短語。用中心語塊擴(kuò)展策略和統(tǒng)計(jì)信息為第二步抽取的漢語基本名詞短語確定正確的譯文。

下一節(jié)重點(diǎn)介紹中心語塊擴(kuò)展策略和不同的藏語基本名詞短語自動抽取的方法。

4 藏語基本名詞短語生成模型

在漢英短語對齊方面，張春祥［25］提出中心語塊擴(kuò)展的源語言短語候選譯文生成方法。其中，譯文生成過程大致分兩步，先確定中心語塊的邊界，再通過擴(kuò)展中心語塊找出正確的譯文。

本文提出的藏語基本名詞短語生成模型用中心語塊擴(kuò)展的策略，在兩個(gè)處理階段中用與文獻(xiàn)［25］不同的方法。在藏語短語中心語塊邊界確定階段，可以以基于詞典的對齊結(jié)果為錨點(diǎn)，在藏語句子中抽取漢語短語的譯文。顯然，基于詞典的對齊方法具有很高的正確率，但召回率低。因此，本文用GIZA＋＋生成的詞對齊結(jié)果彌補(bǔ)召回率。另外，參考王辰［26］提出的基于序列相交的短語譯文獲取方法的基本思想，對已知的漢語基本名詞短語，對它所存在的所有藏語句子進(jìn)行序列相交操作得到候選譯文，再應(yīng)用統(tǒng)計(jì)信息進(jìn)一步確認(rèn)正確譯文。在中心語塊擴(kuò)展階段，定義中心語塊擴(kuò)展可信度，當(dāng)擴(kuò)展中的候選譯文與漢語基本名詞短語之間的可信度明顯降低時(shí)認(rèn)為已經(jīng)擴(kuò)展到了譯文邊界。

4.1 基于詞對齊的中心語塊確定方法

為已知的漢語基本名詞短語，依據(jù)它所在的漢藏句對的詞對齊結(jié)果獲得短語譯文對齊區(qū)間［i，j］。其中，i和j分別是當(dāng)前漢語基本名詞短語中各個(gè)詞對齊的藏語單詞位置中最小和最大值。

具體實(shí)現(xiàn)中，詞對齊可以用漢藏雙語詞典或采用intersect啟發(fā)式規(guī)則的GIZA＋＋詞對齊，還嘗試這兩種詞對齊的融合來確定藏語中心語塊。融合策略描述如下。

漢語基本名詞短語的每個(gè)單詞在漢藏雙語詞典中查找，如果有對應(yīng)詞條即可以得到藏語詞列表（TWL）。

· 如果TWL不為空，在當(dāng)前漢語基本名詞短語所存在的句號找到藏語句子。判斷TWL中是否有單詞出現(xiàn)在該藏語句子中。并把所有出現(xiàn)的位置記錄下來。

· 如果TWL為空，直接用GIZA＋＋生成的詞對齊結(jié)果找到對齊單詞在藏語句子中的位置，并記錄位置信息。

在位置集合中最小和最大兩個(gè)值之間的詞串作為藏語中心語塊。

4.2 基于序列相交的中心語塊確定方法

漢藏句子對齊語料中任何一個(gè)句對用SP表示，對齊關(guān)系可以表示為SP＝CS?TS，其中CS和TS分別表示漢語和藏語句子。本文的漢藏語料是分詞處理過的，因此句子可以表示為詞序列；漢語句子、藏語句子和漢藏對齊詞序列表示形式如式（1）、（2）、（3）所示。

定義3：藏語句子序列相交

設(shè)SPr，SPt∈CTBC是漢藏句子對齊語料中任意兩個(gè)句對，可以表示為SPr＝CSr?TSr和SPt＝CSt?TSt，兩個(gè)句對中藏語句子的相交可以用式（4）表示。

其中，TSr∩TSt是藏語句子TSr和TSt的交集。下標(biāo)r1，r2…rq和t1，t2…tp是遞增的。

語料中，如果一個(gè)漢語基本名詞短語Qi出現(xiàn)在多個(gè)漢語句子中，通常在這些漢語句子所對應(yīng)的藏語句子中Qi的譯文是完全相同或核心詞相同。藏文是語法特征和形式標(biāo)記比較豐富的語言，名物化標(biāo)記、格助詞等使得序列相交的結(jié)果為核心詞相同的可能性更大。因此，集合T中的某一個(gè)元素肯定是Qi譯文的中心語塊。從而，找藏語基本名詞短語的任務(wù)可以轉(zhuǎn)化為計(jì)算藏語句子之間的公共子串的問題。

經(jīng)過以上分析，可以用式（5）表示藏語句子的序列相交。

集合T一定包含Qi的翻譯譯文的一部分，用Tj表示。假設(shè)與已識別的漢語BaseNP共現(xiàn)的，連續(xù)的藏語字串T用下面的符號表示：

漢語BaseNP與T之間的平均互信息（Average Mutual Information，AMI）和平均t值（Average T－score，AT）的計(jì)算公式分別如下：

我們設(shè)定一個(gè)選擇函數(shù)來確定候選譯文。為每個(gè)Tj（1≤j≤g）用 MI和t－value來定義選擇函數(shù)Ψj，如式（9）所示。

其中，Ψj值最大的Tj（1≤j≤g）是藏語基本名詞短語的中心語塊。藏語中心語塊確定后，下一步工作是從中心語塊出發(fā)確定藏語基本名詞短語的左右邊界。

4.3 藏語中心語塊擴(kuò)展策略

藏語基本名詞短語生成模型第二步是定義擴(kuò)展策略來確定藏語短語的統(tǒng)計(jì)邊界。一般統(tǒng)計(jì)方法中最常用的是互信息和關(guān)聯(lián)度t－value值。所用公式如下：

4.3 藏語中心語塊擴(kuò)展策略

其中N是句子總數(shù)，c表示漢語短語，t表示藏語詞匯，Pr（c，t）表示c和t的共現(xiàn)概率，Pr（c）和Pr（t）分別表示c和t出現(xiàn)的概率。為每個(gè)漢語基本名詞短語，計(jì)算它和所在的句對中的藏語句子中每個(gè)單詞之間的MI和t－value?；バ畔⒃诖擞糜诒碚鳚h語名詞短語和藏語詞語之間對應(yīng)的確定性程度，t－value值用于說明統(tǒng)計(jì)信息值得信任的程度。

定義4：中心語塊擴(kuò)展可信度

漢語短語PhC在藏語句子中的中心語塊為PhT（n），其中n為長度，擴(kuò)展相鄰藏語單詞后獲得的譯文為PhT（n＋1），則中心語塊擴(kuò)展可信度Cn可以定義為：

其中，AMI和AT分別表示PhC和正在擴(kuò)充的候選藏語基本名詞短語中所有單詞之間 MI和tvalue的均值。

依據(jù)Cn，藏語基本名詞短語統(tǒng)計(jì)邊界確定過程描述如下。從譯文中心語塊出發(fā)，在藏語句子中不斷向一側(cè)擴(kuò)充單詞，每擴(kuò)充一個(gè)藏語單詞就計(jì)算Cn；如果Cn大于等于閾值，則繼續(xù)擴(kuò)展，直到Cn小于閾值時(shí)停。獲得漢語短語PhC的譯文統(tǒng)計(jì)邊界具體過程如圖2所示。

圖2 中心語塊擴(kuò)展過程圖

圖2中，漢語句子中方括弧內(nèi)是漢語基本名詞短語PhC，藏語譯文的左右邊界已用大括弧括起來，獲得了擴(kuò)展后的藏語基本名詞短語，表示為PhT（n＋ω），0≤ω≤L－n，它們構(gòu)成準(zhǔn)等價(jià)基本名詞短語對（PhC，PhT）。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)語料

本文實(shí)驗(yàn)在漢藏法律法規(guī)和公文報(bào)告領(lǐng)域句子對齊語料上進(jìn)行。收集到的原始語料通過篇章對齊和句子對齊后，分單語語料存儲。句子級對齊的漢語和藏語語料經(jīng)過分詞、GIZA＋＋工具詞對齊以及對漢語句子做句法分析等預(yù)處理工作后，最終形成漢藏基本名詞短語對抽取框架可以處理的初始數(shù)據(jù)。表1給出了語料基本信息。

表1 語料信息

已有的句對齊的漢藏語料規(guī)模達(dá)到25萬余，稱為語料1，包括長句和短句。本文工作目標(biāo)為從較大規(guī)模語料中自動抽取漢藏基本名詞短語對，從而構(gòu)建漢藏基本名詞短語詞典。但現(xiàn)階段還沒有漢藏對齊短語對正確率的自動評價(jià)工具，需要人工完成正確率計(jì)算；考慮到工作量較大，在測試階段從語料1隨機(jī)抽取了378句對，作為測試語料。對測試語料通過句法分析能夠抽取384條漢語基本名詞短語，其中包括只有一個(gè)名詞構(gòu)成的基本名詞短語、不符合本文定義的基本名詞短語和句法分析識別錯誤的基本名詞短語等。人工篩選后，獲得符合本文的基本名詞短語212條。隨后我們邀請藏族學(xué)者為212條漢語基本名詞短語提供正確譯文，再以此為參考自動判斷不同算法的實(shí)驗(yàn)結(jié)果。

5.2 實(shí)驗(yàn)結(jié)果及分析

本文參考文獻(xiàn)［23］，使用的評價(jià)指標(biāo)為覆蓋率和正確率，定義如下。

其中，N為實(shí)驗(yàn)語料中漢語基本名詞短語總的出現(xiàn)次數(shù)，N1為語料中獲得對應(yīng)的漢語基本名詞短語的總出現(xiàn)次數(shù)，N2為語料中獲得正確對應(yīng)的漢語基本名詞短語總出現(xiàn)次數(shù)。以參考答案為基礎(chǔ)，自動計(jì)算N1和N2。

基于中心語塊擴(kuò)展的藏語基本名詞短語識別方法由兩部分組成，分別是中心語塊的抽取和中心語塊的擴(kuò)展。本文在中心語塊抽取過程中使用不同方法做實(shí)驗(yàn)，最終確定一個(gè)適合藏語中心語塊抽取的方法。基于詞對齊結(jié)果的中心語塊確定方法可以獨(dú)立應(yīng)用漢藏雙語詞典或GIZA＋＋詞對齊結(jié)果。也可以將兩者結(jié)合起來用。應(yīng)用GIZA＋＋中，評估多種啟發(fā)式合并規(guī)則提供的詞對齊結(jié)果，結(jié)論是intersect最適合用于中心語塊抽取。因?yàn)?，intersect提供的詞對齊是孤立單詞的正確對應(yīng)，從而避免了藏語名物化標(biāo)記、格助詞和停用詞等邊界高頻干擾信息。

在中心語塊的抽取過程中，基于漢藏雙語詞典的方法（DicB）、基于GIZA＋＋詞對齊的方法（WA）、詞典和GIZA＋＋詞對齊相結(jié)合的方法（Dic＆WA）以及基于序列相交的方法（SI）的實(shí)驗(yàn)結(jié)果如表2所示。

表2 不同方法BaseNP對齊結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出，漢藏詞典的召回率較低，但具有很高的正確率，導(dǎo)致DicB方法正確率高，而覆蓋率太低。如果單獨(dú)用GIZA＋＋詞對齊結(jié)果，能夠提高覆蓋率。因?yàn)镚IZA＋＋工具本身的誤差導(dǎo)致WA方法正確率明顯降低。Dic＆WA方法通過兩種詞對齊結(jié)果的互補(bǔ)來提高了整體性能。因此，與詞典和GIZA＋＋相結(jié)合的方法相比，基于序列相交的方法適合低頻短語的抽取，從而能夠提高覆蓋率；同時(shí)，它在句子序列相交的過程中能夠把附加的形式化標(biāo)記和高頻干擾項(xiàng)過濾，所以能夠獲得較高的正確率。在自動抽取漢藏基本名詞短語對任務(wù)中，基于序列相交的方法效果最好。

6 結(jié)論

本文參考英漢短語對齊的方法，針對藏語語言的特殊性，提出基于中心語塊擴(kuò)展的漢藏基本名詞短語對自動抽取方法。對漢藏句子對齊語料進(jìn)行一些預(yù)處理后，用Stanford parser抽取漢語基本名詞短語。進(jìn)一步應(yīng)用中心語塊擴(kuò)展策略為這些漢語基本名詞找到語料中的正確譯文。中心語塊確定過程中，用DicB方法、WA方法、Dic＆WA方法以及基于序列相交的方法；在擴(kuò)展中心語塊過程中，定義了擴(kuò)展可信度來確定左右統(tǒng)計(jì)邊界。自動抽取的漢藏基本名詞短語對能夠節(jié)省人工校正的工作量，可以很好地輔助漢藏基本名詞短語詞典建設(shè)。

總體來說，藏語基本名詞短語之間的邊界比較模糊，長名詞短語較豐富，就目前而言語言學(xué)界對藏語基本名詞短語的描述不夠深入。因此，藏語基本名詞短語識別的正確率比英語和漢語BaseNP識別結(jié)果偏低，在識別精度方面還有待于提高。本文提出的漢藏基本名詞短語對自動抽取框架也可以用于漢藏一般名詞短語或動詞短語對識別任務(wù)中。

［1］孫宏林，俞士汶.淺層句法分析方法綜述［J］.當(dāng)代語言學(xué)，2000，2（2）：74－83.

［2］于新，吳健，洪錦玲.基于詞典的漢藏句子對齊研究與實(shí)現(xiàn)［J］.中文信息學(xué)報(bào)，2011，25（4）：57－62.

［3］Huidan Liu，Weina Zhao，Minghua Nuo，et al.Tibetan number identification based on classification of number components in Tibetan word segmentation［C］／／Proceedings of the 23rd International Conference on Computational Linguistics （COLING'10）：Posters，2010：719－724.

［4］劉匯丹，諾明花，趙維納，等.SegT：一個(gè)實(shí)用的藏文分詞系統(tǒng)［J］.中文信息學(xué)報(bào)，2012，26（2）：97－103.

［5］Steven P Abney.Principle－Based Parsing［M］，Kluwer Academic Publishers.1991.

［6］Ramshaw L A，Marcus M P.Text Chunking using Transformation－Based Learning［C］／／Proceedings of Schiffrin A.Proceedings of ACL Workshop on Very Large Corpora.Boston，1995：82－94.

［7］Erik F Tjong Kim Sang，S Buchholz.Introduction to the CoNLL－2000shared task：Chunking.［C］／／Proceedings of CoNLL－2000，2000：127－132.

［8］Taku Kudo，Yuji Matsumoto.Chunking with support vector machine ［DB／OL］.acl.ldc.upenn.edu／N／N01／N01－1025.pdf.2000.

［9］Fei Sha，F(xiàn)ernando Pereira.Shallow Parsing with Conditional Random Fields.Eduard Hovy［C］／／Proceedings of HLT－NAACL，Edmonton，Alberta，2003：134－141.

［10］Zhang Tong，F(xiàn)red Damerau，David Johnson.Text chunking using regularized Winnow［C］／／Proceedings of ACL'01，2001：539－546.

［11］Ando R K，Zhang Tong.A High－Performance Semi－Supervised Learning Method for Text Chunking［C］／／Kevin Knight.Proceedings of the 43rd Annual Meeting of ACL.Ann Arbor，Michigan，2005：1－9.

［12］趙軍.漢語基本名詞短語識別及結(jié)構(gòu)分析研究［D］.清華大學(xué)博士研究生學(xué)位論文.1998.

［13］趙軍，黃昌寧.基于轉(zhuǎn)換的漢語基本名詞短語識別模型［J］.中文信息學(xué)報(bào)，1999，13（2）：1－7.

［14］Heng Li，Jonathan J.Webster，Chunyu Kit，et al.Transductive HMM based Chinese text chunking［C］／／Proceedings of IEEE NLP－KE 2003，2003：257－262，Beijing.

［15］李素建，劉群，楊志峰.基于最大熵模型的組塊分析［J］.計(jì)算機(jī)學(xué)報(bào)，2003，26（12）：1722－1727.

［16］Yuqi Zhang， Qiang Zhou. Chinese base－phrases chunking［C］／／Proceedings of the First SIGHAN Workshop on Chinese Language Processing，vol（18）：1－5，Taipei，Taiwan，2002.

［17］Wenliang Chen，Yujie Zhang，Hitoshi Isahara.An Empirical Study of Chinese Chunking［C］／／Proceedings of the 43rd Annual Meeting of ACL.Sydney，Australia，2006：97－104.

［18］徐昉，宗成慶，王霞.中文Base NP識別：錯誤驅(qū)動的組合分類器方法［J］.中文信息學(xué)報(bào)，2007，21（1）：115－119.

［19］江荻.現(xiàn)代藏語組塊分詞的方法和過程概述［J］.民族語文，2003，（4）.

［20］江荻.現(xiàn)代藏語的句法組塊與形式標(biāo)記，語言計(jì)算與基于內(nèi)容的文本處理［C］／／全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集.2003：160－166.

［21］黃行，孫宏開，江荻，等.現(xiàn)代藏語名詞組塊的類型及形式標(biāo)記特征［C］／／全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議.2005：615－617.

［22］黃行，江荻.現(xiàn)代藏語判定動詞句主賓語的自動識別方法［M］.語言計(jì)算與基于內(nèi)容的文本處理.清華大學(xué)出版社.2003：167－172.

［23］劉冬明，趙軍，楊爾弘.漢英雙語語料庫中名詞短語的自動對應(yīng)［J］.中文信息學(xué)報(bào)，2003，17（5）：6－12.

［24］屈剛，陳笑蓉，陸汝占.基于有效句型的英漢雙語短語對齊［J］.計(jì)算機(jī)研究與發(fā)展，2003，40（2）：143－149.

［25］張春祥，李生，趙鐵軍.基于中心語塊擴(kuò)展的短語對齊［J］.計(jì)算機(jī)研究與發(fā)展，2006，43（9）：1658－1665.

［26］王辰，宋國龍，吳宏林，等.基于序列相交的短語譯文獲?。跩］.中文信息學(xué)報(bào)，2009，23（1）：38－43.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于中心語塊擴(kuò)展的漢藏基本名詞短語對的識別

1 引言

2 相關(guān)研究

3 漢藏基本名詞短語對齊框架

4 藏語基本名詞短語生成模型

4.1 基于詞對齊的中心語塊確定方法

4.2 基于序列相交的中心語塊確定方法

4.3 藏語中心語塊擴(kuò)展策略

4.3 藏語中心語塊擴(kuò)展策略

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)語料

5.2 實(shí)驗(yàn)結(jié)果及分析

6 結(jié)論