奚 寧,李博淵,黃書劍,陳家駿
(南京大學 軟件新技術(shù)國家重點實驗室, 江蘇 南京 210093;南京大學 計算機科學與技術(shù)系, 江蘇 南京 210093)
獲取雙語詞對齊信息是構(gòu)建統(tǒng)計機器翻譯系統(tǒng)的一項重要工作。在漢英機器翻譯系統(tǒng)中,我們首先需要對中文句子進行分詞,以適應(yīng)詞對齊的需求。目前學術(shù)界對中文分詞的研究已經(jīng)取得了很大進展,從單語角度提出的衡量分詞質(zhì)量的F-score已經(jīng)達到一個較高的水平,并且存在許多成熟的中文分詞模型和工具可供使用。然而,已有研究表明,衡量單語分詞質(zhì)量的F-score與機器翻譯系統(tǒng)的質(zhì)量之間并無明顯關(guān)聯(lián)[1-2],即從單語角度而言最優(yōu)的分詞結(jié)果對機器翻譯而言未必是最合適的。因此,尋找更適合于統(tǒng)計機器翻譯的中文分詞方法,已經(jīng)成為漢語相關(guān)的統(tǒng)計機器翻譯研究工作中的一個新方向[1-2]。
傳統(tǒng)的分詞模型通常是在人工分好詞的單語語料上訓練得到的。該模型雖然有效利用了單語知識,但它卻忽略了一個重要事實——異種語言間的詞匯意義是非同構(gòu)的。如果我們用它對雙語訓練語料進行分詞,就有可能導致分詞結(jié)果中的漢語詞與英文單詞不能形成一一對應(yīng),進而影響詞對齊和翻譯的質(zhì)量。
Ma et al.[3]和Paul et al.[4]試圖僅從訓練語料的基于字的對齊信息中學習更適合統(tǒng)計機器翻譯的“分詞”。這種方法的性能受限于基于字的對齊的質(zhì)量,并且在學出的分詞結(jié)果中存在大量字符序列不能被識別成詞(即召回率較低)的現(xiàn)象,進而會對詞對齊和翻譯過程帶來新的副作用。Ma et al.和Paul et al.在訓練詞對齊時,從基于字的對齊出發(fā),通過冗繁的迭代過程交替地學習新的中文分詞和對齊,并在解碼器端利用源句子的多種分詞結(jié)果作為輸入,企圖通過增大解碼器的搜索空間(犧牲效率)來彌補這一損失。
本文介紹了一種融合單語和雙語知識的面向漢英機器翻譯的中文分詞方法。首先,在訓練語料的雙語字對齊的基礎(chǔ)上,通過計算字對齊可信度,得到一種基于可信對齊的分詞結(jié)果;然后,用傳統(tǒng)的基于單語的分詞工具對訓練語料進行分詞,根據(jù)該分詞結(jié)果對上述基于可信對齊的分詞結(jié)果進行修正,得到基于單語和雙語知識的新的分詞結(jié)果。最后,用此結(jié)果重新訓練新的分詞模型,并將這一模型運用到統(tǒng)計機器翻譯系統(tǒng)中。本文使用了基于短語的漢英統(tǒng)計機器翻譯系統(tǒng)[5]對該方法進行了測試。實驗表明,即使在普通的解碼器上,本文的分詞方法也要優(yōu)于傳統(tǒng)的分詞方法,應(yīng)用該方法的統(tǒng)計機器翻譯系統(tǒng)的性能得到了提升。
本文第二節(jié)詳細闡述基于可信對齊的分詞方法,以及基于單語和雙語知識的分詞方法;第三節(jié)介紹實驗流程和實驗結(jié)果;第四節(jié)對文章進行了總結(jié)和展望。
本文將雙語對齊作為統(tǒng)計機器翻譯中分詞模型的重要知識來源。首先,我們以雙語訓練語料中的漢語的字為單位與英語進行雙語對齊,得到基于字的對齊結(jié)果;然后,根據(jù)可信對齊得分[3](2.1節(jié)),從基于字的對齊結(jié)果中挖掘出潛在連續(xù)字串,作為基于雙語知識的詞(2.2節(jié));最后,將基于雙語知識的分詞結(jié)果與基于單語知識的分詞結(jié)果相融合(2.3節(jié)),用于訓練基于單語和雙語知識的分詞模型(2.4節(jié)),并將新分詞模型運用到統(tǒng)計機器翻譯系統(tǒng)的訓練集、開發(fā)集和測試集語料的分詞中。
對于某個對齊組合a=
我們對機器翻譯訓練語料中的所有對齊組合a=
若可信對齊組合a=
如圖2所示,本文在漢英字對齊的基礎(chǔ)上,利用可信度概念,將語料中可信對齊組合的漢語部分合并成“詞”(圖中淺色對齊標示部分),非可信對齊部分保持單字不變(圖中黑色對齊標示部分)。我們將這種分詞方法稱為“基于可信對齊的分詞”。
方法的全部流程如下:
? 首先,將原始雙語訓練語料中的漢語部分按字進行切分,利用詞對齊工具得到訓練語料的基于字的對齊結(jié)果;
? 其次,取對齊結(jié)果中的所有可信對齊組合ai=
? 最后,將雙語訓練語料中所有候選詞字符集分別合并成詞,得到“分好詞”的新語料。
圖1展示了訓練語料中的一個句對的基于可信對齊的分詞結(jié)果。其中的中文句子含有漢字33個(不包括阿拉伯數(shù)字和標點符號),使用分詞結(jié)果識別出10個詞(不包括句號),共含漢字17個,占總字數(shù)的51.5%??梢钥闯?,基于可信對齊分詞方法的分詞召回率較低,遠不能滿足統(tǒng)計機器翻譯的需求。
從2.2節(jié)可以看出,可信對齊分詞方法具有較低的分詞召回率。為此,本文將可信對齊的分詞結(jié)果和基于單語知識的分詞結(jié)果進行融合,過程如圖2所示。
圖1 基于可信對齊的分詞結(jié)果
圖2 融合了單語知識的可信對齊分詞法示例
對于一個待分詞句子,分別利用可信對齊分詞方法和單語分詞方法對齊進行分詞,然后將兩種分詞結(jié)果用投票的方式進行合并。合并時,從左到右遍歷單語分詞結(jié)果中的每一個詞,如果遇到當前詞和可信對齊分詞結(jié)果中識別出的詞(淺色部分)不一致,則用可信對齊分詞的結(jié)果去修正單語分詞的結(jié)果。例如,“公司”是可信對齊分詞方法識別出的詞,因此單語分詞方法結(jié)果中的“集團公司”一詞將修正為“集團 公司”兩個詞。
為表述簡便,本文后續(xù)部分將可信對齊分詞與單語知識分詞融合的方法稱為“基于單語和雙語知識的分詞”。
在統(tǒng)計機器翻譯系統(tǒng)中,訓練語料、開發(fā)集語料和測試集語料的分詞需要保持一致,才可能得到較好的性能。然而,開發(fā)集語料和測試集語料中的中文源句子,由于缺乏與其平行的英語句子,使其無法直接應(yīng)用2.3節(jié)提出的基于可信對齊的分詞方法。因此,需要尋找一種新的分詞方法來對訓練和測試語料進行分詞,并且新方法應(yīng)滿足如下條件:(1)新方法中應(yīng)包含雙語知識信息; (2)新方法能對中文單語語料分詞。
本文通過使用條件隨機場分詞模型[6-8]來解決開發(fā)集和測試集的分詞問題。
? 通過本章2.3節(jié)描述的方法,從雙語訓練語料中得到“分好詞”的中文語料;
? 將該語料作為訓練語料,用條件隨機場訓練分詞工具;
由于使用了可信對齊分詞和單語知識分詞相結(jié)合的結(jié)果作為訓練語料,故在訓練得到的模型中一定包含雙語知識信息。而條件隨機場分詞模型本身可以對僅含中文的單語語料進行分詞。因此,通過上述方法得到的分詞工具滿足本文所提的條件。本文的實驗部分將以此分詞工具得到的分詞結(jié)果作為本文的最終分詞結(jié)果。
本文使用CRF++*httphttp://crfpp.sourceforge.net/作為條件隨機場模型的訓練工具。采用四字位標注法[9](見表1所示)和基于子串的序列化標注方法進行分詞[10],其中子串部分為基于規(guī)則識別出的英文單詞和表示數(shù)字的詞。分詞模板如表2所示。
表1 四字位標注集的定義
在四字位標注法中,用B表示詞首,I表示詞中,F(xiàn)表示詞尾,S表示單字詞。
表2 CRF分詞工具采用的模板
表2中表示單個字符作為特征,n=0表示當前字符,n=-1表示當前字符的前一個字符,n=1表示當前字符的后一個字符。CnCn+1表示相鄰的兩個字符組合作為特征。C-1C1表示當前字符的前后字符組合作為特征。F(Cn)的值表示該字符是否是漢字、標點或者子串。
本文利用人工切分過的1998年1至6月份的《人民日報》語料,作為基于單語知識的分詞工具的訓練語料,從LDC2003E14語料中選取了19萬句中英平行句對作為統(tǒng)計機器翻譯系統(tǒng)的訓練語料。使用NIST’06測試集作為系統(tǒng)的開發(fā)語料,NIST’08測試集作為測試語料。使用SRILM對Gigaword中的Xinhua部進行分訓練,得到了一個五元語法模型作為機器翻譯系統(tǒng)的語言模型。
本文用條件隨機場模型在上述《人民日報》的語料上訓練出一個分詞工具,成為CRF-Based。隨后在機器翻譯系統(tǒng)的訓練語料上,用GIZA++訓練得到漢語單字與英文單詞的對齊結(jié)果。然后用第二`節(jié)所述的方法訓練基于雙語知識的分詞工具。本文嘗試將可信對齊分詞的結(jié)果與不同單語分詞工具得到的結(jié)果相結(jié)合(CRF-Based、ICTCLAS*http://www.ictclas.org/、Stanford Chinese Segmenter*http://nlp.sttanford.edu/software/segmenter.shtml),訓練不同的基于雙語知識的分詞工具,并將其用于統(tǒng)計機器翻譯系統(tǒng)。
在機器翻譯系統(tǒng)方面,本文采用了一個類似Moses的基于短語的統(tǒng)計機器翻譯系統(tǒng),并采用最小錯誤率訓練方法(minimum error rate training,MERT)[11]進行參數(shù)訓練。最后用系統(tǒng)翻譯結(jié)果的BLEU得分[12]對系統(tǒng)性能做出評價。
本文首先使用《人民日報》1998年1至5月份人工切分過的語料作為CRF的訓練語料,訓練得到分詞模型CRF-Based,并使用《人民日報》6月份的語料對CRF-Based進行測試。表3給出了測試結(jié)果,其中F-score按照下列公式進行計算,β=1。
表3 CRF-Based 性能表
本文首先使用CRF-Based對統(tǒng)計機器翻譯使用的訓練集,開發(fā)集和測試集等語料進行分詞,構(gòu)建基于短語的統(tǒng)計機器翻譯系統(tǒng),將其作為基線系統(tǒng)。經(jīng)測試,基線系統(tǒng)的BLEU得分為21.82(如表4第一行所示)。
接下來,本文用2.4節(jié)所描述的CRF模板,以雙語語料的可信對齊分詞結(jié)果作為分詞訓練集,訓練得到基于可信對齊的CRF分詞模型,稱為AC-Based。我們用AC-Based對機器翻譯的訓練集,開發(fā)集和測試集進行重新分詞,該系統(tǒng)的BLEU得分為21.05(如表4第二行所示)??梢钥闯?,純粹的基于雙語知識的可信對齊分詞會產(chǎn)生大量的未識別字符,這些單字詞的存在,影響了詞對齊的質(zhì)量,進而損害了機器翻譯的性能。
根據(jù)2.3節(jié)所述的方法,本文將上述基于雙語知識的可信對齊的AC-Based分詞結(jié)果與基于單語知識的CRF-Based分詞結(jié)果相融合,并將其結(jié)果作為分詞工具訓練語料,利用2.4節(jié)所描述的模板訓練得到基于單語和雙語知識的分詞模型AC+CRF。并使用AC+CRF對機器翻譯使用的訓練集,開發(fā)集和測試集等語料進行分詞,系統(tǒng)的BLEU得分為22.46??梢?,使用本文所提的分詞方法,可以使統(tǒng)計機器翻譯系統(tǒng)的性能得到提升。
表4 各種分詞方法在SMT中的表現(xiàn)
為探討AC+CRF使機器翻譯性能提高的原因,我們將CRF-Based與AC+CRF的分詞結(jié)果進行了對比,如表5所示。
表5 CRF-Based與AC_CRF分詞示例
由表5可見, AC+CRF方法得到的分詞結(jié)果,能使?jié)h語詞和英文單詞之間的對應(yīng)關(guān)系更能形成一一對應(yīng)的關(guān)系。因此能夠得到比CRF-Based分詞更高的翻譯性能。
為了進一步驗證本方法的可擴展性,本文將基于雙語知識的可信對齊分詞結(jié)果與不同的單語的分詞工具分詞結(jié)果(ICTCLAS、Stanford Chinese Segmenter)相融合,分別訓練不同的分詞模型,并將這些模型用于統(tǒng)計機器翻譯系統(tǒng)訓練集,開發(fā)集和測試集的切分。表6給出了融合不同單語分詞模型的機器翻譯系統(tǒng)的性能,可以看出,無論是和哪種單語分詞工具相結(jié)合,基于單語和雙語知識分詞的系統(tǒng)總是優(yōu)于基于單語分詞工具的機器翻譯系統(tǒng)。
續(xù)表
AC+ICT為可信對齊結(jié)合ICTCLAS的結(jié)果,AC+PKU和AC+CTB分別為可信對齊結(jié)合Stanford Chinese Segmenter 中PKU模型和CTB模型的結(jié)果。
本文從漢英機器翻譯中的中文分詞工作入手,旨在尋找一種更適應(yīng)于機器翻譯系統(tǒng)的分詞方法。本文通過對基于單語知識的分詞和基于雙語可信對齊的分詞的進行了分析,提出了一種新的結(jié)合了單語和雙語知識的分詞方法。與傳統(tǒng)分詞方法相比,本文提出的分詞方法可以使?jié)h語詞與英文單詞間的對應(yīng)關(guān)系更加明確,具有更好的機器翻譯性能。
由于訓練模板的限制,我們提出的分詞模型并不能達到100%的準確率。其中包含的分詞錯誤仍然會影響機器翻譯的性能。另一方面,基于Lattice[13]的解碼已經(jīng)得到廣泛討論,基于Lattice的解碼方法可以擺脫機器翻譯解碼時對某一種分詞結(jié)果的依賴。因此,在未來的工作中,我們將嘗試將本文的分詞方法和基于Lattice的解碼相結(jié)合,以克服分詞錯誤對系統(tǒng)性能帶來的影響。
[1] Pi-Chuan Chang, Michel Galley, Christopher D. Manning. Optimizing Chinese word segmentationfor machine translation performance[C]// Proceedings of the Third Workshop on Statistical Machine Translation, 2008: 224-232.
[2] Ruiqiang Zhang, Keiji Yasuda, Eiichiro Sumita. Improved statistical machine translation by multiple Chinese word segmentation[C]// Proceedings of the Third Workshop on Statistical Machine Translation, 2008: 216-223.
[3] Yanjun Ma, Andy Way. Bilingually Motivated Domain-Adapted Word Segmentation for Statistical Machine Translation[C]// Proceedings of the 12th EACL, 2009: 549-557.
[4] Michael Paul, Andrew Finch, Eiichiro Sumita. Integration of Multiple Bilingually-Learned Segmentation Schemes into Statistical Machine Translation[C]// Proceedings of the Joint 5th Workshop on Statistical Machine Translation and MetricsMATR, 2010: 400-408.
[5] Philipp Koehn, Franz Josef Och, Daniel Marcu. Statistical Phrase-based translation[C]// Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003: 923-940.
[6] John D. Lafferty, Andrew McCallum, Fernando C. N. Pereira. Conditional Random Field: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings 18th International Conference on Machine Learning, 2001: 282-289.
[7] Fuchun Peng, Fangfang Feng, Andrew McCallum. Chinese segmentation and new word detection using Conditional Random Fields[C]// Proceedings of the 20th international conference on Computational Linguistics, 2004: 562-568.
[8] Jun-Sheng Zhou, Xin-Yu Dai, Rui-Yu Ni, et al.. A hybrid approach to Chinese word segmentation around CRFs[C]// Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing, 2005: 196-199.
[9] Franz Och. Minimum error rate training in statistical machine translation[C]// Proceedings of the 41st Annual Meeting of the Association for Computational, 2003.
[10] Kishore Papineni, Salim Roukos, ToddWard, et al.. BLEU: a Method for Automatic Evaluation of Machine Translation[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 311-318.
[11] Nianwen Xue, Libin Shen. Chinese word segmentation as LMR tagging[C]// Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, 2003: 176-179.
[12] 趙海, 揭春雨. 基于有效子串標注的中文分詞[J].中文信息學報, 2007, 21(5):8-13.
[13] Christopher Dyers, Smaranda Muresan, Philip Resnik. Generalizing word lattice translation[C]// Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, 2008: 1012-1020.