摘要:詞對(duì)齊研究是多文種信息處理工作的一項(xiàng)不容忽略的基礎(chǔ)性研究?jī)?nèi)容。通過針對(duì)中文和蒙古文詞對(duì)齊研究中存在的形態(tài)和詞序不對(duì)稱以及支撐詞對(duì)齊研究的對(duì)齊語料缺乏問題,開展融合語言信息的中蒙混合詞對(duì)齊模型構(gòu)建方法研究。利用產(chǎn)生式詞對(duì)齊結(jié)果以及中蒙兩種語言的語言信息作為潛特征,建立高質(zhì)量的融合語言信息的中蒙混合詞對(duì)齊模型。實(shí)驗(yàn)結(jié)果證明,該文提出方法對(duì)于利用可比語料抽取對(duì)齊語料是可行的。
關(guān)鍵詞:句子對(duì)齊;短語翻譯;中文短語
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)07-1519-05
自然語言信息處理技術(shù)的快速發(fā)展,加上互聯(lián)網(wǎng)的廣泛應(yīng)用和硬件性能的高速提升,已經(jīng)可以對(duì)更多的研究任務(wù)、更復(fù)雜的自然語言以及更大規(guī)模的數(shù)據(jù)進(jìn)行分析與實(shí)踐,尤其是為機(jī)器翻譯(Machine Translation)的發(fā)展注入了新的活力。互譯語言之間的詞對(duì)齊(Word Alignment)研究作為機(jī)器翻譯領(lǐng)域的重要研究?jī)?nèi)容,具有重要的學(xué)術(shù)意義和潛在的應(yīng)用價(jià)值,是一項(xiàng)復(fù)雜而具有挑戰(zhàn)性的工作。首先,對(duì)齊概念已經(jīng)超過一般意義上的詞與詞之間的對(duì)齊關(guān)系,而將其研究范疇擴(kuò)展到詞與短語、短語與詞以及短語與短語之間的對(duì)齊關(guān)系的確立問題,研究者認(rèn)知受限和語言自身動(dòng)態(tài)演變等因素使得其表述工作相當(dāng)困難。其次,這個(gè)課題交叉于傳統(tǒng)的語言學(xué)與計(jì)算語言學(xué)之間,需要有一定的語言學(xué)知識(shí)和計(jì)算語言學(xué)理論基礎(chǔ)。隨著自然語言信息處理技術(shù)的不斷深入,詞對(duì)齊的研究正在吸引著自然語言處理領(lǐng)域研究者們的強(qiáng)烈興趣,促使越來越多的人關(guān)注詞對(duì)齊質(zhì)量的提高問題[1-4]。除了機(jī)器翻譯以外,雙語詞典編纂、詞義消歧、跨語言信息檢索、語言教學(xué)等很多與雙語處理相關(guān)的應(yīng)用領(lǐng)域也都需要雙語詞匯間的對(duì)應(yīng)關(guān)系[5,6]。詞語對(duì)齊是包括蒙古文信息處理工作在內(nèi)的諸多文種信息處理工作的一項(xiàng)不容忽略的基礎(chǔ)性工作[7]。
1 基于可比語料的中蒙句對(duì)齊語料
隨著網(wǎng)絡(luò)資源的豐富及信息檢索技術(shù)的發(fā)展,網(wǎng)絡(luò)資源在雙語平行語料的構(gòu)建研究中也充分得到了體現(xiàn),中文-蒙古文之間亦是如此。但是,目前可收集到的中文-蒙古文可比語料存在比較嚴(yán)重的噪聲。在前期中文-蒙古文可比語料的建立過程中發(fā)現(xiàn),從同一個(gè)網(wǎng)站上可以獲取到的中蒙對(duì)照內(nèi)容比較少,而通過蒙古文網(wǎng)頁(yè)標(biāo)題內(nèi)容搜索到的相對(duì)應(yīng)的中文網(wǎng)頁(yè)內(nèi)容又比較多,而這樣獲取到的中文-蒙古文雙語對(duì)照的文本并不是完全對(duì)齊的,可能是片段對(duì)齊(Fragments Alignment)或是非連續(xù)對(duì)齊。如圖1所示為從網(wǎng)上獲取的中文-蒙古文可比語料以及可以獲取得到的對(duì)齊資源(非劃線部分都屬于噪聲)。對(duì)目前搜集到的蒙古文和中文對(duì)照的雙語平行網(wǎng)頁(yè)文本進(jìn)行分析,發(fā)現(xiàn)60%以上的平行網(wǎng)頁(yè)中存在蒙古文句子和中文句子間明顯不平行的問題,即中文網(wǎng)頁(yè)文本內(nèi)容與蒙古文網(wǎng)頁(yè)文本內(nèi)容基本相似,但是從句子對(duì)齊角度來看,中文網(wǎng)頁(yè)文本中的句子不與蒙古文網(wǎng)頁(yè)文本句子完全對(duì)齊,存在參差對(duì)齊的問題。因此,如何利用非平行的可比語料,抽取較高質(zhì)量的中-蒙對(duì)齊語料是首要解決的關(guān)鍵問題。
2 融合句法信息的雙語詞對(duì)齊
2.1 蒙古文復(fù)合詞識(shí)別及標(biāo)注方法
考慮到中文和蒙古文之間的詞對(duì)齊存在的“多對(duì)多”的情況,蒙古文復(fù)合詞是所要引入語言信息特征中的重要特征之一[8]。從語言學(xué)角度考慮,復(fù)合詞(compound words)是指表達(dá)一定語義的,搭配較為緊密的,由多個(gè)詞語構(gòu)成的語法單位,包括短語、固定搭配、習(xí)慣用語以及由多詞構(gòu)成的命名實(shí)體等。如
①蒙古文復(fù)合詞的定義
如果一個(gè)詞單元A與另外一個(gè)詞單元B明顯相關(guān),或假設(shè)詞單元A經(jīng)常出現(xiàn)在詞單元B的上下文中,那么(A,B)為復(fù)合詞。復(fù)合詞的長(zhǎng)度不僅限制在2個(gè)詞以內(nèi),對(duì)一些命名實(shí)體建立了專門的命名實(shí)體庫(kù),通過后期利用Web資源可以擴(kuò)充。
②利用Web蒙古文單語資源,采用統(tǒng)計(jì)關(guān)聯(lián)度計(jì)算方法抽取相應(yīng)的復(fù)合詞
從表2實(shí)驗(yàn)結(jié)果可以看出,CRFs方法得到的準(zhǔn)確率和召回率都是最高的,其次是MEM模型。盡管PSMT方法得到的準(zhǔn)確率比LLR方法高,但是它得到的召回率卻比LLR方法低。具體分析來看,MEM和CRFs模型都屬于判別式模型,而PSMT和LLR是基于產(chǎn)生式方法的,說明面對(duì)語料稀缺的中蒙對(duì)齊問題,判別式模型較產(chǎn)生式模型可以取得更高的結(jié)果。另外,PSMT方法之所以得到最低的召回率值的原因可能是因?yàn)長(zhǎng)LR統(tǒng)計(jì)量的方法、CRFs模型以及MSM方法首先都需要對(duì)短語進(jìn)行切分,對(duì)沒有意義的短語進(jìn)行了過濾,而PSMT方法并沒有這一步的處理。
4 結(jié)論
本文介紹了一種利用中蒙網(wǎng)頁(yè)可比語料抽取對(duì)齊單元的方法。具體地,針對(duì)句子對(duì)齊語料的獲取,提出基于向量空間模型的句子互譯相似度計(jì)算方法,將源語言和目標(biāo)語言句子分別形式化表示為向量空間模型,通過源語言特征詞語項(xiàng)和目標(biāo)語言特征詞語項(xiàng)之間的互譯信息,將源語言向量空間和目標(biāo)語言向量空間關(guān)聯(lián)起來,最后抽取出滿足本文要求的句子對(duì)齊單元,針對(duì)短語對(duì)齊語料的獲取,采用條件隨機(jī)場(chǎng)模型計(jì)算短語翻譯概率,并綜合使用了詞匯概率、短語長(zhǎng)度比例、短語包含(或不被包含)詞數(shù)、詞性以及構(gòu)詞等多種特征,抽取出對(duì)齊的短語單元。值得注意的一點(diǎn)是,在整個(gè)語料的建設(shè)過程中資源的利用是可重復(fù)的、迭代的、不斷更新的。實(shí)驗(yàn)結(jié)果證明,該文提出的思想和方法是可行的,并且是有正確性保證的,這樣的工作也會(huì)對(duì)機(jī)器翻譯以及雙語詞典編纂有重要的影響。
參考文獻(xiàn):
[1] Ashish Vaswani Liang Huang David Chiang. Smaller Alignment Models for Better Translations: Unsupervised Word Alignment with the l0-norm[C]. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 311–319, Jeju, Republic of Korea, 8-14 July 2012.
[2] Vamshi Ambati, Stephan Vogel and Jaime Carbonell. Active Learning-Based Elicitation for Semi-Supervised Word Alignment[C]. Proceedings of the ACL 2010 Conference Short Papers, pages 365–370, Uppsala, Sweden, 11-16 July 2010.
[3] ElifEyioz, Daniel Gildea, Kemal Oflazer. Simultaneous Word-Morpheme Alignment for Statistical Machine Translation[C]. Proceedings of NAACL-HLT 2013, pages 32–40, Atlanta, Georgia, 9–14 June 2013.
[4] Robert C. Moore, A Discriminative Framework for Bilingual Word Alignment[C],Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), pages 81–88, Vancouver, October 2005.
[5] Robert C. Moore Wen-tau Yih Andreas Bode. Improved Discriminative Bilingual Word Alignment[C]. Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 513–520, Sydney, July 2006.
[6] Abraham Ittycheriah and Salim Roukos, A Maximum Entropy Word Aligner for Arabic-English Machine Translation[C], Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), pages 89–96, Vancouver, October 2005.
[7] Necip Fazil Ayan and Bonnie J. Dorr, A Maximum Entropy Approach to Combining Word Alignments[C], Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 96–103, New York, June 2006.
[8] Yang Liu, Qun Liu and Shouxun Lin, Log-linear Models for Word Alignment[C], Proceedings of the 43rd Annual Meeting of the ACL, pages 459–466, Ann Arbor, June 2005.
[9] 吳宏林, 劉紹明, 于戈. 基于加權(quán)二部圖的漢日詞對(duì)齊[J]. 中文信息學(xué)報(bào), 2007,1(5).