融合句法信息的雙語詞對(duì)齊方法研究

2014-04-23 10:09:08張貫虹

電腦知識(shí)與技術(shù) 2014年7期

摘要：詞對(duì)齊研究是多文種信息處理工作的一項(xiàng)不容忽略的基礎(chǔ)性研究?jī)?nèi)容。通過針對(duì)中文和蒙古文詞對(duì)齊研究中存在的形態(tài)和詞序不對(duì)稱以及支撐詞對(duì)齊研究的對(duì)齊語料缺乏問題，開展融合語言信息的中蒙混合詞對(duì)齊模型構(gòu)建方法研究。利用產(chǎn)生式詞對(duì)齊結(jié)果以及中蒙兩種語言的語言信息作為潛特征，建立高質(zhì)量的融合語言信息的中蒙混合詞對(duì)齊模型。實(shí)驗(yàn)結(jié)果證明，該文提出方法對(duì)于利用可比語料抽取對(duì)齊語料是可行的。

關(guān)鍵詞：句子對(duì)齊；短語翻譯；中文短語

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）07-1519-05

自然語言信息處理技術(shù)的快速發(fā)展，加上互聯(lián)網(wǎng)的廣泛應(yīng)用和硬件性能的高速提升，已經(jīng)可以對(duì)更多的研究任務(wù)、更復(fù)雜的自然語言以及更大規(guī)模的數(shù)據(jù)進(jìn)行分析與實(shí)踐，尤其是為機(jī)器翻譯（Machine Translation）的發(fā)展注入了新的活力。互譯語言之間的詞對(duì)齊（Word Alignment）研究作為機(jī)器翻譯領(lǐng)域的重要研究?jī)?nèi)容，具有重要的學(xué)術(shù)意義和潛在的應(yīng)用價(jià)值，是一項(xiàng)復(fù)雜而具有挑戰(zhàn)性的工作。首先，對(duì)齊概念已經(jīng)超過一般意義上的詞與詞之間的對(duì)齊關(guān)系，而將其研究范疇擴(kuò)展到詞與短語、短語與詞以及短語與短語之間的對(duì)齊關(guān)系的確立問題，研究者認(rèn)知受限和語言自身動(dòng)態(tài)演變等因素使得其表述工作相當(dāng)困難。其次，這個(gè)課題交叉于傳統(tǒng)的語言學(xué)與計(jì)算語言學(xué)之間，需要有一定的語言學(xué)知識(shí)和計(jì)算語言學(xué)理論基礎(chǔ)。隨著自然語言信息處理技術(shù)的不斷深入，詞對(duì)齊的研究正在吸引著自然語言處理領(lǐng)域研究者們的強(qiáng)烈興趣，促使越來越多的人關(guān)注詞對(duì)齊質(zhì)量的提高問題[1-4]。除了機(jī)器翻譯以外，雙語詞典編纂、詞義消歧、跨語言信息檢索、語言教學(xué)等很多與雙語處理相關(guān)的應(yīng)用領(lǐng)域也都需要雙語詞匯間的對(duì)應(yīng)關(guān)系[5，6]。詞語對(duì)齊是包括蒙古文信息處理工作在內(nèi)的諸多文種信息處理工作的一項(xiàng)不容忽略的基礎(chǔ)性工作[7]。

1 基于可比語料的中蒙句對(duì)齊語料

隨著網(wǎng)絡(luò)資源的豐富及信息檢索技術(shù)的發(fā)展，網(wǎng)絡(luò)資源在雙語平行語料的構(gòu)建研究中也充分得到了體現(xiàn)，中文-蒙古文之間亦是如此。但是，目前可收集到的中文-蒙古文可比語料存在比較嚴(yán)重的噪聲。在前期中文-蒙古文可比語料的建立過程中發(fā)現(xiàn)，從同一個(gè)網(wǎng)站上可以獲取到的中蒙對(duì)照內(nèi)容比較少，而通過蒙古文網(wǎng)頁(yè)標(biāo)題內(nèi)容搜索到的相對(duì)應(yīng)的中文網(wǎng)頁(yè)內(nèi)容又比較多，而這樣獲取到的中文-蒙古文雙語對(duì)照的文本并不是完全對(duì)齊的，可能是片段對(duì)齊（Fragments Alignment）或是非連續(xù)對(duì)齊。如圖1所示為從網(wǎng)上獲取的中文-蒙古文可比語料以及可以獲取得到的對(duì)齊資源（非劃線部分都屬于噪聲）。對(duì)目前搜集到的蒙古文和中文對(duì)照的雙語平行網(wǎng)頁(yè)文本進(jìn)行分析，發(fā)現(xiàn)60%以上的平行網(wǎng)頁(yè)中存在蒙古文句子和中文句子間明顯不平行的問題，即中文網(wǎng)頁(yè)文本內(nèi)容與蒙古文網(wǎng)頁(yè)文本內(nèi)容基本相似，但是從句子對(duì)齊角度來看，中文網(wǎng)頁(yè)文本中的句子不與蒙古文網(wǎng)頁(yè)文本句子完全對(duì)齊，存在參差對(duì)齊的問題。因此，如何利用非平行的可比語料，抽取較高質(zhì)量的中-蒙對(duì)齊語料是首要解決的關(guān)鍵問題。

2 融合句法信息的雙語詞對(duì)齊

2.1 蒙古文復(fù)合詞識(shí)別及標(biāo)注方法

考慮到中文和蒙古文之間的詞對(duì)齊存在的“多對(duì)多”的情況，蒙古文復(fù)合詞是所要引入語言信息特征中的重要特征之一[8]。從語言學(xué)角度考慮，復(fù)合詞（compound words）是指表達(dá)一定語義的，搭配較為緊密的，由多個(gè)詞語構(gòu)成的語法單位，包括短語、固定搭配、習(xí)慣用語以及由多詞構(gòu)成的命名實(shí)體等。如（中華人民共和國(guó)）。在詞對(duì)齊過程中，復(fù)合詞是一個(gè)整體，表達(dá)一個(gè)完整的意思，應(yīng)以整體為一個(gè)單元看待。

①蒙古文復(fù)合詞的定義

如果一個(gè)詞單元A與另外一個(gè)詞單元B明顯相關(guān)，或假設(shè)詞單元A經(jīng)常出現(xiàn)在詞單元B的上下文中，那么（A，B）為復(fù)合詞。復(fù)合詞的長(zhǎng)度不僅限制在2個(gè)詞以內(nèi)，對(duì)一些命名實(shí)體建立了專門的命名實(shí)體庫(kù)，通過后期利用Web資源可以擴(kuò)充。

②利用Web蒙古文單語資源，采用統(tǒng)計(jì)關(guān)聯(lián)度計(jì)算方法抽取相應(yīng)的復(fù)合詞

從表2實(shí)驗(yàn)結(jié)果可以看出，CRFs方法得到的準(zhǔn)確率和召回率都是最高的，其次是MEM模型。盡管PSMT方法得到的準(zhǔn)確率比LLR方法高，但是它得到的召回率卻比LLR方法低。具體分析來看，MEM和CRFs模型都屬于判別式模型，而PSMT和LLR是基于產(chǎn)生式方法的，說明面對(duì)語料稀缺的中蒙對(duì)齊問題，判別式模型較產(chǎn)生式模型可以取得更高的結(jié)果。另外，PSMT方法之所以得到最低的召回率值的原因可能是因?yàn)長(zhǎng)LR統(tǒng)計(jì)量的方法、CRFs模型以及MSM方法首先都需要對(duì)短語進(jìn)行切分，對(duì)沒有意義的短語進(jìn)行了過濾，而PSMT方法并沒有這一步的處理。

4 結(jié)論

本文介紹了一種利用中蒙網(wǎng)頁(yè)可比語料抽取對(duì)齊單元的方法。具體地，針對(duì)句子對(duì)齊語料的獲取，提出基于向量空間模型的句子互譯相似度計(jì)算方法，將源語言和目標(biāo)語言句子分別形式化表示為向量空間模型，通過源語言特征詞語項(xiàng)和目標(biāo)語言特征詞語項(xiàng)之間的互譯信息，將源語言向量空間和目標(biāo)語言向量空間關(guān)聯(lián)起來，最后抽取出滿足本文要求的句子對(duì)齊單元，針對(duì)短語對(duì)齊語料的獲取，采用條件隨機(jī)場(chǎng)模型計(jì)算短語翻譯概率，并綜合使用了詞匯概率、短語長(zhǎng)度比例、短語包含（或不被包含）詞數(shù)、詞性以及構(gòu)詞等多種特征，抽取出對(duì)齊的短語單元。值得注意的一點(diǎn)是，在整個(gè)語料的建設(shè)過程中資源的利用是可重復(fù)的、迭代的、不斷更新的。實(shí)驗(yàn)結(jié)果證明，該文提出的思想和方法是可行的，并且是有正確性保證的，這樣的工作也會(huì)對(duì)機(jī)器翻譯以及雙語詞典編纂有重要的影響。

參考文獻(xiàn)：

[1] Ashish Vaswani Liang Huang David Chiang. Smaller Alignment Models for Better Translations： Unsupervised Word Alignment with the l0-norm[C]. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics， pages 311–319， Jeju， Republic of Korea， 8-14 July 2012.

[2] Vamshi Ambati， Stephan Vogel and Jaime Carbonell. Active Learning-Based Elicitation for Semi-Supervised Word Alignment[C]. Proceedings of the ACL 2010 Conference Short Papers， pages 365–370， Uppsala， Sweden， 11-16 July 2010.

[3] ElifEyioz， Daniel Gildea， Kemal Oflazer. Simultaneous Word-Morpheme Alignment for Statistical Machine Translation[C]. Proceedings of NAACL-HLT 2013， pages 32–40， Atlanta， Georgia， 9–14 June 2013.

[4] Robert C. Moore， A Discriminative Framework for Bilingual Word Alignment[C]，Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing （HLT/EMNLP）， pages 81–88， Vancouver， October 2005.

[5] Robert C. Moore Wen-tau Yih Andreas Bode. Improved Discriminative Bilingual Word Alignment[C]. Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL， pages 513–520， Sydney， July 2006.

[6] Abraham Ittycheriah and Salim Roukos， A Maximum Entropy Word Aligner for Arabic-English Machine Translation[C]， Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing （HLT/EMNLP）， pages 89–96， Vancouver， October 2005.

[7] Necip Fazil Ayan and Bonnie J. Dorr， A Maximum Entropy Approach to Combining Word Alignments[C]， Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL， pages 96–103， New York， June 2006.

[8] Yang Liu， Qun Liu and Shouxun Lin， Log-linear Models for Word Alignment[C]， Proceedings of the 43rd Annual Meeting of the ACL， pages 459–466， Ann Arbor， June 2005.

[9] 吳宏林，劉紹明，于戈. 基于加權(quán)二部圖的漢日詞對(duì)齊[J]. 中文信息學(xué)報(bào)， 2007，1（5）.

電腦知識(shí)與技術(shù)2014年7期

電腦知識(shí)與技術(shù)的其它文章: VPN在中小型企事業(yè)單位中的應(yīng)用研究; 基于云計(jì)算的高職院校共享型專業(yè)資源庫(kù)規(guī)劃與建設(shè); 基于ZigBee技術(shù)的教學(xué)樓智慧照明控制系統(tǒng)的設(shè)計(jì); 基于XML的電子商務(wù)數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); 我院門診醫(yī)生站應(yīng)用中存在的問題與思考; 信息化技術(shù)與中國(guó)華僑歷史博物館

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合句法信息的雙語詞對(duì)齊方法研究