韋祥剛 趙足娥 吳年利 李培隆
摘 要: 長(zhǎng)距離調(diào)序由于缺少有效的描述而成為英語(yǔ)統(tǒng)計(jì)機(jī)器翻譯的一大挑戰(zhàn)。針對(duì)長(zhǎng)距離調(diào)序的可能途徑:預(yù)調(diào)序,提出了一種基于神經(jīng)網(wǎng)絡(luò)的英文機(jī)輔翻譯預(yù)調(diào)序模型。該模型在線性排序框架下結(jié)合神經(jīng)網(wǎng)絡(luò)建模,可以從大量樣本數(shù)據(jù)中抽取句法和語(yǔ)義等有用信息,以預(yù)測(cè)不同語(yǔ)言的語(yǔ)序差異。最后在中文到英文的翻譯機(jī)器和英文到中文的翻譯機(jī)器上對(duì)該模型進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型提高了系統(tǒng)性能,具有有效性。
關(guān)鍵詞: 神經(jīng)網(wǎng)絡(luò); 統(tǒng)計(jì)機(jī)器翻譯; 預(yù)調(diào)序模型; 長(zhǎng)距離調(diào)序
中圖分類號(hào): TN711?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)22?0104?03
Abstract: Long?distance sequencing has become a major challenge for English statistical machine translation due to the lack of effective description. A preorder model of English machine?aided translation based on neural network is proposed in this paper to solve the possible path preconditioning for solving long?distance order. The model is based on neural network modeling in the linear sorting framework, and can extract useful information such as syntax and semantics from a large number of sample data to predict the difference of word order in different languages. The experiment was carried out on Chinese?English translation machine and English?Chinese translation machine. The experimental results show that the model improves the system performance and is effective.
Keywords: neural network; statistical machine translation; preorder model; long?distance preorder
0 引 言
將短語(yǔ)作為基本翻譯單元的統(tǒng)計(jì)機(jī)器翻譯模型[1]可以對(duì)局部調(diào)序現(xiàn)象進(jìn)行自動(dòng)記錄,而長(zhǎng)距離調(diào)序由于缺少有效的描述成為統(tǒng)計(jì)機(jī)器翻譯的一大挑戰(zhàn)。文獻(xiàn)[2?4]研究表明,解決長(zhǎng)距離調(diào)序的可能途徑是預(yù)調(diào)序。針對(duì)預(yù)調(diào)序,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的英文機(jī)輔翻譯預(yù)調(diào)序模型。該模型是在線性排序框架下結(jié)合神經(jīng)網(wǎng)絡(luò)建模,可以從大量樣本數(shù)據(jù)中抽取句法和語(yǔ)義等有用信息,以預(yù)測(cè)不同語(yǔ)言的語(yǔ)序差異。
1 模 型
1.1 詞匯向量表示
目前機(jī)器翻譯的重難點(diǎn)為調(diào)序,本文在線性排序框架下結(jié)合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞匯向量表示。Bengio等為改善傳統(tǒng)語(yǔ)言處理系統(tǒng)的高維詞匯推廣能力弱的缺點(diǎn)[5],提出基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型,將高維詞匯轉(zhuǎn)化為低維稠密向量并進(jìn)行判別訓(xùn)練,相似詞匯被映射到低維相似點(diǎn)。繼而基于負(fù)抽樣的快速學(xué)習(xí)法被提出[6],其結(jié)構(gòu)如圖1所示。神經(jīng)網(wǎng)絡(luò)通過(guò)查找表[LOOKUP]搜索得到長(zhǎng)度為[2n+1]的詞匯[w-n,…,w0,…,wn]的向量表示[vwi],并將這些向量相互連接后能夠獲取到神經(jīng)網(wǎng)絡(luò)的輸出,同時(shí)經(jīng)過(guò)線性層l1,正切雙曲層[tanh]以及線性層l2,如下:
1.3 預(yù)調(diào)序模型
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的詞匯向量蘊(yùn)含的豐富信息能夠預(yù)測(cè)機(jī)器翻譯次序。因此,本文提出基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型,其在線性調(diào)序框架的基礎(chǔ)上,進(jìn)一步將詞匯調(diào)序問(wèn)題分解為多個(gè)兩兩排序的子問(wèn)題,通過(guò)多層神經(jīng)網(wǎng)絡(luò)方法來(lái)對(duì)每一對(duì)詞語(yǔ)的排序進(jìn)行打分。
本模型對(duì)句子[src=w1,w2,…,wn]的可能調(diào)序結(jié)果π給出的分?jǐn)?shù),如下:
2 訓(xùn) 練
2.1 獲取調(diào)序訓(xùn)練數(shù)據(jù)
源語(yǔ)句與目標(biāo)語(yǔ)句分別為e,f,其詞對(duì)齊關(guān)系為a,其組成有詞對(duì)齊的雙語(yǔ)句(e,f,a),本文模型的訓(xùn)練樣本皆從詞對(duì)齊雙語(yǔ)句中獲取。
本文采用交叉連接數(shù)[8]衡量調(diào)序結(jié)果的優(yōu)劣,即訓(xùn)練時(shí)目標(biāo)的排序?yàn)榻徊孢B接數(shù)最少的重排序π*,如下:
2.2 參數(shù)學(xué)習(xí)
對(duì)參數(shù)進(jìn)行訓(xùn)練以使得該模型對(duì)預(yù)調(diào)序具有正確的預(yù)測(cè)。需要訓(xùn)練的參數(shù)為θ,訓(xùn)練式(9)損失函數(shù)使其最小化,其中π為所有排序中不同于π*分?jǐn)?shù)最高的重排序,并采用梯度下降算法對(duì)該式進(jìn)行優(yōu)化。
3 實(shí)驗(yàn)分析
3.1 實(shí)驗(yàn)樣本數(shù)據(jù)
模型實(shí)驗(yàn)所采用的數(shù)據(jù)分為三種,分別為單語(yǔ)數(shù)據(jù)、雙語(yǔ)數(shù)據(jù)和測(cè)試數(shù)據(jù)。
單語(yǔ)文本用于訓(xùn)練詞匯向量表示和語(yǔ)言模型;雙語(yǔ)數(shù)據(jù)用于訓(xùn)練預(yù)調(diào)序模型和翻譯模型;測(cè)試數(shù)據(jù),用于評(píng)價(jià)翻譯效果。兩個(gè)基準(zhǔn)系統(tǒng)分別為:用于驗(yàn)證預(yù)調(diào)序?qū)Ψg效果影響未經(jīng)預(yù)調(diào)序的翻譯系統(tǒng);用于驗(yàn)證使用神經(jīng)網(wǎng)絡(luò)模型對(duì)翻譯效果影響的基于稀疏特征輸入的預(yù)調(diào)序翻譯系統(tǒng)。本文使用詞匯向量長(zhǎng)度為100,神經(jīng)網(wǎng)絡(luò)輸入為5,隱含層為50,學(xué)習(xí)率初始值為0.1。
3.2 實(shí)驗(yàn)結(jié)果
分別在中文到英文的翻譯機(jī)器和英文到中文的翻譯機(jī)器上,對(duì)本文所提出的模型進(jìn)行了實(shí)驗(yàn)。使用BLEU?4[9]為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表1~表4所示。endprint
未使用預(yù)調(diào)序的翻譯系統(tǒng)、只使用稀疏特征預(yù)調(diào)序的翻譯系統(tǒng)和基于神經(jīng)網(wǎng)絡(luò)預(yù)調(diào)序的翻譯系統(tǒng)分別用NO PR,Sparse PR,NN PR表示。從表中可看出,本文所提出的模型的性能相比于傳統(tǒng)模型取得了比較顯著的提高。
4 結(jié) 語(yǔ)
針對(duì)解決長(zhǎng)距離調(diào)序的可能途徑預(yù)調(diào)序,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的英文機(jī)輔翻譯預(yù)調(diào)序模型。該模型是在線性排序框架下結(jié)合神經(jīng)網(wǎng)絡(luò)建模,可以從大量樣本數(shù)據(jù)中抽取句法和語(yǔ)義等有用信息,以預(yù)測(cè)不同語(yǔ)言的語(yǔ)序差異。最后在中文到英文的翻譯機(jī)器和英文到中文的翻譯機(jī)器上,對(duì)該模型進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型提高了系統(tǒng)性能,具有有效性。
參考文獻(xiàn)
[1] 王慧蘭,張克亮.面向機(jī)器翻譯的句類依存樹(shù)庫(kù)構(gòu)建及應(yīng)用[J].中文信息學(xué)報(bào),2015,29(1):75?81.
[2] 烏蘭,達(dá)胡白乙拉,關(guān)曉炟,等.蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)樹(shù)的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2014,28(5):162?169.
[3] PAPINENI K, ROUKOS S, WARD T, et al. BLEU: a method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. PX, USA: [s.n.], 2002: 311?318.
[4] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [C]// Proceedings of International Conference on Learning Representations. CA, USA: ICLR, 2015: 111?118.
[5] 華卻才讓.基于樹(shù)到串藏語(yǔ)機(jī)器翻譯若干關(guān)鍵技術(shù)研究[D].西安:陜西師范大學(xué),2014.
[6] WU D. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J]. Computational linguistics, 2014, 23(3): 377?403.
[7] SOCHER R, LIN C C, MANNING C, et al. Parsing natural scenes and natural language with recursive neural networks [C]// Proceedings of the 28th International Conference on Machine Learning. Macro: ICML, 2011: 12?19.
[8] DEVLIN J, ZBIB R, HUANG Z, et al. Fast and robust neural network joint models for statistical machine translation [C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. San Juan, Puerto Rico: [s.n.], 2014: 22?27.
[9] AULI M, GALLEY M, QUIRK C, et al. Joint language and translation modeling with recurrent neural networks [C]// Conference on Empirical Methods on Natural Language Processing. Austin: EMNLP, 2013: 18?24.endprint