国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)綜述

2014-04-29 00:44:03崔磊周明
關(guān)鍵詞:雙語短語混合

崔磊 周明

摘 要:統(tǒng)計(jì)機(jī)器翻譯的準(zhǔn)確性在很大程度上取決于翻譯建模的質(zhì)量,而翻譯建模往往依賴于數(shù)據(jù)的分布。通常上,大多數(shù)機(jī)器學(xué)習(xí)任務(wù)會假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是獨(dú)立同分布的,然而在實(shí)際的系統(tǒng)中,這種假設(shè)未必成立。因此,為了達(dá)到性能的最優(yōu),需要根據(jù)數(shù)據(jù)分布的情況對模型進(jìn)行適當(dāng)?shù)倪w移。近年來,領(lǐng)域自適應(yīng)技術(shù)成為統(tǒng)計(jì)機(jī)器翻譯研究中的一個熱點(diǎn)話題,目的在于解決訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的領(lǐng)域分布不一致問題。本文介紹了幾類流行的統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)方法,并對未來的研究提出一些展望。

關(guān)鍵詞:統(tǒng)計(jì)機(jī)器翻譯;領(lǐng)域自適應(yīng)

中圖分類號:TP391.41 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2014)06-

Abstract: Statistical Machine Translation (SMT) depends largely on the performance of translation modeling, which further relies on data distribution. Usually, many machine learning tasks assume that the data distributions of training and testing domains are similar. However, this assumption does not hold for real world SMT systems. Therefore, we need to adapt the models according to the data distribution in order to optimize the performance. Recently, domain adaptation is an active topic in SMT and aims to alleviate the domain mismatch between training and testing data. In this paper, we introduce several popular methods in domain adaptation for statistical machine translation and discuss some future work in this area.

Keywords: Statistical Machine Translation; Domain Adaptation

0 引 言

機(jī)器翻譯又稱為自動翻譯,是利用計(jì)算機(jī)程序?qū)⑽淖謴囊环N自然語言(源語言)翻譯成另一種自然語言(目標(biāo)語言)的處理過程。這是自然語言處理的一個分支,與計(jì)算語言學(xué)、自然語言理解之間存在著密不可分的關(guān)系。

機(jī)器翻譯的方法主要可以分為基于規(guī)則的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法和基于統(tǒng)計(jì)的機(jī)器翻譯方法。目前,統(tǒng)計(jì)機(jī)器翻譯是非限定領(lǐng)域機(jī)器翻譯中性能較佳的一種方法。統(tǒng)計(jì)機(jī)器翻譯的基本思想是通過對大量的雙語對照語料進(jìn)行統(tǒng)計(jì)分析,構(gòu)建統(tǒng)計(jì)翻譯模型,進(jìn)而使用此模型完成翻譯。隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,人們獲取信息的方式也發(fā)生了很大變化?;ヂ?lián)網(wǎng)上有大量的信息以不同的語言為載體,這為統(tǒng)計(jì)機(jī)器翻譯的研究提供了充足的數(shù)據(jù)支持。與此同時,隨著統(tǒng)計(jì)機(jī)器翻譯研究的深入,其性能及實(shí)用性也獲得了較大提升,因而機(jī)器翻譯技術(shù)的受眾正日漸增多,其應(yīng)用亦越來越廣泛。通常來講,一個成型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)使用了大規(guī)模的雙語對照語料做訓(xùn)練,而且這些數(shù)據(jù)卻常常來自于不同領(lǐng)域,具體則包括了政治、財(cái)經(jīng)、軍事、科技、體育、教育和娛樂等各大門類在內(nèi)。除此之外,不同領(lǐng)域的語料涵蓋了不同的文體,相應(yīng)地包括著書面文體、口語文體和網(wǎng)絡(luò)語言等。這種領(lǐng)域和文體的差異性給統(tǒng)計(jì)機(jī)器翻譯的研究將會帶來兩個問題:其一,使用某一個領(lǐng)域或文體的雙語語料訓(xùn)練得到的機(jī)器翻譯系統(tǒng)在翻譯同一領(lǐng)域的文本時效果最佳,而當(dāng)翻譯其他領(lǐng)域的文本時結(jié)果則常常不盡如人意,有時的翻譯結(jié)果甚至不可接受,本文即將這種問題稱為“領(lǐng)域間的自適應(yīng)問題”。其二,使用多領(lǐng)域混合的雙語語料訓(xùn)練得到的機(jī)器翻譯系統(tǒng)的通用性雖然較好,但由于多個領(lǐng)域數(shù)據(jù)的相互影響以及相互制約,系統(tǒng)在某一特定領(lǐng)域往往無法達(dá)到最佳效果,在此則將這種問題稱為“領(lǐng)域內(nèi)的自適應(yīng)問題”。在統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域,已經(jīng)研發(fā)了一些針對領(lǐng)域自適應(yīng)問題的剞劂方法,但是其中的大部分僅能用于解決簡單學(xué)習(xí)問題(如分類或回歸)的計(jì)算實(shí)現(xiàn),而對于統(tǒng)計(jì)機(jī)器翻譯這種結(jié)構(gòu)化學(xué)習(xí)問題,目前的嘗試方法還較為有限,也隨即成為亟待研究的熱點(diǎn)問題之一。

1 統(tǒng)計(jì)機(jī)器翻譯背景

2.1基于數(shù)據(jù)選擇的方法

基于數(shù)據(jù)選擇方法的根本思想在于,選擇和目標(biāo)領(lǐng)域文本“相似”的源領(lǐng)域數(shù)據(jù)進(jìn)行模型的訓(xùn)練,但相似度函數(shù)需要自行定義,如此即可使訓(xùn)練得到的模型在目標(biāo)領(lǐng)域的預(yù)測能力更好。

Eck等人于2004年提出了基于信息檢索的語言模型自適應(yīng)[3],并將這種方法用于統(tǒng)計(jì)機(jī)器翻譯。實(shí)現(xiàn)過程是:通過簡單TF-IDF方法,可以使用測試數(shù)據(jù)的翻譯結(jié)果重新選擇語言模型的訓(xùn)練數(shù)據(jù),在此基礎(chǔ)上,又通過訓(xùn)練新的語言模型第二次進(jìn)行翻譯解碼。Zhao等人于2004相應(yīng)地也提出了類似的方法[4],具體是將新訓(xùn)練的語言模型和舊的語言模型進(jìn)行插值,并以其用于第二次翻譯解碼。

進(jìn)一步地,Lü等人則于2007年介紹了離線和在線的方法進(jìn)行數(shù)據(jù)選擇[5],而且也用于統(tǒng)計(jì)機(jī)器翻譯的模型訓(xùn)練。具體地,離線的方法是將訓(xùn)練數(shù)據(jù)中的每一個雙語句對賦以權(quán)重,用其表示和測試數(shù)據(jù)的相似度,同時在訓(xùn)練翻譯模型的時候還要考慮不同句對的權(quán)重信息。此外,在線的方法就是通過訓(xùn)練一系列提前已經(jīng)定義的子模型,當(dāng)對測試數(shù)據(jù)進(jìn)行翻譯時,即可通過信息檢索的方法確定不同子模型的權(quán)重,就對不同的子模型進(jìn)行對數(shù)線性插值。

其后,Matsoukas等人又于2009年提出了一種基于判別式模型對訓(xùn)練數(shù)據(jù)賦權(quán)重的方法[6]。這種方法利用一些領(lǐng)域相關(guān)的特征對訓(xùn)練數(shù)據(jù)進(jìn)行判別式學(xué)習(xí)以及賦相應(yīng)權(quán)重,并在訓(xùn)練翻譯模型時,將利用每個雙語句對的權(quán)重進(jìn)行翻譯概率的最大似然估計(jì)。

近年來較為典型的研究成果當(dāng)首推Moore和Lewis于2010年的提出基于交叉熵的語言模型數(shù)據(jù)選擇方法[7],該法能夠使用更少的數(shù)據(jù)訓(xùn)練得到更好的語言模型。而基于Moore等人的方法,Axelrod等人更于2011年提出了基于交叉熵的雙語數(shù)據(jù)選擇方法[8],并利用選擇出的數(shù)據(jù)訓(xùn)練所有的模型分量(包括語言模型、翻譯模型、調(diào)序模型等),實(shí)驗(yàn)表明這種方法優(yōu)于Moore等人的方法,而且更重要的是顯著提高了口語機(jī)器翻譯的性能。

2.2基于混合模型的方法

混合模型是統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論中的傳統(tǒng)實(shí)現(xiàn)技術(shù)之一[9],利用混合模型進(jìn)行統(tǒng)計(jì)機(jī)器翻譯的學(xué)習(xí)主要包括:(1)將訓(xùn)練數(shù)據(jù)分為幾個不同的部分;(2)利于每一部分?jǐn)?shù)據(jù)訓(xùn)練一個子模型;(3)根據(jù)測試數(shù)據(jù)的上下文信息適當(dāng)?shù)貫槊總€子模型調(diào)整權(quán)重。

已有研究工作中,F(xiàn)oster和Kuhn于2007年提出了基于混合模型的統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)的方法[10],通過對語言模型和翻譯模型同時進(jìn)行了自適應(yīng)的研究,并相應(yīng)給出了混合模型的線性插值以及對數(shù)線性插值的區(qū)別。之后,F(xiàn)oster等人又于2010年利用混合模型提出一種新的針對翻譯模型的領(lǐng)域自適應(yīng)方法[11],這種方法使用細(xì)粒度的特征判別式地學(xué)習(xí)短語表中的短語和目標(biāo)領(lǐng)域文本的相似度,自適應(yīng)模型的訓(xùn)練過程更為簡單,翻譯性能亦取得了重大提升。

在本質(zhì)上來說,Lü等人于2007年介紹的在線數(shù)據(jù)選擇方法也是一種混合模型,通過對不同短語表中的短語概率進(jìn)行插值以選擇最適合測試數(shù)據(jù)的具體模型。Banerjee等人則于2011年使用基于混合模型的自適應(yīng)方法進(jìn)行在線論壇內(nèi)容的翻譯[12],而且發(fā)現(xiàn)語言模型的自適應(yīng)帶來的性能提高將大于翻譯模型的自適應(yīng),同時,線性插值的效果更是要優(yōu)于對數(shù)線性插值的效果。繼而,Koehn等人又分別將領(lǐng)域內(nèi)和領(lǐng)域外的語言模型和翻譯模型加入對數(shù)線性模型中[13],并利用最小錯誤率訓(xùn)練的方法進(jìn)行參數(shù)調(diào)整,實(shí)驗(yàn)表明,這種方法在多種語言對的翻譯中都實(shí)現(xiàn)了性能的高度提升。

其他的成果還有,F(xiàn)inch和Sumita于2008年將混合模型引入進(jìn)基于類別解碼的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[14]中,此時這種解碼方法可針對不同類型的句子(如疑問句和陳述句)采取不同的解碼方式,混合模型用于其中則可整合兩種解碼模型。實(shí)驗(yàn)結(jié)果表明在一些數(shù)據(jù)集中混合模型的運(yùn)用贏得了顯著的性能提升。

此外,Sennrich又于2012年提出一種使用最小化混亂度對混合模型進(jìn)行參數(shù)調(diào)整的方法[15]。該方法通過構(gòu)建訓(xùn)練數(shù)據(jù)(源領(lǐng)域)短語的經(jīng)驗(yàn)聯(lián)合分布與測試數(shù)據(jù)(目標(biāo)領(lǐng)域)短語的條件分布交叉熵,進(jìn)而利用最大熵原理(即最小化混亂度)對短語翻譯的混合模型實(shí)現(xiàn)了參數(shù)訓(xùn)練。

除了對翻譯模型和語言模型進(jìn)行的自適應(yīng)設(shè)計(jì),混合模型也可用于詞對齊模型的領(lǐng)域自適應(yīng)研究。具體地,Civera和Juan即于2007年嘗試了基于隱馬爾科夫模型詞對齊方法的混合模型擴(kuò)展方法[16],該方法反映出某些情況下依據(jù)詞對齊進(jìn)行領(lǐng)域自適應(yīng)的必要性。

2.3自學(xué)習(xí)為代表的半監(jiān)督學(xué)習(xí)方法

近年來,半監(jiān)督學(xué)習(xí)方法在統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域受到了廣泛關(guān)注,已有許多的經(jīng)典算法在統(tǒng)計(jì)機(jī)器翻譯問題中獲得了普及應(yīng)用,其中最為直觀的研究思路就是自學(xué)習(xí)方法,也可稱為自訓(xùn)練方法。其基本思想是,通過源領(lǐng)域的雙語訓(xùn)練數(shù)據(jù)得到一個基準(zhǔn)翻譯系統(tǒng),以此而對目標(biāo)領(lǐng)域的單語數(shù)據(jù)進(jìn)行翻譯,再從翻譯候選集合中選擇高質(zhì)量的譯文并和源語言句子組合成為雙語句對,而且將其加入到訓(xùn)練數(shù)據(jù)中重新訓(xùn)練翻譯系統(tǒng),該過程將一直迭代到翻譯性能穩(wěn)定為止。

Ueffing即于2006年首度將自訓(xùn)練的思想[17]引入統(tǒng)計(jì)機(jī)器翻譯的研究。接下來,Ueffing等人又利用直推式半監(jiān)督學(xué)習(xí)的思想對統(tǒng)計(jì)機(jī)器翻譯問題進(jìn)行了深入的研究[18,19],并對比了不同的實(shí)現(xiàn)細(xì)節(jié)對于半監(jiān)督學(xué)習(xí)在統(tǒng)計(jì)機(jī)器翻譯問題中的具體影響。實(shí)驗(yàn)表明,基于半監(jiān)督學(xué)習(xí)的統(tǒng)計(jì)機(jī)器翻譯能夠很好地實(shí)現(xiàn)領(lǐng)域自適應(yīng),而且顯著地提高目標(biāo)領(lǐng)域翻譯的準(zhǔn)確性。在Ueffing等人引入統(tǒng)計(jì)機(jī)器翻譯的自訓(xùn)練方法之后,與其類似的很多想法也逐漸由研究人員接受并采納。Wu等人于2008年使用目標(biāo)領(lǐng)域的單語數(shù)據(jù)和領(lǐng)域詞典進(jìn)行統(tǒng)計(jì)機(jī)器翻譯的半監(jiān)督學(xué)習(xí)[20],其中領(lǐng)域詞典的作用則可由文獻(xiàn)[21]進(jìn)一步印證。近年來,還有很多工作[22-24]是基于自訓(xùn)練的半監(jiān)督學(xué)習(xí)方法,只是由于篇幅原因,此處將不一一贅述。

2.4基于話題模型的方法

在機(jī)器學(xué)習(xí)和自然語言處理問題中,話題模型是指能夠在文檔集合中發(fā)現(xiàn)抽象話題的一種統(tǒng)計(jì)模型。目前較為常用的話題模型方法主要有概率隱含語義分析[25]和隱含狄利克雷分配[26]兩種,其他的話題模型方法均大都從以上兩種方法發(fā)展演化而來,而且隱含狄利克雷分配也是概率隱含語義分析的進(jìn)化方法,并且方法中允許文檔可成為多個話題的混合。

Zhao和Xing于2006年第一次將話題模型引入統(tǒng)計(jì)機(jī)器翻譯的研究[27],通過使用雙語話題混合模型對詞匯翻譯概率進(jìn)行估計(jì),這樣就提高了詞對齊的準(zhǔn)確性,而且也提升了機(jī)器翻譯的性能。接下來,這一研究二人組又于2007年結(jié)合了隱馬爾可夫模型和雙語話題混合模型的優(yōu)點(diǎn),再次提出了隱馬爾可夫雙語話題混合模型[28],由此而進(jìn)一步提高了詞對齊和翻譯的性能。

本質(zhì)上,Zhao和Xing的研究就是估計(jì)基于話題的詞匯翻譯模型,即 ,其中表示話題,和表示源語言和目標(biāo)語言的詞匯。而與Zhao和Xing有所不同的是,Tam等人于2007年提出一種基于雙語隱含語義分析的自適應(yīng)方法[29],這種方法對于雙語數(shù)據(jù)分別建模,即和,并將雙語的話題進(jìn)行逐一對應(yīng),而通過該種方法對語言模型和翻譯模型進(jìn)行的領(lǐng)域自適應(yīng)實(shí)現(xiàn),也已取得了良好的驗(yàn)證效果。

在以上研究成果問世后,Su等人更于2012年利用目標(biāo)領(lǐng)域單語文本的話題信息對翻譯模型進(jìn)行了領(lǐng)域自適應(yīng)研究[30],Xiao等人則通過構(gòu)建層次短語翻譯規(guī)則的話題信息模型[31],并在解碼過程中創(chuàng)建話題相似度而進(jìn)行了層次短語規(guī)則的選取,這兩種方案均將話題信息融合在翻譯解碼的過程中,而且也都取得了對于統(tǒng)計(jì)機(jī)器翻譯的性能提高具有明確助益的出眾效果。

3 結(jié)束語

目前統(tǒng)計(jì)機(jī)器翻譯的領(lǐng)域自適應(yīng)研究方法多種多樣,但每一種方法均有各自的特點(diǎn)與側(cè)重,現(xiàn)在可通過三個視角對其進(jìn)行技術(shù)分類,具體描述如下:

(1)系統(tǒng)模塊:包括語言模型的自適應(yīng)、翻譯模型的自適應(yīng)、調(diào)序模型的自適應(yīng)等;

(2)可利用的資源:利用目標(biāo)領(lǐng)域的單語數(shù)據(jù)(源語言或目標(biāo)語言)、雙語數(shù)據(jù)、領(lǐng)域詞典等;

(3)領(lǐng)域自適應(yīng)的方法:使用數(shù)據(jù)選擇的方法、混合模型的方法、自訓(xùn)練的方法、話題模型等。

迄今為止,針對統(tǒng)計(jì)機(jī)器翻譯的雙語數(shù)據(jù)挖掘工作基本上是面向通用領(lǐng)域的,即不對領(lǐng)域進(jìn)行細(xì)分。日后隨著行業(yè)數(shù)據(jù)的細(xì)分,將能夠針對不同領(lǐng)域進(jìn)行更具目的性的數(shù)據(jù)挖掘工作。并且,有鑒于目前數(shù)據(jù)選擇針對領(lǐng)域類型的粒度較大,未來則期待能夠設(shè)計(jì)出細(xì)粒度的數(shù)據(jù)選擇方法以對領(lǐng)域自適應(yīng)的研究提供進(jìn)一步幫助。除此之外,深度學(xué)習(xí)已經(jīng)成為近年來機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展最為迅速的實(shí)用技術(shù)之一,在很多自然語言處理應(yīng)用上取得了突破性的進(jìn)展,只是利用深度學(xué)習(xí)進(jìn)行統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)的工作依然較少,因而也仍是一個值得嘗試與努力的研究方向。

參考文獻(xiàn):

[1] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 1996, 22(1): 39–71.

[2] OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, 2002: 295–302.

[3] ECK M, VOGEL S, WAIBEL A. Language model adaptation for statistical machine translation based on information retrieval[C]//Proceedings of the International Conference on Language Resources and Evaluation (LREC). Lisbon, Portugal: ELRA, 2004: 327–330.

[4] ZHAO B, ECK M, VOGEL S. Language model adaptation for statistical machine translation via structured query models[C]//Proceedings of Coling 2004. Geneva, Switzerland: COLING, 2004: 411–417.

[5] Lü Y, HUANG J, LIU Q. Improving statistical machine translation performance by training data selection and optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). Prague, Czech Republic: Association for Computational Linguistics, 2007: 343–350.

[6] MATSOUKAS S, ROSTI A V I, ZHANG B. Discriminative corpus weight estimation for machine translation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 708–717.

[7] MOORE R C, LEWIS W. Intelligent selection of language model training data[C]// Proceedings of the ACL 2010 Conference Short Papers. Uppsala, Sweden: Association for Computational Linguistics, 2010: 220–224.

[8] AXELROD A, HE X, GAO J. Domain adaptation via pseudo in-domain data selection[C]// Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK.: Association for Computational Linguistics, 2011: 355–362.

[9] Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction[M]. Springer Series in Statistics. New York, USA: Springer, 2009.

[10] FOSTER G, KUHN R. Mixture-model adaptation for SMT[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 128–135.

[11] FOSTER G, GOUTTE C, KUHN R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Cambridge, MA: Association for Computational Linguistics, 2010: 451–459.

[12] BANERJEE P, NASKAR S, ROTURIER J, et al. Domain adaptation in statistical machine translation of user-forum data using component-level mixture modelling[J]. Proceedings of the 13th Machine Translation Summit, 2011: 285–292.

[13] KOEHN P, SCHROEDER J. Experiments in domain adaptation for statistical machine translation[C]// Proceedings of the SecondWorkshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 224–227.

[14] FINCH A, SUMITA E. Dynamic model interpolation for statistical machine translation[C]// Proceedings of the Third Workshop on Statistical Machine Translation. Columbus, Ohio: Association for Computational Linguistics, 2008: 208–215.

[15] SENNRICH R. Perplexity minimization for translation model domain adaptation in statistical machine translation[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France: Association for Computational Linguistics, 2012: 539–549.

[16] CIVERA J, JUAN A. Domain adaptation in statistical machine translation with mixture modelling[C]// Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 177–180.

[17] UEFFING N. Using monolingual source-language data to improve MT performance[C]//Proceedings of the InternationalWorkshop on Spoken Language Translation. Kyoto, Japan: IWSLT, 2006: 174–181.

[18] UEFFING N, HAFFARI G, SARKAR A. Transductive learning for statistical machine translation[C]// Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic: Association for Computational Linguistics, 2007: 25–32.

[19] UEFFING N, HAFFARI G, SARKAR A. Semi-supervised model adaptation for statistical machine translation[J]. Machine Translation, 2007, 21: 77-94.

[20] WU H, WANG H, ZONG C. Domain adaptation for statistical machine translation with domain dictionary and monolingual corpora[C]. Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, 2008: 993–1000.

[21] DAUMé III H, JAGARLAMUDI J. Domain adaptation for machine translation by mining unseen words[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA: Association for Computational Linguistics, 2011: 407–412.

[22] SCHWENK H. Investigations on large-scale lightly-supervised training for statistical machine translation[C]// Proceedings of the International Workshop on Spoken Language Translation. Hawaii, USA: IWSLT, 2008: 182–189.

[23] BERTOLDI N, FEDERICO M. Domain adaptation for statistical machine translation with monolingual resources[C]//Proceedings of the Fourth Workshop on Statistical Machine Translation. Athens, Greece: Association for Computational Linguistics, 2009: 182–189.

[24] LAMBERT P, SCHWENK H, SERVAN C, et al. Investigations on translation model adaptation using Monolingual data[C]// Proceedings of the Sixth Workshop on Statistical Machine Translation. Edinburgh, Scotland: Association for Computational Linguistics, 2011: 284–293.

[25] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. 1999. New York, NY, USA: ACM, SIGIR 99.

[26] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal Machine Learning Research, 2003, 3: 993–1022.

[27] ZHAO B, XING E P. BiTAM: Bilingual topic admixture models for word alignment[C]// Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. Sydney, Australia: Association for Computational Linguistics, 2006: 969–976.

[28] Zhao B, Xing E P. HM-BiTAM: Bilingual Topic Exploration, Word Alignment, and Translation[M]. . Platt J, Koller D, Singer Y, et al. Advances in Neural Information Processing Systems 20. Cambridge, MA: MIT Press, 2008: 1689–1696.

[29] TAM YC, LANE I, SCHULTZ T. Bilingual LSA-based adaptation for statistical machine translation[J]. Machine Translation, 2007, 21(4): 187–207.

[30] SU J, WU H, WANG H, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Jeju, Korea: Association for Computational Linguistics, 2012: 459–468.

[31] XIAO X, XIONG D, ZHANG M, et al. A topic similarity model for hierarchical phrase-based translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Jeju, Korea: Association for Computational Linguistics, 2012: 750–758.

猜你喜歡
雙語短語混合
混合宅
一起來學(xué)習(xí)“混合運(yùn)算”
油水混合
混合所有制
快樂雙語
新晨(2013年5期)2014-09-29 06:19:50
快樂雙語
新晨(2013年7期)2014-09-29 06:19:50
快樂雙語
新晨(2013年10期)2014-09-29 02:50:54
雙語秀
靖江市| 买车| 七台河市| 永修县| 青龙| 南昌县| 龙胜| 清流县| 泸水县| 垣曲县| 定陶县| 自治县| 基隆市| 扎兰屯市| 郎溪县| 永泰县| 调兵山市| 沂源县| 泊头市| 寻甸| 新乡县| 滁州市| 辽阳市| 清苑县| 城步| 高密市| 正定县| 麟游县| 长兴县| 班玛县| 光泽县| 昭觉县| 乌兰浩特市| 富锦市| 康保县| 巴彦县| 龙里县| 绿春县| 会泽县| 广水市| 镇江市|