国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于選擇偏向性的統(tǒng)計機器翻譯模型

2016-10-12 08:29:41唐海慶熊德意
關(guān)鍵詞:源端動賓偏向

唐海慶 熊德意

?

基于選擇偏向性的統(tǒng)計機器翻譯模型

唐海慶 熊德意?

蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院, 蘇州 215006; ?通信作者, E-mail: dyxiong@suda.edu.cn

針對基于短語的統(tǒng)計機器翻譯使用有限的語義知識, 導(dǎo)致長距離的動賓短語對翻譯質(zhì)量不高的問題, 提出基于動詞選擇偏向性的翻譯模型, 引入動詞對賓語的語義約束信息, 為動詞找到合適的賓語翻譯。首先使用條件概率方法, 訓(xùn)練動詞對賓語的選擇偏向性, 然后將選擇偏向性作為一個新特征, 集成到基于短語的翻譯系統(tǒng)中。在大規(guī)模測試數(shù)據(jù)集上完成漢語到英語的翻譯, 實驗結(jié)果表明, 基于選擇偏向性的翻譯模型能夠很好地捕獲長距離的語義依賴關(guān)系, 從而提高譯文質(zhì)量。

語義知識; 選擇偏向性; 語義約束; 語義依賴

統(tǒng)計機器翻譯作為自然語言處理研究領(lǐng)域中的一個熱點問題, 其研究方法從最初的基于單詞的翻譯, 發(fā)展到基于短語的翻譯, 再到基于句法的翻譯, 機器翻譯性能逐漸得到優(yōu)化?;诙陶Z的翻譯以短語(任意一串連續(xù)的單詞)作為基本的翻譯單位, 可以很好地解決局部上下文依賴關(guān)系, 卻無法解決長距離依賴關(guān)系, 從而導(dǎo)致翻譯系統(tǒng)存在譯文詞匯選擇不當(dāng)?shù)膯栴}。圖1的實例表明, 基于短語的翻譯系統(tǒng)在翻譯源端動詞“贏得”的賓語中心詞“票”時, 選擇“NULL”作為其譯文, 譯文單詞選擇明顯錯誤。在基于短語的統(tǒng)計機器翻譯系統(tǒng)中引入語義知識, 可以有效地降低譯文選詞錯誤率[1]。

選擇偏向性指單詞在其使用語境中所具有的語義限制[2]。具體來講,動詞對賓語的選擇偏向性可以體現(xiàn)該動詞更偏向于將哪一類詞語作為它的賓語。以英文動詞“drink”為例, 它的賓語更傾向于是可食用的且為液體的一類名詞, 不可食用的或是固體一類的名詞一般無法成為其賓語。利用動詞對其賓語的選擇偏向性, 能夠很容易判斷句中的動賓短語搭配是否符合語義約束。動詞以及動詞的參數(shù)構(gòu)成句子的主要框架。對于統(tǒng)計機器翻譯而言, 譯文的可讀性取決于句子的主要框架是否翻譯正確。因此在統(tǒng)計機器翻譯中使用動詞對其賓語的語義約束信息具有理論上的可行性。選擇偏向性在自然語言處理領(lǐng)域有相當(dāng)廣泛的應(yīng)用, 研究人員就如何從訓(xùn)練語料庫中自動學(xué)習(xí)獲得選擇偏向性已開展一系列研究。

本文提出基于動詞選擇偏向性的翻譯模型, 在翻譯過程中引入動詞對賓語的選擇偏向性, 幫助翻譯系統(tǒng)提高賓語候選詞的選擇正確率。本文使用基于條件概率的方法, 從語料庫中自動學(xué)習(xí)獲得動詞對賓語的選擇偏向性。訓(xùn)練動詞對賓語的選擇偏向性可以按以下3個步驟實現(xiàn): 1)在大規(guī)模雙語對齊語料集上分別對源端和目標(biāo)端句子進行句法分析和語義角色標(biāo)注, 獲得每個句子的PAS (predicate-argument structure)信息; 2)分別抽取出目標(biāo)端動賓短語對和源端動詞, 以及目標(biāo)端賓語的短語對; 3) 使用基于條件概率的方法, 分別訓(xùn)練得到動詞的單語義選擇偏向性和跨語義選擇偏向性, 將動詞的選擇偏向性作為一個新特征加入到解碼過程中。以BLEU值[3]作為評測指標(biāo), 可以比基準(zhǔn)系統(tǒng)提升0.52個點。同時對譯文的分析也表明, 本文提出的翻譯模型能夠有效地捕獲長距離的語義依賴關(guān)系, 從而在提高賓語候選詞的選擇正確率的同時, 也能提高動詞候選詞的選擇正確率。

1 相關(guān)工作

近年來, 關(guān)于如何自動學(xué)習(xí)獲取選擇偏向性的研究受到廣泛關(guān)注。獲取選擇偏向性的方法主要分為三類: 1)簡單基于統(tǒng)計的; 2)基于類的; 3)基于主題模型的。基于統(tǒng)計的方法是統(tǒng)計語料庫中動詞與某一單詞同現(xiàn)的頻率, 即條件概率方法, 頻率越高代表動詞越傾向于將該單詞作為其參數(shù)(如賓語、主語等)。該方法實現(xiàn)簡單, 但是缺乏泛化能力。Resnik[4]最早開展基于類的方法研究, 提出選擇性聯(lián)合的概念來刻畫某一特定語義類作為某一動詞的參數(shù)的語義適合程度。該方法需要一個語義類知識庫或帶有明確分類信息的語料庫。Clark等[5]提出的基于類的方法使用語義層次結(jié)構(gòu), 為單詞找到合適的語義類。近年來, 由于一系列相關(guān)的詞語可以用一個主題表示, 基于主題模型的方法受到關(guān)注。例如, Ritter等[6]利用主題模型的方法生成每個單詞的主題分布以獲取單詞的語義類。上述方法都依賴于一個大型的機器可讀語料庫。

譯文單詞選擇是統(tǒng)計機器翻過程中的一項重要任務(wù)?,F(xiàn)有的基于短語的統(tǒng)計機器翻譯系統(tǒng)大都存在譯文選詞不當(dāng)?shù)膯栴}。許多研究人員使用語義知識改善基于短語的統(tǒng)計機器翻譯的性能。Carpuat等[7]利用詞義消歧(word sense disambiguation), 使得單詞在具體語境中具有唯一的意義來提高譯文選詞的正確率。Xiao等[8]使用主題建模方法發(fā)現(xiàn)文檔的基本主題結(jié)構(gòu), 確定單詞的主題分布來計算源端和目標(biāo)端翻譯規(guī)則的主題相似度, 該方法可以很好地解決文檔級約束下的單詞選擇問題。Xiong等[9]提出的謂詞翻譯模型和參數(shù)重排序模型, 利用源端句子的PAS信息, 可以顯著提高譯文的質(zhì)量。Liu等[10]提出根據(jù)源端和目標(biāo)端語義角色的相對一致性, 將源端的語義角色通過對齊信息映射到目標(biāo)端, 得到目標(biāo)端的語義角色, 選擇與目標(biāo)端語義角色一致的譯文作為最終的譯文。

本文主要針對動賓關(guān)系, 研究動詞對賓語的選擇偏向性, 并提出基于動詞選擇偏向性的翻譯模型。選擇偏向性已應(yīng)用到自然語言處理的諸多方面, 例如語義消歧[4]、語義角色標(biāo)注[11]等, 但將選擇偏向性應(yīng)用于統(tǒng)計機器翻譯的研究十分有限。本文首次使用選擇偏向性作為語義知識, 輔助翻譯系統(tǒng)在翻譯長距離的動賓短語對時, 為動詞的賓語選擇合適的譯文單詞。實驗表明, 本文的方法能夠有效提高系統(tǒng)的性能。

2 選擇偏向性學(xué)習(xí)

動詞對賓語的選擇偏向性能夠很好地體現(xiàn)動詞偏向于將哪些語義類作為賓語。使用基于類的方法獲得動詞的選擇偏向性, 關(guān)鍵是將語料庫中觀察到的賓語泛化成一個適當(dāng)?shù)恼Z義類。但幾乎所有基于類的方法都依賴于條件概率計算, 所以本文考慮最簡單的基于條件概率的方法, 從語料庫中自動學(xué)習(xí)動詞的選擇偏向性?;跅l件概率的方法無須對動詞的賓語進行分類, 只需要統(tǒng)計語料庫中某一動詞和某一賓語的同現(xiàn)頻率。同現(xiàn)頻率越高, 表明動詞更偏向于選擇該單詞作為賓語。本文從兩方面使用條件概率方法訓(xùn)練動詞的選擇偏向性: 1)只在目標(biāo)端計算動詞對賓語的選擇偏向強度, 即獲取單語義的選擇偏向性; 2)通過計算源端動詞對目標(biāo)端賓語的選擇偏向強度, 獲取跨語義的選擇偏向性。

2.1 基于條件概率的單語義選擇偏向性

首先僅在目標(biāo)端計算動詞對其賓語的選擇偏向性強度,即獲取單語義的選擇偏向性?;跅l件概率方法獲取動詞的選擇偏向性的一般定義為: 語料庫中某一動詞在語義關(guān)系下, 名詞作為的參數(shù)的可能性體現(xiàn)了對的選擇偏向強度, 可以用來估計, 計算公式如下:

(,)表示語料庫中動詞出現(xiàn)的次數(shù),(,,)表示在語義關(guān)系下動詞和名詞同現(xiàn)的次數(shù)。

根據(jù)條件概率方法獲得動詞的選擇偏向性的一般定義, 如式(2)所示。本文將語義關(guān)系具體化為動賓關(guān)系, 學(xué)習(xí)目標(biāo)端動詞對賓語的選擇偏向性SPt:

其中, 在動賓關(guān)系下,(t)代表訓(xùn)練語料庫中動詞t出現(xiàn)的次數(shù),(t,t)代表動詞t與賓語t共同出現(xiàn)的次數(shù)。

2.2 基于條件概率的跨語義選擇偏向性

跨語義選擇偏向性利用跨語言知識, 可以體現(xiàn)源端動詞對其目標(biāo)端賓語的選擇偏向性。具體來說, 在一個雙語對齊的語料庫上, 對于源端的一組動賓短語(s,s), 利用對齊信息得到源端賓語s的目標(biāo)端譯文t, 那么, 源端動詞對目標(biāo)端賓語基于條件概率的選擇偏向強度SPs-t可以通過式(3)計算得到:

其中, 在動賓關(guān)系下,(s)代表源端動詞t在源端語料庫中出現(xiàn)的次數(shù),(s,t)代表源端動詞s與目標(biāo)端賓語t共同出現(xiàn)的次數(shù)。

2.3 抽取動賓關(guān)系實例

使用條件概率方法獲取動詞對賓語的選擇偏向性, 首先需要從訓(xùn)練語料庫中抽取出所有的(動詞, 賓語)關(guān)系實例, 這需要借助于句子的PAS信息。對于目標(biāo)端語料集, 首先利用自然語言處理工具SENNA①對所有句子進行詞性標(biāo)注、動詞語義角色標(biāo)注和句法分析, 以獲得每個句子的PAS信息。通常一個動詞的賓語由多個單詞組成, 定義一組規(guī)則找到賓語中心詞, 從而完成目標(biāo)端(動詞, 賓語)關(guān)系實例的抽取。

在抽取源端動詞及其目標(biāo)端賓語短語對時, 首先要實現(xiàn)源端(動詞, 賓語)關(guān)系實例的抽取。首先使用Berkeley Chinese②語法分析器對所有源端句子進行句法分析, 再使用中文語義角色標(biāo)注工具[12]為所有的動詞標(biāo)注出與其語義相關(guān)的角色。在獲得源端每個句子的PAS信息后, 同樣定義另一組規(guī)則以找到源端賓語的中心詞。在抽取源端(動詞, 賓語)關(guān)系實例的同時, 使用對齊信息得到源端賓語中心詞對應(yīng)的譯文。由于源端的一個單詞可能對應(yīng)于目標(biāo)端多個單詞, 我們?nèi)∧繕?biāo)端的第一個單詞作為源端賓語中心詞對應(yīng)的譯文, 完成在雙語對齊語料庫上抽取(源端動詞, 目標(biāo)端賓語)關(guān)系實例。

3 基于選擇偏向性的翻譯模型

本節(jié)主要給出基于動詞選擇偏向性翻譯模型的定義, 以及如何將通過條件概率方法計算得到的動詞對賓語的選擇偏向強度集成到對數(shù)線性模型的解碼過程中。

3.1 模型定義

利用動詞對其賓語的語義約束信息, 我們把動詞的選擇偏向性作為一個新特征加入到基準(zhǔn)系統(tǒng)的解碼器中。解碼時輸入的源端句子經(jīng)句法分析和動詞語義角色標(biāo)注后, 帶有PAS信息。給定一個翻譯區(qū)間(,), 得到該區(qū)間內(nèi)存在的所有(動詞, 賓語)短語對的位置信息。如果使用的是單語義的選擇偏向性, 先根據(jù)對齊信息獲得(動詞, 賓語)短語對的目標(biāo)端翻譯, 然后計算目標(biāo)端動詞對賓語的選擇偏向強度; 如果使用的是跨語義的選擇偏向性, 則先根據(jù)動詞的位置信息獲得源端動詞, 根據(jù)對齊信息得到源端賓語對應(yīng)的目標(biāo)端翻譯, 然后計算源端動詞對目標(biāo)端賓語的選擇偏向強度。定義翻譯區(qū)間(,)的選擇偏向性特征值sp的計算方式如下:

其中,代表當(dāng)前翻譯區(qū)間中(動詞, 賓語)短語對的個數(shù),P代表使用條件概率方法訓(xùn)練得到的單語義選擇偏向性或跨語義選擇偏向性。

3.2 解碼過程

我們使用的基準(zhǔn)系統(tǒng)是基于BTG的解碼器。該解碼器采用CKY形式的解碼算法, 因此任何使用CKY形式解碼的系統(tǒng)都能根據(jù)本節(jié)介紹的算法, 將選擇偏向性集成到系統(tǒng)的解碼器中。對于一個帶有PAS信息的源端句子, 找到每個子翻譯區(qū)間中存在的所有(動詞, 賓語)短語對, 以計算每個翻譯區(qū)間的選擇偏向性特征值。

本文的解碼算法借鑒Xiong等[9]的解碼思想。以圖2為例說明本文的解碼過程: 對于翻譯區(qū)間為(,)的短語, 如果在翻譯短語表中有可用的翻譯規(guī)則R(=1, 2, …,), 我們定義一個函數(shù)(,)來找到該區(qū)間內(nèi)所有(動詞, 賓語)短語對的位置信息。例如所給例句中,; 而, 即該翻譯區(qū)間不存在(動詞, 賓語)短語對。對于每一條翻譯規(guī)則得到的譯文, 如果計算單語義的選擇偏向性, 我們根據(jù)對齊信息得到由函數(shù)(,)找到的所有(動詞, 賓語)短語對的翻譯。如果計算跨語義的選擇偏向性, 則利用對齊信息得到賓語的譯文, 由(,)位置信息取得源端動詞, 以獲得(源端動詞, 目標(biāo)端賓語)短語對。定義一個集合來存放這些短語對。該短語區(qū)間(,)的選擇偏向性特征值可用式(4)計算得到。

如果將翻譯區(qū)間(,)拆分為兩個子區(qū)間(,)和(+1,)分別進行翻譯, 再以正序或逆序的方式合并這兩個子區(qū)間的譯文, 最終得到區(qū)間(,)的譯文, 則定義另外一個函數(shù)(,,), 該函數(shù)實現(xiàn)將找到的兩個相連短語子翻譯區(qū)間(,)和(+1,)合并為(,)時產(chǎn)生的新(動詞, 賓語)短語對的位置信息, 其數(shù)學(xué)定義可表示為(,,) =(,)-((,)∪(+1,)。如例句中的(1, 2, 4) = {(2, 3)}, 而(1, 3, 5)={}。由于在動態(tài)規(guī)劃解碼過程中, 兩個翻譯子區(qū)間的選擇偏向性特征值已經(jīng)計算過, 所以在計算翻譯區(qū)間(,)上選擇偏向性特征值時, 只需要計算合并過程中新得到的動賓短語對的選擇偏向性特征值, 以避免重復(fù)計算。同樣, 如果計算單語義的選擇偏向性, 則利用每個子區(qū)間的翻譯短語的對齊信息, 得到由函數(shù)(,,)找到的(動詞, 賓語)短語對的譯文; 如果計算跨語義的選擇偏向性, 則根據(jù)(,,)得到的位置信息找到源端動詞, 利用翻譯短語對齊信息得到賓語的目標(biāo)端翻譯, 以獲得(源端動詞, 目標(biāo)端賓語)短語對。定義集合來存放這些短語對, 利用式(4)計算得到短語對的選擇偏向性特征值, 那么翻譯區(qū)間(,)的選擇偏向性特征值計算方式為: 兩個子區(qū)間的選擇偏向性特征值之和加上集合上計算得到的選擇偏向性特征值。

4 實驗與分析

4.1 實驗設(shè)置

本文使用Xiong等[13]實現(xiàn)的基于短語的統(tǒng)計機器翻譯系統(tǒng), 進行漢語到英語方向的翻譯任務(wù)。實驗在NIST 03上做最小錯誤率訓(xùn)練, 得到最優(yōu)線性模型的參數(shù), 并采用NIST 04和NIST 05兩個評測語料作為測試集。這兩個測試集分別包含919和1082個漢語句子, 每個句子對應(yīng)4個參考譯文。采用大小寫不敏感的BLEU-4作為系統(tǒng)翻譯質(zhì)量的評價指標(biāo)。

實驗中使用的雙語訓(xùn)練語料集由LDC語料集的部分子集組成, 包括LDC2004E12, LDC2004T08, LDC2005T10, LDC2003E07, LDC2003E14, LDC-2002E18, LDC2005T06和LDC2004T07, 總計約400萬條中英文對齊的句對。首先, 我們在漢語到英語方向和英語到漢語方向分別運行GIZA++[14]工具, 然后采用“grow-diag-final”[15]的啟發(fā)式方法, 獲得單詞對齊信息。使用SRILM[16]工具在新華英文語料集Gigaword上訓(xùn)練我們的五元語言模型, 并使用KN方法進行平滑。最小錯誤率訓(xùn)練過程中各個特征的權(quán)重值通過MERT[17]來調(diào)整, 取測試集3次BLUE值的平均值作為最終實驗結(jié)果。

4.2 結(jié)果及分析

本文進行3組實驗, 用以驗證基于動詞選擇偏向性的翻譯模型是否可以提高翻譯系統(tǒng)的譯文選詞正確率。表1給出在測試集NIST 04和NIST 05上的實驗結(jié)果。觀察表1中實驗結(jié)果, 得到以下結(jié)論。

表1 基于動詞選擇偏向性的測試集BLEU值

注: *表示相對基準(zhǔn)系統(tǒng)的顯著性測試中<0.05。

1)與基準(zhǔn)系統(tǒng)相比, 加入動詞選擇偏向性特征后的翻譯系統(tǒng)的BLEU值在兩個測試集上均有提高, 系統(tǒng)性能有所改善。

2)與基準(zhǔn)系統(tǒng)相比, 跨語義的選擇偏向性BLEU值平均可以提高0.37個點, 而單語義的選擇偏向性BLEU值只能提高0.28個點。顯然, 跨語義的選擇偏向性在提高譯文選詞正確率方面性能優(yōu)于單語義的選擇偏向性。

3)翻譯系統(tǒng)同時利用單語義和跨語義的動詞選擇偏向性時, 系統(tǒng)性能優(yōu)于單獨使用這兩種選擇偏向性。

基準(zhǔn)系統(tǒng)同時使用單語義的選擇偏向性和跨語義的選擇偏向性時, 我們對測試集NIST05上得到的譯文進行分析, 發(fā)現(xiàn)動詞的選擇偏向性特征不僅能幫助翻譯系統(tǒng)為源端動詞的賓語找到合適的譯文, 同時在正確翻譯動詞的賓語前提下, 也能提高動詞的選詞正確率。下面對表2和3給出的兩個翻譯例子進行具體分析。

表2 賓語翻譯結(jié)果對比實例

說明: 加粗單詞表示句中的動賓短語。

表3 動詞翻譯結(jié)果對比實例

說明: 加粗單詞表示句中的動賓短語。

基準(zhǔn)系統(tǒng)在翻譯表2中源端句子的動賓短語(防止, 爆發(fā))時, 動詞翻譯正確, 但賓語“爆發(fā)”的譯文選為“NULL”; 加入單語義和跨語義的選擇偏向性特征后, 翻譯系統(tǒng)將“爆發(fā)”的譯文單詞“outbreak”正確地選擇出來。

在翻譯表3中源端句子的動賓短語(建立, 系統(tǒng))時, 基準(zhǔn)系統(tǒng)在正確翻譯賓語的前提下, 動詞并沒有翻譯正確, “establishment”雖然也有建立的意思, 但卻是名詞性的單詞; 基準(zhǔn)系統(tǒng)使用動詞的選擇偏向性特征后將“建立”正確地翻譯為動詞詞性單詞“build”。

5 總結(jié)與展望

本文提出一種基于動詞選擇偏向性的翻譯模型, 利用動詞對其賓語的選擇偏向強度來提高譯文的選詞正確率。首先, 從訓(xùn)練語料庫中抽取(動詞, 賓語)關(guān)系實例; 然后, 利用條件概率方法, 獲得動詞對其賓語的選擇偏向性; 最后, 將選擇偏向性作為一個新特征, 集成到一個基于短語的統(tǒng)計機器翻譯系統(tǒng)中。本文研究兩種選擇偏向性: 目標(biāo)端動詞對目標(biāo)端賓語的單語義選擇偏向性和源端動詞對目標(biāo)端賓語的跨語義選擇偏向性。在大型語料集上進行漢語到英語的翻譯, 實驗結(jié)果表明: 基于選擇偏向性的統(tǒng)計機器翻譯模型能夠有效地捕獲長距離的語義依賴關(guān)系, 提高譯文質(zhì)量; 并且, 跨語義的選擇偏向性在提高譯文選詞正確率方面性能優(yōu)于單語義的選擇偏向性。

值得注意的是, 本文自動學(xué)習(xí)選擇偏向性的方法相對簡單, 沒有對觀察到的賓語進行泛化, 得到這些賓語所屬的語義類, 從而無法為訓(xùn)練語料庫中未出現(xiàn)過的動賓短語對做出合理預(yù)測。未來, 我們將從以下3個方面展開深入研究。

1)本文只對動詞與賓語這樣一種語義關(guān)系進行研究, 未來將對動詞與主語的語義關(guān)系進行研究, 并探討動詞的哪種語義關(guān)系能更有效地提高機器翻譯的性能。

2)本文采用的獲取動詞對賓語的選擇偏向性方法相對簡單, 且存在數(shù)據(jù)稀疏問題, 未來將使用主題模型的方法為動詞的參數(shù)找到合適的語義類, 使用基于類的方法獲得動詞的選擇偏向性, 以解決數(shù)據(jù)稀疏問題。

3)本文在處理源端的一個單詞翻譯到目標(biāo)端可能有多個單詞的情況時, 采取選擇目標(biāo)端的第一個單詞作為源端單詞譯文的做法。例如源端單詞“吃”,根據(jù)對齊信息得到的譯文可能是“to eat”, 按照我們的處理方法, “吃”會被翻譯為“to”, 顯然不正確, 這就導(dǎo)致翻譯系統(tǒng)無法正確獲得當(dāng)前動詞對其賓語的選擇偏向性。未來, 我們將使用對齊概率信息, 找到源端單詞最有可能的目標(biāo)端譯文單詞, 更好地解決源端單詞對應(yīng)目標(biāo)端多個譯文單詞的情況。

[1]劉群. 機器翻譯研究新進展. 當(dāng)代語言學(xué), 2009, 11(2): 147?158

[2]Brockmann C, Lapata M. Evaluating and combining approaches to selectional preference acquisition // Proceedings of the 10th Conference on European Chapter of the Association for Computational Lin-guistics — Volume 1. Budapest, 2003: 27?34

[3]Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Phila-delphia, 2002, 311?318

[4]Resnik P. Selectional preference and sense disam-biguation // Proceedings of the ACL SIGLEX Work-shop on Tagging Text with Lexical Semantics: Why, What, and How. Madrid, 1997: 52?57

[5]Clark S, Weir D. Class-based probability estimation using a semantic hierarchy. Computational Linguis-tics, 2002, 28(2): 187–206

[6]Ritter A, Etzioni O. A latent dirichlet allocation method for selectional preferences // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, 2010: 424?434

[7]Carpuat M, Wu D. Improving statistical machine translation using word sense disambiguation // EMNLP-CoNLL. Prague, 2007: 61?72

[8]Xiao X, Xiong D, Zhang M, et al. A topic similarity model for hierarchical phrase-based translation // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers — Volume 1. Jeju Island, 2012: 750?758

[9]Xiong D, Zhang M, Li H. Modeling the translation of predicate-argument structure for SMT // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers — Volume 1. Jeju Island, 2012: 902?911

[10]Liu D, Gildea D. Semantic role features for machine translation // Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, 2010: 716?724

[11]Zapirain B, Agirre E, Màrquez L, et al. Improving semantic role classification with selectional preferences // Human Language Technologies: the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, 2010: 373?376

[12]Li J, Zhou G, Ng H T. Joint syntactic and semantic parsing of Chinese // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, 2010: 1108?1117

[13]Xiong D, Liu Q, Lin S. Maximum entropy based phrase reordering model for statistical machine translation // Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Com-putational Linguistics. Sydney, 2006: 521?528

[14]Och F J, Ney H. A systematic comparison of various statistical alignment models. Computational Linguis-tics, 2003, 29(1): 19?51

[15]Koehn P, Och F J, Marcu D. Statistical phrase-based translation // Proceedings of the 2003 Human Lan-guage Technology Conference of the North American Chapter of the Association for Computational Lin-guistics. Edmonton, 2003: 54?58

[16]Stolcke A. SRILM — an extensible language mode-ling toolkit // Proceedings of the 7th International Conference on Spoken Language Processing. Denver, 2002: 901?905

[17]Och F J. Minimum error rate training in statistical machine translation // Proceedings of ACL. Sapporo, 2003: 160?167

A Selectional Preference Based Translation Model for SMT

TANG Haiqing, XIONG Deyi?

School of Computer Science and Technology, Soochow University, Suzhou 215006; ? Corresponding author, E-mail: dyxiong@suda.edu.cn

The limited semantic knowledge is used in the phrase-based statistical machine translation (SMT),which causes that the translation quality of long-distance verb and its object is low. A selectional preference based translation model is proposed, which inducts the semantic constraints that a verb imposes on its object to select the proper argument-head word for the predicate with long distance. The authors train the corpus to obtain the conditional probability based selectional preferences for verb,and integrate the selectional preferences into a phrase-based translation system and evaluate on a Chinese-to-English translation task with large-scale training data. Experiment results show that the integration of selectional preference into SMT can effectively capture the long-distance semantic dependencies and improve the translation quality.

semantic knowledge; selectional preference; semantic constraints; semantic dependencies

10.13209/j.0479-8023.2016.013

TP391

2015-06-19;

2015-08-24; 網(wǎng)絡(luò)出版日期: 2015-09-30

國家自然科學(xué)基金青年基金(61403269)和江蘇省自然科學(xué)基金青年基金(BK20140355)資助

① http://ml.nec-labs.com/senna/

② https://code.google.com/p/berkeleyparser/

猜你喜歡
源端動賓偏向
8~12歲兒童抑郁與認(rèn)知重評的關(guān)系:悲傷面孔注意偏向的中介作用*
“偏向”不是好導(dǎo)向
融合源端句法和語義角色信息的AMR解析
考核偏向:錯把經(jīng)過當(dāng)結(jié)果
基于仿真分析的傳輸線電路特性研究
試論對外漢語教學(xué)中動賓式離合詞的教學(xué)
新一代(2018年20期)2018-03-13 12:24:20
飛機燃油系統(tǒng)對多路輸入信號源選擇的方法
科技視界(2016年22期)2016-10-18 15:53:02
“救火”帶標(biāo)記動賓對象式結(jié)構(gòu)語用認(rèn)知分析
國內(nèi)研發(fā)、對外開放與偏向性技術(shù)進步:以我國工業(yè)行業(yè)為例
動賓離合詞及其構(gòu)成的語式
安远县| 镶黄旗| 海原县| 和平县| 库尔勒市| 读书| 竹溪县| 工布江达县| 济南市| 长宁区| 通渭县| 呼玛县| 余江县| 九江县| 綦江县| 花垣县| 敦煌市| 哈巴河县| 车险| 武威市| 托里县| 页游| 博爱县| 沙坪坝区| 开封市| 黑河市| 大埔区| 大冶市| 奉化市| 五家渠市| 大新县| 丰台区| 德州市| 巴青县| 安徽省| 麟游县| 巩留县| 余江县| 资溪县| 永丰县| 临邑县|