国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web平行語料挖掘及其在機器翻譯中的應用

2010-06-05 02:43呂雅娟馬希榮
中文信息學報 2010年5期
關(guān)鍵詞:語料平行語料庫

林 政,呂雅娟,劉 群,馬希榮

(中國科學院 計算技術(shù)研究所, 智能信息處理重點實驗室,北京 100190)

引言

在計算語言學的發(fā)展和研究中,雙語平行語料庫的作用日益突顯,雙語平行語料庫可以用于統(tǒng)計機器翻譯的模型訓練[1],雙語語料庫的建設(shè)對于雙語詞典編纂[2]、跨語言信息檢索也有重要價值。但是大規(guī)模雙語平行語料庫的獲取并不容易,現(xiàn)有的平行語料庫在規(guī)模、時效性和領(lǐng)域的平衡性等方面還不能滿足處理真實文本的需要[3]。隨著互聯(lián)網(wǎng)的普及和迅速發(fā)展,越來越多的信息以多語言的形式發(fā)布,這就為雙語或多語的語料庫建設(shè)提供了資源。

Web上的雙語網(wǎng)頁大致可以分為兩類,一類是雙語信息分布于兩個對照的網(wǎng)頁間,本文稱之為雙語平行網(wǎng)頁(例如http://www.gov.hk/tc/residents/和http://www.gov.hk/en/residents/);另一類是雙語信息包含在同一個網(wǎng)頁內(nèi),如圖1所示,本文稱之為雙語混合網(wǎng)頁。已有的研究方法主要處理的是雙語平行網(wǎng)頁,獲取雙語平行網(wǎng)頁有兩種常用方法:一種是基于URL相似性[4-5]:首先利用搜索引擎和雙語網(wǎng)站中的語言標志作為啟發(fā)式信息(如網(wǎng)站中的“English Version”、“中文版”等)來獲取候選雙語平行網(wǎng)站,然后再利用網(wǎng)頁URL地址的相似性(如file_e.html 和 file_c.html)來獲取平行網(wǎng)頁。另一種是基于網(wǎng)頁結(jié)構(gòu)相似性的[6-7]:通過追蹤平行網(wǎng)頁上的鏈接,分析網(wǎng)頁之間的html標簽結(jié)構(gòu)(DOM tree)的相似性,不斷迭代發(fā)現(xiàn)新的候選平行網(wǎng)頁?;陔p語平行網(wǎng)頁的雙語平行資源獲取方法取得了很好的效果,為平行語料庫的自動獲取提供了有效的解決方案。

http://blog.sina.com.cn/s/blog_486c0f670100didk.html?tj=1

雙語平行網(wǎng)頁存在地址或結(jié)構(gòu)上的相似性,處理方法已經(jīng)很成熟,但這些方法并不適用于雙語混合網(wǎng)頁。雙語混合網(wǎng)頁與雙語平行網(wǎng)頁相比,雙語對照更整齊、翻譯質(zhì)量較好、句對長度適中,然而雙語混合網(wǎng)頁不存在地址和結(jié)構(gòu)上的相似性,很難自動發(fā)現(xiàn)和區(qū)分,而且頁面組織形式多樣,很難精確抽取主體內(nèi)容。目前對于雙語混合網(wǎng)頁的解決方案仍比較少,一種自適應模式學習的方法[8]最近被提出,該方法首先利用翻譯和音譯模型找到網(wǎng)頁中的翻譯詞對作為種子,然后利用種子學習泛化的模板,最后利用學習到的模板抽取網(wǎng)頁中所有的雙語平行數(shù)據(jù)。這種方法可以獲取大量的雙語平行句對,但是正確率只有83.5%。本文提出了另一種從雙語混合網(wǎng)頁自動獲取雙語平行語料的方案,不僅可以獲得大量雙語平行句對,而且正確率比較高,平均正確率有93.75%,前150萬的平均正確率可以達到96%。本文提出的決方案解決了候選混合網(wǎng)頁的發(fā)現(xiàn)和獲取,網(wǎng)頁噪聲過濾,雙語網(wǎng)頁確認以及平行句對抽取等難點問題。此外,本文將從Web上獲取的雙語平行句對應用于統(tǒng)計機器翻譯的模型訓練,提出了句對質(zhì)量排序和領(lǐng)域信息檢索兩種不同的應用策略將Web平行語料加載到訓練集中,實驗證明本文提出的兩種策略可以提高翻譯系統(tǒng)性能,在IWSLT評測任務(wù)中BLEU值可以提高2到5個百分點。

本文第1節(jié)主要闡述候選雙語混合網(wǎng)頁的獲取方法,第2節(jié)描述如何從雙語混合網(wǎng)頁抽取平行句對,第3節(jié)研究Web平行語料在統(tǒng)計機器翻譯中的應用策略,第4節(jié)是實驗結(jié)果,第5節(jié)是對全文的總結(jié)和對未來工作的展望。

1 候選雙語混合網(wǎng)頁獲取

1.1 候選雙語混合網(wǎng)頁獲取方法

相對于候選雙語平行網(wǎng)頁而言,候選雙語混合網(wǎng)頁的獲取更為困難。因為這類網(wǎng)頁的分布通常不確定,缺乏一些常見的啟發(fā)式信息(如雙語網(wǎng)站獲取中的“中文版”、“英文版”等)。本文首先介紹兩種獲取雙語混合網(wǎng)頁的常用方法:

方法一:限定目標源的方法,預先收集整理若干個相關(guān)主題的網(wǎng)站,比如英語學習網(wǎng)站和翻譯網(wǎng)站等,然后遞歸下載。

方法二:利用搜索引擎的方法,通過搜索引擎和啟發(fā)式信息可以獲得大量鏈接,然后以這些鏈接作為種子鏈接,進行遞歸下載。

本文結(jié)合以上兩種方法,提出了第三種候選資源獲取方法——嘗試下載策略。首先利用搜索引擎和啟發(fā)式信息得到一個候選網(wǎng)站列表,比如以“雙語新聞 英漢”為啟發(fā)信息用Google進行檢索,可以得到不重復的524個鏈接。通過查看,這些頁面大致可以分成三類:

(1) 目錄型網(wǎng)頁:通常是所有雙語新聞或雙語閱讀的標題鏈接頁,追溯鏈接可以得到大量的雙語混合網(wǎng)頁。此類網(wǎng)頁可以遞歸下載。

(2) 內(nèi)容型網(wǎng)頁:通常本身是雙語混合網(wǎng)頁,但是追溯鏈接得到的都是無關(guān)網(wǎng)頁,比如某人博客中一篇雙語文章。此類網(wǎng)頁不可以遞歸下載。

(3) 無關(guān)網(wǎng)頁:既不是目錄型網(wǎng)頁,也不是內(nèi)容型網(wǎng)頁。此類網(wǎng)頁不可以遞歸下載。

真正的候選網(wǎng)站列表應由目錄型網(wǎng)頁組成,若對內(nèi)容型網(wǎng)頁和無關(guān)網(wǎng)頁進行遞歸下載,將得到大量的無關(guān)網(wǎng)頁,不僅會占用較大的存儲空間,還會影響系統(tǒng)的執(zhí)行效率。由于不同網(wǎng)站的設(shè)計風格和組織架構(gòu)各式各樣,所以很難利用規(guī)則判斷或是特征分類的思想對這三類網(wǎng)頁進行區(qū)分,所以本文采用了一種嘗試下載策略。把通過啟發(fā)式信息和搜索引擎返回的所有種子鏈接分別追溯至下一層,即只下載當前頁面和當前頁面上的鏈接所對應的頁面,不再進行更深層的采集。然后用2.2節(jié)所提到的方法進行雙語混合網(wǎng)頁確認,如果一個種子鏈接所對應的下一層含有5個(經(jīng)驗值)以上的雙語混合網(wǎng)頁,則認為此種子鏈接可以進行遞歸下載,將其放入候選網(wǎng)站列表中,否則將其舍棄。

1.2 方法比較

方法一的優(yōu)點是候選資源質(zhì)量較好,避免了大量非雙語混合網(wǎng)站的下載,缺點是網(wǎng)頁數(shù)量有限且網(wǎng)站的選擇需要人工干預。

方法二的優(yōu)點是可以自動發(fā)現(xiàn)候選網(wǎng)站,缺點是候選資源良莠不齊,會下載到大量非雙語混合的無關(guān)網(wǎng)頁,需要對大量無關(guān)網(wǎng)頁進行過濾,空間和時間開銷都很大。

方法三同時具備以上兩種方法各自的優(yōu)點,即實現(xiàn)了高質(zhì)量候選網(wǎng)站的全自動篩選,克服了方法一和方法二各自的不足。

為了衡量以上三種方法各自的特點,本文進行了一組實驗,即在相同時間下,考察分別使用三種方法得到的候選網(wǎng)站的正確率和候選網(wǎng)站的數(shù)量。

表1 候選雙語混合網(wǎng)站獲取方法比較

綜合考慮,在相同的時間開銷下,方法三是最優(yōu)的候選資源獲取方法,候選網(wǎng)站的質(zhì)量比方法一持平,候選網(wǎng)站的數(shù)量是方法一的2.47倍。與方法二相比,候選網(wǎng)站的正確率提高了59%,與此同時空間開銷也降低了一半。

2 雙語平行句對抽取

通過第一節(jié)的方法可以獲取大量的候選雙語混合網(wǎng)頁,然后需要從候選的雙語混合網(wǎng)頁中區(qū)分出真正的雙語混合網(wǎng)頁,并從真正的雙語混合網(wǎng)頁中抽取雙語平行句對,主要任務(wù)可以分成三部分:網(wǎng)頁噪聲過濾、雙語混合網(wǎng)頁確認和句子對齊。

2.1 網(wǎng)頁噪聲過濾

Web文檔包含了大量的噪聲內(nèi)容,比如廣告鏈接、導航條和圖片等,這些噪音通常分布在網(wǎng)頁的不同位置,缺乏規(guī)律性。大量的網(wǎng)頁噪聲不僅會影響雙語混和網(wǎng)頁確認的準確率,也會影響句子對齊的準確率,所以首先需要對所有候選網(wǎng)頁進行噪聲過濾。

本文采用一種專用的基于模板的網(wǎng)頁噪聲過濾方法。因為不同網(wǎng)站的編輯規(guī)則通常不同,所以很難定義一組通用的規(guī)則來處理所有的候選網(wǎng)站,但是仔細觀察,發(fā)現(xiàn)同一個網(wǎng)站內(nèi)部的噪聲分布和內(nèi)容是大致相似,所以可以在每個網(wǎng)站內(nèi)部自動學習噪聲模板,N個網(wǎng)站就會自動生成N個噪聲模板,然后每個網(wǎng)站分別參照自身對應的噪音模板進行過濾,具體算法見文獻[9]。

2.2 雙語混合網(wǎng)頁確認

候選雙語混合網(wǎng)頁并不一定是真實的雙語內(nèi)容對照的網(wǎng)頁,有很多單語網(wǎng)頁或者英語試題等等,因此必須區(qū)分真正的雙語混合網(wǎng)頁和非雙語混合網(wǎng)頁。本文對雙語平行網(wǎng)頁的確認主要分為兩步來完成,分別是基于雙語字符數(shù)的粗判別和基于詞典的細判別。

通常雙語平行網(wǎng)頁中兩種語言的字符數(shù)是成比例的,以中英文為例,假設(shè)中文文件的字符數(shù)為number_zh, 英文文件的字符數(shù)為number_en, 當“number_zh/number_en > T”或者“number_en / number_zh > T”時,則認為是非雙語平行網(wǎng)頁。實驗中,T 的取值為3。

2.3 句子對齊

經(jīng)過上一步的雙語混和網(wǎng)頁確認,得到的是篇章級或段落級對齊的雙語文本,而統(tǒng)計機器翻譯模型訓練需要的是句子級對齊的雙語平行語料庫,所以還需要在兩個單語文本之間抽取雙語平行句對。

Brown和Gale最早提出了基于長度的句子對齊方法[11]。Stanley F.Chen通過建立詞到詞的翻譯模型,實現(xiàn)了另一種基于詞典的句子對齊方法[12]。Wu、Utsuro將長度方法和詞典方法相結(jié)合,分別進行了漢英和日英句子的對齊試驗,得出了混合方法好于單純的長度方法或者詞匯方法[13-15]。

本文的主要工作是在長度加詞典的基礎(chǔ)上又考慮了標點符號和數(shù)字、縮略詞等其他混合信息,實現(xiàn)了一個漢語和英語的句子對齊方法?;诨旌咸卣鞯木渥訉R方法主要考慮了3類特征,分別是:

(1) 長度特征:這是最廣泛被采用的特征,因為互為翻譯的句子長度符合一定比率。

(2) 翻譯特征:利用翻譯特征來進行句子對齊可以大幅度提高對齊的精度。

(3) 符號特征:句子中的符號主要包括標點符號、數(shù)字、縮略詞等?;榉g的句子通常會使用對應的標點符號。

一些出現(xiàn)頻率較低的符號具有很高的參考價值,比如?、!、*、$。句子中的數(shù)字和縮略詞一般不會出現(xiàn)在雙語詞典中,在互譯文本中卻經(jīng)常采用相同的形式,比如表示日期、數(shù)量、專有名詞、機構(gòu)名等。因此,考慮符號特征對句子對齊是有意義的,可以作為長度特征和翻譯特征之外的一個很好的補充。

3 Web平行語料在統(tǒng)計機器翻譯中的應用

這一節(jié)主要研究Web平行語料的特點,以及根據(jù)Web平行語料的特點提出的兩種將Web語料應用于統(tǒng)計機器翻譯的方法。

3.1 Web平行語料特點

從Web上獲取的雙語平行語料庫主要有三個特點:

領(lǐng)域分布廣泛:Web平行語料是從互聯(lián)網(wǎng)上隨機采集的,可能來自于政府的官方新聞網(wǎng)站,可能來自于英語學習網(wǎng)站,可能來自于某人的博客等等,所以具有領(lǐng)域分布廣泛的特點。現(xiàn)有的雙語平行語料庫通常都是限定領(lǐng)域的,比如官方的雙語法律文檔,而Web平行語料庫的多領(lǐng)域性可以克服現(xiàn)有平行語料庫領(lǐng)域局限的不足,也為領(lǐng)域性課題應用提供了很好的基礎(chǔ)資源。

實時數(shù)據(jù)更新:由于互聯(lián)網(wǎng)上的數(shù)據(jù)及時更新瞬息萬變,所以從Web上獲取的雙語平行語料具有一定的實時性,可以捕捉到最新穎的詞匯和翻譯,新詞發(fā)現(xiàn)是計算語言學中的一個重要課題。比如“我被雷到了?!睂⑽姆g“I am startled.”,把這些實時數(shù)據(jù)加到統(tǒng)計機器翻譯系統(tǒng)的訓練集中可以讓系統(tǒng)學習到更多的知識從而提高性能。

存在噪音干擾:Web2.0時代的最大特點就是用戶的參與性,從Web上獲取的雙語平行數(shù)據(jù)很多來自互聯(lián)網(wǎng)用戶的個人發(fā)布,比如論壇中的翻譯擂臺,所以可能存在一些拼寫和語法上的錯誤,這些噪音的存在使得Web平行語料不可能具有百分之百的正確率,所以需要去粗取精提取真正有價值的信息。

為了確認Web平行語料的領(lǐng)域分布情況,我們進行了如下實驗,對從Web上獲取的雙語平行文本進行分類,分類器采用的是中國科學院計算技術(shù)研究所的DRAP分類系統(tǒng),這種分類器的效果要優(yōu)于支持向量機、樸素貝葉斯和K近鄰等分類技術(shù)(詳情參照http://www.searchforum.org.cn/tansongbo/software.htm),分類結(jié)果如圖2所示。

圖2 Web雙語平行語料領(lǐng)域分類

從分類結(jié)果圖可以看出,Web雙語平行語料的領(lǐng)域分布比較隨機,其中娛樂、科技、教育和電腦四個領(lǐng)域的分布比例較高,其他領(lǐng)域所占比例較小,可見這些領(lǐng)域的雙語平行語料比較稀缺,而Web雙語平行語料本身規(guī)模巨大,所以對這些稀缺領(lǐng)域的平行語料獲取是非常有意義的。

由于Web雙語平行語料存在一定的噪音干擾,且領(lǐng)域分布非常隨機,所以若將其直接加載到統(tǒng)計機器翻譯的模型訓練中效果并不理想,因此根據(jù)Web雙語平行語料的特點,我們提出了兩種應用策略,使其更好的適應實際應用的需要。

3.2 Web平行語料應用于SMT的兩種方法

(1) 句對質(zhì)量排序方法

統(tǒng)計機器翻譯系統(tǒng)的性能通常和雙語平行句對的質(zhì)量成正比,所以本文提出一種平行句對打分重排序的方法,以挑選質(zhì)量較好的雙語平行句對。這里定義一個評價函數(shù)為每一個平行句對打分,然后將平行句對按得分由高到低排序。

定義評價函數(shù):F=Len_Ratio_Score(S,T)+Trans_Rate_Score(S,T)

Len_Ratio_Score(S,T)是源語言句子和目標語言句子的長度比得分:

-∞<δ<+∞

Trans_Rate_Score(S,T)為源語言句子和目標語言句子的互翻譯率得分:

平行句對互翻譯程度的得分定義為:按照從英文向中文的方向查詞典,中文解釋在中文句子中命中的次數(shù)比上英文句子的總單詞數(shù)。平行句對的互翻譯程度越高則Trans_Rate_Score(S,T)得分越高。

(2) 領(lǐng)域信息檢索方法

基于統(tǒng)計的機器翻譯方法使用雙語平行語料庫作為翻譯知識的來源,翻譯知識的獲取在翻譯之前完成。基于統(tǒng)計的方法需要大規(guī)模雙語平行語料,其翻譯模型、語言模型參數(shù)的準確性直接依賴于語料的規(guī)模,其翻譯質(zhì)量主要取決于概率模型的好壞和語料庫的覆蓋能力。在已知測試集領(lǐng)域的情況下,可以挑選與測試集領(lǐng)域相關(guān)的雙語平行語料進行模型訓練,使機器翻譯系統(tǒng)學習到的翻譯知識盡可能的與測試集一致,從而提高翻譯質(zhì)量。因此,為了更好的利用Web雙語平行語料庫,本文提出了一種領(lǐng)域信息檢索的方法從Web雙語平行語料庫種檢索與測試集相似的句子用于模型訓練,具體分為三步:

(1) 在測試集上建立索引,本文使用開源的信息檢索工具Lemur進行索引的建立和查詢。

(2) 把Web平行語料庫中的句對逐一作為查詢字符串,檢索測試集中與之相似的句子,然后把返回的所有句子的相似度得分相加,即得到Web平行語料庫中每個句對與整個測試集的相似程度。

(3) 按相似程度分值對整個Web雙語平行語料庫進行排序。

4 實驗

4.1 雙語平行句對獲取實驗

目前針對雙語混合網(wǎng)頁的研究還比較少,微軟提出的自適應模式學習的方法[8]有效的解決了從雙語混合網(wǎng)頁抽取平行句對的問題,取得了良好的效果。為了證明本文提出的方法同樣有效并且具有更高的句對正確率和網(wǎng)頁召回率,特將兩種方法進行對比,結(jié)果如表2所示。

表2 基于雙語混合網(wǎng)頁的平行語料挖掘方法對比

從表2可以看出,對比兩種基于雙語混合網(wǎng)頁的平行句對挖掘方法,Microsoft的方法在獲取的平行句對總的數(shù)量上占優(yōu)勢,而本文提出的方法卻在雙語混合網(wǎng)頁召回率和平行句對正確率上占優(yōu)勢。之所以前者能獲取大量的平行句對是因為具有35億的候選網(wǎng)頁可從中篩選,但其混合網(wǎng)頁的召回率只有0.6%,這無疑會消耗大量的空間和時間成本,而本文提出的方法具有更高的存儲利用率。此外,本文提出的方法所抽取的平行句對正確率幾乎比前者高出10%,顯然我們的研究是有價值的。

4.2 平行句對排序?qū)嶒?/h3>

將258萬雙語平行句對按照評價函數(shù)F進行重排序,取前150萬句對平均分成五組進行隨機抽樣,每組隨機抽樣500個句對,一共抽樣2 500個句對,然后通過人工查驗的方式統(tǒng)計正確率,前150萬雙語平行句對的平均正確率是96%,分組統(tǒng)計結(jié)果如表3所示。

表3 句對重排序后正確率統(tǒng)計

從分組統(tǒng)計結(jié)果可以看出,評價函數(shù)F的設(shè)置是合理的,經(jīng)過打分重排序,可以將高質(zhì)量的平行句對排在前面,將低質(zhì)量的平行句對過濾掉,從而獲取正確率更高的雙語平行語料。

4.2 Web數(shù)據(jù)應用于SMT的實驗

Web雙語平行語料應用于統(tǒng)計機器翻譯系的實驗環(huán)境設(shè)置如下:解碼器為著名的開源解碼器moses(摩西)(http://www.statmt.org/moses/),對齊工具使用的GIZA++(http://www.fjoch.com/GIZA++.html),語言模型為四元,參數(shù)訓練方法使用的是最小錯誤率訓練,系統(tǒng)實現(xiàn)采用對數(shù)線性模型,機器翻譯性能的評測標準為國際評測的通用標準BLEU[16]。

第一組實驗,將用國際IWSLT評測的公用語料BTEC語料訓練的翻譯系統(tǒng)作為基準系統(tǒng),按照平行句對打分重排序的方法將排序靠前的Web平行句對加入到訓練集,以混合后的數(shù)據(jù)重新訓練翻譯系統(tǒng)。為了觀察BLEU值的變化,我們按照指數(shù)級增加的方式分別加入2 000、4 000、8 000、16 000個Web雙語平行句對到訓練集,實驗結(jié)果如表4中數(shù)據(jù)所示。

從表4可以看出,隨著添加到訓練集數(shù)據(jù)規(guī)模的增加,翻譯系統(tǒng)的性能也隨之提升。添加2 000個雙語平行句對時效果提升最明顯, 主要因為這2 000個雙語平行句對的翻譯質(zhì)量是最好的,打分排序最靠前,翻譯正確率可以達到99%。隨著添加數(shù)據(jù)規(guī)模的增大,系統(tǒng)性能的提升速度越來越緩慢,因為后面添加的數(shù)據(jù)的翻譯質(zhì)量要低于前面添加的數(shù)據(jù),但是BLEU值都在穩(wěn)步提升,實驗結(jié)果證明按照打分重排序挑選出的Web雙語平行句對是可以應用于統(tǒng)計機器翻譯系統(tǒng)的模型訓練的,效果比較理想。

表4 打分重排序方法挑選添加數(shù)據(jù)的實驗

第二組實驗,將用BTEC語料訓練的翻譯系統(tǒng)作為基準系統(tǒng),按照平行句對信息檢索的方法將查詢返回的與測試集相似的Web平行句對加入到訓練集,以混合后的數(shù)據(jù)重新訓練翻譯系統(tǒng)。與第一組實驗相同,也按照指數(shù)級增加的方式分別加入2 000、4 000、8 000、16 000個Web雙語平行句對到訓練集,實驗結(jié)果如表5中數(shù)據(jù)所示。

表5 信息檢索方法挑選添加數(shù)據(jù)的實驗

從表5可以看出,隨著添加到訓練集數(shù)據(jù)規(guī)模的增加,翻譯系統(tǒng)的性能也隨之提升,但BLEU值提升的趨勢與實驗一有所不同。第二組實驗中,翻譯系統(tǒng)性能的提升速度是比較平穩(wěn)的,而第一組實驗呈現(xiàn)先快后慢的趨勢。因為第三組實驗添加的句對翻譯質(zhì)量比較平均,而第二組實驗添加的句對翻譯質(zhì)量是由高到低排序的。從實驗二可以看出,用信息檢索的方法對Web雙語平行句對加以利用是有效的,因為IWSTL評測是旅游會話領(lǐng)域的語料,所以相比第一組實驗的NIST語料更能體現(xiàn)根據(jù)特定領(lǐng)域選取的語料對翻譯效果的影響。

上述實驗證明,我們提出的兩種對于Web雙語平行語料的利用方案是都是有效的,按照兩種方案挑選出的數(shù)據(jù)加入統(tǒng)計機器翻譯系統(tǒng)是可以提高翻譯性能的。

5 小結(jié)與展望

雙語平行語料庫在自然語言處理領(lǐng)域有很多重要應用,但是大規(guī)模雙語平行語料庫的獲取并不容易,現(xiàn)有的平行語料庫在規(guī)模、時效性和領(lǐng)域的平衡性等方面還不能滿足處理真實文本的實際需要。而互聯(lián)網(wǎng)作為廣泛使用的信息載體,為我們提供了大量的雙語候選資源。因此,本文提出一種基于雙語混合網(wǎng)頁的雙語平行語料庫自動獲取方案,解決了候選資源獲取、平行句對抽取等難點問題,運用該解決方案實際獲取了百余萬雙語平行句對。為了有效利用Web數(shù)據(jù),我們提出了兩種應用策略,將從Web雙語平行語料中挑選出的數(shù)據(jù)加入到統(tǒng)計機器翻譯的模型訓練,實驗證明,我們提出的兩種方案都可以提高翻譯質(zhì)量,可以使Web數(shù)據(jù)更好的服務(wù)于統(tǒng)計機器翻譯的應用。

在以后的研究中,我們希望解決以下幾個方面的工作:

第一,繼續(xù)探索候選資源獲取的解決方案,以期望能夠快速、自動獲取雙語候選網(wǎng)站列表。

第二,構(gòu)建更大規(guī)模更高對齊正確率的雙語平行語料庫,以供實際應用。

[1] Peter F. Brown, John Cocke, Stephen A, et al.. A Statistical Approach to Machine Translation: Parameter Estimation[J]. Computational Linguistics, 1990,volume 16: 79-85.

[2] 孫樂,金友兵,杜林,等. 平行語料庫中雙語術(shù)語詞典的自動抽取[J].中文信息學報,2000,14(6):33-39.

[3] 馮志偉. 中國語料庫研究的歷史與現(xiàn)狀[J].Journal of Chinese Language and Computing,2002,11(2):127-136.

[4] Resnik,p. and N.A.Smith..The web as a Parallel Corpus[J].Comoutational Linguistics,2003, volume 29: 349-380.

[5] 葉莎妮, 呂雅娟, 黃赟,等. 基于Web的雙語平行句對自動獲取[J]. 中文信息學報,2008,22(5):67-73.

[6] Lei Shi, Cheng Niu, Ming Zhou,,et al.A DOM Tree Alignment Model for Mining Parallel Data from the Web[C]//Joint Pro-ceedings of the Association for Computational Linguistics and the International Conference on Computational Linguistics, Sydney, Australia,2006: 489-496.

[7] Lei Shi, Ming Zhou: Improved Sentence Alignment on Parallel Web Pages Using a Stochastic Tree Alignment Model[C]//EMNLP,2008: 505-513.

[8] Long Jiang,Shiquan Yang,Ming Zhou,et al.Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing,2009: 870-878.

[9] 林政,呂雅娟,劉群,等. 基于雙語混和網(wǎng)頁的平行語料挖掘[C]//全國第十屆計算語言學會,煙臺,2009: 352-357.

[10] 劉非凡,趙軍,徐波. 大規(guī)模非限定領(lǐng)域漢英雙語語料庫建設(shè)及句子對齊研究[C]//全國第七屆計算語言學聯(lián)合學術(shù)會議,哈爾濱,2003: 339-345.

[11] Gale, William A. Kenneth W. Church. A program for aligning sentences in Bilingual corpora[J]. Computational Linguistics,1993, 19 : 75-102.

[12] Stanley F.Chen.Aligning Sentences in Bilingual Corpora Using Lexical Information[C]//Proceedings of the 31stAnnual Meeting of the Association for Computational Linguaistics,1993:9-16.

[13] DeKai Wu.Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria[C]//Proceedings of the 32ndAnnual Conference of the Association for Computational Linguaistics,1994: 80-87.

[14] T.Utsuro,H.Ikeda.Bilingual Text Matching using Bilingual Dictionary and Statistics[C]//15thCOLING,1994: 1076-1082.

[15] 張艷,柏岡秀紀. 基于長度的擴展方法的漢英句子對齊[J]. 中文信息學報,2005,19(5):31-36.

[16] Kishore Papineni, Salim Roukos, Todd Ward, et al. BLEU: A Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 311-318.

猜你喜歡
語料平行語料庫
向量的平行與垂直
平行
基于歸一化點向互信息的低資源平行語料過濾方法*
逃離平行世界
《語料庫翻譯文體學》評介
再頂平行進口
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
《苗防備覽》中的湘西語料
國內(nèi)外語用學實證研究比較:語料類型與收集方法
語篇元功能的語料庫支撐范式介入
镇江市| 四川省| 龙井市| 民丰县| 赤城县| 林西县| 晋宁县| 余干县| 秀山| 柘城县| 张家川| 阿尔山市| 临桂县| 三原县| 天气| 竹北市| 牙克石市| 蚌埠市| 辽阳市| 杨浦区| 晋中市| 贵德县| 资中县| 上蔡县| 瑞金市| 虎林市| 宾川县| 太康县| 诸暨市| 通渭县| 海安县| 石河子市| 沛县| 济南市| 德钦县| 大兴区| 东台市| 长岛县| 墨脱县| 桃园市| 彝良县|