基于語料庫的機(jī)器翻譯

2019-11-13 11:12朱杰古明

現(xiàn)代交際 2019年17期

朱杰古明

摘要：機(jī)器翻譯在計算機(jī)科學(xué)突飛猛進(jìn)的今天吸引了大批科學(xué)家的關(guān)注和研究，其理論方法也呈現(xiàn)出多樣性，而語料庫的發(fā)展給機(jī)器翻譯注入了新的活力，基于此的機(jī)器翻譯便一躍成為主流。通過對機(jī)器翻譯的理論支撐和發(fā)展歷史做以綜合概述，然后運(yùn)用機(jī)器翻譯工具——谷歌翻譯進(jìn)行實(shí)例對比研究，其結(jié)果顯示了機(jī)器翻譯相對于人工翻譯的不足之處，但也展現(xiàn)了光明的發(fā)展前景。

關(guān)鍵詞：機(jī)器翻譯語料庫谷歌翻譯

中圖分類號：H085? 文獻(xiàn)標(biāo)識碼：A? 文章編號：1009—5349（2019）17—0100—02

在計算機(jī)還未普及之前，人們的視野、獲取信息的渠道都是有限的，獲得信息的廣度和深度都受到束縛。各個民族、種族、國度或者地區(qū)的人們說著各自的語言，難以交流，這限制了信息的及時傳播。計算機(jī)的飛速發(fā)展，讓世界成為了一個小小的地球村。信息傳播的速度和數(shù)量呈現(xiàn)幾何級數(shù)增長，這就需要精準(zhǔn)而快速的翻譯。但是，傳統(tǒng)的人工翻譯的方式已經(jīng)不能滿足信息化社會的需求。傳統(tǒng)的人工翻譯往往意味著昂貴的勞務(wù)費(fèi)，而且人工翻譯也就意味著時間的耗費(fèi)，尤其是目標(biāo)信息涉及較多專業(yè)性知識的時候，比如心理學(xué)、哲學(xué)、政治學(xué)等，翻譯所要耗費(fèi)的時間就更長。

為了滿足及時翻譯的需要，機(jī)器翻譯應(yīng)運(yùn)而生。翻譯軟件的開發(fā)和應(yīng)用，化解了信息傳播的語言障礙。人們足不出戶，坐在電腦前，動動鼠標(biāo)，點(diǎn)點(diǎn)圖標(biāo)，就可以將源語言翻譯為目標(biāo)語。

一、機(jī)器翻譯

機(jī)器翻譯，又被稱為計算機(jī)翻譯或自動翻譯，是一門多學(xué)科融合的綜合學(xué)科。這些學(xué)科包括：語言學(xué)、數(shù)學(xué)和電腦科學(xué)。它也是自然語言處理研究的一個分支。1947年，美國著名的科學(xué)家Warren Weaver首先提出了用電子計算機(jī)將不同的語言進(jìn)行轉(zhuǎn)換翻譯的可能性，并在1949年正式提出了機(jī)器翻譯的觀點(diǎn)。從那以后，機(jī)器翻譯給世界帶來了意想不到的巨大變化。在眾多學(xué)者的研究和貢獻(xiàn)之下，機(jī)器翻譯領(lǐng)域也取得了跨時代的發(fā)展。

（一）機(jī)器翻譯方法

以翻譯策略所反映的哲學(xué)背景為分類準(zhǔn)則，人們常把機(jī)器翻譯方法劃分為理性主義方法和經(jīng)驗(yàn)主義方法兩大類。理性主義方法一般指基于規(guī)則的方法;經(jīng)驗(yàn)主義方法一般指基于語料庫的方法。

1.基于規(guī)則的機(jī)器翻譯

在生活中應(yīng)用非常廣泛的是使用規(guī)則制定的機(jī)器翻譯系統(tǒng)，不同系統(tǒng)有很多的共同點(diǎn)：第一，每個翻譯系統(tǒng)都擁有一個表達(dá)語言學(xué)的符號系統(tǒng);第二，翻譯系統(tǒng)在特定的規(guī)則下完成翻譯內(nèi)容。換而言之，單詞對單詞的對等翻譯、直接的轉(zhuǎn)化翻譯以及運(yùn)用中間語的翻譯都可以納入基于規(guī)則的翻譯方法中來。

雖然基于規(guī)則的機(jī)器翻譯發(fā)展迅猛，但其翻譯的質(zhì)量不太令人滿意，其可懂性及效度也很不充分。隨著對機(jī)器翻譯的深入研究，現(xiàn)存的基于規(guī)則的翻譯方式的很多問題凸顯出來，如：翻譯質(zhì)量低、人力耗費(fèi)高、語法規(guī)則僵硬等。單單只依賴語法規(guī)則和語法結(jié)構(gòu)的翻譯是遠(yuǎn)遠(yuǎn)滿足不了當(dāng)代社會的需要的。于是，另一種主流的機(jī)器翻譯理論便逐漸抓取了專家學(xué)者的眼球，這便是經(jīng)驗(yàn)主義方法，即基于語料庫的方法。

2.基于語料庫的機(jī)器翻譯

基于語料庫的機(jī)器翻譯就是利用數(shù)據(jù)庫中的語言信息來創(chuàng)造新的翻譯。基于語料庫的機(jī)器翻譯雖然在機(jī)器翻譯的早期就已經(jīng)有所萌芽，但其真正地開始抓取公眾的眼球還是始于20世紀(jì)90年代。它包括兩種方式：一是統(tǒng)計機(jī)器翻譯方法，另一個是實(shí)例機(jī)器翻譯方法。根據(jù)Carl（2000）所言，所有的基于語料庫的機(jī)器翻譯都會運(yùn)用一系列的所謂的“指稱翻譯”（包括源文本和其翻譯）來做翻譯。這其中源文本和目標(biāo)文本是平行的，通過分析這樣的平行結(jié)構(gòu)，從語料庫中分離出對等的翻譯。Hutchins（1992）認(rèn)為基于語料庫的翻譯為僵化、復(fù)雜的基于規(guī)則的翻譯在分析和產(chǎn)出階段提供了另一種選擇。

（1）基于統(tǒng)計的機(jī)器翻譯

數(shù)據(jù)統(tǒng)計可以為機(jī)器翻譯提供大量的素材，也是目前非限定領(lǐng)域機(jī)器翻譯中使用廣泛的方法之一。此方法主要是利用大量的平行語料庫提取大量素材并對其進(jìn)行統(tǒng)計分析、建立模型，并利用模型進(jìn)行新材料的翻譯。利用語料庫進(jìn)行素材統(tǒng)計的要務(wù)是能夠?yàn)檎Z言的生成建構(gòu)合理的統(tǒng)計模型。模型建好后，還需對模型里的參數(shù)進(jìn)行定義。早期的統(tǒng)計模型主要是采用噪聲信道模型，近年來，將區(qū)分性訓(xùn)練方法融入機(jī)器翻譯越來越常見。

（2）基于實(shí)例的機(jī)器翻譯

除了上述機(jī)器翻譯模型外，使用實(shí)例進(jìn)行機(jī)器翻譯也是十分常見的翻譯方法。該方法由日本翻譯專家長尾提出，其核心原理如下：將實(shí)例放入實(shí)例庫，并對實(shí)例進(jìn)行標(biāo)注，主要標(biāo)注為兩個字段，其中一個字段保留源語言句子，另一個字段保留目的語句子，當(dāng)要進(jìn)行翻譯時，機(jī)器會將輸入的句子與實(shí)例庫的源語言進(jìn)行對比，找出最相似的句子，從而匹配最佳的目的語翻譯，并進(jìn)行輸出。

與傳統(tǒng)的基于規(guī)則的機(jī)器翻譯相比較，基于語料庫的機(jī)器翻譯有著其獨(dú)特的優(yōu)勢。為了更直接地呈現(xiàn)其優(yōu)越性，本文將選取一段文本，用谷歌在線翻譯系統(tǒng)進(jìn)行翻譯，然后將源文本與目標(biāo)文本進(jìn)行對比，分析其翻譯狀況，來展示其可行性。

二、例證

（一）谷歌翻譯

谷歌翻譯是一項(xiàng)美國谷歌公司提供的翻譯文段和網(wǎng)頁的服務(wù)，其采用的翻譯方法就是基于統(tǒng)計的機(jī)器翻譯。谷歌的機(jī)器翻譯方法主要是基于2003年Franz Josef Och在美國國防部高級研究項(xiàng)目局（DARPA）的機(jī)器速度翻譯比賽時獲獎的研究成果Och指出，若想要開發(fā)一個可用于翻譯一對全新語言的統(tǒng)計機(jī)器翻譯系統(tǒng)，必須做好以下的數(shù)據(jù)基礎(chǔ)搜集工作：一個擁有百萬詞匯量的雙語文本語料庫和屬于這兩種語言的單語語料庫，各自得擁有十億數(shù)量級以上的單詞。

谷歌翻譯有其非常強(qiáng)大的語言學(xué)數(shù)據(jù)，這些數(shù)據(jù)內(nèi)容主要來源于聯(lián)合國文檔。一般來講，聯(lián)合國的文檔都會有至少六種聯(lián)合國官方語言的譯本。因此，谷歌的翻譯語料庫數(shù)據(jù)是非?？煽考昂Ａ康?，相當(dāng)于擁有了經(jīng)人工翻譯了兩三百萬單詞并由不同語言構(gòu)成的語料庫。

（二）源文本

源文本選自熱門美劇《摩登家庭》（Modern Family）劇本，第一季第七集最后結(jié)尾處旁白的一段總結(jié)性的話語。

Jay①：We tell our kids it doesn't matter if you win or lose，but let's be honest，winning feels pretty great.There's nothing like that golden moment in the sun.I think every parent probably wants that for their child.So，sometimes，we push too hard.And that leads to a lot of resentment and guilt.So，how much is too much？ Here's where I come out.Guilt fades.Hardware is forever.

（三）谷歌翻譯文本

我們將源文本粘貼至谷歌翻譯②頁面處，點(diǎn)擊翻譯，生成了譯本。

“我們告訴我們的孩子，無論你輸贏都沒關(guān)系，但說實(shí)話，勝利感覺非常棒。在陽光下沒有像那個黃金時刻。我想每個父母都可能想要他們的孩子。所以，有時候，我們太過努力。這導(dǎo)致了很多怨恨和內(nèi)疚。那么，多少錢太多了？這是我出來的地方。內(nèi)疚消退。硬件是永恒的?！?/p>

（四）分析

源文本屬于比較口語化的內(nèi)容，因此整體的翻譯難度不太高。譯文的第一句，整體上翻譯得比較出色，沒有出現(xiàn)句法的問題。譯文的第二句則出現(xiàn)了比較明顯的句法錯誤?！癷n the sun”應(yīng)該是介詞短語作后置定語修飾“golden moment”，而譯文則將“in the sun”當(dāng)成了整個句子的地點(diǎn)狀語，并且在詞匯“golden”的翻譯上，谷歌比較直接地翻譯為了“黃金”，而更為雅致的翻譯則為輝煌的或者光輝的。第三句的翻譯，谷歌則出現(xiàn)了漏翻的現(xiàn)象：that沒有在譯文中體現(xiàn)出來。第四句同樣出現(xiàn)了詞義理解的差異。push在文本情境中的意思應(yīng)該為把……逼太緊，而不是努力的意思。第五句句子較短，句法簡單，因此谷歌翻譯未出現(xiàn)錯誤。而第六句中谷歌翻譯則將“how much”粗暴地翻譯成了“多少錢”，而忽略了語境，此處“how much”就理解為多少的意思。倒數(shù)第二句的翻譯中，“come out”此短語也被直接翻譯為了“出來”，實(shí)際上為“得出結(jié)論”的意思。最后部分的翻譯內(nèi)容沒有問題，但翻譯得比較生硬，讀起來很不符合中文的習(xí)慣，因此在人工翻譯中通常會結(jié)合語境，將詞句翻譯為“內(nèi)疚會消退，但是硬件才是永恒的”。

通過實(shí)例的分析，我們可以總結(jié)出基于語料庫的機(jī)器翻譯的最大優(yōu)勢就是其翻譯內(nèi)容的準(zhǔn)確性和易理解性。其在處理歧義句上表現(xiàn)出了強(qiáng)大的能力，更別提基于數(shù)據(jù)庫的常識的豐富性。

當(dāng)然，我們也不可否認(rèn)，機(jī)器翻譯與人腦翻譯相比還存在著巨大的差距，谷歌翻譯的上述文本也顯示出其在句式結(jié)構(gòu)處理上還有所欠缺，亟待完善。

三、結(jié)語

機(jī)器翻譯的歷史曲折而坎坷，機(jī)器翻譯依據(jù)的理論和方式也紛繁復(fù)雜，基于數(shù)據(jù)庫的機(jī)器翻譯方式在多年的實(shí)證中體現(xiàn)出了自身價值，博得了商業(yè)公司的青睞。但機(jī)器翻譯畢竟是隨著計算機(jī)的發(fā)展才發(fā)展起來的一門科學(xué)，其后續(xù)的發(fā)展和完善還需要依賴于科技的進(jìn)步、軟件的設(shè)計開發(fā)。

注釋：

①摩登家庭主角之一，年紀(jì)最大。

②見http：//translate.google.cn/？hl=zh—CN&tab=wT#。

參考文獻(xiàn)：

[1]Carl，M.Combining invertible example—based machine translation with translation memory technology[A].Proceedings of the 4th Conference of the Association for Machine Translation in the Americas，Mexico，2000.

[2]Hutchins，J and Somers，H.An Introduction to Machine Translation[M].London：Academic Press，1992.

[3]馮志偉.機(jī)器翻譯研究[M].北京：中國對外翻譯出版公司，2004.

[4]俞士文.計算語言學(xué)概論[M].北京：商務(wù)印書館，2007.

責(zé)任編輯：景辰

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語料庫的機(jī)器翻譯