摘 要:隨著經(jīng)濟全球化的迅猛發(fā)展,世界各國間交流日益頻繁,因此對各語言之間轉(zhuǎn)換需求量和轉(zhuǎn)換速度的要求不斷提高,人工翻譯逐漸難以應(yīng)對超負(fù)荷的翻譯工作量,機器翻譯由此應(yīng)運而生。本文從機器翻譯的歷史和發(fā)展現(xiàn)狀出發(fā),探析機器翻譯其不容忽視的優(yōu)越性及應(yīng)用過程中不可避免的弊端。進而得出機器翻譯離不開人工翻譯,人工翻譯也需要機器翻譯的輔助。有鑒于此,機器翻譯與人工翻譯之間的關(guān)系應(yīng)是相輔相成的促進關(guān)系,而非水火不容的敵對關(guān)系,在未來,二者應(yīng)協(xié)同發(fā)展,互補互助。
關(guān)鍵詞:機器翻譯;人工翻譯;發(fā)展趨勢
機器翻譯,又稱計算機翻譯,是指運用計算機來進行不同自然語言之間的轉(zhuǎn)換,一般指自然語言之間的部分或全文的翻譯。近年來,各類翻譯軟件及翻譯系統(tǒng)層出不窮。如2006年,Google公司開始研發(fā)并最終推出自身品牌的翻譯系統(tǒng)。2011年,百度公司推出能夠支持27種語言互譯的百度機器翻譯系統(tǒng)。隨著機器翻譯系統(tǒng)功能的不斷擴充,翻譯質(zhì)量的不斷提升,這些軟件越來越廣泛的應(yīng)用于人們的日常生活中。特別是其在科技類文獻中的翻譯表現(xiàn)幾可與人工翻譯水平一較高下。由此,學(xué)界中有些聲音認(rèn)為人工翻譯終將有一日會被機器翻譯所取代,屆時,人工翻譯將不復(fù)存在。然而,提出此種論調(diào)的人卻忽視了機器翻譯不可避免的一大現(xiàn)實——雙語對齊語料庫的建立離不開人工翻譯的積淀與發(fā)展。在未來,機器翻譯與人工翻譯,究竟是相輔相成、攜手并進、共同發(fā)展?還是機器翻譯有朝一日能夠脫離人工翻譯的基石獨立發(fā)展?為此,本文將在分析機器翻譯發(fā)展歷史及現(xiàn)狀的基礎(chǔ)上,探討機器翻譯與人工翻譯的發(fā)展趨勢,闡明兩者齊頭并進、相輔相成的可能性。
1 機器翻譯發(fā)展歷史及現(xiàn)狀
機器翻譯(Machine Translation,MT)的起源可以追溯到17世紀(jì)有關(guān)通用語言和及其詞典的思想,但實用性的成果直到20世紀(jì)30年代才出現(xiàn)。當(dāng)時法國人Georges Artsrouni和俄國人Petr Trojanskij分別取得了通用多語機器詞典的發(fā)明專利?,F(xiàn)代意義上的機器翻譯, 即基于計算機的翻譯,來源于工程師W. Weaver于1949年發(fā)表的《翻譯》備忘錄。1954年喬治敦大學(xué)和IBM首次聯(lián)合實驗使用電腦的機譯系統(tǒng),用250個詞將俄文材料譯成英文。這個實驗標(biāo)志著機器翻譯進入了新的發(fā)展階段??傮w而言,機器翻譯主要分為四個階段,即基于規(guī)則的機器翻譯、基于統(tǒng)計的機器翻譯、基于實例的機器翻譯和基于不同方法應(yīng)用的機器翻譯。
1.1 階段一:基于規(guī)則的機器翻譯
從Chomsky提出轉(zhuǎn)換生成文法之后,基于規(guī)則的方法一直是機器翻譯研究的主流,他認(rèn)為一種語言無限的句子可以由有限的規(guī)則推導(dǎo)出來。早期的機器翻譯系統(tǒng),從體系結(jié)構(gòu)上可以分為直譯式、轉(zhuǎn)換式和中間語言式,它們的不同點在于對源語言分析的深度,它們的相同點在于都需要大規(guī)模的雙語語料積累,如源語言推導(dǎo)規(guī)則、語言轉(zhuǎn)換規(guī)則和目標(biāo)語言生成規(guī)則等。這些規(guī)則的分析涉及詞匯、語法、語義等語言層面,依據(jù)源語和目的語之間的轉(zhuǎn)換規(guī)則和目的語語言生成規(guī)則,將源于語言自動轉(zhuǎn)換成目的語語言?;谝?guī)則的機器翻譯的優(yōu)點在于:規(guī)則可以很準(zhǔn)確地描述出一種語言的語法構(gòu)成,并且可以很直觀地表示出來。機器可以按照一組規(guī)則來理解它面對的自然語言,這組規(guī)則包含了不同語言層次的規(guī)則,包括用以對源語言進行描述的源語言分析規(guī)則、用以對源語言和目標(biāo)語言之間的轉(zhuǎn)換規(guī)則以及用于生成目標(biāo)語的生成規(guī)則。由此可見,基于規(guī)則的機器翻譯的核心在于這些規(guī)則系統(tǒng)的描寫和構(gòu)建,其成功與否及其翻譯質(zhì)量的高低直接取決于這些規(guī)則描寫的廣度、深度及其適用性。然而,規(guī)則庫的建立需要耗費巨大,即使如此,規(guī)則的完備性仍然不能得到根本保證,規(guī)則庫很難包含所有的語言現(xiàn)象。隨著規(guī)則數(shù)量的不斷增加,規(guī)則之間的沖突無法從根本上避免;同時也很難用系統(tǒng)化的規(guī)則分類體系,用恰當(dāng)?shù)囊?guī)則去刻畫所有的語言特征。而且早期的規(guī)則系統(tǒng)通常采用的都是確定性規(guī)則,即非此即彼的規(guī)則,系統(tǒng)的適應(yīng)性很差。
1.2 階段二:基于統(tǒng)計的機器翻譯
基于上述問題,如何自動地獲取語言規(guī)則、如何更好地表示規(guī)則以及如何更好地增強系統(tǒng)的適應(yīng)能力成為研究人員關(guān)注的焦點。隨著大量語料庫的產(chǎn)生,統(tǒng)計方法為我們提供了很好的從己有的語言資源中自動得到我們所需要的語言信息的工具,傳統(tǒng)的基于規(guī)則的機器翻譯方法研究逐步發(fā)展成為對以規(guī)則為基礎(chǔ)、語料庫方法為輔助的高性能機器翻譯方法的研究。對于機器翻譯來說,基于統(tǒng)計的方法可以從兩個層面上來理解,一種是指某些概率統(tǒng)計的方法在具體的機器翻譯過程中的應(yīng)用,比如用概率統(tǒng)計的方法解決詞性標(biāo)注的問題、詞義消歧的問題等。另一種較狹義的理解是指純粹的基于統(tǒng)計的機器翻譯,翻譯所需的所有知識都來源于語料庫本身?;诮y(tǒng)計的機器翻譯主要涉及模型問題、訓(xùn)練問題和解碼問題。模型問題指建立于源于句子轉(zhuǎn)化為目的語句子的翻譯概率模型。訓(xùn)練問題指利用語料庫獲取翻譯概率模型的所有參數(shù)。解碼問題則指在已知模型和參數(shù)的基礎(chǔ)上,查找并確定源語語句概率最大的譯文。盡管統(tǒng)計機器翻譯在一些領(lǐng)域取得了一定的成績,但是它需要大量的雙語語料庫,而且存在著數(shù)據(jù)稀疏問題。因此,如何構(gòu)建大規(guī)模的對齊雙語語料庫,以及找到比較好的平滑算法進行準(zhǔn)確的參數(shù)估計,成了基于統(tǒng)計機器翻譯系統(tǒng)實現(xiàn)中的關(guān)鍵問題。除此之外,要找到最優(yōu)的譯文,也需要好的搜索算法。
1.3 階段三:基于實例的機器翻譯
基于實例的機器翻譯思想最早由Nagao提出,其基本思想是,在已有的源語言實例句庫中,待翻譯句子按照類比原理匹配出最相似的實例句,取出實例句對應(yīng)的目標(biāo)語句子,進行適當(dāng)?shù)母脑欤罱K得出待翻譯句子所相應(yīng)的目標(biāo)語句子。如果待譯文本與語料庫現(xiàn)有文本完全一致,可以直接獲得高質(zhì)量的譯文。整個翻譯過程實際上是一個匹配過程。它的特點是不需要對源語言進行任何的分析,僅僅是通過類比進行翻譯。從翻譯過程來看,句子一級對齊的雙語語料庫是基于實例的機器翻譯系統(tǒng)的知識源,在基于實例的機器翻譯系統(tǒng)中,雙語對齊語料庫被稱為翻譯記憶庫(Translation Memory)?;趯嵗臋C器翻譯系統(tǒng)的翻譯質(zhì)量取決于翻譯記憶庫的規(guī)模和覆蓋率。因此如何構(gòu)建大規(guī)模翻譯記憶庫成為基于實例的機器翻譯研究的關(guān)鍵問題。對于雙語語料對齊研究,Gale等描述了基于長度和基于偏移量的語料庫的句子和段落對齊方法,Kay提出了基于詞匯特征的句子對齊方法。不過,由于大規(guī)模的雙語對齊語料庫建設(shè)難度大,且不多見,基于實例的機器翻譯在翻譯通用文獻時往往很難取得較高的匹配度,但在翻譯專業(yè)文獻時卻能取得較好的效果。
1.4 階段四:基于混合策略的機器翻譯
在基于單一方法的機器翻譯中,不管采用哪種方法,總是不能取得理想的效果,究其原因,主要是因為各種方法固有的問題造成的,例如基于統(tǒng)計的機器翻譯方法采用的二元語法模型無法解決長距離依賴問題,以及語料庫的標(biāo)注體系、語料庫的數(shù)據(jù)稀疏等等問題,而基于規(guī)則的方法很難覆蓋所有的語言現(xiàn)象,并且在對源語言和目標(biāo)語言分析生成過程中的歧義問題解決得不夠理想。于是,基于混合策略的機器翻譯方法成為研究的焦點,基于混合策略的方法充分利用各種機器翻譯方法的優(yōu)勢,避免各種方法的不足,做到翻譯結(jié)果的最優(yōu)化,從而達到提高翻譯系統(tǒng)性能的目的。在基于混合策略的機器翻譯系統(tǒng)中,基于規(guī)則的方法一般用于對源語言進行語言分析,而統(tǒng)計和實例的方法則對語言資源進行自動獲取以及如何利用語言資源處理方面起著重要的作用。
2 機器翻譯特征及其局限性
本質(zhì)上,機器翻譯是基于雙語描寫、對比和匹配結(jié)果的形式化和程式化處理,實現(xiàn)不同語言的自動翻譯,其特征主要表現(xiàn)為自動化、機械性、以句子為翻譯單位、二度摹仿和語境制約有限等特征。
一方面,機器翻譯可以在較短時間內(nèi)對大量源于文本進行翻譯處理,其翻譯速度及一次性處理的文本數(shù)量遠(yuǎn)超人工翻譯。另一方面,機器翻譯的實施可以不受工作時間的限制。只要有電腦和機器翻譯系統(tǒng),便可連續(xù)開展機器翻譯。目前,由于相關(guān)技術(shù)的先天不足,機器翻譯只能翻譯源于文本的概念意義和語篇意義,而在再現(xiàn)人際意義方面差強人意。人際意義通常包括主觀判斷、價值取向和情感態(tài)度等因素,這些因素具有較強的主觀性,往往會因人因時因地而異,故而很難確定不同語言在人際意義方面的對應(yīng)關(guān)系。
這些問題的出現(xiàn)是隨著機器翻譯的發(fā)展帶來的。機器翻譯最早只能是詞對詞的翻譯,只起到詞典的功能和作用,句法的應(yīng)用使得句子的翻譯得以進行,使用直接翻譯法可以解決,以英漢為例,當(dāng)原文和譯語(目的語)有高度的相似性時,可以直接對應(yīng)翻譯,如原文“他是個醫(yī)生?!蹦康恼Z就是“He is a doctor.”,隨著原文結(jié)構(gòu)復(fù)雜程度的增加,如長篇的段落或篇章,機器翻譯在句法和語義上的問題都全部暴露。語用因素也是翻譯中不可忽略的部分,由于語境的制約和文化差異,有些材料需要做出歸化或異化的處理,語用規(guī)則的介入將解決語境和文化制約的翻譯過程。例如成語或習(xí)語的翻譯,就非常需要考慮文化差異的制約作用,不過現(xiàn)有的成語(習(xí)語)詞典可以解決了這個問題,也可以通過語料庫來解決,最棘手的問題還是上下文語境問題,目前在機器翻譯領(lǐng)域,語用問題還沒有真正得到解決。
3 機器翻譯與人工翻譯的關(guān)系
誠然,機器翻譯的速度及其一次性翻譯的文本規(guī)模遠(yuǎn)非人工翻譯所能企及。但是,機器翻譯又是一種機械的二度摹仿活動,其翻譯文本所擁有的內(nèi)涵遠(yuǎn)不及人工翻譯。機器翻譯以人工翻譯為基礎(chǔ)。離開人工翻譯,機器翻譯無從談起。機器翻譯正常運行的關(guān)鍵——雙語對齊語料庫,即是在對包含人工翻譯語料在內(nèi)的雙語語料進行分析,并以此為基礎(chǔ)描寫雙語轉(zhuǎn)換規(guī)則。沒有人工翻譯語料,就談不上機器翻譯所賴以實施的重要物質(zhì)前提。
同時,機器翻譯可以協(xié)助解決人工翻譯所遇到的困難,如抽象名詞、專業(yè)術(shù)語和短語等。除了句法和語義,人工翻譯遇到的其他問題機器翻譯也同樣遇到,甚至還更多,而且人工能做到的機器不一定能做到。人工翻譯可以在宏觀上為語篇布局,也可以在微觀上斟酌詞句,機器翻譯卻往往做不到。人工很難翻譯的地方,機器同樣也很難處理,這些方面包括:1)人名、地名;2)歇后語;3)雙關(guān)語;4)成語;5)俚語;6)格言;7)名言雋語;8)習(xí)慣用法等等。“She is a cat.”無論如何機器翻譯都很難翻譯成“她陰險狡詐”,因為這要跨越文化范疇和視角來進行翻譯。人工翻譯能統(tǒng)籌各種因素,包括語言、語境、語法、語用、跨文化、美學(xué)、以及讀者對象、翻譯目的和各種翻譯技巧和策略的綜合應(yīng)用,機器目前做不到。從以上句法、語義和其他各個層面的觀察,不難發(fā)現(xiàn)機器翻譯效果與標(biāo)準(zhǔn)要求依然相距甚遠(yuǎn),必須加強句法學(xué)、語義學(xué)向計算機語言轉(zhuǎn)換的研究和實踐。
機器能翻譯是因為人給他輸入了語言構(gòu)成的“規(guī)則”和一定的“語料庫”,要想機器翻譯的質(zhì)量高,輸入的“規(guī)則”和“詞匯”就要多。而輸入的“規(guī)則”和“詞匯”多到一定的程度,就會影響機器自身的分辨能力。目前,國內(nèi)外在提高機譯系統(tǒng)的譯準(zhǔn)率上也基本處于停滯不前的狀態(tài)。當(dāng)然,機器翻譯有它的優(yōu)點:速度快、效率高,雖然質(zhì)量不高但仍具有一定的可讀性。在一些并不需要精確了解原文材料的場合下,用機譯可能更快達到預(yù)期的目的,節(jié)省很多人力、財力和時間。而且,隨著語言學(xué)研究的進展,機譯的質(zhì)量也可能會越來越好。協(xié)同翻譯是一項大規(guī)模、復(fù)雜的翻譯任務(wù),合理的流程設(shè)計和嚴(yán)格的過程控制可以充分發(fā)揮計算機在運算和存儲方面的優(yōu)勢,降低用戶工作量,減少重復(fù)勞動的概率,對于進一步擴大翻譯規(guī)模、提高翻譯生產(chǎn)率具有重要作用。但是,不論機器翻譯的質(zhì)量如何提高,機譯和人譯總會有差距,機器翻譯也不可能取代人工翻譯。機器翻譯只能由其特定的使用對象在特定的范圍中使用。
4 結(jié)語
綜上所述,機器翻譯的特征主要表現(xiàn)為自動化、機械性、以句子為翻譯單位、二度摹仿和語境制約有限五大特征。由于這些特征的制約,機器翻譯通常適用于科技文本和法律文本等程式化文本或信息性文本的翻譯。而文學(xué)類等表現(xiàn)性文本的翻譯則需要由人工翻譯來承擔(dān)。機器翻譯離不開人工翻譯,人工翻譯也需要機器翻譯的輔助。有鑒于此,機器翻譯與人工翻譯之間的關(guān)系應(yīng)是相輔相成的促進關(guān)系,而非水火不容的敵對關(guān)系,在未來,二者應(yīng)協(xié)同發(fā)展,互補互助。
參考文獻
[1]Josef F, Ney H. Discriminative Training And Maximum Entropy Models for Statistical Machine Translation. In: proc. of the 40th ACL, Philadelphia, 2002
[2]Martin K. Text Translation Alignment Computational Linguistics,1993
[3]William A G, Church K W. A Program For A1igning Sentences in Bilingual Corpora. In: proc. of the 29th ACL,1991.
[4]董振東.中國機器翻譯的世紀(jì)回顧[N].計算機世界,2003.
[5]馮志偉.自然語言機器翻譯新論[M].北京:語文出版社,1995.
[6]馮志偉.自然語言的計算機處理[M].上海外語教育出版社,1996.
[7]蔣躍.人工譯本與機器在線譯本的語言計量特征對比[J].外語教學(xué),2014.
[8]胡開寶,李翼.機器翻譯特征及其與人工翻譯關(guān)系的研究[A].中國翻譯,2016.
[9]潘正芹,羅華珍,易永忠.機器翻譯的困境、前景和出路[A].山東農(nóng)業(yè)工程學(xué)院學(xué)報,2017.
[10]吳思樂.機器翻譯與人工翻譯淺析[A].廣東交通職業(yè)技術(shù)學(xué)院學(xué)報,2003.
[11]葉娜,張桂平,韓亞東,蔡東風(fēng).從計算機輔助翻譯到協(xié)同翻譯[A].中文信息學(xué)報,2012.
[12]張克亮.機器翻譯熱的冷思考[A].計算機工程與應(yīng)用,2006.
[13]張政.機器翻譯難點所在[J].外語研究,2005.
作者簡介
張祖英(1994-),女,漢族,陜西西安人,碩士在讀,西安理工大學(xué)人文與外國語學(xué)院,研究方向:英語翻譯與研究。