国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信息化時代下機(jī)器翻譯發(fā)展的現(xiàn)狀、問題與思考

2021-02-01 11:29姚伏生
宿州學(xué)院學(xué)報 2021年2期
關(guān)鍵詞:語料庫百度譯者

姚伏生

安徽農(nóng)業(yè)大學(xué)經(jīng)濟(jì)技術(shù)學(xué)院,安徽合肥,230011

機(jī)器翻譯是指“使用計算機(jī)系統(tǒng)將文本或語音從一種自然語言自動翻譯為另一種語言的過程”[1]。作為人工智能的一種,機(jī)器翻譯不僅具有重要的科學(xué)研究價值,同時還具有重要的應(yīng)用價值。隨著信息化的程度進(jìn)一步擴(kuò)大,機(jī)器翻譯不僅在日常生活中發(fā)揮了越來越重要的作用,還為不同國家與民族之間的交流提供了便利。隨著人工智能技術(shù)的不斷革新,機(jī)器翻譯的能力也在逐步提升,繼而引發(fā)了翻譯產(chǎn)業(yè)的變革,導(dǎo)致從業(yè)人員的分流。人們對機(jī)器翻譯的未來發(fā)展充滿了期待,也出現(xiàn)了不同的聲音,評論機(jī)器翻譯的是非功過?;诖朔N現(xiàn)象,文章首先梳理了機(jī)器翻譯的發(fā)展現(xiàn)狀,繼而分析了其面臨的局限性,最后就其未來的發(fā)展進(jìn)行前瞻性思考,以期對機(jī)器翻譯有一個理性的認(rèn)識,對機(jī)器翻譯研究提供一定的借鑒。

1 機(jī)器翻譯發(fā)展的現(xiàn)狀概述

機(jī)器翻譯誕生于1947年。自問世以來,機(jī)器翻譯經(jīng)過七十余年的發(fā)展,已經(jīng)取得了巨大的進(jìn)步,在一些特定的領(lǐng)域如日常交流、媒體新聞、常規(guī)性文本翻譯等方面,機(jī)器翻譯已廣泛使用,在給普通大眾帶來便利的同時,也產(chǎn)生了一定的社會效益。由于篇幅所限,文章的討論只限于機(jī)器的文本翻譯。

機(jī)器翻譯的發(fā)展主要經(jīng)歷了三個階段,即基于規(guī)則(Rule-based)的機(jī)器翻譯,基于統(tǒng)計(Statistics-based)的機(jī)器翻譯以及基于深度學(xué)習(xí)(Deep Learning)的神經(jīng)機(jī)器翻譯[2]。這三個階段見證了機(jī)器翻譯質(zhì)量的逐步提升。某些特定領(lǐng)域的文獻(xiàn)的機(jī)器翻譯基本上達(dá)到了人工翻譯的水準(zhǔn),如代表機(jī)器翻譯較高水平的谷歌翻譯。國內(nèi)的機(jī)器翻譯如百度翻譯、有道翻譯、360翻譯等雖然起步較晚,但也在較短時間內(nèi)取得了驚人的進(jìn)步,在某些領(lǐng)域并不遜色于谷歌翻譯。這里以百度翻譯為例予以說明。

例1:In this paper,we introduce a novel domain adaptation approach,called the adaptive local neighbors for transfer discriminative feature learning,which not only leverages discriminative domain-invariant features,but also addresses the challenges of multimodally distributed data by respecting the local manifold structure.furthermore,the local neighbors are revealed adaptively that is insensitive to data noises.Extensive experiments show that the proposed approach not only significantly outperforms several state-of-art domain adaptation methods,but also obtains desirable results when the data noises exist.[3]

百度翻譯:本文提出了一種新的域自適應(yīng)方法,即自適應(yīng)局部鄰域轉(zhuǎn)移判別特征學(xué)習(xí)方法,它不僅利用了區(qū)分域不變特征,而且通過尊重局部流形結(jié)構(gòu)來解決多模式分布數(shù)據(jù)的挑戰(zhàn)。此外,自適應(yīng)地揭示了對數(shù)據(jù)噪聲不敏感的局部鄰域。大量實驗表明,該方法不僅明顯優(yōu)于現(xiàn)有的幾種域自適應(yīng)方法,而且在存在數(shù)據(jù)噪聲的情況下也能獲得令人滿意的結(jié)果。

原文是有關(guān)計算機(jī)科學(xué)方面的一段文獻(xiàn)資料,涉及的專業(yè)術(shù)語較多,如domain adaptation,discriminative domain-invariant features,且句式較為復(fù)雜,既有插入語,又有主從結(jié)構(gòu),翻譯難度相對較大。但是整體來看,百度翻譯的譯文較為準(zhǔn)確而流暢,個別地方稍微潤色一下即可。

可以預(yù)見,隨著人工智能技術(shù)的日益提升,機(jī)器翻譯的水平也必將更加完善。機(jī)器翻譯將來也會被更多地應(yīng)用到實際生活之中。

2 問題分析

機(jī)器翻譯技術(shù)雖然取得了長足的進(jìn)步,但它仍然受到諸多因素的制約,使其在某些層面或領(lǐng)域難以替代人工翻譯,或無法與之抗衡。

2.1 語料庫的建設(shè)問題

語料庫是機(jī)器翻譯賴以發(fā)展的驅(qū)動力之一,因此語料庫的規(guī)模、領(lǐng)域范疇自然關(guān)乎機(jī)器翻譯的效率和質(zhì)量。然而,語料庫的建設(shè)本身也面臨各種難以解決的問題。如規(guī)模問題、滯后性問題,等等。

有學(xué)者在調(diào)查時發(fā)現(xiàn),只有語料庫規(guī)模達(dá)到1 500萬詞條以上時,神經(jīng)網(wǎng)絡(luò)翻譯的性能才開始優(yōu)于統(tǒng)計翻譯[4]。語料庫低于此規(guī)模時,機(jī)器翻譯的能力無法施展。但現(xiàn)在的問題是,除中文、英文、德文、日文、法文等主流語言的資源比較豐富,許多小語種的數(shù)據(jù)收集很難達(dá)到此種規(guī)模。面對這些小語種,神經(jīng)機(jī)器翻譯難以發(fā)揮有效的作用。雖然“谷歌翻譯”“百度翻譯”能在多種語言之間切換,但除了大語種之間的互譯在日常用語、媒體新聞、科技論文等領(lǐng)域達(dá)到了較高的水平之外,其他小語種之間的互譯遠(yuǎn)未達(dá)到理想的程度。即便是大語種之間的互譯,現(xiàn)在的語料庫也是主要集中在時政新聞和科學(xué)技術(shù)等方面,絕大多數(shù)其他領(lǐng)域的語料庫都嚴(yán)重缺乏。究其原因,除了資金問題,還與這些領(lǐng)域的實用性程度較低有關(guān)。如:

例2:通過文獻(xiàn)研究,分析糖尿病患者延續(xù)性護(hù)理的應(yīng)用現(xiàn)狀及存在的問題,為進(jìn)一步開展糖尿病患者延續(xù)性護(hù)理的相關(guān)研究提供參考[5]。

谷歌翻譯:Through literature research,analyze the application status and existing problems of continual care for diabetic patients,in order to further develop diabetes.Relevant research on continuity care of patients provides reference.

百度翻譯:Through literature research,the application status and existing problems of continuous nursing care for diabetic patients were analyzed,so as to further develop diabetes mellitus.The related research of continuous nursing of patients provides reference.

谷歌和百度都將原文中的“糖尿病患者”譯為了diabetic patients,而標(biāo)準(zhǔn)的譯文為people with diabetes或是patients with diabete。這兩種國內(nèi)外較為先進(jìn)的機(jī)器翻譯系統(tǒng)都不能正確地翻譯這一醫(yī)學(xué)中非常普通的術(shù)語,可見目前數(shù)據(jù)庫殘缺的程度。

語料庫的另外一個缺陷就是滯后性問題。在科技領(lǐng)域,一些介紹最新科研成果的文本如學(xué)術(shù)論文、教科書,常常使用大量新生的專業(yè)術(shù)語。此外,隨著社會的快速發(fā)展,日常生活中新的表達(dá)方式也不斷地被創(chuàng)造出來,如“接地氣”“洪荒之力”“佛系”等。這些新生術(shù)語或表達(dá)方式的譯文產(chǎn)生需要一個過程,無法被語料庫收集。因此,面對此種情況,機(jī)器翻譯就顯得捉襟見肘。如:

例3:游戲公司仿佛進(jìn)入了“水逆”。今年國家對網(wǎng)游加大了監(jiān)管力度,早在3月就暫停了國產(chǎn)網(wǎng)游的版號審批[6]。

谷歌翻譯:The game company seems to have entered a “mercury retrograde”.This year,the state has increased its supervision of online games and suspended the approval of the version number of domestic online games as early as March.

百度翻譯:Game companies seem to have entered the “water reverse”.This year,the state has strengthened the supervision of online games,suspending the approval of the version number of domestic online games as early as March.

“水逆”是近年來流行的時尚語,由“水星逆行”引申而來,以此來喻指“遇事不順”,具有一定的調(diào)侃味,頗受年輕人喜愛。但是我們看到,谷歌翻譯和百度翻譯分別將其譯為了“mercury retrograde”和“water reverse”,均取其表面意義,在英文中并無實質(zhì)性意義。

總而言之,目前的數(shù)據(jù)庫主要存在規(guī)模性較小和語料滯后性兩大問題,在一定程度上揭示了機(jī)器翻譯對語料庫的依賴程度。

2.2 機(jī)器翻譯的技術(shù)問題

雖然機(jī)器翻譯在技術(shù)方面不斷取得突破,但是就目前而言,還面臨三種難以克服的缺陷。一是以句子為輸入單位;二是缺乏形象思維能力,三是無法把握文本的深層意義。

自2014年以來,“端到端”的神經(jīng)機(jī)器翻譯獲得了快速發(fā)展。所謂“端到端”的翻譯方法,簡單來講就是指機(jī)器學(xué)習(xí)時以句子為單位進(jìn)行輸入,在輸出端同樣得到以句子為單位的譯文。但是如果句子偏長的話,機(jī)器翻譯就難以理清其中的邏輯關(guān)系。實驗表明,當(dāng)句子片詞數(shù)大于60詞時[4](介于40-50詞之間),機(jī)器翻譯的效果則明顯下降。如:

例3:Closely linked with this commitment is the new last paragraph of the preamble which reaffirms that principle of the Charter of the United Nations in accordance with which Member States must refrain from the use of force or the threat of force against the territorial integrity or political independence of any State and which declares that the establishment and the maintenance of international peace and security are to be promoted with the least diversion for armaments of the world’s human and economic resources.[7]98

谷歌翻譯:與這項承諾密切相關(guān)的是序言部分的新的最后一段,重申了《聯(lián)合國憲章》的原則,會員國必須根據(jù)該原則避免對蘇丹的領(lǐng)土完整或政治獨立使用武力或威脅使用武力。 任何國家都宣布將促進(jìn)建立和維持國際和平與安全,而要轉(zhuǎn)移世界上最少的人力和經(jīng)濟(jì)資源。

原文是由各個分句構(gòu)成的長句,從句與從句之間借助各種連接詞環(huán)環(huán)相扣,體現(xiàn)了英語形合的特點。谷歌的譯文從意義上來看,還勉強(qiáng)說過去。但是句子之間的銜接較差,給人一種支離破碎的感覺。尤其是最后一句的翻譯,更顯得邏輯混亂。

此外,缺乏形象思維是機(jī)器翻譯的另外一個缺陷。盡管深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)研究中一個新的領(lǐng)域,但翻譯是人類最為復(fù)雜的實踐活動之一,涉及形象思維和邏輯思維兩個方面。機(jī)器翻譯在一定程度上能夠?qū)W到人類的邏輯思維能力,但無法學(xué)習(xí)包含情感、想象在內(nèi)的形象思維。因而機(jī)器翻譯常用于以事實描述和信息傳遞為目的的程式化文本。這些文本實用性較強(qiáng),較少涉及情感和文化背景。而表現(xiàn)型文本側(cè)重于情感表達(dá)和主觀想象,語義表達(dá)具有不穩(wěn)定性和模糊性。在翻譯表現(xiàn)性文本時,機(jī)器翻譯只能譯出大意,缺乏“人味”。如:

例3:I was all the more delighted when,as a result of the initiative of your government,it proved possible to reinstate the visit so quickly.[7]54

谷歌翻譯:由于貴國政府的主動行動,事實證明能夠如此迅速地恢復(fù)訪問,我感到非常高興。

人工翻譯:由于貴國的提議,我才得以這樣快速地重新實現(xiàn)訪問。這讓我感到特別高興。

谷歌的翻譯,就意義而言并無大礙。但是比起人工翻譯而言,前者缺乏一種人情味道,如“主動行動”“恢復(fù)訪問”,是一種地地道道的機(jī)器語言,比起人工翻譯的“提議”“實現(xiàn)訪問”,顯得語氣僵硬。

機(jī)器的優(yōu)勢不僅體現(xiàn)在效率層面,還體現(xiàn)在文本的全譯方面,彌補(bǔ)了人工翻譯可能會出現(xiàn)的遺漏等問題。但正是這種“原文有什么,就翻譯什么”的模式也暴露了其局限性,因為很難兼顧文本的深層意義。如:

例4:許多人說:人稠的地方?jīng)]有土地[8]48。

谷歌翻譯:Many people say:There is no land in crowded places.

百度翻譯:Many people say that there is no land where people are thick.

人工譯文:Many people claim that there is no spare land in the densely populated areas.[9]48

原文所謂的“沒有土地”是一種表層意義,其深層意義為沒有“多余的土地”。無論是谷歌翻譯還是百度翻譯,都將其譯為了“no land”,人工翻譯通過添“spare”一詞,使得譯文更加準(zhǔn)確??梢?,在文本的深層理解方面,機(jī)器翻譯還存在欠缺。也就是說,機(jī)器翻譯的理性思維仍然處于低水平階段。

總而言之,無論機(jī)器翻譯如何學(xué)習(xí),也只是一種技術(shù)性的進(jìn)步。而翻譯是集技術(shù)與藝術(shù)為一身的復(fù)雜的交際行為。技術(shù)可以學(xué)習(xí),它是屬于大眾的。而藝術(shù)強(qiáng)調(diào)的是獨創(chuàng)性和個性化,它是屬于個人的,是無法被模仿的。從這個意義上來講,機(jī)器翻譯永遠(yuǎn)無法取代翻譯的藝術(shù)維度。

3 幾點思考

機(jī)器翻譯的發(fā)展方興未艾,其應(yīng)用市場日趨廣泛,也為普通大眾帶來了實實在在的便利。但是其存在的局限性也是顯而易見的。那么,應(yīng)如何理性地看待機(jī)器翻譯呢?筆者嘗試從翻譯的工具性、翻譯的人文性和翻譯的生態(tài)分布三個方面進(jìn)行前瞻性思考。

3.1 翻譯的工具性

就翻譯的功能而言,我國外語界存在工具論與人文論的分野[9]62。工具論者強(qiáng)調(diào)非文學(xué)作品翻譯的社會功能。而機(jī)器翻譯技術(shù)的優(yōu)勢則表現(xiàn)在非文學(xué)作品的翻譯上,甚至可以說強(qiáng)化了翻譯的工具性。這可以從符號學(xué)的角度進(jìn)行闡釋。

符號學(xué)把符號分為兩大類,一類是所指優(yōu)勢符號,另一類是能指優(yōu)勢符號。大部分科學(xué)的、理性的符號都屬于所指優(yōu)勢符號,這種文類注重的是文本的信息性,如法律文書、學(xué)術(shù)論文、科普作品等,它們以達(dá)意為旨?xì)w,屬于所指優(yōu)勢符號,或者說是一種規(guī)約性符號,即這種文本的語言其意義是相對固定的,拒絕模糊性和歧義性。機(jī)器翻譯所擅長的正是非文學(xué)作品的翻譯。因為這類作品屬于規(guī)約性符號,語意較為固定,便于機(jī)器學(xué)習(xí)。質(zhì)言之,機(jī)器翻譯所擅長的是規(guī)約性語言之間的轉(zhuǎn)化。因為這類語言之間的類似性和差異性是可以分析的,因而是可以學(xué)習(xí)的。也就是說,在語言層面,規(guī)約性程度越高的文本,機(jī)器翻譯發(fā)揮的作用就越大,如理工方面的文獻(xiàn)作品。這種類型的文本以說理為根本,不容語言歧義或多義的產(chǎn)生,語言的規(guī)約性較高。因此可以預(yù)見,隨著翻譯技術(shù)的進(jìn)一步提升,語料庫的進(jìn)一步擴(kuò)充,機(jī)器翻譯對規(guī)約性較高的文獻(xiàn)的應(yīng)對能力也會日益增強(qiáng)。至于哲學(xué)社科,雖然以規(guī)約性語言為主,但是也會夾雜其他文體,以及個人風(fēng)格,因此語言的模糊性、多義性也會逐漸增強(qiáng)。對于這一部分語言的翻譯,仍然需要人工介入。

另外需要指出的是,傳統(tǒng)意義上的翻譯指的是不帶格式的純文字轉(zhuǎn)化,這種觀念在信息化時代下已經(jīng)顯得不合時宜。隨著數(shù)字化時代的到來,翻譯的對象和內(nèi)容都發(fā)生了根本性變化,涉及產(chǎn)品手冊、網(wǎng)站、軟件、電子資料等諸多超文本形態(tài)。在文本轉(zhuǎn)換的同時,還涉及排版格式、界面模式等方面的要求。這些問題體現(xiàn)了翻譯的工具屬性,同時也說明了人工介入的必要性。

3.2 翻譯的人文性

機(jī)器翻譯技術(shù)的日益提升使得某些業(yè)界人士認(rèn)為機(jī)器翻譯取代人工翻譯指日可待。這其實夸大了翻譯的工具性,忽視它的人文性。這種人文性是機(jī)器翻譯無法取代、也永遠(yuǎn)不可能取代的。

翻譯的人文性主要體現(xiàn)在文學(xué)作品類型的翻譯上。按照符號學(xué)的劃分,文學(xué)作品之類的文本類型其語言屬于能指優(yōu)勢符號。文學(xué)語言在本質(zhì)上是反常規(guī)的。常規(guī)語言只能作為一種背景,用來襯托文學(xué)語言的藝術(shù)化扭曲,而這種扭曲的語言就在這個背景上被前推出來。文學(xué)語言的反常規(guī)性表現(xiàn)的是作者或人物的情感世界。文學(xué)作品借助各種詩學(xué)手段,延長了人們的認(rèn)知過程,因此其語言具有模糊性、多義性、美學(xué)性等特點。如古詩詞“菡萏香銷翠葉寒,西風(fēng)愁起綠波間”,這里的“菡萏”就是今天所謂的“荷花”,但是如果將原詩中的“菡萏”改為“荷花”,原詩意境則大減,因為“菡萏”不僅寓意古雅,還構(gòu)成疊韻詞。但是轉(zhuǎn)化為英文時,不論是“菡萏”,還是“荷花”,機(jī)器翻譯均會將其譯為“l(fā)otus”,缺少一種人文關(guān)懷。因此,文學(xué)作品的翻譯從根本上講是一種情感移植。這種情感的移植,需要譯者的靈感和頓悟,以及豐富的社會經(jīng)歷與人生閱歷。如果譯者的此種能力得不到充分的鍛煉,譯文必將生硬乏味,沒有美感可言。過分依賴翻譯技術(shù)會造成人的思維模式化、單一化、機(jī)械化的不良傾向[10]。人工翻譯一方面避免了機(jī)器譯文對自然語言的侵蝕,另一方面有利于譯者主體性的發(fā)揮,創(chuàng)造出豐富多樣的語言表達(dá)形式,使得生活富有靈性、美感和生命力。

3.3 翻譯的生態(tài)分布

機(jī)器翻譯技術(shù)的迅速發(fā)展引發(fā)了翻譯產(chǎn)業(yè)的變革,導(dǎo)致了翻譯人才的分流。從目前的趨勢來開,翻譯行業(yè)的人員結(jié)構(gòu)正朝向多元化發(fā)展。機(jī)器翻譯、專業(yè)譯者、普通譯者、譯前/譯后編輯者等將占據(jù)翻譯市場上不同的生態(tài)位置,進(jìn)行錯位競爭,彼此之間保持著一種動態(tài)的平衡。

對譯文質(zhì)量要求較低的文本如郵件、微信、網(wǎng)頁、新聞、信息檢索等,可以由機(jī)器翻譯完成。這種文本類型占據(jù)主要的大眾市場,其譯文僅供參考,對精確度的要求較低。因此,采用機(jī)器翻譯可以降低成本,提高效率。新聞、經(jīng)貿(mào)、產(chǎn)品說明書、用戶界面等常規(guī)級文本,其譯文質(zhì)量要求適中,可以采用人機(jī)結(jié)合的形式。而專業(yè)內(nèi)容較強(qiáng)的文本,如法律文書、醫(yī)學(xué)專著、政治文獻(xiàn)等,以及需要高度創(chuàng)造力的文本,如文學(xué)、藝術(shù)、哲學(xué)等人文學(xué)科,仍然需要高端的專業(yè)譯者才能完成。譯后編輯也是機(jī)器翻譯催生的一種新生產(chǎn)物。機(jī)器翻譯完后,在對文本進(jìn)行各種修訂即譯后編輯,使之具有較高的可讀性。其實,無論何種文本的機(jī)器翻譯,如要達(dá)到精確的目的,都需要不同程度的人工介入,只是介入的程度不同而已。有時譯后編輯也充當(dāng)譯前編輯的角色,對待譯文本進(jìn)行預(yù)先處理,使之符合機(jī)器翻譯的運行原理,盡量減少不必要的低級問題。此外,眾包翻譯模式下大眾化譯者的出現(xiàn)也是互聯(lián)網(wǎng)時代下催生的一種現(xiàn)象,參與其中的大都是對翻譯感興趣的普通譯者。他們借助互聯(lián)網(wǎng)上的各種平臺如譯言網(wǎng)、果殼網(wǎng)、東西網(wǎng)、虎撲王登,以志愿的形式參與各種翻譯任務(wù)中。涉及的翻譯內(nèi)容主要包括社交、新聞、娛樂、文化等。大眾譯者把譯文分享給更多的讀者,方便了大眾讀者的各種信息需求或交流需求。

4 結(jié) 語

隨著技術(shù)的進(jìn)一步完善,機(jī)器翻譯必將能夠更好地服務(wù)于人類,但不能因此過于強(qiáng)調(diào)機(jī)器翻譯的功能。翻譯是一種集工具性與人文性為一體的社會實踐行為。機(jī)器翻譯凸顯了翻譯的工具性,其人文性的一面只能由人工來完成。機(jī)器翻譯的飛速發(fā)展引發(fā)了翻譯行業(yè)的變革,導(dǎo)致從業(yè)人員的分流。機(jī)器翻譯、不同層級的譯者與譯后編輯占據(jù)了不同的市場位置,他們彼此之間保持一種動態(tài)的生態(tài)平衡。而機(jī)器翻譯由于技術(shù)的不斷進(jìn)步也必將發(fā)揮著越來越重要的基礎(chǔ)作用。可以預(yù)見,在信息化日益發(fā)達(dá)的未來,這種生態(tài)關(guān)系將更趨明朗。

猜你喜歡
語料庫百度譯者
平行語料庫在翻譯教學(xué)中的應(yīng)用研究
Robust adaptive UKF based on SVR for inertial based integrated navigation
《語料庫翻譯文體學(xué)》評介
論新聞翻譯中的譯者主體性
百度年度熱搜榜
英文摘要
英文摘要
英文摘要
百度醫(yī)生
百度“放衛(wèi)星”,有沒有可能?
城固县| 兴山县| 宁夏| 庐江县| 贞丰县| 温泉县| 易门县| 嵊泗县| 抚宁县| 九江县| 文山县| 行唐县| 江阴市| 独山县| 西丰县| 治县。| 威信县| 沁源县| 霍林郭勒市| 独山县| 甘德县| 壶关县| 石柱| 同德县| 洛川县| 东乡族自治县| 武宁县| 东至县| 庆城县| 湟源县| 祁阳县| 克什克腾旗| 温宿县| 桂平市| 松溪县| 咸阳市| 高碑店市| 全南县| 平顶山市| 德保县| 高唐县|