国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于交互式機(jī)器翻譯環(huán)境的語境架構(gòu)

2021-05-27 04:09王鵬

〔摘要〕自設(shè)計(jì)之初,機(jī)器翻譯面臨的一個(gè)主要挑戰(zhàn)就是對(duì)語境中意義的把握。目前采用的交互式機(jī)器翻譯引擎,試圖盡可能地使機(jī)器吸收人類的智慧與認(rèn)知能力,并取得了一定的成果。文章由交互式機(jī)器翻譯的技術(shù)環(huán)境入手,根據(jù)譯者處理語境時(shí)付出的認(rèn)知努力,提出包括本地語境、全局語境、語境效果在內(nèi)的基于交互式機(jī)器翻譯環(huán)境的語境架構(gòu)。該等級(jí)框架從譯者認(rèn)知的角度出發(fā),能夠有效地收集、管理、分析譯者反饋的數(shù)據(jù),評(píng)估翻譯系統(tǒng)對(duì)譯者的依賴程度,從而更有效地在引擎自動(dòng)切分、人機(jī)互動(dòng)翻譯等方面融合語境因素,以不斷提高交互式機(jī)器翻譯引擎的水平。

〔關(guān)鍵詞〕交互式機(jī)器翻譯環(huán)境; 神經(jīng)機(jī)器翻譯; 語境架構(gòu)

〔中圖分類號(hào)〕H085〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-2689(2021)02-0138-09

任何學(xué)科的顛覆性變革往往源自外部的力量,翻譯亦是如此。機(jī)器翻譯(machine translation)作為人類早期的人工智能(artificial intelligence)項(xiàng)目,最早得益于20世紀(jì)40年代美國數(shù)學(xué)家 Warren Weaver 等人的大力推進(jìn)。1947年,Warren Weaver寫信給麻省理工學(xué)院的語言學(xué)與計(jì)算機(jī)領(lǐng)域的專家Norbert Wiener,討論自動(dòng)化翻譯(automated translation)的可能性,他寫道:

有人會(huì)很自然地聯(lián)想到翻譯問題是否可以被視為密碼學(xué)的問題。當(dāng)我看到一篇用俄語寫的文章時(shí),我的反應(yīng)就是:“這實(shí)際是用英語寫的,但是它卻用了奇怪的符號(hào)來編碼,而我現(xiàn)在就要為它解碼?!?/p>

One naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography When I look at an article in Russian, I say: “This is really written in English, but it has been coded in some strange symbols I will now proceed to decode”[1]

從這段話可以看出,Weaver 將翻譯視為編碼與解碼的過程,似乎有一本神奇的密碼本,可以將不同的編碼互相轉(zhuǎn)變。在一定程度上,采用機(jī)器翻譯的人工智能系統(tǒng)的目的就是從語言轉(zhuǎn)換中最大限度地提取這部密碼本的內(nèi)容,將其中理性的、可分析的、重復(fù)的部分總結(jié)出來。解密的過程其實(shí)是一個(gè)從人類深層認(rèn)知到表層體現(xiàn)的轉(zhuǎn)變。經(jīng)過基于翻譯邏輯的算法(algorithm)和機(jī)器訓(xùn)練(machine training)之后,人類將部分認(rèn)知能力、記憶等傳授給機(jī)器,由機(jī)器取代或輔助我們的部分工作,這個(gè)過程形成了由人與機(jī)器構(gòu)建的一個(gè)動(dòng)態(tài)發(fā)展的生態(tài)系統(tǒng)。我們必須認(rèn)識(shí)到,整個(gè)交互式機(jī)器翻譯系統(tǒng)的進(jìn)化,不單只依靠機(jī)器的進(jìn)步,譯者或語言學(xué)者作為系統(tǒng)內(nèi)最重要的一部分,也必須根據(jù)系統(tǒng)進(jìn)化的需要對(duì)自己的技能與工作內(nèi)容進(jìn)行相應(yīng)的調(diào)整,以帶動(dòng)整個(gè)系統(tǒng)的良性循環(huán)與高效運(yùn)行。本文將提出語境架構(gòu)的概念,分析機(jī)器與人類在交互式機(jī)器翻譯系統(tǒng)中各自發(fā)揮的作用。

一、 語境與意義:翻譯人工智能的難點(diǎn)

事實(shí)上,Weaver 所提出的“解碼”過程要遠(yuǎn)比最初設(shè)想的難得多,因?yàn)槟軌蝻@示在紙上的俄語內(nèi)容只是冰山一角,它激活了隱藏在文字后面的深不可測(cè)的意義與承載意義的語境。我們知道,翻譯首先是個(gè)理解的過程,而任何理解都必須建立在意義之上。同時(shí),翻譯也是一個(gè)生成意義的過程,但是它的意義并不是自然產(chǎn)生,而是受到原文的牽引。換言之,翻譯是一個(gè)引導(dǎo)性的意義創(chuàng)造的過程(guided creation of meaning)[2]15。 從這個(gè)角度來講,人工智能可以很方便地應(yīng)用于翻譯領(lǐng)域,因?yàn)樵谋旧砭褪且粋€(gè)必須遵循的轉(zhuǎn)換依據(jù)。

但是,無論是翻譯的理解,還是意義的生成,都必須以一定的語境為依托。沒有語境,單純的文本也就談不上意義。語境是伴隨文本的語言環(huán)境和非語言環(huán)境[3]5。由于語言系統(tǒng)間的差異,翻譯中的完全對(duì)等(equivalence)往往很難實(shí)現(xiàn),它通常只是在具體語境中的某個(gè)或某些層面上的等值[4]34-36。而在此過程中,語義的模糊性以及語境的即時(shí)性、多變性、靈活性,一直以來都是機(jī)器翻譯的難點(diǎn)。

實(shí)際上,這個(gè)問題從機(jī)器翻譯創(chuàng)建伊始便被提出來了。1947年,當(dāng)Norbert Wiener收到Warren Weaver關(guān)于機(jī)器翻譯的來信后,他回復(fù)道:

“坦率地講,我認(rèn)為不同語言的詞匯的界限太過模糊、太過情感化,其意義也太寬泛,從而使任何類似機(jī)械翻譯的計(jì)劃都沒有什么太大的希望?!?/p>

“I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasimechanical translation scheme very hopeful”[5]7

隨后,盡管1954 年著名的喬治城大學(xué)和 IBM(GeorgetownIBM)機(jī)器翻譯原型實(shí)驗(yàn)取得了巨大成功,但是正如Yehoshua BarHillel在其Report on the state of Machine Translation in the United States and Great Britain[6]一書中指出的那樣,由于語義的模糊性,完全自動(dòng)化的高質(zhì)量翻譯(fully automatic highquality MT,F(xiàn)AHQT)幾乎不可能存在,他舉了一個(gè)著名的例子:

Little John was looking for his toy box Finally, he found itThe box was in the pen John was very happy

60多年后,絕大多數(shù)機(jī)器翻譯引擎對(duì) The box was in the pen 的翻譯依然是“盒子在筆里”。BarHillel[6] 指出,機(jī)器翻譯無法根據(jù)語境來決定 pen 的意義,但是任何一個(gè)英文足夠好的讀者都可以“自動(dòng)地”判斷出 pen 在此語境下的意義是“讓嬰兒游戲的圈欄 (playpen)”,而并非“盒子 (box)”。而這也僅是翻譯的最初始的一個(gè)步驟,它甚至都還沒有涉及到語言的轉(zhuǎn)換過程。

二、 交互式機(jī)器翻譯環(huán)境

(一) 交互式機(jī)器翻譯

相較于表層的語言符號(hào),語義以及承載語義的語境是抽象的、動(dòng)態(tài)的、無形的。從某種程度上講,機(jī)器翻譯發(fā)展史也是一部機(jī)器不斷探索、把握、學(xué)習(xí)人類這種抽象認(rèn)知能力的歷史。從最初的遵循人類制定的語法規(guī)則,到 20 世紀(jì) 90 年代興起的對(duì)語言數(shù)據(jù)的學(xué)習(xí),再到 21 世紀(jì)初葉的試圖構(gòu)建人工神經(jīng)網(wǎng)絡(luò)來解碼、編碼進(jìn)行語言轉(zhuǎn)換[7]12-15[8],機(jī)器翻譯人工智能在不斷摸索從語言表層符號(hào)規(guī)律到深層語義及其依托語境的學(xué)習(xí)方法。

首先,依據(jù)語法規(guī)則的機(jī)器翻譯(rulebased machine translation)引擎很難將語境與意義有機(jī)結(jié)合到機(jī)械化語言轉(zhuǎn)換的過程中。正如 ALPAC(Automatic Language Processing Advisory Committee)報(bào)告[9]19所指出的那樣:“經(jīng)過 8 年努力,喬治城大學(xué)的機(jī)器翻譯項(xiàng)目雖然希望在 1962 年得出有意義的結(jié)果,但是他們不得不借助于譯后編輯(postediting),而譯后編輯的過程卻要比傳統(tǒng)的人工翻譯花的時(shí)間更多,成本也更高?!?/p>

值得注意的是,在此期間機(jī)器翻譯獲得成功的案例大多都是對(duì)語境有具體限定的、專業(yè)內(nèi)容范圍較窄的垂直機(jī)器翻譯引擎,例如:專注于氣象報(bào)告與預(yù)警內(nèi)容翻譯的引擎 Météo[10] 以及總部在喬治城大學(xué)附近的泛美衛(wèi)生組織(Pan American Health Organization,PAHO)自行設(shè)計(jì)的機(jī)器翻譯引擎 PAHOMTS[11]。Météo 與 PAHOMTS 均是針對(duì)專門內(nèi)容與語境的翻譯引擎,這在一定程度上減少了機(jī)器翻譯對(duì)意義把握的不確定性,從而提高了機(jī)器翻譯的準(zhǔn)確性和可用性。

20世紀(jì)90年代興起的統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation)是基于大量平行語料庫及單語言對(duì)比語料庫而進(jìn)行統(tǒng)計(jì)分析、構(gòu)建語言模型(language model)的方法。語料庫即“大型的、依據(jù)原則而收集的自然文本的集合”[12]4。相較于人工語言或人造語言(artificial language),自然文本或自然語言(natural language) 更加注重語言的實(shí)際使用,強(qiáng)調(diào)語言使用的文本以外的特點(diǎn),例如語域、方言、時(shí)間等。因此,統(tǒng)計(jì)機(jī)器翻譯在一定程度上實(shí)現(xiàn)了從“使用中的語言”數(shù)據(jù)中間接學(xué)習(xí)人類處理語境與語義的方法,這是機(jī)器翻譯的一大突破。但是,正如Way與Hearne[13]指出的那樣,這種方法忽視了語言學(xué)者與譯者所起的核心作用。一方面,許多譯者很難理解統(tǒng)計(jì)機(jī)器翻譯的基本模式;另一方面,這種模式完全取決于大量的翻譯數(shù)據(jù),而很少去思考數(shù)據(jù)產(chǎn)生的過程并反映實(shí)際翻譯文本中已知的現(xiàn)象。也就是說,即便機(jī)器可以根據(jù)概率和語料庫作出正確或接近正確的翻譯判斷,它也不知道如何從語言學(xué)、翻譯學(xué)的角度分析、解釋這種現(xiàn)象。雖然產(chǎn)生的翻譯結(jié)果可能相同或相似,但是機(jī)器對(duì)于語境與語義的理解與人類的認(rèn)知是完全不同的。

相較于前面兩種機(jī)器翻譯模式,2013 年開始興起的神經(jīng)機(jī)器翻譯(nearual machine translation)研究更多地考慮了語言與語境之間的聯(lián)系。統(tǒng)計(jì)機(jī)器翻譯可以通過 ngram 等方法來分析簡單的語境,但是遠(yuǎn)不如神經(jīng)機(jī)器翻譯對(duì)語境的利用。例如:神經(jīng)機(jī)器翻譯的詞向量的分布式表征(distributed representation)可以根據(jù)詞之間的距離來判斷它們之間的(語法、語義上的)相似性。

2015 年,Green等[14] 指出,隨著機(jī)器翻譯的快速發(fā)展, 現(xiàn)在的人工智能與人機(jī)交互(humancomputer interaction)之間的結(jié)合越來越緊密,形成了交互式機(jī)器翻譯系統(tǒng)(interactive machine translation)。人工智能旨在建立替代人類智力的機(jī)器智能;而人機(jī)交互恰恰相反,它更多地強(qiáng)調(diào)具有可用性與實(shí)證性的方法與人類因素。譯后編輯是一種較為簡單的人機(jī)交互形式。例如,PAHOMTS 成功的另一個(gè)主要原因就是它可以很好地將譯后編輯的結(jié)果反饋到機(jī)器翻譯引擎當(dāng)中。實(shí)際上,譯者針對(duì)機(jī)器翻譯結(jié)果進(jìn)行的修改是神經(jīng)機(jī)器翻譯的反向傳播算法(back propogation)中訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)(artificial neural network)的最重要的數(shù)據(jù)。

目前交互式機(jī)器翻譯的典型模式是譯者從翻譯開始便與機(jī)器互動(dòng)。機(jī)器首先對(duì)原文進(jìn)行切分,并提供翻譯建議,譯者再根據(jù)語境與意義選擇或修改機(jī)器的建議。接著,機(jī)器又會(huì)根據(jù)人類的選擇實(shí)時(shí)調(diào)整下面的建議。這個(gè)過程對(duì)于譯者與機(jī)器均有益處。

具體來講,交互式機(jī)器翻譯一般采用的是在句子層面的由前綴控制的機(jī)器翻譯(prefixconstrained machine translation)方法。也就是說,翻譯首先由譯者輸入最前面的部分,即前綴(prefix),然后機(jī)器對(duì)剩余的部分,即后綴(suffix),進(jìn)行預(yù)測(cè),自動(dòng)生成翻譯結(jié)果,生成的結(jié)果可以自動(dòng)填入剩余的部分,或者將其視為一個(gè)新的單位,循環(huán)應(yīng)用前綴—后綴的翻譯生成模式,直至翻譯完成[15-16]。當(dāng)然,在這個(gè)過程中,由于設(shè)計(jì)思路及使用的邏輯、算法(例如集束搜索、目標(biāo)集束搜索)的不同,最終呈現(xiàn)的人機(jī)交互的形式可能也有其特定的表現(xiàn)。但是,無論表現(xiàn)如何,交互式機(jī)器翻譯的一個(gè)共同特點(diǎn)便是人類在翻譯的過程中起到了決定性的作用。

(二)? 交互式機(jī)器翻譯環(huán)境

交互式機(jī)器翻譯環(huán)境是根據(jù)計(jì)算機(jī)輔助翻譯中的翻譯環(huán)境工具(translation environment tools, 縮寫為TEnTs)的概念而派生出來的。翻譯環(huán)境工具是指將不同計(jì)算機(jī)輔助翻譯工具集成于一個(gè)平臺(tái)或軟件,以幫助用戶更高效地利用翻譯技術(shù)工具[17]。同理,交互式機(jī)器翻譯環(huán)境也是集交互式機(jī)器翻譯引擎、術(shù)語(terminology)、翻譯記憶(translation memory)等功能于一體的、供用戶更有效使用這些軟件功能的操作平臺(tái),例如美國的 lilt 神經(jīng)機(jī)器翻譯平臺(tái)(見圖1)。

如圖1所示,交互式機(jī)器翻譯環(huán)境與傳統(tǒng)的翻譯界面(例如使用Word文檔進(jìn)行翻譯)有很大的區(qū)別。在交互式機(jī)器翻譯軟件環(huán)境中,原文被切割為不同的切分單位(segment),每一個(gè)切分單位都經(jīng)過類似于圖1所展示的交互式機(jī)器翻譯引擎的會(huì)話過程,最后由譯者確定最終翻譯結(jié)果,這是交互式機(jī)器翻譯環(huán)境的核心(圖1左邊的對(duì)話框是引擎切割的翻譯句段,圖中顯示了一個(gè)切分單位)。而且,除了交互式機(jī)器翻譯引擎外,這個(gè)平臺(tái)也集成了術(shù)語(圖1右側(cè)的lexicon)、翻譯記憶(圖1右上角的memories)、項(xiàng)目管理(圖1右上角的projects)等計(jì)算機(jī)輔助翻譯工具的常見功能,而這些都是傳統(tǒng)翻譯環(huán)境不能提供的。

相較于傳統(tǒng)的翻譯環(huán)境,交互式機(jī)器翻譯環(huán)境有其獨(dú)特的特點(diǎn)。首先,交互式機(jī)器翻譯環(huán)境結(jié)合人機(jī)互動(dòng)的特點(diǎn)和原理,也就是說,它既包括人類認(rèn)知,也包括軟件平臺(tái)所具有的特定功能。當(dāng)然,機(jī)器翻譯引擎,尤其是神經(jīng)機(jī)器翻譯引擎,是建立在對(duì)人類神經(jīng)網(wǎng)絡(luò)的模仿之上的,兩者之間必然有許多相似的地方。但是機(jī)器主要是通過對(duì)數(shù)據(jù)分析、建立模型等數(shù)學(xué)方式來解決問題的,而人類的認(rèn)知?jiǎng)t包含意義及理解等諸多領(lǐng)域。其次,如圖1所示,交互式機(jī)器翻譯環(huán)境的使用者界面與傳統(tǒng)的翻譯界面不同,這也意味著譯者接觸語境的方法和形式在一定程度上受到了軟件環(huán)境的限制,甚至有很多譯者認(rèn)為新的翻譯技術(shù)使用者界面在一定程度上影響了譯者對(duì)語境的把握。可以肯定的是,翻譯環(huán)境的差別必將影響譯者的翻譯過程及其對(duì)翻譯策略的選擇,從而影響譯者對(duì)語境和意義的認(rèn)知。因此,本文提出的基于交互式機(jī)器翻譯環(huán)境的語境架構(gòu),不僅適用于與機(jī)器翻譯系統(tǒng)互動(dòng)的人,還適用于機(jī)器翻譯引擎本身。也就是說,它不僅可以幫助我們更好地理解譯者在翻譯環(huán)境中的行為,還可以讓我們更好地總結(jié)、提取、分析、管理機(jī)器翻譯相關(guān)的數(shù)據(jù),預(yù)測(cè)交互式機(jī)器翻譯環(huán)境對(duì)人類干預(yù)的依賴程度,以便讓軟件開發(fā)者和使用者更好地制定人機(jī)互動(dòng)的策略(例如預(yù)測(cè)、核算譯者所產(chǎn)生的翻譯成本等)。

(二) 交互式神經(jīng)機(jī)器翻譯環(huán)境

目前的交互式機(jī)器翻譯系統(tǒng)大多以神經(jīng)機(jī)器翻譯為基礎(chǔ)框架。神經(jīng)機(jī)器翻譯是指直接采用神經(jīng)網(wǎng)絡(luò)以端到端方式進(jìn)行翻譯建模的機(jī)器翻譯方法。區(qū)別于利用深度學(xué)習(xí)技術(shù)完善傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯中某個(gè)模塊的方法,神經(jīng)機(jī)器翻譯采用一種簡單直觀的方法完成翻譯工作:首先使用一個(gè)稱為編碼器的神經(jīng)網(wǎng)絡(luò)將源語言句子編碼為一個(gè)稠密向量,然后使用一個(gè)稱為解碼器的神經(jīng)網(wǎng)絡(luò)從該向量中解碼出目標(biāo)語言句子。這種神經(jīng)網(wǎng)絡(luò)模型一般稱之為“編碼器—解碼器”結(jié)構(gòu)[18]。

在交互式神經(jīng)機(jī)器翻譯引擎與使用者互動(dòng)的過程中,機(jī)器具有其獨(dú)特的優(yōu)勢(shì),例如機(jī)器記憶、邏輯分析等,但支撐機(jī)器的人工神經(jīng)網(wǎng)絡(luò)始終是建立在對(duì)人類的模仿之上,這種模仿從表層的語言成分的關(guān)系不斷延伸到更深層、更復(fù)雜的語言現(xiàn)象,如語義、語境等。歸根結(jié)底,人類之所以能夠在人機(jī)交互的系統(tǒng)中占據(jù)主導(dǎo)地位的原因,也許不再會(huì)是我們所擁有的知識(shí)、記憶、邏輯思維,而是我們與生俱來的更自然的人類體驗(yàn)。

神經(jīng)機(jī)器翻譯引擎存在語境與意義方面的缺陷,機(jī)器需要在與人類互動(dòng)過程中不斷學(xué)習(xí),以對(duì)算法和數(shù)據(jù)進(jìn)行進(jìn)一步的修正。例如:Luong等[19] 指出神經(jīng)機(jī)器引擎還沒有系統(tǒng)使用語言的句法與語義特征,另外它在宏觀的文本結(jié)構(gòu)上也存在較多的問題,例如語篇結(jié)構(gòu)、指代等。Koehn 和 Knowles[20] 提出了六大神經(jīng)翻譯引擎的問題,其中也包括了某些詞匯在不同專業(yè)領(lǐng)域中意義選擇的錯(cuò)誤(domain mismatch)、對(duì)長句子翻譯的錯(cuò)誤率較高等。這些問題實(shí)際上都或多或少地都涉及到語境中的意義這個(gè)命題,這也是機(jī)器最需要在與人機(jī)互動(dòng)的過程中不斷學(xué)習(xí)的地方。

三、 基于交互式機(jī)器翻譯環(huán)境的語境架構(gòu)

(一) 語境

任何交流都是一個(gè)動(dòng)態(tài)的過程,一旦發(fā)生,我們便再不可能有完全一樣的經(jīng)歷。交流過程中的所有元素不斷地互相影響,當(dāng)語境因素(contextual factors)不同或有所改變時(shí),一個(gè)人的思想也往往在頻繁的轉(zhuǎn)換與進(jìn)化[21]24。以翻譯來驅(qū)動(dòng)的跨文化交流亦是如此,而幫助我們把握這個(gè)動(dòng)態(tài)交流過程的一個(gè)重要工具便是語境。

波蘭裔人類學(xué)家馬林諾夫斯基(Malinowski)[22]99-103對(duì)于語境的研究作出了重要的貢獻(xiàn),他區(qū)分了確定文本意義的全局語境與更廣泛語境,即情景語境(context of situation)與文化語境(context of culture)。例如,在對(duì)特羅布里恩(trobriand)島上居民的話語進(jìn)行翻譯的過程中,譯者不僅要向英語讀者解釋?shí)u上居民話語的直接語言環(huán)境,還要解釋相關(guān)的特羅布里恩島特有的傳統(tǒng)與信仰,否則英語讀者便不能理解原文所蘊(yùn)含的全部意義。

Halliday 和 Hasan從系統(tǒng)功能語言學(xué)的角度[3]12-28,總結(jié)出描述語境的三條主線:話語范圍(field of discourse)、 話語基調(diào)(tenor of discourse)、話語方式(mode of discourse)。他們指出,這三個(gè)概念詮釋了文本的社會(huì)語境,確定了事件中所交流意義的環(huán)境,它們分別對(duì)應(yīng)于系統(tǒng)功能語言學(xué)的三大語言元功能。這種語境模式充分體現(xiàn)了語言功能與語境之間的關(guān)系。

另外,在術(shù)語的語境研究中,F(xiàn)aber和LeónAraúz[23] 將語境分為本地語境(local context)與全局語境(global context),每一種語境又分別包括語法、語義、語用三個(gè)下屬層級(jí)。 Faber和LeónAraúz[23]5 對(duì)本地語境的定義是詞匯的前 5 個(gè)和后 5 個(gè)詞,這當(dāng)然是根據(jù)術(shù)語研究的特點(diǎn)提出的。Faber和LeónAraúz[23] 認(rèn)為,全局語境的范圍更為寬泛,它可以是包括術(shù)語的整篇文檔、某個(gè)交際語境(例如:正式與非正式的)、某個(gè)主題領(lǐng)域(例如:地理、氣象學(xué)等),甚至是整個(gè)語言與文化。

(二) 交互式機(jī)器翻譯環(huán)境的語境架構(gòu)

以上有關(guān)語境的研究,從人類學(xué)、系統(tǒng)功能語言學(xué)、術(shù)語研究等不同的視角賦予了語境相應(yīng)的理論框架,使語境不再是模糊的、朦朧的抽象存在,從而增加了語境分析的可操作性。但是,這些理論框架均不是專門針對(duì)交互式機(jī)器翻譯系統(tǒng)的。正如我們?cè)诘诙糠炙懻摰哪菢?,語境與意義一直都是機(jī)器翻譯的難點(diǎn),而交互式機(jī)器翻譯引擎在一定程度上彌補(bǔ)了機(jī)器在這方面的不足。在實(shí)際的人機(jī)互動(dòng)過程中,我們有必要了解機(jī)器對(duì)譯者的依賴程度,從而更好的把握譯者與機(jī)器之間的關(guān)系。因此,本文以交互式機(jī)器翻譯環(huán)境為基礎(chǔ),并借用了 Sperber 和 Wilson的關(guān)聯(lián)理論[24],以譯者的認(rèn)知效果(cognitive effect)與認(rèn)知努力(cognitive efforts)為切入點(diǎn),將交互式機(jī)器翻譯系統(tǒng)中的語境因素分為不同層級(jí)。

具體來講,該語境框架包括本地語境、全局語境、語境效果三個(gè)基本層級(jí)。我們將本地語境定義為所考察的當(dāng)前切分單位。正如我們?cè)趥鹘y(tǒng)的翻譯記憶軟件中所看到的那樣,翻譯軟件將原文切分為不同的部分,譯者對(duì)切分的結(jié)果逐一翻譯,當(dāng)譯者需要理解某個(gè)意義單位時(shí),他應(yīng)該首先理解該意義單位所在的當(dāng)前句段。如果譯者在當(dāng)前切分單位中還是無法確定其意義的話,那么在交互式機(jī)器翻譯軟件中,譯者會(huì)在與當(dāng)前切分單位最近的句段中尋找答案。因此,我們提出當(dāng)前切分單位的前n 個(gè)和后 n 個(gè)切分單位為全局語境,具體量化的數(shù)值 n 會(huì)根據(jù)原文文本的特點(diǎn)而有所不同。例如,同樣一句話“Romance is finding your fantasy in people who dont have it”,如果是在普通文本中可能會(huì)是一個(gè)切分單位;但是為了突出效果,有很多海報(bào)、明信片、筆記本封面等在引用這句話時(shí)常常采用以下的排版格式:

對(duì)于這樣的文本,大多數(shù)引擎會(huì)根據(jù)換行將其分為6個(gè)切分單位,分別為(1)romance,(2)is finding your,(3)fantasy,(4)in people,(5)who dont,(6)have it。因此,相較于僅有文本的原文,圖2所顯示的原文中的任何一個(gè)切分單位的全局語境的n值會(huì)更大。

語境架構(gòu)的頂層是語境效果,這是關(guān)聯(lián)理論的一個(gè)主要概念[24,20]。Sperber和Wilson[24]對(duì)語境的定義是:“語境是一個(gè)心理構(gòu)建,是聽者關(guān)于世界假想的一個(gè)子集。當(dāng)然,正是這種假設(shè),而并非世界的實(shí)際狀態(tài),影響了對(duì)表達(dá)的詮釋。從這個(gè)意義上講,語境不僅僅局限于直接的物理環(huán)境或緊鄰于該話語之前的表達(dá):對(duì)未來的預(yù)測(cè)、科學(xué)的假設(shè)或宗教信仰、經(jīng)驗(yàn)記憶、一般文化設(shè)想、對(duì)講者心理狀態(tài)的設(shè)定等,都可能在詮釋過程中都起到作用?!痹诮换ナ綑C(jī)器翻譯環(huán)境中,我們認(rèn)為所有無法用本地語境和全局語境來詮釋的語境因素均為語境效果,這包括超出切分單位前后n個(gè)單位的句子、甚至超出原文的其它語境因素。交互式機(jī)器翻譯環(huán)境的語境架構(gòu)的具體情況,詳見表1。

(三) 基于譯者認(rèn)知努力的交互式機(jī)器翻譯的語境架構(gòu)

表1的劃分是根據(jù)交互式機(jī)器翻譯軟件的特點(diǎn)來劃分的,在此基礎(chǔ)上,我們?cè)俑鶕?jù)譯者認(rèn)知努力來進(jìn)一步區(qū)分語境架構(gòu)的層級(jí)。首先,處于最低層的是本地語境的句法、語義層級(jí)(11,12)。在這個(gè)層級(jí)上,機(jī)器對(duì)譯者的依賴最小,譯者的努力也最小,機(jī)器訓(xùn)練的效果也最好。第二個(gè)層級(jí)便是全局語境的句法、語義層級(jí)(21,22)。在此層級(jí),譯者不僅要考慮當(dāng)前切分單位,還要考慮緊鄰當(dāng)前切分單位的其它切分單位。因此譯者的努力比第一層多,機(jī)器訓(xùn)練所需的數(shù)據(jù)較第一層更寬泛,但是在此層級(jí)還不需要離開交互式機(jī)器翻譯軟件環(huán)境。第三層是本地語境的語用層級(jí)(13)。在此層級(jí),譯者已經(jīng)無法從交互式機(jī)器翻譯系統(tǒng)中找到問題的答案,而需要暫時(shí)離開機(jī)器翻譯平臺(tái)或借助平臺(tái)內(nèi)部集成的外部資源(如圖片、參考文檔等),來完成對(duì)意義的理解。例如,以下是一個(gè)展示排球運(yùn)動(dòng)員Adam Smith的一場排球比賽表現(xiàn)的例子:

如果將該文本導(dǎo)入到交互式機(jī)器翻譯引擎中,引擎會(huì)將其切分為“Adam Smith”“spike”“block”“serve”“68”“19”“20”等切分單位。如果我們要理解“block”的意思,那么“spike”和“serve”便是“block”的全局語境。如果熟悉排球的譯者可能可以僅從全局語境便可確定“block”的意義是“攔網(wǎng)”,這是全局語境的語義層面(22)。但是,若譯者對(duì)排球并不了解,他可能還需要離開交互式機(jī)器翻譯環(huán)境,去查看原圖。當(dāng)他看到圖片上排球的照片時(shí),這個(gè)語境信息會(huì)幫助譯者確定“block”的意思,這就是利用了本地語境的語用層面(13),這是語境架構(gòu)的第三層。當(dāng)然,為了確保理解的準(zhǔn)確性,譯者還可以根據(jù)圖片來進(jìn)一步確定“serve”和“spike”在該語境中的意義,這就將理解延伸到了全局語境的語用層面(23)。

語境層級(jí)的最高一級(jí)是語境效果。我們來看下面一段對(duì)話:

(1) My mom really asked why I have 30 missing assignments

(2) Xue hua piao piao, bei feng xiao xiao圖片來源于https:wwwshinecnfeaturelifestyle2007101900。

在交互式機(jī)器翻譯環(huán)境中,系統(tǒng)會(huì)將此對(duì)話分為兩個(gè)切分單位,即(1)和(2)。如果要翻譯“Xue hua piao piao, bei feng xiao xiao”這個(gè)句段,那么顯然字面翻譯“雪花飄飄,北風(fēng)瀟瀟”無法讓中國讀者理解,譯者需要介入,重新根據(jù)這個(gè)句段產(chǎn)生的心理效果來翻譯。要準(zhǔn)確地把握說話者的意圖,譯者需要了解這句話在西方流行的原因和背景。這句歌詞來自中國的一首老歌《一剪梅》,2020年在TikTok軟件上迅速且廣為流行的一句話,它反映了世界新冠疫情爆發(fā)時(shí)人們所經(jīng)歷的心理與環(huán)境的變化,是在世界疫情的大環(huán)境下經(jīng)過西方網(wǎng)友的二次創(chuàng)作的產(chǎn)物,尤其使西方待在家里無可事事的年輕人產(chǎn)生了強(qiáng)烈的共鳴。根據(jù)實(shí)際的使用環(huán)境、使用者的心理,在英文文本中,它可以表達(dá)對(duì)一件事的絕望或不屑,也可以是說話者不知道該怎么回答時(shí)的一種敷衍的措辭。譯者要找出準(zhǔn)確的翻譯,還需要了解更廣泛的語境,例如以文字出現(xiàn)的這個(gè)故事的上下文,或者是非語言情景,這便是語境效果層級(jí)。在此層級(jí),交互式機(jī)器翻譯引擎對(duì)人類最為依賴,譯者所耗費(fèi)的認(rèn)知努力也越大。

表2是基于譯者認(rèn)知努力的交互式機(jī)器翻譯的語境架構(gòu)的總結(jié)。如表2所示,層級(jí)數(shù)越高,譯者就越有可能離開交互式機(jī)器翻譯環(huán)境,從緊鄰當(dāng)前切分單位,到超出全局語境的翻譯,再到翻譯環(huán)境以外的語境資源,包括實(shí)際資源(如交互式機(jī)器翻譯環(huán)境以外的文檔、圖片等)以及心理資源(例如“Xue hua piao piao, bei feng xiao xiao”在中文讀者與英文讀者之間構(gòu)建的心理效果的差異)。層數(shù)由小變大的過程,也反映了譯者所需的認(rèn)知努力不斷加強(qiáng)。

四、 基于交互式機(jī)器翻譯環(huán)境的

語境架構(gòu)的應(yīng)用基于交互式機(jī)器翻譯環(huán)境的語境架構(gòu)可以幫助軟件開發(fā)者和使用者(包括軟件開發(fā)人員、翻譯項(xiàng)目管理人員、機(jī)器引擎訓(xùn)練技術(shù)人員、譯者等)更好的分析語言數(shù)據(jù)(尤其是譯者反饋的數(shù)據(jù)),提高交互式機(jī)器翻譯引擎的機(jī)器訓(xùn)練、機(jī)器學(xué)習(xí)的效果,并可以更有效地評(píng)估在該技術(shù)環(huán)境下人機(jī)互動(dòng)的程度,以制定相應(yīng)的機(jī)器翻譯技術(shù)實(shí)施的框架和策略。具體來講,它可以從以下兩個(gè)方面評(píng)估系統(tǒng)對(duì)譯者的依賴性。

(一) 語境架構(gòu)在引擎自動(dòng)切分中的作用

交互式機(jī)器翻譯引擎與非交互式機(jī)器翻譯引擎(例如谷歌、百度機(jī)器翻譯引擎)的界面有很大的區(qū)別。在一定程度上,交互式機(jī)器翻譯引擎的用戶界面與傳統(tǒng)的翻譯記憶軟件(例如SDL Trados Studio, MemoQ, Déjà Vu)更為相似,因?yàn)樗鼈兙▽?duì)原文進(jìn)行句段切分的步驟。不同的翻譯軟件句段切分的算法各不相同,算法中對(duì)語境因素考慮得越充分,得出的自動(dòng)句段切分結(jié)果就越理想。嚴(yán)格來講,這個(gè)階段與交互式機(jī)器翻譯引擎互動(dòng)的人員首先是翻譯項(xiàng)目管理者和軟件設(shè)計(jì)開發(fā)者,然后他們?cè)俑鶕?jù)需要決定是否讓譯者或語言服務(wù)商對(duì)切分結(jié)果進(jìn)一步標(biāo)注、分析。

需要指出的是,機(jī)器翻譯引擎切分句段與人類切分句段有所不同。例如,譯者對(duì)原文的切分往往是建立在意義之上的,他們可以很輕松地區(qū)分形式與意義的差別。例如,“Romance is finding your fantasy in people who dont have it”這個(gè)句子,無論排版的格式如何,大多數(shù)譯者都可以毫不費(fèi)力的將其切分為一個(gè)句子,但是機(jī)器引擎目前還做不到這一點(diǎn)。一些人類不以為然的問題,例如字體樣式、字體大小、字體顏色、換行等,對(duì)于機(jī)器來說尤為棘手。所以,當(dāng)處理圖2的文本時(shí),字體大小、是否黑體、換行等格式信息會(huì)干擾機(jī)器對(duì)原文的切分,而將其切分為:(1)romance,(2)fantasy,(3)is finding your,(4)in people,(5)who dont,(6)have it。這是因?yàn)槿鐖D2所示,romance和fantasy的字體大小一致而且均是黑體,is finding your與in people的字體大小一致,who dont與have it的字體大小一致,而圖2上的分行是引擎將其分為6個(gè)切分單位的主要原因。這就是我們?cè)诒?所總結(jié)的語境框架中的本地語境和全局語境中的語用層面。

出現(xiàn)圖2所示的引擎切分的結(jié)果會(huì)對(duì)翻譯造成很大的困難,因?yàn)槿绻麅H是集中在本地語境的話,即按從(1)到(6)切分單位字面翻譯,然后再將在交互式機(jī)器翻譯環(huán)境中翻譯的結(jié)果放回原圖的話,那么機(jī)器整合出來的結(jié)果必然是錯(cuò)誤的。如果考慮到原文的格式,即考慮全局語境,將整句話作為一個(gè)句子考慮,然后譯者可能會(huì)考慮將這六個(gè)切分單位翻譯成:(1)romance—浪漫,(2)fantasy—幻想,(3)is finding your—就是發(fā)現(xiàn),(4)in people—在那些,(5)who dont—沒有擁有,(6)have it—浪漫的人身上。這樣,當(dāng)這些切分單位被翻譯引擎合成后輸出的結(jié)果雖然不是最佳的翻譯效果,但也可以勉強(qiáng)接受。這似乎是一個(gè)不錯(cuò)的解決方案。不過這樣做會(huì)造成翻譯記憶的錯(cuò)誤,因?yàn)閺模?)到(6)句的中英文明顯不對(duì)應(yīng),而這樣的翻譯記憶錯(cuò)誤會(huì)直接影響機(jī)器翻譯引擎的訓(xùn)練,造成無法修復(fù)的錯(cuò)誤循環(huán)。

解決的辦法之一便是翻譯項(xiàng)目經(jīng)理要求譯者或語言服務(wù)商對(duì)于機(jī)器翻譯引擎的自動(dòng)切分結(jié)果進(jìn)行手動(dòng)修復(fù)。但是機(jī)器翻譯所處理的項(xiàng)目往往工程浩大,一個(gè)項(xiàng)目可以包括幾十萬甚至幾百萬的字?jǐn)?shù),項(xiàng)目經(jīng)理需要衡量工作的成本以制定合理的計(jì)劃。在這種情況下,語境架構(gòu)是一個(gè)有力的工具。例如,我們可以通過本地語境的字?jǐn)?shù)、全局語境定義中的n 值、語境效果所包括的因素及其數(shù)量等,來預(yù)測(cè)自動(dòng)切分的語境難度。

(二) 語境架構(gòu)有助于評(píng)估機(jī)器對(duì)譯者的依賴程度

語境架構(gòu)在交互式機(jī)器翻譯環(huán)境中應(yīng)用的第二個(gè)方面是譯者參與翻譯的階段。交互式機(jī)器翻譯自動(dòng)切分句段后,譯者將按照切分后句段與機(jī)器互動(dòng),對(duì)其進(jìn)行翻譯。在此過程中譯者對(duì)機(jī)器給出的建議進(jìn)行選擇,一旦譯者否定了機(jī)器的意見之后,機(jī)器便會(huì)對(duì)下面的建議進(jìn)行相應(yīng)的調(diào)整,如此滾動(dòng)進(jìn)行,并最終得出翻譯的結(jié)果。相較于翻譯過程中沒有人類參與的機(jī)器翻譯,交互式機(jī)器翻譯系統(tǒng)在一定程度上彌補(bǔ)了機(jī)器對(duì)語境處理能力不足的情況。如表2 所示,譯者越是在語境框架的下游(11,12, 21,22)進(jìn)行處理,他所耗費(fèi)的時(shí)間和精力可能就會(huì)越少,而越是向上(13,23,3),他就需要離開交互式機(jī)器翻譯引擎而尋找其它的資料。所以,我們可以通過語境架構(gòu)框架來預(yù)測(cè)機(jī)器引擎對(duì)譯者的依賴性,從而預(yù)測(cè)譯者的勞動(dòng)強(qiáng)度,制定相應(yīng)的翻譯項(xiàng)目實(shí)施計(jì)劃。

從機(jī)器訓(xùn)練的角度來看,傳統(tǒng)的機(jī)器翻譯引擎一般會(huì)在獲得譯者的反饋數(shù)據(jù)后定期對(duì)機(jī)器進(jìn)行訓(xùn)練,而交互式機(jī)器翻譯引擎可以在翻譯的過程即時(shí)得到譯者的反饋數(shù)據(jù),機(jī)器訓(xùn)練的效果會(huì)更加明顯。隨著機(jī)器翻譯引擎的不斷優(yōu)化,機(jī)器依靠譯者的程度和側(cè)重點(diǎn)會(huì)有所變化,從而導(dǎo)致對(duì)引擎所需的譯者的數(shù)量與質(zhì)量的變化。在這種動(dòng)態(tài)的發(fā)展過程中,語境架構(gòu)可以幫助我們更好的把握機(jī)器訓(xùn)練的特點(diǎn)和結(jié)果。

五、 結(jié) 語

2017年3月9日,Viktor MayerSchonberger[25]于英國國家廣播公司(BBC)的《未來》(Future)頻道發(fā)表了“The last things that will make us uniquely human”一文,他指出,我們必須著眼于人類對(duì)勞動(dòng)分工的貢獻(xiàn),對(duì)機(jī)器的理性進(jìn)行補(bǔ)充,而非試圖與它競爭。這樣做會(huì)讓我們與機(jī)器產(chǎn)生差異,而正是這種差異化才會(huì)創(chuàng)造價(jià)值。

基于交互式機(jī)器翻譯環(huán)境的語境架構(gòu)框架可以幫助人類更好地了解自己在人機(jī)互動(dòng)過程中所起的作用,譯者也應(yīng)該根據(jù)機(jī)器的進(jìn)化趨勢(shì),不斷調(diào)整自己知識(shí)與能力的側(cè)重點(diǎn),在人機(jī)交互中發(fā)揮主導(dǎo)與核心作用。最后需要指出的是,機(jī)器翻譯的語境難點(diǎn)也受到翻譯語對(duì)與翻譯方向性的影響。本文中大多數(shù)例子是英進(jìn)中翻譯,如果交互式機(jī)器翻譯引擎處理的原文是中文的話,情況可能會(huì)更復(fù)雜一些。中文的結(jié)構(gòu)松散,語言內(nèi)涵的判斷對(duì)語境的依賴更高于其他語言,這也是我們可以在今后的研究中進(jìn)一步探討的課題。

致謝

明德大學(xué)蒙特雷國際研究學(xué)院的鮑川運(yùn)教授在百忙之中審閱了本文,并提出寶貴意見,特此致謝。

〔參考文獻(xiàn)〕

[1]WEAVER W. Translation [C] LOCKE W N & BOOTH A D. Machine Translation of Languages. Cambridge, New York: The Technology Press of MIT & John Wiley & Sons, Inc., 1955: 1523.

[2]HALLIDAY M A K. Language theory and translation practice [J]. Revista Internazional Di Tecnia Della Traduzione, 1992(0): 1525.

[3]HALLIDAY M A K & HASAN R. Language, Context, and Text [M]. Victoria: Deakin University Press, 1986.

[4]王鵬.《翻譯理論探討》——對(duì)當(dāng)代西方翻譯理論的批判性認(rèn)識(shí)[J]. 中國翻譯, 2010, 31(3): 3337.

[5]NILSSON N J. The Quest for Artificial Intelligence: a History of Ideas and Achievements [M]. Cambridge: Cambridge University Press,? 2009.

[6]BARHILLEL Y. Report on the Sate of Machine Translation in the United States and Great Britain [M]. Jerusalem: Hebrew University,? 1959.

[7]ARNOLD D J, BALKAN L, Humphreys R L, et al.? Machine Translation: An Introductory Guide [M]. Oxford: Blackwell, 1994.

[8]TINSLEY J. A report from the front line of NMT [J].? Multilingual, 2018, 29(1): 4045.

[9]PIERCE J R. Languages and Machines: Computers in Translation and Llinguistics [M]. Washington, D.C.: National Academy of Sciences, 1966.

[10]THOUIN B. The Metero System [M]. Amsterdam: NorthHolland Publishing Company, 1982.

[11]AYMERICH J. Using Machine Translation for Fast, Inexpensive, and Accurate Health Information Assimilation and Dissemination [M]. SalvadorBahia, Brazil: 9th World Congress on Health Information and Libraries, 2005.

[12]BIBER D, CONRAD S & REPPEN R. Corpus Linguistics: Investigating Language Structure and Use [M]. Cambridge: Cambridge University Press, 1998.

[13]WAY A & HEARNE M. On the role of translations in stateoftheart statistical machine translation [J]. Language and Linguistics Compass, 2011, 5(5): 227248.

[14] GREEN S, HEER J & MANNING C. Natural language translation at the intersection of AI and HCI [J].? Communications of the ACM, 2015, 58(9): 4653.

[15] ORTIZMARTINEZ D, LEIVA L A, ALABAU V, et al. An interactive machine translation system with online learning [EBOL]. (201106)[20201112]. https:www.aclweb.organthologyP114012.

[16]WUEBKER J, GREEN S, DENERO J, et al. Models and Inference for Prefixconstrained Machine Translation [M]. Berlin: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016.

[17]ZETZSCHE J. A Maze of TEnTs [EBOL]. (200807)[20201210]. https:internationalwriters.comtoolkitJuly08Column.pdf.

[18]王星,熊德意,張民. 神經(jīng)機(jī)器翻譯[JOL]. (20161104)[20201210]. http:www.cipsc.org.cnqngw?p=953.

[19]LUONG T, CHO K & MANNIN C. Neural machine translationtutorial ACL [EBOL]. (2016)[20201012]. https:sites.google.comsiteacl16nmt.

[20]KOEHN P & KNOWLES R. Six challenges for neural machine translation [EBOL]. (20170804) [20201014]. https:www.aclweb.organthologyW173200.pdf.

[21] SAMOVAR L A, PORTER R E, Mcdaniel E R, et al. Communication between cultures [M]. Belmont, CA: Wadsworth, 1998.

[22] KATAN D. Translating Cultures [M]. UK: St. Jerome Publishing, 1999.

[23] FABER P & LeónAraúz P. Specialized knowledge representation and the parameterization of context [EBOL]. (20160223)[20201012]. https:www.frontiersin.orgarticle10.3389fpsyg.2016.00196.

[24] SPERBER D & WILSON D. Relevance: Communication and Cognition (2nd ed.) [M]. Oxford: Blackwell, 1986.

[25] VIKTOR M. The last things that will make us uniquely human [NOL]. (20170309)[20201006]. https:www.bbc.comfuturearticle20170309thelastthingsthatwillmakeusuniquelyhuman.

On the Hierarchical Structure of Context in Interactive Machine

Translation Environment Tools

WANG Peng

(School of Translation and Interpretation, University of Ottawa, Ottawa ON K1N 6N5, Canada;

Nanfang College, Sun Yatsen University, Guangzhou 510970, China)Abstract: Since its inception, one of the biggest challenges for machine translation is meaning in context. Nowadays, the fields of artificial intelligence (AI) and humancomputer interaction (HCI) are influencing each other like never before. Recent breakthroughs in the translation are made possible by a healthy AIHCI collaboration. This article proposed a hierarchical structure of context for interactive machine translation environment tools, including local context, global context and contextual effects, based on translators cognitive efforts when interacting with machines. This framework helps software developers, project managers and linguists who work with the interactive machine translation system better incorporate the contextual factors when collecting, managing and analyzing data from human feedback, which leads to relevant strategic plans for automatic segmentation as well as effective estimation for the degree of human involvement.

Key words: interactive machine translation environment tools; neural machine translation; hierarchical structure of context

〔收稿時(shí)間〕 2020-11-13

〔作者簡介〕 王鵬(1975—),女,河北邯鄲人,廣東省副教授。加拿大政府翻譯局同聲傳譯譯員,渥太華大學(xué)翻譯與口譯學(xué)院兼職教授,中山大學(xué)南方學(xué)院客座教授。