么娟 邵輝
(北京工業(yè)大學(xué),北京 100124)
在過去的幾十年中,技術(shù)進步在翻譯研究領(lǐng)域占據(jù)越來越重要的地位。 從計算機文檔編排工具的應(yīng)用,到20 世紀(jì)90 年代的計算機輔助翻譯記憶,一直到最近的人工智能、機器學(xué)習(xí)以及智能語音識別系統(tǒng),機器翻譯在翻譯研究和日常翻譯實踐中都發(fā)揮了越來越重要的作用。 為了更好地評價機器翻譯發(fā)展現(xiàn)狀,必須首先回答如何定義機器翻譯質(zhì)量以及怎樣測量機器翻譯質(zhì)量這兩個重要問題。
機器翻譯質(zhì)量并不是一個獨立于傳統(tǒng)“翻譯質(zhì)量”研究之外的概念。 在傳統(tǒng)翻譯質(zhì)量研究領(lǐng)域同樣存在普適質(zhì)量標(biāo)準(zhǔn)和功能質(zhì)量標(biāo)準(zhǔn)之爭。 普適質(zhì)量觀認(rèn)為,有些翻譯準(zhǔn)則(如符合目的語語法、真實準(zhǔn)確反映源文意義),是任何翻譯情境和功能都要滿足的翻譯準(zhǔn)則;而功能質(zhì)量觀則認(rèn)為,翻譯行為受翻譯目的驅(qū)動,因此如果不知道譯文的翻譯目的,質(zhì)量評價也就無從談起。 而且譯文翻譯目的也不一定受源文目的約束,譯文可能面臨與源文完全不同的文化社會環(huán)境、服務(wù)不同的翻譯目的[1]。
不同質(zhì)量觀視角下對翻譯質(zhì)量的不同評價標(biāo)準(zhǔn)應(yīng)運而生。 House 將翻譯質(zhì)量評價分為四類:①心理社會學(xué)方法;②基于反應(yīng)的方法;③基于語篇和話語的方法;④功能—語用主義流派。 Chesterman 則認(rèn)為翻譯質(zhì)量體現(xiàn)在多種互動關(guān)系當(dāng)中,包括:譯文與源文的互動(與源文相比譯文是否適恰、對等或相似);譯文與目的語同類文本的互動(譯文在目的語語境下是否流暢、可接受);譯文與翻譯目的(skopos)的互動(譯文是否達成翻譯目的);譯文與行業(yè)標(biāo)準(zhǔn)的關(guān)系(翻譯過程是否符合行業(yè)過程質(zhì)量標(biāo)準(zhǔn));譯文與譯者的互動(譯者在工作過程中的滿意度以及是否獲取合理酬勞)。
機器翻譯同樣面對多樣化的質(zhì)量評價標(biāo)準(zhǔn),同時技術(shù)進步還使得機器自動質(zhì)量評價成為可能。 面對多種多樣的機器翻譯質(zhì)量評價方法,文章借鑒House 及Chesterman 等人的質(zhì)量評價標(biāo)準(zhǔn),將機器翻譯質(zhì)量的評價方法分為人工評價和機器自動評價兩大類[2]。
即便機器翻譯水平已經(jīng)經(jīng)歷了重大進步,人類勞動在整個翻譯產(chǎn)業(yè)當(dāng)中仍然發(fā)揮著重要的作用。其中一大核心就是通過人工對機器翻譯結(jié)果進行評價、審核以及譯后編輯。 根據(jù)評價過程文章將人工評價區(qū)分為心靈主義、錯誤類型標(biāo)注和用戶評價三大類。
1. 評價譯文整體水平的心靈主義方法
與傳統(tǒng)翻譯評價類似,機器翻譯領(lǐng)域的心靈主義方法關(guān)注譯文的整體水平,未對具體語言細節(jié)進行過多分析。 從具體操作化層面,評價人員可以采用排序法(ranking)比較機器翻譯與人工翻譯,或者比較不同類型的機器翻譯結(jié)果,然后按照從高到低的方式進行質(zhì)量排序。
(1)排序方法的使用評價
排序法的優(yōu)點是簡單易操作,能夠以較低成本達到對機器翻譯質(zhì)量的大體測量。 缺點是由于缺少具體的質(zhì)量評價標(biāo)準(zhǔn),這種評價方式易受到評價人主觀因素及質(zhì)量評價水平的影響,評價者自信度不足。 而且由于缺乏對具體質(zhì)量標(biāo)準(zhǔn)的描述,排序法無法深入分析翻譯質(zhì)量排名高低背后的原因,也難以為后續(xù)軟件改進提供支持。
(2)對排序法的改進
為改進排序方法質(zhì)量標(biāo)準(zhǔn)模糊的問題,部分研究將翻譯質(zhì)量定義為適當(dāng)和流暢。 適當(dāng)也稱準(zhǔn)確或忠誠,指譯文對傳達源文意義的準(zhǔn)確傳達;流暢則是指譯文是否符合譯入語的語法詞匯標(biāo)準(zhǔn)。 通常對適當(dāng)?shù)脑u價以源文為核心,需要評價者具備雙語能力;而對流暢的評價則以譯文為核心,理論上評價者只需具備目的語能力即可。
2. 關(guān)注譯文細節(jié)的錯誤類別評價方法
相較于心靈主義方法的整體評價視角,錯誤類別評價方法傾向于分析性評價視角。 除了機器翻譯質(zhì)量整體水平,研究者還希望對現(xiàn)有機器翻譯的具體問題進行評估,這就需要對翻譯結(jié)果中的錯誤進行識別。
對翻譯錯誤的識別基于傳統(tǒng)翻譯評價研究,Vilar et al.是該領(lǐng)域研究的先驅(qū),通過對比中英、西英翻譯,將翻譯錯誤劃分為不同類別。 這些對錯誤類型的歸納研究同樣可以使用在機器翻譯質(zhì)量評價當(dāng)中,作為機器翻譯錯誤的識別框架。
3. 關(guān)注機翻使用者體驗的評價方法
機器翻譯質(zhì)量可以從利益相關(guān)者體驗的角度進行評價和測量。 在機器翻譯領(lǐng)域,利益相關(guān)者主要分為兩大群體:翻譯作品用戶和譯者。
(1)翻譯用戶評價
相較于心靈主義和錯誤類型研究對翻譯結(jié)果的關(guān)注,部分學(xué)者認(rèn)為翻譯質(zhì)量的核心評價標(biāo)準(zhǔn)來自翻譯用戶。 用戶并不一定追求理想中的完美翻譯,不同用戶對翻譯質(zhì)量存在不同期待。 因此,在用戶反應(yīng)方法論下,翻譯質(zhì)量好壞并不存在某種外在標(biāo)準(zhǔn),而是最終由用戶來認(rèn)定:用戶喜歡、滿意的翻譯就是好的翻譯。
用戶研究經(jīng)常涉及的核心概念是譯文的可接受性、可讀性和可理解性。 可接受性指譯文是否符合讀者的期待或需求。 可讀性主要關(guān)于文本是否易于閱讀,主要測量指標(biāo)包括譯文高頻詞及恰當(dāng)搭配的使用頻率等。 可理解性主要關(guān)注讀者是否能夠理解譯文。 兩者的區(qū)別在于,可讀性源于文本本身,可理解性則關(guān)注讀者對文本的理解。 因此,即便是可讀性同樣的文本,可理解性由于讀者的教育背景、對文本的熟悉程度可能有所不同。 在可理解性測量上,一些研究要求讀者完成內(nèi)容填空、回答閱讀理解題目,或復(fù)述文本內(nèi)容來檢測其是否理解譯文內(nèi)容。
(2)翻譯者體驗方法
機器翻譯技術(shù)發(fā)展的目的是輔助人類活動。 與傳統(tǒng)翻譯研究相比,翻譯結(jié)果使用者除了最終用戶,還有從事翻譯工作的譯者,因此譯者的使用體驗也成為質(zhì)量評價的重要指標(biāo)。 高質(zhì)量的機器翻譯應(yīng)該使翻譯者滿意、為翻譯者提供方便。
對可用性測量可以使用主客觀兩種方式。 從主觀方面來看,可以對翻譯者軟件使用的滿意度進行測量,這類研究通常采用調(diào)查研究方法。 從客觀方面來看,有些研究從是否降低翻譯者工作量的角度測量機器翻譯質(zhì)量,在實踐中經(jīng)常通過測量譯者“譯后編輯”工作量來對翻譯質(zhì)量進行定義。
譯后編輯工作量可以分為三個維度:時間、技術(shù)和認(rèn)知。 時間維度指測量人工在譯后編輯上所花費的時間,技術(shù)維度指人工在編輯中對機器翻譯進行修正的次數(shù),認(rèn)知維度指譯后編輯對人工造成的認(rèn)知負荷。
譯后編輯工作時間通常是容易測量的指標(biāo),但是編輯時間通常受譯文長度影響,譯文越長需要編輯的時間也就越長。 同時不同編輯者的工作效率本身也存在差異,同一個編輯者在面對不同體裁、不同疲勞程度之下效率也有差異。 因此,在以編輯時長作為測量指標(biāo)的研究當(dāng)中,需要通過對編輯者隨機分組或打亂機器譯文出現(xiàn)順序等手段來控制編輯者效率和譯文體裁差異對研究結(jié)果帶來的影響。 對編輯者認(rèn)知負荷,現(xiàn)有研究常用眼動研究或Translog鍵盤記錄來進行測量。 隨著現(xiàn)代技術(shù)發(fā)展,研究者開發(fā)出頭戴式磁共振成像儀,更加精確地記錄譯后編輯過程中的人腦活動[3]。
目前譯后編輯評價的局限在于人工編輯并不一定總能提升譯文翻譯質(zhì)量。 譯后編輯人員可能會對譯文進行非必要調(diào)整。 相對真正需要改動的重大錯誤(語言錯誤或誤譯),很多時候譯后編輯是進行了一些非絕對必要的改動,如詞匯選擇、增加個別單詞、調(diào)整語序或標(biāo)點。 不同人工評價者之間同樣存在較大差異,事實上并不存在所謂理想中完美的人工評價者[4]。
心靈主義方法和利益相關(guān)者反應(yīng)方法的共同特點是以人工方式進行質(zhì)量評價。 但人工評價在使用上經(jīng)常存在耗時長、成本高、評價一致性欠缺的缺陷,因此很多研究者致力于創(chuàng)建機器自動評價模型。在這些模型中比較有代表性是錯誤類別評價模型和模擬人工評價模型。
1. 錯誤類型評價
在傳統(tǒng)錯誤類型描述的基礎(chǔ)上,研究者開發(fā)了機器自動錯誤識別模型。 該類模型起源于阿姆斯特丹的本地化行業(yè)標(biāo)準(zhǔn)協(xié)會。 其運行邏輯是將翻譯錯誤劃分為不同類型,以此來計算一篇譯文中錯誤類型的分布。
目前,在機器自動錯誤識別領(lǐng)域代表性模型是多維度質(zhì)量矩陣(MQM)和動態(tài)質(zhì)量框架(DQF)。MQM 模型由歐盟資助,由德國研究中心開發(fā)。 該系統(tǒng)將翻譯錯誤劃分為不同類別,不同類別之下最多包含四層逐漸細化的錯誤層級,總共設(shè)計了180 多種錯誤類型,并且根據(jù)錯誤嚴(yán)重程度將錯誤劃分為無錯、小錯、大錯、重大錯誤四種不同權(quán)重。
2. 錯誤類型評價方法的困難和挑戰(zhàn)
對錯誤類別進行細致分類可以為機器質(zhì)量評價提供更加精確的信息,并且保障研究的一致性和可比性,但分類過細也容易造成一些錯誤難以歸類,會降低錯誤類別模型的普適性:一些在特定語言或文化情境運行良好的模型在不同語言或情境下精確度可能有所降低。 但是無論如何,一套完整精細的錯誤類別架構(gòu)都可以為后續(xù)研究提供參照。 研究者可以在現(xiàn)有模型基礎(chǔ)上進行改進或本土化調(diào)整。
從整體開發(fā)邏輯上,自動錯誤識別系統(tǒng)在方法論上傾向普適質(zhì)量觀,試圖開發(fā)出一套評價系統(tǒng)來對所有譯文進行評價。 但是在翻譯質(zhì)量領(lǐng)域并不存在簡單的普適評價標(biāo)準(zhǔn),也很難使用同一套錯誤類別系統(tǒng)來評價不同目的或文體的翻譯結(jié)果。 因此,自動錯誤識別系統(tǒng)在升級改進過程中試圖容納翻譯的復(fù)雜性、將文體、翻譯目的等多樣標(biāo)準(zhǔn)納入評價系統(tǒng)中。
MQM 和DQF 都試圖在原有基礎(chǔ)上納入功能主義評價標(biāo)準(zhǔn)。 在形成本地評價系統(tǒng)之前,兩類系統(tǒng)都需要用戶首先回答一些核心問題:評價什么,誰來評價,在哪評價,何時評價,為何評價等。 不同之處在于,MQM 在系統(tǒng)中內(nèi)置大量翻譯評價指標(biāo),用戶可以根據(jù)不同的翻譯情境和功能需求對翻譯質(zhì)量指標(biāo)類別和權(quán)重自行定義;而DQR 則是根據(jù)用戶需求,對評價機制進行定制。
3. 模擬人工評價方法
目前,另一種主流的機器自動評價方法是模擬人工評價方法,即將機器譯文與前期篩選的代表性人工譯文進行對比,然后根據(jù)機器翻譯與人工譯文是否相似來為機器翻譯打分。 BLEU,TER 和METEOR 等模型都是基于這種評價思路搭建[5]。
這類統(tǒng)計評價模型的運行機制是,模型會對機器翻譯文本與同類人工翻譯文本進行對比,如翻譯方式相近,則機器翻譯文本質(zhì)量較高。 因此,為模型提供的人工優(yōu)秀譯文參照越多,模型對譯文質(zhì)量評價的有效性越高。 但多數(shù)人的翻譯方式在特定情境下不一定就是高質(zhì)量的翻譯。 因此,該模型在原有統(tǒng)計評價基礎(chǔ)上引入神經(jīng)網(wǎng)絡(luò)方法。 將翻譯發(fā)生的特定主題情境納入評價機制,精準(zhǔn)搜索并參照特定語境之下的特定翻譯結(jié)果,提供最優(yōu)翻譯評價方案,以便將大眾評價與具體情境結(jié)合起來。
模擬人工評價方法的評價效率高、成本低、結(jié)果可比性強,但其也具有一定局限性。 首先,機器翻譯質(zhì)量標(biāo)準(zhǔn)是代表性人工翻譯,這些代表性譯本仍然需要人工進行篩選和設(shè)置,此過程具有較高主觀性。其次,根據(jù)翻譯實踐經(jīng)驗,同一源文會產(chǎn)生不同譯本,這些譯本即便存在差異也都具有較高的翻譯質(zhì)量,因此筆者認(rèn)為只有與代表性譯本相似的翻譯才是高質(zhì)量翻譯這種評價方式本身也具片面性。 而且在這種評價方式之下,機器翻譯也絕對不可能產(chǎn)生“創(chuàng)造性”,因為機器翻譯質(zhì)量的天花板就是進行對標(biāo)的參考文本,與參考文本不同的譯文都會被識別為不當(dāng)翻譯。
雖然機器翻譯以及自動評價模型的發(fā)展日新月異,人機耦合的工作模式仍然占據(jù)重要地位。 人類智慧貫穿整個機器翻譯質(zhì)量評價的全過程,機器翻譯質(zhì)量評價最終反映的是人類的價值觀、意識形態(tài)以及由此產(chǎn)生的對翻譯本身和翻譯質(zhì)量的理解。 關(guān)于追求普適還是功能的翻譯觀,不同的質(zhì)量評價方式也有不同側(cè)重。 需要注意的是,翻譯質(zhì)量的定義和測評方法多種多樣,不同研究之間可能由于對質(zhì)量定義不同或操作方法多樣而存在結(jié)果一致性不足的情況,對同樣的譯文,人類質(zhì)量評價結(jié)果與機器自動評價結(jié)果可能也有所不同。 所以翻譯質(zhì)量評價研究論文需要將本研究對“翻譯質(zhì)量”的概念化定義和具體操作化方式進行明示,以提高研究透明度及可復(fù)制性。