国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

谷歌神經(jīng)翻譯器英譯漢過(guò)程中的詞義排歧問(wèn)題

2019-04-29 06:29:18
福建質(zhì)量管理 2019年9期
關(guān)鍵詞:信函歧義詞義

(四川大學(xué) 四川 成都 610207)

一、背景介紹

機(jī)器翻譯這個(gè)話題在翻譯界備受關(guān)注,人工智能的應(yīng)用使得機(jī)器翻譯輸出的譯文質(zhì)量大有提升。因此譯者應(yīng)該充分認(rèn)識(shí)到機(jī)器翻譯的重要性,了解機(jī)器翻譯并讓其為我們所用。提升機(jī)器翻譯譯文質(zhì)量面臨的一大挑戰(zhàn)便是詞義排歧,一個(gè)機(jī)器翻譯軟件譯文質(zhì)量的好壞基本取決于其詞義排歧的能力。許多學(xué)者們也著眼于此,期望提升翻譯器的詞義排歧能力。

功夫不負(fù)有心人,機(jī)器翻譯在某些領(lǐng)域的排歧能力已可媲美人工翻譯,例如實(shí)時(shí)天氣預(yù)報(bào)、金融新聞報(bào)道以及軟件本地化手冊(cè)。于2016年發(fā)布的谷歌神經(jīng)翻譯器也在詞義排歧問(wèn)題上有了重大突破。據(jù)谷歌發(fā)表的論文稱,比起之前基于短語(yǔ)的翻譯器,谷歌神經(jīng)翻譯器在很多語(yǔ)言對(duì)翻譯中平均減少了60%的錯(cuò)誤率,與人工翻譯結(jié)果越來(lái)越接近。雖然它還是會(huì)出現(xiàn)一些人工翻譯不會(huì)出現(xiàn)的問(wèn)題,在排歧方面也還不盡完美,但考慮到語(yǔ)篇的組成成分,歧義在一定程度總是伴隨著語(yǔ)篇存在的。而且開(kāi)發(fā)機(jī)器翻譯的初衷是為了輔助譯者更高效地進(jìn)行翻譯工作,而不是為了取而代之。多數(shù)翻譯工作者仍將會(huì)是機(jī)器翻譯詞義排歧能力提升的受益者。

二、研究目的及方法介紹

本文選取了數(shù)個(gè)文本來(lái)探索谷歌神經(jīng)翻譯器在排歧方面的表現(xiàn)及錯(cuò)誤規(guī)律,通過(guò)對(duì)比分析推論出其所擅長(zhǎng)翻譯的文本類型,并提出一些可行的方法來(lái)提升其詞義排歧的表現(xiàn)?;谠谠擃I(lǐng)域應(yīng)用機(jī)器翻譯的可行性和實(shí)用性的現(xiàn)實(shí)考量,本文所選取文本為商務(wù)信函和商務(wù)合同。商務(wù)文本專業(yè),嚴(yán)謹(jǐn),凝練和實(shí)用的特點(diǎn)奠定了運(yùn)用機(jī)器翻譯的基礎(chǔ)。既然要分析譯文質(zhì)量,便要有一套可量化的分析標(biāo)準(zhǔn),學(xué)界提出了多種用于分析譯文質(zhì)量的標(biāo)準(zhǔn),例如豪斯的翻譯質(zhì)量評(píng)估模式。但考慮到此處是用于分析機(jī)器翻譯譯文質(zhì)量,簡(jiǎn)單的分析標(biāo)準(zhǔn)便足夠。因此本文融合了嚴(yán)復(fù)所提出的“信達(dá)雅”以及奈達(dá)所提出的“功能對(duì)等”理論。由于商務(wù)文本的目的是準(zhǔn)確專業(yè)地傳達(dá)譯文信息,因此結(jié)合其翻譯目的,本文用于分析谷歌神經(jīng)翻譯器英文質(zhì)量的標(biāo)準(zhǔn)為“信”,“達(dá)”,以及“術(shù)語(yǔ)對(duì)等”。

三、歧義與詞義排歧

歧義是自然語(yǔ)言中存在的普遍現(xiàn)象。對(duì)機(jī)器翻譯來(lái)講,如果處理不好詞義排歧問(wèn)題,那么輸出譯文的質(zhì)量肯定是堪憂的。在英譯漢過(guò)程中,我們面對(duì)的歧義主要分為兩大塊:語(yǔ)義歧義和句法歧義(楊良生,1994)。語(yǔ)義歧義主要來(lái)源于詞義選擇問(wèn)題,可進(jìn)一步分為詞匯歧義和語(yǔ)法歧義。而機(jī)器翻譯主要處理的是詞匯層面的歧義。

機(jī)器翻譯技術(shù)已現(xiàn)世60多年。而詞義排歧問(wèn)題仍是制約其發(fā)展的瓶頸。詞義排歧這一概念是由Weaver在一場(chǎng)機(jī)器翻譯大會(huì)上首次提出的。他指出,若要使機(jī)器習(xí)得人類辨別詞語(yǔ)歧義的能力,那么機(jī)器必須要會(huì)如何在特定語(yǔ)境下選擇某一詞匯的正確含義。語(yǔ)境是影響機(jī)器詞義排歧性能的最主要因素。國(guó)內(nèi)外學(xué)者提出了多種模型來(lái)解決詞義排歧問(wèn)題。有的模型在進(jìn)化過(guò)程中被淘汰了,例如最大頻率法(most frequency approach)和選擇限制法(selectional restriction approach),有的模型經(jīng)歷了時(shí)間的考驗(yàn)留存了下來(lái),例如基于語(yǔ)料庫(kù)法(corpus-based approach)以及統(tǒng)計(jì)法(statistic methods)(馮志偉,2004)。

谷歌神經(jīng)翻譯器的詞義排歧模型為監(jiān)督式學(xué)習(xí)法,通過(guò)引入人工智能技術(shù),將文本標(biāo)記并經(jīng)過(guò)一系列試錯(cuò)過(guò)程來(lái)提升其譯文質(zhì)量。這便是所謂的深度學(xué)習(xí)。機(jī)器將通過(guò)反芻被標(biāo)記的文本,達(dá)到修正輸出譯文質(zhì)量的目的。

四、結(jié)果及分析

(一)商務(wù)信函排歧錯(cuò)誤規(guī)律分析

商務(wù)信函是與商業(yè)伙伴建立聯(lián)系的一種方式。它比日常收發(fā)的電子郵件更為正式。但是,它的正式度又次于商業(yè)合同。商務(wù)信函特點(diǎn)是簡(jiǎn)潔凝練,較為專業(yè),使用商業(yè)術(shù)語(yǔ),但應(yīng)注意其禮貌用法。

筆者選擇了3封商務(wù)信函,一封用于建立業(yè)務(wù)關(guān)系,一封用于詢盤(pán),一封用于報(bào)價(jià)。對(duì)比譯本為人工翻譯的正確版本和谷歌神經(jīng)翻譯器處理的譯本。收集數(shù)據(jù)階段,本文作者對(duì)所選文本按句子數(shù)量進(jìn)行了標(biāo)注,以便追溯出錯(cuò)之處。但由于本論文篇幅有限,具體的數(shù)據(jù)結(jié)果無(wú)法一一列舉。文章將直接呈現(xiàn)總體的錯(cuò)誤數(shù)量及其類別。錯(cuò)誤類別按照英文詞性以及商務(wù)文件術(shù)語(yǔ)劃分為名詞排歧錯(cuò)誤、動(dòng)詞排歧錯(cuò)誤、形容詞排歧錯(cuò)誤、術(shù)語(yǔ)排歧錯(cuò)誤、代詞排歧錯(cuò)誤、介詞排歧錯(cuò)誤以及短語(yǔ)排歧錯(cuò)誤。

在商務(wù)信函中選出了57個(gè)單詞和短語(yǔ),谷歌神經(jīng)翻譯正確的為8個(gè),錯(cuò)誤分別為12個(gè)名詞,9個(gè)動(dòng)詞,8個(gè)形容詞,7個(gè)術(shù)語(yǔ),5個(gè)代詞,4個(gè)介詞,4個(gè)短語(yǔ)。

名詞排歧錯(cuò)誤與單詞的一詞多義密不可分,谷歌在特定語(yǔ)境中沒(méi)有選擇出正確的單詞含義;動(dòng)詞排歧錯(cuò)誤主要與文本本身的流暢性和全面性有關(guān),谷歌翻譯的版本讓人很費(fèi)解;形容詞排歧錯(cuò)誤是由于語(yǔ)境疏忽而造成的;介詞排歧錯(cuò)誤是谷歌無(wú)法確定介詞在句中的成分;谷歌由于缺乏商業(yè)知識(shí)背景而造成了商業(yè)領(lǐng)域常見(jiàn)的代詞,術(shù)語(yǔ)和短語(yǔ)的排歧錯(cuò)誤。

(二)商務(wù)合同排歧錯(cuò)誤規(guī)律分析

商業(yè)合同具有法律約束力,專業(yè)度和嚴(yán)謹(jǐn)度高,結(jié)構(gòu)復(fù)雜,夾雜各種長(zhǎng)難句和復(fù)合句。語(yǔ)言特點(diǎn)正式,使用商業(yè)術(shù)語(yǔ),古英語(yǔ),如“hereby,hereunder,and thereafter”。因此,合同翻譯需要大量商務(wù)領(lǐng)域的知識(shí)。出于同樣的原因,如果機(jī)器可以習(xí)得商業(yè)方面的知識(shí),它將有可能比人工翻譯更加高效。

本文節(jié)選了一些商務(wù)合同片段,對(duì)比譯本為人工翻譯的正確版本和谷歌神經(jīng)翻譯器處理的譯本。收集數(shù)據(jù)階段,本文作者對(duì)所選文本按句子數(shù)量進(jìn)行了標(biāo)注,以便追溯出錯(cuò)之處。但由于篇幅有限,本文將直接呈現(xiàn)總體的錯(cuò)誤數(shù)量及其類別。

在商務(wù)合同中選擇了82個(gè)單詞和短語(yǔ),其中谷歌神經(jīng)翻譯正確的為17個(gè)。排歧錯(cuò)誤分別為16個(gè)名詞,9個(gè)動(dòng)詞,8個(gè)術(shù)語(yǔ),6個(gè)短語(yǔ),7個(gè)形容詞,5個(gè)副詞,4個(gè)數(shù)字表達(dá),4個(gè)古英語(yǔ),2個(gè)介詞,2個(gè)連詞和2個(gè)代詞。

名詞排歧錯(cuò)誤主要與詞語(yǔ)本身一詞多義的特點(diǎn)及其在商業(yè)合同中的恰當(dāng)含義有關(guān),其中谷歌翻譯的版本未能識(shí)別詞語(yǔ)在特定的語(yǔ)境下的正確含義,并且達(dá)不到商業(yè)合同所要求的正式度;動(dòng)詞排歧錯(cuò)誤主要與單詞本身含義不定和文本本身的全面性有關(guān),谷歌翻譯的版本完全錯(cuò)誤,或與商業(yè)合同的背景不符;形容詞排歧錯(cuò)誤也是對(duì)合同背景知識(shí)的缺乏造成的;介詞排歧錯(cuò)誤在于谷歌無(wú)法確定介詞在句中的作用,它便直接略譯了此類介詞;商業(yè)合同領(lǐng)域的代詞,術(shù)語(yǔ),古英語(yǔ)的排歧錯(cuò)誤主要在于谷歌商業(yè)知識(shí)的缺乏。

(三)分析對(duì)比結(jié)果

為了便于更直接的對(duì)比兩類文本的排歧錯(cuò)誤,筆者制作了以下圖表:每個(gè)排歧錯(cuò)誤率的計(jì)算方法為該類排歧錯(cuò)誤數(shù)除以詞語(yǔ)及短語(yǔ)總量。

排歧錯(cuò)誤率(%)名詞 動(dòng)詞 術(shù)語(yǔ)形容詞代詞副詞數(shù)字連詞介詞古英語(yǔ)正確短語(yǔ)商務(wù)信函21.015.812.314.08.80007.0014.07.0商務(wù)合同19.510.89.89.82.46.14.92.42.44.920.77.3總計(jì)20.112.910.810.85.03.62.91.44.32.918.07.2

通過(guò)對(duì)比分析發(fā)現(xiàn),兩種文本類型的排歧錯(cuò)誤存在相似之處:

商業(yè)信函和合同中名詞和動(dòng)詞排歧錯(cuò)誤率都屬最高;排歧錯(cuò)誤主要出現(xiàn)在實(shí)義詞中:名詞,動(dòng)詞,形容詞和代詞,因?yàn)閷?shí)義詞是文本用于傳達(dá)信息的主要手段。由于缺乏術(shù)語(yǔ)消歧能力,信函和合同的術(shù)語(yǔ)排歧錯(cuò)誤率都相對(duì)較高。例如,商業(yè)信函中的“quote,enquiries 和 By L/C at sight”應(yīng)翻譯成“報(bào)價(jià),詢價(jià),即期信用證”,而在商業(yè)合同中,“documents,negotiation / collection”應(yīng)該翻譯成“單據(jù),議付/托收”。

兩種類型的排歧錯(cuò)誤也存在差異:

不同類型的文本中收集的排歧錯(cuò)誤詞表現(xiàn)出不同的特征。商務(wù)信函中的排歧錯(cuò)誤較為簡(jiǎn)短,商務(wù)合同出現(xiàn)的排歧錯(cuò)誤較為冗長(zhǎng)復(fù)雜,這是兩者現(xiàn)實(shí)句子結(jié)構(gòu)差異造成的,商務(wù)信函用于業(yè)務(wù)往來(lái),清晰和簡(jiǎn)潔是關(guān)鍵;商業(yè)合同用于名列法律陳述,需要注重形式和細(xì)節(jié),復(fù)雜的長(zhǎng)難句是常態(tài),使得谷歌難以識(shí)別語(yǔ)句序列,從而影響谷歌翻譯在兩類文本中的排歧表現(xiàn)。

分析上表可知,商業(yè)合同的詞語(yǔ)排歧準(zhǔn)確率為20.7%略高于商業(yè)信函的14.0%,這是因?yàn)楣雀枭瞄L(zhǎng)具有一定規(guī)律性的文本的詞義排歧,盡管合同句子結(jié)構(gòu)復(fù)雜,但有規(guī)律可循,所以谷歌神經(jīng)翻譯器能夠在其數(shù)據(jù)庫(kù)中找到匹配的語(yǔ)義;與商業(yè)合同相比,商務(wù)信函正式度大大降低,因此谷歌數(shù)據(jù)庫(kù)中可能無(wú)法查找出完全匹配的語(yǔ)義。

就術(shù)語(yǔ)排歧而言,谷歌在商業(yè)合同語(yǔ)境中的排歧正確率較高,因?yàn)樯虡I(yè)合同創(chuàng)造了更加商業(yè)化的語(yǔ)境,相比之下,商業(yè)信函的語(yǔ)境更難確定,使谷歌對(duì)術(shù)語(yǔ)的排歧能力降低。因此可以推論,谷歌更擅長(zhǎng)專業(yè)性較強(qiáng)文本的語(yǔ)義排歧。

代詞排歧錯(cuò)誤與商務(wù)信函的禮貌原則有關(guān)。因此,信函中使用的代詞,例如“you,your”應(yīng)該翻譯成“貴公司,貴方”,而不是“您,您的”。相較而言,商業(yè)合同中的代詞錯(cuò)誤沒(méi)有這樣的特征。

就副詞和形容詞排歧錯(cuò)誤而言,多數(shù)錯(cuò)誤是由于谷歌未能識(shí)別單詞在特定語(yǔ)境中的正確含義。這其中仍然有一些規(guī)律可循,例如,單詞“any”的排歧錯(cuò)誤中出現(xiàn)了4次,而形容詞總共的排歧錯(cuò)誤為7個(gè),同一句子中出現(xiàn)的相同錯(cuò)誤不予考慮。多數(shù)情況下,谷歌都無(wú)法進(jìn)行有效正確的排歧。

就介詞排歧錯(cuò)誤而言,谷歌的漏譯便是錯(cuò)誤的根源。在商務(wù)信函中的4個(gè)介詞排歧錯(cuò)誤中,有3個(gè)是由漏譯引起的,而合同中的2個(gè)介詞排歧錯(cuò)誤都是由于漏譯造成的。此外,在排歧錯(cuò)誤中還出現(xiàn)了文本特定的錯(cuò)誤,例如商業(yè)合同特有的古英語(yǔ)詞和數(shù)字錯(cuò)誤。

五、結(jié)論

根據(jù)上述論證、比較和分析,本文得出一個(gè)明確的結(jié)論:谷歌神經(jīng)翻譯器更擅長(zhǎng)專業(yè)性強(qiáng)的文本語(yǔ)境下的詞義排歧。谷歌在不同詞性詞義排歧中表現(xiàn)出不同的規(guī)律。因此研究者可以通過(guò)加強(qiáng)谷歌對(duì)邊緣語(yǔ)境的識(shí)別能力以及增加對(duì)介詞用法訓(xùn)練的語(yǔ)料庫(kù),來(lái)提升谷歌神經(jīng)翻譯的詞義排歧性能。

這項(xiàng)研究仍有其局限性。由于時(shí)間和空間不足,本文的分析樣本受到限制。因此,論文可能不足以用來(lái)推翻當(dāng)前的機(jī)器翻譯系統(tǒng)。但是,筆者希望學(xué)界能夠?qū)Υ诉M(jìn)行深入研究,改善商務(wù)文本英譯中的譯本質(zhì)量問(wèn)題。

猜你喜歡
信函歧義詞義
西夏語(yǔ)“頭項(xiàng)”詞義考
西夏研究(2020年1期)2020-04-01 11:54:26
eUCP條款歧義剖析
詞義辨別小妙招——看圖辨詞
朱自清致逯欽立信函之五(1942.10.28)影印件
朱自清致逯欽立信函之四(1945.6.25)
English Jokes: Homonyms
現(xiàn)代英文商務(wù)信函的個(gè)性化寫(xiě)作風(fēng)格初探
“那么大”的語(yǔ)義模糊與歧義分析
字意與詞義
1935年4月4日梅貽琦致劍橋大學(xué)研究生處的信函
河源市| 达拉特旗| 安岳县| 吉木萨尔县| 分宜县| 老河口市| 肃宁县| 五家渠市| 绵阳市| 瓦房店市| 什邡市| 河北区| 湖北省| 白朗县| 岐山县| 乐都县| 太原市| 沁源县| 鄂伦春自治旗| 鄢陵县| 中山市| 诏安县| 凤台县| 大洼县| 高阳县| 延安市| 永兴县| 漳浦县| 孟连| 南江县| 朔州市| 罗田县| 白城市| 犍为县| 峨山| 莆田市| 八宿县| 陕西省| 天等县| 龙南县| 金华市|