国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

涉外警務(wù)翻譯語料庫(kù)建設(shè)面臨的問題與解決方案

2017-03-11 11:23
文化學(xué)刊 2017年10期
關(guān)鍵詞:語料警務(wù)語料庫(kù)

丁 皓

(浙江警察學(xué)院國(guó)際學(xué)院,浙江 杭州 310053)

【責(zé)任編輯:周丹】

【語言與文化】

涉外警務(wù)翻譯語料庫(kù)建設(shè)面臨的問題與解決方案

丁 皓

(浙江警察學(xué)院國(guó)際學(xué)院,浙江 杭州 310053)

隨著對(duì)外警務(wù)交流的日益增多和涉外案事件的頻發(fā),當(dāng)今的警務(wù)翻譯與警務(wù)行動(dòng)一樣,對(duì)快速反應(yīng)的要求越來越高。為應(yīng)對(duì)這一挑戰(zhàn),傳統(tǒng)的純?nèi)斯すP譯顯得力不從心,計(jì)算機(jī)輔助翻譯(CAT)則有著巨大優(yōu)勢(shì)。CAT需要翻譯語料庫(kù)的支持,語料庫(kù)規(guī)模越大,其功效則越好。目前國(guó)內(nèi)警務(wù)翻譯語料庫(kù)十分短缺,警務(wù)部門需要建設(shè)符合保密要求的大型翻譯語料庫(kù)。為此,本文主要采用價(jià)值工程原理對(duì)高性價(jià)比的語料庫(kù)進(jìn)行設(shè)計(jì),以優(yōu)質(zhì)、快速、低成本地開展大型警務(wù)翻譯語料庫(kù)建設(shè)。

警務(wù)翻譯;語料庫(kù);語料降噪;價(jià)值工程;性價(jià)比

一、研究背景

近年來,隨著我國(guó)國(guó)際警務(wù)交流與合作的日益深化,以及涉外案事件的逐漸增多,警務(wù)翻譯的任務(wù)已日趨繁重。為了應(yīng)對(duì)這一趨勢(shì),警務(wù)部門需要開發(fā)一套內(nèi)部翻譯大數(shù)據(jù)系統(tǒng)。

“維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時(shí)代》中前瞻性的指出,大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。在這場(chǎng)信息風(fēng)暴中首當(dāng)其沖被改變的就是翻譯行業(yè)?!盵1]翻譯行業(yè)的改變體現(xiàn)在翻譯技術(shù)的變革,而變革最顯著的標(biāo)志是計(jì)算機(jī)輔助翻譯(CAT)和機(jī)器翻譯(MT)。由于MT目前的翻譯質(zhì)量與人工翻譯相比還有較大差距,因此不能用于正式的文件資料翻譯。而CAT由于其翻譯質(zhì)量高、速度快的優(yōu)點(diǎn),值得在警務(wù)部門推廣。但CAT工作需要語料庫(kù)的支持,語料庫(kù)越多,CAT的功效就越大。因此,開展大型警務(wù)翻譯語料庫(kù)建設(shè)方面的研究,對(duì)提高警務(wù)翻譯速度及涉外警務(wù)快速反應(yīng)能力來說意義重大。

二、國(guó)內(nèi)警務(wù)翻譯語料庫(kù)建設(shè)現(xiàn)狀

為了高效地進(jìn)行CAT警務(wù)翻譯,需要建設(shè)大型警務(wù)翻譯語料庫(kù)。大型語料庫(kù)的建設(shè)要比中小型語料庫(kù)建設(shè)困難得多,因此非常短缺。據(jù)截止2014年的文獻(xiàn)報(bào)道,“國(guó)內(nèi)在警務(wù)英語語料庫(kù)建設(shè)方面仍處于空白階段”[2],且近幾年也未見這方面成規(guī)模的建庫(kù)報(bào)道。在其他語料庫(kù)建設(shè)方面,國(guó)內(nèi)較有代表性的平行語料庫(kù)主要包括哈工大的英漢雙語語料庫(kù)、北大計(jì)算語言學(xué)研究所雙語語料庫(kù)、東北大學(xué)英漢雙語語料庫(kù)、外研社英漢文學(xué)作品語料庫(kù)、國(guó)家語委語言文字所英漢雙語語料庫(kù)、中科院軟件所英漢雙語語料庫(kù)、中科院自動(dòng)化所英漢雙語語料庫(kù)、北京外國(guó)語大學(xué)通用漢英對(duì)應(yīng)語料庫(kù)、南京國(guó)際關(guān)系學(xué)院英漢平行語料庫(kù)、《紅樓夢(mèng)》平行語料庫(kù)、法律法規(guī)語料庫(kù)等。[3]除了這些語料庫(kù)外,國(guó)內(nèi)已建成的其他語料庫(kù)還有不少,但這些語料庫(kù)規(guī)模大多在幾十萬句對(duì)之間,屬于中小型語料庫(kù)。然而近兩年,上海一者信息科技有限公司開發(fā)成功的Tmxmall翻譯記憶庫(kù)交換平臺(tái)兼云記憶庫(kù)共享平臺(tái),及上海佑譯信息科技有限公司(UTH)在建的云記憶庫(kù)共享翻譯服務(wù)平臺(tái)這二個(gè)項(xiàng)目非常引人注目。這二個(gè)平臺(tái)的語庫(kù)建設(shè)規(guī)模目標(biāo)非常龐大,前景也非常誘人,但要達(dá)到理想的目標(biāo)仍有較長(zhǎng)的路要走。

此外還有一個(gè)更棘手的問題,即上述Tmxmall和UTH在線語料庫(kù)平臺(tái)不太適合警務(wù)部門的翻譯。因?yàn)榫瘎?wù)文件有些是需要保密的,在翻譯時(shí)為防止泄密不可以像其他行業(yè)中的譯員一樣,自由地使用在線詞典或者云語料庫(kù)等公共網(wǎng)絡(luò)平臺(tái)資源。于是警務(wù)部門的譯員只能采用傳統(tǒng)的純?nèi)斯し绞椒g,所以目前警務(wù)部門落后的翻譯手段與不斷增長(zhǎng)的警務(wù)反應(yīng)能力要求之間的矛盾日益突出。而要解決這一矛盾,可行的途徑就是研究建設(shè)警務(wù)部門自己的大型翻譯語料庫(kù)。

語料庫(kù)建設(shè)有三種辦法。一是把自己用CAT軟件翻譯的雙語句對(duì)保存為記憶庫(kù),這種方法建庫(kù)速度極慢,建成的語料庫(kù)“質(zhì)高而量少”,所以不可能建成大型語料庫(kù)。二是搜集雙語材料,再用CAT的雙語對(duì)齊功能制作語料庫(kù)。雙語對(duì)齊法也是一個(gè)“質(zhì)高而量少”的建庫(kù)方案。第三種辦法是從各種渠道收集語料庫(kù)。自從第一個(gè)CAT軟件Trados問世近20年以來,全世界成千上萬的人一直在用各種手段制作語料庫(kù)。有不少人為了加快語料庫(kù)的制作速度,編寫了自動(dòng)對(duì)齊程序制作了大量的語料庫(kù),但由于目前人工智能技術(shù)還不夠成熟,用這種方法制作的語料庫(kù)大多含有各種雜質(zhì),稱為“語料噪音”。這些語料噪音可分類為:(1)譯文錯(cuò)誤;(2)譯文與原文對(duì)齊錯(cuò)亂;(3)譯文或原文中有亂碼;(4)句對(duì)中有非文字符號(hào);(5)英文兩個(gè)以上的單詞連在一起;(6)有原文無譯文;(7)有譯文無原文;(8)翻譯明顯不完整;(9)超長(zhǎng)或超短句對(duì),等等。對(duì)于這些海量而帶有噪音的語料庫(kù),若靠人工操作一句一句地清除語料噪音(簡(jiǎn)稱“降噪”),其工作量太大,幾乎不可能完成。但如果為了追求高精度,把這些語料庫(kù)都廢棄,那將是一個(gè)巨大的財(cái)富浪費(fèi);可是若要利用這些語料庫(kù),其質(zhì)量又太差。

上述三種語料庫(kù)構(gòu)建法均有局限性。因此,語料庫(kù)建設(shè)者陷入了一個(gè)兩難的境地——要么接受“質(zhì)高量小”的語料庫(kù);要么接受“質(zhì)低量大”的語料庫(kù),這就是目前大型語料庫(kù)建設(shè)中存在的問題和構(gòu)建難點(diǎn)。

三、大型語料庫(kù)難建的原因

為了解決大型語料庫(kù)的建設(shè)問題,人們采取了多種方法,但“大多數(shù)語料庫(kù)所采用的建設(shè)方法是集中一批專家,花費(fèi)大量的人力和物力來搜集、整理和加工語料、最終形成語料庫(kù)。所以,目前語料庫(kù)的構(gòu)建普遍存在以下缺陷:人工參與過多,自動(dòng)化程度不高;規(guī)模有限,代表性不夠;成本大,周期長(zhǎng)”[4],結(jié)果耗費(fèi)了巨大的人力、物力和時(shí)間成本后,仍不能建成大型語料庫(kù)。那么大型語料庫(kù)難建的原因是什么?回答這個(gè)問題需要從價(jià)值工程角度進(jìn)行分析。

我們知道,工程建設(shè)界在開始規(guī)劃設(shè)計(jì)一個(gè)工程時(shí),需要先作價(jià)值工程評(píng)估,然后再據(jù)此選擇設(shè)計(jì)方案。價(jià)值工程的基本原理公式為:V=F/C,式中,V——價(jià)值(即所謂的性價(jià)比);F——功能(即所謂的性能);C——成本。從式中可見,為了達(dá)到價(jià)值最大化,功能應(yīng)該盡可能地高,而成本應(yīng)該盡可能地低,但功能與成本本身就是一對(duì)矛盾。根據(jù)價(jià)值工程理論,產(chǎn)品總成本C=C1+C2,式中,C1是生產(chǎn)成本,C2是使用維護(hù)成本。在一定范圍內(nèi),產(chǎn)品的生產(chǎn)成本與使用維護(hù)成本存在著此消彼長(zhǎng)的關(guān)系,即隨著產(chǎn)品功能水平的提高,產(chǎn)品的生產(chǎn)成本C1增加,使用及維護(hù)成本C2降低。根據(jù)該變化規(guī)律,若想求得較高的功能,其生產(chǎn)成本C1將會(huì)變得極大,其總成本C也隨之變得極大,因而其價(jià)值V就會(huì)變得很小。從價(jià)值工程角度來說,這是一個(gè)較差的工程設(shè)計(jì)方案。

對(duì)于大型語料庫(kù)建設(shè)來說,它無疑也是一個(gè)大型的建設(shè)工程,理應(yīng)進(jìn)行價(jià)值工程分析,但現(xiàn)在語料庫(kù)建設(shè)中有一種傾向是片面追求高精度。從價(jià)值工程角度來說,這種把語料庫(kù)精度做得很高的建庫(kù)方案,相當(dāng)于要將其功能值F做得很高,這就要求其生產(chǎn)成本C1極大,從而其產(chǎn)品價(jià)值(性價(jià)比)V就會(huì)很低。

語料庫(kù)建設(shè)的另一種傾向是只求數(shù)量而不顧質(zhì)量,這就是前面提到過的編寫自動(dòng)對(duì)齊程序的大型建庫(kù)法。用這種方法建成的庫(kù)因質(zhì)量較差,所以其F值也較低,但仍需要花費(fèi)一定的生產(chǎn)成本C1,而其使用成本C2將會(huì)很高,這樣其V值就會(huì)較低。

總而言之,上述兩種傾向會(huì)造成兩種建庫(kù)結(jié)果:(1)F值較高,但C1值極大;(2)F值太低,但C值仍較大。這兩種建庫(kù)結(jié)果的V值均太低,而V值太低的語料庫(kù)難以滿足CAT的使用要求,所以我們面臨的問題不是大型語料庫(kù)難建,而是V值高的大型語料庫(kù)難建。

四、大型語料庫(kù)建設(shè)問題的解決方案

(一)價(jià)值工程原理

要建設(shè)高V值大型語料庫(kù),需要找到一種提高V值的方法。從價(jià)值工程公式V=F/C來看,如果我們能在基本滿足使用要求的前提下適當(dāng)降低產(chǎn)品的功能F值,同時(shí)大幅降低其生產(chǎn)成本C1值,而C2值基本保持不變,這樣就能提高V值。

怎樣適當(dāng)降低產(chǎn)品的功能?在價(jià)值工程中,功能可分為基本功能、輔助功能、不必要功能、多余功能、過剩功能等。顯然,我們應(yīng)該確保產(chǎn)品具備基本功能,并適當(dāng)具備輔助功能,不追求不必要功能、多余功能、過剩功能,這樣就能適當(dāng)降低F值。

那么什么是不必要功能、多余功能和過剩功能?這個(gè)問題可以在工業(yè)生產(chǎn)中找到答案。在工業(yè)產(chǎn)品制造中,要讓產(chǎn)品做到絕對(duì)沒有誤差是不可能的。工業(yè)界為了解決這個(gè)問題會(huì)規(guī)定一個(gè)允許誤差,只要產(chǎn)品不超出這個(gè)允許誤差,它就是合格產(chǎn)品。這樣做通常能產(chǎn)生“F值略降,C值大降”的效果,從而獲得較高的V值而確保產(chǎn)品贏利。如果盲目追求高精度,不允許產(chǎn)品有適當(dāng)?shù)恼`差,那就是追求不必要功能、多余功能和過剩功能。這樣的生產(chǎn)方案必然會(huì)因產(chǎn)品的V值太低而導(dǎo)致企業(yè)虧本。

(二)大型語料庫(kù)建設(shè)方案

類似地,我們?cè)谡Z料庫(kù)建設(shè)中也可以遵循這樣的思路:如果容許語料庫(kù)這一產(chǎn)品存在微小誤差(即微量語料噪音),那么就可以在保證語料庫(kù)符合使用要求的前提下適當(dāng)降低F值,從而大幅降低C值,這樣就能提高它的V值。由此可見,高V值大型語料庫(kù)建設(shè)方案成功的關(guān)鍵在于怎樣做到“F值略降,C值大降”,從而達(dá)到語料庫(kù)產(chǎn)品功能和成本的最佳配置。

這種“最佳配置”的設(shè)計(jì)需要復(fù)雜的電腦軟件技術(shù)。迄今為止,在CAT界還未見到這一問題完整的技術(shù)解決方案。為了突破這一技術(shù)難題,筆者與軟件設(shè)計(jì)人員經(jīng)合作研究發(fā)現(xiàn),第二節(jié)中所述的第(1)(2)類語料噪音限于目前的人工智能技術(shù)水平,很難采用軟件技術(shù)作自動(dòng)清除處理;而第(3)—(9)類噪音是有可能設(shè)計(jì)專門的軟件進(jìn)行自動(dòng)清除的。如果我們能用軟件清除第(3)—(9)類錯(cuò)誤,用少量人工對(duì)句庫(kù)進(jìn)行檢查驗(yàn)收,若發(fā)現(xiàn)只有零星個(gè)別(1)(2)類錯(cuò)誤,則順手刪除之。如果發(fā)現(xiàn)(1)(2)類錯(cuò)誤較多,則拒絕該語料庫(kù),以保證不接受噪音太多的語料庫(kù)。這樣可以節(jié)省大量的人力資源,大幅降低語料庫(kù)的建設(shè)成本C1,從而加快語料庫(kù)的建設(shè)速度。建成的語料庫(kù)由于第(3)—(9)類語料噪音已經(jīng)基本清除,只剩下極少量的(1)(2)類錯(cuò)誤,所以語料庫(kù)總體來說只帶有微量語料噪音。

誠(chéng)然,有微量雜質(zhì)的語料與沒有雜質(zhì)的語料相比,CAT譯員在選用時(shí)要多花時(shí)間來分離這些雜質(zhì),但這種雜質(zhì)分離所花的時(shí)間與譯員的翻譯思考時(shí)間相比是微不足道的。這種多花費(fèi)的時(shí)間就是價(jià)值工程分析公式里的使用維護(hù)成本C2。由于F稍微降低后C2升高較小,而C1大幅降低,所以C=C1+C2也將大幅降低,這樣語料庫(kù)的價(jià)值(性價(jià)比)V=F/C將大幅提高。這種高性價(jià)比語料庫(kù)就是存在著允許誤差的“合格”產(chǎn)品。其性價(jià)比提高的好處是,語料庫(kù)建設(shè)者可以借助軟件自動(dòng)處理技術(shù),少用人工操作來高效快速地從事語料庫(kù)建設(shè)。這樣,在成本(包括人力、財(cái)力和時(shí)間成本)不大的條件下,“質(zhì)量合格”的大型語料庫(kù)建設(shè)問題也就可望解決了。

由此可見,要成功地開展高V值大型語料庫(kù)建設(shè),關(guān)鍵是要有一種針對(duì)上述第(3)—(9)類雜質(zhì)的軟件自動(dòng)處理技術(shù)。經(jīng)過筆者與軟件設(shè)計(jì)人員的長(zhǎng)期合作研究,已經(jīng)開發(fā)出了一個(gè)“句庫(kù)處理軟件”,具體可參見《翻譯語料庫(kù)建設(shè)中一些問題的軟件處理法》[5]一文。該軟件除了具有較強(qiáng)的“降噪”功能外,還可在數(shù)億句對(duì)舊庫(kù)背景下對(duì)新庫(kù)進(jìn)行重復(fù)檢測(cè)和重復(fù)清除,以及對(duì)任意大小語料庫(kù)進(jìn)行切分,但它對(duì)于某些特殊的非文字符號(hào)尚難處理。對(duì)于這些問題,筆者與軟件設(shè)計(jì)人員正在設(shè)法研究解決,且已經(jīng)取得了一些進(jìn)展。

五、結(jié)語

為了提高涉外警務(wù)部門的翻譯工作效率和快速反應(yīng)能力,警務(wù)部門需要建設(shè)自己的大型翻譯語料庫(kù)。大型語料庫(kù)的建設(shè)不能一味追求高精度,從價(jià)值工程角度來說,過度追求高精度就是追求不必要功能或過剩功能,這樣建成的語料庫(kù)性價(jià)比較低。因此,在規(guī)劃設(shè)計(jì)警務(wù)語料庫(kù)建設(shè)方案時(shí),我們既要從技術(shù)角度考慮滿足該庫(kù)的使用功能,又要從經(jīng)濟(jì)角度盡量降低語料庫(kù)的建設(shè)成本,以便大量生產(chǎn)。本文提出的軟件自動(dòng)語料庫(kù)構(gòu)建法在精度上比純?nèi)斯ふZ料庫(kù)構(gòu)建法精度稍低,但對(duì)CAT的實(shí)際使用效果影響不大,其能解決傳統(tǒng)語料庫(kù)建設(shè)中“質(zhì)高量小”與“質(zhì)低量大”這一對(duì)矛盾,在性價(jià)比方面具有巨大優(yōu)勢(shì),因而是一種低成本、高效的大型優(yōu)質(zhì)語料庫(kù)建設(shè)方案,值得作進(jìn)一步的研究并在涉外警務(wù)部門推廣采用。

[1]李大屾,呂黛.大數(shù)據(jù)時(shí)代中譯者如何自處[J].河北聯(lián)合大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015,(5):113-116.

[2]劉震宇.公安院校微型警務(wù)英語口語語料庫(kù)的構(gòu)建與應(yīng)用[J].山東警察學(xué)院學(xué)報(bào),2014,(5):157-160.

[3]黃金柱,樊信展,李峰,等.基于軍事平行語料庫(kù)的人機(jī)結(jié)合翻譯策略[J].洛陽師范學(xué)院學(xué)報(bào),2016,(8):56-61.

[4]李培峰,朱巧明,錢培德.基于Web的大規(guī)模語料庫(kù)構(gòu)建方法[J].計(jì)算機(jī)工程,2008,(7):41-43.

[5]丁皓.翻譯語料庫(kù)建設(shè)中一些問題的軟件處理法[J].科教導(dǎo)刊,2017,(8):52-53.

H315.9;D035.3

A

1673-7725(2017)10-0173-04

2017-08-01

本文系浙江警察學(xué)院校級(jí)科研校局合作項(xiàng)目“涉外警務(wù)專業(yè)翻譯語料庫(kù)建設(shè)”(項(xiàng)目編號(hào):2016XJY017)的研究成果。

丁皓(1985-),女,浙江舟山人,助教,主要從事語料庫(kù)翻譯學(xué)研究。

猜你喜歡
語料警務(wù)語料庫(kù)
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
《語料庫(kù)翻譯文體學(xué)》評(píng)介
環(huán)球警務(wù)專訪
淺談港航公安網(wǎng)上警務(wù)公開的現(xiàn)狀和問題
警務(wù)訓(xùn)練中腹痛的成因及預(yù)防
基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
警務(wù)指揮與戰(zhàn)術(shù)研究現(xiàn)狀及發(fā)展趨勢(shì)
《苗防備覽》中的湘西語料
國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
語篇元功能的語料庫(kù)支撐范式介入