国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向翻譯的語(yǔ)言知識(shí)服務(wù)系統(tǒng)構(gòu)建

2023-06-26 17:00寧海霖
中國(guó)科技術(shù)語(yǔ) 2023年2期
關(guān)鍵詞:機(jī)器翻譯多模態(tài)

摘 要:面向翻譯的語(yǔ)言知識(shí)服務(wù)系統(tǒng)將平行語(yǔ)料庫(kù)、術(shù)語(yǔ)庫(kù)、本體知識(shí)庫(kù)等語(yǔ)言知識(shí)資源統(tǒng)一整合,在此基礎(chǔ)上對(duì)資源進(jìn)行客觀、直觀、動(dòng)態(tài)的描寫,挖掘重要語(yǔ)言特征與知識(shí)結(jié)構(gòu),建立知識(shí)系統(tǒng),并通過(guò)可視化手段對(duì)描述的結(jié)果進(jìn)行形象化表征,提高認(rèn)知效率與工作效率,滿足翻譯生態(tài)系統(tǒng)內(nèi)部各個(gè)重要環(huán)節(jié)的知識(shí)應(yīng)用需求和協(xié)同創(chuàng)新需求。語(yǔ)言知識(shí)服務(wù)系統(tǒng)的建設(shè)過(guò)程遵循協(xié)同化、統(tǒng)一化、可視化三原則,其核心部分由基礎(chǔ)層、分析層與應(yīng)用層三部分構(gòu)成,分別負(fù)責(zé)語(yǔ)言資源供給、數(shù)據(jù)分析統(tǒng)計(jì)與知識(shí)表征運(yùn)用,形成了模塊融合共通、知識(shí)循環(huán)利用的交互式有機(jī)整體。

關(guān)鍵詞:語(yǔ)言知識(shí)服務(wù)系統(tǒng);資源描述;多模態(tài);知識(shí)習(xí)得;機(jī)器翻譯

中圖分類號(hào):H083; H059? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2023.02.006

Fundamental Layers and Designing Principles of Language-Knowledge Service System for Translational Purposes//NING Hailin

Abstract:The language-knowledge service system for translational purposes is an organic integration of parallel corpora, term banks and ontological knowledge bases. The system is designed towards the achievement of two major functions, through which both wanted knowledge and coordinated innovation in the entire translational ecosystem are accessible: (1) the objective, intuitive and processive resource description aiming at knowledge discovery and construction; (2) visualization of the organized data aiming at the enhancement of cognitive capacity and working efficiency. As a product of collaboration, standardization and visualization, the system structures its kernel section with three layers, named the elementary, the analytical, and the applied layer. The elementary layer firstly delivers basic language resources to the analytical layer, then the processed resources and relative results are transported to the applied layer for visualized representation, thus an interactive system of module connecting and knowledge recycling is composed accordingly.

Keywords: language-knowledge service system; resource description; multi-modality; knowledge acquisition; machine translation

收稿日期:2022-09-29? 修回日期:2023-03-14

基金項(xiàng)目:教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“翻譯技術(shù)的知識(shí)化演進(jìn)模式研究”(18YJC740067)階段性成果

0 引言

翻譯是一個(gè)由翻譯理論研究、翻譯教學(xué)、翻譯實(shí)踐、翻譯行業(yè)管理、翻譯技術(shù)應(yīng)用等多個(gè)有機(jī)要素相互聯(lián)動(dòng)而形成的生態(tài)系統(tǒng),在整個(gè)生態(tài)系統(tǒng)存續(xù)和擴(kuò)展的過(guò)程中,來(lái)自科技、經(jīng)濟(jì)、軍事、法律、醫(yī)療等社會(huì)認(rèn)知領(lǐng)域的大量信息在各個(gè)要素之間循環(huán)往復(fù)流動(dòng),形成閉合的動(dòng)態(tài)數(shù)據(jù)鏈,而整個(gè)翻譯生態(tài)系統(tǒng)的健康程度,取決于該鏈條中數(shù)據(jù)的數(shù)量、質(zhì)量與穩(wěn)定性。面向翻譯的整合化語(yǔ)言知識(shí)服務(wù)系統(tǒng)將信息環(huán)流中參與循環(huán)的各類數(shù)據(jù)有序地生成、存儲(chǔ)、加工、利用與管理[1],為上述各要素節(jié)點(diǎn)提供高質(zhì)量的信息與知識(shí)支持,從而加速數(shù)據(jù)流動(dòng),推動(dòng)整個(gè)翻譯生態(tài)系統(tǒng)持續(xù)高效運(yùn)轉(zhuǎn),促進(jìn)相關(guān)領(lǐng)域的知識(shí)創(chuàng)新。

1 語(yǔ)言知識(shí)服務(wù)系統(tǒng)的核心結(jié)構(gòu)

面向翻譯的語(yǔ)言知識(shí)服務(wù)系統(tǒng)由基礎(chǔ)層、分析層與應(yīng)用層構(gòu)成其核心部分(圖1)?;A(chǔ)層負(fù)責(zé)存儲(chǔ)系統(tǒng)內(nèi)部的基本語(yǔ)言素材與專業(yè)知識(shí)素材,分析層建立對(duì)這些基本素材進(jìn)行描述的機(jī)制,應(yīng)用層可以直接調(diào)用分析層得出的數(shù)據(jù),將之運(yùn)用于翻譯研究與生產(chǎn)活動(dòng),而產(chǎn)出的成果會(huì)重新返回到基礎(chǔ)層以更新基礎(chǔ)數(shù)據(jù)。三個(gè)層級(jí)協(xié)同工作,實(shí)現(xiàn)資源的統(tǒng)一存儲(chǔ)、分類、加工、應(yīng)用與增長(zhǎng),以滿足譯者、外語(yǔ)學(xué)習(xí)者、語(yǔ)言服務(wù)需求方、語(yǔ)言服務(wù)企業(yè)、語(yǔ)言技術(shù)開(kāi)發(fā)商、高等院校和研究機(jī)構(gòu)等[2]不同層次或領(lǐng)域用戶的需求。該系統(tǒng)支持動(dòng)態(tài)、開(kāi)放的知識(shí)循環(huán)機(jī)制,隨著語(yǔ)言服務(wù)內(nèi)容與服務(wù)對(duì)象范圍的不斷擴(kuò)大,其主干與分支的構(gòu)成要素還將持續(xù)拓展。

1.1 基礎(chǔ)層

基礎(chǔ)層是語(yǔ)言知識(shí)服務(wù)系統(tǒng)的基礎(chǔ)與核心部分,負(fù)責(zé)基礎(chǔ)素材的存儲(chǔ)。以翻譯活動(dòng)的需求為導(dǎo)向,導(dǎo)入基礎(chǔ)層的素材類型一般包括平行語(yǔ)料庫(kù)、術(shù)語(yǔ)庫(kù)、本體知識(shí)庫(kù)[3]等基礎(chǔ)語(yǔ)言類數(shù)據(jù)庫(kù)以及由此衍生的功能型資源庫(kù)?;A(chǔ)層的建設(shè)是將零散、不規(guī)則的碎片化信息進(jìn)行有序整合的過(guò)程,經(jīng)整合的素材不僅具備噪聲小、格式統(tǒng)一、分類清晰的特點(diǎn),同時(shí)也包含相對(duì)完整、可靠的專業(yè)領(lǐng)域語(yǔ)言信息與知識(shí)框架,為進(jìn)一步的數(shù)據(jù)分析與知識(shí)習(xí)得建立了基礎(chǔ)條件。

1.1.1 平行語(yǔ)料庫(kù)

平行語(yǔ)料庫(kù)是整個(gè)系統(tǒng)的知識(shí)來(lái)源所在,也是數(shù)據(jù)檢索、翻譯記憶、知識(shí)提取與大規(guī)模語(yǔ)言模型訓(xùn)練等多種語(yǔ)言深度處理活動(dòng)的基礎(chǔ)性依據(jù),在其投入使用之前,須將采集的專業(yè)領(lǐng)域多語(yǔ)種自然語(yǔ)言素材以實(shí)際應(yīng)用范圍為導(dǎo)向進(jìn)行去噪、對(duì)齊、標(biāo)注等預(yù)處理,同時(shí)可以在設(shè)計(jì)階段進(jìn)一步細(xì)化為多個(gè)子語(yǔ)料庫(kù)或?qū)n}子庫(kù)[4],以應(yīng)對(duì)更為精細(xì)化的知識(shí)服務(wù)需求。平行語(yǔ)料庫(kù)一般以普通文本的形式存在,也可以存儲(chǔ)為通用化的TMX(Translation Memory eXchange),即翻譯記憶庫(kù)格式,從而提升語(yǔ)料的互操作性。一個(gè)標(biāo)準(zhǔn)的TMX主體結(jié)構(gòu)包括至少一個(gè)tu(translation unit)標(biāo)簽,其下包含若干個(gè)tuv標(biāo)簽,用于存儲(chǔ)若干個(gè)相互對(duì)齊的語(yǔ)句(一個(gè)tuv標(biāo)簽對(duì)應(yīng)一種語(yǔ)言)。翻譯記憶庫(kù)借助特定領(lǐng)域文本句式的高度程式化和術(shù)語(yǔ)的高度一致性實(shí)現(xiàn)翻譯過(guò)程中的相似語(yǔ)對(duì)自動(dòng)調(diào)取,避免重復(fù)勞動(dòng),提升翻譯實(shí)踐效率。目前,該匹配過(guò)程主要運(yùn)用基于字段的完全匹配或基于本體語(yǔ)義的模糊匹配方法實(shí)現(xiàn)[5],而語(yǔ)料庫(kù)的規(guī)模、權(quán)威性與對(duì)齊程度仍然是決定匹配精度的關(guān)鍵因素。

1.1.2 術(shù)語(yǔ)庫(kù)

術(shù)語(yǔ)是知識(shí)網(wǎng)絡(luò)的節(jié)點(diǎn),術(shù)語(yǔ)庫(kù)的建設(shè)是專業(yè)領(lǐng)域知識(shí)體系構(gòu)建的重要組成部分。高質(zhì)量的平行語(yǔ)料庫(kù)可以作為術(shù)語(yǔ)提取與關(guān)系提取的素材[6],用以建設(shè)術(shù)語(yǔ)庫(kù)和本體知識(shí)庫(kù),尤其對(duì)于一些前沿領(lǐng)域的術(shù)語(yǔ)編纂(terminography)工作而言,自動(dòng)提取技術(shù)能大幅提高雙語(yǔ)術(shù)語(yǔ)采集的效率。除了資源構(gòu)建層面的作用,術(shù)語(yǔ)庫(kù)也是最關(guān)鍵的翻譯輔助工具之一。術(shù)語(yǔ)庫(kù)將采集后的術(shù)語(yǔ)進(jìn)行粒度化(granularity)處理,根據(jù)用戶需求設(shè)置某個(gè)具體詞條包含的各項(xiàng)信息[7]。對(duì)于翻譯工作者來(lái)說(shuō),較為重要的信息包括詞條的譯文、語(yǔ)境、可靠度和關(guān)聯(lián)術(shù)語(yǔ)等,這些要素是對(duì)譯文進(jìn)行篩選與優(yōu)化的主要依據(jù)。以應(yīng)用TermOnline①術(shù)語(yǔ)庫(kù)進(jìn)行輔助翻譯為例,雖然TermOnline的術(shù)語(yǔ)和相關(guān)譯文需要經(jīng)過(guò)全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)審定方可公布,但受審定的年份和適用語(yǔ)境等因素影響,許多過(guò)審的術(shù)語(yǔ)詞條仍然存在一詞多譯現(xiàn)象,此時(shí)譯者就必須結(jié)合發(fā)布時(shí)間、所屬領(lǐng)域、可靠度等多種信息來(lái)做出合理的判斷。

1.1.3 本體知識(shí)庫(kù)

本體知識(shí)庫(kù)是術(shù)語(yǔ)深度操作化(operationalization)的結(jié)果[8],它以術(shù)語(yǔ)為知識(shí)節(jié)點(diǎn),在節(jié)點(diǎn)之間引入邏輯關(guān)系與推理規(guī)則,并建立知識(shí)習(xí)得與知識(shí)挖掘的路徑。為了提高譯者的認(rèn)知與學(xué)習(xí)效率,本體知識(shí)庫(kù)的用戶端常引入多模態(tài)手段對(duì)概念與知識(shí)進(jìn)行直觀化表示。本體知識(shí)庫(kù)的建設(shè)過(guò)程主要包括三個(gè)步驟:一是概念構(gòu)建,這部分和術(shù)語(yǔ)編纂過(guò)程基本相同;二是概念關(guān)系構(gòu)建[9],可從語(yǔ)料庫(kù)中自動(dòng)提取,也可以依據(jù)專業(yè)領(lǐng)域的知識(shí)結(jié)構(gòu)進(jìn)行人工構(gòu)建,必要時(shí)須聯(lián)合領(lǐng)域?qū)<覅f(xié)同建設(shè);三是可視化機(jī)制構(gòu)建,包括對(duì)概念內(nèi)涵的多模態(tài)表示與領(lǐng)域主題圖的設(shè)計(jì)等[10]。本體知識(shí)庫(kù)是譯者進(jìn)行譯前準(zhǔn)備和知識(shí)習(xí)得的高效作業(yè)方案,它不僅可以直接調(diào)用術(shù)語(yǔ)庫(kù)中的詞條信息,還提供特定術(shù)語(yǔ)的所有關(guān)聯(lián)術(shù)語(yǔ)與邏輯關(guān)系索引,能夠幫助譯者快速了解、掌握與檢索內(nèi)容相關(guān)的專業(yè)知識(shí),形成對(duì)概念的網(wǎng)絡(luò)型認(rèn)知。

1.2 分析層

分析層整合數(shù)據(jù)檢索模塊、數(shù)據(jù)統(tǒng)計(jì)模塊與數(shù)據(jù)挖掘模塊,對(duì)基礎(chǔ)層中的平行語(yǔ)料庫(kù)、術(shù)語(yǔ)庫(kù)、本體知識(shí)庫(kù)等數(shù)字化資源進(jìn)行客觀化、直觀化、過(guò)程化的描寫,為語(yǔ)言規(guī)律分析、隱藏知識(shí)挖掘、專業(yè)知識(shí)習(xí)得途徑開(kāi)發(fā)等翻譯研究、教學(xué)或?qū)嵺`工作提供依據(jù)。數(shù)據(jù)分析系統(tǒng)的模塊構(gòu)成需要以功能為導(dǎo)向進(jìn)行定向設(shè)計(jì),以滿足用戶的特定要求。此外,數(shù)據(jù)分析系統(tǒng)還重視以數(shù)字、表格、圖片等多模態(tài)手段對(duì)分析結(jié)果進(jìn)行可視化表示,形象地體現(xiàn)翻譯本質(zhì)和翻譯規(guī)律[11]。

數(shù)據(jù)檢索功能用于信息定位,檢索手段有關(guān)鍵詞或正則表達(dá)式等。平行語(yǔ)料庫(kù)的檢索著重于對(duì)語(yǔ)素的翻譯、搭配方法及其共現(xiàn)的語(yǔ)境的提??;術(shù)語(yǔ)庫(kù)的檢索內(nèi)容主要是術(shù)語(yǔ)詞條信息,也可以根據(jù)術(shù)語(yǔ)庫(kù)的粒度設(shè)置情況,依照詞條的領(lǐng)域、發(fā)布時(shí)間、相關(guān)詞條等信息標(biāo)簽做進(jìn)一步的深度檢索;本體知識(shí)庫(kù)的檢索模塊能夠清晰地定位知識(shí)節(jié)點(diǎn)在專業(yè)領(lǐng)域知識(shí)體系中的位置,譯者在深入學(xué)習(xí)該知識(shí)點(diǎn)的同時(shí),還能對(duì)以該知識(shí)點(diǎn)為中心的知識(shí)網(wǎng)絡(luò)產(chǎn)生宏觀認(rèn)知[12]。數(shù)據(jù)統(tǒng)計(jì)功能用于對(duì)語(yǔ)言素材的特征進(jìn)行客觀描述,其描述的對(duì)象主要是平行語(yǔ)料庫(kù)。例如,平行語(yǔ)料庫(kù)的分析系統(tǒng)一般需嵌入對(duì)語(yǔ)料的搭配、型次比、元信息[13]、主題詞、特征因子等數(shù)據(jù)的檢索與統(tǒng)計(jì)功能,以滿足基于語(yǔ)料庫(kù)的翻譯共性分析、修辭手法分析、譯者風(fēng)格比較、譯本歷時(shí)演變、譯文質(zhì)量評(píng)價(jià)、翻譯教學(xué)法研究等需求。數(shù)據(jù)挖掘功能用于對(duì)雙語(yǔ)術(shù)語(yǔ)、邏輯關(guān)系和知識(shí)鏈進(jìn)行自動(dòng)抽取。例如,本體知識(shí)庫(kù)的數(shù)據(jù)挖掘機(jī)制至少要具備兩個(gè)功能:一是與術(shù)語(yǔ)庫(kù)對(duì)接,讀取術(shù)語(yǔ)庫(kù)中存儲(chǔ)的知識(shí)節(jié)點(diǎn)信息,包括前文提及的定義、語(yǔ)境、關(guān)聯(lián)概念等;二是從大規(guī)模主題圖中抽取一部分由若干概念與概念關(guān)系組成的知識(shí)鏈進(jìn)行獨(dú)立展示或分析[14],以滿足譯者在譯前準(zhǔn)備過(guò)程中對(duì)特定知識(shí)點(diǎn)及其關(guān)聯(lián)知識(shí)點(diǎn)的學(xué)習(xí)需求。以基于EcoLexicon②環(huán)境本體知識(shí)庫(kù)的譯前準(zhǔn)備工作為例(圖2),譯者不僅可以檢索到關(guān)于“赤潮(red tide)”這個(gè)術(shù)語(yǔ)的英、法、德、西等六個(gè)語(yǔ)種的表達(dá),還可以在鄰近的知識(shí)路徑中獲取掌握赤潮的成因(result of)、引發(fā)赤潮的藻類(alga)的種類(type of)、赤潮對(duì)水質(zhì)的影響(affects)等相關(guān)專業(yè)知識(shí)。

1.3 應(yīng)用層

應(yīng)用層的主要功能是將基礎(chǔ)層存儲(chǔ)的素材和分析層處理的數(shù)據(jù)綜合運(yùn)用于翻譯相關(guān)的生產(chǎn)實(shí)踐環(huán)節(jié)。根據(jù)翻譯教學(xué)、翻譯實(shí)踐、翻譯研究等各領(lǐng)域不同的需求,應(yīng)用層的功能模塊也要視具體使用對(duì)象做出選擇性構(gòu)建。目前而言,應(yīng)用層主要由知識(shí)習(xí)得系統(tǒng)和自動(dòng)翻譯系統(tǒng)兩部分構(gòu)成,隨著面向翻譯的知識(shí)服務(wù)的范疇不斷擴(kuò)大,應(yīng)用層的功能與內(nèi)涵將繼續(xù)得以拓展。

1.3.1 知識(shí)習(xí)得系統(tǒng)

知識(shí)習(xí)得系統(tǒng)是在整合基礎(chǔ)層和分析層核心功能的基礎(chǔ)上建立的教學(xué)與自學(xué)一體化平臺(tái),它在提供優(yōu)質(zhì)翻譯教學(xué)資源的同時(shí),對(duì)個(gè)體學(xué)習(xí)行為與知識(shí)需求進(jìn)行分析,優(yōu)化學(xué)習(xí)路徑并建立互動(dòng)式學(xué)習(xí)機(jī)制,促進(jìn)用戶技術(shù)能力、信息能力、學(xué)習(xí)能力與翻譯實(shí)踐能力的共同發(fā)展[15]。在使用過(guò)程中,知識(shí)習(xí)得系統(tǒng)直接調(diào)取基礎(chǔ)層中的知識(shí)素材,在內(nèi)容與方法兩個(gè)層面執(zhí)行工作。在內(nèi)容層面,知識(shí)素材須包含語(yǔ)言知識(shí)、翻譯知識(shí)與專業(yè)知識(shí)。語(yǔ)言知識(shí)指源語(yǔ)和目標(biāo)語(yǔ)的語(yǔ)音、詞性、語(yǔ)義、語(yǔ)法、搭配等語(yǔ)言特征類知識(shí);翻譯知識(shí)指翻譯理論、翻譯技巧、翻譯技術(shù)、文化比較、翻譯史等翻譯方向知識(shí);專業(yè)知識(shí)指涉及社會(huì)民生各個(gè)領(lǐng)域的系統(tǒng)化知識(shí),如建筑知識(shí)、醫(yī)學(xué)知識(shí)、商務(wù)知識(shí)、法律知識(shí)等。各類知識(shí)素材需要以教學(xué)過(guò)程或?qū)W習(xí)過(guò)程為導(dǎo)向進(jìn)行語(yǔ)料標(biāo)注[16]、術(shù)語(yǔ)提取、多模態(tài)轉(zhuǎn)寫等預(yù)處理,為數(shù)據(jù)的挖掘與利用建立基礎(chǔ)。在方法層面,處理素材的手段須包括數(shù)據(jù)分析機(jī)制與教學(xué)機(jī)制。數(shù)據(jù)分析機(jī)制直接調(diào)用分析層的處理結(jié)果,建立知識(shí)習(xí)得過(guò)程中的最優(yōu)化路徑。教學(xué)機(jī)制的主要功能在于為用戶提供直觀而高效的工作環(huán)境,建立知識(shí)要點(diǎn)主題圖機(jī)制、互動(dòng)交流機(jī)制、成績(jī)?cè)u(píng)價(jià)機(jī)制與使用偏好分析機(jī)制,必要時(shí)也可建立跨領(lǐng)域、跨院校的合作網(wǎng)絡(luò)[17],及時(shí)整合、推送優(yōu)質(zhì)資源,實(shí)現(xiàn)知識(shí)共享。

1.3.2 機(jī)器翻譯系統(tǒng)

在基于規(guī)則和基于統(tǒng)計(jì)的翻譯方法之后,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的編碼―解碼框架把語(yǔ)言理解和語(yǔ)言模型結(jié)合起來(lái),大幅度提高了機(jī)器翻譯的正確率[18]。高效機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)要具備兩個(gè)前提條件:一是建立大規(guī)模、多領(lǐng)域的語(yǔ)料庫(kù),保證語(yǔ)言模型訓(xùn)練的質(zhì)量;二是建立能夠準(zhǔn)確分析與掌握深層次語(yǔ)義的算法,提高語(yǔ)言轉(zhuǎn)換的精確度。已投入應(yīng)用的主流機(jī)器翻譯平臺(tái)有谷歌翻譯、百度翻譯、DeepL等,相對(duì)于基于規(guī)則或統(tǒng)計(jì)手段的機(jī)器翻譯工具,這些翻譯平臺(tái)的綜合翻譯水準(zhǔn)已經(jīng)有了質(zhì)的提高,但在高文化負(fù)載文本的處理上依然不盡人意,相較于以機(jī)器為主體的自動(dòng)翻譯工具,當(dāng)前的機(jī)器翻譯系統(tǒng)更適合定位于“自動(dòng)化的翻譯輔助工具”,人工干預(yù)依然不可或缺,但合理地運(yùn)用機(jī)器翻譯系統(tǒng),可以有效提高翻譯效率,降低翻譯過(guò)程中的人力成本,更有利于促進(jìn)譯者翻譯能力的擴(kuò)展和延伸[19]。機(jī)器翻譯系統(tǒng)的發(fā)展應(yīng)著眼于三個(gè)任務(wù):一是挖掘?qū)W科交叉優(yōu)勢(shì),推動(dòng)算法創(chuàng)新,開(kāi)發(fā)綜合自然語(yǔ)言處理、知識(shí)本體與神經(jīng)網(wǎng)絡(luò)技術(shù)優(yōu)勢(shì)的語(yǔ)言識(shí)別機(jī)制,提高機(jī)器翻譯對(duì)文本和超文本的理解力和轉(zhuǎn)換能力;二是探索適用于機(jī)器翻譯的語(yǔ)境、領(lǐng)域和方式,促進(jìn)人機(jī)結(jié)合模式的創(chuàng)新,開(kāi)發(fā)適合中國(guó)語(yǔ)言市場(chǎng)需求的翻譯平臺(tái)[20];三是深化校企合作,完善大規(guī)模語(yǔ)料庫(kù)與知識(shí)庫(kù)的共建機(jī)制,保證機(jī)器翻譯系統(tǒng)開(kāi)發(fā)的資源基礎(chǔ)。

2 語(yǔ)言知識(shí)服務(wù)系統(tǒng)構(gòu)建的基本原則

協(xié)同化、統(tǒng)一化、可視化是語(yǔ)言知識(shí)服務(wù)系統(tǒng)構(gòu)建的三個(gè)基本原則,這是由翻譯需求決定的。翻譯需求是語(yǔ)言知識(shí)服務(wù)系統(tǒng)構(gòu)建的核心導(dǎo)向,當(dāng)前譯界對(duì)數(shù)字化平臺(tái)的需求主要體現(xiàn)在:(1)規(guī)模層面。大規(guī)模語(yǔ)料庫(kù)是各類數(shù)據(jù)和知識(shí)的來(lái)源,也是開(kāi)發(fā)知識(shí)習(xí)得系統(tǒng)和自動(dòng)翻譯系統(tǒng)的前提條件,而隨著翻譯實(shí)踐范疇的擴(kuò)大,譯者對(duì)領(lǐng)域多樣性的要求也在不斷提高。(2)質(zhì)量層面。馮志偉指出,一個(gè)內(nèi)容豐富的多元數(shù)據(jù)語(yǔ)料可以極大地推動(dòng)諸如知識(shí)推理、數(shù)據(jù)不確定管理技術(shù)的研制[21]。數(shù)據(jù)分析的質(zhì)量取決于資源加工程度,為了適應(yīng)翻譯教學(xué)模式和研究范式的轉(zhuǎn)變,語(yǔ)言資源的加工方式正在向領(lǐng)域化、知識(shí)化、智能化不斷發(fā)展,包括語(yǔ)料庫(kù)的語(yǔ)義標(biāo)注[22]、術(shù)語(yǔ)的自動(dòng)化抽取與篩選、專業(yè)知識(shí)的邏輯關(guān)系與推理規(guī)則構(gòu)建等。(3)操作層面。高質(zhì)量的語(yǔ)言知識(shí)服務(wù)系統(tǒng)要具備簡(jiǎn)易的人機(jī)交互界面與多維度的知識(shí)表示手段,以提高翻譯的工作體驗(yàn)和執(zhí)行效率。應(yīng)整合相關(guān)研究資源,推進(jìn)相關(guān)領(lǐng)域研究者之間的協(xié)作,在理論層面、實(shí)際操作層面與應(yīng)用層面進(jìn)一步深入探討[23]。

2.1 協(xié)同化

語(yǔ)言知識(shí)服務(wù)系統(tǒng)工程一般體量大、成本高、維護(hù)周期長(zhǎng),且相關(guān)技術(shù)涉及學(xué)科門類復(fù)雜,所以應(yīng)開(kāi)展協(xié)同合作,建立語(yǔ)言知識(shí)服務(wù)系統(tǒng)的聯(lián)合共建機(jī)制。該機(jī)制包括兩方面的內(nèi)容:(1)社會(huì)各相關(guān)部門的協(xié)同合作,如政府機(jī)構(gòu)、高校、語(yǔ)言服務(wù)提供商、出版社之間建立的項(xiàng)目合作關(guān)系。政府機(jī)構(gòu)能夠?yàn)橄到y(tǒng)建設(shè)提供立項(xiàng)支持與資金支持,高校與語(yǔ)言服務(wù)提供商提供語(yǔ)言素材與技術(shù)支持,并監(jiān)督執(zhí)行素材的采集、整合與加工,出版社負(fù)責(zé)系統(tǒng)的發(fā)布、宣傳與管理,項(xiàng)目的成果由合作方共享,可長(zhǎng)期為翻譯相關(guān)的產(chǎn)學(xué)研重要領(lǐng)域提供語(yǔ)言服務(wù),增強(qiáng)各部門的語(yǔ)言能力。另外,高校作為語(yǔ)言資源存儲(chǔ)量和使用量最大的部門,應(yīng)深化合作關(guān)系,整合優(yōu)質(zhì)資源,共建開(kāi)放性的教學(xué)科研平臺(tái),實(shí)現(xiàn)校際知識(shí)共享。(2)各專業(yè)領(lǐng)域開(kāi)展協(xié)同合作。由于語(yǔ)言活動(dòng)與翻譯活動(dòng)與生俱來(lái)的多學(xué)科性[24],翻譯面向的語(yǔ)言素材也必然源于多個(gè)領(lǐng)域,這也決定了譯者自身必須構(gòu)建多學(xué)科的知識(shí)體系以適應(yīng)語(yǔ)言服務(wù)市場(chǎng)的需求,而缺乏專業(yè)知識(shí)和相關(guān)素材也是譯者在職業(yè)發(fā)展中面臨的主要問(wèn)題之一[25]。除了素材來(lái)源于多學(xué)科文獻(xiàn)之外,語(yǔ)言知識(shí)服務(wù)系統(tǒng)的建設(shè)流程包含對(duì)專業(yè)知識(shí)的提取、構(gòu)建與挖掘工作,與領(lǐng)域?qū)<医⒊掷m(xù)性合作關(guān)系、參考吸收相關(guān)建議,有利于準(zhǔn)確把握專業(yè)知識(shí)的結(jié)構(gòu)與要點(diǎn),強(qiáng)化資源質(zhì)量審核機(jī)制,保證資源建設(shè)的進(jìn)度與可靠性。此外,領(lǐng)域?qū)<业膮⑴c有助于增加資源中的原創(chuàng)概念定義、知識(shí)框架等項(xiàng)目的比重,在促進(jìn)知識(shí)創(chuàng)新的同時(shí)保護(hù)知識(shí)產(chǎn)權(quán)。

2.2 統(tǒng)一化

語(yǔ)言知識(shí)服務(wù)系統(tǒng)是由多個(gè)層級(jí)、子層和模塊構(gòu)成的有機(jī)整體,各個(gè)功能單位之間的資源和數(shù)據(jù)總是處于不斷的循環(huán)和交互之中,比如術(shù)語(yǔ)庫(kù)中的詞條語(yǔ)境信息來(lái)源于平行語(yǔ)料庫(kù)的相關(guān)語(yǔ)句,知識(shí)習(xí)得系統(tǒng)中的專業(yè)知識(shí)要點(diǎn)來(lái)源于本體知識(shí)庫(kù)的知識(shí)系統(tǒng)等。在語(yǔ)言知識(shí)服務(wù)系統(tǒng)的應(yīng)用過(guò)程中,數(shù)據(jù)的統(tǒng)一性至關(guān)重要,這也是評(píng)價(jià)系統(tǒng)總體質(zhì)量的主要依據(jù)之一。統(tǒng)一化原則的內(nèi)涵包括兩個(gè)方面:(1)基礎(chǔ)素材統(tǒng)一化。語(yǔ)料庫(kù)、術(shù)語(yǔ)庫(kù)和本體知識(shí)庫(kù)必須依次為后者的素材來(lái)源。生語(yǔ)料在經(jīng)過(guò)去噪、對(duì)齊、標(biāo)注等預(yù)處理環(huán)節(jié)轉(zhuǎn)化為熟語(yǔ)料之后,利用相應(yīng)工具提取本領(lǐng)域的雙語(yǔ)術(shù)語(yǔ)和概念關(guān)系,雙語(yǔ)術(shù)語(yǔ)經(jīng)篩選、編纂工作存入術(shù)語(yǔ)庫(kù)中,進(jìn)而將術(shù)語(yǔ)和概念關(guān)系有機(jī)結(jié)合為知識(shí)本體,這樣就構(gòu)建了語(yǔ)言素材之間的一體化聯(lián)動(dòng)關(guān)系?;A(chǔ)素材統(tǒng)一化保證了資源與數(shù)據(jù)的高效調(diào)用。例如,譯者利用本體知識(shí)庫(kù)的知識(shí)導(dǎo)航功能進(jìn)行譯前準(zhǔn)備工作的同時(shí),還能夠以相關(guān)術(shù)語(yǔ)為關(guān)鍵詞,直接檢索到存儲(chǔ)于語(yǔ)料庫(kù)中的該術(shù)語(yǔ)的詞匯搭配和雙語(yǔ)例句,也可以直接檢索到存儲(chǔ)于術(shù)語(yǔ)庫(kù)中的該術(shù)語(yǔ)的各項(xiàng)條目信息[26]。另一方面,基礎(chǔ)素材統(tǒng)一化保證了語(yǔ)言應(yīng)用的一致性,能夠規(guī)避因同義異形詞濫用而導(dǎo)致的歧義,在降低語(yǔ)言經(jīng)濟(jì)成本的同時(shí)確保了翻譯的標(biāo)準(zhǔn)化和規(guī)范性。(2)翻譯技術(shù)標(biāo)準(zhǔn)統(tǒng)一化。語(yǔ)言資源的存儲(chǔ)和交換應(yīng)采用業(yè)界廣泛認(rèn)同的標(biāo)準(zhǔn)來(lái)執(zhí)行,這樣可以提高資源在不同翻譯技術(shù)工具和語(yǔ)言服務(wù)提供商之間的通用性或互操作性(interoperability),保證翻譯生態(tài)系統(tǒng)中數(shù)據(jù)環(huán)流的通暢,也有利于保護(hù)語(yǔ)言資產(chǎn),避免因市場(chǎng)和技術(shù)更新而造成經(jīng)濟(jì)損失[27]。當(dāng)前而言,平行語(yǔ)料庫(kù)多被存儲(chǔ)為TMX格式的翻譯記憶庫(kù),術(shù)語(yǔ)庫(kù)一般以TBX(Term-Base eXchange)格式進(jìn)行存儲(chǔ)和應(yīng)用,本體知識(shí)庫(kù)通常以O(shè)WL(Web Ontology Language)格式作為標(biāo)準(zhǔn)化存儲(chǔ)方式,以便于統(tǒng)一化操作與管理。

2.3 可視化

從本質(zhì)上講,翻譯活動(dòng)是將一種符號(hào)所包含的思維內(nèi)涵用另外一種符號(hào)表示出來(lái)的知識(shí)傳播行為。符號(hào)是一個(gè)個(gè)體對(duì)象客體,它與另一種個(gè)體對(duì)象客體、概念或者事態(tài)長(zhǎng)期相互對(duì)應(yīng),具有代表性地標(biāo)明這些事物[28],這個(gè)對(duì)象客體以文字、聲音、動(dòng)作、圖片、數(shù)字等多模態(tài)形式存在。換言之,翻譯是一種通過(guò)多類型符號(hào)進(jìn)行相互轉(zhuǎn)換來(lái)傳遞和表征一個(gè)思維內(nèi)涵的行為,多模態(tài)轉(zhuǎn)換是翻譯活動(dòng)的基本形式。語(yǔ)言知識(shí)服務(wù)系統(tǒng)在應(yīng)用層面的最大優(yōu)勢(shì),在于將抽象的數(shù)據(jù)和知識(shí)轉(zhuǎn)換為直觀的多模態(tài)實(shí)體,提高用戶的認(rèn)知效率。可視化的內(nèi)涵覆蓋兩個(gè)層面:(1)數(shù)據(jù)可視化,指用圖表、圖形、動(dòng)畫等方式詮釋數(shù)據(jù)、表征大規(guī)模語(yǔ)料的內(nèi)部屬性,借以凸顯特征差異和隱形關(guān)系,形成對(duì)翻譯文本更加精確的理解和描述。翻譯領(lǐng)域比較重要的數(shù)據(jù)可視化方法包括詞頻分析法、共詞分析法和多元統(tǒng)計(jì)分析法等,借助Prefuse、CiteSpace、SPSS等工具能夠可視化地展示相關(guān)分析結(jié)果。(2)知識(shí)可視化,指將專業(yè)領(lǐng)域的知識(shí)框架與知識(shí)脈絡(luò)用可視化的方式形象地展示給用戶,并統(tǒng)一提供知識(shí)習(xí)得過(guò)程中常用的導(dǎo)航、檢索、抽取、調(diào)用等操作模塊??梢暬闹R(shí)網(wǎng)絡(luò)是包含了文字、數(shù)字、圖形、動(dòng)畫、音頻、視頻的符號(hào)集合體,各類符號(hào)之間相互關(guān)聯(lián),共同構(gòu)成了譯者專業(yè)領(lǐng)域知識(shí)的多模態(tài)習(xí)得途徑。知識(shí)習(xí)得過(guò)程是合理利用各類符號(hào)資源進(jìn)行綜合構(gòu)建的過(guò)程,每種符號(hào)都具備自身的優(yōu)勢(shì),如動(dòng)畫和視頻更加明晰、形象,能有效降低認(rèn)知難度,而文字與數(shù)字則較為詳細(xì)、具體,能夠補(bǔ)償視頻學(xué)習(xí)中忽略的細(xì)節(jié)部分。

3 結(jié)語(yǔ)

面向翻譯的語(yǔ)言知識(shí)服務(wù)系統(tǒng)是翻譯技術(shù)研究向知識(shí)化方向演進(jìn)發(fā)展的成果,是集存儲(chǔ)、分析、應(yīng)用于一體的綜合型翻譯研究、實(shí)踐與教學(xué)平臺(tái)。語(yǔ)言知識(shí)服務(wù)系統(tǒng)的構(gòu)建過(guò)程以翻譯需求為導(dǎo)向,體現(xiàn)了翻譯學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)、術(shù)語(yǔ)學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等多學(xué)科交叉研究模式與數(shù)字人文研究方法,深化了翻譯產(chǎn)學(xué)研結(jié)合的發(fā)展路徑,也為翻譯的認(rèn)知研究、計(jì)算方法研究、數(shù)字化教學(xué)模式研究等前沿領(lǐng)域的開(kāi)拓奠定基礎(chǔ)。同時(shí),伴隨翻譯活動(dòng)范疇的延伸和體量的增長(zhǎng),翻譯生態(tài)鏈中的數(shù)據(jù)環(huán)流也在迅速增大,鑒于此,語(yǔ)言知識(shí)服務(wù)系統(tǒng)的各個(gè)模塊應(yīng)在功能性、易用性、可靠性、專業(yè)性等方面不斷升級(jí)拓展,以滿足學(xué)者和譯者對(duì)數(shù)據(jù)和知識(shí)的獲取、應(yīng)用與創(chuàng)新持續(xù)增長(zhǎng)的需求。

注釋

① http://www.termonline.cn/index.htm

② http://ecolexicon.ugr.es/visual/index_en.html

參考文獻(xiàn)

[1] WLOKA B,WINIWARTER W,BUDIN G. DASISH: An Initiative for a European Data Humanities Infrastructure[C]//Proceedings of International Conference on Information Integration and Web-based Applications & Services, 2013: 433.

[2] 王傳英,崔啟亮,朱恬恬. “一帶一路”走出去的國(guó)家語(yǔ)言服務(wù)基礎(chǔ)設(shè)施建設(shè)構(gòu)想[J]. 中國(guó)翻譯,2017 (6):62-67.

[3] 劉志,郝克俊. 基于Protégé的人工影響天氣術(shù)語(yǔ)本體知識(shí)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J]. 中國(guó)科技術(shù)語(yǔ), 2019, 21 (6):17-23.

[4] 楊明星,吳麗華, 牛桂玲, 等.“互聯(lián)網(wǎng)+” 背景下多模態(tài)、多語(yǔ)種外交話語(yǔ)平行語(yǔ)料庫(kù)設(shè)計(jì)與創(chuàng)建探析[J]. 外語(yǔ)教學(xué), 2018, 39 (6):13-19.

[5] 汪美俠. 基于句法和語(yǔ)義的英漢翻譯記憶系統(tǒng)的研究與實(shí)現(xiàn)[J]. 電子設(shè)計(jì)工程,2016,24(21):24-26,30.

[6] ARAZ L P,REIMERINK A,F(xiàn)ABER P. Knowledge Extraction on Multidimensional Concepts: Corpus Pattern Analysis (CPA) and Concordances[C]//The 8th International Conference on Terminology and Artificial Intelligence, Toulouse, 2009.

[7] BUDIN G, KABAS H, MRTH K. Towards Finer Granularity in Metadata: Analyzing the Contents of Digitised Periodicals[J/OL]. Journal of the Text Encoding Initiative, 2012(2). http://jtei.revues.org/416.DOI : 10.4000/jtei.416.

[8] KOCKAERT H,STEURS F. Handbook of Terminology[M]. Amsterdam: John Benjamins Publishing Company, 2015:128.

[9] 原偉. 面向中亞地區(qū)的多語(yǔ)種專業(yè)領(lǐng)域術(shù)語(yǔ)庫(kù)及本體知識(shí)庫(kù)構(gòu)建[J]. 中國(guó)科技術(shù)語(yǔ), 2019, 21 (6):11-16.

[10] 苗菊,寧海霖. 翻譯技術(shù)的知識(shí)體系化演進(jìn):以雙語(yǔ)術(shù)語(yǔ)知識(shí)庫(kù)建設(shè)與應(yīng)用為例[J]. 中國(guó)翻譯,2016 (6):60-64.

[11] 胡開(kāi)寶. 數(shù)字人文視域下翻譯研究的進(jìn)展與前景[J]. 中國(guó)翻譯,2018,39(6):24-26.

[12] GIL-BERROZPE J, FABER P. The Role of Terminological Knowledge Bases in Specialized Translation: The Use of Umbrella Concepts[C]//Temas actuales de terminología y estudios sobre el léxico. Publisher: Comares, Editors: Miguel ngel Candel-Mora, Chelo Vargas Sierra, 2017: 8.

[13] 梁茂成,許家金. 雙語(yǔ)語(yǔ)料庫(kù)建設(shè)中元信息的添加和段落與句子的兩級(jí)對(duì)齊[J]. 中國(guó)外語(yǔ),2012,9 (6):37-42,63.

[14] 寧海霖. 面向汽車工程翻譯的可視化知識(shí)服務(wù)平臺(tái)構(gòu)建[J]. 中國(guó)科技術(shù)語(yǔ),2020,22(1):21-25.

[15] 王少爽,李春姬. 技術(shù)賦能時(shí)代翻譯教師能力結(jié)構(gòu)模型構(gòu)建與提升策略探究[J]. 外語(yǔ)界,2021(1):71-78.

[16] 朱純深,慕媛媛. 以文本解釋力為導(dǎo)向的語(yǔ)料庫(kù)翻譯教學(xué):香港城大翻譯與雙語(yǔ)寫作在線教學(xué)/自學(xué)平臺(tái)的設(shè)計(jì)與試用分析[J]. 中國(guó)翻譯, 2013, 34 (2):56-62,127.

[17] 孫喜晨. EMT及其派生項(xiàng)目分析與MTI教育產(chǎn)學(xué)研合作網(wǎng)絡(luò)構(gòu)建[J]. 外語(yǔ)界,2017(4):44-50.

[18] 馮志偉. 機(jī)器翻譯與人工智能的平行發(fā)展[J]. 外國(guó)語(yǔ),2018,41(6):35-48.

[19] 王少爽. 機(jī)器翻譯素養(yǎng)的概念內(nèi)涵與表現(xiàn)形式:代主持人語(yǔ)[J]. 語(yǔ)言教育,2021,9(2):54,62.

[20] 王贇,張政. 翻譯研究新路徑:數(shù)字人文新釋[J]. 外語(yǔ)教學(xué),2020,41 (2):81-86.

[21] 馮志偉.自然語(yǔ)言處理的重要資源:“知識(shí)圖譜”[J]. 外語(yǔ)學(xué)刊,2021(5):1-9.

[22] KUBLER S, ZINSMEISTER H. Corpus Linguistics and Linguistically Annotated Corpora[M]. London & New York: Bloomsbury, 2015: 83.

[23] 寧海霖.論翻譯技術(shù)研究的知識(shí)維度[J]. 外語(yǔ)學(xué)刊,2021(5):66-71.

[24] 陳平. 語(yǔ)言交叉學(xué)科研究的理論與實(shí)踐[J]. 語(yǔ)言戰(zhàn)略研究,2021,6(1):13-25.

[25] 丁大剛,李照國(guó),劉霽. MTI教學(xué):基于對(duì)職業(yè)譯者市場(chǎng)調(diào)研的實(shí)證研究[J]. 上海翻譯,2012(3):41-44.

[26] LACASTA J, NOGUERAS-ISO J, ZARAZAGA-SORIA F J. Terminological Ontologies: Design, Management and Practical Applications[M]. New York: Springer, 2010: 131.

[27] 王華樹(shù). 翻譯技術(shù)教程:上冊(cè)[M]. 北京:商務(wù)印書(shū)館;上海:上海外語(yǔ)音像出版社,2017:14.

[28] 費(fèi)爾伯. 術(shù)語(yǔ)學(xué)、知識(shí)論和知識(shí)技術(shù)[M]. 邱碧華,譯. 北京:商務(wù)印書(shū)館,2011:91.

作者簡(jiǎn)介:

寧海霖(1982—),男,博士,天津商業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院講師,研究方向?yàn)樾g(shù)語(yǔ)學(xué)與翻譯技術(shù)。2016年維也納國(guó)際術(shù)語(yǔ)學(xué)暑期學(xué)校學(xué)員,教育部人文社會(huì)科學(xué)基金項(xiàng)目主持人,參與國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目、全國(guó)翻譯專業(yè)學(xué)位研究生教育研究項(xiàng)目各1 項(xiàng),在《中國(guó)翻譯》《中國(guó)科技翻譯》《翻譯界》《中國(guó)科技術(shù)語(yǔ)》等期刊發(fā)表論文10 余篇。通信方式: computerherald@163.com。

猜你喜歡
機(jī)器翻譯多模態(tài)
互聯(lián)網(wǎng)+新時(shí)代下人機(jī)翻譯模式研究
“語(yǔ)聯(lián)網(wǎng)+行業(yè)” 助力中國(guó)偉大復(fù)興
多模態(tài)理論視角下大學(xué)英語(yǔ)課堂的構(gòu)建
新媒體環(huán)境下多模態(tài)商務(wù)英語(yǔ)課堂教師角色定位