王萌 李濤安 王治梅 聞?dòng)酪?/p>
摘?要:在中醫(yī)走向世界的時(shí)代背景下,中醫(yī)對(duì)外傳播的進(jìn)程越來越快。中醫(yī)翻譯在中醫(yī)藥文化“走出去”中起著至關(guān)重要的作用,一部能夠快速、準(zhǔn)確查詢中醫(yī)詞匯或術(shù)語的電子(在線)詞典可以為中醫(yī)翻譯者提供一個(gè)便捷的工具,可以更好地推動(dòng)中醫(yī)藥對(duì)外傳播。文章對(duì)以層級(jí)對(duì)應(yīng)技術(shù)為核心的中醫(yī)漢英電子詞典的研發(fā)進(jìn)行探索研究,以期為中醫(yī)電子詞典的編纂乃至中醫(yī)翻譯事業(yè)的發(fā)展做出貢獻(xiàn)。
關(guān)鍵詞:層級(jí)對(duì)應(yīng)技術(shù);中醫(yī)翻譯;漢英電子詞典
中圖分類號(hào):N04;R277;G255.75?文獻(xiàn)標(biāo)識(shí)碼:A?DOI:10.3969/j.issn.1673-8578.2020.05.002
Abstract: Under the background of Traditional Chinese Medicine (TCM) going out to the world, the transmission process of TCM has become faster and faster. Translation of TCM plays a vital role in the “going out” of TCM culture. An electronic (online) dictionary which can quickly and accurately query TCM vocabulary or terms can provide a convenient tool for TCM translators. This paper focuses on the research and development of TCM ChineseEnglish electronic dictionaries with hierarchical correspondence technology in order to make contributions to the compilation of TCM electronic dictionary and the development of TCM translation.
Keywords: Hierarchical corresponding technique; TCM translation; ChineseEnglish electronic dictionary
習(xí)近平總書記提出“深入發(fā)掘中醫(yī)藥寶庫中的精華,充分發(fā)揮中醫(yī)藥的獨(dú)特優(yōu)勢(shì),推進(jìn)中醫(yī)藥現(xiàn)代化,推動(dòng)中醫(yī)藥走向世界”,發(fā)展中醫(yī)、向外推廣中醫(yī)也是中國(guó)夢(mèng)的組成部分。而中醫(yī)的“走出去”很大程度上依賴于中醫(yī)翻譯,查詢?cè)~典是翻譯過程中必不可少的步驟。
早在1999年,就有人指出現(xiàn)代信息技術(shù)使得詞典內(nèi)容、檢索方式立體化,多媒體詞典集圖、文、聲、像等不同媒體信息于一身,將詞目全面立體地呈現(xiàn)在讀者眼前[1]。漢英電子詞典無論在內(nèi)容、檢索方式、信息編排、編纂手段等方面都向多樣式、多層次的立體化方向靠近[2]國(guó)內(nèi)關(guān)于電子詞典的研究雖然始于20世紀(jì)50、60年代,但在改革開放之后得到了充分重視,80年代后期,中文信息處理領(lǐng)域的專家開始了對(duì)機(jī)器詞典的研究,90年代初面向信息處理的機(jī)器詞典的。研究正式列入國(guó)家七五、八五、九五計(jì)劃。[3]
如今,隨著科學(xué)技術(shù)的不斷進(jìn)步和互聯(lián)網(wǎng)的普及,各類電子詞典、在線詞典甚至在線翻譯應(yīng)運(yùn)而生(例如有道詞典、金山詞霸、百度翻譯、谷歌翻譯等)。王朝暉、余軍[4]對(duì)“有道翻譯”“百度翻譯”“谷歌翻譯”和“必應(yīng)翻譯”等四大機(jī)器翻譯引擎的詞語翻譯質(zhì)量評(píng)估后發(fā)現(xiàn),基于不同知識(shí)源的不同機(jī)器翻譯給出的參考譯文各有千秋,最重要的是它們大多沒有收錄中醫(yī)專業(yè)詞匯和術(shù)語,所以目前市面上可以用來準(zhǔn)確、快捷查詢中醫(yī)術(shù)語的電子或在線詞典極少。因此,我們嘗試開發(fā)一款基于層級(jí)對(duì)應(yīng)的中醫(yī)翻譯專用詞典。此項(xiàng)研究基于2017年大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目——“層級(jí)中醫(yī)漢英在線詞典”項(xiàng)目而展開。
一?設(shè)計(jì)與實(shí)現(xiàn)
1.總體設(shè)計(jì)
本項(xiàng)目旨在研發(fā)一款中醫(yī)漢英電子(在線)詞典,主要是將層級(jí)對(duì)應(yīng)技術(shù)用于對(duì)漢英雙語術(shù)語詞條進(jìn)行加工,建立一個(gè)基本語料庫,供用戶查詢常規(guī)型術(shù)語,并在此基礎(chǔ)上建立一個(gè)層級(jí)控制系統(tǒng),再基于一定的層次規(guī)則經(jīng)過短語層次分析器進(jìn)行分析,從而形成一個(gè)動(dòng)態(tài)語料庫,可以使基本語料庫得到擴(kuò)充。如圖1所示。
2.詞典數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)
詞典數(shù)據(jù)庫分為基本語料庫和動(dòng)態(tài)語料庫。其中,基本語料庫主要由人工建立的詞庫組成。通過相關(guān)的編程技術(shù)設(shè)置標(biāo)準(zhǔn)參數(shù),動(dòng)態(tài)語料庫可把符合條件的文本自動(dòng)擴(kuò)充至各層級(jí)語料庫中。
3.詞典管理程序設(shè)計(jì)
運(yùn)用層級(jí)對(duì)應(yīng)技術(shù)可合理有序地管理基本語料庫以及不斷擴(kuò)充的動(dòng)態(tài)語料庫。
4.詞典檢索(查詢)方式設(shè)計(jì)
此詞典將為用戶提供多源檢索技術(shù),即可使用多種方式進(jìn)行檢索,無論用戶搜索詞級(jí)還是短語級(jí)都能夠準(zhǔn)確無誤地檢索出相關(guān)詞條及對(duì)應(yīng)譯文。
5.提取漢語和對(duì)應(yīng)譯文詞條
漢語詞條和對(duì)應(yīng)譯文詞條計(jì)劃從WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region(WHO版)、International Standard ChineseEnglish Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies(世中聯(lián)版)、PMPH Terms List (updated 2010-05-18)(人衛(wèi)版)這三套標(biāo)準(zhǔn)中提取。從實(shí)際情況出發(fā),本項(xiàng)目的詞條擬定先從PMPH Terms List (updated 2010-05-18) (人衛(wèi)版)中進(jìn)行提取。
6.加工詞條,建立詞庫
運(yùn)用層級(jí)對(duì)應(yīng)技術(shù)對(duì)所收集的漢、英詞條進(jìn)行加工處理,建立詞庫。
二?層級(jí)對(duì)應(yīng)技術(shù)及其在詞典編纂中的應(yīng)用
李安興[5]認(rèn)為:基于平行語料庫的漢英詞典編纂研究,要有所創(chuàng)新,就必須發(fā)揮語料庫信息存儲(chǔ)量大、檢索便利的優(yōu)勢(shì)。為建立一個(gè)大容量的語料庫,此詞典應(yīng)用了層級(jí)對(duì)應(yīng)技術(shù),來合理有序地管理基本語料庫以及不斷擴(kuò)充的動(dòng)態(tài)語料庫,使之呈現(xiàn)為動(dòng)態(tài)式、增進(jìn)式的模式,如圖2所示。不斷擴(kuò)充的動(dòng)態(tài)語料庫展示了一個(gè)具有巨大存儲(chǔ)量的語料庫,且使用多源檢索技術(shù)可以輕松獲得檢索結(jié)果。
用戶輸入漢語詞條,經(jīng)過多源檢索可進(jìn)入基本詞庫,從而輸出對(duì)應(yīng)的英語詞條。這個(gè)基本詞庫基于層級(jí)結(jié)構(gòu)存儲(chǔ)方式建立,由層級(jí)控制系統(tǒng)包括詞級(jí)和短語級(jí)(短語1級(jí)、短語2級(jí)、短語3級(jí))控制,也可通過設(shè)置參數(shù)建立自動(dòng)擴(kuò)展系統(tǒng)而自動(dòng)擴(kuò)展詞庫,形成動(dòng)態(tài)詞庫。以“人參養(yǎng)榮湯——Decoction of Ginseng for Nourishing Vital Energy and Ying”為例,當(dāng)用戶輸入“人參”時(shí)可出現(xiàn)詞級(jí)“人參”或“養(yǎng)榮”的對(duì)應(yīng)譯文“Ginseng”或“Nourishing Vital Energy and Ying”、短語1級(jí)“養(yǎng)榮湯”的對(duì)應(yīng)譯文“Decoction for Nourishing Vital Energy and Ying”以及短語2級(jí)“人參養(yǎng)榮湯”的對(duì)應(yīng)譯文“Decoction of Ginseng for Nourishing Vital Energy and Ying”,如圖3所示。
詞典編纂所使用的層級(jí)對(duì)應(yīng)技術(shù)可追溯到Chiang[6]提出的基于層次化短語(hierarchical phrasebased)的翻譯系統(tǒng)模型。這種模型最大的優(yōu)點(diǎn)在于翻譯規(guī)則能自動(dòng)從雙語對(duì)齊語料獲得,不需要依賴任何語言學(xué)知識(shí)。本詞典所使用的層級(jí)對(duì)應(yīng)技術(shù)就是Chiang提出的基于層次化短語的翻譯系統(tǒng)模型的一大體現(xiàn)。與層次化短語翻譯系統(tǒng)類似,層級(jí)對(duì)應(yīng)技術(shù)指的是按照一定的規(guī)則對(duì)中醫(yī)術(shù)語雙語語料的詞條進(jìn)行分級(jí)(分為詞級(jí)、短語級(jí)),經(jīng)過加工處理之后可以實(shí)現(xiàn)雙語在各層級(jí)的對(duì)應(yīng),使用戶可以進(jìn)行多源檢索從而獲得術(shù)語的對(duì)應(yīng)譯文。層級(jí)對(duì)應(yīng)技術(shù)的應(yīng)用主要體現(xiàn)在層級(jí)控制系統(tǒng)和自動(dòng)擴(kuò)展系統(tǒng)中。
同時(shí),本項(xiàng)目的詞條提取和詞庫建立的方法是受基于實(shí)例的機(jī)器翻譯方法所啟發(fā),基于實(shí)例的機(jī)器翻譯方法是由日本學(xué)者長(zhǎng)尾真[7](Makoto Nagao)教授于20世紀(jì)80年代提出。李沐[8]曾提到這種翻譯方法首先利用雙語對(duì)照文本自動(dòng)構(gòu)建知識(shí)庫或?qū)嵗龓?,引入單語語義詞典、雙語詞典,通過類比對(duì)源語言句子進(jìn)行翻譯。無須對(duì)句子進(jìn)行復(fù)雜的語言分析,可直接利用已有的翻譯實(shí)例庫。
本項(xiàng)目將基于實(shí)例的機(jī)器翻譯方法部分運(yùn)用到此詞典的編纂過程中,但與之最大的不同是,本項(xiàng)目詞條的提取和加工處理是人工完成的,而不是自動(dòng)構(gòu)建的。其主要操作如下:先從PMPH Terms List (updated 2010-05-18)中提取漢英雙語詞條,將其輸入Microsoft Excel中,運(yùn)用層級(jí)對(duì)應(yīng)技術(shù)對(duì)詞條進(jìn)行加工,將一個(gè)漢語詞條分為詞級(jí)、短語1級(jí)、短語2級(jí),然后再給出對(duì)應(yīng)的英語詞條(如圖3所示),之后把漢語部分和英語譯文部分分別保存為兩個(gè).txt文件。
在此詞典的編纂過程中,我們使用基于實(shí)例的機(jī)器翻譯方法和層級(jí)結(jié)構(gòu)存儲(chǔ)方式對(duì)詞條的詞級(jí)、短語級(jí)進(jìn)行分級(jí)處理,建立一個(gè)小型的可供查詢的雙語語料庫,如圖4所示。在此基礎(chǔ)上,通過自主研制開發(fā)的專用詞典軟件(由Wensor聞?dòng)酪阍O(shè)計(jì)開發(fā))實(shí)現(xiàn)詞(術(shù)語)的查詢。
三?后續(xù)工作
目前,完成了詞條的提取和加工處理,建立了一個(gè)小型的語料庫(5000詞條),成功開發(fā)出查詞的專用詞典軟件。下一步我們將在此基礎(chǔ)上,將互聯(lián)網(wǎng)技術(shù)和層級(jí)對(duì)應(yīng)技術(shù)相結(jié)合,運(yùn)用到中醫(yī)術(shù)語語料庫及中醫(yī)網(wǎng)絡(luò)詞典的構(gòu)建中,將此詞典升級(jí)為網(wǎng)絡(luò)(在線)電子詞典。為完善和推廣本項(xiàng)目所研發(fā)的詞典,后續(xù)還需做以下工作:
1.詞典上線工作
與相關(guān)技術(shù)人員合作開發(fā)現(xiàn)有電子詞典(應(yīng)用程序)的PC端和手機(jī)端軟件。
2.宣傳與推廣工作
做好宣傳與推廣工作,擴(kuò)大這款詞典的使用范圍。目前這款詞典由于缺乏良好的宣傳與推廣,仍處于小范圍調(diào)試階段,尚不能大范圍進(jìn)行試用。
3.詞庫擴(kuò)充工作
后續(xù)還需整理其他現(xiàn)存雙語術(shù)語詞條,主要是兩套國(guó)際標(biāo)準(zhǔn)術(shù)語,即WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region (WHO版) 和 International Standard Chinese-English Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies (世中聯(lián)版)。這兩套標(biāo)準(zhǔn)是目前國(guó)際認(rèn)可度較高的中醫(yī)術(shù)語翻譯標(biāo)準(zhǔn)。譚耿耿、方剛[9]在對(duì)中醫(yī)術(shù)語翻譯渠道評(píng)估后提出,現(xiàn)代術(shù)語檢索渠道的可靠性取決于術(shù)語翻譯的收集來源和翻譯技術(shù)的發(fā)展。目前,尚無線上詞典收錄兩部國(guó)際標(biāo)準(zhǔn),為了保證此詞典的專業(yè)性、科學(xué)性、先進(jìn)性,有必要把兩套國(guó)際標(biāo)準(zhǔn)納入詞庫。
4.詞庫升級(jí)工作
現(xiàn)存詞庫有一定的缺陷,對(duì)于一些比較長(zhǎng)且不能分割的中醫(yī)術(shù)語的查找來說具有局限性。此外,動(dòng)態(tài)語料庫的建設(shè)需要通過編程技術(shù)設(shè)置標(biāo)準(zhǔn)參數(shù)來完善。
四?結(jié)?語
此項(xiàng)目將層級(jí)對(duì)應(yīng)技術(shù)應(yīng)用到中醫(yī)漢英電子(在線)詞典的編纂中,運(yùn)用層級(jí)結(jié)構(gòu)存儲(chǔ)方式對(duì)詞條進(jìn)行加工處理后,建立了詞庫(基本語料庫),并且已經(jīng)研發(fā)出一款可以用來查詢中醫(yī)術(shù)語對(duì)應(yīng)英文的應(yīng)用軟件,下一步我們將擴(kuò)大詞庫中的詞條數(shù)量,完善動(dòng)態(tài)語料庫,在大量語料庫的基礎(chǔ)上與互聯(lián)網(wǎng)技術(shù)相結(jié)合,將此詞典升級(jí)為中醫(yī)網(wǎng)絡(luò)電子詞典。
參考文獻(xiàn)
[1]?紀(jì)大慶.淺論現(xiàn)代信息技術(shù)對(duì)語文詞典編纂的影響[J].辭書研究,1999(2):75-80.
[2]?廖海宏.試論現(xiàn)行漢英電子詞典的分類與性能特征[J].廣東廣播電視大學(xué)學(xué)報(bào),2004(1):74-77.
[3]?艾山·吾買爾.多語種—多媒體電子詞典資源平臺(tái)和大型英漢維電子詞典的研究和實(shí)現(xiàn)[D].烏魯木齊:新疆大學(xué)碩士論文,2007.
[4]?王朝暉,余軍.基于 CAT 及語料庫技術(shù)的電子商務(wù)翻譯研究[M].廈門:廈門大學(xué)出版社,2016.
[5]?李安興.關(guān)于漢英詞典編纂方法與理論創(chuàng)新問題的思考[J].中國(guó)出版,2010(24):42-45.
[6]?Chiang D. Hierarchical PhraseBased Translation.[J].Computational Linguistics,2007,33(2):201-228,42-45.
[7]?Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle [M]//Readings in Machine Translation Cambridge: MIT Press, 1984:352-354.
[8]?李沐.機(jī)器翻譯[M].北京:高等教育出版社,2018.
[9]?譚耿耿,方剛.中醫(yī)名詞翻譯術(shù)語檢索渠道評(píng)估[J].傳播力研究,2019(18):205-206.