尼加提·納吉米,席小剛,馬斌,買合木提·買買提
摘要:主要研究應用于多語種方式的輔助翻譯系統(tǒng)的結構、功能和工作流程,通過闡述機器翻譯技術在輔助翻譯系統(tǒng)中的應用,重點研究了采用多種機器翻譯手段實現(xiàn)漢語、哈薩克語、維吾爾語、柯爾克孜語的多語種輔助翻譯系統(tǒng)的實現(xiàn)方式,提高了輔助翻譯的精確性和系統(tǒng)的適用范圍,最后給出了系統(tǒng)實例和未來擴展的展望。
關鍵詞:輔助翻譯;機器翻譯;翻譯策略;多語種;基于項目的翻譯工程
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)02-0345-06
Study and Implementationof the Multilingual ComputerAided Translation System
NIJAT Najmidin1,2, XI Xiao-gang2,MA Bin3, MAHMUD Mamat3
(1.North China Electric Power University, Beijing 102206, China; 2. Xinjiang Xinneng Information Communications Co. LTD, Urumqi 830026, China; 3. Xinjiang Information industryCo. LTD, Urumqi 830022, China)
Abstract: Workflow, structure and functions of multilingual computer aided translation system are researched in the paper. Application of machine translation technology in the aided translation system is descripted, and multilingual translation technology about Chinese, Uy? ghur, Kazak, Kirgiz is emphasized to improve accuracy and applicability. At last, we give an instance of multilingual computer aided transla? tion system and expect development in the future.
Key word: computeraided translation; machine translation; policy of translation; multilingual; project based translation; CAT
信息技術的高速發(fā)展和信息網絡的快速擴張,極大的促進了人類社會的進步和文化知識的交融,人們獲取信息、學習知識的途徑和手段已經擴展到跨地域、跨語種、網絡化、多媒體等方式。面對海量增長、不同語言構成的各類信息,催生了機器翻譯技術的快速發(fā)展,并被應用于構建以此為核心的輔助翻譯系統(tǒng)中,有效應用在日常學習和工作中。
機器翻譯技術則出現(xiàn)較早,但翻譯的精確性不高,尤其是針對超長文本的精確翻譯技術還需要深入研究;目前的輔助翻譯系統(tǒng)主要借助機器翻譯和人工干預兩種手段,提高系統(tǒng)翻譯的精確性。輔助翻譯系統(tǒng)主要應用于各少數民族地方政府、翻譯出版、廣播媒體、研究、教育等行業(yè)和機構。
當前,輔助翻譯系統(tǒng)的應用普及還不廣泛,主要局限在如下原因:一、系統(tǒng)功能較弱、翻譯準確率較低,不能很好滿足用戶需求;二、系統(tǒng)的機器翻譯手段單一,不能很好利用用戶已有的翻譯資源;三、當前翻譯工作往往涉及多語種,而輔助翻譯系統(tǒng)只能提供針對某一種語言的機器翻譯功能,應用范圍有限。本文論述的多語種輔助翻譯系統(tǒng)較好的解決了這些問題,能夠提供面向新疆地區(qū)民族語言的漢語、維吾爾語、哈薩克語、柯爾克孜語等多語種、多方向、綜合性的輔助翻譯功能,系統(tǒng)實現(xiàn)了基于統(tǒng)計、實例以及記憶庫的輔助翻譯模式,屬國際首次發(fā)布基于漢維哈柯文語言的輔助翻譯軟件,并易擴展到中亞地區(qū)民族語言。
1多語種輔助翻譯系統(tǒng)特點
輔助翻譯是一種借助計算機信息處理能力和人工干預方式實現(xiàn)源語言文本向目標語言翻譯的方法,通過翻譯引擎自動對源語言文本實現(xiàn)語法分析、詞法分析,以及相關語料庫、實例庫等數據庫檢索查詢,再經過統(tǒng)計分析和優(yōu)化,最后對自動翻譯輸出的目標語言譯文做人工排查、修正,最終獲得符合用戶意圖的翻譯文本。輔助翻譯的基本流程如圖1所示。
在上述流程中,人工干預主要發(fā)生在翻譯過程的開始和結束階段:一是提供語義清晰的文本,在選擇機器翻譯的文本時盡量提供完整語義和有規(guī)則的短語或句子,從而提高準確率;二是對于機器翻譯結果做出人工校對和適當修改,以達到滿意的程度。
多語種輔助翻譯系統(tǒng)在滿足基本需求之外,采用了多種策略和獨有技術來提高翻譯的準確率、易用性和可靠性。
1.1多種翻譯策略
機器翻譯是輔助翻譯系統(tǒng)的核心組件,常見的策略包括基于統(tǒng)計、基于實例、基于規(guī)則的機器翻譯等技術,目前商用的輔助翻譯系統(tǒng)針對特定行業(yè)或領域開發(fā),只提供一種機器翻譯策略。多語種輔助翻譯系統(tǒng)的翻譯引擎使用了基于統(tǒng)計和實例的翻譯方式,又特別提供了基于記憶庫的翻譯功能,面向多種行業(yè)應用,從而提高了翻譯準確率和普及性。
同時系統(tǒng)提供雙向翻譯支持,在國內外首次實現(xiàn)了漢語到維吾爾語、哈薩克語、柯爾克孜語,維吾爾語、哈薩克語、柯爾克孜語到漢語的輔助翻譯功能,其中平均機器翻譯準確率在60%以上,基于記憶庫的翻譯準確率可達100%。
圖1輔助翻譯基本流程
1.2多語種支持
語言分析是輔助翻譯系統(tǒng)和機器翻譯不可或缺的組成部分,多語種輔助翻譯系統(tǒng)集成了漢語、維吾爾語、哈薩克語和柯爾克孜語等四種語言的翻譯功能,因此系統(tǒng)中必有分析這些的組件。系統(tǒng)的漢語分析采用了目前成熟的組件,針對維吾爾語、哈薩克語和柯爾克孜語同一語系的相似性特點,在借鑒已有維吾爾語言分析組件的基礎上,分別開發(fā)了哈薩克語和柯爾克孜語的分析組件。
1)漢語分析組件:使用了中科院的ICTCLAS分詞系統(tǒng)。ICTCLAS分詞系統(tǒng)具有自動分詞、詞性標注和人名、機構名識別等功能。在此基礎上實現(xiàn)句子相似度計算功能。
2)維吾爾語分析組件:該組件提供維吾爾語分詞、詞干提取、詞性標注、人名、地名、機構名識別和句子相似度計算等功能。3)哈薩克語分析組件:該組件提供哈薩克語分詞、詞干提取、詞性標注、人名、地名、機構名識別和句子相似度計算等功能。4)柯爾克孜語分析組件:該組件提供柯爾克孜語分詞、詞干提取、詞性標注、人名、地名、機構名識別和句子相似度計算等功能。5)同時,系統(tǒng)還支持多語種(漢、維、哈、柯、英)用戶界面,界面語言、界面習慣(從左向右、從右向左顯示和排版)等方面全面提供了多語言支持,便于用戶根據習慣進行操作。
1.3多種文本文檔兼容
多語種輔助翻譯系統(tǒng)實現(xiàn)了word2003、2007文檔、txt文件、xml文檔、RTF文檔、Html等常見文本文檔的兼容,系統(tǒng)可以很方便的導入、導出以上文檔,譯文文檔不需要或少許排版后就可以直接使用。通過良好的人機交互界面,實現(xiàn)對項目文檔的完美翻譯,不損環(huán)原文格式,保持譯前原排版格式,最大限度地降低排版工作量。
1.4強大的翻譯編輯器
多語種輔助翻譯系統(tǒng)提供自動翻譯和交互式輔助翻譯兩種翻譯模式。自動翻譯模式利用實例庫和機器翻譯引擎直接翻譯用戶提交的文本,并根據用戶要求把不同候選譯文根據翻譯評價分高低排序提交給用戶來選擇最合適的譯文。
自動翻譯過程中,首先把待翻譯的內容按句子與實例庫進行匹配,完全相似的句子匹配完后,對剩下的句子進行語言分析并使用基于實例的翻譯方法和統(tǒng)計的翻譯方法進行翻譯。翻譯完成后,把不完全相似句子的譯文按照翻譯評價分排序并提交給用戶選擇。該翻譯過程不包含任何用戶參與,用戶只能對翻譯完的譯文進行選擇或修改。
交互式輔助翻譯模式使用詢問方式,從源語言的分析開始每一步向用戶提供分析結果并提供修改分析結果的機會,從而減少語言分析所產生翻譯錯誤率,提高翻譯的質量。該過程中與自動翻譯模式不同之處是用戶從對語言分析到翻譯可以調整每一步的分析結果。交互式翻譯的流程如圖2所示。
1.5翻譯項目管理功能
多語種輔助翻譯系統(tǒng)的項目管理功能,主要是針對于翻譯量比較大的文檔,為此可建立一個項目實現(xiàn)超大文檔的拆分和合并,項目有屬于自己的項目名稱、起止時間、項目人員、項目任務等。項目當中源語言和目標語言是一對多的關系,用戶可以在一個項目里面將某種語言的一份文檔翻譯成多個目標語言的譯文。
2多語種輔助翻譯系統(tǒng)結構
多語種輔助翻譯系統(tǒng)采用網絡版和單機版兩種架構模式。網絡版系統(tǒng)包括:客戶端在線功能模塊、服務端接口模塊、核心功能模塊,服務端WCF服務接口模塊、應用服務模塊、數據庫接口模塊,以及后臺數據庫存儲模塊。單機版包括:系統(tǒng)核心功能模塊、本地接口模塊和本地文件存儲模塊。
多語種輔助翻譯系統(tǒng)網絡版中,客戶端接口通過HTTP/HTTPS、XML等協(xié)議同服務器端通信,調用服務端提供的服務接口,實現(xiàn)Web Service方式的服務調用。服務端的Web Service采用.NET框架的WCF實現(xiàn)。
多語種輔助翻譯系統(tǒng)單機版中,本地接口層實現(xiàn)了兩類功能:一是機器翻譯服務,其功能與網絡版服務端提供的翻譯服務功能一致;二是文件讀寫功能,通過本地數據文件實現(xiàn)數據訪問,與網絡版中數據庫接口和后臺數據庫存儲服務功能一致。
圖2多語種交互式輔助翻譯流程
網絡版為團隊協(xié)作的翻譯工作提供項目級管理服務,而單機版為個人翻譯工作提供服務。系統(tǒng)功能結構如圖3所示。
圖3多語種輔助翻譯系統(tǒng)功能結構
具體功能服務描述如下。
2.1輔助翻譯應用服務
多語種輔助翻譯系統(tǒng)提供的應用服務包括:
1)機器翻譯服務:包含機器學習組件、語言分析組件、翻譯組件等,為網絡版和單機版用戶提供源語言文本的詞法分析、語法分析、目標語言生成等服務功能,是系統(tǒng)關鍵模塊。系統(tǒng)提供三種機器翻譯服務,包括基于實例的翻譯、基于統(tǒng)計的翻譯、基于語料庫的翻譯方式,用戶可以根據翻譯文本的特點、工作性質選擇對應的翻譯方式,以此來提高翻譯的準確性。例如,針對重復量較多、翻譯文本前后銜接緊密的工作,可以選擇基于實例的翻譯方式;對于工作量較大,關鍵詞較多的翻譯工作,可以選擇基于統(tǒng)計的翻譯方式;對于共享翻譯資源、協(xié)同工作的用戶,可以選擇基于語料庫的翻譯方式。
2)語料庫管理服務:為系統(tǒng)語料庫提供維護、查詢、檢索等服務,語料庫是機器翻譯的重要基礎,完善的服務能夠方便用戶構建、管理和健全語料庫。
3)詞典查詢服務:為翻譯人員提供單詞和短語查詢服務,詞典查詢服務包含漢語、維吾爾語、哈薩克語、柯爾克孜語等地雙向檢索查詢服務。
4)系統(tǒng)管理服務:網絡版專用服務,為系統(tǒng)用戶提供人員管理、項目管理等服務,用戶可以通過客戶端維護、檢索、查詢數據庫中的應用數據。
5)文件傳輸服務:為用戶提供項目管理中翻譯文件的上傳、下載、加密和解密功能。
2.2輔助翻譯核心模塊
多語種輔助翻譯系統(tǒng)提供的核心模塊,包含在線功能和核心服務,其中:
在線功能為團隊用戶服務,提供用戶、角色、權限、日志和即時通訊服務,管理員可以通過系統(tǒng)管理維護系統(tǒng)用戶和權限,團隊翻譯用戶可以通過即時通訊工具實現(xiàn)實時通信。
核心服務包括:項目管理、詞典查詢、在線升級、輔助翻譯和語料庫管理等功能。項目管理為翻譯團隊提供基于項目的翻譯工程管理活動,管理人員可以通過項目管理實現(xiàn)項目制定、任務分配、項目查詢、人員分配等活動;翻譯人員通過項目管理可以檢索、查詢分配的任務,上傳和下載任務包含的翻譯文檔;審核人員通過項目管理對上傳的任務文檔進行審核和意見批注。輔助翻譯功能則為翻譯人員提供在線方式的機器翻譯功能,系統(tǒng)提供了基于實例、統(tǒng)計和語料庫的三種翻譯方式供用戶選擇。
2.3輔助翻譯接口模塊
多語種輔助翻譯系統(tǒng)提供的接口模塊包括服務端接口和本地接口兩部分,其中:服務端接口主要是系統(tǒng)網絡版核心功能模塊調用該接口,實現(xiàn)與后臺服務的交互,通過參數傳遞,完成服務調用和獲取數據結果。本地接口主要是系統(tǒng)單機版核心功能模塊調用該接口,通過與本地數據層之間的交互實現(xiàn)數據獲取和保存,以及與本地機器翻譯組件之間的調用和交互,實現(xiàn)文本翻譯服務等。
2.4輔助翻譯數據層
多語種輔助翻譯系統(tǒng)實現(xiàn)了網絡版的后臺數據庫存儲機制和單機版的本地文件存儲機制,以及為訪問數據庫提供的數據接口和訪問本地數據文件提供的接口。
1)數據訪問接口:為后臺數據庫連接提供數據庫連接池,并提供數據加密、解密服務;為本地文件和后臺文件訪問提供文件加密、解密、文件格式解析等服務。
2)后臺數據庫:為網絡版提供實例庫、雙語語料庫、詞典庫、項目文件等存儲,通過數據訪問接口提供的數據庫連接池和數據加密、解密,以及文件訪問接口實現(xiàn)數據交互。
3)本地文件存儲:為單機版提供實例、雙語語料、詞典、項目等數據的文件存儲方式,通過文件訪問接口實現(xiàn)數據加密、解密和交互。
3多語種輔助翻譯流程
多語種輔助翻譯系統(tǒng)網絡版為翻譯團隊協(xié)同工作提供服務,以實現(xiàn)漢語向維吾爾語、哈薩克語、柯爾克孜語的翻譯提供一對多的輔助翻譯功能。系統(tǒng)服務端提供了系統(tǒng)管理、詞典查詢、翻譯服務、項目管理等服務,其中,系統(tǒng)管理、詞典查詢和項目管理流程主要在客戶端完成,服務端提供數據更新和保存服務;翻譯服務流程主要在服務端完成,客戶端在輔助翻譯操作發(fā)送請求,調用該服務啟動流程。其流程如下所述。
3.1多語種輔助翻譯服務流程
多語種輔助翻譯的服務流程通過WCF服務接口,為系統(tǒng)客戶端提供服務。服務端啟動后,初始化各類服務,并創(chuàng)建服務監(jiān)聽線程;客戶端向服務端發(fā)送服務請求,請求類型包括系統(tǒng)管理請求、詞典查詢請求、翻譯服務請求、項目管理請求。服務端監(jiān)聽線程在接收到客戶端請求后,判斷請求類型,調用相應服務;當服務啟動后,接收服務參數,按照參數類型完成后臺數據庫操作,并返回結果。
如圖4所示,服務流程包含四個子流程,在服務調用完成后,服務端終止服務流程,繼續(xù)監(jiān)聽客戶端請求,等待下一次請求??蛻舳嗽诮邮盏椒祷氐臄祿?,繼續(xù)完成后續(xù)操作。
由于網絡版的數據和文件都存儲在服務器端,所以涉及數據更新和保存的操作都要通過服務請求和調用來完成。此外,客戶端每次啟動都會自動發(fā)出一個服務請求,查詢是否有新版本或功能更新的通知,一旦由更新信息則提示用戶需要更新系統(tǒng)。
3.2基于項目的翻譯流程
團隊協(xié)作的翻譯工程中涉及任務分配、人員分配、進度控制、工作審核等流程,針對超大型文檔采用文檔拆分、合并的方式完成任務分解,利用XML格式文件的標注特性,按照章節(jié)目錄完成文檔拆分和合并。具體流程如圖5所示。
圖4多語種輔助翻譯系統(tǒng)服務流程
在項目管理流程中,XML格式的中間文檔可以記錄拆分點和結束點在源文檔中的位置,通過標記記錄源文檔中的頁數、段落、行號,并按照這些標記位置組合新的目標語言翻譯文檔。在任務審核點,可以在任何位置做審核標記和批注,翻譯人員接收到審核后的任務文檔時可以通過標記查詢和瀏覽批注。當項目任務全部結束后,審核標記和批注將被過濾,并按照任務文檔的起止位置合成為目標語言的源文檔格式。
4總結與展望
本文首先簡介了機器翻譯的概念和輔助翻譯系統(tǒng)的功能,提出了當前輔助翻譯系統(tǒng)在應用中的不足之處,然后論述了多語種輔助翻譯系統(tǒng)的功能特點、對不足之處的解決方案,最后討論了系統(tǒng)的功能結構和翻譯流程。
多語種輔助翻譯系統(tǒng)采用.net框架實現(xiàn),提供自動翻譯模式和交互式輔助翻譯模式等兩種翻譯模式。系統(tǒng)為維吾爾語、哈薩克語和柯爾克孜語用戶提供了相應語種的操作界面,翻譯編輯器能夠完全支持維哈柯文的書寫習慣和顯示界面,使用簡單、方便,并提供了多種翻譯策略、一對多翻譯、雙向翻譯等特點輔助翻譯功能。系統(tǒng)操作界面如圖6所示。
在完成上述功能的基礎上,系統(tǒng)在未來的升級擴展中,將針對多語種擴展、語料庫共享、記憶庫擴充等方面做進一步的研究和開發(fā),從而提供更高的翻譯精確性、可靠性和易操作性。
圖5基于項目的翻譯工程管理流程
圖6多語種輔助翻譯系統(tǒng)
參考文獻:
[1]黃金柱,李青.基于大規(guī)模語料庫的多引擎語言翻譯模型的構建[J].洛陽:洛陽師范學院學報2010(2).
[2]馮志偉.自然語言機器翻譯新論[M].北京:語文出版社,1995.
[3]王海峰.機器翻譯技術及應用[J].中國計算機學會通訊,2008(2).
[4]錢多秀.計算機輔助翻譯[M].北京:外語教學與研究出版社,2011(3).
[5] Microsoft MSDN.Developing DPI-Aware Applications[EB/OL].http://msdn.microsoft.com.