袁小于
(重慶師范大學數(shù)學學院,重慶 沙坪壩 401331)
機器翻譯(Machine Translation,MT)是借助計算機程序?qū)⑽淖只蛘Z音從一種自然語言翻譯成另一種自然語言的技術.機器翻譯是早期人們研究自然語言識別的中心課題之一,是人工智能研究的重要成果,其歷史可以追述到上世紀的50年代初期.但是由于當時人們認為只要“找出兩種語言間的對應詞,然后經(jīng)過簡單的語法分析調(diào)整詞序就可以實現(xiàn)翻譯”[1],使機器翻譯的研究工作走入了死胡同,因為機器翻譯的結果很難達到預期的效果,以至于1966年美國科學院在一個報告中指出:“在可預見的將來,機器翻譯不會獲得成功”[1].
根據(jù)實際應用,機器翻譯可以簡單地分為文本翻譯和語音翻譯.文本翻譯是以詞-詞、句-句、篇-篇的模式實現(xiàn)翻譯任務的.語音翻譯則還得使用語音識別技術(Automatic Speech Recognition,ASR)和語音合成技術(Text To Speech,TTS)或者真人語音庫技術,才能從源語音生成目標語音,語音轉(zhuǎn)換時具有更高的靈活性和不規(guī)則性,比文本翻譯難度更大.相比文本翻譯的大概可用的情況,語音翻譯技術還遠遠沒有達到實用的階段.因此,本文限定討論機器翻譯就指文本機器翻譯,以下同.
根據(jù)機器翻譯獲得知識的方式,機器翻譯發(fā)展到現(xiàn)在可以分為兩類[2]:一類就是基于人工獲取知識的方法或者基于規(guī)則的方法,這是傳統(tǒng)的經(jīng)典機器翻譯方法;另一類是基于機器自動學習知識的方法,分為非參數(shù)方法(或?qū)嵗椒?與參數(shù)方法(或統(tǒng)計方法)兩種.下面以英漢機器翻譯為例回顧一下經(jīng)典機器翻譯技術中使用的各種技術.
經(jīng)典的基于規(guī)則的機器翻譯技術主要包括源語言的文本處理、詞典構成、文本分析,源語言到目標語言的詞典查詢翻譯,目標語言文本生成等技術.
文本處理技術主要是針對輸入的源語言文本,通過斷句和格式保留操作,把多句或整篇文章分成機器能夠處理的單元.
1.1.1 符號斷句處理技術
斷句處理主要是以代表整句結束信息的句號、問好、嘆號、省略號以及回車換行符號為標記,將文章切分出單句[3].
1.1.2 格語法文本處理技術
“格”指底層結構中,每一個名詞與跟它有關的動詞之間的句法語義關系.這種關系一經(jīng)確定就固定不變,不管他們經(jīng)過了什么轉(zhuǎn)換操作[4].
1.1.3 詞或短語切分技術
將句子切分為詞或短語,其中短語切分概率化技術,改變了其他切分技術認為所有的短語切分都是等概率的思想,提高了準確度[5].
1.1.4 格式保留處理技術
源語言文本中的特殊標記字符通常分隔了不同的單詞、句子,在原文意思的表達中起到很關鍵的作用.因此,在進行文本處理的時候,必須采用相應的辦法將這些符號保留,在翻譯成目標語言文本之后再插入對應的位置.
詞典是經(jīng)典機器翻譯系統(tǒng)的基礎資源,是進行句法分析、目標語言文本生成的依據(jù).可以說,一個詞典的好壞就決定了機器翻譯系統(tǒng)的優(yōu)劣.
1.2.1 一般機器翻譯詞典構成技術
詞典以詞項為中心,把以該詞項有關的短語、習語組織到同一詞條下,并編制有關索引,以利查詢.英漢機器翻譯詞典構成的基本結構如表1所示.
表1 英漢機器翻譯詞典基本結構
吳保民等在Matlink翻譯實驗機器中對各個字段的功能和原則做了初步的定義[6],詞典的索引采用了哈希散列算法.
1.2.2 格框架機器翻譯詞典技術
基于菲爾摩的格語法理論建立格框架,在格框架中不僅有語法信息,還有語義信息,且語義信息是整個框架的主體[4].一個格框架由一個主要概念和一個輔助概念構成.格框架以詞條的形式有機地編排于格詞典之中.
文本分析技術的功能和任務是解決源語言句子和目標語言句子的結構問題,即確定句子主謂賓等結構,以便確定詞與詞之間的關系使之構成短語,再確定短語之間的關系使之構成更大的短語或組成句子.
1.3.1 淺層句法(詞法)分析技術
淺層句法分析是指對源語言語句作詞性標注后所進行的短語級句法分析,而不是完整的句法結構分析,其結果稱為Chunk序列[7].郭永輝等給出了一種基于GLR算法的分析技術[8],在Matlink英漢機器翻譯系統(tǒng)的句法分析中發(fā)揮了穩(wěn)定的功能.
杜祝平等還給出了一種基于規(guī)則的詞法分析技術[5],該規(guī)則分為主詞類規(guī)則、個別詞規(guī)則和使用數(shù)學定理證明中的夾逼原理的規(guī)則.
1.3.2 整句句法分析技術
整句句法分析包括產(chǎn)生式通用部分處理和從句處理,主語部分分析,謂語部分分析及其他部分的分析,如費鯤采用的部分分析的思想,將一個句子分成幾個語法成分,分別進行分析,并給出句法樹[9].而馬芳等人則給出了一種基于最大熵基本原理的從句識別方法[10],結合了統(tǒng)計知識和語法規(guī)則,使模型訓練速度大大加快,識別精度更高.句法分析過程還可以采用依存語法和語則分析來進行,最后生成一棵帶短語信息的依存語法樹[3].
1.3.3 語義分析技術
此方法借助優(yōu)選語義學、語言成份的邏輯語義分析、黑板結構等理論,對語言翻譯過程中的語義分析,尤其對介詞多義詞等影響句子意思的部分進行系統(tǒng)分析,可以改善一般機器翻譯技術的翻譯效果[11].
在機器翻譯中,查閱翻譯詞典是一個經(jīng)常進行的行為,其查閱效率是影響翻譯速度的關鍵.因此,如果采用簡單順序搜索算法和二分查找算法,效果都非常的差,所以一般采用哈希表查詢方案[6],有3種實現(xiàn)方式,如表2所示.
表2 3種哈希算法實現(xiàn)方案
有關實驗表明,在64 K散列空間中,第三個方案的平均查找次數(shù)和最壞查找次數(shù)均最低,且在3次以內(nèi)查找成功的百分比最高.
語義排歧是機器翻譯必須要逐漸克服的困難之一.這個困難可以說最終影響了基于規(guī)則的機器翻譯技術的發(fā)展.
1.5.1 二元文法
對于有多個詞性的單詞,需要進行詞性消兼(歧)處理.采用二元文法的隱馬爾可夫模型和Viterbi算法來取最佳詞性[3],該方法通過查找概率庫字典,標注各結點單詞對應的詞性.
1.5.2 常識排歧法
首先對翻譯過程中源語言多義詞的詞義選擇是否符合常識給出一條形式化的標準,然后將人們在翻譯過程中排歧時所進行的邏輯推理歸結為一種機械的集合運算,使之易于機器操作,在此基礎上建立義項多元組的概念,利用此多元組來對多義詞的翻譯進行排歧[12].
1.5.3 其他排歧技術
還有選擇最常見含義法,利用詞類進行詞義排岐,基于選擇限制詞義排歧,基于共現(xiàn)特征的詞義排歧,無指導的詞義排歧,基于詞典的詞義排歧等等[13-14].
1.6.1 目標語言句法分析轉(zhuǎn)換技術
此階段需要運用上文提到的各種文本分析技術,按照目標語言的語義結構規(guī)律對運用機器翻譯出來的目標語言短語進行重新排序,即對分析階段產(chǎn)生的分析樹進行調(diào)整[7].
1.6.2 目標語言文本生成技術
利用html,xml等文本生成排版技術生成利于閱讀的目標語言文本.一個完整的機器翻譯系統(tǒng)如圖1所示.
圖1 經(jīng)典機器翻譯系統(tǒng)圖示
從一個詞的多個意思中選擇一個恰當?shù)囊馑己蛷亩鄠€同義或近義的詞中選擇恰當?shù)脑~都是機器翻譯難以圓滿解決的問題.在很多語言中,還有不少由兩個或兩個以上單詞組成的固定搭配,其中的每個單詞都有幾種不同的意思,而他們結合在一起構成一個搭配時,就會表示更多的可能不同于組成部分的意思.這幾種詞義選擇問題,都是限制機器翻譯準確性的重要因素[14-15].
從語言的內(nèi)部結構來說,很多情況下源語言和目標語言是兩種截然不同的語言.要想機器翻譯準確,就必須克服結構上的差異,以語義為基礎,在句法的輔助下完成翻譯過程.層次切分將直接影響句子中意群間的相互關系,如果不正確的切分,就會造成雖然單詞或短語的翻譯正確,但是整個句子的意思卻不合邏輯.也就是說,要恰當?shù)貙⒕渥忧蟹譃樽帧⒃~、短語、句子非常不容易.
各種語言中都有很多特有的表達方式或固定結構,如英語中有主語從句、非限定性定義從句、賓語從句等,又進一步加大了英漢翻譯的難度[14].
語言是表達思想和情感的工具,除非是純粹的說明性文字,一般的文章中都或多或少的蘊涵作者的喜怒憂思悲恐驚等情愫.而機器通過詞典對應查詢,按照規(guī)則機械地組合拼湊的文字,很難讓人讀出原作意境.表現(xiàn)原作的情感連人工翻譯都難于完美再現(xiàn),何況是冷冰冰的機器!
人類語言的發(fā)展從最初的無序到憑經(jīng)驗使用,直到系統(tǒng)總結出各種語言的最適合的表達情感和思想的方法,這種方法就是規(guī)則,即語法.基于規(guī)則的經(jīng)典機器翻譯技術雖然發(fā)展了50多年,現(xiàn)在各種技術也比較成熟,但因為有前節(jié)所述天生的弱點,其翻譯效果還遠遠沒有達到令人滿意的地步.因此,在語言形式化方法的進一步發(fā)展、計算機運算處理能力的大幅提高、人工智能真正具有“智能”以及人們對人腦包括人腦學習機能的更多認識的同時,有必要尋求新的翻譯轉(zhuǎn)換手段,才能使機器翻譯質(zhì)量逼近人工翻譯水平.而前面提到的基于機器自動學習知識的機器翻譯方法,使用非參數(shù)方法(或?qū)嵗椒?與參數(shù)方法(或統(tǒng)計方法)兩種手段開發(fā)的各種新的翻譯系統(tǒng),翻譯效果在很大程度上彌補了經(jīng)典機器翻譯的部分缺陷.但是,實驗和實踐都可以看出,這種方法也不是完美的,在對付長句子、特殊句子以及需要合理表達情感的時候,同樣也是無能為力的.所以,現(xiàn)在實際的處理方式就是綜合使用這幾種翻譯技術于一個系統(tǒng)中,取長補短,雖然效果逐漸可以達到特定領域的實用水平,不過仍然離完美甚遠.
[1]王萬森.人工智能原理及其應用:第2版[M].北京:電子工業(yè)出版社,2007:234.
[2]趙紅梅,劉群.機器翻譯及其評測技術簡介[J].術語標準化與信息技術,2010(1):36-41.
[3]胡春靜,韓兆強.英漢機器翻譯引擎的研究與實現(xiàn)[J].計算機工程與應用,2003(29):148-150.
[4]王祁.格語法在英漢機器翻譯系統(tǒng)中的應用研究[J].東北大學學報:社會科學版,2005,7(6):455-457.
[5]杜祝平,吳保民,張連海,等.英漢機器翻譯系統(tǒng)中基于規(guī)則的詞法分析[J].信息工程大學學報,2003,4(3):89-92.
[6]吳保民,杜祝平,張連海,等.Matlink英漢機器翻譯試驗系統(tǒng)中詞典的存儲結構及搜索算法[J].信息工程大學學報,2001(4):70-74.
[7]周會平,王挺,陳火旺.用LR算法分析漢語的語法關系[J].軟件學報,1999,10(9):967-973.
[8]郭永輝,吳保民,王炳錫.一個基于GLR算法的英漢機器翻譯淺層句法分析器[J].計算機工程與應用,2004(34):124-129.
[9]費鯤.機器翻譯中句法分析的設計與實現(xiàn)[J].計算機工程與設計,2006,27(15):2832-2834.
[10]馬芳,吳保民,王炳錫.一種面向英漢機器翻譯的從句識別方法[J].信息工程大學學報,2006,7(2):193-196.
[11]戚世遠.英漢機器翻譯中的語義分析[J].計算機應用與軟件,1993(4):54-58.
[12]段綺麗.機器翻譯中詞義的常識排歧[J].重慶大學學報:自然科學版,2005,28(3):69-71.
[13]魯孝賢.機器翻譯語義排歧的方法[J].中國科技翻譯,2007(4):22-25.
[14]王祁,鄒冰.現(xiàn)行英漢機器翻譯系統(tǒng)存在的問題及解決策略[J].東北大學學報:社會科學版,2003,5(5):388-390.
[15]湯聞勵.英漢機器翻譯的“可能”與“不可能”[J].廣東職業(yè)技術師范學院學報,2002(2):84-88.