杜玲莉,紀(jì)再祥,周 宏,楊繼唐,王 俐
(1.武漢理工大學(xué) 外國語學(xué)院,湖北 武漢430063;2.武漢航海職業(yè)技術(shù)學(xué)院,湖北 武漢430062;3.武漢交通職業(yè)技術(shù)學(xué)院,湖北 武漢430062)
HNC即概念層次網(wǎng)絡(luò)(Hierarchical Network of Concepts),它是黃曾陽創(chuàng)立的用于描述自然語言理解的理論框架。該框架以傳統(tǒng)國學(xué)研究和現(xiàn)代語言學(xué)研究成果為基礎(chǔ),其核心目標(biāo)是建立一種自然語言的計(jì)算機(jī)表述和處理模式,使機(jī)器能夠真正實(shí)現(xiàn)模擬人腦的語言感知功能。[1]它以語義表達(dá)為方向,著眼于深層次的理解,沖破了以前相關(guān)理論基于文本語言形式的句法分析思路的局限性,表達(dá)呈現(xiàn)出概念化、層次化和網(wǎng)絡(luò)化的特征。它面向整個(gè)自然語言理解,建立了強(qiáng)大而完善的語義描述體系。其內(nèi)容涵蓋了語句處理、句群處理、篇章處理、短時(shí)記憶向長時(shí)記憶擴(kuò)展處理、文本自動(dòng)學(xué)習(xí)處理等方面?!霸诳茖W(xué)上為認(rèn)知科學(xué)、語言學(xué)與人工智能的研究提供了一個(gè)全新的理論框架”[2]。HNC理論模擬人腦的認(rèn)知機(jī)制,特色鮮明,在自然語言理解領(lǐng)域獨(dú)領(lǐng)風(fēng)騷,因其在計(jì)算機(jī)理解人類自然語言方面開拓出的新路子而成為了國內(nèi)目前自然語言理解和處理的三大流派之一。
該理論將人腦的認(rèn)知結(jié)構(gòu)劃分為局部和全局兩個(gè)聯(lián)想脈絡(luò),而語言深層(即語言的語義層面)的根本問題正是對(duì)聯(lián)想脈絡(luò)的表達(dá)。根據(jù)HNC理論,全球6000多種人類的自然語言之所以能相互理解并翻譯,是由于人類大腦中存在著一個(gè)概念空間,這正是人類賴以認(rèn)識(shí)世界和進(jìn)行思維活動(dòng)的基礎(chǔ)。而作為整個(gè)概念空間中的一個(gè)子空間,語言概念空間與自然語言的理解以及運(yùn)用都息息相關(guān)。雖然自然語言空間呈現(xiàn)出多種多樣的形態(tài),但人類卻有著共同的語言概念空間。兩者相互對(duì)應(yīng),構(gòu)成果與因、流與源的關(guān)系。前者是后者的外在表現(xiàn)形式,兩個(gè)空間之間存在著多對(duì)一的映射關(guān)系。HNC理論認(rèn)為人類語言之間的翻譯可以解釋為將一種自然語言空間映射到另一種自然語言空間的過程。該過程可分為兩個(gè)階段:第一階段由源語言向HNC語言概念空間映射,源語言的語詞和語句將分別映射為HNC概念以及句類表示符號(hào);而在第二階段中,語言概念空間將向目標(biāo)語言進(jìn)行反映射,即源語言中的HNC概念和句類表示符號(hào)反映射到目標(biāo)語,成為目標(biāo)語中的語詞和語句(如圖1所示)。[3]
圖1 HNC語言空間映射模型
在這個(gè)模型中,第一部分即是源語分析過程或翻譯理解過程,而第二部分則是目標(biāo)語的生成過程或翻譯的形成過程。兩者的中間存在一個(gè)過渡處理過程,即運(yùn)用HNC概念和符號(hào)表述的過程。它包含句類轉(zhuǎn)換和語句格式轉(zhuǎn)換,即從語義塊感知來辨識(shí)句類,并對(duì)句類進(jìn)行假設(shè),然后依據(jù)句類先驗(yàn)知識(shí)對(duì)語義塊的構(gòu)成作進(jìn)一步的分析,并據(jù)此來對(duì)語句中存在的發(fā)音模糊、音詞轉(zhuǎn)換模糊、詞的多義模糊、語義塊構(gòu)成的切分模糊、指代冗缺模糊等進(jìn)行消解,涉及語義塊構(gòu)成變換、語義塊主輔變換以及輔塊和小句的排序調(diào)整等。這一系列的過渡處理是生成高質(zhì)量翻譯的必要條件。
多年來,諸如中心動(dòng)詞的辨識(shí)、語序的確定、詞義模糊、未登錄詞的識(shí)別等這些困擾漢語理解和人工語言處理的多個(gè)難題終于在HNC理論的句類分析方法中找到了解決方案。有了句類分析對(duì)源語正確理解為前提,如何進(jìn)一步提高翻譯的精度和質(zhì)量則依賴于對(duì)反映射知識(shí)庫的更廣泛和深入的挖掘。
科技文獻(xiàn)因其強(qiáng)烈的專業(yè)性而對(duì)翻譯的有效性提出了較高要求。科技翻譯研究也走過了基于規(guī)則、基于實(shí)例、基于統(tǒng)計(jì)的不同階段。關(guān)于文本理解的研究對(duì)象和表述,從語詞、語句,再到語篇,語言學(xué)和人工智能學(xué)界多年來爭論不休,語篇語義的理解和表達(dá)成為了相關(guān)研究的瓶頸。那么,如何從語篇角度更全面地理解文本,從而有效提高翻譯時(shí)效和質(zhì)量。
長期的語言智能和翻譯實(shí)踐表明語篇的理解不等同于語詞或語句意義的簡單相加。如果說HNC理論中語義塊概念為此提供了理論支持,那么自動(dòng)文摘技術(shù)則為這一問題的解決提供了現(xiàn)實(shí)有效的途徑。自動(dòng)文摘就是利用計(jì)算機(jī)從原始文獻(xiàn)中自動(dòng)地提取文本的主要內(nèi)容。面對(duì)信息時(shí)代大量的科技文獻(xiàn),對(duì)其進(jìn)行快速提煉和濃縮是提高信息資源獲取效率的有效手段。這一技術(shù)實(shí)際上將文本語義的理解和表述推向了極致。筆者大膽設(shè)想,科技文本翻譯可以從這里起步。這樣做的好處在于:借助相關(guān)技術(shù),不僅翻譯工作者可以大大提高翻譯理解階段的準(zhǔn)確度和效率,而且為機(jī)器翻譯領(lǐng)域研究減少部分因復(fù)雜的語言深層結(jié)構(gòu)分析所耗精力。
自動(dòng)文摘研究在過去50多年發(fā)展歷史中吸引了世界上許多國家的學(xué)者投入研究,其領(lǐng)域橫跨了計(jì)算機(jī)科學(xué)、人工智能、情報(bào)科學(xué)和語言學(xué)等多個(gè)學(xué)科,并取得了很大的進(jìn)步。目前這方面的研究已形成了一定的理論與方法,其中,基于句子概率統(tǒng)計(jì)、文本結(jié)構(gòu)、領(lǐng)域理解、信息抽取和四種自動(dòng)文摘技術(shù)成為了主流方法。它們共同的設(shè)計(jì)理念都離不開對(duì)自然語言的分析和技術(shù)處理兩部分。這四種主流自動(dòng)文摘技術(shù)應(yīng)用中的技術(shù)難度、應(yīng)用領(lǐng)域、生成的文摘質(zhì)量方面各有優(yōu)劣,因此不少學(xué)者提出建議——采用一種綜合式的面向非受限領(lǐng)域的自動(dòng)文摘方法,既要從微觀上考慮文本的表面結(jié)構(gòu),又要從宏觀上把握篇章結(jié)構(gòu)特征。即文本形式特征將作為衡量文章中句子權(quán)值的基本方法,用篇章結(jié)構(gòu)分析替代深層的語義分析,從而避免機(jī)械抽取文摘內(nèi)容會(huì)遺漏的問題,最后引入句法和語義分析,對(duì)所抽取文摘句進(jìn)行可讀性的潤色加工,解決文摘簡潔性和連貫性不足的問題。目前,較新的研究成果就來自這種綜合式的思路。
根據(jù)HNC理論和自動(dòng)文摘技術(shù),科技文獻(xiàn)新的翻譯模式設(shè)計(jì)如下(見圖2):
1.文獻(xiàn)理解。首先,使用ParaConc對(duì)待譯科技文獻(xiàn)(Ts)進(jìn)行預(yù)處理——分詞處理,得到用于建立文摘的向量空間模型(VSM)的段落和詞。[4]采用向量空間模型將文本的篇章結(jié)構(gòu)進(jìn)行自動(dòng)分析,根據(jù)語義相似度建立段落間的關(guān)系圖,該段落與主題的關(guān)系就是段落的重要度,提取各段落的重要度信息,使用標(biāo)題或聚類的方法將意義相近的段落歸納為同一語義塊;依據(jù)文本中詞的頻度、句子位置、提示語等形式特征計(jì)算語義塊的權(quán)值,分別從各語義塊中提取權(quán)值較高的句子作為文摘句;從句法和語義兩方面對(duì)提取的文摘句進(jìn)行分析,解決諸如指代詞不明、表述冗余、詞句不連貫等問題,最終的文摘將具備簡潔、通順、可性讀強(qiáng)等特點(diǎn)。[5]
圖2 科技文獻(xiàn)翻譯模式圖
2.計(jì)算機(jī)輔助翻譯(Computer Assisted Translation,CAT)。將文獻(xiàn)理解階段所獲文摘進(jìn)行中心句和關(guān)鍵詞提取,使用Yaxin或Trados等機(jī)輔翻譯軟件進(jìn)行翻譯前預(yù)處理,檢索并確定中心句和關(guān)鍵詞的譯法,利用語料對(duì)齊技術(shù)將確定后的雙語對(duì)應(yīng)翻譯文本導(dǎo)入相應(yīng)的雙語數(shù)據(jù)庫;使用翻譯記憶庫(Translation Memory,TM)進(jìn)行機(jī)器預(yù)翻譯(Machine Translation,MT),得到初步的由源文本(Ts)映射到目標(biāo)語的翻譯文本(Tt);然后進(jìn)行最后也是最關(guān)鍵的由翻譯人員進(jìn)行的細(xì)致的修正過程(Human Translation,HT),從而得到翻譯初稿。修正涉及詞語、句法、語篇等各個(gè)層次,特別是語際分詞錯(cuò)誤、歧義、固定習(xí)語等機(jī)器翻譯的盲點(diǎn)。
3.評(píng)估修正(Evaluation &Correction,EC)。對(duì)翻譯譯文的評(píng)價(jià),如果通過人工實(shí)現(xiàn)則人為因素影響很大,并且對(duì)評(píng)價(jià)人員的要求也很高,不僅實(shí)現(xiàn)起來困難,而且還導(dǎo)致了評(píng)價(jià)標(biāo)準(zhǔn)的不一致。于是設(shè)計(jì)自動(dòng)化、規(guī)范化的評(píng)價(jià)方法便成為許多學(xué)者的研究目標(biāo)。各種研究成果紛呈,基本設(shè)計(jì)方向是從TM語料庫中獲取翻譯知識(shí),建立n元語言模型,在此基礎(chǔ)上為譯文的任意句子評(píng)分。[6]
根據(jù)HNC理論,語際翻譯實(shí)際上就是一個(gè)從源語言到目標(biāo)語的概念映射過程,所以系統(tǒng)評(píng)估的標(biāo)尺是語際映射的速度和準(zhǔn)確程度。映射規(guī)則的復(fù)雜程度決定了映射的速度,而準(zhǔn)確程度的評(píng)估參照物則是通過比對(duì)機(jī)輔翻譯文本與專家翻譯文本的相符度。兩個(gè)文本越相近,翻譯質(zhì)量就越高。這里包含了評(píng)估系統(tǒng)的兩個(gè)重要指標(biāo):準(zhǔn)確率和召回率。
召回率是指所有機(jī)輔翻譯Tt與所有待譯的文本數(shù)的比率,其表達(dá)式如下:
召回率(Recall)=機(jī)輔翻譯Tt中正確翻譯句子數(shù)/所有待譯的句子數(shù)
準(zhǔn)確率是指所有機(jī)輔翻譯Tt中與專家翻譯的文本相吻合的句子所占的比率,其表達(dá)式如下:
準(zhǔn)確率(Precision)=機(jī)輔翻譯Tt中正確翻譯句子數(shù)/專家翻譯的句子數(shù)
召回率和準(zhǔn)確率是評(píng)估翻譯質(zhì)量的兩個(gè)重要方面,必須將兩者進(jìn)行綜合考慮。
此外,Neubert等將語篇內(nèi)部和外部屬性具體概括為七個(gè)方面:意向性、可接受性、情景性、信息性、互文性、連貫性和銜接性。[7]建立評(píng)估模型時(shí),文本語篇層面的這些重要特征可作為相應(yīng)參數(shù),并可根據(jù)不同類型的Ts調(diào)整各參數(shù)的權(quán)重。
為檢驗(yàn)該模型的可行性,筆者分別從PNAS(Proceedings the National Academy of Science of the USA)和中國知網(wǎng)上隨機(jī)抽取了24篇專業(yè)期刊文章進(jìn)行了對(duì)照實(shí)驗(yàn)。其中,自然科學(xué)類(涉及生物、化學(xué)等專業(yè))和人文類(包括管理、教育等專業(yè))各占50%,中英文各50%。對(duì)照組為掌握自動(dòng)文摘(AA)生成和計(jì)算機(jī)輔助翻譯軟件的翻譯者以及普通的翻譯者。試驗(yàn)方式是將24篇文章給3組被試分別用傳統(tǒng)方式(Tr)、計(jì)算機(jī)輔助翻譯方式(CAT)、文摘自動(dòng)提取加計(jì)算機(jī)輔助(AA+CAT)模式各自進(jìn)行翻譯。并將所譯文檔建成小型數(shù)據(jù)庫,分析結(jié)果如下(h/p:小時(shí)/篇):
表1
表2
通過比較,發(fā)現(xiàn)AA+CAT模式在準(zhǔn)確率和速度方面與其他模式相比有明顯優(yōu)勢,召回率與CAT模式區(qū)別不大,但比Tr模式改善不少。說明從整體效率而言,計(jì)算機(jī)輔助翻譯比傳統(tǒng)翻譯方式先進(jìn),而采用自動(dòng)文摘技術(shù)對(duì)文本進(jìn)行譯前處理又比單純使用計(jì)算機(jī)輔助翻譯技術(shù)的效率有所提高。當(dāng)然,這一結(jié)果也可能因被試的專業(yè)背景和掌握相關(guān)技術(shù)的熟練程度等因素而受影響。另外由于條件限制,試驗(yàn)樣本范圍有限,代表性有待進(jìn)一步驗(yàn)證。
[1]黃曾陽.HNC理論與自然語言語句的理解[J].中國基礎(chǔ)科學(xué),1999,1(2):83-88.
[2]許嘉璐.現(xiàn)狀和設(shè)想——試論中文信息處理與現(xiàn)代漢語研究[J].中國語文,2000(6):491.
[3]張克亮,基于HNC理論的漢英機(jī)器翻譯策略研究[J].解放軍外國語學(xué)院學(xué)報(bào),2003(5):60-64.
[4]郭王箐,萬敏.面向非受限領(lǐng)域的綜合式自動(dòng)中文文摘方法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2002,42(1):7-9.
[5]錢多秀.計(jì)算機(jī)輔助翻譯[M].北京:外語教學(xué)與研究出版社,2011:139-142.
[6]張劍,吳際,周明.機(jī)器翻譯評(píng)測的新進(jìn)展[J].中文信息學(xué)報(bào),2003,17(6):1-8.
[7]Neubert A,Gregory M S.Translation as Text[M].Kent:Kent State University Press,1992:117.
湖北工程學(xué)院學(xué)報(bào)2012年6期