盧美華+王巧玲
摘要:本文嘗試把英漢平行語料庫語義分析引入翻譯教學(xué)中。通過對語料庫不同層次的標(biāo)注,包括語法標(biāo)注、淺層語義標(biāo)注和深層語義標(biāo)注,設(shè)計相應(yīng)的英漢翻譯教學(xué)系統(tǒng),并通過在實際教學(xué)中運(yùn)用比較系統(tǒng)的教學(xué)效果,改進(jìn)教學(xué)系統(tǒng)。為了推廣該系統(tǒng)的應(yīng)用,該系統(tǒng)也可以部署在Internet上,采用基于B/S(瀏覽器/服務(wù)器)結(jié)構(gòu),便于系統(tǒng)維護(hù)和用戶使用。
關(guān)鍵詞:英漢平行語料庫;語義分析;翻譯教學(xué);B/S結(jié)構(gòu)
目前基于語料庫進(jìn)行語言研究和翻譯研究都取得了一定的成果。特別是語料庫方面,國外當(dāng)代語料庫有共建英語語料庫(COBUILD)、朗文語料庫(LANGMAN)、英語國家語料庫(BNC)以及國際英語語料庫(ICE)為代表的超級語料庫(mega-corpora),它們的容量更大,收詞量大都上億,覆蓋面更寬,應(yīng)用更廣。東北大學(xué)自然語言處理實驗室的NiuTrans是目前國內(nèi)唯一一套開源的統(tǒng)計翻譯系統(tǒng),該系統(tǒng)提供了英漢平行語料庫,但是只進(jìn)行語法標(biāo)注,沒有進(jìn)行語義標(biāo)注。對于科學(xué)研究和教學(xué)應(yīng)用,可以對該語料庫進(jìn)行深加工,標(biāo)注淺層和深層語義信息,這樣可以應(yīng)用在教學(xué)中。
以上所有研究都是基于經(jīng)過語法和淺層語義標(biāo)注的基礎(chǔ)上的平行語料庫進(jìn)行的。由于缺少對語料庫進(jìn)行深層語義分析,給研究和應(yīng)用帶來了局限性。
一、現(xiàn)有語義分析工具
對選取的語料進(jìn)行語法、語義標(biāo)注,由于目前對語料庫的語法標(biāo)注技術(shù)已經(jīng)成熟,可以運(yùn)用相應(yīng)的軟件來進(jìn)行,可以利用斯坦福大學(xué)的NLP小組的Parser來進(jìn)行英語和漢語句子的語法標(biāo)注,然后對語料進(jìn)行英語語義和漢語語義分析。
運(yùn)用英語語義分析網(wǎng)上資源WordNet、FrameNet和VerbNet進(jìn)行英語深層語義標(biāo)注,即語義框架識別和標(biāo)注。由于目前漢語還沒有相應(yīng)的WordNet、FrameNet和VerbNet網(wǎng)上語義分析資源,通過查找漢語對應(yīng)詞語得到相應(yīng)的已經(jīng)標(biāo)注好的英語句子,通過英語句子的語義框架來標(biāo)注漢語句子的語義框架,最后由人工來校對、編輯。
在漢語語料庫語言學(xué)研究中,基于詞的研究取得了令人滿意的成果,如哈爾濱工業(yè)大學(xué)的開放自然語言平臺(Language Technology Platform,LTP)。LTP制定了基于XML的語言處理結(jié)果表示方法,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊,其中包括分詞(CRFWordSeg)、詞性標(biāo)注(POSTagging)、命名實體識別(NER)、依存句法分析(GParser)、詞義消歧(WSD)和語義角色標(biāo)注(SRL)六項中文處理核心技術(shù)以及基于動態(tài)鏈接庫(Dynamic Link Library, DLL)的應(yīng)用程序接口、可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)(Web Service)的形式進(jìn)行使用。
二、 語料庫語義分析在教學(xué)中的應(yīng)用
傳統(tǒng)翻譯教學(xué)以教師為中心,無法很好調(diào)動學(xué)生的積極性。借助語料庫進(jìn)行翻譯教學(xué),學(xué)生通過探索式、發(fā)現(xiàn)式和“做中學(xué)”的活動,發(fā)現(xiàn)、總結(jié)和歸納語言運(yùn)用的特征和規(guī)律,有利于培養(yǎng)學(xué)生解決問題的能力和學(xué)習(xí)能力。
把語料庫技術(shù)引入翻譯教學(xué)中,對于培養(yǎng)學(xué)生的自主學(xué)習(xí)能力、提高學(xué)生學(xué)習(xí)興趣有很大的幫助。對教育信息化是一個有益的嘗試。
三、 系統(tǒng)實現(xiàn)技術(shù)
本系統(tǒng)擬采用基于Internet網(wǎng)絡(luò)的B/S結(jié)構(gòu)來實現(xiàn)。用戶通過各種瀏覽器使用該系統(tǒng),不需要在本機(jī)上安裝任何插件,這樣方便用戶使用。服務(wù)器端使用Apache或者Nginx作為網(wǎng)絡(luò)服務(wù)器,使用Python語言、MySQL數(shù)據(jù)庫實現(xiàn)系統(tǒng)功能。語料庫可使用現(xiàn)有的語料庫,也可以用網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)獲取我們需要的數(shù)據(jù),組成語料庫。用WordNet、VerbNet和FrameNet進(jìn)行語義分析,最后用MySQL進(jìn)行數(shù)據(jù)管理,包括建立數(shù)據(jù)庫、查詢、備份和更新。Python語言具有豐富的自然語言處理工具,并且具有Web編程能力。所有工具都能夠從網(wǎng)絡(luò)上免費(fèi)獲得,不涉及版權(quán)問題。
由于目前對漢語語料庫進(jìn)行深層語義分析還處于探索階段,本課題通過平行語料庫漢語詞語所對應(yīng)的英語句子的語法信息、淺層語義信息和深層語義信息,來進(jìn)行漢語深層語義標(biāo)注,是一個創(chuàng)新。
參考文獻(xiàn):
[1]王克非.雙語平行語料庫在翻譯教學(xué)上的用途[J]. 外語電化教學(xué),2004(06).
[2]秦洪武,王克非.對應(yīng)語料庫在翻譯教學(xué)中的應(yīng)用:理論依據(jù)和實施原則[J]. 中國翻譯,2007(05).
作者簡介:盧美華,北京農(nóng)業(yè)職業(yè)學(xué)院副教授,研究方向:計算機(jī)自然語言處理,包括語料庫、機(jī)器翻譯和相關(guān)程序設(shè)計。