王斯日古楞, 斯琴圖, 那順烏日圖
(1. 內(nèi)蒙古師范大學(xué) 計算機(jī)與信息工程學(xué)院, 內(nèi)蒙古 呼和浩特 010022;2. 內(nèi)蒙古師范大學(xué) 網(wǎng)絡(luò)中心, 內(nèi)蒙古 呼和浩特 010022;3. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院, 內(nèi)蒙古 呼和浩特 010022)
關(guān)于漢蒙機(jī)器翻譯,我們曾經(jīng)做過基于規(guī)則的研究[1],基于實(shí)例的研究[2]和基于短語的統(tǒng)計方法的研究[3]。為了充分利用各種機(jī)器翻譯方法的優(yōu)點(diǎn),我們正在開展基于混合策略的漢蒙機(jī)器翻譯系統(tǒng)的研究。在漢蒙統(tǒng)計機(jī)器翻譯研究的實(shí)驗(yàn)中,經(jīng)過分析,發(fā)現(xiàn)有大量的量詞翻譯錯誤。例如:對于下面帶有量詞的句子的翻譯存在問題如下(注:由于我們試驗(yàn)中使用的蒙古文語料全部是內(nèi)蒙古大學(xué)拉丁轉(zhuǎn)寫形式,所以本文中出現(xiàn)的蒙古文也直接使用了拉丁形式):
(1) 輸出:SIREGEN DEGER_E TALBIJV BAI H0YAR TVS T0LI-DV
問題:將量詞“本”翻譯成其代詞意義,如“本文內(nèi)容:TVS HICIYEL-UN AGVLG_A”中“本”被翻譯成“TVS”,而“兩本詞典”應(yīng)該翻譯為“H0YAR DEBTER T0LI”或“H0YAR T0LI”,后一種翻譯中量詞可以省略。
(2) 輸入:這是一只銀手鐲
輸出:ENE B0L NIGE LE MONGGON BAGVV
問題:“一只銀手鐲”中量詞“只”的翻譯應(yīng)該為空,就是“NIGE MONGGON BAGVV”,而系統(tǒng)譯文中將翻譯成“LE”,與“只有”中的含義類似。
為了解決這類量詞翻譯錯誤,我們引入了量詞表。具體做法是:首先將語料中出現(xiàn)的所有量詞抽出來,之后,將這些詞翻譯成蒙文,建立漢蒙量詞對應(yīng)表,然后在對漢語分詞同時對其進(jìn)行詞性標(biāo)注,根據(jù)標(biāo)注選出量詞進(jìn)行翻譯。最后將帶翻譯的文本輸入到解碼器進(jìn)行解碼。
漢語語法的一個重要特點(diǎn)就是量詞非常豐富[4],而有些語言(如英語)中沒有量詞,這增加了漢外機(jī)器翻譯的復(fù)雜性?!冬F(xiàn)代漢語語法信息詞典》中一共收錄了256個量詞。在《現(xiàn)代漢語語法信息詞典詳解》[5]中對漢語量詞的描述為:
(1) 量詞是放在數(shù)詞或指示代詞“這”、“那”后面的黏著詞。數(shù)詞與量詞組合而成的數(shù)量詞組是體詞性的,量詞還有區(qū)分名詞類別的作用。量詞重疊能指代名詞。
(2) 量詞分名量詞,時量詞和動量詞三個小類。名量詞又分為個體量詞,度量詞、集體量詞、種類量詞、不定量詞、容器量詞、成形量詞、倍率量詞等子類。
(3) 度量詞(“公斤、米”)和個體量詞(“匹、頭、棵”)是典型的量詞。
(4) 多數(shù)容器量詞(“碗、桶、車”等)是由名詞兼的。
(5) “些、點(diǎn)兒”是不定量詞,它們前面的數(shù)只能是“一”。
(6) “片、塊、股”等是成形量詞,一部分成形量詞(“攤、堆、捆”)是動詞兼的。
(7) “倍、成、分”等量詞總接在數(shù)詞后使用。
(8) 借用名詞(“省、市、縣、班、排、連、頭、臉”等)作臨時量詞的現(xiàn)象很普通。詞典中不可能將這些名詞全做為量詞收入,而在名詞庫中設(shè)置“臨量”的屬性字段。
蒙古語中也有量詞。它是用來表示事物和行為的計量單位的詞[6]。蒙古語量詞也和其他語言一樣,有固定量詞和臨時量詞之分[7]。像ALDA(度)、DELIM(半度) 、IMAHV(寸)是固有詞,JING(斤)、LANG(兩)、KILVGRAM(公斤)等漢語借詞和國際通用量詞,ATHV (把)、GAJAR(里)等屬兼類固定量詞。AYAG_A(碗),DVSVL(滴)、 JAGVN(世紀(jì))等則屬臨時量詞。蒙古語量詞按其意義可分為度量詞(ALDA度)、時量詞(H0N0G晝夜)和集合量詞(SURUG群)。在蒙古語語法信息詞典量詞分庫中,按照信息處理用蒙古文詞語標(biāo)記集國家標(biāo)準(zhǔn),將蒙古文量詞分為名量詞(Qn)、時間量詞(Qc)和動量詞(Qv)三類。
蒙古語語法信息詞典量詞分庫中共收錄了144個量詞。漢語和蒙古語中雖然都有量詞,但是這兩種語言中的量詞并不是一一對應(yīng)的,在對漢語量詞和蒙古語量詞對應(yīng)關(guān)系進(jìn)行研究的基礎(chǔ)上,我們構(gòu)建了漢蒙量詞翻譯表。
文獻(xiàn)[8]把基于TBED自動獲取的規(guī)則應(yīng)用在漢英機(jī)器翻譯的數(shù)量詞翻譯中,提高了系統(tǒng)翻譯性能。在漢蒙機(jī)器翻譯中我們提出用量詞表來解決漢蒙量詞翻譯問題,我們首先構(gòu)造了漢蒙兩次對應(yīng)表。首先收集了漢語中出現(xiàn)的量詞。除了《現(xiàn)代漢語語法信息詞典》中的量詞外,我們也從語料庫中抽取了部分臨時量詞。語料庫主要是使用了北京大學(xué)的《人民日報》一個月的標(biāo)注語料庫。通過程序我們對《人民日報》語料中出現(xiàn)的量詞進(jìn)行了統(tǒng)計分析。結(jié)合語法信息詞典和語料庫的統(tǒng)計我們構(gòu)造了漢語的量詞表,在此基礎(chǔ)上通過大量的實(shí)例分析給出了相應(yīng)蒙古文譯文。在具體翻譯時出現(xiàn)的問題及其解決方法如下:
(1) 一對一關(guān)系:漢語中的大多數(shù)度量詞在蒙古語中都有相應(yīng)的譯文,而且翻譯是一一對應(yīng)關(guān)系,只要在語料中出現(xiàn)過,翻譯結(jié)果就應(yīng)該正確,例如:公斤(KIL0gRAM)、千伏(KIL0W0Lt)、海里(MILI)、瓶(L0NGH0)等。度量詞的翻譯不能省略。我們把這類量詞收集后放到量詞表中直接翻譯。在表1 中給出了部分度量詞及其翻譯。
(2) 一對多關(guān)系:有些漢語量詞對應(yīng)到蒙語中有多個譯文,就是一對多的情況,如表1所示。
表1 漢蒙量詞翻譯中一對多示例表(一對多)
續(xù)表
對于一對多的量詞,我們把他們從量詞表中去掉,將它的翻譯任務(wù)留給統(tǒng)計解碼器,解碼器將根據(jù)概率值進(jìn)行翻譯。為了保證其中每個量詞的多個可能的譯文都在短語表中出現(xiàn),我們將一對多的量詞的每個量詞的可能翻譯以短語對的形式提供給雙語平行語料庫。
(3) 一對零關(guān)系:在漢語中量詞非常豐富,并且在表示數(shù)量的時候一般要求必須使用。但是在漢語中有些使用量詞的場合對應(yīng)蒙古語中不用量詞。對這些量詞我們可以把它們看成是空對應(yīng),即漢語中的量詞對應(yīng)的蒙古文譯文是空的。翻譯時我們把這類量詞用空串替換就可以。例如:“一個人”翻譯成 “NIGE HOMON”,“三輛車”翻譯成“GVRBAN TERGE”,“兩只老鼠”翻譯成“H0YAR HVLVGAN_A”,其中的量詞“個”、“輛”和“只”在蒙古語譯文中是不用翻譯的。
(4) 多對一關(guān)系:在翻譯中,有多個漢語量詞對應(yīng)到同一個蒙古語量詞的情況,就是多對一的情況。例如:漢語中的量詞“伙、派、批、章、幫、集”等都翻譯成蒙古文中的 “BOLOG”;“樣、種、樁” 等都翻譯成蒙古文中的 “JUIL”;“遍、次、回、架次、起、趟” 等都翻譯成蒙古文中的 “VDAG_A”。對于多對一的情況,我們在量詞翻譯表中直接給出譯文進(jìn)行翻譯就可以。
(5) 在漢語中大多數(shù)量詞可以重疊,而且重疊后的量詞出現(xiàn)在數(shù)詞后面時依然是量詞。對此我們在翻譯時,在相應(yīng)譯文后加一個BURI(或NIGEBURI)進(jìn)行翻譯即可。但是重疊后的量詞一般很少在數(shù)詞后出現(xiàn)。
為了解決量詞翻譯錯誤,我們在預(yù)處理中對量詞進(jìn)行了翻譯。為此我們設(shè)計和實(shí)現(xiàn)了量詞處理模塊。算法描述如下:
輸入:漢語句子;
處理: (1) 對句子進(jìn)行切分和詞性標(biāo)注;
(2) 在普通量詞翻譯表中查找句子中所有量詞;
(3) 如果找到,就根據(jù)翻譯表進(jìn)行翻譯;
輸出:量詞翻譯后的句子。
其中,找出所有量詞是指根據(jù)量詞的概念,出現(xiàn)在數(shù)詞后面或者代詞“這、那”后的量詞。即詞性標(biāo)記為(m,q)序偶或(這/r,q)(那/r,q)序偶。普通量詞翻譯表中放的是沒有歧義的一對一、多對一和一對空的量詞的翻譯。
我們在漢蒙統(tǒng)計機(jī)器翻譯系統(tǒng)中按照上面算法實(shí)現(xiàn)了量詞處理模塊,然后進(jìn)行了對比實(shí)驗(yàn),對于下列具體句子的翻譯過程為:
輸入:這是一支優(yōu)美的曲調(diào)。
不進(jìn)行量詞處理時翻譯過程為:
分詞之前:這是一支優(yōu)美的曲調(diào)。
分詞之后:這/r 是/v 一/m 支/q 優(yōu)美/a 的/u 曲調(diào)/n 。/w
去掉標(biāo)記后:這 是 一 支 優(yōu)美 的 曲調(diào) 。
翻譯結(jié)果:ENE B0L NIGE SIRHEG G0Y0 SAYIHAN DAGVV-YIN AYAS .
進(jìn)行量詞處理時翻譯過程為:
分詞之前:這是一支優(yōu)美的曲調(diào)。
分詞之后:這/r 是/v 一/m 支/q 優(yōu)美/a 的/u 曲調(diào)/n 。/w
處理量詞后:這/r 是/v 一 優(yōu)美/a 的/u 曲調(diào)/n 。/w
去掉標(biāo)記后:這 是 一 優(yōu)美 的 曲調(diào) 。
翻譯結(jié)果:ENE B0L NIGE G0Y0 SAYIHAN DAGVV-YIN AYAS .
在本句子中,量詞“支”在蒙古文中應(yīng)該不進(jìn)行翻譯,經(jīng)過量詞處理后,可以得到符合蒙古語的正確譯文。我們用自動評測系統(tǒng)對系統(tǒng)性能進(jìn)行了評測,語言模型為三元。在政府文獻(xiàn)領(lǐng)域(TS1)和日常對話領(lǐng)域(TS2)的評測結(jié)果如表2所示。
表2 不帶量詞表與帶量詞表的系統(tǒng)對比實(shí)驗(yàn)
試驗(yàn)結(jié)果表明,在漢蒙統(tǒng)計機(jī)器翻譯系統(tǒng)中對于量詞的預(yù)處理會提高系統(tǒng)的翻譯性能。在政府文獻(xiàn)領(lǐng)域BLEU值提高了0.22,在日常對話領(lǐng)域BLEU值提高了0.31。在政府文獻(xiàn)領(lǐng)域提高較低的原因是政府文獻(xiàn)測試語料中出現(xiàn)地量詞個數(shù)比日常對話測試語料中出現(xiàn)地量詞個數(shù)少。通過此方法我們可以比較準(zhǔn)確地將漢語中大量存在的量詞翻譯成蒙古語。各種對應(yīng)關(guān)系的量詞個數(shù)如表3所示。
表3 各種對應(yīng)關(guān)系中漢蒙量詞個數(shù)
在《現(xiàn)代漢語語法信息詞典》中沒有收錄臨時量詞,我們量詞表中收錄了部分臨時量詞。通過實(shí)驗(yàn)分析,量詞表的引入對于處理臨時量詞和一對空的漢蒙量詞翻譯是非常有效的。在漢語中量詞雖然是很小的集合,但是它的應(yīng)用非常廣。目前對沒被收錄的量詞和一對多的量詞我們直接在統(tǒng)計解碼器中進(jìn)行翻譯。漢蒙量詞翻譯表實(shí)際上給出了部分量詞的翻譯模板,具有歧義的部分用統(tǒng)計解碼器進(jìn)行翻譯,這樣可以將規(guī)則和統(tǒng)計方法各自的優(yōu)勢發(fā)揮出來。
本文對漢語和蒙古語中的量詞翻譯進(jìn)行研究的基礎(chǔ)上,提出了使用量詞表進(jìn)行翻譯,總結(jié)出了一對一、多對一、一對零和一對多等漢語量詞到蒙語量詞翻譯的對應(yīng)關(guān)系,給出了各種對應(yīng)中的翻譯方法。試驗(yàn)證明這種方法可以有效地解決翻譯中出現(xiàn)的量詞錯誤,尤其是對臨時量詞和一對空的量詞翻譯非常有效。
通過對量詞翻譯的實(shí)驗(yàn),我們發(fā)現(xiàn),在統(tǒng)計機(jī)器翻譯系統(tǒng)中,對于數(shù)詞、量詞等規(guī)則性較強(qiáng)的詞類,如果用規(guī)則或模板的方法進(jìn)行處理,會有效的提高統(tǒng)計系統(tǒng)的翻譯性能。 關(guān)于漢蒙數(shù)詞翻譯的方法,在文獻(xiàn)[9]中進(jìn)行了詳細(xì)的研究。下一步,我們將數(shù)詞和量詞結(jié)合起來,將規(guī)則和模板方法應(yīng)用在統(tǒng)計機(jī)器翻譯中,進(jìn)一步提高漢蒙機(jī)器翻譯系統(tǒng)的性能。同時臨時量詞和外來度量詞也很多,所以量詞表也有必要不斷的擴(kuò)充和完善。
[1] 那順烏日圖,劉群,巴達(dá)瑪放德斯?fàn)?關(guān)于漢蒙機(jī)器輔助翻譯系統(tǒng)[J].阿爾泰學(xué)報,2001.
[2] 侯宏旭,劉群,那順烏日圖.基于實(shí)例的漢蒙機(jī)器翻譯[J].中文信息學(xué)報,2007,21(4):65-72.
[3] 王斯日古楞,斯琴圖,那順烏日圖.基于短語的漢蒙統(tǒng)計機(jī)器翻譯研究[C]//中國少數(shù)民族自然語言處理技術(shù)研究與進(jìn)展——第二屆全國少數(shù)民族自然語言處理學(xué)術(shù)研討會論文集,2008.
[4] 袁竹筠.淺談漢英量詞的對比及對外漢語的量詞教學(xué)[J].遼寧教育行政學(xué)院學(xué)報,2009,(7):77-79.
[5] 俞士汶,等著.現(xiàn)代漢語語法信息詞典詳解[M].北京:清華大學(xué)出版社,1998.
[6] 清格爾泰.蒙古語語法[M].呼和浩特:內(nèi)蒙古人民出版社,1991.
[7] 那順烏日圖.蒙古語語法信息詞典的框架設(shè)計[D]. 呼和浩特:內(nèi)蒙古大學(xué),2003.
[8] Yang Muyun et al, TBED Based Chinese-English Translation Rule Acquisition[C]//Proc. of International Conference on Natural Language Processing and Knowledge Engineering, IEEE Press, 2003.10.
[9] 雪艷,應(yīng)玉龍.基于阿拉伯?dāng)?shù)字中介的漢蒙數(shù)詞對齊策略[C]//中國少數(shù)民族自然語言處理技術(shù)研究與進(jìn)展—第二屆全國少數(shù)民族自然語言處理學(xué)術(shù)研討會論文集,2008:248-256.