王亞娟
摘要:在漢維雙語的語料庫(kù)中,因?yàn)樵~不能對(duì)齊引起了各類翻譯問題,所以,需要建立一個(gè)高質(zhì)量的漢維雙語的語料庫(kù),實(shí)現(xiàn)詞的對(duì)齊。本文通過對(duì)漢語和維吾爾語的雙語語料庫(kù)的對(duì)齊問題進(jìn)行了研究。建立大規(guī)模的雙語的對(duì)齊語料庫(kù)是很有必要的,而且雙語對(duì)齊能夠促進(jìn)漢語語料庫(kù)的建立。
關(guān)鍵詞:及其翻譯;漢維詞匯;對(duì)齊規(guī)范
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)20-0199-03
機(jī)器翻譯是人們借助計(jì)算機(jī)技術(shù)實(shí)現(xiàn)不同語言之間的轉(zhuǎn)換,運(yùn)用軟件將一種語言轉(zhuǎn)換成另一種語言。在對(duì)自然語言的處理上需要對(duì)機(jī)器翻譯進(jìn)行實(shí)驗(yàn)。機(jī)器翻譯能夠?qū)Ω黝愓Z言加以轉(zhuǎn)換,同時(shí)也對(duì)語言的研究有推動(dòng)的作用?,F(xiàn)在,人們進(jìn)入了全球一體化的時(shí)代,機(jī)器翻譯為人們提供了很多的方便,機(jī)器翻譯的前景也是比較好的。但是,隨著社會(huì)的發(fā)展,不同語言的資料也越來越多,如果僅僅采用人工翻譯,需要耗費(fèi)大量的時(shí)間,采用機(jī)器翻譯能夠節(jié)省時(shí)間,而且也符合現(xiàn)代化社會(huì)發(fā)展的要求。
1 漢語和維吾爾語詞的對(duì)比分析
1.1單純?cè)~的對(duì)比
在漢語中,單純?cè)~是由單獨(dú)的語素構(gòu)成的,這個(gè)語素可以是實(shí)詞,也可以是虛詞。在維吾爾語中,單純?cè)~是沒有明確的定義的,其語言的形態(tài)變化是非常得豐富的,語法的遍體也是由不同的詞干和詞尾構(gòu)成的。通過對(duì)漢語和維吾爾語的詞對(duì)比分析,可以分析出漢語的單純?cè)~是由單個(gè)的語素構(gòu)成的,而維吾爾語的單純?cè)~可以由不同的語素構(gòu)成。
1.2 派生詞的對(duì)比
派生詞是合成詞的主要分支,在漢語和維吾爾語這兩種語言中,派生詞一般都是通過添加后綴的形式實(shí)現(xiàn)的,維吾爾語中的派生詞一般都不會(huì)采用前綴。在漢語中,派生詞運(yùn)用前綴的形式要多一些,但是也不如后綴多。在維吾爾語中,派生詞的主要構(gòu)詞法是添加后綴,其在構(gòu)詞中發(fā)揮著關(guān)鍵的作用,比在漢語中發(fā)揮的作用要大的多。
1.3 復(fù)合詞的對(duì)比
漢語中的復(fù)合詞是由不同的語素構(gòu)成的,其主要有偏正關(guān)系、支配關(guān)系等。在維吾爾語中,復(fù)合詞的構(gòu)成方法類似于漢語中句子的構(gòu)成方法,要通過對(duì)句型的分析才能夠構(gòu)成復(fù)合詞。
2 面向機(jī)器翻譯的漢維雙語詞對(duì)齊規(guī)范和主要方法
機(jī)器翻譯是人們運(yùn)用計(jì)算機(jī)實(shí)現(xiàn)語言之間的轉(zhuǎn)換,面向機(jī)器翻譯的漢維詞語對(duì)齊規(guī)范符合現(xiàn)在化發(fā)展的需要,所以,應(yīng)該對(duì)漢語和維吾爾語研究的基礎(chǔ)上,分析兩種詞匯的結(jié)構(gòu),分析其在詞法和句法方面的不同,才能夠?qū)崿F(xiàn)兩種語言的準(zhǔn)確地轉(zhuǎn)換。
2.1 詞的對(duì)齊規(guī)范的定義
在漢語和維吾爾語兩種語言的轉(zhuǎn)換中,實(shí)現(xiàn)句子的對(duì)齊,句子中的詞匯和詞匯之間形成連接,詞語的對(duì)齊是在兩個(gè)句子之間能夠?qū)ふ业皆~匯的子集,從而能夠?qū)崿F(xiàn)句子互譯關(guān)系的銜接。
1) 一對(duì)一對(duì)齊
在原有的語言的基礎(chǔ)上,其相應(yīng)的位置或者在更加得范圍中,所有的專業(yè)術(shù)語可以完全地對(duì)等,兩種語言能夠互譯,這樣就能夠?qū)崿F(xiàn)所有詞匯的對(duì)應(yīng),這樣的對(duì)齊叫做一對(duì)一對(duì)齊。
2) 一對(duì)多對(duì)齊
這種對(duì)齊方式實(shí)現(xiàn)了詞匯的整體化對(duì)齊,是單個(gè)詞能夠?qū)?yīng)不同語言的多個(gè)詞匯,此于此的對(duì)應(yīng)不是一對(duì)一對(duì)齊,而且也不是沒有對(duì)齊的方式。
3) 多對(duì)多對(duì)齊
這種對(duì)齊方式指的是在維吾爾語里面有幾個(gè)詞匯能夠與漢語中的一個(gè)詞匯對(duì)應(yīng),實(shí)現(xiàn)詞匯的全面地表達(dá),這種對(duì)齊方式還是比較少見的。
4) 空對(duì)齊
這種對(duì)齊方式指的是在漢語里面沒有詞匯能夠與維吾爾語中的詞匯對(duì)應(yīng)。
2.2 詞對(duì)齊規(guī)劃的方法
1) 語義的對(duì)等
將一種語言轉(zhuǎn)化成另一種語言的過程中,原有的語言可以翻譯成不同的語言,有很多種翻譯方法,這些譯文盡管使用的詞匯不同,但是都可以表達(dá)相同的意思,所以他們?cè)谡Z義上能夠?qū)崿F(xiàn)對(duì)齊,只是選擇的詞匯不同。在翻譯的過程中,使用不同的詞匯對(duì)句子翻譯,都可以實(shí)現(xiàn)兩種語言的對(duì)齊。
2) 位置的對(duì)應(yīng)原則
漢語和維吾爾語在翻譯的過程中除了要實(shí)現(xiàn)語義的對(duì)齊之外,而且還要實(shí)現(xiàn)為止的對(duì)弈,根據(jù)上下文的語境來翻譯,在翻譯的過程中是不能離開語境的,所以應(yīng)該遵循位置對(duì)齊的原則,當(dāng)不能運(yùn)用準(zhǔn)確的詞翻譯時(shí),在機(jī)器翻譯時(shí)要運(yùn)用空對(duì)齊。
3) 最小的匹配原則
在這項(xiàng)原則中,應(yīng)該準(zhǔn)確地用詞,將那些最準(zhǔn)確的詞匯實(shí)現(xiàn)優(yōu)先對(duì)齊,首先要實(shí)現(xiàn)虛詞的對(duì)齊,然后將兩種語言的詞組對(duì)齊,實(shí)現(xiàn)專有名詞的對(duì)齊,盡量實(shí)現(xiàn)一對(duì)一的對(duì)齊方式。
4) 最大的匹配原則
在漢語和維吾爾語雙向翻譯的時(shí)候,盡量實(shí)現(xiàn)雙向的對(duì)齊,在對(duì)詞匯連接的過程中,需要對(duì)齊的詞匯有多少,那么,另一種語言也應(yīng)該選擇多少詞匯。為了能夠形成一個(gè)系統(tǒng)的語義單元,所以,在詞匯選取的過程中,可以選擇一些連接詞,這些詞匯具有固定的表達(dá)方法,而且還能夠形成習(xí)慣用語,這些詞匯的結(jié)構(gòu)是非常得緊密的,一般都是以復(fù)合詞或者合成詞的形式出現(xiàn),當(dāng)兩個(gè)語素拆開后,單個(gè)的語素就不能構(gòu)成完整的意義,這類詞一般是由動(dòng)詞短語或者帶有前綴或者后綴的詞匯構(gòu)成的,這種詞匯一般是采用一對(duì)多的對(duì)齊方式,實(shí)現(xiàn)最大化的匹配。
5) 減少對(duì)齊到空
在漢語和維吾爾語的翻譯中,如果在一種語言中不能找到與之對(duì)應(yīng)的語言,盡量不采用空對(duì)齊的方法,可以將這些句子采用對(duì)齊到空的方式,但是這種方法要謹(jǐn)慎使用。
6) 相關(guān)的注意事項(xiàng)
在漢語和維吾爾語相互翻譯的過程中,如果發(fā)現(xiàn)了句子翻譯有錯(cuò)誤,或者出現(xiàn)單個(gè)詞匯拼寫錯(cuò)誤的問題,這兩種情況下,一般可以采用空對(duì)齊的方式來處理,否則如果原文出現(xiàn)了拼寫的錯(cuò)誤,在采用機(jī)器翻譯的時(shí)候,機(jī)器是不能自動(dòng)的識(shí)別錯(cuò)誤的,給機(jī)器的翻譯工作帶來錯(cuò)誤,而且會(huì)出現(xiàn)一些不能理解的信息,導(dǎo)致機(jī)器翻譯的正確率下降,所以,為了防止上述問題的出現(xiàn),就必須采用空對(duì)齊的方法,在選擇對(duì)齊方式的時(shí)候要反復(fù)地檢查。
2.3 漢語平行語料庫(kù)加工處理系統(tǒng)的詞對(duì)齊
2.3.1 詞對(duì)齊模塊的分析
1)進(jìn)入詞的對(duì)齊模塊
如圖1所示,進(jìn)入機(jī)器翻譯界面后,點(diǎn)擊對(duì)齊管理項(xiàng)目,進(jìn)入詞語對(duì)齊,就能夠?qū)崿F(xiàn)進(jìn)入詞的對(duì)齊模塊,如果存在詞對(duì)齊的任務(wù),那么,這個(gè)界面就會(huì)將任務(wù)顯示出來,一般會(huì)以第一個(gè)句子來安排。
圖1 進(jìn)入詞的對(duì)齊模塊
2) 詞組對(duì)齊界面分析
詞組的對(duì)齊是針對(duì)漢語和維吾爾語的句子中各個(gè)詞匯的對(duì)齊方式,實(shí)現(xiàn)句子中每個(gè)詞匯的對(duì)應(yīng)關(guān)系,右邊是漢語的句子,左邊是維吾爾語的句子。
3)建立對(duì)齊
在漢語和維吾爾語中,選擇兩個(gè)詞語對(duì)齊,這時(shí)可以采用一對(duì)一對(duì)齊和一對(duì)多對(duì)齊的方式,然后點(diǎn)擊鼠標(biāo)的右鍵,選擇“對(duì)齊”方式,實(shí)現(xiàn)兩種不同語言中詞匯的對(duì)齊。
4) 取消對(duì)齊
取消對(duì)齊只能是在不同的語言的詞組中實(shí)現(xiàn),在句子中是不能實(shí)現(xiàn)的,在取消對(duì)齊之前,應(yīng)該先選中要取消對(duì)齊的兩個(gè)詞組,然后實(shí)現(xiàn)對(duì)齊的取消。
5) 空對(duì)齊和取消空對(duì)齊
空對(duì)齊指的是在一個(gè)句子中有某個(gè)詞匯是不能夠與其他語言的詞匯對(duì)應(yīng)的,在建立空對(duì)齊時(shí)直接點(diǎn)擊鼠標(biāo)的右鍵選擇空對(duì)齊就可以。取消空對(duì)齊也是點(diǎn)擊鼠標(biāo)右鍵,然后選擇取消空對(duì)齊就可以了。
2.3.2句子的編輯
1) 詞語的拆分:將要拆分的詞語選中,然后找到菜單中的“分詞”就能夠?qū)崿F(xiàn)詞語的拆分。
2) 詞語的合并:將拆分的詞語選中,然后選擇菜單中的合并。
2.3.3 詞對(duì)齊的分析
1) 一對(duì)一對(duì)詞齊
一對(duì)一詞對(duì)齊是將原有的語言與位置相同的語言實(shí)現(xiàn)較大范圍的對(duì)齊,使大范圍中的詞匯或者句子中的語義保持一致,實(shí)現(xiàn)二者的互譯,其能夠?qū)崿F(xiàn)對(duì)普通字典或者專業(yè)字典的此條使用,這樣的對(duì)齊方式被稱為一對(duì)一詞對(duì)齊。一對(duì)一詞對(duì)齊的方式是針對(duì)詞匯或者詞組的,不包括句子,在漢語和維吾爾語中,在語義完全相同的詞匯或者詞組中能夠建立這種對(duì)齊方式,而且對(duì)齊的詞匯能夠在一個(gè)較大的領(lǐng)域中實(shí)現(xiàn)互譯,在互譯的過程中是具有普遍性特點(diǎn)的,一般雙向的翻譯詞典就是通過這種方式來實(shí)現(xiàn)的。
2) 一對(duì)多詞對(duì)齊
這種對(duì)齊方式實(shí)現(xiàn)了詞組的整體對(duì)齊,是詞組與單個(gè)詞的對(duì)齊方式,在表示對(duì)齊詞組的過程中,這樣的兩個(gè)詞既不是一對(duì)一的對(duì)齊,但是為了能夠?qū)崿F(xiàn)詞匯和詞組的對(duì)齊,采用一對(duì)多詞的對(duì)齊方式。
3) 多對(duì)多詞的對(duì)齊
這種對(duì)齊方式一般是使用在詞組和詞組之間的對(duì)齊,不同的詞組之間能夠?qū)崿F(xiàn)互譯,一般是采用這種對(duì)齊方式。
4)空對(duì)齊
這種對(duì)齊方式一般是對(duì)虛詞的對(duì)齊,在維吾爾語中,沒有詞匯能夠與漢語中的虛詞對(duì)應(yīng),所以,像漢語中“了”“之”“過”等詞匯都是采用空對(duì)齊的方式。
2.4 存在的問題和解決方法
由于漢語和維吾爾語所屬的語言體系是不同的,漢語屬于漢藏體系,而維吾爾語屬于阿爾泰語系,這兩種語言要實(shí)現(xiàn)完全意義上的對(duì)齊,不能運(yùn)用任何的比較語言學(xué)進(jìn)行分析。歷史比較語言學(xué)是將兩種同語系的語言進(jìn)行對(duì)比,分析兩種語言中的共有部分,從而能夠分析兩種語言的親屬關(guān)系,通過比較和重建的方法分析對(duì)比兩種語言。但是,在對(duì)漢語和維吾爾語進(jìn)行對(duì)比時(shí),要對(duì)兩種不同語系的語言進(jìn)行對(duì)比,從而在機(jī)器翻譯的過程中能夠?qū)崿F(xiàn)對(duì)齊。
首先要實(shí)現(xiàn)的是詞量的對(duì)齊,在漢語中,詞量指的是對(duì)人或者事物的數(shù)量的表達(dá),如“一個(gè)人”,運(yùn)用詞量的表示方法從而能夠?qū)Σ煌嘶蛘呤挛锏臄?shù)量表達(dá)清楚。在漢語和維吾爾語中都存在表示數(shù)量的詞匯,在漢語中有大量的量詞,但是在維吾爾語中的量詞是比較少的,兩種語言的屬性是不同的,漢語是能夠以孤立的形式存在的,但是維吾爾語卻是一種粘合的語言,所以,在機(jī)器翻譯的過程中要花大量的時(shí)間實(shí)現(xiàn)兩種語言量詞的統(tǒng)一。其次是實(shí)現(xiàn)介詞的對(duì)齊,如果二者的介詞存在對(duì)齊的部分,那么就可以直接使用,如果在維吾爾語中存在著不同的后綴詞,那么,可以將詞匯進(jìn)行粘合,然后實(shí)現(xiàn)漢語和維吾爾語中介詞的對(duì)齊。
3 結(jié)語
由于漢語和維吾爾語屬于不同的語言體系,所以其語言的構(gòu)成也是不同的,在機(jī)器翻譯的過程中首先要實(shí)現(xiàn)的是詞匯和詞組的對(duì)應(yīng),這樣才能夠提高機(jī)器翻譯的準(zhǔn)確率。
參考文獻(xiàn):
[1] 吳小川,吐爾根·依布拉音,艾山·吾買爾,等. 漢維哈柯雙語平行語料庫(kù)加工處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2011(27):6680-6681.
[2] 艾山·毛力尼亞孜,譚勛,吐爾根·依布拉音,等.漢維哈柯雙語語料庫(kù)加工系統(tǒng)詞對(duì)齊技術(shù)的研究[J].電腦知識(shí)與技術(shù),2011(28):6895-6896.
[3] 吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J].中文信息學(xué)報(bào),2011,06:149-156.
[4] 才讓加.面向自然語言處理的大規(guī)模漢藏(藏漢)雙語語料庫(kù)構(gòu)建技術(shù)研究[J].中文信息學(xué)報(bào),2011,06:157-161.
[5] 徐春,楊勇,董興華.漢維/維漢統(tǒng)計(jì)機(jī)器翻譯中若干問題研究[J].計(jì)算機(jī)工程與應(yīng)用,2011(35):150-154+167.