国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

維漢人名翻譯中不雅字或OOV的前處理研究

2022-07-23 07:00:24阿里木賽買提沙麗瓦爾阿里木吐爾根依不拉音段雪明古麗尼格爾阿不都外力麥合甫熱提吾守爾斯拉木
關(guān)鍵詞:漢人維吾爾語譯文

阿里木·賽買提,沙麗瓦爾·阿里木,吐爾根·依不拉音,段雪明,古麗尼格爾·阿不都外力,麥合甫熱提,吾守爾·斯拉木

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院多語種信息技術(shù)實驗中心,新疆 烏魯木齊 830046;2.新疆開放大學(xué),新疆 烏魯木齊 830049;3.新疆科大訊飛信息科技有限責(zé)任公司,新疆 烏魯木齊 830015)

0 引言

人工智能的不斷發(fā)展,深度學(xué)習(xí)技術(shù)推動了機器翻譯等自然語言處理技術(shù)重大進展,并且通過大量的訓(xùn)練數(shù)據(jù)的支撐下核心效果不斷提升[1].在神經(jīng)機器翻譯模型中Arthur等[2]引入外部詞匯從而解決翻譯過程中的數(shù)據(jù)稀疏問題.文獻[3-5]提出的基于注意力機制的神經(jīng)機器翻譯相比傳統(tǒng)基于統(tǒng)計的短語翻譯方法,翻譯性能也取得了大幅改善,部分場景下翻譯效果接近人類翻譯水平.

維吾爾語是典型的黏著語種,自右向左橫寫,有8個元音字母,24個輔音字母,構(gòu)詞和構(gòu)形附加成分很豐富,每個字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式,有些字母只有單式和末式,有些字母所帶的符號除作獨立形式和詞首形式的標(biāo)志外,還起隔音的作用[6].32個字母實際共有126種寫法.維吾爾語因其黏著語言特征構(gòu)詞和構(gòu)形附加成分很豐富而具有一個詞桿可同時連接單個或多個詞綴導(dǎo)致不斷派生出新詞的特點,易造成集外詞問題,使維吾爾語信息處理技術(shù)成為眾多研究者們的學(xué)術(shù)熱點的原因之一,盡管采用BPE切詞[7]、擴展詞表等業(yè)界主流的方法后,在一定程度上緩解了部分集外詞的翻譯效果,但本質(zhì)上并未解決集外詞翻譯問題,仍然伴有集外詞錯譯、漏譯、欠譯、過譯等現(xiàn)象,同時,維吾爾人名在機器翻譯中除了面對集外詞問題以外還會出現(xiàn)不恰當(dāng)表示、不雅詞或字等問題,因此維吾爾人名的翻譯問題是維漢機器翻譯中需要解決的重要問題之一.同樣維吾爾語人名因其數(shù)據(jù)稀疏性,在機器翻譯中易造成OOV問題,因此需要在前處理工作中除了需要做好人名譯文體驗感方面的工作外,還需要在建立神經(jīng)網(wǎng)絡(luò)翻譯模型時將OOV問題的處理工作考慮在內(nèi).

OOV即訓(xùn)練集以外的詞,可以有兩種解釋[8]:一是指已有的訓(xùn)練語料中未曾出現(xiàn)過的詞;二是指已有的詞表中沒有收錄的詞又稱為未登錄詞(unknown word).通常情況下將OOV與未登錄詞視為同一個概念.

盡管對于機器翻譯而言,人名翻譯是其中至關(guān)重要的環(huán)節(jié),但由于維吾爾語人名存在著命名不規(guī)范、空間難以界定、在語料庫中出現(xiàn)頻率低等問題,維吾爾語人名識別和翻譯一直是學(xué)術(shù)界和工業(yè)界研究的方向.也正是因為維吾爾語人名存在的上述特性,通常情況下,維吾爾語人名翻譯不能與英文人名或漢語人名一樣采用通用的規(guī)則或翻譯方法進行處理.因此,維吾爾語人名翻譯本質(zhì)上是以信達雅為導(dǎo)向,對其進行字符級端到端的神經(jīng)網(wǎng)絡(luò)模型的建模.

維吾爾語人名具有頻率稀疏性、邊界模糊性、語義獨立性、組成不規(guī)則性和譯文多樣性等特點,并且對譯文的準(zhǔn)確性和規(guī)范性的要求更高.不同語言的人名在構(gòu)成方式和翻譯規(guī)律方面也存在較大的差異,漢族人名譯維吾爾語是按照字或者詞為單位的發(fā)音進行音譯和意譯,并且翻譯方向是順序的,通常采用輸出原詞或音譯相結(jié)合的方法進行翻譯.維吾爾語人名處理不僅僅要解決普通句子翻譯的固有問題,如詞語選擇與譯文準(zhǔn)確及流暢,還需要解決譯文是否符合信達雅的問題.可見,維吾爾語人名的翻譯是機器翻譯中一個極具挑戰(zhàn)的任務(wù).

本文從機器翻譯的角度出發(fā).引入了一套前處理流程,提出了Fast align + NER組合方法,通過從常規(guī)維漢句對數(shù)據(jù)中進行識別及對齊,有效地解決了維漢對照人名數(shù)據(jù)稀少、難以獲取的問題.

1 建立維漢人名數(shù)據(jù)集

命名實體識別(name entity recognition,NER)是指從大量的非結(jié)構(gòu)化或結(jié)構(gòu)化文本中抽取出相應(yīng)的人名、地名或組織機構(gòu)等實體,并對其進行精確的分類識別.而傳統(tǒng)的命名實體識別方法非常依賴于語言學(xué)知識和特征工程,忽略了文本中實體所隱含的潛在信息,從而增加了文本中命名實體的識別難度.因此,如何利用有效的特征和神經(jīng)網(wǎng)絡(luò)技術(shù)來提高文本中命名實體的識別準(zhǔn)確度已成為研究的一個熱點課題.隨著人類生活水平的提高,每天在互聯(lián)網(wǎng)上出現(xiàn)海量的人名信息.對人名信息的處理能力受到的關(guān)注度越來越強烈.

本文通過收集歷屆機器翻譯研討會CWMT及CCMT提供的維漢雙語平行訓(xùn)練集和通過人民網(wǎng)、天山網(wǎng)自建的維漢平行訓(xùn)練數(shù)據(jù)集上進行維漢人名抽取.在整理好的維漢平行語料基礎(chǔ)上通過漢語命名實體識別方法與維吾爾語命名實體的識別方法進行了人名抽取并且分詞后通過Fast align快速詞對齊工具進行了維漢人名的識別對齊及抽取,對齊實例見表1.

表1 Fast align 對齊操作實例

本文在中文人名識別中使用了業(yè)界開源且比較主流的哈工大語言技術(shù)平臺(Language Technology Platform,LTP)提供的中文命名實體識別能力.在維吾爾語命名實體的識別方法中使用了引入子詞向量的bi-LSTM+CRF的方法[9],傳統(tǒng)的bi-LSTM+CRF神經(jīng)網(wǎng)絡(luò)模型中,輸入向量以單詞為基本單位.然而,維吾爾語是一種由詞干和詞綴組成的黏著語言.如果只考慮單純的使用詞向量,就不能充分學(xué)習(xí)語義信息,導(dǎo)致詞法過程中數(shù)據(jù)的稀疏性.因此,我們考慮利用更小的承載單元子詞選為基本單元.這里的子詞是將維吾爾語單詞通過形態(tài)切分將一個單詞的詞綴與詞干切分開后的輸入單元進行訓(xùn)練建模的方法.

2 維漢端到端神經(jīng)網(wǎng)絡(luò)人名翻譯模型

被NER識別后抽取出來的人名信息會傳輸?shù)蕉说蕉说淖址壣窠?jīng)網(wǎng)絡(luò)翻譯模型中.在傳統(tǒng)的維吾爾語漢語機器翻譯結(jié)果中,在維譯漢方向經(jīng)常會出現(xiàn)不雅字或詞.不能使譯文達到信達雅.例如:“bEkriyE”對應(yīng)的常見人工翻譯的恰當(dāng)選詞結(jié)果為“拜克熱亞”,但在以往的機器翻譯結(jié)果中經(jīng)常會看到“拜可日牙”或?qū)ⅰ皌urGun”翻譯成“吐兒滾”等不雅詞(而正確的選詞結(jié)果應(yīng)該為“圖爾洪”).對該類情況的出現(xiàn)綜合分析認為:

(1) 部分是因早期維吾爾人名用漢字記錄證件時未有一個恰當(dāng)?shù)倪x詞標(biāo)準(zhǔn);

(2) 當(dāng)時人們的恰當(dāng)選詞意識不強;

(3) 因漢字常用多音字而維吾爾語一音一字,造成維吾爾語人名可對應(yīng)多個漢語,結(jié)果無法統(tǒng)一.

因此使該類數(shù)據(jù)混入機器翻譯訓(xùn)練數(shù)據(jù)呈現(xiàn)數(shù)據(jù)稀疏狀態(tài)易造成OOV問題,而另一個原因可能是因為在常規(guī)的訓(xùn)練數(shù)據(jù)的形式為句對形式為主,而對應(yīng)的人名數(shù)據(jù)因在數(shù)據(jù)中的比例較少,可能在常規(guī)的機器翻譯結(jié)果中會出現(xiàn)非規(guī)范的結(jié)果.為解決上述問題,使得維吾爾語人名翻譯結(jié)果能夠盡可能準(zhǔn)確、雅觀,通過一個基于純維漢人名的端到端的神經(jīng)網(wǎng)絡(luò)翻譯模型,使抽取到的實體能夠通過該模型給出準(zhǔn)確的譯文,提高用戶體驗效果.

因此,選用詞對形式的純?nèi)嗣?xùn)練數(shù)據(jù),并且為了從人名訓(xùn)練數(shù)據(jù)中去除影響譯文雅觀的潛在因素,將漢語維吾爾族人名通過N-gram語言模型進行訓(xùn)練,分別得到1—4階語言模型,找到數(shù)據(jù)中一個維吾爾文人名對應(yīng)的多個中文表示(1對N)的數(shù)據(jù),根據(jù)語言模型對人名列表進行打分,去除打分結(jié)果中每個得分最優(yōu)的兩個漢語人名表示以外的結(jié)果,見圖1.最后結(jié)合人工審核,獲取精煉后的人名訓(xùn)練數(shù)據(jù)集,因精煉后的數(shù)據(jù)集量級較少,避免OOV問題的困擾,為此選用字符級的建模方案,選用Lee等[10]提出的字符級端到端的神經(jīng)網(wǎng)絡(luò)框架完成對維漢人名翻譯模型的訓(xùn)練(見圖2).

圖1 維漢人名翻譯前處理總框架

圖2 字符級維漢人名翻譯模型

3 實驗數(shù)據(jù)與實驗環(huán)境

考慮到目前國內(nèi)各機器翻譯研討會提供的維漢雙語平行訓(xùn)練集都以句子級語料,無公開維漢人名數(shù)據(jù)集,因此本文通過收集歷屆CWMT及CCMT等研討會提供的維漢句對數(shù)據(jù)為主進行人名的抽取及精煉獲取最終的維漢人名訓(xùn)練集.目前已從61萬條維漢句對數(shù)據(jù)中抽取并人工收集維漢人名訓(xùn)練集,在通過對數(shù)據(jù)進一步預(yù)處理分別完成了形式轉(zhuǎn)換、編碼轉(zhuǎn)換、全角半角轉(zhuǎn)換、標(biāo)點符號的規(guī)整、亂碼過濾、去重等預(yù)處理過程后最終獲得32 126條人名集.

目前業(yè)界無公開且符合我們需要的維漢人名數(shù)據(jù),因此無法通過公開且統(tǒng)一的測試集進行衡量,為了降低維漢機器翻譯中維吾爾語人名譯文中不雅字或詞的出現(xiàn)及避免OOV問題的困擾,采用人工收集人民網(wǎng)、天山網(wǎng)中出現(xiàn)頻率比較高的漢語維吾爾人名,自建500條維漢雙語維吾爾人名測試集.

實驗環(huán)境采用CentOS 7.3 64 位操作系統(tǒng),內(nèi)存64 GB,Tesla p40,Intel(R)Xeon(R)CPU E5-2650 v3@2.30 GHz 2CPU 20核處理器.在實驗部分,使用了開源的基于 Theano 深度學(xué)習(xí)庫的dl4mt-c2c框架進行模型訓(xùn)練,模型網(wǎng)絡(luò)參數(shù)基本以開源base版本參數(shù)一直使用GPU單卡訓(xùn)練.

表2 實驗過程參數(shù)

在實驗過程中網(wǎng)絡(luò)的源端詞表大小為97,目標(biāo)端詞表大小為542,訓(xùn)練和解碼時長、模型大小參數(shù)見表2,該系統(tǒng)采用網(wǎng)絡(luò)結(jié)構(gòu)為CNN+RNN網(wǎng)絡(luò)形式;encoder隱層節(jié)點數(shù)目為512;decoder隱層節(jié)點數(shù)目為1 024;Embedding向量長度方面source embedding為128 MB,Target embedding為512 MB;Highway網(wǎng)絡(luò)為4 layers;Cnn_kernel_width=(3,5);Initial_learning_rate為0.000 2;Conv_embed_num_filters為200-250-300-300-400-400-400-400;Pooling Strid值設(shè)為5;BatchSize大小為64.

4 實驗結(jié)果與分析

實驗結(jié)果見表3.由表3可見,當(dāng)對訓(xùn)練數(shù)據(jù)通過1—4階N-Gram語言模型打分后,其在自建的用字恰當(dāng)?shù)娜嗣麥y試集上的譯文BLEU結(jié)果提升了0.95分.但一個維吾爾語人名除去帶有不雅字的結(jié)果外常還有其他譯文易導(dǎo)致機器打分存在歧義,因此,在無權(quán)威公開用字準(zhǔn)確且標(biāo)準(zhǔn)的維漢人名測試集的前提下用BLEU打分機制結(jié)果具有片面性,無法全面體現(xiàn)本文的研究成果,但通過對比加入本文前處理方法后,在處理不雅字或詭異表達效果較好,表4為譯文數(shù)據(jù)中抽取出的較典型的實例.由表4可以看出,雖然加入了本文前處理方法后的模型結(jié)果中仍有“吐”,“沙”等字樣的出現(xiàn),但是在雅觀或體驗上都有了顯著的提升.

表3 實驗結(jié)果

表4 典型實例展示

本文以維漢人名翻譯中譯文結(jié)果中出現(xiàn)OOV或不雅字問題的處理方法為初始目標(biāo)進行探索,通過實驗分析規(guī)劃出了一套完整地將含有不雅字或詞的人名數(shù)據(jù)處理方法,考慮到數(shù)據(jù)稀疏原因,為避免模型訓(xùn)練無法達到良好的收斂效果,選用輕量級的dl4mt-c2c框架,本文方法對處理不雅字或不恰當(dāng)?shù)谋硎居忻黠@的改善.

猜你喜歡
漢人維吾爾語譯文
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
譯文摘要
統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
秦人稱謂小議
I Like Thinking
遼代壁畫墓?jié)h人出行圖淺議——以關(guān)山4號墓為例
維吾爾語話題的韻律表現(xiàn)
維吾爾語詞重音的形式判斷
語言與翻譯(2015年4期)2015-07-18 11:07:45
民族整合與文化認同:努爾哈赤漢人“恩養(yǎng)”政策
現(xiàn)代維吾爾語中“-0wat-”的進行體特征
語言與翻譯(2014年3期)2014-07-12 10:32:09
沾化县| 峨眉山市| 五莲县| 奉节县| 百色市| 陇川县| 遵义市| 开化县| 武川县| 横山县| 衡阳县| 顺义区| 岳池县| 哈尔滨市| 贵港市| 永登县| 正定县| 镇远县| 安泽县| 石台县| 开阳县| 长宁县| 天水市| 景东| 五原县| 西丰县| 东乡县| 吴江市| 台东市| 防城港市| 凌源市| 安岳县| 辽宁省| 呼图壁县| 城固县| 丹阳市| 江门市| 桓仁| 合水县| 仁化县| 民丰县|