国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語-維吾爾語的一對(duì)一詞對(duì)齊研究

2012-11-14 07:17:06張亞軍賀琛琛
昌吉學(xué)院學(xué)報(bào) 2012年6期
關(guān)鍵詞:源語言目標(biāo)語言維吾爾語

張亞軍 賀琛琛

(1.昌吉學(xué)院計(jì)算機(jī)工程系 新疆 昌吉 831100;2.昌吉學(xué)院人事處 新疆 昌吉 831100)

1 引言

詞語的對(duì)齊(簡稱詞對(duì)齊,Word Alignment)研究是自然語言處理的一個(gè)重要組成部分,詞對(duì)齊分為三類:一對(duì)一、多對(duì)一、多對(duì)多。其目的是要找出從源語言的字符串和目標(biāo)語言的字符串之間的詞對(duì)齊。詞對(duì)齊對(duì)于平行語料庫、語料數(shù)據(jù)挖掘等方面尤為重要。同時(shí),詞對(duì)齊還可以為雙語詞典、語音識(shí)別、信息檢索提供源材料。英語和漢語詞對(duì)齊研究相對(duì)成熟,基本精度在90%以上,取得的召回率約88%。然而漢語-維吾爾語(簡稱漢維)詞對(duì)齊的研究,處于前期研究階段。

研究詞對(duì)齊方法主要有兩類:

(1)基于語言學(xué)的方法:充分使用各種語言學(xué)的資源進(jìn)行詞對(duì)齊研究。例如利用統(tǒng)計(jì)和詞典相結(jié)合的方法進(jìn)行的詞對(duì)齊[1];或者利用語言學(xué)比較的方法進(jìn)行詞對(duì)齊等[2]。

(2)基于統(tǒng)計(jì)的研究方法:其思路是通過對(duì)平行語料庫的統(tǒng)計(jì)性訓(xùn)練,取得雙語對(duì)應(yīng)詞的同現(xiàn)概率作為詞對(duì)齊的基礎(chǔ),主要方法有Brown提出的基于信源信道模型方法實(shí)現(xiàn)的詞對(duì)齊[3];Dagan等人對(duì)Brown的模型進(jìn)行改進(jìn)的詞對(duì)齊[4];Gale、Piao、Okita都使用互信息和X2檢驗(yàn)方法進(jìn)行詞對(duì)齊[5][6][7]等。

基于統(tǒng)計(jì)方法實(shí)現(xiàn)漢維一對(duì)一的詞對(duì)齊是本文研究的重點(diǎn)內(nèi)容。

2 詞對(duì)齊模型描述

2.1 基于信源信道模型的統(tǒng)計(jì)方法

信源信道思想應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯,實(shí)際上可以理解為一個(gè)解碼的過程,此時(shí)把翻譯系統(tǒng)視為信源信道,即對(duì)于一個(gè)目標(biāo)語言字串S,將尋找一個(gè)最大可能的源語言句子T,搜索概率P(T|S)最大值的過程。 由貝葉斯公式:

其中P(T)為語言模型,P(S|T)為翻譯模型。

由于式(1)右邊P(S)與T無關(guān),因此,求上式的最大值等同于求等式右邊分子的最大值即:

2.2 IBM模型1和模型2

大量的參數(shù)訓(xùn)練是詞對(duì)齊的基礎(chǔ)工作,由此可以計(jì)算出源語言詞語和目標(biāo)語言詞對(duì)齊的概率,從而搜索出概率最大值。本文采用EM(期望最大化)算法實(shí)現(xiàn)的IBM模型1和模型2。

IBM模型1-2的單詞翻譯概率公式相同,計(jì)算公式如(3)所示:

其中c(s|t;S(z),T(z))表示目標(biāo)語言的單詞t在翻譯句對(duì)(S|T)中與源語言的單詞s對(duì)齊的期望次數(shù),s表示源語句中的詞語,t表示目標(biāo)語句中的詞語。Z表示語料庫中句對(duì)個(gè)數(shù)。

IBM模型1-2不同的是目標(biāo)語言的單詞t在翻譯句對(duì)(S|T)中與源語言的單詞s對(duì)齊的期望次數(shù)。模型一對(duì)齊期望次數(shù)如(4)式所示:

其中m表示源語言長度即源語言中詞語的個(gè)數(shù);len表示目標(biāo)語言長度即目標(biāo)語言中詞語的個(gè)數(shù);p(s|t)是目標(biāo)語言單詞與源語言單詞翻譯概率;δ是Kronecker函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí),δ=1,否則δ=0。

由于模型1忽略了單詞出現(xiàn)在句子中的位置,模型2在模型1基礎(chǔ)上不再假設(shè)每一個(gè)源語言詞語與目標(biāo)語言詞語之間有相同的對(duì)齊概率,而是考慮了目標(biāo)語言句子的不同位置和不同句對(duì)長度的影響,可能導(dǎo)致任意兩個(gè)對(duì)位存在不同的概率,由此引入對(duì)位概率p(aj|j,m,l)。模型二對(duì)齊次數(shù)如(5)式所示:

3 漢維一對(duì)一詞對(duì)齊

3.1 系統(tǒng)處理流程

系統(tǒng)流程如圖1所示,模型1和模型2是研究的重點(diǎn)。

圖1 漢維一對(duì)一詞對(duì)齊流程

3.2 語料預(yù)處理

實(shí)驗(yàn)要求選取平行語料庫中的語料,本文選取漢語語料和維吾爾語語料。具體要求有:將漢語語料和維吾爾語語料分別存放于格式為txt的兩個(gè)文本,文本中的每一行都是一個(gè)獨(dú)立的句子,且漢語文本及維吾爾語文本的相同行為互相對(duì)應(yīng)的一個(gè)句對(duì)。

例如:

中文文件

維文文件

漢語詞語切分利用中國科學(xué)院計(jì)算技術(shù)研究所提供的中文分詞工具ICTCLAS處理。維吾爾語切分工具由新疆大學(xué)多語種信息重點(diǎn)實(shí)驗(yàn)室提供。在詞語對(duì)齊訓(xùn)練過程當(dāng)中發(fā)現(xiàn)對(duì)齊結(jié)果受到個(gè)別拉丁維文字符的影響,采取的方案是將其轉(zhuǎn)化為無歧義可以識(shí)別的字符來處理。例如é轉(zhuǎn)化為E、ü轉(zhuǎn)化為U、?轉(zhuǎn)化為O等。例如:

拉丁維文:

轉(zhuǎn)換個(gè)別字符后的拉丁維文:

3.3 一對(duì)一對(duì)齊步驟與算法

3.3.1 一對(duì)一對(duì)齊步驟

(1)語料預(yù)處理:將漢文詞語分詞,維文轉(zhuǎn)化為拉丁維文并將個(gè)別字符轉(zhuǎn)化為無歧義可以識(shí)別的字符;

(2)IBM模型1實(shí)現(xiàn)漢維詞對(duì)齊:以源語言文本和目標(biāo)語言文本作為輸入文件,初始化單詞概率分布P(S|T),計(jì)算目標(biāo)語言的單詞t在翻譯句對(duì)(S|T)中與源語言的單詞s對(duì)齊的期望次數(shù),迭代修正單詞翻譯概率。

(3)IBM模型2實(shí)現(xiàn)漢維詞對(duì)齊:在考慮了目標(biāo)語言句子的不同位置和不同句對(duì)長度因素下,以模型1最終修正的單詞翻譯概率為初始值,計(jì)算對(duì)位概率a(i|j),不斷迭代修正單詞翻譯概率。

3.3.2 對(duì)齊算法

算法主要步驟如下

St1:設(shè)輸入預(yù)處理后的維吾爾語文本S=S1S2S3…Si… SZ,Si為源文件,漢文文本 T1T2T3…Ti…TZ,Ti為目標(biāo)文件;

St2:初始化單詞概率分布p(s|t);

St3:對(duì)于每一個(gè)句對(duì)(S(Z),T(Z)),計(jì)算期望次數(shù)c(s|t;S(Z),T(Z));

St4:對(duì)于每一個(gè)至少出現(xiàn)在一個(gè)目標(biāo)語言句子中的單詞t計(jì)算同時(shí)對(duì)每一個(gè)至少在一個(gè)源語言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對(duì)位概率值p(s|t);

St5:重復(fù)St3和St4,直到迭代完畢,結(jié)束模型1算法;

St6:將模型1修正后的單詞對(duì)位概率值作為模型2的初始值,并引入對(duì)位概率a(i|j,m,l)賦予初始值;

St7:對(duì)于每一個(gè)句對(duì)(S(Z),T(Z)),計(jì)算期望次數(shù)c(s|t;S(Z),T(Z))和 c(i|j,m,l;S,T);

St8:對(duì)于每一個(gè)至少出現(xiàn)在一個(gè)目標(biāo)語言句子中的單詞t計(jì)算同時(shí)對(duì)每一個(gè)至少在一個(gè)源語言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對(duì)位概率值p(s|t)和新的對(duì)位概率值a(i|j,m,l);

St9:重復(fù)St7和St8,直到迭代完畢,結(jié)束模型2算法。

4 對(duì)齊結(jié)果與分析

本文平行語料庫由新疆大學(xué)信息學(xué)院多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室提供。語料庫中整理了漢維相對(duì)應(yīng)的10000句對(duì)。從中抽出本實(shí)驗(yàn)所需的漢維相對(duì)應(yīng)331個(gè)句對(duì),其中這331個(gè)句對(duì)中的詞都是一對(duì)一的對(duì)齊方式。

4.1 模型實(shí)現(xiàn)

(1)通過上述一對(duì)一漢維詞對(duì)齊步驟,本文實(shí)現(xiàn)了一個(gè)可以在windows下運(yùn)行的漢維詞語對(duì)齊模型系統(tǒng)。本系統(tǒng)的核心代碼是采用visual studio 2010平臺(tái)下的C#編寫,主要采用數(shù)據(jù)庫訪問的方式存取數(shù)據(jù),運(yùn)行界面如圖所示。

圖2 運(yùn)行界面

(2)為對(duì)比該系統(tǒng)的評(píng)測指標(biāo),在相同語料下,利用Giza++[7]進(jìn)行了的漢維詞語對(duì)齊,其中從模型1到模型2。如圖3所示:

圖3 Giza++詞對(duì)齊結(jié)果

4.2 系統(tǒng)評(píng)價(jià)指標(biāo)

將漢維331句對(duì)進(jìn)行詞對(duì)齊的人工校對(duì),同時(shí)從Giza++結(jié)果中找出一對(duì)一的漢維詞對(duì)齊作為標(biāo)準(zhǔn)測試語料。按照規(guī)定,引入了三種評(píng)測指標(biāo):

正確率=正確的對(duì)齊總數(shù)/對(duì)齊總數(shù)*100%

召回率=正確的對(duì)齊總數(shù)/實(shí)有對(duì)齊總數(shù)*100%

可以得到以下幾個(gè)結(jié)論:

(1)兩個(gè)模型運(yùn)行測試結(jié)果

表1:Model 1和Model 2的對(duì)齊結(jié)果

(2)本系統(tǒng)同Giza++的詞對(duì)齊相比,各項(xiàng)評(píng)測指標(biāo)如表2所示。

表2:與Giza++對(duì)齊結(jié)果比較

4.3 實(shí)驗(yàn)結(jié)果分析

從上述兩個(gè)表中可以發(fā)現(xiàn),正確率和召回率不高,經(jīng)過總結(jié)分析,影響因素如下:

1.漢語和維吾爾語在切分過程中容易出現(xiàn)切分錯(cuò)誤,在詞對(duì)齊時(shí)會(huì)導(dǎo)致錯(cuò)誤放大。

2.漢語和維吾爾語的句法結(jié)構(gòu)不同。漢語屬于SVO語言,而維吾爾語是SOV語言。

3.漢語無形態(tài)語言,而維吾爾語為形態(tài)豐富的語言。維吾爾語中有明顯形態(tài)標(biāo)志的格,大部分出現(xiàn)在句子的末尾,最多可能出現(xiàn)四種形態(tài)標(biāo)記。

4.本實(shí)驗(yàn)中選取的語料規(guī)模較小,部分詞語可能未能夠覆蓋。

5.模型2的效果比模型1好。但是同Giza++相比較,若使用基于信源信道模型的統(tǒng)計(jì)方法來解決一對(duì)一詞對(duì)齊,后者的效果較好。

5 總結(jié)

論文的主要研究工作是基于統(tǒng)計(jì)機(jī)器翻譯的一對(duì)一漢維詞對(duì)齊方面。通過測試,本方法基本達(dá)到實(shí)驗(yàn)效果,同時(shí)也為后續(xù)其他詞語級(jí)對(duì)齊打下基礎(chǔ)。

目前,本系統(tǒng)設(shè)計(jì)主要考慮了IBM模型1-2實(shí)現(xiàn)了一對(duì)一詞對(duì)齊。但是當(dāng)我們觀察一些實(shí)際翻譯例子時(shí)發(fā)現(xiàn),很多情況下句對(duì)中的詞語為一對(duì)多、多對(duì)一、多對(duì)多。因此,在今后的工作中,首要研究如何實(shí)現(xiàn)漢語和維吾爾語一對(duì)多、多對(duì)一和多對(duì)多的對(duì)位關(guān)系;其次要考慮兩種句法結(jié)構(gòu)相差大的語言上的句子結(jié)構(gòu)。

[1]鄧丹,劉群,俞鴻魁.基于雙語詞典的漢英詞對(duì)齊算法研究[J].計(jì)算機(jī)工程,2005,(8):31-16.

[2][Huang,2000]Jin-Xia Huang,and Key-Sun Choi.C-hinese-Korean word alignment based on linguistic c-omparison[C].In:Annual Meeting of the Association for Computational Linguistics,2000.392-399.

[3]Brown P F,Della Pietra S A,Della Pietra V J,et al.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2):263

[4][Dagan,1993]Dagan L,Chunch K,et al.Robust bilingual word alignment for machine aided translation[A].Proceedings of the W orkshop on Very Large corpora:Academic and Industrial Perspectives[C],C olumbus,1993.1-8.

[5][Gale,1991]Gale,W.and Church,K.Identifying W ord Correspondences in Parallel Texts[A].Proceedings of the 4th DARPA Speech and Natural LanguageWorkshop[C],Pacific Grove,CA,1991.152-157.

[6]Piao,Scott.Word alignment in English-Chinese parallel corpora.Literary and Linguistic Computing,2002,17(2).pp.207-230.

[7]Okita,Tsuyoshi.Word alignment and smoothing methods in statistical machine translation:Noise,prior knowledge and overfitting.Dublin City University School of Computing,2012.

猜你喜歡
源語言目標(biāo)語言維吾爾語
林巍《知識(shí)與智慧》英譯分析
淺析日語口譯譯員素質(zhì)
教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
跨文化視角下對(duì)具有修辭手法諺語英譯漢的研究
速讀·下旬(2016年7期)2016-07-20 08:50:28
維吾爾語話題的韻律表現(xiàn)
以口譯實(shí)例談雙語知識(shí)的必要性
考試周刊(2015年36期)2015-09-10 15:03:38
維吾爾語詞重音的形式判斷
語言與翻譯(2015年4期)2015-07-18 11:07:45
二語習(xí)得過程中的石化現(xiàn)象分析
現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
語言與翻譯(2014年3期)2014-07-12 10:32:09
苍山县| 西丰县| 孝昌县| 南乐县| 桦川县| 香港| 永顺县| 固阳县| 柳江县| 商都县| 普兰县| 胶州市| 永兴县| 云安县| 大邑县| 礼泉县| 开远市| 三亚市| 洞口县| 大足县| 安阳县| 阳新县| 获嘉县| 天长市| 平山县| 阳朔县| 东乡县| 建昌县| 江川县| 富锦市| 邻水| 横峰县| 玛沁县| 化德县| 即墨市| 古蔺县| 玛多县| 台北县| 永清县| 尼玛县| 江安县|