句型轉(zhuǎn)換式漢英機(jī)譯的一些技術(shù)處理探討

2014-03-03 13:50楊憲澤

西南民族大學(xué)學(xué)報（自然科學(xué)版） 2014年2期

關(guān)鍵詞：分詞表達(dá)式句型

楊憲澤

(西南民族大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 成都 610041)

句型轉(zhuǎn)換式漢英機(jī)譯的一些技術(shù)處理探討

楊憲澤

(西南民族大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 成都 610041)

句型轉(zhuǎn)換式機(jī)器翻譯涉及的技術(shù)很多.主要工作有四部分：第一部分給出一種自動分詞邊界問題處理方法; 第二部分探討一般句與疑問句的句型結(jié)構(gòu); 第三部分研究漢英機(jī)器翻譯的譯文生成問題; 第四部分是一種“是”動詞“am; is;are”的處理方法.

機(jī)器翻譯; 邊界問題; 句型轉(zhuǎn)換; 譯文生成

對于兩種不同的自然語言(例如英語和漢語)句子在計算機(jī)上用程序?qū)崿F(xiàn)自動翻譯, 這就是機(jī)器翻譯.機(jī)器翻譯研究課題除了其相當(dāng)高的理論價值外, 還由于巨大的社會效益和經(jīng)濟(jì)效益, 被確定為21世紀(jì)要解決的科技難題之一[1-2].當(dāng)然, 研究目前還面臨許多困難, 因此, 各個方面的探討就顯得很有意義.

在計算機(jī)上用程序?qū)崿F(xiàn)機(jī)器翻譯目前僅有三種實用方法：類比機(jī)器翻譯方法; 概率統(tǒng)計機(jī)器翻譯方法和轉(zhuǎn)換式機(jī)器翻譯方法.轉(zhuǎn)換式機(jī)器翻譯方法的程序處理就是兩種語言間單詞、短語和句型的匹配, 借助于詞法分析、句法分析、語法分析、語義分析、語用分析和語境分析, 最后調(diào)序及目標(biāo)語言的生成完成自動機(jī)器翻譯.

我們在其它文獻(xiàn)中介紹了我們所做漢英機(jī)器翻譯研究的一些階段成果[3-5], 本文的工作是進(jìn)一步研究的探討.第一部分給出漢語句自動分詞邊界問題解決; 第二部分探討一般句與疑問句句型表達(dá)式的處理.第三部分研究漢英機(jī)器翻譯的自動調(diào)序問題.第四部分是一種“是”動詞“am; is; are”的處理方法.

1 漢語句自動分詞邊界問題處理

在機(jī)器翻譯過程中, 要把漢語句子翻譯成英語句子, 漢語句子首先要自動分詞.即把漢語句子切分成一個個單詞再作下一步處理.關(guān)于自動分詞方法, 文獻(xiàn)[6]已經(jīng)做過詳細(xì)介紹, 本文不再贅述.現(xiàn)在要介紹的是自動分詞遇到的邊界問題：文獻(xiàn)[6]介紹的分詞方法是一種正向分詞方法, 其思路是把待翻譯的漢語句子取前三個字查找單詞庫, 若不是一個單詞, 則刪除三個字的最后一個字再實施查找, 這樣一直循環(huán)查找, 至找到一個單詞為止.待翻譯的漢語句子剩余部分重復(fù)此工作, 直到把所有的待翻譯的漢語句子的詞都分出為止.這里可能就出現(xiàn)這樣的情況, 自動分詞到最后, 待翻譯的漢語句子剩下的不是三個字, 算法越界死機(jī), 為避免這種情況, 我們作如下處理：

步驟1：待翻譯的漢語句子的字?jǐn)?shù)≥3？是, 轉(zhuǎn)步驟 7.

步驟2：待翻譯的漢語句子的字?jǐn)?shù)=2？是, 轉(zhuǎn)步驟 6.

步驟3：待翻譯的漢語句子的字?jǐn)?shù)=1？是, 轉(zhuǎn)步驟 5.

步驟4：已經(jīng)完全分詞, 進(jìn)入下階段處理.

步驟5：進(jìn)入查找單字詞階段.

步驟6：進(jìn)入查找兩字詞階段.

步驟7：自動分詞算法正常運(yùn)行.

2 一般句與疑問句句型表達(dá)式的處理

漢英機(jī)器翻譯采用句型轉(zhuǎn)換的方法就是把漢語句子的單詞和句型結(jié)構(gòu)映射為英文句子相對應(yīng)的單詞和句型結(jié)構(gòu), 能夠程序?qū)崿F(xiàn)翻譯的核心是句型結(jié)構(gòu)的表達(dá)式相同.但是, 一般句與疑問句的句型表達(dá)式可能相同, 但它們翻譯出的英語句子中的單詞順序卻不相同.例如：“你們是學(xué)生.”與“你們是學(xué)生？”句型表達(dá)式都是“pvn”, 但譯文應(yīng)該是不同的兩種, You are students.和 Are you students? 為此, 處理的方式根據(jù)待翻譯的句子結(jié)尾是句號還是問號來區(qū)別是一般句與疑問句.即, 一般句與疑問句的句型表達(dá)式建立在不同的模塊中, 處理步驟如下：

步驟1：求待翻譯漢語句子字符長度, 記為x;

步驟2：根據(jù)x求出待翻譯漢語句子最后一個字符, 記為fh;

步驟3：fh是“？”？, 是轉(zhuǎn)步驟5;

步驟4：一般句的句型表達(dá)式方式處理;

步驟5：疑問句的句型表達(dá)式方式處理.

顯然, 在不同的模塊中, 一般句與疑問句的句型表達(dá)式即使相同, 它們的譯文輸出表達(dá)式卻不相同.例如,“你們是學(xué)生.”與“你們是學(xué)生？”句型表達(dá)式都是“pvn”, 但在不同的模塊處理后, 譯文輸出表達(dá)式為yy(1)yy(2)yy(3)和 yy(2)yy(1) yy(3).

3 漢英機(jī)器翻譯的自動調(diào)序問題

調(diào)序指的是要翻譯的英語句子與漢語句子單詞表示的順序不同, 當(dāng)然這就需要程序自動處理, 完成調(diào)序.如果設(shè)一個英語單詞由yy(i)表示, 漢英句型轉(zhuǎn)換的機(jī)器翻譯句子的順序有下列情況：

(1) 要翻譯的漢語句子單詞順序與生成的英語句子單詞順序相同.

舉例：要把“現(xiàn)在我們詳細(xì)介紹計算機(jī)”, 這一漢語句子翻譯成英語句子, 首先建立句型表達(dá)式, zs = "dpdvn".其中, 第一個d是“現(xiàn)在”這一單詞的詞性標(biāo)注符; p是“我們” 的詞性標(biāo)注符; 第二個d是“詳細(xì)”的詞性標(biāo)注符; v是“介紹”的詞性標(biāo)注符; n是“計算機(jī)”的詞性標(biāo)注符.程序自動調(diào)序結(jié)果單詞順序任然是：yy(1)yy(2) yy(3)yy(4)yy(5).

(2)要翻譯的漢語句子單詞順序與生成的英語句子單詞順序不同.

舉例：要把“計算機(jī)對生產(chǎn)過程帶來根本變化”, 這一漢語句子翻譯成英語句子, 首先建立句型表達(dá)式, zs ="njnnvan".其中, 第一個n是“計算機(jī)”這一單詞的詞性標(biāo)注符; j是“對” 的詞性標(biāo)注符; 第二個n是“生產(chǎn)”的詞性標(biāo)注符; 第三個n是“過程”的詞性標(biāo)注符; v是“帶來”的詞性標(biāo)注符; a是“根本”的詞性標(biāo)注符; 最后的n是“變化”的詞性標(biāo)注符.程序?qū)⒆詣诱{(diào)序, 結(jié)果機(jī)器翻譯句子單詞順序成為：yy(1)yy(5) yy(6) yy(7)yy(2) yy(3)yy(4).即：Computer brought complete change to production process.

4 關(guān)于“am; is; are”的處理

在機(jī)器翻譯的漢譯英中, “是”動詞會遇到“am; is; are”的選擇, 人工翻譯按照人稱規(guī)則很容易選擇.為使翻譯程序?qū)崿F(xiàn)自動處理, 我們設(shè)計了如下子算法：

若翻譯的漢語句動詞為“是”, 轉(zhuǎn)入子程序SDCCL

yxz1：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“I”, “是”動詞選擇“am”, 轉(zhuǎn)yxz10;

Yxz2：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“she”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;

Yxz3：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“he”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;

Yxz4：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“this”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;

Yxz5：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“her”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;

Yxz6：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“you”, “是”動詞選擇“are”, 轉(zhuǎn)yxz10;

Yxz7：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“they”, “是”動詞選擇“are”, 轉(zhuǎn)yxz10;

Yxz8：要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“we”, “是”動詞選擇“are”, 轉(zhuǎn)yxz710;

Yxz9：其它情況, “是”動詞使用“is”;

Yxz10：子程序退出.

5 結(jié)束語

漢英機(jī)器翻譯的研究和軟件開發(fā)很難, 主要原因有許多基本問題的研究必須先解決.例如英語字母大小寫譯文中怎么加入; 被動語氣和主動語氣; “the”怎么加入和復(fù)數(shù)問題等等都是開發(fā)軟件需要面臨的問題.當(dāng)然, 最難的還是單詞的多義、漢語句子自動分詞的歧義問題和句子語義問題.我們充分認(rèn)識到, 由于不同國家、不同民族的自然語言發(fā)展有上千年歷史、他們的思維理念和傳統(tǒng)的一些文化方式肯定有不同點, 這就使機(jī)器翻譯兩種語言對于許多不同的部分, 不僅僅是單詞和短語, 也不僅僅是漢譯英, 英譯漢也會遇到同樣的問題.例如, How do you do ?

人可以克服這個障礙, 計算機(jī)軟件怎么辦？如果不特殊處理, 只能翻譯成“你怎么樣？”這類需要研究和解決的問題不少.

既然機(jī)器翻譯被列為本世紀(jì)要解決的科技難題之一.我們相信：只要相關(guān)科技人員努力去做, 隨著研究的深入, 隨著科技的進(jìn)一步發(fā)展, 隨著時間的推移, 許多問題都會解決, 機(jī)器翻譯的最終目標(biāo)一定會達(dá)到.

[1]WANG,CHAO, MICHAEL,COLLINS, et al.Chinese syntactic reordering for statistical machine translation[C].In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL), 2007:737-745.

[2]XIONG DEYI, MIN ZHANG, AITI AW, et al.A linguistically Annotated Reordering Model for BTG-based Statistical Machine Translation[C].In Proceedings of ACL-08:HLT,Short papers (Companion Volume), USA: Columbus,Ohio, 2008: 149-152.

[3]楊憲澤.漢英機(jī)器翻譯中短語處理與譯文生成研究[J].西南民族大學(xué)學(xué)報: 自然科學(xué)版, 2013: 39(3) :456-460.

[4]楊憲澤.一種混合式機(jī)器翻譯方法的分析研究[J].計算機(jī)工程與科學(xué), 2012: 34(2): 168-171.

[5]楊憲澤.機(jī)器翻譯的一些難點探討[J].西南民族大學(xué)學(xué)報: 自然科學(xué)版, 2011: 37(3) :447-451.

[6]楊憲澤.混合式機(jī)器翻譯中單詞處理的一些技術(shù)探討[J].科技通報, 2011: 27(1): 101-104.

Study on some technique processing of Chinese-English syntactic transfer machine translation

YANG Xian-ze
(School of Computer Science and Technology, Southwest University for Nationalities, Chengdu 610041, P.R.C.)

The syntactic transfer machine translation involves many technologies.This paper comprises four parts.The first part gives a boundary problem treatment methods of automatic words segmentation.The second part studies the general and interrogative sentence construction.The three part is a research on some treatment methods of Chinese-English machine translation target-language generation.The four part presents a kind of processing method of verbs such asam, is, are.

machine translation; boundary problem; syntactic transfer; target-language generation

TP391.2

1003-4271(2014)02-0271-03

10.3969/j.issn.1003-4271.2014.02.20

2014-01-08

楊憲澤(1954-), 男, 四川成都人, 教授, 研究方向: 自然語言處理與數(shù)據(jù)結(jié)構(gòu).

國家自然科學(xué)基金面上項目(61379019); 中央高?？蒲衅脚_項目(11NPT02).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

句型轉(zhuǎn)換式漢英機(jī)譯的一些技術(shù)處理探討

1 漢語句自動分詞邊界問題處理

2 一般句與疑問句句型表達(dá)式的處理

3 漢英機(jī)器翻譯的自動調(diào)序問題

4 關(guān)于“am; is; are”的處理

5 結(jié)束語