楊憲澤
(西南民族大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 成都 610041)
句型轉(zhuǎn)換式漢英機(jī)譯的一些技術(shù)處理探討
楊憲澤
(西南民族大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 成都 610041)
句型轉(zhuǎn)換式機(jī)器翻譯涉及的技術(shù)很多.主要工作有四部分:第一部分給出一種自動分詞邊界問題處理方法; 第二部分探討一般句與疑問句的句型結(jié)構(gòu); 第三部分研究漢英機(jī)器翻譯的譯文生成問題; 第四部分是一種“是”動詞“am; is;are”的處理方法.
機(jī)器翻譯; 邊界問題; 句型轉(zhuǎn)換; 譯文生成
對于兩種不同的自然語言(例如英語和漢語)句子在計算機(jī)上用程序?qū)崿F(xiàn)自動翻譯, 這就是機(jī)器翻譯.機(jī)器翻譯研究課題除了其相當(dāng)高的理論價值外, 還由于巨大的社會效益和經(jīng)濟(jì)效益, 被確定為21世紀(jì)要解決的科技難題之一[1-2].當(dāng)然, 研究目前還面臨許多困難, 因此, 各個方面的探討就顯得很有意義.
在計算機(jī)上用程序?qū)崿F(xiàn)機(jī)器翻譯目前僅有三種實用方法:類比機(jī)器翻譯方法; 概率統(tǒng)計機(jī)器翻譯方法和轉(zhuǎn)換式機(jī)器翻譯方法.轉(zhuǎn)換式機(jī)器翻譯方法的程序處理就是兩種語言間單詞、短語和句型的匹配, 借助于詞法分析、句法分析、語法分析、語義分析、語用分析和語境分析, 最后調(diào)序及目標(biāo)語言的生成完成自動機(jī)器翻譯.
我們在其它文獻(xiàn)中介紹了我們所做漢英機(jī)器翻譯研究的一些階段成果[3-5], 本文的工作是進(jìn)一步研究的探討.第一部分給出漢語句自動分詞邊界問題解決; 第二部分探討一般句與疑問句句型表達(dá)式的處理.第三部分研究漢英機(jī)器翻譯的自動調(diào)序問題.第四部分是一種“是”動詞“am; is; are”的處理方法.
在機(jī)器翻譯過程中, 要把漢語句子翻譯成英語句子, 漢語句子首先要自動分詞.即把漢語句子切分成一個個單詞再作下一步處理.關(guān)于自動分詞方法, 文獻(xiàn)[6]已經(jīng)做過詳細(xì)介紹, 本文不再贅述.現(xiàn)在要介紹的是自動分詞遇到的邊界問題:文獻(xiàn)[6]介紹的分詞方法是一種正向分詞方法, 其思路是把待翻譯的漢語句子取前三個字查找單詞庫, 若不是一個單詞, 則刪除三個字的最后一個字再實施查找, 這樣一直循環(huán)查找, 至找到一個單詞為止.待翻譯的漢語句子剩余部分重復(fù)此工作, 直到把所有的待翻譯的漢語句子的詞都分出為止.這里可能就出現(xiàn)這樣的情況, 自動分詞到最后, 待翻譯的漢語句子剩下的不是三個字, 算法越界死機(jī), 為避免這種情況, 我們作如下處理:
步驟1:待翻譯的漢語句子的字?jǐn)?shù)≥3?是, 轉(zhuǎn)步驟 7.
步驟2:待翻譯的漢語句子的字?jǐn)?shù)=2? 是, 轉(zhuǎn)步驟 6.
步驟3:待翻譯的漢語句子的字?jǐn)?shù)=1? 是, 轉(zhuǎn)步驟 5.
步驟4:已經(jīng)完全分詞, 進(jìn)入下階段處理.
步驟5:進(jìn)入查找單字詞階段.
步驟6:進(jìn)入查找兩字詞階段.
步驟7:自動分詞算法正常運(yùn)行.
漢英機(jī)器翻譯采用句型轉(zhuǎn)換的方法就是把漢語句子的單詞和句型結(jié)構(gòu)映射為英文句子相對應(yīng)的單詞和句型結(jié)構(gòu), 能夠程序?qū)崿F(xiàn)翻譯的核心是句型結(jié)構(gòu)的表達(dá)式相同.但是, 一般句與疑問句的句型表達(dá)式可能相同, 但它們翻譯出的英語句子中的單詞順序卻不相同.例如:“你們是學(xué)生.”與“你們是學(xué)生?”句型表達(dá)式都是“pvn”, 但譯文應(yīng)該是不同的兩種, You are students.和 Are you students? 為此, 處理的方式根據(jù)待翻譯的句子結(jié)尾是句號還是問號來區(qū)別是一般句與疑問句.即, 一般句與疑問句的句型表達(dá)式建立在不同的模塊中, 處理步驟如下:
步驟1:求待翻譯漢語句子字符長度, 記為x;
步驟2:根據(jù)x求出待翻譯漢語句子最后一個字符, 記為fh;
步驟3:fh是“?”?, 是轉(zhuǎn)步驟5;
步驟4:一般句的句型表達(dá)式方式處理;
步驟5:疑問句的句型表達(dá)式方式處理.
顯然, 在不同的模塊中, 一般句與疑問句的句型表達(dá)式即使相同, 它們的譯文輸出表達(dá)式卻不相同.例如,“你們是學(xué)生.”與“你們是學(xué)生?”句型表達(dá)式都是“pvn”, 但在不同的模塊處理后, 譯文輸出表達(dá)式為yy(1)yy(2)yy(3)和 yy(2)yy(1) yy(3).
調(diào)序指的是要翻譯的英語句子與漢語句子單詞表示的順序不同, 當(dāng)然這就需要程序自動處理, 完成調(diào)序.如果設(shè)一個英語單詞由yy(i)表示, 漢英句型轉(zhuǎn)換的機(jī)器翻譯句子的順序有下列情況:
(1) 要翻譯的漢語句子單詞順序與生成的英語句子單詞順序相同.
舉例:要把“現(xiàn)在我們詳細(xì)介紹計算機(jī)”, 這一漢語句子翻譯成英語句子, 首先建立句型表達(dá)式, zs = "dpdvn".其中, 第一個d是“現(xiàn)在”這一單詞的詞性標(biāo)注符; p是“我們” 的詞性標(biāo)注符; 第二個d是“詳細(xì)”的詞性標(biāo)注符; v是“介紹”的詞性標(biāo)注符; n是“計算機(jī)”的詞性標(biāo)注符.程序自動調(diào)序結(jié)果單詞順序任然是:yy(1)yy(2) yy(3)yy(4)yy(5).
(2)要翻譯的漢語句子單詞順序與生成的英語句子單詞順序不同.
舉例:要把“計算機(jī)對生產(chǎn)過程帶來根本變化”, 這一漢語句子翻譯成英語句子, 首先建立句型表達(dá)式, zs ="njnnvan".其中, 第一個n是“計算機(jī)”這一單詞的詞性標(biāo)注符; j是“對” 的詞性標(biāo)注符; 第二個n是“生產(chǎn)”的詞性標(biāo)注符; 第三個n是“過程”的詞性標(biāo)注符; v是“帶來”的詞性標(biāo)注符; a是“根本”的詞性標(biāo)注符; 最后的n是“變化”的詞性標(biāo)注符.程序?qū)⒆詣诱{(diào)序, 結(jié)果機(jī)器翻譯句子單詞順序成為:yy(1)yy(5) yy(6) yy(7)yy(2) yy(3)yy(4).即:Computer brought complete change to production process.
在機(jī)器翻譯的漢譯英中, “是”動詞會遇到“am; is; are”的選擇, 人工翻譯按照人稱規(guī)則很容易選擇.為使翻譯程序?qū)崿F(xiàn)自動處理, 我們設(shè)計了如下子算法:
若翻譯的漢語句動詞為“是”, 轉(zhuǎn)入子程序SDCCL
yxz1:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“I”, “是”動詞選擇“am”, 轉(zhuǎn)yxz10;
Yxz2:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“she”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;
Yxz3:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“he”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;
Yxz4:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“this”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;
Yxz5:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“her”, “是”動詞選擇“is”, 轉(zhuǎn)yxz10;
Yxz6:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“you”, “是”動詞選擇“are”, 轉(zhuǎn)yxz10;
Yxz7:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“they”, “是”動詞選擇“are”, 轉(zhuǎn)yxz10;
Yxz8:要翻譯生成的英語句“是”相鄰單詞出現(xiàn)“we”, “是”動詞選擇“are”, 轉(zhuǎn)yxz710;
Yxz9:其它情況, “是”動詞使用“is”;
Yxz10:子程序退出.
漢英機(jī)器翻譯的研究和軟件開發(fā)很難, 主要原因有許多基本問題的研究必須先解決.例如英語字母大小寫譯文中怎么加入; 被動語氣和主動語氣; “the”怎么加入和復(fù)數(shù)問題等等都是開發(fā)軟件需要面臨的問題.當(dāng)然, 最難的還是單詞的多義、漢語句子自動分詞的歧義問題和句子語義問題.我們充分認(rèn)識到, 由于不同國家、不同民族的自然語言發(fā)展有上千年歷史、他們的思維理念和傳統(tǒng)的一些文化方式肯定有不同點, 這就使機(jī)器翻譯兩種語言對于許多不同的部分, 不僅僅是單詞和短語, 也不僅僅是漢譯英, 英譯漢也會遇到同樣的問題.例如, How do you do ?
人可以克服這個障礙, 計算機(jī)軟件怎么辦?如果不特殊處理, 只能翻譯成“你怎么樣?”這類需要研究和解決的問題不少.
既然機(jī)器翻譯被列為本世紀(jì)要解決的科技難題之一.我們相信:只要相關(guān)科技人員努力去做, 隨著研究的深入, 隨著科技的進(jìn)一步發(fā)展, 隨著時間的推移, 許多問題都會解決, 機(jī)器翻譯的最終目標(biāo)一定會達(dá)到.
[1]WANG,CHAO, MICHAEL,COLLINS, et al.Chinese syntactic reordering for statistical machine translation[C].In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL), 2007:737-745.
[2]XIONG DEYI, MIN ZHANG, AITI AW, et al.A linguistically Annotated Reordering Model for BTG-based Statistical Machine Translation[C].In Proceedings of ACL-08:HLT,Short papers (Companion Volume), USA: Columbus,Ohio, 2008: 149-152.
[3]楊憲澤.漢英機(jī)器翻譯中短語處理與譯文生成研究[J].西南民族大學(xué)學(xué)報: 自然科學(xué)版, 2013: 39(3) :456-460.
[4]楊憲澤.一種混合式機(jī)器翻譯方法的分析研究[J].計算機(jī)工程與科學(xué), 2012: 34(2): 168-171.
[5]楊憲澤.機(jī)器翻譯的一些難點探討[J].西南民族大學(xué)學(xué)報: 自然科學(xué)版, 2011: 37(3) :447-451.
[6]楊憲澤.混合式機(jī)器翻譯中單詞處理的一些技術(shù)探討[J].科技通報, 2011: 27(1): 101-104.
Study on some technique processing of Chinese-English syntactic transfer machine translation
YANG Xian-ze
(School of Computer Science and Technology, Southwest University for Nationalities, Chengdu 610041, P.R.C.)
The syntactic transfer machine translation involves many technologies.This paper comprises four parts.The first part gives a boundary problem treatment methods of automatic words segmentation.The second part studies the general and interrogative sentence construction.The three part is a research on some treatment methods of Chinese-English machine translation target-language generation.The four part presents a kind of processing method of verbs such asam, is, are.
machine translation; boundary problem; syntactic transfer; target-language generation
TP391.2
A
1003-4271(2014)02-0271-03
10.3969/j.issn.1003-4271.2014.02.20
2014-01-08
楊憲澤(1954-), 男, 四川成都人, 教授, 研究方向: 自然語言處理與數(shù)據(jù)結(jié)構(gòu).
國家自然科學(xué)基金面上項目(61379019); 中央高??蒲衅脚_項目(11NPT02).