国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隱性句逗號(hào)識(shí)別的漢語(yǔ)長(zhǎng)句機(jī)器翻譯

2025-01-26 00:00:00馮文賀李熳佳張文娟
外語(yǔ)學(xué)刊 2025年1期
關(guān)鍵詞:機(jī)器翻譯

提 要:長(zhǎng)句翻譯一直是機(jī)器翻譯的難題。本文根據(jù)漢語(yǔ)中相當(dāng)數(shù)量的逗號(hào)和句號(hào)可相互轉(zhuǎn)化的特點(diǎn),提出“隱性句號(hào)”和“隱性逗號(hào)”概念,并實(shí)現(xiàn)其自動(dòng)識(shí)別,以將漢語(yǔ)長(zhǎng)句變?yōu)槎叹溆糜跐h英機(jī)器翻譯。為此,首先通過(guò)人工與半監(jiān)督學(xué)習(xí)結(jié)合方法構(gòu)建一個(gè)隱性句逗數(shù)據(jù)集,實(shí)現(xiàn)基于預(yù)訓(xùn)練模型的隱性句逗識(shí)別方法,其中性能最好的Hierarchical BERT作為后續(xù)應(yīng)用模型。進(jìn)而,實(shí)現(xiàn)基于隱性句逗識(shí)別的漢英機(jī)器翻譯方法。在新聞和文學(xué)公開翻譯測(cè)試語(yǔ)料上基于預(yù)訓(xùn)練機(jī)器翻譯模型的實(shí)驗(yàn)表明,對(duì)于漢語(yǔ)長(zhǎng)句的英譯,本文方法相比基準(zhǔn)翻譯的BLEU值整體有所提高,而且在相對(duì)穩(wěn)健機(jī)器翻譯模型上,呈現(xiàn)為句子越長(zhǎng)本文方法效果越明顯。

關(guān)鍵詞:機(jī)器翻譯;長(zhǎng)句翻譯;隱性句逗號(hào);漢語(yǔ)長(zhǎng)句;逗號(hào)識(shí)別;句內(nèi)標(biāo)點(diǎn)

中圖分類號(hào):H08 """"文獻(xiàn)標(biāo)識(shí)碼:A """"文章編號(hào):1000-0100(2025)01-0039-8

DOI編碼:10.16263/j.cnki.23-1071/h.2025.01.005

Machine Translation of Chinese Long Sentences Based on

Recognition of" Implicit Period and Comma

Feng Wen-he1 Li Man-jia1 Zhang Wen-juan2

(1.Lab of" Language Engineering and Computing, Center for Linguistics and Applied Linguistics,

Guangdong University of" Foreign Studies, Guangzhou 510420, China; 2.School of Computer Science and

Engineering, Guangzhou Institute of" Science and Technology, Guangzhou 510420, China)

The translation of long sentences has always been a difficult task for machine translation. In this paper, based on the feature that a considerable number of commas and periods" in Chinese text can be transformed into each other, we propose the concepts of" “implicit period” and “implicit comma”, and realize their automatic recognition to transform Chinese long sentences into short sentences for Chinese-English machine translation. In this paper, a dataset of implicit period and comma is constructed by combining manual and semi-supervised learning methods, and an implicit period and comma recognition method is realized based on a pre-trained model, in which Hierarchical BERT, which has the best performance, is used as the subsequent application model. In this paper, a Chinese-English machine translation method based on implicit period and comma recognition is realized. The experiments based on pre-trained machine translation models on the News" and Literature corpus show that for the English translation of Chinese long sentences, the method in this paper improves the BLEU value compared to the benchmark translation as a whole, and the effect of the method in this paper is more obvious the longer the sentence is for the relatively robust machine translation model.

Key words:machine translation; long sentence translation; implicit period and comma; Chinese long sentence; recognition of comma; intra-sentence punctuation

1 引言

篇章翻譯是當(dāng)前制約機(jī)器翻譯技術(shù)性能的一個(gè)突出問(wèn)題,其困難集中體現(xiàn)于長(zhǎng)句翻譯上(Koehn, Knowles" 2017)。原因在于長(zhǎng)句一般由多個(gè)小句(clause)構(gòu)成,而不同語(yǔ)言的小句及其間結(jié)構(gòu)差異巨大。如表現(xiàn)在漢英語(yǔ)言間,漢語(yǔ)小句無(wú)系統(tǒng)的語(yǔ)法主從之別,長(zhǎng)句多流水句,小句間“可斷可連”(呂叔湘 1979:27),反映在標(biāo)點(diǎn)上即逗號(hào)(句內(nèi)標(biāo)點(diǎn))、句號(hào)(句間標(biāo)點(diǎn))可相互轉(zhuǎn)換,句子邊界相對(duì)模糊;而英語(yǔ)小句則有系統(tǒng)的語(yǔ)法主從之別,句號(hào)、逗號(hào)分明,相互轉(zhuǎn)化性弱,句子邊界相對(duì)清晰(趙朝永 王文斌 2020,馮文賀" 李青青 2022)。句子邊界差異自然引發(fā)雙語(yǔ)長(zhǎng)句的翻譯問(wèn)題。長(zhǎng)句機(jī)器翻譯困難也有其計(jì)算機(jī)制的原因。如對(duì)于基于循環(huán)神經(jīng)網(wǎng)絡(luò)的翻譯模型(Sutskever et al. 2014),長(zhǎng)句會(huì)造成更多長(zhǎng)距離依賴關(guān)系需要維護(hù),以致難以記住大量上下文信息;對(duì)于基于注意力機(jī)制的翻譯模型(Vaswani et al. 2017),長(zhǎng)句會(huì)造成注意力分散到更多信息點(diǎn),以致難以持續(xù)聚焦于最關(guān)鍵信息。

對(duì)于長(zhǎng)句翻譯問(wèn)題,一種解決思路就是將其化為短句翻譯。問(wèn)題是如何將長(zhǎng)句合理化為短句。本文認(rèn)為,可從漢語(yǔ)句逗號(hào)中有大量可相互轉(zhuǎn)化而又不影響原義表達(dá)的特點(diǎn)入手,解決漢語(yǔ)長(zhǎng)句的翻譯問(wèn)題。例如:

(1) a. "①少年姓孫,②屬馬[,]③比小水小著一歲,④個(gè)頭也沒(méi)小水高,⑤人卻本分實(shí)誠(chéng)。(賈平凹《浮躁》)

b. ①This boy,a member of Sun Family, ②was born in the year of the horse[.] ③Although he was a year younger ④and a head shorter than water girl, ⑤he was honest and sincere.(Goldblatt 1991)

c. ①The young Sun, ②a horse③, is one year younger than Xiaoshui, ④and the individual is no higher than Xiaoshui, ⑤but the person is sincere.(有道翻譯 2023.11.18)

d. ①The young man’s surname is Sun," ②he was born in the year of the horse, ③and is one year younger than Xiao Shui. ④He is not as tall as Xiao Shui, ⑤but he is honest and earnest.(ChatGPT4 2023.12.10)①

例(1)a漢語(yǔ)復(fù)句包含5個(gè)小句。語(yǔ)義主題上,小句①②描述少年的個(gè)人特征;小句③④和小句⑤雖然也描述少年的個(gè)人特征,但相比卻有了對(duì)比人物“小水”。據(jù)此,前兩個(gè)小句和后3個(gè)小句所表達(dá)語(yǔ)義主題有所差異,其間語(yǔ)義關(guān)系也遠(yuǎn)近有別。也因此,可將小句②后逗號(hào)改為句號(hào),而且原文小句間的語(yǔ)義關(guān)系遠(yuǎn)近及具體邏輯語(yǔ)義等不變。本文將此類可轉(zhuǎn)化為句號(hào)而不改變?cè)男【溟g語(yǔ)義關(guān)系遠(yuǎn)近及邏輯語(yǔ)義的逗號(hào)視為“隱性句號(hào)”。同理,漢語(yǔ)文本中也存在句號(hào)可變?yōu)槎禾?hào)的情況,本文將此類句號(hào)視為“隱性逗號(hào)”。

將漢語(yǔ)長(zhǎng)句變?yōu)槎叹?,相比可以?shí)現(xiàn)更好翻譯。如專業(yè)譯者(例(1)b)在小句②后斷句翻譯,更好翻譯表達(dá)了源語(yǔ)小句間的語(yǔ)義遠(yuǎn)近關(guān)系,句子的內(nèi)部結(jié)構(gòu)也更符合英文習(xí)慣。相比之下,機(jī)器譯文例(1)c中句逗號(hào)與源語(yǔ)一致,小句間的語(yǔ)義關(guān)系不明,句子結(jié)構(gòu)也顯得冗長(zhǎng),不符合英文結(jié)構(gòu)習(xí)慣。但是,如果不能恰當(dāng)?shù)鼗L(zhǎng)句為短句,也可能導(dǎo)致不良翻譯。如機(jī)器譯文例(1)d中在小句③后斷句翻譯,根本上改變?cè)凑Z(yǔ)小句間的結(jié)構(gòu)關(guān)系,其中割裂了小句③④間密切的并列關(guān)系(由連接詞“也”表示),隔斷了小句⑤對(duì)小句③④整體的轉(zhuǎn)折關(guān)系(由此也導(dǎo)致譯文連接詞but不能準(zhǔn)確翻譯原文連接詞“卻”的管轄范圍)。可以說(shuō),長(zhǎng)句化短后翻譯,在根本上會(huì)影響句子內(nèi)外的結(jié)構(gòu)組織,影響是全局性的。

本文認(rèn)為,如果能夠識(shí)別漢語(yǔ)文本中隱性句逗號(hào),就可能將相當(dāng)一部分長(zhǎng)句經(jīng)切分重組為較短句子,而經(jīng)此處理后再進(jìn)行機(jī)器翻譯,就可能達(dá)到更好的翻譯效果?;诖耍疚奶岢龌陔[性句逗號(hào)識(shí)別的漢語(yǔ)長(zhǎng)句機(jī)器翻譯方法。為此,本文首先構(gòu)建漢語(yǔ)隱性句逗號(hào)數(shù)據(jù)集,并實(shí)現(xiàn)其識(shí)別模型;進(jìn)而將隱性句逗號(hào)識(shí)別模型用于機(jī)器翻譯的漢語(yǔ)源語(yǔ)數(shù)據(jù)預(yù)處理,以使機(jī)器翻譯獲得更好的長(zhǎng)句翻譯效果。

2 相關(guān)工作

現(xiàn)有機(jī)器翻譯模型處理短句表現(xiàn)良好,但對(duì)于長(zhǎng)句,往往無(wú)法給出優(yōu)質(zhì)翻譯。為改善長(zhǎng)句翻譯效果,主要進(jìn)行了兩類研究:一類是進(jìn)行篇章級(jí)機(jī)器翻譯建模,綜合解決包括長(zhǎng)句在內(nèi)的篇章翻譯問(wèn)題;另一類是專門針對(duì)長(zhǎng)句的機(jī)器翻譯研究。

在篇章機(jī)器翻譯建模研究中,一般既關(guān)注句內(nèi)詞語(yǔ)間結(jié)構(gòu)關(guān)系,也關(guān)注上下文句子間的一致性、連貫性、結(jié)構(gòu)層次、銜接性等信息(Tan et al. 2019;Chen et al. 2020;Guo et al. 2022; 賈愛鑫等 2024)。由于更多關(guān)注上下文,一定程度上有利于緩解長(zhǎng)句翻譯問(wèn)題。在篇章機(jī)器翻譯建模中,有研究特別注意到句長(zhǎng)的影響。如研究指出篇章級(jí)機(jī)器翻譯中源語(yǔ)和目標(biāo)語(yǔ)的句長(zhǎng)偏差會(huì)導(dǎo)致翻譯質(zhì)量下降;提出動(dòng)態(tài)采樣訓(xùn)練數(shù)據(jù),以確保不同序列長(zhǎng)度可均勻分布;引入長(zhǎng)度歸一化注意力機(jī)制,以使模型聚焦于目標(biāo)信息,緩解處理較長(zhǎng)序列時(shí)的注意力偏離問(wèn)題;提出在解碼過(guò)程中采用滑動(dòng)窗口策略,以在不超過(guò)最大序列長(zhǎng)度的前提下整合更多上下文信息(Zhang" et al. 2023)。然而,根本上篇章機(jī)器翻譯建模并不著重于解決由于(漢英)雙語(yǔ)句子邊界差異帶來(lái)的長(zhǎng)句翻譯問(wèn)題。

在專門針對(duì)長(zhǎng)句的機(jī)器翻譯研究中,一般將長(zhǎng)句化為較短的語(yǔ)言單位再翻譯。在傳統(tǒng)機(jī)器翻譯(基于規(guī)則、基于統(tǒng)計(jì))下,不同語(yǔ)言的翻譯上均有研究嘗試將長(zhǎng)句劃分為較短的語(yǔ)言單位再翻譯,一般是利用一些語(yǔ)言特征,如句法模板、結(jié)構(gòu)層次、小句、連接詞、標(biāo)點(diǎn)等,將長(zhǎng)句劃分為較短的短語(yǔ)、小句、結(jié)構(gòu)片段等后,先翻譯較短單位后再進(jìn)行組合(Oliveira et al. 2010;Goh, Sumita" 2011;Yin et al. 2012;Hung et al. 2012;Pouget-Abadie et al. 2014)。在漢英翻譯中,也有一些研究嘗試?yán)脴?biāo)點(diǎn)符號(hào)、關(guān)系代詞、層次結(jié)構(gòu)等長(zhǎng)句劃分為簡(jiǎn)單句、子句等后再進(jìn)行翻譯(黃河燕 陳肇雄 2002;李幸" 宗成慶 2006;Xiong et al. 2009)。在神經(jīng)機(jī)器翻譯(NMT)技術(shù)框架下,也有研究考慮將長(zhǎng)句化短后分別翻譯再組合。如有研究在漢英翻譯中引入一個(gè)拆分和重新排序模型來(lái)共同檢測(cè)源語(yǔ)長(zhǎng)句的最佳分割點(diǎn)序列,進(jìn)而將每個(gè)源語(yǔ)子句由NMT系統(tǒng)獨(dú)立轉(zhuǎn)換為目標(biāo)子句,并將翻譯的目標(biāo)子句連接起來(lái)形成長(zhǎng)句的最終翻譯(kuang, Xiong 2016)。有研究提出雙語(yǔ)短語(yǔ)提取方法,以構(gòu)建雙語(yǔ)短語(yǔ)對(duì)齊語(yǔ)料庫(kù),并實(shí)現(xiàn)了一種長(zhǎng)句預(yù)處理技術(shù),以切分長(zhǎng)句為短語(yǔ),解決長(zhǎng)句翻譯問(wèn)題(Tien, Minh 2019)。長(zhǎng)句分割與句子邊界相關(guān),有研究發(fā)現(xiàn)句子邊界分割對(duì)口語(yǔ)翻譯質(zhì)量影響顯著,提出一種數(shù)據(jù)增強(qiáng)策略,即在訓(xùn)練過(guò)程中將模型暴露于各種邊界分割錯(cuò)誤中,以提高NMT系統(tǒng)對(duì)句子邊界分割錯(cuò)誤處理的魯棒性和機(jī)器翻譯的準(zhǔn)確性(Li et al. 2021)。然而這些研究只是一般地將長(zhǎng)句化為較短的語(yǔ)言單位再翻譯,而不考慮長(zhǎng)句化短后是否改變了源語(yǔ)長(zhǎng)句內(nèi)外,小句間語(yǔ)義關(guān)系的遠(yuǎn)近與邏輯類別等。但事實(shí)上,隨意切斷長(zhǎng)句后翻譯可能導(dǎo)致原文小句間的邏輯語(yǔ)義結(jié)構(gòu)的改變,如例(1)d的譯文。為此,本文基于漢語(yǔ)部分句逗號(hào)可相互轉(zhuǎn)化的特點(diǎn),提出“隱性句逗號(hào)”概念,實(shí)現(xiàn)其機(jī)器識(shí)別,并用以解決漢語(yǔ)長(zhǎng)句的機(jī)器翻譯難題,其中特別關(guān)注長(zhǎng)句內(nèi)外小句間語(yǔ)義關(guān)系的遠(yuǎn)近與邏輯類別等是否得到了準(zhǔn)確翻譯。

3 隱性句逗號(hào)識(shí)別

本文構(gòu)建了漢語(yǔ)隱性句逗號(hào)數(shù)據(jù)集,并實(shí)現(xiàn)了基于預(yù)訓(xùn)練語(yǔ)言模型的隱性句逗號(hào)識(shí)別方法??紤]到原始文本中句逗號(hào)的數(shù)據(jù)不平衡(句號(hào)少,逗號(hào)多),及相應(yīng)隱性句逗號(hào)的不平衡,和預(yù)訓(xùn)練語(yǔ)言模型中本身句逗號(hào)知識(shí)的不平衡,本文專門構(gòu)建了一個(gè)只包含隱性句逗號(hào)的數(shù)據(jù)集?;谠摂?shù)據(jù)集上,我們訓(xùn)練實(shí)現(xiàn)了最優(yōu)隱性句逗號(hào)識(shí)別模型,該模型可以相對(duì)集中地反映隱性句逗號(hào)的特征差異。在機(jī)器翻譯中,該模型將用于預(yù)處理源語(yǔ)漢語(yǔ)文本,由于該模型并未關(guān)注真句逗號(hào),其識(shí)別結(jié)果將與現(xiàn)實(shí)文本中的句逗號(hào)進(jìn)行一致性對(duì)比調(diào)正后作為源語(yǔ)文本預(yù)處理結(jié)果,輸入機(jī)器翻譯模型進(jìn)行翻譯。

首先,本文構(gòu)建了隱性句逗號(hào)數(shù)據(jù)集。在不同體裁(含政府工作報(bào)告、法律文本、新聞、小說(shuō)、學(xué)術(shù)等)的漢語(yǔ)文本(其中一部分來(lái)自經(jīng)典漢英翻譯的平行語(yǔ)料)上人工標(biāo)注一定規(guī)模隱性句逗號(hào)數(shù)據(jù);然后通過(guò)self-training半監(jiān)督學(xué)習(xí)方法大規(guī)模擴(kuò)充數(shù)據(jù)集。人工標(biāo)注由漢語(yǔ)母語(yǔ)者實(shí)施,通過(guò)兩種方式實(shí)現(xiàn)。第一,標(biāo)注者根據(jù)母語(yǔ)者的語(yǔ)感直接對(duì)漢語(yǔ)文本標(biāo)注。基本判斷標(biāo)準(zhǔn):句逗號(hào)相互轉(zhuǎn)變后,語(yǔ)法合理、且不改變?cè)渌壿嬚Z(yǔ)義關(guān)系的,為隱性句逗號(hào)。第二,參照漢英翻譯標(biāo)注。標(biāo)準(zhǔn)為:在經(jīng)典漢英翻譯平行語(yǔ)料上,如果英譯文本為句號(hào)斷句,而漢語(yǔ)文本的對(duì)應(yīng)標(biāo)點(diǎn)處為逗號(hào),則認(rèn)定該漢語(yǔ)標(biāo)點(diǎn)為隱性句號(hào);隱性逗號(hào)的確定方法同理。具體做法如表1所示,其中紅色標(biāo)注出隱性句逗號(hào),連同其左右各一個(gè)標(biāo)點(diǎn)句(用S1、S2等標(biāo)注)(宋柔 2022)構(gòu)成一條數(shù)據(jù)。如其中的隱性句號(hào)數(shù)據(jù)由S3-S4構(gòu)成,隱性逗號(hào)數(shù)據(jù)由S3-S4構(gòu)成。最終,人工標(biāo)注共3,100條隱性句逗號(hào)樣本,其中包含1,847條隱性句號(hào)標(biāo)注,1,253條隱性逗號(hào)標(biāo)注。

隨后,采用了self-training半監(jiān)督學(xué)習(xí)方法(Du et al. 2021)大規(guī)模擴(kuò)充數(shù)據(jù)集。先將這些標(biāo)注樣本作為初始數(shù)據(jù),然后構(gòu)建一個(gè)基礎(chǔ)模型在已有人工標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,使得模型能夠?qū)W習(xí)到隱性句逗號(hào)的標(biāo)注邏輯和文本特征。接著,利用訓(xùn)練好的模型對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行推斷,生成偽標(biāo)簽。當(dāng)模型輸出的標(biāo)簽概率高于設(shè)定閾值時(shí),將其作為新的標(biāo)簽數(shù)據(jù),擴(kuò)充至初始數(shù)據(jù)中。通過(guò)該方式,最終構(gòu)建了一個(gè)包含33,847條數(shù)據(jù)的隱性句逗號(hào)數(shù)據(jù)集,其中隱性句號(hào)19,407條,隱性逗號(hào)14,440條。識(shí)別實(shí)驗(yàn)中,將該數(shù)據(jù)集按照8:1:1的比例切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。具體統(tǒng)計(jì)結(jié)果如表2所示。

其次,本文提出基于預(yù)訓(xùn)練語(yǔ)言模型的隱性句逗號(hào)分類識(shí)別方法。為充分考慮隱性句逗識(shí)別中相關(guān)語(yǔ)段特征,具體采用Hierarchical BERT模型(Lukasik et al. 2020)對(duì)句子對(duì)進(jìn)行編碼。如圖1所示,其包含嵌入層、Sentence Encoder、Context Encoder層,模型輸出為隱性句逗號(hào)的預(yù)測(cè)結(jié)果。其中Sentence Encoder使用BERT預(yù)訓(xùn)練模型(Devlin et al.2019),Context Encoder使用GRU模型。模型的輸入為兩段文本,分別表示為Sentence1和Sentence2,此處并不是直接拼接兩個(gè)句子,而是將其層次化并行輸入模型。隨后Sentence Encoder將學(xué)習(xí)每個(gè)Sentence句內(nèi)的局部特征并聚合至對(duì)應(yīng)的[CLS]向量中;將兩個(gè)Sentence的[CLS]表征輸入到Context Encoder層中,該層可賦予文本前后的順序特征以及上下文關(guān)系特征,并最終得到文本對(duì)的全局特征。全局特征通過(guò)線性分類層,將輸出映射到隱性句逗的類別標(biāo)簽上,其中線性分類層通過(guò)Softmax函數(shù)對(duì)輸出的概率進(jìn)行歸一化,并利用交叉熵?fù)p失函數(shù)計(jì)算損失。

最后,進(jìn)行隱性句逗號(hào)識(shí)別實(shí)驗(yàn)。除基于Hierarchical BERT模型外,我們也進(jìn)行了基于Cross-segmen BERT模型(Wicks, Post 2021)的方法。與此同時(shí),我們還對(duì)比實(shí)現(xiàn)了基于序列標(biāo)注的方法,包括BERT-CRF(Liu et al.2020)、BERT-LSTM-CRF(Yang et al.2022)。各模型結(jié)果見表3。實(shí)驗(yàn)表明,基于Hierarchical BERT模型的方法性能最佳。原因在于Hierarchical BERT相比可以充分學(xué)習(xí)到句逗號(hào)相關(guān)語(yǔ)段文本的詞匯、語(yǔ)序及上下文特征。而序列標(biāo)注方法的問(wèn)題在于,當(dāng)前的隱性句逗號(hào)識(shí)別任務(wù)下相關(guān)數(shù)據(jù)是獨(dú)立的文本段,并非實(shí)際文本中的句逗號(hào)序列?;贖ierarchical BERT的隱性句逗號(hào)識(shí)別模型將用于后續(xù)機(jī)器翻譯漢語(yǔ)長(zhǎng)句化短的預(yù)處理。

4 基于隱性句逗號(hào)識(shí)別的長(zhǎng)句機(jī)器翻譯

4.1 本文方法模型

為驗(yàn)證基于隱性句逗號(hào)識(shí)別的長(zhǎng)句機(jī)器翻譯方案效果,本文使用PipeLine方案(Atrio et al. 2023)進(jìn)行實(shí)現(xiàn)。首先,對(duì)源語(yǔ)漢語(yǔ)進(jìn)行預(yù)處理,即進(jìn)行隱性句逗號(hào)識(shí)別,并與源語(yǔ)文本的句逗號(hào)比對(duì)校正,確定最終句逗號(hào);然后對(duì)預(yù)處理文本進(jìn)行機(jī)器翻譯,如圖2。

模型所輸入的文本為一個(gè)句逗號(hào)切分的標(biāo)點(diǎn)句序列(記為sentence1,2,……n)。為適配本文基于Hierarchical BERT的隱性句逗號(hào)識(shí)別模型,相鄰的兩個(gè)標(biāo)點(diǎn)句組合作為一個(gè)輸入,經(jīng)過(guò)識(shí)別模型,預(yù)測(cè)其間的標(biāo)點(diǎn)位置為隱性句號(hào)或隱性逗號(hào)。由于隱性句逗號(hào)識(shí)別模型僅考慮了隱性句逗號(hào),而實(shí)際文本中為所有句逗號(hào)(既包括隱性句逗號(hào),也包括真句逗號(hào)),這里須對(duì)隱性句逗號(hào)模型識(shí)別結(jié)果進(jìn)行校正,以獲得最終句逗標(biāo)點(diǎn)。具體做法是:將隱性句逗識(shí)別模型輸出結(jié)果與原文結(jié)果進(jìn)行比對(duì),當(dāng)模型輸出結(jié)果與原文一致,保留原文本標(biāo)點(diǎn);當(dāng)模型輸出結(jié)果與原文本不一致,保留隱性句逗的識(shí)別結(jié)果。這樣做的原因在于,由于受預(yù)訓(xùn)練語(yǔ)言BERT自身所包含的大量一般句逗號(hào)文本知識(shí)的影響,隱性句逗號(hào)識(shí)別模型并不能很好地從真實(shí)文本(包含所有句逗號(hào))中識(shí)別出隱性句逗號(hào)。具體而言,當(dāng)其標(biāo)點(diǎn)分類結(jié)果與原文本不一致時(shí),可以認(rèn)為是,句逗模型增強(qiáng)了本文隱性句逗號(hào)知識(shí)后的結(jié)果,即為隱性句逗號(hào);當(dāng)其與原文一致,可以認(rèn)為是BERT自身包含的大量真句逗號(hào)知識(shí)的結(jié)果。校正后的句逗標(biāo)點(diǎn)文本,作為預(yù)處理結(jié)果輸入機(jī)器翻譯模型。

4.2 實(shí)驗(yàn)設(shè)計(jì)

為驗(yàn)證本文方案效果,本文在公開機(jī)器翻譯任務(wù)WMT2018的漢英翻譯(新聞)②和WMT2023中的漢英翻譯(文學(xué))③的測(cè)試集上進(jìn)行實(shí)驗(yàn)。引入文學(xué)語(yǔ)料的考慮在于,文學(xué)文本是機(jī)器翻譯難點(diǎn),而且文學(xué)文本相比一般文本口語(yǔ)性強(qiáng),可逗可句或可斷可連的情況更突出,特別適于本文方法的驗(yàn)證。為了充分驗(yàn)證本文方法在漢語(yǔ)長(zhǎng)句上的效果,進(jìn)一步按照文本長(zhǎng)度(以包含的逗號(hào)數(shù)計(jì)算)將數(shù)據(jù)集劃分如表4。如此考慮在于,逗號(hào)是句內(nèi)標(biāo)點(diǎn),一個(gè)文本包含的逗號(hào)數(shù)越多,往往意味著其中的句子包含的小句越多,句子越長(zhǎng)。

在翻譯階段,本文使用兩個(gè)表現(xiàn)優(yōu)異的預(yù)訓(xùn)練機(jī)器翻譯模型進(jìn)行實(shí)驗(yàn),分別是opus-mt (Tiedemann, Thottingal 2020)和Randeng-mt(Zhang et al.2022)。二者均基于transformer的端到端架構(gòu),并基于大型中英平行語(yǔ)料庫(kù)訓(xùn)練,包含了豐富的雙語(yǔ)知識(shí)。實(shí)驗(yàn)中二者具體設(shè)置相同,主要是:設(shè)置束搜索寬度為2;采用多概率采樣;top_k為40,其可以在生成過(guò)程中過(guò)濾掉不太可能的詞,僅保留頭部的40個(gè)詞;top_p概率為0.8,其代表輸出詞的概率之和達(dá)到或超過(guò)0.8,才會(huì)在生成過(guò)程中保留;此外為確保模型不重復(fù)地連續(xù)輸出,限制了模型連續(xù)重復(fù)生成單詞的個(gè)數(shù)為5。

評(píng)估標(biāo)準(zhǔn)采用通用的BLEU值(Papineni" et al.2002)。其主要通過(guò)比較機(jī)器翻譯的輸出和參考譯文的n-gram相似度計(jì)算得出。BLEU值中n-gram的取值為4。另外,也進(jìn)行了翻譯實(shí)例分析。主要對(duì)比分析標(biāo)點(diǎn)修正前后機(jī)器翻譯對(duì)于小句間關(guān)系疏密的處理等。

4.3 實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果(表5)可見:

(1)隨著逗號(hào)增多,即句子包含的小句數(shù)增多,句長(zhǎng)增大,機(jī)器翻譯效果變差,充分證明長(zhǎng)句越長(zhǎng)對(duì)機(jī)器翻譯的挑戰(zhàn)越大。

(2)在包含3到5個(gè)逗號(hào)的語(yǔ)段文本內(nèi),本文比基準(zhǔn)方案的翻譯質(zhì)量整體有所提高;其中在更穩(wěn)健翻譯系統(tǒng)(Opus-mt)上,本文的BLEU值分別提高0.86、0.97和1.28,也即隨著源語(yǔ)文本長(zhǎng)度的增加,本文的優(yōu)勢(shì)更明顯。

(3)本文也適應(yīng)于文學(xué)翻譯,在Opus-mt系統(tǒng)上,本文方法比基準(zhǔn)模型提升0.69個(gè)BLEU值。一般認(rèn)為文學(xué)翻譯難度大,主要是文學(xué)文本中更多人物對(duì)話和敘事,也更多涉及日常生活,內(nèi)容容易理解,但也因此句子口語(yǔ)性強(qiáng),結(jié)構(gòu)更靈活,可斷可連的句子更多,句子邊界相比更模糊,翻譯斷句等難度更大。本文可為文學(xué)機(jī)器翻譯難題的解決提供一種特別思路。

(4)本文方法對(duì)于相對(duì)較短的句子(包含3個(gè)以下逗號(hào)的語(yǔ)段文本)翻譯,并沒(méi)有體現(xiàn)出優(yōu)勢(shì)。這一方面反映出短句翻譯并非機(jī)器翻譯難題,另一方面也反映出本文方法也還未能更好識(shí)別真句逗號(hào)。這是因?yàn)殡[性句逗號(hào)識(shí)別模型僅專注于隱性句逗號(hào)的識(shí)別,而暫時(shí)忽視了真句逗號(hào)的問(wèn)題。這無(wú)疑需要在進(jìn)一步工作中予以合理解決。

4.4 實(shí)例分析

表6分別給出了漢語(yǔ)原文與其機(jī)器翻譯結(jié)果和經(jīng)本文方法修正標(biāo)點(diǎn)后的漢語(yǔ)修正文本與其機(jī)器翻譯結(jié)果。

實(shí)例1 文本選自WMT2018的新聞文本。修正文本將S4后的逗號(hào)改為句號(hào),修正后S3、S4、S5、S6間的關(guān)系遠(yuǎn)近更清晰,邏輯語(yǔ)義更明確。對(duì)比修正文本翻譯與原文翻譯可以發(fā)現(xiàn),修正文本翻譯更好地反映了S3與S4的關(guān)系,S5與S6的關(guān)系,而且相比原文翻譯語(yǔ)法結(jié)構(gòu)也更合理。

實(shí)例2 文本選自WMT2023的文學(xué)文本。修正文本將S2后的逗號(hào)改為句號(hào),將S3后的句號(hào)改為逗號(hào),將S5后的逗號(hào)改為句號(hào)。修正后S3、S4、S5間的緊密關(guān)系得以凸顯,包括S3與S4的遞進(jìn)性關(guān)系(都是“他們都認(rèn)為”的內(nèi)容,并且用“而”連接),S5與S3、S4間的因果性關(guān)系(由“因此”體現(xiàn))。并S3-5與S1-2和S6-6的關(guān)系距離也相對(duì)拉開,顯得更清晰。對(duì)比修正文本翻譯與原文翻譯,修正文本翻譯較好地反映各S間關(guān)系的語(yǔ)義遠(yuǎn)近與邏輯關(guān)系關(guān)系。

5 結(jié)束語(yǔ)

針對(duì)長(zhǎng)句機(jī)器翻譯難題,本文提出基于隱性句號(hào)逗識(shí)別的漢語(yǔ)長(zhǎng)句機(jī)器翻譯方法。本文首先構(gòu)建了隱性句逗號(hào)數(shù)據(jù)集,并基于預(yù)訓(xùn)練模型實(shí)現(xiàn)隱性句逗自動(dòng)識(shí)別;進(jìn)而將隱性句逗號(hào)識(shí)別模型作為翻譯數(shù)據(jù)預(yù)處理模塊與翻譯模型結(jié)合,以解決漢語(yǔ)長(zhǎng)句翻譯難題。實(shí)驗(yàn)結(jié)果顯示本文方法對(duì)長(zhǎng)句的翻譯性能有顯著提升,而且長(zhǎng)句越長(zhǎng)效果越佳;這一方法對(duì)于提升文學(xué)翻譯的長(zhǎng)句翻譯也有明顯效果。未來(lái)我們將進(jìn)一步完善隱性句逗號(hào)識(shí)別方法,特別是考慮真實(shí)語(yǔ)境中所有句逗號(hào)(真實(shí)句逗號(hào)與隱性句逗號(hào))的識(shí)別問(wèn)題,并將探索直接在機(jī)器翻譯模型中融入隱性句逗號(hào)的理解。

注釋

①數(shù)字序號(hào)代表漢英小句序號(hào);漢語(yǔ)隱性句逗號(hào)與其對(duì)應(yīng)英譯標(biāo)點(diǎn)用紅色[]標(biāo)出,下同。例①a、b及其小句切分采用自馮文賀(2019:1)。

②網(wǎng)址分別為:https://www.statmt.org/wmt2018/translation-task.html;https://aclanthology.org/events/wmt-2023/2023wmt-1.

*張文娟為本文通訊作者。

參考文獻(xiàn)

馮文賀. 漢英篇章結(jié)構(gòu)平行語(yǔ)料庫(kù)構(gòu)建與應(yīng)用研究[M]. 北京: 科學(xué)出版社, 2019.‖F(xiàn)eng, W.-H. The Construction and Application of Chinese-English Discourse Treebank[M]. Beijing: Science Press, 2019.

馮文賀 李青青. 漢語(yǔ)復(fù)句的成分共享與英譯斷句[J]. 外語(yǔ)教學(xué)與研究, 2022(5).‖F(xiàn)eng, W.-H.," Li, Q.-Q. Constituent Sharing in Chinese Complex Sentence and the Segmentation of" Its English Translation[J]. Foreign Language Teaching and Research, 2022(5).

黃河燕 陳肇雄. 基于多策略分析的復(fù)雜長(zhǎng)句翻譯處理算法[J]. 中文信息學(xué)報(bào), 2002(3).‖Huang, H.-Y., Chen, Z.-X. The Hybrid Strategy Processing Approach of" Complex Long Sentence[J]. Journal of Chinese Information Processing, 2002(3).

賈愛鑫 李軍輝 貢正仙 張 民. 融合目標(biāo)端上下文的篇章神經(jīng)機(jī)器翻譯[J]. 中文信息學(xué)報(bào), 2024(4).‖Jia, A.-X., Li, J.-H., Gong, Z.-X., Zhang, M. Mo-deling Target-side Context for Document-level Neural Machine Translation[J]. Journal of Chinese Information Processing, 2024(4).

李 幸 宗成慶. 引入標(biāo)點(diǎn)處理的層次化漢語(yǔ)長(zhǎng)句句法分析方法[J]. 中文信息學(xué)報(bào), 2006(4).‖Li, X., Zong, C.-Q. A Hierarchical Parsing Approach with Punctuation Processing for Long Chinese Sentences[J]. Journal of Chinese Information Processing, 2006(4).

呂叔湘. 漢語(yǔ)語(yǔ)法分析問(wèn)題[M]. 北京:商務(wù)印書館, 1979.‖Lv, S.-X. Analyses of Chinese Grammar[M]. Beijing: The Commercial Press, 2022.

宋 柔. 小句復(fù)合體的語(yǔ)法結(jié)構(gòu)[M]. 北京:商務(wù)印書館, 2022.‖Song, R. Grammatical Structure of Clause Complexes[M]. Beijing: The Commercial Press, 2022.

趙朝永 王文斌. 漢語(yǔ)流水句與英語(yǔ)復(fù)雜句結(jié)構(gòu)特性對(duì)比:英漢時(shí)空特質(zhì)差異視角[J]. 外語(yǔ)教學(xué), 2020(5).‖Zhao, C.-Y., Wang, W.-B. A Structural Contrast Between Chinese Run-on Sentences and English Complex Sentences from the Perspective of English Temporality and Chinese Spatiality[J]. Foreign Language Education, 2020(5).

Atrio, L.R., Allemann, A., Dolamic, L., Popescu-Belis, A. A Simplified Training Pipeline for Low-resource and Unsupervised Machine Translation[R]. Proceedings of" the Sixth Workshop on Technologies for Machine Translation of" Low-Resource Languages(LoResMT 2023), 2023.

Chen, J., Li, X., Zhang, J., Zhou, C., Cui, J., Wang," B., Su, J. Modeling Discourse Structure for Document-level Neural Machine Translation[J]. arXiv Preprint arXiv:2006.04721. 2020.

Devlin, J., Chang, M.W., Lee, K., Toutanova, K. Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding[R]. Proceedings of the 2019 Conference of the North American Chapter of" the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019.

Du," J., Grave, E., Gunel, B., Chaudhary, V., Celebi, O., Auli, M., Stoyanov, V., Conneau, A. Self-training Improves Pre-training for Natural" Language Understanding[R]. Proceedings of the 2021 Conference of North American Chapter of the Association for Computational Linguistics, 2021.

Goh, C.L., Sumita," E. Splitting Long Input Sentences for Phrase-based Statistical Machine Translation[R]. The Association for Natural" Language Processing, 2011.

Guo, J., Chen, X., Liu, Z., Yuan, W., Zhang, J., Liu, G. Context Modeling with Hierarchical Shallow Attention Structure for Document-level Nmt[R]. 2022 Internatio-nal Joint Conference on Neural Networks (IJCNN), 2022.

Hung, B.T., Minh, N.L., Shimazu, A. Sentence Splitting for Vietnamese-English Machine Translation[R]. Fourth International Conference on Knowledge and Systems Engineering, 2012.

Koehn, P., Knowles, R., Six Challenges for Neural Machine Translation[R]. Proceedings of the First Workshop on Neural Machine Translation, 2017.

Kuang, S., Xiong, D. Automatic Long Sentence Segmentation for Neural Machine Translation[A]. In: Lin, C.Y., Xue, N., Zhao, D., Huang, X., Feng, Y.(Eds.), Natural Language Understanding and Intelligent Applications[C]. Cham: Springer, 2016.

Li, D., Arivazhagan, N., Cherry, C., Padfield, D. Sentence Boundary Augmentation For Neural Machine Translation Robustness[R]. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing, 2021.

Liu, M., Tu, Z., Wang, Z., Xu, X. LTP: A New Active Learning Strategy for Bert-CRF Based Named Entity Re-cognition[J]. arXiv preprint arXiv: 2001.02524. 2020.

Lukasik, M., Dadachev, B., Papineniet, K., Simoes, G. Text Segmentation by Cross Segment Attention[R]. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, 2020.

Oliveira, F., Wong, F.," Hong, I.S. Systematic Processing of" Long Sentences in Rule Based Portuguese-Chinese Machine Translation[R]. Computational Linguistics and Intelligent Text Processing: 11th International Conference, 2010.

Papineni," K., Roukos, S., Ward, T.," Zhu, W.J." Bleu: a Method for Automatic Evaluation of Machine Translation[R]. Proceedings of the 40th Annual meeting of the Association for Computational Linguistics, 2002.

Pouget-Abadie, J., Bahdanau, D., Van Merrienboer, B., Cho, K., Bengio, Y. Overcoming the Curse of Sentence Length for Neural Machine Translation Using Automatic Segmentation[R]. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, 2014.

Sutskever, I., Vinyals, O., Le, Q.V., Sequence to Sequence Learning with Neural Networks[R]. Proceedings of the 27th International Conference on Neural Information Processing Systems, 2014.

Tan, X., Zhang, L., Zhou, G. Document-Level Neural Machine Translation with Hierarchical Modeling of Global Context[J]. Journal of Computer Science and Technology, 2022(2).

Tiedemann, J., Thottingal, S. OPUS-MT-building Open Translation Services for the"" World[R]. Proceedings of" the 22nd Annual Conference of the European Association for Machine Translation, 2020.

Tien, H.N., Minh, H.N.T." Long Sentence Preprocessing in Neural Machine Translation[R]. IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF), 2019.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I. Attention is all You Need[R]. Proceedings of the 31st International Conference on Neural Information Proces-sing Systems, 2017.

Wicks, R., Post, M. A Unified Approach to Sentence Segmentation of Punctuated Text in Many Languages[R]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, 2021.

Xiong, H., Xu, W., Mi, H., Liu, Y., Liu, Q. Sub-sentence Division for Tree-based Machine Translation[R]. Proceedings of the ACL-IJCNLP 2009 Conference, 2009.

Yang, C., Sheng, L., Wei, Z., Wang, W. Chinese Named Entity Recognition of" Epidemiological Investigation of Information on COVID-19 Based on BERT[J]. IEEE Access, 2022(10).

Yin, B., Zuo, J., Ye, N. Long Sentence Partitioning Using Top-down Analysis for Machine" Translation[R]. IEEE 2nd International Conference on Cloud Computing and Intelligence Systems, 2012.

Zhang, J., Gan, R., Wang, J., Zhang, Y., Zhang, L., Yang, P., Gao, X., Wu, Z., Dong, X., He, J., Zhuo, J., Chen, C. Fengshenbang 1.0: Being the Foundation of" Chinese Cognitive Intelligence[J]. arXiv preprint arXiv: 2022.2209.02970.

Zhuocheng," Z., Gu, S., Zhang, M., Feng, Y. Addressing the Length Bias Challenge in Document-Level Neural Machine Translation[R]. Findings of the Association for Computational Linguistics: EMNLP, 2023.

定稿日期:2024-12-10【責(zé)任編輯 謝 群】

猜你喜歡
機(jī)器翻譯
海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法研究
機(jī)器翻譯不可盲取
青春歲月(2017年1期)2017-03-14 11:28:47
信息時(shí)代下機(jī)器翻譯的“可譯”與“不可譯”
互聯(lián)網(wǎng)+新時(shí)代下人機(jī)翻譯模式研究
考試周刊(2017年2期)2017-01-19 09:13:50
“語(yǔ)聯(lián)網(wǎng)+行業(yè)” 助力中國(guó)偉大復(fù)興
考試周刊(2017年2期)2017-01-19 09:12:54
大數(shù)據(jù)背景下石油科技翻譯
機(jī)器翻譯不可盲取
基于免費(fèi)在線翻譯工具的機(jī)器翻譯缺陷探討
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
機(jī)器翻譯句法錯(cuò)誤分析
马边| 杭锦后旗| 临洮县| 蚌埠市| 龙江县| 长乐市| 兰西县| 蓝田县| 万山特区| 新邵县| 调兵山市| 广平县| 杭州市| 株洲县| 德兴市| 丹寨县| 阳江市| 许昌市| 宁德市| 老河口市| 民权县| 桐城市| 鄯善县| 石渠县| 文昌市| 东乌珠穆沁旗| 民权县| 张家口市| 锦屏县| 阜新市| 江华| 江西省| 钟山县| 香港 | 阿巴嘎旗| 咸宁市| 衡山县| 邵阳县| 兰考县| 宁国市| 溧水县|