国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合機器翻譯與復(fù)述生成的手語文本生成方法

2023-05-16 06:48:38李世煒侯霞汪良果
關(guān)鍵詞:手語語句語義

李世煒,侯霞,汪良果

(北京信息科技大學(xué) 計算機學(xué)院,北京 100101)

0 引言

手語是一種通過視覺去理解的自然語言。為了方便失聰或失語的特殊人群,有些新聞節(jié)目有專門的手語播報員進行同步的手勢翻譯。但是在進行翻譯時,由于人工手勢動作相對新聞?wù)Z音較慢,往往難以做到與新聞同步,會造成部分內(nèi)容的丟失。隨著人工智能技術(shù)的發(fā)展,人們開始探索手語自動生成的技術(shù)。根據(jù)新聞文本自動生成對應(yīng)的手語,并通過虛擬人進行展示,可突破人工手勢動作速度的局限性,極大提高手語生成效率。

當(dāng)前手語方面的主要研究包括手語識別[1]、手語翻譯[2-3]與手語生成[4-5]。其中,手語識別與手語翻譯的任務(wù)目標是將手語視頻翻譯為對應(yīng)的文本詞匯或語音。手語生成的研究內(nèi)容是將常規(guī)文本或語音翻譯為手語視頻。手語生成任務(wù)的研究方法分為兩種:第一種是直接進行端到端的手語視頻生成。該方法比較直接,但是在訓(xùn)練時需要精確捕捉相應(yīng)手勢動作,并且難以編輯;第二種是先將常規(guī)語言的文本翻譯為手語文本,然后根據(jù)手語文本生成視頻的兩階段方法,由于手語文本單詞可以與對應(yīng)的手語圖片映射,因此相比第一種方法大大縮減了捕捉動作所需要的成本[6]。

在手語識別的分階段方法中,手語文本的生成質(zhì)量是影響手語視頻生成的重要因素。本文重點研究從漢語文本到手語文本的生成,本質(zhì)是一種機器翻譯任務(wù)。經(jīng)過調(diào)研總結(jié),當(dāng)前手語機器翻譯的研究難點有如下三點:

1)任務(wù)目標不完全相符。常規(guī)機器翻譯任務(wù)是兩種不同語種之間映射,且兩種語言各自符合自己的語法規(guī)則。而從漢語文本到手語文本的翻譯存在一些特殊性。分析漢語文本和相應(yīng)的手語文本后可知,漢語文本與手語文本使用同一種語言進行表示,相較于機器翻譯中不同種語言來說在表達上存在更多的相似性。但是,手語文本比漢語字詞更精簡,且可能并不符合漢語語法。這些特點使得不同語言間的機器翻譯方法直接應(yīng)用于手語文本生成時并不能獲得預(yù)期效果。

2)語料較少。雖然我國在2018年出臺了《國家通用手語方案》,但是普及情況不夠樂觀,例如不同的省份甚至?xí)衅涫终Z的“方言”。其次,在《國家通用手語方案》中收錄詞匯僅有8 000多個,仍然有大量的詞語未進行標準化規(guī)定。例如,漢語中“元素”一詞,手語中并沒有其相關(guān)翻譯,也沒有鄰近詞進行替換,在手語翻譯中只能對其用逐字翻譯的方式進行翻譯,將“元”用“元帥”來代替,“素”用“葷素”來代替。最后,由于手語學(xué)習(xí)者較為匱乏,且與手語使用者溝通難度較大,導(dǎo)致數(shù)據(jù)集構(gòu)建困難,數(shù)據(jù)集的缺少使得研究較難開展。使用語法與詞匯的不統(tǒng)一也加大了數(shù)據(jù)集構(gòu)建的難度。

3)現(xiàn)代漢語與手語的語法存在差異。目前,很多手語受眾將不接受電視手語新聞的原因解釋為“擔(dān)任手語新聞翻譯的播報員使用的手語不規(guī)范”[7],而沒有認識到主要原因在于電視手語播報員使用的不是手語受眾的自然手語,而是手勢漢語,這證明即使是人工翻譯,也未考慮到手語中實際的語法規(guī)則。由于人工智能方法自動生成的手語在進行生成算法中往往會學(xué)習(xí)到目標語言的語法等句子特征,因此產(chǎn)生的輸出結(jié)果也會對手語使用者更加友好。

復(fù)述生成是自然語言處理領(lǐng)域的一個經(jīng)典任務(wù),研究內(nèi)容是同一語言之間兩個語句的同義轉(zhuǎn)換,與手語文本生成相似。所不同的是,復(fù)述生成任務(wù)的源語言和目標語言是完全相同的語言,具有一致的語法和表達習(xí)慣,使得復(fù)述生成模型不需要構(gòu)建語法空間的轉(zhuǎn)換。

本文的研究目標是漢語文本到手語文本生成,其特點在于漢語文本與手語文本使用同一種語言,但是又遵循不同的語法。根據(jù)機器翻譯能夠?qū)崿F(xiàn)不同語法空間轉(zhuǎn)換、復(fù)述生成能夠?qū)崿F(xiàn)同種語言改寫的特點,本文提出一種融合機器翻譯與復(fù)述生成的手語文本生成方法,將手語文本的生成看成是語言翻譯與復(fù)述生成的結(jié)合過程。首先是語法形式的轉(zhuǎn)化,利用機器翻譯方法將原始漢語文本轉(zhuǎn)化為符合手語語法的中間表示;然后通過復(fù)述生成進行語言表述的轉(zhuǎn)化,對中間結(jié)果進行修正,最后獲得所需手語文本。

1 生成方法

1.1 模型整體架構(gòu)設(shè)計

針對手語文本生成任務(wù)中漢語文本與手語文本都是由同一種語言文字構(gòu)成但是語法并不完全相同的特殊性,本文以多語言雙向和自回歸轉(zhuǎn)換器(multilingual bidirectional and auto-regressive transformers,mBART)模型[8]和質(zhì)量控制轉(zhuǎn)述生成(quality controlled paraphrase generation,QCPG)[9]模型為基礎(chǔ),通過融合和改進,提出一種融合機器翻譯與復(fù)述生成的手語文本生成方法s-BPG(self-mBART with paraphrase generation),用于完成漢語文本到手語文本的生成。

模型整體思路如圖1所示。首先,使用改進后的機器翻譯模型將漢語文本翻譯成漢語文本與手語文本之間的中間文本,數(shù)據(jù)在輸入到翻譯模型之前,先進行預(yù)處理。使用添加錨點的方法[10]對漢語文本與手語文本進行替換,減少兩個文本之間的差異性,拉近語言距離,以達到加快模型收斂的目的。其次,使用字書對編碼(byte pair encoder,BPE)[11]算法進行詞表構(gòu)建、語料編碼/解碼。為了使模型能夠更好地計算關(guān)鍵詞的信息特征,在原mBART的基礎(chǔ)上添加一層自注意力層對模型進行改進,幫助模型將關(guān)鍵詞的注意力得分與其他詞匯更加準確地分離,改進后的模型我們稱為self-mBART(self-attention in mBART)模型。翻譯后的中間語句中包含了部分目標語言的語法信息,經(jīng)過機器翻譯后的文本與真實的手語文本的語法距離更加接近。然后,機器翻譯生成的中間語句與手語標記文本形成偽平行數(shù)據(jù)集,作為復(fù)述生成的訓(xùn)練語料,通過質(zhì)量控制的復(fù)述生成模型QCPG學(xué)習(xí)兩種“語言”的詞法、句法、語義等特征,對文本進行“修正”,最后生成所需的手語文本。但是原始的QCPG模型是應(yīng)用于英文數(shù)據(jù)集的,為了使模型適用于中文,我們將其中的詞法質(zhì)量控制評分標準更換為更適用于中文的詞嵌入(改進的QCPG模型命名為QCPG-WV模型)。

圖1 模型流程

1.2 self-mBART的建立

本文提出一種改進的mBART模型——self-mBART模型進行第一階段的初步翻譯,模型結(jié)構(gòu)如圖2所示。在self-mBART模型中,首先將源語句與目標語句提取位置編碼的詞嵌入,這些嵌入被傳遞到一個屏蔽的自注意層,接下來為了增加模型對關(guān)鍵詞的注意力,將上一層提取的表征輸入到一層額外的自注意力層中。注意力計算如下:

(1)

式中:Q、K和V分別表示查詢矩陣、鍵值矩陣和實值矩陣;dk表示特征維度。編碼器(encoder)自注意力層的Q、K和V均來自于上一層解碼器的輸出。另外,這個注意力子層會接一個歸一化層和殘差網(wǎng)絡(luò),歸一化層能夠加快模型訓(xùn)練速度,殘差網(wǎng)絡(luò)能夠防止神經(jīng)網(wǎng)絡(luò)模型退化。經(jīng)過二次提取過的表征信息再通過一個非線性的前饋層作為解碼(decoder)層的輸入,上述的操作都要經(jīng)過殘差連接和歸一化,至此模型學(xué)習(xí)完成。

圖2 self-mBART翻譯模型結(jié)構(gòu)

最后,使用訓(xùn)練完成的模型對源語句進行翻譯,生成出的結(jié)果與原數(shù)據(jù)集中的目標語句共同構(gòu)建成偽平行數(shù)據(jù),用于后續(xù)復(fù)述生成部分的訓(xùn)練。

1.3 優(yōu)化質(zhì)量評價指標的復(fù)述生成模型QCPG-WV

由于手語有著獨特的語法,因此在復(fù)述生成時,使用帶質(zhì)量控制的復(fù)述生成方法能夠更多地考慮輸入與輸出的語法差異性。在質(zhì)量控制生成語料的研究中,一個主要的挑戰(zhàn)是選擇適當(dāng)?shù)妮斎肟刂浦?控制值不能僅僅根據(jù)經(jīng)驗選擇或者多次實驗進行調(diào)整,我們更希望能夠?qū)ふ业揭粋€簡單有效而且能夠根據(jù)源語句與目標語句進行控制值調(diào)整的方法。

詞法、句法、語義是評價文本質(zhì)量常用的三個方面,因此可以在這三個方面的評價中選擇合適的評價指標作為控制質(zhì)量的參數(shù),由這三個方面的評價指標可以確定出一個三維控制向量對文本生成的質(zhì)量進行控制。QCPG中使用的詞法評價指標是根據(jù)Levenshtein算法來計算的,該算法是根據(jù)一個字串轉(zhuǎn)化成另一個字串最少的操作次數(shù)來計算,操作包括插入、刪除、替換,但是在中文使用時由于替換到相應(yīng)的中文單詞所需步驟往往較少,導(dǎo)致計算得到的分數(shù)差浮動范圍過小,因此該方法并不完全適用。由于平均詞嵌入之間求余弦相似度的方法中,并沒有考慮詞序問題,使其能夠增加與句法指標之間的脫鉤,這樣的差別會使獲得的三維向量差異性更大,不同得分的單詞其向量空間也會因此更加精確,所以,我們將詞法評價指標替換為詞嵌入的余弦相似度。詞嵌入余弦相似度按式(1)計算:

(2)

式中:θ為兩個句子的相似度;xi和yi分別為源語句與目標語句的第i個單詞的詞頻。

Iyyer等[12]使用解析樹之間的歸一化樹編輯距離[13]來表示句法評價指標,證明了在釋義生成任務(wù)中該評價指標是簡單有效的,因此,我們將此方法作為本文質(zhì)量控制指標中的句法評價指標;語法差異性評價指標使用BLEURT[14](該方法與人類判斷的相關(guān)性最高),將結(jié)果使用Sigmoid函數(shù)進行歸一化處理,以確保三個質(zhì)量維度的統(tǒng)一值范圍在[0,1]之間。

如圖3所示,訓(xùn)練時,根據(jù)源語句與目標語句在語義等方面的差異計算出一組差異性評分,經(jīng)過模型訓(xùn)練后獲得各單詞在不同評分下的分布。在測試階段生成目標語句時,預(yù)測的單詞按照文本在各個得分下的分布生成目標單詞,并根據(jù)模型學(xué)習(xí)到的語義語序?qū)渥咏Y(jié)構(gòu)進行重組后完成文本生成任務(wù)。

圖3 QCPG-WV復(fù)述生成模型結(jié)構(gòu)

2 實驗

2.1 數(shù)據(jù)集

目前國內(nèi)沒有公開的中文手語數(shù)據(jù)集,因此本實驗使用數(shù)據(jù)集為某公司人工構(gòu)建的手語數(shù)據(jù)集。數(shù)據(jù)集中的漢語文本數(shù)據(jù)來源于體育新聞,對應(yīng)的手語文本由人工翻譯,并由手語專家進行評分。各位專家對手語文本評價時,統(tǒng)一用1~4分的標準進行打分。為了使模型具有一定的健壯性,數(shù)據(jù)集中包含一些較低評分的語句作為噪聲。最終數(shù)據(jù)集包含27 000條漢語和手語對應(yīng)的數(shù)據(jù)。表1是數(shù)據(jù)集中各評分等級的數(shù)據(jù)分布情況。

表1 各評分等級的數(shù)據(jù)分布

2.2 實驗設(shè)置

本文提出的self-mBART是基于Large-50版本的mBART預(yù)訓(xùn)練模型,模型的解碼器和編碼器層數(shù)均為12層,多頭注意力層設(shè)置為16個注意力頭,前饋神經(jīng)網(wǎng)絡(luò)維度是4 096,訓(xùn)練過程使用Adam優(yōu)化器進行優(yōu)化,學(xué)習(xí)率設(shè)置為10-5,dropout設(shè)置為0.1,激活函數(shù)使用常規(guī)的GELU函數(shù)。

本文構(gòu)造的偽平行數(shù)據(jù)集是由上一步中輸出的結(jié)果與原數(shù)據(jù)集中的目標語句共同組成,在算出得分后,放入到QCPG-WV模型中進行訓(xùn)練。其中QCPG-WV中使用的encoder-decoder模型是self-mBART模型,結(jié)構(gòu)與翻譯模型中相同。

2.3 對比實驗

由于本文實驗的任務(wù)目標本質(zhì)上是機器翻譯任務(wù),因此,將Transformer、mBART、mT5、ByT5幾個經(jīng)典翻譯模型作為對比模型。同時,由于模型中也使用了復(fù)述生成模型QCPG,因此,將QCPG模型也作為對比模型。

Transformer[16]模型是基于多頭自注意力機制的模型,近年來許多模型都是在Transformer的基礎(chǔ)上進行改進而生成的。

mBART[8]模型在低資源語言上的機器翻譯結(jié)果表現(xiàn)較好,較為適用于漢語文本到手語文本的翻譯問題。

mT5[17]模型是統(tǒng)一模型框架,用于處理多種自然語言處理(natural language processing,NLP)任務(wù)。針對本文任務(wù)微調(diào)后,使用該模型可以進行手語文本的生成。

ByT5[18]模型是字節(jié)級的翻譯模型,對噪聲更加具有魯棒性。

QCPG[9]模型是使用質(zhì)量控制生成的復(fù)述生成模型,在句法,詞法和語義層面對生成的意譯語句進行控制。

本文在手語數(shù)據(jù)集上測評了模型效果。評價指標使用機器翻譯領(lǐng)域內(nèi)較為權(quán)威的BLEU和ROUGE。BLEU從生成結(jié)果與目標語句的準確率方面進行評價,是一種與語言無關(guān)且與人類評價結(jié)果高度相關(guān)的評價方法。與BLEU相似,ROUGE也是衡量生成結(jié)果和標準結(jié)果的匹配程度,不同的是ROUGE基于召回率來進行評價。

表2給出了本文模型與其他模型的對比結(jié)果。

表2 模型結(jié)果對比

從表3可以看到,傳統(tǒng)Transformer模型表現(xiàn)欠佳,BLEU和ROUGE-L,ROUGE-1,ROUGE-2四個指標都小于其他模型。mBART模型的翻譯結(jié)果從BLEU與ROUGE-L兩個指標來看相比于Transformer模型都有較大的提升,在加入了Attention層之后,mBART效果有了略微提升。而僅僅使用QCPG的復(fù)述生成模型時,結(jié)果甚至不如mBART。

本文提出的方法,無論BLEU和ROUGE相關(guān)指標都比其他方法有較大的提升。ByT5模型雖然具有魯棒性,但是由于模型更關(guān)注于字節(jié)級文本的生成,因此其更適用于短文本翻譯,在本文實驗的結(jié)果中表現(xiàn)并不理想。

2.4 消融實驗

為了證明本文方法的有效性,進行了消融實驗,實驗結(jié)果如表3所示。由于self-mBART和QCPG-WV分別是根據(jù)mBART和QCPG模型改進的,因此將mBART與QCPG模型加入了消融實驗中進行對比。

表3 消融實驗結(jié)果對比

如表3所示,在mBART模型中加入了self-attention,由于其增加了模型對部分關(guān)鍵詞的注意力,因此翻譯的文本質(zhì)量有小幅度提升。并且,由于將Levenshtein替換為更適合中文詞法的單詞詞嵌入距離計算方法,使模型在控制生成文本的質(zhì)量時獲得更加有效的單詞分布,幫助模型生成結(jié)果優(yōu)于使用Levenshtein算法的質(zhì)量控制模型。最后,融合機器翻譯與復(fù)述生成方法的本文模型,使整體性能得到較大幅度的提升。

2.5 實驗結(jié)果分析

在數(shù)據(jù)集中隨機抽取兩個專家評分高的生成樣例來說明不同模型的手語生成結(jié)果,分別如表4和表5所示(表中的①、②是代表同一單詞對應(yīng)的不同手勢)。

表4 生成結(jié)果1

表5 生成結(jié)果2

由表4可以看出,采用Transformer模型生成的語句中,僅僅翻譯出來了核心詞“體育代表團”和“韓國貨幣”,其他詞匯都沒有翻譯出來,效果較差;mBART在語義與基本詞句上將原文較為完整的翻譯出來,但是仍舊缺少“吃住”中的“住”這一概念,如果僅僅照此進行語義表達轉(zhuǎn)述,會產(chǎn)生歧義;在本文提出的模型生成的文本中,將“包括”這一單詞提前,并且將“吃住”這一合成詞翻譯成“吃”、“居住”,未影響語義,且沒有語義信息丟失的情況。在表5的例子中,三個模型都沒有將“行業(yè)”這一謂語翻譯出來,從Transformer翻譯的結(jié)果可以看出語句邏輯并不通順,但是大致語義已經(jīng)翻譯出來了;mBART模型翻譯的結(jié)果中,已經(jīng)基本完全包含了所有語義信息,但是前半句與后半句的之間遞進關(guān)系表達詞“還”并沒有翻譯出來;我們的模型不僅翻譯出來了遞進關(guān)系的表達詞“還”,也使翻譯結(jié)果與目標語句的語序更加接近。

圖4是本文模型的兩個階段中文本的變化。

圖4 文本生成過程

由圖4可以看出,經(jīng)過第一步翻譯后,已經(jīng)獲得了初始的翻譯結(jié)果,但是其中“無”“法”翻譯成了兩個獨立的單詞,不能表達出“不行,沒有辦法”的意思,且“直”與“直立”的意義也不相同,經(jīng)過復(fù)述生成修正后,用“不行”來替換“無”“法”兩個字,將“直”替換“直立”后更貼近真實值中“站”的意思。

由圖4中生成的文本在不同階段的變化可以看出,經(jīng)過self-mBART模型翻譯后,能夠使語句中含有目標語句的大多數(shù)語義信息,只不過在語序與復(fù)合詞翻譯等細節(jié)存在一些差異。在復(fù)述生成任務(wù)中,輸入與輸出語句語義都需要接近,而經(jīng)過初步翻譯后的中間文本已經(jīng)具備目標語句中的大部分語義,我們可以將漢語與手語之間的語序等差異視為不同“語法”表達的差異,這樣一來,初步翻譯出來的中間文本的結(jié)果與手語文本所構(gòu)成的偽平行數(shù)據(jù)集更加符合復(fù)述生成任務(wù)的輸入標準,使復(fù)述生成任務(wù)能夠?qū)⒌谝徊剿傻闹虚g文本轉(zhuǎn)換成更加符合手語語法的結(jié)果。

3 結(jié)束語

針對手語文本生成的特殊性,本文提出一種融合機器翻譯方法與復(fù)述生成的手語文本生成模型,從中文原始文本出發(fā),使用self-mBART機器翻譯模型獲取初步結(jié)果生成中間文本,然后通過改進的質(zhì)量控制復(fù)述生成方法對中間文本修正得到所需的中文手語文本。實驗結(jié)果表明,與基線模型相比,本文提出的融合機器翻譯方法與復(fù)述生成方法從BLEU與ROUGE兩個指標來看相比原mBART與QCPG模型都有較大幅度的提升,能夠更好地生成符合語義的手語文本內(nèi)容。

基于質(zhì)量控制思想的QCPG包含句法、詞法和語義三方面的評價。本文在改進時,僅對其中一個方面的評價指標進行了修改,當(dāng)對三方面評價指標賦予不同權(quán)重時,會對最終效果產(chǎn)生影響。如何進行最優(yōu)配置是有待深入研究的一個方面。

猜你喜歡
手語語句語義
手語學(xué)習(xí),只為更懂你
重點:語句銜接
語言與語義
自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
活力(2019年15期)2019-09-25 07:23:06
精彩語句
“上”與“下”語義的不對稱性及其認知闡釋
奇怪的手語圖
認知范疇模糊與語義模糊
奇怪的手語圖
如何搞定語句銜接題
語文知識(2014年4期)2014-02-28 21:59:52
松原市| 南澳县| 伊吾县| 阿荣旗| 彭山县| 高要市| 北宁市| 类乌齐县| 胶南市| 西青区| 岳阳县| 云林县| 即墨市| 金堂县| 思茅市| 偏关县| 抚顺市| 曲沃县| 滦平县| 临泽县| 丹寨县| 盐池县| 靖安县| 岫岩| 黄平县| 醴陵市| 黄浦区| 墨竹工卡县| 平塘县| 桐乡市| 甘谷县| 海口市| 浮山县| 平阳县| 黎平县| 深泽县| 奉贤区| 赣榆县| 浦江县| 苍南县| 安泽县|