唐 建,洪 宇,劉夢眙,姚 亮,姚建民
(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
圖片描述翻譯是多模態(tài)機器翻譯(multimodal machine translation)評測的一個子任務(wù),該任務(wù)旨在根據(jù)圖片以及圖片對應(yīng)的某一種語言的描述,借助翻譯技術(shù)獲取圖片在其他語言上的文本描述。圖片描述的翻譯技術(shù)在很多翻譯任務(wù)中有廣泛的應(yīng)用,例如新聞翻譯、文獻(xiàn)翻譯等,目的在于使圖像處理和自然語言處理相結(jié)合,從而探究圖像信息在機器翻譯中的有效性。目前,在這一任務(wù)的研究中,前沿的神經(jīng)機器翻譯和注意力機制已被廣泛應(yīng)用,在評測的官方數(shù)據(jù)集上最好性能達(dá)到了約38%的BLEU值。
不同于普通文本的翻譯任務(wù),在圖片描述翻譯任務(wù)中,我們可以充分利用圖片中蘊含的豐富信息。通常,拍攝于不同場景的圖片表達(dá)不同的主題,其描述也具有一定的主題偏向性。例如,拍攝于體育場的圖片,其描述中會出現(xiàn)較多關(guān)于體育運動的詞匯,如運動員(player)、進(jìn)球(shot)、場地(filed)等;拍攝于音樂會的圖片,其描述中會出現(xiàn)較多關(guān)于音樂會的詞匯,如音樂(music)、粉絲(fan)、吉他(guitar)等;拍攝于伊拉克戰(zhàn)爭的圖片,其描述中會出現(xiàn)較多關(guān)于戰(zhàn)爭的詞匯,如戰(zhàn)爭(war)、步槍(rifle)、坦克(tank)、飛機(aircraft)等。因此,圖片描述的翻譯也具有主題適應(yīng)的問題。
將主題信息引入機器翻譯系統(tǒng),會極大提高目標(biāo)短語選擇的準(zhǔn)確性。同一單詞在不同主題下的翻譯不同,因此利用主題信息能夠輔助判定單詞在當(dāng)前句子中最佳的譯文。例如,對于待翻譯句子“他有很多粉絲”而言,其中的“粉絲”一詞可以譯為“fans”或“vermicelli”。若待翻譯句子與音樂主題比較相關(guān),則粉絲傾向于翻譯為“fans”,若待翻譯句子與飲食主題比較相關(guān),則粉絲應(yīng)該翻譯為“vermicelli”。然而,面向圖片描述翻譯任務(wù)時,由于圖片描述通常是對圖片內(nèi)容的凝練與概括,其文本內(nèi)容通常較短,含有極少甚至缺乏上下文,從而難以檢測和建模其主題,即難以有效挖掘其主題分布。
本文提出了一種融合圖片主題信息的翻譯模型優(yōu)化方法。該方法利用圖片作為媒介,挖掘圖片描述的主題分布,進(jìn)而獲取適應(yīng)主題的翻譯模型。具體地,本文首先爬取維基百科中的圖片和文檔資源,以搭建本地資源庫。其次,對于訓(xùn)練語料中任意的圖片及其文字描述的對子(以下簡稱圖片描述對),以圖片作為查詢,在本地資源庫中檢索與該圖片相似的圖片集。在此基礎(chǔ)上,本文采用相似圖片所在的文檔學(xué)習(xí)源圖片描述的主題表示。最終,基于圖片描述的主題表示對訓(xùn)練集中短語對共現(xiàn)頻率進(jìn)行加權(quán),獲取主題相關(guān)的短語翻譯模型。在測試解碼時,本文借助測試圖片對應(yīng)描述的主題分布,動態(tài)地優(yōu)化短語翻譯概率,并根據(jù)當(dāng)前描述的主題信息,選擇最佳的翻譯結(jié)果。在WMT16圖片描述翻譯任務(wù)上的實驗表明,本文提出的融入圖片主題信息的圖片描述翻譯,相比于基準(zhǔn)系統(tǒng),BLEU值提升了0.74個百分點。
本文接下來的內(nèi)容組織如下: 第1節(jié)介紹相關(guān)工作;第2節(jié)介紹融入圖片主題信息的圖片描述翻譯方法;第3節(jié)給出實驗結(jié)果,并進(jìn)行實驗分析;第4節(jié)總結(jié)本文工作,并給出展望。
Iacer[1]等提出了雙重心的多模態(tài)機器翻譯模型,該模型在文字和圖片上分別加入了注意力機制,試圖將源語言特征信息以及局部圖像卷積特征融入神經(jīng)機器翻譯模型,局部圖像的特征可以更好地輔助相關(guān)短語的翻譯。Huang[2]等提出了注意力機制多模態(tài)神經(jīng)機器翻譯,利用基于文本的注意力機制模型在每一步解碼時依賴于上一個LSTM隱藏層狀態(tài)以及文本的向量。注意力機制下解碼器可以實時刷新“記憶”,幫助獲得更好的翻譯以及語序。但該方法沒有對圖像加入注意力機制,沒有充分利用局部圖像信息對翻譯的優(yōu)化作用。Sergio[3]等提出基于具有雙嵌入的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的多模態(tài)翻譯系統(tǒng)描述,有效地對源語言進(jìn)行編碼,并且融合從VGG模型中提取出的圖像向量表示。但該方法直接抽取整個圖像的向量表示,容易丟失圖像的邊緣信息。
Zhao等[4]利用雙語主題模型,獲取不同級別語言單元中所蘊含的主題共現(xiàn)信息,有效提升統(tǒng)計機器翻譯中單詞對齊的質(zhì)量。Tam等[5]利用雙語主題模型,在源語言端和目標(biāo)語言端建立映射,用以跨語言建模和短語級別的翻譯模型適應(yīng)性研究。Gong等[6]將主題模型應(yīng)用于特定領(lǐng)域機器翻譯研究,該方法通過在短語表中構(gòu)建新特征,將待翻譯單元中隱含的主題信息予以表示;并在解碼階段動態(tài)選擇與源語言端語義一致的目標(biāo)語言端候選翻譯單元,從而有效提升了特定領(lǐng)域機器翻譯系統(tǒng)的性能。Su等[7]利用目標(biāo)領(lǐng)域單語資源學(xué)習(xí)源端短語的主題分布,借助主題加權(quán)的方式重新估計通用領(lǐng)域短語規(guī)則互譯概率。
上述圖片描述翻譯工作大多是對圖片特征信息以及圖片描述信息訓(xùn)練一個基于神經(jīng)網(wǎng)絡(luò)的翻譯模型(neural network-based translation model)。本文則基于統(tǒng)計機器翻譯系統(tǒng),借用上述工作中圖片處理方式以及本地資源庫獲取圖片的主題信息,將其融入翻譯模型。融入圖片的主題信息主要是為了解決傳統(tǒng)的機器翻譯系統(tǒng)在翻譯歧義詞時對候選結(jié)果選擇不當(dāng)?shù)膯栴}。
本文提出了一種融入圖片主題信息的翻譯模型優(yōu)化方法,整體流程如圖1所示。
圖1 系統(tǒng)流程圖
首先,我們獲取并且自動解析維基百科dump文件得到大量圖片與文檔,根據(jù)編號的唯一性獲得圖片與文檔一一對應(yīng)的本地資源庫。然后,抽取部分文檔進(jìn)行主題模型訓(xùn)練,使用訓(xùn)練好的主題模型推測得到本地資源庫中其余文檔的主題分布;繼而,在實際翻譯某一目標(biāo)圖片(即源圖片)的描述文字時,我們借助圖像匹配技術(shù)在資源庫中檢索與源圖片相似的參考圖片集;利用參考圖片所在文檔的主題分布表征源圖片的主題分布(即圖片描述的主題分布)。最后,在統(tǒng)計機器翻譯的解碼過程中,將得到的源圖片描述的主題分布以特征形式融入翻譯模型,通過增加短語翻譯表中短語對的概率特征來提高翻譯系統(tǒng)對短語翻譯的準(zhǔn)確性,以提升機器翻譯對于圖片描述翻譯的性能。
翻譯模型在翻譯短語時,根據(jù)短語對的特征對候選目標(biāo)短語進(jìn)行選擇。為了優(yōu)化翻譯模型,我們通過圖片描述主題分布獲取主題相關(guān)的短語特征,將其融入翻譯特征表,從而優(yōu)化翻譯系統(tǒng)的短語翻譯。
本文實驗中,翻譯系統(tǒng)結(jié)合了傳統(tǒng)的短語特征(翻譯概率值)和基于主題信息的短語特征。傳統(tǒng)短語特征包括短語對正向翻譯概率(positive translation probability,PTP)、反向翻譯概率(negative translation probability,NTP)[8]、詞匯化正向翻譯概率(lexical positive translation probability,LPTP)、詞匯化反向翻譯概率(lexical negative translation probability,LNTP)[8]等。本文所提出的基于主題信息的短語特征有三種,分別是主題相關(guān)的正向翻譯概率(topic-based positive translation probability,TB-PTP)、主題相關(guān)的反向翻譯概率(topic-based negative translation probability,TB-NTP)以及主題敏感度(topic sensitivity,TS)。其中,TB-PTP和TB-NTP通過主題信息對傳統(tǒng)正向和反向翻譯概率(即PTP和NTP)進(jìn)行改進(jìn)(見2.4節(jié))。此外,TS也是一種結(jié)合主題信息的翻譯特征,其對翻譯消歧的貢獻(xiàn)[9]已經(jīng)獲得驗證。本文在使用TS的時候,利用了相似圖片所在文本的主題信息,與傳統(tǒng)方法的區(qū)別僅在于獲取主題的渠道發(fā)生了變化(非本地正文,而是借助圖像處理的外部數(shù)據(jù))。
我們借助表1和表2,對傳統(tǒng)的短語特征(翻譯概率值)和基于主題信息的短語特征進(jìn)行對比,用于直觀地展示兩類特征對歧義短語翻譯的輔助作用。假設(shè)給定短語對{man,Manndie},其中,“man”為源語言(英文)的“男人”一詞(詞為最小單位的短語),“Manndie”為目標(biāo)語言(德語)的“男人”一詞。針對兩個互譯短語,表1首先給出了傳統(tǒng)的翻譯特征表及其翻譯概率值,表2給出了基于主題信息的翻譯特征表及翻譯概率值(該例中所有翻譯概率值均抽選自翻譯器訓(xùn)練過程中的中間結(jié)果)。
表1 傳統(tǒng)短語特征
表2 融入主題信息的短語特征
通過對比發(fā)現(xiàn),增加主題信息后,PTP和NTP的翻譯概率得以提升,并且所有包含主題信息的短語特征的翻譯概率均遠(yuǎn)高于傳統(tǒng)短語特征。
本節(jié)內(nèi)容旨在利用維基百科構(gòu)造本地資源庫,用以支持相似圖片搜索技術(shù)。
構(gòu)建過程中,我們利用了網(wǎng)絡(luò)爬蟲爬取維基百科頁面的圖片,得到約88萬[注]圖片總數(shù): 886,818張圖片,同時獲取這些圖片所在文檔的編號。對爬取的圖片進(jìn)行過濾,若圖片不能被caffe[10]打開則過濾掉此圖片,經(jīng)過此步驟后,剩余約86萬[注]無損圖片數(shù): 862,837張圖片。然后,利用Giuseppe Attardi提供的工具[注]https://github.com/bwbaugh/wikipedia-extractor,從維基百科dump數(shù)據(jù)庫中抽取所有頁面的文檔內(nèi)容,共獲取約420萬[注]文檔數(shù): 4 262 120個英文文檔。本文從上述文檔中隨機抽取約20萬[注]LDA訓(xùn)練文檔數(shù): 213 280篇文檔,借助Latent Dirichlet Allocation(LDA)[11]主題模型工具學(xué)習(xí)主題模型,并利用學(xué)習(xí)的主題模型推理全部文檔的主題分布。
在此基礎(chǔ)上,我們通過編號的唯一性得到約80萬[注]本地資源庫文檔和圖片數(shù): 800 160個圖片和文檔對應(yīng)關(guān)系,并根據(jù)上述文檔的主題分布信息,形成圖片與主題信息映射表。
本文旨在通過圖像匹配技術(shù),從本地資源庫獲取與源圖片相似的參考圖片集,并利用參考圖片在資源庫中對應(yīng)的主題分布信息,間接地指定源圖片的主題分布信息,從而對源圖片文字描述的翻譯過程提供可參考的主題信息。
圖2與圖3分別呈現(xiàn)了兩張圖片以及圖片對應(yīng)的描述。通過觀察發(fā)現(xiàn),兩張圖片都是描繪關(guān)于橄欖球運動的,它們的文字描述也很相似。
圖2 一位年輕人想要投擲橄欖球
圖3 橄欖球運動員奔跑著去搶球
基于上述發(fā)現(xiàn),本文試圖采用圖片檢索的方式進(jìn)行文字描述的特征化。利用數(shù)據(jù)集中圖片搜索本地資源庫,得到相似的圖片集,利用該圖片集所在文檔的主題分布表征圖片描述的主題分布。本文的主要工作集中在將文本描述的主題分布融入翻譯模型,進(jìn)而提高機器翻譯系統(tǒng)性能。
在實際系統(tǒng)化的過程中,對于本地資源庫和測試語料集中的所有圖片,我們利用Visual Geometry Group-16(VGG-16)[12]模型提取圖像特征,在使用VGG-16神經(jīng)網(wǎng)絡(luò)模型時,我們應(yīng)用softmax函數(shù)之前的完全連接層(fc7)提取特征,從而得到其4 096維向量,并且將其存入數(shù)據(jù)庫,由于本地資源庫的圖片數(shù)量過大不利于之后的計算,因此將圖片形成的矩陣分塊存儲。
在此基礎(chǔ)上,給定某一源圖片,本文執(zhí)行如下圖像匹配和參考圖片的獲取過程: 對所有本地資源庫中的圖片,利用圖像向量矩陣的歐氏距離計算其與源圖片的相似度,并按歐氏距離從小到大進(jìn)行排序,取與之歐氏距離最小即相似度最高的10張圖片作為源圖片的參考圖片,并利用這10張參考圖片預(yù)先獲取的主題分布表征源圖片的單一主題分布。這一過程可認(rèn)為是一種利用參考圖片的眾籌化信息表示過程,眾籌采用了主題分布向量的求和取均值給予計算,如式(1)所示。
(1)
其中,Pi(T)表示第i張相似圖片所在文檔屬于主題T的概率。針對主題分布向量的每一個維度,都采用式(1)予以計算。
本節(jié)旨在利用主題信息優(yōu)化短語翻譯表中的概率。修改翻譯系統(tǒng)在短語抽取時的部分源碼,使得訓(xùn)練時輸出的短語表中帶有該短語對所在的行信息,從而得到帶有行信息的正向短語翻譯表和反向短語翻譯表。對于兩個短語翻譯表,利用短語對完全匹配的方式分別去重,并且對兩個短語翻譯表中每一個短語對統(tǒng)計兩種信息: ①該短語翻譯表中出現(xiàn)該短語對的所有行信息以及每行內(nèi)出現(xiàn)此短語對的次數(shù); ②該短語對源語言端短語所在源語言句子的主題分布。
基于上述兩種信息,對于正向短語翻譯表,單獨統(tǒng)計其每個短語對中的源語言端短語所出現(xiàn)的行信息以及該行中出現(xiàn)該短語的次數(shù);對于反向短語翻譯表,單獨統(tǒng)計其每個短語對中的目標(biāo)語言端短語所出現(xiàn)的行信息以及該行中出現(xiàn)該短語的次數(shù)。利用上述各種統(tǒng)計信息,可以計算得出一張新的正向短語翻譯表,其中含有每個主題下短語對的正向翻譯概率;同時得到一張新的反向短語翻譯表,其中包含每個主題下短語對的反向翻譯概率。將這兩張表合并,得到一張新的短語翻譯表。利用式(2)和式(3)得到每個短語對在50個主題下的正向翻譯概率及反向翻譯概率。假設(shè)訓(xùn)練語料中包含短語對(s,t)的句對有n個,集合為N;包含源語言端短語s的句對有m個,集合為M;包含目標(biāo)語言端短語t的句對有k個,集合為K。則計算不同主題下正向和反向翻譯概率的公式如式(2~3)所示。
其中,P(t|s,T)和P(s|t,T)分別為(s,t)在主題T下源語言短語s翻譯成目標(biāo)語言短語t的概率和在主題T下目標(biāo)語言短語t翻譯成源語言短語s的概率;Counti(s,t)為短語對(s,t)在N中第i個句對中出現(xiàn)的次數(shù);Countj(s,t′)求和是包含源語言端短語s的短語對(s,t′)在短語翻譯表中屬于集合M中第j個句對的短語對集合中出現(xiàn)的次數(shù);Countj(s′,t)是包含目標(biāo)語言端短語t的短語對(s′,t)在短語翻譯表中屬于集合K中第j個句子的短語對集合中出現(xiàn)的次數(shù);Pi(T)指的是第i個句子在主題T下的概率分布。
在調(diào)參階段,由于上述過程產(chǎn)生的翻譯表較大(約有99萬短語對),直接使用開發(fā)集中每個源語句進(jìn)行主題融合容易因文件過大而降低運算速度,而且并不是每個短語對都有利于開發(fā)集中句子的翻譯。換言之,不存在于開發(fā)集源語言端某一個句子中的短語,對于該句的翻譯起不到正面作用。因此,我們利用開發(fā)集中每個源語句對短語表進(jìn)行過濾,形成多個過濾之后的短語表,對這些短語表進(jìn)行合并,并且標(biāo)記每個短語對來自哪個過濾之后的短語表。合并過程中同時計算每個短語對在該源語句主題分布下的翻譯概率,利用式(4~5)計算每個短語對的翻譯概率。
其中,T表示主題,本文實驗設(shè)置的主題數(shù)量為50,P(Ti) 表示當(dāng)前句對屬于第i個主題的概率。對于傳統(tǒng)的MSD調(diào)序模型產(chǎn)生的調(diào)序表做與上述相同的過濾標(biāo)記,然后合并多個調(diào)序表。利用新的短語翻譯表、調(diào)序表和開發(fā)集進(jìn)行模型參數(shù)最優(yōu)化。
在測試階段,測試集中每一個源語句將其主題分布以與上述開發(fā)集中相同的式(4)和式(5)融入帶有短語對主題分布短語翻譯表,從而形成1 000張新的短語翻譯表。然后,利用某一句源語句所得到的短語翻譯表對該句進(jìn)行解碼,將解碼的結(jié)果進(jìn)行合并得到所有的翻譯結(jié)果。
Xiao[9]等認(rèn)為可以根據(jù)短語對的主題分布將其分為主題敏感短語對和主題不敏感短語對。一般而言,主題不敏感短語對有著比較均勻的主題分布,主題敏感短語對在某個主題下有著較高的分布。一個短語對如果集中出現(xiàn)在某些主題上,就會有突出的主題分布;反之,該短語對的主題分布就會較為均勻。因此,主題敏感短語對總是蘊含著比主題不敏感短語對更多的主題信息,在計算短語對翻譯概率時,需要加入懲罰機制,從而降低主題不敏感短語對的影響,提高主題敏感短語對的影響。本文在優(yōu)化短語對互譯概率的基礎(chǔ)之上,將交叉熵作為一種懲罰機制融入翻譯模型,從而進(jìn)一步提高翻譯系統(tǒng)的性能。
在短語翻譯表中,利用式(6~7)添加短語對(s,t)的熵信息Entropy(s,t),用以表示該短語對的主題敏感度。如式(6~7)所示。
其中,Pi(Tj)表示集合N中第i句對中源語言語句在第j個主題下的概率;C是由C(Tj)組成的經(jīng)過歸一化的向量,其中,j=(1,2,3,……,50);Ci表示向量C中第i個值。
本文實驗使用NiuTrans[13]機器翻譯引擎搭建英德短語翻譯系統(tǒng)。在系統(tǒng)所包含的語料中,本地資源庫中的語料均來自維基百科,包含約80萬張圖片及其對應(yīng)的英文文檔,訓(xùn)練集、開發(fā)集、測試集來自WMT2016多模態(tài)機器翻譯評測中圖片描述翻譯任務(wù)包含圖片及其英文、德文描述。表3為實驗數(shù)據(jù)分布:
表3 機器翻譯系統(tǒng)語料
本文以NiuTrans開源統(tǒng)計機器翻譯系統(tǒng)為架構(gòu)設(shè)計參評系統(tǒng),該架構(gòu)融合GIZA++[14]工具[注]https://github.com/alexey-osipenko/giza-pp實現(xiàn)雙語句對詞對齊,并從詞對齊的平行句對中抽取短語翻譯規(guī)則。本文采用SRILM[15]工具[注]https://github.com/ayuxianguo/srilm訓(xùn)練三元(Tri-gram)語言模型,并以傳統(tǒng)MSD調(diào)序模型作為基線系統(tǒng)的調(diào)序模型,翻譯系統(tǒng)模型權(quán)重采用最小錯誤率[16]訓(xùn)練方法獲得,系統(tǒng)輸出結(jié)果采用大小寫不敏感的BLEU-4[17]值進(jìn)行評價。本文搭建基于短語的翻譯系統(tǒng),包含翻譯模型[18],語言模型[15],調(diào)序模型[19],詞、短語懲罰[20]等特征的基準(zhǔn)系統(tǒng)(Baseline)。
在以下實驗中,我們使用了VGG-16模型,以圖搜圖技術(shù)和LDA主題模型。其中,預(yù)訓(xùn)練的VGG-16模型將圖片轉(zhuǎn)為4 096維向量;以圖搜圖技術(shù)將資源庫中圖片排序,根據(jù)其與源圖片的歐氏距離從小到大排序,并且取排序前10(top10)相似圖片所在的文檔作為預(yù)測源描述主題分布的參考文檔集; GibbsLDA++開源工具[注]https://github.com/mrquincle/gibbs-lda對文檔集進(jìn)行主題的估計和推斷,主題模型工具采用以下經(jīng)驗性參數(shù)設(shè)置,主題數(shù)目取50,超參數(shù)均設(shè)為0.05,迭代次數(shù)設(shè)為1 000。
① LDA_PT: 利用以圖搜圖技術(shù)所得的主題信息,僅優(yōu)化短語翻譯表中短語對的正向翻譯概率。
② LDA_NT: 利用以圖搜圖技術(shù)所得的主題信息,僅優(yōu)化短語翻譯表中短語對的反向翻譯概率。
③ LDA_BT: 利用以圖搜圖技術(shù)所得的主題信息,優(yōu)化短語表中短語對的正向翻譯概率和反向翻譯概率。
④ LDA_BT_Entr: 在LDA_BT的基礎(chǔ)上加入了短語對的交叉熵信息, 將此信息作為一維新的特征融入翻譯模型。
此外,我們選擇LDA_Text,LDA_Union和GDMM三個模型作為本文方法的對比對象。這三個模型都被嵌入了NiuTrans系統(tǒng)架構(gòu),跟本文方法具有一致的系統(tǒng)環(huán)境,評測也因此具有較高的可比性。
在LDA_Text中,我們使用了doc2vec[21]推測句子的分布向量、文本匹配技術(shù)和LDA模型。其中,doc2vec將源圖片描述和資源庫中圖片描述轉(zhuǎn)為100維向量;以文本匹配技術(shù)將資源庫中圖片排序,根據(jù)其描述與源圖片描述的歐氏距離從小到大排列,并且取排序前10(top10)的相似圖片所在文檔作為預(yù)測源描述主題分布的文檔集;LDA模型使用了GibbsLDA++工具,具體參數(shù)設(shè)置與上述實驗一致。LDA_Union和LDA_Text的不同在于我們將以圖搜圖技術(shù)和文本匹配技術(shù)獲得的文檔集取并集作為本實驗的文檔集。GDMM和LDA_Text的不同在于我們直接利用GPUDMM工具[注]https://github.com/NobodyWHU/GPUDMM推測源描述的主題分布。Parallel_RCNNS在文本上加入了注意力機制,并且,在編碼層不僅加入了整個圖片的信息,而且也抽取了圖片中的不同實體。
① LDA_Text: 利用文本檢索得到的主題信息優(yōu)化短語翻譯表的正向及反向翻譯概率,同時將交叉熵信息融入短語翻譯表。
② LDA_Union: 將利用文本檢索得到的相似文檔和以圖片檢索方式獲取的相似文檔取并集,利用該文檔集合的主題信息優(yōu)化短語翻譯表的正向及反向翻譯概率,同時將交叉熵信息融入短語翻譯表。
③ GDMM: 直接利用GPUDMM抽取短文本主題分布,利用此主題分布優(yōu)化短語翻譯表的正向及反向翻譯概率,同時將交叉熵信息融入短語翻譯表。
④ Parallel_RCNNS: 基于注意力機制的多模態(tài)神經(jīng)機器翻譯系統(tǒng)。
本節(jié)首先分析測試結(jié)果,然后再根據(jù)實驗和觀測,分析主題信息在翻譯過程中解決領(lǐng)域適應(yīng)性問題的有效性。
3.3.1 實驗結(jié)果與分析
本文搭建英德機器翻譯系統(tǒng),并基于最小錯誤率訓(xùn)練方法調(diào)節(jié)特征權(quán)重。本文總共構(gòu)建了9個翻譯系統(tǒng)、8個系統(tǒng)作為本文所提方法的對比系統(tǒng)。
如表4所示,優(yōu)化翻譯模型的翻譯系統(tǒng)相比于原始的翻譯系統(tǒng)(Baseline_SMT),在測試集上性能均有提升。其中優(yōu)化短語翻譯表中正向和反向翻譯概率并且融入短語對主題敏感度的翻譯系統(tǒng)(LDA_BT_Entr)性能達(dá)到最優(yōu),相比于基準(zhǔn)系統(tǒng),BLEU值提升了0.74個百分點。融入短語對主題相關(guān)的正向或反向翻譯概率的系統(tǒng)性能均比Baseline高,這說明這兩種特征都對翻譯系統(tǒng)起到一定的促進(jìn)作用。在此基礎(chǔ)上,將兩種特征同時融入翻譯模型時,發(fā)現(xiàn)性能比只融入一種特征提高更多,說明這兩種特征相輔相成共同促進(jìn)系統(tǒng)性能的提高。之后再融入短語對的敏感度,性能又進(jìn)一步提高??傮w而言,本文融入的三種主題相關(guān)的特征都對翻譯系統(tǒng)性能提高起到了促進(jìn)作用。
表4 特征有效性
在LDA_Text方法中,我們利用源圖片描述通過字符串相似度匹配方式獲得若干相似的目標(biāo)圖片描述,從而獲得包含目標(biāo)圖片的文檔作為相似文檔集合,其中_cb表示使用切比雪夫距離進(jìn)行搜索,其余是用歐氏距離進(jìn)行距離度量。表5顯示,LDA_Text的性能比LDA_BT_Entr降低了0.58個百分點,LDA_Text_cb的性能比LDA_BT_Entr_cb降低了0.56個百分點。該部分實驗結(jié)果表明,在某些距離度量方式下,以圖片作為媒介查找文檔比直接利用文本檢索查找的文檔更加準(zhǔn)確。原因在于,圖片描述短文本所含信息非常有限,而且文本表達(dá)具有歧義,但是圖片包含豐富的信息,且圖片內(nèi)容清晰明確,利用圖片信息搜索得到的相似文檔表達(dá)的主題信息符合圖片描述,用這些相似文檔的主題分布表示圖片描述的主題分布更加貼切。實驗設(shè)置中的LDA_Union將圖片搜索得到的相似文檔和基于文本檢索得到的相似文檔取并集,利用這些相似文檔集合的主題向量表示圖片描述的主題分布向量。
表5 搜索方式有效性
表6展示了一個圖片描述以及使用字符串匹配方式和以圖搜圖方式得到的相似文檔摘要。由表中數(shù)據(jù)可以發(fā)現(xiàn),圖片描述是關(guān)于網(wǎng)球的主題,以圖搜圖方式得到的相似文檔是描述網(wǎng)球的,然而字符串匹配方式得到的相似文檔是描述足球俱樂部的。上述例子表明以圖搜圖方式在獲取文檔集方面能夠取得更好的結(jié)果,這主要是由于圖片信息相比較于短文本信息量豐富并且出現(xiàn)歧義的可能性小。
表6 圖片描述和相似文檔摘要
GDMM和LDA_BT_Entr兩者都是將短語對正向、反向主題相關(guān)的翻譯概率和短語對的主題敏感度融入翻譯模型,主要的區(qū)別在于兩者利用不同的方式估計圖片描述的主題分布。GDMM直接利用GPUDMM工具抽取圖片描述的主題分布,將其融入翻譯模型。LDA_BT_Entr利用本地資源庫獲取文檔集,通過主題模型利用文檔集估計圖片描述的主題分布。表7顯示LDA_BT_Entr和Baseline性能比GDMM分別高了2.11和1.37個百分點。由于GPUDMM在抽取短文主題時很多內(nèi)容都需要用戶提供,比如分詞結(jié)果、單詞的語義向量及不同單詞之間的相似度值等。這種情況下容易造成錯誤傳遞,從而導(dǎo)致抽取出較差的主題分布信息,使實驗性能降低。
表7 不同方式估計主題分布
Huang[2]等提出了基于注意力機制的多模態(tài)神經(jīng)機器翻譯方法Parallel_ RCNNS。從表8中可以發(fā)現(xiàn),其性能遠(yuǎn)高于本文所提出的方法LDA_BT_Entr。原因在于,神經(jīng)網(wǎng)絡(luò)的方法中參數(shù)眾多,對參數(shù)的不斷細(xì)化可以對系統(tǒng)性能有明顯的提高,但是估計眾多參數(shù)的復(fù)雜度非常高。該注意力機制方法不僅將整個圖片信息融入神經(jīng)機器翻譯系統(tǒng),而且還提取圖片中的實體等內(nèi)容優(yōu)化翻譯性能。本文提出的融入圖片主題信息的圖片描述翻譯方法基于統(tǒng)計機器翻譯進(jìn)行實驗,參數(shù)較少,復(fù)雜度較低,而且我們在進(jìn)行主題分布估計時對于參數(shù)只是進(jìn)行了經(jīng)驗性設(shè)置,并沒有對參數(shù)進(jìn)行細(xì)化調(diào)整。本文所提出的方法雖然在性能上不如Parallel_RCNNS,但是我們著重解決了短語翻譯時歧義詞的問題。實驗結(jié)果表明,在加入額外的圖片信息之后,多模態(tài)神經(jīng)機器翻譯提高了0.55個百分點,而我們提出的方法性能比Baseline_SMT提高了0.74個百分點。
表8 不同翻譯系統(tǒng)的翻譯比較
3.3.2 主題信息的領(lǐng)域適應(yīng)性分析
部分英文單詞存在領(lǐng)域性,即在不同領(lǐng)域下會被譯為不同的意思。領(lǐng)域性通常通過主題信息來反映,主題分布的不同往往體現(xiàn)出領(lǐng)域的差異性,比如,軍事領(lǐng)域的主題往往集中在“戰(zhàn)爭”“軍火”等。在圖片描述翻譯的任務(wù)中,圖片描述一般以短文本的方式出現(xiàn),僅依靠描述文本中有限的信息,統(tǒng)計機器翻譯系統(tǒng)難以正確翻譯具有歧義性的短語。
目前,主題信息被廣泛使用以解決機器翻譯的領(lǐng)域適應(yīng)性問題。由于圖片描述是短文本類型,難以有效地抽取其主題信息。相反,圖片本身含有豐富的內(nèi)容,其主題信息也更加清晰。在本地資源庫中,圖片與文檔共同出現(xiàn)。由于文檔的主題信息更容易獲得,從而可以利用文檔的主題信息表征圖片的主題信息。圖片的內(nèi)容和圖片的描述也是共同表達(dá)了同樣的主題,描述是對圖片的概括性表達(dá),圖片是對內(nèi)容的形象化表示,因而可以通過圖片的主題分布表征圖片描述的主題分布??偠灾疚睦孟嗨茍D片所在文檔的主題信息表示源圖片的主題信息,然后通過該圖片的主題信息表示圖片描述的主題信息,圖片描述的主題信息被融入翻譯系統(tǒng)以提高翻譯系統(tǒng)在短語翻譯方面的準(zhǔn)確性。
圖4、圖5以及表9展示了圖片源語言端和目標(biāo)語言端的描述,兩個圖片描述中都存在這“fan”這個單詞,但該詞在對應(yīng)的目標(biāo)語言端的翻譯卻不相同,在圖4的描述中它被翻譯為“Fan”,而在圖片5的描述中它被翻譯為“Faltf?cher”。“Fan”在中文里是“粉絲”的意思,“Faltf?cher”的中文含義是“折扇”。
圖4 樂隊在粉絲面前表演
單純地從文字描述的內(nèi)容來講,統(tǒng)計機器翻譯系統(tǒng)很難將這個詞“fan”在兩個句子中都翻譯正確,因為翻譯系統(tǒng)在進(jìn)行短文本翻譯時除了統(tǒng)計信息之外,沒有更多的信息進(jìn)行翻譯選項的取舍。但是根據(jù)圖片中的內(nèi)容可以清晰地發(fā)現(xiàn),圖4的內(nèi)容講的是“粉絲”,然而圖5中的含義是“折扇”,該結(jié)果體現(xiàn)了兩張圖片的主題分布不同。由此可見,圖片本身的主題場景可以作為額外的信息,進(jìn)而輔助圖片描述的翻譯。因此,融入圖片主題信息的翻譯系統(tǒng)能使文本翻譯取得更好的性能。
圖5 一個男人正在設(shè)計折扇
表9 “fan”的不同翻譯結(jié)果
本文驗證了短語翻譯在不同領(lǐng)域下存在差異,并提出了一種融合主題信息的翻譯模型領(lǐng)域自適應(yīng)方法,利用圖片的主題信息完善短語對的翻譯概率分布,相比于基準(zhǔn)系統(tǒng),BLEU值提升了0.74個百分點。
本文利用圖片所在的文檔獲得圖片的主題信息,融入機器翻譯系統(tǒng)中的翻譯模型,從而在圖片描述翻譯方面提高了性能,然而圖片的很多細(xì)節(jié)信息并沒有被提取以優(yōu)化翻譯系統(tǒng)。因此在未來的工作中,本文將從以下兩個方面進(jìn)行嘗試: 一是利用神經(jīng)網(wǎng)絡(luò)提取與描述緊密相關(guān)的局部圖片信息,去除圖片中的干擾信息;二是在神經(jīng)機器翻譯中對圖片使用注意力機制進(jìn)行處理。