一種改進(jìn)的全局注意機(jī)制圖像描述方法

2019-04-22 08:03馬書磊張國賓石光明

西安電子科技大學(xué)學(xué)報(bào) 2019年2期

馬書磊，張國賓，焦陽，石光明

(1.西安電子科技大學(xué) 人工智能學(xué)院，陜西西安 710071；2.中國電子科技集團(tuán)公司第二十七研究所，河南鄭州 450047)

圖像描述技術(shù)是通過計(jì)算機(jī)視覺及自然語言處理技術(shù)讓計(jì)算機(jī)自動描述圖像內(nèi)容。目前圖像描述方法一般分為3類：(1)基于檢索的方法；(2)基于模板的方法；(3)基于神經(jīng)網(wǎng)絡(luò)的方法。其中基于檢索和基于模板的方法因其受限于圖像的人工特征提取和文本的設(shè)計(jì)生成規(guī)則，往往效果并不理想。而基于神經(jīng)網(wǎng)絡(luò)的方法得益于網(wǎng)絡(luò)強(qiáng)大的圖像特征提取能力，在許多計(jì)算機(jī)視覺應(yīng)用[1]中都取得了非常好的效果。故文中僅針對基于神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行討論。

文獻(xiàn)[2]早先提出神經(jīng)圖像描述(Neural Image Caption， NIC)模型，該模型由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)構(gòu)成。模型利用Google Inception[3]網(wǎng)絡(luò)作為圖像特征提取器，同時利用長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory， LSTM)作為文本編解碼器。視覺注意機(jī)制作為一種常用技術(shù)，在圖像問答[4]、細(xì)粒度分類[5]、動作識別[6]以及三位重建[7]等問題中被廣泛應(yīng)用。文獻(xiàn)[8]通過引入視覺哨兵機(jī)制，提出一種自適應(yīng)編碼器-解碼器模型?？紤]到視覺注意機(jī)制大都基于固定尺寸感受野，文獻(xiàn)[9]提出基于自底向上和自頂向下的注意機(jī)制的圖像描述方法(Bottom-Up and Top-Down， BUTD)，使注意機(jī)制的感受野尺寸可以隨著物體的大小而調(diào)整。

現(xiàn)有方法中，雖然視覺注意機(jī)制可以很好地模擬人眼對圖像局部的理解，但單純的基于視覺注意機(jī)制其實(shí)并不完全符合人類感知機(jī)制，會造成圖像全局信息丟失。因此，筆者提出一種改進(jìn)的全局注意機(jī)制圖像描述方法。實(shí)驗(yàn)表明，基于全局注意機(jī)制的方法能夠有效克服全局信息丟失帶來的語義失真問題，并在主觀及客觀性能評價中獲得性能提升。

1 動機(jī)

基于注意機(jī)制的圖像描述方法可以根據(jù)上下文針對圖像局部內(nèi)容進(jìn)行增強(qiáng)或抑制，取得了很好效果。然而，目前基于視覺注意機(jī)制的圖像描述方法雖然可以有效加強(qiáng)圖像各個不同局部特征，但正如下文所述，單純的視覺注意模型并不完全符合人類感知機(jī)制。

人類感知機(jī)制的研究[10-11]表示，人們可以通過感知周圍整體環(huán)境和高效地轉(zhuǎn)移局部注意力來完成對周圍場景的深刻理解。目前基于視覺注意機(jī)制的方法只模擬了后一點(diǎn)，但缺少對圖像場景的整體感知，導(dǎo)致網(wǎng)絡(luò)生成的文本不能夠生動準(zhǔn)確地描述圖像的場景內(nèi)容。如圖1所示，可以看出，生成的文本雖然可以大致描述圖像主體，但錯誤理解了場景整體內(nèi)容(如圖1(a)中工藝場景，圖1(b)中的健身房場景等)。

標(biāo)簽文本:一個穿著白色上衣的男人在房間里制作手工品基于自底向上方法:一個穿著白色上衣的男人在房間里打臺球大廳里有三個穿著運(yùn)動服抬起右臂的人在健身一群穿著運(yùn)動服的女人在運(yùn)動場上打排球

圖1 全局信息缺失導(dǎo)致網(wǎng)絡(luò)生成的文本不能準(zhǔn)確描述圖像場景

因此，所提技術(shù)通過模擬人類感知機(jī)制全過程，在現(xiàn)有基于視覺注意機(jī)制方法的基礎(chǔ)上，加入全局先驗(yàn)來指導(dǎo)網(wǎng)絡(luò)，以生成更加準(zhǔn)確、生動的描述文本，并提出改進(jìn)的全局注意機(jī)制中文本描述方法。該方法先通過設(shè)計(jì)全局網(wǎng)絡(luò)來提取圖像全局特征fg，然后利用fg在長短時記憶網(wǎng)絡(luò)迭代過程中指導(dǎo)生成局部特征向量fatt，最后通過基于全局特征的fatt和長短時記憶網(wǎng)絡(luò)隱狀態(tài)h生成當(dāng)前文本，并提升生成文本質(zhì)量。

2 基于全局注意機(jī)制的圖像描述網(wǎng)絡(luò)設(shè)計(jì)

2.1 基于神經(jīng)網(wǎng)絡(luò)的圖像描述框架

典型的基于視覺注意機(jī)制的圖像描述網(wǎng)絡(luò)框架如圖2所示。主要包括兩個子網(wǎng)絡(luò)：卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)。

圖2 基于神經(jīng)網(wǎng)絡(luò)的圖像描述框架

其中，圖像I首先經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，得到圖像高級語義特征f。其次圖像特征f將會通過注意網(wǎng)絡(luò)進(jìn)行編碼，得到加權(quán)后的圖像特征fatt。注意網(wǎng)絡(luò)以圖像特征和當(dāng)前時刻長短時記憶網(wǎng)絡(luò)的狀態(tài)作為輸入，通過生成圖像特征對應(yīng)的權(quán)值，對圖像特征進(jìn)行加權(quán)。不同的權(quán)值大小反映了該時刻圖像局部特征之間受關(guān)注程度的不同。然后，長短時記憶網(wǎng)絡(luò)將加權(quán)后的圖像特征fatt、當(dāng)前時刻隱狀態(tài)ht和細(xì)胞狀態(tài)ct，以及當(dāng)前時刻詞向量WeΠt作為輸入，迭代學(xué)習(xí)不同時刻詞向量之間的關(guān)系，并通過歸一化指數(shù)函數(shù)對隱狀態(tài)ht進(jìn)行解碼，得到當(dāng)前時刻單詞yt。最后，上述步驟在時序上進(jìn)行循環(huán)，直到生成完整文本。需要注意的是，在基于視覺注意機(jī)制的圖像描述方法中，注意網(wǎng)絡(luò)雖然增強(qiáng)了圖像局部特征，但同時也減弱了圖像的全局特征。

2.2 基于全局注意機(jī)制的圖像描述框架

基于人類感知機(jī)制，在傳統(tǒng)圖像描述網(wǎng)絡(luò)結(jié)構(gòu)上加入了全局先驗(yàn)通路，提出基于全局先驗(yàn)的圖像描述框架結(jié)構(gòu)，如圖3所示。

圖3 基于全局注意機(jī)制的圖像描述框架

如圖3中虛線所示，圖像I首先經(jīng)過全局網(wǎng)絡(luò)進(jìn)行特征提取，得到全局特征向量fglb。全局網(wǎng)絡(luò)的設(shè)計(jì)可以采用經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)。然后，fglb、fatt和當(dāng)前詞向量WeΠt將一同作為輸入傳給長短時記憶網(wǎng)絡(luò)。在長短時記憶網(wǎng)絡(luò)的設(shè)計(jì)中，全局特征向量fglb將會和局部特征向量fatt進(jìn)行融合，以保證網(wǎng)絡(luò)在學(xué)習(xí)全局信息的基礎(chǔ)上學(xué)習(xí)圖像局部特征。

2.3 基于全局注意機(jī)制的圖像描述網(wǎng)絡(luò)模型

在圖像描述任務(wù)中，目前表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò)是基于自底向上和自頂向下的注意機(jī)制的圖像描述方法(BUTD)，下文簡稱為基于自底向上的方法。該算法以提出的網(wǎng)絡(luò)框架為基礎(chǔ)，對自底向上的方法網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化改進(jìn)，提出基于全局注意機(jī)制的圖像描述方法。網(wǎng)絡(luò)核心部分如圖4所示。

圖4 基于全局注意機(jī)制的圖像描述網(wǎng)絡(luò)模型

(1)

3 實(shí)驗(yàn)及分析

3.1 數(shù)據(jù)集

為了驗(yàn)證模型的有效性，選取具有挑戰(zhàn)性的 “AI Challenger全球AI挑戰(zhàn)賽” 中文數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn)。在該數(shù)據(jù)集中，每一張圖片均有5句中文描述作為標(biāo)簽。數(shù)據(jù)集總共包含30萬張圖片，對應(yīng)150萬句中文描述。其中包括訓(xùn)練集210 000張，驗(yàn)證集30 000張，測試集60 000張。

3.2 實(shí)現(xiàn)細(xì)節(jié)

實(shí)驗(yàn)采用VGG-16網(wǎng)絡(luò)結(jié)構(gòu)卷積部分作為全局網(wǎng)絡(luò)進(jìn)行圖像全局特征提取，并將所有輸入圖像I均縮放為448×448像素大小。因此conv53輸出特征圖大小為[512,28,28]，經(jīng)過全局平均池化后，全局特征向量f53大小為[512,1,1]。APN網(wǎng)絡(luò)中Faster R-CNN產(chǎn)生512個候選特征區(qū)域，即K=512。生成的特征向量fatt大小為[512,1,1]。長短時記憶網(wǎng)絡(luò)中層數(shù)為2，隱狀態(tài)h和細(xì)胞狀態(tài)c的長度均被設(shè)置為512，循環(huán)次數(shù)由生成文本的結(jié)尾標(biāo)識符動態(tài)確定。對于中文文本描述來說，采用Jieba分詞對文本進(jìn)行切割，然后利用Word2Vec方法進(jìn)行編碼，得到We。

網(wǎng)絡(luò)訓(xùn)練過程中批大小設(shè)置為20，學(xué)習(xí)率為5×10-4，最大迭代周期為15。網(wǎng)絡(luò)訓(xùn)練采用Adam優(yōu)化算法，其中動量設(shè)置為[0.9,0.999]，權(quán)值衰減為0.001。

3.3 結(jié)果對比

將當(dāng)前圖像描述任務(wù)中最優(yōu)網(wǎng)絡(luò)BUTD作為基準(zhǔn)，和提出的方法在中文數(shù)據(jù)集上進(jìn)行深入對比。在客觀對比方面，采用BLEU[12]、METEOR[13]、ROUGEL和CIDEr[14]等圖像描述評價標(biāo)準(zhǔn)，如表1所示。

表1 客觀評價指標(biāo)對比

如上表所示，所提方法在相同的訓(xùn)練條件下，各項(xiàng)客觀評價指標(biāo)均優(yōu)于基于自底向上的方法。其中在BLEU評價指標(biāo)上平均比基于自底向上的方法高出0.003，在METEOR、ROUGEL和CIDEr指標(biāo)上分別高出0.02、0.001和0.24。除了客觀評價指標(biāo)，還進(jìn)行大量主觀對比實(shí)驗(yàn)，如圖5所示。

基于自底向上方法: 全局注意機(jī)制方法: 一個穿著白色上衣的男人在房間里打臺球一個穿著白色上衣的男人在房間里制作工藝品一群穿著運(yùn)動服的女人在運(yùn)動場上打排球三個穿著短袖的人在健身房鍛煉身體兩個戴著帽子的男人站在道路的機(jī)器旁兩個戴著帽子的男人在室外的道路上交談基于自底向上方法: 全局注意機(jī)制方法: 大棚里有一個穿著深色褲子的男孩在摘草莓大棚里有兩個穿著各異的人在摘草莓一個左手拿著球桿的女人蹲在高爾夫球場上一個左手拿著高爾夫球桿的女人蹲在綠茵茵的球場上一個右手拿著話筒的男人坐在廣告牌前說話一個右手拿著話筒的男人坐在廣告牌前的沙發(fā)上講話

圖5 模型生成文本對比

在以上對比實(shí)驗(yàn)中可以看到，在樣例(a)、(b)、(c)中，基于自底向上的方法生成的文本甚至錯誤的描述了圖像內(nèi)容，而基于全局注意機(jī)制的方法由于加入了全局先驗(yàn)信息，可以準(zhǔn)確的表述圖像內(nèi)容。除此之外，基于全局注意機(jī)制的方法在描述上更傾向加入修飾性的形容詞，如“紅毯上”“綠茵茵”“汽車旁”等，使生成的文本更自然、生動，描述了更加豐富的圖像細(xì)節(jié)。

4 結(jié)束語

算法基于人類感知機(jī)制，在視覺注意模型的基礎(chǔ)上加入圖像全局信息，提出一種改進(jìn)的全局先驗(yàn)圖像描述方法。該方法通過融合圖像全局特征和區(qū)域局部特征，解決基于視覺注意機(jī)制方法中的全局信息丟失的問題。實(shí)驗(yàn)證明，基于全局注意機(jī)制的方法在客觀評價標(biāo)準(zhǔn)上優(yōu)于目前最好算法；在客觀評價中，該方法可以更準(zhǔn)確地描述圖像的整體內(nèi)容，并生成更加細(xì)致、生動、形象的自然語言文本。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡