周珊 劉子龍
摘要:圖片相比文字而言,可以為人們呈現(xiàn)更生動、更易于理解和更豐富的信息,海量圖片成為互聯(lián)網(wǎng)信息交流的主要媒介之一。因此,如何快速、便捷地自動生成圖像描述具有研究意義。介紹了一種根據(jù)圖像生成其內容的自然語言描述模型,該模型是基于一種在圖像區(qū)域上應用改進的Faster-RCNN、在句子上應用BRNN以及通過多模嵌入達成兩種模態(tài)對齊的一種結構化目標的新穎組合。對實驗生成描述與圖片本來描述相似度進行評估,B-1為0.63,B-2為0.45,B-1為0.32,相較于初始的一些語言描述模型性能有明顯提高,說明該模型有一定的實用性。
關鍵詞:自然語言描述模型;改進Faster-RCNN;BRNN;多模嵌入;模態(tài)對齊
DOIDOI:10.11907/rjdk.181011
中圖分類號:TP317.4
文獻標識碼:A 文章編號文章編號:1672-7800(2018)008-0040-05
英文摘要Abstract:Nowadays millions of pictures have become communicate media of the Internet information.Compared with words,pictures are more vivid,easy-to-understand and they are interesting information to people.Therefore,the research on automatic acquisition of image content has great theoretical and practical significance.This paper mainly introduces a natural language description model based on image to generate its content.It is mainly based on an improved Faster-RCNN applied to the image region.BRNN is applied to sentences and a structured objective which aligns two modalities by a multimodal embedding.The similarity assessment between experimental description and the original description of the picture are as followed:the B-1 was 0.63,the B-2 was 0.45 and the B-1 was 0.32.The performance of the model was obviously improved compared with some of the original language description models,which showed that the model has certain practicality.
英文關鍵詞Key Words:natural anguage description model; improved faster-RCNN; BRNN; multimodal embedding; modality alignment
0 引言
隨著互聯(lián)網(wǎng)技術的快速發(fā)展和電子設備數(shù)字影像技術的提高,人們更喜歡用智能手機拍攝和截屏,更方便、更快速地采集和記錄信息??焖贋g覽一張圖像足以讓人們指出并描述關于視覺場景的大量細節(jié)。然而,如果只能通過識別出數(shù)字信息的計算機技術獲取圖像內容,其算法過程之復雜是難以想象的。目前大多數(shù)的視覺識別工作都集中在使用固定模型對圖像進行標注上,雖然實現(xiàn)了對整幅圖像內容的自動標注,但與人類可表達的豐富描述相比仍有很大的局限性。這些模型通常使用特定的模板對圖片和句子進行學習,這對圖片的豐富描述產(chǎn)生了限制。此外,有研究將復雜的視覺場景減縮為單個句子,這也是沒必要的約束。
本文的核心思想是:給模型輸入一些圖像及其相應的句子描述,將這些圖片及句子數(shù)據(jù)集視為弱標簽進行學習,學習連續(xù)的詞段及在圖片中對應的位置。通過大量的學習,模型可生成句子段并推斷出其描述對應的圖像區(qū)域,如圖1所示。
本文研究的目的是對給定的輸入圖片自動生成語言描述。提出一個多模嵌入模型,它能檢索圖片中的內容及所處位置,然后生成文本段對應到圖片中所描述的區(qū)域,最后用文本段生成完整的句子描述。該模型涉及兩種深度神經(jīng)網(wǎng)絡,分別是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)。本文利用改進的卷積神經(jīng)網(wǎng)絡學習圖像從底層到高層的多示例融合視覺特征,對圖像進行區(qū)域標注;基于雙向循環(huán)神經(jīng)網(wǎng)絡學習人工描述序列中的語法和語義,然后對區(qū)域的文本段生成自然語言描述。
1 相關工作
圖像的多標簽自動標注已有大量研究,如Gould和Socher等[1-2]研究了在固定類別集上對圖片中的物體、場景和區(qū)域進行正確的語義標注?;诰矸e神經(jīng)網(wǎng)絡能對圖像進行多尺度的特征提取,在處理圖像數(shù)據(jù)集時有很好的分類效果。針對一般模型在訓練和測試時速度慢的特征,本文應用更快區(qū)域卷積神經(jīng)網(wǎng)絡(Faster-Region Convolutional Neural Network,F(xiàn)aster-RCNN),在訓練時占空相對較小,并且能提高檢測運算的精度和速度。該方法標注內容更豐富,對區(qū)域的描述也更準確。
對于圖像的句子描述,Kiros等[3]提出了邏輯雙線性模型生成對圖像的完整句子描述,但是這種模型使用的是固定的上下文窗口。Donahue等[4]使用RNN模型,它與傳統(tǒng)的神經(jīng)網(wǎng)絡的不同之處在于其帶有記憶功能,能夠處理對前面輸出內容有關聯(lián)的輸出問題。本文采用BRNN,它不僅與前面的內容有關,還與后面的內容有關,可以很好地根據(jù)上下文預測生成的句子描述。此外,有許多不同的研究方法用來把詞段和圖片聯(lián)系起來,例如Karpathy等[5]把圖片和句子分解成片段并推斷它們之間的對應關系,本文方法和它有類似之處,但是本文沒有固定長度的上下文窗口。
2 模型介紹
2.1 模型特征
人們撰寫句子時會頻繁地引用圖像中某些特定但未知的位置,如圖1中 “貓正倚靠在木桌上”一句涉及到貓和木桌,要從圖片和描述中推斷出這些對應關系,從而學會從圖像區(qū)域自動生成這些文本段。本文先將句子和圖像區(qū)域映射到共同的、多模嵌入的神經(jīng)網(wǎng)絡,使用改進的卷積神經(jīng)網(wǎng)絡獲取圖像的特征區(qū)域,使用雙向循環(huán)神經(jīng)網(wǎng)絡計算句子中詞段的表示,并允許詞及上下文在句子中不受限制地交互。接著,通過兩種模型采取嵌入的表示方法,使語義相似概念占據(jù)圖片空間中鄰近的區(qū)域。
2.1.1 Faster-RCNN
3 實驗與分析
本文實驗使用MSCOCO數(shù)據(jù)集[9],它包含的圖像信息有目標類別標簽及位置坐標等,標簽文件的坐標精確度均為小數(shù)點后兩位,包含80k的訓練圖片、40k校驗圖片、20k的測試圖片和80多種分類。
TensorFlow框架是谷歌開源的軟件庫,該系統(tǒng)功能強大,可用于復雜的數(shù)字計算,是目前為止效果較好的實現(xiàn)深度神經(jīng)網(wǎng)絡結構的框架。它實現(xiàn)模型功能非常靈活,處理框架以數(shù)據(jù)流圖的方式運算,支持個人電腦或服務器上多處理器運行。
3.1 模型訓練
Faster-RCNN采用RPN+VGG模型,其中VGG訓練模型采用VGG-16,雖然實驗效果較好,但它占用GPU顯存較大、速度過慢。針對這個問題,訓練過程中對模型卷積核的步長和一些參數(shù)進行修改,提升算法速度和內存占用。模型訓練先在檢測挑戰(zhàn)賽的200多個類別的ImageNet圖像集上進行,得到初始結果,然后再進行微調。訓練過程采用端到端近似聯(lián)合訓練方式,這種方式使用顯存較小,訓練速度較快,準確率也很高。需要注意的是要把標簽含有大寫字母全部改成小寫字母,否則會出現(xiàn)關鍵字錯誤。
訓練多模深度神經(jīng)網(wǎng)絡根據(jù)上下文預測下一個輸出單詞。將h0初始值設為零向量,x1設置為特殊的START向量,并將期望的標簽y1設置為序列中的第一個字。類似地,將x2設置為第一個字的字矢量,并期望網(wǎng)絡預測第二個字,等等。最后一步,當xt表示最后一個字時,目標標簽設置為特殊的END標記。本文使用SGD優(yōu)化算法,每批訓練數(shù)據(jù)輸入50組圖片和描述,使用Inverted Dropout函數(shù)訓練,提高訓練效果,使用softmax分類器進行優(yōu)化。
3.2 模型測試與評估
為了解算法對圖像特征提取和標注的性能,本文對模型準確率和召回率作了評估,選擇一些具有代表性的模型進行比較,包括2010年文獻[2]中Socher提出的模型、2015年文獻[14]中的Fast-RCNN模型,2016年文獻[15]中的NSIDML模型。
通過表1可以看到,本文使用的方案與其它幾種方案相比,在平均準確率和平均召回率上都有優(yōu)勢。本文的準確率雖然沒有NSIDML模型高,但也達到了較高水平,綜合指標F1一Score是最高的。雖然在F1一Score綜合衡量上與NSIDML相比并沒有大幅度提高,但在召回率上有大幅度提高,說明該方案在常用標簽上具有較強的實用性,該方法對圖片標注的測試結果如圖6所示。如果使用更多大規(guī)模數(shù)據(jù)集對模型進行訓練,該方案理論上能取得更好效果。
為驗證對圖像區(qū)域文本描述性能,本文用n-單位片段評價方法對模型得到的描述與圖片本身的相似度作評估,表示為B-n。本文還選擇一些有代表性的模型與本文模型進行對比,分數(shù)越高代表性能越好。對比模型有文獻[12]中提出的RNN模型,文獻[13]中提出的Google NIC模型,文獻[4]中提出的LRCN模型和本文模型,簡寫為MDNN。
通過表2可以看到,本文模型與最初的RNN模型相比性能有了明顯提高,說明該模型確實有一定的實用性。雖然本文給出的實驗沒有Google NIC性能好,但如果使用更多的數(shù)據(jù)集對模型進行訓練可能會取得更好的實驗效果。最終自動生成描述的測試圖片效果如圖7所示。
4 結語
本文采用一種基于圖像和句子數(shù)據(jù)集弱標簽的形式生成圖像區(qū)域的自然語言描述模型。首先介紹了Faster-RCNN和BRNN兩個深度神經(jīng)網(wǎng)絡,然后描述了標注詞與圖片分割域對齊的方法,最后介紹了單詞序列整合及在多模深度神經(jīng)網(wǎng)絡中的生成描述。
盡管本文模型對圖片產(chǎn)生的描述效果較好,但也有很多限制,如模型只能以固定分辨率的圖像生成一組像素數(shù)據(jù)和文字描述數(shù)據(jù)作為輸入。 此外,本文方法是由圖像處理模型和語言分析模型組合而成,直接從圖像數(shù)據(jù)集到圖像描述端到端模型仍需進一步研究。
圖像包含信息豐富的背景,應當充分利用圖像的多種數(shù)據(jù)源特征,如圖像生成時間和地理位置等,利用深度神經(jīng)網(wǎng)絡進行多特征融合,對圖像進行分析和描述。
參考文獻:
[1] GOULD S, FULTON R,KOLLER D.Decomposing a scene into geometric and semantically consistent regions[C].IEEE 12th International Conference onComputer Vision,2009:1-8.
[2] SOCHER R,F(xiàn)EI-FEI L.Connecting modalities:semi-supervised segmentation and annotation of images using unaligned text corpora[J].Computer Vision & Pattern Recognition,2010:966-973.
[3] KIROS R,ZEMEL R S,SALAKHUTDINOV R.Multimodal neural language models[C].International Conference on International Conference on Machine Learning,2014:II-595.
[4] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al.Long-term recur- rent convolutional networks for visual recognition and description[DB/OL].arXiv preprint arXiv:1411.4389,2014.
[5] KARPATHY A,JOULIN A,F(xiàn)EI-FEI L.Deep fragment embeddings for bidirectional image sentence mapping[DB/OL].arXiv preprint arXiv:1406.5679,2014.
[6] REN S,GIRSHICK R,SUN J.Fasterr R-CNN[C].Proceedings of the IEEE International Conference on Computer Vision.2015.
[7] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].2014 IEEE Conference on Computer Vision and Pattern Recognition ,2014:580-587.
[8] DENKOWSKI M,LAVIE A.Meteor universal:language specific translation evaluation for any target language[C].Proceedings of the EACL 2014 Workshop on Statistical Machine Translation,2014:376-380.
[9] CHEN X,F(xiàn)ANG H,LIN T Y,et al.Microsoft coco captions:data collection and evaluation server[DB/OL].arXiv preprint arXiv:1504.00325,2015.
[10] 高揚,衛(wèi)崢.白話深度學習與TensorFlow[M].北京:機械工業(yè)出版社,2017.
[11] KIROS R,SALAKHUTDINOV R,ZEMEL R S.Unifying visual-semantic embeddings with multimodal neural language models[DB/OL].arXiv preprint arXiv:1411.2539,2014.
[12] MAO J,XU W,YANG Y,et al.Explain images with multimodal recurrent neural networks[DB/OL].arXiv preprint arXiv:1410.1090,2014.
[13] VINYALS O,TOSHEV A,BENGIO S,et al.Show and tell:A neural image caption generator[DB/OL].arXiv preprint arXiv:1411.4555,2014.
[14] GIRSHICK R.Fast R-CNN[C].Proceedings of the IEEE International Conference on Computer Vision.2015:1440-1448.
[15] JIN C,JIN S W.Image distance metric learning based on neighborhood sets for automatic image annotation[J].Journal of Visual Communication and Image Representation,2016(34):167-175.
(責任編輯:杜能鋼)