馬 苗,王伯龍,吳 琦,武 杰,郭 敏
1(現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(陜西師范大學(xué)),陜西 西安 710062)
2(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119)
3(School of Computer Science,The University of Adelaide,Adelaide SA5005,Australia)
視覺場景描述技術(shù)通過對輸入圖像或視頻的內(nèi)容分析,自動(dòng)生成一個(gè)語句或若干語句的形式對視覺場景中的內(nèi)容進(jìn)行描述,屬于計(jì)算機(jī)視覺、多媒體、人工智能和自然語言處理等領(lǐng)域的交叉性研究課題.視覺場景描述問題可歸結(jié)為視覺語義理解、多媒體語義學(xué)習(xí)、場景理解等領(lǐng)域中的子問題,其歷史可追溯到多模態(tài)檢索、跨模態(tài)學(xué)習(xí)等問題的研究.
近年來,得益于深度學(xué)習(xí)相關(guān)模型、方法的突破性進(jìn)展和大樣本數(shù)據(jù)集的出現(xiàn),尤其是隨著 MS COCO、Flickr等基準(zhǔn)數(shù)據(jù)集的出現(xiàn)和深度學(xué)習(xí)框架下卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,簡稱CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡稱RNN)、長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,簡稱LSTM)等深度網(wǎng)絡(luò)模型研究的日益成熟,視覺場景描述技術(shù)再度掀起研究高潮,并正在變?yōu)楝F(xiàn)實(shí).然而,由于視覺場景中呈現(xiàn)內(nèi)容的豐富性和自然語言表達(dá)的形式多樣性,使得視覺場景描述成為一項(xiàng)復(fù)雜而富于變化的挑戰(zhàn)性任務(wù).
視覺場景描述問題在業(yè)界和學(xué)術(shù)界均引起了高度重視,國內(nèi)外相關(guān)研究機(jī)構(gòu)包括Google實(shí)驗(yàn)室、Baidu研究院、微軟研究院、中國科學(xué)院、斯坦福大學(xué)、伯克利大學(xué)、加利福尼亞大學(xué)等.在國際知名的學(xué)術(shù)論文圖書館ACM、IEEE、Elsevier、Springer和國內(nèi)外學(xué)術(shù)論文搜索引擎Google Scholar和百度學(xué)術(shù)中,以“image description、video description、image captioning或video captioning”等為關(guān)鍵字,檢索論文,其結(jié)果表明:近年來,與視覺場景描述有關(guān)的學(xué)術(shù)論文發(fā)表數(shù)量一直呈增長趨勢,反映最新成果的一系列論文在許多知名國際會議中如雨后春筍般產(chǎn)生.例如,“計(jì)算機(jī)視覺與模式識別國際會議(IEEE Conf. on Computer Vision and Pattern Recognition,簡稱CVPR)”[1-22]、“計(jì)算機(jī)視覺國際會議(IEEE Int’l Conf. on Computer Vision,簡稱 ICCV)”[23-33]、“歐洲計(jì)算機(jī)視覺會議(European Conf. on Computer Vision,簡稱 ECCV)”[34-40]、“神經(jīng)信息處理系統(tǒng)國際會議(Int’l Conf. on Neural Information Processing Systems,簡稱 NIPS)”[41-49]和“自然語言處理國際會議(Int’l Joint Conf. on Natural Language Processing,簡稱 NLP)”[50,51]等.
圖1所示為近年來關(guān)于“視覺場景描述”在計(jì)算機(jī)視覺領(lǐng)域中三大會議上論文發(fā)表數(shù)量的統(tǒng)計(jì)圖,直觀地展現(xiàn)了該技術(shù)的研究趨勢.這些研究成果不僅推動(dòng)了計(jì)算機(jī)視覺、自然語言處理等相關(guān)學(xué)科的融合發(fā)展,而且展現(xiàn)了其在視覺信息相關(guān)的跨模態(tài)檢索、智能監(jiān)控、海量數(shù)據(jù)壓縮、幫助視覺障礙人士感知與理解周圍環(huán)境等眾多領(lǐng)域的潛在應(yīng)用.
Fig.1 Papers on visual scene description published in the proceedings of three top conferences圖1 三大頂級會議關(guān)于“視覺場景描述”論文的發(fā)表情況
本文綜述視覺場景描述及其效果評價(jià)的研究現(xiàn)狀和進(jìn)展.具體來說,第 1節(jié)論述視覺場景描述的定義、研究任務(wù),簡要分析視覺場景描述與跨模態(tài)學(xué)習(xí)、場景理解等相關(guān)技術(shù)的關(guān)系.第 2節(jié)分類總結(jié)視覺場景描述的主要方法、模型及研究成果.第 3節(jié)整理可用于圖像描述和視頻描述研究與競技的基準(zhǔn)數(shù)據(jù)集.第 4節(jié)討論客觀評價(jià)視覺場景描述效果的主要指標(biāo)、方法和存在的問題.最后,第5節(jié)展望視覺場景描述的應(yīng)用前景.
視覺場景描述是指用計(jì)算機(jī)視覺技術(shù)模擬人眼觀察到一幅靜態(tài)圖像或觀看了一段視頻片段后,用自然語言的形式描述觀察到的視覺場景內(nèi)容的方法與技術(shù).由于視覺場景主要源于圖像和視頻,故視覺場景描述的研究主要針對圖像和視頻兩類輸入信息展開.前者用自然語言形式的文本語句描述圖像的場景內(nèi)容,稱為圖像字幕(image captioning)或圖像描述(image description);后者用自然語言形式的文本語句描述視頻片段提供的場景內(nèi)容,稱為視頻字幕(video captioning)或視頻描述(video description).
視覺場景描述的研究任務(wù)是自動(dòng)生成一個(gè)或多個(gè)句子來描述輸入圖像或視頻中呈現(xiàn)的視覺場景內(nèi)容,最終目標(biāo)是用自然語言準(zhǔn)確、快速、詳細(xì)地重述人眼可以觀察到的場景,內(nèi)容涉及場景中存在的目標(biāo)檢測、跟蹤(如所在區(qū)域、目標(biāo)屬性、目標(biāo)狀態(tài))及各目標(biāo)或相應(yīng)事件之間關(guān)系的生成與表達(dá)等.
圖2所示的3個(gè)例子給出了通過視覺場景描述技術(shù)自動(dòng)生成自然語言形式描述1幅圖像和2段視頻片段內(nèi)容的語句.
Fig.2 Examples of visual scene description圖2 視覺場景描述的一組例子
獲得理想視覺場景描述效果的前提是計(jì)算機(jī)具有和人類類似的視覺感知能力,能夠?qū)o態(tài)或動(dòng)態(tài)的場景進(jìn)行感知、分析和理解,并能得出符合人類習(xí)慣的語義描述.因此,從這個(gè)角度來看,視覺場景描述是場景語義分析和視覺場景理解任務(wù)的重要組成部分,也是對場景語義理解和分析結(jié)果的進(jìn)一步呈現(xiàn)方式之一.
鑒于視覺場景描述技術(shù)的多學(xué)科交叉性質(zhì),下面我們分別簡要論述與之密切相關(guān)的多模態(tài)檢索、跨模態(tài)學(xué)習(xí)、場景理解、場景分類、場景解析、視覺關(guān)系檢測、場景圖生成、視覺問答、指示表達(dá)生成等技術(shù).
(1) 多模態(tài)檢索、跨模態(tài)檢索和跨模態(tài)學(xué)習(xí)
模態(tài)是指數(shù)據(jù)的存在形式.現(xiàn)實(shí)世界中,人們可以用文本、音頻、圖像、視頻等不同模態(tài)的數(shù)據(jù)描述同一對象或事件,得到同步數(shù)據(jù).因此,計(jì)算機(jī)也可以利用這些同步數(shù)據(jù)學(xué)習(xí)同一對象或事件的視覺、聲音或文本等不同模態(tài)的特征.
多模態(tài)檢索(multimodal retrieval):這是指融合不同模態(tài)的檢索方法和技術(shù).其特點(diǎn)在于,它不對各模態(tài)信息間的關(guān)系建模.查詢和待檢索的文檔不止包含1個(gè)模態(tài),但至少有1個(gè)模態(tài)是相同的.顯然,對多媒體數(shù)據(jù)進(jìn)行多模態(tài)檢索可有效提高單模態(tài)檢索的準(zhǔn)確度[53].
跨模態(tài)檢索(cross-modal retrieval):這是指通過尋找不同模態(tài)樣本之間的關(guān)系,實(shí)現(xiàn)利用某一種模態(tài)樣本搜索近似語義的其他模態(tài)樣本的方法和技術(shù).其特點(diǎn)在于,檢索結(jié)果的模態(tài)和查詢的模態(tài)不同.例如用圖像檢索文本、視頻或音頻,其關(guān)鍵在于對不同模態(tài)的關(guān)系進(jìn)行建模,難點(diǎn)在于需要跨越不同模態(tài)間的語義鴻溝[54].
跨模態(tài)學(xué)習(xí)(cross-modal learning):這是指通過對已有多模態(tài)訓(xùn)練樣本的學(xué)習(xí),努力學(xué)習(xí)到無標(biāo)記數(shù)據(jù)的單一模態(tài)的更好表示的方法和技術(shù).其特點(diǎn)在于,多模態(tài)數(shù)據(jù)僅在特征學(xué)習(xí)期間可用,在監(jiān)督訓(xùn)練和測試階段,只有單一模態(tài)數(shù)據(jù)可用.
視覺場景描述可看作是一種跨模態(tài)學(xué)習(xí),即通過大樣本視覺場景及其對應(yīng)的文本形式的描述語句的學(xué)習(xí),掌握如何用自然語言去描述未標(biāo)記的場景內(nèi)容,包括場景中的對象、對象屬性或狀態(tài),以及對象之間的關(guān)系.在此基礎(chǔ)上,可以完成跨模態(tài)檢索、視覺問答等更高級的場景分析及理解任務(wù).
(2) 場景理解、場景識別/分類、場景解析[55-59]
場景理解(scene understanding):這是指以圖像及視頻為研究對象,分析什么場景(場景分類或場景識別)、場景中有什么目標(biāo)(目標(biāo)檢測、目標(biāo)識別、場景解析)、目標(biāo)之間的相互關(guān)系(場景圖、視覺關(guān)系)以及如何表達(dá)場景(場景描述)的方法和技術(shù).該領(lǐng)域中的大規(guī)模場景理解挑戰(zhàn)賽 LSUN(large-scale scene understanding)主要聚焦于場景分類、顯著預(yù)測、房間布置估計(jì)和字幕生成這4類任務(wù).
場景識別(visual place recognition或scene recognition):這是指將一幅圖像或一段視頻片段中的場景標(biāo)記為不同類別的方法和技術(shù).若事先給出待識別場景的類別標(biāo)簽,則場景識別問題可歸結(jié)為一個(gè)分類問題,即場景分類(scene classification)[55-59].
場景解析(scene parsing):這是指對場景圖像進(jìn)行分割,并進(jìn)一步解析為與語義類別相關(guān)的不同區(qū)域的方法和技術(shù).其特點(diǎn)在于,它預(yù)測場景中每個(gè)像素的類別標(biāo)簽、位置以及形狀,提供了對場景的完全理解,是自動(dòng)駕駛、機(jī)器人感知等應(yīng)用的前提和基礎(chǔ).
顯然,場景理解涵蓋了場景識別、場景解析與場景描述.場景識別與場景解析的結(jié)果可以作為場景描述的基礎(chǔ)和前提,而場景描述是場景理解、場景識別和場景解析的一種自然語言形式的表達(dá)和呈現(xiàn).
(3) 視覺關(guān)系檢測、場景圖生成和指示表達(dá)生成
視覺關(guān)系檢測(visual relation detection):這是指將對象置于一個(gè)上下文語義環(huán)境中,研究如何提取不同對象的位置和對象間的空間邏輯關(guān)系等內(nèi)容的方法和技術(shù).不同于視覺內(nèi)容與自然語言之間的關(guān)系,視覺關(guān)系檢測研究的是各對象之間交互的直接關(guān)系,可以為圖像注釋、問答系統(tǒng)等應(yīng)用提供深層語義信息[60].
視覺問答(visual question and answer)[26-29,34,41,61]:這是指讓計(jì)算機(jī)根據(jù)輸入的圖像(視頻)和問題,研究如何輸出符合人類表達(dá)習(xí)慣且內(nèi)容合理的答案的方法和技術(shù).目前,該研究多集中在看圖問答方面,相關(guān)技術(shù)涉及目標(biāo)識別、行為識別和問題解析等.
場景圖生成(scene graphs generation):這是指通過顯式建模對象、對象屬性和對象之間的關(guān)系來捕獲視覺場景的詳細(xì)語義的方法和技術(shù).該技術(shù)可以為視覺場景描述和視覺問答等應(yīng)用提供深層次的語義信息,有助于發(fā)現(xiàn)和利用場景中各對象之間的關(guān)系[62].
指示表達(dá)生成(referring expression generation)[63,64]:這是指研究如何明確、清晰地描述特定對象的方法和技術(shù).該技術(shù)常使用屬性來描述特定對象,進(jìn)而能夠在給定的上下文中輔助識別相應(yīng)對象.理解和生成是與指示表達(dá)相關(guān)的兩個(gè)任務(wù):理解任務(wù)要求系統(tǒng)選擇給定表達(dá)所描述的對象;生成任務(wù)是為圖像內(nèi)的指定對象生成表達(dá).
從場景內(nèi)容分析角度,視覺關(guān)系檢測、視覺場景圖和指示表達(dá)生成的相關(guān)研究致力于場景中存在的對象、關(guān)系及屬性、狀態(tài),因此,其研究結(jié)論均可引入到場景描述中來深入發(fā)掘場景構(gòu)成、對象屬性與狀態(tài)等信息,這均有利于提高視覺場景描述的準(zhǔn)確度.
如第 1.1節(jié)所述,按照場景載體的不同,視覺場景描述從圖像描述和視頻描述兩個(gè)維度展開.根據(jù)研究思路的不同,視覺場景描述方法可細(xì)分為基于模板的方法(template based approaches)、基于檢索的方法(retrieval based approaches)以及目前主流的基于序列學(xué)習(xí)的方法(sequence learning based approaches).根據(jù)生成語句的數(shù)目不同,視覺場景描述也可分為基于單一語句的視覺場景描述(用一句話描述場景內(nèi)容)、基于多語句的視覺場景描述(用一段話去描述場景內(nèi)容)和基于密集描述的視覺場景描述(以不同區(qū)域、不同對象或不同事件為單位,詳細(xì)地描述場景內(nèi)容),如圖3所示.
Fig.3 Categories of visual scene description methods圖3 視覺場景描述方法的分類
下面以視覺場景描述的原理為主線,分別討論基于模板、檢索以及序列學(xué)習(xí)的視覺場景描述方法、原理和代表性成果.
該類方法預(yù)先定義生成語句的一些特定語法規(guī)則,如將句子分為主語、動(dòng)詞和賓語等組成成分,然后檢測給定場景的內(nèi)容、屬性,使用概率圖模型將狀態(tài)對齊到屬性,并用預(yù)定義的句子模板推導(dǎo)出句子結(jié)構(gòu).
在圖像描述方面的代表性工作中,Yang等人(2011年)從Gigaword語料庫訓(xùn)練的語言模型獲得動(dòng)作的估計(jì)以及名詞、場景和介詞共同定位的概率,然后將其作為隱馬爾可夫模型(hidden Markov model,簡稱HMM)的參數(shù),模擬句子生成過程[51].Mitchell等人(2012年)給出計(jì)算機(jī)視覺檢測中產(chǎn)生圖像描述的 Midge系統(tǒng),它過濾不可能的屬性,并將對象放置到有序的句法結(jié)構(gòu)來生成場景內(nèi)容的語句描述[65].Krishnamoorthy等人(2013年)利用SVO語言模型來選擇“主語、動(dòng)作、對象”三元組,并生成語句[66].Kulkarni等人(2013年)通過檢測圖像中的對象和屬性及它們的介詞關(guān)系,使用條件隨機(jī)場來預(yù)測包含這些對象、修飾符和關(guān)系的最佳結(jié)構(gòu)[67].Lebret等人(2015年)從圖像中預(yù)測短語,然后將它們與一個(gè)簡單的語言模型結(jié)合起來,生成關(guān)于圖像內(nèi)容的場景描述[68].
在視頻描述方面的代表性工作中,Kojima等人(2002年)引入動(dòng)作的概念層次來描述人類活動(dòng)[69].Rohrbach等人(2013年)采用條件隨機(jī)場(conditional random field,簡稱CRF)算法模擬對象和視覺輸入的活動(dòng)之間的連接,并生成描述的語義特征[33].Guadarrama等人(2013年)定義語義層次以學(xué)習(xí)不同句子成分之間的語義關(guān)系[32].此外,Xu等人(2015年)提出了一個(gè)由語義語言模型、深度視頻模型和聯(lián)合嵌入模型組成的統(tǒng)一框架,來學(xué)習(xí)視頻和自然語句之間的關(guān)聯(lián)[70].
顯然,基于模板的場景描述方法總是能夠在預(yù)定義的語句模板中直接生成具有檢測關(guān)鍵字且語法正確的句子,其不足在于,該類方法高度依賴于預(yù)定義的語句模板,生成語句受到固定句法結(jié)構(gòu)的限制,句子描述的內(nèi)容和形式失去了新穎性和靈活性.
該類方法的主要思路是通過在數(shù)據(jù)庫中搜索視覺上與輸入圖像相似的圖像,并從檢索到的圖像標(biāo)題中利用最近鄰法找到最佳描述語句.因此,該類方法本質(zhì)上是通過從數(shù)據(jù)庫中的句子池中選擇語義最相似的句子來生成輸出圖像的視覺場景描述.
該類方法主要出現(xiàn)在圖像描述應(yīng)用中.Farhadi等人(2010年)使用近鄰法則選出候選的圖像描述語句,將這些語句和對應(yīng)圖像映射到Meaning Space,并用Tree-F1法則進(jìn)行匹配,得到5個(gè)最佳描述語句[40].Ordonez等人(2011年)提出 Web圖像字幕生成方法,該方法依賴于從互聯(lián)網(wǎng)收集的大量圖像數(shù)據(jù),使用全局檢索或結(jié)合內(nèi)容估計(jì)檢索這兩種策略產(chǎn)生新的圖像標(biāo)題[49].Kuznetsova等人(2014年)提出基于樹結(jié)構(gòu)的語句生成方法,其主要思想是從現(xiàn)有的圖像描述中收集表達(dá)短語,然后選擇性地組合所提取的片段來產(chǎn)生新的描述語句[71].Hodosh等人(2015年)提出基于 KCCA的基準(zhǔn)系統(tǒng)來進(jìn)行圖像描述和搜索,通過構(gòu)建序列核及能夠捕獲語義相似性的核來建立圖像與文本間的聯(lián)合空間,進(jìn)而描述圖像內(nèi)容[72].Devlin等人(2015年)利用 CNN獲得圖像的候選詞袋,然后用k鄰近檢索模型獲得該圖像的共識描述,在COCO基準(zhǔn)數(shù)據(jù)集上性能優(yōu)良[73].
易知,該類方法產(chǎn)生的視覺場景描述語句與人工標(biāo)注的描述語句在表達(dá)方式和風(fēng)格上較為一致,不足在于生成效果受檢索數(shù)據(jù)庫中句子池里人工標(biāo)注的樣本數(shù)量、樣本描述精細(xì)粒度以及輸出圖像與檢索圖像的相似程度的約束和影響.
基于序列學(xué)習(xí)的場景描述方法是深度網(wǎng)絡(luò)模型獲得突破性進(jìn)展以來主流的視覺場景描述方法.“編碼器-解碼器(encoder-decoder)”框架下的“CNN(或 3D CNN)+RNN”和“CNN(或 3D CNN)+LSTM”是該類方法的常見組合.其中,RNN在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中引入時(shí)序概念,將上一時(shí)刻的輸出作為下一時(shí)刻的輸入重新進(jìn)入到網(wǎng)絡(luò),可分為單向 RNN、Bi-RNN和 m-RNN;LSTM模型可視為 RNN的改進(jìn)版本,又可細(xì)分為單向 LSTM 模型、雙向LSTM模型、深層結(jié)構(gòu)的雙向LSTM模型以及GRU模型等[74-76].該類方法的一般過程如圖4所示.
Fig.4 General framework of visual scene description based on sequence learning圖4 基于序列學(xué)習(xí)的視覺場景描述方法的一般框架
在圖像描述方面的代表性工作包括:(1) 在“CNN+RNN”方法研究中,Vinyals等人(2015年)從圖像中提取特征并與人工標(biāo)注語句輸入到RNN中訓(xùn)練,得到圖像內(nèi)容描述[20].Karpathy等人(2015年)以RCNN(regions with CNN features)為 Encoder提取圖像中各個(gè)目標(biāo)區(qū)域,再以 BRNN(bidirectional recurrent neural network)作為Decoder,并參考上下文來生成語句,最終得到圖像中各個(gè)區(qū)域的描述[17].(2) 在“CNN+LSTM”方法研究中,Donahue等人(2015年)利用 LSTM 模型生成內(nèi)容描述[18].Huang等人(2016年)提出具有選擇性的多通道LSTM模型,以改進(jìn)局部圖像信息與生成文本語句之間的匹配效果,提升圖像描述的合理性[9].Ren等人(2017年)利用局部預(yù)測模型“政策網(wǎng)絡(luò)”和全局評估模型“價(jià)值網(wǎng)絡(luò)”共同協(xié)作生成圖像描述[2].以上方法均未考慮場景中的感興趣區(qū)域.(3) 在引入注意機(jī)制的方法研究中,Xu等人(2015年)將LSTM模型與人類視覺中的注意機(jī)制相結(jié)合,在生成對應(yīng)的單詞時(shí)自動(dòng)聚焦于顯著對象[77].Lu等人(2017年)引入視覺“哨兵”策略,設(shè)計(jì)自適應(yīng)視覺注意模型[3].You等人(2016年)使用預(yù)生成的語義概念建議來指導(dǎo)描述生成,并學(xué)習(xí)在不同時(shí)刻選擇性地關(guān)注這些概念[13].Wang等人(2017年)則利用基于視覺注意機(jī)制的 CNN提取圖像特征,設(shè)計(jì)了 Skel-LSTM 模型和 Atrr-LSTM 模型,分別用來產(chǎn)生文本語句中的“主、謂、賓”和“定、狀、補(bǔ)”[4].(4) 在引入外部知識場景和屬性方法的研究中,Wu等人(2016年)用高層次的概念(屬性),顯著改進(jìn)了RNN的圖像描述質(zhì)量[14].該屬性進(jìn)一步被You等人(2016年)用來增強(qiáng)圖像描述性能[13].
在視頻描述方面的代表性工作包括:(1) 在“3D CNN+RNN”方法研究中,Socher等人(2014年)利用RNN和C3D從視頻幀序列中提取出來的三維特征進(jìn)行時(shí)序上的編碼并進(jìn)行建模,最后融合音頻特征完成視頻分類與單句視頻內(nèi)容描述[78];為了產(chǎn)生更多的句子來詳細(xì)描述視頻場景中的內(nèi)容,Yu等人(2016年)利用分層遞歸神經(jīng)網(wǎng)絡(luò)結(jié)合視覺注意機(jī)制建模句子間的依賴性,從而生成視頻的多句描述[12];(2) 在“CNN+LSTM”方法研究中,Subhashini等人(2014年)利用CNN提取每個(gè)視頻幀序列特征圖并將它們進(jìn)行平均池化,再利用LSTM模型生成描述語句[52].Torabi等人(2016年)用 CNN提取待描述視頻的 C3D矩陣作為視頻信息的三維特征,再通過LSTM模型生成描述語句[79];Pan等人(2017年)利用基于 COCO數(shù)據(jù)集的弱監(jiān)督多實(shí)例學(xué)習(xí)的語義檢測器,分別提取圖像和視頻的語義屬性,將整合后的語義屬性送入 LSTM-TSA網(wǎng)絡(luò)實(shí)現(xiàn)視頻場景內(nèi)容的語義描述[5].同年,Zhang等人(2017年)提出任務(wù)驅(qū)動(dòng)的動(dòng)態(tài)融合機(jī)制來降低視頻描述中的模糊度,細(xì)化對視頻內(nèi)容的刻畫程度[6];Shen等人(2017年)利用弱監(jiān)督的多事例多標(biāo)記學(xué)習(xí)方法建立視頻區(qū)域與詞標(biāo)注的全卷積網(wǎng)絡(luò),實(shí)現(xiàn)視頻內(nèi)容的多樣化密集描述[7].(3) 在引入事件概念的方法研究中,Krishna等人(2017年)以事件為單位,通過檢測事件、分析事件間的時(shí)序關(guān)系,建立基于事件驅(qū)動(dòng)的視頻描述模型[8].在此基礎(chǔ)上,Wang等人(2018年)將“只利用過去上下文來進(jìn)行建議預(yù)測”改進(jìn)為“用雙向建議模塊編碼過去和將來的上下文”,提出雙向視覺融合的密集視頻描述方法.該方法能夠區(qū)分和描述時(shí)間上高度重疊的事件,進(jìn)一步提高對視頻內(nèi)容進(jìn)行密集描述的能力[1].
該類方法的特點(diǎn)在于,利用深度網(wǎng)絡(luò)模型在視覺內(nèi)容和文本句子的聯(lián)合空間中學(xué)習(xí)概率分布,來生成句法結(jié)構(gòu)靈活的句子,能夠提供較為準(zhǔn)確的場景描述效果.其優(yōu)點(diǎn)體現(xiàn)在,通過“CNN+RNN”等深度網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)獲取場景內(nèi)容的特征表達(dá)能力,去掉了繁雜的人工特征提取過程,屬于端到端的解決問題方式,但是該類方法依賴于大樣本基準(zhǔn)數(shù)據(jù)集的支撐,其在應(yīng)用中的性能取決于實(shí)際場景與大量樣本場景間的相似性.相似度高的場景內(nèi)容描述質(zhì)量高,反之,場景內(nèi)容描述結(jié)果可能與實(shí)際情況不符.
在視覺場景描述的研究中,尤其是Encoder-Decoder框架下基于序列學(xué)習(xí)的方法及模型構(gòu)建大多屬于有監(jiān)督的機(jī)器學(xué)習(xí)方法,因此離不開人工標(biāo)注的基準(zhǔn)數(shù)據(jù)集的發(fā)展.這些基準(zhǔn)數(shù)據(jù)集不僅提供了大量的圖像和視頻等資源,而且提供了對數(shù)據(jù)集中圖像、視頻對應(yīng)的人工標(biāo)注語句.它們一方面供研究人員對所提出模型或方法的正確性與有效性進(jìn)行檢驗(yàn),另一方面也為不同場景描述方法或模型的性能對比提供了開放的平臺.
下面給出人工標(biāo)注的產(chǎn)生和視覺場景描述的常用基準(zhǔn)數(shù)據(jù)集.
近年來,人工智能技術(shù)被引入各類復(fù)雜應(yīng)用,如語音理解、物體識別、環(huán)境感知等.然而,這些智能系統(tǒng)的構(gòu)建往往需要含有標(biāo)注的大量數(shù)據(jù)樣本作為訓(xùn)練資源,而提供這些符合分類規(guī)則和人類認(rèn)知規(guī)律的標(biāo)注還不能完全由計(jì)算機(jī)生成.實(shí)際上,絕大多數(shù)圖像、視頻的標(biāo)注還是人工完成的.
隨著機(jī)器學(xué)習(xí)應(yīng)用的不斷普及,人工主導(dǎo)、監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的混合訓(xùn)練方法將是未來人工智能系統(tǒng)的主要學(xué)習(xí)方式.這意味著越來越多的數(shù)據(jù)需要被正確標(biāo)記.實(shí)際上,針對此任務(wù),亞馬遜、蘋果、谷歌、微軟等均有自己的勞務(wù)眾包平臺或直接使用第三方服務(wù).其中,始于 2005年的亞馬遜勞務(wù)眾包平臺(Amazon mechanical turk,簡稱AMT)是最有影響的在線勞務(wù)眾包平臺之一.目前AMT注冊工作人員累計(jì)超過50萬.這些工作人員被稱為Turker,他們通過互聯(lián)網(wǎng)可以全天候地完成數(shù)據(jù)標(biāo)定任務(wù).例如,在計(jì)算機(jī)視覺領(lǐng)域產(chǎn)生重要影響的ImageNet數(shù)據(jù)集中大部分標(biāo)注工作是在AMT上由50 000名Turker歷時(shí)約2年完成.
目前,國際上可用于視覺場景描述研究與競技的公開基準(zhǔn)數(shù)據(jù)集有 10余種.其中,圖像描述基準(zhǔn)數(shù)據(jù)集包括 Pascal VOC[80]、Flickr系列[72,81,82]、MS COCO[83]、YFCC100M[84]、Visual Genome[85]和 ICC[86]等,見表 1.
Table 1 Datasets on image captioning表1 圖像描述的基準(zhǔn)數(shù)據(jù)集
與之類似,現(xiàn)有的國際上通用的視頻描述基準(zhǔn)數(shù)據(jù)集包括 MSVD[87]、YouCook[22]、TACoS multilevel dataset[88]、YouTube2Text[32]、MPII-MD[89]、M-VAD[90]、MSR-VTT[11]、ActivityNet Captions[8]和 YouCook2[91]等數(shù)據(jù)集,見表2.
Table 2 Datasets on video captioning表2 視頻描述的基準(zhǔn)數(shù)據(jù)集
Table 2 Datasets on video captioning (Continued)表2 視頻描述的基準(zhǔn)數(shù)據(jù)集(續(xù))
隨著視覺場景描述生成方法及模型日漸增多和基準(zhǔn)數(shù)據(jù)集的不斷豐富,研究人員希望能夠通過設(shè)計(jì)一些客觀指標(biāo)自動(dòng)判斷視覺場景描述生成的深度網(wǎng)絡(luò)模型及方法的有效性,由此提出了一些客觀的性能評價(jià)指標(biāo)[9,19,92-105].這些指標(biāo)的本質(zhì)是對人工標(biāo)注語句和自動(dòng)生成語句的相似度比較.
常見的客觀評價(jià)指標(biāo)見表3.
Table 3 Performance evaluation on visual scene description表3 視覺場景描述的性能評價(jià)
早期的研究工作主要集中在基于n元組的匹配情況來評價(jià)生成語句與人工標(biāo)注語句之間的相似程度.然而,由于此類方法未考慮語義信息的一致性,有時(shí)這些方法的評價(jià)結(jié)果與人類感知不符.
(1) BLEU指標(biāo)系列[92,93].包括BLEU-1、BLEU-2、BLEU-3、BLEU-4,主要思想是基于人工標(biāo)注語句與生成語句之間n個(gè)連續(xù)字符的嚴(yán)格匹配情況進(jìn)行評價(jià).它的計(jì)算過程是對生成語句與人工標(biāo)注語句的n元組進(jìn)行比較,并計(jì)算出匹配片段的個(gè)數(shù).這些匹配片段與它們在文字中的位置無關(guān).匹配片段數(shù)越多,該指標(biāo)取值越大,說明生成語句與人工標(biāo)注語句相似度越高,場景描述效果越好.因該系列指標(biāo)計(jì)算簡單,故廣泛用于機(jī)器翻譯的效果評價(jià).不足之處在于,計(jì)算過程中人工標(biāo)注語句的單詞會被重復(fù)利用,易引起評價(jià)結(jié)果出現(xiàn)偏差.
(2) ROUGE指標(biāo)系列[94].包括ROUGE-L、ROUGE-N、ROUGE-W和ROUGE-S[95].其中,ROUGE-L用于計(jì)算一個(gè)生成語句與一個(gè)人工標(biāo)注語句之間的相似度,主要思想是對比系統(tǒng)生成語句與人工標(biāo)注語句,通過統(tǒng)計(jì)二者之間基本單元的重疊數(shù)目來評價(jià)生成語句的質(zhì)量;ROUGE-N用于計(jì)算一個(gè)生成語句與多個(gè)人工標(biāo)注語句之間的相似度,當(dāng)單一生成語句與多個(gè)人工標(biāo)注語句計(jì)算評分時(shí),ROUGE-N最終取值為生成語句與各人工標(biāo)注語句ROUGE-L評分中的最高分.該指標(biāo)取值越大,說明生成語句與人工標(biāo)注語句相似度越高.不足在于,其計(jì)算過程只是簡單地采用人工標(biāo)注語句與生成語句間的公共子序列長度進(jìn)行計(jì)算,未考慮生成語句與人工標(biāo)注語句之間的語句關(guān)聯(lián)度.
(3) CIDEr-D指標(biāo)[19].主要思想是將每個(gè)句子都看作“文檔”,將其表示成 TF-IDF向量的形式來計(jì)算每個(gè)n元組的權(quán)重,將句子表示成向量形式,每個(gè)人工標(biāo)注語句和待評價(jià)語句之間通過TF-IDF向量的余弦距離來度量其相似性,在n元組的計(jì)算過程中同時(shí)考慮了精度與召回率,提高了以往計(jì)算指標(biāo)在度量共識方面的準(zhǔn)確性.當(dāng)單一生成語句與多個(gè)人工標(biāo)注語句計(jì)算評分時(shí),CIDEr-D最終取值為生成語句與各人工標(biāo)注語句 CIDEr-D評分中的最高分.該指標(biāo)常用于圖像描述的語句評價(jià),取值越大,說明生成語句與人工標(biāo)注語句相似度越高.
(4) GRAO指標(biāo)[100].主要思想是先用單一性能指標(biāo)對源于不同描述生成算法得到的語句給出評分,再對這些評分結(jié)果進(jìn)行帶權(quán)值的灰色關(guān)聯(lián)分析,實(shí)現(xiàn)對各種描述生成算法的性能優(yōu)劣排序.該評價(jià)指標(biāo)的特點(diǎn)在于把人們主觀評價(jià)時(shí)的先驗(yàn)知識映射為權(quán)值,與多個(gè)客觀評價(jià)指標(biāo)相結(jié)合進(jìn)行綜合性能評價(jià).不足在于,其計(jì)算結(jié)果依賴于各單一指標(biāo)的取值.
基于n元組匹配的度量指標(biāo)在“因單詞不同而語義相同”或“句子中的n元組相同但語義不同”兩類場景描述語句評價(jià)時(shí),結(jié)果往往與人類感知不符,難以合理地度量和反映視覺場景內(nèi)容生成的形式多變的語句與內(nèi)容的一致性,嚴(yán)重時(shí)可能會得到與人類感知相反的結(jié)果.為解決此類問題,研究人員提出了基于語義信息匹配的度量指標(biāo)[6].
(1) WMD指標(biāo)[98].主要思想是在計(jì)算人工標(biāo)注語句與生成語句的相似度時(shí),把其中一個(gè)語句的多個(gè)單詞映射到多個(gè)隱層向量里,分別計(jì)算各單詞間的距離,再通過加上單詞的權(quán)重來計(jì)算兩個(gè)語句間的距離.該指標(biāo)取值越大,說明生成語句與人工標(biāo)注語句的相似度越低.
(2) METEOR指標(biāo)[96].將“準(zhǔn)確匹配的單詞”擴(kuò)展到基于WordNet同義詞庫或“Stemmed Tokens”的“語義相似單詞”,計(jì)算最佳生成語句與人工標(biāo)注語句之間的精度與召回率的調(diào)和均值.當(dāng)單一生成語句與多個(gè)人工標(biāo)注語句計(jì)算評分時(shí),METEOR最終取值為生成語句與各人工標(biāo)注語句 METEOR評分中的最高分.該指標(biāo)考慮了人工標(biāo)注語句與生成語句的單詞或詞組的前后順序,但因其依賴語句間n元組的相似性,無法評估待評價(jià)語句的語義相關(guān)度.該指標(biāo)取值越大,說明生成語句與人工標(biāo)注語句相似度越高.
(3) ATEC指標(biāo)[97].將選擇的單詞及其語序視為句子表達(dá)中的兩個(gè)關(guān)鍵要素,根據(jù)多匹配模板和單詞信息量化評價(jià)選擇的單詞,通過對單詞的位置距離及詞序的差異性評價(jià)單詞的語序,并通過訓(xùn)練的方式來確定兩者的最佳權(quán)重.該指標(biāo)取值越大,說明生成語句與人工標(biāo)注語句相似度越高.
(4) SPICE指標(biāo)[99].考慮了同義詞現(xiàn)象,并運(yùn)用WordNet模塊的Synset功能來進(jìn)行同義詞合并與匹配.該指標(biāo)計(jì)算語句間的單詞相似度,也參考了語句間的關(guān)聯(lián)度,與人類判斷有很好的相關(guān)性,其不足在于未參考句子的句法結(jié)構(gòu),仍依賴n元組的匹配情況.該指標(biāo)取值越大,說明生成語句與人工標(biāo)注語句相似度越高.
(5) SM LSTM指標(biāo)[9].主要思想是用全局“視覺-語義”相似度度量圖像和句子之間的匹配關(guān)系.全局相似性可看作由圖像(對象)和語句(詞)成對實(shí)例之間的多個(gè)局部相似性的復(fù)合聚集.因此,Huang等人(2016年)提出了一個(gè)選擇性多模態(tài)的長短時(shí)記憶網(wǎng)絡(luò),用來計(jì)算圖像和句子間的匹配程度.
綜上所述,人們提出了很多客觀指標(biāo)或評價(jià)方法來判斷視覺場景描述方法的性能優(yōu)劣.但是,合理、有效、快速地評價(jià)視覺場景描述結(jié)果仍然充滿挑戰(zhàn),主要原因包括:
① 用不同方法或模型對同一場景進(jìn)行描述時(shí),場景內(nèi)容與生成語句之間的關(guān)系為“一對多”映射,即生成語句具有非唯一性.
② 同一場景或視頻序列的生成描述已經(jīng)可以由一個(gè)語句擴(kuò)展到多個(gè)語句組成的一段語句.但是,如何用現(xiàn)有數(shù)據(jù)集提供的一個(gè)人工標(biāo)注語句去匹配若干語句形成的段落還有待進(jìn)一步研究.
③ 人類語言表達(dá)方式的多樣性使得即使在語義相同的情況下,對同一場景的描述語句也會千差萬別.例如,生成語句和人工標(biāo)注語句之間由于表述問題可能存在主謂倒裝、一義多詞的現(xiàn)象,這使得生成語句與人工標(biāo)注語句間的主、謂、賓匹配變得更加復(fù)雜,因此有必要研究基于語義的性能評價(jià)指標(biāo).
④ 已有文獻(xiàn)表明,注意力機(jī)制、概念(屬性)等策略可以用來有效提升語句的描述能力,但是現(xiàn)有的評價(jià)指標(biāo)并不支持基于感興趣區(qū)域或關(guān)注對象的描述效果評價(jià).
盡管視覺場景描述的研究得到了國內(nèi)外計(jì)算機(jī)視覺、自然語言處理、多媒體等相關(guān)領(lǐng)域研究人員的普遍重視,但其真正走向?qū)嶋H應(yīng)用還有很多關(guān)鍵問題需要解決,包括:
(1) 從場景描述內(nèi)容角度來看,現(xiàn)階段最先進(jìn)的視覺場景描述模型都是有監(jiān)督方法,即公開的基準(zhǔn)數(shù)據(jù)集提供了人工標(biāo)注語句作為理想輸出,而實(shí)際應(yīng)用中的場景數(shù)據(jù)往往是特定場合的,如記錄公安偵查過程、描述學(xué)生課堂行為等.這些特殊應(yīng)用中的詞匯往往不能被現(xiàn)有公開基準(zhǔn)數(shù)據(jù)集所涵蓋,因此沒有現(xiàn)成的語句可供參考,無法生成符合真實(shí)場景的詞匯和描述語句.
(2) 從描述準(zhǔn)確性的角度來看,生成語句的精細(xì)度取決于訓(xùn)練階段和驗(yàn)證階段選用的訓(xùn)練樣本和驗(yàn)證樣本的人工標(biāo)注語句的精細(xì)程度.現(xiàn)實(shí)中的視覺場景可能千變?nèi)f化、轉(zhuǎn)瞬即逝,是否能夠準(zhǔn)確地捕捉到各個(gè)事件及其起止時(shí)間,給出相應(yīng)細(xì)微變化的內(nèi)容描述非常困難,如人臉微表情變化的判斷與精細(xì)描述.
(3) 從場景描述的時(shí)長角度來看,現(xiàn)有基準(zhǔn)數(shù)據(jù)集提供的視頻多是幾秒或幾分鐘的短視頻,而在實(shí)際應(yīng)用中,各類視頻文件歷時(shí)較長,需要能夠支撐更長序列預(yù)測的模型來完成,例如在標(biāo)準(zhǔn)化考試場景中,潛在的作弊行為的關(guān)注需要持續(xù)更長時(shí)間才能捕獲有用信息,這不僅涉及由短時(shí)間視頻向長時(shí)間視頻方法轉(zhuǎn)換的問題,而且還包括了“微弱動(dòng)作”的時(shí)序檢測等問題.
(4) 從場景描述的語言呈現(xiàn)角度來看,絕大多數(shù)基準(zhǔn)數(shù)據(jù)集提供的人工標(biāo)注是英文的,少數(shù)有其他語言的標(biāo)注.盡管從技術(shù)環(huán)節(jié)來看,不同語言的描述轉(zhuǎn)換可以通過機(jī)器翻譯的手段完成,但是不同語言間的轉(zhuǎn)換結(jié)果受各國文化背景、生活習(xí)俗及表達(dá)風(fēng)格等因素的影響.
(5) 從場景載體的質(zhì)量角度來看,真實(shí)應(yīng)用中的實(shí)際場景與訓(xùn)練樣本集中圖像、視頻的質(zhì)量匹配情況,以及訓(xùn)練資源的豐富程度(數(shù)量、質(zhì)量)是決定描述語句質(zhì)量的關(guān)鍵因素.此外,場景載體文件的低分辨率、低對比度、復(fù)雜背景和其中可能存在的不同方向、樣式、顏色、對齊方式的文字信息也使場景內(nèi)容的理解與描述變得復(fù)雜.
(6) 從視覺場景描述的多學(xué)科交叉角度來看,根據(jù)第1.2節(jié)和第2節(jié),現(xiàn)有的場景描述技術(shù)與場景圖、視覺關(guān)系檢測、指示表達(dá)生成等相關(guān)技術(shù)的最新結(jié)果并未被充分應(yīng)用在改善視覺場景描述語句的生成質(zhì)量上.如何以管道(pipeline)方式將其集成在場景描述模型中,以及如何優(yōu)化和完善深度網(wǎng)絡(luò)的體系結(jié)構(gòu),使之能夠以更少的參數(shù)、更小的內(nèi)存,更快地加以訓(xùn)練,是未來值得深入研究的又一問題.
視覺場景描述技術(shù)利用計(jì)算機(jī)模仿人眼的“視覺功能”和大腦的“語言功能”,以自然語言的形式自動(dòng)描述視覺場景內(nèi)容,有效連接了視覺信息和語言信息,是集計(jì)算機(jī)視覺、人工智能、多媒體、自然語言處理等領(lǐng)域的交叉性研究課題.隨著更多特定場景數(shù)據(jù)集的出現(xiàn),我們相信,該技術(shù)在未來 10年內(nèi)會在許多行業(yè)和領(lǐng)域中有力地推動(dòng)視頻內(nèi)容分析與理解的研究進(jìn)程,并加速跨模態(tài)檢索、視覺問答技術(shù)相關(guān)應(yīng)用的發(fā)展,具有重要的應(yīng)用價(jià)值,例如:
(1) 個(gè)性化教育中的學(xué)生行為分析:各類視頻監(jiān)控系統(tǒng)為代表的現(xiàn)代化教育設(shè)施迅速普及到傳統(tǒng)教室、圖書館、報(bào)告廳、標(biāo)準(zhǔn)化考場等,由此產(chǎn)生了海量的與學(xué)習(xí)者行為、活動(dòng)及狀態(tài)相關(guān)的學(xué)習(xí)場景原始數(shù)據(jù).通過視覺場景描述技術(shù)可將這些海量數(shù)據(jù)轉(zhuǎn)換為文字表達(dá)的描述語句,利用跨模態(tài)檢索技術(shù)準(zhǔn)確地捕獲學(xué)習(xí)者的個(gè)性化特征并綜合分析不同學(xué)習(xí)者的共性特征,進(jìn)而提供有針對性的評估、引導(dǎo)與干預(yù).例如,在智慧課堂教學(xué)中,利用計(jì)算機(jī)實(shí)時(shí)分析統(tǒng)計(jì)學(xué)生行為,幫助老師及時(shí)掌握學(xué)生的學(xué)習(xí)特征和狀態(tài);在軍訓(xùn)等集體活動(dòng)中,預(yù)判學(xué)生可能發(fā)生的危險(xiǎn)行為,提高安全防范能力;在中小學(xué)生課堂紀(jì)律維持方面,通過行為分析對學(xué)生的不良行為予以及時(shí)警告,避免其因課堂注意力不集中而導(dǎo)致學(xué)業(yè)警示等.
(2) 智能服務(wù)中的人機(jī)交互應(yīng)用:有效的人機(jī)交互在任何服務(wù)型機(jī)器人應(yīng)用中都至關(guān)重要.視覺場景描述技術(shù)提供了人機(jī)交互的自然語言交互接口.通過該技術(shù),智能機(jī)器人能夠以人類易于理解的自然語言方式來實(shí)現(xiàn)視覺場景內(nèi)容信息的表達(dá).另一方面,視頻場景內(nèi)容的自然語言描述也可以作為機(jī)器人內(nèi)部場景的表現(xiàn)形式,為基于自然語言問答的智能環(huán)境感知提供了良好基礎(chǔ)[76].使這些機(jī)器人可以像人一樣有“感情”地進(jìn)行語言表達(dá),提供高質(zhì)量的服務(wù)和陪伴是未來的研究重點(diǎn)之一.
(3) 視力障礙人員的輔助視聽:該類應(yīng)用旨在對人類活動(dòng)場所中的視覺感知物體進(jìn)行檢測、識別、分析和判斷,并給視力障礙人員予以提示,以輔助視力障礙人員順利完成行為活動(dòng).其中,如何有效地將感知到的信息正確地傳遞給視力障礙人員是輔助視聽?wèi)?yīng)用技術(shù)的關(guān)鍵問題之一.如何快速、有效地感知人類活動(dòng)場景中與活動(dòng)相關(guān)的環(huán)境信息,通過視覺問答,并以友好的方式將相關(guān)信息傳遞給視力障礙人員是視覺場景描述應(yīng)用中需解決的重要問題.