国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像描述生成研究進(jìn)展

2021-09-13 01:54李志欣魏海洋張燦龍馬慧芳史忠植
關(guān)鍵詞:解碼器編碼器語句

李志欣 魏海洋 張燦龍 馬慧芳 史忠植

1(廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室(廣西師范大學(xué)) 廣西桂林 541004) 2(西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 蘭州 730070) 3(中國科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院計(jì)算技術(shù)研究所) 北京 100190)

隨著互聯(lián)網(wǎng)與信息技術(shù)的發(fā)展,多媒體數(shù)據(jù)呈現(xiàn)爆炸性增長的趨勢,從各種信息源(如網(wǎng)絡(luò)、新聞、相機(jī)等)上可獲得的圖像數(shù)據(jù)越來越多.由于圖像數(shù)據(jù)具有海量特性和非結(jié)構(gòu)化特性,如何快速有效地組織、存儲(chǔ)和檢索圖像,成為重要的研究課題,而完備的圖像語義理解則是其中的關(guān)鍵問題[1].盡管從信息源上獲取的大多數(shù)圖像并沒有對應(yīng)的語義描述,但人類仍然能夠在很大程度上理解它們.也就是說,人類很容易就能完成涉及復(fù)雜視覺識(shí)別以及場景理解的各種任務(wù)、涉及自然語言交流的各種任務(wù)以及2種模態(tài)之間的轉(zhuǎn)換任務(wù).例如,只需快速瀏覽圖像就足以讓人指出并描述關(guān)于視覺場景的大量細(xì)節(jié),而這對于機(jī)器來說目前仍然是難以完成的任務(wù).為了實(shí)現(xiàn)圖像數(shù)據(jù)的結(jié)構(gòu)化和半結(jié)構(gòu)化,從語義上更完備地理解圖像數(shù)據(jù),從而進(jìn)一步研究更符合人類感知的視覺智能,迫切需要機(jī)器能夠?yàn)榻o定圖像自動(dòng)地生成自然語言描述.

計(jì)算機(jī)視覺研究如何理解圖像和視頻,而自然語言處理研究如何分析和生成文本.盡管這2個(gè)領(lǐng)域的研究都采用類似的人工智能和機(jī)器學(xué)習(xí)方法,但在很長一段時(shí)間里它們都是各自發(fā)展而很少交叉.近幾年,結(jié)合視覺和語言的跨模態(tài)問題受到了廣泛關(guān)注.事實(shí)上,許多日常生活中的任務(wù)都具有這種跨模態(tài)的特性.例如,看報(bào)紙時(shí)解釋圖片的上下文信息,聽報(bào)告時(shí)為理解講話而搭配圖表,網(wǎng)頁上提供大量結(jié)合視覺信息和自然語言的數(shù)據(jù)(帶標(biāo)簽的照片、新聞里的圖片視頻、具有多模態(tài)性質(zhì)的社交媒體)等.為完成結(jié)合視覺和語言的任務(wù)并充分利用多模態(tài)數(shù)據(jù),計(jì)算機(jī)視覺和自然語言處理2個(gè)領(lǐng)域的聯(lián)系越來越緊密.

在這個(gè)新的視覺和語言交叉的研究領(lǐng)域中,圖像描述生成是個(gè)重要的任務(wù),該任務(wù)包括獲取圖像信息、分析其視覺內(nèi)容、生成文本描述以說明圖像中的顯著物體和行為等步驟[2-5].圖1給出了4個(gè)根據(jù)圖像內(nèi)容生成描述語句的實(shí)例.

Fig.1 Examples of image captioning圖1 圖像描述生成實(shí)例

從計(jì)算機(jī)視覺的角度來看,圖像描述生成是個(gè)重大的挑戰(zhàn),因?yàn)槊枋隹赡苌婕皥D像的各個(gè)方面——可能是關(guān)于圖像中的物體及其屬性,也可能是關(guān)于場景的特性或者是場景中人和物體的交互行為.而更具挑戰(zhàn)性的是,描述還可能指出圖像中沒有的物體(如等待中的火車)或提供不能直接從圖像推出的背景知識(shí)(如畫作中的蒙娜麗莎).總之,好的圖像描述不僅需要有完備的圖像理解,還需要綜合而精煉的表達(dá),因而圖像描述生成任務(wù)對于計(jì)算機(jī)視覺系統(tǒng)是個(gè)良好的測試.傳統(tǒng)的視覺任務(wù)(如物體檢測[6]或圖像自動(dòng)標(biāo)注[7])都是在有限個(gè)類別上測試檢測器或分類器的精確率.相比之下,圖像描述生成任務(wù)更具綜合性.另一方面,從自然語言處理的角度來看,該任務(wù)是個(gè)自然語言生成的問題,需要將1個(gè)非語言的表示轉(zhuǎn)換成1個(gè)可讀的文本.一般來說,非語言表示是1個(gè)邏輯形式、1個(gè)數(shù)據(jù)庫查詢或是1串?dāng)?shù)字,而圖像輸入通常轉(zhuǎn)換為1個(gè)中間表示向量(如深度特征表示),需要語言模型將之轉(zhuǎn)換成1個(gè)語句.

圖像描述生成任務(wù)結(jié)合了計(jì)算機(jī)視覺和自然語言處理2個(gè)研究領(lǐng)域,不僅要求完備的圖像語義理解,還要求復(fù)雜的符合人類感知的自然語言表達(dá),具備重要的理論意義和應(yīng)用前景[2-5].在理論上,圖像描述生成的研究將促進(jìn)計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的發(fā)展.通過構(gòu)建新的計(jì)算模型與計(jì)算方法,提高計(jì)算機(jī)對非結(jié)構(gòu)化信息的理解能力和對海量信息的處理效率,從而為人工智能和認(rèn)知科學(xué)的發(fā)展作貢獻(xiàn).此外,圖像描述生成還具有廣闊的應(yīng)用前景.首先,圖像描述生成技術(shù)可以應(yīng)用于自動(dòng)圖像索引,這對于提升圖像檢索的效果和效率具有重大意義,因而圖像描述生成可以應(yīng)用于圖像檢索的多個(gè)應(yīng)用領(lǐng)域,包括醫(yī)療、商業(yè)、軍事、教育、數(shù)字圖書館等;其次,圖像描述生成技術(shù)可以幫助社交媒體平臺(tái)(如Facebook,Twitter等)為圖像生成自然語言描述,包括我們在哪里、穿什么和干什么等重要信息,可以直接幫助和指導(dǎo)我們的日常生活;最后,圖像描述生成技術(shù)還可以在機(jī)器人交互、學(xué)前教育和視覺障礙輔助等應(yīng)用領(lǐng)域起到關(guān)鍵的作用.

1 關(guān)鍵技術(shù)

圖像描述生成的目標(biāo)是:給定1幅圖像,根據(jù)圖像內(nèi)容生成語法正確語義合理的語句.顯然,圖像描述生成涉及2個(gè)基本問題——視覺理解和語言處理.為了保證生成描述語句在語法和語義上的正確性和合理性,需要利用計(jì)算機(jī)視覺和自然語言處理技術(shù)分別處理不同模態(tài)的數(shù)據(jù)并做適當(dāng)?shù)募?

近年來,深度學(xué)習(xí)技術(shù)得到迅速發(fā)展,并成功應(yīng)用于計(jì)算機(jī)視覺和自然語言處理相關(guān)領(lǐng)域.圖像描述生成的研究在經(jīng)歷了早期基于模板的方法和基于檢索的方法之后,大多數(shù)方法都是基于深度學(xué)習(xí)技術(shù)構(gòu)建,并在性能上取得了顯著的提升[4].基于深度學(xué)習(xí)的圖像描述生成方法涉及的關(guān)鍵技術(shù)主要包括整體架構(gòu)、學(xué)習(xí)策略、特征映射、語言模型和注意機(jī)制5個(gè)方面,如圖2所示:

Fig.2 Key technologies of image captioning圖2 圖像描述生成關(guān)鍵技術(shù)

1.1 整體架構(gòu)

從整體架構(gòu)上看,當(dāng)前主流的基于深度學(xué)習(xí)技術(shù)的圖像描述生成方法大都基于編碼器-解碼器架構(gòu)或復(fù)合架構(gòu)來構(gòu)建學(xué)習(xí)模型.

基于深度學(xué)習(xí)技術(shù)構(gòu)建的圖像描述生成方法大部分采用端到端的工作方式,這與基于編碼器-解碼器架構(gòu)的神經(jīng)機(jī)器翻譯方法[8]非常相似.受到這個(gè)思路的啟發(fā),可以將圖像描述生成看作一個(gè)序列到序列的翻譯問題,輸入是圖像,而輸出是自然語言,并利用編碼器-解碼器架構(gòu)完成圖像理解和語言生成的任務(wù).這種架構(gòu)在性能上取得了重要進(jìn)展,成為當(dāng)前圖像描述生成方法的主流通用架構(gòu).在編碼器-解碼器架構(gòu)中,編碼器通常采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[9-10]提取圖像特征,而解碼器通常采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[11]生成自然語言描述.

基于復(fù)合架構(gòu)的圖像描述生成方法利用概念檢測模型(如物體檢測模型、圖像自動(dòng)標(biāo)注模型等)獲取圖像中不同粒度的語義概念[12](包括物體名、標(biāo)注、短語等形式),再利用并列語言模型或者分層語言模型代替解碼器生成描述語句.這類方法通常由幾個(gè)功能獨(dú)立的部件組成,各個(gè)部件被集成到管道中,為輸入圖像生成自然語言描述.

1.2 學(xué)習(xí)策略

圖像描述生成的學(xué)習(xí)策略包括有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí).

在有監(jiān)督學(xué)習(xí)中,使用的訓(xùn)練數(shù)據(jù)伴隨著期望輸出的標(biāo)簽,通常能夠獲得較高的精確率.由于圖像描述生成的基準(zhǔn)數(shù)據(jù)集中每幅圖像都有對應(yīng)的多條語句或多個(gè)語義標(biāo)簽,因而絕大多數(shù)圖像描述生成方法都采用了有監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練.其中應(yīng)用特別廣泛的包括各種基于有監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)模型:CNN模型成功應(yīng)用于圖像分類等視覺任務(wù),從AlexNet[13],VGG16[14]到ResNet[15]性能逐步提升;基于區(qū)域建議的物體檢測模型能夠自動(dòng)提取原始圖像中的候選區(qū)域,從R-CNN(region CNN)[16],F(xiàn)ast R-CNN[17],F(xiàn)aster R-CNN[18]到R-FCN(region-based fully convolutional networks)[19],在精確率和效率方面取得了很大的提升;RNN模型在自然語言生成方面取得成功,特別是經(jīng)過改進(jìn)的長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[20]和門控循環(huán)單元(gated recurrent unit,GRU)[21]等.這些有監(jiān)督學(xué)習(xí)方法都可以嵌入到當(dāng)前主流的編碼器-解碼器的架構(gòu)中,作為編碼器或解碼器的組成部分,完成圖像描述生成過程中的基本功能.然而,由于圖像內(nèi)容的復(fù)雜性,精確地標(biāo)注圖像數(shù)據(jù)常常是不切實(shí)際的,因而難以獲得成對的圖像-語句訓(xùn)練數(shù)據(jù).而無標(biāo)簽的圖像數(shù)據(jù)日益增長,這就需要利用無監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)來輔助和改進(jìn)圖像描述生成方法.

在無監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的標(biāo)簽是未知的,需要通過學(xué)習(xí)算法揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律.無監(jiān)督學(xué)習(xí)方法經(jīng)常用于對圖像或文本進(jìn)行預(yù)處理,主要包括:各種聚類方法,如K均值聚類、高斯混合聚類等;各種降維方法,如主成分分析、多維縮放等;一些用于文檔分析的概率模型,如概率潛在語義分析模型[22]和潛在狄利克雷分布(latent Dirichlet allo-cation,LDA)模型[23]等.此外,生成對抗網(wǎng)絡(luò)(gen-erative adversarial network,GAN)[24]是在圖像描述生成中應(yīng)用最廣泛的無監(jiān)督學(xué)習(xí)技術(shù).基于GAN的方法可以從無標(biāo)簽的數(shù)據(jù)中學(xué)習(xí),通過在生成器和判別器之間的競爭過程來獲得數(shù)據(jù)的深度特征表示.利用GAN也能對有限的數(shù)據(jù)集進(jìn)行擴(kuò)充,進(jìn)而提升系統(tǒng)性能.然而,GAN的應(yīng)用存在2個(gè)重要問題:首先,因?yàn)閳D像上像素值是連續(xù)的,GAN可以直接通過反向傳播算法來進(jìn)行訓(xùn)練.然而,文本處理是基于離散的數(shù)據(jù),這種操作是不可微的,因此很難直接應(yīng)用反向傳播算法學(xué)習(xí).其次,評估器在序列生成中面臨著梯度消失和誤差傳播的問題.對于這些問題,一般需要借助強(qiáng)化學(xué)習(xí)方法來進(jìn)行梯度傳導(dǎo).

強(qiáng)化學(xué)習(xí)[25]方法由智能體、狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)、策略和值等參數(shù)設(shè)計(jì).智能體選擇1個(gè)動(dòng)作,接收獎(jiǎng)勵(lì)值,并移動(dòng)到新狀態(tài).策略由動(dòng)作定義,值由獎(jiǎng)勵(lì)函數(shù)定義.智能體試圖選擇具有最大長期回報(bào)的動(dòng)作,它需要連續(xù)的狀態(tài)和動(dòng)作信息來提供獎(jiǎng)勵(lì)函數(shù)的保證.典型的基于強(qiáng)化學(xué)習(xí)的圖像描述生成方法包含2個(gè)網(wǎng)絡(luò):策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),分別被稱為行動(dòng)者和評論者.評論者(價(jià)值網(wǎng)絡(luò))可以用來估計(jì)預(yù)期的未來獎(jiǎng)勵(lì),以訓(xùn)練行動(dòng)者(策略網(wǎng)絡(luò)).現(xiàn)有的圖像描述生成方法存在“暴露偏差”[26]和評估指標(biāo)不可微的問題.基于強(qiáng)化學(xué)習(xí)的訓(xùn)練方法一方面緩解了“暴露偏差”的問題,另一方面它直接在評估指標(biāo)上優(yōu)化語句的生成,從而使模型在訓(xùn)練目標(biāo)和測試評估上也保持一致.因此,基于強(qiáng)化學(xué)習(xí)的模型優(yōu)化是生成高質(zhì)量圖像描述的重要保證.

1.3 特征映射

對于圖像描述生成任務(wù)而言,將圖像或文本的內(nèi)容映射到特征空間是最基本的問題.圖像描述生成方法常用的特征空間包括多模態(tài)空間、視覺空間和語義空間,并在此基礎(chǔ)上生成自然語言描述.將圖像和文本的內(nèi)容映射到多模態(tài)空間需要集成隱式的映射方法和語言模型,將圖像內(nèi)容映射到視覺空間通?;陲@式的映射方法,而將圖像內(nèi)容映射到語義空間則通常需要在視覺空間的基礎(chǔ)上加入概念檢測的部件形成復(fù)合映射方法.

由于在圖像描述數(shù)據(jù)集中包含圖像和相應(yīng)的描述文本,在基于多模態(tài)空間的方法中,編碼器是同時(shí)從圖像和描述文本中學(xué)習(xí)得到公共的多模態(tài)空間,然后將這個(gè)多模態(tài)表示傳遞給語言解碼器.學(xué)習(xí)得到多模態(tài)空間的方法多種多樣,比如可以直接通過加權(quán)融合視覺特征和文本特征,或者在融合的基礎(chǔ)上進(jìn)一步利用各種降維方法學(xué)習(xí)得到潛在的語義空間.

將圖像內(nèi)容映射到視覺空間是圖像描述生成的主流方法.在基于視覺空間的方法中,圖像特征和相應(yīng)的描述文本分別獨(dú)立地傳遞給語言解碼器.早期的方法通常是先提取圖像的各種關(guān)鍵手工特征(如顏色、紋理、空間關(guān)系等特征),然后再利用特征選擇算法將多種手工特征融合為統(tǒng)一的視覺空間.而當(dāng)前的方法普遍采用預(yù)訓(xùn)練的CNN模型或物體檢測模型直接提取圖像特征來構(gòu)造視覺空間.

由于通常僅使用CNN模型提取圖像特征構(gòu)造視覺空間,所以只能從某個(gè)特定的角度描述圖像內(nèi)容,這使得輸入圖像的語義不能被全面理解,從而也限制了圖像描述的性能.因此,另一種可選的方法是在獲取視覺空間表示的基礎(chǔ)上構(gòu)建語義空間,全面描述圖像中的物體、屬性關(guān)系等各種語義要素,再將各個(gè)要素進(jìn)行融合表示成語義屬性向量輸入解碼器生成描述語句.

1.4 語言模型

一般來說,自然語言生成可以看作序列到序列的學(xué)習(xí)任務(wù).為完成這個(gè)任務(wù),研究者提出了多種神經(jīng)語言模型,如RNN模型[11]、神經(jīng)概率語言模型[27]和對數(shù)雙線性模型[28]等.

RNN在各種序列學(xué)習(xí)任務(wù)中被廣泛應(yīng)用,但存在梯度消失和梯度爆炸的問題,且不能充分處理長期時(shí)序依賴問題.為此,LSTM[20]對RNN加以改進(jìn),可以解決RNN無法處理的長期時(shí)序依賴問題,也緩解了RNN容易出現(xiàn)的梯度消失問題.原始的RNN隱藏層只有1個(gè)單一的tanh層,輸出1個(gè)狀態(tài)h,它對于短期的輸入非常敏感.LSTM在RNN的基礎(chǔ)上增加了1個(gè)單元狀態(tài)c,可以保存長期的狀態(tài).同時(shí),LSTM使用了4個(gè)相互作用的層,其內(nèi)部結(jié)構(gòu)如圖3所示:

Fig.3 Basic structure of LSTM圖3 LSTM基本結(jié)構(gòu)

LSTM的關(guān)鍵在于穿越單元的數(shù)據(jù)傳送線,它使得單元狀態(tài)c的傳輸能夠快速通過,從而實(shí)現(xiàn)長期的記憶保留.LSTM使用的3個(gè)門(遺忘門、輸入門和輸出門)結(jié)構(gòu)可以選擇性地讓信息通過,從而實(shí)現(xiàn)信息的保護(hù)和控制.LSTM可用1組公式表示為:

it=σ(Wixxt+Wihht-1),
ft=σ(Wfxxt+Wfhht-1),
ot=σ(Woxxt+Wohht-1),
ct=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1),
ht=ot⊙tanh(ct),

(1)

其中,σ是sigmoid函數(shù);c是記憶單元,用于存儲(chǔ)和更新記憶信息,由上一時(shí)刻保留的記憶和當(dāng)前時(shí)刻納入的記憶共同組成.f是遺忘門,它決定了上一時(shí)刻記憶單元中有多少信息可以保留到當(dāng)前時(shí)刻;i是輸入門,它決定了當(dāng)前時(shí)刻的輸入信息有多少可以納入到記憶單元中;o是輸出門,用來控制記憶單元在當(dāng)前時(shí)刻的輸出,即輸出當(dāng)前時(shí)刻的隱狀態(tài)ht.3個(gè)控制門都是通過當(dāng)前時(shí)刻輸入的信息和上一時(shí)刻LSTM的隱狀態(tài)來進(jìn)行計(jì)算(這里為簡單起見省略了偏置量).

在圖像描述生成的任務(wù)中,LSTM占據(jù)壓倒性的重要地位.它通常用作解碼器,將編碼器得到的中間向量解碼為單詞序列Y=(y1,y2,…,yT),其中yi∈D是預(yù)測生成的單詞,D是包含所有單詞的詞典,T是語句的最大長度.單詞由詞嵌入向量表示,每個(gè)語句的開頭用1個(gè)特殊的開始標(biāo)記〈start〉,結(jié)尾用1個(gè)特殊的結(jié)束標(biāo)記〈end〉.在模型解碼過程中,上一時(shí)間步生成的單詞會(huì)被反饋到LSTM中,結(jié)合注意機(jī)制,生成當(dāng)前時(shí)間步LSTM的隱狀態(tài)ht,然后根據(jù)ht預(yù)測生成當(dāng)前單詞yt.

GRU[21]是與LSTM類似的語言模型,它不使用單獨(dú)的存儲(chǔ)單元,并且使用較少的門來控制信息流.從結(jié)構(gòu)上看,GRU只有更新門和重置門2個(gè)門,把LSTM中的遺忘門和輸入門用更新門來替代,并把單元狀態(tài)和隱狀態(tài)進(jìn)行合并,在計(jì)算當(dāng)前時(shí)刻新信息的方法和LSTM有所不同.從某些任務(wù)的表現(xiàn)上看,GRU與LSTM獲得的性能大致相當(dāng),但計(jì)算效率更高.因此,GRU既保持了LSTM的效果,又具有更加簡單的結(jié)構(gòu)和更少的參數(shù),也更容易收斂.但是,GRU并不能取代LSTM,因?yàn)長STM在數(shù)據(jù)集很大的情況下表達(dá)效果更好.在圖像描述生成的任務(wù)中,要處理的數(shù)據(jù)量日益增大,LSTM的應(yīng)用還是要比GRU廣泛得多.

此外,LSTM忽略了語句潛在的層次結(jié)構(gòu),并需要大量的存儲(chǔ)空間.相比之下,CNN可以學(xué)習(xí)語句的內(nèi)部層次結(jié)構(gòu),并且處理速度比LSTM快.因此,CNN也被用于序列學(xué)習(xí)任務(wù),如條件圖像生成[29]和機(jī)器翻譯[30]等.

1.5 注意機(jī)制

視覺注意機(jī)制[31]是靈長類和人類視覺系統(tǒng)中的重要機(jī)制,本質(zhì)上是個(gè)反饋過程.它有選擇地將視覺皮層的早期表達(dá)映射到更突出中心的非拓?fù)浔磉_(dá),其中只包含場景中特定區(qū)域或物體的屬性.這種選擇性映射允許大腦在低層圖像屬性的指導(dǎo)下,將計(jì)算資源集中在某個(gè)物體上.機(jī)器注意機(jī)制也是模仿人類的這一能力最初在計(jì)算機(jī)視覺領(lǐng)域提出,后來被應(yīng)用于機(jī)器翻譯等任務(wù),主要與編碼器-解碼器架構(gòu)相結(jié)合來使用,目前已應(yīng)用于人工智能的各個(gè)領(lǐng)域.

在最初應(yīng)用于機(jī)器翻譯的編碼器-解碼器架構(gòu)中,編碼器讀取具有可變長度的序列輸入,將其編碼為隱狀態(tài),解碼器根據(jù)編碼器的最后1個(gè)隱狀態(tài)來生成輸出序列.但這個(gè)架構(gòu)存在的潛在問題是大量的源信息可能無法通過固定長度的向量(即編碼器最終的隱狀態(tài))來捕獲,特別是在長語句的情況下,這個(gè)問題尤為嚴(yán)重.因此,Bahdanau等人[32]將注意機(jī)制與編碼器-解碼器架構(gòu)結(jié)合,利用注意機(jī)制來對齊源信息和目標(biāo)輸出.源信息中保留了來自編碼器所有時(shí)間步的隱狀態(tài)信息,通過注意機(jī)制來計(jì)算目標(biāo)輸出當(dāng)前所需的源信息,這樣可以使模型能夠“關(guān)注”源信息的特定部分,并更好地建立源信息與目標(biāo)信息之間的聯(lián)系.注意機(jī)制在圖像描述生成的任務(wù)中也起著重要的作用.特別是,人們在描述圖像的過程中并不需要一直關(guān)注整幅圖像的所有信息,而是更傾向于討論圖像中語義上更顯著的區(qū)域和物體.因此,引入注意機(jī)制可以將注意集中在圖像的顯著部分,同時(shí)生成相應(yīng)的單詞.

隨著技術(shù)不斷發(fā)展,出現(xiàn)了各種注意機(jī)制,但其本質(zhì)思想都是對信息進(jìn)行加權(quán)整合,以獲取更重要的信息組成,從而將有限的信息處理資源分配到重要的部分.注意機(jī)制大致可以分為上下文注意機(jī)制和自注意機(jī)制,其主要計(jì)算過程可以表示為

α=softmax(f(Q,K)),

(2)

(3)

其中,Q表示查詢(query),K表示鍵(key),V=(v1,v2,…,vn)表示值(value),通常都表示為矩陣形式,α為權(quán)重系數(shù).函數(shù)f常見的形式包括對應(yīng)元素相乘、相加以及通過感知機(jī)進(jìn)行融合等.首先,式(2)通過函數(shù)f計(jì)算得到Q和K的關(guān)系,并通過softmax函數(shù)對其進(jìn)行歸一化,得到注意權(quán)重分布系數(shù)α;其次,式(3)根據(jù)權(quán)重系數(shù)α對信息V=(v1,v2,…,vn)的所有列向量進(jìn)行加權(quán)計(jì)算得到整合后的向量vatt.

注意機(jī)制計(jì)算過程的核心思想是在輸入序列上引入注意權(quán)重系數(shù)α,優(yōu)先考慮存在相關(guān)信息的位置集,以生成下一個(gè)輸出.將源端中的構(gòu)成元素想象成是由一系列的數(shù)據(jù)對〈K,V〉構(gòu)成,此時(shí)給定某個(gè)元素Q,通過計(jì)算Q和各個(gè)K的相似性或者相關(guān)性,得到每個(gè)K對應(yīng)V的權(quán)重系數(shù),然后對V進(jìn)行加權(quán)求和,即得到了最終的輸出.所以本質(zhì)上注意機(jī)制是對源端中元素V進(jìn)行加權(quán)求和,而Q和K用來計(jì)算對應(yīng)的權(quán)重系數(shù).不同的注意機(jī)制差異主要在于Q,K,V所表示的信息不同.在上下文注意機(jī)制中,K和V一般來自源端信息,Q一般來自目標(biāo)端信息(如在圖像描述生成任務(wù)中K和V一般表示編碼端圖像的空間特征,Q一般表示解碼端的上下文信息),上下文注意機(jī)制通過計(jì)算當(dāng)前目標(biāo)端信息Q和源端信息K的關(guān)系,來對源端信息V進(jìn)行整合得到輸出.而在自注意機(jī)制中,Q,K,V都是來自源端信息,自注意機(jī)制計(jì)算了源端信息本身內(nèi)部存在的依賴關(guān)系,從而可以將信息中的重要部分提取出來,得到關(guān)系化的特征表示.

無論是理論上還是實(shí)踐上,注意機(jī)制在各種計(jì)算機(jī)視覺和自然語言處理任務(wù)中都起到了重要作用,在圖像描述生成任務(wù)中也占據(jù)著重要地位,并顯著提升了系統(tǒng)性能.

2 圖像描述生成方法

圖像描述生成經(jīng)過多年的發(fā)展,研究者提出了大量的方法,對這些方法進(jìn)行分類也存在多種標(biāo)準(zhǔn).這里按照圖像描述生成發(fā)展過程的時(shí)間線對這些方法進(jìn)行劃分,大致可分為四大類:基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構(gòu)的方法和基于復(fù)合架構(gòu)的方法.基于模板的方法和基于檢索的方法是早期的方法[2].前者依賴于硬編碼的語言結(jié)構(gòu),而后者則利用訓(xùn)練集中現(xiàn)成的描述語句,因此它們的共同缺點(diǎn)是不夠靈活,在生成描述的表達(dá)上受到較大的限制.基于編碼器-解碼器架構(gòu)的方法和基于復(fù)合架構(gòu)的方法則是基于深度學(xué)習(xí)的方法[3-4],其中又以基于編碼器-解碼器架構(gòu)的方法更為通用.在深度神經(jīng)網(wǎng)絡(luò)中,CNN等具有強(qiáng)大的圖像特征提取能力,LSTM等具有良好的時(shí)間序列數(shù)據(jù)處理能力,這使得基于深度神經(jīng)網(wǎng)絡(luò)的方法能夠在性能上取得突破,成為當(dāng)前圖像描述生成的主流方法.

2.1 基于模板的方法

基于模板的方法通過對語法和語義的約束過程來生成圖像描述.通常,該方法先檢測出圖像中特定的一系列視覺概念,然后通過語句模板、特定的語法規(guī)則或組合優(yōu)化算法等將這些概念進(jìn)行連接以生成描述語句.

Yang等人[33]利用四元組〈名詞,動(dòng)詞,場景,介詞〉作為生成圖像描述的語句模板.首先使用檢測算法評估圖像中的物體和場景,然后利用語言模型預(yù)測可能用于構(gòu)成描述語句的動(dòng)詞、場景和介詞,并利用隱Markov模型推理得到最佳的四元組,最后通過填充四元組給出的語句結(jié)構(gòu)生成圖像描述.Kulkarni等人[34]用圖結(jié)點(diǎn)分別對應(yīng)物體、屬性及空間關(guān)系等,通過條件隨機(jī)場確定需要呈現(xiàn)在圖像描述中的圖像內(nèi)容,然后基于語句模板將推理的輸出轉(zhuǎn)換成圖像描述.Li等人[35]首先使用視覺模型檢測圖像并提取物體、屬性和空間關(guān)系等語義信息,然后定義三元組〈〈形容詞1,物體1〉,介詞,〈形容詞2,物體2〉〉對識(shí)別的結(jié)果進(jìn)行編碼,并執(zhí)行短語選擇和短語融合,最終得到優(yōu)化的短語集合作為圖像描述.Mitchell等人[36]使用〈物體,動(dòng)作,空間關(guān)系〉的三元組來表示圖像,并根據(jù)視覺識(shí)別結(jié)果將圖像描述視為1棵樹的生成過程:首先通過對物體名詞的聚類和排序,確定要描述的圖像內(nèi)容;然后為物體名詞創(chuàng)建子樹,并進(jìn)一步創(chuàng)建完整的樹;最后,利用Trigram語言模型從生成的完整樹中選擇字符串作為對應(yīng)圖像的描述.Lebret等人[37]提出了軟模板的方法生成圖像描述.該方法首先提取訓(xùn)練語句中的短語并進(jìn)行統(tǒng)計(jì),通過詞向量表示方法將短語表示為高維向量,并使用CNN獲取圖像特征.隨后訓(xùn)練1個(gè)雙線性模型度量圖像特征和短語特征之間的相似度,可以為給定圖像推斷出短語,并在上一階段統(tǒng)計(jì)的基礎(chǔ)上進(jìn)一步生成描述語句.Lu等人[38]提出基于模板生成和填槽的圖像描述生成方法,其主要思想是將生成語句的單詞分為實(shí)體詞與非實(shí)體詞2個(gè)詞表.語句模板由1個(gè)語言模型獲得,其單詞來自非實(shí)體詞表.實(shí)體詞則由物體檢測方法直接從圖像獲得,用于填充語句模板中的空槽,形成1個(gè)語句.這種方法開創(chuàng)性地使用神經(jīng)網(wǎng)絡(luò)來提取語句模板,從而成功解決了傳統(tǒng)的基于模板的方法缺乏多樣性輸入的問題.

基于模板的方法能夠生成語法正確的語句,且與圖像內(nèi)容的相關(guān)性強(qiáng).然而,因?yàn)檫@類方法依賴于視覺模型識(shí)別圖像內(nèi)容的精確性,所以生成的語句在廣泛性、創(chuàng)造性和復(fù)雜性上有缺陷.此外,與人工描述相比,使用嚴(yán)格的模板作為語句結(jié)構(gòu)使得生成的描述不夠自然.

2.2 基于檢索的方法

給定1幅查詢圖像,基于檢索的方法通過從預(yù)先定義的語句集中利用相似度匹配的方法檢索出1個(gè)或1組語句作為該圖像的描述語句.生成的描述語句可以是1個(gè)現(xiàn)有的語句,也可以是1個(gè)由檢索結(jié)果得到的多個(gè)語句組合而成的語句.

Farhadi等人[39]提出基于三元組〈物體,行為,場景〉構(gòu)建語義空間以連接圖像和語句.給定1幅查詢圖像,該方法通過求解Markov隨機(jī)場將給定圖像映射到語義空間,并使用相應(yīng)的相似度度量措施計(jì)算給定圖像與現(xiàn)有語句的距離,將與給定圖像最相似的語句作為相應(yīng)的描述.Ordonez等人[40]首先提取給定查詢圖像的全局特征表示,從帶有描述語句的圖像集中檢索出一系列圖像;然后對檢索得到圖像的語句進(jìn)行重新排序,將排位最靠前的語句作為給定圖像的描述.Hodosh等人[41]利用核典型相關(guān)性分析技術(shù)將圖像和文本投影到公共空間,使得訓(xùn)練圖像與其相應(yīng)的描述相關(guān)性最大.在這個(gè)公共空間中,通過計(jì)算圖像和語句的余弦相似度來選擇排位最靠前的語句作為給定圖像的描述.

文獻(xiàn)[39-41]直接使用檢索得到的語句作為給定查詢圖像的描述,隱含的假設(shè)是總存在1個(gè)語句適合描述給定圖像,然而現(xiàn)實(shí)中此假設(shè)未必正確.于是,另一些基于檢索的方法利用檢索得到的語句進(jìn)行重新組合得到給定圖像的新描述.Gupta等人[42]首先基于給定圖像的全局特征執(zhí)行檢索,然后訓(xùn)練1個(gè)預(yù)測短語相關(guān)性的模型從檢索到的圖像中選擇短語,最后根據(jù)選定的相關(guān)短語生成描述語句.Kuznetsova等人[43]提出了一種基于樹的方法,利用Web圖像來構(gòu)建圖像描述.在進(jìn)行圖像檢索和短語提取后,將提取的短語作為樹片段,將模型描述組合為約束優(yōu)化問題,采用整數(shù)線性規(guī)劃進(jìn)行編碼并求解.

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征逐步代替了早期使用的淺層模型和手工特征.Socher等人[44]使用深度神經(jīng)網(wǎng)絡(luò)從圖像中提取特征,并利用最大化邊緣目標(biāo)函數(shù)將得到的多模態(tài)特征映射到公共空間,最后基于圖像和語句在公共空間中的相似度進(jìn)行語句檢索.Karpathy等人[45]提出了將語句片段和圖像片段嵌入公共空間,以便為給定查詢圖像的相關(guān)語句進(jìn)行排序.該方法使用語句的依賴樹關(guān)系作為語句片段,將區(qū)域CNN檢測圖像得到的結(jié)果作為圖像片段,并設(shè)計(jì)了1個(gè)包括全局排序項(xiàng)和片段對齊項(xiàng)的最大化間隔目標(biāo)的結(jié)構(gòu),將視覺和文本數(shù)據(jù)映射到公共空間.于是,圖像和語句之間的相似度可以基于片段相似度來計(jì)算,使得語句排序可以在更細(xì)的層次上進(jìn)行.Ma等人[46]提出了多模態(tài)CNN框架,包括3種組件:圖像CNN用于編碼視覺數(shù)據(jù),匹配CNN用于視覺和文本數(shù)據(jù)的聯(lián)合表示,多層感知機(jī)用于對視覺和文本數(shù)據(jù)的兼容性進(jìn)行評分.該方法使用匹配CNN的各種變體來解釋圖像與單詞、短語、語句的聯(lián)合表示,最終基于多模態(tài)CNN的集成框架來確定圖像和語句之間的匹配分?jǐn)?shù).

基于檢索的方法能夠?yàn)榻o定的查詢圖像傳送格式良好的語句或短語,以生成圖像描述.雖然生成的語句通常語法正確、流暢,但是將圖像描述約束到已經(jīng)存在的語句中并不能適應(yīng)新的物體或場景的組合.在某些特殊情況下,生成的描述甚至可能與圖像內(nèi)容無關(guān).此外,這類方法的性能依賴于大量帶有描述語句的圖像,也使其應(yīng)用受到很大的限制.

2.3 基于編碼器-解碼器架構(gòu)的方法

在編碼器-解碼器架構(gòu)下,編碼神經(jīng)網(wǎng)絡(luò)(通常采用CNN)首先將原始圖像轉(zhuǎn)換成中間表示(可以是多模態(tài)空間或視覺空間等表示形式),然后解碼神經(jīng)網(wǎng)絡(luò)(通常采用LSTM)將中間表示作為輸入,在注意機(jī)制的引導(dǎo)下,逐詞生成描述語句.其一般過程如圖4所示:

Fig.4 Image captioning based on encoder-decoder architecture圖4 基于編碼器-解碼器架構(gòu)的圖像描述生成

按照各種圖像描述生成方法所重點(diǎn)關(guān)注的關(guān)鍵技術(shù)的不同,基于編碼器-解碼器架構(gòu)的方法可進(jìn)一步分為基于多模態(tài)空間的方法、基于視覺空間的方法、基于語義空間的方法、基于注意機(jī)制的方法和基于模型優(yōu)化的方法五大類.

2.3.1 基于多模態(tài)空間的方法

這類方法在編碼時(shí)利用多個(gè)深度神經(jīng)網(wǎng)絡(luò)(如CNN和LSTM)同時(shí)處理訓(xùn)練圖像的視覺模態(tài)和文本模態(tài)數(shù)據(jù),生成公共空間,即得到訓(xùn)練圖像的多模態(tài)空間表示,然后進(jìn)行解碼生成相應(yīng)的圖像描述.

Kiros等人[47]最早使用編碼器-解碼器架構(gòu)完成圖像描述生成任務(wù).首先將圖像文本聯(lián)合嵌入模型和多模態(tài)神經(jīng)語言模型相結(jié)合,使用CNN和LSTM分別對視覺和文本數(shù)據(jù)進(jìn)行編碼;然后通過最小化對偶排位損失,將編碼的可視數(shù)據(jù)投影到由LSTM隱狀態(tài)所覆蓋的嵌入空間中,得到圖像的多模態(tài)空間表示;最后利用內(nèi)容結(jié)構(gòu)化的神經(jīng)語言模型對多模態(tài)空間表示進(jìn)行解碼,生成描述語句.Karpathy等人[48]提出了一種架構(gòu)更簡單的深度視覺語義對齊模型,其基本思想是假定語句的某些部分對應(yīng)的是圖像中特定的未知區(qū)域.該模型利用圖像區(qū)域CNN、語句雙向RNN和對齊2種模態(tài)的結(jié)構(gòu)化目標(biāo)來推斷語句片段和圖像區(qū)域之間的對齊.文本和圖像區(qū)域被映射到公共的多模態(tài)嵌入空間中,然后利用多模態(tài)RNN推斷出視覺和語義的對齊并生成新的描述語句.Mao等人[49]提出了多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(multimodal RNN,m-RNN),包含2個(gè)子網(wǎng):1個(gè)CNN子網(wǎng)處理圖像和1個(gè)RNN子網(wǎng)生成語句.2個(gè)子網(wǎng)在多模態(tài)層中相互作用構(gòu)成整個(gè)m-RNN模型,以圖像和語句片段作為輸入,計(jì)算生成描述語句下一個(gè)詞的概率分布.Chen等人[50]提出了一種新的基于多模態(tài)空間的方法.一方面,可以從圖像中生成新的描述,從給定的描述中計(jì)算視覺特征,即可以表示圖像及其描述語句之間的雙向映射.另一方面,可以從生成的單詞中動(dòng)態(tài)更新圖像的視覺表示,還設(shè)計(jì)了1個(gè)附加的循環(huán)視覺隱藏層與RNN共同完成反向映射.

2.3.2 基于視覺空間的方法

這類方法在編碼時(shí)通常利用CNN直接處理訓(xùn)練圖像,即得到圖像的視覺空間表示,或者經(jīng)過預(yù)處理得到融合多個(gè)區(qū)域特征的視覺空間表示,然后進(jìn)行解碼生成相應(yīng)的圖像描述.

Vinyals等人[51]提出了神經(jīng)圖像描述生成(neural image caption generator,NIC)方法,使用CNN獲取圖像表示并使用LSTM生成圖像描述.NIC的編碼器CNN使用新方法進(jìn)行批量歸一化,并將CNN最后的隱藏層輸出作為解碼器LSTM的輸入,且LSTM能夠記錄已經(jīng)使用文本描述過的物體.在生成圖像描述時(shí),圖像信息包含在LSTM的初始狀態(tài)中,下一個(gè)詞是根據(jù)當(dāng)前時(shí)間步和上一個(gè)隱狀態(tài)生成的,這個(gè)過程一直持續(xù)到描述語句的結(jié)束標(biāo)記為止.由于圖像信息只在處理過程的開始時(shí)輸入,因此NIC可能面臨消失梯度問題,而且在生成長語句時(shí)仍然存在問題,開始產(chǎn)生的單詞作用會(huì)越來越弱.為此,Donahue等人[52]提出了長期循環(huán)卷積網(wǎng)絡(luò).與NIC的不同之處在于,該網(wǎng)絡(luò)并不是只在初始階段向系統(tǒng)輸入圖像特征,而是在LSTM的每個(gè)時(shí)間步都為序列模型同時(shí)提供圖像特征和上下文詞特征作為輸入.此外,Jia等人[53]提出了一種LSTM的變體稱為gLSTM,可以生成長語句.該方法將全局語義信息添加到LSTM的每個(gè)門和單元狀態(tài)中,同時(shí)考慮了不同長度的規(guī)范化策略來控制描述語句的長度.由于單向LSTM是基于視覺上下文和所有之前生成的文本預(yù)測下一個(gè)單詞,因而不能生成上下文構(gòu)造良好的描述.為此,Wang等人[54]提出了基于深度雙向LSTM的方法,其架構(gòu)由1個(gè)CNN和2個(gè)獨(dú)立的LSTM組成,可以利用過去和將來的上下文信息來學(xué)習(xí)長期的視覺語言交互,因此能夠生成上下文信息和語義信息豐富的圖像描述.

Mao等人[55]提出了一種特殊的圖像描述生成方法,可以生成圖像中特定物體或區(qū)域的描述,稱為引用表達(dá)式.使用此表達(dá)式可以推斷正在描述的物體或區(qū)域,因而該方法可以生成語義明確的描述語句,同時(shí)還考慮了場景中的顯著物體.Gu等人[56]提出了逐步求精的學(xué)習(xí)思想,主要?jiǎng)?chuàng)新在于解碼階段使用了1個(gè)粗粒度的解碼器和多個(gè)細(xì)粒度的解碼器.其中粗粒度解碼器接受圖像特征作為輸入,并獲得粗粒度的描述結(jié)果,接下來在每個(gè)階段都有1個(gè)細(xì)粒度解碼器進(jìn)行更精細(xì)的解碼,其輸入來自于上一階段解碼器的輸出結(jié)果和圖像特征,最終生成語義更完備的描述語句.Dai等人[57]探索圖像的另一種視覺表示,即用2維特征圖代替?zhèn)鹘y(tǒng)的單個(gè)向量表示潛在狀態(tài),并通過卷積將它們連接起來.這種空間結(jié)構(gòu)對描述生成過程有顯著影響,對潛在狀態(tài)的編輯(例如抑制狀態(tài)中的某些區(qū)域)可能生成不同的描述.由于這種變體表示能夠保持空間局部性,因此可以加強(qiáng)視覺結(jié)構(gòu)在描述生成過程中的作用.

2.3.3 基于語義空間的方法

隨著圖像描述生成技術(shù)的不斷進(jìn)步,單純使用視覺特征向量表示圖像已經(jīng)很難提升系統(tǒng)性能,越來越多的研究工作嘗試使用融合視覺特征和語義特征的方法表示圖像.通常認(rèn)為圖像中的區(qū)域、物體和屬性等包含豐富的語義信息,因而不少方法提出在視覺空間的基礎(chǔ)上進(jìn)一步獲取復(fù)雜的語義空間表示,然后利用高級(jí)語義信息生成圖像描述的思路.

You等人[58]提出了一種基于圖像語義概念表示的方法,分別使用CNN和1組視覺屬性檢測器從輸入圖像中提取1個(gè)全局特征和1組語義屬性,每個(gè)屬性對應(yīng)于所用詞典的1個(gè)條目,要生成的單詞和要檢測的屬性共享相同的詞典.于是,解碼過程可以在語義空間上進(jìn)行,從而獲得優(yōu)越的性能.Wu等人[59]將視覺概念引入編碼器-解碼器框架,首先從訓(xùn)練語句中挖掘出1組語義屬性,然后在基于區(qū)域的多標(biāo)簽分類框架下,針對每個(gè)屬性訓(xùn)練1個(gè)基于CNN的語義屬性分類器.該分類器可以將圖像表示為1個(gè)預(yù)測向量,并給出每個(gè)屬性在圖像中出現(xiàn)的概率,然后再使用LSTM作為解碼器生成描述圖像內(nèi)容的語句.Wang等人[60]提出了一種新型的解碼器結(jié)構(gòu),由1個(gè)Skel-LSTM和1個(gè)Attr-LSTM聯(lián)合構(gòu)成.前者使用CNN提取圖像特征生成主干語句及其屬性,后者為每個(gè)主干語句的屬性生成一系列的主干詞,然后再將2部分內(nèi)容合成最終的描述語句.

Yao等人[61]提出了改進(jìn)的架構(gòu)集成語義屬性與圖像表示,主要采用2組不同的框架結(jié)構(gòu):在第1組結(jié)構(gòu)中,只向LSTM插入語義屬性,或先向LSTM插入圖像表示再向LSTM插入語義屬性,反之亦然.在第2組結(jié)構(gòu)中,可以控制LSTM的時(shí)間步長,決定圖像表示和語義屬性是一次性輸入還是在每個(gè)時(shí)間步都輸入.Li等人[62]提出了一種聯(lián)合視覺和語義的LSTM模型.首先利用Faster R-CNN和CNN分別提取圖像的低層視覺特征和高層語義特征;然后,在LSTM解碼過程中,視覺單元利用視覺特征對圖像中的物體進(jìn)行定位,而語義單元?jiǎng)t將定位后的物體與其語義屬性進(jìn)行集成,并據(jù)此生成相應(yīng)的單詞.為了揭示圖像中難以直接表達(dá)的隱含信息,Huang等人[63]將從知識(shí)圖譜中抽取出來的外部知識(shí)輸入到LSTM語言生成器的單詞生成階段,以增加某些可能被用來描述圖像內(nèi)容的單詞的概率,實(shí)現(xiàn)內(nèi)部知識(shí)與外部知識(shí)的集成,從而能夠生成新穎的圖像描述.

Jiang等人[64]提出了循環(huán)融合網(wǎng)絡(luò)(recurrent fusion network,RFNet),采用多個(gè)CNN作為編碼器,并在編碼器后插入1個(gè)循環(huán)融合過程,以獲得更好的圖像表示輸入解碼器.融合過程分為2個(gè)階段:第1階段利用來自多個(gè)CNN表示之間的交互來生成多組思維向量;第2階段則融合生成的多組思維向量,并為解碼器生成1組新的思維向量.Yao等人[65]提出結(jié)合圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)和LSTM的架構(gòu),將語義關(guān)系和空間物體關(guān)系集成到圖像編碼器中.該方法基于從圖像中檢測到物體的空間和語義關(guān)系來構(gòu)建圖,然后通過GCN利用圖結(jié)構(gòu)對物體上的推薦區(qū)域表示進(jìn)行細(xì)化,基于細(xì)化的區(qū)域級(jí)視覺特征能夠生成更準(zhǔn)確的描述.Chen等人[66]提出了一種新的基于組的圖像描述生成方案GroupCap,將組圖像之間的結(jié)構(gòu)相關(guān)性和多樣性聯(lián)合建模,以實(shí)現(xiàn)最佳的協(xié)同描述生成.首先提出視覺樹解析器來構(gòu)造單個(gè)圖像中的結(jié)構(gòu)化語義關(guān)聯(lián),然后利用樹結(jié)構(gòu)之間的關(guān)聯(lián)來建模圖像之間的相關(guān)性和多樣性,最后將這些關(guān)聯(lián)建模為約束并發(fā)送到基于LSTM的描述生成器中.

為了使現(xiàn)有的編碼器-解碼器架構(gòu)具有人性化的推理能力,Yang等人[67]提出了一種新的學(xué)習(xí)框架稱為配置神經(jīng)模塊(collocate neural module,CNM),用以生成連接視覺編碼器和語言解碼器的“內(nèi)部模式”.CNM的編碼器包含1個(gè)CNN和4個(gè)神經(jīng)模塊(分別對應(yīng)物體、屬性、關(guān)系和功能),用來生成不同的語義特征;解碼器有1個(gè)模塊控制器,可以將這些特征融合到1個(gè)特征向量中,以便解碼器處理.此外,Yang等人[68]利用符號(hào)推理和端到端多模態(tài)特征映射2種方法的互補(bǔ)優(yōu)勢,將語言生成的歸納偏差引入到編碼器-解碼器架構(gòu)中,使用場景圖來縮減視覺感知和語言構(gòu)成的鴻溝.場景圖通過有向邊連接物體(或?qū)嶓w)、物體的屬性及物體在圖像或語句中的關(guān)系.該方法將圖結(jié)構(gòu)嵌入到向量表示中,并無縫地集成到編碼器-解碼器框架,于是向量表示將歸納偏差從純語言領(lǐng)域轉(zhuǎn)移到視覺語言領(lǐng)域.Chen等人[69]提出基于抽象場景圖的結(jié)構(gòu)來表示用戶在細(xì)粒度級(jí)別的意圖,并控制描述的詳細(xì)程度.抽象場景圖由3種抽象節(jié)點(diǎn)(物體、屬性、關(guān)系)組成,以沒有任何具體語義標(biāo)簽的圖像為基礎(chǔ).在此基礎(chǔ)上實(shí)現(xiàn)的模型能夠有效識(shí)別用戶意圖和圖像中的語義信息,因而能夠生成期望的描述語句.

2.3.4 基于注意機(jī)制的方法

2.3.1~2.3.3節(jié)討論的一些方法在為圖像生成描述時(shí)無法隨著時(shí)間的推移分析圖像,且通常將場景作為一個(gè)整體來考慮,而不考慮與描述語句部分相關(guān)的圖像局部層面.基于人類的視覺注意機(jī)制[31],研究者提出了利用注意信號(hào)來引導(dǎo)圖像描述生成,能夠很好地緩解這個(gè)問題.這類方法的典型過程如圖5所示:

Fig.5 Image captioning guided by attention mechanism圖5 注意機(jī)制引導(dǎo)的圖像描述生成

由圖5可見,通過將注意機(jī)制引入到編碼器-解碼器框架中,語句生成將以基于注意機(jī)制計(jì)算的隱狀態(tài)為條件.這類方法中使用的注意信息大致可分為視覺注意和語義注意,其中視覺注意又可分為單詞級(jí)注意和語句級(jí)注意等多個(gè)層級(jí).如果希望同時(shí)利用多級(jí)注意信息,還需要提供協(xié)同機(jī)制以結(jié)合不同的注意.注意機(jī)制的重要性體現(xiàn)在,它可以在生成輸出序列的同時(shí)動(dòng)態(tài)聚焦于輸入圖像的各個(gè)局部層面,因而可以達(dá)成整體和局部的平衡.

Xu等人[70]最先在圖像描述生成方法中引入注意機(jī)制,提出能夠自動(dòng)描述圖像顯著內(nèi)容的方法.該方法首先用CNN將圖像表示為N個(gè)向量,每個(gè)向量表示圖像的部分區(qū)域,然后提出隨機(jī)性硬注意機(jī)制和確定性軟注意機(jī)制2種不同的方法來產(chǎn)生注意信號(hào).在每個(gè)時(shí)間步中,隨機(jī)性硬注意機(jī)制從N個(gè)位置中選擇1個(gè)視覺特征作為上下文向量生成1個(gè)單詞,而確定性軟注意機(jī)制將所有N個(gè)位置的視覺特征結(jié)合起來,獲取上下文向量生成1個(gè)單詞.Yang等人[71]提出利用評論網(wǎng)絡(luò)來強(qiáng)化編碼器-解碼器架構(gòu).該方法首先執(zhí)行多個(gè)評論步驟,對編碼器的隱狀態(tài)應(yīng)用注意機(jī)制,并在每個(gè)評論步驟后都輸出1個(gè)思維向量;然后將這些思維向量作為解碼器中注意機(jī)制的輸入.

由于注意信號(hào)主要集中在RNN每個(gè)時(shí)間步的圖像上,但有些單詞或短語存在不必要的注意視覺信號(hào),那么這些不必要的視覺信號(hào)就可能會(huì)影響生成描述的總體性能.因此,Lu等人[72]提出了基于視覺哨兵的自適應(yīng)注意方法,可以確定什么時(shí)候關(guān)注圖像區(qū)域,什么時(shí)候關(guān)注語言生成模型.該方法引入新的空間注意方法,可以從圖像中計(jì)算出空間特征,然后在自適應(yīng)注意方法中引入1個(gè)擴(kuò)展的LSTM,能夠產(chǎn)生1個(gè)額外的視覺哨兵,為解碼器提供1個(gè)回退選項(xiàng).此外,還有1個(gè)哨兵門用以控制解碼器從圖像中獲得信息的多少.Chen等人[73]提出SCA-CNN(spatial and channel-wise attention CNN),在CNN中融合了空間注意和通道注意.在生成圖像描述的過程中,SCA-CNN在多層特征圖中動(dòng)態(tài)地調(diào)整多層特征圖和生成語句的上下文,對視覺注意的位置(即多層特征圖中關(guān)注的空間位置)和內(nèi)容(即關(guān)注的通道)進(jìn)行編碼.Fu等人[74]提出了在圖像和文本之間采用平行結(jié)構(gòu)的新方法,在圖像的多個(gè)尺度上引入了多個(gè)可視區(qū)域,能夠根據(jù)視覺信息與文本信息之間的語義關(guān)系提取抽象語義流,還可以通過引入特定場景的上下文來獲取更高級(jí)的語義信息.

基于注意的方法在生成單詞或短語時(shí)會(huì)尋找圖像的不同區(qū)域,但這些方法生成的注意圖并不總是對應(yīng)于圖像的某個(gè)適當(dāng)?shù)膮^(qū)域,這也會(huì)影響描述生成系統(tǒng)的性能.為此,Liu等人[75]提出了新的神經(jīng)圖像描述生成方法,可以在每個(gè)時(shí)間步對注意圖進(jìn)行評估和校正.該方法引入了1個(gè)定量的評估指標(biāo)來計(jì)算注意圖,并提出監(jiān)督注意模型,包含了對齊標(biāo)注的強(qiáng)監(jiān)督和語義標(biāo)簽的弱監(jiān)督2種監(jiān)督信息.Pedersoli等人[76]提出了基于區(qū)域注意的圖像描述方法,將圖像區(qū)域與給定RNN狀態(tài)的描述詞相關(guān)聯(lián),可以預(yù)測RNN的每個(gè)時(shí)間步的下一個(gè)詞和對應(yīng)的圖像區(qū)域.該方法將新的注意機(jī)制與空間變換網(wǎng)絡(luò)相結(jié)合,可以生成高質(zhì)量的圖像描述.

多數(shù)圖像描述方法采用自頂向下的方法構(gòu)建視覺注意圖,通常從CNN的輸出中獲得一些選擇性區(qū)域作為圖像特征.You等人[58]在獲取圖像視覺概念的基礎(chǔ)上提出了新的語義注意模型,可以同時(shí)利用自底向上和自頂向下的方法并互補(bǔ)不足.在編碼器-解碼器框架下,全局視覺特征僅在編碼階段的初始步驟發(fā)送給CNN,而在解碼階段則使用1個(gè)輸出注意函數(shù)利用獲取的語義級(jí)概念指導(dǎo)LSTM生成對應(yīng)的圖像描述.Anderson等人[77]提出了結(jié)合自底向上和自頂向下的注意機(jī)制,其中自底向上的注意機(jī)制基于Faster R-CNN推薦圖像區(qū)域,使用與推薦區(qū)域相關(guān)聯(lián)的特征向量,而自頂向下的注意機(jī)制則確定特征權(quán)重.因此,該方法既適用于物體級(jí)區(qū)域,也適用于其他圖像級(jí)顯著區(qū)域.Cornia等人[78]提出的圖像描述生成框架既能基于圖像的區(qū)域獲取特征,又允許對這些區(qū)域序列進(jìn)行控制.給定圖像區(qū)域序列或集合形式的控制信號(hào),該方法通過1個(gè)循環(huán)架構(gòu)生成相應(yīng)的描述.這個(gè)循環(huán)架構(gòu)能夠顯式地預(yù)測基于區(qū)域的各個(gè)文本塊,并根據(jù)給定控制信號(hào)的約束生成多樣化的描述語句.Huang等人[79]提出了“注意上的注意”(attention on attention,AoA)模塊,擴(kuò)展了傳統(tǒng)的注意機(jī)制來確定注意結(jié)果和查詢之間的相關(guān)性.AoA首先利用注意結(jié)果和當(dāng)前上下文生成“信息向量”和“注意門”,然后通過對它們進(jìn)行對應(yīng)元素相乘操作來加上另一個(gè)注意,得到最后的“注意信息”,即期望的有用知識(shí).該方法將AoA模塊同時(shí)應(yīng)用于圖像描述生成架構(gòu)的編碼器和解碼器,因而稱為AoA網(wǎng)絡(luò).

注意機(jī)制大致分為上下文注意機(jī)制和自注意機(jī)制,在此基礎(chǔ)上可以引入單詞級(jí)注意、語句級(jí)注意和語義級(jí)注意等多個(gè)層級(jí).結(jié)合多級(jí)注意機(jī)制獲取更好的圖像描述性能是個(gè)值得研究的課題.Wei等人[80]在圖像描述生成方法中引入自注意機(jī)制,用以提取圖像的語句級(jí)注意信息.并在此基礎(chǔ)上進(jìn)一步提出了雙注意模型,通過結(jié)合語句級(jí)注意和單詞級(jí)注意生成圖像描述.由于該方法能夠結(jié)合圖像的全局和局部信息,因而生成的描述表達(dá)更準(zhǔn)確且語義更豐富.Guo等人[81]對自注意機(jī)制進(jìn)行改進(jìn):首先,提出了規(guī)范自注意模塊,對自注意重新參數(shù)化,有益于自注意內(nèi)部的規(guī)范化;其次,提出了幾何感知自注意模塊,使自注意能夠明確有效地考慮圖像中物體之間的相對幾何關(guān)系,從而彌補(bǔ)Transformer模型[30]無法對輸入物體的幾何結(jié)構(gòu)進(jìn)行建模的局限性.Li等人[82]探討上下文感知組描述的新任務(wù),其目的是以另外1組相關(guān)參考圖像作為上下文生成1組目標(biāo)圖像的描述.為此,提出了將自注意機(jī)制與對比特征構(gòu)建相結(jié)合的框架,既能捕捉每個(gè)組圖像之間的區(qū)分信息,同時(shí)也能有效地總結(jié)每個(gè)組的共同信息.Liu等人[83]提出的方法在生成過程中使用融合網(wǎng)絡(luò)集成視覺注意和語義注意.在生成描述語句的每個(gè)時(shí)間步,解碼器根據(jù)生成的上下文自適應(yīng)地將提取的語義主題信息和圖像中的視覺注意信息合并,從而能夠有效地將視覺信息和語義信息結(jié)合起來.Ke等人[84]提出反射解碼網(wǎng)絡(luò)以增強(qiáng)解碼器中單詞的長序列依賴性和位置感知能力.該網(wǎng)絡(luò)能學(xué)習(xí)協(xié)同關(guān)注視覺和文本特征,同時(shí)感知每個(gè)單詞在語句中的相對位置,以最大化生成語句中傳遞的信息.李志欣等人[85]提出了結(jié)合視覺注意和語義注意的圖像描述方法,首先對現(xiàn)有的視覺注意模型進(jìn)行改進(jìn)以獲取更準(zhǔn)確的圖像視覺信息,然后利用LDA模型與多層感知機(jī)提取出一系列主題詞來表示圖像場景語義信息,最后基于注意機(jī)制來確定模型在解碼的每一時(shí)刻所關(guān)注的圖像視覺信息和場景語義信息,并將它們結(jié)合起來共同指導(dǎo)模型生成更準(zhǔn)確的描述語句.

2.3.5 基于模型優(yōu)化的方法

由于圖像內(nèi)容的復(fù)雜性,精確地標(biāo)注圖像數(shù)據(jù)常常是不切實(shí)際的,因而如何充分利用無標(biāo)簽圖像數(shù)據(jù)成為重要問題.于是,利用強(qiáng)化學(xué)習(xí)與無監(jiān)督學(xué)習(xí)方法進(jìn)行模型優(yōu)化成為自然的思路,也已經(jīng)在圖像描述生成的任務(wù)中獲得了良好的效果.

基于強(qiáng)化學(xué)習(xí)的圖像描述生成主要針對評估指標(biāo)進(jìn)行優(yōu)化,能夠提高模型的整體評估得分.其過程通常分為2步:首先,構(gòu)建結(jié)合CNN和RNN的“策略網(wǎng)絡(luò)”用于控制解碼器生成圖像描述;其次,構(gòu)建結(jié)合CNN和RNN的“價(jià)值網(wǎng)絡(luò)”用于評估當(dāng)前生成的部分描述語句,將獎(jiǎng)勵(lì)信息反饋給第一個(gè)網(wǎng)絡(luò),并調(diào)整動(dòng)作以生成高質(zhì)量的描述語句.這類方法的典型過程如圖6所示:

Fig.6 Image captioning based on reinforcement learning圖6 基于強(qiáng)化學(xué)習(xí)的圖像描述生成

Ranzato等人[86]提出基于RNN的策略梯度序列模型,利用強(qiáng)化學(xué)習(xí)方法直接在評估指標(biāo)上優(yōu)化模型,從而得到更好的描述生成結(jié)果.Liu等人[87]通過優(yōu)化評估指標(biāo)及其線性組合確保描述語句在語法上的流暢性以及描述語句在語義上與圖像相符合.該方法使用蒙特卡洛模擬方法代替了最大似然估計(jì)訓(xùn)練與策略梯度混合的方法,比原來的混合方法更容易優(yōu)化并獲得了更好的結(jié)果.Ren等人[88]提出的方法整體架構(gòu)包含2個(gè)網(wǎng)絡(luò),在每個(gè)時(shí)間步聯(lián)合計(jì)算最佳的下一個(gè)單詞.“策略網(wǎng)絡(luò)”作為局部指導(dǎo),有助于根據(jù)當(dāng)前狀態(tài)預(yù)測下一個(gè)單詞;“價(jià)值網(wǎng)絡(luò)”作為全局指導(dǎo),對考慮到當(dāng)前狀態(tài)所有可能擴(kuò)展得到的獎(jiǎng)勵(lì)值進(jìn)行評估.該方法能夠在正確預(yù)測單詞的同時(shí)調(diào)整網(wǎng)絡(luò),因而最后生成與原始描述相匹配的描述語句.Rennie等人[89]提出了自批評序列訓(xùn)練(self-critical sequence training,SCST)的強(qiáng)化學(xué)習(xí)方法,不是通過估計(jì)一個(gè)“基線”來規(guī)范化獎(jiǎng)勵(lì)和減少方差,而是利用自己的測試時(shí)間推理算法的輸出來對獎(jiǎng)勵(lì)信號(hào)進(jìn)行規(guī)范化.這種訓(xùn)練方法可以避免估計(jì)獎(jiǎng)勵(lì)信號(hào)和規(guī)范化的過程,同時(shí)可以根據(jù)其測試時(shí)間推理過程來協(xié)調(diào)模型.Zhang等人[90]提出了基于行動(dòng)者-評論者強(qiáng)化學(xué)習(xí)的方法,可直接對評估指標(biāo)不可微的問題進(jìn)行優(yōu)化.行動(dòng)者將整個(gè)任務(wù)視為序列決策問題,并可以預(yù)測序列的下一個(gè)標(biāo)簽;評論者的工作是預(yù)測獎(jiǎng)勵(lì)值,如果預(yù)測的獎(jiǎng)勵(lì)值符合預(yù)期,行動(dòng)者將繼續(xù)根據(jù)其概率分布抽樣得到輸出.此外,由于現(xiàn)有大多數(shù)基于強(qiáng)化學(xué)習(xí)的圖像描述生成方法只關(guān)注語言策略,而不關(guān)注視覺策略(如視覺注意),因此無法捕捉對合成推理至關(guān)重要的視覺上下文.于是,Liu等人[91]提出了上下文感知視覺策略網(wǎng)絡(luò)(context-aware visual policy network,CAVP)以生成序列級(jí)的圖像描述,將視覺上下文集成到序列視覺推理中.CAVP在每一個(gè)時(shí)間步都將先前的視覺注意作為上下文進(jìn)行顯式的解釋,然后根據(jù)當(dāng)前的視覺注意判斷上下文是否有助于當(dāng)前單詞的生成.與傳統(tǒng)的每一步只確定1個(gè)圖像區(qū)域的視覺注意相比,CAVP可以隨著時(shí)間的推移處理復(fù)雜的視覺合成.CAVP及其后續(xù)的語言策略網(wǎng)絡(luò)可以使用行動(dòng)者-評論者策略梯度方法對任何評估指標(biāo)進(jìn)行端到端的高效優(yōu)化.

基于無監(jiān)督學(xué)習(xí)的方法可以充分利用無標(biāo)簽圖像數(shù)據(jù),增強(qiáng)現(xiàn)有的訓(xùn)練數(shù)據(jù)并進(jìn)一步優(yōu)化模型.對抗學(xué)習(xí)是一類重要的無監(jiān)督學(xué)習(xí)方法.與傳統(tǒng)的方法相比,基于對抗學(xué)習(xí)的圖像描述生成方法可以生成更多樣化的圖像描述,并能與強(qiáng)化學(xué)習(xí)策略相結(jié)合以提升描述語句質(zhì)量.Dai等人[92]提出了新的基于條件GAN[93]的學(xué)習(xí)框架,在給定圖像和評估器(評估描述與視覺內(nèi)容的匹配程度)的條件下,通過聯(lián)合學(xué)習(xí)得到生成器(生成圖像描述).在訓(xùn)練序列生成器的過程中,該方法通過策略梯度算法優(yōu)化模型,允許生成器沿著通道接收早期反饋.Shetty等人[94]采用對抗訓(xùn)練與近似Gumbel采樣器[95]相結(jié)合,試圖將模型生成的分布與人類感知分布相匹配.該方法不僅在描述的正確性方面與當(dāng)前先進(jìn)方法相當(dāng),而且能夠生成多樣化的描述,偏向性顯著降低并且更符合人類感知.Chen等人[96]提出了跨域圖像描述生成器,使用新的對抗訓(xùn)練方法來利用目標(biāo)域中的未配對數(shù)據(jù),可以在不需要目標(biāo)域成對圖像-語句訓(xùn)練數(shù)據(jù)的情況下,從源域到目標(biāo)域自適應(yīng)語句樣式.該方法引入了2個(gè)評論者網(wǎng)絡(luò)來指導(dǎo)圖像描述生成器:領(lǐng)域評論者評估生成的語句能否與目標(biāo)域中的語句區(qū)分;多模態(tài)評論者評估圖像及其生成的語句是否有效成對.Dognin等人[97]研究基于條件GAN訓(xùn)練圖像描述生成模型,提出了基于上下文感知的LSTM描述生成器和協(xié)同注意判別器,實(shí)現(xiàn)了圖像和描述語句之間的語義對齊.該工作還討論了圖像描述生成模型的自動(dòng)評估問題,提出了1個(gè)新的語義評分方法,并證明了它與人類判斷的相關(guān)性.Feng等人[98]提出了無監(jiān)督圖像描述生成模型,由圖像編碼器、語句生成器和判別器組成.CNN將給定的圖像編碼成1個(gè)特征表示,生成器根據(jù)這個(gè)特征表示輸出1個(gè)語句來描述圖像,判別器用于區(qū)分描述是由模型生成的還是從語句語料庫生成.生成器和判別器以不同的順序耦合以執(zhí)行圖像和語句的重構(gòu).該模型通過策略梯度聯(lián)合引入對抗性獎(jiǎng)勵(lì)、概念獎(jiǎng)勵(lì)和圖像重構(gòu)獎(jiǎng)勵(lì)對生成器進(jìn)行訓(xùn)練.Gu等人[99]提出了基于場景圖的無配對圖像描述生成方法,其架構(gòu)包括圖像場景圖生成器、語句場景圖生成器、場景圖編碼器和語句解碼器.該方法利用文本模態(tài)數(shù)據(jù)訓(xùn)練場景圖編碼器和語句解碼器,并將場景圖特征從圖像模態(tài)映射到語句模態(tài),從而實(shí)現(xiàn)圖像和語句之間的場景圖對齊.

綜上所述,基于編碼器-解碼器架構(gòu)的方法通常采用端到端的方式將圖像中的內(nèi)容轉(zhuǎn)換為描述語句,是當(dāng)前圖像描述生成的主流方法.這類方法的參數(shù)可以聯(lián)合訓(xùn)練,具有簡潔有效的特點(diǎn),但有時(shí)難于識(shí)別復(fù)雜圖像中的細(xì)節(jié),從而影響描述語句的質(zhì)量.

2.4 基于復(fù)合架構(gòu)的方法

在復(fù)合架構(gòu)下,首先使用圖像理解部件來檢測輸入圖像中的視覺概念;然后,將檢測到的視覺概念發(fā)送到文本生成部件以生成多個(gè)候選描述語句;最后,使用一個(gè)多模態(tài)相似度模型對候選描述語句進(jìn)行后處理,選擇其中的高質(zhì)量語句作為輸入圖像的描述.其一般過程如圖7所示:

Fig.7 Image captioning based on compositional architecture圖7 基于復(fù)合架構(gòu)的圖像描述生成

Fang等人[100]提出的圖像描述生成方法由視覺檢測器、語言模型和多模態(tài)相似度模型組成,先找出訓(xùn)練語句中最常見的單詞,再通過CNN提取視覺特征,使用多示例學(xué)習(xí)方法訓(xùn)練對應(yīng)于每個(gè)單詞的視覺檢測器.給定1幅圖像,根據(jù)圖像中檢測到的單詞,采用最大熵語言模型生成候選描述語句.最后,利用深度多模態(tài)相似度模型將圖像和文本片段映射到公共空間并進(jìn)行相似度度量,對候選描述語句進(jìn)行重新排序.在這個(gè)工作的基礎(chǔ)上,Tran等人[101]提出了開放領(lǐng)域圖像描述系統(tǒng),使用基于ResNet的視覺模型來檢測廣泛的視覺概念,同樣使用最大熵語言模型生成候選描述,并使用深度多模態(tài)語義模型進(jìn)行描述語句排序.該系統(tǒng)增加了對地標(biāo)和名人的檢測,及用于處理描述復(fù)雜圖像的信心模型.

為了對圖像內(nèi)容進(jìn)行詳細(xì)的描述,Ma等人[102]提出了使用結(jié)構(gòu)詞進(jìn)行圖像描述生成,分為結(jié)構(gòu)詞識(shí)別和語句翻譯2個(gè)階段.該方法首先使用多層優(yōu)化方法生成分層次的概念,將圖像表示為四元組〈物體,屬性,行為,場景〉,也就是所謂的結(jié)構(gòu)詞.然后再利用基于LSTM的編碼器-解碼器翻譯模型,將結(jié)構(gòu)詞翻譯成描述語句.Wang等人[103]提出了并行融合RNN和LSTM的架構(gòu),利用RNN和LSTM的互補(bǔ)性提高圖像描述生成的性能.該方法首先將輸入通過RNN單元和LSTM單元并行映射到隱狀態(tài),然后將這2個(gè)網(wǎng)絡(luò)中的隱狀態(tài)與單詞預(yù)測的某些比率合并以生成圖像描述.此外,Gan等人[104]在圖像描述生成中引入語義合成網(wǎng)絡(luò),其中語義概念向量由圖像中所有可能的概念合成,比視覺特征向量和場景向量具有更大的潛力,可以生成覆蓋圖像整體意義的描述.

盡管基于深度學(xué)習(xí)的圖像描述生成方法取得了很好的效果,但它們在很大程度上依賴于大量成對的圖像-語句數(shù)據(jù)集.而且這些方法只能在上下文中生成物體的描述,難于生成有新意的描述語句.發(fā)現(xiàn)新物體的方法試圖在生成的描述語句中出現(xiàn)不包含在訓(xùn)練集的圖像-語句對中的物體,因此這類方法大多基于復(fù)合架構(gòu)設(shè)計(jì).Hendricks等人[105]提出了深度合成描述方法,利用大型物體識(shí)別數(shù)據(jù)集和外部文本語料庫,并通過在語義相似的概念之間傳遞知識(shí)來生成圖像語句數(shù)據(jù)集中不存在的新物體描述.Yao等人[106]在CNN和RNN的架構(gòu)中引入復(fù)制機(jī)制來生成新物體的描述,首先使用自由獲取的物體識(shí)別數(shù)據(jù)集來為新物體開發(fā)分類器,然后將RNN逐詞生成的標(biāo)準(zhǔn)語句與復(fù)制機(jī)制結(jié)合起來,可以在輸出語句的適當(dāng)位置選擇有關(guān)新物體的單詞.Venugopalan等人[107]提出的方法試圖發(fā)現(xiàn)圖像中的新物體,能夠充分利用外部知識(shí)來源,包括來自物體識(shí)別數(shù)據(jù)集的有標(biāo)簽圖像,以及從無標(biāo)簽文本中提取的語義知識(shí).該方法提出了最小化聯(lián)合目標(biāo)的訓(xùn)練方法,可以從不同的數(shù)據(jù)源中學(xué)習(xí),并利用分布式語義嵌入,使得模型能夠概括和描述在數(shù)據(jù)集之外的新物體.

基于復(fù)合架構(gòu)的方法一般專注于識(shí)別復(fù)雜圖像中的細(xì)節(jié),期望生成高質(zhì)量的圖像描述,但這類方法通常包含多個(gè)獨(dú)立部件,訓(xùn)練過程比較復(fù)雜.

除了以上方法之外,與圖像描述生成領(lǐng)域相關(guān)的還有一些其他研究方向和實(shí)現(xiàn)方法.除了發(fā)現(xiàn)新物體的描述方法和多樣化描述方法之外,風(fēng)格化描述方法[108-109]希望生成的描述語句能模仿人類的獨(dú)特風(fēng)格,而故事生成方法[110]試圖將生成的描述語句進(jìn)一步組成段落故事,等等.也就是說,圖像描述生成的研究空間還非常廣,有待研究者進(jìn)一步開展新的研究和改進(jìn)現(xiàn)有方法.

3 實(shí)驗(yàn)評估與性能比較

本節(jié)介紹圖像描述生成研究中常用的數(shù)據(jù)集和評估措施,并給出若干典型方法在2個(gè)基準(zhǔn)數(shù)據(jù)集上獲得的性能評估指標(biāo)數(shù)值.

3.1 數(shù)據(jù)集

在圖像描述生成的研究過程中,研究者構(gòu)建了多個(gè)不同的數(shù)據(jù)集.本節(jié)介紹最常用的5個(gè)基準(zhǔn)數(shù)據(jù)集,即MS COCO[111],F(xiàn)lickr8K[41],F(xiàn)lickr30K[112],Visual Genome[113],IAPR TC-12[114].

3.1.1 MS COCO數(shù)據(jù)集

MS COCO數(shù)據(jù)集[111]是一個(gè)用于圖像描述生成、物體識(shí)別、語義分割任務(wù)的大型數(shù)據(jù)集,通過在自然環(huán)境中收集日常復(fù)雜場景和常見物體的圖像而創(chuàng)建,包含用于識(shí)別和分割等任務(wù)的多種特征.該數(shù)據(jù)集規(guī)模在不斷地?cái)U(kuò)充,目前圖像數(shù)量已超過300 000幅圖像,每幅圖像包含至少5個(gè)人工標(biāo)注的參考描述語句,共有91個(gè)分類,其中82個(gè)分類每個(gè)都超過5 000個(gè)實(shí)例物體.由于該數(shù)據(jù)集的規(guī)模大、圖像內(nèi)容復(fù)雜,已成為圖像描述生成任務(wù)中最常用的數(shù)據(jù)集.

3.1.2 Flickr8K數(shù)據(jù)集

Flickr8K數(shù)據(jù)集[41]包含從Flickr提取的8 000幅圖像,主要內(nèi)容包括人類和動(dòng)物,每幅圖像都包含來自于亞馬遜眾包服務(wù)的5條描述語句.在圖像標(biāo)注過程中,工作人員要求專注于圖像本身并描述其內(nèi)容,而不考慮圖像中拍攝的文本.Flickr8K數(shù)據(jù)集中共有8 000幅圖片,其中訓(xùn)練集6 000幅,驗(yàn)證集和測試集各有1 000幅.

3.1.3 Flickr30K數(shù)據(jù)集

Flickr30K數(shù)據(jù)集[112]從Flickr8K數(shù)據(jù)集擴(kuò)展而來,是一個(gè)用于圖像描述生成和語言理解的數(shù)據(jù)集.該數(shù)據(jù)集包含了31 783幅圖像,每幅圖像包含5條描述語句.圖像內(nèi)容主要涉及人的日常生活和運(yùn)動(dòng)等,且不為訓(xùn)練、測試和驗(yàn)證提供任何固定的劃分.該數(shù)據(jù)集還包含公共物體檢測器、顏色分類器,并有選擇較大物體的偏向.

3.1.4 Visual Genome數(shù)據(jù)集

圖像描述生成不僅需要識(shí)別圖像的可視物體,還需要推理它們之間的相互作用和屬性.與前面數(shù)據(jù)集的描述語句針對整個(gè)場景不同,Visual Genome數(shù)據(jù)集[113]針對圖像中的多個(gè)區(qū)域有單獨(dú)的描述語句.該數(shù)據(jù)集有7個(gè)主要部分:區(qū)域描述、物體、屬性、關(guān)系、區(qū)域圖、場景圖和問答對.數(shù)據(jù)集包含的圖像數(shù)量超過108 000幅,每幅圖像平均包含35個(gè)物體、26個(gè)屬性和21個(gè)物體之間的成對關(guān)系.

3.1.5 IAPR TC-12數(shù)據(jù)集

IAPR TC-12數(shù)據(jù)集[114]收集了運(yùn)動(dòng)、相冊、動(dòng)物、風(fēng)景等自然場景圖像共20 000幅,圖像中通常包含多個(gè)物體,每幅圖像都包含多種語言(包括英語、德語等)的描述語句.該數(shù)據(jù)集用于圖像自動(dòng)標(biāo)注任務(wù)時(shí),通常經(jīng)過預(yù)處理后保留其中19 627幅,共包含291個(gè)語義標(biāo)簽,平均每幅圖像4.7個(gè)標(biāo)簽,劃分為17 665幅訓(xùn)練圖像和1 962幅測試圖像.

3.2 評估措施

由于圖像描述生成系統(tǒng)輸出的自然語言描述的復(fù)雜性,評估其性能非常困難.為了評估生成的語句在語言質(zhì)量和語義正確性方面是否與人類感知一致,研究者設(shè)計(jì)了多種度量指標(biāo)來評估生成語句的質(zhì)量,包括BLEU(bilingual evaluation understudy)[115],ROUGE(recall-oriented understudy for gisting evaluation)[116],METEOR(metric for evaluation of translation with explicit ordering)[117],CIDEr(con-sensus-based image description evaluation)[118],SPICE(semantic propositional image caption eval-uation)[119]等.其中BLEU和METEOR來源于機(jī)器翻譯,ROUGE來源于文本摘要,而CIDEr和SPICE是專門為評估圖像描述語句提出的.

3.2.1 BLEU

BLEU[115]是用于評估機(jī)器生成文本質(zhì)量的度量指標(biāo),用候選語句的可變短語長度來匹配參考語句,通過計(jì)算精確率以衡量它們的接近程度.換言之,BLEU度量是通過n-gram模型比較候選語句和參考語句來確定的,使用unigram將候選語句與參考語句進(jìn)行比較計(jì)算BLEU-1,使用bigram將候選語句與參考語句進(jìn)行匹配計(jì)算BLEU-2,以此類推.根據(jù)經(jīng)驗(yàn),確定最大值為4的序列,以獲得與人類判斷最佳的相關(guān)性.對于BLEU指標(biāo),unigram分?jǐn)?shù)用于解釋語句相似度,而較高的n-gram分?jǐn)?shù)用于解釋語句流暢性.但是,BLEU度量不考慮語法正確性,且受到生成文本大小的影響,在生成的文本很短時(shí)BLEU分?jǐn)?shù)通常較高.因而在某些情況下,BLEU分?jǐn)?shù)高并不意味著生成了高質(zhì)量的文本.

3.2.2 ROUGE

ROUGE[116]通過計(jì)算召回率來衡量文本摘要質(zhì)量,將單詞序列、單詞對和n-gram與人類創(chuàng)建的參考摘要進(jìn)行比較.根據(jù)計(jì)算方法的不同,ROUGE又可分為ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S這4種類型,不同類型的ROUGE指標(biāo)用于不同的任務(wù).其中ROUGE-L旨在評估機(jī)器翻譯的充分性和靈活性,該度量指標(biāo)采用候選語句和參考語句之間的最長子序列來度量它們在語句層次上的相似性.由于該度量指標(biāo)自動(dòng)包含序列中最長的公共n-gram,因而可以自然地捕獲語句級(jí)結(jié)構(gòu).

3.2.3 METEOR

METEOR[117]是用于評估自動(dòng)機(jī)器翻譯的度量指標(biāo),它首先在候選語句和人類標(biāo)注的參考語句之間進(jìn)行廣義unigram匹配,然后根據(jù)匹配結(jié)果計(jì)算得分.計(jì)算涉及到匹配詞的精確率、召回率和對齊率.在多個(gè)參考語句的情況下,所有獨(dú)立計(jì)算出的參考語句中的最佳分?jǐn)?shù)作為候選的最終評價(jià)結(jié)果.該度量指標(biāo)的引入是為了彌補(bǔ)BLEU度量的不足,因?yàn)锽LEU度量僅基于n-gram匹配的精確率得到.

3.2.4 CIDEr

CIDEr[118]是評估圖像描述質(zhì)量的自動(dòng)一致性度量指標(biāo),衡量圖像描述語句與人類標(biāo)注的參考語句的相似度.該指標(biāo)將候選語句中的n-gram出現(xiàn)在參考語句中的頻率進(jìn)行編碼,并使用TF-IDF(term frequency-inverse document frequency)對每個(gè)n-gram進(jìn)行加權(quán)來計(jì)算相似度,從而能夠體現(xiàn)生成的圖像描述與人類感知的一致性.這個(gè)度量指標(biāo)的目的是從語法性、顯著性、重要性和準(zhǔn)確性等方面對生成的描述語句進(jìn)行評估.

3.2.5 SPICE

SPICE[119]是基于語義命題內(nèi)容的圖像描述度量指標(biāo),它將候選語句和參考語句都轉(zhuǎn)換為場景圖表示,通過場景圖計(jì)算指標(biāo)得分來評估描述語句質(zhì)量.場景圖對圖像描述中的物體、屬性和關(guān)系進(jìn)行了顯式編碼,并在編碼過程中抽象出自然語言的大部分詞匯和句法特征.

綜上所述,各個(gè)性能度量指標(biāo)都有各自的適用范圍和優(yōu)缺點(diǎn),表1對此作了總結(jié)和比較.

Table 1 Comparison of Advantages and Disadvantages of Performance Metrics表1 性能度量指標(biāo)優(yōu)缺點(diǎn)比較

3.3 典型方法性能比較

本節(jié)以最常用的MS COCO和Flickr30K數(shù)據(jù)集為基準(zhǔn),報(bào)告了一些典型方法在這2個(gè)數(shù)據(jù)集上得到的性能指標(biāo)數(shù)據(jù),并做簡要分析.

3.3.1 MS COCO數(shù)據(jù)集上的性能比較

MS COCO數(shù)據(jù)集是目前圖像描述生成領(lǐng)域應(yīng)用最廣的基準(zhǔn)數(shù)據(jù)集,大多數(shù)方法都報(bào)告了在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.由于基于模板的方法和基于檢索的方法性能普遍較低,而且大部分都沒有使用基準(zhǔn)數(shù)據(jù)集和評估措施進(jìn)行實(shí)驗(yàn),因此這里選取進(jìn)行性能比較的典型方法都是基于深度學(xué)習(xí)的方法.所選方法包括:基于多模態(tài)空間的方法BRNN[48]和m-RNN[49];基于視覺空間的方法NIC[51],gLSTM[53],Stack-Cap[56];基于語義空間的方法ATT-FCN[58],Att-CNN+LSTM[59],RFNet[64],SGAE[68];基于注意機(jī)制的方法Soft-Attention[70],Adaptive[72],SCA-CNN[73],RA+SS[74],Up-Down[77],AoANet[79],VASS[85];基于模型優(yōu)化的方法SCST[89]和G-GAN[92];基于復(fù)合架構(gòu)的方法SCN-LSTM[104].所選19種典型方法在MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示:

Table 2 Performance Comparison of Various Typical Methods on MS COCO Dataset表2 在MS COCO數(shù)據(jù)集上各種典型方法的性能比較

從表2中數(shù)據(jù)可以看出,圖像描述生成的性能指標(biāo)大致隨著時(shí)間的推移逐步升高.近幾年基于注意機(jī)制的方法AoANet,VASS,Up-Down和基于語義空間的方法SGAE,RFNet性能指標(biāo)要明顯高于前幾年的方法,其中AoANet的大部分指標(biāo)在表2中最高.這19種方法大都設(shè)計(jì)了良好的網(wǎng)絡(luò)范式,融合了多種圖像特征生成復(fù)合的語義表示,同時(shí)結(jié)合不同的注意機(jī)制來指導(dǎo)描述語句的生成.這說明融合多種圖像特征和集成多級(jí)注意的方法對于生成準(zhǔn)確的描述語句是行之有效的,也是未來的發(fā)展趨勢.基于視覺空間的方法Stack-Cap和基于強(qiáng)化學(xué)習(xí)的方法SCST的性能指標(biāo)也相當(dāng)高,這表明對視覺空間進(jìn)行改進(jìn)的方法可以獲得良好的性能,同時(shí)也表明強(qiáng)化學(xué)習(xí)對于提升描述語句的準(zhǔn)確性非常有效.此外,盡管G-GAN方法的性能指標(biāo)相對較低,但基于無監(jiān)督學(xué)習(xí)的方法注重生成描述語句的多樣性和自然性,當(dāng)前的性能指標(biāo)并不能完全衡量其描述語句是否符合人類感知.

3.3.2 Flickr30K數(shù)據(jù)集上的性能比較

表3給出了一些典型方法在Flickr30K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.由于這些方法都沒有報(bào)告SPICE的數(shù)值,所以只列出了其余7個(gè)性能指標(biāo)的數(shù)值.此外,3.3.1節(jié)中的Stack-Cap,RFNet,SGAE,AoANet,Up-Down,SCST方法都沒有報(bào)告在Flickr30K上的實(shí)驗(yàn)結(jié)果,因此在表3中沒有列出這些方法.

Table 3 Performance Comparison of Various Typical Methods on Flickr30K Dataset表3 在Flickr30K數(shù)據(jù)集上各種典型方法的性能比較

從表3可以看出,在Flickr30K數(shù)據(jù)集上,基于注意的方法VASS在這些典型方法中獲得了最高的性能指標(biāo),而基于復(fù)合架構(gòu)的方法SCN-LSTM性能指標(biāo)也相當(dāng)高.這說明基于注意機(jī)制的方法和基于語義空間的方法仍然將在未來的研究中占據(jù)重要地位,而復(fù)合架構(gòu)在圖像描述生成的發(fā)展中具有較大的潛力,其大致趨勢與在MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果一致.

4 未來趨勢展望

圖像描述生成近年來受到了研究者的廣泛關(guān)注,收獲了很多重要成果.然而,盡管目前基于深度學(xué)習(xí)的主流方法獲得了有效的結(jié)果和良好的性能,但仍然面臨著多方面的重大挑戰(zhàn),也是未來的重點(diǎn)研究方向和發(fā)展趨勢.

4.1 識(shí)別細(xì)粒度語義生成區(qū)分性強(qiáng)的圖像描述

基于深度學(xué)習(xí)的方法能夠識(shí)別圖像中的一些重要語義概念(如老虎、鳥等),但是對于細(xì)粒度語義概念(如東北虎、夜鶯等)的識(shí)別仍然是個(gè)難題,需要在物體檢測、語義分割和圖像自動(dòng)標(biāo)注等課題的基礎(chǔ)上尋求解決方案.圖像細(xì)粒度語義識(shí)別的重大挑戰(zhàn)主要體現(xiàn)在類間差異小和類內(nèi)差異大,如何檢測并學(xué)習(xí)圖像中的物體及其關(guān)鍵部件成為關(guān)鍵問題[5].此外,細(xì)粒度語義標(biāo)注的成本要高于傳統(tǒng)語義標(biāo)注,難于獲得大規(guī)模訓(xùn)練集,這使得很多強(qiáng)監(jiān)督方法難于實(shí)際應(yīng)用,需要借助弱監(jiān)督方法完成識(shí)別任務(wù).在圖像描述生成任務(wù)中,識(shí)別細(xì)粒度的圖像語義對于生成更準(zhǔn)確更具區(qū)分性的描述語句有重要意義.

4.2 改進(jìn)語言模型生成語法正確的圖像描述

目前的圖像描述生成方法大都采用LSTM等深度神經(jīng)網(wǎng)絡(luò)模型逐詞生成描述語句.但這類模型并沒有完全解決長期依賴問題,且本身的順序特征阻止了并行化,使得計(jì)算比較耗時(shí).Transformer模型[30]使用注意結(jié)構(gòu)取代LSTM,減少了計(jì)算量同時(shí)提高了并行效率,但這個(gè)思路還沒有在圖像描述生成任務(wù)上得到廣泛應(yīng)用.在圖像描述生成過程中,引入新的有效的語言模型對于生成語句的語法和語義正確性無疑能起到重要作用.但是,改進(jìn)語言模型本身是個(gè)難題,需要廣大自然語言處理領(lǐng)域的研究者通過長期的工作逐步解決問題.

4.3 探索學(xué)習(xí)架構(gòu)生成完整細(xì)致的圖像描述

目前圖像描述生成的通用學(xué)習(xí)架構(gòu)是編碼器-解碼器架構(gòu),將圖像描述生成過程視為從圖像“翻譯”到文本的過程.這種架構(gòu)通常將圖像編碼為中間向量再以此作為依據(jù)進(jìn)行解碼,中間向量包含的信息至關(guān)重要.如果中間向量包含的信息不足,將會(huì)導(dǎo)致生成的語句信息不完整.所以,這種架構(gòu)有很大的改進(jìn)空間,可以考慮改進(jìn)編碼器端獲取更優(yōu)的中間向量,也可以考慮改進(jìn)解碼器端以便更充分地利用中間向量包含的信息.此外,編碼器-解碼器架構(gòu)并不是唯一可行的學(xué)習(xí)架構(gòu),提出全新的學(xué)習(xí)架構(gòu)顯然也是改善圖像描述質(zhì)量的途徑.基于復(fù)合架構(gòu)的方法強(qiáng)調(diào)識(shí)別復(fù)雜圖像中的細(xì)節(jié),取得了一些進(jìn)展,但還沒有重大突破.對于學(xué)習(xí)架構(gòu)的探索,仍然是圖像描述生成領(lǐng)域的重要課題.

4.4 利用多級(jí)注意機(jī)制生成語序合理的圖像描述

注意機(jī)制在很多計(jì)算機(jī)視覺的任務(wù)中都得到了很好的應(yīng)用,也已經(jīng)證明能夠顯著提升圖像描述生成的性能.但目前多數(shù)注意模型只關(guān)注圖像中的局部實(shí)體特征,沒有關(guān)注實(shí)體間的相互關(guān)系,生成的圖像描述存在語義不夠完整和語序不合理的問題.為此,需要進(jìn)一步挖掘不同層級(jí)的注意并加以整合,如協(xié)同單詞級(jí)和語句級(jí)的注意[80]、結(jié)合視覺注意與語義注意[85]等方法都是建立在整合不同層級(jí)注意的基礎(chǔ)上.如何設(shè)計(jì)整合不同層級(jí)注意并使它們協(xié)同工作的機(jī)制,以生成語義和語序更合理的圖像描述,仍然是圖像描述生成領(lǐng)域的重點(diǎn)研究方向.

4.5 集成外部知識(shí)推理生成新穎自然的圖像描述

現(xiàn)有的方法存在生成的圖像描述與原始描述過于相似的問題,且不具備像人類一樣的推理能力,難于發(fā)現(xiàn)圖像中隱含的新物體和新行為.然而,僅僅依靠圖像的視覺內(nèi)容本身,很難解決這個(gè)問題.一個(gè)可行的思路是在圖像描述生成方法中引入外部知識(shí)并進(jìn)行適當(dāng)?shù)赝评韀63],模仿人類自主學(xué)習(xí)新知識(shí)的方法和能力,使得生成的描述語句新穎自然,從而實(shí)現(xiàn)初步的視覺推理.如何引入外部知識(shí),并通過知識(shí)圖譜等方法集成到現(xiàn)有的學(xué)習(xí)框架,使其具備從局部到整體、從屬性到語義的視覺推理能力,是圖像描述生成未來研究面臨的重大挑戰(zhàn).

4.6 基于模型優(yōu)化生成準(zhǔn)確多樣的圖像描述

現(xiàn)有的圖像描述生成方法通常要依賴大量的圖像-語句對樣本進(jìn)行訓(xùn)練,才能取得較高的性能.然而,人工標(biāo)注費(fèi)時(shí)費(fèi)力,難以獲得大量的有標(biāo)簽樣本,這使得圖像描述的性能容易出現(xiàn)瓶頸.因此,基于無監(jiān)督學(xué)習(xí)的方法擴(kuò)充訓(xùn)練集及基于強(qiáng)化學(xué)習(xí)的方法優(yōu)化系統(tǒng)的評估指標(biāo)成為突破性能瓶頸的重要思路.目前,生成的圖像描述在各種評估指標(biāo)上都已經(jīng)很高,但這很大程度上是因?yàn)樯傻膱D像描述可區(qū)分性不夠強(qiáng).一方面,對于視覺內(nèi)容有差異的圖像,生成的描述語句差異性不高,即生成語句的語義粒度不夠細(xì)致、描述不夠準(zhǔn)確;另一方面,對于同一幅圖像,生成的描述語句相似度很高,即難于生成多樣化的描述語句.基于無監(jiān)督學(xué)習(xí)的方法可以充分利用無標(biāo)簽圖像擴(kuò)充訓(xùn)練集,生成多樣化的描述語句;而基于強(qiáng)化學(xué)習(xí)的方法則可以利用獎(jiǎng)勵(lì)函數(shù)指引圖像描述生成的方向,使得系統(tǒng)生成更準(zhǔn)確可靠的描述語句.

4.7 設(shè)計(jì)更符合人類感知的性能評估措施

目前圖像描述生成領(lǐng)域有BLEU,ROUGE,METEOR等多種常用的性能評估措施,但這些措施有各自的適用范圍,不能完全反映生成描述語句的質(zhì)量.即使性能指標(biāo)數(shù)值很高的系統(tǒng)生成的描述語句也仍然可能不符合人類感知,也就是說評估措施與人類判斷之間仍然存在著鴻溝.為緩解這個(gè)問題,一方面可以利用強(qiáng)化學(xué)習(xí)技術(shù)縮減評估措施與人類感知之間的差距,另一方面則需要設(shè)計(jì)出更好更全面的評估措施,既能反映描述語句質(zhì)量(如語句多樣性度量),也能盡量與人類判斷保持一致,從而能夠更客觀地反映圖像描述生成系統(tǒng)的優(yōu)劣.

5 結(jié)束語

綜上所述,圖像描述生成是一個(gè)極具挑戰(zhàn)性的課題,既要考慮圖像視覺理解的全局完整性和局部顯著性,也要考慮生成描述語句的語法正確性和表達(dá)自然性,還有可能需要指出圖像中不存在的物體和行為,生成有新意或者有風(fēng)格的描述語句.在現(xiàn)有的技術(shù)條件下,為了最大限度地滿足用戶需求并生成更符合人類感知的描述語句,需要在多個(gè)方面開展更深入的研究:充分學(xué)習(xí)圖像中的視覺內(nèi)容,獲得不同粒度的語義信息;改進(jìn)語言模型保證生成語句的正確性;探索新的學(xué)習(xí)架構(gòu)提升描述語句的質(zhì)量;結(jié)合不同層級(jí)的注意信息指導(dǎo)語言生成;在外部知識(shí)的幫助下,借助知識(shí)推理增強(qiáng)模型功能;利用強(qiáng)化學(xué)習(xí)和無監(jiān)督學(xué)習(xí)技術(shù)進(jìn)一步優(yōu)化模型;設(shè)計(jì)良好的性能評估措施,使得系統(tǒng)對生成語句的判斷盡量客觀并與人類判斷保持一致.

猜你喜歡
解碼器編碼器語句
基于ResNet18特征編碼器的水稻病蟲害圖像描述生成
WDGP36J / WDGA36J編碼器Wachendorff自動(dòng)化有限公司
基于Beaglebone Black 的絕對式編碼器接口電路設(shè)計(jì)*
基于Android環(huán)境下的數(shù)據(jù)包校驗(yàn)技術(shù)分析
淺談SCOPUS解碼器IRD—2600系列常用操作及故障處理
做一個(gè)二進(jìn)制解碼器
因人而異調(diào)整播放設(shè)置
基本算法語句
我喜歡
作文語句實(shí)錄
东乌| 乌海市| 黔江区| 边坝县| 八宿县| 上高县| 远安县| 南京市| 正安县| 怀宁县| 南投市| 上高县| 嘉峪关市| 浦城县| 秦安县| 仙居县| 额敏县| 太谷县| 青岛市| 富顺县| 博湖县| 信阳市| 贺州市| 泸溪县| 霞浦县| 怀化市| 如皋市| 杭锦后旗| 朔州市| 宜兰县| 昌都县| 宜阳县| 杭锦旗| 且末县| 肇东市| 三亚市| 哈巴河县| 五大连池市| 吴川市| 凤冈县| 南涧|