国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

跨模態(tài)表征與生成技術(shù)

2023-07-30 11:27:58劉華峰陳靜靜李亮鮑秉坤李澤超劉家瑛聶禮強(qiáng)
中國圖象圖形學(xué)報 2023年6期
關(guān)鍵詞:編碼器語義模態(tài)

劉華峰,陳靜靜,李亮,鮑秉坤,李澤超,劉家瑛,聶禮強(qiáng)

1.南京理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院,南京 210094;2.復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海 200438;3.中國科學(xué)院計算技術(shù)研究所,北京 100190;4.南京郵電大學(xué)通信與信息工程學(xué)院,南京 230001;5.北京大學(xué)王選計算機(jī)研究所,北京 100871;6.哈爾濱工業(yè)大學(xué)(深圳)計算機(jī)科學(xué)與技術(shù)學(xué)院,深圳 518055

0 引言

隨著視頻、圖像和文本等不同類型媒體數(shù)據(jù)的日益增長,旨在挖掘、分析和處理多源異構(gòu)數(shù)據(jù)的跨模態(tài)學(xué)習(xí)逐漸引起人們關(guān)注,而跨模態(tài)表征與生成作為跨模態(tài)學(xué)習(xí)的基本任務(wù)更是研究熱點??缒B(tài)表征旨在利用多種模態(tài)之間的互補(bǔ)性,剔除模態(tài)之間的冗余性,從而獲得更為有效的特征表示;跨模態(tài)生成則是基于模態(tài)之間的語義一致性,實現(xiàn)不同模態(tài)數(shù)據(jù)形式上的相互轉(zhuǎn)換,有助于提高不同模態(tài)間的遷移能力。

跨模態(tài)表征與生成的起源可追溯至20 世紀(jì)30年代。1935年Hotelling提出一種用途廣泛的統(tǒng)計學(xué)分析算法——典型相關(guān)性分析(canonical-correlation analysis,CCA),并由Cooley 和Lohnes 推動了其發(fā)展。在跨模態(tài)表征中,CCA 廣泛地應(yīng)用于度量兩種模態(tài)信息之間的相關(guān)特征,并在計算中盡可能保持這種相關(guān)性。1998 年,Blum 和Mitchel 在多模態(tài)數(shù)據(jù)處理領(lǐng)域提出了協(xié)同訓(xùn)練的學(xué)習(xí)方法,使得分類器可從不同數(shù)據(jù)源中學(xué)習(xí)到盡可能多的知識。

21 世紀(jì)初,研究人員提出了多核學(xué)習(xí)方法。該方法可以為不同模態(tài)數(shù)據(jù)選取不同的核函數(shù),而且可采用特定方法對不同核函數(shù)進(jìn)行融合,能夠較好地處理異構(gòu)數(shù)據(jù)的分類和識別問題??紤]到多源異構(gòu)數(shù)據(jù)在高層語義空間中具有較強(qiáng)的相關(guān)性,而底層的特征表示往往具有較大差異,因此,研究人員提出了共享子空間學(xué)習(xí)方法。該方法能夠?qū)Χ嘣磾?shù)據(jù)的相關(guān)關(guān)系進(jìn)行挖掘,得到跨模態(tài)特征的一致性表示。共享子空間學(xué)習(xí)方法的出現(xiàn)極大推動了跨模態(tài)表征與生成領(lǐng)域的發(fā)展。

Ngiam 等人(2011)構(gòu)建了以玻爾茲曼機(jī)為基本單元的深度學(xué)習(xí)模型,實現(xiàn)了對視頻和音頻等數(shù)據(jù)的聯(lián)合表征,將跨模態(tài)表征與生成推至快速發(fā)展時期。Goodfellow 等人(2014)提出了生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN),其由互為博弈的生成器和判別器構(gòu)成,通過對抗訓(xùn)練不斷進(jìn)行迭代優(yōu)化。至此,GAN 成為跨模態(tài)生成的主流方法。同時,伴隨著算力和數(shù)據(jù)規(guī)模的提升,多模態(tài)預(yù)訓(xùn)練模型憑借強(qiáng)大的跨模態(tài)表征能力成為研究主導(dǎo),突破了已有模型結(jié)構(gòu)的精度限制。

得益于深度學(xué)習(xí)技術(shù)的發(fā)展和硬件算力的不斷提升,以DALL-E 為代表的自回歸模型問世,通過離散化圖像和使用Transformer模型在千萬級圖文對數(shù)據(jù)上進(jìn)行自回歸學(xué)習(xí),使得生成圖像在真實性和語義一致性上有了飛躍式提升。在隨后一年中,擴(kuò)散模型的出現(xiàn)更是帶起了一股人工智能藝術(shù)創(chuàng)作的熱潮,其不僅能夠控制迭代次數(shù)和生成時間,還能增加生成圖像的多樣性,為跨模態(tài)生成帶來了新的發(fā)展機(jī)遇。

隨著當(dāng)今智能化與信息化時代的來臨,跨模態(tài)數(shù)據(jù)呈現(xiàn)爆炸式增長。跨模態(tài)學(xué)習(xí)技術(shù)在各行各業(yè)蓬勃發(fā)展,是智慧城市、智慧家居等領(lǐng)域的核心技術(shù),也是智能交通、智慧醫(yī)療等行業(yè)應(yīng)用不可或缺的關(guān)鍵模塊。2021 年,工信部等部門聯(lián)合發(fā)布《物聯(lián)網(wǎng)新型基礎(chǔ)設(shè)施建設(shè)三年行動計劃(2021—2023年)》,提出要加快多模態(tài)生物識別、互聯(lián)互通和空中下載等技術(shù)與家電、照明、門鎖和家庭網(wǎng)關(guān)等產(chǎn)品的融合應(yīng)用,首次將跨模態(tài)列為物聯(lián)網(wǎng)新基建在民生消費(fèi)領(lǐng)域的重點任務(wù)??缒B(tài)學(xué)習(xí)技術(shù)符合國家科技發(fā)展規(guī)劃,有助于促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型與升級,推動信息產(chǎn)業(yè)化步伐。

模態(tài)是指特定類型的信息或信息存儲的表示形式,例如文本、圖像、音頻和視頻??缒B(tài)內(nèi)容通常是多個耦合模態(tài)的共同體,相關(guān)研究的技術(shù)基礎(chǔ)是跨模態(tài)表征與生成。首先,海量跨模態(tài)數(shù)據(jù)廣泛存在,模態(tài)間的關(guān)聯(lián)關(guān)系復(fù)雜多樣,精準(zhǔn)的跨模態(tài)表征是有效使用跨模態(tài)數(shù)據(jù)的關(guān)鍵。另外,跨模態(tài)內(nèi)容之間存在較大的語義鴻溝,為增強(qiáng)跨模態(tài)深度語義關(guān)聯(lián)理解,從復(fù)雜跨模態(tài)內(nèi)容中獲取全面、深入的語義信息,開展跨模態(tài)生成研究是必要的。

隨著人工智能技術(shù)的快速發(fā)展,跨模態(tài)學(xué)習(xí)成為重要的研究方向,跨模態(tài)表征與生成的發(fā)展呈現(xiàn)百花齊放、各有千秋的趨勢。在跨模態(tài)表征中,預(yù)訓(xùn)練模型基于強(qiáng)大的表征能力,成為突破現(xiàn)有模型結(jié)構(gòu)精度局限的有效手段;自監(jiān)督學(xué)習(xí)通過挖掘無標(biāo)簽數(shù)據(jù)自身的表征特性,為緩解大模型預(yù)訓(xùn)練和跨模態(tài)標(biāo)注數(shù)據(jù)稀缺之間的矛盾提供了突破點;多模態(tài)融合表征通過挖掘不同模態(tài)信息之間的冗余性和互補(bǔ)性,為多模態(tài)信息尋找好的特征空間。在跨模態(tài)生成方面,生成對抗網(wǎng)絡(luò)通過對抗訓(xùn)練迭代優(yōu)化生成器和判別器,推動了跨模態(tài)生成任務(wù)的發(fā)展;自回歸模型通過開展自回歸學(xué)習(xí),使生成圖像在真實性和語義一致性上有了飛躍式提升;擴(kuò)散模型通過多步映射不斷將與目標(biāo)數(shù)據(jù)大小一致的噪聲轉(zhuǎn)換為圖像,不僅可以控制迭代次數(shù)和生成時間,還能增加生成圖像的多樣性,將跨模態(tài)生成的研究推向了全新的維度。

面向跨模態(tài)領(lǐng)域的發(fā)展需求,本文從跨模態(tài)表征和生成兩個基礎(chǔ)關(guān)鍵技術(shù)著手進(jìn)行研究,歸納其發(fā)展現(xiàn)狀和最新前沿動態(tài),分析展望跨模態(tài)表征與生成的發(fā)展趨勢和突破口,對推動相關(guān)技術(shù)進(jìn)步及跨模態(tài)領(lǐng)域的持續(xù)發(fā)展起到積極的作用。

1 國際研究現(xiàn)狀

1.1 傳統(tǒng)跨模態(tài)表征學(xué)習(xí)

跨模態(tài)表征學(xué)習(xí)是跨模態(tài)機(jī)器學(xué)習(xí)中的一個關(guān)鍵研究方向。表征學(xué)習(xí)旨在去除原始數(shù)據(jù)中冗余的部分,提取出有效信息并產(chǎn)生對應(yīng)的特征。相比單模態(tài)表征學(xué)習(xí),跨模態(tài)表征學(xué)習(xí)面臨更多的挑戰(zhàn),例如模態(tài)之間的信息融合、多模態(tài)噪聲處理以及不同模態(tài)信息互補(bǔ)等。傳統(tǒng)的跨模態(tài)表征學(xué)習(xí)的相關(guān)研究主要可以分為統(tǒng)一表征和協(xié)同表征兩種類型(Baltru?aitis 等,2019)。統(tǒng)一表征將多個單模態(tài)信息映射到統(tǒng)一表征空間并進(jìn)行學(xué)習(xí);而協(xié)同表征對單模態(tài)信息分別處理,通過相似性約束使跨模態(tài)表征能夠協(xié)同學(xué)習(xí)。本文從以上兩個方向?qū)鹘y(tǒng)跨模態(tài)表征學(xué)習(xí)現(xiàn)狀進(jìn)行介紹。

1.1.1 跨模態(tài)統(tǒng)一表征學(xué)習(xí)

1)基于神經(jīng)網(wǎng)絡(luò)的表征學(xué)習(xí)。Ngiam 等人(2011)提出通過雙模態(tài)自動編碼器學(xué)習(xí)跨模態(tài)的共享表征。該方法將視頻和音頻編碼器最后一層隱藏層表示進(jìn)行拼接,使其作為自動編碼器的輸入進(jìn)行跨模態(tài)的表征學(xué)習(xí)。通過共享的表示學(xué)習(xí)層,自動編碼器模型能夠?qū)煞N模態(tài)的特征進(jìn)行協(xié)同學(xué)習(xí),在給定其中一種模態(tài)輸入數(shù)據(jù)的條件下,能夠從中復(fù)原另一模態(tài)的對應(yīng)數(shù)據(jù)。Silberer和Lapata(2014)在此基礎(chǔ)上提出通過半監(jiān)督學(xué)習(xí)目標(biāo)訓(xùn)練層疊多模態(tài)自動編碼器,對標(biāo)注匹配語義表征學(xué)習(xí)進(jìn)行求解。該方法在文本和視覺模態(tài)的共享表示學(xué)習(xí)層上增加了歸一化指數(shù)函數(shù),從而能夠更好地適應(yīng)任務(wù)中的目標(biāo)標(biāo)注形式。除此之外,Silberer 和Lapata(2014)提出一種靈活的半監(jiān)督損失函數(shù),能夠幫助模型學(xué)習(xí)到更具區(qū)分度的模態(tài)表征,進(jìn)而適應(yīng)目標(biāo)分類等任務(wù)。上述跨模態(tài)表征學(xué)習(xí)方法對不同模態(tài)設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu)分別學(xué)習(xí),并通過共享的表示層或歸一化指數(shù)函數(shù)進(jìn)行表征學(xué)習(xí),Rastegar 等人(2016)提出MDL-CW(multimodal deep learning framework with cross)方法,通過對不同模態(tài)的編碼器結(jié)構(gòu)進(jìn)行跨模態(tài)權(quán)重學(xué)習(xí),使編碼器能夠逐漸學(xué)習(xí)到跨模態(tài)的信息交互,通過理論分析得出自底向上的跨模態(tài)權(quán)重學(xué)習(xí)能夠產(chǎn)生更多模態(tài)間的交互信息,并通過實驗結(jié)果證明了模型的跨模態(tài)學(xué)習(xí)能力。

2)基于概率圖模型的表征學(xué)習(xí)?;诟怕蕡D模型的跨模態(tài)表征學(xué)習(xí)研究以潛在隨機(jī)變量對表征學(xué)習(xí)任務(wù)進(jìn)行建模,通過給定數(shù)據(jù)對隨機(jī)變量在聯(lián)合空間中的概率分布進(jìn)行構(gòu)建。Hinton 等人(2006)以受限玻爾茲曼機(jī)(Boltzmann machines)作為基礎(chǔ)模塊,構(gòu)建了對比散度的受限玻爾茲曼機(jī)模型(restricted Boltzmann machines,RBM)。受限玻爾茲曼機(jī)模塊與神經(jīng)網(wǎng)絡(luò)類似,依次連接的受限玻爾茲曼機(jī)也對模態(tài)語義進(jìn)行逐層抽象,進(jìn)而學(xué)習(xí)到多級的語義信息。玻爾茲曼機(jī)通過概率分布對表征進(jìn)行建模,因此在訓(xùn)練過程中不需要有標(biāo)注數(shù)據(jù)。Srivastava 和Salakhutdinov(2012)提出基于多模態(tài)深度信念網(wǎng)絡(luò)的深度玻爾茲曼機(jī),通過合并不同模態(tài)無向圖構(gòu)建多模態(tài)信息的聯(lián)合概率分布。Kim 等人(2013)在此基礎(chǔ)上對不同模態(tài)分別設(shè)計深度信念網(wǎng)絡(luò),進(jìn)而組合獲得統(tǒng)一表征。這類基于概率圖模型的主要優(yōu)勢在于其具備生成能力,因此即使在一個或多個模態(tài)信息缺失的條件下,模型依然能夠有較好表現(xiàn)。同時基于概率圖的表征學(xué)習(xí)模型能夠通過一種模態(tài)輸入生成另一模態(tài)的樣本。

1.1.2 跨模態(tài)協(xié)同表征學(xué)習(xí)

不同于將多種模態(tài)表征映射到統(tǒng)一表征空間,跨模態(tài)協(xié)同表征學(xué)習(xí)對不同模態(tài)分別進(jìn)行表征學(xué)習(xí),通過相似性約束對不同模態(tài)表征進(jìn)行協(xié)同學(xué)習(xí)??缒B(tài)協(xié)同表征學(xué)習(xí)主要適用于不同模態(tài)耦合度低的任務(wù),如跨模態(tài)檢索。該類研究主要可以分為基于特征相似約束的表征學(xué)習(xí)和基于結(jié)構(gòu)相似約束的表征學(xué)習(xí)。

1)基于特征相似約束的表征學(xué)習(xí)?;谔卣飨嗨萍s束的方法通過最小化不同模態(tài)特征在聯(lián)合空間中的距離對多種模態(tài)的表征學(xué)習(xí)進(jìn)行約束。Weston等人(2010)提出基于圖像特征嵌入的標(biāo)簽分類方法WSABIE(web scale annotation by image embedding),通過構(gòu)建視頻特征和標(biāo)注特征的聯(lián)合空間,使用線性函數(shù)對不同模態(tài)特征進(jìn)行映射并最大化關(guān)聯(lián)樣本的內(nèi)積,從而獲得圖像對應(yīng)的標(biāo)簽。谷歌提出基于神經(jīng)網(wǎng)絡(luò)的深度視覺語義嵌入模型DeViSE(deep visual sementic embedding),在保留WSABIE 方法中的聯(lián)合空間內(nèi)積相似度以及基于排序的損失函數(shù)的條件下,使用更為復(fù)雜的基于神經(jīng)網(wǎng)絡(luò)的視覺文本編碼模塊(Frome 等,2013)。Kiros 等人(2014)通過長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)編碼模塊對文本上下文進(jìn)行更好的表征學(xué)習(xí),同時設(shè)計了正樣本和負(fù)樣本的損失函數(shù)。

2)基于結(jié)構(gòu)相似約束的表征學(xué)習(xí)?;诮Y(jié)構(gòu)的相似約束在上述特征語義約束的基礎(chǔ)上,根據(jù)不同任務(wù)對表征學(xué)習(xí)其余方面提出更強(qiáng)的約束條件?;诮Y(jié)構(gòu)相似約束的表征學(xué)習(xí)主要用于跨模態(tài)哈希任務(wù),該任務(wù)需要將高維模態(tài)特征映射到低維二進(jìn)制表征,除了需要滿足不同模態(tài)關(guān)聯(lián)樣本在二進(jìn)制表征空間相似度高的條件,還要求表征滿足指定大小的二進(jìn)制碼約束。Jiang 和Li(2017)提出在圖像和文本描述中通過可學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對二進(jìn)制表征進(jìn)行編碼。Cao 等人(2016)在其基礎(chǔ)上提出更復(fù)雜的LSTM編碼模塊。

另一個相關(guān)的任務(wù)是典型相關(guān)性分析(CCA)。在跨模態(tài)任務(wù)中,基于典型相關(guān)分析的方法通過映射函數(shù)最大化不同模態(tài)之間的相關(guān)性,從而得到跨模態(tài)關(guān)聯(lián)的模態(tài)表征。除此之外,映射函數(shù)還需要滿足映射后的隨機(jī)變量之間正交的約束。Lai 和Fyfe(2000)以及Andrew等人(2013)提出將傳統(tǒng)典型相關(guān)分析中的線性映射替換成更為復(fù)雜的非線性映射,前者提出基于核方法的典型相關(guān)分析,后者則針對基于核方法的典型相關(guān)分析中伸縮性差的問題提出另一種非線性映射函數(shù)。

1.2 多模態(tài)大模型表征學(xué)習(xí)

預(yù)訓(xùn)練大模型現(xiàn)已成為全球人工智能領(lǐng)域矚目的焦點。與此前常用的有監(jiān)督學(xué)習(xí)范式不同,預(yù)訓(xùn)練大模型能夠充分利用大規(guī)模的無標(biāo)注數(shù)據(jù)來學(xué)習(xí)訓(xùn)練,并使用下游任務(wù)的少量有標(biāo)注數(shù)據(jù)進(jìn)行模型微調(diào)。與直接訓(xùn)練具體任務(wù)的模型相比,預(yù)訓(xùn)練模型具有更好的通用性與遷移能力,在其基礎(chǔ)上微調(diào)得到的模型在各種下游任務(wù)上均取得了顯著性能提升。隨著單模態(tài)預(yù)訓(xùn)練模型的快速發(fā)展,多模態(tài)大模型受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,旨在將文本、語音、圖像和視頻等多模態(tài)內(nèi)容聯(lián)合起來進(jìn)行學(xué)習(xí),專注多模態(tài)內(nèi)容之間的關(guān)聯(lián)特性及跨模態(tài)轉(zhuǎn)換問題,由此實現(xiàn)多模態(tài)數(shù)據(jù)從淺層語義到通用知識的跨越。按照模型結(jié)構(gòu)類型,當(dāng)前的多模態(tài)預(yù)訓(xùn)練模型可分為3 類,即基于Transformer 編碼器的模型結(jié)構(gòu)、基于Transformer 解碼器的模型結(jié)構(gòu)和聯(lián)合Transformer編碼器與解碼器的模型結(jié)構(gòu)。

1.2.1 基于Transformer編碼器

最早的多模態(tài)預(yù)訓(xùn)練模型方法大多是基于Transformer 編碼器的方法,根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)又分為單流模型與雙流模型,二者主要區(qū)別在于,在單流模型中不同模態(tài)的數(shù)據(jù)直接同時輸入到Transformer編碼器中,從底層開始進(jìn)行多模態(tài)的交互;而雙流模型中每一個模態(tài)的數(shù)據(jù)需要首先輸入到該模態(tài)對應(yīng)的編碼器,然后在高層通過跨模態(tài)編碼器實現(xiàn)模態(tài)間的交互。

1)單流模型。經(jīng)典的單流模型通過預(yù)訓(xùn)練一個統(tǒng)一的 Transformer 來捕獲不同模態(tài)和跨模態(tài)關(guān)系的元素。Li 等人(2019)提出了ViusalBert(visual bidirectional encoder representation from transformers)模型,在結(jié)構(gòu)上使用了堆疊的Transformer編碼器,利用自監(jiān)督學(xué)習(xí)機(jī)制對文本和圖像信息進(jìn)行對齊和融合,其視覺輸入是Faster-RCNN(faster region convolutional neural network)(Ren 等,2015)提取的圖像區(qū)域特征和相應(yīng)的位置編碼,而語言輸入是原始詞嵌入。該方法設(shè)置了兩個預(yù)訓(xùn)練任務(wù),一是與BERT(bidirectional encoder representation from transformers)一樣的掩蔽語言建模,二是句子圖像預(yù)測,即判斷輸入的句子是否為對應(yīng)圖像的描述。Chen 等人(2020b)提出圖像—文本表征學(xué)習(xí)模型UNITER(universal image-text representation learning),在文字和圖像區(qū)域之間添加一個匹配模塊,進(jìn)一步建立圖像和文本之間的細(xì)粒度關(guān)聯(lián),并據(jù)此設(shè)計了掩蔽語言建模、圖像—文本匹配和掩蔽圖像區(qū)域建模3 個預(yù)訓(xùn)練任務(wù)。Kim 等人(2021b)提出ViLT(vision and language transformer)模型,使用預(yù)訓(xùn)練的ViT(vision transformer)來初始化Transformer,從而可以直接使用交互層來處理視覺特征,而無需添加額外的視覺編碼器。此外,ViLT 還提出了全詞掩碼技術(shù),即掩蔽連續(xù)子詞標(biāo)記的技術(shù),避免僅通過詞上下文進(jìn)行預(yù)測。Sun 等人(2019)提出VideoBert(video BERT),將BERT 擴(kuò)展到大規(guī)模視頻—語言表征學(xué)習(xí),為了對應(yīng)文本中的標(biāo)記,繼續(xù)原BERT 中的掩蔽語言建模任務(wù),使用K 均值聚類對所有提取的視頻特征向量進(jìn)行聚類,并以類中心作為視覺標(biāo)記,每個視頻特征向量由其所屬的類中心表示。

2)雙流模型。Lu 等人(2019)提出了ViLBERT(vision and language BERT),將BERT 擴(kuò)展為雙流模型,該模型由兩個并行網(wǎng)絡(luò)組成,分別用于視覺和語言處理,其后是共同注意力轉(zhuǎn)換器層。預(yù)訓(xùn)練任務(wù)分為重建任務(wù)和匹配任務(wù)。重建任務(wù)包含文本輸入的掩蔽語言建模和圖像的掩蔽區(qū)域建模;匹配任務(wù)是預(yù)測圖像—文本對是否匹配,即文本是否描述圖像。Tan 和Bansal(2019)在ViLBERT 的基礎(chǔ)上增加了對象關(guān)系編碼器,并提出了額外的預(yù)訓(xùn)練任務(wù),即基于興趣區(qū)域的特征回歸和圖像問答。經(jīng)典的CLIP(contrastive language image pretraining)模型也采用雙流架構(gòu)(Radford 等,2021),聯(lián)合訓(xùn)練圖像編碼器和文本編碼器來預(yù)測一批圖像—文本訓(xùn)練樣本的正確配對。通過使用從互聯(lián)網(wǎng)收集的4 億個圖像文本對進(jìn)行訓(xùn)練,CLIP 的零樣本性能可與許多數(shù)據(jù)集上的有監(jiān)督方法相媲美。Jia 等人(2021)提出了ALIGN(a large scale image and noisy text embedding),使用對比損失訓(xùn)練了一個簡單的雙編碼器模型,利用包含超過10 億個噪聲圖像—文本對的數(shù)據(jù)集來擴(kuò)展視覺和視覺語言表征學(xué)習(xí),其預(yù)訓(xùn)練得到的視覺和視覺語言表示在廣泛的任務(wù)上實現(xiàn)了非常強(qiáng)大的性能。如上所述,CLIP 和ALIGN 主要關(guān)注將圖像和文本映射到跨模態(tài)的共享嵌入空間。而Florence(Yuan 等,2021)則著重于如何使模型適應(yīng)各種下游任務(wù),并設(shè)計了一個由多模態(tài)預(yù)訓(xùn)練模型和適應(yīng)模型組成的工作流。對于任務(wù)適應(yīng),使用動態(tài)頭部適配器將學(xué)習(xí)到的視覺特征表示從場景擴(kuò)展到對象,提出了CoSwin 適配器來學(xué)習(xí)視頻表示,并使用METER(multimodal end-to-end transformer)適配器將模型應(yīng)用到依賴細(xì)粒度視覺—語言表示的視覺語言任務(wù)。

1.2.2 基于Transformer解碼器

GPT-3(generative pretrain transformer)(Brown等,2020)是一種典型的基于Transformer解碼器的預(yù)訓(xùn)練模型,在各種文本生成任務(wù)中表現(xiàn)出優(yōu)異的性能?;赥ransformer 解碼器,Ramesh 等人(2021)提出一種文本到圖像生成模型DALL-E,該模型在4 億個圖像—文本對上進(jìn)行訓(xùn)練。通過結(jié)合VQVAE(vector quantisation variational auto encoder)(van den Oord 等,2017)和GPT(Brown 等,2020)可以生成對應(yīng)圖像,稱為圖像版GPT。同時,DALL-E 有能力對生成的圖像中的物體進(jìn)行操作和重新排列,能創(chuàng)造出一些根本不存在的東西。雖然DALL-E 在一定程度上提供了對少量物體屬性和位置的可控性,但成功率取決于文字的措辭。當(dāng)引入更多的對象時,DALL-E容易混淆對象及其顏色之間的關(guān)聯(lián),成功率會急劇下降。Wang 等人(2022)設(shè)計并訓(xùn)練了一個生成式圖像到文本轉(zhuǎn)換器GIT(generative image-totext transformer),以統(tǒng)一圖像/視頻描述和問答等視覺語言任務(wù)。GIT 模型包含一個圖像編碼器和一個文本解碼器。圖像編碼器部分是一個類似SWIN(shifted window)的視覺Transformer,它基于對比學(xué)習(xí)任務(wù)在大量圖像—文本對進(jìn)行預(yù)訓(xùn)練。而文本解碼器部分則在視覺部分編碼的基礎(chǔ)上,用自回歸的方法來生成文本。該模型在圖像/視頻描述、問答等多項任務(wù)上都取得了良好的性能。

1.2.3 聯(lián)合Transformer編碼器與解碼器

Transformer 編碼器通過雙向的注意力機(jī)制來學(xué)習(xí)對數(shù)據(jù)的理解能力,而解碼器通過單向的注意力機(jī)制學(xué)習(xí)生成能力。為了使模型同時具備這兩種能力,從而可以在更廣泛的下游任務(wù)上應(yīng)用,一些工作聯(lián)合Transformer 編碼器與解碼器進(jìn)行多模態(tài)預(yù)訓(xùn)練,取得了不錯的效果。Cho等人(2021)提出VL-T5(vision language tasks)模型,將多個多模態(tài)任務(wù)統(tǒng)一為文本生成。具體地,該模型由Transformer 編碼器和自回歸的解碼器組成,主要創(chuàng)新點在于針對訓(xùn)練任務(wù)與數(shù)據(jù)的不同采用不同的輸入文本與輸出文本的構(gòu)造方式,這種將模型結(jié)構(gòu)和目標(biāo)任務(wù)統(tǒng)一的方法可以充分利用不同任務(wù)的數(shù)據(jù)來訓(xùn)練模型,提高模型的泛化性。Zhou 等人(2020)提出了Unified VLP(unified vision language pretrain),編碼器和解碼器共享同一個Transformer網(wǎng)絡(luò)。該方法通過設(shè)置注意力掩碼來控制網(wǎng)絡(luò)為編碼器或解碼器。具體地,當(dāng)使用編碼器時,注意力掩碼為雙向掩碼,任意位置都可建模前后兩個方向的依賴關(guān)系;當(dāng)使用解碼器功能時,注意力掩碼設(shè)置為單向,每一位置只能建模前文的依賴關(guān)系。這種編解碼共享的方式能夠減少參數(shù)量,使網(wǎng)絡(luò)更加簡潔。

1.3 圖像到文本的跨模態(tài)轉(zhuǎn)換

1.3.1 圖像語義描述

多種圖像語義描述算法主要分為3 類,即基于端到端的方法、基于語義概念的方法和基于風(fēng)格化的方法。本節(jié)從以上3 個角度介紹國際上圖像語義描述的研究現(xiàn)狀。

1)基于端到端的方法。端到端方法在圖像語義描述生成任務(wù)上得到了廣泛的應(yīng)用,該方法采用編碼器—解碼器結(jié)構(gòu)(Cho 等,2014),編碼器負(fù)責(zé)提取圖像特征,解碼器負(fù)責(zé)描述文本的生成。該技術(shù)最早用于自然語言處理領(lǐng)域的翻譯任務(wù),而圖像語義描述生成可以視做一個不同模態(tài)間的“翻譯”任務(wù)。圖像編碼器與文本解碼器最早分別采用卷積神經(jīng)網(wǎng)絡(luò)CNN 和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)(Wang等,2016)。在近年的工作中,注意力機(jī)制的變形被大量使用。如Zhang 等人(2021)利用注意力機(jī)制隱式地探索圖像區(qū)域之間的視覺關(guān)系,從而在文本描述詞和視覺區(qū)域之間提供良好的對齊。

2)基于語義概念的方法。基于語義概念的圖像語義描述方法旨在訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的隱狀態(tài),學(xué)習(xí)圖像中的具有重要語義的對象(概念),輔助解碼器生成細(xì)化且連貫的文本描述。Nguyen 等人(2021)利用場景圖標(biāo)簽進(jìn)行競爭性圖像語義描述生成,其基本思想是減少從輸入圖像獲得的圖形與其描述之間的語義差距。

3)基于風(fēng)格化的方法。圖像語義描述的另一個熱門研究方向是通過控制圖像語義描述的風(fēng)格生成更具表現(xiàn)力和吸引力的文本描述。該方向因其在現(xiàn)實場景中的潛在應(yīng)用價值而被工業(yè)界所重視。例如,當(dāng)人們在社交媒體平臺上傳照片時,往往需要一個吸引人的、風(fēng)格化的標(biāo)題,而這是傳統(tǒng)的事實性圖像語義描述模型難以做到的。Li 和Harrison(2021)使用生成的風(fēng)格向量融合圖像區(qū)域的局部語義以及全局上下文元素,生成更有吸引力的描述。Li 和Harrison(2022)為評估模型的風(fēng)格化描述生成能力設(shè)計了兩種新的自動化指標(biāo)。一種在沒有標(biāo)注參考答案的情況下評估生成的描述捕獲給定樣式的程度;另一種在流行的方法基礎(chǔ)上加入偏置以強(qiáng)調(diào)風(fēng)格化詞語,從而更好地衡量描述風(fēng)格化的質(zhì)量。

1.3.2 視頻語義描述

在圖像語義描述的基礎(chǔ)上,視頻語義描述任務(wù)擴(kuò)展到了針對多幀時空角度連續(xù)的圖像的語義描述之上,在融合多模態(tài)表征的同時,還要兼顧幀與幀之間的關(guān)聯(lián)性,從序列的角度去建模視覺特征并與語言特征進(jìn)行交互。

國際上的前沿研究基本上是以圖像、視頻編碼模型的發(fā)展以及序列建模方式的發(fā)展為基本脈絡(luò)的。Venugopalan等人(2015)在設(shè)計的S2VT(sequence to sequence video to text)模型中,首次提出先使用深度卷積網(wǎng)絡(luò)對視頻的圖像幀特征和光流幀特征進(jìn)行雙路提取,再分別送入RNN 網(wǎng)絡(luò)中,完成兩路解耦編碼,同時在解碼階段將兩路編碼進(jìn)行融合,再使用RNN 進(jìn)行解碼。這個方法為跨模態(tài)端到端學(xué)習(xí)提供了一個最初的解決思路。

隨著計算機(jī)視覺和自然語言的技術(shù)發(fā)展,越來越多的學(xué)者不局限于視頻、語言表征的全局編碼、交互,而是使用一些前沿技術(shù)對視頻語義特征進(jìn)行細(xì)粒度編碼,并相應(yīng)地劃分出對應(yīng)短時間片段內(nèi)的事件信息進(jìn)行特征的精確融合編碼。得益于Johnson等人(2016)提出的全卷積網(wǎng)絡(luò)以及Ren 等人(2015)提出的Faster R-CNN 架構(gòu),學(xué)者們有了很多強(qiáng)有力的特征提取架構(gòu)將視頻內(nèi)的圖像幀打散為局部的密集語義區(qū)域,并使用注意力機(jī)制進(jìn)行細(xì)粒度語言和視覺信息的關(guān)聯(lián)交互,以得到更加魯棒準(zhǔn)確的融合表征。而Transformer的引入(Vaswani等,2017)極大程度上解決了序列模型的遺忘等痛點問題,對視頻到語言模型的性能改善起到了質(zhì)的作用。

總之,更好的視頻和語言表示提取、更豐富的模態(tài)交互、更高效準(zhǔn)確的時序建模是視頻語義描述的關(guān)鍵,對這些問題,國際上有很多非常好的基礎(chǔ)性探索。

1.3.3 視頻字幕語義分析

隨著多媒體的迅速發(fā)展,每天都有大量的多模態(tài)視頻(帶有音頻和/或文本)發(fā)布在網(wǎng)絡(luò)中。純粹的視頻語義描述任務(wù)只是對視覺內(nèi)容進(jìn)行簡單的語義描述,而在現(xiàn)實應(yīng)用中,視頻通常與其他形式相關(guān)聯(lián),例如電影或電視節(jié)目的字幕以及現(xiàn)場觀眾的收音等,這些不同的模態(tài)通常涉及人們之間豐富的社交互動,包括活動和對話。

目前,在多媒體領(lǐng)域已經(jīng)提出了多種基于電影、卡通和電視節(jié)目構(gòu)建的多模態(tài)數(shù)據(jù)集。例如Hendricks 等人(2017)提出的DiDeMo 數(shù)據(jù)集、Krishna 等人(2017)提出的ActivityNet Captions 數(shù)據(jù)集以及Gao 等人(2017)提出的CharadesSTA 數(shù)據(jù)集,這些數(shù)據(jù)集使用單一的視頻進(jìn)行定位,并沒有涉及字幕等復(fù)雜語義信息。由于電視字幕可以提供一些隱含的但是非常有用的語義線索來解釋演員的情緒和意圖,因此,為了更好地從視頻語料庫中檢索相關(guān)時刻,Lei等人(2020)提出了一項新的視頻字幕語義描述任務(wù),并提出了TVC(TV show caption)數(shù)據(jù)集以及多模態(tài)Transformer(multi-modality transformer,MMT)。MMT 首先通過外觀、動作和文本形式分別表示每個視頻及其字幕。然后,模型直接將所有模態(tài)連接起來作為原始Transformer的輸入以生成字幕。TVC數(shù)據(jù)集與從前的數(shù)據(jù)集有兩點不同。1)從前的數(shù)據(jù)集將視頻統(tǒng)一分塊并讓注釋者選擇一個(或多個)編寫明確的描述。這種粗略的時間注釋不能很好地與自然時刻對齊。在TVC 中,為了更準(zhǔn)確地捕捉重要時刻,注釋者可以自由選擇時間窗口;2)從前的數(shù)據(jù)集將為整個視頻編寫的段落轉(zhuǎn)換為單獨(dú)的查詢語句。雖然注釋者在段落中使用了時間連接詞(例如first,then)以及代詞,但這些詞減弱了上下文之間的語義信息的關(guān)聯(lián)性,使得單個句子并不適合作為檢索查詢。相比之下,TVC 注釋過程鼓勵注釋者單獨(dú)編寫查詢語句,而不需要考慮段落的上下文信息。Li 等人(2020c)也提出了基于字幕的視頻文本匹配任務(wù),并提出一種用于大規(guī)模視頻和語言相結(jié)合的表征學(xué)習(xí)的新框架HERO(hierarchical encoder for video language omni representation pretraining)。該模型將外觀和運(yùn)動模態(tài)連接為視覺模態(tài),然后通過交叉注意機(jī)制對視覺和文本模態(tài)之間的相互關(guān)系進(jìn)行建模。

1.3.4 變化語義描述

變化語義描述算法用于定位和描述一個場景中的語義變化,主要分為基于像素差異的方法和基于表征差異的方法兩類。本節(jié)從語義變化建模的角度介紹國際上變化語義描述的現(xiàn)狀。

1)基于像素差異的算法。美國卡內(nèi)基梅隆大學(xué)的Jhamtani 和Berg-Kirkpatrick(2018)在2018 年發(fā)布了一個來自監(jiān)控場景的變化語義描述數(shù)據(jù)集。該數(shù)據(jù)集中的圖像對從固定角度拍攝,有著良好的對齊關(guān)系。基于這個前提,提出了一個DDLA(different description with latent alignment)模型來計算圖像對像素級別的差異,并將其送入模型完成變化語義描述。事實上,除了語義變化,動態(tài)環(huán)境中的圖像對間會出現(xiàn)無關(guān)變化的干擾。例如在視角變化下,兩幅圖像中的物體在外觀和位置上會出現(xiàn)偏移,導(dǎo)致二者不能完全對齊。而基于像素差異的方法需要建立在兩幅圖像完全對齊的前提下,所以仍然不能適應(yīng)變化語義描述的各種場景。

2)基于表征差異的算法。為了使該研究更符合動態(tài)環(huán)境的設(shè)定,美國加州大學(xué)伯克利分校的Park等人(2019)發(fā)布了一個包含輕微視角變化的數(shù)據(jù)集。隨后,韓國首爾大學(xué)的Kim 等人(2021a)發(fā)布了一個包含極端視角變化的數(shù)據(jù)集。在上述兩個數(shù)據(jù)集中,圖像對間存在兩種設(shè)定。一是同時存在語義變化和視角變化;二是僅存在視角變化。在差異建模的時候,相關(guān)研究工作主要利用基于圖像對的特征表征進(jìn)行建模。Park 等人(2019)提出了一個DUDA(dual dynamic attention model)模型。首先利用預(yù)訓(xùn)練的CNN 提取兩幅圖像的特征表征;然后利用作差的方法計算出兩個表征間的差異表征;最后利用注意力模型和LSTM 網(wǎng)絡(luò)將差異表征轉(zhuǎn)化成文本描述。然而,由于視角的改變,兩幅圖像的表征在外觀和位置上存在輕微的偏移。因此,直接作差的方法導(dǎo)致建模的差異表征存在一定的噪聲。為了在視角變化中區(qū)分和描述語義變化,新加坡南洋理工大學(xué)的Shi 等人(2020)提出一個M-VAM(mirrored viewpoint-adapted matching)模型,通過語義相似度的方法首先預(yù)測出兩幅圖像中相似的特征作為未變化特征,進(jìn)而求出變化特征。隨后,基于相似度的范式被韓國首爾大學(xué)的Kim 等人(2021a)和日本產(chǎn)業(yè)技術(shù)綜合研究所的Qiu 等人(2021)的研究團(tuán)隊所沿用。此外,加拿大曼尼托巴大學(xué)和華為公司研究團(tuán)隊利用循環(huán)一致性模型來提升圖像對和語義描述的語義一致性(Hosseinzadeh和Wang,2021)。

1.3.5 視覺問答

隨著注意力機(jī)制在自然語言處理領(lǐng)域的流行,國際上對于視覺問答模型的研究主要集中在以注意力機(jī)制為基礎(chǔ)的多模態(tài)融合模型上,主要分為基于共同注意力的方法、基于檢測注意力的方法和基于關(guān)系注意力的方法。本節(jié)從注意力機(jī)制的角度介紹國際上視覺問答的研究現(xiàn)狀。

1)基于共同注意力的方法。共同注意力模型是對稱的,通過視覺特征可以引導(dǎo)產(chǎn)生問題的注意力,文本特征可以引導(dǎo)產(chǎn)生圖像的注意力。Lu 等人(2016)構(gòu)建了一個層次結(jié)構(gòu),分別在單詞層面、短語層面和句子層面構(gòu)建共同注意力,提出了平行共同注意力和可選共同注意力兩種構(gòu)建方式。局限在于只學(xué)習(xí)了多模態(tài)實例的粗糙交互,而所學(xué)習(xí)的共同注意力不能推斷出每個圖像區(qū)域和每個問題詞之間的相關(guān)性。

2)基于檢測注意力的方法。此前的圖像注意力是基于卷積神經(jīng)網(wǎng)絡(luò)特征,相當(dāng)于將圖像均等分割成若干區(qū)域然后進(jìn)行篩選,選擇圖像中前K個候選區(qū)作為視覺特征,通過提取圖中多個對象作為輸入視覺特征。基于檢測注意力的方法將開放式注意力與檢測注意力結(jié)合形成新的共同注意力,加強(qiáng)模型的表達(dá)能力。檢測注意力作用受限于其檢測類別的廣度。

3)基于關(guān)系注意力的方法。Wu 等人(2018)首次提出了關(guān)系注意力的概念?,F(xiàn)有的大多數(shù)工作都集中在通過融合圖像特征和文本特征來計算注意力分布,而不需要在不同圖像對象之間進(jìn)行比較。作為關(guān)注的主要屬性,選擇性取決于不同對象之間的比較。對象間的比較提供了更多信息,能夠更好地分配注意力。

1.4 跨模態(tài)圖像生成

1.4.1 不同模態(tài)信息的跨模態(tài)聯(lián)合表示方法

同樣語義的信息可能表現(xiàn)為不同模態(tài)的形式,例如文本和圖像都可以表現(xiàn)一個人的外貌。為了達(dá)成跨模態(tài)圖像生成的目標(biāo),首先需要設(shè)法對不同模態(tài)的信息的語義進(jìn)行聯(lián)合表示,以對跨模態(tài)生成提供約束和評價的標(biāo)準(zhǔn)。由于高層語義信息抽取這一問題的復(fù)雜性,目前的工作均基于深度神經(jīng)網(wǎng)絡(luò)搭建?,F(xiàn)有方法的共同點在于均設(shè)法對不同模態(tài)的信息搭建了編碼器神經(jīng)網(wǎng)絡(luò),將原始模態(tài)的信息映射到隱空間中的向量上,以向量之間的余弦相似度建模信息之間的語義一致性。語義一致性越高的信息,它們的隱向量之間的余弦距離越小,反之亦然。

1)基于小規(guī)模特定領(lǐng)域跨模態(tài)信息對的聯(lián)合表示方法。當(dāng)待對齊的信息的語義集中在某個特定領(lǐng)域內(nèi)時,可以采用針對單個小數(shù)據(jù)分布訓(xùn)練專用的跨模態(tài)聯(lián)合表示模型。這些模型通常規(guī)模較小,易于訓(xùn)練,在特定的領(lǐng)域中有優(yōu)秀的表現(xiàn)。

文本—圖像跨模態(tài)生成開山之作GAN-INT-CLS(GAN-interpolation-conditional-latent-space)(Reed等,2016)中提出,將文本—圖像聯(lián)合表示的模塊嵌入GAN中的判別器中,將原生GAN以文本為條件改造為條件GAN(Mirza 和Osindero,2014),以判別器的輸出結(jié)果為跨模態(tài)語義對齊與否的標(biāo)準(zhǔn)。

GAN-INT-CLS中的判別器D可以理解為文本編碼器φ和圖像編碼器的結(jié)合。文本編碼器將文本抽象為特征后,直接將該特征拼接入圖像編碼器,隨后再將拼接后的特征神經(jīng)網(wǎng)絡(luò)最終輸出單個概率值,表述為D(,?(t))。它的訓(xùn)練方式與條件GAN 的方式一致,對于那些不匹配的文本—圖像對,也通過損失函數(shù)迫使判別器D輸出接近0的值即可。

但是該結(jié)構(gòu)的缺陷也是很明顯的。它將文本、圖像的編碼器嵌入判別器,導(dǎo)致這兩個編碼器無法獨(dú)立使用。所以事實上它的可擴(kuò)展性非常有限。隨著人們對于深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)一步研究,自注意力機(jī)制在高層語義任務(wù)中取得了巨大的成功(Vaswani 等,2017)。Devlin 等人(2019)和Dosovitskiy等人(2021)基于自注意力機(jī)制的核心網(wǎng)絡(luò)Transformer設(shè)計出了更加強(qiáng)大的跨模態(tài)聯(lián)合表示模型。

AttnGAN(attention GAN)(Xu 等,2018)中提出了深度注意力跨模態(tài)相似性模型(deep attentional multimodal similarity model,DAMSM),采用Transformer為對齊部分結(jié)構(gòu)的基礎(chǔ)。

AttnGAN 中的文本編碼器是基于長短時記憶網(wǎng)絡(luò)(Hochreiter 和Schmidhuber,1997)這一適用于處理序列信息的網(wǎng)絡(luò)而搭建的,圖像編碼器則是采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)搭建的。兩個編碼器分別將文本、圖像各自編碼為隱空間中的向量之后,對兩個隱向量采用注意力機(jī)制(Vaswani等,2017)進(jìn)行聯(lián)合編碼,給出它們的匹配分?jǐn)?shù),并且通過最大化匹配的文本—圖像對的上述分?jǐn)?shù)和最小化不匹配的文本—圖像對的上述分?jǐn)?shù)這一目標(biāo),訓(xùn)練文本及圖像編碼器。實驗證明,DAMSM取得了優(yōu)秀的結(jié)果。這一模型自從在AttnGAN 中提出之后,廣泛地應(yīng)用在如Li 等人(2020a)、Zhu 等人(2019)、Qiao 等人(2019)、Zhang等人(2017,2019)和Tao 等人(2022)等多個文本—圖像跨模態(tài)生成模型中,活力一直保持至今。

由于上述小規(guī)模模型的擬合能力有限,上述的跨模態(tài)聯(lián)合表示模型主要應(yīng)用在小規(guī)模的數(shù)據(jù)集上,數(shù)據(jù)需要分布在某個特定領(lǐng)域中。它們的優(yōu)點是易于訓(xùn)練和易于部署,而缺點也十分明顯。它們不能處理那些未在數(shù)據(jù)集中出現(xiàn)的數(shù)據(jù),因此它們的應(yīng)用范圍是高度受限的。

2)基于對比學(xué)習(xí)的通用跨模態(tài)聯(lián)合表示方法?;谛∫?guī)模數(shù)據(jù)集訓(xùn)練的跨模態(tài)聯(lián)合表示模型具有通用性不足的缺陷。為了解決這樣的問題,有學(xué)者提出,構(gòu)建足夠龐大的跨模態(tài)數(shù)據(jù)集和足夠有擬合能力的模型,之后采用對比學(xué)習(xí)的方式,從這個足夠龐大的數(shù)據(jù)集中構(gòu)建出各自模態(tài)下的編碼器,使編碼器有能力處理通用的跨模態(tài)數(shù)據(jù)。CLIP(contrastive language-image pre-training)(Radford 等,2021)是基于這一方法的著名工作。它是一個文本—圖像跨模態(tài)聯(lián)合表示模型,基于一個爬取自互聯(lián)網(wǎng)的超大規(guī)模文本—圖像數(shù)據(jù)集,包含超過4億對數(shù)據(jù)。

CLIP 分別構(gòu)建了一個文本編碼器和一個圖像編碼器,在訓(xùn)練時對于單個批輸入的N對文本—圖像對,最大化相匹配的文本—圖像對的隱向量的余弦距離,并最小化不匹配的文本—圖像對的隱向量的余弦距離,其基本邏輯非常簡單。然而,得益于大規(guī)模數(shù)據(jù)集中語義的豐富程度以及足夠強(qiáng)大的計算力,CLIP 最終取得的效果非常優(yōu)秀,在無先驗分類任務(wù)上取得了最佳性能。已有大量的工作基于CLIP 展開,它的強(qiáng)大能力使得使用它充當(dāng)跨模態(tài)語義對齊模型,構(gòu)建下游任務(wù)成為了可能。

相應(yīng)地,對于視頻—文本跨模態(tài)對齊任務(wù)也已經(jīng)有類似于CLIP 的大規(guī)模工作。CLIP4CLIP 將CLIP 直接應(yīng)用在連續(xù)的視頻幀上,取得了優(yōu)秀的視頻檢索結(jié)果。它通過將CLIP 復(fù)用在時域上的方法,使得視頻模態(tài)的信息也能由幾乎同樣的方式與圖像、文本模態(tài)進(jìn)行對齊。HD-VILA(high-resolution and diversified video-language pre-training)則是參考了CLIP 的訓(xùn)練方式,收集了超大規(guī)模的視頻—文本數(shù)據(jù)對,訓(xùn)練了相似的模型(Xue等,2022)。

為了節(jié)省計算資源,單個視頻段采用了部分幀輸入高分辨率圖像、部分幀輸入低分辨率圖像的訓(xùn)練方式,有效利用了視頻的幀間關(guān)聯(lián)性,減少了冗余信息的輸入。它提供的聯(lián)合描述向量可以有豐富的下游應(yīng)用。高層的如視頻檢索、視頻編輯;低層的如視頻超分等。這些都證明了基于對比學(xué)習(xí)的大規(guī)模模型具有強(qiáng)大的生命力。

目前,大部分跨模態(tài)聯(lián)合表示模型都關(guān)注文本—圖像或文本—視頻這樣的可由人類直接解讀的模態(tài)的語義對齊。事實上,模態(tài)是一個非常廣義的概念。例如,傳統(tǒng)多媒體中的每一種媒體都可以成為一種承載信息的模態(tài)。因此對跨模態(tài)的聯(lián)合表示方法的研究還有很廣闊的探索空間。

1.4.2 圖像的跨模態(tài)生成技術(shù)

高質(zhì)量圖像的跨模態(tài)生成技術(shù)需要構(gòu)建在前述的跨模態(tài)聯(lián)合表示的基礎(chǔ)上??缒B(tài)聯(lián)合表示為圖像的跨模態(tài)生成提供了語義方面的約束以及定量的評價指標(biāo)?,F(xiàn)有的工作大致分為兩類,一類基于預(yù)訓(xùn)練好的生成模型,設(shè)法將跨模態(tài)語義約束與預(yù)訓(xùn)練的生成模型的隱空間進(jìn)行連接,以達(dá)到基于已有生成模型進(jìn)行跨模態(tài)生成的目的;另一類從頭訓(xùn)練一個新的生成模型,將跨模態(tài)語義約束設(shè)法加入訓(xùn)練時的損失函數(shù),以達(dá)成直接訓(xùn)練一個跨模態(tài)生成模型的目的。

生成模型即是設(shè)法建模生成的圖像落在真實圖像數(shù)據(jù)集中的概率,并構(gòu)建適當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò),以最大似然作為目標(biāo)函數(shù),擬合該概率的模式。形式化為

式中,p(·)是圖像屬于該數(shù)據(jù)集的概率,而G(·)表示生成函數(shù)。常見的生成模型包括GAN、VAE(variational auto encoder)、Flow-model、DDPM(denoising diffusion probabilistic models)等。其中GAN 和DDPM 的應(yīng)用最為廣泛、取得的成果最為豐富。下面簡述這兩種生成模型,作為跨模態(tài)圖像生成的基礎(chǔ)。

GAN 于2014 年提出(Goodfellow 等,2014),基于它的進(jìn)一步研究和改進(jìn)一直在持續(xù)。它的核心思路非常巧妙。既然一幅圖像落在某個圖像數(shù)據(jù)集中的概率不易直接建模,那么就直接使用一個深度神經(jīng)網(wǎng)絡(luò)充當(dāng)判別器,用它來判斷一幅圖像落在該指定數(shù)據(jù)集中的概率。判別器的目的是對于那些來自于數(shù)據(jù)集的真實圖像,給出盡可能接近1 的輸出,而對于那些虛假的圖像給出盡可能接近0 的輸出。而生成器的目的則是盡可能生成符合數(shù)據(jù)集特征的圖像,使得判別器無法成功地區(qū)分真實圖像與虛假圖像。在訓(xùn)練過程中,判別器和分類器的參數(shù)按照上述描述的目標(biāo)依次更新。這個過程如同生成器和判別器在互相對抗,這也是其對抗生成模型得名的原因。

具體來講,判別器和生成器的損失函數(shù)各自由交叉熵?fù)p失給出,具體為

式中,x表示來自數(shù)據(jù)集的真實圖像樣本,z表示隱空間中的向量,L表示損失函數(shù)。對于GAN 的摸索以及對于GAN 損失函數(shù)的探究從未停止,包括Mirza和Osindero(2014)、Arjovsky等人(2017)和Gulrajani 等人(2017)的工作。GAN 以及它的改進(jìn)型已經(jīng)取得了大量令人印象深刻的成果。

Sohl-Dickstein 等人(2015)首先提出DDPM 的思想,并在2020 年發(fā)展完善。它的靈感來自于物理學(xué)中的擴(kuò)散現(xiàn)象。具體來講,首先試圖通過向一幅圖像中逐步加入高斯噪聲的方式?jīng)_淡原有的圖像,直至最終整幅圖看起來幾乎與一幅真正的高斯噪聲圖像沒有區(qū)別,仿佛原本的圖像擴(kuò)散在高斯噪聲之中,這個過程稱為前向過程。隨后,采用適當(dāng)?shù)乃惴ǎA饲跋蜻^程的逆過程,借助深度學(xué)習(xí)的方法構(gòu)建了一個從完全的高斯噪聲圖中逐步去噪,直至完全恢復(fù)到原始圖像,這個過程稱為逆向過程。上述兩個過程也是其去噪擴(kuò)散概率模型得名的原因。

前向過程可以形式化為

式中,β為預(yù)先指定的超參數(shù),表示當(dāng)前擴(kuò)散步驟加入的高斯噪聲的強(qiáng)度,N表示高斯分布,I表示圖像。由式(4)可得

前向過程相對較容易形式化。難點在于如何形式化逆向過程。根據(jù)貝葉斯原理和馬爾可夫性,可進(jìn)行具體計算,即

由此可見,如果能夠通過一個深度神經(jīng)網(wǎng)絡(luò),從帶噪圖像樣本xt中恢復(fù)出原始圖像樣本x0,那么就可以按上式實現(xiàn)逆向過程的采樣,最終迭代地得到原始圖像樣本x0。而這兩幅圖像之間的差異,正是一個噪聲zt。于是,DDPM 的核心在于訓(xùn)練一個預(yù)測噪聲的神經(jīng)網(wǎng)絡(luò),具體為

訓(xùn)練方式是使用深度學(xué)習(xí)最小化交叉熵,具體為

式中,p(θ)是建模的圖像分布。該損失即為希望真實圖像x0落在建模的圖像分布中。經(jīng)過數(shù)學(xué)計算及實驗驗證,上述損失可以表示為

上述損失即為預(yù)測的噪聲zθ(xt,t)與真實噪聲zt之間的最小二乘損失。至此,DDPM 的訓(xùn)練方式與推斷方式已全部闡述完畢。近年來,學(xué)術(shù)界涌現(xiàn)出了大量基于DDPM 的大型工作(Ramesh 等,2021,2022;Nichol 等,2022;Saharia 等,2022a,b;Lugmayr等,2022;Gafni 等,2022),這些工作生成的圖像的質(zhì)量之高令人印象深刻,這也從側(cè)面證明了DDPM 生成模型的能力。

1.4.3 基于圖像—跨模態(tài)信息對訓(xùn)練的跨模態(tài)生成技術(shù)

以跨模態(tài)的聯(lián)合表示為約束,可以訓(xùn)練圖像跨模態(tài)生成的模型。GAN-INT-CLS是文本—圖像跨模態(tài)生成的早期作品(Reed 等,2016)。它基于一個條件GAN構(gòu)建,將文本引導(dǎo)設(shè)計為條件GAN中的條件輸入,以此訓(xùn)練文本—圖像跨模態(tài)生成模型。該工作作為領(lǐng)域內(nèi)的早期作品,最終達(dá)到的主觀質(zhì)量有限,但是它的開創(chuàng)性價值不容忽視。在Xu 等人(2018)提出DAMSM 之后,基于DAMSM 及其改進(jìn)型的跨模態(tài)生成模型大量出現(xiàn)。其中最為優(yōu)秀的是DF-GAN(deep fusion GAN)(Tao等,2022)。DF-GAN同樣基于一個條件GAN 搭建,將文本編碼器的輸出特征逐步地加入生成的上采樣生成模塊中,最終取得了優(yōu)秀的主觀質(zhì)量。

上述工作均基于生成模型GAN。近年來,基于DDPM 的模型大量出現(xiàn),得益于DDPM 模型強(qiáng)大的適應(yīng)能力與生成能力,它們生成的圖像具有細(xì)膩的紋理,同時不拘泥于某些特定的領(lǐng)域,吸引了學(xué)界巨大的關(guān)注。

GLIDE(guided language to image diffusion for generation and editing)(Nichol 等,2022)是首個基于DDPM 的文本—圖像跨模態(tài)生成模型。它基于Nichol 和Dhariwal(2021)以及Dhariwal 和Nichol(2021)提出的條件DDPM,在帶噪圖像上精調(diào)CLIP模型充當(dāng)跨模態(tài)語義約束器。DALL-E2(Ramesh等,2022)將跨模態(tài)生成過程拆分為從文本到CLIP圖像隱向量和從CLIP 圖像隱向量到圖像這兩個過程,使用兩個DDPM分別訓(xùn)練,取得了比GLIDE更加精細(xì)而高質(zhì)量的生成結(jié)果,其內(nèi)容豐富,體現(xiàn)了強(qiáng)大的生成能力。

1.4.4 基于預(yù)訓(xùn)練的特定域圖像生成模型的圖像跨模態(tài)生成方法

前述跨模態(tài)圖像生成模型均是基于跨模態(tài)數(shù)據(jù)對訓(xùn)練了新的生成模型以達(dá)成目標(biāo)的。然而得益于近年來生成模型的進(jìn)步,可以借助已有的預(yù)訓(xùn)練生成模型,直接設(shè)法將它與跨模態(tài)語義對齊模塊相連接,以達(dá)成跨模態(tài)圖像生成的目標(biāo)。這類做法的優(yōu)點在于利用已有的模型,大幅減小訓(xùn)練對于計算資源的需求,而缺點在于難以生成預(yù)訓(xùn)練模型可生成的圖像域之外的圖像。目前,最為常用的預(yù)訓(xùn)練大規(guī)模圖像生成模型之一是StyleGAN(style GAN),代表性工作包括Karras 等人(2019,2020,2021)提出的方法。StyleGAN 提供的多個隱空間(Wu 等,2021)及優(yōu)秀的解耦能力,為基于它搭建下游任務(wù)提供了可能。StyleGAN 接收一個隱向量作為輸入,通過迭代擴(kuò)大分辨率的方式,逐步生成一幅高質(zhì)量的圖像。

研究人員想到可以借助將CLIP 提供的跨模態(tài)隱向量映射到StyleGAN 的隱空間中的方法實現(xiàn)跨模態(tài)圖像編輯。StyleCLIP(Patashnik 等,2021)首先做出了這樣的嘗試。它試圖通過一個深度神經(jīng)網(wǎng)絡(luò)將描述待編輯的屬性映射為一個原始的Style-GAN隱向量的殘差,以實現(xiàn)對原圖像編輯的目標(biāo)。該神經(jīng)網(wǎng)絡(luò)借助CLIP 進(jìn)行跨模態(tài)的語義約束。其優(yōu)點在于靈活使用了StyleGAN 和CLIP 這兩個大型預(yù)訓(xùn)練模型,使得任務(wù)事半功倍。但是缺點也十分明顯,不能用于圖像生成,僅能用于已有圖像的編輯。

TediGAN(text-guided diverse image generation and manipulation via GAN)(Xia等,2021)則借助隱向量優(yōu)化的方法達(dá)到上述的目標(biāo)。首先在StyleGAN的隱空間中隨機(jī)選取一個起點并生成一幅初始圖像,然后用CLIP 約束初始圖像與待編輯的文本之間的語義一致性,以此為目標(biāo)對StyleGAN 中隨機(jī)初始化的向量進(jìn)行優(yōu)化,最終使得生成的圖像與給定的文本之間取得語義一致。由于初始向量的隨機(jī)性,所以TediGAN 的表現(xiàn)很不穩(wěn)定。StyleGAN-NADA(StyleGAN non-adversarial domain adaptation)(Gal等,2022)采用精調(diào)預(yù)訓(xùn)練的StyleGAN 中的參數(shù)的方式,使StyleGAN 有能力生成其原本的生成域之外的圖像。目標(biāo)域的語義則由CLIP 進(jìn)行約束。其缺點同樣是無法進(jìn)行從無到有的圖像生成,僅能基于已有的圖像進(jìn)行修改。

2 國內(nèi)研究現(xiàn)狀

2.1 傳統(tǒng)跨模態(tài)表征學(xué)習(xí)

近年來,國內(nèi)相關(guān)研究者對于跨模態(tài)協(xié)同表征學(xué)習(xí)進(jìn)行了較為深入的研究。不同于WSABIE 和DeViSE 等方法對跨模態(tài)特征較為粗粒度的相似約束設(shè)計,You 等人(2018)提出從全局和局部分別對多模態(tài)特征進(jìn)行語義編碼,從而進(jìn)行細(xì)粒度的表征學(xué)習(xí)。通過多層深度神經(jīng)網(wǎng)絡(luò)對文本和視覺信息分別編碼,得到其在聯(lián)合空間中的全局表征,在對多模態(tài)全局表征進(jìn)行相似約束學(xué)習(xí)之外,You 等人(2018)還提出對不同模態(tài)中間表示層也施以相似度約束,從而保證模型對多模態(tài)表征學(xué)習(xí)能夠更為充分。具體而言,You 等人(2018)提出對編碼器中間表示層進(jìn)行線性變換,并根據(jù)中間表示層和全局變量的相關(guān)性對變換后表征進(jìn)行調(diào)整,進(jìn)而得到用以計算跨模態(tài)相似度的局部表征。

Dong 等人(2019)也從全局和局部表征學(xué)習(xí)角度出發(fā),提出了Dual-Encoding 方法。Dual-Encoding對視頻和文本使用相同的多層級編碼網(wǎng)絡(luò),對幀級別或單詞級別的特征采用平均池化操作得到全局表征,對雙向門控循環(huán)單元網(wǎng)絡(luò)(bidirectional gated recurrent unit,BiGRU)所有時刻隱狀態(tài)取平均操作得到時序模式表征,對BiGRU 產(chǎn)生的所有隱狀態(tài)的2維拼接結(jié)果使用不同卷積核大小的1維卷積,得到蘊(yùn)含多尺度局部信息的表征,最后將這3 種編碼拼接起來映射到視頻—文本共同空間中,并進(jìn)行基于相似度約束的學(xué)習(xí)。

Wang 等人(2021)將Dual-Encoding 作為視頻和文本的特征提取器,利用圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)進(jìn)行結(jié)構(gòu)化建模,并對節(jié)點之間的關(guān)系進(jìn)行調(diào)整。具體來說,對于文本到視頻檢索,給定一個文本查詢,建立以該查詢、前K個檢索視頻和前K個檢索文本為節(jié)點的全連接圖結(jié)構(gòu),邊的特征使用余弦、曼哈頓和歐氏距離的拼接值來初始化,對于每一層圖神經(jīng)網(wǎng)絡(luò),節(jié)點特征和邊特征交替更新,并且設(shè)計了打分機(jī)制,根據(jù)邊特征選出新的相似視頻集合進(jìn)入下一層,重復(fù)上述操作直至完成這個從粗粒度到細(xì)粒度的過程,從而找到最相似的視頻。

Chen等人(2020a)提出層次化圖推理(hierarchical graph reasoning,HGR)模型,通過層級圖推理將視頻—文本匹配拆分為從全局到局部的層級,從而實現(xiàn)精細(xì)匹配。模型分為3 個部分,即層級文本編碼、層級視頻編碼和視頻—文本匹配,構(gòu)建文本的語義關(guān)系圖結(jié)構(gòu)時,動詞作為動作節(jié)點與事件節(jié)點連接,名詞短語作為個體節(jié)點與不同的動作節(jié)點連接。視頻語義關(guān)系圖則根據(jù)幀級、事件級以及全局3 個不同層級構(gòu)建。該模型從文本的語義結(jié)構(gòu)出發(fā),分層級理解文本蘊(yùn)含的信息,對視頻也做出相應(yīng)的調(diào)整,可實現(xiàn)有效的多層級精細(xì)匹配。

2.2 多模態(tài)大模型表征學(xué)習(xí)

2.2.1 基于Transformer編碼器的方法

基于Transformer編碼器的方法根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)不同同樣可分為單流模型與雙流模型。

1)單流模型。Li 等人(2020b)在Unicoder(Huang 等,2019)的基礎(chǔ)上提出Unicoder-VL(universal encoder for vision and language),以解決不同模態(tài)間信息難以融合、沒有統(tǒng)一表征方式這一問題。采用一個前置的目標(biāo)檢測模型識別圖像中的目標(biāo)區(qū)域,并提取每個區(qū)域的特征表示作為圖像側(cè)的輸入。在預(yù)訓(xùn)練任務(wù)設(shè)置上,Unicoder-VL 不僅采用了帶掩膜的語言建模(masked language modeling,MLM)方式,還引入了帶掩膜的目標(biāo)分類(masked object classification,MOC)方式。具體而言,MOC 方式會對圖像中的部分物體進(jìn)行遮擋,其任務(wù)是對被遮擋的物體進(jìn)行標(biāo)簽預(yù)測,該標(biāo)簽直接來源于目標(biāo)檢測識別的結(jié)果。Su 等人(2020)在VisualBERT(Li 等,2019)的基礎(chǔ)上主要增加了視覺特征嵌入模塊,提出了VL-BERT(visual-linguistic BERT)。具體而言,視覺特征嵌入由外觀特征和幾何特征兩部分組成。外觀特征是通過Faster-RCNN(Ren 等,2015)對圖像中感興趣區(qū)域提取得到的特征信息。對于視覺信息,感興趣的圖像區(qū)域是對應(yīng)內(nèi)容邊界框劃定的區(qū)域;而對于文本詞匯和指示信息,則是完整的圖像。幾何特征指感興趣區(qū)域邊界框相對于圖像的位置信息。外觀特征和幾何特征經(jīng)過拼接后經(jīng)全連接層的映射最終得到視覺特征嵌入。

2)雙流模型。Zhu 和Yang(2020)提出了Act-BERT(action BERT),設(shè)計了一種全局—局部關(guān)系的建模方法,輸入包括視頻的全局信息,并且利用視頻幀中的局部信息加強(qiáng)對于視頻內(nèi)容的理解。另外,提出了掩碼動作分類任務(wù),即將動作特征屏蔽,要求模型根據(jù)文本和其他視覺特征預(yù)測被屏蔽的動作標(biāo)簽。傳統(tǒng)的雙流網(wǎng)絡(luò)模型僅考慮兩個流之間的實例級對齊,Lu 等人(2022)提出了COTS(collaborative two-stream vision-language pre-training model)模型,同時考慮了3 個級別的雙流交互。(1)傳統(tǒng)的實例級交互,使用動量對比學(xué)習(xí)來學(xué)習(xí)對齊圖像文本;(2)標(biāo)記(token)級別交互,根據(jù)每幅圖像未被掩蔽的視覺標(biāo)記和對應(yīng)文本的特征進(jìn)行掩蔽視覺標(biāo)記預(yù)測,類似于進(jìn)行掩蔽語言標(biāo)記預(yù)測;(3)任務(wù)級交互,在文本到圖像和圖像到文本檢索任務(wù)之間設(shè)計了一種新穎的對齊學(xué)習(xí)目標(biāo),即最小化兩個檢索任務(wù)的概率分布之間的KL(Kullback-Leibler)散度。在CLIP(Radford等,2021)工作的基礎(chǔ)上,Yao等人(2022)提出 了FILIP(fine-grained interactive language-image pre-training)模型以解決圖文匹配中的細(xì)粒度(Wei等,2022)匹配問題,通過跨模態(tài)后期交互機(jī)制實現(xiàn)更細(xì)級別的對齊,即計算視覺和文本之間的最大相似度來指導(dǎo)對比目標(biāo)。僅通過改進(jìn)對比損失,F(xiàn)ILIP就可以利用圖像補(bǔ)丁和文本單詞之間的細(xì)粒度表達(dá),同時保持了大規(guī)模數(shù)據(jù)集訓(xùn)練和推理的效率。Gu 等人(2022)發(fā)布了一個名為“悟空”的大規(guī)模中文跨模態(tài)數(shù)據(jù)集,其中包含了從網(wǎng)絡(luò)上收集的一億個中文圖像—文本對,以解決領(lǐng)域內(nèi)缺乏大規(guī)模中文數(shù)據(jù)集及基準(zhǔn)的問題,同時基于CLIP 和FILIP 等工作,還提供了用各種網(wǎng)絡(luò)架構(gòu)和方法預(yù)訓(xùn)練得到的大規(guī)模VLP(visual-linguistic pretrain)模型。Xie等人(2022)提出了一種標(biāo)記嵌入對齊模塊,對基于Transformer 編碼不同模態(tài)信息的方法進(jìn)行改進(jìn),首先顯式地對齊視覺標(biāo)記和文本標(biāo)記,然后生成標(biāo)記級匹配分?jǐn)?shù)來度量輸入圖像和文本之間的細(xì)粒度相似性。標(biāo)記嵌入對齊模塊的設(shè)計具有顯示對齊視覺標(biāo)記和文本標(biāo)記的能力,因此它還有良好的可解釋性。

2.2.2 基于Transformer解碼器的方法

Ding 等人(2021)提出了CogView 模型,其具有與DALL-E 類似的結(jié)構(gòu),主要面向中文環(huán)境的文本到圖像生成,采用更少的GPT 層數(shù),性能卻超越了DALL-E。該模型為了穩(wěn)定大規(guī)模的生成模型訓(xùn)練,提出了一系列有效的策略,包括Sandwich LN 和PBRelax。此外,CogView 不僅可以進(jìn)行零樣本的文本到圖像生成以及其逆任務(wù)(即圖像描述生成),在經(jīng)過微調(diào)后也可以應(yīng)用于超分、風(fēng)格遷移等任務(wù),具有較強(qiáng)的泛化能力。

2.2.3 聯(lián)合Transformer編碼器與解碼器的方法

Luo 等人(2020)提出了一種典型的基于編碼器—解碼器的方法UniVL(unified video and language pre-training),用于多模態(tài)理解和生成。首先,單模態(tài)編碼器用于接收文本和視頻輸入。然后,利用基于Transformer的交叉編碼器來關(guān)聯(lián)文本和視頻信息。最后,使用Transformer解碼器重建輸入文本。UniVL 模型能夠通過設(shè)計的預(yù)訓(xùn)練任務(wù)執(zhí)行理解和生成任務(wù),即條件掩蔽語言建模、條件掩蔽視頻幀建模、視頻文本對齊和文本重建。Xu 等人(2021)提出了一種可端到端訓(xùn)練的模型E2E-VLP(end to end VLP),包括Transformer 編碼器和解碼器兩部分。其方法除了在編碼器端加入掩碼語言建模和圖文匹配任務(wù),還在解碼器端引入了兩個新任務(wù),即目標(biāo)檢測和文本描述生成。通過這兩個解碼器端的任務(wù),可以增強(qiáng)模型對視覺信息的學(xué)習(xí)能力。Lin 等人(2021)提出了類似的編解碼器共享的模型M6,該模型面向中文場景的不同任務(wù),設(shè)置了更加豐富的注意力,在一系列下游的理解和生成任務(wù)上都實現(xiàn)了很好的性能。Liu等人(2021a)提出了多層次多任務(wù)統(tǒng)一學(xué)習(xí)的編解碼模型——紫東太初,通過設(shè)計樣本級、模態(tài)級以及Token 級多層次自監(jiān)督學(xué)習(xí)任務(wù),實現(xiàn)了圖文音多模態(tài)數(shù)據(jù)的多粒度關(guān)聯(lián)建模,可有效支撐多模態(tài)理解與生成等各種下游任務(wù),并取得了很好的性能。

2.3 圖像到文本的跨模態(tài)轉(zhuǎn)換

2.3.1 圖像語義描述

圖像語義描述在視覺障礙助手等輔助任務(wù)以及信息檢索任務(wù)上均有重要的應(yīng)用前景,然而現(xiàn)有的圖像語義描述生成研究大都基于英語語種,近年來,許多國內(nèi)研究團(tuán)隊開始關(guān)注面向中文的圖像語義描述生成。與其他跨語言的深度學(xué)習(xí)研究相似,面向中文的圖像語義描述生成的一大難點是數(shù)據(jù)集的構(gòu)建,一種可行的方法是基于現(xiàn)有的英文圖像語義描述數(shù)據(jù)集(如MS-COCO(Microsft common object in context),F(xiàn)lickr 30K),利用百度翻譯等成熟的中英翻譯接口將英文描述轉(zhuǎn)譯成中文,但所得數(shù)據(jù)集的質(zhì)量受限于翻譯工具的效果,并會因中英語言的差異(詞量大小、一詞多義等)帶來不可避免的噪聲。為解決這一問題,張楷文(2021)通過語言模型得到初始化翻譯句子對應(yīng)的符合有關(guān)語言表達(dá)習(xí)慣的分值,過濾掉不符合中文表達(dá)習(xí)慣的舉止,完成數(shù)據(jù)初步清洗,再在生成過程中使用強(qiáng)化學(xué)習(xí)方法針對性地進(jìn)行優(yōu)化,在獎勵函數(shù)上反映輸出符合語言表達(dá)習(xí)慣的程度,極大地緩解了數(shù)據(jù)噪聲對模型訓(xùn)練帶來的影響。

2.3.2 視頻語義描述

國內(nèi)研究工作在視覺語義描述任務(wù)上屬于百花齊放的態(tài)勢。復(fù)旦大學(xué)團(tuán)隊Shen 等人(2017)考慮到視覺信息分布的空間離散性和語言描述的密集性,提出了一種基于弱監(jiān)督的密集視頻描述生成法,可以精確到某一區(qū)域內(nèi)物體的動態(tài)變化。Wang 等人(2018b)和Zhou 等人(2018)均從事件的角度出發(fā),以事件為單位,進(jìn)行視頻中響應(yīng)特征的提取。Wang 等人(2018b)和Xiong 等人(2018)則是將視覺信息和語言信息的匹配融合交由強(qiáng)化學(xué)習(xí)算法來實現(xiàn),取得了可觀的性能。Wang等人(2020)、Zhang等人(2020)和Liu等人(2021a)的工作同時考慮到了視覺信息的動、靜態(tài)特征,使用2D、3D 卷積網(wǎng)絡(luò)結(jié)合的方式來豐富化視覺表征。Liu等人(2021b)則是為了更好地利用視頻的時序信息定制化了一種特殊的網(wǎng)絡(luò)結(jié)構(gòu)。

2.3.3 視頻+字幕語義描述

視頻+字幕語義描述任務(wù)是視覺語義描述領(lǐng)域的一個新研究方向,該任務(wù)可以通過字幕幫助模型學(xué)習(xí)更加抽象的自然語言表征,生成含有高級語義信息的視頻描述,能夠給觀眾在瀏覽和檢索視頻內(nèi)容時帶來更好的體驗。然而,由于字幕是零碎的信息,與視覺形態(tài)存在語義差距,因此字幕的有效使用也非常具有挑戰(zhàn)性。為了將零碎的信息組織在一起,并為所有模態(tài)生成語義相關(guān)性更高的全局表示,Tu 等人(2022)提出了I2Transformer(intra-and interrelation embedding transformer)模型,通過多模態(tài)信息融合實現(xiàn)視頻和字幕的全局表示。該模型包括IAE(intra-relation embedding block)和IEE(interrelation embedding block)兩部分,用來學(xué)習(xí)視頻中的內(nèi)部關(guān)系和副標(biāo)題,以及它們之間的相互關(guān)系。這有利于理解每種模態(tài)的語義和跨模態(tài)的語義交互。首先,IAE 通過構(gòu)建可學(xué)習(xí)圖來捕獲每種模態(tài)中的內(nèi)部關(guān)系。然后,IEE 作為一個可學(xué)習(xí)的交叉注意力門,通過學(xué)習(xí)視覺和字幕的相互關(guān)系從每個模態(tài)中提取有用的信息作為Transformer的輸入。哈爾濱工業(yè)大學(xué)Nie 等人(2022)設(shè)計了一個大規(guī)模多模態(tài)的預(yù)訓(xùn)練網(wǎng)絡(luò),通過5 項任務(wù)來加強(qiáng)下游視頻表征,并進(jìn)一步提出了一種基于流的多樣化字幕模型,以根據(jù)用戶的搜索需求生成不同的字幕,該模型通過重建損失在先驗和后驗之間的KL 分歧進(jìn)行優(yōu)化,從針對用戶搜索需求的角度,自動生成文本去描述一個短視頻,以滿足用戶搜索視頻的多樣化需求。

2.3.4 變化語義描述

國內(nèi)研究團(tuán)隊在變化語義描述任務(wù)上也發(fā)表了多項研究成果。這些研究成果與國際研究趨勢同步,即研究如何在視角變化中區(qū)分和描述語義變化。其中,中國科學(xué)院計算技術(shù)研究所和昆明理工大學(xué)的研究團(tuán)隊在自然語言處理頂級學(xué)術(shù)會議ACL(Association for Computational Linguistics)和EMNLP(Conference on Empirical Methods in Natural Language Processing)上發(fā)布了兩項研究成果。具體而言,Tu 等人(2021)提出一個SRDRL(semantic relation-aware difference representation learning)模型來衡量差異表征和圖像表征的語義相似度,并將其作為一種先驗知識來幫助模型判斷是否存在語義變化以及潛在位置。同時,提出了一個R3Net(recurrent residual refinement network),根據(jù)語義相似度重構(gòu)出每幅圖像上未變化的特征,進(jìn)而求出變化特征。此外,廣西大學(xué)的研究團(tuán)隊除了計算圖像對間的表征差異外,引入了深度(Liao 等,2021)以及語義屬性(Huang 等,2021)等額外知識來建模差異信息。中國人民大學(xué)的Yao 等人(2022)則提出一種基于預(yù)訓(xùn)練的訓(xùn)練方式來完成變化語義描述。

2.3.5 視覺問答

國內(nèi)研究進(jìn)展主要集中在提出表達(dá)能力更強(qiáng)的多模態(tài)融合模型與提高模型的可解釋性與泛化能力上。胡欽太等人(2021)利用深度學(xué)習(xí)算法進(jìn)行多模態(tài)學(xué)習(xí)分析,采用深度混合判別受限玻爾茲曼機(jī)神經(jīng)網(wǎng)絡(luò)模型,建立多模態(tài)學(xué)習(xí)分析模型。從可解釋性分析的角度,利用深度學(xué)習(xí)算法進(jìn)行多模態(tài)學(xué)習(xí)行為分析的算法設(shè)計與實現(xiàn)過程。

3 國內(nèi)外研究進(jìn)展比較

3.1 傳統(tǒng)跨模態(tài)表征學(xué)習(xí)

跨模態(tài)表征學(xué)習(xí)長久以來受到學(xué)術(shù)界和工業(yè)界的關(guān)注,機(jī)器學(xué)習(xí)模型的表現(xiàn)非常依賴數(shù)據(jù)表征的選擇,一方面高質(zhì)量的跨模態(tài)表征能夠極大節(jié)省工業(yè)應(yīng)用的成本;另一方面其也對下游任務(wù)的學(xué)術(shù)研究提供便利。傳統(tǒng)跨模態(tài)表征學(xué)習(xí)的研究主要關(guān)注基于機(jī)器學(xué)習(xí)的模態(tài)表征學(xué)習(xí),分為跨模態(tài)統(tǒng)一表征學(xué)習(xí)和跨模態(tài)協(xié)同表征學(xué)習(xí)兩個主要研究方向。隨著深度學(xué)習(xí)技術(shù)的興起,國內(nèi)研究者在協(xié)同表征學(xué)習(xí)方面貢獻(xiàn)了越來越多高質(zhì)量高影響力的工作,對于協(xié)同表征學(xué)習(xí),進(jìn)行了更為細(xì)粒度的協(xié)同約束,同時根據(jù)模態(tài)特點設(shè)計了多尺度、多層級的編碼模塊以及匹配模塊。

3.2 多模態(tài)大模型表征學(xué)習(xí)

近年國際上主要科研機(jī)構(gòu)和大型企業(yè)均在抓緊布局大模型技術(shù),國際主要機(jī)構(gòu)XGOpenAI、谷歌、微軟、臉書和英偉達(dá)等,國內(nèi)華為、阿里巴巴、百度、中國科學(xué)院自動化研究所和清華大學(xué)等眾多科研機(jī)構(gòu)紛紛加入研發(fā)賽道,大模型成果不斷推陳出新。多模態(tài)大模型在2019 年前后的早期工作主要由國外相關(guān)學(xué)者和研究機(jī)構(gòu)展開,其工作集中于面向多模態(tài)理解任務(wù)的多模態(tài)預(yù)訓(xùn)練模型,設(shè)計并提出了一系列經(jīng)典的多模態(tài)預(yù)訓(xùn)練方法。在2020年前后,國內(nèi)學(xué)者逐漸發(fā)力,相關(guān)研究開始逐漸占據(jù)主流并貢獻(xiàn)了大量的優(yōu)越方法。特別是隨著多模態(tài)大模型表征學(xué)習(xí)在多模態(tài)任務(wù)的廣泛應(yīng)用,近年部分國內(nèi)團(tuán)隊已實現(xiàn)國際領(lǐng)先水平,同時還針對中文和多語言背景下的多模態(tài)大模型學(xué)習(xí)進(jìn)行了深入探索。

3.3 圖像到文本的跨模態(tài)轉(zhuǎn)換

3.3.1 圖像語義描述

考慮到圖像語義描述生成現(xiàn)實應(yīng)用的需求,國內(nèi)外在圖像語義描述任務(wù)上的差異主要體現(xiàn)在對中英語種的關(guān)注程度,國際上更多地進(jìn)行英文描述生成的研究,而國內(nèi)近年來對中文描述生成的關(guān)注程度越來越高。從方法上,國內(nèi)外研究團(tuán)隊主流的研究方向基本一致,都是以編碼器—解碼器結(jié)構(gòu)為載體,通過不同形式的注意力機(jī)制變種抽取不同類型的多模態(tài)特征信息,以減小圖文模態(tài)間語義鴻溝為橋梁,實現(xiàn)更準(zhǔn)確或更有吸引力的描述生成。代表性成果包括田楓等人(2021)、廖雷雙(2021)、Kavi等人(2022)以及Das和Singh(2022)的工作。

3.3.2 視頻語義描述

在視頻語義描述領(lǐng)域,國外研究者為學(xué)術(shù)界提供了很多基礎(chǔ)性的思路以及解決方案,涉及相關(guān)基礎(chǔ)性網(wǎng)絡(luò)的提出、數(shù)據(jù)集的搭建、任務(wù)的定義以及評價指標(biāo)的設(shè)定,比較好地將視頻到語言生成任務(wù)的評測數(shù)據(jù)集構(gòu)建起來,供研究者一同參考。相比于國外研究,國內(nèi)的研究在數(shù)據(jù)集以及評價指標(biāo)和任務(wù)定義方面有所不足,但是研究者可以很好地發(fā)掘任務(wù)過程中遇到的一些關(guān)鍵性問題并給予解決方案,從細(xì)粒度的層次不斷將任務(wù)方法完善成熟。

3.3.3 視頻字幕語義描述

基于電影/卡通/電視節(jié)目實現(xiàn)視頻領(lǐng)域的多模態(tài)任務(wù)早期主要由國外學(xué)者和相關(guān)機(jī)構(gòu)展開,其工作主要集中于數(shù)據(jù)集的制作以輔助實現(xiàn)其他多模態(tài)任務(wù)。自2020 年視頻字幕語義描述任務(wù)提出后,通過字幕輔助模型學(xué)習(xí)更加高級的語義表征這一方向展開了研究熱潮。國內(nèi)學(xué)者從模態(tài)間的表征學(xué)習(xí)本身出發(fā),將研究重點集中在縮小視頻和字幕這兩種不同模態(tài)之間的語義鴻溝中,相關(guān)的研究也開始逐漸占據(jù)主流,特別在短視頻描述領(lǐng)域處于國際先進(jìn)水平。

3.3.4 變化語義描述

近年來國內(nèi)外的學(xué)術(shù)機(jī)構(gòu)和工業(yè)界對變化語義描述的關(guān)注程度顯著上升,一方面是由于圖像大數(shù)據(jù)的應(yīng)用場景和用戶需求正在發(fā)生巨變;另一方面是由于人工智能技術(shù)的飛速發(fā)展引領(lǐng)了新一輪的技術(shù)革新。變化語義描述領(lǐng)域早期工作主要由國外相關(guān)學(xué)者和研究機(jī)構(gòu)展開。約2021 年前后,國內(nèi)學(xué)者逐漸發(fā)力,相關(guān)研究開始逐漸占據(jù)主流并貢獻(xiàn)了大量的優(yōu)越方法,部分國內(nèi)團(tuán)隊已實現(xiàn)國際領(lǐng)先水平。

3.3.5 視覺問答

國外視覺問答的研究主要集中在發(fā)展規(guī)模更大的、更平衡的數(shù)據(jù)集以及提出表達(dá)能力更強(qiáng)的多模態(tài)融合方法。國內(nèi)的視覺問答研究在提出表達(dá)能力更強(qiáng)的融合模型的基礎(chǔ)上,還聚焦于提高模型的可解釋性與泛化能力等方面。

4 發(fā)展趨勢與展望

4.1 傳統(tǒng)跨模態(tài)表征學(xué)習(xí)

隨著大模型和預(yù)訓(xùn)練技術(shù)的興起,跨模態(tài)表征學(xué)習(xí)愈加受到了上下游任務(wù)研究者的關(guān)注。研究者開始嘗試通過大規(guī)模預(yù)訓(xùn)練模型在海量訓(xùn)練數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,從而學(xué)習(xí)到高質(zhì)量的跨模態(tài)表征信息,從而為下游具體跨模態(tài)任務(wù)提供便利。在訓(xùn)練成本巨大的條件下,如何對下游任務(wù)設(shè)計通用的跨模態(tài)預(yù)訓(xùn)練框架是表征學(xué)習(xí)中亟待解決的問題。同時,盡管當(dāng)前基于預(yù)訓(xùn)練的表征學(xué)習(xí)能夠獲得較高質(zhì)量的模態(tài)表征,但其可解釋性仍然較差,如何通過傳統(tǒng)跨模態(tài)表征學(xué)習(xí)的研究成果對大模型表征的可解釋性進(jìn)行提升是需要探索的方向。

4.2 多模態(tài)大模型表征學(xué)習(xí)

在多模態(tài)數(shù)據(jù)表征學(xué)習(xí)方面,多模態(tài)大模型全面顛覆了傳統(tǒng)方法,開創(chuàng)了多模態(tài)數(shù)據(jù)分析理解的新紀(jì)元。多模態(tài)大模型強(qiáng)大的自監(jiān)督學(xué)習(xí)與通用知識遷移能力,大幅降低了具體任務(wù)上對人工標(biāo)注數(shù)據(jù)的依賴程度。目前,多模態(tài)大模型表征學(xué)習(xí)在多種任務(wù)上突破了傳統(tǒng)方法的性能缺陷,取得了飛躍式的發(fā)展。未來“大數(shù)據(jù)+大模型”這樣一種研究范式或還將繼續(xù),應(yīng)關(guān)注預(yù)訓(xùn)練數(shù)據(jù)、基礎(chǔ)模型、自監(jiān)督學(xué)習(xí)以及下游任務(wù)模型適配等核心問題,力爭實現(xiàn)面向大數(shù)據(jù)的多模態(tài)大模型的高效魯棒計算與應(yīng)用部署。具體來說,1)構(gòu)建高質(zhì)量大規(guī)模的多模態(tài)關(guān)聯(lián)數(shù)據(jù)集,實現(xiàn)基于全網(wǎng)信息的多模態(tài)關(guān)聯(lián)數(shù)據(jù)的自動收集與智能清洗;2)基于Transformer 模型的優(yōu)化改進(jìn)甚至升級替代,實現(xiàn)面向大規(guī)模多模態(tài)弱關(guān)聯(lián)數(shù)據(jù)的魯棒自監(jiān)督學(xué)習(xí)與高效計算;3)優(yōu)化設(shè)計自監(jiān)督學(xué)習(xí)算法,并充分考慮多模態(tài)數(shù)據(jù)的弱關(guān)聯(lián)、有噪聲且存在模態(tài)缺失等問題,實現(xiàn)多模態(tài)信息的細(xì)粒度語義關(guān)聯(lián);4)面向下游任務(wù)的模型微調(diào),并輔以模型輕量化、推理加速等手段,實現(xiàn)大模型的低代價遷移學(xué)習(xí)與高效應(yīng)用部署。

4.3 圖像到文本的跨模態(tài)轉(zhuǎn)換

在圖像語義描述生成領(lǐng)域,仍然有許多有前景的研究方向值得關(guān)注,如包括之前的風(fēng)格化描述在內(nèi),現(xiàn)有模型在生成更加豐富有趣的描述方面仍然有提高的空間;另外,無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在未來可能會受到更多的歡迎;此外,現(xiàn)有評估圖像語義描述生成質(zhì)量的常用指標(biāo)大多仍來自于傳統(tǒng)機(jī)器翻譯任務(wù),設(shè)計客觀全面的評價指標(biāo)有助于促進(jìn)現(xiàn)有方法的進(jìn)步。

視頻語義描述任務(wù)一直受國內(nèi)外學(xué)術(shù)界、工業(yè)界廣泛關(guān)注,原因在于其本身的任務(wù)難度頗高、同時非常貼近人們的實際生活。隨著互聯(lián)網(wǎng)的不斷發(fā)展,視頻數(shù)據(jù)爆炸性增加,完全依賴人工標(biāo)注的模型訓(xùn)練方法已經(jīng)漸漸失去了競爭力,未來該任務(wù)的發(fā)展勢必趨向于充分利用當(dāng)下非常成功的跨模態(tài)大模型先驗知識,在自監(jiān)督、半監(jiān)督條件下從“大數(shù)據(jù)、小模型”向“大模型、小數(shù)據(jù)”方向靠攏。

當(dāng)前,跨媒體綜合學(xué)習(xí)、知識有效獲取與利用以及泛化推理是前沿研究熱點問題,受益于視頻和字幕之間信息的交互式學(xué)習(xí),視頻+字幕語義描述的研究不僅可以增強(qiáng)視覺模態(tài)內(nèi)的理解,也可以提高模型的認(rèn)知能力,使模型在人工智能的類人規(guī)劃和自我學(xué)習(xí)能力方面實現(xiàn)新的突破。

變化語義描述在圖文轉(zhuǎn)換領(lǐng)域還是一個新型課題,雖然國內(nèi)外學(xué)術(shù)機(jī)構(gòu)已經(jīng)取得了一定的研究成果,但現(xiàn)在的數(shù)據(jù)集無論在規(guī)模還是設(shè)定方面都與真實場景相距甚遠(yuǎn)。如何準(zhǔn)確定位和描述動態(tài)環(huán)境中的復(fù)雜變化仍然需要國內(nèi)外研究團(tuán)隊進(jìn)行深入探索。

視覺問答領(lǐng)域存在的主要挑戰(zhàn)為存在不同模態(tài)的模型偏好以及與模型本身的表達(dá)能力有限的問題。因此視覺問答未來的主要發(fā)展方向為構(gòu)建更全面均衡的數(shù)據(jù)集以及提高模型的可解釋性、魯棒性與泛化能力。

4.4 圖像生成

首先,現(xiàn)有的圖像生成技術(shù)已有能力生成高分辨率的擬真圖像,但在圖像生成多樣性方面仍然存在欠缺,而可生成圖像的多樣性高低是圖像生成技術(shù)的重要標(biāo)準(zhǔn)。通過單個模型生成開放世界的圖像是實際應(yīng)用場景對圖像模型的現(xiàn)實要求。因此,未來的圖像生成技術(shù)發(fā)展方向之一是生成模型可生成的圖像多樣化擴(kuò)展,以滿足實際應(yīng)用場景需求。其次,現(xiàn)有的圖像生成技術(shù)還無法實現(xiàn)對生成的圖像進(jìn)行解耦的精細(xì)化控制?;诂F(xiàn)有的技術(shù),當(dāng)試圖改變生成的圖像中某一個對象時,圖像的其余部分會不可避免地發(fā)生改變,無法對圖像進(jìn)行精細(xì)地控制與編輯。因此,設(shè)計可解耦的生成模型結(jié)構(gòu)以達(dá)到上述目標(biāo)也是圖像生成技術(shù)未來的發(fā)展方向。

致 謝本文由中國圖象圖形學(xué)學(xué)會多媒體專業(yè)委員會組織撰寫,該專委會鏈接為http://www.csig.org.cn/detail/2391。

猜你喜歡
編碼器語義模態(tài)
語言與語義
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測的8B/IOB編碼器設(shè)計
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
電子器件(2015年5期)2015-12-29 08:42:24
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
認(rèn)知范疇模糊與語義模糊
多總線式光電編碼器的設(shè)計與應(yīng)用
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
宜春市| 繁昌县| 新绛县| 晋江市| 孟津县| 邵武市| 建宁县| 吴旗县| 商河县| 轮台县| 新密市| 惠水县| 青海省| 南宫市| 齐齐哈尔市| 宁明县| 昆明市| 浪卡子县| 香港 | 西和县| 彝良县| 静海县| 剑川县| 九龙县| 开化县| 安国市| 晴隆县| 景德镇市| 昌平区| 九龙县| 彰武县| 双峰县| 兴海县| 商都县| 五指山市| 突泉县| 绵阳市| 大厂| 大姚县| 曲松县| 千阳县|