国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于四元組度量損失的多模態(tài)變分自編碼模型

2023-01-03 03:28陳亞瑞楊劍寧吳世偉王曉捷
關(guān)鍵詞:模態(tài)向量維度

陳亞瑞,楊劍寧,吳世偉,劉 垚,王曉捷

(天津科技大學(xué)人工智能學(xué)院,天津 300457)

多模態(tài)數(shù)據(jù)處理廣泛存在于自然科學(xué)、工程技術(shù)等領(lǐng)域,不同模態(tài)的數(shù)據(jù)往往是對(duì)同一事物不同形式的表示,又各自具有獨(dú)特的性質(zhì)[1-3].在醫(yī)療健康研究領(lǐng)域,智能手術(shù)室中的多模態(tài)數(shù)據(jù)包括場(chǎng)景 RGB圖像、深度圖像、紅外圖像、音頻等,不同模態(tài)數(shù)據(jù)包含的信息既相互冗余又相互補(bǔ)充[1].在機(jī)器人等智能設(shè)備工程技術(shù)領(lǐng)域中,設(shè)備的深度攝像頭會(huì)同時(shí)采集深度圖像與 RGB圖像,當(dāng)受光線等外部因素影響某模態(tài)圖像成像質(zhì)量時(shí),可利用另外的模態(tài)圖像進(jìn)行輔助去噪[1-4].

采用概率生成模型處理多模態(tài)數(shù)據(jù)是一個(gè)重要的研究領(lǐng)域,早期基于能量的玻爾茲曼機(jī)與自編碼器模型在處理多模態(tài)數(shù)據(jù)中已經(jīng)取得了較好的效果.隨著傳感器技術(shù)的發(fā)展,人類對(duì)數(shù)據(jù)的獲取無(wú)論從粒度上還是量級(jí)上都有了很大的飛躍,獲取的數(shù)據(jù)本身往往具有高維度、海量性等特點(diǎn),給多模態(tài)數(shù)據(jù)研究帶來(lái)了更大的難度與挑戰(zhàn).早期的模型不能有效地處理大規(guī)模數(shù)據(jù)場(chǎng)景下的模型訓(xùn)練與推理問(wèn)題,而變分自編碼(variational auto-encoder,VAE)[5-6]的提出很好地解決了該問(wèn)題.研究基于 VAE框架通過(guò)建模數(shù)據(jù)的條件生成過(guò)程,實(shí)現(xiàn)模態(tài)之間的數(shù)據(jù)交叉與轉(zhuǎn)換生成,但這些工作未從生成角度進(jìn)行多模態(tài)數(shù)據(jù)建模,限制了模型的表示能力[7-11].對(duì)多模態(tài)聯(lián)合數(shù)據(jù)分布的建模包括聯(lián)合多模態(tài)變分自編碼器(joint multimodal variational auto-encoder,JMVAE)模型[12]、多模態(tài)變分自編碼器(multimodal variational autoencoder,MVAE)模型[13]和專家混合多模態(tài)變分自編碼器(mixture-of-experts multimodal variational autoencoder,MMVAE)模型[14]等.這些模型通過(guò)建模多模態(tài)數(shù)據(jù)聯(lián)合概率分布實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的表示、條件生成,比分別建模不同方向上條件概率分布的訓(xùn)練開(kāi)銷更低,數(shù)據(jù)表示更有效.但是,這些模型沒(méi)有對(duì)數(shù)據(jù)進(jìn)行解耦表示.文獻(xiàn)[15]提出了解耦的多模態(tài)變分自編碼器(disentangling multimodal variational autoencoder,DMVAE)模型,該模型通過(guò)將模態(tài)共享信息與私有信息分開(kāi)表示,并最小化隱向量的互信息進(jìn)行解耦表示,通過(guò)噪聲對(duì)抗估計(jì)損失在隱空間對(duì)齊共享隱向量,效果較好,但該模型仍然存在數(shù)據(jù)生成質(zhì)量不清晰與共享私有信息抽取不準(zhǔn)確的問(wèn)題.

已有的研究工作對(duì)不同模態(tài)數(shù)據(jù)之間的共享信息沒(méi)有顯式的約束,這使多模態(tài)數(shù)據(jù)的共享信息與私有信息不能被高效地解耦表示,進(jìn)而導(dǎo)致信息抽取不準(zhǔn)確、生成數(shù)據(jù)模糊.本文提出基于四元組度量損失的多模態(tài)變分自編碼(quadruplet metric loss based multimodal variational auto-encoder,Q-MVAE)模型,在分開(kāi)建模共享信息與私有信息的基礎(chǔ)上,建模不同模態(tài)的聯(lián)合概率分布與單模態(tài)邊緣概率分布,并且引入了四元組度量損失約束共享隱向量在隱空間對(duì)齊,使模型獲取更好的數(shù)據(jù)生成與表示能力.模型可以分別有效推理多模態(tài)數(shù)據(jù)的共享表示和私有表示,這些表示不僅能夠進(jìn)行準(zhǔn)確的、高質(zhì)量的多模態(tài)數(shù)據(jù)交叉生成與轉(zhuǎn)換生成,而且能夠用于多模態(tài)數(shù)據(jù)分類等下游任務(wù).相關(guān)的定性與定量實(shí)驗(yàn)證實(shí)了本文模型擁有更好的數(shù)據(jù)表示能力與生成能力,同時(shí)表明模型對(duì)私有信息生成因子展現(xiàn)了一定程度的解耦表示能力.

1 相關(guān)工作

1.1 多模態(tài)概率生成模型

早期基于能量的玻爾茲曼機(jī)與自動(dòng)編碼器模型的生成模型[8-10]在視頻、音頻等多模態(tài)數(shù)據(jù)下的語(yǔ)音識(shí)別任務(wù)中取得了較好的識(shí)別準(zhǔn)確率.這些模型往往采用馬爾可夫鏈蒙特卡羅方法訓(xùn)練模型,難以處理高維大數(shù)據(jù)的場(chǎng)景.研究人員[5-6]提出了 VAE框架,通過(guò)引入變分推理與重參數(shù)化技巧,使生成模型可以在大數(shù)據(jù)場(chǎng)景下進(jìn)行有效訓(xùn)練.這使以 VAE為框架的多模態(tài)概率生成模型成了多模態(tài)數(shù)據(jù)處理領(lǐng)域的重要研究方向.Kingma等[7]和 Sohn等[8]在 VAE框架的基礎(chǔ)上提出了條件變分自編碼器(conditional variational auto-encoder,CVAE),通過(guò)最大化條件似然,可以基于標(biāo)簽等信息進(jìn)行有條件的數(shù)據(jù)生成.基于 CVAE的改進(jìn)模型[9-10]可以學(xué)習(xí)模態(tài)間的條件關(guān)系,但是條件關(guān)系是單方向的,模型的推理表示能力有限.Wang等[11]提出了雙向變分典型相關(guān)性分析模型 (bidirectional variational canonical,correlation analysis,BiVCCA),基于典型相關(guān)性分析思想,設(shè)計(jì)學(xué)習(xí)兩模態(tài)數(shù)據(jù)私有信息的編碼器,實(shí)現(xiàn)了數(shù)據(jù)交叉生成,但是其條件關(guān)系也是單向的,模型訓(xùn)練開(kāi)銷較大,難以擴(kuò)展到兩模態(tài)以上場(chǎng)景.

Suzuki等[12]提出了JMVAE模型,該模型直接建模多模態(tài)數(shù)據(jù)的聯(lián)合分布,這使其比建模條件分布的模型具有更低的訓(xùn)練開(kāi)銷,也可以有效地從聯(lián)合分布中推導(dǎo)條件分布,然而該模型也存在計(jì)算開(kāi)銷會(huì)隨著模態(tài)數(shù)目的擴(kuò)展呈指數(shù)級(jí)增長(zhǎng)的問(wèn)題.Wu等[13]提出了MVAE模型,Shi等[14]提出了MMVAE模型,這些模型都直接建模多模態(tài)數(shù)據(jù)的聯(lián)合分布,并利用邊緣后驗(yàn)分布擬合聯(lián)合后驗(yàn)分布.其中,MVAE模型通過(guò)引入專家積函數(shù)[16](product of experts,PoE)對(duì)邊緣后驗(yàn)分布進(jìn)行幾何平均運(yùn)算,MMVAE通過(guò)引入專家和函數(shù)(mixture of experts,MoE)對(duì)邊緣后驗(yàn)分布進(jìn)行算術(shù)平均運(yùn)算,都較好地解決了多模態(tài)下的計(jì)算開(kāi)銷問(wèn)題,也一定程度解決了缺失模態(tài)下的推理表示問(wèn)題.Sutter等[17]提出了專家混合積函數(shù)變分自編碼(mixture,of products of experts variational autoencoder,MoPoE-VAE)模型,該模型提出了一個(gè)更泛化的多模態(tài)生成模型的下界,整合了 MVAE與MMVAE模型的特點(diǎn),并在其理論框架內(nèi)將這兩個(gè)模型視為其模型的特殊情況.但是,上述工作都未考慮多模態(tài)數(shù)據(jù)共享信息與私有信息的解耦表示.Daunhawer等[15]提出了DMVAE模型,該模型對(duì)每個(gè)模態(tài)的共享信息與私有信息都進(jìn)行了解耦表示,并引入噪聲對(duì)抗估計(jì)損失在隱空間對(duì)齊共享隱向量,有效地提高了模型的數(shù)據(jù)表示能力與生成能力,但該模型沒(méi)有顯式地約束共享隱向量,導(dǎo)致該模型存在信息抽取不準(zhǔn)確以及生成的數(shù)據(jù)質(zhì)量模糊的問(wèn)題.

1.2 度量學(xué)習(xí)

利用樣本之間的相對(duì)距離關(guān)系學(xué)習(xí)數(shù)據(jù)表示的度量學(xué)習(xí)與對(duì)比學(xué)習(xí)在模式識(shí)別、表示學(xué)習(xí)領(lǐng)域取得了出色的效果[18-21].Schroff等[18]提出了三元組損失并應(yīng)用于人臉識(shí)別中,其作為一種度量學(xué)習(xí)方法通過(guò)約束樣本標(biāo)簽,使相同的人臉圖像在編碼空間的距離小于不同樣本標(biāo)簽來(lái)學(xué)習(xí)人臉的向量表示.Chen等[22]提出了四元組損失并將其應(yīng)用于行人重識(shí)別任務(wù)中,四元組損失能夠約束模型在特征空間更好地識(shí)別不同攝像頭視角下的行人.Ishfaq等[23]將三元組損失引入 VAE模型,利用不同標(biāo)簽的三元組正負(fù)樣本進(jìn)行對(duì)比訓(xùn)練,數(shù)據(jù)表示效果較好,同時(shí)在隱空間編碼了更多的相似語(yǔ)義結(jié)構(gòu)信息.Shi等[24]提出利用樣本之間的相關(guān)性關(guān)系進(jìn)行對(duì)比學(xué)習(xí),有效提升了MVAE、MMVAE等多模態(tài)生成模型的訓(xùn)練效率.

本文受到上述工作的啟發(fā),在將共享信息、私有信息分開(kāi)推理表示的基礎(chǔ)上,將四元組度量損失引入概率生成模型中,以顯式約束模型編碼網(wǎng)絡(luò)學(xué)習(xí)到不同模態(tài)的共享信息,在模型訓(xùn)練時(shí)同時(shí)考慮數(shù)據(jù)完整與模態(tài)數(shù)據(jù)缺失的情況,以使模型具備在模態(tài)數(shù)據(jù)缺失情況下的推理表示能力與生成能力.

2 背景知識(shí)

本文模型基于 VAE[5-6]概率生成模型框架,該框架使模型可以在高維大規(guī)模數(shù)據(jù)場(chǎng)景下,使用隨機(jī)梯度下降方法進(jìn)行有效訓(xùn)練.

VAE框架假設(shè)給定觀測(cè)數(shù)據(jù)x,以及對(duì)應(yīng)的隱變量 z,其 生 成 過(guò) 程 為 x ~ pθ(x|z ),其 中 z ~ p(z)=N ( 0,I),θ是生成器網(wǎng)絡(luò)p的參數(shù).VAE的目標(biāo)是最大化式(1).

但是,式(1)是不可計(jì)算的,VAE轉(zhuǎn)而計(jì)算其證據(jù)下界(evidence lower bound,ELBO),即

式 中 : Eqφ(z|x)[l o g pθ(x|z)]為 負(fù) 重 構(gòu) 誤 差 ,DKL[[qφ(z|x) ||p(z) ]]為正則化項(xiàng);pθ(x|z)為生成器網(wǎng)絡(luò),參數(shù)為 θ;qφ(z|x)為編碼器網(wǎng)絡(luò),參數(shù)為φ.VAE的目標(biāo)是利用參數(shù) θ和φ最大化式(2).為了使其能夠在神經(jīng)網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,提出了對(duì)隱變量z進(jìn)行重參數(shù)化,即假設(shè)qφ(z|x)為高斯分布 N (z;μ, d iag(σ2) ),φ={μ,σ2} ,將 z ~ qφ(z|x)重參數(shù)化為z =μ+σ⊙ε,其中ε~ N(0,I).以 VAE為框架的模型訓(xùn)練完成后,就可以得到 1個(gè)編碼網(wǎng)絡(luò)和 1個(gè)生成網(wǎng)絡(luò).編碼網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行表示推理,生成網(wǎng)絡(luò)隨機(jī)生成、重構(gòu)數(shù)據(jù)[5, 25-26].

3 本文模型

3.1 模型架構(gòu)

針對(duì)多模態(tài)數(shù)據(jù)的表示與生成問(wèn)題,本文提出Q-MVAE模型,模型假設(shè)多模態(tài)數(shù)據(jù)生成過(guò)程由共享隱向量與私有隱向量共同決定,該假設(shè)已經(jīng)在最新的一些研究工作中展現(xiàn)了其優(yōu)越性[15].Q-MVAE模型通過(guò)共享隱向量與私有隱向量的組合生成特定模態(tài)數(shù)據(jù),在推理過(guò)程中,模型也分別推理每個(gè)模態(tài)數(shù)據(jù)的共享隱向量與私有隱向量.對(duì)于多模態(tài)數(shù)據(jù)共享信息抽取與訓(xùn)練,本文提出了四元組度量損失,用于在隱空間對(duì)齊共享隱向量,顯式地約束編碼網(wǎng)絡(luò)學(xué)習(xí)不同模態(tài)數(shù)據(jù)的共享信息,模型架構(gòu)如圖1所示.

圖1 Q-MVAE模型架構(gòu)圖Fig.1 Architecture of Q-MVAE model

3.2 模型生成與推理過(guò)程

Q-MVAE模型可以處理兩模態(tài)及以上模態(tài)數(shù)量的多模態(tài)數(shù)據(jù),本文以兩模態(tài)數(shù)據(jù)(x,y)為例進(jìn)行推導(dǎo),假設(shè)不同模態(tài)數(shù)據(jù)樣本包含相同的共享信息與不同的私有信息,令生成數(shù)據(jù)(x,y)的共享隱向量為 z,私有隱向量分別為hx與hy.模型對(duì)數(shù)據(jù)的聯(lián)合概率分布建模為

其中:p ( z) 、 p ( hx)、 p (hy)分別為隱向量 z、hx與hy的先驗(yàn)分布,均服從各向同性的高斯分布;pθx( x |z,hx)和 pθy( y|z,hy)分別為 x和 y的生成器,參數(shù)為θ={θx,θy}.對(duì)于兩模態(tài)數(shù)據(jù)集,模型的目標(biāo)是最大化數(shù)據(jù)聯(lián)合概率分布與邊緣概率分布的對(duì)數(shù)似然函數(shù),以得到模型參數(shù).

為了符號(hào)表示簡(jiǎn)便,下文以單觀測(cè)樣本的多模態(tài)數(shù)據(jù)對(duì)(x,y)為例進(jìn)行推導(dǎo),單觀測(cè)數(shù)據(jù)對(duì)的邊緣概率分布為

但是,式(4)中的積分是難解的,本文采用變分推理的方法進(jìn)行近似求解,引入變分分布 q ( z,hx,hy|x,y)作為真實(shí)后驗(yàn)分布的近似,對(duì)似然函數(shù)進(jìn)行變換

對(duì)變分分布進(jìn)行分解

其中:qφhx(hx|x)與 qφhy(hy|y)為Q-MVAE模型的私有信息編碼器,參數(shù)分別為

將式(3)與式(6)代入式(5)中,可得到lnpθ(x,y)的變分下界

其中:q(z|x,y)是x和y的共享隱向量近似后驗(yàn)概率分布.當(dāng)x和y同時(shí)存在時(shí),模型在訓(xùn)練時(shí)采用專家積函數(shù)(PoE)[13,16]的方法將不同模態(tài)的邊緣后驗(yàn)分別整合為聯(lián)合后驗(yàn)

其中:p(z)為先驗(yàn)分布,服從標(biāo)準(zhǔn)高斯分布;qφzx(z | x)與(z | y)為 Q-MVAE模型的共享信息編碼器,參數(shù)分別為、,服從各向同性的高斯分布.

模型同時(shí)、同步針對(duì)數(shù)據(jù)缺失情況下進(jìn)行訓(xùn)練,以使模型擁有數(shù)據(jù)缺失情況下的數(shù)據(jù)推理與生成能力.式(9)與式(10)為模態(tài)數(shù)據(jù)缺失下的概率分布.

對(duì)應(yīng)的邊緣概率分布分別為

相應(yīng)地引入變分分布 q (z,hx|x)與 q (z,hy|y),對(duì)式(11)與式(12)進(jìn)行變換

對(duì)變分分布進(jìn)行分解

將式(15)與式(16)分別代入式(13)與式(14)中,可分別得到lnpθ( x)、lnpθ(y)的變分下界

3.3 四元組度量損失

在 VAE框架下,直接最大化式(8)、式(17)、式(18)即可進(jìn)行模型訓(xùn)練,由于本文提出的 Q-MVAE模型對(duì)每個(gè)模態(tài)數(shù)據(jù)的共享信息與私有信息進(jìn)行分開(kāi)推理表示,因此不同模態(tài)的共享隱向量需要在隱空間進(jìn)行對(duì)齊.基于該問(wèn)題,本文引入四元組度量損失,通過(guò)顯式地約束不同模態(tài)數(shù)據(jù)樣本在隱空間的度量對(duì)比關(guān)系,使蘊(yùn)含相同共享信息特征的隱向量之間的度量盡可能小,使蘊(yùn)含不同共享信息特征的隱向量之間的度量盡可能大.四元組的定義為(x,y,x-, y-),其中x和y表示描述同一對(duì)象的兩種模態(tài)數(shù)據(jù)樣本,蘊(yùn)含相同的共享信息,x-和y-表示對(duì)應(yīng)的負(fù)樣本,與對(duì)應(yīng)的正樣本x和y蘊(yùn)含不同的共享信息.以圖2為例,圖中為兩種模態(tài)的數(shù)字圖像,分別是 MNIST[27]手寫(xiě)數(shù)字圖像與 SVHN[28]街景門(mén)牌號(hào)數(shù)字圖像,定義數(shù)字類別特征為共享信息,一個(gè)四元組可由圖中的樣本組成,x和 y分別為數(shù)字類別為“2”的 MNIST與 SVHN 圖像,x-為數(shù)字類別為“5”的 MNIST圖像,y-為數(shù)字類別為“8”的 SVHN 圖像,x-和y-也可以是“2”以外的任何數(shù)字類別的圖像,x-與y-的數(shù)字類別關(guān)系沒(méi)有要求,可相同也可不同.

圖2 四元組樣本示例Fig.2 Samples of quadruplet

四元組度量損失的約束目標(biāo)為

其中μx(x)與μy( y )分別表示取 qφzx(z | x)與 qφzy(z |y )輸出結(jié)果均值 μ的部分.式(19)右側(cè)的第一項(xiàng)與第二項(xiàng)分別約束正樣本對(duì) x和 y之間的度量小于正樣本與負(fù)樣本x-和y-之間的度量,α1為對(duì)應(yīng)超參數(shù);第三項(xiàng)約束正樣本對(duì) x和 y之間的度量小于任意兩個(gè)不同模態(tài)數(shù)據(jù)負(fù)樣本之間的度量,α2為對(duì)應(yīng)超參數(shù).

3.4 模型最終的目標(biāo)函數(shù)與訓(xùn)練

聯(lián)合式(8)、式(17)—式(19)可以得到 Q-MVAE模型最終的目標(biāo)函數(shù)為

其中β為超參數(shù).模型同時(shí)考慮模態(tài)數(shù)據(jù)完整與部分缺失情況下的訓(xùn)練.在模態(tài)數(shù)據(jù)完整情況下,模型對(duì)不同模態(tài)數(shù)據(jù)的共享隱變量 z通過(guò)PoE進(jìn)行積函數(shù)混合,由于編碼網(wǎng)絡(luò)均為高斯分布,所以混合后仍為高斯分布,其均值與方差的計(jì)算具有解析解[13,16],可直接用于模型訓(xùn)練.在模態(tài)數(shù)據(jù)缺失情況下,模型直接使用編碼網(wǎng)絡(luò) qφzx(z | x)與 qφzy(z | y)的輸出結(jié)果 z作為共享隱變量 z.對(duì)于 Lquad(x,y,x-, y-)部分的訓(xùn)練,需要為正樣本對(duì) x和 y選擇相應(yīng)的負(fù)樣本x-和y-.本文先從數(shù)據(jù)集中隨機(jī)選取樣本作為負(fù)樣本,然后利用訓(xùn)練中的模型篩選負(fù)樣本進(jìn)行模型訓(xùn)練,最后將模型最終的目標(biāo)函數(shù)整體取負(fù),就可以使用梯度下降方法進(jìn)行模型訓(xùn)練與優(yōu)化.

4 實(shí) 驗(yàn)

4.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用多模態(tài)數(shù)據(jù)集 MNIST-SVHN[14]評(píng)估Q-MVAE模型的性能.數(shù)據(jù)集包含 MNIST[27]手寫(xiě)數(shù)字圖像(分辨率為 1×28×28)、SVHN[28]街道門(mén)牌號(hào)數(shù)字圖像(分辨率為 3×32×32)兩種模態(tài)的數(shù)字圖像,文獻(xiàn)[14]將上述兩種模態(tài)的每張數(shù)字圖像與另一種模態(tài)相同數(shù)字類別的20張圖像分別組成擁有相同數(shù)字類別的圖像對(duì),形成了 MNIST-SVHN數(shù)據(jù)集,包括1682040對(duì)訓(xùn)練樣本,300000對(duì)測(cè)試樣本.

在該數(shù)據(jù)集下,實(shí)驗(yàn)訓(xùn)練迭代次數(shù)為 10,批大小為 128,隱空間維度為 20,訓(xùn)練中的超參數(shù)取值為{α1,α2,β} = { 2 ,0.8,1500},使用 Adam[29]進(jìn)行訓(xùn)練優(yōu)化,學(xué)習(xí)率為 0.0001.對(duì)于 MNIST模態(tài)圖像數(shù)據(jù)采用全連接神經(jīng)網(wǎng)絡(luò),對(duì)于 SVHN模態(tài)圖像數(shù)據(jù)采用卷積神經(jīng)網(wǎng)絡(luò),其中卷積核大小為 3×3,卷積步長(zhǎng)為2,填充值為 1.

4.2 數(shù)據(jù)生成

數(shù)據(jù)交叉生成與轉(zhuǎn)換生成是多模態(tài)生成模型的核心能力.由于 Q-MVAE模型將數(shù)據(jù)的共享信息與私有信息分開(kāi)推理表示,通過(guò)已知的條件模態(tài)數(shù)據(jù)樣本輸入相應(yīng)的共享信息編碼網(wǎng)絡(luò),得到樣本的共享隱向量,將其與從目標(biāo)模態(tài)數(shù)據(jù)的私有隱向量先驗(yàn)分布中采樣結(jié)合,再輸入目標(biāo)模態(tài)數(shù)據(jù)解碼網(wǎng)絡(luò),完成數(shù)據(jù)交叉生成.數(shù)據(jù)轉(zhuǎn)換生成與交叉生成類似,不同之處在于通過(guò)將已知的參考樣本輸入相應(yīng)私有信息編碼網(wǎng)絡(luò),得到私有隱向量,將其與之前獲得的共享隱向量結(jié)合輸入目標(biāo)模態(tài)數(shù)據(jù)解碼網(wǎng)絡(luò),完成數(shù)據(jù)轉(zhuǎn)換生成.

4.2.1 數(shù)據(jù)交叉生成

數(shù)據(jù)交叉生成實(shí)驗(yàn)包括定性與定量實(shí)驗(yàn),分別對(duì)比 MVAE[13]、MMVAE[14]、DMVAE[15]模型,其中DMVAE模型為目前MNIST-SVHN數(shù)據(jù)集[14]的數(shù)據(jù)交叉生成與轉(zhuǎn)換生成效果最好的模型之一.定性實(shí)驗(yàn)驗(yàn)證對(duì)比各模型的數(shù)據(jù)生成質(zhì)量與多樣性(圖3),定量實(shí)驗(yàn)驗(yàn)證對(duì)比各模型數(shù)據(jù)交叉生成的準(zhǔn)確性(表1).定量評(píng)估方法以測(cè)試集所有數(shù)據(jù)為條件樣本分別做MNIST到SVHN以及反方向的數(shù)據(jù)交叉生成,然后將交叉生成的圖像送入對(duì)應(yīng)模態(tài)數(shù)據(jù)的圖像分類器中進(jìn)行分類,計(jì)算分類結(jié)果與條件樣本標(biāo)簽匹配的準(zhǔn)確率.其中,圖像分類器指預(yù)先訓(xùn)練好的MNIST與 SVHN圖像分類器.為了確保公平性,本文實(shí)驗(yàn)采用文獻(xiàn)[14]公開(kāi)的圖像分類器.

圖3 交叉生成實(shí)驗(yàn)效果Fig.3 Cross generative results

表1 數(shù)據(jù)交叉生成準(zhǔn)確率實(shí)驗(yàn)結(jié)果Tab.1 Experiment results of data cross generative accuracy

圖3的生成效果圖中,每張第1行為已知的條件模態(tài)樣本,其余行表示生成的缺失模態(tài)樣本,具有隨機(jī)的私有信息,每一行的共享隱向量從對(duì)應(yīng)條件模態(tài)樣本中抽取且與私有隱向量相同.圖3(a)—圖3(d)為從條件 SVHN模態(tài)數(shù)據(jù)生成 MNIST模態(tài)數(shù)據(jù)的生成結(jié)果,結(jié)果表明:本文的Q-MVAE模型可以生成具有隨機(jī)風(fēng)格,且與已知樣本相同數(shù)字類別的清晰圖像.其中圖3(a)中第 1行生成數(shù)據(jù)具備較粗字體的風(fēng)格,第 4行生成數(shù)據(jù)具備較為纖細(xì)字體的風(fēng)格,第7行與第10行生成數(shù)據(jù)分別具備字體前傾和后傾角度的風(fēng)格,并且每張生成圖像與對(duì)應(yīng)條件樣本的數(shù)字條件均相同.各對(duì)比模型中,DMVAE模型也可以較為準(zhǔn)確地生成具備隨機(jī)風(fēng)格的圖像,如字體粗細(xì)與字體角度,但是其生成的圖像中部分圖像數(shù)字難以辨認(rèn)類別,如圖3(b)的第 3列與第 9列的部分生成圖像.MMVAE模型和 MVAE模型的生成圖像中僅有部分與條件樣本數(shù)字類別相同,生成的圖像也較為模糊,甚至不完整.圖3(e)—圖3(h)表示從條件MNIST模態(tài)數(shù)據(jù)生成SVHN模態(tài)數(shù)據(jù)的實(shí)驗(yàn)效果,結(jié)果表明:本文的 Q-MVAE模型可以生成統(tǒng)一字體與背景風(fēng)格的圖像.圖3(e)中的第 3行與第 6行的圖像背景左側(cè)嵌入了白色的粘連陰影,第8行的數(shù)字圖像有藍(lán)色和白色的背景.這些較為復(fù)雜的背景正是SVHN數(shù)據(jù)集的圖像風(fēng)格特征,DMVAE模型也可以將相應(yīng)的風(fēng)格特征嵌入生成圖像中,MMVAE模型與 MVAE模型不僅生成的數(shù)字模糊,而且沒(méi)有很好地抽取生成SVHN的風(fēng)格特征.

表1展示了 Q-MVAE的數(shù)據(jù)交叉生成準(zhǔn)確率,實(shí)驗(yàn)均在不同隨機(jī)種子下進(jìn)行了 5次獨(dú)立實(shí)驗(yàn).由表1可知:本文模型在兩模態(tài)不同方向上的交叉生成準(zhǔn)確率均超過(guò)了其他模型,其中從 SVHN到 MNIST方向的交叉生成準(zhǔn)確率比目前效果最好的 DMVAE模型提升了 4.9%,這與圖3的定性生成效果相吻合.根據(jù)已知的條件樣本,Q-MVAE可以很好地抽取其共享信息,并且能夠準(zhǔn)確地生成擁有該共享信息的其他模態(tài)數(shù)據(jù).

4.2.2 數(shù)據(jù)轉(zhuǎn)換生成

數(shù)據(jù)轉(zhuǎn)換生成實(shí)驗(yàn)為定性實(shí)驗(yàn),對(duì)比模型為DMVAE模型[15],轉(zhuǎn)換生成實(shí)驗(yàn)效果如圖4所示.圖4中每張效果圖的第一行為已知的條件樣本,提供共享信息(本實(shí)驗(yàn)為數(shù)字類別信息),第一列為已知的參考樣本,提供私有信息(本實(shí)驗(yàn)為字體與背景等風(fēng)格信息).從圖4中可以看出,Q-MVAE模型可以準(zhǔn)確抽取圖像的公有與私有信息,并且可以進(jìn)行相應(yīng)的轉(zhuǎn)換生成,生成質(zhì)量更為清晰.

圖4 轉(zhuǎn)換生成實(shí)驗(yàn)效果Fig.4 Translation generative experimental results

圖4(a)為MNIST到SVHN方向的轉(zhuǎn)換生成,生成的圖像均準(zhǔn)確地從條件樣本中抽取了數(shù)字類別信息,同時(shí)準(zhǔn)確地抽取了參考樣本的字體風(fēng)格與顏色背景信息.值得注意的是:圖4(a)第3行參考樣本中數(shù)字右側(cè)背景有粘連的白色背景特征被模型準(zhǔn)確地抽取到且成功嵌入生成圖像;第4行參考樣本原始圖像比較模糊,模型將該圖像的模糊當(dāng)作了私有信息進(jìn)行抽取并成功生成了相似風(fēng)格的圖像.DMVAE模型也基本可以進(jìn)行準(zhǔn)確的共享私有信息抽取與生成,但是圖4(b)第 3行生成效果中并沒(méi)有準(zhǔn)確抽取參考樣本的私有信息,而生成的是具有不同風(fēng)格的特征且較為模糊的圖像.圖4(c)為 SVHN到 MNIST方向的轉(zhuǎn)換生成.圖4(c)第 2行與第 4行成功抽取到參考樣本的相對(duì)粗壯字體風(fēng)格信息,第3行、第7行與第10行成功抽取到參考樣本的數(shù)字角度信息,并且都嵌入生成圖像中,整體生成質(zhì)量清晰準(zhǔn)確.圖4(d)的DMVAE模型生成質(zhì)量較為模糊,第8列生成圖像沒(méi)有準(zhǔn)確抽取共享信息,其將條件樣本的數(shù)字類別“6”錯(cuò)誤地轉(zhuǎn)換生成為數(shù)字類別“9”.

4.3 多模態(tài)數(shù)據(jù)分類

概率生成模型對(duì)數(shù)據(jù)的表示隱向量可被用于數(shù)據(jù)分類等下游任務(wù)[2].為了驗(yàn)證 Q-MVAE模型在下游任務(wù)中的性能,在 MNIST-SVHN多模態(tài)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),比較模型的多模態(tài)數(shù)據(jù)分類能力.將訓(xùn)練集所有樣本輸入模型的共享信息編碼網(wǎng)絡(luò),經(jīng)過(guò)專家積函數(shù)混合之后得到共享隱向量,與訓(xùn)練集樣本對(duì)應(yīng)的數(shù)字標(biāo)簽訓(xùn)練一個(gè)線性分類器,然后將測(cè)試集所有樣本分別輸入共享信息編碼網(wǎng)絡(luò),得到測(cè)試集數(shù)據(jù)樣本的共享隱向量,使用上述訓(xùn)練好的單個(gè)線性分類器可以同時(shí)對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行分類.多模態(tài)數(shù)據(jù)分類準(zhǔn)確率實(shí)驗(yàn)結(jié)果見(jiàn)表2.線性分類器是一個(gè)單層神經(jīng)網(wǎng)絡(luò),其參數(shù)與文獻(xiàn)[14]的公開(kāi)代碼一致,輸入維度為20,輸出維度為10.

表2 多模態(tài)數(shù)據(jù)分類準(zhǔn)確率Tab.2 Experiments of multimodal data classification accuracy

從表2可以看出,Q-MVAE模型的分類準(zhǔn)確率均高于各對(duì)比模型.Q-MVAE模型僅通過(guò)單模態(tài)數(shù)據(jù)就可以進(jìn)行高準(zhǔn)確率分類,在兩模態(tài)數(shù)據(jù)同時(shí)提供的情況下,模型分類準(zhǔn)確率較僅提供 SVHN模態(tài)數(shù)據(jù)有明顯提升,但略低于僅提供 MNIST模態(tài)數(shù)據(jù).這表明模型從兩個(gè)模態(tài)數(shù)據(jù)中抽取了比單模態(tài)數(shù)據(jù)更多用于分類的信息.同時(shí),MNIST模態(tài)數(shù)據(jù)的共享信息特征相較于 SVHN模態(tài)數(shù)據(jù)更易被抽取,從兩個(gè)模態(tài)抽取的共享信息進(jìn)行融合之后,可以較大程度提高 SVHN的分類準(zhǔn)確率,但是從 SVHN數(shù)據(jù)中抽取的誤差信息也會(huì)微弱地影響從MNIST數(shù)據(jù)中抽取相對(duì)準(zhǔn)確的信息.因此,Q-MVAE模型可以很好地抽取表示不同模態(tài)數(shù)據(jù)的共享信息,使用單個(gè)線性分類器同時(shí)對(duì)不同模態(tài)數(shù)據(jù)分類均取得高的準(zhǔn)確率,也表明本文提出的四元組度量損失對(duì)不同模態(tài)的共享隱向量在隱空間進(jìn)行了很好的對(duì)齊.

4.4 解耦表示生成

通過(guò)設(shè)計(jì)對(duì)私有信息的解耦表示與生成實(shí)驗(yàn),驗(yàn)證模型對(duì)私有信息的抽取與表示性能.基于 MNISTSVHN數(shù)據(jù)集下的交叉生成實(shí)驗(yàn),設(shè)計(jì)將私有隱向量除某維度之外的所有維度值不變的前提下,對(duì)該維度的值進(jìn)行線性微量變化,觀察圖像生成效果.圖5為在兩個(gè)方向上的交叉生成,其中對(duì)私有隱向量中的10個(gè)維度進(jìn)行逐維度線性微調(diào)數(shù)據(jù)生成.

圖5 有解耦特性的交叉生成實(shí)驗(yàn)效果Fig.5 Experiments of cross generative with decoupling feature

以圖5(a)中的第 1行生成圖像為例,該行圖像為固定私有隱向量除第1維度以外所有維度的值,并將第 1維度的值在-5~5之間等間距取 20個(gè)值分別生成第 1行的20張圖像,即生成每一行圖像的私有隱向量只有第1維度的值有微小差別,以下各行為依次改變其他單一維度的值生成的圖像,以此觀察對(duì)隱向量生成因子的解耦表示與生成.從圖5(a)中可以看出:第1行生成的數(shù)字大小隨著私有隱向量第1維度值的微量增大而變大,可以認(rèn)為私有隱向量第 1維度解耦地學(xué)習(xí)到字體大小的生成因子;第5行的數(shù)字角度隨著私有隱向量第 5維度的改變由數(shù)字角度后傾慢慢變?yōu)閿?shù)字角度前傾,可以認(rèn)為第5維度學(xué)習(xí)到控制數(shù)字角度的生成因子;第 10行可以被認(rèn)為學(xué)習(xí)到背景明暗的生成因子.從圖5(b)中看出:第1行對(duì)應(yīng)隱向量學(xué)習(xí)到數(shù)字角度的生成因子,第3行對(duì)應(yīng)隱向量學(xué)習(xí)到數(shù)字字體粗細(xì)的生成因子,以下各行則學(xué)習(xí)到字體胖瘦與不同字體風(fēng)格的生成因子.

通過(guò)上述實(shí)驗(yàn)可以看出,對(duì)多模態(tài)數(shù)據(jù)進(jìn)行共享信息與私有信息解耦表示,并顯式地約束共享信息進(jìn)行對(duì)齊,可以使模型在多模態(tài)交叉生成、轉(zhuǎn)換生成與數(shù)據(jù)分類等下游任務(wù)中取得更好的效果.此外,解耦表示生成實(shí)驗(yàn)還使模型展現(xiàn)了對(duì)圖像風(fēng)格信息等更細(xì)致生成因子推理的潛力.

5 結(jié) 語(yǔ)

針對(duì)多模態(tài)數(shù)據(jù)生成問(wèn)題,提出了一個(gè)基于四元組度量損失的多模態(tài)變分自編碼模型 Q-MVAE.該模型在對(duì)多模態(tài)數(shù)據(jù)的共享信息與私有信息解耦表示的架構(gòu)下,引入了四元組度量損失,顯式地約束模型訓(xùn)練時(shí)在隱空間對(duì)共享隱向量進(jìn)行對(duì)齊,有效提高了模型的數(shù)據(jù)表示與生成能力.相關(guān)對(duì)比實(shí)驗(yàn)證明了 Q-MVAE模型可以有效學(xué)習(xí)、抽取與表示多模態(tài)數(shù)據(jù)的共享信息與私有信息,并能利用這些表示隱向量進(jìn)行數(shù)據(jù)生成與重構(gòu),也能進(jìn)行多模態(tài)數(shù)據(jù)分類等下游任務(wù).Q-MVAE模型通過(guò)逐維度操控私有隱向量進(jìn)行風(fēng)格漸變的數(shù)據(jù)生成展現(xiàn)了對(duì)數(shù)據(jù)的解耦表示潛力.在保證模型數(shù)據(jù)生成質(zhì)量與多樣性的前提下,如何更好地對(duì)多模態(tài)共享信息與私有信息生成因子進(jìn)行解耦表示與生成是下一步的研究重點(diǎn).

猜你喜歡
模態(tài)向量維度
基于BERT-VGG16的多模態(tài)情感分析模型
向量的分解
多模態(tài)超聲監(jiān)測(cè)DBD移植腎的臨床應(yīng)用
理解“第三次理論飛躍”的三個(gè)維度
跨模態(tài)通信理論及關(guān)鍵技術(shù)初探
聚焦“向量與三角”創(chuàng)新題
認(rèn)識(shí)黨性的五個(gè)重要維度
淺論詩(shī)中“史”識(shí)的四個(gè)維度
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
右玉县| 扎赉特旗| 高淳县| 当阳市| 凭祥市| 马鞍山市| 柳林县| 波密县| 永善县| 霍州市| 凤冈县| 北宁市| 南澳县| 疏附县| 鸡东县| 德保县| 皮山县| 沙田区| 连南| 洮南市| 鹤壁市| 福鼎市| 分宜县| 大冶市| 万安县| 萝北县| 法库县| 民勤县| 奎屯市| 南川市| 枞阳县| 德化县| 大同市| 卢氏县| 台中市| 建昌县| 武夷山市| 麻江县| 赤水市| 庄浪县| 综艺|