秦牧軒,荊曉遠(yuǎn),吳 飛
(南京郵電大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210003)
在圖像識(shí)別技術(shù)中[1-3],零樣本學(xué)習(xí)(ZSL)[4]是一種特殊的問(wèn)題,在訓(xùn)練集中某幾類樣本標(biāo)簽缺失或者樣本不存在,但是依然能夠在測(cè)試任務(wù)中識(shí)別出這些樣本的類別。一種全部類別共同映射的中間層特征子空間[5]技術(shù),在零樣本學(xué)習(xí)中被大量使用,通過(guò)建立一種訓(xùn)練類別信息與測(cè)試類別信息的連接空間,將原本使用類別信息分類能力轉(zhuǎn)化到該中間層,擺脫了必須使用類別信息分類的限制。一般中間層特征空間有兩種:屬性(attribute)特征空間[6-7]和文本(text)特征空間[8-9]。
屬性是人為定義的特征,如“形狀”“紋理”“是否含有某個(gè)屬性”等可以描述類別的語(yǔ)義特性,可以利用屬性信息學(xué)習(xí)到新的類別,如Lampert等[6]提出的直接屬性預(yù)測(cè)模型(direct attribute prediction,DAP)。
但是屬性的分類效果取決于屬性的選擇好壞,同時(shí)會(huì)消耗人力物力。利用自然語(yǔ)言處理技術(shù)(NLP)使用文本特征作為中間層表示,是零樣本學(xué)習(xí)中另一種解決模型。文本數(shù)據(jù)容易獲得,且其語(yǔ)義相關(guān)性可以推測(cè)出未出現(xiàn)的類別,利用多模態(tài)[10]技術(shù)學(xué)習(xí)將圖像從視覺(jué)模態(tài)映射到文本模態(tài),來(lái)推測(cè)未知圖像。Socher等[8]利用一個(gè)2層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)映射函數(shù),映射圖像特征與其對(duì)應(yīng)的詞向量距離最近。Frome等[9]則直接連接卷積神經(jīng)網(wǎng)絡(luò)的最頂層和skip-gram語(yǔ)言模型的輸出層,并將上述映射關(guān)系稱之為嵌入(embedding)。
直接將圖像特征嵌入到語(yǔ)義特征會(huì)由于維度降低導(dǎo)致樞紐度問(wèn)題[11]。文獻(xiàn)[12-13]利用一種聯(lián)合嵌入模型(structured joint embedding,SJE),將圖像特征和語(yǔ)義特征嵌入公共特征空間,使得公共特征空間中的各模態(tài)特征內(nèi)積和最大,取得了良好的效果。但這些方法只是單純地使用了CNN的圖像特征,在分類時(shí)仍需要人工參與特征提取,并不是一種端到端的深度學(xué)習(xí)方法。文獻(xiàn)[14]在深度的基礎(chǔ)上應(yīng)用一種特征融合技術(shù),但是由于只使用詞向量而效果不佳。
基于此,文中結(jié)合端到端的深度學(xué)習(xí)模型與基于公共空間的嵌入模型,提出了一種新的零樣本圖像分類方法,即基于公共空間嵌入的端到端深度零樣本學(xué)習(xí),可以同時(shí)利用屬性特征和文本特征,并通過(guò)實(shí)驗(yàn)驗(yàn)證該方法的有效性。
CNN通過(guò)逐層對(duì)圖像卷積獲得低維的特征,并學(xué)習(xí)這些卷積的參數(shù)。輸入圖像訓(xùn)練集X={x1,x2,…,xi,…,xc1},經(jīng)過(guò)CNN后,得到圖像特征。輸入227*227的三通道圖像,經(jīng)過(guò)5個(gè)卷積層和3個(gè)全連接層,輸出n維特征向量,n為樣本類別數(shù)量,每一個(gè)參數(shù)對(duì)應(yīng)一個(gè)類別。神經(jīng)網(wǎng)絡(luò)的卷積層數(shù)據(jù)見(jiàn)表1。
表1 神經(jīng)網(wǎng)絡(luò)的卷積層數(shù)據(jù)
經(jīng)過(guò)兩個(gè)全連接層fc6和fc7之后,在fc8層應(yīng)用softmax損失函數(shù)進(jìn)行分類,同樣在fc6和fc7層之后會(huì)有激活函數(shù)和drop函數(shù)。fc8層使用softmax損失函數(shù)分類:
(1)
(2)
其中,aj為第i個(gè)樣本被分為j類的概率;1{y(i)=j}表示當(dāng)表達(dá)式成立時(shí)值為1,否則為0。
首先建立單視覺(jué)的Fake-task模型,fc8層特征只作用于預(yù)學(xué)習(xí),在多模態(tài)嵌入時(shí)使用的是fc7層的特征,相較于fc8層,fc7層特征能更好地表達(dá)圖像層級(jí)的特征。
由于使用的公共空間不依賴單一模態(tài)的特點(diǎn),可以同時(shí)使用屬性特征和文本特征或者融合訓(xùn)練該模型。如圖1所示,應(yīng)用一個(gè)多模態(tài)融合層,其函數(shù)定義如下:
(3)
(4)
不同于屬性特征,文本特征需要使用skip-gram模型訓(xùn)練得到。應(yīng)用維基百科上面570萬(wàn)文本(約54億單詞)來(lái)訓(xùn)練一個(gè)三層全連接的神經(jīng)網(wǎng)絡(luò),輸入文本訓(xùn)練集Y={y1,y2,…,yc1,…,yc2},并得到文本特征,注意到文本訓(xùn)練集種類數(shù)量遠(yuǎn)遠(yuǎn)大于圖像訓(xùn)練集種類數(shù)量,即c2?c1。y定義如下:
(5)
圖1 視覺(jué)模態(tài)和語(yǔ)義模態(tài)公共空間嵌入模型
輸入層經(jīng)過(guò)隱層到達(dá)第三層,第三層實(shí)際上是一個(gè)Softmax分類器。同樣文本模塊也是一個(gè)Fake-task,目的是得到隱層的參數(shù)作為詞向量。通過(guò)比較100維到2 000維的隱層權(quán)重分類效果,發(fā)現(xiàn)將隱層的大小設(shè)置為512維最為合適。
聯(lián)合學(xué)習(xí)將原有模型上的圖像特征和文本特征投影到公共空間并建立一種類別對(duì)應(yīng)關(guān)系。去除上文所述的圖像和文本模塊的分類層,替換一個(gè)全連接層映射隱層的特征到公共空間,形成一個(gè)新的損失層,損失函數(shù)為:
s.t.
(6)
H(x)=sigmoid(WxF)
H(y)=sigmoid(WyG)
F=f(X;θx)
G=g(Y;θy)
(7)
在聯(lián)合訓(xùn)練階段,應(yīng)用隨機(jī)梯度下降算法(SGD)交替迭代訓(xùn)練嵌入?yún)?shù):
(1)固定θy和Wy,優(yōu)化θx和Wx。
應(yīng)用一種微調(diào)深度學(xué)習(xí)的技術(shù)(fine-tuning)對(duì)θx調(diào)優(yōu),θx前5層的參數(shù)固定不變,降低fc6和fc7的學(xué)習(xí)率10倍。在嵌入層,梯度計(jì)算如下:
(8)
(2)固定θx,θy和Wx,優(yōu)化Wy。
同樣應(yīng)用SGD算法優(yōu)化文本嵌入層參數(shù)Wy。由于需要詞向量的語(yǔ)義相關(guān)性,所以只訓(xùn)練Wy,梯度計(jì)算如下:
(9)
通過(guò)在AwA(animals with attributes)數(shù)據(jù)庫(kù)和Cub鳥(niǎo)類數(shù)據(jù)庫(kù)上的識(shí)別率波動(dòng)圖和平均識(shí)別率來(lái)比較文中方法與DeViSE、Ba et.al、SJE、LatEm和JLSE方法的識(shí)別性能。AwA包含30 745張50個(gè)不同動(dòng)物的圖片。CUB-200-2011(Caltech UCSD Bird)鳥(niǎo)類數(shù)據(jù)庫(kù)包含了200種鳥(niǎo)類共11 788張圖片,是目前應(yīng)用廣泛的細(xì)粒度分類參考之一。所有方法均采用基于余弦距離的最近鄰分類器來(lái)做分類識(shí)別。
在AwA數(shù)據(jù)庫(kù)上,選擇40個(gè)類別作為已知類,10個(gè)類別作為未知類;在CUB數(shù)據(jù)庫(kù)上,參考文獻(xiàn)[7]方法選取100個(gè)類別組成訓(xùn)練集,50個(gè)類別組成驗(yàn)證集,50個(gè)類別組成測(cè)試集。實(shí)驗(yàn)都采取隨機(jī)挑選的方式運(yùn)行30次。
對(duì)于AwA庫(kù),應(yīng)用文獻(xiàn)[6]提供的85維的屬性特征,而CUB庫(kù)上,應(yīng)用文獻(xiàn)[12]提供的312維度的屬性特征。不同于固定的屬性特征,文本特征使用skip-gram模型來(lái)訓(xùn)練所需的詞向量,使用維基百科上的570萬(wàn)文本(約54億單詞)來(lái)訓(xùn)練AwA庫(kù)和CUB庫(kù),特征維度為512。
表2給出了所有方法在AwA和CUB兩個(gè)數(shù)據(jù)庫(kù)上隨機(jī)30次的識(shí)別率。圖2給出了AwA庫(kù)上使用詞向量作為語(yǔ)義特征的識(shí)別率波動(dòng),圖3比較了幾種使用公共空間的方法。
圖2 AwA數(shù)據(jù)庫(kù)上所有方法隨機(jī)30次的識(shí)別率
圖3 使用公共空間的所有方法隨機(jī)30次的識(shí)別率
方法語(yǔ)義特征AwACUBDeViSEW56.7/50.433.5Ba et.alW69.3/58.734.0SJEA/W/A+W66.7/60.1/73.950.1/28.4/51.0LatEmA/W/A+W72.5/52.3/76.145.6/33.1/47.4JLSEA80.542.1文中A/W/A+W79.0/62.6/78.847.4/38.1/52.1
從表2可以看出,在AwA數(shù)據(jù)庫(kù)上,文中方法無(wú)論是單獨(dú)使用屬性或詞向量,還是同時(shí)使用混合特征,都比DeViSE、Ba et.al、SJE以及LatEm等四種方法的平均識(shí)別率提高了至少2.5%(62.6%-60.1%);在CUB數(shù)據(jù)庫(kù)上,對(duì)比上述方法,文中方法雖然在單屬性特征上略微輸給了SJE,但是在混合特征上取得最好的效果(52.1%)。
建立了應(yīng)用于零樣本學(xué)習(xí)的端到端的深度學(xué)習(xí)模型,并使用了融合屬性信息和文本信息的聯(lián)合語(yǔ)義特征,提出了基于公共空間嵌入的端到端深度零樣本學(xué)習(xí)。在AwA和CUB數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,該方法有效地提高了識(shí)別率。