王盼紅,朱昌明
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
自從深度學(xué)習(xí)的概念問世以來,相關(guān)研究一直在蓬勃發(fā)展。由于深受其益,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的非凡突破也被應(yīng)用到計算機(jī)視覺領(lǐng)域的各個方面[1],如圖像分類[2-3]、目標(biāo)檢測[4-5]等。具有一層或多層卷積層的神經(jīng)網(wǎng)絡(luò)稱為卷積神經(jīng)網(wǎng)絡(luò),其卷積層由具有學(xué)習(xí)能力的濾波器組成[6-7]。單標(biāo)簽分類主要是對所研究問題,每次僅為其匹配一個最可能的標(biāo)簽。近年來,CNN在單標(biāo)簽圖像分類中表現(xiàn)出良好的分類性能。如Ghazi等人[8]采用預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型結(jié)合遷移學(xué)習(xí)對植物物種進(jìn)行分類,最優(yōu)分類準(zhǔn)確率達(dá)到80%;Dias等人[9]設(shè)計出了一種基于CNN的花卉類別檢測算法,該算法利用計算機(jī)視覺技術(shù)結(jié)合顏色和形態(tài)信息,最終召回率和準(zhǔn)確率接近80%;Gayathri等人[10]提出了一種新的模型提取視網(wǎng)膜眼底圖像的特征,并使用J48分類器進(jìn)行分類,其二分類的平均準(zhǔn)確率為99.89%,多分類的平均準(zhǔn)確率為99.59%。然而,由于在現(xiàn)實(shí)世界中,每個圖像通常都帶有豐富的語義信息,如對象、場景、動作以及屬性等,而通過這些豐富的語義信息及其依賴關(guān)系來建模對于圖像理解至關(guān)重要[11]。因而多標(biāo)簽圖像分類問題開始得到關(guān)注。多標(biāo)簽問題即針對所給數(shù)據(jù),可同時為其分配多個標(biāo)簽,如圖1可同時標(biāo)記為“風(fēng)景”“樹”“河”3個標(biāo)簽。
圖1 多標(biāo)簽實(shí)例
Song等人[12]提出了一種深度多模型的CNN框架,模型中將每幅圖像表示為一個用于圖像分類的實(shí)例包,并繼承神經(jīng)網(wǎng)絡(luò)和多實(shí)例多標(biāo)簽的優(yōu)點(diǎn);Dao等人[13]提出在有監(jiān)督的環(huán)境下利用對比學(xué)習(xí)來學(xué)習(xí)圖像在不同標(biāo)簽背景下的多種表示方法;Wang等人[14]利用殘差網(wǎng)絡(luò)提取圖像深度學(xué)習(xí)特征并將該結(jié)果作為輸入,通過圖像空間和標(biāo)簽空間的正則化生成結(jié)果向量,有效提高分類的準(zhǔn)確率和召回率;Jin等人[15]基于深度學(xué)習(xí)設(shè)計一種新的圖像語義分割模型解決多標(biāo)簽分類任務(wù),該模型使用感受野代替標(biāo)準(zhǔn)卷積,實(shí)驗結(jié)果取得較好的分割精度;黃睿等人[16]提出基于標(biāo)簽正負(fù)相關(guān)性的多標(biāo)簽類屬特征學(xué)習(xí)方法。著名的多標(biāo)簽分類方法是簡單地為每個標(biāo)簽訓(xùn)練一個獨(dú)立的分類器來處理問題,這在研究文獻(xiàn)中通常被稱為二元相關(guān)性(Binary Relevance, BR)轉(zhuǎn)換[17-18]。
上述文獻(xiàn)研究中處理多標(biāo)簽分類任務(wù)普遍存在建模的時間復(fù)雜度高、模型復(fù)雜導(dǎo)致內(nèi)存消耗較大、特征信息不足導(dǎo)致分類精度低等問題。針對這些不足,本文提出一種融合CNN與交互特征的多標(biāo)簽圖像分類方法,即MLCNN-IF。該模型主要分成2個部分:1)提出一個只有9層的輕量級神經(jīng)網(wǎng)絡(luò),即MLCNN,該網(wǎng)絡(luò)參考傳統(tǒng)的CNN基本結(jié)構(gòu)進(jìn)行搭建,同時網(wǎng)絡(luò)中循環(huán)增加Batch Normalization(BN)層[19]和Dropout層[20],并使用全局最大池化代替?zhèn)鹘y(tǒng)的全連接層;2)由于網(wǎng)絡(luò)提取特征僅考慮單個特征,造成一些對分類任務(wù)有價值的組合特征信息丟失,因此基于MLCNN得到的特征再采用交叉特征技術(shù)獲得更豐富的特征信息,進(jìn)一步提高分類性能。實(shí)驗選擇4種不同場景下的多標(biāo)簽圖像數(shù)據(jù)集,對比網(wǎng)絡(luò)有VGG16[21]、AlexNet[22]和GoogLeNet[23],通過豐富的對比實(shí)驗成功驗證所提的MLCNN-IF模型的有效性與先進(jìn)性。
為降低模型復(fù)雜度,減少參數(shù)量,提高多標(biāo)簽分類性能,本文提出融合CNN與交互特征的MLCNN-IF模型。該模型首先提出一種僅有9層的輕量級神經(jīng)網(wǎng)絡(luò),即MLCNN處理圖像并提取特征;其次基于MLCNN得到的特征,采用交互特征方法獲得各獨(dú)立特征的各種組合特征信息,進(jìn)一步提高分類準(zhǔn)確率。
1)Dropout。
在深度網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,隱藏層節(jié)點(diǎn)參數(shù)變得越來越多,但并不是所有的節(jié)點(diǎn)權(quán)重參數(shù)都對下一層的網(wǎng)絡(luò)訓(xùn)練有正面積極作用。引入Dropout的目的在于保證在不刪除權(quán)重參數(shù)的前提下,保留一部分參數(shù),即通過設(shè)置一定的篩選率,將隨機(jī)“拋棄”一些節(jié)點(diǎn)權(quán)重參數(shù),不讓其進(jìn)入隱藏層。
2)BN。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只是在原始樣本數(shù)據(jù)輸入到輸入層之前對樣本進(jìn)行標(biāo)準(zhǔn)化處理,以降低樣本間的差異性。添加BN層則是在此基礎(chǔ)上,不僅只對輸入層的輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,還對每個隱藏層的輸入進(jìn)行標(biāo)準(zhǔn)化。其目的在于一方面提高梯度的收斂程度,加快模型的訓(xùn)練速度,另一方面使得每一層可以盡量面對同一特征分布的輸入值,減少輸入變化帶來的不確定性,可降低對后層網(wǎng)路的影響,使得各層網(wǎng)路變得相對獨(dú)立,緩解模型訓(xùn)練中的梯度消失問題。
批量歸一化主要是分2步走,第1步是對數(shù)據(jù)特征的每個維度進(jìn)行歸一化處理,即:
(1)
(2)
MLCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)繼承傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),即包含卷積層和池化層。將卷積層(Conv)、激活函數(shù)(ReLU)和BN層組合一起默認(rèn)為一個“基本模塊”,如圖2(a)所示。MLCNN圖像的輸入大小為96×96。與傳統(tǒng)的CNN模型不同的是,卷積層后不會立刻進(jìn)行池化層處理,而是先進(jìn)入BN層對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,再經(jīng)過池化后進(jìn)入Dropout去隨機(jī)“拋棄”一些節(jié)點(diǎn)權(quán)重參數(shù)幫助網(wǎng)絡(luò)訓(xùn)練模型。“基本模塊”的訓(xùn)練在網(wǎng)絡(luò)中高達(dá)5次,這是為了充分獲取圖像數(shù)據(jù)的特征信息,在減少訓(xùn)練參數(shù)量的同時保證一定大小的感受野,使得數(shù)據(jù)在經(jīng)過池化層后不僅能得到有效的特征信息,還能避免產(chǎn)生冗余特征;網(wǎng)絡(luò)中存在連續(xù)2輪同樣的訓(xùn)練操作,這是為了保證整個網(wǎng)絡(luò)的平衡,提高其分類精度,如圖2(b)所示。MLCNN中采用全局最大池化層(Global Max Pool, GMP)代替全連接層,使得經(jīng)由網(wǎng)絡(luò)提取出的特征具有更高效的表達(dá)效果,其計算公式為:
(a) 基本模塊
(b) MLCNN結(jié)構(gòu)圖2 MLCNN網(wǎng)絡(luò)結(jié)構(gòu)圖
(3)
本文所提MLCNN-IF中采用交互特征獲得豐富的特征信息表達(dá),獲得特征之間的交互作用。簡單來說,將網(wǎng)絡(luò)提取出的特征向量相乘得到新的一對交互特征,將該交互特征以及產(chǎn)生交互特征的原始特征進(jìn)行混合得到新的特征集合。由于網(wǎng)絡(luò)提取出的特征為單個特征,而實(shí)際在分類任務(wù)中通過組合特征會產(chǎn)生一些新的有效信息,則新的特征集合中不僅包含原特征信息,還含有由原特征產(chǎn)生的組合特征信息。
假設(shè)提取出的一對獨(dú)立特征為x1、x2,則x1·x2得到該獨(dú)立特征的組合特征,擴(kuò)展到多個特征序列,即提取到的獨(dú)立輸入特征為x1,x2,…,xn,模型使用該特征序列的線性組合得到預(yù)測結(jié)果變量為:
y=ω1x1+ω2x2+ω3x3+…+ωnxn
(4)
其中,ωi(i=1,2,3,…,n)為相應(yīng)的系數(shù)。擴(kuò)展到多個特征之間的交互作用,即得到的預(yù)測結(jié)果變量為:
y=ω1x1+ω2x2+…+ω1,1x1x1+ω1,2x1x2+…
(5)
多標(biāo)簽分類問題可以定義為:給定一個數(shù)據(jù)集合X和一個標(biāo)簽集合Y,其中X=Rd表示d維的特征空間,Y是有N個標(biāo)簽的集合Y={y1,y2,…,yn}。包含m個樣本的多標(biāo)簽數(shù)據(jù)集D={(xi,Yi)|1≤i≤m},其中xi∈X是一個d維的特征向量(xi1,xi2,…,xid)T,Yi∈Y是xi對應(yīng)一個標(biāo)簽集合。多標(biāo)簽分類就是從數(shù)據(jù)集D中學(xué)習(xí)到一個從實(shí)例空間映射到標(biāo)簽空間的模型W:X→2Y,對于?xi∈X,模型W都能給出對應(yīng)的標(biāo)簽。
為有效處理多標(biāo)簽圖像分類問題,本文提出融合CNN與交互特征的多標(biāo)簽圖像分類模型,即MLCNN-IF模型,如圖3所示。圖中的序號分別表示該模型首先基于所提MLCNN網(wǎng)絡(luò)提取獨(dú)立特征,其次針對獨(dú)立特征采用交互特征方法獲得各組合特征,豐富特征信息;⊕分別表示新的特征集由原獨(dú)立特征和組合特征融合而成,最后利用新特征集訓(xùn)練網(wǎng)絡(luò)得到所提模型MLCNN-IF,采用Softmax分類器處理多標(biāo)簽分類任務(wù)。
圖3 MLCNN-IF模型結(jié)構(gòu)
通過在4種多標(biāo)簽數(shù)據(jù)集上進(jìn)行多個評價指標(biāo)的對比實(shí)驗,從不同的角度有效證明所提出的MLCNN-IF模型在分類性能相對VGG16、AlexNet和GoogLeNet這3種神經(jīng)網(wǎng)絡(luò)模型上取得的優(yōu)勢。
實(shí)驗中的數(shù)據(jù)集是從Kaggle庫中下載的。主要是4種不同場景下的多標(biāo)簽圖像數(shù)據(jù)集,包括服裝、車輛、年齡和巖石。由于原始數(shù)據(jù)集存在類別不平衡問題,可能對后續(xù)的模型訓(xùn)練和分類識別造成影響,故預(yù)處理部分對4種數(shù)據(jù)集分別進(jìn)行數(shù)據(jù)增強(qiáng),保證各類別相對平衡。實(shí)驗中訓(xùn)練集與測試集各占原數(shù)據(jù)集的80%與20%。而在訓(xùn)練集中80%樣本用于訓(xùn)練,20%用于驗證。關(guān)于數(shù)據(jù)集的具體描述如表1所示。
表1 所用數(shù)據(jù)集描述
采用的深度學(xué)習(xí)框架為keras。為提高檢測性能,所有模型訓(xùn)練之前會進(jìn)行數(shù)據(jù)增強(qiáng)策略,主要是對原始數(shù)據(jù)樣本的不同類別隨機(jī)選擇50%進(jìn)行下平移、左平移、翻轉(zhuǎn)、旋轉(zhuǎn)和加噪處理;剩下的50%樣本進(jìn)行上平移、右平移、翻轉(zhuǎn)、旋轉(zhuǎn)、加噪和增加亮度對比度處理,保證對于同一數(shù)據(jù)集處于類別平衡。圖片大小統(tǒng)一設(shè)置為96×96。
4種模型的Batchsize大小均為32,損失函數(shù)采用交叉熵?fù)p失函數(shù),迭代次數(shù)epoch為80,學(xué)習(xí)率調(diào)整策略為Adam[28],超參數(shù)設(shè)置為:學(xué)習(xí)率(learning rate, lr)為0.0001,學(xué)習(xí)率衰減設(shè)置為lr/epoch。為保證實(shí)驗結(jié)果的穩(wěn)定性,在訓(xùn)練和測試過程中設(shè)置相同的隨機(jī)種子,訓(xùn)練集與測試集各占數(shù)據(jù)集的80%與20%。激活函數(shù)選擇為ReLU函數(shù),除最后一層Dopout設(shè)為0.5外,其余均為0.25。
實(shí)驗平臺是64位的Windows 10,所有的實(shí)驗都在Pycharm 2019上開展。該電腦配備了NVIDIA GeForce RTX 2060 14 GB顯卡、英特爾i7-Core@2.6 GHz處理器和16 GB內(nèi)存。
為了更好衡量所提模型的好壞,實(shí)驗主要采用的評價指標(biāo)有測試集的平均準(zhǔn)確率(Accuracy)與損失值(Loss)、精準(zhǔn)率(Precision)、召回率(Recall)、F1_Score、網(wǎng)絡(luò)層數(shù)、模型參數(shù)量、模型訓(xùn)練時間。為進(jìn)一步證明所提模型的先進(jìn)性與有效性,還進(jìn)行消融實(shí)驗和顯著性分析實(shí)驗,其中顯著性分析主要是配對t-test檢驗。具體指標(biāo)計算公式如下:
Accuracy=(TP+TN)/(TP+TN+FP+FN)
(6)
(7)
Precision=TP/(TP+FP)
(8)
Recall=TP/(TP+FN)
(9)
(10)
其中,TP表示樣本預(yù)測與實(shí)際都為正,TN表示樣本預(yù)測與實(shí)際都為負(fù),F(xiàn)P表示樣本預(yù)測為正,實(shí)際為負(fù),F(xiàn)N表示樣本預(yù)測為負(fù),實(shí)際為正;yi表示樣本i的類別標(biāo)簽,正類為1,負(fù)類為0;p(yi)表示樣本i預(yù)測為類別yi的概率[29]。
2.4.1 分類性能對比
本節(jié)先給出MLCNN-IF模型與另外3種深度學(xué)習(xí)模型的準(zhǔn)確率及損失值對比情況,然后給出準(zhǔn)確率、召回率及F1_Score實(shí)驗結(jié)果。
圖4給出4種模型在每種數(shù)據(jù)集的測試集上的平均測試準(zhǔn)確率和平均損失值。橫坐標(biāo)表示數(shù)據(jù)集,縱坐標(biāo)分別表示相應(yīng)的平均準(zhǔn)確率值和平均損失值。從圖4(a)可以得到:1)總體來說,所提MLCNN-IF模型相對其它3種網(wǎng)絡(luò)具有一定的優(yōu)勢,在各數(shù)據(jù)集上其平均分類準(zhǔn)確率明顯提高。分別提高2%、14%、16%與4%,因此可以認(rèn)為準(zhǔn)確率平均提高9%;2)相對AlexNet和VGG16模型而言,GoogLeNet的分類效果稍好,以數(shù)據(jù)集automobile為例,準(zhǔn)確率分別提高4%與10%,在其余3個數(shù)據(jù)集上的現(xiàn)象也類似。這主要是因為GoogLeNet模型本就是基于VGG模型和AlexNet模型進(jìn)一步改進(jìn)的,其網(wǎng)絡(luò)結(jié)構(gòu)得到一定程度的優(yōu)化,故而表現(xiàn)出相對較好的分類性能。從圖4(b)可以看出:1)各網(wǎng)絡(luò)在每種數(shù)據(jù)集上的損失值變化趨勢與準(zhǔn)確率保持一致,模型的準(zhǔn)確率越高,其損失值就會越低;2)總體而言,所提MLCNN-IF方法的損失值相對另外3種模型都有降低,以數(shù)據(jù)集automobile為例,損失值分別降低0.21,0.05,0.293,在其余數(shù)據(jù)集上結(jié)論也類似。因此,可以說明所提MLCNN-IF模型在處理多標(biāo)簽圖像分類任務(wù)上具有一定的優(yōu)勢。
(a) 平均準(zhǔn)確率
(b) 平均損失值圖4 4種模型在測試集上的實(shí)驗結(jié)果
表2給出了MLCNN-IF方法相對傳統(tǒng)模型在所有數(shù)據(jù)集上關(guān)于精準(zhǔn)率、召回率以及F1_Score的實(shí)驗結(jié)果。表中加粗?jǐn)?shù)值表示對于不同模型的相同指標(biāo)在同一種數(shù)據(jù)集上的最佳結(jié)果。從表2明顯看出MLCNN-IF方法對比其它模型而言,絕大多數(shù)情況下,相同指標(biāo)基于同一數(shù)據(jù)集都能取得較優(yōu)的結(jié)果。以clothes數(shù)據(jù)集為例,精準(zhǔn)率結(jié)果依次為:0.9824(MLCNN-IF)>0.9812(GoogLeNet)>0.9335(AlexNet)>0.8572(VGG16);召回率結(jié)果依次為:0.9288(MLCNN-IF)>0.9098(GoogLeNet)>0.8260(AlexNet)>0.8120(VGG16);F1_Score結(jié)果為:0.9548(MLCNN-IF)>0.9441(GoogLeNet)>0.8765(AlexNet)>0.8340(VGG16)。因此驗證了MLCNN-IF方法在分類性能上占有一定的優(yōu)勢。
表2 4種模型在所有數(shù)據(jù)集上的精準(zhǔn)率、召回率、F1_Score結(jié)果對比
2.4.2 網(wǎng)絡(luò)層數(shù)及可訓(xùn)練參數(shù)量對比
4種模型從網(wǎng)絡(luò)結(jié)構(gòu)來看,都是基于卷積神經(jīng)網(wǎng)絡(luò)的基本層形成。MLCNN-IF在提出輕量級MLCNN網(wǎng)絡(luò)后進(jìn)行擴(kuò)充特征表達(dá)過程,該過程不涉及網(wǎng)絡(luò)層次結(jié)構(gòu)的改變。按照網(wǎng)絡(luò)中的基本層進(jìn)行計算,則4種網(wǎng)絡(luò)的層數(shù)對比如表3所示。從表3可以看出:1)GoogLeNet的網(wǎng)絡(luò)層次最深,達(dá)到22層,這是因其網(wǎng)絡(luò)中含有多個Inception結(jié)構(gòu),其網(wǎng)絡(luò)深度也會有所增加;2)本文所提MLCNN-IF方法的網(wǎng)絡(luò)僅有9層,相對GoogLeNet和VGG16分別降低了11層和7層;3)與AlexNet相比多一層,但是這在其分類性能上得到彌補(bǔ),因此可以認(rèn)為該模型仍舊是有效的。
表3 各模型在數(shù)據(jù)集上的可訓(xùn)練參數(shù)量及網(wǎng)絡(luò)層數(shù)對比
為進(jìn)一步驗證MLCNN-IF方法能有效減少模型可訓(xùn)練節(jié)點(diǎn)參數(shù)量,從而降低硬件要求,減少內(nèi)存消耗,表3同時對比了4種模型在每種數(shù)據(jù)集上的可訓(xùn)練參數(shù)量。從表3可以看出:1)本文所提MLCNN-IF在每種數(shù)據(jù)集上的可訓(xùn)練參數(shù)量相對AlexNet和VGG16網(wǎng)絡(luò)得到很大的降低,其參數(shù)量約為AlexNet的1/3,VGG16的1/14;2)GoogLeNet網(wǎng)絡(luò)與AlexNet和VGG16相比,其可訓(xùn)練參數(shù)量也有很大程度的降低,約為AlexNet的1/4,VGG16的1/22,這主要是因為GoogLeNet網(wǎng)絡(luò)使用平均池化層代替全連接層,很大程度減少了模型參數(shù),因此即便網(wǎng)絡(luò)較深,其參數(shù)量會降低;3)MLCNN-IF與GoogLeNet對比來看略處劣勢,網(wǎng)絡(luò)中的參數(shù)量約為GoogLeNet的1.5倍,這主要是因為所提MLCNN網(wǎng)絡(luò)是基于傳統(tǒng)的CNN框架進(jìn)行改進(jìn)搭建而成,而GoogLeNet則是基于成熟的VGG模型并增加Inception模塊優(yōu)化網(wǎng)絡(luò),但兩者參數(shù)量差距相對較小,基本可以忽略。整體而言,MLCNN-IF模型可有效降低內(nèi)存消耗。
2.4.3 訓(xùn)練時間對比
實(shí)驗還將從模型訓(xùn)練時間進(jìn)行對比,以此驗證本文所提MLCNN-IF模型在處理多標(biāo)簽分類問題上的有效性與先進(jìn)性。圖5給出了4種網(wǎng)絡(luò)模型在4種多標(biāo)簽數(shù)據(jù)集上的模型訓(xùn)練時間。橫坐標(biāo)表示數(shù)據(jù)集,縱坐標(biāo)表示模型訓(xùn)練時間,以s為基本單位。從圖5能明顯看到:1)相比AlexNet、GoogLeNet和VGG16神經(jīng)網(wǎng)絡(luò),本文所提MLCNN-IF模型的訓(xùn)練時間明顯消耗最小,以數(shù)據(jù)集automobile為例,本文所提模型的訓(xùn)練時間約為AlexNet的1/4,約為GoogLeNet的1/5,約為VGG16的1/11,在其余數(shù)據(jù)集上也能得到同樣的現(xiàn)象,因此有效驗證了MLCNN-IF在模型訓(xùn)練上的時間優(yōu)勢;2)4種模型在不同數(shù)據(jù)集上的時間消耗趨勢整體保持一致,在相同的實(shí)驗設(shè)置下,VGG16模型的訓(xùn)練時間最長,這是因為VGG16網(wǎng)絡(luò)中可訓(xùn)練的參數(shù)量最多,訓(xùn)練時更加消耗時間;3)所有網(wǎng)絡(luò)的訓(xùn)練時間對比,發(fā)現(xiàn)在Rock上的訓(xùn)練時間最長,這是由于Rock數(shù)據(jù)集規(guī)模相對其它數(shù)據(jù)集都偏大,說明數(shù)據(jù)集的規(guī)模也對模型訓(xùn)練時間有很大影響。
圖5 4種模型在所有數(shù)據(jù)集上訓(xùn)練時間對比
2.4.4 消融實(shí)驗
2.4.1節(jié)中已從多個實(shí)驗指標(biāo)的角度充分驗證本文所提MLCNN-IF方法的有效性,由于本文所提方法首次將交互特征引入到多標(biāo)簽圖像分類任務(wù)中,因此還具有一定的先進(jìn)性。上述實(shí)驗結(jié)果表明所提方法對比該領(lǐng)域內(nèi)的經(jīng)典模型能有效處理多標(biāo)簽分類問題,已說明其具有先進(jìn)性。本節(jié)為進(jìn)一步證實(shí)交互特征的優(yōu)勢以及設(shè)計的輕量級網(wǎng)絡(luò)中選擇5個“基本模塊”的合理性,選擇融合交互特征的模型(MLCNN-IF)、不加交互特征的網(wǎng)絡(luò)(MLCNN)以及含有不同“基本模塊”數(shù)量的融合交互特征模型進(jìn)行消融實(shí)驗。由于受到篇幅限制,“基本模塊”數(shù)量選擇2種,即含1個“基本模塊”的模型(MLCNN1-IF)與含3個“基本模塊”的模型(MLCNN3-IF),剩下其它不同數(shù)量的模塊其結(jié)果類似。表4給出四者基于準(zhǔn)確率、精準(zhǔn)率、召回率和訓(xùn)練時間上的對比結(jié)果。
表4 MLCNN-IF與相關(guān)模型的準(zhǔn)確率、精準(zhǔn)率、召回率和訓(xùn)練時間對比
表4中,MLCNN-IF在精準(zhǔn)率和召回率指標(biāo)上的結(jié)果參考表2中的實(shí)驗數(shù)據(jù),“Time”指模型訓(xùn)練時間,以s為基本單位。從表4可以明顯得到:1)MLCNN-IF對比MLCNN,在準(zhǔn)確率、精準(zhǔn)率和召回率3個指標(biāo)上的結(jié)果均占據(jù)優(yōu)勢,分別平均提高3%、4%、2%,表明交互特征的引入一定程度上提高分類性能;2)就訓(xùn)練時間而言,MLCNN-IF花費(fèi)時間稍高于另外3種,這是因為在MLCNN-IF的網(wǎng)絡(luò)中含有5個“基本模塊”進(jìn)行訓(xùn)練,且融合交互特征豐富特征信息,這必然使得特征數(shù)量和維度變大,但根據(jù)結(jié)果來看,訓(xùn)練時間差距很小,這在深度學(xué)習(xí)模型中完全可以忽略,對硬件要求基本一致;3)不同數(shù)量的“基本模塊”模型間對比,明顯其性能在隨著“基本模塊”數(shù)量的增加而逐步上升,說明設(shè)計的MLCNN輕量級網(wǎng)絡(luò)包含5個“基本模塊”是合理的;4)從MLCNN1-IF、MLCNN3-IF及MLCNN的對比結(jié)果來看,交互特征相比“基本模塊”而言對分類性能貢獻(xiàn)更大,如以clothes數(shù)據(jù)集的準(zhǔn)確率為例,0.9668(MLCNN3-IF)>0.9646(MLCNN1-IF)>0.9311(MLCNN)。綜上,可以說融合交互特征的網(wǎng)絡(luò)模型,即MLCNN-IF方法,不僅能有效處理多標(biāo)簽圖像分類任務(wù),提升識別準(zhǔn)確率,還在該領(lǐng)域內(nèi)具有一定的先進(jìn)性。
2.4.5 顯著性分析
通過顯著性分析實(shí)驗,進(jìn)一步有效驗證所提MLCNN-IF模型在處理多標(biāo)簽圖像任務(wù)的有效性與先進(jìn)性。顯著性分析主要是進(jìn)行配對t-test[30]分析。就配對t-test而言,主要用于分析在一個數(shù)據(jù)集上2種不同算法之間的差異是否顯著,其主要目的判斷在檢驗條件1和條件2情況下的平均識別率是否有顯著差異。通常情況下,使用sig值來表示測試集的顯著性差異結(jié)果。一般來說,sig值的閾值設(shè)置為0.05,當(dāng)大于0.05時,表示2種算法在同一個數(shù)據(jù)集上沒有顯著性差異,反之則代表有顯著性差異[31]。若sig值越小,表示算法之間的差異越顯著。
圖6展示4種網(wǎng)絡(luò)模型在4種多標(biāo)簽數(shù)據(jù)集數(shù)據(jù)集上的配對t-test結(jié)果。橫坐標(biāo)表示數(shù)據(jù)集,縱坐標(biāo)表示對應(yīng)的配對t-test值。主要展示本文所提模型MLCNN-IF分別與另外3種模型在不同數(shù)據(jù)集上的配對t-test對比結(jié)果。其中“MLCNN-IF vs VGG16”表示模型MLCNN-IF與VGG16進(jìn)行對比,其余同理。從圖6可以看出,以sig值為0.05作為閾值判斷,在大多情況下,MLCNN-IF模型與其它網(wǎng)絡(luò)對比的sig值都小于0.05,且部分對比結(jié)果遠(yuǎn)小于0.05而接近0.01,表明該模型與另外3種網(wǎng)絡(luò)在處理多標(biāo)簽圖像分類任務(wù)上存在顯著差異。因此基于配對t-test結(jié)果驗證了本文所提MLCNN-IF模型的有效性。
圖6 4種模型在不同數(shù)據(jù)集上的配對t-test值
本文針對多標(biāo)簽圖像分類中存在的時間復(fù)雜度高、分類準(zhǔn)確率低、特征信息不足等問題,提出了一種融合CNN與交互特征的多標(biāo)簽圖像分類模型,即MLCNN-IF。該模型首先提出一種輕量級的MLCNN神經(jīng)網(wǎng)絡(luò)用于處理圖像并提取特征;其次基于提取出的特征使用交互特征來獲得網(wǎng)絡(luò)中可能丟失的組合特征信息,擴(kuò)充特征集。3個對比網(wǎng)絡(luò)模型分別為VGG16、AlexNet和GoogLeNet,通過大量的對比實(shí)驗驗證本文所提MLCNN-IF模型的優(yōu)點(diǎn)有:1)將多標(biāo)簽學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,并首次提出將交互特征應(yīng)用于多標(biāo)簽圖像分類領(lǐng)域中;2)提出的一種輕量級神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征,簡化了網(wǎng)絡(luò)結(jié)構(gòu),模型可訓(xùn)練參數(shù)量極大降低,有效降低內(nèi)存消耗;3)降低了時間復(fù)雜度并有效提高分類準(zhǔn)確率。
盡管所提MLCNN-IF模型已在多標(biāo)簽數(shù)據(jù)集上被證實(shí)是有效的,但仍然有一個問題需要在未來的工作中解決,即在現(xiàn)實(shí)世界中,每張圖像的語義信息都相當(dāng)豐富,從不同標(biāo)簽和視角角度看,能獲取到不同的特征信息。因此在未來的工作中,應(yīng)考慮基于多標(biāo)簽多視角數(shù)據(jù)集來驗證所提MLCNN-IF模型的有效性。