高耀東,侯凌燕,楊大利
(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101)
(*通信作者電子郵箱bistu2015@gmail.com)
基于多標(biāo)簽學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注方法
高耀東*,侯凌燕,楊大利
(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101)
(*通信作者電子郵箱bistu2015@gmail.com)
針對(duì)圖像自動(dòng)標(biāo)注中因人工選擇特征而導(dǎo)致信息缺失的缺點(diǎn),提出使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行自主特征學(xué)習(xí)。為了適應(yīng)圖像自動(dòng)標(biāo)注的多標(biāo)簽學(xué)習(xí)的特點(diǎn)以及提高對(duì)低頻詞匯的召回率,首先改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù),構(gòu)建一個(gè)多標(biāo)簽學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN-MLL)模型,然后利用圖像標(biāo)注詞間的相關(guān)性對(duì)網(wǎng)絡(luò)模型輸出結(jié)果進(jìn)行改善。通過在IAPR TC-12標(biāo)準(zhǔn)圖像標(biāo)注數(shù)據(jù)集上對(duì)比了其他傳統(tǒng)方法,實(shí)驗(yàn)得出,基于采用均方誤差函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)(CNN-MSE)的方法較支持向量機(jī)(SVM)方法在平均召回率上提升了12.9%,較反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)方法在平均準(zhǔn)確率上提升了37.9%;基于標(biāo)注結(jié)果改善的CNN-MLL方法較普通卷積神經(jīng)網(wǎng)絡(luò)的平均準(zhǔn)確率和平均召回率分別提升了23%和20%。實(shí)驗(yàn)結(jié)果表明基于標(biāo)注結(jié)果改善的CNN-MLL方法能有效地避免因人工選擇特征造成的信息缺失同時(shí)增加了對(duì)低頻詞匯的召回率。
圖像自動(dòng)標(biāo)注;多標(biāo)簽學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);損失函數(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及個(gè)人手持設(shè)備的普及,互聯(lián)網(wǎng)上的圖像、視頻數(shù)據(jù)正呈指數(shù)增長(zhǎng)。互聯(lián)網(wǎng)公司一方面希望能夠方便有效地管理互聯(lián)網(wǎng)上的海量圖像數(shù)據(jù);另一方面希望適應(yīng)用戶的搜索習(xí)慣,即基于文本的圖像搜索(Text-Based Image Retrieval, TBIR)方式?;ヂ?lián)網(wǎng)公司為每張圖像添加相應(yīng)的標(biāo)簽信息,即圖像標(biāo)注。目前采用的比較成熟的方法是提取圖片所在網(wǎng)頁的上下文信息作為標(biāo)簽信息[1],但是存在噪聲多、沒有上下文文本信息等諸多問題。與此同時(shí),在城市安全中,對(duì)監(jiān)控視頻的場(chǎng)景的標(biāo)注也得到越來越多的關(guān)注,進(jìn)而有專家學(xué)者提出根據(jù)圖像本身的視覺信息進(jìn)行圖像自動(dòng)標(biāo)注的方法。
目前圖像自動(dòng)標(biāo)注的方法主要分為兩大類:一是基于統(tǒng)計(jì)分類的圖像標(biāo)注方法;二是基于概率模型的圖像標(biāo)注方法?;诜诸惖臉?biāo)注方法是將圖像的每一個(gè)標(biāo)注詞看成一個(gè)分類,這樣圖像標(biāo)注問題就可以看作是圖像的分類問題,但是由于每張圖片包含多個(gè)不同的標(biāo)注詞,因而圖像標(biāo)注問題又屬于一個(gè)多標(biāo)簽學(xué)習(xí)(Multi-label Learning)問題。主要的方法有基于支持向量機(jī)(Support Vector Machine, SVM)的方法[2-5]、K最近鄰(K-Nearest Neighbor,KNN)分類方法[6-7]、基于決策樹的方法[8-9]、基于BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network, BPNN)[10]以及深度學(xué)習(xí)的方法[11-12]等?;诟怕实姆椒ㄖ饕峭ㄟ^提取圖像(或者圖像區(qū)域)的視覺信息(如顏色、形狀、紋理、空間關(guān)系等),然后計(jì)算圖像的視覺特征與圖像標(biāo)注詞之間的聯(lián)合概率分布,最后利用該概率分布對(duì)未標(biāo)注圖像(圖像區(qū)域)進(jìn)行標(biāo)注。主要的方法有Duygulu等[13]和Ballan等[14]提出的機(jī)器翻譯模型以及主題相關(guān)模型[15-17]等。
傳統(tǒng)的方法在圖像標(biāo)注領(lǐng)域取得了一定的進(jìn)展,但是因?yàn)樾枰斯みx擇特征,從而造成信息缺失,導(dǎo)致標(biāo)注精度不夠,召回率低;而深度學(xué)習(xí)模型雖然在圖像識(shí)別分類領(lǐng)域取得了比較高的成就,但是大部分都是針對(duì)網(wǎng)絡(luò)本身或者是針對(duì)單標(biāo)簽學(xué)習(xí)的改進(jìn),而針對(duì)屬于多標(biāo)簽學(xué)習(xí)的圖像標(biāo)注的應(yīng)用和改進(jìn)較少。因此本文根據(jù)多標(biāo)簽學(xué)習(xí)的特點(diǎn),同時(shí)考慮到標(biāo)注詞的分布不均問題,提出基于標(biāo)注結(jié)果改善的多標(biāo)簽學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型方法。首先,修改了卷積神經(jīng)網(wǎng)絡(luò)的誤差函數(shù);然后,構(gòu)建一個(gè)適合圖像自動(dòng)標(biāo)注的多標(biāo)簽學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò);最后,利用標(biāo)注詞的共生關(guān)系對(duì)標(biāo)注結(jié)果進(jìn)行改善。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是Fukushima等[18]基于感受野概念提出的神經(jīng)認(rèn)知機(jī),并由Le Cun等[19]在MNIST(Mixed National Institute of Standards and Technology database)手寫數(shù)字?jǐn)?shù)據(jù)集上取得突破性進(jìn)展。卷積神經(jīng)網(wǎng)絡(luò)采用的局部連接、下采樣以及權(quán)值共享,一方面能夠保留圖像的邊緣模式信息和空間位置信息,另一方面降低了網(wǎng)絡(luò)的復(fù)雜性。另外卷積神經(jīng)網(wǎng)絡(luò)可以通過網(wǎng)絡(luò)訓(xùn)練出圖像特征,很大程度上解決了傳統(tǒng)方法中因?yàn)槿斯みx擇特征導(dǎo)致信息丟失的問題。之后大量科研人員通過調(diào)整網(wǎng)絡(luò)模型結(jié)構(gòu)、修改激活函數(shù)、改變池化方法、增加多尺度處理、Dropout方法、mini-batch正則化方法等[20-24]一系列措施使得卷積神經(jīng)網(wǎng)絡(luò)的效果更加顯著,例如2015年微軟亞洲院在ILSVRC(ImageNet Large Scale Visual Recognition Challenge database)圖像數(shù)據(jù)集上的分類錯(cuò)誤率首次達(dá)到了比人眼識(shí)別效果還要低[25]。因此本文嘗試?yán)镁矸e神經(jīng)網(wǎng)絡(luò)在圖像特征自學(xué)習(xí)方面的優(yōu)勢(shì),對(duì)圖像進(jìn)行自動(dòng)標(biāo)注。
1.1 卷積層與池化層
一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò),通常是由輸入層、多個(gè)交替出現(xiàn)的卷積層和池化層(Pooling)、全連接層以及輸出層構(gòu)成。卷積層是卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征抽取的關(guān)鍵部分,每個(gè)卷積層可以使用多個(gè)不同的卷積核(Kernel),從而得到多個(gè)不同的特征圖(Feature map)。卷積層的輸出如式(1):
(1)
由于在卷積操作過程中存在重復(fù)卷積的元素,因此為了減少冗余信息以及快速減低特征維數(shù),在卷積操作之后進(jìn)行一次池化操作,常用的操作有最大池化、均值池化以及金字塔池化[20]等。經(jīng)過一次池化操作,特征圖維度會(huì)減低到原來1/n,n代表池化規(guī)模,如圖1所示。
圖1 規(guī)模為2×2的最大池化示意圖
可以看出,在每一個(gè)2×2的池化窗口中選擇一個(gè)最大的值輸出,再經(jīng)過激活函數(shù)(圖1中省略了激活函數(shù)),得到一個(gè)池化層的特征圖。
1.2 基于多標(biāo)簽學(xué)習(xí)的損失函數(shù)
在監(jiān)督學(xué)習(xí)問題中通過損失函數(shù)(lossfunction)來度量輸出的預(yù)測(cè)值與真實(shí)值之間的錯(cuò)誤的程度,并且通過求解最小化損失函數(shù),來調(diào)整權(quán)值。卷積神經(jīng)網(wǎng)絡(luò)同樣是一種監(jiān)督學(xué)習(xí),通常情況下使用均方誤差(MeanSquaredError,MSE)函數(shù)作為損失函數(shù),如式(2)~(3):
(2)
(3)
其中:E(i)是單個(gè)樣本的訓(xùn)練誤差;d(i)是對(duì)應(yīng)輸入x(i)的期望輸出;y(i)是對(duì)應(yīng)輸入x(i)的網(wǎng)絡(luò)預(yù)測(cè)輸出;m為樣本數(shù)量。
但是包括該損失函數(shù)在內(nèi)的大多數(shù)的損失函數(shù)只是等價(jià)地考慮某個(gè)標(biāo)簽是否屬于某一個(gè)樣本x,而沒有區(qū)別對(duì)待屬于樣本x的標(biāo)簽和不屬于樣本x的標(biāo)簽。因此,為了讓卷積神經(jīng)網(wǎng)絡(luò)能更好地適用于圖像自動(dòng)標(biāo)注,本文將文獻(xiàn)[10]提出的一種排序損失的損失函數(shù)(式(4))應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò):
(4)
然而在圖像標(biāo)注問題中,由于一個(gè)圖片樣本往往對(duì)應(yīng)多個(gè)標(biāo)注詞,而有些標(biāo)注詞會(huì)出現(xiàn)在各種不同的場(chǎng)景中,而有些標(biāo)注詞只會(huì)在特定的場(chǎng)合才會(huì)出現(xiàn),從而造成各標(biāo)注詞分布是不均勻的。例如:藍(lán)天、樹木等詞出現(xiàn)的頻率要遠(yuǎn)遠(yuǎn)高于其他標(biāo)注詞,而像蜥蜴、老虎等詞出現(xiàn)的頻率則少于其他標(biāo)注詞。因此為了提高對(duì)低頻詞匯的召回率,本文對(duì)式(4)進(jìn)行了修改:
(5)
其中αk是一個(gè)與詞頻有關(guān)的系數(shù):
(6)
在圖像標(biāo)注中,同一張圖片包含著多個(gè)事物(標(biāo)注詞),反之就是說出現(xiàn)在同一張圖片中的標(biāo)注詞它們之間是存在某種相關(guān)性的,比如說,太陽和藍(lán)天、沙灘和大海等。同樣這些標(biāo)注詞之間的相關(guān)性有強(qiáng)有弱,本文對(duì)所有的樣本的標(biāo)注信息進(jìn)行統(tǒng)計(jì),得到一個(gè)標(biāo)注詞的共生矩陣R:
Rij=S(i,j)/S(i)
(7)
其中:S(i,j)代表標(biāo)注詞i和標(biāo)注詞j同時(shí)出現(xiàn)的次數(shù),S(i)表示標(biāo)注詞i出現(xiàn)的次數(shù)。通過式(7)可以看出得到的共生矩陣不是一個(gè)對(duì)稱的矩陣,也就是說標(biāo)注詞i與標(biāo)注詞j之前存在某種聯(lián)系,但是可能標(biāo)注詞i對(duì)標(biāo)注詞j的依賴性更大。例如,有太陽則必然有天空,而出現(xiàn)天空不一定會(huì)有太陽的出現(xiàn)。因此本文結(jié)合標(biāo)注詞的相關(guān)性對(duì)網(wǎng)絡(luò)預(yù)測(cè)出的結(jié)果進(jìn)行相關(guān)性的調(diào)整。對(duì)卷積神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果C,通過式(8),得到最終的模型標(biāo)注結(jié)果O:
O=R*C
(8)
本文采用如圖2所示的一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入層是一張完整的圖像,分別是R、G、B三個(gè)通道;然后通過4個(gè)卷積層,卷積核大小分別為11,9,7,5,卷積核個(gè)數(shù)分別為20,40,60,80;4個(gè)采用最大池采樣的池化層,池化大小分別為3,3,3,2;最后是兩個(gè)全連接層,并且為了防止過擬合使用Dropout,概率設(shè)置為0.6;輸出層節(jié)點(diǎn)是224個(gè)節(jié)點(diǎn)。所有的激活函數(shù)均采用的是ReLU激活函數(shù),學(xué)習(xí)率初始化為0.01。
圖2 本文使用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文采用的是由imageCLEF組織提供的公開圖像標(biāo)注數(shù)據(jù)集IAPRTC-12,包含18 000張圖片,圖片大小為480×360,其中訓(xùn)練集包含14 000張圖片,測(cè)試集為4 000張圖片,包含276個(gè)標(biāo)注詞,但是由于某些標(biāo)注詞沒有在測(cè)試集或者是訓(xùn)練集中出現(xiàn),所以本文實(shí)際用到的標(biāo)注詞是224個(gè),平均每個(gè)圖片包含4.1個(gè)標(biāo)簽。同時(shí)該數(shù)據(jù)集中各標(biāo)注詞分布不均勻,最少的標(biāo)注詞訓(xùn)練樣本量只有1個(gè),最大的標(biāo)注詞訓(xùn)練樣本量有3 834個(gè)。
本文首先驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)在特征學(xué)習(xí)方面要優(yōu)于傳統(tǒng)的人工選擇特征,使用SVM、BPNN以及采用MSE誤差函數(shù)的CNN(ConvolutionalNeuralNetworkusingMeanSquareErrorfunction,CNN-MSE)進(jìn)行對(duì)比實(shí)驗(yàn);然后測(cè)試基于多標(biāo)簽學(xué)習(xí)的卷積網(wǎng)絡(luò)的方法(Multi-LabelLearningConvolutionNeuralNetwork,CNN-MLL)以及基于標(biāo)注詞共生關(guān)系的標(biāo)注結(jié)果改善的方法(下文簡(jiǎn)稱改善的CNN-MLL)有效性與近幾年在該數(shù)據(jù)集上取得效果較好的算法(SparseKernelwithContinuousRelevanceModel(SKL-CRM)[14]、DiscreteMultipleBernoulliRelevanceModelwithSupportVectorMachine(SVM-DMBRM)[4]、KernelCanonicalCorrelationAnalysisandtwo-stepvariantoftheclassicalK-NearestNeighbor(KCCA-2PKNN)[6]、NeighborhoodSetbasedonImageDistanceMetricLearning(NSIDML)[7]等)進(jìn)行對(duì)比。
4.1 評(píng)價(jià)指標(biāo)
本文采用的是平均準(zhǔn)確率P、平均召回率R以及F1,作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算式如下:
F1=2PR/(P+R)
4.2 實(shí)驗(yàn)結(jié)果
由于BP神經(jīng)網(wǎng)絡(luò)以及SVM需要人工提取圖像特征進(jìn)行訓(xùn)練和測(cè)試,所以本文參考其他文獻(xiàn)[5,8,17]中常用的圖像特征提取方法,分別提取了圖像的Gist特征(特征向量維度為500)、SIFT(Scale-InvariantFeatureTransform)特征(特征向量維度為3 250)、小波紋理特征(向量維度為500)以及顏色直方圖(特征向量維度250),并全部經(jīng)由詞包形式轉(zhuǎn)換,組合共5 000維特征,并對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
其中SVM采用的核函數(shù)是徑向基核函數(shù),該核函數(shù)在本數(shù)據(jù)集中表現(xiàn)最好,懲罰系數(shù)為0.3;BP神經(jīng)網(wǎng)絡(luò)采用的4層的網(wǎng)絡(luò)結(jié)構(gòu)輸入層5 000個(gè)節(jié)點(diǎn),兩個(gè)隱藏層節(jié)點(diǎn)數(shù)分別為3 000,1 000。
因?yàn)闃颖镜钠骄鶚?biāo)注詞的個(gè)數(shù)是4.1,向上取整,所以本文選擇5個(gè)概率輸出值最高的標(biāo)注詞作為每個(gè)測(cè)試樣本的標(biāo)注結(jié)果,然后計(jì)算平均準(zhǔn)確率和平均召回率。本實(shí)驗(yàn)平臺(tái)處理器采用的是酷睿I5,代碼是基于Theano庫開發(fā)的,基于CNN-MLL方法的網(wǎng)絡(luò)訓(xùn)練時(shí)間與CNN-MSE方法的訓(xùn)練時(shí)間相差不大,兩種方法的訓(xùn)練時(shí)間都在一天左右。各方法實(shí)驗(yàn)結(jié)果如表1。
表1 各圖像標(biāo)注方法實(shí)驗(yàn)結(jié)果 %
表1中有參考文獻(xiàn)的算法的各項(xiàng)數(shù)據(jù)來源于其文獻(xiàn)。通過表1,可以看出基于CNN-MSE的標(biāo)注方法在平均準(zhǔn)確率和平均召回率上都有很大的提高,平均準(zhǔn)確率較BPNN提高了37.9%,平均召回率較SVM提高了12.9%。表明在大數(shù)據(jù)量的圖像數(shù)據(jù)集中卷積神經(jīng)網(wǎng)絡(luò)在特征學(xué)習(xí)方面要比傳統(tǒng)的手工選擇特征要好很多,區(qū)分度更大。同時(shí)通過CNN-MSE和CNN-MLL的實(shí)驗(yàn)結(jié)果可以看出,采用改進(jìn)的多標(biāo)簽排序策略的損失函數(shù)要比常用的均方誤差函數(shù)要好,在平均準(zhǔn)確率和平均召回率上分別提升15.0%和17.1%。而最后采用標(biāo)注詞間的共生關(guān)系對(duì)網(wǎng)絡(luò)標(biāo)注進(jìn)行改善,使得平均準(zhǔn)確率和平均召回率再次提升6.5%和2.5%。從整體改進(jìn)上來看本文的方法較普通卷積神經(jīng)網(wǎng)絡(luò)平均準(zhǔn)確率和平均召回率分別提升了22.5%和20.0%,改進(jìn)效果明顯。另外本文方法在平均準(zhǔn)確率上雖然低于其他方法,但是在平均召回率上有很大提升,較2PKNN-ML方法提高了13.5%,同時(shí)F1的值也是最高的。
另外為了驗(yàn)證本文對(duì)式(3)的改進(jìn)的有效性,本文對(duì)比了式(3)的誤差函數(shù)跟式(4)的誤差函數(shù)對(duì)低頻詞匯的召回率情況,這里分別統(tǒng)計(jì)了樣本量在150以下的標(biāo)簽的平均準(zhǔn)確率、平均召回率以及總的平均準(zhǔn)確率,結(jié)果如表2。
表2 兩種多標(biāo)簽學(xué)習(xí)誤差函數(shù)實(shí)驗(yàn)結(jié)果 %
Tab.2 Experimental results of two kinds of multi-label learning error function %
使用的誤差公式樣本量低于150準(zhǔn)確率召回率總體準(zhǔn)確率召回率式(4)34294641式(3)29214338
由表2可知經(jīng)過改進(jìn)的誤差函數(shù)(式(4))對(duì)低頻詞匯的標(biāo)注準(zhǔn)確率和召回率均遠(yuǎn)高于沒有改進(jìn)的誤差函數(shù)(式(3)),而總體的平均準(zhǔn)確率以及平均召回率也稍高于沒有改進(jìn)的誤差函數(shù)。因此改進(jìn)方法有效。
本文考慮到樣本的不平衡性,這里給出了基于標(biāo)注結(jié)果改善的CNN-MLL方法得到的每個(gè)標(biāo)注詞的準(zhǔn)確率和召回率曲線,如圖3所示。
圖3 數(shù)據(jù)集中每個(gè)標(biāo)簽的準(zhǔn)確率、召回率和F1的值
圖3中的標(biāo)簽序號(hào)是根據(jù)標(biāo)簽對(duì)應(yīng)的訓(xùn)練樣本的數(shù)量從小到大排序得到的順序號(hào)。當(dāng)訓(xùn)練樣本數(shù)量只有1~10時(shí)(1~17號(hào)標(biāo)簽),曲線的值都是0,主要是這里的訓(xùn)練樣本數(shù)量占比太少,在訓(xùn)練的時(shí)候基本被忽略了;樣本數(shù)量在100~300時(shí)(101~181號(hào)標(biāo)簽),曲線的值基本要高于其他部分的值,平均能達(dá)到60%以上,這部分樣本數(shù)量分布比較均勻,測(cè)試樣本數(shù)量也基本維持在50左右,同時(shí)這部分詞匯大都是一些具體的事物,特征比較明顯。但是也有例外的像110號(hào)、135號(hào)、153號(hào)等標(biāo)簽分別是generic-objects、construction-other以及mammal-other等,這些標(biāo)簽雖然也是具體事物但是包含的東西較廣泛,而且與其他標(biāo)注詞偶有類似,因此導(dǎo)致識(shí)別度也較低。而在181號(hào)標(biāo)簽往后,曲線的值開始下降但是較穩(wěn)定,主要是這部分標(biāo)注詞對(duì)應(yīng)的訓(xùn)練樣本的數(shù)據(jù)量較大,且各樣本的數(shù)量差距較大(在300~3 000),同樣的這些標(biāo)注詞對(duì)應(yīng)的測(cè)試樣本的數(shù)據(jù)量也較大且不均勻;同時(shí)這些詞匯都是一些高頻詞匯像藍(lán)天、樹木、人群以及一些抽象的詞匯等,雖然訓(xùn)練樣本多,但是同一標(biāo)注詞在不同樣本中彼此視覺差異性較大,因此誤判的較多。另外通過圖3還可以看出在142號(hào)標(biāo)簽之后召回率開始比準(zhǔn)確率的值要高。
通過上述分析,不難看出標(biāo)注圖像樣本庫的人工標(biāo)注精度、樣本差異性大小以及樣本數(shù)量分布均衡性等,對(duì)標(biāo)注實(shí)驗(yàn)影響很大。
本文提出的基于多標(biāo)簽學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)以及結(jié)合標(biāo)注詞共生關(guān)系對(duì)標(biāo)注結(jié)果進(jìn)行改善的模型,在IAPR TC-12大規(guī)模圖像自動(dòng)標(biāo)注數(shù)據(jù)集的實(shí)驗(yàn)中,本文方法較SVM以及BPNN方法標(biāo)注的準(zhǔn)確率和召回率均有明顯提高,相比與目前標(biāo)注效果較好算法在準(zhǔn)確率有所下降,但是在召回率上有一定的提升。綜合準(zhǔn)確率和召回率來看,本文方法在標(biāo)注性能上有所提升,證明本文方法是有效的。
進(jìn)一步的工作擬在以下兩方面進(jìn)行:1)針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)作優(yōu)化調(diào)整;2)嘗試在全連接層添加人工特征,補(bǔ)充特征信息以提高標(biāo)注的準(zhǔn)確率。
References)
[1] 許紅濤,周向東,向宇,等.一種自適應(yīng)的Web圖像語義自動(dòng)標(biāo)注方法[J].軟件學(xué)報(bào),2010,21(9):2183-2195.(XU H T, ZHOU X D, XIANG Y, et al.Adaptive model for Web image semantic automatic annotation [J].Journal of Software, 2010, 21(9): 2186-2195.)
[2] YANG C B, DONG M, HUA J.Region-based image annotation using asymmetrical support vector machine-based multiple instance learning [C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington, DC: IEEE Computer Society, 2006: 2057-2063.
[3] GAO Y, FAN J, XUE X, et al.Automatic image annotation by incorporating feature hierarchy and boosting to scale up SVM classifiers [C]// Proceedings of the 2006 ACM International Conference on Multimedia.New York: ACM, 2006: 901-910.
[4] MURTHY V N, CAN E F, MANMATHA R.A hybrid model for automatic image annotation [C]// Proceedings of the 2014 ACM International Conference on Multimedia Retrieval.New York: ACM, 2014: 369.
[5] 吳偉,聶建云,高光來.一種基于改進(jìn)的支持向量機(jī)多分類器圖像標(biāo)注方法[J].計(jì)算機(jī)工程與科學(xué),2015,37(7):1338-1343.(WU W, NIE J Y, GAO G L.Improved SVM multiple classifiers for image annotation [J].Computer Engineering & Science, 2015, 37(7): 1338-1343.)
[6] MORAN S, LAVRENKO V.Sparse kernel learning for image annotation [C]// Proceedings of the 2014 International Conference on Multimedia Retrieval.New York: ACM, 2014: 113.
[7] VERMA Y, JAWAHAR C V.Image annotation using metric learning in semantic neighbourhoods [M]// ECCV’12: Proceedings of the 12th European Conference on Computer Vision.Berlin: Springer, 2012: 836-849.
[8] HOU J, CHEN Z, QIN X, et al.Automatic image search based on improved feature descriptors and decision tree [J].Integrated Computer Aided Engineering, 2011, 18(2): 167-180.
[9] 蔣黎星,侯進(jìn).基于集成分類算法的自動(dòng)圖像標(biāo)注[J].自動(dòng)化學(xué)報(bào),2012,38(8):1257-1262.(JIANG L X, HOU J.Image annotation using the ensemble learning [J].Acta Automatica Sinica, 2012, 38(8): 1257-1262.)
[10] ZHANG M L, ZHOU Z H.Multilabel neural networks with applications to functional genomics and text categorization [J].IEEE Transactions on Knowledge & Data Engineering, 2006, 18(10): 1338-1351.
[11] READ J, PEREZCRUZ F.Deep learning for multi-label classification [J].Machine Learning, 2014, 85(3): 333-359.
[12] WU F, WANG Z H, ZHANG Z F, et al.Weakly semi-supervised deep learning for multi-label image annotation [J].IEEE Transactions on Big Data, 2015, 1(3): 109-122.
[13] DUYGULU P, BARNARD K, DE FREITAS J F G, et al.Object recognition as machine translation: learning a lexicon for a fixed image vocabulary [C]// ECCV 2002: Proceedings of the 7th European Conference on Computer Vision.Berlin: Springer, 2002: 97-112.
[14] BALLAN L, URICCHIO T, SEIDENARI L, et al.A cross-media model for automatic image annotation [C]// Proceedings of the 2014 International Conference on Multimedia Retrieval.New York: ACM, 2014: 73.
[15] WANG C, BLEI D, LI F F.Simultaneous image classification and annotation [C]// Proceedings of the 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington, DC: IEEE Computer Society, 2009: 1903-1910.
[16] 李志欣,施智平,李志清,等.融合語義主題的圖像自動(dòng)標(biāo)注[J].軟件學(xué)報(bào),2011,22(4):801-812.(LI Z X, SHI Z P, LI Z Q, et al.Automatic image annotation by fusing semantic topics[J].Journal of Software, 2011, 22(4): 801-812.)
[17] 劉凱,張立民,孫永威,等.利用深度玻爾茲曼機(jī)與典型相關(guān)分析的自動(dòng)圖像標(biāo)注算法[J].西安交通大學(xué)學(xué)報(bào),2015,49(6):33-38.(LIU K, ZHANG L M, SUN Y W, et al.An automatic image algorithm using deep Boltzmann machine and canonical correlation analysis [J].Journal of Xi’an Jiaotong University, 2015, 49(6): 33-38.)
[18] FUKUSHIMA K, MIYAKE S.Neocognitron: a new algorithm for pattern recognition tolerant of deformations and shifts in position [J].Pattern Recognition, 1982, 15(6): 455-469.
[19] LE CUN Y, BOSER B, DENKER J S, et al.Handwritten digit recognition with a back-propagation network [M]// Advances in Neural Information Processing Systems.San Francisco, CA: Morgan Kaufmann Publishers, 1990: 396-404.
[20] KRIZHEVSKY A, SUTSKEVER I, HINTON G E.ImageNet classification with deep convolutional neural networks [EB/OL].[2016-04-10].https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf.
[21] HE K, ZHANG X, REN S, et al.Spatial pyramid pooling in deep convolutional networks for visual recognition [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision.Berlin: Springer, 2014: 346-361.
[22] SZEGEDY C, LIU W, JIA Y, et al.Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2015: 1-9.
[23] HE K, ZHANG X, REN S, et al.Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision.Washington, DC: IEEE Computer Society, 2015: 1026-1034.
[24] IOFFE S, SZEGEDY C.Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of the 32nd International Conference on Machine Learning.Washington, DC: IEEE Computer Society, 2015: 448-456.
[25] JIN C, JIN S W.Image distance metric learning based on neighborhood sets for automatic image annotation [J].Journal of Visual Communication and Image Representation, 2016, 34: 167-175.
This work is supported by the Key Projects in the National Science and Technology Pillar Program during the Twelfth Five-year Plan Period of China (2015BAK12B00).
GAO Yaodong, born in 1991, M.S.candidate.His research interests include machine learning, pattern recognition.
HOU Lingyan, born in 1964, M.S., associate professor.Her research interests include multimedia technology, pattern recognition.
YANG Dali, born in 1963, Ph.D., associate professor.His research interests include pattern recognition, signal enhancement.
Automatic image annotation method using multi-label learning convolutional neural network
GAO Yaodong*, HOU Lingyan, YANG Dali
(CollegeofComputer,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)
Focusing on the shortcoming of the automatic image annotation, the lack of information caused by artificially selecting features, convolutional neural network was used to learn the characteristics of samples.Firstly, in order to adapt to the characteristics of multi label learning of automatic image annotation and increase the recall rate of the low frequency words, the loss function of convolutional neural network was improved and a Convolutional Neural Network of Multi-Label Learning (CNN-MLL) model was constructed.Secondly, the correlation between the image annotation words was used to improve the output of the network model.Compared with other traditional methods on the Technical Committee 12 of the International Association for Pattern Recognition (IAPR TC-12) benchmark image annotation database, the experimental result show that the Convolutional Neural Network using Mean Square Error function (CNN-MSE) method achieves the average recall rate of 12.9% more than the Support Vector Machine (SVM) method, the average accuracy of 37.9% more than the Back Propagation Neural Network (BPNN) method.And the average accuracy rate and average recall rate of marked results improved CNN-MLL method is 23% and 20% higher than those of the traditional CNN.The results show that the marked results improved CNN-MLL method can effectively avoid the information loss caused by the artificially selecting features, and increase the recall rate of the low frequency words.
automatic image annotation; multi-label learning; Convolution Neural Network (CNN); loss function
2016-06-15;
2016-09-12。 基金項(xiàng)目:“十二五”國(guó)家科技支撐計(jì)劃項(xiàng)目(2015BAK12B00)。
高耀東(1991—),男,安徽合肥人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別; 侯凌燕(1964—),女,湖南長(zhǎng)沙人,副教授,碩士,主要研究方向:多媒體技術(shù)、模式識(shí)別; 楊大利(1963—),男,河北陽原人,副教授,博士,主要研究方向:模式識(shí)別、信號(hào)增強(qiáng)。
1001-9081(2017)01-0228-05
10.11772/j.issn.1001-9081.2017.01.0228
TP391.41; TP18
A