林潮威,李菲菲,陳 虬
(上海理工大學 光電信息與計算機工程學院,上海 200093)
場景識別指計算機根據(jù)給定的場景圖片對場景的語義標簽進行預測。場景識別可以為后續(xù)的一些視覺任務例如物體識別、目標檢測等提供先驗知識。與物體識別任務對比,場景識別有兩點不同:首先,識別場景圖片是一項復雜的工作,算法不僅需要考慮場景圖片的全局背景信息,還需要考慮場景的局部信息,包括一些特定的局部場景模式和局部的物體信息;其次,場景識別存在語義鴻溝的問題。場景圖片的標簽通常具有很強的概括性,導致場景圖片中所包含的語義信息和標簽所表示的語義信息之間有較大的差距。若忽略這兩點差異,僅單純地將擅長物體識別的卷積神經(jīng)網(wǎng)絡用于場景識別,則不能達到較好的效果。其原因在于卷積神經(jīng)網(wǎng)絡無法同時捕捉全局特征和局部特征。此外,由于語義鴻溝的存在,使用全連接層的卷積神經(jīng)網(wǎng)絡很難構建從特征至場景類別標簽的映射。本文提出的場景綜合表示方法能夠對傳統(tǒng)的卷積神經(jīng)網(wǎng)絡進行改進,并較好地解決上述兩個問題。
場景識別主要分為3個階段,分別是特征提取、特征變換和分類器的訓練。早期的場景識別方法主要研究特征的提取方法,一些手工設計的低級特征提取方法被廣泛使用。這些低級特征分為全局描述子和局部描述子兩大類別,其中GIST[1]、CENTRIST(CENsus TRansform hISTogram)[2]和多通道CENTRIST[3]屬于全局描述子;SIFT(Scale Invariant Feature Transform)[4]、HOG(Histogram of Oriented Gradients)[5]、LBP(Local Binary Patterns)[6]和SURF(Speeded Up Robust Features)[7]屬于局部描述子。低級手工特征在場景識別任務中取得了一定的效果,但這些低級特征無法有效表示一些復雜的場景圖片,限制了場景識別的發(fā)展。因此,研究者開始從特征提取以外的角度對場景識別方法進行創(chuàng)新,即提出特征變換的方法將低級特征編碼為中級特征來提升特征的表示能力。這些特征編碼方法包括BoVW(Bag-of-Visual-Words)[8]、Spatial Pyramid Matching(SPM)[9]、Improved SPM[10]以及Fisher Vector(FV)[11]。受限于低級特征的表示能力,即使應用一些特征變換的方法,場景識別的性能提升還是遇到了瓶頸。
由于深度卷積神經(jīng)網(wǎng)絡[12]在ImageNet大型視覺識別挑戰(zhàn)[13]上取得了成功,各個計算機視覺任務開始使用卷積特征來取代手工低級特征。在場景識別領域,卷積特征也逐漸成為了主流。研究者也將用于低級特征的編碼方法[8-11]應用到了卷積特征上,衍生出MOP-CNN(Multi-Scale Orderless Pooling)[14]、SFV(Semantic FV)[15]等算法。此外,利用稀疏字典編碼卷積特征的方法也在場景識別領域取得了成功,例如Sparse Decomposition of Convolutional Features(SDCF)[16]、改進的稀疏自動編碼機[17]和Non-Negative Sparse Decomposition Model(NNSD)[18]。文獻[19]根據(jù)場景圖片的特性提出了多尺度空間編碼方法來編碼場景圖片的卷積特征。
本文提出了一個特征變換模型,通過編碼深度卷積特征以生成場景圖片的全局和局部表示,并與負責特征提取的卷積神經(jīng)網(wǎng)絡和負責分類任務的全連接層相結合,形成了一個端到端的場景識別模型,如圖1所示。在此模型內,本文首先使用了兩個在不同數(shù)據(jù)集預訓練的卷積神經(jīng)網(wǎng)絡提取場景圖片的場景特征和物體特征;然后進行特征變換,使用注意力機制融合場景特征和物體特征,形成場景圖片的全局表示。本文使用類激活映射(Class Activation Mapping,CAM)提取場景圖片中的關鍵區(qū)域,從關鍵區(qū)域提取卷積特征并使用LSTM(Long Short-Term Memory)模塊進行特征的編碼,形成場景的局部表示。最后,使用全連接層進行分類。相較于之前的方法,本文考慮到了場景圖片中包含的各方面的信息,構建了場景圖片的綜合表示,在場景識別的任務中達到了較好的效果。
圖1 提出模型的框架Figure 1. The framework of proposed model
本文提出模型的結構如圖1所示,從上到下的3個模塊分別是:(1)全局特征生成模塊;(2)局部場景特征裁切、編碼模塊;(3)CAM生成模塊。其中,GAP(Global Average Pooling)代表全局平均池化,F(xiàn)C(Fully Connected)表示全連接層,CAM(Class Activation Map)表示類激活圖,LSTM(Long Short-Term Memory)表示長短期記憶。從總體上看,整個模型分為3部分,第1部分是特征提取部分;第2部分是特征變換部分;第3部分則是主分類器部分,負責輸出最后的分類結果。其中,第2部分是本文的重點。
上述模型也是一個端到端模型。對于分類任務來說,端到端即輸入模型一張圖片,模型能夠直接給出分類的結果。端到端是目前場景識別的一個趨勢,其優(yōu)點在于能夠在使用隨機梯度下降算法的同時訓練模型的各個部分,使模型能夠達到一個聯(lián)合最優(yōu)點。同時,端到端模型無需保留分步的輸出結果,因此節(jié)省了磁盤空間,也無需人工干預。
從圖1中可以看到,整個模型具有兩個分類器,分別是主分類器和輔助分類器。其中,輔助分類器依附于CAM生成部分存在,其目的是為了提供生成CAM的分類器權重;主分類器則負責輸出場景圖片的最終類別。兩個分類器的損失分別稱為主損失和輔助損失。對于分類任務,常使用交叉熵損失,如式(1)所示
(1)
其中,y′表示預測值;y表示真實值。
主損失的作用是訓練整個端到端的網(wǎng)絡模型,輔助損失則是為CAM生成部分提供監(jiān)督信號。由于兩個損失的存在,因此在訓練的時候需要將兩個損失相加合并為一個總損失,如式(2)所示。
lModel=lMain+lAux
(2)
由于深度卷積特征表示性能的優(yōu)異,在場景識別中,卷積特征已基本取代傳統(tǒng)的手工特征。卷積神經(jīng)網(wǎng)絡需要經(jīng)過預訓練后才能夠具備提取特征的能力。文獻[14,20]使用在大型物體數(shù)據(jù)集ImageNet上預訓練的卷積神經(jīng)網(wǎng)絡提取場景圖片的特征,取得了一定的效果。但是,在物體數(shù)據(jù)集上預訓練的卷積神經(jīng)網(wǎng)絡只對場景圖片中的物體信息激活,單純使用基于物體數(shù)據(jù)集預訓練的卷積神經(jīng)網(wǎng)絡無法全面地提取場景圖片的特征。因此,需要使用Places[21]數(shù)據(jù)集預訓練的卷積神經(jīng)網(wǎng)絡提取圖片中的場景特征。本文同時使用了這兩組預訓練的卷積神經(jīng)網(wǎng)絡以提取圖片的場景特征和物體特征。
在一系列卷積神經(jīng)網(wǎng)絡的變種中,本文選擇ResNet-50[22]作為特征提取器。相較于其他卷積神經(jīng)網(wǎng)絡(AlexNet、GoogLeNet、VGG),ResNet-50網(wǎng)絡更深,參數(shù)更少。而且,由于ResNet具有殘差連接,其更容易訓練和收斂。為了進行特征提取,本文去除了ResNet-50的全連接分類層,只保留其卷積部分。
為了將場景的物體信息融入到場景圖片的全局表示中,本文使用了一種基于注意力機制的方法,即CCG(Correlative Context Gating)[23],來生成全局表示向量。同時,本文對此方法進行了改進,使其適用于不存在物體信息的室外場景。
如圖1(a)(豎矩形均為2 048維的向量)所示,本文首先通過全局平均池化從物體卷積神經(jīng)網(wǎng)絡和場景卷積神經(jīng)網(wǎng)絡生成的兩組特征圖(Feature Maps)中獲得兩個表示向量,叫做全局物體信息向量和全局場景信息向量。全局物體向量由一個全連接層映射后通過Sigmoid激活函數(shù)得到一個權重向量,為全局物體向量的每一個通道賦予一個權重。然后,將這個權重向量和全局場景向量逐點相乘,以校準全局場景每個通道的數(shù)值強度。最后,將校準之后的全局場景向量和原始的全局場景向量逐點相加,得到場景圖片的一個全局表示向量。上述的過程實現(xiàn)了基于注意力機制的校準,權重向量每個通道的大小體現(xiàn)注意力分配的情況,權重越大,得到的關注也越高,反之亦然。
場景的全局表示能夠描述場景的全局空間布局信息。但對于場景識別來說,光有全局表示是不夠的,因此需要提取場景圖片的一個局部信息。局部表示的生成過程包括兩個主要步驟:第1步如圖1(b)所示,目的是通過類激活映射來生成CAM;第2步如圖1(c)所示,首先在CAM上尋找局部最大值,局部最大值的位置即是熱點區(qū)域。然后,將熱點區(qū)域投射至卷積神經(jīng)網(wǎng)絡提取到的場景特征圖上,裁切得到熱點區(qū)域的特征。最后,通過LSTM 對熱點區(qū)域的特征進行編碼得到場景的局部表示。本文提出的局部表示方法是對文獻[24]中方法的改進。
類激活映射由文獻[25]提出,主要目的是為了對卷積特征進行可視化以及實現(xiàn)弱監(jiān)督的物體定位。類激活映射能夠利用分類層的信息(即某個類別A的分類權重)來生成CAM。CAM以數(shù)值大小的方式在卷積特征上標記不同空間位置的熱度,數(shù)值大的空間位置即為熱點區(qū)域。本文將類激活映射與負責提取場景特征的卷積神經(jīng)網(wǎng)絡相結合,即如圖1(b)所示,CAM生成部分接在了場景卷積神經(jīng)網(wǎng)絡生成的場景特征的后面,構成了能夠端到端訓練的在線CAM生成器。
CAM生成器的核心是輔助分類器,生成CAM的過程即是一個分類的過程。如圖2所示,假設特征圖的尺寸為4×(7×7),分類權重尺寸為4×4。對于一個給定的類別B,在生成CAM的過程中,特征圖的每個通道將乘上對應的分類權重,然后沿著通道的方向對特征圖的數(shù)值進行相加,得到一張尺寸為1×(7×7)的CAM。對于一個給定的類別B,在分類的過程中,首先對特征圖進行GAP得到特征向量。特征向量的每個通道將乘上相應的分類權重,然后沿著通道的方向將特征圖的數(shù)值相加,得到一個尺寸為1×(1×1)的分類結果。結合上述CAM的生成過程和分類的過程能夠得出結論:將 CAM進行GAP即能得到分類結果。因此,生成CAM的過程即是分類的過程,只是分類的過程中多做了一步GAP。具體的數(shù)學推導過程如下:
圖2 CAM生成的過程與分類的過程Figure 2. The generating and classfication process of CAM
假設有特征圖fk(x,y),k∈[1,…,C],x和y代表特征圖上的位置坐標,k代表通道的數(shù)量。假設通道總數(shù)為C,那么GAP就可以表示為
(3)
假設類別c的分類權重表示為wc,計算類別c的分類結果Sc為
(4)
將式(3)帶入式(4),可得式(5)。
(5)
如圖2所示,可以看到由特征圖(圖中標記為1)得到預測結果(圖中標記為2)有兩條路徑,即1-GAP-點乘-累加-2和1-點乘-累加-GAP-2,所以對于式(5),改變其中GAP的位置,并假定類別c的CAM為Mc(x,y),那么CAM的計算可以表示為如下形式。
(6)
章節(jié)3.1生成的CAM如圖3所示(填充偽色)。為了后續(xù)的處理方便,已將CAM的數(shù)字擴展到[0,255]之間。由于整個模型的輸入圖片尺寸為448×448,因此網(wǎng)絡輸出CAM的尺寸為14×14。CAM上的每一個1×1的空間位置均能映射回原圖,表示原圖32×32區(qū)域的一個激活程度。若直接使用閾值T篩選CAM上的空間位置,得到的熱點區(qū)域數(shù)量過于冗余,不利于后續(xù)的編碼。因此,本文在CAM上搜索局部最大值,局部最大值和熱點區(qū)域一一對應,局部最大值的坐標即為熱點區(qū)域的中心坐標。
圖3 類激活圖Figure 3. Class activation diagram
局部最大值的搜索基于滑窗操作,如圖4所示。首先,對CAM的四周進行一個補0操作,得到一個四邊為0的尺寸為15×15的CAM。然后,使用一個3×3且步長為1的滑窗,在CAM的每一個位置計算局部最大值,即滑窗的中心值若是周圍8個值中的最大值,那么滑窗中心位置則為局部最大值。接著,去除重疊滑窗的局部最大值,只保留一個。最后,使用閾值T對局部最大值進行篩選。圖4中步驟II和步驟III目的是去除冗余的局部最大值,防止噪聲和干擾影響后面的特征編碼。閾值T和選取熱點區(qū)域的數(shù)量(N)是重要的超參數(shù),將通過實驗選取。
圖4 局部最大值的搜索Figure 4. Searching for local maxima
章節(jié)3.2通過局部最大值的篩選,能夠得到熱點區(qū)域的中心坐標。以這個坐標為中心,可以在場景圖片上裁切出熱點區(qū)域,然后使用卷積神經(jīng)網(wǎng)絡在熱點區(qū)域提取特征。但是該方法費時費力,且無法在一次前向傳播中將特征提取完畢。因此,本文提出了新的裁切并提取熱點區(qū)域的方法。本文直接將熱點區(qū)域的中心坐標映射回卷積特征上,然后在14×14的特征圖上裁切出7×7的特征塊作為熱點區(qū)域的特征。N個熱點區(qū)域裁切得到N×2 048×7×7的特征塊,經(jīng)過GAP之后,能夠得到N×2 048的特征,即N個2 048維的特征向量,每個熱點區(qū)域能夠使用一個2 048維的向量表示。接下來本文將使用LSTM來編碼熱點區(qū)域的特征。
LSTM[26]是循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network)的一個變種,能夠處理序列輸入、學習序列輸入之間的相互聯(lián)系。LSTM能夠有效地編碼輸入之間的長期依賴,其模塊的標準結構如圖5所示。
圖5 LSTM模塊的結構Figure 5. The architecture of the LSTM module
由圖5可以看到,LSTM模塊有兩條主線,一條是細胞狀態(tài),另一條是隱藏狀態(tài)。其中,細胞狀態(tài)用于存儲歷史信息,而隱藏狀態(tài)則用來實現(xiàn)模塊的輸出。LSTM模塊還有3個非線性門控單元,分別是輸入門f、遺忘門i和輸出門o。
遺忘門f負責控制歷史信息的存留,將當前輸入xt和歷史隱藏狀態(tài)ht-1堆疊之后輸入到遺忘門中。遺忘門可以得到一個遺忘系數(shù)向量ft,通過遺忘系數(shù)向量ft和歷史細胞狀態(tài)ct-1逐元素相乘,從歷史細胞狀態(tài)中篩選有用的信息,存入當前細胞中狀態(tài)ct中。ft的計算式如下所示。
ft=σ(Wf[ht-1,xt]+bf)
(7)
輸入由兩個部分組成,第一部分負責計算模塊的輸入qt,第二部分則是輸入門i,負責計算輸入控制向量it。輸入控制向量負責控制輸入信息的多少,將當前輸入xt和歷史隱藏狀態(tài)ht-1堆疊之后輸入到輸入門中,輸入門可以得到一個輸入控制向量it,計算過程為
it=σ(Wi[ht-1,xt]+bi)
(8)
模塊的輸入qt可由式(9)獲得。
qt=tanh(Wq[ht-1,xt]+bq)
(9)
從LSTM模塊的結構圖中可知,細胞狀態(tài)的更新由經(jīng)過遺忘之后的歷史細胞狀態(tài)和經(jīng)過輸入門控制的模塊輸入共同組成,那么細胞狀態(tài)的更新為
ct=ft·ct-1+it·qt
(10)
輸出門o負責輸出控制向量ot的計算,將當前輸入xt和歷史隱藏狀態(tài)ht-1堆疊之后輸入到輸出門中,得到輸出控制向量ot,輸出控制向量的計算為
ot=σ(Wo[ht-1,xt]+bo)
(11)
將輸出控制向量ot和經(jīng)過激活函數(shù)激活的當前細胞狀態(tài)ct逐元素相乘,得到當前隱藏狀態(tài)ht
ht=ot·tanh(ct)
(12)
其中,σ代表Sigmoid激活函數(shù);Wf、Wi、Wo、Wq表示權重。
在章節(jié)3.3中,本文得到了尺寸為N×2 048的特征向量,代表N個熱點區(qū)域的特征。因此,若要構成一個序列輸入i={x1,x2,…,xN},其序列的長度為N,則本文需要堆疊N個LSTM模塊。這些LSTM模塊的參數(shù)是共享的,最后一個LSTM模塊的輸出表示為hN=LSTM(xN,hN-1)。本文選擇最后一個LSTM模塊的輸出作為場景圖片的局部表示,如圖6所示。
圖6 LSTM編碼序列輸入Figure 6. Sequencing inputs encoded by LSTM
得到的局部表示將和全局表示相堆疊,然后送入到全連接層主分類器中進行分類,如圖1所示。
本文在MIT indoor 67[27]數(shù)據(jù)集上進行實驗來驗證所提出表示方法的有效性。
MIT indoor 67場景識別數(shù)據(jù)集包含了15 620張共67類的彩色場景圖片。每個類別至少包含100張場景圖片,圖片短邊的最小分辨率為200像素。根據(jù)數(shù)據(jù)集規(guī)定的評估協(xié)議,本文在每個類別中選擇80張圖片進行訓練,并用余下20張圖片進行測試。
本文方法使用了兩個ResNet-50進行特征提取,分別在Places數(shù)據(jù)集和ImageNet數(shù)據(jù)集上進行了預訓練。模型輸入圖片尺寸為448×448,圖片經(jīng)過特征提取后得到的特征圖的尺寸為2 048×(14×14),其中2 048為通道的數(shù)量,因此經(jīng)過GAP后的向量長度為2 048。本文中,除了最終表示向量的長度為4 096以外,所有向量的長度均為2 048。
為了初始化CAM生成器中的輔助分類器,本文首先將場景卷積神經(jīng)網(wǎng)絡和CAM生成器單獨提出來進行訓練。訓練時,凍結場景卷積神經(jīng)網(wǎng)絡的權重,只訓練輔助分類器的權重。訓練的設定如下:batch size設置為32,epoch設置為40,初始學習率為0.01,且每個10個epoch下降為原來的1/10。網(wǎng)絡輸入圖片的尺寸為224×224,為了進行數(shù)據(jù)增強,本文將訓練集中的圖片大小調整為256×256,然后隨機裁切成224×224,同時對圖片進行隨機翻轉。訓練輔助分類器的結果將作為一個基準(Baseline),代表單場景卷積神經(jīng)網(wǎng)絡進行場景識別的性能。
在局部的場景表示中,本文將采樣熱點區(qū)域的數(shù)量定為N=9,熱點區(qū)域篩選的閾值定為T=150,這兩個重要超參數(shù)是由章節(jié)4.4節(jié)中的實驗獲得的。LSTM的隱藏層的尺寸為2 048,與本文特征的尺寸一致。
整個模型的訓練設置如下:模型輸入圖片的尺寸為448×448,輸入圖片經(jīng)過數(shù)據(jù)增強,即首先將輸入圖片調整為480×480,然后隨機裁剪448×448的尺寸,然后隨機水平翻轉圖片。Batch size設置為32,epoch設置為40。整個模型被分為3個部分來設置學習率:(1)將提取物體特征的卷積神經(jīng)網(wǎng)絡的學習率設置為0,表示凍結物體卷積神經(jīng)網(wǎng)絡的訓練;(2)將場景卷積神經(jīng)網(wǎng)絡的初始學習率設置為0.000 1,目的是為了防止在前期訓練的時候,過大的損失回傳破壞場景卷積神經(jīng)網(wǎng)絡已學得的特征;(3)將模型的其他部分的初始學習率則設置為0.01。學習率在第34個epoch和第74個epoch縮減為原來的1/10。在測試階段,本文使用5-crop測試方法,并取最后5個epoch測試結果的平均值。
可以看到,相比于基準,本文算法準確度提高了約3%;而相比于最近幾年的算法,本文算法取得了SOTA(State-of-the-arts)水準。相較于傳統(tǒng)的SPM算法,本文算法提升較大,證明了卷積特征的表示能力。相比于使用傳統(tǒng)的特征變換手段編碼卷積特征的方法,例如MOP-CNN、DSP、SFV、LS-DHM、VSAD、fgFV和DAG-CNN、MVML-LSTM、Multi-scale CNNs、Dual CNN-DL、SDO、Multi-Modal deep architectures等利用多尺度卷積特征、構建復雜場景表示的方法,本文方法也取得了不錯的效果。本文構建的全局和局部表示,在一定程度上契合場景圖片本身的性質,因此具有較強的表示能力和魯棒性,更擅長于室內復雜場景的分類。
為了證明所提出方法的有效性,本文將實驗結果與一些經(jīng)典方法以及最近提出的方法進行了對比,結果如表1所示。
表1 MIT indoor 67 數(shù)據(jù)集的準確率Table 1. The accuracy on MIT indoor 67 data set
本節(jié)將對模型超參數(shù),即熱點區(qū)域的數(shù)量N和熱點區(qū)域篩選閾值T進行選取。本文選取N∈[5,7,9]及T∈[100,125,150,175,200]進行實驗,來探尋最優(yōu)的超參數(shù)組合,實驗結果如圖7所示。
圖7 不同超參數(shù)下模型準確度Figure 7. The accuracy of the model under different hyperparameters
由圖7可以看出,在N=9且T=150的情況下,模型準確度達到最高值。
本文根據(jù)場景圖片的組成特點,提出了一種場景綜合表示方法,它能夠將卷積特征轉換為場景的全局和局部表示。為了構建全局表示,本文使用了基于注意力機制的方法;為了構建局部表示,本文使用了類激活映射來提取熱點區(qū)域,并使用LSTM來編碼熱點區(qū)域的卷積特征。在如今的構建端到端場景識別模型的大趨勢下,本文的方法能夠進行端到端的訓練和推理。在MIT indoor 67 數(shù)據(jù)集上的實驗證明了本文方法的可行性。盡管本文的方法在場景識別數(shù)據(jù)上取得了一定的效果,但仍存在一些問題,需要在今后的研究中解決:(1)本文依靠隱式的方法(基于注意力機制)提取場景中的物體特征,但不是所有的物體特征都對分類起積極作用,需要后續(xù)開展研究,進行有效特征的篩選:(2)研究提取場景中顯式物體特征的方法;(3)本文構建的局部表示是基于單尺度的,但是場景圖片中的特征是多尺度的。在本文提取全局尺度特征、1/2尺度特征的基礎上融合更小尺度的熱點區(qū)域特征可能會對場景識別有所幫助。總之,場景識別準確度取決于構建的圖片表示的辨識能力,構建綜合的、多尺度的場景表示將是未來場景識別發(fā)展的主流方向。