楊清溪,張麗紅
(山西大學 物理電子工程學院,山西 太原 030006)
場景識別是計算機視覺領(lǐng)域的基礎(chǔ)任務(wù)之一.傳統(tǒng)的場景識別方法主要基于手工特征來研究,在表達能力上有限,識別精度較低.近年來,人們開始利用深度學習方法進行場景識別,并取得了顯著成果.基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的方法不需要手工提取圖像特征,而且還可以將顏色、紋理、材料等低層潛在信息與區(qū)域、對象等高層信息相結(jié)合,從而獲得更好的場景表示以提高場景識別性能.
目前,國內(nèi)外場景識別的研究中,提高場景識別性能方法的主要趨勢集中在加深網(wǎng)絡(luò)的深度和寬度.但場景圖像類內(nèi)變化大,類間相似度高(不同場景類別有共享相似的場景表示對象),會削弱網(wǎng)絡(luò)的泛化能力,因此,模型場景識別的性能并不會隨著網(wǎng)絡(luò)的深度和寬度線性變化.為了解決這一問題,國內(nèi)外研究人員提出一些基于上下文信息和判別對象信息來提升場景識別性能的方法.Xie等人基于上下文信息,通過判別候選區(qū)域的顯著性,構(gòu)建了一個融合局部和全局判別特性的CNN架構(gòu),提高了場景圖像的細粒度識別[1];同時,Zhao等人提出了一個判別發(fā)現(xiàn)網(wǎng)絡(luò),它可以為每一幅輸入圖像生成相應(yīng)的判別映射,再將其輸入到多尺度通道內(nèi)進行特征提取[2];在判別對象信息方面,HerranzPerdiguero等人提出了在深度語義分割網(wǎng)絡(luò)的基礎(chǔ)上,引入支持向量機(Support Vector Machine,SVM)進行基于對象直方圖的場景識別[3];Wang等人設(shè)計了從面向?qū)ο蠛兔嫦驁鼍暗腃NN中提取基于Patch的特征來構(gòu)建場景的語義表示架構(gòu)[4];Cheng等人提出的基于語義聚合描述子向量(Vectors of Semantically Aggregated Descriptors,VSAD)方法也可以在標準場景識別的基準上取得優(yōu)良的性能[5].
盡管此類方法可以有效提高場景識別的準確率,但基于對象的場景識別方法往往參數(shù)量大,導(dǎo)致計算量過大,而且對象之間的空間相互關(guān)系也沒有充分利用.因此,本文提出了基于語義信息的場景識別方法,通過語義分割利用對象實例之間的空間關(guān)系來引導(dǎo)網(wǎng)絡(luò)學習.實驗結(jié)果證明,本文所提出的方法在顯著減少網(wǎng)絡(luò)單元數(shù)量和參數(shù)數(shù)量的同時,能夠獲得更好的識別性能.
語義分割任務(wù)是為圖像中的每一個像素分配一個對象標簽.語義指的是對圖像內(nèi)容的理解;分割則指的是從像素的角度分割出圖片中的不同對象,即對圖像中的每個像素都進行標注.
通用的語義分割網(wǎng)絡(luò)是一個編-解碼網(wǎng)絡(luò).編碼器通常是一個預(yù)先訓練的分類網(wǎng)絡(luò),解碼器則是將編碼器學習到的語義特征(低分辨率)投影到像素空間(高分辨率)上,得到密集的分類.現(xiàn)行的語義分割方法主要分為3種:基于區(qū)域的語義分割、全卷積網(wǎng)絡(luò)語義分割、弱監(jiān)督語義分割.
在多模態(tài)特征融合方法的啟發(fā)下,本文基于RGB分支網(wǎng)絡(luò),采用語義分割結(jié)果作為附加信息源來研究場景識別問題.
高效網(wǎng)絡(luò)是為了解決如何在有限的計算資源下得到網(wǎng)絡(luò)性能的最大值而提出的.卷積神經(jīng)網(wǎng)絡(luò)的縮放通常可以在深度、寬度和圖像分辨率 3個維度上進行.現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型架構(gòu)大多是選擇其中一個維度進行縮放.高效網(wǎng)絡(luò)則是通過引入一個簡單而高效的復(fù)合系數(shù)按比例縮放網(wǎng)絡(luò)的深度、寬度和分辨率3個維度,從而使網(wǎng)絡(luò)具有更好的精度和效率[6].
卷積層可以定義為一個函數(shù):Yi=Fi(Xi),其中Yi是輸出張量,F(xiàn)i是卷積運算,Xi是輸入張量,張量形狀為〈Hi,Wi,Ci〉.其中Hi和Wi為空間維度,Ci為通道維度.一個卷積神經(jīng)網(wǎng)絡(luò)N通??梢员硎緸槎鄬泳矸e運算
N=Fk⊙…⊙F2⊙F1(X1)=⊙j=1,…,kFj(X1).
(1)
實際設(shè)計中卷積神經(jīng)網(wǎng)絡(luò)被劃分為多個階段,除了第一層執(zhí)行下行采樣操作外,其余每個階段的卷積層都執(zhí)行相同的操作.此時,可將卷積神經(jīng)網(wǎng)絡(luò)表示為
(2)
模型縮放在不更改基線模型中預(yù)定義Fi的情況下擴展網(wǎng)絡(luò)的長度、寬度和分辨率.其目標是使給定資源約束的模型精度最大化,因此可以表示為以下優(yōu)化問題
Memory(N)≤target_memroy,
FLOPS(N)≤target%flops,
(3)
高效網(wǎng)絡(luò)使用一個復(fù)合系數(shù)φ來均勻縮放網(wǎng)絡(luò)的寬度、深度和分辨率
depth:d=αφ,width:w=βφ,
resolution:r=γφ,α≥1,β≥1,γ≥1,
(4)
式中:φ表示可提供的總體計算資源;α,β,γ表示為網(wǎng)絡(luò)寬度、深度和分辨率分配的計算資源.卷積的運算量與d,w2,r2成正比,通過約束α·β2·γ2≈2,可以使得對于任意φ值,網(wǎng)絡(luò)整體的運算量增加2φ倍,通過小型網(wǎng)格搜索,確定高效網(wǎng)絡(luò)基線模型中的w=1.10,d=1.20,r=1.15.
利用高效網(wǎng)絡(luò)在計算資源有限時的優(yōu)勢,本文采用高效網(wǎng)絡(luò)的基線模型作為RGB分支的特征提取網(wǎng)絡(luò).
多模態(tài)特征融合方法可以有效提高場景識別的性能.因此,本文提出融合圖像的RGB特征和語義特征來提升模型性能;本文采用基于度量學習的注意力機制融合架構(gòu),即先將圖像的RGB特征和語義特征轉(zhuǎn)換到同一空間,再進行基于注意力機制的特征融合.
1.3.1 基于度量學習的特征轉(zhuǎn)換
直接對多模態(tài)特征向量進行融合,會忽略不同模態(tài)特征之間信息的互補性和一致性.基于度量學習的特征轉(zhuǎn)換方法,可以通過尋找線性變換,將圖像的原始特征轉(zhuǎn)換到更具有代表性和判別性的特征空間中,從而盡可能地保留一致性信息,實現(xiàn)不同特征向量的互補信息和判別信息的充分利用[7].
為了克服場景圖像的類內(nèi)多樣性和類間相似性,使同一類圖像之間的度量距離更小,不同類圖像之間的度量距離更大;以及最小化同一圖像的兩個不同特征向量之間的差異,將不同特征向量映射到同一個公共空間,自適應(yīng)判別度量學習的目標函數(shù)可以表示為
(5)
不同的特征向量需要不同的變換矩陣,Wv∈Rdv×m表示第v個特征向量的變換矩陣,m表示公共空間的維數(shù);αv是自適應(yīng)權(quán)重向量;β是正則化參數(shù),以防止矩陣Wv中的元素過大;η是一個正則化參數(shù).對上述目標函數(shù)進行優(yōu)化,可以獲得不同特征向量相對應(yīng)的變換矩陣Wv,它可以將得到的深層特征向量轉(zhuǎn)換到更有識別力的特征空間.
在判別度量學習的基礎(chǔ)上,本文為了進一步簡化模型結(jié)構(gòu),只針對語義分支提取的特征進行轉(zhuǎn)換,通過卷積操作直接將其轉(zhuǎn)換到RGB分支特征所處的空間中,再進行基于注意力機制的特征融合.
1.3.2 基于注意力機制的特征融合
注意力機制的本質(zhì)是一系列權(quán)重系數(shù)的分配,可以使模型在學習過程中重新選擇聚焦位置,通過權(quán)重系數(shù)不僅可以強調(diào)或選擇圖像中重要對象的信息,而且可以抑制無關(guān)的細節(jié)信息,從而產(chǎn)生更具判別性的特征表示.
注意力機制是由多個注意力模塊堆疊而成的,每一個注意力模塊可以分為掩碼和主干分支兩部分,輸出可以表示為
Hi,c(x)=Mi,c(x)*Ti,c(x),
(6)
式中:Mi,c(x)是掩碼分支輸出的注意力權(quán)重;Ti,c(x)是主干分支提取的特征表示;Hi,c(x)表示二者的點積.
主干分支通過卷積操作提取特征.掩碼分支主要由下-上采樣的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成,下采樣產(chǎn)生低分辨率、強語義信息的特征圖,起到收集整個圖像全局信息的作用;上采樣擴展下采樣產(chǎn)生的特征圖,使其尺寸與輸入下采樣前的特征圖相同,起到對輸入特征圖進行推理選擇的作用.掩碼分支的輸出可以看作是主干分支輸出的控制器,過濾不重要的信息,強調(diào)重要信息.
本文基于卷積神經(jīng)網(wǎng)絡(luò)提取的特征,對特征張量的所有通道和空間位置直接使用Sigmoid函數(shù),不添加其他任何額外約束,從而得到混合注意力模塊,Sigmoid函數(shù)的表達式為
(7)
式中:xi表示一個特征通道上的所有特征向量;c表示不同的特征通道.
本文通過混合注意力模塊由語義分支的輸出特征控制RGB分支的輸出特征,使得網(wǎng)絡(luò)的注意力集中到具有強語義表達的圖像區(qū)域上,以提升網(wǎng)絡(luò)的總體性能.
本文提出了一種由雙分支CNN和注意力機制組成的多模態(tài)深度學習場景識別架構(gòu),如圖 1 所示.設(shè)計思想主要是基于圖像的RGB特征和語義特征,可以起到相互補充的作用[8].整體網(wǎng)絡(luò)架構(gòu)由3部分組成:語義分支在語義分割的基礎(chǔ)上利用通道注意模塊實現(xiàn)圖像強語義信息的提?。籖GB分支利用高效網(wǎng)絡(luò)基線模型提取圖像的整體特征;基于度量學習將得到的雙分支特征轉(zhuǎn)換到同一特征空間下后,通過注意力機制有效融合兩種特征,將融合后的特征輸入線性分類器,最終實現(xiàn)圖像場景類別的預(yù)測.
圖 1 基于語義信息的場景識別模型結(jié)構(gòu)
語義分支由UPerNet-50語義分割模型和通道注意模塊兩部分組成.給定輸入圖像I,直接利用預(yù)訓練好的UPerNet-50模型對圖像進行語義分割,得到相應(yīng)的特征張量M,經(jīng)過降維處理后將其送入通道注意模塊提取強語義特征,最后利用卷積操作(卷積核為3×3,、步長S設(shè)為2)實現(xiàn)判別度量學習,將特征張量映射到7×7×320的特征空間中,便可得到最終語義分支的特征張量FM.
通道注意模塊使網(wǎng)絡(luò)進一步學習圖像中與圖像場景類別有關(guān)的語義信息.其具體結(jié)構(gòu)如圖 2 所示.
圖 2 通道注意模塊的結(jié)構(gòu)
輸入特征圖F∈Rw′×h′×c′,首先通過平均池化和最大池化在空間維度上對特征圖F進行壓縮,得到特征向量fmax和favg;再將fmax和favg輸入由ReLU激活函數(shù)連接的兩層全連接層當中,得到特征向量f1和f2,將這兩個向量疊加并通過Sigmoid函數(shù)進行正則化,從而生成1×1×192維的通道注意力地圖mc∈R1×1×c′.
f1=WC2·φ(WC1·favg),
(8)
f2=WC2·φ(WC1·fmax,
(9)
mc(F)=σ(f1+f2),
(10)
式中:σ表示Sigmoid激活函數(shù);φ表示ReLU激活函數(shù);C1,C2表示全連接層;W為全連接層的權(quán)重.
再用通道注意力地圖mc對F加權(quán)可以進一步學習圖像的語義信息
F′=mc(F)⊙F,
(11)
式中:⊙表示哈達馬(Hadamard)乘積;F′表示通道注意模塊的輸出,特征張量的維度為14×14×192.
本文為了簡化模型結(jié)構(gòu),直接使用了高效網(wǎng)絡(luò)模型系列當中的基線模型——EfficientNet-B0來提取圖像的RGB特征,EfficientNet-B0的具體網(wǎng)絡(luò)結(jié)構(gòu)如表 1 所示.
EfficientNet-B0架構(gòu)由標準卷積層和移動翻轉(zhuǎn)瓶頸卷積(Mobile inverted bottleneck convolution, MBConv)組成.網(wǎng)絡(luò)的具體結(jié)構(gòu),以及不同階段輸出的分辨率和通道數(shù)如表1所示.其中,標準卷積層起調(diào)整輸入維度的作用;多階段MBConv可以對特征圖進行低維子空間編碼,以降低計算復(fù)雜度;最后由卷積核為1×1,步長S為1的卷積操作輸出RGB分支的特征張量.
表 1 EfficientNet-B0基線網(wǎng)絡(luò)的具體結(jié)構(gòu)
將語義分支的輸出特征FM轉(zhuǎn)換到與RGB分支輸出特征FI相同的特征空間后,通過注意力機制融合FM和FI便可得到最終的特征張量FA.
注意力機制的具體結(jié)構(gòu)如圖 3 所示.
(12)
(13)
FA=FI,A⊙FM,A,
(14)
圖 3 注意力機制的具體結(jié)構(gòu)
表 2 注意力機制的層數(shù)和輸出特征
最后將總的特征張量FA輸入由平均池化、隨機丟棄和全連接層組成的分類器當中,生成特征向量f∈RK,通過對數(shù)歸一化指數(shù)函數(shù),可以得到最終的場景識別預(yù)測概率y∈RK,
(15)
式中:K表示場景類別的總數(shù);k表示當前場景的類別;fi表示特征向量的第i個元素.
本文采用分階段訓練的方法,以防止其中一個分支主導(dǎo)訓練過程.
在第一階段,首先單獨訓練網(wǎng)絡(luò)模型的RGB分支和語義分支;在第二階段,控制已經(jīng)訓練好的RGB分支和語義分支結(jié)構(gòu)不變,再開始訓練網(wǎng)絡(luò)的注意力機制和線性分類器模塊.
網(wǎng)絡(luò)的損失函數(shù)采用在分類問題中常用的Softmax損失,其表達式為
(16)
式中:-log(·)表示負對數(shù)似然函數(shù);N為批處理中訓練樣本的數(shù)量,在訓練過程中設(shè)置為8.本文使用弗蘭克-沃爾夫深度(Deep Frank-Wolfe,DFW)算法來優(yōu)化網(wǎng)絡(luò).DFW算法是梯度下降算法的一種,神經(jīng)網(wǎng)絡(luò)通過利用誤差反向傳播在梯度下降的過程尋找損失函數(shù)的最優(yōu)解.誤差反向傳播是指通過比較網(wǎng)絡(luò)輸出的分類結(jié)果和真實標簽之間的不同,從而得到誤差信號,并將誤差信號從輸出層逐層向前傳播,從而得到各隱藏層誤差信號,再基于這些誤差,調(diào)整各隱藏層之間的連接權(quán)重和偏置,以減小網(wǎng)絡(luò)最終的整體誤差.因此,在找到損失函數(shù)全局最優(yōu)解的同時,便完成了網(wǎng)絡(luò)當中權(quán)重和偏置的更新和迭代.本文設(shè)置網(wǎng)絡(luò)的初始學習率為0.1,動量值為0.9,權(quán)重衰減值為0.000 1.
實驗在ADE20K,MIT Indoor 67,SUN397 3個數(shù)據(jù)集上進行.
ADE20K場景解析數(shù)據(jù)集:ADE20K場景解析數(shù)據(jù)集包含22 210幅以場景為中心、并對對象進行了詳細標注的圖像.將數(shù)據(jù)集中20 210張圖像用于訓練,2 000張圖像用于驗證.該數(shù)據(jù)集共有K=1 055個場景類,因此可以用于場景識別模型的訓練,但這個數(shù)據(jù)集有一個缺點在于數(shù)據(jù)的組成不夠均衡.ADE20K數(shù)據(jù)集還具有150個語義類別標簽,因此被用來預(yù)訓練模型中的UPerNet-50 語義分割網(wǎng)絡(luò).
MIT Indoor 67數(shù)據(jù)集:MIT Indoor 67數(shù)據(jù)集包含15 620幅室內(nèi)場景圖像,共有K=67場景類.對于每個場景類,我們將80張圖像用于訓練,20張圖像用于驗證.
SUN397數(shù)據(jù)集:SUN397數(shù)據(jù)集包含 39 700幅場景圖像,分為K=397個場景類,涵蓋了室內(nèi)和室外的各種環(huán)境.數(shù)據(jù)集本身提供了一個評估協(xié)議,將整個數(shù)據(jù)集劃分為訓練集和驗證集.按照協(xié)議,將每個場景類的50張圖像用于訓練,另外50張圖像用于驗證.
場景識別性能的好壞通常是通過Top@k精度指標來評價的,k∈[1,K].本文選擇Top@{k=1,2,5}精度指標.Top@1精度度量了得分最高的預(yù)測結(jié)果與驗證圖像真實標簽相一致的百分比;Top@2精度度量了得分最高的2個預(yù)測結(jié)果中的任何一個結(jié)果與驗證圖像真實標簽相一致的百分比;Top@5精度則度量了得分最高的5個預(yù)測結(jié)果中的任何一個結(jié)果與驗證圖像真實標簽相一致的百分比.
Top@k精度的度量偏向于驗證集中包含圖像數(shù)量多的場景類,即包含的圖像數(shù)量少的場景類幾乎不影響Top@k精度的度量.為了評估數(shù)據(jù)組成不均衡的驗證集(如ADE20K),使用平均類精度(MCA)來進行性能度量
(17)
式中:Topi@1是場景類i的Top@1精度;K表示場景類別的總數(shù).對于一個完全平衡的數(shù)據(jù)集,MCA等于該場景類的Top@1精度.
在ADE20K數(shù)據(jù)集上進行了關(guān)于語義分支的消融研究,結(jié)果如表 3 所示.
表 3 中對比了單獨使用RGB分支或語義分支時所提出架構(gòu)的性能.實驗結(jié)果表明,單獨使用任意一個分支的性能都沒有融合兩個分支的性能好.表明圖像的RGB特征和語義特征在場景識別任務(wù)中具有很強的互補性.
表 3 在ADE20K數(shù)據(jù)集上場景識別結(jié)果
在MIT Indoor 67數(shù)據(jù)集上,將本文模型與近年來國內(nèi)外先進模型做了對比,場景識別的Top@1精度結(jié)果對比如表 4 所示.
表 4 本文模型與其他模型在MIT Indoor 67數(shù)據(jù)集 上的Top@1比較表
由表 4 可知與其他國內(nèi)外先進模型相比,本文所設(shè)計的模型結(jié)構(gòu)不僅使用的參數(shù)數(shù)量更少,而且在MIT Indoor67數(shù)據(jù)集上可以獲得更高的識別精度.
本文設(shè)計的網(wǎng)絡(luò)在MIT Indoor 67數(shù)據(jù)集上訓練時的損失函數(shù)曲線如圖 4 所示,損失函數(shù)隨迭代次數(shù)的增加不斷下降,最終降到0.508左右,網(wǎng)絡(luò)收斂.
圖 4 本文模型在MIT Indoor 67數(shù)據(jù)集上的訓練損失
在SUN397數(shù)據(jù)集上,同樣將本文模型與近年來國內(nèi)外先進模型做了對比,場景識別的 Top@1 精度結(jié)果對比如表5所示.
表 5 本文模型與其他模型在SUN397數(shù)據(jù)集 上的Top@1比較表
由表5可知,與其他國內(nèi)外先進模型相比,本文所設(shè)計的模型在SUN397數(shù)據(jù)集同樣可以獲得更高的識別精度,說明了本文模型結(jié)構(gòu)的魯棒性較好.
為了更形象化地看到語義信息在場景識別任務(wù)中的先驗學習作用,以及注意力機制引導(dǎo)網(wǎng)絡(luò)模型關(guān)注圖像中強判別性的區(qū)域,本文進一步給出了類激活映射,如圖5所示.
圖 5 不同數(shù)據(jù)集圖像的類激活映射
圖5中的第1行分別從3個數(shù)據(jù)集中各取了 1張圖片,(a)來自ADE20K,(b)來自MIT Indoor67,(c)來自SUN397;第2行則表示3個圖片分別對應(yīng)的 類激活映射,(d)對應(yīng)為(a)的 類激活映射,(e)對應(yīng)為(b)的 類激活映射,(f)對應(yīng)為(c)的 類激活映射;其中,顏色從藍到紅表示網(wǎng)絡(luò)為該圖像塊分配的權(quán)值越來越大,其中紅色部分表示網(wǎng)絡(luò)重點關(guān)注的區(qū)域;同時,在激活圖的左上角也給出了圖像的真實標簽和得分最高的前3個預(yù)測結(jié)果.
本文提出了一種由雙分支CNN和注意力機制組成的多模態(tài)深度學習場景識別模型.首先由語義分支網(wǎng)絡(luò)有效提取圖像的語義信息,同時RGB分支利用高效網(wǎng)絡(luò)提取圖像的全局特征,通過注意力機制有效融合兩種特征,從而完成場景識別任務(wù).在ADE20K,MIT Indoor 67,SUN397 3個數(shù)據(jù)集上的實驗結(jié)果表明,本文提出多模態(tài)特征融合的方法,不僅可以有效提升模型場景識別的性能,同時減少了參數(shù)量,加快計算速度.本文由于僅僅用ADE20K數(shù)據(jù)集訓練了語義分割網(wǎng)絡(luò),故模型優(yōu)勢在MIT Indoor 67和SUN397數(shù)據(jù)集上沒有完全體現(xiàn)出來,因此改進語義分割網(wǎng)絡(luò)可以進一步提升模型的場景識別能力.