徐江浪,李林燕,萬新軍,胡伏原*
(1.蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇蘇州 215009;2.蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院信息技術(shù)學(xué)院,江蘇蘇州 215009)
(*通信作者電子郵箱fuyuanhu@mail.usts.edu.cn)
近些年來,隨著互聯(lián)網(wǎng)的普及以及人們生活水平的不斷提高,場(chǎng)景識(shí)別技術(shù)的發(fā)展為人們帶來越來越多的服務(wù)和便利。室內(nèi)場(chǎng)景識(shí)別是場(chǎng)景識(shí)別的關(guān)鍵部分,室內(nèi)場(chǎng)景識(shí)別技術(shù)的發(fā)展在智能家居、服務(wù)機(jī)器人、安防監(jiān)控等領(lǐng)域都有著廣闊的應(yīng)用前景[1-2]。
在早期,室內(nèi)場(chǎng)景識(shí)別一般都是利用顏色、紋理、形狀等特征進(jìn)行識(shí)別,隨著諸如尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)、加速健壯特征(Speeded-Up Robust Features,SURF)、方向梯度直方圖(Histogram of Oriented Gradients,HOG)等算子的廣泛應(yīng)用,比較流行的分類方法是利用各種算子提取場(chǎng)景特征,以此訓(xùn)練出較好的模型實(shí)現(xiàn)場(chǎng)景識(shí)別,其中應(yīng)用較廣的是詞袋(Bag-Of-Words,BOW)模型,產(chǎn)生了基于BoW 模型的一系列場(chǎng)景識(shí)別方法。Lazebnik 等[3]提出的一種基于空間金字塔(Spatial Pyramid)的BOW 模型場(chǎng)景識(shí)別方法為后來的研究學(xué)者提供了思路,不少學(xué)者在此基礎(chǔ)上作出了改進(jìn)和創(chuàng)新;但是這類方法很大程度上依賴人工算子進(jìn)行特征提取,導(dǎo)致泛化能力不足,而深度學(xué)習(xí)方法在這一方面有了很大的改善。
在基于深度學(xué)習(xí)的方法中,出現(xiàn)了多種以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為基礎(chǔ)的方法[4-7]。由于復(fù)雜的室內(nèi)場(chǎng)景包含多種目標(biāo),全局特征難以表達(dá)這些目標(biāo)特征,基于此,Quattoni等[8]提出結(jié)合全局特征(Global Feature)和局部特征(Local Feature)來識(shí)別室內(nèi)場(chǎng)景,利用局部特征表示目標(biāo)特征,提高了識(shí)別準(zhǔn)確率。Cheng等[9]提出一種用于場(chǎng)景識(shí)別的具有對(duì)象性的語義描述符方法,利用不同場(chǎng)景中對(duì)象配置的相關(guān)性,通過場(chǎng)景中所有對(duì)象的共現(xiàn)模式來選擇有代表性的和有區(qū)別的對(duì)象,增強(qiáng)了類間的可區(qū)分性。Herranz 等[10]提出了一種基于多尺度特征的方法,將不同尺寸的圖像分別送入適合它們的目標(biāo)網(wǎng)絡(luò)和場(chǎng)景網(wǎng)絡(luò)來分別提取特征,解決了圖像尺寸和識(shí)別網(wǎng)絡(luò)的匹配問題,但是尺寸的不斷增加導(dǎo)致了方法復(fù)雜度的增加。Wang 等[11]提出了一種知識(shí)指導(dǎo)消歧(Knowledge Guided Disambiguation)策略,利用知識(shí)網(wǎng)絡(luò)提取的目標(biāo)特征生成場(chǎng)景圖像的軟標(biāo)簽,指導(dǎo)場(chǎng)景網(wǎng)絡(luò)最小化損失函數(shù),有效地解決了類間差異小和類內(nèi)差異大的問題,但是目標(biāo)特征的利用率仍較低。為了使網(wǎng)絡(luò)更加關(guān)注場(chǎng)景圖像的顯著區(qū)域,Rezanejad 等[12]提出一種基于場(chǎng)景輪廓的場(chǎng)景分類方法,利用場(chǎng)景輪廓傳達(dá)的形狀和表面的幾何形狀作為信息輸入進(jìn)行場(chǎng)景識(shí)別,這種基于中軸的顯著性度量方法增加了場(chǎng)景特征中有用的信息。Sun 等[13]也提出一種場(chǎng)景識(shí)別的綜合表示方法,該方法融合了從物體語義、全局外觀和上下文外觀這三個(gè)區(qū)別視圖中提取的深層特征,利用特征的多樣性和互補(bǔ)性,以及場(chǎng)景圖像的上下文信息,提升了識(shí)別準(zhǔn)確率。盡管上述方法已經(jīng)取得了顯著的效果,但是對(duì)于結(jié)合目標(biāo)檢測(cè)的室內(nèi)場(chǎng)景識(shí)別方法而言,場(chǎng)景圖像中目標(biāo)特征的利用效率極大地影響了室內(nèi)場(chǎng)景識(shí)別效果,而這是當(dāng)前亟待解決的問題[14-17]。
由于場(chǎng)景圖像中包含多種目標(biāo)信息,但并非所有的目標(biāo)都對(duì)場(chǎng)景識(shí)別產(chǎn)生積極作用,甚至有些會(huì)產(chǎn)生反作用影響最終的識(shí)別效果(如臥室中出現(xiàn)的電腦、餐廳中入鏡的沙發(fā)等);而且,在進(jìn)行場(chǎng)景特征和目標(biāo)特征之間的融合時(shí),由于兩種特征的維度不一致,在特征融合時(shí)會(huì)造成信息丟失等問題。因此,本文提出了一種結(jié)合目標(biāo)檢測(cè)的室內(nèi)場(chǎng)景識(shí)別方法,主要思想是:1)為了解決特征維度不一致的問題,本文利用類轉(zhuǎn)換矩陣(Class Conversion Matrix,CCM)對(duì)目標(biāo)特征的維度進(jìn)行轉(zhuǎn)換,使目標(biāo)特征在與場(chǎng)景特征融合時(shí)能夠減少信息丟失;2)針對(duì)冗余信息的問題,本文采用了上下文門控(Context Gating,CG)機(jī)制對(duì)目標(biāo)特征中所包含的冗余信息進(jìn)行抑制,降低不相關(guān)信息的權(quán)重,提高室內(nèi)場(chǎng)景識(shí)別中目標(biāo)特征的利用效率,使網(wǎng)絡(luò)更加關(guān)注圖像的相關(guān)目標(biāo)區(qū)域,提高室內(nèi)場(chǎng)景識(shí)別的準(zhǔn)確度。
本文以Inception 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)框架由場(chǎng)景識(shí)別網(wǎng)絡(luò)PlacesNet(本文圖示以MR-CNNs(Multi-Resolutions CNNs)為例)、目標(biāo)檢測(cè)網(wǎng)絡(luò)(Object detection Network,ObjectNet)兩個(gè)部分組成,如圖1 所示。PlacesNet 是用來提取場(chǎng)景特征的CNN 模型;ObjectNet 用來提取目標(biāo)特征,為了獲得更精確的目標(biāo)特征,本文采用了在ImageNet 上預(yù)訓(xùn)練過的CNN 模型。然后,提取的特征進(jìn)入特征融合模塊(Feature Fusion Module),該模塊通過卷積層+ReLU(Rectified Linear Unit)和哈達(dá)瑪積的組合將兩個(gè)網(wǎng)絡(luò)的輸出特征進(jìn)行融合;最后,經(jīng)過softmax 層進(jìn)行分類,輸出最終結(jié)果。作為改進(jìn),本文將CCM 置于ObjectNet 提取的目標(biāo)特征之后,對(duì)它進(jìn)行轉(zhuǎn)化,使它的特征維度和場(chǎng)景網(wǎng)絡(luò)提取的特征維度一致;在融合目標(biāo)特征和場(chǎng)景特征之前,采用CG對(duì)目標(biāo)特征中可能存在的冗余信息進(jìn)行了抑制,以此提高目標(biāo)特征的利用效率。
圖1 網(wǎng)絡(luò)框架Fig.1 Network framework
為了將ObjectNet 提取的目標(biāo)特征轉(zhuǎn)化為場(chǎng)景特征,避免目標(biāo)特征與場(chǎng)景特征兩種不同特性的特征直接進(jìn)行融合,提升特征融合模塊的融合效果,本文在目標(biāo)檢測(cè)和場(chǎng)景識(shí)別相結(jié)合的方法中引入CCM,如圖2 所示,將CCM 置于ObjectNet的特征之后,將目標(biāo)特征進(jìn)行加權(quán)和,最終轉(zhuǎn)換成和場(chǎng)景特征相同維度。輸入目標(biāo)特征xobject是從ObjectNet 中提取的,輸出特征為yobject→scene,CCM的計(jì)算如下:
圖2 特征轉(zhuǎn)換示意圖Fig.2 Schematic diagram of feature conversion
其中 :xobject∈Rn;權(quán) 重W∈Rm×n,偏 差b∈Rm,yobject→scene∈Rm是與xobject相關(guān)的輸出。n是輸入向量的維數(shù),m是輸出向量的維數(shù)。如果將ImageNet數(shù)據(jù)集用于訓(xùn)練對(duì)象模塊,則n=1 000。如果將Places 2數(shù)據(jù)集用于訓(xùn)練場(chǎng)景模塊,則m=365。CCM 不僅可以應(yīng)用于不同的數(shù)據(jù)集,而且可以應(yīng)用于相同的數(shù)據(jù)集,即m=n,如具有Places 2 數(shù)據(jù)集格式的CCM 的參數(shù)W∈Rm×m和b∈Rm,則具有相同數(shù)據(jù)集格式的輸入xobject∈Rm和輸出yobject→scene∈Rm。而且,從CCM 的權(quán)重中可以分析目標(biāo)和場(chǎng)景之間的關(guān)系,即目標(biāo)和場(chǎng)景之間的相關(guān)程度,如果一個(gè)目標(biāo)頻繁出現(xiàn)在場(chǎng)景中,權(quán)重則越高;相反則越低。這意味著場(chǎng)景識(shí)別性能可以獲得進(jìn)一步的提高。
每一幅場(chǎng)景圖像中都可能包含各種各樣的目標(biāo),而當(dāng)一幅場(chǎng)景圖像中出現(xiàn)某一特別的對(duì)象時(shí),這個(gè)場(chǎng)景就很有可能屬于某一特別的類,如一張床對(duì)于臥室,或浴缸對(duì)于浴室的重要性,但是其他不相關(guān)特征可能會(huì)影響網(wǎng)絡(luò)的判斷。為了降低不相關(guān)特征的權(quán)重,本文引入了CG,它的計(jì)算公式為:
其中:xscene表示由場(chǎng)景網(wǎng)絡(luò)提取的場(chǎng)景特征;?表示一種矩陣相乘法;σ(x)=1/(1+exp(-x))是值為(0,1)的sigmoid 激活函數(shù)。如圖3(a),由于sigmoid 激活函數(shù)的特性,左端無限趨于0,右端無限趨于1,構(gòu)成一個(gè)限制信息的“門”,當(dāng)不相關(guān)信息通過門控時(shí),函數(shù)取值趨向0,可以抑制不相關(guān)的信息。在目標(biāo)特征中不相關(guān)信息有可能占據(jù)較高的視覺激活,CG 模塊可以通過上述門控方法抑制這些不相關(guān)信息的傳遞,降低不相關(guān)特征對(duì)識(shí)別效果的影響,使網(wǎng)絡(luò)更加關(guān)注圖像的相關(guān)目標(biāo)區(qū)域。如圖3(b)所示,一個(gè)場(chǎng)景中可能存在一個(gè)或多個(gè)關(guān)鍵特征,圖中用key feature1 和key feature2 代表這類特征,不相關(guān)特征會(huì)被門控大量抑制,關(guān)鍵特征得以保留。
圖3 CG輸入門及原理Fig.3 Input gate and working principle of CG
本文采取特征融合模塊用于融合來自兩個(gè)網(wǎng)絡(luò)的特征,獲得最終用于分類結(jié)果預(yù)測(cè)的特征,本文采用了卷積層+ReLU 和哈達(dá)瑪積的組合結(jié)構(gòu),具體如圖1 所示。場(chǎng)景網(wǎng)絡(luò)獲得的特征表示為:
同樣,目標(biāo)網(wǎng)絡(luò)獲得的特征表示為:
最終融合之后的特征表示為:
其中:⊙表示哈達(dá)瑪積,即矩陣對(duì)應(yīng)位置相乘;yscene為經(jīng)過特征融合模塊的最終特征表示,其經(jīng)過softmax 層進(jìn)行分類,獲得最終的預(yù)測(cè)結(jié)果。
ObjectNet 能夠檢測(cè)出場(chǎng)景圖像中存在的目標(biāo)對(duì)象,本文利用目標(biāo)檢測(cè)網(wǎng)絡(luò)的這種優(yōu)點(diǎn)與場(chǎng)景網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。在本文的實(shí)驗(yàn)中,當(dāng)兩個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練時(shí),如果其中一個(gè)網(wǎng)絡(luò)的判別性較強(qiáng),整體損失較小,則會(huì)阻礙判別性較差的網(wǎng)絡(luò)的優(yōu)化。為了避免其中一個(gè)網(wǎng)絡(luò)控制訓(xùn)練過程,首先,ObjectNet和PlacesNet 分別針對(duì)給定的場(chǎng)景進(jìn)行訓(xùn)練;然后,將訓(xùn)練好的兩個(gè)網(wǎng)絡(luò)從頭開始完全訓(xùn)練特征融合模塊和分類器。在訓(xùn)練過程中,通過最小化以下目標(biāo)函數(shù)來同時(shí)預(yù)測(cè)結(jié)果:
其中:D表示訓(xùn)練數(shù)據(jù)集;Ii表示第i張圖像;yi表示第i張圖像的真實(shí)標(biāo)簽;pi表示預(yù)測(cè)的場(chǎng)景標(biāo)簽;fi表示目標(biāo)網(wǎng)絡(luò)產(chǎn)生的標(biāo)簽;λ是平衡兩項(xiàng)的參數(shù);n和m分別對(duì)應(yīng)兩個(gè)網(wǎng)絡(luò)的特征維度。這種聯(lián)合學(xué)習(xí)方法能夠通過利用包含在目標(biāo)網(wǎng)絡(luò)中的額外知識(shí)作為歸納偏差來提高泛化能力,并減少過度擬合對(duì)訓(xùn)練數(shù)據(jù)集的影響。圖4 為本文方法的準(zhǔn)確率收斂曲線,在迭代1 500次時(shí)準(zhǔn)確率逐漸趨于穩(wěn)定。
圖4 準(zhǔn)確率收斂曲線Fig.4 Accuracy convergence curve
本文方法的具體實(shí)現(xiàn)使用的是深度學(xué)習(xí)框架Tensorflow,實(shí)驗(yàn)環(huán)境為Ubuntu 16.04 操作系統(tǒng),使用4 塊NVIDIA 1080Ti圖形處理器(GPU)加速運(yùn)算。本文采用數(shù)據(jù)集包括:MIT Indoor67數(shù)據(jù)集,該數(shù)據(jù)集包含67個(gè)室內(nèi)類別,總共15 620張圖像,每個(gè)類別至少有100 張圖像;SUN397 數(shù)據(jù)集,它由108 754 張圖像組成,包含了397 個(gè)圖像類別;ImageNet 數(shù)據(jù)集,它是ObjectNet 訓(xùn)練用來提取場(chǎng)景圖像中的目標(biāo)的,包含了1 000 個(gè)對(duì)象類別;Scene-15 數(shù)據(jù)集,該數(shù)據(jù)集包含15 個(gè)不同類別的4 485個(gè)室內(nèi)外場(chǎng)景圖像,其中室內(nèi)場(chǎng)景類別分別是臥室、工廠、廚房、客廳、辦公室和商店。MIT Indoor67 數(shù)據(jù)集部分場(chǎng)景示例如圖5所示。
圖5 MIT Indoor67數(shù)據(jù)集部分場(chǎng)景示例Fig.5 Some scene examples of MIT Indoor67 datasets
實(shí)驗(yàn)使用梯度下降法進(jìn)行訓(xùn)練,設(shè)置權(quán)重衰減(weight dacay)系數(shù)為0.000 1,動(dòng)量(momentum)系數(shù)為0.9,batch size設(shè)置為64,初始學(xué)習(xí)率設(shè)置為0.001。實(shí)驗(yàn)中要學(xué)習(xí)的參數(shù)是權(quán)重W∈Rm×n,偏差b∈Rm,m和n表示維度,與訓(xùn)練數(shù)據(jù)集的類別數(shù)有關(guān),因此不會(huì)增加參數(shù)的規(guī)模,對(duì)模型的學(xué)習(xí)速度不會(huì)產(chǎn)生大的影響。λ是需要人為給定的參數(shù),經(jīng)過多次實(shí)驗(yàn)驗(yàn)證,當(dāng)λ=0.5時(shí),訓(xùn)練的效果最好。
本文使用的評(píng)價(jià)指標(biāo)分別為:召回率Rec(Recall)、精準(zhǔn)率Pre(Precision)和識(shí)別準(zhǔn)確率Acc(Accuracy),其公式定義如下:
其中:TP(True Positive)表示預(yù)測(cè)為正例,實(shí)際為正例;TN(True Negative)表示預(yù)測(cè)為負(fù)例,實(shí)際為負(fù)例;FP(False Positive)表示預(yù)測(cè)為正例,實(shí)際為負(fù)例;FN(False Negative)表示預(yù)測(cè)為負(fù)例,實(shí)際為正例。TP、TN、FP和FN分別表示預(yù)測(cè)的真假性與實(shí)際場(chǎng)景的關(guān)系。本文繪制了精準(zhǔn)率-召回率PR(Precision-Recall)曲線來分析模型,圖6 中展示了SOSF(Spatial-layout-maintained Object Semantics Features)[13]、HoAS(Hierarchy of Alternating Specialists)[18]、SDO(Semantic Descriptor with Objectness)[9]、VSAD(Vector of Semantically Aggregated Descriptors)[19]四種方法和本文方法的PR曲線。PR曲線表現(xiàn)了召回率和精準(zhǔn)率之間的關(guān)系,曲線越靠近右上角,表明模型的性能越好。從圖6 中可以看出本文方法在這方面優(yōu)于其他幾種方法。
圖6 不同方法的PR曲線Fig.6 PR curves of different algorithms
表1 為本文方法在Scene-15 數(shù)據(jù)集上得到的混淆矩陣以及相應(yīng)的召回率和識(shí)別精度,矩陣第i行第j列的值表示第i類場(chǎng)景被預(yù)測(cè)為第j類場(chǎng)景的樣本數(shù)。表1 中序號(hào)分別對(duì)應(yīng)Scene-15 數(shù)據(jù)集中的類別,分別為:1)Living;2)MITmountain;3)MITopencountry;4)MITforest;5)store;6)MIThighway;7)CALsuburb;8)MITstreet;9)industrial;10)kitchen;11)PARoffice;12)MITinsidecity;13)MITcoast;14)bedroom 和15)MITtallbuilding。從表1中可以看出,辦公室的類別召回率為100.0%,精準(zhǔn)率為95.7%;廚房的召回率也達(dá)到100.0%,臥室和客廳兩個(gè)室內(nèi)場(chǎng)景類別容易被相互誤分類,分類錯(cuò)誤的原因是客廳中的目標(biāo)(如沙發(fā))與臥室場(chǎng)景中的目標(biāo)相似。本文方法在室外場(chǎng)景上也有不錯(cuò)的效果。
表1 Scene-15數(shù)據(jù)集的混淆矩陣Tab.1 Confusion matrix of Scene-15 dataset
2.2.1 多種方法在數(shù)據(jù)集MIT Indoor67和SUN397上的比較
目前,已有多種方法對(duì)場(chǎng)景識(shí)別進(jìn)行了研究。本文將多種方法分別在數(shù)據(jù)集MIT Indoor67 和SUN397 上進(jìn)行了對(duì)比實(shí)驗(yàn),主要與以下幾種方法作為對(duì)比實(shí)驗(yàn):Object-Scale[10]、VSAD[19]、MR-CNNs(Multi-Resolution CNNs)[11]、SDO[9]、Semantic-Aware[1]、HoAS[18]、SOSF[13],結(jié)果如表2所示。在MITIndoor67數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),VSAD[19]雖然利用了PatchNet來指導(dǎo)特征提取,但是該網(wǎng)絡(luò)對(duì)Local patch的提取能力并不強(qiáng),準(zhǔn)確率只有86.20%;MR-CNNs[11]的準(zhǔn)確率為86.70%,它在網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行了創(chuàng)新,結(jié)合了多分辨率網(wǎng)絡(luò),但沒有利用局部特征,導(dǎo)致在準(zhǔn)確率上并沒有提升很多;Semantic-Aware[1]在場(chǎng)景的語義信息方面有所改善,但是面對(duì)復(fù)雜場(chǎng)景時(shí)受語義分割的影響,場(chǎng)景識(shí)別效果也受到限制,準(zhǔn)確率為87.10%;另外,HoAS[18]解決了場(chǎng)景的類內(nèi)差異性和類間相似性的問題,SOSF[13]的結(jié)果是對(duì)比方法中效果最高的為89.51%,但還是缺乏對(duì)場(chǎng)景的目標(biāo)特征足夠的關(guān)注。因此,本文在利用目標(biāo)特征進(jìn)行分析的同時(shí),抑制了不相關(guān)特征的權(quán)重,識(shí)別準(zhǔn)確率達(dá)到了90.28%,相比上述方法最好的結(jié)果,仍有0.77個(gè)百分點(diǎn)的提升。同樣,在SUN397數(shù)據(jù)集上,本文方法識(shí)別準(zhǔn)確率達(dá)到了81.15%,相較于另外幾種方法中準(zhǔn)確率最高的方法HoAS(為79.66%),準(zhǔn)確率提高了1.49 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,通過對(duì)目標(biāo)特征進(jìn)行轉(zhuǎn)換并對(duì)冗余信息進(jìn)行抑制,增強(qiáng)了特征的表達(dá)能力和特征融合的效果,顯著提高了識(shí)別準(zhǔn)確率。
表2 多種方法在MIT Indoor67和SUN 397數(shù)據(jù)集上的準(zhǔn)確率 單位:%Tab.2 Accuracy of various methods on MIT Indoor67 and SUN 397 datasets unit:%
2.2.2 目標(biāo)和場(chǎng)景之間的關(guān)系分析
CCM 的權(quán)重體現(xiàn)了目標(biāo)以及場(chǎng)景之間的關(guān)系緊密程度,本文對(duì)CCM 的權(quán)重進(jìn)行了分析,結(jié)果顯示權(quán)重值越高,表明該目標(biāo)越經(jīng)常出現(xiàn)在該場(chǎng)景中;反之亦然。本文在MIT Indoor67數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過表3~4數(shù)據(jù)對(duì)它們的關(guān)系展開分析。表3 和表4 分別顯示了CCM 權(quán)重的前3 名和后3名。
表3 CCM權(quán)重的前3名Tab.3 Top-3 of CCM weights
表3 數(shù)據(jù)顯示的是某場(chǎng)景類中可能存在的合理對(duì)象,權(quán)重最高的是bedroom 中的bed,達(dá)到了0.097 21,表明這種搭配合理度最高;另外兩個(gè)kitchen 和stove 以及bathroom 和toilet的權(quán)重也分別達(dá)到了0.094 80、0.093 16,這表明它們的搭配合理性也很高。這個(gè)數(shù)據(jù)驗(yàn)證了CCM 正確反映了目標(biāo)對(duì)于場(chǎng)景的積極影響。
同理,根據(jù)表4 的數(shù)據(jù)顯示,權(quán)重值越小的值所對(duì)應(yīng)的場(chǎng)景類別和對(duì)象類別的組合其合理性也越小,權(quán)重為負(fù)值時(shí),表明該目標(biāo)對(duì)場(chǎng)景識(shí)別起到了負(fù)面影響,需要對(duì)其權(quán)重進(jìn)行抑制。比如表4 中所列的bathroom 和stove、office 和slipper 等組合。從實(shí)驗(yàn)數(shù)據(jù)可以看出,該實(shí)驗(yàn)結(jié)果表明了CCM 權(quán)重對(duì)室內(nèi)場(chǎng)景識(shí)別是有效的。本文方法合理體現(xiàn)了對(duì)于目標(biāo)和場(chǎng)景之間的關(guān)系程度。
表4 CCM權(quán)重的后3名Tab.4 Bottom-3 of CCM weights
2.2.3 冗余信息抑制效果
為了測(cè)試本文方法對(duì)于冗余信息的抑制效果,在MIT Indoor67 數(shù)據(jù)集上分別利用了目標(biāo)檢測(cè)網(wǎng)絡(luò)和本文方法進(jìn)行了效果對(duì)比。首先,利用目標(biāo)檢測(cè)網(wǎng)絡(luò)檢測(cè)室內(nèi)場(chǎng)景圖像中包含的目標(biāo);然后,本文以類激活圖(Class Activation Map,CAM)[20]的形式分析CG 模塊對(duì)識(shí)別效果的影響,該方法以直觀的視覺形式表現(xiàn)出了網(wǎng)絡(luò)對(duì)于圖像的關(guān)注區(qū)域。
目標(biāo)特征中的冗余信息抑制結(jié)果如圖7 所示:圖7(a)為原圖;圖7(b)為經(jīng)過目標(biāo)檢測(cè)網(wǎng)絡(luò)的輸出圖像,可以看出場(chǎng)景中一些明顯的物體被檢測(cè)出來,如床、桌子、椅子以及電腦等;圖7(c)為經(jīng)過本文方法的CAM 可視化效果。從圖7 可看出,相對(duì)于圖7(b)中目標(biāo)檢測(cè)網(wǎng)絡(luò)的效果,本文方法將關(guān)注點(diǎn)集中在圖中主要的物體上,對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)提取的特征中包含的冗余信息有明顯的抑制效果。
圖7 冗余信息的抑制效果Fig.7 Suppression effect of redundant information
CCM 模塊和CG 模塊可分別作為網(wǎng)絡(luò)的一部分來改善網(wǎng)絡(luò)性能。為了測(cè)試本文方法分別在CCM、CG以及它們的組合情況下的性能,本文通過它們的多種組合來分析模型在MIT Indoor67和SUN397兩個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率,如表5所示。
根據(jù)表5 的數(shù)據(jù)顯示,在MIT Indoor67 數(shù)據(jù)集上,網(wǎng)絡(luò)在分別只有CCM 和CG 的情況下,準(zhǔn)確率為88.35%和87.91%,相較于二者都沒有的情況下的86.40%,識(shí)別準(zhǔn)確率分別提高了1.95 個(gè)百分點(diǎn)和1.51 個(gè)百分點(diǎn);而在同時(shí)具備CCM 和CG時(shí),即本文方法識(shí)別準(zhǔn)確率達(dá)到了90.28%。在SUN397 數(shù)據(jù)集上,本文方法也取得了不錯(cuò)的效果,在只采用CCM 或CG 情況下,準(zhǔn)確率分別提高了1.55 個(gè)百分點(diǎn)和2.39 個(gè)百分點(diǎn);而同時(shí)采用CCM 和CG 時(shí),最終識(shí)別準(zhǔn)確率達(dá)到了81.15%。以上實(shí)驗(yàn)表明,CCM 和CG 模塊對(duì)室內(nèi)場(chǎng)景識(shí)別產(chǎn)生了積極的影響,提高了識(shí)別的準(zhǔn)確率。
表5 CCM和CG的不同組合效果對(duì)比Tab.5 Effect comparison of different combination of CCM and CG
本文針對(duì)室內(nèi)場(chǎng)景識(shí)別中目標(biāo)特征與場(chǎng)景特征性質(zhì)和維度不一致、特征信息冗余等問題,在結(jié)合目標(biāo)檢測(cè)和場(chǎng)景識(shí)別的基礎(chǔ)上,提出一種改進(jìn)的室內(nèi)場(chǎng)景識(shí)別方法。通過CCM 將場(chǎng)景圖像中的目標(biāo)特征轉(zhuǎn)換為場(chǎng)景特征,使得二者具有相同的特征維度,減少特征融合時(shí)的特征信息丟失;然后,利用CG抑制特征中的冗余信息,降低了不相關(guān)信息對(duì)場(chǎng)景識(shí)別的影響,提高了目標(biāo)特征在室內(nèi)場(chǎng)景識(shí)別中的作用。最后,本文分別在Scene-15、MIT Indoor67 和SUN397 三個(gè)場(chǎng)景數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并通過和其他方法對(duì)比,驗(yàn)證了本文方法有效提高了室內(nèi)場(chǎng)景識(shí)別的準(zhǔn)確率。