結(jié)合目標(biāo)檢測(cè)的室內(nèi)場(chǎng)景識(shí)別方法

2021-09-18 06:22徐江浪李林燕萬新軍胡伏原

計(jì)算機(jī)應(yīng)用 2021年9期

徐江浪，李林燕，萬新軍，胡伏原*

（1.蘇州科技大學(xué)電子與信息工程學(xué)院，江蘇蘇州 215009；2.蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院信息技術(shù)學(xué)院，江蘇蘇州 215009）

（*通信作者電子郵箱fuyuanhu@mail.usts.edu.cn）

0 引言

近些年來，隨著互聯(lián)網(wǎng)的普及以及人們生活水平的不斷提高，場(chǎng)景識(shí)別技術(shù)的發(fā)展為人們帶來越來越多的服務(wù)和便利。室內(nèi)場(chǎng)景識(shí)別是場(chǎng)景識(shí)別的關(guān)鍵部分，室內(nèi)場(chǎng)景識(shí)別技術(shù)的發(fā)展在智能家居、服務(wù)機(jī)器人、安防監(jiān)控等領(lǐng)域都有著廣闊的應(yīng)用前景［1-2］。

在早期，室內(nèi)場(chǎng)景識(shí)別一般都是利用顏色、紋理、形狀等特征進(jìn)行識(shí)別，隨著諸如尺度不變特征變換（Scale-Invariant Feature Transform，SIFT）、加速健壯特征（Speeded-Up Robust Features，SURF）、方向梯度直方圖（Histogram of Oriented Gradients，HOG）等算子的廣泛應(yīng)用，比較流行的分類方法是利用各種算子提取場(chǎng)景特征，以此訓(xùn)練出較好的模型實(shí)現(xiàn)場(chǎng)景識(shí)別，其中應(yīng)用較廣的是詞袋（Bag-Of-Words，BOW）模型，產(chǎn)生了基于BoW 模型的一系列場(chǎng)景識(shí)別方法。Lazebnik 等［3］提出的一種基于空間金字塔（Spatial Pyramid）的BOW 模型場(chǎng)景識(shí)別方法為后來的研究學(xué)者提供了思路，不少學(xué)者在此基礎(chǔ)上作出了改進(jìn)和創(chuàng)新；但是這類方法很大程度上依賴人工算子進(jìn)行特征提取，導(dǎo)致泛化能力不足，而深度學(xué)習(xí)方法在這一方面有了很大的改善。

在基于深度學(xué)習(xí)的方法中，出現(xiàn)了多種以卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）為基礎(chǔ)的方法［4-7］。由于復(fù)雜的室內(nèi)場(chǎng)景包含多種目標(biāo)，全局特征難以表達(dá)這些目標(biāo)特征，基于此，Quattoni等［8］提出結(jié)合全局特征（Global Feature）和局部特征（Local Feature）來識(shí)別室內(nèi)場(chǎng)景，利用局部特征表示目標(biāo)特征，提高了識(shí)別準(zhǔn)確率。Cheng等［9］提出一種用于場(chǎng)景識(shí)別的具有對(duì)象性的語義描述符方法，利用不同場(chǎng)景中對(duì)象配置的相關(guān)性，通過場(chǎng)景中所有對(duì)象的共現(xiàn)模式來選擇有代表性的和有區(qū)別的對(duì)象，增強(qiáng)了類間的可區(qū)分性。Herranz 等［10］提出了一種基于多尺度特征的方法，將不同尺寸的圖像分別送入適合它們的目標(biāo)網(wǎng)絡(luò)和場(chǎng)景網(wǎng)絡(luò)來分別提取特征，解決了圖像尺寸和識(shí)別網(wǎng)絡(luò)的匹配問題，但是尺寸的不斷增加導(dǎo)致了方法復(fù)雜度的增加。Wang 等［11］提出了一種知識(shí)指導(dǎo)消歧（Knowledge Guided Disambiguation）策略，利用知識(shí)網(wǎng)絡(luò)提取的目標(biāo)特征生成場(chǎng)景圖像的軟標(biāo)簽，指導(dǎo)場(chǎng)景網(wǎng)絡(luò)最小化損失函數(shù)，有效地解決了類間差異小和類內(nèi)差異大的問題，但是目標(biāo)特征的利用率仍較低。為了使網(wǎng)絡(luò)更加關(guān)注場(chǎng)景圖像的顯著區(qū)域，Rezanejad 等［12］提出一種基于場(chǎng)景輪廓的場(chǎng)景分類方法，利用場(chǎng)景輪廓傳達(dá)的形狀和表面的幾何形狀作為信息輸入進(jìn)行場(chǎng)景識(shí)別，這種基于中軸的顯著性度量方法增加了場(chǎng)景特征中有用的信息。Sun 等［13］也提出一種場(chǎng)景識(shí)別的綜合表示方法，該方法融合了從物體語義、全局外觀和上下文外觀這三個(gè)區(qū)別視圖中提取的深層特征，利用特征的多樣性和互補(bǔ)性，以及場(chǎng)景圖像的上下文信息，提升了識(shí)別準(zhǔn)確率。盡管上述方法已經(jīng)取得了顯著的效果，但是對(duì)于結(jié)合目標(biāo)檢測(cè)的室內(nèi)場(chǎng)景識(shí)別方法而言，場(chǎng)景圖像中目標(biāo)特征的利用效率極大地影響了室內(nèi)場(chǎng)景識(shí)別效果，而這是當(dāng)前亟待解決的問題［14-17］。

由于場(chǎng)景圖像中包含多種目標(biāo)信息，但并非所有的目標(biāo)都對(duì)場(chǎng)景識(shí)別產(chǎn)生積極作用，甚至有些會(huì)產(chǎn)生反作用影響最終的識(shí)別效果（如臥室中出現(xiàn)的電腦、餐廳中入鏡的沙發(fā)等）；而且，在進(jìn)行場(chǎng)景特征和目標(biāo)特征之間的融合時(shí)，由于兩種特征的維度不一致，在特征融合時(shí)會(huì)造成信息丟失等問題。因此，本文提出了一種結(jié)合目標(biāo)檢測(cè)的室內(nèi)場(chǎng)景識(shí)別方法，主要思想是：1）為了解決特征維度不一致的問題，本文利用類轉(zhuǎn)換矩陣（Class Conversion Matrix，CCM）對(duì)目標(biāo)特征的維度進(jìn)行轉(zhuǎn)換，使目標(biāo)特征在與場(chǎng)景特征融合時(shí)能夠減少信息丟失；2）針對(duì)冗余信息的問題，本文采用了上下文門控（Context Gating，CG）機(jī)制對(duì)目標(biāo)特征中所包含的冗余信息進(jìn)行抑制，降低不相關(guān)信息的權(quán)重，提高室內(nèi)場(chǎng)景識(shí)別中目標(biāo)特征的利用效率，使網(wǎng)絡(luò)更加關(guān)注圖像的相關(guān)目標(biāo)區(qū)域，提高室內(nèi)場(chǎng)景識(shí)別的準(zhǔn)確度。

1 結(jié)合目標(biāo)檢測(cè)的室內(nèi)場(chǎng)景識(shí)別方法

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文以Inception 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu)，網(wǎng)絡(luò)框架由場(chǎng)景識(shí)別網(wǎng)絡(luò)PlacesNet（本文圖示以MR-CNNs（Multi-Resolutions CNNs）為例）、目標(biāo)檢測(cè)網(wǎng)絡(luò)（Object detection Network，ObjectNet）兩個(gè)部分組成，如圖1 所示。PlacesNet 是用來提取場(chǎng)景特征的CNN 模型；ObjectNet 用來提取目標(biāo)特征，為了獲得更精確的目標(biāo)特征，本文采用了在ImageNet 上預(yù)訓(xùn)練過的CNN 模型。然后，提取的特征進(jìn)入特征融合模塊（Feature Fusion Module），該模塊通過卷積層+ReLU（Rectified Linear Unit）和哈達(dá)瑪積的組合將兩個(gè)網(wǎng)絡(luò)的輸出特征進(jìn)行融合；最后，經(jīng)過softmax 層進(jìn)行分類，輸出最終結(jié)果。作為改進(jìn)，本文將CCM 置于ObjectNet 提取的目標(biāo)特征之后，對(duì)它進(jìn)行轉(zhuǎn)化，使它的特征維度和場(chǎng)景網(wǎng)絡(luò)提取的特征維度一致；在融合目標(biāo)特征和場(chǎng)景特征之前，采用CG對(duì)目標(biāo)特征中可能存在的冗余信息進(jìn)行了抑制，以此提高目標(biāo)特征的利用效率。

圖1 網(wǎng)絡(luò)框架Fig.1 Network framework

1.2 特征轉(zhuǎn)換

為了將ObjectNet 提取的目標(biāo)特征轉(zhuǎn)化為場(chǎng)景特征，避免目標(biāo)特征與場(chǎng)景特征兩種不同特性的特征直接進(jìn)行融合，提升特征融合模塊的融合效果，本文在目標(biāo)檢測(cè)和場(chǎng)景識(shí)別相結(jié)合的方法中引入CCM，如圖2 所示，將CCM 置于ObjectNet的特征之后，將目標(biāo)特征進(jìn)行加權(quán)和，最終轉(zhuǎn)換成和場(chǎng)景特征相同維度。輸入目標(biāo)特征xobject是從ObjectNet 中提取的，輸出特征為yobject→scene，CCM的計(jì)算如下：

圖2 特征轉(zhuǎn)換示意圖Fig.2 Schematic diagram of feature conversion

其中：xobject∈Rn；權(quán) 重W∈Rm×n，偏差b∈Rm，yobject→scene∈Rm是與xobject相關(guān)的輸出。n是輸入向量的維數(shù)，m是輸出向量的維數(shù)。如果將ImageNet數(shù)據(jù)集用于訓(xùn)練對(duì)象模塊，則n=1 000。如果將Places 2數(shù)據(jù)集用于訓(xùn)練場(chǎng)景模塊，則m=365。CCM 不僅可以應(yīng)用于不同的數(shù)據(jù)集，而且可以應(yīng)用于相同的數(shù)據(jù)集，即m=n，如具有Places 2 數(shù)據(jù)集格式的CCM 的參數(shù)W∈Rm×m和b∈Rm，則具有相同數(shù)據(jù)集格式的輸入xobject∈Rm和輸出yobject→scene∈Rm。而且，從CCM 的權(quán)重中可以分析目標(biāo)和場(chǎng)景之間的關(guān)系，即目標(biāo)和場(chǎng)景之間的相關(guān)程度，如果一個(gè)目標(biāo)頻繁出現(xiàn)在場(chǎng)景中，權(quán)重則越高；相反則越低。這意味著場(chǎng)景識(shí)別性能可以獲得進(jìn)一步的提高。

1.3 冗余信息抑制

每一幅場(chǎng)景圖像中都可能包含各種各樣的目標(biāo)，而當(dāng)一幅場(chǎng)景圖像中出現(xiàn)某一特別的對(duì)象時(shí)，這個(gè)場(chǎng)景就很有可能屬于某一特別的類，如一張床對(duì)于臥室，或浴缸對(duì)于浴室的重要性，但是其他不相關(guān)特征可能會(huì)影響網(wǎng)絡(luò)的判斷。為了降低不相關(guān)特征的權(quán)重，本文引入了CG，它的計(jì)算公式為：

其中：xscene表示由場(chǎng)景網(wǎng)絡(luò)提取的場(chǎng)景特征；?表示一種矩陣相乘法；σ(x)=1/(1+exp(-x))是值為（0，1）的sigmoid 激活函數(shù)。如圖3（a），由于sigmoid 激活函數(shù)的特性，左端無限趨于0，右端無限趨于1，構(gòu)成一個(gè)限制信息的“門”，當(dāng)不相關(guān)信息通過門控時(shí)，函數(shù)取值趨向0，可以抑制不相關(guān)的信息。在目標(biāo)特征中不相關(guān)信息有可能占據(jù)較高的視覺激活，CG 模塊可以通過上述門控方法抑制這些不相關(guān)信息的傳遞，降低不相關(guān)特征對(duì)識(shí)別效果的影響，使網(wǎng)絡(luò)更加關(guān)注圖像的相關(guān)目標(biāo)區(qū)域。如圖3（b）所示，一個(gè)場(chǎng)景中可能存在一個(gè)或多個(gè)關(guān)鍵特征，圖中用key feature1 和key feature2 代表這類特征，不相關(guān)特征會(huì)被門控大量抑制，關(guān)鍵特征得以保留。

圖3 CG輸入門及原理Fig.3 Input gate and working principle of CG

1.4 特征融合模塊

本文采取特征融合模塊用于融合來自兩個(gè)網(wǎng)絡(luò)的特征，獲得最終用于分類結(jié)果預(yù)測(cè)的特征，本文采用了卷積層+ReLU 和哈達(dá)瑪積的組合結(jié)構(gòu)，具體如圖1 所示。場(chǎng)景網(wǎng)絡(luò)獲得的特征表示為：

同樣，目標(biāo)網(wǎng)絡(luò)獲得的特征表示為：

最終融合之后的特征表示為：

其中：⊙表示哈達(dá)瑪積，即矩陣對(duì)應(yīng)位置相乘；yscene為經(jīng)過特征融合模塊的最終特征表示，其經(jīng)過softmax 層進(jìn)行分類，獲得最終的預(yù)測(cè)結(jié)果。

1.5 損失函數(shù)

ObjectNet 能夠檢測(cè)出場(chǎng)景圖像中存在的目標(biāo)對(duì)象，本文利用目標(biāo)檢測(cè)網(wǎng)絡(luò)的這種優(yōu)點(diǎn)與場(chǎng)景網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。在本文的實(shí)驗(yàn)中，當(dāng)兩個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練時(shí)，如果其中一個(gè)網(wǎng)絡(luò)的判別性較強(qiáng)，整體損失較小，則會(huì)阻礙判別性較差的網(wǎng)絡(luò)的優(yōu)化。為了避免其中一個(gè)網(wǎng)絡(luò)控制訓(xùn)練過程，首先，ObjectNet和PlacesNet 分別針對(duì)給定的場(chǎng)景進(jìn)行訓(xùn)練；然后，將訓(xùn)練好的兩個(gè)網(wǎng)絡(luò)從頭開始完全訓(xùn)練特征融合模塊和分類器。在訓(xùn)練過程中，通過最小化以下目標(biāo)函數(shù)來同時(shí)預(yù)測(cè)結(jié)果：

其中：D表示訓(xùn)練數(shù)據(jù)集；Ii表示第i張圖像；yi表示第i張圖像的真實(shí)標(biāo)簽；pi表示預(yù)測(cè)的場(chǎng)景標(biāo)簽；fi表示目標(biāo)網(wǎng)絡(luò)產(chǎn)生的標(biāo)簽；λ是平衡兩項(xiàng)的參數(shù)；n和m分別對(duì)應(yīng)兩個(gè)網(wǎng)絡(luò)的特征維度。這種聯(lián)合學(xué)習(xí)方法能夠通過利用包含在目標(biāo)網(wǎng)絡(luò)中的額外知識(shí)作為歸納偏差來提高泛化能力，并減少過度擬合對(duì)訓(xùn)練數(shù)據(jù)集的影響。圖4 為本文方法的準(zhǔn)確率收斂曲線，在迭代1 500次時(shí)準(zhǔn)確率逐漸趨于穩(wěn)定。

圖4 準(zhǔn)確率收斂曲線Fig.4 Accuracy convergence curve

2 實(shí)驗(yàn)與結(jié)果分析

2.1 實(shí)驗(yàn)平臺(tái)及數(shù)據(jù)集

本文方法的具體實(shí)現(xiàn)使用的是深度學(xué)習(xí)框架Tensorflow，實(shí)驗(yàn)環(huán)境為Ubuntu 16.04 操作系統(tǒng)，使用4 塊NVIDIA 1080Ti圖形處理器（GPU）加速運(yùn)算。本文采用數(shù)據(jù)集包括：MIT Indoor67數(shù)據(jù)集，該數(shù)據(jù)集包含67個(gè)室內(nèi)類別，總共15 620張圖像，每個(gè)類別至少有100 張圖像；SUN397 數(shù)據(jù)集，它由108 754 張圖像組成，包含了397 個(gè)圖像類別；ImageNet 數(shù)據(jù)集，它是ObjectNet 訓(xùn)練用來提取場(chǎng)景圖像中的目標(biāo)的，包含了1 000 個(gè)對(duì)象類別；Scene-15 數(shù)據(jù)集，該數(shù)據(jù)集包含15 個(gè)不同類別的4 485個(gè)室內(nèi)外場(chǎng)景圖像，其中室內(nèi)場(chǎng)景類別分別是臥室、工廠、廚房、客廳、辦公室和商店。MIT Indoor67 數(shù)據(jù)集部分場(chǎng)景示例如圖5所示。

圖5 MIT Indoor67數(shù)據(jù)集部分場(chǎng)景示例Fig.5 Some scene examples of MIT Indoor67 datasets

2.2 實(shí)驗(yàn)參數(shù)及結(jié)果分析

實(shí)驗(yàn)使用梯度下降法進(jìn)行訓(xùn)練，設(shè)置權(quán)重衰減（weight dacay）系數(shù)為0.000 1，動(dòng)量（momentum）系數(shù)為0.9，batch size設(shè)置為64，初始學(xué)習(xí)率設(shè)置為0.001。實(shí)驗(yàn)中要學(xué)習(xí)的參數(shù)是權(quán)重W∈Rm×n，偏差b∈Rm，m和n表示維度，與訓(xùn)練數(shù)據(jù)集的類別數(shù)有關(guān)，因此不會(huì)增加參數(shù)的規(guī)模，對(duì)模型的學(xué)習(xí)速度不會(huì)產(chǎn)生大的影響。λ是需要人為給定的參數(shù)，經(jīng)過多次實(shí)驗(yàn)驗(yàn)證，當(dāng)λ=0.5時(shí)，訓(xùn)練的效果最好。

本文使用的評(píng)價(jià)指標(biāo)分別為：召回率Rec（Recall）、精準(zhǔn)率Pre（Precision）和識(shí)別準(zhǔn)確率Acc（Accuracy），其公式定義如下：

其中：TP（True Positive）表示預(yù)測(cè)為正例，實(shí)際為正例；TN（True Negative）表示預(yù)測(cè)為負(fù)例，實(shí)際為負(fù)例；FP（False Positive）表示預(yù)測(cè)為正例，實(shí)際為負(fù)例；FN（False Negative）表示預(yù)測(cè)為負(fù)例，實(shí)際為正例。TP、TN、FP和FN分別表示預(yù)測(cè)的真假性與實(shí)際場(chǎng)景的關(guān)系。本文繪制了精準(zhǔn)率-召回率PR（Precision-Recall）曲線來分析模型，圖6 中展示了SOSF（Spatial-layout-maintained Object Semantics Features）［13］、HoAS（Hierarchy of Alternating Specialists）［18］、SDO（Semantic Descriptor with Objectness）［9］、VSAD（Vector of Semantically Aggregated Descriptors）［19］四種方法和本文方法的PR曲線。PR曲線表現(xiàn)了召回率和精準(zhǔn)率之間的關(guān)系，曲線越靠近右上角，表明模型的性能越好。從圖6 中可以看出本文方法在這方面優(yōu)于其他幾種方法。

圖6 不同方法的PR曲線Fig.6 PR curves of different algorithms

表1 為本文方法在Scene-15 數(shù)據(jù)集上得到的混淆矩陣以及相應(yīng)的召回率和識(shí)別精度，矩陣第i行第j列的值表示第i類場(chǎng)景被預(yù)測(cè)為第j類場(chǎng)景的樣本數(shù)。表1 中序號(hào)分別對(duì)應(yīng)Scene-15 數(shù)據(jù)集中的類別，分別為：1）Living；2）MITmountain；3）MITopencountry；4）MITforest；5）store；6）MIThighway；7）CALsuburb；8）MITstreet；9）industrial；10）kitchen；11）PARoffice；12）MITinsidecity；13）MITcoast；14）bedroom 和15）MITtallbuilding。從表1中可以看出，辦公室的類別召回率為100.0%，精準(zhǔn)率為95.7%；廚房的召回率也達(dá)到100.0%，臥室和客廳兩個(gè)室內(nèi)場(chǎng)景類別容易被相互誤分類，分類錯(cuò)誤的原因是客廳中的目標(biāo)（如沙發(fā)）與臥室場(chǎng)景中的目標(biāo)相似。本文方法在室外場(chǎng)景上也有不錯(cuò)的效果。

表1 Scene-15數(shù)據(jù)集的混淆矩陣Tab.1 Confusion matrix of Scene-15 dataset

2.2.1 多種方法在數(shù)據(jù)集MIT Indoor67和SUN397上的比較

目前，已有多種方法對(duì)場(chǎng)景識(shí)別進(jìn)行了研究。本文將多種方法分別在數(shù)據(jù)集MIT Indoor67 和SUN397 上進(jìn)行了對(duì)比實(shí)驗(yàn)，主要與以下幾種方法作為對(duì)比實(shí)驗(yàn)：Object-Scale［10］、VSAD［19］、MR-CNNs（Multi-Resolution CNNs）［11］、SDO［9］、Semantic-Aware［1］、HoAS［18］、SOSF［13］，結(jié)果如表2所示。在MITIndoor67數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)，VSAD［19］雖然利用了PatchNet來指導(dǎo)特征提取，但是該網(wǎng)絡(luò)對(duì)Local patch的提取能力并不強(qiáng)，準(zhǔn)確率只有86.20%；MR-CNNs［11］的準(zhǔn)確率為86.70%，它在網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行了創(chuàng)新，結(jié)合了多分辨率網(wǎng)絡(luò)，但沒有利用局部特征，導(dǎo)致在準(zhǔn)確率上并沒有提升很多；Semantic-Aware［1］在場(chǎng)景的語義信息方面有所改善，但是面對(duì)復(fù)雜場(chǎng)景時(shí)受語義分割的影響，場(chǎng)景識(shí)別效果也受到限制，準(zhǔn)確率為87.10%；另外，HoAS［18］解決了場(chǎng)景的類內(nèi)差異性和類間相似性的問題，SOSF［13］的結(jié)果是對(duì)比方法中效果最高的為89.51%，但還是缺乏對(duì)場(chǎng)景的目標(biāo)特征足夠的關(guān)注。因此，本文在利用目標(biāo)特征進(jìn)行分析的同時(shí)，抑制了不相關(guān)特征的權(quán)重，識(shí)別準(zhǔn)確率達(dá)到了90.28%，相比上述方法最好的結(jié)果，仍有0.77個(gè)百分點(diǎn)的提升。同樣，在SUN397數(shù)據(jù)集上，本文方法識(shí)別準(zhǔn)確率達(dá)到了81.15%，相較于另外幾種方法中準(zhǔn)確率最高的方法HoAS（為79.66%），準(zhǔn)確率提高了1.49 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明，通過對(duì)目標(biāo)特征進(jìn)行轉(zhuǎn)換并對(duì)冗余信息進(jìn)行抑制，增強(qiáng)了特征的表達(dá)能力和特征融合的效果，顯著提高了識(shí)別準(zhǔn)確率。

表2 多種方法在MIT Indoor67和SUN 397數(shù)據(jù)集上的準(zhǔn)確率單位：%Tab.2 Accuracy of various methods on MIT Indoor67 and SUN 397 datasets unit：%

2.2.2 目標(biāo)和場(chǎng)景之間的關(guān)系分析

CCM 的權(quán)重體現(xiàn)了目標(biāo)以及場(chǎng)景之間的關(guān)系緊密程度，本文對(duì)CCM 的權(quán)重進(jìn)行了分析，結(jié)果顯示權(quán)重值越高，表明該目標(biāo)越經(jīng)常出現(xiàn)在該場(chǎng)景中；反之亦然。本文在MIT Indoor67數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，通過表3～4數(shù)據(jù)對(duì)它們的關(guān)系展開分析。表3 和表4 分別顯示了CCM 權(quán)重的前3 名和后3名。

表3 CCM權(quán)重的前3名Tab.3 Top-3 of CCM weights

表3 數(shù)據(jù)顯示的是某場(chǎng)景類中可能存在的合理對(duì)象，權(quán)重最高的是bedroom 中的bed，達(dá)到了0.097 21，表明這種搭配合理度最高；另外兩個(gè)kitchen 和stove 以及bathroom 和toilet的權(quán)重也分別達(dá)到了0.094 80、0.093 16，這表明它們的搭配合理性也很高。這個(gè)數(shù)據(jù)驗(yàn)證了CCM 正確反映了目標(biāo)對(duì)于場(chǎng)景的積極影響。

同理，根據(jù)表4 的數(shù)據(jù)顯示，權(quán)重值越小的值所對(duì)應(yīng)的場(chǎng)景類別和對(duì)象類別的組合其合理性也越小，權(quán)重為負(fù)值時(shí)，表明該目標(biāo)對(duì)場(chǎng)景識(shí)別起到了負(fù)面影響，需要對(duì)其權(quán)重進(jìn)行抑制。比如表4 中所列的bathroom 和stove、office 和slipper 等組合。從實(shí)驗(yàn)數(shù)據(jù)可以看出，該實(shí)驗(yàn)結(jié)果表明了CCM 權(quán)重對(duì)室內(nèi)場(chǎng)景識(shí)別是有效的。本文方法合理體現(xiàn)了對(duì)于目標(biāo)和場(chǎng)景之間的關(guān)系程度。

表4 CCM權(quán)重的后3名Tab.4 Bottom-3 of CCM weights

2.2.3 冗余信息抑制效果

為了測(cè)試本文方法對(duì)于冗余信息的抑制效果，在MIT Indoor67 數(shù)據(jù)集上分別利用了目標(biāo)檢測(cè)網(wǎng)絡(luò)和本文方法進(jìn)行了效果對(duì)比。首先，利用目標(biāo)檢測(cè)網(wǎng)絡(luò)檢測(cè)室內(nèi)場(chǎng)景圖像中包含的目標(biāo)；然后，本文以類激活圖（Class Activation Map，CAM）［20］的形式分析CG 模塊對(duì)識(shí)別效果的影響，該方法以直觀的視覺形式表現(xiàn)出了網(wǎng)絡(luò)對(duì)于圖像的關(guān)注區(qū)域。

目標(biāo)特征中的冗余信息抑制結(jié)果如圖7 所示：圖7（a）為原圖；圖7（b）為經(jīng)過目標(biāo)檢測(cè)網(wǎng)絡(luò)的輸出圖像，可以看出場(chǎng)景中一些明顯的物體被檢測(cè)出來，如床、桌子、椅子以及電腦等；圖7（c）為經(jīng)過本文方法的CAM 可視化效果。從圖7 可看出，相對(duì)于圖7（b）中目標(biāo)檢測(cè)網(wǎng)絡(luò)的效果，本文方法將關(guān)注點(diǎn)集中在圖中主要的物體上，對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)提取的特征中包含的冗余信息有明顯的抑制效果。

圖7 冗余信息的抑制效果Fig.7 Suppression effect of redundant information

2.3 消融實(shí)驗(yàn)

CCM 模塊和CG 模塊可分別作為網(wǎng)絡(luò)的一部分來改善網(wǎng)絡(luò)性能。為了測(cè)試本文方法分別在CCM、CG以及它們的組合情況下的性能，本文通過它們的多種組合來分析模型在MIT Indoor67和SUN397兩個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率，如表5所示。

根據(jù)表5 的數(shù)據(jù)顯示，在MIT Indoor67 數(shù)據(jù)集上，網(wǎng)絡(luò)在分別只有CCM 和CG 的情況下，準(zhǔn)確率為88.35%和87.91%，相較于二者都沒有的情況下的86.40%，識(shí)別準(zhǔn)確率分別提高了1.95 個(gè)百分點(diǎn)和1.51 個(gè)百分點(diǎn)；而在同時(shí)具備CCM 和CG時(shí)，即本文方法識(shí)別準(zhǔn)確率達(dá)到了90.28%。在SUN397 數(shù)據(jù)集上，本文方法也取得了不錯(cuò)的效果，在只采用CCM 或CG 情況下，準(zhǔn)確率分別提高了1.55 個(gè)百分點(diǎn)和2.39 個(gè)百分點(diǎn)；而同時(shí)采用CCM 和CG 時(shí)，最終識(shí)別準(zhǔn)確率達(dá)到了81.15%。以上實(shí)驗(yàn)表明，CCM 和CG 模塊對(duì)室內(nèi)場(chǎng)景識(shí)別產(chǎn)生了積極的影響，提高了識(shí)別的準(zhǔn)確率。

表5 CCM和CG的不同組合效果對(duì)比Tab.5 Effect comparison of different combination of CCM and CG

3 結(jié)語

本文針對(duì)室內(nèi)場(chǎng)景識(shí)別中目標(biāo)特征與場(chǎng)景特征性質(zhì)和維度不一致、特征信息冗余等問題，在結(jié)合目標(biāo)檢測(cè)和場(chǎng)景識(shí)別的基礎(chǔ)上，提出一種改進(jìn)的室內(nèi)場(chǎng)景識(shí)別方法。通過CCM 將場(chǎng)景圖像中的目標(biāo)特征轉(zhuǎn)換為場(chǎng)景特征，使得二者具有相同的特征維度，減少特征融合時(shí)的特征信息丟失；然后，利用CG抑制特征中的冗余信息，降低了不相關(guān)信息對(duì)場(chǎng)景識(shí)別的影響，提高了目標(biāo)特征在室內(nèi)場(chǎng)景識(shí)別中的作用。最后，本文分別在Scene-15、MIT Indoor67 和SUN397 三個(gè)場(chǎng)景數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，并通過和其他方法對(duì)比，驗(yàn)證了本文方法有效提高了室內(nèi)場(chǎng)景識(shí)別的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡