基于深度遷移學(xué)習(xí)與多尺度特征融合的場景識別方法

2023-11-17 07:25胡春燕李菲菲

電子科技 2023年11期

王橋,胡春燕,李菲菲

(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)

場景識別的研究目的是使計算機(jī)能夠像人一樣對不同的圖像進(jìn)行分析,并識別其中的場景。隨著攝像設(shè)備的普及,圖像被大量生產(chǎn),并快速在網(wǎng)絡(luò)上傳播。場景識別技術(shù)的發(fā)展為有效管理圖像數(shù)據(jù)提供了新思路,其也在圖像分類、自動駕駛等領(lǐng)域中發(fā)揮重要作用。

場景識別主要分為3個階段:特征提取、特征變換和分類器訓(xùn)練。由于計算機(jī)性能的提升,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]技術(shù)得到了快速發(fā)展和廣泛運(yùn)用。包括AlexNet[2]、GoogLeNet[3]、VGGNet[4]和ResNet[5]等在內(nèi)的CNN機(jī)器變體都得到了廣泛應(yīng)用。然而,神經(jīng)網(wǎng)絡(luò)深度的加深導(dǎo)致網(wǎng)絡(luò)容易產(chǎn)生梯度爆炸與彌散問題。針對此類問題,ResNet引入殘差結(jié)構(gòu),有效解決了隨著網(wǎng)絡(luò)深度的增加到質(zhì)變性能突然下降的問題,使其在較深的網(wǎng)絡(luò)中依然具有較好的性能表現(xiàn)。相較于低效率構(gòu)建手工特征,使用卷積神經(jīng)網(wǎng)絡(luò)能夠自動學(xué)習(xí)場景圖像的特征表示。同時,由CNN提取的深度卷積特征更精煉抽象并富有語義信息。由于數(shù)據(jù)庫中不同尺度大小的場景圖像影響其中物體大小,因此文獻(xiàn)[6]提出多尺度的網(wǎng)絡(luò)結(jié)構(gòu),使用CNN全連接層提取特征,識別準(zhǔn)確率隨著提取尺度量增加而逐漸提升。然而增加尺度將大幅降低網(wǎng)絡(luò)效率。文獻(xiàn)[7]提出融合卷積神經(jīng)網(wǎng)絡(luò)中的全連接層和Softmax層的概率輸出作為場景圖片的表示。文獻(xiàn)[8]指出CNN最后一層卷積層輸出的卷積特征包含了更豐富的語義信息和空間信息。CNN的卷積層能夠接受不同尺度的場景圖片輸入且計算資源的消耗更小。因此,該研究直接使用卷積層特征作為場景圖片的表示。

盡管現(xiàn)階段深度卷積特征具有較強(qiáng)的表達(dá)能力,但若使用傳統(tǒng)方法對深度卷積特征進(jìn)行變換,仍能進(jìn)一步提升特征的表達(dá)能力。文獻(xiàn)[9]使用稀疏字典學(xué)習(xí)(Sparse Dictionary Learning,SDL)用于場景識別中的編碼卷積特征,并取代全連接層(Fully Connected Layer,FCL)和校正線性單元(Linear Unit,ReLu)。此外,改進(jìn)的稀疏自動編碼機(jī)[10]以及根據(jù)場景圖片的特性提出的多尺度空間編碼方法[11]也在場景識別領(lǐng)域取得了成功。雖然傳統(tǒng)編碼特征方法與深度卷積特征提取的結(jié)合在場景識別中取得了較好效果,但隨著場景識別的進(jìn)一步發(fā)展,研究人員開始嘗試從不同角度進(jìn)一步提升場景識別的準(zhǔn)確率,例如提取場景圖像的背景信息與局部重點(diǎn)物體信息,或通過結(jié)合圖像的全局信息與局部信息。目前,為緩解場景圖像類內(nèi)差異與類間相似問題的干擾,研究者使用深度學(xué)習(xí)方法從多個尺度獨(dú)立提取卷積特征[12],例如采用費(fèi)希爾向量(Fisher Vector,FV)[13]、局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)[14]和語義聚合描述符向量(Vector of Semantically Aggregating Descriptor,VSAD)[15]等編碼方法。與單一圖像級別的表示方法相比,此類方法在識別性能上有明顯改善。由于局部對象包含在更大場景背景中,因此需要結(jié)合對象級別和場景級別的知識來確定圖像的場景類別。這種組合可以通過使用在不同數(shù)據(jù)庫(即ImageNet和Places)上預(yù)先訓(xùn)練的混合CNN模型,從多尺度圖像塊中提取深度特征來實現(xiàn)識別。綜上所述,本文分析場景圖像的背景與物體信息,根據(jù)輸入圖像經(jīng)過類激活圖生成器生成的類激活圖的兩個不同尺度得到相應(yīng)的圖像區(qū)域,對全局級圖像進(jìn)行補(bǔ)充,獲取場景圖像的綜合表示,進(jìn)一步提升網(wǎng)絡(luò)的圖像特征提取性能。

使用深度學(xué)習(xí)方法訓(xùn)練一個性能表現(xiàn)良好的深度卷積神經(jīng)網(wǎng)絡(luò)需要兩個條件:1)需要有充足有標(biāo)簽的訓(xùn)練數(shù)據(jù),例如ImageNet數(shù)據(jù)集擁有一千多個類別,超百萬張圖片;2)需要擁有強(qiáng)大計算性能的計算機(jī)硬件,例如GPU等。上述條件導(dǎo)致在一些需要使用卷積神經(jīng)網(wǎng)絡(luò)的任務(wù)中缺少任務(wù)相關(guān)的訓(xùn)練數(shù)據(jù)會造成網(wǎng)絡(luò)欠擬合,使得最終的網(wǎng)絡(luò)性能不佳。在研究中可以觀察到許多遷移學(xué)習(xí)的例子,例如研究發(fā)現(xiàn)通過訓(xùn)練識別蘋果的網(wǎng)絡(luò)模型可能有助于識別梨[16],訓(xùn)練網(wǎng)絡(luò)識別電子管風(fēng)琴可能有助于網(wǎng)絡(luò)學(xué)習(xí)識別鋼琴。因此當(dāng)訓(xùn)練樣本不足時,使用遷移學(xué)習(xí)可以提高場景圖像識別模型的準(zhǔn)確性和訓(xùn)練速度。本文由于每類圖像只有100張,故只能選擇其中50張用于訓(xùn)練。為了在樣本情況較小的情況下獲取足夠多的對象級別和場景級別的知識,本文使用在ImageNet和Places上預(yù)先訓(xùn)練的混合CNN模型結(jié)合遷移學(xué)習(xí)的方法從多尺度圖像塊中提取深度特征來實現(xiàn)目標(biāo)任務(wù),該方法比在單個大型數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)更有效。在實驗過程中發(fā)現(xiàn),遷移網(wǎng)絡(luò)參數(shù)不但加速目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)和優(yōu)化,而且網(wǎng)絡(luò)收斂速度更快,節(jié)省了時間成本,得到的目標(biāo)網(wǎng)絡(luò)也比隨機(jī)初始化權(quán)重的網(wǎng)絡(luò)效果更好。通過網(wǎng)絡(luò)遷移性研究在深度遷移網(wǎng)絡(luò)中加入微調(diào)可以使遷移后的網(wǎng)絡(luò)更加貼合目標(biāo)網(wǎng)絡(luò)的需求[17],使得卷積神經(jīng)網(wǎng)絡(luò)能夠在目標(biāo)任務(wù)的數(shù)據(jù)集上進(jìn)一步提升網(wǎng)絡(luò)性能[18]。

本文提出了一種基于深度遷移學(xué)習(xí)與多尺度特征融合的場景識別算法。首先在類激活圖生成器中加入SE-Block[19]模塊,然后獲取預(yù)訓(xùn)練后性能優(yōu)異的網(wǎng)絡(luò)參數(shù)并將其遷移到本文的神經(jīng)網(wǎng)絡(luò)模型中,將預(yù)訓(xùn)練的特征提取器在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)。本文將目標(biāo)圖片送入類激活圖生成器生成類激活圖,從類激活圖中獲取圖片的關(guān)鍵區(qū)域,然后使用卷積神經(jīng)網(wǎng)絡(luò)從關(guān)鍵區(qū)域提取卷積特征,并通過連接所有3個L2歸一化的尺度特征向量來獲得最終的圖像表示,如圖1所示。多尺度特征融合框架尋找熱點(diǎn)區(qū)域的核心部分為類激活圖生成器(Discriminative Discovery Network,Dis-Net)。通過類激活映射獲取類激活圖(Discriminative Map,Dis-Map),并使用局部最大值的搜尋和篩選來提取場景圖像的重要信息,從重要信息中提取卷積特征,形成不同尺度特征。最后,本文采用最大池化策略進(jìn)行特征聚合。本文方法的總體目標(biāo)是從局部區(qū)域中提取鑒別性信息以補(bǔ)充全局層面的圖像表示。實驗結(jié)果表明,本文方法在場景識別的任務(wù)中效果良好。

圖1 本文模型的總體框架Figure 1. Overall framework of the proposed model

1 遷移學(xué)習(xí)

傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)試圖從頭開始學(xué)習(xí)每個任務(wù),而遷移學(xué)習(xí)技術(shù)在目標(biāo)任務(wù)的訓(xùn)練數(shù)據(jù)較少時會將之前在一些任務(wù)中學(xué)習(xí)到的知識轉(zhuǎn)移到目標(biāo)任務(wù)中。傳統(tǒng)的機(jī)器學(xué)習(xí)與遷移學(xué)習(xí)的差異如圖2所示。

(a)

近年來常使用深度卷積神經(jīng)網(wǎng)絡(luò)作為解決計算機(jī)視覺任務(wù)的方法,但是初始訓(xùn)練一個新的卷積神經(jīng)網(wǎng)絡(luò)不僅需要大量訓(xùn)練樣本,還需要大量時間與高性能的硬件設(shè)施。當(dāng)數(shù)據(jù)集樣本不足時,訓(xùn)練的網(wǎng)絡(luò)難以滿足精度需求。當(dāng)計算機(jī)性能有限時,將消耗大量時間用來訓(xùn)練。針對此類問題,深度遷移學(xué)習(xí)具有先天優(yōu)勢。為了能夠在每類數(shù)據(jù)集較小且計算機(jī)能力有限的情況下進(jìn)一步優(yōu)化卷積網(wǎng)絡(luò)參數(shù),本文采用融合遷移學(xué)習(xí)的手段進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。

遷移學(xué)習(xí)通過將已經(jīng)獲取的能力應(yīng)用在相關(guān)領(lǐng)域模型中,使得網(wǎng)絡(luò)模型具有充足的知識,以此使得本文模型可以減少訓(xùn)練時間,并調(diào)高識別精度,更加準(zhǔn)確地完成目標(biāo)任務(wù)。本文將在場景數(shù)據(jù)集Places訓(xùn)練的網(wǎng)絡(luò)用于提取場景類型的特征,并將在物體數(shù)據(jù)集ImageNet中訓(xùn)練的網(wǎng)絡(luò)用于提取物體特征。待網(wǎng)絡(luò)訓(xùn)練完成后,將其遷移到本文模型中。由于場景圖像的差異性,需要通過微調(diào)使遷移后的網(wǎng)絡(luò)更加適應(yīng)目標(biāo)任務(wù)的需求,以此進(jìn)一步提升網(wǎng)絡(luò)性能[20]。

2 卷積神經(jīng)網(wǎng)絡(luò)

2.1 類激活圖生成器的網(wǎng)絡(luò)

目前常用的CNN有AlexNet、VGGNet、ResNet和InceptionNet等。ResNet網(wǎng)絡(luò)通過引入獨(dú)特的殘差結(jié)構(gòu),使網(wǎng)絡(luò)能夠達(dá)到更深層,并避免由于網(wǎng)絡(luò)深度增加導(dǎo)致的梯度爆炸與彌散問題,且不會導(dǎo)致網(wǎng)絡(luò)模型的性能下降。因此,ResNet在深度、寬度、參數(shù)以及計算成本上都具有優(yōu)勢。

本文在基于熱點(diǎn)區(qū)域探尋的場景識別方法基礎(chǔ)上進(jìn)行改進(jìn)。本文使用SUN397數(shù)據(jù)集,且每個類別選取100張照片。采用ResNet網(wǎng)絡(luò)可以更好地訓(xùn)練網(wǎng)絡(luò),而ResNet-50[21]比ResNet-18更深,能得到更好的圖片標(biāo)簽對應(yīng)的權(quán)重。由于圖片標(biāo)簽的精準(zhǔn)度直接決定類激活圖的準(zhǔn)確程度,因此本文將類激活圖生成器的主干網(wǎng)絡(luò)由ResNet-18改為ResNet-50,以此來增加類激活圖生成器生成的類激活圖的準(zhǔn)確度。ResNet網(wǎng)絡(luò)的殘差結(jié)構(gòu)如圖3所示。

圖3 ResNet中的殘差結(jié)構(gòu) Figure 3. Residual structure in ResNet

將預(yù)訓(xùn)練好的場景特征提取網(wǎng)絡(luò)的參數(shù)與物體特征提取網(wǎng)絡(luò)的參數(shù)遷移到本文的卷積神經(jīng)網(wǎng)絡(luò)模型中,如圖4所示。

圖4 基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 4. CNN structure based on transfer learning

2.2 卷積特征的提取網(wǎng)絡(luò)

由于深度卷積特征具有優(yōu)異的表示性能,因此在場景識別中,卷積特征已基本取代了傳統(tǒng)的手工特征。在眾多CNN及其結(jié)構(gòu)變體中,本文選擇 ResNet-50作為特征提取器。相較于其他卷積神經(jīng)網(wǎng)絡(luò)(例如AlexNet、GoogLeNet、VGG),ResNet-50網(wǎng)絡(luò)更深,參數(shù)更少。而且,由于ResNet具有殘差連接,更易訓(xùn)練和收斂。對于深度卷積神經(jīng)網(wǎng)絡(luò)而言,不同階段的特征表示能力不同,最后一層卷積信息具有豐富的語義信息。使用深度卷積特征能夠縮減特征表示與圖片標(biāo)簽之間的語義鴻溝。相比于全連接層輸出的特征,CNN最后一層卷積層輸出的卷積特征包含了更豐富的語義信息和空間信息,且CNN的卷積層能夠接受任意大小的圖片輸入,其消耗的計算資源也更小。因此,本文去除了ResNet-50的全連接分類層,直接使用卷積層特征進(jìn)行場景圖像的表示,采用提取最后一次的多尺度卷積特征進(jìn)行融合以達(dá)到最佳的場景分類準(zhǔn)確率。具有全連接層的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在輸入全連接層時會將卷積特征從三維的特征塊拉平至一維的特征向量,從而造成空間信息損失。在進(jìn)行物體分類任務(wù)時,全連接層帶來了空間點(diǎn)位之間的連接,使得特征擁有空間不變性,具有較大優(yōu)勢。對于卷積特征來說,每一塊空間區(qū)域均能擁有投射至輸入圖片的一片視野域,可理解為每個1×1×C大小的卷積特征都能表示原圖的一小塊區(qū)域特征,因而卷積特征具有空間表示能力。由此可知,使用卷積特征有益于保留場景圖片中的空間信息,從而提升準(zhǔn)確度。

2.3 網(wǎng)絡(luò)微調(diào)

類激活圖生成器和特征提取器(全局尺度、1/4尺度)均使用了在大型場景數(shù)據(jù)集Places上預(yù)訓(xùn)練的ResNet-50。源域數(shù)據(jù)集Places和目標(biāo)域數(shù)據(jù)集SUN397在數(shù)據(jù)分布上有所不同,且兩者在場景類別上具有較大差異。因此,本文基于深度遷移學(xué)習(xí)的理論,使用目標(biāo)域數(shù)據(jù)集SUN397對預(yù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào)。在微調(diào)類激活圖生成器的過程中,為了加強(qiáng)類激活圖的熱點(diǎn)區(qū)域檢測能力,在類激活圖生成器的結(jié)構(gòu)中加入了一個SE-Block(Squeeze-and-Excitation-Block)。

微調(diào)涉及兩個網(wǎng)絡(luò),即類激活圖生成器和特征提取器的主干網(wǎng)絡(luò),網(wǎng)絡(luò)均為 ResNet-50。特征提取器的微調(diào)過程如下:首先,在卷積層參數(shù)凍結(jié)的基礎(chǔ)上訓(xùn)練其分類器;然后,解凍卷積層的參數(shù),以一個稍小的學(xué)習(xí)率微調(diào)卷積層和分類器(即微調(diào)整個主干網(wǎng)絡(luò))。類激活圖生成器的卷積層取自預(yù)訓(xùn)練的卷積層,同時微調(diào)卷積層和后接的SE-Block和分類器。對卷積層設(shè)置一個較小的學(xué)習(xí)率以保護(hù)其特征提取能力,對于后接模塊正常設(shè)置其學(xué)習(xí)率。

2.4 特征提取

深度卷積網(wǎng)絡(luò)在特征提取方面具有優(yōu)異表現(xiàn),逐漸取代了傳統(tǒng)的特征提取方法。為了獲取較好的圖像特征,既要保障圖像類內(nèi)特征的一致性,又要保證類間特征在特征空間的多樣性與獨(dú)特性。場景圖像一般比較復(fù)雜,單特征提取易導(dǎo)致提取的特征不夠全面,使最終識別的效果難以達(dá)到預(yù)期水平。場景圖像在不同尺度包含的特征均包含豐富的信息,淺層網(wǎng)絡(luò)對幾何細(xì)節(jié)信息具有較強(qiáng)的表示能力,深層網(wǎng)絡(luò)提取語義信息的表示能力明顯高于淺層網(wǎng)絡(luò)。因此,本文采用多個尺度特征共同表示場景圖片的方法來獲取更為準(zhǔn)確的圖片特征。對于提取深度卷積特征,本文模型使用了3個尺度架構(gòu)提取圖片特征,通過將目標(biāo)圖片送入類激活圖生成器來生成類激活圖。從圖1中的類激活圖可以看出,關(guān)鍵區(qū)域的特征在類激活圖上表現(xiàn)出相對較大的數(shù)值,因而能根據(jù)數(shù)值大小來推斷該區(qū)域的特征是否關(guān)鍵。為獲得分布在圖像上的不同鑒別區(qū)域,使用滑動窗口搜索類激活圖的局部極大值。對于每一個步幅為1的3×3窗口,選擇大于或等于其周圍8個位置的中心值作為局部最大值。對于兩個重疊窗口中具有相同值的局部極大值只計算一次,以避免對彼此接近的區(qū)域進(jìn)行冗余區(qū)域選擇。然后,選擇值高于閾值T的局部極大值作為最終判別位置。最后,裁剪以每個最終選擇的區(qū)分位置為中心的方形區(qū)域,即以局部最大值為中心,提取特定大小的特征塊作為關(guān)鍵區(qū)域的特征。對于生成的圖塊大小超出圖像區(qū)域的特殊情況,將其位置移動到圖像內(nèi)進(jìn)行劃分。使用兩種不同的圖塊大小(圖像大小的1/4和1/16),將其稱之為“局部尺度”。尺寸的選擇著眼于捕捉圖像中互補(bǔ)的局部信息。本文模型采用了一種三尺度特征聚合管道,使用CNN提取深層特征,獲取最高(全局)尺度和粗略(1/4)局部尺度的CNN網(wǎng)絡(luò)在Place上預(yù)訓(xùn)練,同時獲取精細(xì)(1/16)局部尺度的CNN網(wǎng)絡(luò)在ImageNet上預(yù)訓(xùn)練,并最終從目標(biāo)模型卷積神經(jīng)網(wǎng)絡(luò)分別提取卷積特征全局尺度特征、1/4局部尺度特征以及1/16局部尺度特征。

3 類激活圖生成器與特征融合

3.1 類激活圖生成器

采用基于類激活映射的類激活圖生成器(Dis-Net)探尋熱點(diǎn)區(qū)域的核心部分,由此生成的Dis-Map經(jīng)過局部最大值的搜尋和篩選能夠反映場景圖片中的熱點(diǎn)區(qū)域。圖5為原類激活圖生成器,圖6為改進(jìn)后的類激活圖生成器。

圖5 原始類激活圖生成器Figure 5. Original class activation map generator

圖6 改進(jìn)后的類激活圖生成器 Figure 6. Improved class activation map generator

將類激活圖生成器的主干網(wǎng)絡(luò)從ResNet-18更換為ResNet-50,并添加SE-Block模塊。圖片標(biāo)簽對應(yīng)的分類權(quán)重是生成類激活圖的關(guān)鍵,而類激活圖的準(zhǔn)確程度受圖片標(biāo)簽準(zhǔn)確度的影響。文獻(xiàn)[22]的類激活圖生成器通過去除主干網(wǎng)絡(luò)的第1個最大池化層,獲得了更高分辨率的激活圖,從而產(chǎn)生14×14的分布圖。然而,本文發(fā)現(xiàn)去除第1個最大池化層對主干網(wǎng)絡(luò)的分類準(zhǔn)確度存在不良影響,導(dǎo)致熱點(diǎn)區(qū)域識別不準(zhǔn)確。因此,本文選擇保留主干網(wǎng)絡(luò)的第1個最大池化層,并擴(kuò)大原圖片的輸入尺寸以增大類激活圖的分辨率。

3.2 SE-Block模塊

為了加強(qiáng)類激活圖的熱點(diǎn)區(qū)域檢測能力,在類激活圖生成器的結(jié)構(gòu)中加入SE-Block[23]模塊。SE-Block能夠提取卷積層內(nèi)不同通道之間的跨通道聯(lián)系(Cross-channel Correlation),并利用此全局信息為每個通道賦予一個權(quán)重:對包含熱點(diǎn)信息的卷積通道賦予一個較高的權(quán)重,對無用卷積通道賦予一個較低的權(quán)重。

圖 7 SE-Block結(jié)構(gòu)Figure 7. Structure of SE-Block

SE-Block的結(jié)構(gòu)如圖7所示。輸入特征X首先經(jīng)過Ftr操作,即常規(guī)的卷積操作,得到特征圖U,X∈H′×W′×C′以及U∈H×W×C。然后利用壓縮(Squeeze)函數(shù)Fsq(·)提取通道間的關(guān)聯(lián)信息Z∈c。最后使用激發(fā)(Excitation)函數(shù)Fex(·)生成每個通道的權(quán)重S∈с。上述函數(shù)的計算式為

(1)

S=Fex(Z,W)=σ(g(Z,W))=σ(W2σ(W1Z))

(2)

其中,zc∈Z;uc∈U;W=[W1,W2]。

SE-Block可突出有用特征,并抑制無用特征,能以最小的計算代價顯著提高現(xiàn)有神經(jīng)網(wǎng)絡(luò)的性能。

3.3 特征融合

本文使用一種三尺度框架,通過最大池化實現(xiàn)特征融合。根據(jù)熱點(diǎn)區(qū)域的中心坐標(biāo),在不同尺寸的場景圖片金字塔中采樣多尺度的圖像塊,分別送入到預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中提取特征,再將通過提取得到的不同特征進(jìn)行融合。

在模型中使用CNN來提取深度特征,CNN針對最高(全局)尺度和粗略(1/4)局部尺度以及精細(xì)(1/16)局部尺度。在每個尺度上,調(diào)整輸入?yún)^(qū)域的大小,從而得到不同尺度的不同特征向量,使用一個最大化池化(Max Pooling,MP)操作進(jìn)行尺度內(nèi)特征聚合,將3個L2歸一化尺度特征向量串聯(lián)得到最終的圖像表示向量。

全局尺度特征圖是原始輸入圖像的特征圖,1/4尺度和1/16尺度是熱點(diǎn)區(qū)域的面積與原圖的面積之比。

3.4 分類器

支持向量機(jī)(Support Vector Machine,SVM)為場景識別的分類提供了一種有效的解決方法,可以處理線性和非線性數(shù)據(jù)。為了獲得良好的分類精度,SVM通過訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,找到一個超平面。超平面需要定位在最合適的位置。位于從超平面測量的最小垂直距離處的所有點(diǎn)被稱為支持向量。支持向量之間的最短距離稱為邊距。本文使用的支持向量機(jī)如圖8所示。

圖8 支持向量機(jī)Figure 8. Support vector machine

本文采用生成的多尺度深度特征來訓(xùn)練多個一對多的線性SVM分類器?；谟?xùn)練圖像的尺度特征,對SVM分類器的參數(shù)C進(jìn)行了優(yōu)化。C是支持向量機(jī)目標(biāo)函數(shù)的超參數(shù),是對于誤分類樣本的懲罰項。在輸入線性SVM之前,特征經(jīng)過最大最小歸一化。本文使用的C值為0.02,同時采用平方鉸鏈損失函數(shù)。

4 實驗結(jié)果及分析

4.1 實驗數(shù)據(jù)集及實驗平臺

本文在SUN397[24]進(jìn)行了實驗。SUN397是一個大規(guī)模的場景識別數(shù)據(jù)集,共包含 130 519張、899類場景圖片,其中397類用作場景識別任務(wù)。使用數(shù)據(jù)集內(nèi)的397個類,且每個類別取100張場景圖像,對每個類內(nèi)選取的圖像對半劃分,分別構(gòu)成訓(xùn)練集和測試集。

提出的網(wǎng)絡(luò)模型訓(xùn)練所用的硬件平臺為: CPU為Intel Core i7-10875H,主頻2.3 GHz,睿頻5.1 GHz;SAMSUNG 32 GB內(nèi)存;GPU為NVIDIA 2080 8 GB。

4.2 實驗細(xì)節(jié)及分析

微調(diào)涉及兩個網(wǎng)絡(luò),即類激活生成器和特征提取器的主干網(wǎng)絡(luò)。兩個網(wǎng)絡(luò)涉及3次訓(xùn)練,訓(xùn)練時的網(wǎng)絡(luò)參數(shù)如表1所示。

表1 特征提取器和類激活圖生成器3次訓(xùn)練的網(wǎng)絡(luò)參數(shù)

在訓(xùn)練時,考慮到SUN397每個類別訓(xùn)練集只有50張圖片,故采用基于隨機(jī)采樣的數(shù)據(jù)增強(qiáng)[25]方法。本文在原始輸入圖片上采樣任意尺寸的圖像塊,采樣得到的圖像塊與原圖的尺寸比例范圍為在[0.08,1.00],長寬比范圍為[3/4,3/4]。采樣后將圖像塊調(diào)整成224×224大小,并對圖片進(jìn)行隨機(jī)水平翻轉(zhuǎn)。最后對圖片進(jìn)行標(biāo)準(zhǔn)化,在整個訓(xùn)練集上求取標(biāo)準(zhǔn)化參數(shù)。由于數(shù)據(jù)集內(nèi)的圖片是彩色圖片,故三通道的標(biāo)準(zhǔn)化參數(shù)均值mean=[0.466,0.453,0.419],標(biāo)準(zhǔn)差std=[0.264,0.263,0.287]。在訓(xùn)練時,使用帶動量的小批量隨機(jī)梯度下降優(yōu)化器。

使用SE-Block對類激活圖的影響如圖9所示。SE-Block對類激活圖的值具有抑制作用,可減少熱點(diǎn)區(qū)域的數(shù)量,但能增強(qiáng)有效的熱點(diǎn)區(qū)域的激活值。

(a)

本文使用3個尺度構(gòu)成的最終特征進(jìn)行C值選取。逐漸加大C值,得到準(zhǔn)確度與C值的關(guān)系,如圖10所示。隨著C值增大,模型訓(xùn)練的準(zhǔn)確度達(dá)到100%,并保持不變。預(yù)測準(zhǔn)確度在前期隨著C值的增大而逐漸增大,并在達(dá)到峰之后隨著C值的增大逐漸減小,模型經(jīng)歷了從欠擬合、擬合、過擬合3個不同階段。選擇較大的C值,縮小支持向量所在的超平面的間隔,以減少在訓(xùn)練集上被錯誤分類的樣本。選擇較小的C值,訓(xùn)練得到超平面的間隔較遠(yuǎn),但是被錯誤分類的樣本較多。C值越大,在訓(xùn)練集上的準(zhǔn)確度越高,超平面將對訓(xùn)練集上產(chǎn)生過擬合造成較大的泛化誤差。C值越小,支持向量機(jī)可能無法收斂而無法得到最優(yōu)超平面,此時不僅在訓(xùn)練集上表現(xiàn)較差,泛化誤差也較大。因此,本文選取測試準(zhǔn)確度較高的點(diǎn)為C的取值點(diǎn),即C=0.02較合理。

圖10 SVM參數(shù)C和準(zhǔn)確度的關(guān)系Figure 10. Relationship between parameter C of SVM and accuracy

表2主要對特征提取器和類激活圖生成器主干網(wǎng)絡(luò)的處理方式進(jìn)行標(biāo)記,例如序號2表示類激活圖生成器在Places上進(jìn)行了預(yù)訓(xùn)練并在 SUN397上進(jìn)行了微調(diào)(Finetune),特征提取器的主干網(wǎng)絡(luò)在全局尺度和1/4尺度上使用同樣的方式進(jìn)行了處理。在1/16尺度上,特征提取器的主干網(wǎng)絡(luò)經(jīng)過ImageNet的預(yù)訓(xùn)練。從表2可以看出,如果對主干網(wǎng)絡(luò)進(jìn)行微調(diào),能夠緩解數(shù)據(jù)集偏置的問題,并提高場景識別的準(zhǔn)確度。

表2 微調(diào)特征提取器和CAM生成器對準(zhǔn)確度的影響

如表3所示,將本文方法與其它使用CNN的場景識別方法進(jìn)行了比較。其中,VS-CNN通過多維度信息提取多種類型的特征,Dual CNN-DL、Multi-scale CNNs使用了多尺度多模型結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),Adi-Red解決了鑒別性區(qū)域自動發(fā)現(xiàn)。經(jīng)實驗對比發(fā)現(xiàn),采用多尺度特征融合的方法在場景識別中優(yōu)于當(dāng)前的卷積神經(jīng)網(wǎng)絡(luò)算法模型。本文結(jié)合遷移學(xué)習(xí)與多尺度特征融合,通過3種不同的特征尺度解決了復(fù)雜場景的分類問題,其中全局尺度特征對于簡單場景具有較好的效果。本文構(gòu)建了新的類激活圖生成器,生成了更細(xì)膩的類激活圖,從而能夠更精準(zhǔn)地尋找關(guān)鍵特征的位置并裁剪此區(qū)域的特征。本文提取的局部尺度特征能夠進(jìn)一步補(bǔ)充場景圖像的特征信息,賦予了網(wǎng)絡(luò)模型分類復(fù)雜場景的能力。此方法識別準(zhǔn)確度高于類似的識別算法,證明了通過改進(jìn)類激活圖生成器網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合圖像的全局與局部特征方法的有效性。

表3 在SUN397數(shù)據(jù)集上的準(zhǔn)確度比較

5 結(jié)束語

本文提出一種基于深度遷移學(xué)習(xí)與多尺度特征融合的場景識別算法模型。該模型以ResNet-50網(wǎng)絡(luò)模型為基礎(chǔ),通過遷移學(xué)習(xí),使模型獲取豐富的知識,簡化網(wǎng)絡(luò)模型的訓(xùn)練難度,提升網(wǎng)絡(luò)的訓(xùn)練效率。改進(jìn)了類激活圖生成器,通過擴(kuò)大原圖像尺寸增加了類激活圖的分辨率,使卷積網(wǎng)絡(luò)獲得了較多特征信息,采用區(qū)分區(qū)域來提取場景圖像的深層特征。通過卷積網(wǎng)絡(luò)使不同尺度的特征向量進(jìn)行融合,增加了最終特征的特征信息豐富度,更加具體地對圖像進(jìn)行表示。最終,將表示向量送入線性SVM分類器進(jìn)行場景類別的識別。研究結(jié)果表明,本文方法能夠明顯緩解數(shù)據(jù)集偏執(zhí)的問題,改善圖像類內(nèi)差異與類間相似的問題,提高了場景識別的準(zhǔn)確度。在改進(jìn)類激活圖生成器網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上使用遷移學(xué)習(xí)與微調(diào)技術(shù),不提取沉余區(qū)域即可獲取信息豐富的熱點(diǎn)區(qū)域特征信息,更加符合人類對場景的觀察機(jī)制。未來將進(jìn)一步結(jié)合深度學(xué)習(xí)的方法,探討更有效的提取場景圖像的背景、物體、空間位置等信息的算法,并在特征融合方面開展進(jìn)一步的研究工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡