董紹江,劉 偉,蔡巍巍,饒志榮
1.重慶交通大學(xué) 機(jī)電與車輛工程學(xué)院,重慶 400074
2.大陸汽車研發(fā)(重慶)有限公司,重慶 400074
隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,人們對(duì)海洋有了更多的探索和理解,對(duì)海洋資源的開發(fā)與利用,帶來了巨大的經(jīng)濟(jì)效益。與此同時(shí),海洋生態(tài)遭受了一定的破壞,海洋生物多樣性面臨著巨大挑戰(zhàn)[1]。引入現(xiàn)代技術(shù)手段對(duì)不同海洋魚類的存在和數(shù)量進(jìn)行監(jiān)控,對(duì)保護(hù)魚類多樣性意義重大。
近年來,越來越多的海洋研究人員通過水下攝像機(jī)的長(zhǎng)期監(jiān)視來獲取水下魚類圖像,并采取了不同的方法實(shí)現(xiàn)圖像的分類[2]。較為傳統(tǒng)的方法是海洋專家對(duì)每個(gè)圖像進(jìn)行手動(dòng)分析歸類,此種方法不僅要求較強(qiáng)的專業(yè)能力,且費(fèi)時(shí)費(fèi)力?;趫D像處理技術(shù)的特征提取方法,使得這項(xiàng)任務(wù)變得相對(duì)容易起來,研究人員通過提取圖像的顏色、形狀、紋理等特征,以有效地確定魚的種類[3-4]。在特征提取方法的基礎(chǔ)上,針對(duì)圖像分類方法的研究也逐漸在增多,Wang等人[5]在bag-of-feature的基礎(chǔ)上,提出了縮小編碼系數(shù),通過兩級(jí)字典學(xué)習(xí)的方法來識(shí)別細(xì)粒度魚類圖像,但是該方法未考慮特征之間的位置關(guān)系。Saitoh等人[6]進(jìn)行了詳細(xì)的實(shí)驗(yàn),證明了視覺詞包與幾何特征的組合可以幫助獲得準(zhǔn)確的識(shí)別結(jié)果。Khotimah等人[7]使用決策樹與圖像處理算法相結(jié)合的方法來實(shí)現(xiàn)了金槍魚的自動(dòng)分類。上述方法大多是基于不同的特征提取方法結(jié)合機(jī)器學(xué)習(xí)工具進(jìn)行圖像的分類,然而與卷積神經(jīng)網(wǎng)絡(luò)相比,過程相對(duì)繁瑣,且基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法其準(zhǔn)確率普遍更高。Tamou等人[8]用遷移學(xué)習(xí)方法,在AlexNet網(wǎng)絡(luò)上對(duì)ImageNet數(shù)據(jù)集上訓(xùn)練模型進(jìn)行參數(shù)遷移取得了不錯(cuò)的效果。Qiu等人[9]使用改進(jìn)的遷移學(xué)習(xí)和擠壓與激勵(lì)網(wǎng)絡(luò)在小規(guī)模魚類數(shù)據(jù)集上同樣表現(xiàn)出了優(yōu)越的性能。然而當(dāng)前大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法,其關(guān)注點(diǎn)主要是集中在拓展網(wǎng)絡(luò)的深度等方式以捕捉更多的圖像特征,導(dǎo)致網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間大幅增加,對(duì)計(jì)算機(jī)硬件形成極大的依賴。細(xì)粒度圖像分類作為計(jì)算機(jī)視覺、模式識(shí)別中頗具挑戰(zhàn)的一類任務(wù),需要在區(qū)分出基本類別的基礎(chǔ)上,對(duì)子類進(jìn)行更精細(xì)的劃分[10]。此外,由于姿態(tài)、尺度、背景等因素的干擾,即使是同一子類,其差異也很大,從而使得細(xì)粒度圖像分類任務(wù)難度更大[11]。因而,針對(duì)細(xì)粒度圖像分類問題,充分結(jié)合細(xì)粒度圖像本身的特點(diǎn)更能體現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)。
針對(duì)細(xì)粒度魚類圖像識(shí)別任務(wù),本文提出一種基于空間變換網(wǎng)絡(luò)和分層精簡(jiǎn)雙線性特征的網(wǎng)絡(luò)模型。以空間變換網(wǎng)絡(luò)為注意力機(jī)制,移除水下圖像背景的干擾,將目標(biāo)區(qū)域作為后續(xù)識(shí)別網(wǎng)絡(luò)的輸入。在可視化卷積特征的指導(dǎo)下,該方法在降低分類特征維度的同時(shí),根據(jù)不同卷積層的響應(yīng)特性融合部分卷積層的特征,增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)圖像細(xì)粒度特征的捕捉能力,以降維近似的方式取得了同最優(yōu)算法相當(dāng)?shù)淖R(shí)別精度。
如前所述,細(xì)粒度圖像分類任務(wù)要求更高。對(duì)于細(xì)粒度圖像分類,傳統(tǒng)方法主要是基于特征提取,包括局部特征、視覺詞包、特征定位三種方法,存在過程繁瑣、額外處理工作復(fù)雜等弊端[10]。深度學(xué)習(xí)的廣泛應(yīng)用,使得基于神經(jīng)網(wǎng)絡(luò)算法的特征提取方法與傳統(tǒng)人工方法相比,效率更高,描述能力更強(qiáng)大,在一定程度上促進(jìn)了細(xì)粒度圖像分類的發(fā)展。根據(jù)監(jiān)督方式的不同,可以分為強(qiáng)監(jiān)督[12]和弱監(jiān)督[13]兩種類別。強(qiáng)監(jiān)督利用bounding box和key point等額外的人工標(biāo)注信息,獲取位置、大小等,有利于提高局部與全局之間的關(guān)聯(lián),從而提升分類精度。弱監(jiān)督細(xì)粒度圖像分類僅利用圖像的類別信息,不使用額外的標(biāo)注,目前該類方法可以總結(jié)為圖像過濾[14]和雙線性網(wǎng)絡(luò)[15]兩類。圖像過濾的思想和強(qiáng)監(jiān)督中利用bounding box的方法類似,僅借助于圖像類別信息過濾與目標(biāo)物體無(wú)關(guān)的背景。雙線性網(wǎng)絡(luò)(bilinear CNN,B-CNN)通過計(jì)算卷積描述向量的外積來考察不同維度之間的交互關(guān)系,由于描述向量的不同維度對(duì)應(yīng)卷積特征的不同通道,不同通道提取了不同的語(yǔ)義特征,因此,通過雙線性操作,可以捕獲圖像的不同語(yǔ)義特征之間的關(guān)系。
精簡(jiǎn)雙線性網(wǎng)絡(luò)(compact bilinear pooling,CBP)是雙線性網(wǎng)絡(luò)的改進(jìn)網(wǎng)絡(luò),主要優(yōu)勢(shì)在于降低了雙線性網(wǎng)絡(luò)輸入分類器的特征維度,加快了網(wǎng)絡(luò)訓(xùn)練速度,且正確率與原網(wǎng)絡(luò)相當(dāng)??臻g變換網(wǎng)絡(luò)作為一種空間域注意力機(jī)制,其主要作用是過濾圖像中的背景,可作為網(wǎng)絡(luò)結(jié)構(gòu)嵌入到卷積網(wǎng)絡(luò)的任何位置,使得構(gòu)建端到端的學(xué)習(xí)網(wǎng)絡(luò)成為可能。本文通過結(jié)合空間變換網(wǎng)絡(luò)和精簡(jiǎn)雙線網(wǎng)絡(luò)各自的優(yōu)勢(shì)并引入分層特征融合的改進(jìn)策略,構(gòu)建了分層精簡(jiǎn)雙線性注意力網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示。
受到圖像可裁剪、平移、縮放和旋轉(zhuǎn)等圖像處理經(jīng)典手段的啟發(fā),為了盡可能地減少水下圖像背景的干擾,本文采用空間變換網(wǎng)絡(luò)(spatial transformation network,STN)作為一種注意力機(jī)制,使識(shí)別網(wǎng)絡(luò)聚焦在圖像中目標(biāo)物體上,對(duì)其進(jìn)行特征提取。其中,空間變換服從于坐標(biāo)矩陣的仿射變換??臻g變換網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1中下半部分所示,包括定位網(wǎng)絡(luò)、網(wǎng)格生成器和采樣器。定位網(wǎng)絡(luò)是一個(gè)用來回歸變換參數(shù)θ的網(wǎng)絡(luò),本文中它的輸入圖像為U∈RH×W×C,H、W、C分別對(duì)應(yīng)圖像的長(zhǎng)、寬和通道數(shù),為避免增加網(wǎng)絡(luò)中的參數(shù)量和特征維度,定位網(wǎng)絡(luò)設(shè)計(jì)為由兩個(gè)卷積層、兩個(gè)池化層、全連接層和回歸層輸出變換參數(shù),由于進(jìn)行的是2D仿射變換,因此其輸出是一個(gè)6維的向量。網(wǎng)格生成器依據(jù)變換參數(shù)θ構(gòu)建采樣網(wǎng)絡(luò),其實(shí)質(zhì)是根據(jù)變換參數(shù)得到輸出圖像和輸入圖像之間坐標(biāo)點(diǎn)的映射關(guān)系Tθ(G)。若特征圖像U的每個(gè)像素的坐標(biāo)為則V的每個(gè)像素坐標(biāo)為由定義在規(guī)則網(wǎng)格上的G={Gi}構(gòu)成,其中像素則源坐標(biāo)和目標(biāo)坐標(biāo)之間的對(duì)應(yīng)關(guān)系為:
圖1 分層精簡(jiǎn)雙線性注意力網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure of hierarchical compact bilinear attention network
采樣器利用雙線性插值的方式對(duì)輸出圖像像素進(jìn)行填充,輸出圖像的大小和輸入圖像保持一致,公式為:
B-CNN根據(jù)大腦工作時(shí)認(rèn)知類別和關(guān)注顯著特征的方式,構(gòu)建了兩個(gè)線性網(wǎng)絡(luò),協(xié)調(diào)完成局部特征提取和分類的任務(wù),特征融合采用的向量外積方式會(huì)導(dǎo)致雙線性特征的維度極高,CBP是對(duì)B-CNN的一種降低維度的近似。雙線性池化(bilinear pooling,BP)結(jié)果可表示為:
式中,X=(x1,x2,…,x|S|,xs∈Rc),表示局部描述符的集合,S為空間位置的集合,B(X)視為長(zhǎng)度為c2的向量。
由于使用雙線性描述符的圖像分類通常使用線性支持向量機(jī)(SVM)去實(shí)現(xiàn),用線性核分類可作如下推導(dǎo):
式中,X和Y為局部描述符的集合,S和U為空間位置的集合。式(5)的結(jié)果視為兩張圖像的比較內(nèi)核,令k(x,y)表示此比較內(nèi)核,即二階多項(xiàng)式核。
Tensor sketch(TS)是一種近似多項(xiàng)式核的算法,可用于BP的壓縮。使用TS進(jìn)行近似雙線性池化的算法原理如圖2所示。
圖2 精簡(jiǎn)雙線性過程Fig.2 Process of compact bilinear pooling
TS步驟如下:
步驟1利用Count Sketch函數(shù)Ψ將特征向量x∈Rc映射到特征空間Rd。定義兩個(gè)隨機(jī)向量sk∈{+1,-1}c,hk∈{1,2,…,d}c,k=1,2,sk(i)與hk(i)的初始化值服從均勻分布,且初始化后保持不變。定義函數(shù)Ψ(x,h,s)和φTS(x)如下:
式(8)中,F(xiàn)為快速傅里葉變換,F(xiàn)-1為傅里葉逆變換,為按元素相乘。
步驟2根據(jù)Count Sketch函數(shù)性質(zhì):
步驟3通過式(11)計(jì)算精簡(jiǎn)雙線性池化特征,并依次開符號(hào)平方根和L2規(guī)范化將特征歸一化。
由文獻(xiàn)[16]可知,d的值為8 192時(shí),CBP和B-CNN的降維度近似結(jié)果較為理想。
基于雙線性池化的網(wǎng)絡(luò)模型已經(jīng)被實(shí)驗(yàn)驗(yàn)證了在細(xì)粒度圖像分類上的有效性,然而現(xiàn)有的許多方法忽略了模型的層間局部特征的交互和細(xì)粒度特征的學(xué)習(xí)是相互關(guān)聯(lián)的,并且能夠相互增強(qiáng)。文獻(xiàn)[17]中提出了一種分層雙線性池的框架來集成多個(gè)跨層雙線性特征,提高了對(duì)特征的表示能力,文章將來自不同卷積層的激活視為對(duì)不同部件屬性的響應(yīng),而不是顯式地定位對(duì)象的局部,結(jié)果表明該方法對(duì)細(xì)粒度圖像分類任務(wù)有較為顯著的作用。
為明確CovNet中不同卷積層特征對(duì)水下圖像目標(biāo)中不同部件屬性響應(yīng)的有效性,采用Grad-CAM方法[18]對(duì)vgg16模型的卷積層進(jìn)行了可視化,結(jié)果如圖3所示,輸入圖像為ImageNet數(shù)據(jù)集中的GoldFish類。
根據(jù)圖3中vgg16網(wǎng)絡(luò)的部分卷積的激活響應(yīng)可視化結(jié)果可以看出,不同的卷積層對(duì)輸入的魚類圖像不同部件存在不同的響應(yīng)。除開conv5之外的低層卷積的激活響應(yīng)主要是從全局的角度對(duì)魚類圖像進(jìn)行特征提取,高層卷積如conv5_1對(duì)金魚的頭部、魚鰭、魚尾的響應(yīng)較為強(qiáng)烈,conv5_2和conv5_3的激活響應(yīng)則主要集中在魚的頭部,其他部位的響應(yīng)相對(duì)較弱。
圖3 vgg16部分卷積的激活響應(yīng)Fig.3 Activation response of partial convolution of vgg16
B-CNN僅對(duì)conv5_3層的特征進(jìn)行外積融合,主要關(guān)注的特征集中在金魚的頭部,對(duì)于細(xì)粒度魚類圖像的識(shí)別相當(dāng)不利,因?yàn)樵诩?xì)粒度任務(wù)中,不同魚類之間的差別較小,細(xì)微差異很可能被網(wǎng)絡(luò)忽略而導(dǎo)致識(shí)別錯(cuò)誤。由于conv5_1在魚鰭、魚尾等細(xì)節(jié)部分響應(yīng)較為強(qiáng)烈,conv5_2和conv5_3對(duì)金魚的頭部的激活響應(yīng)范圍存在差異,其次雙線性池化及其精簡(jiǎn)方法能夠加強(qiáng)特征間的交互,且文獻(xiàn)[17]中對(duì)不同的卷積層的融合方式進(jìn)行了討論,在CUB-200-2011鳥類數(shù)據(jù)集上得出的結(jié)果是conv5_3與conv5_2,conv5_3與conv5_1,conv5_2與conv5_1分別進(jìn)行特征融合得到的識(shí)別精度相對(duì)更高。根據(jù)魚類圖像的特點(diǎn)以及可視化結(jié)果中不同卷積的激活響應(yīng)情況,本文選取conv5_1、conv5_2、conv5_3三個(gè)卷積層進(jìn)行精簡(jiǎn)的雙線性特征融合,融合方式如表1所示。
表1 不同特征融合方式Table 1 Different feature fusion methods
結(jié)合STN網(wǎng)絡(luò)的背景過濾能力和分層精簡(jiǎn)雙線性池(hierarchical compact bilinear pooling,H-CBP)的低維特征表示能力,本文構(gòu)建了STN-H-CBP網(wǎng)絡(luò)用于細(xì)粒度水下魚類圖像識(shí)別。其中STN網(wǎng)絡(luò)通過定位網(wǎng)絡(luò)獲取目標(biāo)在圖像中的位置,并使用雙線性插值方法填充生成的網(wǎng)格,有效濾除了水下圖像背景的干擾,圖像輸出大小為224×224。特征提取器采用vgg16網(wǎng)絡(luò)模型為基礎(chǔ),保留了vgg16網(wǎng)絡(luò)的所有卷積層,下稱vgg16。H-CBP在考慮了中間層卷積激活,避免了細(xì)粒度類別判別信息丟失的情況下,對(duì)雙線性池進(jìn)行精簡(jiǎn),經(jīng)過特征交互和精簡(jiǎn)雙線性變換后將輸出維度為8 192的三組特征向量進(jìn)行級(jí)聯(lián)融合后送入softmax分類器。
F4K是Fish4Knowledge項(xiàng)目在開放海域采集的魚類圖像數(shù)據(jù)集。該數(shù)據(jù)集是從實(shí)時(shí)視頻中獲取的魚類數(shù)據(jù),共27 370個(gè)經(jīng)過驗(yàn)證的魚類圖像,整個(gè)數(shù)據(jù)集分為23個(gè)類別,簡(jiǎn)稱為F4K數(shù)據(jù)集。圖4為F4K數(shù)據(jù)集的部分樣本示例。
圖4 F4K數(shù)據(jù)集樣本示例Fig.4 Sample of F4K dataset
實(shí)驗(yàn)環(huán)境為ubuntu16.04操作系統(tǒng),GPU為NVIDIA RTX2060,內(nèi)存為32 GB,顯存為6 GB,深度學(xué)習(xí)框架為TensorFlow。
空間變換網(wǎng)絡(luò)在本文中作為一種注意力機(jī)制,對(duì)水下魚類圖像的背景存在抑制作用,圖5是圖像經(jīng)過空間變換網(wǎng)絡(luò)后的圖像與原圖像的對(duì)比圖。圖5(a)是空間變換網(wǎng)絡(luò)輸入圖像,由F4K數(shù)據(jù)集中原圖按比例縮小而得??梢钥吹綀D5(a)中的魚類圖像背景較復(fù)雜,對(duì)精確識(shí)別其中的魚類目標(biāo)造成嚴(yán)重干擾;在捕捉局部特征時(shí),極易將外型和色彩與魚類相似的背景混淆造成誤判;此外輸入圖像采用RGB彩色圖像,過多的背景降低了模型的計(jì)算效率。圖5(b)是空間變換網(wǎng)絡(luò)輸出圖像。由圖5(b)可見,通過空間變換后的圖像,場(chǎng)景中主要目標(biāo)是魚類,相對(duì)輸入圖像,很大程度過濾了背景。輸出圖像中魚類目標(biāo)的位置被變換到了左下角的多邊形區(qū)域,其余像素的點(diǎn)各通道像素值均為零,減少了卷積過程的運(yùn)算量。
圖5 輸入圖像經(jīng)空間變換前后對(duì)比圖Fig.5 Comparison of input images before and after spatial transformation
本文分別以B-CNN、CBP、H-CBP和所提STN-H-CBP方法作對(duì)比,其中由于輸入圖像尺寸為448×448時(shí)B-CNN網(wǎng)絡(luò)表現(xiàn)最佳,限于硬件環(huán)境,且本文意在驗(yàn)證所提的STN-H-CBP網(wǎng)絡(luò)的有效性,故文中網(wǎng)絡(luò)輸入圖像尺寸均為224×224。上述對(duì)比網(wǎng)絡(luò)模型均以vgg16作為特征提取器,為了公平比較各方法,對(duì)比實(shí)驗(yàn)采用相同的訓(xùn)練策略。數(shù)據(jù)集劃分采取5/7作為訓(xùn)練集,1/7作為驗(yàn)證集,1/7作為測(cè)試集。網(wǎng)絡(luò)參數(shù)初始化采用遷移學(xué)習(xí)的方法將vgg16網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上訓(xùn)練完備的模型參數(shù)作為初始值,新添加的網(wǎng)絡(luò)層采用先粗調(diào)再微調(diào)的方式進(jìn)行訓(xùn)練。粗調(diào)采用固定學(xué)習(xí)率0.9,動(dòng)量為0.9,batchsize為16。微調(diào)訓(xùn)練模型的部分超參數(shù)設(shè)置如下:batchsize為16,使用指數(shù)衰減學(xué)習(xí)率,其初始值設(shè)置為0.01,動(dòng)量為0.9,每1 000步更新一次學(xué)習(xí)率。
表2是B-CNN與各改進(jìn)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果對(duì)比。如表2所示,CBP網(wǎng)絡(luò)模型在精簡(jiǎn)雙線性池化的情況下,降低了輸入分類器的特征維度,節(jié)省了計(jì)算開銷,訓(xùn)練時(shí)長(zhǎng)縮短超40 min,但識(shí)別精度相對(duì)B-CNN網(wǎng)絡(luò)下降了0.13個(gè)百分點(diǎn)。H-CBP網(wǎng)絡(luò)對(duì)vgg16的高層卷積層進(jìn)行特征融合,正確率較CBP網(wǎng)絡(luò)略有提升,由于進(jìn)行了分層特征融合,訓(xùn)練時(shí)長(zhǎng)稍有上升,相比文獻(xiàn)[11]中分層特征融合網(wǎng)絡(luò)在細(xì)粒度鳥類圖像分類上的的優(yōu)良表現(xiàn),在F4K魚類數(shù)據(jù)集上表現(xiàn)不佳,可能存在以下兩個(gè)原因:其一是F4K魚類數(shù)據(jù)集中魚類的尺度變化大,且特征融合過程受水下圖像背景干擾較大,其二是本文使用的水下魚類數(shù)據(jù)集是未經(jīng)過圖像增強(qiáng)或復(fù)原的低質(zhì)量圖像,特征融合的效果較一般。STN-H-CBP網(wǎng)絡(luò)模型在H-CBP網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn),使用空間變換網(wǎng)絡(luò)作為注意力機(jī)制過濾水下圖像背景,結(jié)果表明,三種不同融合方式形成的網(wǎng)絡(luò)在F4K數(shù)據(jù)上的識(shí)別率都有不同程度的提升,但不同的融合方式間存在性能差異,融合方式見表1,分別較H-CBP網(wǎng)絡(luò)的識(shí)別精度提高了0.03、0.19和0.8個(gè)百分點(diǎn),且平均訓(xùn)練時(shí)長(zhǎng)縮減超20 min。由此可見,過濾圖像背景可增強(qiáng)目標(biāo)圖像中特征融合的有效性,且對(duì)減少計(jì)算量有一定貢獻(xiàn)。B-CNN及其精簡(jiǎn)模型CBP已表明高維特征交互能更有效地提升模型對(duì)細(xì)粒度特征的捕捉能力,此處結(jié)合背景過濾與分層精簡(jiǎn)特征融合策略的實(shí)驗(yàn)結(jié)果作進(jìn)一步分析。方式1采取conv5中三個(gè)卷積層兩兩交互的策略,識(shí)別精度較存在高維特征交互的方式2與方式3略低,根據(jù)Grad-CAM算法的可視化結(jié)果,conv5_1在魚鰭等金魚的細(xì)粒度特征處的激活響應(yīng)更為強(qiáng)烈,方式2采取的融合策略缺少層間的交互,僅在最后進(jìn)行了級(jí)聯(lián)融合,相對(duì)而言,方式3充分利用各層與conv5_3的融合,識(shí)別精度提升也更為明顯。
表2 實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results
圖6是不同特征融合方式的網(wǎng)絡(luò)訓(xùn)練至收斂過程中,損失函數(shù)與識(shí)別精度變化趨勢(shì)經(jīng)平滑化處理后的對(duì)比圖,子圖(a)為損失函數(shù)對(duì)比曲線,子圖(b)為識(shí)別精度變化趨勢(shì)。子圖(a)與子圖(b)中,模型STN-H-CBP-a、模型STN-H-CBP-b與模型STN-H-CBP-c訓(xùn)練過程中損失函數(shù)與識(shí)別精度的變化趨勢(shì)分別對(duì)應(yīng)了黑色、藍(lán)色與紅色的曲線。由子圖(a)與子圖(b)可見,模型STN-HCBP-c損失函數(shù)下降速度與模型收斂速度更快,模型STN-H-CBP-b次之,模型STN-H-CBP-a最慢。結(jié)果表明,模型STN-H-CBP-c采取的融合策略性能最佳,即高維特征交互與背景過濾可改善網(wǎng)絡(luò)模型在魚類數(shù)據(jù)集上的性能。
圖6 不同特征融合方式訓(xùn)練過程對(duì)比Fig.6 Comparison of training process of different feature fusion methods
綜上可知,采用空間變換網(wǎng)絡(luò)為注意力機(jī)制對(duì)水下魚類圖像進(jìn)行背景過濾,結(jié)合分層精簡(jiǎn)雙線性池化網(wǎng)絡(luò)在增強(qiáng)層間交互與特征降維的能力進(jìn)行端到端的網(wǎng)絡(luò)訓(xùn)練,所提方法在F4K魚類數(shù)據(jù)集上的識(shí)別精度與訓(xùn)練速度較對(duì)比方法均有提升。
(1)H-CBP網(wǎng)絡(luò)在未經(jīng)背景過濾的情況下表現(xiàn)一般,相對(duì)于傳統(tǒng)的B-CNN網(wǎng)絡(luò)識(shí)別精度略有下降,可能的原因是水下圖像分辨率較低且背景復(fù)雜,導(dǎo)致卷積層之間特征交互對(duì)局部特征的提取能力改善較小,下一步可結(jié)合水下圖像預(yù)處理方法進(jìn)行改進(jìn)。
(2)STN作為注意力模塊嵌入網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練,可有效過濾水下圖像中的背景干擾,以F4K為實(shí)驗(yàn)數(shù)據(jù)集,使得STN-H-CBP網(wǎng)絡(luò)在識(shí)別精度上較H-CBP網(wǎng)絡(luò)提高0.8個(gè)百分點(diǎn),訓(xùn)練時(shí)長(zhǎng)最大縮短30 min。
(3)STN-H-CBP網(wǎng)絡(luò)綜合了STN對(duì)圖像中局部目標(biāo)的關(guān)注能力,和H-CBP網(wǎng)絡(luò)對(duì)模型的近似精簡(jiǎn)與層間特征交互的能力,綜合表現(xiàn)較好。