王海燕 杜菲瑀 姚海洋 陳 曉
文章編號:2096-398X2024)03-0182-06
(陜西科技大學(xué) 電子信息與人工智能學(xué)院, 陜西 西安 710021)
摘 要:水下魚類目標(biāo)識別技術(shù)是認(rèn)識海洋、經(jīng)略海洋、向海圖強(qiáng)的重要技術(shù)之一.基于深度學(xué)習(xí)的水下目標(biāo)識別技術(shù)已成為研究熱點(diǎn),但是針對水下魚類數(shù)據(jù)小樣本甚至零樣本識別性能亟待提高.本文基于遷移學(xué)習(xí),提出了聯(lián)合深度統(tǒng)計(jì)特征對齊(Joint Deep Statistical Feature Alignment,JDSFA)方法,解決小樣本下的魚類目標(biāo)識別問題.以ResNet-50作為骨干網(wǎng)絡(luò),將均方和協(xié)方差納入權(quán)重選擇算法用來構(gòu)建自適應(yīng)損失函數(shù),對齊源域和目標(biāo)域之間的特征分布,聯(lián)合源域損失與領(lǐng)域間的自適應(yīng)損失,設(shè)計(jì)全局損失函數(shù),建立深度學(xué)習(xí)識別模型,實(shí)現(xiàn)魚類目標(biāo)識別任務(wù).利用公開的水下魚類數(shù)據(jù)集QUT進(jìn)行實(shí)驗(yàn)驗(yàn)證,相比目前代表性的DADAN、PMTrans、DSAN方法,JDSFA方法的魚類識別性能分別提升了3.59%、4.96%、5.91%,結(jié)果表明了本文JDSFA方法的有效性,并對魚類目標(biāo)識別具有良好的應(yīng)用價(jià)值.
關(guān)鍵詞:魚類識別; 遷移學(xué)習(xí); 聯(lián)合深度統(tǒng)計(jì)特征對齊; 損失函數(shù)
中圖分類號:TP18??? 文獻(xiàn)標(biāo)志碼: A
Fish target recognition method based on joint deep statistical feature alignment
WANG Hai-yan, DU Fei-yu, YAO Hai-yang, CHEN Xiao
School of Electronic Information and Artificial Intelligence, Shaanxi University of Science & Technology, Xi′an 710021, China)
Abstract:Underwater fish target recognition technology is an important technology in ocean exploration.However,the acquisition of underwater resources is very expensive and cannot meet the requirements of training large-scale deep neural networks.Aiming at the problem of small or even zero samples of underwater fish data,this paper proposed a Joint Deep Statistical Feature Alignment JDSFA) method based on transfer learning to solve the problem of fish target identification in small samples.Using ResNet-50 as the backbone network,the mean square and covariance were incorporated into the weight selection algorithm to construct a joint domain adaptive loss function to align the feature distribution between the source domain and the target domain.In addition,we also designed a global loss function to combine the source domain loss with the inter-domain adaptive loss by using adaptive weights to realize the fish target recognition task.The published underwater fish data set QUT was used for experimental verification,and the results all showed that the effectiveness of JDSFA method in fish identification was 3.59%,4.96% and 5.91% higher than that of the current representative DADAN,PMTrans and DSAN methods,respectively.It is further demonstrated that the JDSFA method proposed in this paper has good application value in fish identification task.
Key words:fish recognition; transfer learning; joint deep statistical feature alignment; loss function
0 引言
海洋中蘊(yùn)含著極其豐富的魚類資源,但由于部分地區(qū)的過度捕撈和環(huán)境問題,局部海域已經(jīng)出現(xiàn)了較為嚴(yán)重的生態(tài)平衡問題,引起了世界各國的共同關(guān)注.魚類目標(biāo)識別技術(shù)是對海洋資源實(shí)施精確勘探的關(guān)鍵,不僅可以高效的識別不同種類的魚類,也為稀有魚類的保護(hù)提供了可靠的圖像數(shù)據(jù)基礎(chǔ).然而,由于海洋面積廣大、海洋中傳感器布設(shè)較為困難以及海洋環(huán)境影響等,使得海洋水下目標(biāo)的有效數(shù)據(jù)集有限,無法滿足當(dāng)今大模型的訓(xùn)練要求,對水下魚類識別任務(wù)造成了阻礙.
目前,針對水下魚類識別的方法可以分為兩類:一類是傳統(tǒng)方法,對圖像進(jìn)行手工特征提取并轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),利用SVM、BP神經(jīng)網(wǎng)絡(luò)、決策樹等[1]方法進(jìn)行分類訓(xùn)練.Ogunlana等[2]提出基于向量機(jī)的魚類圖像分類方法,基于魚類輪廓的六大特征,并且提取魚類的紋理特征,但是由于魚的大小和輪廓信息會隨著時(shí)間的增長而變化,因此得到的效果不佳.Huang等[3]利用高斯混合模型以及支持向量機(jī)對水下魚類圖像進(jìn)行分類訓(xùn)練,準(zhǔn)確率達(dá)到了74.8%.傳統(tǒng)的分類方法特征泛化性差,并且普適性較低.另一類是深度學(xué)習(xí)方法,在特征提取、泛化能力等方面克服了傳統(tǒng)機(jī)器學(xué)習(xí)的不足,利用神經(jīng)網(wǎng)絡(luò)自動提取特征進(jìn)行分類訓(xùn)練[4].Salman等[5]通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行魚類物種識別任務(wù),使用LifeCLEF14和LifeCLEF15魚類數(shù)據(jù)集訓(xùn)練模型,最終達(dá)到83.94%和93.65%的準(zhǔn)確率.Wang[JP3]等[6]提出了一種基于YOLOv2的卷積神經(jīng)網(wǎng)絡(luò)模型,自動分類檢測魚類種類,識別準(zhǔn)確率達(dá)到了91.2%.
但是,這些算法要求在訓(xùn)練過程中需要有大量的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,但實(shí)際的水下目標(biāo)數(shù)據(jù)集較少,導(dǎo)致此類深度學(xué)習(xí)方法在識別中無法獲得滿意結(jié)果[7].為此需要利用與真實(shí)水下圖像數(shù)據(jù)集相似的數(shù)據(jù)集作為補(bǔ)充以便于模型的訓(xùn)練.然而這種補(bǔ)充的數(shù)據(jù)集與真實(shí)的水下圖像數(shù)據(jù)集由于背景、姿態(tài)等差異具有不同統(tǒng)計(jì)特征分布,無法滿足以上方法的要求.因此,如何利用已有的充足數(shù)據(jù)集,解決統(tǒng)計(jì)特征差異問題,克服水下識別任務(wù)中的樣本量稀缺問題是當(dāng)前研究的重點(diǎn)之一[8,9].
隨著遷移學(xué)習(xí)的發(fā)展,許多學(xué)者將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到遷移學(xué)習(xí)中,自動化地提取在數(shù)據(jù)中更具有表現(xiàn)力的特征,并可滿足實(shí)際中端對端的需求.
選擇性遷移網(wǎng)絡(luò)(Partial Transfer Learning,PTL),假設(shè)目標(biāo)域是源域的一個(gè)子空間,只遷移源域中與目標(biāo)域相關(guān)的部分,有效減少了負(fù)遷移的概率[10].深度關(guān)聯(lián)對齊方法(Deep CORrelation ALignment,Deep CORAL)將CORAL擴(kuò)展到學(xué)習(xí)非線性變換,在深層神經(jīng)網(wǎng)絡(luò)中將層激活關(guān)聯(lián)對齊,使得源域和目標(biāo)域相關(guān)數(shù)據(jù)之間的差異最小化[11].動態(tài)對抗適應(yīng)網(wǎng)絡(luò)(Dynamic Adversarial Adaptation Networks,DAAN)用來解決對抗網(wǎng)絡(luò)中動態(tài)分布適配問題,利用自適應(yīng)因子在對抗網(wǎng)絡(luò)中平衡邊緣分布和條件分布優(yōu)先級[12].深度子域自適應(yīng)網(wǎng)絡(luò)(Deep Subdomain Adaptation Networ,DSAN)通過子空間對齊來學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中特定層的數(shù)據(jù)分布,并通過最大均值差異測量核之間的差異[13].Patch-Mix Transformer基于視覺注意力機(jī)制從兩個(gè)領(lǐng)域采樣補(bǔ)丁構(gòu)建中間域,學(xué)習(xí)源域和目標(biāo)域的差異以得到最大化交叉熵[14].通過模型或數(shù)據(jù)之間的遷移,對預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)進(jìn)行共享,提升模型的泛化能力.然而,這些深度遷移學(xué)習(xí)方法大多依賴于特征的單一統(tǒng)計(jì)屬性來對齊源域和目標(biāo)域之間的分布,可能會導(dǎo)致在參數(shù)優(yōu)化和學(xué)習(xí)過程中遺漏關(guān)鍵信息.
深度遷移學(xué)習(xí)在訓(xùn)練過程中不依賴大量樣本,節(jié)省計(jì)算資源,成為近年來處理水下魚類識別任務(wù)的關(guān)鍵技術(shù)之一.Siddiqui等[15]在進(jìn)行水下魚類識別時(shí),將遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,特征提取器分別使用VGG-Net和Res-Net,分類器使用支持向量機(jī)模型,提高了識別效率.王柯力等[16]將VGG-16和Res-Net50分別作為特征提取器,分類器則使用Softmax,實(shí)現(xiàn)了水下魚、蝦、貝、蟹進(jìn)行的識別.李均鵬等[17]通過訓(xùn)練模型Inception V3在復(fù)雜的水下場景中進(jìn)行魚類識別任務(wù),將Inception V3和遷移學(xué)習(xí)進(jìn)行了有效結(jié)合,增強(qiáng)了模型的泛化能力.Wu等[18]使用深度對抗域自適應(yīng)網(wǎng)絡(luò),在特征層中加入多核最大均值差異,通過設(shè)計(jì)損失函數(shù),優(yōu)化特征分布,提高了水下識別精度.相較于傳統(tǒng)的深度學(xué)習(xí)算法,現(xiàn)有的針對水下圖像的深度遷移學(xué)習(xí)方法有效地提升了魚類識別精度,然而這些方法并未考慮到領(lǐng)域之間的數(shù)據(jù)特征差異帶來的目標(biāo)域識別準(zhǔn)確率下降的問題,所以存在一定的局限性.
本文提出聯(lián)合深度統(tǒng)計(jì)特征對齊Joint Deep Statistical Feature Alignment,JDSFA)算法,該方法包括聯(lián)合深度統(tǒng)計(jì)特征對齊方法和權(quán)重選擇算法,利用遷移學(xué)習(xí)進(jìn)行知識遷移,解決水下魚類樣本稀缺所導(dǎo)致的識別效率低下的問題.通過搭建神經(jīng)網(wǎng)絡(luò)對源域和目標(biāo)域數(shù)據(jù)進(jìn)行特征提取,設(shè)計(jì)聯(lián)合領(lǐng)域自適應(yīng)損失函數(shù)將源域和目標(biāo)域數(shù)據(jù)的一階、二階統(tǒng)計(jì)特征進(jìn)行對齊,同時(shí),提出了一種權(quán)重選擇算法,設(shè)定可學(xué)習(xí)的權(quán)重參數(shù)衡量一階特征和二階特征在網(wǎng)絡(luò)中的權(quán)重,實(shí)現(xiàn)由源域到目標(biāo)域數(shù)據(jù)的自適應(yīng)特征遷移,解決了以往遷移學(xué)習(xí)中對齊單一特征屬性的問題.此外,設(shè)計(jì)全局損失函數(shù),將源域損失和領(lǐng)域間的自適應(yīng)損失相結(jié)合,最終通過優(yōu)化完成JDSFA模型訓(xùn)練并用于目標(biāo)域數(shù)據(jù)的標(biāo)記預(yù)測.利用QUT水下魚類數(shù)據(jù)集[19]進(jìn)行實(shí)驗(yàn)驗(yàn)證,本文提出的方法可實(shí)現(xiàn)清晰目標(biāo)數(shù)據(jù)集到水下受環(huán)境干擾數(shù)據(jù)集合的遷移,并相較于多個(gè)已有遷移方法具有更好的識別效果.
1 聯(lián)合深度統(tǒng)計(jì)特征對齊算法下的遷移方法研究JDSFA算法的基本原理與模型架構(gòu)如下.
1.1 JDSFA損失函數(shù)構(gòu)建
在領(lǐng)域自適應(yīng)中,領(lǐng)域D包含數(shù)據(jù)集X以及相應(yīng)的概率分布PX).給定源域數(shù)據(jù)集Ds=[JB{]xs)i[JB)}]nsi=1∈RD具有標(biāo)簽[JB{]ys)i[JB)}]nsi=1∈[JB{]1,…,l[JB)}],目標(biāo)域中的數(shù)據(jù)集Dt=[JB{]xt)j[JB)}]ntj=1∈RD無標(biāo)簽.Ds 和 Dt 是不同、但是相互關(guān)聯(lián)的數(shù)據(jù)領(lǐng)域,其中數(shù)據(jù)的邊緣概率分布PXs)≠PXt),領(lǐng)域自適應(yīng)的目的在于利用源域Ds上的信息來實(shí)現(xiàn)預(yù)測器在目標(biāo)域Dt上的性能提升.
深度學(xué)習(xí)的有效性主要由方差和偏差決定.方差反映了模型輸出與模型輸出期望之間的誤差,即模型的穩(wěn)定性.偏差反映了樣本上模型輸出與真實(shí)值之間的誤差,即模型的精度.然而,水下數(shù)據(jù)集的分布通常是非高斯和不均勻的,特別是不同數(shù)據(jù)集之間,具有較明顯的差異,因此無法獲得固定的方差和偏差.此外,兩個(gè)域中的數(shù)據(jù)集可能遵循不同的分布,如圖1所示,即使在學(xué)習(xí)之前對數(shù)據(jù)進(jìn)行了歸一化,統(tǒng)計(jì)特征可能會表現(xiàn)出明顯的差異.因此,即使在Ds 中的特征分布是確定的并且學(xué)習(xí)良好,遷移后的深度神經(jīng)網(wǎng)絡(luò)的結(jié)果可能會顯示出較差的效果.以兩種水下光學(xué)圖像可能具備的典型分布,正態(tài)分布和非中心F分布為例,數(shù)據(jù)集的差異可能有四種情況:(1)相同的概率密度趨勢,不同的高度,如圖1a)所示;(2)相同的概率密度趨勢,不同的中心,如圖1b)所示;(3) 不同的概率密度趨勢,不同的高度,如圖1c)所示;(4)不同的概率密度趨勢,不同的中心,如圖1d)所示.因此,問題的關(guān)鍵在于考慮方差和偏差的同時(shí),優(yōu)化和對齊水下數(shù)據(jù)集的特征.
在深度遷移學(xué)習(xí)中,通常在使用子空間學(xué)習(xí)法對源域和目標(biāo)域的數(shù)據(jù)進(jìn)行對齊時(shí),會通過設(shè)計(jì)損失函數(shù)將數(shù)據(jù)的統(tǒng)計(jì)特征進(jìn)行變換對齊,其中,一階統(tǒng)計(jì)特征均方誤差損失MSE和二階統(tǒng)計(jì)特征協(xié)方差矩陣常被用來作為損失函數(shù)使用.
均方誤差(MSE)是源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)一階統(tǒng)計(jì)特征距離平方的平均值,反應(yīng)了二者之間的差異程度,當(dāng)源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)越接近時(shí),他們之間的均方差就越?。?0].圖1中分別計(jì)算了四種情況的MSE的變化.MSE值的差異可能接近1 000倍.所以,通過計(jì)算給定源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)均方誤差來設(shè)計(jì)損失函數(shù),進(jìn)而衡量領(lǐng)域之間的差異,然后通過最小化兩個(gè)領(lǐng)域的一階統(tǒng)計(jì)特征之間的距離,使得兩個(gè)領(lǐng)域盡量可能的接近,最終使得在源域中的模型可以更好的遷移到目標(biāo)域中,達(dá)到遷移學(xué)習(xí)效果.將源域和目標(biāo)域輸出的一階數(shù)據(jù)特征[Ay^]s、[Ay^]t進(jìn)行對齊,因此,設(shè)計(jì)損失函數(shù)
L1=MSE[Ay^]s,[Ay^]t)=1ns∑nsi=1xs)i-1nt∑nti=1xt)jF(1)
式(1)中:·F是Frobenius范數(shù).
協(xié)方差用來度量兩個(gè)隨機(jī)變量線性相關(guān)的程度[21],公式為:
covX,Y)=EX-μ)Y-ν))(2)
式(2)中:期望值EX)=μ、EY)=ν.
當(dāng)兩個(gè)變量的協(xié)方差為0,則二者線性無關(guān).在存在兩個(gè)以上的變量時(shí),數(shù)據(jù)集中兩兩變量之間不同維度的協(xié)方差組成的矩陣則是協(xié)方差矩陣[22],他的公式為:
C=E[X-E[x]X-E[x])T](3)
在協(xié)方差矩陣中,對角線上的元素為各個(gè)維度隨機(jī)變量的方差,非對角線上的元素為兩兩隨機(jī)變量之間的協(xié)方差,它反映了變量之間的二階統(tǒng)計(jì)特征,衡量了數(shù)據(jù)的離散程度.圖1中分別計(jì)算了四種情況的協(xié)方差矩陣.協(xié)方差矩陣的值的變化接近10倍.在遷移學(xué)習(xí)中,協(xié)方差矩陣包含了源域和目標(biāo)域數(shù)據(jù)關(guān)聯(lián)程度的信息,因此通過建立源域和目標(biāo)域的協(xié)方差矩陣來構(gòu)建損失函數(shù),來衡量他們之間二階統(tǒng)計(jì)特性的差距并對它進(jìn)行最小化,從而在數(shù)據(jù)整體之間的概率分布上,通過對數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行遷移,最終實(shí)現(xiàn)跨領(lǐng)域的數(shù)據(jù)遷移過程,完成領(lǐng)域自適應(yīng)操作.
針對兩個(gè)域的二階統(tǒng)計(jì)特征進(jìn)行對齊,設(shè)計(jì)損失函數(shù)
L2=14D2Cs-Ct[JB)=]2F(4)
式(4)中:[JB=]·[JB)=]F是Frobenius范數(shù),Cs、Ct分別代表源域和目標(biāo)域的協(xié)方差矩陣.
此外,MSE和協(xié)方差值在不同情況下呈負(fù)相關(guān)變化,因此,使用權(quán)重選擇法來獲得超參數(shù)λ1、λ2來平衡一階、二階統(tǒng)計(jì)特征損失的權(quán)重,得到領(lǐng)域自適應(yīng)損失函數(shù),用于衡量兩個(gè)領(lǐng)域之間的一階統(tǒng)計(jì)特征和二階統(tǒng)計(jì)特征,對統(tǒng)計(jì)特征距離進(jìn)行最小化,從而在數(shù)據(jù)整體之間的概率分布上,對數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行遷移,最終實(shí)現(xiàn)跨領(lǐng)域的數(shù)據(jù)遷移過程和領(lǐng)域自適應(yīng)操作,領(lǐng)域自適應(yīng)損失函數(shù)為:
LDA=λ1L1+λ2L2(5)
在源域輸出部分,設(shè)計(jì)源域損失函數(shù)衡量模型在源域數(shù)據(jù)上的預(yù)測結(jié)果[Ay^]s)與真實(shí)標(biāo)記ys)之間的差異,源域損失函數(shù)為:
Ls[Ay^]s),ys))=ys)-[Ay^]s)(6)
綜上,基于源域損失函數(shù)和領(lǐng)域自適應(yīng)損失,設(shè)計(jì)聯(lián)合深度統(tǒng)計(jì)特征對齊算法的總體損失函數(shù)
LSA=λLs[Ay^]s),ys))+LDA(7)
式(7)中:λ是指定的常數(shù)用于衡量源域損失和領(lǐng)域自適應(yīng)損失的權(quán)重.模型的總體目標(biāo)是針對LSA損失進(jìn)行基于梯度優(yōu)化算法的最小值求解.
聯(lián)合深度統(tǒng)計(jì)特征對齊損失的設(shè)計(jì)一方面保證了該網(wǎng)絡(luò)在源域數(shù)據(jù)上較好的預(yù)測性能;另一方面,也保證了源域和目標(biāo)域數(shù)據(jù)之間的領(lǐng)域差異最小化以實(shí)現(xiàn)不同領(lǐng)域之間的有效的遷移學(xué)習(xí)過程.如果Ls權(quán)重過大,則會使得模型在源域上的預(yù)測效果較好但是領(lǐng)域遷移效果較差;如果LDA權(quán)重過大,則會導(dǎo)致模型側(cè)重于減小領(lǐng)域之間的差異,但是難以保證在實(shí)現(xiàn)標(biāo)記預(yù)測任務(wù)上的性能.因此,在模型訓(xùn)練階段,我們將源域和目標(biāo)域數(shù)據(jù)輸入,并利用基于梯度優(yōu)化的Adam算法對上述損失函數(shù)中的權(quán)重參數(shù)進(jìn)行優(yōu)化,對損失函數(shù)LSA進(jìn)行最小值求解,得到訓(xùn)練好的深度領(lǐng)域自適應(yīng)網(wǎng)絡(luò),進(jìn)而利用該模型對目標(biāo)域數(shù)據(jù)ntj=1的標(biāo)記ntj=1進(jìn)行有效預(yù)測.
1.2 JDSFA模型設(shè)計(jì)
基于以上理論,聯(lián)合深度統(tǒng)計(jì)特征對齊自適應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.針對給定的源域nsi=1和目標(biāo)域數(shù)據(jù)ntj=1作為網(wǎng)絡(luò)的兩個(gè)分支輸入,基于ResNet-50網(wǎng)絡(luò)架構(gòu),經(jīng)過多次卷積層與池化層的交替操作對源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的特征進(jìn)行非線性地自動化提?。涸诰矸e層中通過調(diào)節(jié)卷積核的大小,來調(diào)整神經(jīng)網(wǎng)絡(luò)感受野的大小,從而調(diào)整提取特征的效果;采用最大池化層,對數(shù)據(jù)流進(jìn)行下采樣操作.此外,利用非線性函數(shù)ReLU對數(shù)據(jù)進(jìn)行非線性變換以增強(qiáng)其特征提取效果.最后根據(jù)所要完成的預(yù)測任務(wù)的最終的輸出數(shù)目確定網(wǎng)絡(luò)后端全連接層的神經(jīng)元數(shù)目.
在完成特征提取部分之后,設(shè)計(jì)模型的損失函數(shù):一方面通過設(shè)計(jì)源域損失函數(shù)Lss),ys))降低模型在源域輸出結(jié)果[Ay^]s)與真實(shí)標(biāo)記ys)之間的差異;另一方面設(shè)計(jì)領(lǐng)域自適應(yīng)損失函數(shù)LDA將源域和目標(biāo)域數(shù)據(jù)的統(tǒng)計(jì)特征進(jìn)行對齊來實(shí)現(xiàn)由源域到目標(biāo)域數(shù)據(jù)的自適應(yīng)特征遷移.最終通過對損失函數(shù)的優(yōu)化完成聯(lián)合深度統(tǒng)計(jì)特征對齊模型的訓(xùn)練并用于目標(biāo)域數(shù)據(jù)ntj=1的標(biāo)記預(yù)測.
2 魚類圖像數(shù)據(jù)預(yù)處理
2.1 魚類圖像數(shù)據(jù)集
QUT魚類數(shù)據(jù)集[19]是目前可用于遷移學(xué)習(xí)驗(yàn)證的水下圖像識別最具代表性的數(shù)據(jù)集之一,如圖3所示.此數(shù)據(jù)集包含阿南魚、叉尾鯛、普提魚等468種不同的魚類類別,共3 960張光學(xué)圖像,具備了無水下背景的魚類圖像(即空氣背景)以及真實(shí)水下場景的魚類圖像.如圖3a)所示,無水下背景的魚類圖像由魚標(biāo)本圖像組成,該類圖像在背景恒定、照明均勻的場景下拍攝;如圖3b)所示,真實(shí)水下場景的魚類圖像在真實(shí)海洋背景環(huán)境與光線條件下拍攝,未控制背景與照明.
2.2 魚類圖像預(yù)處理
本實(shí)驗(yàn)采用的QUT數(shù)據(jù)集中真實(shí)水下環(huán)境魚類樣本較少,僅包含2 970張圖片.針對該小樣本學(xué)習(xí)問題,我們在QUT數(shù)據(jù)集本身的990張空白背景樣本的基礎(chǔ)上,從網(wǎng)絡(luò)中抓取相應(yīng)類別的魚類數(shù)據(jù),對QUT數(shù)據(jù)集進(jìn)行擴(kuò)充,擴(kuò)充后的數(shù)據(jù)集規(guī)模為10萬張圖片.本實(shí)驗(yàn)將無背景魚類圖像數(shù)據(jù)作為源域數(shù)據(jù)集,將真實(shí)水下場景魚類圖像作為目標(biāo)域數(shù)據(jù)集.旨在利用遷移學(xué)習(xí)技術(shù),結(jié)合源域數(shù)據(jù)信息,實(shí)現(xiàn)目標(biāo)域真實(shí)水下場景小樣本魚類圖像的高效準(zhǔn)確識別.
為了便于模型的輸入,本實(shí)驗(yàn)將QUT數(shù)據(jù)集的圖片統(tǒng)一縮放為256×256尺寸.在源域和目標(biāo)域數(shù)據(jù)集中,均采用交叉驗(yàn)證方法,劃分為兩部分,其中80%作為訓(xùn)練集,20%作為測試集.
3 魚類目標(biāo)識別
3.1 模型訓(xùn)練
本實(shí)驗(yàn)采用的設(shè)備配置如下:
處理器IntelR) CoreTM) i9-12900S,內(nèi)存為64G,圖形處理器型號:NVIDIA GeForce RTX 3090 @ 24 G顯存,操作系統(tǒng):Windows10,Python 版本為3.8,深度學(xué)習(xí)框架為PyTorch 1.10.
在本實(shí)驗(yàn)中,聯(lián)合深度統(tǒng)計(jì)特征對齊算法的主干網(wǎng)絡(luò)為ResNet-50網(wǎng)絡(luò).梯度下降訓(xùn)練算法采用Adam方法,初始學(xué)習(xí)率為0.000 1.訓(xùn)練集規(guī)模為8萬,在每個(gè)訓(xùn)練輪次,選擇64個(gè)樣本作為一個(gè)批次輸入模型,即Batch Size大小為64.
JDSFA的損失優(yōu)化曲線如圖4所示.可以看出在前200輪優(yōu)化過程,訓(xùn)練過程損失與測試過程損失均快速下降.經(jīng)過1 000次迭代優(yōu)化,訓(xùn)練過程準(zhǔn)確率可以達(dá)到99%以上,驗(yàn)證準(zhǔn)確率也可以達(dá)到95.24%以上,并且沒有出現(xiàn)過擬合現(xiàn)象.
3.2 JDSFA方法與常用方法的識別性能對比
表1為目前常用的PMTrans,DADAN,DSAN,本文提出的JDSFA算法,以及沒有采用遷移學(xué)習(xí)技術(shù)的情況(NA)在QUT數(shù)據(jù)集上的水下魚類圖像識別任務(wù)上從領(lǐng)域自適應(yīng)預(yù)測準(zhǔn)確率、模型參數(shù)量、以及接受者操作特征準(zhǔn)確率三個(gè)方面進(jìn)行對比,其中領(lǐng)域自適應(yīng)預(yù)測準(zhǔn)確率Ds→Dt表示由源域到目標(biāo)域的領(lǐng)域自適應(yīng)效果;模型參數(shù)量用于衡量機(jī)器學(xué)習(xí)模型的復(fù)雜度;接受者操作特征準(zhǔn)確率用于反映不同數(shù)據(jù)集配置環(huán)境下的模型分類效果.
由表1可以看出,針對QUT數(shù)據(jù)集,本文提出的JDSFA模型在水下魚類識別遷移任務(wù)上的預(yù)測準(zhǔn)確率優(yōu)于對比的基于水下魚類圖像的遷移學(xué)習(xí)算法.首先,沒有采用遷移學(xué)習(xí)技術(shù)的情況下,基于源域訓(xùn)練的分類器在目標(biāo)域上的準(zhǔn)確率僅有34.21%,遠(yuǎn)遠(yuǎn)差于其他采用遷移學(xué)習(xí)技術(shù)的方法,可以證明遷移學(xué)習(xí)過程的必要性與有效性.與目前代表性的基于遷移學(xué)習(xí)的水下魚類識別算法DADAN相比,JDSFA算法在QUT數(shù)據(jù)集上可以實(shí)現(xiàn)3.59%的性能提升,與目前前沿的遷移學(xué)習(xí)算法PMTrans,DSAN方法相比,JDSFA算法的分類精度分別提升了4.96%和5.91%.
此外,JDSFA算法的模型準(zhǔn)確率在82.48 M,與其他的水下遷移學(xué)習(xí)模型復(fù)雜程度相當(dāng).最后,在模型最終分類效果方面,與DADAN算法相比,JDSFA算法的接受者操作特征準(zhǔn)確率提升了4.5%,與PMTrans,DSAN算法相比,JDSFA算法的接受者操作特征準(zhǔn)確率分別提升了6.3%和10.2%.本文提出的聯(lián)合深度統(tǒng)計(jì)特征對齊算法能夠?qū)跓o水下背景的魚類數(shù)據(jù)參數(shù)進(jìn)行有效訓(xùn)練,實(shí)現(xiàn)無水下背景光學(xué)圖像到水下背景圖像的遷移,完成針對真實(shí)水下環(huán)境的魚類圖片有效識別,證明了聯(lián)合統(tǒng)計(jì)特征對齊過程的可行性與有效性.
4 結(jié)論
為了提升魚類識別性能,本文結(jié)合遷移學(xué)習(xí)提出了一種聯(lián)合深度統(tǒng)計(jì)特征對齊(JDSFA)方法,解決了魚類數(shù)據(jù)集有限的問題.基于ResNet-50框架,利用協(xié)方差和均方誤差對特征進(jìn)行對齊,并且對源域和域自適應(yīng)損失函數(shù)提出了一個(gè)兩步損失過程.最后,在魚類數(shù)據(jù)集QUT上證明了JDSFA方法的有效性,與代表性的DADAN、PMTrans和DSAN方法相比,分類精度分別提升了3.59%、4.96%和5.91%.
參考文獻(xiàn)
[1] Chen P H,Lin C J,Scholkopf B.A tutorial on ν-support vector machines.Applied Stochastic Models in Business and Industry,2005,212):111-136.
[2] Ogunlana S O,Olabode O,Oluwadare S A A,et al.Fish classification using support vector machine.African Journal of Computing & ICT,2015,82):75-82.
[3] Huang P X,Boom B J,F(xiàn)isher R B.Hierarchical classification with reject option for live fish recognition.Machine Vision and Applications,2015,261):89-102.
[4] Liu ,Mao H,Wu C Y,et al.A convnet for the 2020s[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.New Orleans,LA,USA:IEEE,2022:11 976-11 986.
[5] Salman A,Jalal A,Shafait F,et al.Fish species classification in unconstrained underwater environments based on deep learning.Limnology and Oceanography:Methods,2016,149):570-585.
[6] Wang M,Liu M,hang F,et al.Fast classification and detection of fish images with YOLOv2[C]//2018 OCEANS-MTS/IEEE obe Techno-OceansOTO).obe,Japan:IEEE,2018:1-4.
[7] Pan S J,Yang Q.A survey on transfer learning .IEEE Transactions on nowledge and Data Engineering,2009,2210):1 345-1 359.
[8] huang F,Qi ,Duan ,et al.A comprehensive survey on transfer learning.Proceedings of the IEEE,2020,1091):43-76.
[9] Niu S,Liu Y,Wang J,et al.A decade survey of transfer learning 2010-2020).IEEE Transactions on Artificial Intelligence,2020,12):151-166.
[10] Cao ,Long M,Wang J,et al.Partial transfer learning with selective adversarial networks\[C\]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA:IEEE,2018:2 724-2 732.
[11] Sun B,Saenko .Deep coral:Correlation alignment for deep domain adaptation[C]//Computer Vision-ECCV 2016 Workshops.Amsterdam,The Netherlands:Springer International Publishing,2016:443-450.
[12] Yu C,Wang J,Chen Y,et al.Transfer learning with dynamic adversarial adaptation network[C]//2019 IEEE International Conference on Data Mining ICDM).Beijing,China:IEEE,2019:778-786.
[13] hu Y,huang F,Wang J,et al.Deep subdomain adaptation network for image classification.IEEE Transactions on Neural Networks and Learning Systems,2020,324):1 713-1 722.
[14] hu J,Bai H,Wang L.Patch-mix transformer for unsupervised domain adaptation:A game perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouve,Canada:IEEE,2023:3 561-3 571.
[15] Siddiqui S A,Salman A,Malik M I,et al.Automatic fish species classification in underwater videos:exploiting pre-trained deep neural network models to compensate for limited labelled data.ICES Journal of Marine Science,2018,751):374-389.
[16] 王柯力,袁紅春.基于遷移學(xué)習(xí)的水產(chǎn)動物圖像識別方法.計(jì)算機(jī)應(yīng)用,2018,385):1 304-1 308.
[17] 李均鵬,祝開艷,楊 澍.基于遷移學(xué)習(xí)的復(fù)雜場景海洋魚類識別方法.計(jì)算機(jī)應(yīng)用與軟件,2019,369):168-174.
[18] Wu L,Li C,Chen Q,et al.Deep adversarial domain adaptation network.International Journal of Advanced Robotic Systems,2020,175):1-9.
[19] Anantharajah ,Ge? Y,McCool C,et al.Local inter-session variability modelling for object classification[C]//IEEE winter conference on applications of computer vision.Steamboat Springs CO,USA:IEEE,2014:309-316.
[20] Bickel P J,Doksum? A.Mathematical statistics:basic ideas and selected topics,volumes I-II package[M].Amercia:CRC Press,2015.
[21] Park? I,Park M,James.Fundamentals of probability and stochastic processes with applications to communications[M].Cham,Switzerland:Springer International Publishing,2018.
[22] Rice J A.Mathematical statistics and data analysis[M].Amercia:Cengage Learning,2006.
【責(zé)任編輯:蔣亞儒】
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(62031021)
作者簡介:王海燕(1965—),男,山東單縣人,教授,博士生導(dǎo)師,研究方向:復(fù)雜環(huán)境智能感知、人工智能技術(shù)
陜西科技大學(xué)學(xué)報(bào)2024年3期