賈宇霞,樊帥昌,易曉梅
(1 浙江農(nóng)林大學(xué)信息工程學(xué)院,浙江 杭州 311300;2 浙江省林業(yè)智能監(jiān)測與信息技術(shù)研究重點實驗室,浙江 杭州 311300;3 林業(yè)感知技術(shù)與智能裝備國家林業(yè)和草原局重點實驗室,浙江 杭州 311300)
現(xiàn)代漁業(yè)發(fā)展關(guān)系到很多新設(shè)施、新技術(shù)、新機制的應(yīng)用開發(fā),漁業(yè)監(jiān)測是其中非常重要的部分。為保證魚類健康生長,從魚苗育種期間就需要對魚種進行快速識別和特征信息采集。這些數(shù)據(jù)同時反映了水下環(huán)境參數(shù)的變化,能夠更好地輔助魚類養(yǎng)殖、捕撈和魚道建設(shè)等,因此有必要對魚類進行實時檢測識別。隨著計算機技術(shù)的發(fā)展,目前已經(jīng)建立了許多有效的魚類識別方法。張志強等[1]提取魚類圖像中的各個顏色分量及長短軸之比作為分類特征,然后運用該特征值建立有關(guān)淡水魚的品種識別模型。Alsmadi等[2]利用Memetic算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)并進行魚類識別,該方法能夠?qū)崿F(xiàn)魚類有毒和無毒的區(qū)分。吳一全等[3]采用Krawtchouk矩、灰度共生矩陣獲得魚類的形狀和紋理特征組合后,通過蜂群優(yōu)化多核最小二乘支持向量機,實現(xiàn)高精度魚類識別。然而這些方法需要魚體離水后在相對結(jié)構(gòu)化的單一背景下手動提取尺寸、形狀、顏色和紋理等特征參數(shù),不僅耗時耗力,而且對魚類的生長和存活都造成了難以逆轉(zhuǎn)的影響[4]。
近年來,深度學(xué)習(xí)在物種識別上取得了積極進展,其能夠?qū)崿F(xiàn)自動化的圖像特征提取并直接給出預(yù)測結(jié)果,使得操作過程更加簡單,泛化性能更加強大,因而逐漸在農(nóng)業(yè)領(lǐng)域得到應(yīng)用。相關(guān)研究也開始滲透到魚類識別領(lǐng)域,如:提出一個通過稀疏低秩矩陣分解提取前景,然后利用深度結(jié)構(gòu)結(jié)合線性SVM進行魚類識別的框架[5];使用包含形態(tài)學(xué)操作、金字塔平移等操作消除背景噪聲后,采用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)魚類數(shù)據(jù)集的分類;在訓(xùn)練步驟之前應(yīng)用圖像處理有助于去除圖像中的水下障礙物、污垢和非魚體[6]。以上方法雖然取得了良好的分類效果,然而通過去除背景噪聲的方法來定位目標(biāo)區(qū)域,可能對分類產(chǎn)生負面影響,在對圖像分割預(yù)處理期間可能無意剔除有效輪廓,移除有用的對象背景信息。所以,在突出前景目標(biāo)的基礎(chǔ)上保留原始圖像中的部分背景可能是有利的[7]。
為此,通過研究已有的深度神經(jīng)網(wǎng)絡(luò),在降低對數(shù)據(jù)手動標(biāo)注的需求下,提出圖像顯著性增強算法對復(fù)雜背景下的魚類主體進行自動增強,并針對深度學(xué)習(xí)訓(xùn)練參數(shù)多、訓(xùn)練時間長等問題,結(jié)合遷移學(xué)習(xí)方法建立一種簡單高效的魚類分類模型。
1.1.1 Fish4Knowledge數(shù)據(jù)集
Fish4Knowledge數(shù)據(jù)集[8]是從水下實況視頻中截取的魚類畫面,部分魚類樣本圖像如圖1所示。該數(shù)據(jù)集包含 23 種魚類27 370 張圖像,不同種類的圖像數(shù)量差異巨大,其中,單個頂級物種約占圖像的44%,排名前15的物種對應(yīng)于97%的圖像。按照文獻[5]中的設(shè)置,將該數(shù)據(jù)集以5∶1∶1的比例劃分為訓(xùn)練集、驗證集和測試集??紤]到訓(xùn)練集中數(shù)據(jù)不均衡現(xiàn)象易對模型訓(xùn)練結(jié)果造成偏差[9],所以,對于訓(xùn)練集中數(shù)量小于300的種類,采取水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、90°旋轉(zhuǎn)、180°旋轉(zhuǎn)、270°旋轉(zhuǎn)等5種數(shù)據(jù)增強方法來擴充數(shù)據(jù)集,最后統(tǒng)一將圖像縮放到224×224像素用于后續(xù)試驗。
圖1 Fish4Knowledge魚類示例圖片F(xiàn)ig.1 Fish samples of Fish4Knowledge
1.1.2 Fish30Image數(shù)據(jù)集
Fish30Image數(shù)據(jù)集是通過網(wǎng)絡(luò)爬取和自主拍攝相結(jié)合的方式構(gòu)建的魚類圖像數(shù)據(jù)集。經(jīng)人工篩選剔除其中無關(guān)、重復(fù)及非RGB格式的圖像數(shù)據(jù)后,該數(shù)據(jù)集最終獲得30類共4 737張魚類有效圖片,部分魚類樣本圖像如圖2所示。其中最多的一類包含469張圖像,最少的一類只有45張圖像。為了避免深度學(xué)習(xí)因數(shù)據(jù)量太少而出現(xiàn)過擬合現(xiàn)象,F(xiàn)ish30Image數(shù)據(jù)集采用數(shù)據(jù)增強的方法,主要通過亮度調(diào)節(jié)、鏡像、隨機裁剪、隨機旋轉(zhuǎn)變換、疊加噪聲等操作實現(xiàn)10倍的數(shù)據(jù)擴充。由于圖像數(shù)量較少,所以試驗中只設(shè)置訓(xùn)練集和測試集,訓(xùn)練集和測試集分別占據(jù)數(shù)據(jù)集的4/5和1/5。
圖2 Fish30Image示例圖片F(xiàn)ig.2 Fish samples of Fish30Image
1.2.1 顯著性檢測
圖像分類中目標(biāo)區(qū)域的定位對提升精確度有一定幫助,所以對目標(biāo)進行顯著性檢測引起了眾多國內(nèi)外學(xué)者的興趣。研究人員根據(jù)人的視覺注意機制將顯著性檢測算法分為兩種:基于數(shù)據(jù)驅(qū)動的自底向上方法和基于任務(wù)驅(qū)動的自頂向下方法。其中,前者主要利用顏色、形狀、深度等底層線索直接進行顯著性模型構(gòu)建,因其形成過程快速,且不需要訓(xùn)練過程和特定的先驗知識而得到廣泛應(yīng)用,常見方法有LC[10]、HFT[11]、RC[12]等。LC算法運算速度快,但該方法忽略了除顏色外的其他信息,會將噪聲誤判為顯著性區(qū)域;HFT算法利用高斯濾波器進行平滑操作來抑制背景區(qū)域,存在無法處理全分辨率圖像,且檢測到的顯著性信息有缺失的問題;RC算法能夠在全分辨率圖像上進行檢測,但因過分強調(diào)局部特征,所以不會完整地高亮突顯整個物體。
與上述方法相比較,全頻域顯著性檢測方法FT(Frequency-tuned)算法[13]在 LAB 空間中利用顏色和亮度特征來估計中央周邊差對比度[14],并采用多個帶通濾波器組合的方法濾除高頻噪聲信息得到圖像顯著值。其能夠突出區(qū)域中最大的顯著物體,得到顯著目標(biāo)的整體輪廓,同時生成的顯著圖分辨率與原圖相同且計算速度較快,因而能夠更加高效精確地檢測魚類目標(biāo)。FT算法顯著值計算公式可表示為:
SPT(x,y)=‖Iu-IG(x,y)‖
(1)
式中:Iu為圖像在LAB 空間的像素算術(shù)平均值;IG為高斯濾波后的像素特征值。式(1)計算圖像中所有像素特征值與平均值之間的歐氏距離。
1.2.2 顯著性增強
原始圖像經(jīng)FT算法獲取的顯著圖提供了魚類目標(biāo)的潛在區(qū)域,在此基礎(chǔ)上對顯著圖進行自適應(yīng)閾值計算得到二值顯著圖,并將其作為GrabCut 算法的初始區(qū)域?qū)︳~類目標(biāo)進行全自動圖像分割,最后將分割圖與原始圖像進行線性融合,得到魚類區(qū)域和背景區(qū)域?qū)Ρ榷雀吁r明的圖像。其中GrabCut是一種交互式圖像分割算法,用戶框選目標(biāo)區(qū)域后,默認(rèn)將框外像素全部當(dāng)成背景對高斯混合模型進行目標(biāo)對象和背景建模。進而通過反復(fù)迭代來更新模型參數(shù),調(diào)整候選區(qū)域中每一像素的目標(biāo)、背景歸屬,從而實現(xiàn)前背景的精準(zhǔn)分割。
GrabCut算法發(fā)展了經(jīng)典交互式圖割方法。首先,利用三通道的高斯混合模型代替單通道模型來描述目標(biāo)對象和背景像素的分布,充分運用圖像的顏色信息和反差信息;其次,使用迭代方法實現(xiàn)能量函數(shù)最小化,使得圖像分割更精確;最后,非完全標(biāo)記功能簡化交互過程。以顯著性圖作為GrabCut的輸入,既能避免畫框的人力資源消耗,又能改善魚類區(qū)域的分割效果。圖3展示了顯著性增強的主要步驟。
圖3 顯著性增強主要步驟Fig.3 Main steps of significant enhancement
1.2.1 殘差模型
在深度學(xué)習(xí)圖像識別分類中,相較于淺層神經(jīng)網(wǎng)絡(luò),深層網(wǎng)絡(luò)由于其高維的非線性操作,可有效提取更多的特征。但隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,模型在訓(xùn)練過程中容易出現(xiàn)梯度消失或梯度爆炸現(xiàn)象,導(dǎo)致網(wǎng)絡(luò)難以收斂。然而,殘差網(wǎng)絡(luò)(ResNet)中殘差模塊的引入,可有效解決上述問題。殘差模塊如圖4所示,如果設(shè)第1個殘差單元的輸入為xl,輸出為xl+1,則殘差單元的結(jié)構(gòu)可以表示為:
xl+1=xl+F(xl)
(2)
式中:F(xl)為殘差處理模塊,是一個由卷積層、批量標(biāo)準(zhǔn)化(BN)和線性整流函數(shù)(ReLU)組成的模塊。圖中捷徑的設(shè)置,一方面使得訓(xùn)練時底層殘差得以向上反饋;另一方面,兩條路徑的融合可以得到更有效的特征。
為了進一步提高殘差網(wǎng)絡(luò)性能,He等[15]提出一個預(yù)激活的殘差塊(圖5)。該殘差塊在傳統(tǒng)殘差結(jié)構(gòu)的基礎(chǔ)上將BN和ReLU操作挪到了卷積操作之前,同時去掉主干單元和跳躍連接相加后需要經(jīng)過的激活函數(shù),因而加強了對模型的正則化,使得網(wǎng)絡(luò)更易于優(yōu)化。
ResNet是一個由很多殘差塊堆疊的模塊化架構(gòu),這種堆疊多層的方式可有效地從輸入數(shù)據(jù)中提取特征,因此,可以在許多分類應(yīng)用中實現(xiàn)高精度。本研究采用殘差塊的預(yù)激活形式堆疊網(wǎng)絡(luò),并且選擇ResNet_50[16]作為網(wǎng)絡(luò)模型。
圖4 傳統(tǒng)殘差結(jié)構(gòu)Fig.4 Traditional residual structure
圖5 預(yù)激活殘差結(jié)構(gòu)Fig.5 Pre-activated residual structure
1.2.2 基于Adam的殘差遷移學(xué)習(xí)
遷移學(xué)習(xí)是指運用已有的源領(lǐng)域知識對相關(guān)的目標(biāo)領(lǐng)域問題進行求解的一種方法[17]。AlexNet[18]、VggNet[19]、ResNet等深度神經(jīng)網(wǎng)絡(luò)已在大型公開圖像數(shù)據(jù)集 ImageNet 上進行了充分訓(xùn)練,學(xué)習(xí)到了圖像分類識別所需的大量特征[20]。由于大部分知識存在相關(guān)性,所以通過遷移學(xué)習(xí)方法將ResNet_50預(yù)訓(xùn)練模型運用到魚類識別中,在網(wǎng)絡(luò)訓(xùn)練中初始化權(quán)重參數(shù),進而優(yōu)化模型的學(xué)習(xí)效率并減少過擬合的可能。試驗中模型訓(xùn)練得越久,離最優(yōu)值越近,因此在訓(xùn)練過程中隨著迭代的繼續(xù)應(yīng)逐步降低學(xué)習(xí)率。本研究運用指數(shù)衰減法對學(xué)習(xí)率進行更新。指數(shù)衰減法的學(xué)習(xí)率更新式為:
(3)
式中:lr為衰減過后的學(xué)習(xí)率;lr0為初始學(xué)習(xí)率;dr為衰減率;gs為當(dāng)前的迭代輪數(shù);ds為衰減步長。
在訓(xùn)練過程中采用多類別交叉熵計算分類損失。為提高調(diào)參效率,使模型在訓(xùn)練集上的訓(xùn)練能力達到最大,采用自適應(yīng)矩陣估計算法(Adam)實現(xiàn)模型優(yōu)化,權(quán)重和偏置更新。Adam[21]集合了RMSProp[22]和AdaGrad[23]算法最優(yōu)的性能,是一種自適應(yīng)學(xué)習(xí)率的梯度更新法,可有效減少出現(xiàn)局部最優(yōu)解的情況,而且內(nèi)存需求低、計算效率高。
圖6所示,首先使用顯著性增強方法對輸入圖像中的前景魚類目標(biāo)定位分割,并將其融入原始圖像中,得到前景和背景對比度更加鮮明的魚類圖像。然后將得到的圖像集輸入基于遷移學(xué)習(xí)的殘差網(wǎng)絡(luò)模型中進行訓(xùn)練,通過Adam算法優(yōu)化模型權(quán)重,更新超參數(shù)的值,直至經(jīng)過softmax分類器后達到理想的準(zhǔn)確率。
試驗在Windows10 64位操作系統(tǒng)訓(xùn)練上運行,服務(wù)器配置為Intel(R) Core(TM) i7-6700 CPU @ 3.4GHz處理器和NVIDIA GeForce GTX 745顯卡。其中,神經(jīng)網(wǎng)絡(luò)的搭建、訓(xùn)練以及測試均利用 Python語言調(diào)用開源機器學(xué)習(xí)庫TensorFlow[24]實現(xiàn)。
基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中,輸入圖像的學(xué)習(xí)率、批處理量和參數(shù)微調(diào)的范圍都會影響模型最終的檢測效果,因此在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)之前,需要選擇合適的參數(shù),以達到較好的訓(xùn)練結(jié)果。為了在短時間內(nèi)找到殘差遷移學(xué)習(xí)所需參數(shù),試驗只對模型末端層進行相關(guān)訓(xùn)練得到理想的學(xué)習(xí)率和批處理量值,并通過遷移學(xué)習(xí)微調(diào)網(wǎng)絡(luò)層對比試驗,得到最適合的參數(shù)調(diào)整范圍。使用 top-1準(zhǔn)確率(即識別結(jié)果與圖像原始標(biāo)簽一致的準(zhǔn)確率[25])評估模型精度。模型初始訓(xùn)練學(xué)習(xí)率為0.1,衰減參數(shù)為0.5,迭代次數(shù)為10 000步,批處理量為8,激活函數(shù)為ReLU。
圖6 基于顯著性增強和遷移學(xué)習(xí)的魚類識別Fig.6 Fish recognition based on significant enhancement and transfer learning
為使研究結(jié)果與已有魚類識別方法更具對比性,試驗首先在公用Fish4Knowledg數(shù)據(jù)集上訓(xùn)練、調(diào)整、測試模型,再通過Fish30Image數(shù)據(jù)集進一步驗證模型效果。其中,F(xiàn)ish4Knowledge數(shù)據(jù)集采用驗證集和測試集的平均準(zhǔn)確率作為分類準(zhǔn)確率,F(xiàn)ish30Image數(shù)據(jù)集采用5折交叉驗證方式獲取分類準(zhǔn)確率。表1為兩個數(shù)據(jù)集中訓(xùn)練集、驗證集、測試集的設(shè)置。由于兩個數(shù)據(jù)集的圖片數(shù)量差異較大,所以本試驗按照訓(xùn)練集比例設(shè)置不同的迭代步數(shù),選擇Fish4Knowledge數(shù)據(jù)集迭代10 000步的訓(xùn)練結(jié)果和Fish30Image數(shù)據(jù)集迭代14 250步的訓(xùn)練結(jié)果進行比較。
表1 訓(xùn)練集、驗證集和測試集的設(shè)置Tab.1 Training,validation and test sets
學(xué)習(xí)率控制梯度下降的步長,不同的學(xué)習(xí)率對于模型收斂、識別準(zhǔn)確度差異影響較大。為了優(yōu)化試驗結(jié)果,分析本試驗中學(xué)習(xí)率與分類結(jié)果之間的關(guān)系,在默認(rèn)參數(shù)設(shè)置下對不同學(xué)習(xí)率模型進行試驗。模型在訓(xùn)練過程中損失值隨迭代次數(shù)的變化情況如圖7所示。
圖7 不同學(xué)習(xí)率對損失值的影響Fig.7 Effect of different learning rates on total loss
由圖7可知,更高的學(xué)習(xí)率可以實現(xiàn)更快的收斂。初始學(xué)習(xí)率為0.001,0.01的模型收斂緩慢,0.2的學(xué)習(xí)率可以實現(xiàn)快速收斂,但最終的損失值偏高。這是因為太高的學(xué)習(xí)率可能會錯過最優(yōu)解,降低識別準(zhǔn)確率[26]。而學(xué)習(xí)率處于 0.1時能夠取得比較好的結(jié)果,所以后續(xù)試驗初始學(xué)習(xí)率均設(shè)置為 0.1。
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時,由于樣本數(shù)據(jù)量巨大,一般會分批從數(shù)據(jù)集中抽取少量的圖像計算平均值,然后根據(jù)平均值更新權(quán)重值。抽取圖像的數(shù)量即為批處理量(batch),批處理量的大小影響模型的性能和準(zhǔn)確率。較大的批處理量可提高梯度的精度,但是較小的批處理量有利于收斂,因此要選擇合適的批處理量。
圖8為初始學(xué)習(xí)率為0.1時不同批處理量對模型優(yōu)化過程的影響??梢钥闯?,批處理量越大,損失值性能越好,批處理量為64的模型損失值最小。然而由于配置有限,批處理量為64時會出現(xiàn)內(nèi)存溢出現(xiàn)象,所以本試驗選取損失值性能與64相近的32作為批處理量。
圖8 不同批處理量對損失值的影響Fig.8 Effect of different batches on total loss
為進一步提高準(zhǔn)確率,需要對模型進行微調(diào)操作,逐步開放全連接層之前的卷積層。試驗中使用ResNet-N代表參數(shù)微調(diào)的范圍,N表示將ResNet_50預(yù)訓(xùn)練模型第N層與其之后的參數(shù)利用試驗訓(xùn)練集進行微調(diào)訓(xùn)練,并將其余低層網(wǎng)絡(luò)參數(shù)全部凍結(jié)。除conv1層外,其中每一層都是一組殘差塊。圖9曲線展示了模型的識別精度隨微調(diào)層數(shù)的變化趨勢。
試驗表明,隨著微調(diào)層數(shù)的增加,模型的識別準(zhǔn)確率整體呈上升趨勢,且在ResNet-conv3_1時識別準(zhǔn)確率達到最高。說明預(yù)訓(xùn)練模型的conv1層和conv2層已具備良好的基礎(chǔ)特征提取能力。因此,本文后續(xù)遷移模型采取固定低2層網(wǎng)絡(luò)參數(shù),微調(diào)高層的訓(xùn)練方式。
圖9 ResNet-N分類精度Fig.9 Classification accuracy of ResNet-N
本方法在Fish4Knowledge和Fish30Image兩個數(shù)據(jù)集上訓(xùn)練集與測試集Loss值隨迭代次數(shù)的變化曲線如圖10所示??梢钥闯鲇?xùn)練集和測試集的走勢基本一致,并且圖10(a)在迭代2 500 次、圖10(b)在迭代7 124次時Loss 值基本都已穩(wěn)定,因此可以判斷模型沒有發(fā)生過擬合。
本模型與未使用遷移學(xué)習(xí)的全新學(xué)習(xí)模型在Fish4Knowledge數(shù)據(jù)集和Fish30Image數(shù)據(jù)集上的損失值變化情況如圖11所示。由圖可知,相同的參數(shù)配置下,本文方法對于加速網(wǎng)絡(luò)收斂和提高分類性能具有明顯的促進作用。全新學(xué)習(xí)模式下,損失值在訓(xùn)練階段后期才逐漸趨于穩(wěn)定,且迭代完成后的損失值依舊很大。使用本文模型后,訓(xùn)練初始階段網(wǎng)絡(luò)便迅速收斂,F(xiàn)ish4Knowledge數(shù)據(jù)集和Fish30Image數(shù)據(jù)集分別經(jīng)過約2 500步和7 124步時,模型的損失值已達到穩(wěn)定狀態(tài),獲得了極低的損失值。這在很大程度上節(jié)省了訓(xùn)練時間,同時,魚類識別結(jié)果的可靠性也得到保證。
圖10 訓(xùn)練集和測試集的Loss值變化曲線Fig.10 Changes in loss for training set and test set
圖11 模型全新學(xué)習(xí)和遷移學(xué)習(xí)對比Fig.11 Comparison between model new learning and transfer learning
本研究也探討了與圖像識別相關(guān)的深度神經(jīng)網(wǎng)絡(luò)ResNet-50、ResNet-101、ResNet-152和Inception V3在魚類圖像上的分類性能,上述模型在兩個數(shù)據(jù)集上的識別準(zhǔn)確率和檢測時間見表2。由表可知,4種模型中,ResNet-50的平均檢測時間最短,比其他3種模型節(jié)省至少4.48 s。本方法在ResNet-50的基礎(chǔ)上進行了改進,所以識別精度有了大幅度提高,相比上述4種模型,識別準(zhǔn)確率至少提升4.98%。通過試驗發(fā)現(xiàn),圖像顯著性增強方法的平均耗時僅為0.18 s,模型分類的平均檢測時間為6.35 s,由此可以發(fā)現(xiàn),使用此方法不會對檢測時間造成負擔(dān)。所以本模型在分類精度和檢測時間方面依舊具有很大優(yōu)勢。
表2 數(shù)據(jù)集上不同模型的分類結(jié)果Tab.2 Classification results of different models on data sets
由于水中的噪聲和光度的頻繁變化,從水下相機捕獲的圖像中評估魚的種類通常具有挑戰(zhàn)性。相關(guān)文獻提出了基于水下魚類的識別方法,其中,在標(biāo)準(zhǔn)魚類數(shù)據(jù)集Fish4Knowledge上的研究已有不少成果。Huang等[27]提出一種平衡保證優(yōu)化樹的水下魚類識別方法,識別率達到95%;Huang等[28]使用拒絕選項與平衡強制優(yōu)化樹來識別魚類,獲得97.50%的準(zhǔn)確率;Qin等[5]利用空間金字塔和SVM分類器等構(gòu)建的5層深度神經(jīng)網(wǎng)絡(luò)方法進行魚種分類,識別精度為98.64%;Chuang等[29]提出一種由完全無監(jiān)督特征學(xué)習(xí)技術(shù)和一個容錯分類組成的水下魚類識別框架,識別準(zhǔn)確率為97.70%。本文方法的識別精度比上述4種方法分別提高了4.64%、1.00%、2.14%和1.94%。
本研究利用數(shù)據(jù)驅(qū)動思維,將人工智能方法應(yīng)用于魚類識別,直接分析提取自然場景下的魚類圖像信息,突破了大多數(shù)研究方法要求魚類圖像背景單一的前提,并且避免了魚類識別中人工提取特征主觀性不足的問題。文中視覺注意機制的引入,能夠以更高的對比度突出魚類區(qū)域,抑制背景區(qū)域。同時,通過遷移學(xué)習(xí)初始化卷積網(wǎng)絡(luò)權(quán)重的訓(xùn)練方式,既節(jié)約訓(xùn)練時間,又保持較高的準(zhǔn)確率。多個數(shù)據(jù)集的試驗結(jié)果表明,本文提出的模型識別結(jié)果穩(wěn)定,且在公開的Fish4Knowledge魚類數(shù)據(jù)集上,識別準(zhǔn)確率比目前最好算法DeepFish有所提高。
本研究僅對部分魚進行了識別試驗,要建立系統(tǒng)有效的魚類識別模型,就要求魚類識別分類器有更強大的訓(xùn)練數(shù)據(jù)作為基礎(chǔ),因此,今后應(yīng)繼續(xù)拓展魚的研究種類,補充更多數(shù)據(jù)構(gòu)建大規(guī)模的魚類數(shù)據(jù)集來進一步完善網(wǎng)絡(luò)模型,以實現(xiàn)更多類別的區(qū)分。雖然對自然環(huán)境下的魚類進行了識別,但同當(dāng)前絕大部分的魚類研究工作類似,局限于解決單個魚類主體的識別問題,對魚類重疊、遮擋情況鮮有考慮。然而自然場景中的魚類難免會有相互重疊和被他物遮擋的情況,其準(zhǔn)確率仍需進一步研究。