楊超, 韓海斌, 韋波, 張衡*, 商宸, 蘇冰,劉思源, 蔣沛雯, 相德龍
(1.中國水產(chǎn)科學研究院東海水產(chǎn)研究所, 農(nóng)業(yè)農(nóng)村部遠洋與極地漁業(yè)創(chuàng)新重點實驗室,上海 200090; 2.上海海洋大學海洋科學學院,上海 201306; 3.大連海洋大學船舶與工程學院,遼寧 大連 116000; 4.安徽師范大學生態(tài)與環(huán)境學院,安徽 蕪湖 241000)
準確評估魚類年齡結(jié)構(gòu)是漁業(yè)種群生物學研究的基本要求,高準確率的年齡結(jié)構(gòu)組成是研究魚類生活史、種群增長率和資源評估的基礎(chǔ),直接影響到魚類資源評估以及管理政策的制訂[1]。鑒定魚類年齡的方法較多,20世紀常用的方法是采用體長頻率來鑒定年齡組成[2],近年來較為常用的方法是通過魚體上硬組織(如耳石、鱗片、脊椎骨等)的輪紋識別魚類的年齡[3]。在所有硬組織中,鱗片與耳石是較好的鑒定材料[4],鱗片較易獲得,但其易脫落性與再生性常會導致評估不準確。丘吉諾娃1956年在《魚類年齡和生長的研究方法》[5]中首次提出將魚類耳石作為年齡鑒定的材料之一,根據(jù)耳石上的輪紋進行鑒定,到目前為止仍是使用最廣泛的方法之一。耳石是由碳酸鈣等組成的硬組織,存在于硬骨魚類內(nèi)耳的膜迷路內(nèi),共3對,即矢耳石(sagittal)、微耳石(lapillus)和星耳石(asteriscus),擔當著平衡器官和聽覺器官的功能,因矢耳石在3對耳石中最大,易于觀察,且信息記錄準確,因此通常被用作魚類年齡鑒定的首選材料[6-11]。
遠東擬沙丁魚(Sardinops sagax)作為一種暖溫性小型中上層硬骨魚類,是世界上漁獲量較高的中上層魚類之一,但在歷史上遠東擬沙丁魚經(jīng)歷過數(shù)次資源變動期,其資源量極不穩(wěn)定,歷史上產(chǎn)量最低時(20世紀60年代)不足十萬t,產(chǎn)量最高時(20世紀80年代)可達數(shù)百萬t,因此準確利用其年齡結(jié)構(gòu)對其資源量進行評估是合理利用遠東擬沙丁魚漁業(yè)資源的關(guān)鍵所在[12-13]。遠東擬沙丁魚的棲息環(huán)境有明顯的季節(jié)性變化,該變化導致其耳石形成速度在一年中分為2個階段,生長速度較快時耳石由蛋白質(zhì)基質(zhì)形成寬闊不透明帶,生長速度較慢時耳石由碳酸鈣晶體形成狹窄透明帶。在不透明帶與透明帶之間的界面稱為輪紋,該輪紋結(jié)構(gòu)常用于遠東擬沙丁魚的年齡鑒定[14]。關(guān)于遠東擬沙丁魚的年齡鑒定,目前常用的是通過耳石輪紋法來進行觀察,通過2個專業(yè)人士的共同鑒定,得出耳石樣本年齡,但該方法受人為主觀的影響較大,需要鑒定者具有豐富的經(jīng)驗以及大量時間來進行判斷,易導致其年齡結(jié)構(gòu)的偏差。此外,該方法常受到耳石上副輪及干擾輪的影響,進而導致評估結(jié)果的不準確[15]。
為尋求一種更加客觀的方法對年齡進行鑒定,國內(nèi)外常用生物學參數(shù)與年齡的回歸關(guān)系進行年齡的鑒定[6,16-19]。本文在使用回歸關(guān)系的基礎(chǔ)上增加深度學習的方法來進行遠東擬沙丁魚的年齡鑒定。深度學習是機器學習領(lǐng)域中一個新的方向,其概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)是深度學習的基礎(chǔ),目前被廣泛應用于人臉識別、衛(wèi)星遙感等諸多領(lǐng)域[20-21],但是在漁業(yè)生物學領(lǐng)域應用較少,主要是因為生物學樣本難采集,數(shù)據(jù)獲取難度大,數(shù)據(jù)量少,從而導致模型很難取得預期效果,本文嘗試搭建較新的深度學習模型并利用現(xiàn)有數(shù)據(jù)進行模擬,以期獲取更好的年齡鑒定方法。
漁獲物樣品采自北太平洋公海的商業(yè)捕撈船隊作業(yè)海域(39°—43°N、147°—153°E),于2020和2021年的4—11月每月經(jīng)船隊在捕獲樣品中按照叉長從小到大進行隨機采樣100~200尾并冷凍保存,運回實驗室用于生物學指標測定,生物學指標的測量按照《海洋調(diào)查規(guī)范》[22]規(guī)定的標準進行,測量指標包括叉長(fork length,L)(自吻端至尾叉的長度)、體質(zhì)量(weight,W)、耳石重量(otolish weight,W0),所有樣品共計2 664尾,其中948尾樣品取耳石,詳見表1。
表1 遠東擬沙丁魚叉長、體質(zhì)量和耳石重量信息Table 1 Information of fork length,weight and otolish weight of Sardinops sagax
使用超聲波清洗機清洗耳石表面的粘液和包膜,在60 ℃的烘箱中烘烤24 h,去除表面水分,干燥冷卻到常溫后,使用電子天平(ZA305AS,上海贊維)對耳石進行稱重。清洗、干燥之后的耳石進行包埋處理,將耳石的聽溝一面朝下放置于載玻片上,使用UV膠進行包埋,紫外線燈照射固定。將包埋好的樣品置于萊卡光學顯微鏡(DM750,德國萊卡)10倍物鏡下,觀察耳石輪紋并通過顯微鏡成像設(shè)備拍照。
1.2.1 基于輪紋觀察法的年齡判讀 按照傳統(tǒng)方法處理之后的耳石輪紋結(jié)構(gòu)不明顯,難以通過輪紋觀察其年齡(圖1A);通過UV膠包埋處理后的耳石,經(jīng)透射光照射并通過光學顯微鏡拍照可得到較為清晰的輪紋(圖1B)。然而,包埋之后再經(jīng)手動研磨的耳石表面輪紋結(jié)構(gòu)沒有明顯變化(圖1C)。經(jīng)過對比,圖1B的包埋方法是最為合適的耳石處理方法。
圖1 遠東擬沙丁魚耳石Fig. 1 Otolith image of the Sardinops sagax
參考Mcfarlane等[23]的方法,確定遠東擬沙丁魚耳石輪紋鑒定標準:半透明環(huán)必需在耳石表面連續(xù)出現(xiàn),如果半透明環(huán)與另1個環(huán)合并或者未能在整個耳石表面出現(xiàn),則被視為假環(huán);最外層的不透明環(huán)不算做完整的環(huán)狀結(jié)構(gòu),除非在該環(huán)之外仍能觀察到另1個不透明環(huán)。每一個遠東擬沙丁魚耳石都由2人獨自研判,分別計數(shù)。如果2人計數(shù)相同,則認為年齡判讀正確,接受該結(jié)果;若2人計數(shù)的年輪數(shù)不同,則重新進行判讀、計數(shù),并對最終結(jié)構(gòu)進行討論,若達成一致則接受該結(jié)果,否則放棄。將通過輪紋觀察法最終得出一致的年齡鑒定結(jié)果作為耳石年齡標準。
1.2.2 線性擬合公式 分別擬合矢耳石的重量與年齡,魚體叉長與年齡,魚體質(zhì)量與耳石年齡的一元線性回歸方程,比較其擬合回歸方程的相關(guān)系數(shù)(R2)。在此基礎(chǔ)上增加多元線性擬合并與一元線性擬合相比較,相關(guān)系數(shù)(R2)最高的為最佳擬合方程。最后使用最佳擬合方程進行年齡鑒定,本文所有數(shù)據(jù)擬合及相關(guān)系數(shù)數(shù)值分別通過Excel 2016及Origin模擬實現(xiàn)。
1.3.1 模型構(gòu)建 結(jié)合當前已獲得的耳石的質(zhì)量、魚體叉長、魚體質(zhì)量以及其對應的年齡4組數(shù)據(jù),搭建深度神經(jīng)網(wǎng)絡(luò)對3組數(shù)據(jù)進行訓練。其中,本文的自建神經(jīng)網(wǎng)絡(luò)整體框架如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)整體框架Fig. 2 Whole framework of self-built neural network
將沙丁魚的叉長、體質(zhì)量以及對應的耳石質(zhì)量作為訓練數(shù)據(jù)集輸入,其中每尾魚的測量指標作為1組數(shù)據(jù),同時將對應的年齡作為驗證集,按照訓練集80%、驗證集20%比例進行訓練。全部數(shù)據(jù)均轉(zhuǎn)化為Tensor數(shù)據(jù)類型。模型的整體流程為:將原始的3維數(shù)據(jù)魚體叉長、魚體質(zhì)量與耳石質(zhì)量通過Linear操作提升到700維;運用線性激活函數(shù)(rectified linear unit,ReLU)方法將部分神經(jīng)元的輸出變?yōu)?,使網(wǎng)絡(luò)具有稀疏性,同時減少參數(shù)的相互依存關(guān)系,緩解模型過擬合;調(diào)用Linear操作將模型上升到2 048維以使模型的特征更為明顯;加入一個ReLU操作,將模型的維度提高至4 096維,達到特征最為明顯的效果;對模型進行降維操作,將4 096維降至1 024維,使模型的特征進行融合。進行2次Linear操作,將模型降至其7維對應0、1、2、3、4、5、6。最后將所輸出的7維結(jié)果與驗證集相比較,得出模型的最終結(jié)果。
式中,y為輸出結(jié)果;x為輸入?yún)?shù);B為權(quán)重矩陣;T為將矩陣轉(zhuǎn)置;b表示偏置。
式中,t為ReLU函數(shù)的輸出結(jié)果;max()0,a表示將a<0的數(shù)全部轉(zhuǎn)為0,a≥0的則保持不變。
1.3.2 模型評價指標 實際結(jié)果與預測結(jié)果相符,為真陽性(true positive,NTP);實際結(jié)果與預測結(jié)果不符,為假陽性(false positive,NFP);預測結(jié)果與實際結(jié)果均不符,為真陰性(true negative,NTN);預測結(jié)果與實際結(jié)果不符,為假陰性(false negative,NFN),其表達式如下。
式中,Ppre指將正確預測出來的正樣本數(shù)量占所有預測出來的樣本數(shù)量的比率,Prec指將正確預測出的正樣本數(shù)量和所有的正樣本數(shù)量的比率。
在深度神經(jīng)網(wǎng)絡(luò)模型中,通常采用損失率(Ploss)、平衡F分數(shù)(PF1)、準確率和召回率等指標對模型進行評價[25]。
Ploss為真實值與預測值之間的差值,損失值越小表明結(jié)果距離真實值越接近,該指標使用交叉熵損失函數(shù),其表達式如下。
式中,P(x)為對應年齡值的取值;q(x)為相對應概率值。
F1-score是Prec和Ppre的調(diào)和值,綜合考慮了召回率和精準率對試驗數(shù)據(jù)的影響,避免某一指標來主導試驗結(jié)果,其表達式如下
本文深度模型搭建及模型效果評價均通過Python 3.7.11實現(xiàn)。
2.1.1 年齡鑒定比例分析 成對t檢驗結(jié)果分析顯示,遠東擬沙丁魚的左、右耳石質(zhì)量并無明顯差異(P>0.05),因此選用左側(cè)矢耳石進行輪紋觀察并鑒定年齡。鑒定結(jié)果(圖3)表明,樣本年齡中1+、2+和3+的個體占據(jù)50%以上,表明遠東擬沙丁魚種群年輕個體占比較高。
圖3 耳石輪紋觀察法所得各年齡組成比例Fig. 3 Age composition of otolith ring observation method
2.1.2 生物學數(shù)據(jù)對應年齡分布箱型圖分析 對年齡分布與耳石質(zhì)量、叉長和體質(zhì)量的箱形圖(圖4)的分析結(jié)果表明,遠東擬沙丁魚的耳石質(zhì)量、叉長和體質(zhì)量在1+~5+的年齡組間均有重疊,5+~6+的年齡組間無重疊。雖然重疊部分較多,但箱形圖中耳石質(zhì)量、魚體叉長和魚體質(zhì)量的均值與中值隨著年齡組的增大而表現(xiàn)的增長趨勢仍非常明顯,表明耳石質(zhì)量、魚體叉長和魚體質(zhì)量均隨著年齡的增大而增長。
圖4 遠東擬沙丁魚耳石質(zhì)量、叉長和體質(zhì)量對應年齡分布的箱形圖Fig. 4 Box diagram of otolith weight , fork length and weight to age distribution of Sardinops sagax
2.2.1 最佳擬合方程 在單變量擬合回歸方程中,通過對比各函數(shù)關(guān)系,得出相關(guān)系數(shù)(R2)最高的線性擬合關(guān)系可以作為年齡與各生物學參數(shù)的最佳擬合公式。耳石質(zhì)量(W0)與年齡(A)、魚體質(zhì)量(W)與年齡(A)、叉長(L)與年齡(A)的最佳擬合方程分別如公式(7)~(9)所示。
通過分析一元擬合方程的相關(guān)系數(shù),得出耳石質(zhì)量與魚類年齡的相關(guān)性最高,對比可知,耳石質(zhì)量與耳石年齡的擬合程度最高,因此將耳石質(zhì)量所預測的年齡作為一元擬合鑒定年齡。
通過3個變量即耳石質(zhì)量、叉長與體質(zhì)量擬合年齡的公式如下。
通過相關(guān)系數(shù)最高的單變量耳石質(zhì)量與年齡擬合方程公式如下。
2.2.2 擬合回歸方程鑒定年齡驗證對比 通過耳石質(zhì)量與年齡的一元擬合法鑒定年齡和用多個生物學特征的多元擬合法所得出的年齡結(jié)構(gòu),與輪紋觀察法得出的年齡結(jié)構(gòu)相比無顯著差異(P=0.956>0.05;P=0.93>0.05)(圖5)。
圖5 實測輪紋觀察法年齡與線性擬合回歸鑒定的年齡Fig. 5 Age identified by measured surface observation and linear fitting regression
如圖6所示,模型經(jīng)過3 000次訓練達到穩(wěn)定結(jié)果。隨著迭代次數(shù)增加到3 000次,該模型識別年齡的精度穩(wěn)定在0.716;由召回率與迭代次數(shù)的關(guān)系圖可知,隨著迭代次數(shù)增加到3 000次,模型識別年齡的召回率接近0.6。圖6中的F1值可以表明試驗方法的有效性,在訓練迭代次數(shù)達到3 000次,F(xiàn)1值逐漸穩(wěn)定在0.61左右。從損失率與迭代次數(shù)的關(guān)系可知,隨著迭代次數(shù)的增加,模型的損失率也逐漸降低,直到穩(wěn)定在1.24以下。
圖6 深度學習模型的精度、召回率、損失率和F1值與訓練次數(shù)迭代圖Fig. 6 Iteration diagram of accuracy、recall rate、loss rate、F1 value and training times
將所有鑒定樣本輸入自建深度學習模型,通過訓練所得的鑒定結(jié)果與輪紋觀察法所得年齡對比無誤差的情況下,深度學習模型取得的最大準確率為71.6%(表2)。
表2 3種方法鑒定結(jié)果的準確率Table 2 Prediction accuracy results of three methods
使用擬合回歸方程鑒定年齡的方法是Boehlert在1985年首次提出[6],利用多個關(guān)于耳石的變量即耳石質(zhì)量、耳石長度等構(gòu)建回歸方程預測年齡。國內(nèi)使用擬合回歸方程鑒定年齡多見于淡水魚類中耳石質(zhì)量與年齡的回歸關(guān)系[16,26]。本文采用的擬合回歸方程,分別分析了叉長、體質(zhì)量和耳石質(zhì)量與年齡的擬合公式并比較其相關(guān)性,通過對比發(fā)現(xiàn),耳石質(zhì)量與年齡的相關(guān)性最高,其R2超過0.80。通過擬合曲線得出的遠東擬沙丁魚年齡結(jié)構(gòu)經(jīng)分析發(fā)現(xiàn),其與輪紋觀察法所得到的年齡結(jié)構(gòu)并無差異,經(jīng)過對比發(fā)現(xiàn)使用多元擬合方程進行年齡鑒定的準確率高于一元擬合方程。使用擬合回歸方法最大的優(yōu)點是簡單易得,但是該方法也具有缺陷性:其一是必須對預測數(shù)據(jù)與現(xiàn)有數(shù)據(jù)進行乘冪或者使用對數(shù)等其他方法進行變換以獲取線性關(guān)系,這將導致數(shù)據(jù)的變動從而影響預測結(jié)果[27-31];其二是使用該方法會產(chǎn)生年齡估計比例的漸進偏差,從而導致預測結(jié)果產(chǎn)生一定的偏差[7]。因此,本研究嘗試使用新方法即通過構(gòu)建深度學習模型對年齡進行鑒定,以避免使用擬合回歸方程所導致的漸進偏差對遠東擬沙丁魚年齡結(jié)構(gòu)所帶來的誤差影響。
目前,國際上使用機器學習的方法對魚類年齡進行鑒定的相關(guān)研究大多使用耳石圖像[32-33]。在較為常用的經(jīng)典算法中,Seam比較了貝葉斯(Na?ve Bayes,NB)、決策樹(J48)與隨機森林(random forest, RF)在魚類年齡鑒定方面的應用,分別表述了各個模型的特點。NB算法為通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類;但使用該模型要求建立在數(shù)據(jù)準確性較高的基礎(chǔ)上。J48算法為從上到下遞歸的分治策略,選擇某個屬性放置在根節(jié)點,為每個可能的屬性值產(chǎn)生1個分支,將實例分成多個子集,每個子集對應1個根節(jié)點的分支,然后在每個分支上遞歸地重復這個過程,該模型要求不同類之間的數(shù)量差別要盡可能地大。RF是由個別樹輸出的類別的眾數(shù)而定,即根數(shù)特征數(shù)量的多少進行分類。在樣本組成不均衡的情況下會導致誤分為其他類。Benzer等[34]通過人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)與傳統(tǒng)回歸方法分別對莫干湖的北梭子魚(Esox lucius)進行年齡預測,從結(jié)果比較來看ANN方法可以成為線性回歸模型的較好的替代方法。
深度學習方法可以根據(jù)多個因素進行魚類年齡的自動判別,魚類叉長、體質(zhì)量以及耳石質(zhì)量等生物學數(shù)據(jù)都可以對魚類年齡進行判讀[35-36]。本研究采用的深度神經(jīng)網(wǎng)絡(luò)(Linear-Rule)與數(shù)據(jù)匹配度更高,具有更高的準確率,采用softmax進行維度變化,讓不同年齡之間生物學數(shù)據(jù)特征更加明顯。為評估模型的分類性能,本文模型使用4個指標對模型效果進行評估,都達到了較好的結(jié)果。由于該技術(shù)基于可測量的參數(shù),因此在數(shù)據(jù)處理的適應性、年齡的標準化等方面更具優(yōu)勢。此外,通過比較擬合回歸方程與深度學習的預測準確性可知,該模型的準確率要遠高于線性擬合方法。
從檢測結(jié)果來看,深度學習訓練的各項指標都較好,但從鑒定準確率來看,雖然深度學習模型所鑒定的結(jié)果均高于線性擬合回歸方程,但其鑒定的準確率還未達到最佳效果,在之后的工作中應當增加數(shù)據(jù)量用來訓練模型以提高模型預測的準確率,從而更好的幫助研究者進行遠東擬沙丁魚年齡鑒定工作。