楊雨欣,于 紅,楊宗軼,涂 萬,張 鑫,林遠(yuǎn)山
(1 大連海洋大學(xué)信息工程學(xué)院,遼寧 大連 116023;2 大連市智慧漁業(yè)重點實驗室,遼寧 大連 116023;3 設(shè)施漁業(yè)教育部重點實驗室(大連海洋大學(xué)),遼寧 大連 116023;4 遼寧省海洋信息技術(shù)重點實驗室,遼寧 大連 116023)
精準(zhǔn)養(yǎng)殖是魚類養(yǎng)殖的新趨勢[1],魚類行為識別為精準(zhǔn)養(yǎng)殖提供技術(shù)支持[2]。目前,魚類行為監(jiān)測主要采用計算機視覺技術(shù)量化和識別魚類的多種行為[3-5]。趙夢等[6]將SKNet注意力機制與YOLOv5融合,構(gòu)成了關(guān)注像素級信息的特征提取網(wǎng)絡(luò),有效增強了檢測效果;韋思學(xué)等[7]提出通道非降維雙重注意力機制ECBAM,對降維操作進(jìn)行了優(yōu)化,進(jìn)一步提高了識別精度。然而,在規(guī)?;?、集約化等更為復(fù)雜的養(yǎng)殖環(huán)境中,計算機視覺方法仍有局限性[8],研究者考慮到聲波在水中衰減小且不受水體渾濁影響、傳播范圍更廣,開始將深度學(xué)習(xí)引入聲音識別領(lǐng)域[9]。Kong等[10]提出了在大規(guī)模AudioSet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練音頻神經(jīng)網(wǎng)絡(luò)(PANNs),并證明可以將神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移到其他音頻相關(guān)任務(wù),但網(wǎng)絡(luò)提取聲音特征能力受限;Desplanques等[11]提出利用1D卷積神經(jīng)網(wǎng)絡(luò)融合Res2Net和SE模塊以聚合聲音不同層次的特征,增強特征通道相互依賴性,但難以處理聲音細(xì)節(jié)特征。在魚類行為識別領(lǐng)域中,同樣可使用聲學(xué)特征[12-13]。Meng等[14]提出將魚類攝食音頻轉(zhuǎn)換為聲音特征信息,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型對魚的攝食強度進(jìn)行分類,但CNN對魚類細(xì)粒度聲音信息提取能力有限;胥婧雯等[15-16]采用能對魚類聲音特征進(jìn)行細(xì)粒度分類的ResNet網(wǎng)絡(luò),實現(xiàn)低維細(xì)節(jié)特征與高維語義特征融合,但樣本種類較少,且深度殘差網(wǎng)絡(luò)中有大量冗余層、網(wǎng)絡(luò)提取關(guān)鍵信息少。
基于以上分析,可用神經(jīng)網(wǎng)絡(luò)增強魚類聲音特征提取[17],識別魚類行為,但現(xiàn)有魚類聲音數(shù)據(jù)和識別模型存在不足[18-19]。本研究首先開展魚類行為聲音信號數(shù)據(jù)采集,然后提出基于Mel聲譜圖與改進(jìn)SEResNet的魚類行為識別模型TAP-SEResNet,通過Mel聲譜圖對頻率特征進(jìn)行非線性映射,提升網(wǎng)絡(luò)對魚類聲音高級語義特征提取能力;通過融合時序聚合池化層TAP,使SEResNet保留最佳聲音特征信息。以上改進(jìn)使SEResNet在復(fù)雜養(yǎng)殖環(huán)境下魚類行為識別的準(zhǔn)確率與F1值的性能指標(biāo)得到顯著提升。
1.1.1 試驗對象與環(huán)境
本試驗在大連海洋大學(xué)魚類行為學(xué)實驗室進(jìn)行,試驗系統(tǒng)共3個養(yǎng)殖池,養(yǎng)殖池直徑60 cm,高度60 cm,養(yǎng)殖水深40 cm,如圖1所示。
圖1 魚類行為數(shù)據(jù)采集系統(tǒng)
以虹鱒魚(Oncorhynchus mykiss)為試驗對象,選取體長8~10 cm、平均規(guī)格10 g,共30條,養(yǎng)殖水溫保持15~18℃,密度9.2 kg/m3,pH為6.5~6.9,溶氧質(zhì)量濃度12±2 mg/L,將虹鱒魚按數(shù)量均分為3個養(yǎng)殖池以保持最適養(yǎng)殖魚群密度,均經(jīng)過1個月的養(yǎng)殖適應(yīng)期。每天定量投喂兩次[20],投喂時間分別為早上10:00和下午18:00。在飼料投喂時段,通過攝像頭觀察魚類行為,采集魚群攝食、游泳和跳躍聲音信號,試驗期間保持室內(nèi)安靜。
為采集魚類不同行為的聲音信號,使用水下聲學(xué)測量系統(tǒng),水聽器型號為AQH20k-1062,采樣頻率20~20 000 Hz,覆蓋魚類發(fā)聲頻率范圍。為避免水聽器撞擊水箱壁造成雜音,將鉛錘垂直放置于養(yǎng)殖池水面下方10 cm的位置,水聽器綁在鉛錘上固定在養(yǎng)殖池中央。另一端連接計算機存儲數(shù)據(jù),存儲為wav格式。為實時觀察魚類行為且不妨礙魚類正常生活,攝像頭(??低暰W(wǎng)絡(luò)攝像機)架設(shè)在高于水面30 cm的養(yǎng)殖水箱旁,同時連接計算機。
1.1.2 數(shù)據(jù)集構(gòu)建
虹鱒魚是一種具有商業(yè)價值且養(yǎng)殖廣泛的魚類,其跳躍行為對于魚類健康監(jiān)測和養(yǎng)殖環(huán)境改進(jìn)有重要意義[21]。經(jīng)過分析[22],將魚群行為分為“Feed” “Swim” “Jump”三種,采集聲音信號,聲音頻譜圖如圖2所示。其中,“Feed”表示攝食行為,“Swim”表示游泳行為,“Jump”表示跳躍行為,紅色虛線表示跳躍軌跡。
圖2 魚類行為數(shù)據(jù)集劃分
為了保證聲音包含一個完整周期的行為信息,每個行為采集時長為120 s。由于魚類行為聲音時長短,將采集到的聲音信號按照每段2 s進(jìn)行人工切分并編號;另設(shè)一組噪聲對照組同步采集背景噪聲,以便獲取環(huán)境噪聲。收集不同時間段的試驗數(shù)據(jù)并重復(fù)進(jìn)行上述采集過程,采集虹鱒魚攝食聲音信號樣本300個,游泳聲音信號樣本420個,跳躍聲音信號樣本300個,共計樣本1 020個。訓(xùn)練、驗證、測試集按照7∶2∶1比例隨機劃分。
1.2.1 聲音特征提取
魚類聲音信號是非穩(wěn)態(tài)信號,在時域中難以看出其特性,需要將每幀信號進(jìn)行傅立葉變換得到相應(yīng)頻譜圖,以分析聲音特征。目前,聲音特征提取常用方法為聲譜圖(Spectrogram)[23]、Mel頻率倒譜系數(shù)(MFCC)[24]和Mel聲譜圖(Mel spectrogram)[25]等。聲譜圖能夠捕捉頻率變化,但對于非穩(wěn)態(tài)聲音信息處理能力不足,丟失部分細(xì)節(jié)時域信息。Mel頻率倒譜系數(shù)具有較強特征表達(dá)能力,但是通過離散余弦變換轉(zhuǎn)換為較低維度的特征向量時,壓縮過多頻率尺度,致使識別準(zhǔn)確率不高。
Mel聲譜圖通過應(yīng)用Mel濾波器對音頻信號進(jìn)行傅里葉變換,將能量非線性映射到頻域梅爾刻度上,提取出魚類聲音中的重要頻率特征,在頻率軸上對音頻信號進(jìn)行有效壓縮,提高聲音信息分辨能力;在保留魚類聲音關(guān)鍵信息的同時降低特征維度,能更完整地提取魚類細(xì)粒度聲音信息。因此,為了精準(zhǔn)表示魚類行為聲音特征,選擇高分辨率、特征表示較好的Mel聲譜圖特征提取方法,提取不同魚類行為Mel聲譜圖特征如圖3所示。魚類攝食行為聲音信號含有斷斷續(xù)續(xù)的峰值波動,因此Mel聲譜圖呈現(xiàn)出明顯的魚類攝食強度變化;游泳行為聲音是連續(xù)的波動信號且強度較弱,因此Mel聲譜圖特征微弱,呈現(xiàn)出較為明顯的周期性特征;跳躍行為聲音為短暫的脈沖信號,因此Mel聲譜圖持續(xù)時間短,信號振幅大。
圖3 不同魚類行為的Mel聲譜圖
1.2.2 TAP-SEResNet框架設(shè)計
由于真實養(yǎng)殖環(huán)境下存在各種刺激源,飼料投放、水流變化等外部條件刺激將導(dǎo)致魚類產(chǎn)生不同的聲音響應(yīng),因此魚類聲音數(shù)據(jù)具有復(fù)雜性和多樣性,對魚類的行為識別必須具有較高的抗混淆能力與精準(zhǔn)性。ResNet網(wǎng)絡(luò)[26]中的殘差結(jié)構(gòu)能夠有效降低魚類聲音特征之間的相關(guān)性,增強模型對于差異化特征的感知能力,避免關(guān)鍵信息逐層消失;SENet[27]能夠?qū)︳~類聲音中的關(guān)鍵特征進(jìn)行加權(quán)計算,增強模型對于魚類細(xì)粒度聲音的特征提取和區(qū)分能力。因此,SEResNet對于魚類聲音能夠高效提取特征、關(guān)注重要信息,可滿足魚類行為識別要求。
TAP-SEResNet基于SEResNet,其模型結(jié)構(gòu)如圖4所示。TAP-SEResNet由SEResNet、TAP、全連接層和Softmax分類器構(gòu)成。輸入Mel聲譜圖信息,首先經(jīng)過SEResNet的殘差連接,得到魚類原始聲音特征,通過嵌入的SE注意力機制模塊進(jìn)行關(guān)鍵特征加權(quán)計算,學(xué)習(xí)魚類聲音關(guān)鍵信息,并和原始特征相加;針對養(yǎng)殖環(huán)境中頻率波動大、特征差異小的魚類細(xì)粒度聲音信息提取困難問題,通過融合TAP,提升對魚類聲音信息的特征提取能力,最后將深層聲音特征提供給全連接層整合信息,經(jīng)過Softmax分類器輸出魚類行為識別結(jié)果。
圖4 TAP-SEResNet結(jié)構(gòu)圖
1.2.3 TAP模塊
針對養(yǎng)殖環(huán)境下復(fù)雜多樣的魚類行為聲音信息,SEResNet的殘差結(jié)構(gòu)和SE注意力機制能夠有效提取魚類聲音深層細(xì)粒度特征,但是殘差網(wǎng)絡(luò)中聲音特征尺寸過度壓縮會導(dǎo)致關(guān)鍵信息丟失。為保留最佳魚類聲音特征信息同時不丟失背景信息,提出TAP模塊。TAP通過融合池化區(qū)域的最大值和平均值,兼顧魚類聲音信號的局部關(guān)鍵信息和整體背景信息,從而強化空間信息,提升空間感知能力,提供更豐富、全面的特征表達(dá)。時序聚合池化層TAP結(jié)構(gòu)如圖5所示。
圖5 時序聚合池化層TAP結(jié)構(gòu)圖
設(shè)魚類行為聲音經(jīng)過卷積處理后的特征向量為ht,沿著總時間維度t,同時進(jìn)行平均池化μ和最大池化f(x)。平均池化能提供區(qū)域內(nèi)特征的整體趨勢和背景信息;最大池化則能夠捕捉輸入?yún)^(qū)域內(nèi)的最顯著特征,保留重要局部細(xì)節(jié)和去除冗余信息。最后將池化后的魚類聲音特征信息進(jìn)行拼接操作,得到融合后的向量E,計算如公式(1)~(4)所示:
ht=(h1,h2,...,ht)
(1)
(2)
f(x)=max(0,hi)
(3)
E=[μ,f(x)]
(4)
式中:hi(i=1,2,...,t)是特征向量分量;max表示取特征向量最大值;[,]表示拼接操作。
1.3.1 試驗平臺與模型訓(xùn)練參數(shù)
本研究試驗環(huán)境為Intel Core 17-9700 CPU 3.00 GHz 3.00處理器,RTX3090顯卡,32GB內(nèi)存,操作系統(tǒng)為Windows10,運行環(huán)境Python3.8,開源深度學(xué)習(xí)框架Pytorch版本為1.13.1。訓(xùn)練參數(shù)設(shè)置batch_size為32,epoch為100。
1.3.2 評估指標(biāo)
本研究所提模型評估采用準(zhǔn)確率、F1值作為模型性能評價指標(biāo),分類評估采用精確率、召回率和F1值作為分類性能評價指標(biāo)。
準(zhǔn)確率(Accuracy,Ac)反映的是被預(yù)測為正確魚類行為樣本數(shù)與樣本總數(shù)的比值,即是模型正確識別各種魚類行為的概率;精確率(Precison,Pr)反映的是在特定魚類行為下,正確分類樣本在所有預(yù)測為該魚類行為樣本中所占的比例;召回率(Recall,Re)反映的是正確分類的魚類行為占所有該行為總樣本的比例;F1值(F1-score,F1)作為分類器的綜合指標(biāo),是精確率和召回率的調(diào)和平均數(shù)。計算如公式(5)~(8)所示:
(5)
(6)
(7)
(8)
式中:TTP(True Positives)為在正樣本中預(yù)測出正確魚類行為的樣本數(shù);FFN(False Negatives)為在正樣本中預(yù)測出錯誤魚類行為的樣本數(shù);FFP(False Positives)為在負(fù)樣本中預(yù)測出正確魚類行為的樣本數(shù);TTN(True Negatives)為在負(fù)樣本中預(yù)測出錯誤魚類行為的樣本數(shù)。
為驗證時序聚合池化層TAP對SEResNet改進(jìn)的有效性,設(shè)計消融試驗內(nèi)容如下:分別在有池化層TAP和無池化層TAP條件下進(jìn)行了魚類行為識別對比試驗。試驗結(jié)果如表1所示,加入TAP模塊后模型的準(zhǔn)確率、F1值分別提升3.23%、4.33%,表明所提模塊有效。通過融合TAP模塊對SEResNet模型進(jìn)行改進(jìn),結(jié)合最大值和平均值,保留魚類聲音信號的局部關(guān)鍵信息和整體背景信息,使魚類細(xì)粒度聲音完整提取,減少有效信息丟失,提升模型性能,可更好滿足魚類行為識別要求。
表1 消融試驗
2.2.1 特征提取方法對比
為驗證Mel聲譜圖對于魚類聲音特征提取的有效性,設(shè)計對比試驗內(nèi)容如下:在TAP-SEResNet的基礎(chǔ)上與目前常用的聲音特征提取方法聲譜圖[23]和Mel頻率倒譜系數(shù)[24]進(jìn)行對比。試驗結(jié)果如表2所示,Mel聲譜圖相比其他方法準(zhǔn)確率分別提升8.36%、0.97%,F1值分別提升8.8%、0.47%。由分析可得,聲譜圖處理非穩(wěn)態(tài)聲音信息能力不足,Mel頻率倒譜系數(shù)壓縮過多頻率尺度,影響模型準(zhǔn)確性。Mel聲譜圖在頻率軸上有效壓縮魚類聲音信號,增強聲音信息特征提取和分辨能力,與Mel頻率倒譜系數(shù)和聲譜圖相比,更適用于提取魚類聲音信息,明顯優(yōu)于其他方法。
表2 特征提取方法對比
2.2.2 模型對比試驗
為驗證TAP-SEResNet在魚類行為識別的有效性,與先進(jìn)聲音識別模型進(jìn)行對比試驗,對比模型分別是:Kong等[10]通過遷移學(xué)習(xí)方法,提出聲音識別網(wǎng)絡(luò)PANNs-CNN14;Desplanques等[11]通過結(jié)合Res2Net模塊和SE注意力機制并使多層特征聚合,提出語音識別網(wǎng)絡(luò)ECAPA-TDNN;胥婧雯等[15]通過結(jié)合MFCC和ResNet,提出魚類行為識別網(wǎng)絡(luò)MFCC+ResNet。試驗結(jié)果如表3所示,與其他方法相比,TAP-SEResNet準(zhǔn)確率分別提升5.32%、2.80%和1.64%,F1值分別提升5.93%、1.96%和2.00%。經(jīng)分析可得,PANNs-CNN14通過將神經(jīng)網(wǎng)絡(luò)用于音頻任務(wù),學(xué)習(xí)聲音特征,但是CNN對聲音信息提取能力有限;ECAPA-TDNN通過在1D卷積網(wǎng)絡(luò)基礎(chǔ)上融合Res2Net和SE模塊以聚合聲音不同層次的特征,但是對噪聲和環(huán)境變化比較敏感;MFCC+ResNet通過將殘差模塊中的最大池化替換為平均池化,多維度學(xué)習(xí)魚類聲音特征,但是深度殘差網(wǎng)絡(luò)含有大量冗余層,有效聲音信息提取不夠。TAP-SEResNet通過融合TAP模塊保留更多的魚類行為聲音關(guān)鍵特征,同時不丟失聲音背景信息,促進(jìn)SEResNet對魚類細(xì)粒度聲音信息進(jìn)行有效提取,達(dá)到最優(yōu)識別性能。
表3 不同模型與TAP-SEResNet的性能對比
為驗證TAP-SEResNet對魚類行為識別的分類性能,識別結(jié)果和歸一化混淆矩陣如表4和圖6所示。
表4 TAP-SEResNet魚類行為識別結(jié)果
圖6 魚類行為識別歸一化混淆矩陣
由表4數(shù)據(jù)分析可得,“Feed”行為由于聲音信息較豐富,分類效果最好,評估指標(biāo)均在98%以上;“Feed”和“Jump”魚類行為識別精確率均達(dá)到98%以上,“Feed”和“Swim”魚類行為識別召回率均達(dá)到99%以上,3個魚類行為識別F1值均達(dá)到89%以上,模型整體準(zhǔn)確率為91.15%。由圖6可知,歸一化混淆矩陣的左上到右下的對角線表示每個分類的識別準(zhǔn)確率,對角線外區(qū)域表示錯誤分類區(qū)域,“Feed”和“Jump”分類精確率均達(dá)到98%,穩(wěn)定性好。故TAP-SEResNet通過融合TAP模塊,增強模型分類性能,試驗結(jié)果表明所提模型改進(jìn)的有效性。然而本算法仍具有局限性,由于魚類游泳行為動作幅度小、特征不明顯,游泳行為有效聲音信息較少,故圖6中游泳行為識別結(jié)果的精確率僅達(dá)到81%,與攝食、跳躍行為識別結(jié)果相差17%,識別效果較差,說明部分魚類聲音信息仍然無法高效捕捉和分辨,同時試驗環(huán)境中可能存在影響聲音檢測的其他干擾因素。
對比魚類品種識別[28-29],本研究識別難度在于魚類行為聲音信息難采集、頻率波動大和特征差異小等特點使得目標(biāo)特征信息難以捕捉,聲音關(guān)鍵信息的提取準(zhǔn)確率低;對比魚類攝食強度量化[30],本研究識別難度在于真實養(yǎng)殖環(huán)境通常比較復(fù)雜,魚類行為聲音信息易受環(huán)境噪聲影響且含有多樣性和復(fù)雜性,增加了識別難度。針對上述難點,TAP-SEResNet識別模型通過采用Mel聲譜圖提取聲音特征信息,從而降低了魚類聲音信息提取難度;同時提出融合TAP模塊加強對關(guān)鍵特征的提取,從而增強SEResNet對魚類細(xì)粒度聲音信息的識別能力。
本研究提出基于Mel聲譜圖和改進(jìn)SEResNet的魚類行為識別模型TAP-SEResNet,魚類聲音信息由Mel聲譜圖特征提取,通過融合TAP模塊保留魚類聲音的局部關(guān)鍵信息和整體背景信息,減少關(guān)鍵信息丟失,提高SEResNet模型識別能力,可為研究魚類行為識別領(lǐng)域提供技術(shù)支持,有助于養(yǎng)殖過程中對魚類行為實現(xiàn)精準(zhǔn)檢測。然而,本研究僅在實驗室環(huán)境下進(jìn)行,對復(fù)雜養(yǎng)殖環(huán)境中含有雜亂背景聲音信息的問題,仍需進(jìn)一步研究改進(jìn),同時還可以針對魚類聲音特點考慮其他更有效的特征提取方法。
□