王翰霖 ,文帥 ,白俊 ,李東睿 ,羅概 ,林玉成 *
(1.四川大學(xué)生命科學(xué)學(xué)院,生物資源與生態(tài)環(huán)境教育部重點實驗室,成都 610065;2.四川大學(xué)生命科學(xué)學(xué)院,四川省瀕危野生動物保護重點實驗室,成都 610065;3.西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)
紅外相機在野外動物資源和棲息地調(diào)查、日活動節(jié)律和動物行為監(jiān)測中具有重要的地位(李晟等,2014),具有定量定性、非侵入性等優(yōu)點(汪國海等,2016),有利于我國物種的監(jiān)測以及區(qū)域性編目工作的開展(朱淑怡等,2017)。唐卓等(2017)利用布設(shè)紅外相機捕捉的圖像數(shù)據(jù)來分析綠尾虹雉的年活動、日活動以及活動溫度范圍。但是,紅外相機監(jiān)測中普遍存在數(shù)據(jù)量大、數(shù)據(jù)處理工作量大的挑戰(zhàn),須投入大量的人力和物力(田成等,2018)。如何挖掘紅外相機圖像中的有用信息并規(guī)范管理是目前普遍存在的問題(劉雪華等,2018)。
在復(fù)雜的氣候條件下,對紅外相機監(jiān)測到的部分中、小型物種進行鑒定的難度更大,意味著誤檢、漏檢的概率更高(朱淑怡等,2017)。近年來,為提高對紅外相機圖像的處理效率,結(jié)合紅外相機深度學(xué)習(xí)成為當(dāng)下研究熱門。Norouzzadeh等(2017)利 用 VGGNet(Simonyan&Zisserman,2014)、ResNet(He,2016)等神經(jīng)網(wǎng)絡(luò)算法對野生動物進行物種識別;成都大熊貓繁育研究基地實現(xiàn)了對大熊貓繁殖的自動化監(jiān)測(Yan,2020),其他研究包括日常行為(Ren,2015;Swarup,2021)、面部(何育欣等,2020)和個體識別(Hou,2020)。當(dāng)下,生態(tài)分析自動化是紅外相機監(jiān)測體系未來的發(fā)展趨勢(楊彪等,2021)。降低人力、物力成本,提高紅外相機圖像處理效率,并保證圖像識別結(jié)果的準(zhǔn)確性至關(guān)重要。目前,有關(guān)紅外相機圖像物種識別的自動化檢測方法仍有一些技術(shù)問題亟待解決。
卷積神經(jīng)網(wǎng)絡(luò)識別方法提取單幅圖像所有特征,在背景比重過大的情況下會導(dǎo)致模型準(zhǔn)確度差、檢出率低(Krizhevsky,2012;Gomez,2016)。為解決背景干擾問題,Norouzzadeh等(2017)選擇直接性剔除背景圖,劉文定等(2018)運用興趣區(qū)作為目標(biāo)物種的識別區(qū)域,但仍存在效率低下、操作繁瑣等弊端。宮一男等(2019)使用基于 DarkNet53 的 YOLOv3(Redmon&Farhadi,2018)進行模型訓(xùn)練,取得了較好的效果,但識別的準(zhǔn)確度與檢出率相較于人工識別,仍有一定的提升空間。
檢出率是衡量模型可靠性的重要指標(biāo),與訓(xùn)練數(shù)據(jù)集容量正相關(guān)(Tabak,2019)。對于非珍稀瀕危動物而言,數(shù)據(jù)量較充足,能夠容易地訓(xùn)練檢出率較高的模型,但對于某些地區(qū)特有且數(shù)量稀少的珍稀瀕危動物而言,數(shù)據(jù)量稀少導(dǎo)致模型的檢出率受限。本研究擬通過改進目標(biāo)檢測方法來提高模型的檢出率。
以我國特有種、國家一級重點保護鳥類——綠尾虹雉為對象,提出一種基于紅外相機監(jiān)測的目標(biāo)物種的自動化檢測方法,該方法可在目標(biāo)物種紅外相機數(shù)據(jù)較少的情況下,訓(xùn)練出高準(zhǔn)確率與檢出率的深度神經(jīng)網(wǎng)絡(luò)模型,從而進一步提高紅外相機自動化處理的效率,推進紅外相機在野生動物資源監(jiān)測中的運用以及對目標(biāo)物種的保護。除此之外,本方法具有一定的普適性,可訓(xùn)練出針對其他目標(biāo)物種的自動化目標(biāo)檢測模型。
以 YOLOv5(https://githubcom/ultralytics/yolov5)為依托,分析目標(biāo)檢測(Bochkovskiy,2020)網(wǎng)絡(luò)模型的處理流程,設(shè)計先驗框策略,改進特征提取骨干網(wǎng)絡(luò),植入?yún)f(xié)同注意力網(wǎng)絡(luò)(Hou,2021),改進目標(biāo)檢測網(wǎng)絡(luò),提出一種改進的目標(biāo)檢測模型。
使用相同的數(shù)據(jù)與訓(xùn)練參數(shù)對改進網(wǎng)絡(luò)與原生YOLOv5進行模型訓(xùn)練,測試訓(xùn)練的模型,以驗證改進網(wǎng)絡(luò)模型的優(yōu)勢。為簡化訓(xùn)練流程,對模型訓(xùn)練采用遷移學(xué)習(xí)技術(shù)。遷移學(xué)習(xí)可有效提高訓(xùn)練效率以及模型準(zhǔn)確度。分析野外環(huán)境紅外相機所捕捉到綠尾虹雉個體存在大目標(biāo)與小目標(biāo)的情況,自定義分類個數(shù)以適應(yīng)訓(xùn)練過程。
為有效提高模型的精確度(Precision)與檢出率(Recall),采取具有空間和通道的協(xié)同注意力網(wǎng)絡(luò)對網(wǎng)絡(luò)模型進行優(yōu)化,以CSPDarkNet53提取骨干網(wǎng)絡(luò)為切入點,在其末端植入?yún)f(xié)同注意力網(wǎng)絡(luò)。
模型訓(xùn)練需要海量的標(biāo)記照片數(shù)據(jù)作為學(xué)習(xí)的先驗知識,因此進行了數(shù)據(jù)的實地采集。于2019年8—10月和2020年4—10月在四川唐家河國家級自然保護區(qū)采集11萬條紅外相機數(shù)據(jù),提取綠尾虹雉紅外相機圖像數(shù)據(jù)715張,涵蓋不同距離、不同拍攝角度以及其他若干指標(biāo),如綠尾虹雉側(cè)面、正面、斜面、背面以及不同曝光度,實驗數(shù)據(jù)代表性較好。對715張圖像數(shù)據(jù)進行數(shù)據(jù)增強操作,例如翻轉(zhuǎn)、旋轉(zhuǎn)、對比度、飽和度、亮度的隨機化調(diào)整,生成2 855條數(shù)據(jù)。
對2 284張照片中的綠尾虹雉個體進行人工打框和添加標(biāo)記操作,框選部分盡可能保證與動物的輪廓相貼合,標(biāo)記的名稱為。采用5折交叉驗證,訓(xùn)練集與測試集的比例為4∶1,確保最終的訓(xùn)練效果。
網(wǎng)絡(luò)訓(xùn)練流程分為3個板塊:前向傳播、損失計算和反向傳播。前向傳播是網(wǎng)絡(luò)模型的主要部分。由于前向傳播的復(fù)雜性,決定了梯度更新的反向傳播操作復(fù)雜,故選擇YOLOv5簡化反向傳播操作。以綠尾虹雉這單一物種為例,通過自定義聚類先驗框、植入?yún)f(xié)同注意力網(wǎng)絡(luò)有效提高模型的訓(xùn)練精度。
網(wǎng)絡(luò)引入的基礎(chǔ)結(jié)構(gòu)由輸入層、骨干網(wǎng)絡(luò)層、特征融合層和推理預(yù)測層組成(表1)。為簡化網(wǎng)絡(luò)的構(gòu)建流程,沿用YOLOv5中的輸入層、特征融合層與預(yù)測層。由于方法涉及單目標(biāo)檢測,考慮到綠尾虹雉個體大小及其他特征,對跨階段局部網(wǎng)絡(luò)的殘差數(shù)量進行改進,并在骨干網(wǎng)絡(luò)層的最后階段植入?yún)f(xié)同注意力網(wǎng)絡(luò)。
表1 網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)Table 1 Infrastructure of proposed network
改進的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 改進的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of proposed network
骨干網(wǎng)絡(luò)層提取的特征圖分為大、中、小3個尺度,大特征圖對應(yīng)提取的較小目標(biāo)特征,中等特征圖對應(yīng)提取的中等大小目標(biāo)特征,小特征圖對應(yīng)提取的大目標(biāo)特征。特征融合層借鑒特征金字塔結(jié)構(gòu)與路徑融合結(jié)構(gòu),提高對不同尺度像素特征的融合能力。
2.2.1 損失計算方法 因單類別檢測的緣故,將推理預(yù)測層分類數(shù)量設(shè)置為1。采用泛化交并比作為候選框的損失函數(shù);置信度預(yù)測使用邏輯回歸策略;采用二元交叉熵損失函數(shù)計算分類損失。計算的所有損失以如下形式展現(xiàn):
特征圖被分為數(shù)量的網(wǎng)格,為候選框的數(shù)量,代表網(wǎng)格的索引,代表候選框的索引,I代表第個單元格的第個候選框中對象預(yù)測為“存在”,代表負責(zé)檢測當(dāng)前物體的檢測框,為位置誤差,為含有物體與不含有物體的置信度誤差,為最終的分類誤差。
2.2.2 檢測框生成方法 為高效、精確地生成檢測框,提高模型檢出率,采用聚類的方法生成6個用于預(yù)測的先驗框,計算公式如下:(boxcentroid)1-IOU(box,centroid),式中,box為標(biāo)注框,centroid為聚類框,IOU為標(biāo)注框與聚類框的交并比,為標(biāo)注框與聚類框的差異度,通過該法不斷進行更新迭代,最終生成的先驗框(寬×高)分 別 為(26×57)、(67×71)、(82×140)、(146×137)、(226×199)、(262×279)(表2)。
表2 輸出特征圖尺度與對應(yīng)先驗框大小Table 2 Size of feature map and corresponding anchor box size
根據(jù)特征圖的尺度選擇不同的先驗框進行預(yù)測,生成的預(yù)測框為候選框(圖2)。
圖2 目標(biāo)物種候選框的預(yù)測方法Fig.2 Bounding boxes with dimension priors and location prediction
式中,p、p為先驗框在特征圖中的寬、高;函數(shù)用于約束t、t的偏移量,使其值落在0~1之間;σ(t)、σ(t)、t、t為候選框中心點坐標(biāo)相對于特征圖的偏移量以及寬、高的預(yù)測值;c、c為候選框相對于整個特征圖網(wǎng)格位置的補償點坐標(biāo);b、b為候選框在特征圖上的中心點坐標(biāo);b、b為候選框在特征圖上的寬、高。對候選框的篩選使用非極大值抑制策略,篩選后的框為最終的檢測框。完成上述計算后,依據(jù)特征提取骨干網(wǎng)絡(luò)對輸入圖片到特征圖的降采樣系數(shù),進行特征圖到實際圖像的還原操作,得到檢測框在實際照片中的位置。
協(xié)同注意力網(wǎng)絡(luò)突出感興趣的目標(biāo)區(qū)域,通過對通道和空間位置權(quán)重的重新分配以達到前景、背景分離以及獲取大范圍上下文依賴關(guān)系的目的。將協(xié)同注意力模型植入所提出的特征提取骨干網(wǎng)絡(luò)部分,通過對已提取特征圖進行重新加權(quán)賦值,從而有效獲取目標(biāo)區(qū)域位置并減少背景干擾。
圖3 協(xié)同注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of coordinate attention
在表3所示的基礎(chǔ)實驗環(huán)境下,選擇Adam為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,動量因子設(shè)置為0.1,批處理參數(shù)設(shè)置為32,最大迭代次數(shù)為1 000。每進行一輪迭代,輸入的圖像數(shù)量為256,照片縮放大小設(shè)置為608*608。采用泛化交并比作為檢測框的損失函數(shù);置信度預(yù)測使用邏輯回歸策略。
表3 基礎(chǔ)實驗環(huán)境Table 3 Basic experimental environment
訓(xùn)練圖像進行前向傳播、計算損失、反向傳播計算更新模型的權(quán)重參數(shù),以此不斷迭代處理,使模型損失收斂,最終保存最佳的權(quán)重參數(shù)作為綠尾虹雉目標(biāo)檢測模型權(quán)重。依次對改進網(wǎng)絡(luò)模型以及原生YOLOv5進行訓(xùn)練,訓(xùn)練歷時72 h。
運用精確度、檢出率、均值化平均精確度(mAP)對模型進行評價。
式中,TP為預(yù)測正確的數(shù)目,F(xiàn)P為預(yù)測錯誤的數(shù)目,F(xiàn)N為漏檢的數(shù)目。IOU>0.5的候選框為TP,IOU<0.5的為FP。在候選框生成后進行非極大值抑制生成最終的檢測框。mAP是評估目標(biāo)檢測模型效果的重要指標(biāo),用于衡量檢測框與標(biāo)記框的匹配精度以及預(yù)測物種名與標(biāo)記物種名的一致性,該指標(biāo)可通過精確度和檢出率來計算。本研究涉及的是單目標(biāo)檢測,因此不存在真負例指標(biāo)(TN),且mAP值與AP值相同。mAP@0.5為在IOU>0.5下曲線下方的面積(圖4)。
圖4 綠尾虹雉目標(biāo)檢測P-R曲線Fig.4 P-R curve of Lophophorus lhuysii
模型訓(xùn)練結(jié)果如圖5所示。
圖5 目標(biāo)物種的自動化檢測實驗結(jié)果Fig.5 Automated test results of target species
從訓(xùn)練模型對測試集處理的結(jié)果上看,訓(xùn)練模型已達到最優(yōu)的條件。改進方法訓(xùn)練模型的mAP@0.5指標(biāo)優(yōu)于原生YOLOv5訓(xùn)練模型,模型的擬合度適中。隨后進行一組照片測試,模型預(yù)測的檢測框貼合綠尾虹雉個體較好,在光線暗淡、巖石遮擋的情況下也達到了比較理想的預(yù)測準(zhǔn)確度。
在10余萬張紅外相機照片中,對拍攝到綠尾虹雉個體的相機的所有照片進行檢測(表4),從總的檢測指標(biāo)看,改進的模型相較于原生YOLOv5,在檢出率、精確度指標(biāo)上均占優(yōu)。
表4 照片分揀結(jié)果Table 4 Photo sorting results
經(jīng)植入?yún)f(xié)同注意力網(wǎng)絡(luò)后,測試結(jié)果顯示改進的訓(xùn)練模型對綠尾虹雉的識別準(zhǔn)確度達到了99.62%,檢出率高達100%。在測試環(huán)境下,模型對所有數(shù)據(jù)集的檢測速度平均為每張0.07 s,若為視頻數(shù)據(jù)流,則能夠應(yīng)對實時的目標(biāo)檢測任務(wù)。
本文聚焦紅外相機圖像的自動化檢測,運用深度學(xué)習(xí)技術(shù),以綠尾虹雉為例,植入?yún)f(xié)同注意力機制,提出并驗證改進的自動化目標(biāo)檢測方法,實現(xiàn)了高精度自動化識別與目標(biāo)檢測任務(wù),可提高對紅外相機圖像及視頻的處理效率,降低人力、物力成本,推進對目標(biāo)物種的保護。
在實際應(yīng)用場景中,科研人員在野外部署若干紅外相機,經(jīng)過一段時間的數(shù)據(jù)收集,由人工或自動的方式上傳到紅外相機數(shù)據(jù)庫,隨后將大批量的紅外相機數(shù)據(jù)送入本方法訓(xùn)練完成的模型中進行自動化處理,最后給予科研人員反饋(圖6)。
圖6 紅外相機圖像的處理流程Fig.6 Image processing of infrared camera
從提高實際應(yīng)用效率的角度看,本文改進的目標(biāo)檢測方法會自動創(chuàng)建含有目標(biāo)物種的紅外相機目錄,方便科研人員檢索。對于獨立有效照片數(shù)量及相對拍攝率的獲取,可通過本方法的附加模塊“Intelli-Camera”自動化處理。也可自動批量提取目標(biāo)物種照片中的時間戳、溫度等重要基礎(chǔ)指標(biāo),根據(jù)這些指標(biāo)還可自動生成表格,從而更加方便快捷地指導(dǎo)科研實踐(圖7)。
圖7 自動化流程Fig.7 Automatic process
本文優(yōu)化了方法所涵蓋的訓(xùn)練過程,創(chuàng)新性地提出一種針對綠尾虹雉的自動化目標(biāo)檢測方法,通過此方法訓(xùn)練生成的模型與YOLOv5相比,其準(zhǔn)確度與檢出率都達到了較高的水平。
該方法可推廣到其他中、小型珍稀瀕危野生動物物種。且該方法對訓(xùn)練數(shù)據(jù)量的要求較低,也可加強對偶見種的監(jiān)測(劉雪華等,2018),因此,該模型具有一定的推廣和應(yīng)用價值。
本文提出的目標(biāo)物種自動化檢測方法存在一定的局限性。在紅外相機僅捕捉到其頭部部分或不完整身體的情況下,通常無法準(zhǔn)確地進行自動化識別和目標(biāo)檢測,因此,需要完善綠尾虹雉的頭部或其他不完整軀干數(shù)據(jù)集,并對其進行訓(xùn)練,生成能夠識別綠尾虹雉頭部以及不完整軀干的模型,綜合本研究的模型,進行更可靠、高效的自動化識別與目標(biāo)檢測。
基于紅外相機的對野外動物物種行為特征自動化識別、個體自動化計數(shù)技術(shù)是后續(xù)展望研究的部分。行為特征自動化識別、個體自動化計數(shù)技術(shù)能夠更加精確地計算出相對多度指數(shù)(Rowcliffe,2014)、時間段活動強度以及相對拍攝率(Mohd-Azlan&Engkamat,2013),這能夠更加精確、高效并自動化評估目標(biāo)物種的種群以及季節(jié)活動指標(biāo),更好地解決野生動物資源監(jiān)測的三大問題(肖治術(shù)等,2014,2017),從而更高效、準(zhǔn)確地推進對目標(biāo)物種的保護,進一步提高對紅外相機捕捉圖像的利用效率。