国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學習在野生動物保護中的應(yīng)用

2023-12-22 10:17:14鐘俊杰鈕冰陳沁陳翔王艷
獸類學報 2023年6期
關(guān)鍵詞:野生動物卷積深度

鐘俊杰 鈕冰 陳沁 陳翔 王艷

(1 上海大學生命科學學院,上海 200444)(2 上海海關(guān),上海 200135)(3 上海海關(guān)動植物與食品檢驗檢疫技術(shù)中心,上海 200135)

物種多樣性、遺傳多樣性和生態(tài)系統(tǒng)多樣性共同構(gòu)成了生物多樣性,其中物種多樣性又包括動物種類的豐富性。野生動物既是寶貴的生物資源,也是生態(tài)系統(tǒng)不可或缺的一部分。它們在物質(zhì)循環(huán)和能量流動中扮演著重要角色,并具有諸如促進植物生長、調(diào)節(jié)植物群落結(jié)構(gòu)和維持水土等方面的生態(tài)學價值 (張同作等,2022)。然而,在自然因素和人為因素的干擾下,野生動物的數(shù)量和種類在持續(xù)減少 (Phelpset al., 2010)。野生動物數(shù)量和功能多樣性的下降導致其他物種群體的滅絕率上升,并影響整個生態(tài)系統(tǒng)的功能 (Malhiet al., 2022)。此外,由于人類開發(fā)和經(jīng)濟需求的增加,與野生動物的接觸也越來越頻繁,一些傳染病如SARS、COVID-19 和禽流感等開始流行,對人類及動物構(gòu)成巨大的健康風險 (You, 2020),據(jù)估計至少有70%新興的人畜共患疾病起源于野生動物 (Hassellet al., 2017)。鑒于上述原因,科學家們正在努力利用先進的技術(shù)手段,例如遙感技術(shù)、基因測序和深度學習等,來識別、檢測和追蹤野生動物,這些技術(shù)的應(yīng)用將有助于更好地了解野生動物的生態(tài)需求和行為習性,從而制定更有效的保護策略。但在識別、檢測、追蹤野生動物以及確定野生動物的種群數(shù)量等方面,存在困難與挑戰(zhàn),例如許多野生動物物種數(shù)量較少,且行為隱蔽、難以辨別并且主要棲息在廣闊而偏遠的地區(qū) (Weinstein, 2018)。

隨著大數(shù)據(jù)時代的到來,深度學習和各類研究領(lǐng)域交叉融合。在野生動物保護方面,深度學習應(yīng)用前景廣闊。深度學習算法能夠自動檢測和從數(shù)據(jù)中提取特征。這意味著我們只需要告訴深度學習算法圖片中是否存在野生動物,并且給定足夠多的例子,它將能夠自己弄清楚野生動物的樣子 (Christinet al., 2019)。將深度學習與無人機、衛(wèi)星遙感和可穿戴傳感器等設(shè)備結(jié)合后,可以應(yīng)用于野生動物的生長估計、疾病監(jiān)測和行為檢測等 (Maoet al., 2023),因而有利于節(jié)省人力、財力和時間,加強野生動物的保護 (圖1)。傳統(tǒng)的野生動物個體識別通?;谝曈X特征,例如斑點、花紋等,而深度學習則可以從某類相似野生動物圖像中提取出更加復雜的特征并精確識別個體的身份。個體識別有許多優(yōu)勢,例如減少了對動物的干預、可以追蹤不易捕捉的物種、減少數(shù)據(jù)處理時間等。此外,深度學習還可以結(jié)合無人機和衛(wèi)星遙感、紅外相機等技術(shù),為野生動物保護提供新穎而有效的方法 (Liet al., 2022)。本文介紹了深度學習及其原理,詳細回顧了深度學習在野生動物保護領(lǐng)域的4個主要應(yīng)用。

圖1 深度學習在野生動物保護中的應(yīng)用場景Fig. 1 Application scenario of deep learning in wildlife conservation

1 深度學習

1.1 深度學習概述

機器學習是指通過算法和訓練,使計算機理解和處理特定數(shù)據(jù),旨在構(gòu)建模型以完成目標檢測或自然語言翻譯等認知任務(wù) (Janieschet al.,2021)。目前涌現(xiàn)了許多傳統(tǒng)算法,如人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network, ANN) (Schmidhuber,2015)、隨機森林 (Random Forest, RF) (Antoniadiset al., 2021)、邏輯回歸 (Logistic Regression, LR)(Bonte and Vercauteren, 2018) 等。而深度學習是機器學習的一個分支 (Zhuet al., 2020),它的核心是人工神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的靈感源于神經(jīng)元的運作,最早是在1943 年由神經(jīng)生理學家Warren Mc-Culloch 和數(shù)學家Walter Pitts 提出,模擬大量神經(jīng)元相互連接并處理大量信息 (Piccinini, 2004; Khamparia and Singh, 2019)。深度學習的概念是由Hinton 和Salakhutdinov (2006) 提出,是指用于通過多層非線性變換對復雜高緯度數(shù)據(jù)進行建模的算法集合。深度學習與傳統(tǒng)的機器學習算法主要區(qū)別在于,深度學習可以從數(shù)據(jù)中自動學習特征,無需人工確定特征 (Wenet al., 2020)。深度學習預測性能高、泛化能力強,因而在面部、語音、圖像、自然語言處理、醫(yī)學科學等領(lǐng)域中應(yīng)用廣泛 (Darganet al., 2020)。

1.2 深度學習原理

深度學習是一種特殊的神經(jīng)網(wǎng)絡(luò),而典型的神經(jīng)網(wǎng)絡(luò)由輸入層、中間層以及輸出層構(gòu)成。在神經(jīng)網(wǎng)絡(luò)中,信息通過許多神經(jīng)元進行傳遞,輸入層的神經(jīng)元接收輸入信號,再乘以權(quán)重值后到達中間層,再經(jīng)歷n層后輸出相應(yīng)結(jié)果。在此過程中,隨著層數(shù)的增加,會得到更有效的特征和信息 (Zeiler and Fergus, 2014)。目前,已經(jīng)衍生出了各種深度學習的框架,例如卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network, RNN)、生成對抗網(wǎng)絡(luò)(Generating Adversarial Network, GAN) 等 (Mishraet al., 2022)。

CNN 是一種專門用于處理圖像數(shù)據(jù)的深度學習算法,在計算機視覺領(lǐng)域得到了廣泛應(yīng)用,主要結(jié)構(gòu)如圖2 所示,分為輸入、卷積層、池化層、全連接層和輸出 (Mittalet al., 2021)。卷積層是CNN 模型的核心,卷積層中的神經(jīng)元排列在矩陣中,形成多通道特征圖,每個通道中的神經(jīng)元僅連接到該層之前特征圖的一部分 (Liu and Wang,2021)。感受野是在卷積的過程中所提取的圖片信息,而卷積核的尺寸與感受野成正比,卷積核的尺寸越大,感受野越大,提取特征也越多。常用的卷積核尺寸有1 × 1、3 × 3、5 × 5、7 × 7 和11 ×11 五種類型,并且可以對卷積核進行替換 (馬金林等,2022)。雖然大尺寸卷積核在特征提取的過程中表現(xiàn)優(yōu)異,但是會使計算量增加,因而InceptionV3 將5 × 5 的卷積替換為兩個3 × 3 的卷積,為卷積替換提供了思路 (Szegedyet al., 2016)。池化層,也稱為下采樣層,池化操作從上部特征圖中提取主要信息并保留特征 (Alzubaidiet al.,2021),通常包括最大池化和局部池化。局部池化是通過來自局部區(qū)域的數(shù)據(jù)來顯示特征圖的方法,而全局池化,為特征圖中的每個特征創(chuàng)建一個標量值,表示來自特征向量的圖像 (Zafaret al.,2022),它會選取每個區(qū)域內(nèi)的最大值作為輸出,相比于局部池化,全局池化能保留更多的特征信息,但計算量較大。在卷積和池化之間交替后,經(jīng)常會構(gòu)建一個全連接層。全連接層將所有信息組合在一起,將多維特征轉(zhuǎn)換為一維特征,然后將其移交給最終回歸器和分類器以產(chǎn)生最終結(jié)果(Wang and Su, 2022)。CNN 具有局部感知和參數(shù)共享的優(yōu)勢,每個神經(jīng)元只要感知圖像的局部像素并在更高層合并這些信息從而得到圖像全部特征信息,而參數(shù)共享減少了參數(shù)數(shù)量,降低了模型的復雜度 (Wanget al., 2022)。

圖2 CNN基本結(jié)構(gòu)Fig. 2 Basic structure of CNN

RNN 是神經(jīng)網(wǎng)絡(luò)的一種特定架構(gòu),目的是對有特定順序關(guān)系的數(shù)據(jù)進行建模,最早由Rumelhart (1986) 提出。為了處理順序數(shù)據(jù),RNN 具有神經(jīng)元連接的循環(huán)層,神經(jīng)元的信息被傳遞給同一層和下一層的神經(jīng)元 (Tranet al., 2021)。RNN廣泛應(yīng)用于序列特異性強的數(shù)據(jù),例如文本、音頻和視頻等 (Yuet al., 2019)。最成功的RNN 架構(gòu)之一是長短期記憶 (Long Short-Term Memory,LSTM),其部分程度解決了梯度消失的問題,包含3種類型的門:輸入門、遺忘門和輸出門,這3種門精妙地結(jié)合了長期記憶和短期記憶 (Wanget al.,2022)。門控循環(huán)單元網(wǎng)絡(luò) (Gated Recurrent Unit networks, GRU) 來自LSTM,在拓撲、計算成本和復雜性方面是RNN 的輕量級版本,比標準LSTM更輕 (Alomet al., 2019)。

GAN 是由Ian Goodfellow 在2014 年發(fā)布,是一種無監(jiān)督的深度學習方法,其中兩個神經(jīng)網(wǎng)絡(luò)在零和游戲中相互競爭 (Goodfellowet al., 2014)。該網(wǎng)絡(luò)主要由生成器和鑒別器構(gòu)成,其中生成器獲取隨機噪聲矢量作為輸入和輸出,而鑒別器用于區(qū)分真實圖像和生成器創(chuàng)建的假圖像 (Aldausariet al., 2023)。網(wǎng)絡(luò)以對抗的方式進行訓練,同時會提高鑒別器和生成器的性能,最終達到納什均衡 (Nash Equilibrium)。GAN 被廣泛研究,并提出了許多改進版本。谷歌提出了邊界平衡生成對抗網(wǎng)絡(luò) (BEGAN),可以平衡圖像多樣性和視覺質(zhì)量(Hahet al., 2018)。而Wasserstein GAN (WGAN) 算法與傳統(tǒng)GAN 相比,用有意義的損失函數(shù)與生成器的收斂性和樣本質(zhì)量相關(guān)聯(lián),提高了優(yōu)化過程的穩(wěn)定性 (陳宇等,2021)。由于GAN 出色的數(shù)據(jù)生成能力,目前已經(jīng)被應(yīng)用于圖像修復、視頻生成和預測、提高圖像質(zhì)量等方面 (Porkodiet al.,2022)。

2 深度學習在野生動物保護中的應(yīng)用

2.1 野生動物視頻識別

自動隱蔽攝像機或紅外相機在大量連續(xù)收集野生動物數(shù)據(jù)方面有巨大優(yōu)勢,在各類自然保護地野生動物監(jiān)測中得到了快速應(yīng)用 (肖治術(shù)等,2022)。但是大量的圖像和視頻人工處理極其耗時且單調(diào),而利用計算機視覺中深度學習可以實現(xiàn)對野生動物視頻的自動識別 (Nguyenet al., 2017)。野生動物視頻檢測可以概括為6 個步驟 (Liet al.,2020):(1) 拍攝視頻;(2) 將視頻轉(zhuǎn)換為幀;(3) 標注圖像;(4) 利用深度學習對標注圖像進行訓練;(5) 在獨立數(shù)據(jù)上驗證和測試模型;(6) 使用訓練好的模型檢測其他視頻。Wang 等 (2021) 提出了一個帶有補丁檢測器的特征融合網(wǎng)絡(luò) (FFN-PD),用于解決大熊貓 (Ailuropoda melanoleuca) 識別困難,并發(fā)現(xiàn)眼睛周圍的視覺特征在大熊貓識別中起著重要作用。Schindler 和Steinhage (2021) 基于相機陷阱,評估了在夜間各類深度學習框架對鹿、野豬、狐貍和野兔的識別,發(fā)現(xiàn)Mask R-CNN 與ResNet 相結(jié)合,產(chǎn)生了最佳結(jié)果,動物檢測和識別的平均精度為63.8%。Islam 和Valles (2020) 建立一個靈活的CNN 架構(gòu),用于從相機陷阱圖像中檢測蛇、蜥蜴、蟾蜍和青蛙等野生動物。此研究建立了一個高效的監(jiān)測系統(tǒng),可以加速野生動物調(diào)查和分析的進程。Lei 等 (2022b) 從瀕危物種蜂猴 (Nycticebus bengalensis) 的監(jiān)測視頻中提取幀,測試了兩種基于YOLOv5 的優(yōu)化模型,發(fā)現(xiàn)YOLOv5-CBAM+TC 模型比YOLOv5 具有更好的精度和召回率,是圈養(yǎng)環(huán)境中檢測蜂猴的有效方法,有助于實現(xiàn)基于計算機視覺的蜂猴面部和姿勢識別。Falzon等 (2020) 開發(fā)了一款名為ClassifyMe的野外偵察軟件,專門識別相機陷阱中的野生動物,該軟件的主要框架是DarkNet 和YOLOv2,可用于在現(xiàn)場捕獲圖像數(shù)據(jù)和分析。這些研究基于不同的方法,旨在提高野生動物識別和監(jiān)測的效率和準確率。這些成果都使用了深度學習技術(shù)來解決野生動物識別和監(jiān)測的問題,其中包括特征融合、補丁檢測器、優(yōu)化模型等方面的創(chuàng)新。同時,都著重考慮了實際應(yīng)用中遇到的問題,如夜間光線、圈養(yǎng)環(huán)境、相機陷阱等,提出了相應(yīng)的解決方案。

由于相機陷阱在拍攝時存在大量不包含目標野生動物的圖像,需要對數(shù)據(jù)進行過濾。在監(jiān)測白鯨 (Delphinapterus leucas) 時,Westphal等 (2022)提出使用CNN 過濾掉67.9%不含白鯨的空白幀,并以97.0%的準確率識別白鯨。Dai等 (2021) 提出了一種稱為TS網(wǎng)絡(luò)的方法,用于分割背景和前景,該網(wǎng)絡(luò)由改進的跟蹤網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò)組成,將視頻分割為相關(guān)幀,識別準確率提高了1.9%。相比于傳統(tǒng)人工識別,目前可以在野外設(shè)置攝像頭后,定時傳回視頻再用深度學習進行識別,如果發(fā)現(xiàn)野生動物則可采取相應(yīng)措施并進行保護 (黃志靜等,2022)。野生動物的視頻識別經(jīng)歷了由人工識別到相機陷阱識別的過程,而深度學習模型在相機陷阱識別數(shù)據(jù)處理中發(fā)揮重要作用,過濾了只包含空白背景的幀,并且對目標進行識別。然而一些問題有待解決,例如圖像模糊、異物遮擋等,這些問題是野生動物視頻識別所面臨的挑戰(zhàn),也是未來的研究方向。

2.2 野生動物圖像識別

對于那些在個體或群體之間差異不明顯且數(shù)量龐大的物種,精確的個體識別就會比較困難,因而野生動物的圖像是最難識別的對象之一。此外,野生動物生活在自然棲息地,由于植物的遮擋,使識別更加困難 (Venkitasubramanianet al.,2016)。Kim 等 (2022) 基于Faster R-CNN 對26 種亞馬遜鸚鵡 (genusAmazona) 進行分類,而Faster RCNN 提升了運行速度,進一步把檢測速度提高到準實時,有利于保護亞馬遜鸚鵡的野生種群。Santangeli 等 (2022) 基于YOLOv3 識別禿鷲 (Torgos tracheliotos) 和其他大型鳥類,有助于自動化遠程大量收集野生動物生態(tài)數(shù)據(jù)。Chen 等 (2020) 開發(fā)了一種全自動深度學習算法,用于大熊貓面部檢測和身份預測,并且建立了最大的大熊貓圖像數(shù)據(jù)集,其中包含來自218 種不同大熊貓的6 441 張圖像。Xie等 (2019) 搜集了內(nèi)蒙古賽罕烏拉國家級自然保護區(qū)的中華斑羚 (Naemorhedus griseus)、馬鹿 (Cervus canadensis)、狍 (Capreolus pygargus)、猞猁 (Lynx lynx) 和獾 (Meles meles) 等動物圖像并基于多分支聚合和擠壓激勵網(wǎng)絡(luò)的集成模型構(gòu)建自動圖像識別模型,模型準確率為95.3%。Zhang等 (2020) 從澳大利亞昆士蘭州的幾個國家公園收集數(shù)據(jù)建立了大型全高清野生動物監(jiān)測圖像數(shù)據(jù)集,并基于CNN 識別了袋鼠 (Macropus)、鴯鹋(Dromaius novaehollandiae) 等多種野生動物。而在野生動物精準個體識別方面,傳統(tǒng)采用人工標記或者記憶方法,需要專業(yè)人員蹲點觀察很長時間才能把目標野生動物區(qū)分開,耗時耗力又容易產(chǎn)生混淆。Guo 等 (2020a) 利用神經(jīng)網(wǎng)絡(luò)模型開發(fā)了靈長類動物識別系統(tǒng),能夠精確識別41 種靈長類動物,對秦嶺地區(qū)的川金絲猴 (Rhinopithecus roxellana) 識別率高達95.6%。趙婷婷等 (2018) 利用Cifar-10 深度學習模型代替人眼,用金錢豹 (Campanumoea javanica) 花紋的差異性來區(qū)分金錢豹個體,進而估算區(qū)域內(nèi)金錢豹的種群數(shù)量。根據(jù)東北虎 (Panthera tigris altaica) 的體側(cè)條紋信息不具有對稱性,使用CNN 模型有助于實現(xiàn)東北虎個體的精確自動識別 (史春妹等,2021)。這些研究所采用的檢測算法有所不同,如Faster R-CNN、YOLOv3、CNN 等。這些算法有著各自的優(yōu)缺點,在不同的場景下可能表現(xiàn)更優(yōu)秀。因此,選擇合適的算法對于實現(xiàn)高質(zhì)量的動物檢測任務(wù)非常關(guān)鍵。此外,這些研究對于數(shù)據(jù)預處理、模型訓練、檢測速度等方面的細節(jié)也進行了深入探究,Zhang 等(2020) 所建立的全高清野生動物監(jiān)測圖像數(shù)據(jù)集,可以為后續(xù)研究提供高質(zhì)量的數(shù)據(jù)支持。未來可以繼續(xù)深入探索這一領(lǐng)域的技術(shù)應(yīng)用和創(chuàng)新,為野生動物保護和管理工作做出更大的貢獻。

為了更準確地識別野生動物,科研工作者對不同的模型進行了測試與比較。Ueno 等 (2022) 使用GoogLeNet 和ResNet-18 與順序貝葉斯濾波器組合后改善了對日本獼猴 (Macaca fuscata) 的識別,推測順序貝葉斯濾波器可以提高日本獼猴個體識別的準確性。楊銘倫等 (2022) 收集了神農(nóng)架國家級自然保護區(qū)內(nèi)梅花鹿 (Cervus nippon)、毛冠鹿(Elaphodus cephalophus)、斑羚 (Aepyceros melampus petersi)、野豬 (Sus scrofa)、紅腹角雉 (Tragopan temminckii) 的圖像,比較了YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x四種模型的識別精度,認為YOLOv5m 綜合性能較好。Guo 等(2020b) 在夜間采集了土狼 (Proteles cristatus)、鹿(Cervidae)、負鼠 (Didelphinae)、浣熊 (Procyon lotor) 和臭鼬 (Mephitis mephitis) 的圖像,這些圖像中的動物很多情況下被草或樹木遮擋使檢測和分類更具挑戰(zhàn)性,他們開發(fā)了一種多通道區(qū)域建議和分類網(wǎng)絡(luò) (VCRPCN),與R-CNN 相比速度更快,且準確率提高了21.0% 。de Silva等 (2022) 應(yīng)用5種不同類型的CNN 模型 (VGG16、ResNet50、InceptionV3、Xception 和Alexnet) 識別亞洲象 (Elephas maximus),發(fā)現(xiàn)Xception模型性能最佳,亞洲象的耳朵是關(guān)鍵特征。Shi 等 (2020) 采集了40 只東北虎8 277 張圖像,相比于LeNet、ResNet34 和ZF_Net 算法,他們構(gòu)建的深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network, DCNN) 精度較高,運行速度較快。Shi等 (2022) 收集了47只東北虎12 244 張圖像并基于CNN 開發(fā)了自動檢測和識別方法,發(fā)現(xiàn)右臉和左、右身條紋的組合實現(xiàn)了最高的準確率。這些研究涵蓋了不同種類的動物,并使用了不同類型的深度學習模型,如InceptionV3、ResNet34、YOLOv5 等。并且針對不同的環(huán)境和情況,預處理和增強可以有效提高動物識別和分類任務(wù)的準確性。特征選擇是影響動物識別和分類任務(wù)準確性的重要因素之一,深度學習被應(yīng)用于野生動物的圖像識別,識別常用的特征包括斑點圖案、條紋圖案、面部特征、身體特征等 (Petsoet al., 2022),但是種群內(nèi)部個體相似時,精確的個體識別較為困難,目前實現(xiàn)野生動物精確個體識別仍然是重大挑戰(zhàn)之一。此外,有研究表明,圖像中個體識別特征發(fā)生旋轉(zhuǎn)、特征部位分離度差和拍照時的光線昏暗等因素也會降低圖像識別的準確度,因此需要利用合適的深度學習模型來解決這些問題 (Houet al., 2020)。

2.3 野生動物安全監(jiān)測

利用深度學習這一工具對野生動物進行安全監(jiān)測,可以提高監(jiān)測效率。野生動物一旦受到威脅,監(jiān)測系統(tǒng)能夠做出快速響應(yīng)。Surya 等 (2022)使用DCNN 進行動物檢測和區(qū)分的實時圖像處理,并通過物聯(lián)網(wǎng)監(jiān)測野生動物,以避免人與野生動物的沖突,一旦檢測到野生動物,其GPS 位置將以短信形式發(fā)送到護林員。

基于良好的目標檢測和分類性能,深度學習為實現(xiàn)野生動物豐度估算提供了有力支撐,大大減少生物計數(shù)所花費的人力。Eikelboom 等 (2019)評估了多類卷積神經(jīng)網(wǎng)絡(luò)RetinaNet 在航拍圖像中檢測大象、長頸鹿 (Giraffa camelopardalis) 和斑馬(Equus bruchelli) 數(shù)目的性能,發(fā)現(xiàn)航拍計數(shù)可以減少人工計數(shù)的誤差。由于棲息地規(guī)模廣,位置偏遠,海鳥的種群計數(shù)非常困難,而Hayes 等(2021) 利用無人機和CNN 計數(shù)黑眉信天翁 (Thalassarche melanophrys) 和南跳巖企鵝 (Eudyptes crestatus),準確率高達97.7%和87.2%。

分析野生動物的行為,例如繁殖、遷徙以及異常行為,有助于評估種群規(guī)模,及時發(fā)現(xiàn)野生動物的異常,對野生動物保護具有積極的指導意義。Swarup 等 (2021) 收集了來自超過218 只大熊貓的10 000 多張圖像,并結(jié)合Faster R-CNN 和ResNet 識別了大熊貓的5 種行為:行走、坐、休息、攀爬和進食以及2種面部動作:睜開或閉上眼睛和嘴巴,這些行為可以及時向大熊貓護理人員發(fā)出信號。Lei 等 (2022a) 基于YOLOv5 識別了夜間蜂猴的行為,這些行為包括進食、移動、休息和社交,有助于管理者及時發(fā)現(xiàn)蜂猴的健康問題。Jeantet 等 (2022) 訓練了一個完全卷積的神經(jīng)網(wǎng)絡(luò)V-net 用于識別綠海龜 (Chelonia mydas) 的筑巢行為和產(chǎn)卵數(shù)量,有助于評估綠海龜種群狀況。Maekawa 等 (2020) 構(gòu)建了多尺度分層注意力模型(DeepHL-Net),發(fā)現(xiàn)雌性海鳥的遷徙軌跡明顯比雄性海鳥更接近海岸線,棲息地和覓食地等特定地點的絕對坐標會影響海鳥的行為,為海鳥的監(jiān)測保護提供思路。Roy 等 (2022) 使用GAN 模擬和捕獲海鳥覓食軌跡,提示GAN 在野生動物運動建模方面的潛在用途。Sun等 (2020) 提出了基于稠密鏈接塊改進的VGG 識別分類算法,用于識別梅花鹿體姿態(tài)如站立、起身、趴臥、回頭等4 種日常行為,解決了人工監(jiān)測時梅花鹿易產(chǎn)生應(yīng)激反應(yīng)的問題。外部異常環(huán)境會導致魚類產(chǎn)生異常反應(yīng),如魚群回避以及異常游動等,而Yuan 等 (2021) 提出了視頻異常檢測模型TransAnomaly 可以對魚類的異常行為進行有效監(jiān)測。這些研究表明,深度學習技術(shù)可以幫助我們更好地了解動物的生態(tài)習性和健康狀況,在野生動物行為識別和分類方面的應(yīng)用前景廣闊。通過不斷地優(yōu)化算法和模型,解決數(shù)據(jù)收集和處理、環(huán)境因素以及保護管理等問題,可以為野生動物的保護和管理工作做出更大貢獻。野生動物行為受到環(huán)境、季節(jié)、食物等多種因素的影響,因此我們還需要考慮如何對這些影響進行建模和應(yīng)對。由于野生動物的行為是由環(huán)境和生理因素所引起的,種群的行為、特點及調(diào)節(jié)機制等方面的研究較少 (邊疆暉,2021),利用深度學習模型準確分析和解釋野生動物的行為是一個重要的研究方向??蒲腥藛T需要與保護管理人員密切合作,將野生動物行為識別和分類技術(shù)與野生動物保護和管理工作結(jié)合起來,實現(xiàn)更好的保護效果。

2.4 野生動物音頻識別

生物聲學是生物學和聲學的組合,是生物多樣性監(jiān)測系統(tǒng)的重要組成部分,在保護容易滅絕的物種方面取得了重大進展。野生動物的音頻識別與其他種類的音頻識別流程類似,首先需要通過傳感器收集聲音信號,接著經(jīng)過加窗、噪聲的過濾等預處理后,通過深度學習模型處理音頻數(shù)據(jù)提取特征圖并識別。Ruff 等 (2021) 利用CNN 識別14 種鳥類和哺乳動物發(fā)出的聲音并且創(chuàng)建了一個桌面應(yīng)用程序,但是同時識別多個動物聲音的可靠性較低。當音頻片段中存在多種鳥類時,現(xiàn)有的鳥類生物聲學監(jiān)測系統(tǒng)會陷入困境。為了克服這些挑戰(zhàn),Shrestha 等 (2021) 提出了基于Faster R-CNN 的音頻分割系統(tǒng),用于區(qū)分單個音頻片段中多個鳥類的發(fā)聲,分割錯誤率為21.81。鳥類聲音可以傳遞森林火災的警告,Permana等 (2022) 通過CNN,識別了正常情況下和受威脅情況下鳥的叫聲,分類準確率高達96.5%,為森林火災的預警提供幫助。Zhao 等 (2022) 設(shè)計了一種基于擠壓和激發(fā)網(wǎng)絡(luò) (SENet) 的模型,從大熊貓的發(fā)聲中自動識別其年齡和性別,可用于未來野生大熊貓調(diào)查。Al Bashit 和Valles (2019) 通過改進和優(yōu)化信號處理技術(shù),成功應(yīng)用于瀕臨滅絕的休斯頓蟾蜍的交配呼叫檢測和定位,以保護其免受捕食者的獵殺。他們修改帶通濾波器和幀大小并結(jié)合梅爾頻率倒譜系數(shù) (Mel-scale frequency cepstral coefficients, MFCC) 和LSTM 遞歸神經(jīng)網(wǎng)絡(luò)進行叫聲分析。研究結(jié)果顯示,在訓練集上達到了94.0%的準確率,在測試集上達到了92.6%的準確率,因而這一方法對于保護休斯頓蟾蜍具有積極的意義。Nanni等 (2020) 在鳥類、蝙蝠和鯨魚音頻數(shù)據(jù)集上測試了6 種不同的CNN (AlexNet、GoogleNet、Vgg-16、Vgg-19、ResNet 和Inception),發(fā)現(xiàn)可以對多個CNN 進行微調(diào)和融合,以實現(xiàn)魯棒強和廣泛適用的動物音頻分類。這些研究表明,深度學習技術(shù)在野生動物聲音識別和分類方面具有很大的應(yīng)用潛力,證明了其在多物種語音識別中的可行性。未來的研究可以探索如何解決存在多種物種時的聲音識別問題,并通過不斷優(yōu)化算法和模型,促進野生動物保護和管理工作。

海洋哺乳動物會產(chǎn)生各種各樣的聲音,而水下環(huán)境聲音嘈雜,對音頻識別造成一定困難。虎鯨 (Orcinus orca) 叫聲特別,Bergler 等 (2019) 基于ResNet 識別了虎鯨的聲音,測試準確率高達94.0%。由于虎鯨、長肢領(lǐng)航鯨 (Globicephala melas) 和豎琴海豹 (Pagophilus groenlandicus) 生活區(qū)域高度重疊,Lu等 (2021) 使用CNN 檢測和分類這3 種海洋哺乳動物的聲音,每個經(jīng)過訓練的模型只需1.3 ms 即可檢測或分類,整體準確度達97.4%。Madhusudhana 等 (2021) 利用CNN 和LSTM 網(wǎng)絡(luò)模型的組合識別長須鯨 (Balaenoptera physalus) 的聲音,提示聲音的時序性在識別野生動物音頻中的潛在價值。但是Bergler 等 (2019) 的算法僅限于虎鯨聲音識別,無法適用于其他野生動物聲音的識別和分類,而Lu 等 (2021) 的方法可以識別3 種海洋動物。上述研究都探討了使用深度學習技術(shù)識別和分類野生動物聲音的問題,并通過不同的網(wǎng)絡(luò)結(jié)構(gòu)和模型構(gòu)建方式,取得了較高的識別和分類準確率。此外,我們還需要建立更加完善和廣泛的野生動物聲音數(shù)據(jù)集,并將深度學習技術(shù)與其他技術(shù)結(jié)合使用,以實現(xiàn)更加全面、系統(tǒng)和有效的野生動物保護和管理工作。目前人們對野生動物的音頻識別興趣日益濃厚,而大多數(shù)聲學研究集中在相對不受干擾的棲息地 (Gibbet al.,2019),例如森林和海洋,但是人為噪聲或者雜音可能會干擾目標野生動物的識別。野生動物聲學研究對象主要是翼手目和靈長目,而對其他陸生野生動物的研究較少,有待進一步研究 (馬海港和范鵬來,2023)。此外,野生動物群落、環(huán)境以及聲音三者的聯(lián)系有待探索 (Tobiaset al., 2014),同樣也是一個重要的研究方向之一。

3 深度學習的優(yōu)勢及存在問題

在野生動物保護中,深度學習模型可以代替人工識別或監(jiān)測,并通常具有更高準確性。深度學習模型經(jīng)過訓練后即可實現(xiàn)不間斷工作,有助于減少人為活動對野生動物產(chǎn)生的影響,減少野生動物保護工作者在野外遇到危險的可能性。針對不同數(shù)據(jù)集,深度學習可以快速學習野生動物特征,不需要像人一樣依據(jù)自身經(jīng)驗和足夠的知識儲備,主觀識別相似或者相近的野生動物。由于數(shù)據(jù)共享和開源,大眾可以廣泛訪問深度學習模型和數(shù)據(jù)集,有利于模型的優(yōu)化和改進。此外,與傳統(tǒng)機器學習相比,深度學習無需手動提取特征 (Segebarthet al., 2020),并且能夠依靠遷移學習,將模型推廣到其他對象中,減少訓練時間。

深度學習是近年來的研究熱點之一,但還未在野生動物保護領(lǐng)域得到廣泛應(yīng)用,深度學習仍然存在一些問題和挑戰(zhàn)。

野生動物的數(shù)據(jù)集獲取較為困難,相關(guān)數(shù)據(jù)集較少。深度學習模型的訓練,往往需要大量的樣本數(shù)據(jù)。而野生動物的數(shù)據(jù)集往往需要在野外通過一系列工具獲取,例如自動隱蔽攝像機、紅外相機或無人機等。如想獲取海洋生物的信息,所需要的設(shè)備要求更高,例如防水相機 (Liet al.,2022)。而在野外所獲取的原始數(shù)據(jù)非常龐大,往往摻雜著許多無用的信息。當區(qū)域內(nèi)野生動物較少或者不活躍時,難以收集到目標野生動物的視頻、音頻和圖像,可能只含有大量無效的背景環(huán)境或背景音。目標野生動物的數(shù)據(jù)太小,則可能導致模型的泛化能力變差,識別準確率降低,但過多的數(shù)據(jù)又可能會因模型過擬合導致在測試集中的準確率降低。此外,由于植物遮擋、天氣、拍攝角度等問題,所收集的數(shù)據(jù)質(zhì)量可能不高,需要對這些低質(zhì)量的數(shù)據(jù)進行人工或者計算機的預處理,否則會影響后續(xù)深度學習建模。因而,建立更多高質(zhì)量野生動物數(shù)據(jù)集以及用更高效便捷方式獲取野生動物的數(shù)據(jù)是當前面臨挑戰(zhàn)之一。

深度學習模型訓練所需時間和金錢成本較高。雖然深度學習模型在應(yīng)用時速度非???,但在訓練深度學習模型時耗時較長,并且需要具有強大計算能力的硬件支持。Hou 等 (2020) 使用GPU NVIDIA Quadro P5000 (16 GB) 訓練65 000 張大熊貓面部圖像,耗時7 h。另外,所用的模型本身可能過于龐大,訓練過程中為了達到較高準確率和獲得更高性能,需要調(diào)整各類參數(shù)。但昂貴的硬件、復雜的參數(shù)以及耗時的訓練,一定程度上限制了深度學習在野生動物保護中的應(yīng)用。

上述問題是未來需要研究和探索的,首先盡管目前已經(jīng)構(gòu)建了一些野生動物的公共數(shù)據(jù)集,但是公共數(shù)據(jù)集較少,因而在未來需要構(gòu)建更加全面的野生動物數(shù)據(jù)集,以便于全世界的研究人員測試并改進優(yōu)化模型;其次,對于樣本數(shù)較少的數(shù)據(jù)集,不僅可以采用旋轉(zhuǎn)、平移、鏡像、裁剪等方法 (丁劍勇等,2022) 實現(xiàn)數(shù)據(jù)增強,還可以建立針對小樣本的深度學習模型用于數(shù)據(jù)增強,比如GAN 可以生成比原始圖像更清晰、更真實的圖像 (Zhanget al., 2023);此外,輕量級的深度學習模型具有體積小和檢測速度快的優(yōu)勢 (楊銘倫等,2022),因而構(gòu)建輕量級的深度學習模型既可以降低硬件的計算要求,還可以嵌入便攜式設(shè)備并提高處理數(shù)據(jù)的效率。輕量級的深度學習模型和野外便攜式監(jiān)測設(shè)備相結(jié)合有助于提高監(jiān)測效率,是未來的研究方向之一。

4 總結(jié)和展望

本文介紹了深度學習的原理,回顧了深度學習在野生動物保護方面起到的重要作用,并分析了深度學習的優(yōu)勢以及存在的問題。野生動物保護方法正在經(jīng)歷由人工向自動化逐漸轉(zhuǎn)變的過程,由純?nèi)斯けWo發(fā)展到紅外相機、衛(wèi)星遙感、無人機等設(shè)備輔助人工保護,進一步發(fā)展出設(shè)備結(jié)合深度學習輔助人工保護。傳統(tǒng)上,想要保護野生動物需要大量專業(yè)的生物學家在范圍廣闊且充滿危險的野外尋找并識別目標野生動物。而現(xiàn)在,可以將設(shè)備部署到野外,通過深度學習模型直接自動化識別野生動物,降低了人為因素對野生動物棲息地的影響,減少人工處理設(shè)備所產(chǎn)生的大量數(shù)據(jù)。此外,非專業(yè)人士也可以參與野生動物保護,無需大量人力投入,也減少了野外探索的時間,避免在野外遇到危險,識別并追蹤野生動物會更加容易。依托深度學習,在未來能夠?qū)崿F(xiàn)野生動物個體及群體的精準監(jiān)測與保護。針對具體單一個體,深度學習可以分析個體的行為以及健康狀態(tài),進一步識別個體和個體之間的通信交流及互動情況,有助于了解該野生動物群體的狀態(tài),為野生動物保護提供啟示。目前已經(jīng)建立的各類自然保護區(qū)和國家公園,保護成效顯著 (游劍瀅,2022),再結(jié)合計算機技術(shù)、生物學、生態(tài)學、機械等學科,能夠開發(fā)綜合性一體化野生動物保護預警平臺,實現(xiàn)從個體到群體的多方位保護機制。

隨著深度學習算法的不斷發(fā)展,其在野生動物保護中的應(yīng)用將越來越廣泛。目前,深度學習作為一種出色的技術(shù)已經(jīng)應(yīng)用于野生動物視頻識別、圖像識別、安全監(jiān)測以及音頻識別。但是與任何其他強大的技術(shù)一樣,深度學習并不完美,也存在著一些問題,比如數(shù)據(jù)集的獲取以及深度學習模型的缺陷。因而,計算機、數(shù)學、生態(tài)學以及生物學等不同領(lǐng)域的專家需要針對這一系列問題進一步深入研究并密切合作。隨著深度學習模型的開發(fā)和優(yōu)化以及各類公共野生動物數(shù)據(jù)集的不斷出現(xiàn),相信將來深度學習可以更好地助力野生動物保護,使野生動物遠離滅絕的威脅。

猜你喜歡
野生動物卷積深度
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
保護野生動物
少先隊活動(2020年7期)2020-12-18 01:48:39
深度理解一元一次方程
保護野生動物
少先隊活動(2020年8期)2020-09-11 06:43:12
保護野生動物
保護野生動物
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
深度觀察
深度觀察
深度觀察
昭通市| 宁强县| 黑水县| 合山市| 垣曲县| 班戈县| 珲春市| 潼关县| 额济纳旗| 山丹县| 黎川县| 平南县| 巫溪县| 乐山市| 绥阳县| 内江市| 靖远县| 施秉县| 乐都县| 佳木斯市| 公安县| 崇州市| 嵊泗县| 陈巴尔虎旗| 鄂州市| 铁力市| 买车| 平武县| 东宁县| 姚安县| 社旗县| 天气| 桦南县| 镇平县| 神木县| 大同市| 于都县| 嘉禾县| 云阳县| 恩平市| 井冈山市|