蔣敏,田元,吳偉志,朱力力,劉妙燕
(1.浙江省長興縣自然資源和規(guī)劃局,浙江 長興 313100;2.浙江弄潮兒智慧科技有限公司,浙江 杭州 310030;3.浙江省森林資源監(jiān)測中心,浙江 杭州 310020)
鳥類是開展生物多樣性監(jiān)測的指示類群,對濕地生態(tài)系統(tǒng)評價與監(jiān)測有重要作用。美國、英國等發(fā)達(dá)國家已經(jīng)建立了國家尺度的鳥類監(jiān)測網(wǎng)絡(luò)并取得了很好的效果。我國鳥類監(jiān)測網(wǎng)絡(luò)尚待完善,鳥類監(jiān)測也多采用常規(guī)人工觀測方法,需消耗大量人力與時間,具有很大的局限性[1]。隨著數(shù)字化基礎(chǔ)設(shè)施的不斷完善,運(yùn)用人工智能技術(shù)輔助鳥類監(jiān)測成為可能。長興仙山湖國家濕地公園主管部門積極推進(jìn)濕地中鳥類保護(hù)的智慧化、數(shù)字化管理,不斷夯實(shí)基礎(chǔ),運(yùn)用數(shù)字化的手段構(gòu)建智慧化監(jiān)測體系,建設(shè)了智慧濕地管理系統(tǒng),包括一套鳥類全景觀測系統(tǒng)。該系統(tǒng)在2020 年10 月底上線試運(yùn)行,12 月初通過驗(yàn)收。該數(shù)字化管理系統(tǒng)的實(shí)施運(yùn)行,為運(yùn)用人工智能技術(shù)實(shí)現(xiàn)全景觀測中的鳥類識別提供了基礎(chǔ)條件。
當(dāng)前,基于深度學(xué)習(xí)的人工智能算法發(fā)展迅速,但算法普遍較為復(fù)雜且需要大量數(shù)據(jù)進(jìn)行訓(xùn)練建模,對數(shù)據(jù)量和算力都有較高要求。現(xiàn)有的鳥類識別算法往往需要具有充足特征的特寫圖,依賴于鳥的頭、翅等重點(diǎn)區(qū)域的特征提取[1]。但是,野外鳥類觀測,尤其是珍稀鳥類觀測往往面臨著數(shù)據(jù)不足的問題。同時,現(xiàn)場實(shí)施環(huán)境下的監(jiān)控視頻視角廣、距離遠(yuǎn),很難獲取特寫圖像。因此,前述算法很難適用鳥類全景觀測系統(tǒng)中的現(xiàn)場實(shí)時檢測識別的要求。為解決上述問題,選擇結(jié)合傳統(tǒng)檢測算法和深度學(xué)習(xí)算法,用計算機(jī)視覺算法庫中的級聯(lián)分類器(Cascade Classifier)進(jìn)行檢測,將檢測到的區(qū)域交由深度學(xué)習(xí)框架中的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)做分類,兩種算法融合作為系統(tǒng)數(shù)據(jù)處理的核心算法,將其在實(shí)際鳥類觀測中利用訓(xùn)練樣本集數(shù)據(jù)進(jìn)行訓(xùn)練,并檢測識別模型經(jīng)訓(xùn)練后,進(jìn)行測試驗(yàn)證,如達(dá)到工程可用的程度(準(zhǔn)確率>85%),可應(yīng)用于已知鳥類的自動化實(shí)時監(jiān)測識別,可以輔助發(fā)現(xiàn)未知鳥類。
浙江省長興縣位于浙江省最北端,東臨太湖,與蘇州、無錫隔湖相望,位于江蘇、浙江、安徽三省結(jié)合部。長興仙山湖國家濕地公園(以下簡稱仙山湖濕地公園)地處長興縣泗安鎮(zhèn)西部,毗鄰泗安鎮(zhèn)鎮(zhèn)區(qū),地理坐標(biāo)為119°33′51″~ 119°37′43″E,30°52′08″~ 30°55′25″N,是長三角地區(qū)自然濕地生態(tài)系統(tǒng)與人工湖泊濕地的典型代表,是具豐富生物多樣性的濕地生態(tài)系統(tǒng)[2]。仙山湖濕地公園土地總面積為2 269.2 hm2,其中濕地面積為695.31 hm2、非濕地面積為1573.89 hm2,濕地率為30.6%。公園內(nèi)有河流濕地(永久性河流、洪泛平原)、沼澤濕地(草本沼澤、森林沼澤)和人工濕地(庫塘、水產(chǎn)養(yǎng)殖場)共3 大類5 型,濕地類型多樣,各類濕地型面積分別為:永久性河流濕地26.14 hm2,占3.7%,洪泛平原濕地50.77 hm2,占7.3%,草本沼澤36.14 hm2,占5.2%,森林沼澤7.48 hm2,占1.1%,庫塘濕地532.57 hm2,占76.6%[3]。
仙山湖濕地公園生態(tài)系統(tǒng)食物鏈結(jié)構(gòu)比較完善,其中,淡水魚類有7 目13 科59 種,鳥類有12 目35 科109種[2,4],其大面積的湖面、湖灘以及河流、溝渠、水田、苗圃地、旱地、山林構(gòu)成了相對完整而復(fù)雜的生態(tài)環(huán)境,加上當(dāng)?shù)厮a(chǎn)養(yǎng)殖大戶的漁業(yè)生產(chǎn),吸引了眾多鳥類棲息,庫塘邊、河流、山丘和農(nóng)田周圍區(qū)域均是鳥類覓食場所,常見成群鳥類在水面、灘涂、河流覓食棲息。目前,針對仙山湖濕地公園的總體規(guī)劃[3]、生態(tài)服務(wù)功能價值[4]、土壤重金屬空間分布特征與生態(tài)風(fēng)險評價[5]、樹種富集重金屬特征研究[6]、森林風(fēng)景資源調(diào)查評價[7]已陸續(xù)開展,但是對仙山湖濕地公園鳥類資源的相關(guān)調(diào)查鮮見報道。仙山湖濕地公園的鳥類在動物地理區(qū)劃上屬東洋界華東區(qū),濕地公園內(nèi)廣布種所占比例最大,東洋界和古北界鳥類占三分之一。種類以鷺科Ardeidae、伯勞科Laniidae 的鳥類最多,如白鷺Egretta garzetta、蒼鷺Ardea cinerea、池鷺Ardeola bacchus、棕背伯勞Lanius schach等;國家Ⅱ級保護(hù)動物有8 種,浙江省重點(diǎn)保護(hù)動物有5 種,見表1[3]。
表1 仙山湖濕地公園鳥類保護(hù)動物名錄Table 1 List of protected birds in Xianshanhu Wetland Park
因?yàn)樾枰罅繑?shù)據(jù)進(jìn)行訓(xùn)練、建模,在系統(tǒng)建設(shè)初期數(shù)據(jù)量不足的情況下,常規(guī)基于深度學(xué)習(xí)的人工智能算法難以適用。現(xiàn)有的鳥類識別算法往往依賴于鳥的頭部、翅部等重點(diǎn)區(qū)域的特征檢測[1],需要獲取具有充足特征的特寫圖。而現(xiàn)場實(shí)施環(huán)境下的監(jiān)控攝像機(jī)視角廣、距離遠(yuǎn),特寫圖像在現(xiàn)場實(shí)施環(huán)境下很難獲取,如圖1。
圖1 鳥類特寫與遠(yuǎn)景對比圖Figure 1 Close-up and distant view
由于上述因素,選擇將傳統(tǒng)檢測算法和深度學(xué)習(xí)相結(jié)合,用計算機(jī)視覺算法庫中的級聯(lián)分類器進(jìn)行檢測,將檢測到的區(qū)域交由深度學(xué)習(xí)框架中的CNN 做分類,兩種算法融合作為系統(tǒng)數(shù)據(jù)處理中心(System Data Processing Center,SDPC)的核心算法。
該算法的核心為卷積神經(jīng)網(wǎng)絡(luò),并在此基礎(chǔ)上構(gòu)建多階段Hubel-Wiesel 結(jié)構(gòu),模仿人眼提取圖像特征的過程。如圖2 所示,使用一個卷積核去從左至右、從上至下掃描整張圖片,卷積得到特征圖(feature map),相較于一般的全連接網(wǎng)絡(luò),卷積網(wǎng)絡(luò)參數(shù)共享,參數(shù)量大大減少,且提升了對圖像的特征提取能力。
圖2 二維卷積過程Figure 2 2D convolution process
CNN 包含了對輸入輸出間廣泛的假設(shè)空間,在訓(xùn)練過程中通過大量訓(xùn)練數(shù)據(jù),逐漸構(gòu)建輸入輸出的映射關(guān)系。CNN 的模型結(jié)構(gòu)如圖3,除了輸入輸出層,還有卷積、激活、池化、全連接層等。激活層賦予了網(wǎng)絡(luò)的非線性表達(dá)能力,使得網(wǎng)絡(luò)真正具備擬合復(fù)雜映射關(guān)系的能力。池化層用來舍棄冗余信息,進(jìn)行快速下采樣。最終轉(zhuǎn)化為一維全連接層,方便輸出和計算損失。其中,卷積層+激活層+池化層常作為一個組合在網(wǎng)絡(luò)中重復(fù)使用,增加網(wǎng)絡(luò)深度,這也是“深度”學(xué)習(xí)的名字由來。
圖3 系統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)Figure 3 Convolution neural network
2.3.1 卷積運(yùn)算 卷積運(yùn)算的計算公式如下:
式中,i表示第i層參數(shù),X代表輸入,Y代表輸出,b代表偏置,W表示卷積核權(quán)重,x、y、z為三維矩陣值。f(x)表示所用的激活函數(shù),*為卷積符號。
2.3.2 級聯(lián)分類器算法 在級聯(lián)分類器算法中采用HOG 梯度直方圖計算圖像橫坐標(biāo)和縱坐標(biāo)方向的梯度,圖像中像素點(diǎn)(x,y)的梯度為:
式中,Gx(x,y)表示像素點(diǎn)(x,y)的水平方向梯度,Gy(x,y)表示像素點(diǎn)(x,y)的垂直方向梯度。
通過Gx(x,y)和Gy(x,y)計算該像素點(diǎn)的梯度大小和方向:
式中,G(x,y)為梯度大小,θ(x,y)為梯度方向。
2.3.3 HOG 特征提取流程(1)灰度化[將圖像看做一個x、y、z(灰度)的三維圖像);(2)采用Gamma校正法對輸入圖像進(jìn)行顏色空間的標(biāo)準(zhǔn)化(歸一化),目的是調(diào)節(jié)圖像的對比度,降低圖像局部的陰影和光照變化所造成的影響,同時可以抑制噪音的干擾;(3)計算圖像每個像素的梯度(包括大小和方向);(4)將圖像劃分成小cells(例如6*6 像素/cell);(5)統(tǒng)計每個cell 的梯度直方圖(不同梯度的個數(shù)),即可形成每個cell 的HOG 特征descriptor;(6)將每幾個cell 組成一個block(例如3*3 個cell/block),一個block 內(nèi)所有cell 的特征descriptor 串聯(lián)起來便得到該block 的HOG 特征descriptor;(7)將圖像image 內(nèi)的所有block 的HOG特征descriptor 串聯(lián)起來得到該目標(biāo)圖像的HOG 特征descriptor,即為最終供分類使用的HOG 特征向量。
通過級聯(lián)分類器生成目標(biāo)模型文件捕捉目標(biāo)輪廓,將捕捉到圖像數(shù)據(jù)輸入檢測器,生成圖像的特征矩陣、坐標(biāo),計算出標(biāo)簽概率值。標(biāo)簽概率值越大表明與該目標(biāo)圖像的相似度越接近。
針對斑魚狗Ceryle rudis、蒼鷺、戴勝、羅紋鴨Anas falcata、夜鷺Nycticorax nycticorax這5 種鳥類的訓(xùn)練樣本集數(shù)據(jù)進(jìn)行了訓(xùn)練,訓(xùn)練樣本數(shù)為8 055 張圖片,訓(xùn)練集損失值收斂于1.61。在挑選樣本時,選擇了部分鳥類的特寫照片和遠(yuǎn)景照片,以增加模型的泛化能力,適應(yīng)實(shí)際應(yīng)用中遠(yuǎn)景鏡頭的現(xiàn)實(shí)場景。5 種鳥類的訓(xùn)練集樣本對目標(biāo)鳥類使用矩形框標(biāo)記,標(biāo)簽統(tǒng)計數(shù)據(jù)如圖4。圖4A 的柱狀圖顯示了每種鳥類的樣本標(biāo)簽數(shù)量,其中Class 0-4 分別對應(yīng)于斑魚狗、蒼鷺、戴勝、羅紋鴨、夜鷺;圖4B 表明標(biāo)簽中心點(diǎn)的分布情況,每個樣本圖的坐標(biāo)都做了歸一化處理,取值范圍是0~ 1.0,(x,y)是標(biāo)簽中心點(diǎn)的坐標(biāo),每個點(diǎn)的顏色在色柱中從下到上代表散點(diǎn)密度由低到高;圖4C 中width、height 分別為矩形標(biāo)簽經(jīng)過歸一化處理后的寬、高,每個點(diǎn)顏色在色柱中從下到上代表散點(diǎn)密度由低到高。以上圖4B、C 分布圖反映了鳥類訓(xùn)練集中鳥類近景、遠(yuǎn)景照片的分布情況。
圖4 訓(xùn)練集標(biāo)簽信息Figure 4 Labeling information of training set
檢測識別模型經(jīng)訓(xùn)練后,進(jìn)行測試驗(yàn)證,驗(yàn)證集數(shù)量為3 213張,驗(yàn)證集準(zhǔn)確率為87.75%~ 96.47%(見表2),初步達(dá)到可以工程應(yīng)用的程度(>85%)。更進(jìn)一步,使用訓(xùn)練后的模型算法對仙山湖濕地公園中現(xiàn)場視頻監(jiān)控設(shè)備回傳的視頻進(jìn)行實(shí)時監(jiān)測、抓拍,實(shí)現(xiàn)了目標(biāo)鳥類的實(shí)時監(jiān)測識別圖5A、B。同時,由圖5C 可見,對于未進(jìn)行訓(xùn)練建模的鳥類,系統(tǒng)檢測算法將進(jìn)行目標(biāo)檢測并分類為“Bird”,研究人員可以據(jù)此進(jìn)行人工介入、分析識別,從而為發(fā)現(xiàn)未知鳥類、為生物多樣性保護(hù)的自動化、全天候、實(shí)時監(jiān)控提供技術(shù)支撐。
表2 鳥類驗(yàn)證樣本數(shù)及準(zhǔn)確率Table 2 Bird verification samples and accuracy rate
圖5 鳥類實(shí)時檢測結(jié)果Figure 5 Real time detection
近年來基于深度學(xué)習(xí)的目標(biāo)檢測算法發(fā)展迅速,在提升檢測精度的同時減少了網(wǎng)絡(luò)訓(xùn)練對算力的依賴。但深度學(xué)習(xí)算法需要大量數(shù)據(jù)進(jìn)行訓(xùn)練建模,而鳥類資源保護(hù)尤其是珍稀瀕危鳥類保護(hù)面臨的現(xiàn)實(shí)問題就是原始數(shù)據(jù)嚴(yán)重不足。本文在初始樣本數(shù)量有限的情況下,采用級聯(lián)分類器和卷積神經(jīng)網(wǎng)絡(luò)人工智能識別技術(shù)作為鳥類檢測和分類的輔助工具。對5 種仙山湖常見鳥類進(jìn)行建模、訓(xùn)練,經(jīng)驗(yàn)證集測試驗(yàn)證,準(zhǔn)確率為87.75%~ 96.47%,初步達(dá)到工程可用的程度(準(zhǔn)確率>85%)。該方法可應(yīng)用于已知鳥類的自動化實(shí)時監(jiān)測識別,并輔助實(shí)現(xiàn)對未知鳥類的監(jiān)測與發(fā)現(xiàn),為生物多樣性保護(hù)提供技術(shù)支撐。
本算法應(yīng)用于大視角、遠(yuǎn)視場,缺少對鳥類圖像細(xì)部特征的應(yīng)用,檢測準(zhǔn)確率還有較大的提升空間。后續(xù)為提高鳥類識別的準(zhǔn)確率,將在模型訓(xùn)練中進(jìn)一步融合鳥類細(xì)部特征,優(yōu)化網(wǎng)絡(luò)模型。同時,需要加大對鳥類觀測數(shù)據(jù)的采集力度,持續(xù)積累監(jiān)測數(shù)據(jù)。在積累更多樣本數(shù)據(jù)的基礎(chǔ)上,加大模型訓(xùn)練的力度。后續(xù)隨著原始數(shù)據(jù)的積累,逐步將算法的主體部分全部轉(zhuǎn)為深度學(xué)習(xí)算法,級聯(lián)分類器則作為圖像預(yù)處理和增強(qiáng)的輔助技術(shù)。在推理速度方面,應(yīng)用神經(jīng)網(wǎng)絡(luò)的剪枝量化等模型壓縮方式,減少網(wǎng)絡(luò)計算量。通過以上改進(jìn)優(yōu)化措施,預(yù)期可以進(jìn)一步提升檢測準(zhǔn)確率、提高檢測速度,最終實(shí)現(xiàn)在前端設(shè)備上的在場在線檢測。