張巖,羅小玲,潘新
(內(nèi)蒙古農(nóng)業(yè)大學(xué) 計算機與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010018)
草原生態(tài)系統(tǒng)承擔(dān)著防風(fēng)固沙,調(diào)節(jié)氣候,維護(hù)生物多樣性等功能。鼠類作為其中的一員,其數(shù)量變化對生態(tài)平衡至關(guān)重要[1]。近年來,由于過度開墾,草原植被生長周期變長,植被矮小,覆蓋率低,為鼠類生存提供了合適的生存環(huán)境,導(dǎo)致鼠類猖獗。嚴(yán)重威脅了草原生態(tài)環(huán)境和生物多樣性,也制約著畜牧業(yè)的經(jīng)濟發(fā)展[2]。因此,動態(tài)的觀察鼠類變化,加強鼠害監(jiān)測,有利于及時開展防治,對生態(tài)改善和畜牧業(yè)發(fā)展具有重大意義。
隨著草業(yè)信息技術(shù)的發(fā)展,無人機結(jié)合圖像處理在鼠害監(jiān)測領(lǐng)域得到了廣泛的應(yīng)用。周曉琳等[3]通過分割影像,選取出典型特征樣本并生成初始模板,對有鼠洞的區(qū)域進(jìn)行模板匹配,標(biāo)記正確樣本并更新模板,不斷提高匹配精度;溫阿敏等[4]用低空無人機遙感對鼠洞密度進(jìn)行監(jiān)測,通過3 類對象分類方法來提取鼠洞分布信息,并分析評價鼠洞提取的適用性和分類精度;馬濤等[5]結(jié)合以往鼠害調(diào)查規(guī)律,發(fā)現(xiàn)鼠洞分布規(guī)律與地形之間存在關(guān)系,用無人機低空遙感影像提取地形因子數(shù)據(jù),為研究地形與鼠洞關(guān)系奠定基礎(chǔ);花蕊等[6]通過提取無人機影像中洞口數(shù)、地表生物量等指標(biāo),構(gòu)建多因子綜合指標(biāo)體系對研究區(qū)危害等級進(jìn)行劃分,為高效準(zhǔn)確監(jiān)測鼠害提供技術(shù)支持;熊瑞東等[7]使用4 種監(jiān)督分類方法對無人機影像中的鼠洞進(jìn)行提取分類并對比分析分類方法效果,為后續(xù)鼠害信息提取奠定基礎(chǔ)。但是,傳統(tǒng)的鼠洞提取過程復(fù)雜、繁瑣,且生成的模型泛化性不強。
隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域的發(fā)展[8],目標(biāo)檢測算法也從傳統(tǒng)手工提取變?yōu)樯疃染矸e神經(jīng)網(wǎng)絡(luò)訓(xùn)練,精度、速度都得到了較大的提升。周俗等[9]用Mask R-CNN 網(wǎng)絡(luò)和Res2Net 網(wǎng)絡(luò)對鼠洞、次生裸地等地形地物進(jìn)行分割并統(tǒng)計面積,結(jié)合不同地物特征比例和數(shù)量關(guān)系來預(yù)測草原發(fā)展趨勢,建立鼠害監(jiān)測模型;崔博超等[10]用YOLOv3 網(wǎng)絡(luò)與YOLOv3-tiny 網(wǎng)絡(luò)重新聚類先驗框來訓(xùn)練鼠洞數(shù)據(jù)集,實現(xiàn)了對大沙鼠洞的識別定位;Wan等[11]從增加特征信息出發(fā),在SSD 前置卷積網(wǎng)絡(luò)上,減少對某些層的連接,并與Faster R-CNN、傳統(tǒng)的人工檢測進(jìn)行對比,對鼠洞有較好的識別效果。以上深度學(xué)習(xí)的方法雖然涉及到算法的對比實現(xiàn)和精度的提高,但是沒有考慮現(xiàn)實場景下的鼠洞拍攝存在的多種情形,數(shù)據(jù)集較為單一,導(dǎo)致模型魯棒性較差。
為此,本研究以YOLOv5s 為基礎(chǔ)網(wǎng)絡(luò),針對自然環(huán)境下拍攝的鼠洞存在特征弱、信息量少、容易受遮擋且與地物高度融合等情況,導(dǎo)致目標(biāo)不易識別,檢測精度較低。從特殊情形檢測的魯棒性出發(fā),對算法進(jìn)行優(yōu)化改進(jìn),旨在實現(xiàn)復(fù)雜場景下鼠洞的精確定位,為鼠害監(jiān)測在鼠洞檢測指標(biāo)方面提供模型依據(jù)。
本文的試驗區(qū)域位于內(nèi)蒙古自治區(qū)包頭市達(dá)爾罕茂明安聯(lián)合旗東南部的希拉穆仁鎮(zhèn)S104 省道南側(cè),東與四子王旗毗鄰,南與武川縣接壤。地理坐標(biāo)為東經(jīng)109°,北緯41.32°,植被較為稀疏和低矮,鼠類物種豐富,主要鼠類包括長爪沙鼠、大沙鼠、中華鼢鼠和五趾跳鼠等[12-13]。數(shù)據(jù)采集平臺為大疆御Mavic2 變焦版無人機,為豐富數(shù)據(jù)集特征,對夏季7 月和冬季12 月的草地鼠洞進(jìn)行拍攝。
由于采集到的圖像鼠洞目標(biāo)樣本少,為使模型學(xué)習(xí)到更多特征來提高泛化能力及避免過擬合,需要對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強。本文除使用鏡像翻轉(zhuǎn)、倒置和旋轉(zhuǎn)等方法擴充數(shù)據(jù)集外,還模擬拍攝因時間、天氣等因素帶來的影響,對圖像進(jìn)行模糊、加入噪聲和調(diào)整亮度等處理。
使用伽馬變換修正和增強對比度灰度過高或者過低的圖片;對圖像進(jìn)行模糊處理來增強檢測干擾,提升訓(xùn)練魯棒性;通過摳圖的方式裁剪目標(biāo)樣本,采用貼圖的方法隨機粘貼到數(shù)據(jù)集并進(jìn)行平滑處理,最后篩選出合格的數(shù)據(jù)集進(jìn)行訓(xùn)練。最終得到數(shù)據(jù)集共計圖像2036 張,以8∶2 的比例劃分訓(xùn)練集1629 張、測試集407 張。用LabelImg標(biāo)注工具對鼠洞(mousehole)目標(biāo)進(jìn)行標(biāo)注,并轉(zhuǎn)換成YOLO 框架的TXT 類型標(biāo)簽文件。
(1)伽馬校正。對部分?jǐn)?shù)據(jù)集進(jìn)行伽馬校正,展示具體細(xì)節(jié)信息,方便目標(biāo)標(biāo)注,如圖1 所示??梢钥闯霎?dāng)γ 值為0.5 時,鼠洞的輪廓更容易分辨,當(dāng)γ 值為1.5 時,與地面背景融合度更高,不容易區(qū)分。
圖1 伽馬校正圖像Fig.1 Gamma correction images
(2)模糊處理。高斯模糊作為低通濾波的一種,通過對圖像進(jìn)行平滑處理來達(dá)到模糊的效果,但是操作過程中作用不明顯,如圖2(b)所示。因此,通過設(shè)置PhotoShop 中動感模糊的參數(shù)來模擬拍攝過程中模糊的圖像,效果如圖2(c)所示。
(3)貼圖處理。對包含鼠洞目標(biāo)較少的圖像進(jìn)行相同背景下的套索摳圖、復(fù)制粘貼等操作,增加鼠洞目標(biāo)占比。因為摳圖目標(biāo)周圍背景顏色相差不大,對摳出的目標(biāo)進(jìn)行隨機數(shù)據(jù)增強,包括翻轉(zhuǎn)和旋轉(zhuǎn)等,直接復(fù)制粘貼到圖像。貼圖前后對比如圖3 所示。
圖3 貼圖前后對比Fig.3 Comparison before and after texture mapping
YOLOv5s 由Input 輸入端、Backbone 主干網(wǎng)絡(luò)、Neck 頸部網(wǎng)絡(luò)和Detect 檢測頭4 個部分組成,如圖4 所示。
圖4 YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Network structure of YOLOv5s
(1)Input 輸入端:對鼠洞圖像進(jìn)行裁剪、Mosaic 數(shù)據(jù)增強和自適應(yīng)錨框計算;
(2)Backbone 主干網(wǎng)絡(luò):用來進(jìn)行特征提取,YOLOv5-6.0 設(shè)計了2 種CSP 結(jié)構(gòu),C3_X 結(jié)構(gòu)應(yīng)用于Backbone 主干網(wǎng)絡(luò)進(jìn)行特征融合,C3_x_F 結(jié)構(gòu)用于Neck 中用來提取圖像中的特征信息;
(3)Neck 頸部網(wǎng)絡(luò):采用FPN+PAN[14-15]結(jié)構(gòu),如圖5 所示。該結(jié)構(gòu)使用自下而上和自上而下兩種路徑融合主干網(wǎng)絡(luò)的特征信息,實現(xiàn)淺層細(xì)節(jié)信息和深層語義信息的充分結(jié)合。SPP 空間金字塔池化,通過3 種尺寸的最大池化操作,將任意大小的特征圖轉(zhuǎn)換為固定大小的特征向量,并將輸出結(jié)果進(jìn)行拼接。SPPF 用多個小尺寸池化核代替SPP 中單個大尺寸卷積核,來融合不同感受野的特征圖,起到增大感受野的作用;
圖5 FPN+PAN 結(jié)構(gòu)Fig.5 FPN+PAN structure
(4)Detect 檢測頭:對圖像特征進(jìn)行預(yù)測,生成邊框、置信度和分類損失等信息。使用NMS 非極大值抑制進(jìn)行后處理,完成對預(yù)測框的過濾和邊界框參數(shù)的修正,實現(xiàn)目標(biāo)的準(zhǔn)確定位和分類回歸。
1.4.1 ECA 注意力機制
為了解決鼠洞檢測背景復(fù)雜,容易漏檢、誤檢的情況。在圖像檢測任務(wù)中融合注意力機制,更好的關(guān)注鼠洞特征,抑制背景信息干擾。
ECANet[16]是在分析SENet 跨通道交互過程中存在模型降維,會對預(yù)測產(chǎn)生負(fù)面影響的基礎(chǔ)上提出(圖6)。去除了SENet 中的FC(全連接層)層,將全連接改為一維卷積的形式。由于是一種非全連接,因此每次卷積只對部分通道起作用,實現(xiàn)了跨通道交互。在不降維的GAP(Global Average Pooling 全局平均池化層)聚合特征[C,1,1]后,先自適應(yīng)的確定卷積核k 的大小,進(jìn)行一維卷積后,再通過Sigmoid 函數(shù)學(xué)習(xí)通道注意力。k 與C 之間存在映射,通過通道維數(shù)來計算卷積核大小,k 的計算公式為:其中γ=2,b=1。
圖6 ECA 注意力機制Fig.6 ECA attention mechanism
在YOLOv5 中有2 種方法引入注意力機制,第1 種是Backbone 骨干網(wǎng)絡(luò),第2 種是Head 檢測頭。通過試驗發(fā)現(xiàn)將ECA 注意力機制模塊加在Backbone 主干網(wǎng)絡(luò)C3 層的平均檢測精度更高,在C3 模塊中加入ECA 注意力機制,結(jié)合為C3ECA模塊,如圖7 所示。在主干網(wǎng)絡(luò)下采樣的第2 層開始進(jìn)行特征增強,來獲得更多細(xì)節(jié)信息,更加準(zhǔn)確的檢測小鼠洞。
圖7 C3ECA 模塊Fig.7 C3ECA module
1.4.2 轉(zhuǎn)置卷積
卷積神經(jīng)網(wǎng)絡(luò)用來進(jìn)行特征提取,通過多層卷積核池化等操作,在得到豐富語義信息的同時,特征圖也在變小,會丟失目標(biāo)信息。因此,需要將圖像恢復(fù)到原來的尺寸,也就是上采樣。常見的上采樣方法有最鄰近插值、線性插值、轉(zhuǎn)置卷積和反池化等。YOLOv5s 中采用最近鄰插值進(jìn)行上采樣,即缺少的像素直接用最鄰近的顏色生成,但這樣會破壞原圖中像素的漸變關(guān)系。
為了不破壞漸變關(guān)系,使用轉(zhuǎn)置卷積[17]來進(jìn)行上采樣。標(biāo)準(zhǔn)的卷積運算在kernal 矩陣與input矩陣之間建立一個多對一的映射關(guān)系,轉(zhuǎn)置卷積建立了一個標(biāo)準(zhǔn)卷積的逆向操作,形成一對多的映射關(guān)系。由于常規(guī)卷積的操作是不可逆的,所以轉(zhuǎn)置卷積并不是通過輸出矩陣和卷積核計算原始輸入矩陣,而是計算得到保持相對關(guān)系位置的矩陣。轉(zhuǎn)置卷積通過網(wǎng)絡(luò)訓(xùn)練得到可學(xué)習(xí)參數(shù)的適當(dāng)值,采用最優(yōu)的上采樣方法,來恢復(fù)小部分缺失的信息。轉(zhuǎn)置卷積的計算過程如圖8 所示:
對特征圖進(jìn)行補零操作即四邊補K-P-1 個0,單邊補S-1 個0,將卷積核進(jìn)行上下、左右翻轉(zhuǎn)后,進(jìn)行卷積操作。例如,輸入一個3×3 大小的特征圖,步長stride=S=2,padding=P=1,對矩陣進(jìn)行補零操作,填充后變?yōu)?×7 矩陣,將卷積核kernalsize=K=3 上下、左右翻轉(zhuǎn)后,進(jìn)行卷積操作得到5×5 矩陣。轉(zhuǎn)置卷積的計算公式如公式(2)所示:
1.4.3 SIoU Loss
在鼠洞目標(biāo)檢測中,存在2 個距離較近目標(biāo)的回歸框相交出現(xiàn)多框的情況。YOLOv5s 中的回歸損失函數(shù)是CIoU[18],雖然引入了檢測框的長寬比要素,但是只能度量寬高比的一致性,不是真實寬高與其置信度的差異,會阻礙預(yù)測框回歸優(yōu)化。而且對于小鼠洞來說,預(yù)測框和真實框之間的中心點距離作用更明顯,長寬比并不占優(yōu)勢。SIoU[19]從回歸向量之間的方向和夾角出發(fā),引入真實框和預(yù)測框之間的向量角度,對預(yù)測框進(jìn)行x軸或y 軸某一方向的約束,來提高收斂速度。SIoU 由角度成本Angle cost,距離成本Distance cost,形狀成本Shape cost 和IoU cost 四個成本函數(shù)組成。
(1)角度成本:
以預(yù)測框的中心B(bcx,bcy)為出發(fā)點,設(shè)置到真實框中心點距離的橫向軸或縱向軸來降低錨框的自由度,實現(xiàn)沿著相關(guān)軸快速接近真實框,如圖9(a)所示,角度成本計算如公式(3)所示。
圖9 角度成本和距離成本的計算Fig.9 Calculation of angle cost and distance cost
其中,σ 和ch分別表示為真實框和預(yù)測框中心點之間的距離和高度差。
(2)距離成本:
表示預(yù)測框與真實框的最小外接矩形的對角線距離,如圖9(b)所示,距離成本計算公式如公式(4)和公式(5)所示。
其中,cw和ch代表最小外接矩形的寬和高。
(3)形狀成本:
其中,w 和wgt分別表示預(yù)測框與真實框的寬,h 和hgt分別表示預(yù)測框與真實框的高,θ 取值接近4。
最后,得出SIoU 回歸損失函數(shù)為:
圖10 IoU LossFig.10 IoU Loss
1.4.4 改進(jìn)后的YOLOv5s 模型
對于鼠洞這類目標(biāo)的檢測,YOLOv5s 經(jīng)過多次下采樣會丟失鼠洞淺層信息,存在容易漏檢的情況,對于距離較近的鼠洞會出現(xiàn)冗余框。因此,對YOLOv5s 網(wǎng)絡(luò)進(jìn)行改進(jìn)。在主干網(wǎng)絡(luò)加入注意力機制來更好的進(jìn)行特征提取,實現(xiàn)鼠洞的精準(zhǔn)定位和識別;采用轉(zhuǎn)置卷積來學(xué)習(xí)最優(yōu)的上采樣方法,恢復(fù)缺失的鼠洞信息,使模型獲取更多的特征。改進(jìn)后的YOLOv5s 模型如圖11 所示。
圖11 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.11 Improved network structure diagram
本文采用目標(biāo)檢測領(lǐng)域最常用的指標(biāo),檢測精度P、召回率R、平均檢測精度mAP、浮點運算次數(shù)GFLOPS 和每秒檢測幀數(shù)FPS 等指標(biāo)來衡量算法性能,計算公式如下:
其中,TP 表示模型正確檢測出來的鼠洞個數(shù),F(xiàn)P表示模型誤檢的鼠洞個數(shù),F(xiàn)N 表示模型漏檢的鼠洞個數(shù)。P 和R 作為橫縱坐標(biāo)畫出PR 曲線p(r),計算PR 曲線下面積為平均精確度AP,mAP 是各類AP 的平均值,用來衡量模型性能的好壞。
試驗所用的計算機硬件環(huán)境為12th Gen Intel(R)Core(TM) i5-12600KF 3.70 GHz 16.0 GB,NVIDIA GeForce RTX 3080 GPU,軟件環(huán)境為Windows 10 操作系統(tǒng),深度學(xué)習(xí)框架為Pytorch,所用語言為Python。輸入圖像為640×640,訓(xùn)練時batch size 為8,初始化學(xué)習(xí)率為0.01,優(yōu)化器為Adam,可自動調(diào)整學(xué)習(xí)率,學(xué)習(xí)率動量為0.9,權(quán)重衰減為0.000 5。訓(xùn)練中設(shè)置相同的數(shù)據(jù)集和參數(shù),根據(jù)訓(xùn)練生成的數(shù)據(jù)繪制目標(biāo)訓(xùn)練損失函數(shù)曲線,如圖12 所示??梢钥闯銮?0 個epoch 快速擬合,在200 個epoch 左右,loss 值逐漸平緩收斂。因此,訓(xùn)練的epcoch 設(shè)為200。
圖12 訓(xùn)練損失曲線Fig.12 Training loss curve
2.3.1 注意力機制對比試驗
為驗證注意力機制結(jié)合主干網(wǎng)絡(luò)C3 模塊對YOLOv5s 性能的影響,對比SE、CBAM、CA 和ECA 四種主流注意力機制,在相同的環(huán)境下進(jìn)行實驗,結(jié)果如表1 所示??梢钥闯霾皇撬械淖⒁饬C制添加位置對算法都有提升,除了CA 之外,其它3 種算法相比原始YOLOv5s 算法的P、R 和mAP 三類指標(biāo)都有不同程度的提升。其中,SE 的召回率較高,但是檢測精度提升不夠明顯;CBAM的檢測精度、召回率和平均檢測精度分別提升了2.6%、3%和2.7%,檢測精確度最高,平均檢測精度也較高,綜合檢測效果較好;ECA 的召回率和平均檢測精度最高,是在SE 的基礎(chǔ)上增加了通道權(quán)重加權(quán),從而保證通道權(quán)重和通道之間的關(guān)系不被破壞,3 類指標(biāo)相比于SE 分別提高了2%、0.1%和1.3%,綜合檢測效果比SE 更好。所以,本文選擇ECA 結(jié)合C3 模塊進(jìn)行目標(biāo)檢測。
表1 不同注意力機制的對比Table 1 Comparison of different attention mechanisms
2.3.2 消融試驗
為了驗證3 種改進(jìn)策略的有效性,在自建數(shù)據(jù)集上展開消融實驗,并對性能進(jìn)行分析。為了保證試驗的準(zhǔn)確性,訓(xùn)練過程中使用相同的參數(shù)配置,結(jié)果如表2 所示。
表2 消融試驗Table 2 Ablation experiments
可以看出,相較于YOLOv5s 算法,4 種改進(jìn)策略都有不同程度的提升。其中,采用轉(zhuǎn)置卷積優(yōu)化上采樣方法后,P、R、mAP 分別提升了3.2%、2.6%和3.2%,其中精確度提高最為明顯,說明在上采樣過程中能恢復(fù)部分丟失的信息,使提取的鼠洞信息更加充分。在Backbone 主干網(wǎng)絡(luò)中引入ECA 后,P、R、mAP 分別提升了2.5%、3.8% 和2.9%,F(xiàn)PS 達(dá)到67.9。融合ECA 注意力機制可以對重要的通道特征進(jìn)行集中關(guān)注,減少要處理的信息量,結(jié)合C3 模塊不僅減少了模型參數(shù)量,還提升了檢測速度和檢測精度。改變回歸損失函數(shù)為SIoU,P、R 和mAP 分別提高了2.8%、4.3%、1.4%,可以有效減少冗余框,提高召回率,加快模型收斂速度。同時本文提出模型的P、R 和mAP比原始YOLOv5s 提高了3.3%、3.7% 和3.5%,F(xiàn)PS 達(dá)到56.7。在提高平均檢測精度的同時,改進(jìn)后FPS 有所下降,但是仍然可以滿足實時檢測的能力。改進(jìn)前后的模型在數(shù)據(jù)集上得到的mAP如圖13 所示。
圖13 改進(jìn)前后mAP 對比圖Fig.13 Comparison of mAP before and after improvement
2.3.3 鼠洞識別結(jié)果與分析
為驗證所設(shè)計的模型對復(fù)雜場景的檢測效果,對測試集圖像識別結(jié)果進(jìn)行分析。在圖像遮擋、陰影影響、模糊和光線較暗的場景下對鼠洞的識別情況如圖14 所示,識別正確的用白色橢圓表示,多檢或漏檢錯檢用黑色橢圓表示。可以看出改進(jìn)后的模型在鼠洞被遮擋的情況下也能完全識別出鼠洞;在有陰影的情況下,也能避免陰影,只識別鼠洞;在圖像模糊的情況下也能準(zhǔn)確識別鼠洞特征;在光線較暗的情況下,對間隔距離較近的鼠洞也能分別正確框出鼠洞位置,不會出現(xiàn)多框的情況。
圖14 改進(jìn)的模型在不同場景下的識別Fig.14 Recognition of improved model in different scenarios
2.3.4 主流目標(biāo)檢測模型對比
為驗證改進(jìn)算法的有效性,將改進(jìn)的算法與SSD,F(xiàn)aster-RCNN,YOLOv4 這3 種常用目標(biāo)檢測網(wǎng)絡(luò)在數(shù)據(jù)集上進(jìn)行實驗對比,將mAP 與體積、FPS 等作為評價指標(biāo),主流算法性能對比如表3 所示??梢钥闯龈倪M(jìn)后的網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò),有著較高的mAP 值,相對于SSD、Faster-RCNN和 YOLOv4 分別提高 30.61%、13.57% 和21.53%。SSD 雖然識別速度最快,但是平均檢測精度最低;Faster-RCNN 作為二階段目標(biāo)檢測算法,平均檢測精度較高,但是檢測速度最慢;YOLOv4 的體積最大,而且檢測效果不如Faster-RCNN 好。綜上所述,本文提出的模型在平均檢測精度、體積和速度上相對有較優(yōu)秀的表現(xiàn)。
表3 主流算法性能對比Table 3 Performance comparison of mainstream algorithms
選擇光線較暗、模糊和遮擋3 種情形下的鼠洞圖像,進(jìn)行主流算法檢測效果的展示。4 種模型識別結(jié)果如圖15 所示,用藍(lán)色橢圓表示未識別到的鼠洞目標(biāo),白色橢圓表示檢測框重疊多檢情況,用黃色橢圓表示圖像上鼠洞的正確位置??梢钥闯龈倪M(jìn)的網(wǎng)絡(luò)相較于原始YOLOv5s 網(wǎng)絡(luò),對這3 種情況的識別結(jié)果較為準(zhǔn)確,也就是黃色橢圓所框的位置。在模糊和遮擋的情況下YOLOv5s 存在漏檢(圖15d 藍(lán)色橢圓標(biāo)識),改進(jìn)的算法優(yōu)化了上采樣方法,可以恢復(fù)下采樣丟失的信息,一定程度上提高了模型的預(yù)測準(zhǔn)確性。其它3 種算法中SSD 識別效果最差,漏檢情況嚴(yán)重(圖15a 藍(lán)色橢圓標(biāo)識),存在鼠洞識別不出來的情況;Faster-RCNN 雖然可以較為準(zhǔn)確的檢測到目標(biāo),但是對于同一鼠洞存在檢測框冗余的情況(圖15b 白色橢圓標(biāo)識);YOLOv4 漏檢情況嚴(yán)重(圖15c 藍(lán)色橢圓所示),在3 種情況下的檢測均不是很理想。
圖15 不同算法檢測結(jié)果對比Fig.15 Comparison of detection results of different algorithms
現(xiàn)階段使用深度學(xué)習(xí)模型進(jìn)行鼠害監(jiān)測的研究較少,雖然在遙感圖像中將鼠洞歸為小目標(biāo),但是缺少對鼠洞目標(biāo)在圖像中占比的分析,導(dǎo)致“小目標(biāo)”的定義缺乏統(tǒng)一標(biāo)準(zhǔn)。計算機視覺領(lǐng)域[20]將邊界框面積與圖像面積做比,中位數(shù)介于0.08%~0.58%之間的視為小目標(biāo)。對本試驗數(shù)據(jù)集錨框?qū)捀哌M(jìn)行聚類分析,如圖16 所示,可以看出錨框?qū)捀咧饕奂?.05 以下,鼠洞目標(biāo)在整張圖像中的占比集中為為0.25%左右,符合小目標(biāo)的定義。
圖16 數(shù)據(jù)集分析圖Fig.16 Dataset analysis chart
采用YOLOv3 算法和SSD 算法對本研究的數(shù)據(jù)集進(jìn)行訓(xùn)練并測試,發(fā)現(xiàn)實驗效果并沒有崔博超等[10]和Wan 等[11]的研究效果好,檢測準(zhǔn)確率較低,存在鼠洞目標(biāo)識別不出來的情況。其根本原因在于鼠洞檢測領(lǐng)域沒有公共的數(shù)據(jù)集,不同地形、氣候的數(shù)據(jù)集種類和目標(biāo)占比等條件也不盡一致,導(dǎo)致模型檢測準(zhǔn)確率難以界定。另外,本研究發(fā)現(xiàn)不同季節(jié)植被生長狀況及光照影響、拍攝過程中圖像模糊、鼠洞在圖像中占比大小等情況都會影響鼠洞檢測的準(zhǔn)確率。在現(xiàn)實應(yīng)用中,拍攝鼠洞的各類情況都需要考慮進(jìn)去,這樣才能確保檢測模型的普適性。本文從數(shù)據(jù)集的廣泛性和多樣性出發(fā)來提高模型泛化能力,旨在訓(xùn)練出更具魯棒性的鼠洞檢測算法。對比不同深度學(xué)習(xí)算法發(fā)現(xiàn)YOLOv5s 算法對鼠洞的檢測效果較好,檢測準(zhǔn)確率、模型體積和速度都較有優(yōu)勢,因此在其基礎(chǔ)上進(jìn)行算法優(yōu)化改進(jìn),提高檢測準(zhǔn)確率。
針對鼠洞小目標(biāo)與地物高度融合容易誤檢、漏檢的情況,本文從特征提取、特征融合和錨框預(yù)測定位3 個角度出發(fā)。通過融合ECA 注意力機制模塊、重置上采樣方法和更換目標(biāo)檢測損失函數(shù)等方式來優(yōu)化YOLOv5s 模型。改進(jìn)的模型識別鼠洞的平均精確度為98.2%,比原始YOLOv5s 模型提高了3.5%,F(xiàn)PS 達(dá)到了56.7,且在特殊場景下無漏檢、錯檢的情況,可以保證鼠洞檢測的準(zhǔn)確性和實時性。為更豐富的鼠洞拍攝場景提供借鑒,也為鼠洞檢測提供更具通用性的深度學(xué)習(xí)模型。
本文提出的改進(jìn)方法可以明顯改善YOLOv5s 模型出現(xiàn)的誤檢漏檢情況,獲得較好的檢測效果,滿足現(xiàn)實場景下無人機低空遙感鼠洞檢測的精度和速度需求,為鼠害監(jiān)測提供鼠洞檢測這一指標(biāo)的模型支撐。但是,在提高檢測精度的同時,不可避免的會增加模型參數(shù),后續(xù)會把重點放在模型參數(shù)的減少和檢測速度的提升上。同時,鼠洞檢測還需結(jié)合地區(qū)鼠類繁殖變化情況,考慮是否為有效鼠洞,進(jìn)行動態(tài)檢測,綜合判斷。