胡海洋 陳健 張麗蓮 楊林楠
摘要:針對農田異常區(qū)域分割問題,采用特征融合跳躍連接模塊和全局-局部注意力模塊改進UNet網絡模型,提出了一種農田異常區(qū)域實時分割網絡,實現(xiàn)了對多種農田異常區(qū)域的精細分割。結果表明,農田生長異常區(qū)域實時分割模型的平均交并比(MIoU)明顯優(yōu)于其他模型,平均交并比為41.24%;相較于使用UNet作為基線的模型,雖然本研究模型的參數(shù)量略有增加,但農田分割效果明顯提升,MIoU提高了4.16個百分點;與基于Transformer編碼器的SegFormer模型相比,本研究模型的參數(shù)量基本相同,MIoU提高了2.50個百分點。本研究模型通過采用自適應采樣訓練方法確保在每個類別上都能取得出色的分割效果。利用多光譜航空圖像訓練農田生長異常區(qū)域實時分割模型,有助于實現(xiàn)無人機對農田生長進行實時監(jiān)測、預警,推動智慧農業(yè)發(fā)展進程,為自動監(jiān)測農田生長情況提供了新的方法和思路。
關鍵詞:多光譜;農田生長異常區(qū)域;航空圖像;UNet;DeepLabV3+;SegFormer
中圖分類號:S435.12;TP18? ? ? ? ?文獻標識碼:A
文章編號:0439-8114(2024)06-0198-06
DOI:10.14088/j.cnki.issn0439-8114.2024.06.032 開放科學(資源服務)標識碼(OSID):
Real-time segmentation model for abnormal growth areas in farmland
based on multispectral aerial images
HU Hai-yang, CHEN Jian, ZHANG Li-lian, YANG Lin-nan
(College of Big Data/Yunnan Engineering Technology Research Center of Agricultural Big Data/Yunnan Engineering Research Center for Big Data Intelligent Information Processing of Green Agricultural Products,Yunnan Agricultural University, Kunming? 650201,China)
Abstract: In response to the problem of abnormal segmentation in farmland, a feature fusion skip connection module and a global-local attention module were used to improve the UNet network model. A real-time segmentation network for abnormal farmland areas was proposed, which achieved fine segmentation of various abnormal farmland areas. The results showed that the Mean Intersection Union ratio (MIoU) of the real-time segmentation model for abnormal growth areas in farmland was significantly better than that of other models, with a MIoU of 41.24%;compared to the model using UNet as the baseline, although the number of parameters in this study model had slightly increased, the farmland segmentation effect had significantly improved, with an increase of 4.16 percentage points in MIoU;compared with the SegFormer model based on Transformer encoder, the parameter count of this study model was basically the same, with an increase of 2.50 percentage points in MIoU. This research model ensured excellent segmentation performance in each category by using adaptive sampling training methods. Using multispectral aerial images to train a real-time segmentation model for abnormal growth areas in farmland could help achieve real-time monitoring and early warning of farmland growth by drones, promote the development of smart agriculture, and provide new methods and ideas for automatic monitoring of farmland growth.
Key words: multispectral; abnormal growth areas in farmland; aerial images; UNet; DeepLabV3+; SegFormer
隨著農業(yè)智能化的迅速發(fā)展,將無人機影像和神經網絡結合進行農田生長異常區(qū)域的實時分割成為一項備受關注的任務。這項任務旨在通過結合高分辨率的無人機影像和先進的神經網絡技術,實現(xiàn)對農田作物生長狀況的實時監(jiān)測與分析。對影像中的豐富紋理信息進行提取,由神經網絡對農田的整體生長情況進行精準分析,檢測出其中可能存在生長異常的區(qū)域。這項技術不僅可以用于實時監(jiān)測農作物的生長狀態(tài),及時發(fā)現(xiàn)并定位生長異常區(qū)域,還可以為農業(yè)生產提供智能化的決策支持,及時采取相應的調控措施,如合理施肥、及時灌溉、防治病蟲害等,最大程度地提高農田產量、優(yōu)化資源利用。此外,通過長期監(jiān)測和積累還能夠為農業(yè)科研提供寶貴的數(shù)據(jù)支持,推動農業(yè)智能化、農業(yè)智慧化技術的不斷發(fā)展和進步。
語義分割是計算機視覺領域的基本任務之一,可以廣泛應用于各種場景。然而,高精度的語義分割網絡模型具有參數(shù)多、計算成本高的特點。當需要將模型部署在計算能力受限的設備上時,就需要一種模型參數(shù)較少、計算成本較低且效率高的輕量化語義分割模型,旨在以有限的計算能力生成高質量的像素級分割結果[1]。Yang等[2]提出了一種高效的非對稱擴展語義分割網絡EADNet,該網絡由多個不同尺度的非對稱卷積分支組成,可以捕獲多尺度多性狀的圖像信息,平均交并比(MIoU)為67.1%;Paszke等[3]針對需要低延遲任務提出了新的深度神經網絡ENet,ENet減少了下采樣次數(shù)并使用深度卷積來追求極其緊湊的框架,使得ENet在模型速度提升、參數(shù)減少的同時達到了與現(xiàn)有模型相當?shù)木?;Romera等[4]提出了一種能夠實時運行語義分割的結構,其核心層用殘差連接并且分解卷積,以簡單的結構實現(xiàn)了高精度;侯志強等[5]提出一種基于空間信息引導的雙分支實時語義分割算法,該算法采用雙分支結構分別獲取特征的空間信息和語義信息,并設計了一種空間引導模塊捕獲特征的局部信息和上下文信息,彌補了圖像高分辨率特征在降采樣過程中的信息損失,該算法在Cityscapes和CamVid數(shù)據(jù)集上的平均交并比分別達77.4%和74.0%,F(xiàn)PS分別達49.1和124.5。
深度神經網絡的研究推動多個領域的視覺識別任務取得成功,引起了越來越多學者對其在農業(yè)應用方面的關注。孫俊等[6]提出一種輕量級葡萄實時語義分割模型,該模型利用通道特征金字塔模塊進行特征提取,采用池化卷積融合結構完成下采樣并利用跳躍連接融合多種特征恢復圖像細節(jié);易詩等[7]提出了一種適用于紅外圖像的紅外實時雙邊語義分割網絡來保證夜間農田環(huán)境下紅外圖像語義分割的精度與實時性;肖利平等[8]針對農田監(jiān)測區(qū)域大、監(jiān)測節(jié)點能量有限及異常事件具有偶發(fā)性等特點,提出了一種基于改進壓縮采樣匹配追蹤的農田信息異常事件檢測算法,仿真試驗證明該算法檢測成功率提高了20%,且速度提升了50%。
農業(yè)問題給計算機視覺帶來了新的挑戰(zhàn),如航空農田圖像的語義分割需要對標注稀疏程度極高的超大圖像進行推理,部分航測圖像在計算能力和內存消耗方面給端到端分割帶來了巨大的問題。此外,航空農田圖像的語義分割與其他航空圖像數(shù)據(jù)集上的典型語義分割任務相比具有更大的挑戰(zhàn)性,例如要分割空中農田圖像中的雜草模式,算法必須能夠識別形狀和覆蓋范圍截然不同的稀疏雜草集群。為了解決上述問題,本研究基于輕量級的UNet架構,通過改進訓練方法和特征融合模塊實現(xiàn)農田生長異常區(qū)域的快速分割。
1 模型與方法
1.1 模型架構
為了在較低性能的嵌入式設備上實現(xiàn)高效檢測,本研究對UNet網絡模型[9]進行結構改進和調整。相較于其他實時分割模型,UNet模型在圖像處理速度和分割精度上都表現(xiàn)出顯著優(yōu)勢。模型采用編碼器-解碼器模型架構,其中編碼器的主干特征提取網絡基于ResNet18。與通常UNet中參數(shù)較多的階段式CNN特征提取網絡不同,本研究將其固定為由4個ResBlocks(N=4)組成的結構。每個ResBlock中,特征圖的高度和寬度減半,通道數(shù)量翻倍。編碼器的4個輸出(F1、F2、F3、F4)傳遞到特征融合模塊,以進行進一步處理。在解碼器部分,為了避免直接線性上采樣模塊無法充分利用編碼過程中的特征細節(jié),引入了基于Transformer的全局-局部注意力模塊。這種設計能更好地捕獲多光譜圖像上的特征信息,從而實現(xiàn)更準確的分割結果。最終,本研究的模型不僅適用于嵌入式設備,而且在實時分割任務中表現(xiàn)出卓越性能。
在具體的特征矩陣處理過程中,編碼器對輸入圖像(H×W×4)進行處理,生成具有形狀[H2i+1×W2i+1×Ci]的分層多分辨率特征(H為圖片高度,W為圖片寬度,i為特征圖層級,Ci為第i層特征圖的通道數(shù))。編碼器的4個輸出(F1、F2、F3、F4)通過特征融合跳躍連接模塊進行進一步處理。特征融合跳躍連接模塊內部包含3個上升融合模塊和3個下降融合模塊,用于處理相鄰的特征圖,輸出具有與輸入相同形狀的特征圖。在解碼器中,模型采用3個全局-局部Transformer模塊,同時獲取全局和局部上下文信息,為在恢復特征圖至原始大小的過程中提供更全面的信息。最后,使用具有通道注意力和空間注意力的細化頭處理級聯(lián)特征,以預測具有形狀的分割圖。在生成最終的分割圖之前,模型需經過卷積層和上采樣操作處理。圖1為農田異常區(qū)域實時分割模型的整體架構。
1.2 特征融合跳躍連接模塊
農田無人機影像經過編碼器生成特征圖,其中來自淺層和深層的特征圖在語義信息上有不同的側重方向。本研究通過使用特征融合跳躍連接模塊,將相鄰編碼器輸出的特征圖進行特征融合,并通過跳躍連接的方式輸入解碼器。該融合模塊包括3次向下融合和向上融合,如圖2所示。向下和向上融合模塊分別處理2個相鄰的跳躍連接特征映射并將它們融合在一起。整個融合過程分為2輪,每輪只在一個方向上相鄰的2個特征圖之間進行特征融合,可以是從頂部編碼器層到底部編碼器層或相反的方式。這一策略有效減少了編碼器和解碼器之間的語義鴻溝,同時能夠捕獲不同層次和感受野大小的特征,提供更豐富的多尺度信息。因此,特征融合跳躍連接模塊能夠有效整合深層和淺層的語義信息,通過拼接處理最大限度地減少下采樣過程中的空間信息損失,同時避免了采用計算量較大的密集連接方式。
在模塊內部,通過向下融合模塊將相鄰的淺層特征圖與深層特征圖進行融合,產生與深層特征圖相同大小的特征圖。在像素層面上,將Fi劃分為4個子圖,其高度和寬度為原始高度和寬度的50%。隨后,在通道維度上堆疊這4個子圖,將形狀為(Ci,Hi,Wi)的特征圖轉換為(4Ci,Hi/2,Wi/2)。該設計的關鍵在于,與常見的池化操作不同,本研究在改變特征圖大小的同時不丟失信息,同時保留了先前特征圖的局部信息。原先空間相鄰的4個像素現(xiàn)在仍然在通道上相鄰,即將空間相鄰轉換為通道相鄰。將Fi轉換成形狀為(2Ci,Hi/2,Wi/2)的特征圖,其正好匹配Fi+1的形狀。需要注意的是,每個組的卷積核大小為2×4×Kh×Kw(Kh為內核高度,Kw為內核寬度),確保卷積中涉及的通道像素正好是4個相鄰像素,這樣特征圖的局部性仍然保留良好,且相較于普通卷積,計算成本大大降低。將2個特征圖的形狀調整一致,并通過加權的方式將它們融合成1個特征圖。在上采樣融合模塊中,通過執(zhí)行與下采樣融合模塊中重新組織特征圖操作相反的步驟,將空間尺寸較小的特征圖轉換為較大尺寸,其余步驟基本相同。
1.3 基于Transformer的解碼器
在農田的無人機影像中,經常出現(xiàn)天然形成的無規(guī)則形狀的區(qū)域,這使得在進行區(qū)域分割時,缺乏全局語義信息的參與,很難實現(xiàn)精確的實時分割。為應對該挑戰(zhàn),本研究采用了3個全局-局部Transformer模塊和1個特征細化頭,構建輕量級特征解碼頭。通過這種分層和輕量級的設計,解碼器能夠在多個尺度上捕獲全局和局部上下文信息,同時保持高效率。解碼器的設計使得模型能夠更好地理解農田影像中天然形成的無規(guī)則形狀區(qū)域,通過全局-局部Transformer模塊獲取更全面的上下文信息,從而提高實時分割的精度。特征細化頭進一步優(yōu)化了分割結果,使模型在保持高效率的同時,更好地適應農田影像的復雜特征。整體而言,解碼器設計有效克服了區(qū)域分割中缺乏全局語義信息的問題,提高了模型的準確性和魯棒性。
解碼器的設計基于UNetformer[10],融入了全局-局部注意力模塊(GLTB)進行特征還原。本研究利用GLTB模塊從解碼器的深層特征圖中獲取較淺特征圖的關鍵信息路徑。GLTB包括全局-局部注意力、多層感知器、2個批規(guī)范化層及2個附加操作。Efficient global-local attention是一種由Wang等[10]提出的專為復雜城市場景語義分割而設計的注意力模塊,其內部構建了全局和局部2個平行分支,分別捕捉全局和局部上下文信息。這種設計在特征融合中顯著提高了模型性能。
作為相對較淺的結構,局部分支借助2個并行卷積層,其核大小分別為3×3和1×1,以有效提取局部上下文信息。在求和操作之前,本研究引入了2個批量歸一化操作,以增強特征的穩(wěn)定性。同時,全局分支采用了基于窗口的多頭自注意力機制,旨在捕獲全局上下文。該過程包括將特征圖通過1×1卷積轉換為1維序列,隨后按窗口進行劃分,形成注意力的Query(Q)、Key(K)和Value(V)[10]。局部分支由并行的1×1卷積和3×3卷積組成,旨在更全面提取局部特征。全局分支中提取的全局上下文和局部分支中的局部上下文通過深度卷積、批量歸一化操作及標準的1×1卷積進行融合,以獲取精準的全局-局部上下文。
1.4 自適應采樣訓練方法
在現(xiàn)實農田和數(shù)據(jù)集圖像中,同時存在語義類別分布不平衡問題,例如播種漏缺區(qū)域被觀察面積較小,其數(shù)量和量級與正常的耕地區(qū)域差別較大。在模型的訓練過程中,本研究引用自適應采樣訓練的方法,在每次迭代訓練時利用相關的類別分布和網絡置信度自動選擇訓練樣本的權重。數(shù)據(jù)采樣器會動態(tài)選擇圖像,優(yōu)先考慮類別出現(xiàn)頻率較低且網絡置信度最低的圖像。實際上,每個類別的動態(tài)概率Dc 對c進行取樣,計算公式如下。
[Dc=σ(1-dist×conf)γ] ? ? (1)
式中,c為樣本類別;dist為類分布的數(shù)組;conf為實際的類網絡置信度;σ為歸一化函數(shù);γ為松弛參數(shù)。一旦在給定該動態(tài)更新概率的情況下選擇了語義類別c,就從包含該類別c的數(shù)據(jù)Xc的子集中隨機挑選圖像。
在數(shù)據(jù)預處理階段中,考慮試驗在一個有監(jiān)督的環(huán)境下進行并要得到dist數(shù)組,本研究計算每個語義類[c∈C]的像素數(shù)量并在范圍[0,1]進行歸一化。在訓練過程中計算每個類的網絡置信度,并將結果存儲在大小為|C|的數(shù)組中。然后,通過對屬于此類別的像素求平均值,從可用的實況標簽導出每個類別c的平均置信度值。最后,在步驟t-1中,實際網絡置信度被計算為先驗置信度的指數(shù)移動平均值,計算公式如下。
[conft=αconft-1+(1-α)conft] (2)
式中,t為當前迭代的步驟數(shù);t-1為上一次迭代的步驟數(shù);α為平滑因子。
2 數(shù)據(jù)集與方法
2.1 數(shù)據(jù)集
為確保試驗的準確性,本研究使用大規(guī)模航空農田圖像數(shù)據(jù)集 Agriculture-Vision 2021[11]。該數(shù)據(jù)集包含3 432張高質量、多波段的農田航空圖像,每張圖像的分辨率高達10 cm/px。這些農田圖像是在2017—2019年拍攝,覆蓋了多個生長季節(jié),并涵蓋了許多農業(yè)地區(qū)。每個區(qū)域的圖像包括4個顏色通道:近紅外(NIR)、紅色、綠色和藍色。使用專有的廣域多光譜系統(tǒng)(WAMS)進行拍攝,該系統(tǒng)以10 cm/px的分辨率同時捕獲4個通道。
試驗中采用的田間區(qū)域標簽類型包括背景(正常農田)、雙株、干枯、養(yǎng)分缺乏、播種遺漏、積水區(qū)域、水道和雜草叢。從數(shù)據(jù)集中選擇圖像,其中包括10 675張訓練集圖片和4 235張驗證集圖片。隨后,將采樣圖中每個類別區(qū)域的二值標簽融合到同一張掩碼圖片中,以確保網絡模型可以同時分割所有類別的區(qū)域。圖3展示了數(shù)據(jù)集樣例及標簽可視化結果。
為了以直觀方式可視化每個字段圖像并為后續(xù)試驗做準備,本研究將數(shù)據(jù)集中的4個通道分離為常規(guī)RGB圖像和額外的單通道NIR圖像,并將它們存儲為2個512 px×512 px JPG圖像。本研究舍棄了標簽覆蓋率超過90%的圖像以確保所有圖像都保留了足夠的上下文信息。這樣的處理方式有助于確保試驗中保持足夠的圖像上下文,同時保持合理的圖像尺寸,為后續(xù)分析提供可靠的信息。
2.2 訓練細節(jié)
所有試驗在Pytorch平臺進行,采用NVIDIA 3090顯卡,CPU型號為Intel(R) Xeon(R) Silver 4210R CPU @ 2.40 GHz,操作系統(tǒng)為Ubuntu 20.04。在數(shù)據(jù)集增強方面,本研究采用了范圍為(1.0,2.0)的隨機縮放,隨機水平和垂直翻轉,以及在訓練過程中隨機裁剪。對原始數(shù)據(jù)進行推斷,無需進一步預處理,因為在進行農田航拍圖像分割時所有模型主干網絡都沒有進行預訓練。為了加快訓練收斂速度,部署AdamW優(yōu)化器訓練所有模型,學習率設置為6 × 10-5,權重衰減為0.01。損失函數(shù)采用Dice損失函數(shù)[12]。
3 結果與分析
3.1 評價指標
圖像分割評價指標采用平均交并比(MIoU)。平均交并比作為遙感圖像語義分割的標準量度,表示模型計算預測得到的標準圖像與人工標記的圖像交集與并集之比,計算公式如下。
[MIoU=1k+1i=0kpiij=0kpij+j=0kpji-pii]
式中,k為總類別數(shù);i、j分別為2種標簽的類別;Pii為屬于i類且預測正確的像素數(shù)量。當i為標簽且i不等于j時,Pij和Pji分別為假正和假負。
3.2 對比試驗
為了驗證本試驗提出的農田生長異常區(qū)域實時分割模型的效果,選取了遙感分割流行的UNet、DeepLabV3+[13]與SegFormer[14]3種網絡模型進行對比分析。由表1可知,農田生長異常區(qū)域實時分割模型(以下簡稱本研究模型)的MIoU明顯優(yōu)于其他模型,相較于使用UNet作為基線的模型,雖然本研究模型的參數(shù)量略有增加,但農田分割效果明顯提升,MIoU提高了4.16個百分點。與基于Transformer編碼器的模型SegFormer相比,本研究模型的參數(shù)量基本相同,MIoU提高了2.50個百分點。
表2列出了各模型在每個區(qū)域類別的交并比(IoU)。在一些標簽訓練樣本較少的情況下,DeepLabV3+在雙株和水道類別中網絡分割能力較差。SegFormer在不同類別中差異較大,在播種遺漏類別中表現(xiàn)突出,但在雙株類別中表現(xiàn)較差。通過采用自適應采樣訓練方法,本研究模型成功避免了在任何特定類別上出現(xiàn)明顯差異的結果,確保在每個類別上都能取得出色的分割效果。
4 小結
通過對多光譜農田航拍數(shù)據(jù)集進行深入分析,本研究對UNet進行了改進,實現(xiàn)了對農田異常區(qū)域的自動化識別。相較于UNet、DeepLabV3+和SegFormer網絡模型,本研究模型表現(xiàn)出色,平均交并比為41.24%。改進方面主要包括對多光譜數(shù)據(jù)的優(yōu)化預處理和引入深度學習技術。試驗結果清晰展示了模型在準確性和實時性方面的優(yōu)勢。然而,仍需在特定天氣條件和數(shù)據(jù)集多樣性方面進行優(yōu)化??傮w而言,本研究提出的基于多光譜航空圖像的農田異常區(qū)域實時分割模型在農業(yè)監(jiān)測領域具有應用潛力,可為提升農田管理的科學性和智能性提供有效的手段。
參考文獻:
[1] 李鵬輝. 基于深度卷積神經網絡的語義分割算法研究[D].蘭州:西北師范大學,2021.
[2] YANG Q, CHEN T, FAN J, et al. Eadnet: Efficient asymmetric dilated network for semantic segmentation[A]. ICASSP 2021—2021 ieee international conference on acoustics, speech and signal processing[C]. Toronto,Canada:IEEE, 2021. 2315-2319.
[3] PASZKE A, CHAURASIA A, KIM S, et al. ENet: A deep neural network architecture for real-time semantic segmentation[J/OL].Computer vision and pattern recognition. https://doi.org/10.48550/arXiv.1802.02611.
[4] ROMERA E, ALVAREZ J M, LUIS M. BERGAS A, et al. Erfnet: Efficient residual factorized convnet for real-time semantic segmentation[J]. IEEE transactions on intelligent transportation systems, 2017, 19(1): 263-272.
[5] 侯志強,戴 楠,程敏捷,等.空間信息引導的雙分支實時語義分割算法[J/OL].北京航空航天大學學報,2024.http://kns.cnki.net/kcms/detail/11.2625.V.20230630.1810.012.html.
[6] 孫 俊,宮東見,姚坤杉,等.基于通道特征金字塔的田間葡萄實時語義分割方法[J].農業(yè)工程學報,2022,38(17):150-157.
[7] 易 詩,李俊杰,賈 勇.基于紅外熱成像的夜間農田實時語義分割[J].農業(yè)工程學報,2020,36(18):174-180.
[8] 肖利平,全臘珍,余 波,等.基于改進CoSaMP的農田信息異常事件檢測算法[J].農業(yè)機械學報,2019,50(10):230-235.
[9] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[A].Medical image computing and computer-assisted intervention-MICCAI 2015:18th international conference[C].Munich, Germany:Springer international publishing, 2015.234-241.
[10] WANG L B, LI R, ZHANG C E, et al. UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery[J]. Journal of photogrammetry and remote sensing,2022,190: 196-214.
[11] CHIU M T, XU X Q, WEI Y C, et al. Agriculture-vision: A large aerial image database for agricultural pattern analysis[A]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition[C]. Seattle,USA:IEEE,2020.2828-2838.
[12] ZHAO R J,QIAN B Y,ZHANG X L, et al. Rethinking dice loss for medical image segmentation[A]. 2020 IEEE international conference on data mining[C]. Sorrento,Italy:IEEE, 2020.851-860.
[13] CHEN L CH, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[A]. Proceedings of the European conference on computer vision (ECCV)[C]. Munich,Germany:Springer,2018.801-818.
[14] XIE E, WANG W H, YU Z D, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[J]. Advances in neural information processing systems,2021,34: 12077-12090.