鮑文霞,謝文杰,胡根生,楊先軍,蘇彪彪
基于TPH-YOLO的無人機圖像麥穗計數方法
鮑文霞1,謝文杰1,胡根生1,楊先軍2※,蘇彪彪1
(1. 安徽大學農業(yè)生態(tài)大數據分析與應用技術國家地方聯合工程研究中心,合肥 230601;2. 中國科學院合肥物質科學研究院,合肥,230031)
在無人機上安裝光學傳感器捕捉農作物圖像是一種經濟高效的方法,它有助于產量預測、田間管理等。該研究以無人機小麥作物圖像為研究對象,針對圖像中麥穗分布稠密、重疊現象嚴重、背景信息復雜等特點,設計了一種基于TPH-YOLO(YOLO with transformer prediction heads)的麥穗檢測模型,提高無人機圖像麥穗計數的精度。首先,為了減小光照不均勻對無人機圖像質量造成的影響,該研究采用Retinex算法進行圖像增強處理。其次,在YOLOv5的骨干網絡中添加坐標注意力機制(coordinate attention,CA),使模型細化特征,更加關注麥穗信息,抑制麥稈、麥葉等一些背景因素的干擾。再次,將YOLOv5中原始的預測頭轉換為Transformer預測頭(transformer prediction heads,TPH),該預測頭具有多頭注意力機制的預測潛力,可以在高密度場景下準確定位到麥穗。最后,為了提高模型的泛化能力和檢測精度,采用了遷移學習的訓練策略,先使用田間采集的小麥圖像數據集對模型進行預訓練,接著再使用無人機采集的小麥圖像數據集對模型進行參數更新和優(yōu)化訓練,并在無人機采集的小麥圖像數據集上進行了試驗。結果表明,該研究方法精確率、召回率及平均精確率分別為87.2%、84.1%和88.8%,相較于基礎的YOLOv5平均精確率提高4.1個百分點,性能優(yōu)于SSD、Faster-RCNN、CenterNet、YOLOv5等目標檢測模型。此外,該研究利用公開數據集Global Wheat Head Detection(GWHD)在不同目標檢測模型上進行對比試驗,該數據集的小麥樣本是多樣的和典型的,與SSD、Faster-RCNN、CenterNet和YOLOv5等模型相比,平均精確率分別提升11.1、5.4、6.9和3.3個百分點,進一步驗證了該研究所提方法的可靠性和有效性,研究結果可以為小麥的產量預測提供支撐。
無人機;圖像處理;麥穗計數;YOLOv5;注意力機制;transformer編碼器;遷移學習
小麥是重要的農作物品種之一,是世界糧食安全的基礎[1],全球年產量約為7.3億t。然而小麥在生產過程中經常出現各種生物和非生物逆境,小麥產量會受到很大影響。近年來,利用無人機遙感技術對小麥生長進行監(jiān)測已成為穩(wěn)定產量的重要途經。無人機以其靈活、小巧、成本低等優(yōu)勢逐漸受到研究者們的關注和青睞。結合無人機圖像對麥穗進行檢測和計數,可以大大降低人工成本,實現自動化估產。傳統(tǒng)小麥計數主要包括人工計數方法和傳統(tǒng)機器學習方法。其中人工計數方法不但十分繁瑣、耗費不少的人力和物力成本,而且很容易出現錯誤[2]。傳統(tǒng)機器學習則是一種簡單而有效的實現麥穗自動計數的方法。ZHOU等[3]利用半自主多傳感器田間表型平臺獲取小麥圖像,先使用最大熵分割方法進行粗分割,然后應用形態(tài)學重建理論對圖像進行精細分割,最后實現麥穗計數。FERNANDEZ-GALLEGO等[4]通過使用濾波和尋找最大值的方法,有效地提高了田間麥穗的識別精度。劉哲等[5]提出了一種改進的K-means聚類方法,該方法以顏色特征聚類為基礎,把聚類區(qū)域內的子區(qū)域數作為麥穗數估計值,從而大大提高了麥穗計數的準確率。在大田環(huán)境下,上述傳統(tǒng)方法對紋理、顏色等依賴性較強,受土壤、光照、小麥麥葉等影響較大,對麥穗的計數效果并不理想。
近年來,深度學習已成為人工智能領域的研究熱點,同時該技術也被研究者們應用到麥穗檢測和計數領域中。鮑文霞等[6]針對灌漿期田間小麥圖像麥穗密集的特點,引入一種擁擠場景識別網絡(congested scene recognition network,CSRNet)來構建麥穗密度圖估計模型,實現田間小麥麥穗數估計。孫俊等[7]以CSRnet為基礎網絡構建WECnet網絡,有效地提高灌漿期小麥的計數精度,同時對麥穗進行準確密度評估。李云霞等[8]設計了一種冬小麥田間長勢參數估算系統(tǒng),該系統(tǒng)基于殘差網絡ResNet18構建長勢參數估算模型,實現麥穗長勢參數估算;基于Faster R-CNN并結合非極大值抑制構建麥穗計數模型,實現開花期麥穗準確計數。目前,目標檢測算法在麥穗檢測的任務上取得了顯著的進步。小麥麥穗檢測任務的成功,使得田間麥穗計數方法也獲得了較高的準確性[9-10]。MADEC等[11]利用R-CNN對麥穗進行檢測,根據檢測到的麥穗個數實現麥穗計數。楊蜀秦等[12]為準確獲取單位面積麥穗數,提出了基于改進YOLOX的單位面積麥穗檢測方法,利用采樣框直接實現單位面積麥穗計數。YANG等[13]結合卷積神經網絡和注意力機制技術,創(chuàng)建了一種用于麥穗檢測的CBAM-YOLOv4 計數方法。陳佳瑋等[14]構建了一種MobileNetV2-YOLOV4 深度學習模型,對單位面積中的麥穗進行識別,通過安卓軟件YQ-M離線識別手機拍攝的麥穗數量,實現田間產量預測和結果輸出等功能。
以上方法雖然在田間麥穗的檢測和計數領域取得了一定的效果,但是無人機圖像具有麥穗分布稠密、重疊現象嚴重、尺寸小、背景信息復雜等特點,容易導致錯檢和漏檢,從而使麥穗檢測精度降低,無法進行準確計數?;诖耍撗芯恳詿o人機小麥圖像為研究對象,提出了一種基于TPH-YOLO的麥穗計數方法。該研究在YOLOv5的骨干網絡中添加坐標注意力機制(coordination attention, CA),使模型能夠細化特征,更加關注麥穗,抑制麥稈、麥葉等一些復雜背景的干擾。同時,該研究采用具有多頭自注意力機制的Transformer編碼器模塊替換Neck中的CSP(cross stage partial)模塊,將原始的預測頭轉換成Transformer預測頭(transformer prediction heads,TPH)[15-16],獲取全局信息和豐富的上下文信息,實現高密度場景下的麥穗計數。在模型訓練過程中,該研究采用遷移學習的策略,先使用田間采集的小麥圖像數據集對模型進行預訓練,然后再使用無人機采集的小麥圖像數據集對模型參數進行調整和優(yōu)化,提高了模型的泛化能力和檢測精度。最后,將其與SSD、Faster-RCNN、CenterNet和YOLOv5等模型進行對比試驗,驗證該研究所提方法的有效性。
本試驗的研究區(qū)域是安徽省合肥市巢湖市壩鎮(zhèn)(北緯31°16′23.9″,東經117°36′18.3″),該基地主要承擔小麥、水稻等多種農作物的表型信息采集工作。數據采集時間為2021年5月3日09:00-16:00,多云天氣,減少了強光照對數據采集的干擾。溫度范圍18~25 ℃,濕度范圍在30%~50%之間。本試驗使用的圖像采集設備為大疆Mavic Air 2無人機,它裝有一個4 800萬像素的可見光攝像機,攝像機類型是DJI FC3170,光圈值為f/2.8,曝光時間為1/50 s,ISO速度為ISO-100,最大續(xù)航時間為34 min,最遠傳輸距離為10 km,最大飛行速度為19 m/s,所拍攝圖像的分辨率大小是8 000像素′6 000像素,攝像機與地面垂直90°,拍攝時無人機的飛行高度是3 m,獲取3幅無人機小麥圖像。無人機獲取的小麥圖像如圖1a所示。
此外,該研究使用數碼相機對田間小麥數據進行采集。為了計算單位面積的麥穗數,該研究制作一個40 cm′50 cm大小的紙盒,使用佳能EOS80D數碼相機進行拍攝,采用自然曝光模式以多種傾斜角度對麥穗進行拍攝,每幅圖像的像素均為5 184像素′3 456像素。從采集的圖像中選取342幅圖像,構建田間采集的麥穗圖像數據集。數據集圖像示例如圖1b所示。
圖1 無人機和田間采集的麥穗圖像示例
1.2.1 數據裁剪
為了便于模型處理,將得到的無人機圖像按照800像素′600像素的大小進行裁剪,這樣原始圖像就被分割成了300幅小麥子圖像,并且以7∶2∶1的比例劃分為訓練集、驗證集和測試集。
1.2.2 數據增強
大田環(huán)境下獲取的小麥圖像由于光照強度的變化,在視覺上會與物體本身的顏色呈現出差異,從而影響模型對麥穗檢測和計數的準確性。為了減少光照不均勻對圖像質量造成的影響,該研究采用Retinex算法進行圖像增強處理。Retinex算法認為物體對光線的反射能力會決定物體的顏色[17],人類視覺獲得的圖像可以看作是由入射圖像和反射圖像組成:
式中(,)表示人眼捕獲的視覺圖像,(,)表示物體的反射圖像,(,)表示入射圖像,(,)是圖像中像素點的坐標。從(,)中得到(,),(,)可以表示為
對式(2)進行對數變換可得:
假設可以得出(,)的值,則可根據式(3)計算出(,)。因為入射光線的強度在被照表面變化相對較慢,所以(,)可以用圖像中的低頻分量來表示。通過計算原始圖像中像素點與周圍區(qū)域的加權平均(,)來估計照度的變化并將其去除,最后只保留物體的反射屬性,則入射圖像(,)可表示為
式中(,)為中心環(huán)繞函數。則
因此,將lnR(x,y)變換為實數域,可以從人眼視覺圖像S(x,y)中得到反射圖像R(x,y),達到圖像增強的目的。增強后的圖像示例如圖2所示。
1.3.1 TPH-YOLO模型
大田環(huán)境下無人機圖像麥穗分布稠密、重疊現象嚴重,會出現許多錯檢和漏檢的現象;同時,麥穗尺度小、背景復雜也增加了檢測的難度,這些問題導致在無人機圖像中無法對麥穗進行準確地檢測和計數,因此,需要選擇一種有效的檢測模型對麥穗進行檢測。YOLO(You Only Look Once)是一種只需一個卷積神經網絡就可直接得到不同目標的類別概率和位置坐標的目標檢測模型,可以更好地區(qū)分目標區(qū)域和背景區(qū)域,YOLO系列一般包括YOLO[18]、YOLO9000[19]、YOLOv3[20]、YOLOv4[21]和YOLOv5。YOLOv5是當前YOLO系列最新的目標檢測模型,大致可分為 4個模塊:輸入端、骨干部分(backbone)、頸部(neck)以及預測頭(prediction head)。該模型具有檢測精確、速度快等優(yōu)點,在開源數據集上具有良好效果,但是在大田環(huán)境下對無人機圖像中麥穗的檢測和計數任務上仍需要改進。
為此,該研究引入了一種簡單靈活的坐標注意力機制[22](CA),將其加在骨干網絡CSPDarkNet-53中的CSP(cross stage partial)模塊和卷積模塊之間,模型結構如圖3所示,使模型能夠細化特征,提高特征提取的能力,從而能更加關注小麥麥穗,抑制麥稈、麥葉等背景因素的干擾。當圖像輸入到TPH-YOLO骨干網絡部分中時會進行切片操作,即特殊的下采樣,把高分辨率的特征圖拆分為多個低分辨率的特征圖,然后將得到的特征輸入到不同深度的CSP模塊中進行特征提取,CSP模塊將輸入特征經過兩個部分,然后通過跨階段層次結構將其合并,其目的是實現更多的梯度組合信息從而獲取更加豐富的麥穗特征。同時,該研究采用了具有多頭自注意力機制的Transformer編碼器模塊。Transformer的出現為視覺特征研究提供了一種新的思路[15]。與卷積神經網絡相比,基于Transformer的視覺模型在眾多領域[16]取得了很好的效果。該研究使用Transformer編碼器模塊替換Neck中的一些CSP模塊,將原始預測頭轉換成Transformer預測頭(transformer prediction heads,TPH),實現具有多頭注意力機制的預測潛力,捕獲全局信息和充足的背景信息,進而在高密度場景中準確地定位到麥穗。
注:Focus為切片操作,Conv為卷積操作,CA為坐標注意力機制,Slice為切片后的特征圖, SPP為空間金字塔池化結構,Maxpool為最大池化操作, Concat為特征融合函數,Upsample為上采樣操作,Trans為Transformer編碼器結構,TPH為Transformer預測頭結構。
1.3.2 訓練策略
在該研究模型訓練過程中采用了遷移學習的訓練策略。遷移學習[23-24]廣泛應用在眾多領域,它可以增強訓練,通過調參,逐步優(yōu)化模型。該研究先使用田間采集的小麥圖像數據集對模型進行預訓練,得到了預訓練模型,接著使用無人機采集的小麥圖像數據集對模型進行參數更新和優(yōu)化訓練,如圖4所示。訓練過程如下:
1)從田間采集的小麥圖像數據集上訓練TPH-YOLO的骨干網絡Backbone即CSPDarkNet-53網絡,得到預訓練模型;
2)將預訓練模型加載到TPH-YOLO中,凍結骨干網絡Backbone預訓練模型參數,再從無人機采集的小麥圖像數據集上訓練TPH-YOLO,只對后端的Neck和Head進行重新訓練和更新參數。
田間采集的小麥圖像和無人機采集的小麥圖像顏色、輪廓、紋理等基礎結構相近,這些基礎結構在卷積神經網絡中屬于底層信息,靠近輸入端的骨干網絡部分保留了大量的底層信息,所以骨干部分提取的特征是可以通用的。該研究通過田間采集的小麥圖像數據集對模型進行預訓練得到預訓練模型,由于田間采集的圖像分辨率更高,模型參數效果更好。此時,將預訓練得到的權重加載到TPH-YOLO中,凍結Backbone預訓練模型參數,可以減少網絡層數,此時訓練數據需要的更少,從而防止數據不足引起的過擬合。此外,模型不用從頭開始進行訓練,加快了訓練效率,泛化能力更好,魯棒性更高。
注:CSP為跨階段層次結構,Neck為頸部結構,Head為預測頭。
1.3.3 試驗參數及評價指標
該研究試驗是基于Ubuntu16.04 LTS 64位操作系統(tǒng)來實現的,顯卡為NVIDIA GTX2080Ti,內存為32 G,使用Python編程語言和PyTorch深度學習框架訓練目標檢測模型。試驗的初始學習率設置為0.01,采用隨機梯度下降(stochastic gradient descent,SGD)的方法優(yōu)化訓練過程中的損失,迭代次數為300,批處理尺寸設置為8,權重衰減為0.000 5。該研究使用精確率(precision,)、召回率(recall,)以及平均精確率(average precision,AP)作為評價指標[25]來綜合評價深度學習算法的性能。
考慮到大田環(huán)境下采集的小麥圖像會由于光照不均勻對圖像質量造成影響,為提高檢測精度,該研究采用Retinex算法進行圖像增強處理。試驗分別使用經過增強處理的圖像與未經過增強處理的圖像對TPH-YOLO網絡模型進行訓練,得到兩個不同的訓練模型,用以驗證圖像增強對檢測結果的影響,試驗結果如表1所示。在未經過增強處理的數據集上模型的平均精確率為87.1%,而在經過增強處理的數據集上模型的平均精確率為88.8%,證實了數據增強的必要性和有效性。
表1 數據增強對檢測結果的影響
為了驗證該研究方法的有效性,對TPH-YOLO網絡模型進行消融試驗。該研究以YOLOv5為基礎網絡,分別在骨干部分加入CA、原始預測頭轉換為TPH預測頭、采用遷移學習訓練策略等進行試驗,消融試驗結果如表2所示。在不使用CA、TPH預測頭和遷移學習的情況下,模型的平均精確率為84.7%。加入CA后,模型的平均精確率達到86.4%,說明加入CA注意力機制后,模型能夠更準確地提取到小麥圖像中的麥穗信息。將原始預測頭轉換為TPH預測頭后,實現了多頭注意力機制的預測潛力,從而可以獲取全局信息和豐富的上下文信息,進而在高密度場景中準確地定位到麥穗,提升網絡的檢測結果。在訓練過程中,采用遷移學習策略,不僅提高了模型的泛化能力,而且模型的平均精確率達到88.8%。使用CA、TPH預測頭和遷移學習,模型能更好地提取到小麥圖像中的麥穗信息以及在高密度場景中準確地定位到麥穗位置,比基準模型高了4.1個百分點。
表2 消融試驗結果
為了進一步驗證該研究方法對無人機圖像中麥穗檢測的有效性,將該研究提出的模型與一些主流目標檢測模型進行對比試驗,對比的檢測網絡有:SSD[26]、Faster-RCNN[27]及CenterNet[28],試驗結果如表3所示。從表3可以看出,所提模型的檢測結果優(yōu)于SSD、Faster-RCNN、CenterNet等檢測模型。
表3 本研究模型與主流模型對比結果
圖5以測試集中3幅小麥圖像為示例展示YOLOv5模型及本研究模型的檢測結果,圖6為圖5在麥穗重疊問題上的局部放大示例圖。通過圖5和圖6可以看出,本研究模型可以更加注意到麥穗信息,能夠在高密度場景準確定位到麥穗位置,并且有效地緩減了麥穗重疊現象,從而降低了麥穗的漏檢和誤檢率。
注:方框表示預測框,箭頭表示麥穗漏檢或者誤檢的位置。
通過所得的檢測圖,即可得出每幅圖的麥穗數量。將該研究研究所獲得的麥穗數估計值與真實值加以比較,并通過線性回歸法對結果進行了相關研究。麥穗估計值和真實值的擬合結果,如圖7所示。從擬合結果來看,決定系數2值在0.95左右,說明該研究所提模型對小麥麥穗數的估計數和真實值之間存在著明顯的線性關聯。
圖6 不同模型在重疊問題上的檢測結果示例
圖7 麥穗數量計數值與真實值的擬合結果
該研究在測試集的每一幅圖像上都進行了10次人工統(tǒng)計,取平均值作為麥穗數量的真實值,并使用CSRNet[29]可視化分布麥穗圖像中的麥穗位置。該研究統(tǒng)計出測試集的30幅小麥圖像麥穗真實值為1 415,TPH-YOLO模型生成的麥穗數為1 384,錯誤個數為31,錯誤率為0.022,表明所提模型對圖像中的麥穗計數誤差較小。圖8給出了部分圖像麥穗計數結果,從圖8中可以看出,TPH-YOLO模型生成的麥穗數與麥穗真實數量比較接近,驗證了該研究所提方法的可靠性。
注:GT表示麥穗數的真實值;圖8c中數值為TPH-YOLO模型計數值。
為了驗證該研究所提模型的有效性,在公開數據集(Global Wheat Head Detection, GWHD)[30]上進行了驗證分析。GWHD數據集包含3 376張RGB圖像,共有145 665個小麥麥穗,圖像像素大小為1 024像素′1 024像素。這些小麥圖像來自世界的不同地區(qū),獲得的圖像有很大的差異,包括不同的品種、不同的種植條件以及不同的圖像采集方法。按照7∶2∶1的比例構建訓練集、驗證集和測試集,利用不同目標檢測模型進行試驗,其中SSD、Faster-RCNN、CenterNet、YOLOv5平均精確率分別為80.5%、86.2%、84.7%、88.3%,而本研究模型平均精確率為91.6%,優(yōu)于其他檢測模型,因此該研究所提模型有較好的泛化能力。
該研究研究過程中無人機飛行高度為3 m,如果希望單幅圖像獲取的田間面積更大則需要增加無人機的飛行高度,這時獲取到的圖像中的麥穗分辨率會下降,因此,在利用該研究算法計數之前需要對圖像進行超分辨率重建,這也是該研究后續(xù)的研究工作。
該研究針對無人機圖像具有麥穗分布稠密、重疊現象嚴重、背景信息復雜等特點,提出了一種基于TPH-YOLO的目標檢測模型,能夠在無人機圖像中準確檢測出麥穗和計算出麥穗數量。通過在YOLOv5骨干網絡中加入CA模塊,使模型能夠細化特征,更加關注小麥麥穗,抑制麥稈、麥葉等一些背景因素的干擾。同時,將原始預測頭轉換為(Transformer預測頭),從而可以在高密度場景準確定位到小麥麥穗。最后,在訓練過程中,采用遷移學習策略來提高模型的泛化能力和加快模型收斂速度。試驗結果表明,TPH-YOLO在無人機小麥圖像測試集上AP值可達88.8%,相較于基礎YOLOv5提高了4.1個百分點,從而說明該研究的研究結果可以為小麥在檢測和計數的任務上提供有價值的幫助。此外,該研究利用公開數據集GWHD在不同目標檢測模型上進行對比試驗,進一步驗證了該研究所提方法的可靠性和有效性。
[1] Liu H, Wang Z, Yu R, et al. Optimal nitrogen input for higher efficiency and lower environmental impacts of winter wheat production in China[J]. Agriculture Ecosystems & Environment, 2016, 224: 1-11.
[2] Xiong H, Cao Z, Lu H, et al. TasselNetv2: In-field counting of wheat spikes with context-augmented local regression networks[J]. Plant Methods, 2019, 15(1): 1-14.
[3] ZHOU C, LIANG D, YANG X, et al. Recognition of wheat spike from field based phenotype platform using multi-sensor fusion and improved maximum entropy segmentation algorithms[J]. Remote Sensing, 2018, 10(2): 246-270.
[4] Fernandez-Gallego J A, Kefauver S C, Gutiérrez N, et al. Wheat ear counting in-field conditions: High throughput and low-cost approach using RGB images[J]. Plant Methods, 2018, 14(1): 22.
[5] 劉哲,黃文準,王利平. 基于改進 K-means 聚類算法的大田麥穗自動計數[J]. 農業(yè)工程學報,2019,35(3):174-181.
Liu Zhe, Huang Wenzhun, Wang Liping. Field wheat ear counting automatically based on improved K-means clustering algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 174-181. (in Chinese with English abstract)
[6] 鮑文霞,張鑫,胡根生,等. 基于深度卷積神經網絡的田間麥穗密度估計及計數[J]. 農業(yè)工程學報,2020,36(21):186-194.
Bao Wenxia, Zhang Xin, Hu Gensheng, et al. Estimation and counting of wheat ears density in field based on deep convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 186-194. (in Chinese with English abstract)
[7] 孫俊,楊鍇鋒,羅元秋,等. 基于無人機圖像的多尺度感知麥穗計數方法[J]. 農業(yè)工程學報,2021,37(23):136-144.
Sun Jun, Yang Kaifeng, Luo Yuanqiu, et al. Method for the multiscale perceptual counting of wheat ears based on UAV images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(23): 136-144. (in Chinese with English abstract)
[8] 李云霞,馬浚誠,劉紅杰,等. 基于 RGB 圖像與深度學習的冬小麥田間長勢參數估算系統(tǒng)[J]. 農業(yè)工程學報,2021,37(24):189-198.
Li Yunxia, Ma Juncheng, Liu Hongjie, et al. Field growth parameter estimation system of winter wheat using RGB digital images and deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 189-198. (in Chinese with English abstract)
[9] Khoroshevsky F, Khoroshevsky S, Bar-Hillel A. Parts-per-object count in agricultural images: Solving phenotyping problems via a single deep neural network[J]. Remote Sensing, 2021, 13(13): 2496.
[10] Wang D, Zhang D, Yang G, et al. SSRNet: In-field counting wheat ears using multi-stage convolutional neural network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-11.
[11] Madec S, Jin X, Lu H, et al. Ear density estimation from high resolution RGB imagery using deep learning technique[J]. Agricultural and Forest Meteorology, 2019, 264: 225-234.
[12] 楊蜀秦,王帥,王鵬飛,等. 改進YOLOX檢測單位面積麥穗[J]. 農業(yè)工程學報,2022,38(15):143-149.
Yang Shuqin, Wang Shuai, Wang Pengfei, et al. Detecting wheat ears per unit area using an improved YOLOX[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 143-149. (in Chinese with English abstract)
[13] Yang B, Gao Z, Gao Y, et al. Rapid detection and counting of wheat ears in the field using YOLOv4 with attention module[J]. Agronomy, 2021, 11(6): 1202.
[14] 陳佳瑋,李慶,譚巧行,等. 結合輕量級麥穗檢測模型和離線 Android 軟件開發(fā)的田間小麥測產[J]. 農業(yè)工程學報,2021,37(19):156-164.
Chen Jiawei, Li Qing, Tan Qiaoxing, et al. Combining lightweight wheat spikes detecting model and offline Android software development for in-field wheat yield prediction[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 156-164. (in Chinese with English abstract)
[15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems (NIPS), Long Beach: NIPS, 2017: 5998-6008.
[16] Wang W H, Xie E Z, Li X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]//In Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021: 548-559.
[17] Sun J, Yang Y, He X, et al. Northern maize leaf blight detection under complex field environment based on deep learning[J]. IEEE Access, 2020, 8: 33679-33688.
[18] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEI, 2016: 779-788.
[19] REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017: 6517-6525.
[20] REDMON J, FARHADI A YOLOv3: An incremental improvement[EB/OL]. (2018-04-08) [2022-08-12] https://arxiv.org/abs/1804.02767.
[21] ALEXEY B, WANG C, LIAO H. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2022-08-12] https://arxiv.org/abs/2004.10934.
[22] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[EB/OL]. (2021-03-04) [2022-08-12] https://arxiv.org/abs/2103.02907.
[23] Weiss K, KhoshgoftaaR T M, Wang D D. A survey of transfer learning[J]. Journal of Big Data, 2016, 3(1): 9.
[24] GAO Y, MOSALAM K M. Deep transfer learning for image‐based structural damage recognition[J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(9): 748-768
[25] 孫豐剛,王云露,蘭鵬,等. 基于改進 YOLOv5s 和遷移學習的蘋果果實病害識別方法[J]. 農業(yè)工程學報,2022,38(11):171-179.
SUN Fenggang, WANG Yunlu, LAN Peng, et al. Identification of apple fruit diseases using improved YOLOv5s and transfer learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(11): 171-179. (in Chinese with English abstract)
[26] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multiBox detector[C]// European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016: 21-37.
[27] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[28] Zhou X, Wang D, Krhenbühl P. Objects as points [EB/OL]. arXiv preprint arXiv: 1904.07850v2, 2019. (2022-03-10). https://arxiv.org/abs/1904.07850.
[29] LI Y, ZHANG X, CHEN D. CSRNet: Dilated convolutional neural networks for understanding the highly congested scenes[C]//Proceedings of 2018 Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2018: 1091-1100.
[30] DAVID E, SEROUART M, SMITH D, et al. Global wheat head detection 2021: An improved dataset for benchmarking wheat head detection methods[J]. Plant Phenomics, 2021, 2021: 277 - 285
Wheat ear counting method in UAV images based on TPH-YOLO
BAO Wenxia1, XIE Wenjie1, HU Gensheng1, YANG Xianjun2※, SU Biaobiao1
(1.,230601,;2.,,230031,)
Optical sensors have been widely installed on unmanned aerial vehicle (UAV) to capture images of all kinds of crops in recent years. The economic and effective way can greatly contribute to yield prediction and field management in modern agriculture. However, the great challenge of wheat ear counting still remains in the dense distribution of wheat ears, the serious overlap phenomenon, and the complex background information in the images. In this study, a detection model of the wheat ear was designed to improve the accuracy of the wheat ear counting in the UAV images using the transformer prediction heads “you only look once” (TPH-YOLO). The UAV wheat ear images were also taken as the research object. Firstly, the Retinex algorithm was used to deal with the enhancement of the wheat ear images that collected by the UAV, in order to reduce the influence of the uneven illumination on the image quality. Secondly, the coordinate attention mechanism (CA) was added to the backbone network of YOLOv5. In this way, the improved model was utilized to refine the features after treatment. As a result, the TPH-YOLO network was focused mainly on the wheat ear information, at the same time to avoid the interference of some background factors, such as the wheat stalk, and the wheat leaf. Once more, the original prediction head in the YOLOv5 was converted into the transformer prediction head (TPH) in this case. Correspondingly, the improved prediction head was obtained for the prediction potential of multiple head attention mechanism, in order to accurately fix the position of the wheat ears in a high-density scene. In the end, the training strategy was adopted to improve the generalization ability and the detection accuracy of the TPH-YOLO network using transfer learning. The image dataset of the wheat ear that was collected in the field was used to pre-train the model, and then the wheat ear image dataset collected by the UAV was used to update and optimize the model parameters. A series of experiments were conducted on the wheat ear images collected by the UAV. The performance of the target detection model was evaluated by the three indicators: Precision, recall, and average precision (AP). The experimental results show that the precision, recall, and average precision (AP) of the improved model were 87.2%, 84.1%, and 88.8%, respectively. The average precision of the improved model was 4.1% higher than the original YOLOv5 one. The performance was also better than the SSD, Fast RCNN, CenterNet, and Yolov5 target detection models. In addition, Global Wheat Head Detection (GWHD) dataset was selected to carry out the comparative experiments on the different target detection models, due to the diverse and typical wheat samples from the GWHD dataset. Compared with the target detection models such as SSD, Faster-RCNN, CenterNet and YOLOv5, the average precision increased by 11.1, 5.4, 6.9 and 3.3 percentage points respectively. The comparative analysis of the detection further verified the reliability and effectiveness of the improved model. Consequently, the finding can also provide strong support for the wheat yield prediction.
UAV; image processing; wheat ear counting; YOLOv5; attention mechanisms; transformer encoder; transfer learning
10.11975/j.issn.1002-6819.202210020
TP391.41
A
1002-6819(2023)-01-0155-07
鮑文霞,謝文杰,胡根生,等. 基于TPH-YOLO的無人機圖像麥穗計數方法[J]. 農業(yè)工程學報,2023,39(1):155-161.doi:10.11975/j.issn.1002-6819.202210020 http://www.tcsae.org
BAO Wenxia, XIE Wenjie, HU Gensheng, et al. Wheat ear counting method in UAV images based on TPH-YOLO[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(1): 155-161. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202210020 http://www.tcsae.org
2022-10-02
2022-12-28
安徽省自然科學基金項目(2208085MC60);國家自然科學基金項目(62273001)
鮑文霞,博士,教授,研究方向為農業(yè)與生態(tài)視覺分析與模式識別。Email:bwxia@ahu.edu.cn
楊先軍,博士,研究員,研究方向為智能信號處理。Email:xjyang@iim.ac.cn