宋懷波 韓夢(mèng)璇 王云飛 宋 磊 陳春堃
(1.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院,陜西楊凌 712100;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,陜西楊凌 712100)
近年來(lái),我國(guó)果樹種植業(yè)邁入高速發(fā)展時(shí)期。在目前的果園管理過(guò)程中,化學(xué)農(nóng)藥防治是消滅或控制有害生物脅迫的最主要的方法[1-2],因此實(shí)現(xiàn)果園日常農(nóng)藥噴施行為的有效記錄與監(jiān)管對(duì)于助推果樹種植產(chǎn)業(yè)生產(chǎn)的綠色轉(zhuǎn)型、完善果品的溯源體系有重要意義[3-5]?,F(xiàn)有果園農(nóng)藥噴施情況的評(píng)價(jià)和監(jiān)管主要依賴自主提交的作業(yè)記錄[6],存在工作量大、工作效率低、準(zhǔn)確性差及主觀性強(qiáng)等問(wèn)題[7]。視頻數(shù)據(jù)具有可長(zhǎng)效監(jiān)測(cè)及不易篡改的特點(diǎn),已成為行為監(jiān)測(cè)研究的熱點(diǎn),實(shí)現(xiàn)人體動(dòng)作及場(chǎng)景交互下的噴施行為自動(dòng)監(jiān)測(cè)是關(guān)鍵,對(duì)于果品溯源體系的完善具有重要意義。
針對(duì)果園日常監(jiān)管過(guò)程中人工成本高,規(guī)?;N植果園監(jiān)測(cè)難度大等問(wèn)題,國(guó)內(nèi)外學(xué)者開展了相關(guān)研究工作[8-9]。ZHAI等[10]提出了一種用于識(shí)別噴霧器行程的射頻識(shí)別裝置解決方案,同時(shí)設(shè)計(jì)了噴霧監(jiān)測(cè)和引導(dǎo)系統(tǒng),能夠?qū)崿F(xiàn)噴霧器行駛方向識(shí)別、位置識(shí)別、流量及噴霧量信息記錄等功能。李震等[11]設(shè)計(jì)了一款輕巧、小型、便于安裝的監(jiān)測(cè)裝置,能夠獲取農(nóng)機(jī)的序列號(hào)、累計(jì)使用次數(shù)、工作時(shí)長(zhǎng)、運(yùn)行速率、經(jīng)緯度位置以及有無(wú)故障等情況。
在我國(guó),背負(fù)式噴霧器占比98%以上,是目前最為常用的噴藥器械[12-13]。如何依據(jù)作業(yè)場(chǎng)景及操作人員動(dòng)作信息,實(shí)現(xiàn)場(chǎng)景交互的噴施行為檢測(cè),對(duì)于提升噴施行為的檢測(cè)精度具有重要意義。在人體行為識(shí)別研究方面,計(jì)算機(jī)視覺以其低成本、高效率、信息豐富穩(wěn)定等優(yōu)勢(shì)得到了廣泛應(yīng)用[14-15],而基于場(chǎng)景交互的人體行為識(shí)別近年來(lái)更是在相關(guān)領(lǐng)域中發(fā)展迅速[16]。在家庭安防、跌倒檢測(cè)、快遞分揀、駕駛安全、摩托車盜竊檢測(cè)等方面取得了較好的效果[17-21]。場(chǎng)景交互下的行為識(shí)別算法充分考慮了目標(biāo)與活動(dòng)場(chǎng)景間的關(guān)聯(lián)關(guān)系,是未來(lái)復(fù)雜環(huán)境下行為識(shí)別的重要研究方向。
綜上,本研究擬提出一種基于人體姿態(tài)估計(jì)與場(chǎng)景交互的果園噴施行為檢測(cè)方法,首先將噴霧器和果樹在訓(xùn)練時(shí)進(jìn)行分類標(biāo)記,并利用自建數(shù)據(jù)集訓(xùn)練優(yōu)化YOLO v5模型,之后采用OpenPose模型完成果園復(fù)雜環(huán)境下的人體姿態(tài)估計(jì),完成人體目標(biāo)的跟蹤和識(shí)別。并將相關(guān)數(shù)據(jù)整理組成總特征向量,采用SVM模型完成分類工作,從而實(shí)現(xiàn)果園噴施行為的準(zhǔn)確識(shí)別。
由于果園噴施行為監(jiān)控視頻的公用數(shù)據(jù)集較少,因此本研究以西北農(nóng)林科技大學(xué)園藝實(shí)驗(yàn)教學(xué)基地的蘋果園為例,采用自建數(shù)據(jù)集進(jìn)行噴施行為識(shí)別與評(píng)價(jià)。為達(dá)到在果園內(nèi)所有果樹周圍都能夠捕捉到操作人員的人體關(guān)節(jié)點(diǎn)并識(shí)別果樹和噴霧器的要求,以長(zhǎng)寬比為a∶b(a>b)的蘋果園為例,設(shè)行距為4 m,株距為2.5 m,其攝像頭布點(diǎn)方案的俯視圖如圖1所示:在寬邊的每?jī)尚泄麡溟g布置1個(gè)攝像頭,確保人體不會(huì)被枝葉遮擋;在長(zhǎng)邊每隔6株果樹(15 m)安裝焦距為12 mm的1個(gè)攝像頭,確保監(jiān)控范圍內(nèi)的果樹和噴霧器目標(biāo)不會(huì)因像素過(guò)低而難以識(shí)別;攝像頭布點(diǎn)方案的剖面圖如圖2所示,監(jiān)控視頻主要是為了識(shí)別人體農(nóng)藥噴施行為,因此攝像頭高度為2.5 m,略高于人員頭頂,同時(shí)攝像頭安裝時(shí)向下的傾斜角度在5°~15°之間,確保在監(jiān)控內(nèi)人體關(guān)節(jié)點(diǎn)的角度不會(huì)變形,同時(shí)最大監(jiān)控范圍可達(dá)35~40 m。
圖1 果園內(nèi)攝像頭布點(diǎn)方案俯視圖
圖2 果園內(nèi)攝像頭布點(diǎn)方案?jìng)?cè)視圖
試驗(yàn)數(shù)據(jù)采集時(shí)間為2021年10月15—25日和2022年5月1—3日,噴霧器選擇WDB-20型背負(fù)式藍(lán)色電動(dòng)噴霧器。拍攝設(shè)備為??低暩咔逡挂晳敉鈹z像機(jī),型號(hào)為DS-IPC-B12V2-I/PoE,焦距為12 mm,分辨率為1 920像素×1 080像素,拍攝時(shí)間為07:30—09:30和16:30—18:30,每段視頻拍攝時(shí)長(zhǎng)平均為8~15 s。果園管理人員的噴施行為示意圖與實(shí)際場(chǎng)景視頻截幀如圖3所示,為人體背負(fù)噴霧器在果樹一側(cè)上下運(yùn)動(dòng)手肘進(jìn)行噴施。本研究共采集包括噴施行為等3種主要情況的92段視頻。圖4所示分別為存在針對(duì)果樹的噴施行為(存在噴施動(dòng)作),有噴霧器但無(wú)果樹的其他行為和有果樹但無(wú)噴霧器的其他行為。
圖3 果園噴施行為示意圖
圖4 果園3種主要情況的視頻截幀
同時(shí)為驗(yàn)證果園復(fù)雜情況下模型的魯棒性,如表1所示,在具有噴施行為的83段視頻中,分別以遮擋、距離變化、光線變化(日出后1 h、日出后2 h、日落前2 h和日落前1 h)和多人出現(xiàn)且1人進(jìn)行噴施行為等情況為4種主要條件測(cè)試噴施行為的識(shí)別分類效果,其中距離變化條件中以噴霧器與相機(jī)距離近(3~7 m)、中等(7~10 m)、較遠(yuǎn)(10 m及以上)和持續(xù)變化(3~10 m)4種情況加以分類,每種類別的視頻均寫明該類別中正常光照、逆光和陰天條件的視頻數(shù)量。該數(shù)據(jù)集包括了果園眾多復(fù)雜的干擾因素(光照變化、人或工具遮擋、枝葉遮擋、距離變化和人員復(fù)雜等),使噴施行為的識(shí)別分類工作具有實(shí)際借鑒意義。
表1 果園噴施行為視頻信息統(tǒng)計(jì)
訓(xùn)練果園噴施行為識(shí)別模型所需的數(shù)據(jù)集構(gòu)建工作包括兩部分:
(1)對(duì)果樹與噴霧器等交互場(chǎng)景目標(biāo)的識(shí)別:從各類別試驗(yàn)視頻中隨機(jī)選取10段視頻分解為序列幀,隨機(jī)選取2 000幅(逆光269幅,陰天961幅,正常光照770幅)圖像,分辨率為1 920像素(水平)×1 080像素(垂直)。使用LabelImg標(biāo)注工具對(duì)圖像中的果樹與噴霧器目標(biāo)進(jìn)行人工標(biāo)注,確保噴霧器的箱體部分與果樹的主干部分均在邊界框范圍內(nèi),標(biāo)注信息包括目標(biāo)的類別、位置和長(zhǎng)寬信息。為實(shí)現(xiàn)果樹與噴霧器目標(biāo)的識(shí)別與分類,本研究將這些標(biāo)簽圖像按照8∶1∶1的比例分別輸入YOLO v5目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。
(2)對(duì)人體關(guān)鍵關(guān)節(jié)點(diǎn)的識(shí)別:噴施行為識(shí)別模型所需的人體姿態(tài)數(shù)據(jù)是人體關(guān)鍵關(guān)節(jié)角度。基于此采用基于PyTorch的OpenPose模型對(duì)92段視頻進(jìn)行測(cè)試。以ZHE等[22]的關(guān)節(jié)點(diǎn)標(biāo)注結(jié)果為參考,分別保存視頻中每幀圖像的18個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)識(shí)別結(jié)果和人體檢測(cè)框數(shù)據(jù)(位置和長(zhǎng)寬信息)。包括18個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)的數(shù)據(jù)集將在預(yù)處理后作為果園噴施行為識(shí)別模型的訓(xùn)練集和測(cè)試集,用于檢測(cè)果園噴施行為模型的相關(guān)性能。人體檢測(cè)框數(shù)據(jù)作為后續(xù)可視化測(cè)試結(jié)果的參數(shù)保存。
本研究使用的開發(fā)平臺(tái)配置如下:CPU處理器為AMD Ryzen 7 4800H with Radeon Graphics;GPU顯卡為NVIDIA GeForce GTX 1650 Ti顯卡;采用Python語(yǔ)言編程;操作系統(tǒng)為Windows 10。
本研究采用基于人體姿態(tài)估計(jì)和場(chǎng)景交互模型的果園噴施行為檢測(cè)模型,對(duì)果園監(jiān)控視頻中管理人員的噴施行為進(jìn)行識(shí)別分類。如圖5所示,該模型首先利用圖像數(shù)據(jù)集訓(xùn)練YOLO v5模型,將測(cè)試視頻中的噴霧箱和果樹檢測(cè)框的位置信息存儲(chǔ),并計(jì)算噴霧器和果樹檢測(cè)框中心值的最短距離作為場(chǎng)景交互特征向量輸出。同時(shí)利用OpenPose模型存儲(chǔ)測(cè)試視頻的18個(gè)人體關(guān)節(jié)點(diǎn)像素值坐標(biāo),并計(jì)算人體關(guān)鍵關(guān)節(jié)點(diǎn)角度,完成人體姿態(tài)特征向量的提取。之后采用場(chǎng)景交互和人體姿態(tài)特征向量訓(xùn)練SVM分類模型,從而實(shí)現(xiàn)果園噴施行為的識(shí)別。
圖5 總體技術(shù)路線圖
果樹、噴藥器械及作業(yè)人員等場(chǎng)景交互信息的準(zhǔn)確識(shí)別是噴施行為檢測(cè)的基礎(chǔ)。為了避免光照、遮擋等復(fù)雜因素的影響,本研究中的交互場(chǎng)景目標(biāo)識(shí)別算法采用YOLO v5輕量級(jí)檢測(cè)模型[23]。YOLO v5使用跨階段局部網(wǎng)絡(luò)(Cross stage partial darknet53, CSPDarknet53)作為Backbone,從輸入圖像中提取豐富的信息特征;它基于Mask R-CNN和特征金字塔網(wǎng)絡(luò)(Feature pyramid network, FPN),采用路徑聚合網(wǎng)絡(luò)(Path aggregation network, PANet)和空間金字塔池化(Spatial pyramid pooling, SPP)作為Neck來(lái)聚合特征,加強(qiáng)了信息傳播;使用YOLO v3的Head實(shí)現(xiàn)目標(biāo)檢測(cè)?;赮OLO v5實(shí)現(xiàn)噴霧器和果樹目標(biāo)檢測(cè)的主要步驟如下:
(1)數(shù)據(jù)集準(zhǔn)備:對(duì)原始視頻經(jīng)過(guò)隨機(jī)截幀獲取圖像2 000幅,手動(dòng)標(biāo)注圖像中所有果樹和噴霧器目標(biāo)以完成數(shù)據(jù)集準(zhǔn)備,按照1.2節(jié)劃分比例進(jìn)行處理。
(2)YOLO v5目標(biāo)檢測(cè)模型的訓(xùn)練。為實(shí)現(xiàn)噴霧器和果樹目標(biāo)檢測(cè),本研究使用YOLO v5模型訓(xùn)練果園噴施行為數(shù)據(jù)集,模型內(nèi)存占用量?jī)H有14 MB。在本研究中使用以COCO數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練后的YOLO v5模型,參數(shù)設(shè)置如表2所示。
表2 參數(shù)設(shè)置
訓(xùn)練集、驗(yàn)證集和測(cè)試集用于訓(xùn)練、驗(yàn)證和測(cè)試 YOLO v5噴霧器和果樹目標(biāo)檢測(cè)。圖6顯示了訓(xùn)練期間邊界框回歸損失函數(shù)、目標(biāo)檢測(cè)置信度損失函數(shù)和分類損失函數(shù)曲線,可以看出,噴霧器和果樹目標(biāo)檢測(cè)模型訓(xùn)練的初始階段模型學(xué)習(xí)效率較高,訓(xùn)練曲線收斂速度較快,隨著訓(xùn)練次數(shù)的增加,檢測(cè)框、目標(biāo)檢測(cè)和分類的準(zhǔn)確率逐漸增加,訓(xùn)練的斜率曲線逐漸減小。
圖6 訓(xùn)練結(jié)果相關(guān)曲線
采用精確率(Precision)、召回率(Recall)、F1值、交并比(Intersection over union,IoU)為0.5時(shí)求得的平均精度(Average precision)AP@0.5和平均精度均值(mAP)mAP@0.5、IoU以0.05為步長(zhǎng)從0.5取到0.95時(shí)的AP和mAP求平均后得到的AP@0.5:0.95和mAP@0.5:0.95等指標(biāo)來(lái)評(píng)價(jià)目標(biāo)檢測(cè)模型的準(zhǔn)確性和有效性。其中IoU是評(píng)價(jià)邊界框正確性的度量指標(biāo),表明檢測(cè)框與真實(shí)標(biāo)簽的交集和并集的比值。各項(xiàng)指標(biāo)數(shù)值如表3和圖7a、7b所示,結(jié)果表明噴霧箱類別的識(shí)別效果整體優(yōu)于果樹類別,主要是因?yàn)楣麡涞男螒B(tài)多變,檢測(cè)框與真實(shí)框重合度較低和漏檢等問(wèn)題比噴霧箱的識(shí)別更容易產(chǎn)生。部分算法訓(xùn)練效果如圖7c所示,可以看出在復(fù)雜背景下該模型能夠識(shí)別噴霧器和果樹目標(biāo),其中嚴(yán)重遮擋的噴霧器依然可以準(zhǔn)確檢測(cè)。同時(shí)如圖8所示,當(dāng)噴霧器顏色與工作人員的服裝顏色近似時(shí),在暗處和明處的識(shí)別效果都比較準(zhǔn)確,未能識(shí)別的情況均為藥箱遮擋嚴(yán)重,而非因顏色相近。該模型的訓(xùn)練結(jié)果滿足后期對(duì)噴施行為識(shí)別的要求。
表3 訓(xùn)練結(jié)果
圖7 目標(biāo)檢測(cè)結(jié)果
圖8 服裝與藥箱顏色相近時(shí)的噴霧器識(shí)別結(jié)果
(3)提取場(chǎng)景交互特征向量:將試驗(yàn)視頻中每幀存儲(chǔ)的檢測(cè)框噴霧器和果樹類別與中心位置信息預(yù)處理后,提取噴霧器中心坐標(biāo)(Xs,Ys)和與該向量距離最近的果樹中心值坐標(biāo)(Xt,Yt)共同作為一組特征向量,并計(jì)算果園農(nóng)事操作人員與果樹的距離Dst
(1)
為后續(xù)噴施行為的識(shí)別分類工作奠定基礎(chǔ)。
即使實(shí)現(xiàn)了噴施人員、果樹及噴施器械的精確識(shí)別,若無(wú)相關(guān)噴施動(dòng)作行為,也無(wú)法準(zhǔn)確判別是否進(jìn)行了噴施作業(yè)。本研究的人體噴施行為檢測(cè)算法采用OpenPose算法[22],OpenPose人體姿態(tài)識(shí)別算法是基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)的開源庫(kù),可以實(shí)現(xiàn)人體動(dòng)作、面部表情、手指運(yùn)動(dòng)等姿態(tài)估計(jì)。適用于單人和多人,具有良好的魯棒性。它的網(wǎng)絡(luò)結(jié)構(gòu)后半部分為2個(gè)平行的卷積層分支:第1個(gè)分支實(shí)現(xiàn)對(duì)人體關(guān)鍵點(diǎn)坐標(biāo)的預(yù)測(cè);第2個(gè)分支采用關(guān)鍵點(diǎn)親和場(chǎng)算法實(shí)現(xiàn)人體關(guān)鍵點(diǎn)的連接。
基于OpenPose的人體噴施行為檢測(cè)步驟如下:
(1)對(duì)92個(gè)測(cè)試視頻采用基于PyTorch的OpenPose算法進(jìn)行人體目標(biāo)檢測(cè),平均檢測(cè)速度為6.38 f/s,部分檢測(cè)結(jié)果如圖9所示。將每幀18個(gè)人體關(guān)節(jié)點(diǎn)坐標(biāo)和人體檢測(cè)框數(shù)據(jù)(位置和長(zhǎng)寬信息)存儲(chǔ)至文件中,為后續(xù)人體關(guān)鍵關(guān)節(jié)點(diǎn)坐標(biāo)的角度計(jì)算奠定基礎(chǔ)。
圖9 OpenPose模型檢測(cè)效果
(2)提取人體姿態(tài)特征向量。將包括18個(gè)人體關(guān)節(jié)點(diǎn)的坐標(biāo)信息進(jìn)行預(yù)處理,通過(guò)觀察操作人員的噴施行為特點(diǎn),提取18個(gè)關(guān)節(jié)點(diǎn)中的脖子(X1,Y1)、右肩(X2,Y2)和右肘(X3,Y3)作為關(guān)鍵關(guān)節(jié)點(diǎn),人體姿態(tài)特征p計(jì)算式為
(2)
其中
(3)
從而完成果園農(nóng)事操作人員的姿態(tài)區(qū)分。
本研究構(gòu)建的果園噴施行為識(shí)別模型中的行為識(shí)別分類部分由SVM完成[24]。本文擬將視頻的每幀分為非噴施行為(Not Spraying)、噴施行為(Spraying)和無(wú)法識(shí)別(Unrecognized)3種結(jié)果,因此需要多分類的SVM,其實(shí)現(xiàn)是通過(guò)在任意兩類行為之間設(shè)計(jì)1個(gè)二分類模型,并組合多個(gè)二分類器實(shí)現(xiàn)多分類器的構(gòu)造?;赟VM模型的果園噴施行為識(shí)別主要步驟如下:
(1)數(shù)據(jù)集準(zhǔn)備。在92段視頻中共選取38段視頻,共11 244幀圖像,對(duì)每幀圖像的輸出結(jié)果進(jìn)行預(yù)處理,將場(chǎng)景交互特征向量d和人體姿態(tài)特征p作為每幀圖像的特征向量,并完成對(duì)它們的標(biāo)注分類,標(biāo)簽為“0”(Not Spraying)、“1”(Spraying)、“2”(Unrecognized)。在進(jìn)行標(biāo)注時(shí),對(duì)照試驗(yàn)視頻的每幀圖像實(shí)際行為,將手臂上抬和下落完成噴施動(dòng)作在一定范圍,且滿足噴霧器與果樹距離相近的標(biāo)注為“1”;將p缺失情況標(biāo)注為“2”,其他情況均標(biāo)注為“0”。數(shù)據(jù)集被劃分訓(xùn)練集(8 995組特征)和測(cè)試集(2 249組特征)的比例為8∶2。
(2)果園噴施行為識(shí)別模型訓(xùn)練。采用PyCharm環(huán)境,scikit-learn庫(kù)中的OneVsRestClassifier實(shí)現(xiàn)多分類。由于每個(gè)類別僅由1個(gè)分類器表示,因此可以通過(guò)檢查其對(duì)應(yīng)的分類器獲取有關(guān)該類別的信息[25]。
(3)識(shí)別分類結(jié)果輸出。試驗(yàn)視頻采用本研究訓(xùn)練完成的OneVsRestClassifier模型,將檢測(cè)結(jié)果的標(biāo)簽以時(shí)間序列標(biāo)記在該視頻中的人體檢測(cè)框上并輸出視頻,完成果園噴施行為的識(shí)別分類工作。從圖10a可以看出,視頻5中人員行走姿勢(shì)被識(shí)別為“Not Spraying”,圖10b中人員噴施行為被識(shí)別為“Spraying”。結(jié)果表明,對(duì)于操作人員的不同姿勢(shì),本研究可以根據(jù)對(duì)噴霧器和果樹的目標(biāo)檢測(cè)和對(duì)人體姿態(tài)角度的計(jì)算,利用SVM分類器有效完成對(duì)果園噴施行為的識(shí)別分類。
圖10 識(shí)別結(jié)果截幀
本研究使用的行為識(shí)別評(píng)價(jià)指標(biāo)為準(zhǔn)確度、平均絕對(duì)誤差、均方根誤差、預(yù)測(cè)標(biāo)準(zhǔn)偏差和性能偏差比,準(zhǔn)確度越高表明該方法檢測(cè)噴施行為越準(zhǔn)確,平均絕對(duì)誤差、均方根誤差和預(yù)測(cè)標(biāo)準(zhǔn)偏差越低則表明該方法在不同光線、不同距離、不同人數(shù)和不同遮擋程度等條件下的檢測(cè)噴施行為穩(wěn)定性越好,性能偏差比在1.5以上的范圍內(nèi)越大表明模型越好。
采用表1中的92段試驗(yàn)視頻進(jìn)行了測(cè)試。檢測(cè)結(jié)果如圖11所示,92段視頻的準(zhǔn)確度為85.66%。平均絕對(duì)誤差為42.53%,均方根誤差為44.59%,預(yù)測(cè)標(biāo)準(zhǔn)偏差為44.34%,性能偏差比為1.56。圖12a為第11號(hào)試驗(yàn)視頻的301幀按時(shí)間序列排列的行為真實(shí)結(jié)果,圖12b為采用本模型的第11號(hào)試驗(yàn)視頻的301幀按時(shí)間序列排列的行為識(shí)別結(jié)果,其中藍(lán)色部分表示非噴施行為,黃色部分表示存在噴施行為,紅色部分表示無(wú)法識(shí)別該行為,可以看出圖中兩種色帶基本重合,最終計(jì)算可得第11號(hào)視頻的準(zhǔn)確度為96.68%。
圖11 試驗(yàn)視頻的準(zhǔn)確度變化曲線
存在果樹噴施行為的83段視頻準(zhǔn)確度為85.60%,僅有噴霧器的2段視頻檢測(cè)準(zhǔn)確度為85.10%,僅有果樹的7段視頻檢測(cè)平均準(zhǔn)確度為86.48%,表明該模型能夠較好完成針對(duì)果園操作人員日常行為和噴施行為的區(qū)分,動(dòng)作和農(nóng)事器具的改變對(duì)模型檢測(cè)結(jié)果的影響不大。
在室外環(huán)境下,光照的變化會(huì)使果樹、噴霧器和人體的識(shí)別變得更加困難,因?yàn)楣饩€變化會(huì)改變拍攝視頻的色調(diào)和明暗,對(duì)于識(shí)別造成一定干擾,因此需考慮光照變化對(duì)識(shí)別結(jié)果的影響。本研究中分別拍攝了正常光照、陰天和逆光照條件下的45、34、13段視頻。3種條件下噴施行為識(shí)別分類的準(zhǔn)確度分別為86.43%、88.50%和74.70%。試驗(yàn)結(jié)果表明,果園噴施行為的識(shí)別準(zhǔn)確度在正常光照和陰天條件下均表現(xiàn)優(yōu)秀,但在逆光照條件下準(zhǔn)確度較低。
有光線變化條件的正常光照(45段)和逆光照(13段)試驗(yàn)視頻共計(jì)58段。人體噴施行為識(shí)別結(jié)果部分檢測(cè)幀如圖13所示,可以看出在不同光線變化下的識(shí)別效果均比較準(zhǔn)確。在4種光線變化下的識(shí)別結(jié)果對(duì)比如表4所示,行為識(shí)別準(zhǔn)確率基本在80%以上。在日出后1 h和日落前1 h,光線較為柔和的條件下識(shí)別效果更好,而在光線較強(qiáng)時(shí)受光斑和陰影干擾,識(shí)別效果相對(duì)較差。
圖13 不同光線條件下的部分識(shí)別結(jié)果
表4 不同光線條件下人體噴施行為識(shí)別結(jié)果對(duì)比
果園噴施行為的識(shí)別檢測(cè)通常在復(fù)雜的室外環(huán)境進(jìn)行,干擾因素較多,同時(shí)人體姿態(tài)的識(shí)別涉及到多個(gè)關(guān)鍵關(guān)節(jié)點(diǎn),計(jì)算難度增加,行為識(shí)別困難,因此為驗(yàn)證該模型的魯棒性,分析對(duì)比了影響果園噴施行為識(shí)別檢測(cè)的主要因素。
目前尚未發(fā)現(xiàn)對(duì)于果園操作人員行為監(jiān)控識(shí)別的相關(guān)研究,雖然結(jié)合物體特征的人體行為識(shí)別類算法取得了一定的效果,但是難以適用于果園環(huán)境下人員行為的識(shí)別監(jiān)測(cè)。因此本研究采用人體姿態(tài)識(shí)別和場(chǎng)景交互結(jié)合的模型,完成對(duì)于果園噴施行為的識(shí)別。測(cè)試結(jié)果表明,平均準(zhǔn)確度為85.66%,可為果品溯源體系中果園農(nóng)藥施用等噴施行為的監(jiān)管提供技術(shù)參考。
攝像頭與人體的遠(yuǎn)近變化可能會(huì)給果園噴施行為的識(shí)別帶來(lái)一定負(fù)面影響。因此,為探索該模型對(duì)攝像頭距離變化干擾的魯棒性,本研究需要分析和討論在具有4類常見距離變化干擾的試驗(yàn)視頻中的相關(guān)性能。圖14顯示在不同距離時(shí),采用訓(xùn)練后的YOLO v5模型對(duì)于噴霧器和果樹的識(shí)別結(jié)果??梢钥闯觯?xùn)練后的YOLO v5模型可以在果園環(huán)境中識(shí)別到不同距離時(shí)的果樹及噴霧器目標(biāo),為人員行為的識(shí)別檢測(cè)奠定了基礎(chǔ)。圖15分別顯示了在近、中等和較遠(yuǎn)距離情況下本模型的果園噴施行為識(shí)別結(jié)果。
圖14 不同距離時(shí)目標(biāo)的識(shí)別結(jié)果
圖15 不同距離時(shí)行為的識(shí)別分類結(jié)果
圖16為第5號(hào)試驗(yàn)視頻的3種行為真實(shí)結(jié)果和采用本模型檢測(cè)的3種行為識(shí)別結(jié)果的時(shí)間序列可視化對(duì)比結(jié)果??梢钥闯?,以第5號(hào)視頻為例,在人體和攝像頭的距離快速變化的干擾下,對(duì)于人體姿態(tài)的捕捉和行為分類結(jié)果并未產(chǎn)生影響。結(jié)果表明該模型能夠適應(yīng)姿態(tài)變化和目標(biāo)距離變化的兩種影響,完成果園內(nèi)人員噴施行為的識(shí)別。
圖16 第5號(hào)視頻行為識(shí)別結(jié)果對(duì)照
如表5所示,該模型在不同距離時(shí)的行為分類結(jié)果,準(zhǔn)確度最低為79.57%,而果園架設(shè)攝像頭的真實(shí)場(chǎng)景中最多出現(xiàn)的中等距離和遠(yuǎn)距離條件下,噴施行為識(shí)別分類結(jié)果準(zhǔn)確度為91.25%,表明該模型對(duì)果園噴施行為識(shí)別的距離因素干擾具有良好的魯棒性。
表5 不同距離時(shí)的行為分類結(jié)果對(duì)比
在果園環(huán)境中,常見的遮擋干擾因素為噴霧器和人體關(guān)節(jié)點(diǎn)的遮擋,圖17a為第1號(hào)試驗(yàn)視頻中存在嚴(yán)重遮擋的某幀噴霧箱識(shí)別結(jié)果,圖17b為存在遮擋的某幀人體識(shí)別結(jié)果。即使在背景復(fù)雜的果園室外環(huán)境中,該模型的前期訓(xùn)練結(jié)果仍可有效識(shí)別人體和噴霧箱。
圖17 第1號(hào)視頻中目標(biāo)檢測(cè)結(jié)果
圖18為第2號(hào)視頻中部分幀的果園噴施行為識(shí)別結(jié)果??梢园l(fā)現(xiàn),該模型成功分類了302幀中94.24%的果園操作人員的行為。
圖18 第2號(hào)視頻中行為分類結(jié)果
圖19呈現(xiàn)了在時(shí)間序列中,第3號(hào)試驗(yàn)視頻的行為真實(shí)結(jié)果和采用本模型檢測(cè)的行為識(shí)別結(jié)果的可視化對(duì)比結(jié)果。結(jié)果表明,在人體上肢或噴霧器發(fā)生嚴(yán)重遮擋時(shí),本研究提出的模型易發(fā)生漏檢和誤檢情況,這是因?yàn)閲婌F器目標(biāo)或人體上肢關(guān)鍵關(guān)節(jié)點(diǎn)數(shù)據(jù)讀取不全,發(fā)生誤判導(dǎo)致的。
圖19 第3號(hào)視頻行為識(shí)別結(jié)果對(duì)照
92個(gè)測(cè)試視頻中,針對(duì)有嚴(yán)重遮擋情況的視頻模型,模型識(shí)別準(zhǔn)確度為86.71%,表明該模型可以有效識(shí)別在果園發(fā)生復(fù)雜遮擋時(shí)的人員噴施行為。
在果園環(huán)境中,人員流動(dòng)復(fù)雜,因此含有多人且單人噴施行為的識(shí)別也是模型識(shí)別結(jié)果的重要考量因素。
該模型主要針對(duì)測(cè)試視頻中單人背負(fù)噴霧器的情況進(jìn)行識(shí)別,對(duì)于視頻中含有多人的情況,將噴霧器與離其最近的人體識(shí)別結(jié)果相對(duì)應(yīng)存儲(chǔ),再進(jìn)行后續(xù)識(shí)別工作。在2段包含3人的試驗(yàn)視頻中,模型識(shí)別準(zhǔn)確度為72.33%,其中第43號(hào)試驗(yàn)視頻的識(shí)別準(zhǔn)確度為63.25%,主要原因?yàn)樵撘曨l中的果樹目標(biāo)識(shí)別率較低,影響了噴施行為的識(shí)別。測(cè)試結(jié)果表明,若處在噴施行為中的單人能夠在視頻初始幀中被首先識(shí)別完成并在視頻中被持續(xù)跟蹤,則該模型能夠有效識(shí)別多人情況中的單人噴施行為。
(1)該方法對(duì)于試驗(yàn)視頻中3類行為的識(shí)別平均準(zhǔn)確率為85.66%。在光照、遮擋、多人情況下僅一人背負(fù)噴霧器和距離變化等4種情況下該方法的魯棒性較好,能夠用于識(shí)別果園中的噴施行為。同時(shí)該方法在視頻環(huán)境的光線較弱時(shí)更適合,當(dāng)光線過(guò)強(qiáng)時(shí)會(huì)因光斑和陰影使識(shí)別結(jié)果產(chǎn)生較大誤差。
(2)該方法可以通過(guò)視頻監(jiān)控對(duì)攝像范圍內(nèi)的果園噴施行為進(jìn)行識(shí)別,擺脫了人為記錄噴霧次數(shù)導(dǎo)致的疲勞和低信任度。同時(shí),噴施行為的有效識(shí)別對(duì)于后期判斷農(nóng)藥是否科學(xué)噴施、是否農(nóng)藥過(guò)量、檢測(cè)農(nóng)藥殘留和檢測(cè)農(nóng)藥有效沉積等均能提供重要參考,進(jìn)一步幫助果園的智能化和自動(dòng)化發(fā)展,完善果品溯源體系。
(3)在多人情況下,由于方法中尚未涉及目標(biāo)跟蹤和目標(biāo)重新分配的相關(guān)問(wèn)題,只能對(duì)背負(fù)噴霧器的一人完成識(shí)別,不能識(shí)別多人均背負(fù)噴霧器時(shí)的行為。當(dāng)逆光嚴(yán)重或人與攝像頭的距離過(guò)近時(shí),會(huì)由于噴霧器和果樹距離的距離像素值過(guò)高而增加產(chǎn)生誤識(shí)別的幾率,因此攝像頭的安裝位置會(huì)在一定程度上影響行為識(shí)別結(jié)果。
(4)本研究未針對(duì)噴霧器的霧液進(jìn)行檢測(cè)與交互,即若監(jiān)控中果園操作人員僅舉著噴霧桿擺動(dòng)手臂但沒有噴施藥液的情況下會(huì)誤判,但該情況發(fā)生概率在實(shí)際生產(chǎn)中較低,因此未納入考慮范圍。同時(shí),雖然人體可能在鏡頭下發(fā)生一定時(shí)間的畸變和消失,但在實(shí)際生產(chǎn)生活中,果樹的葉面肥料和農(nóng)藥施用僅在鏡頭死角發(fā)生的情況較少,后續(xù)通過(guò)捕捉視頻幀即可判斷是否發(fā)生噴施行為。因此本研究后續(xù)將改進(jìn)網(wǎng)絡(luò),完成分類的實(shí)時(shí)性、增加對(duì)噴施次數(shù)的記錄、捕捉關(guān)鍵幀和實(shí)現(xiàn)多人同時(shí)檢測(cè)的功能,實(shí)現(xiàn)對(duì)果園噴施行為的實(shí)時(shí)監(jiān)測(cè)和信息記錄。