周玲莉 任 妮 張文翔 程雅雯 陳 誠(chéng) 易中懿
(江蘇省農(nóng)業(yè)科學(xué)院信息中心,南京 210014)
數(shù)據(jù)庫(kù)(集)基本信息匯總表
隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,復(fù)雜環(huán)境下的視覺(jué)解析在諸多領(lǐng)域中發(fā)揮出巨大的作用,包括交通、醫(yī)療、金融等[1][2]?,F(xiàn)如今在深度學(xué)習(xí)[3]的大背景下,計(jì)算機(jī)視覺(jué)技術(shù)又跨上一個(gè)新臺(tái)階,各領(lǐng)域中的機(jī)器人系統(tǒng)離不開(kāi)包括圖像分類(lèi)[4]、物體檢測(cè)[5]、圖像分割[6][7]等視覺(jué)任務(wù)的順利交付。支撐深度神經(jīng)網(wǎng)絡(luò)發(fā)展的一個(gè)重要元素是大規(guī)模、標(biāo)注過(guò)的圖像數(shù)據(jù)集[8][9],比如在自動(dòng)駕駛領(lǐng)域,諸如Cityscapes[10]、KITTI[9]等在內(nèi)的城市道路場(chǎng)景解析數(shù)據(jù)集。這些大規(guī)模數(shù)據(jù)集是深度神經(jīng)網(wǎng)絡(luò)的基石,使得基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)技術(shù)能有更好的性能表現(xiàn)。
在農(nóng)業(yè)領(lǐng)域,由于農(nóng)作物種類(lèi)繁多、背景復(fù)雜、數(shù)據(jù)采集困難等原因,大規(guī)模的可用于深度學(xué)習(xí)的數(shù)據(jù)集相對(duì)較少,算法的實(shí)現(xiàn)與評(píng)價(jià)通常依賴(lài)研究人員自身收集的少量數(shù)據(jù)[11][12][13]。比如論文[11]與論文[13]雖然具有相同的視覺(jué)任務(wù),兩者都是使用深度學(xué)習(xí)方法對(duì)蘋(píng)果果實(shí)進(jìn)行識(shí)別和定位,但由于前者采集數(shù)據(jù)過(guò)少且標(biāo)注較為簡(jiǎn)單,后者無(wú)法對(duì)這些數(shù)據(jù)進(jìn)行再利用,只能重新進(jìn)行拍攝與標(biāo)注。因此,在評(píng)價(jià)指標(biāo)相同的情況下,研究成果之間不具有可比性,彼此之間的優(yōu)劣無(wú)法體現(xiàn),進(jìn)而限制了深度學(xué)習(xí)方法在農(nóng)業(yè)領(lǐng)域的研究應(yīng)用,導(dǎo)致計(jì)算機(jī)視覺(jué)技術(shù)在此領(lǐng)域的發(fā)展相對(duì)落后。此外,還有一些研究中所用的數(shù)據(jù)是在實(shí)驗(yàn)環(huán)境中獲得的,比如在論文[14]中,使用從谷歌搜集到的圖片進(jìn)行深度學(xué)習(xí)的訓(xùn)練實(shí)現(xiàn)目標(biāo)果實(shí)的檢測(cè),然后在搭建的實(shí)驗(yàn)環(huán)境中進(jìn)行評(píng)估與測(cè)試。實(shí)驗(yàn)環(huán)境與作物實(shí)際復(fù)雜生產(chǎn)環(huán)境相差甚遠(yuǎn),因此文中提出的方法難以適用于真實(shí)農(nóng)作場(chǎng)景下的應(yīng)用。
為了縮小差距,一些學(xué)者也做了不少的嘗試[15][16],其中最值得關(guān)注的是Wageningen 大學(xué)等人制作的甜椒數(shù)據(jù)集[17]。他們提出一種人工數(shù)據(jù)合成方法,使用軟件模擬制作出甜椒種植環(huán)境,然后通過(guò)渲染得到甜椒合成圖像以及對(duì)應(yīng)合成語(yǔ)義分割標(biāo)簽。然而,如圖1(a)所示,他們提供的甜椒經(jīng)驗(yàn)圖像是在特殊光照下拍攝的,參照經(jīng)驗(yàn)圖像制作的合成圖像也是背景類(lèi)似的暗圖像,但大多數(shù)農(nóng)業(yè)機(jī)器人都是在自然光照下作業(yè),其相機(jī)拍出的圖像如圖1(b)所示。
圖1 (a)甜椒經(jīng)驗(yàn)圖像和(b)番茄經(jīng)驗(yàn)圖像Fig.1 (a)pepper empirical image and(b)tomato empir?ical image
本文從對(duì)番茄采摘機(jī)器人的研究出發(fā),結(jié)合其視覺(jué)系統(tǒng)中當(dāng)前以及長(zhǎng)遠(yuǎn)對(duì)數(shù)據(jù)的需要,提供一個(gè)包含合成部分和經(jīng)驗(yàn)部分的大規(guī)模番茄圖像數(shù)據(jù)集。其中,合成部分參考Wageningen 大學(xué)等人[17]提出的數(shù)據(jù)合成方法,生成3250 張合成圖像和對(duì)應(yīng)的像素級(jí)語(yǔ)義分割標(biāo)簽,可用于計(jì)算機(jī)視覺(jué)模型的預(yù)訓(xùn)練;經(jīng)驗(yàn)部分包含750 張單目圖像和400 張雙目圖像,這些圖像都拍攝于真實(shí)番茄生產(chǎn)溫室,保證了數(shù)據(jù)的真實(shí)性與復(fù)雜性。對(duì)于部分經(jīng)驗(yàn)圖像,除了進(jìn)行像素級(jí)語(yǔ)義分割標(biāo)注外,還為可采摘果實(shí)和不可采摘果實(shí)兩個(gè)類(lèi)別添加了實(shí)例級(jí)語(yǔ)義分割標(biāo)注,并使用軟件自動(dòng)生成兩種果實(shí)的物體檢測(cè)標(biāo)簽,保證了標(biāo)注信息的多維性。該番茄數(shù)據(jù)集為采摘機(jī)器人視覺(jué)系統(tǒng)提供數(shù)據(jù)支持,具有很高的實(shí)用性與價(jià)值性,也為其他作物生長(zhǎng)環(huán)境下的視覺(jué)解析任務(wù)提供預(yù)訓(xùn)練數(shù)據(jù),為計(jì)算機(jī)視覺(jué)技術(shù)在農(nóng)業(yè)領(lǐng)域的發(fā)展提供了一定的數(shù)據(jù)基礎(chǔ)。
經(jīng)驗(yàn)圖像的拍攝地址為江蘇省農(nóng)業(yè)科學(xué)院的番茄生產(chǎn)智能溫室,該溫室專(zhuān)門(mén)用于設(shè)施果蔬智能化生產(chǎn)技術(shù)的集成與示范。溫室中育有蘇粉11 號(hào)等品種番茄共18 行,行間距90cm,每行每隔25cm 育有一顆番茄植株。由于拍攝場(chǎng)景存在近距離、高密度的特點(diǎn),因此對(duì)相機(jī)的分辨率和焦距選擇有一定要求。單目圖像的拍攝選擇分辨率為1600 像素×1200 像素的德國(guó)uEye SE 工業(yè)相機(jī)和焦距為4.16mm 的鏡頭,雙目圖像的拍攝使用國(guó)產(chǎn)Lena 相機(jī),搭配3.6mm 的定焦鏡頭,左右圖的分辨率設(shè)置為1280像素×720像素。
拍攝時(shí)間集中在2020 年12 月至2021 年2 月,此時(shí)溫室中的番茄處于成熟期,可進(jìn)行番茄的采摘、產(chǎn)量估測(cè)等工作。在整體天氣情況為晴天時(shí)進(jìn)行拍攝,不同于論文[17]中在夜晚使用白色發(fā)光二極管矩陣照亮拍攝區(qū)域,選擇在白天進(jìn)行番茄的拍攝,得到自然光照下的番茄圖像,這更符合一般條件下采摘機(jī)器人等應(yīng)用對(duì)圖像的要求。為增加數(shù)據(jù)的多樣性,拍攝過(guò)程中,相機(jī)的角度與水平面夾角在-45 度到45 度之間變換,離植株的距離控制在20cm 至40cm 之間,每行植株都有前光和背光兩種拍攝情況。根據(jù)該溫室中植株的間距,相機(jī)沿著植物行每隔20cm 的增量進(jìn)行成像,以便在每個(gè)圖像的視野中都包含一個(gè)新的植株。最后,對(duì)拍攝圖像做進(jìn)一步檢查,剔除部分不符合要求的圖像。包括由于相機(jī)曝光過(guò)度或不足導(dǎo)致的顏色過(guò)明、過(guò)暗圖像,或相機(jī)移動(dòng)導(dǎo)致的模糊圖像,以及其他原因?qū)е碌牟磺逦鷪D像。最終剔除約7%單目圖像,約10%雙目圖像,篩選出750張單目圖像、400張雙目圖像。
觀察圖片可以發(fā)現(xiàn)多張連續(xù)圖像之間存在高相似性的特點(diǎn),因此從單、雙目圖像中隨機(jī)、分散地各選出具有代表性的100 張圖片,使用開(kāi)源的數(shù)據(jù)標(biāo)注軟件Labelme 對(duì)這些圖像進(jìn)行標(biāo)注。圖像的像素級(jí)標(biāo)簽由分層多邊形組成,要求注釋者從后向前標(biāo)注圖像,確保每個(gè)對(duì)象的邊界沒(méi)有被重復(fù)標(biāo)注。由于番茄植株環(huán)境復(fù)雜,為了保證標(biāo)注的質(zhì)量水平同時(shí)加快標(biāo)注的速度,每張圖只進(jìn)行部分標(biāo)注。如圖1(b)所示,即只關(guān)注圖像中前兩行距離較近的植株場(chǎng)景,其他較遠(yuǎn)的部分在采摘時(shí)可均視為背景。此外,基于以下兩點(diǎn)考慮:(1)在采摘之前會(huì)對(duì)植株進(jìn)行打老葉,此時(shí)番茄果實(shí)周?chē)~片稀少,且少量葉片遮擋不會(huì)阻礙機(jī)器人機(jī)械手運(yùn)動(dòng);(2)番茄植株的葉片呈不規(guī)則形狀出現(xiàn)導(dǎo)致標(biāo)注困難。因此人工語(yǔ)義分割標(biāo)簽與合成標(biāo)簽相比,省去葉片這一類(lèi)別的標(biāo)注,標(biāo)簽類(lèi)別一共為8 個(gè),分別為背景、可采摘果實(shí)、不可采摘果實(shí)、花托、主干、側(cè)枝與葉莖、細(xì)線(xiàn)、切口處,每個(gè)類(lèi)別在標(biāo)簽圖中由同一種顏色表示。標(biāo)注過(guò)程中,除了給每張圖像添加像素級(jí)別的分割標(biāo)簽,還為可采摘果實(shí)和不可采摘果實(shí)兩個(gè)類(lèi)別添加實(shí)例級(jí)標(biāo)簽。平均每張圖片的標(biāo)注耗時(shí)約為1h。
每個(gè)果實(shí)實(shí)例均為一個(gè)檢測(cè)目標(biāo),使用Python代碼,可以快速給每張圖生成可采摘果實(shí)和不可采摘果實(shí)的目標(biāo)檢測(cè)標(biāo)簽。最終,由每張?jiān)紙D像生成了包含圖像語(yǔ)義分割、實(shí)例分割以及目標(biāo)檢測(cè)在內(nèi)的三種計(jì)算機(jī)視覺(jué)任務(wù)標(biāo)簽。
合成數(shù)據(jù)的制作需借助Plantfactory 和Blender兩個(gè)軟件,圖2 為制作番茄合成數(shù)據(jù)的方法流程圖。首先,根據(jù)Plantfactory 軟件制作需要,測(cè)量番茄植株各部位的幾何參數(shù)和各部位之間的拓?fù)浣Y(jié)構(gòu)標(biāo)量化參數(shù)(如表1 和表2 所示),將這些關(guān)鍵參數(shù)輸入到Plantfactory 軟件,經(jīng)過(guò)調(diào)整構(gòu)建出多棵番茄植株,導(dǎo)出為3D 模型文件;然后,在Blender 軟件中導(dǎo)入上述番茄植株模型和使用Artec三維掃描儀掃描得到的番茄果實(shí)模型,使用番茄植株的彩色圖像和葉片2D 掃描圖像將模型紋理化。再模擬番茄種植溫室,加入背景、地面、基質(zhì)架、細(xì)線(xiàn)等物體,構(gòu)建一個(gè)番茄植株群體環(huán)境。最后給植株群體添加光照屬性、相機(jī)參數(shù)等,使用Blender的圖像渲染功能,生成番茄的合成圖像,以及對(duì)應(yīng)的合成語(yǔ)義分割標(biāo)簽圖。
表1 番茄植株的各部位幾何參數(shù)Table 1 Geometric parameters of each part of tomato plant
表2 番茄植株拓?fù)浣Y(jié)構(gòu)標(biāo)量化參數(shù)Table 2 Scalar parameters of tomato plant topology
圖2 合成數(shù)據(jù)制作流程圖Fig.2 Flow chart of synthetic data production
合成部分的數(shù)據(jù)一共使用3 個(gè)文件夾進(jìn)行保存,第一個(gè)文件夾中保存的是bmp 格式的RGB 合成圖像;第二個(gè)文件夾中保存的是png 格式的RGB 合成標(biāo)簽圖;第三個(gè)文件夾中保存的是對(duì)RGB 合成標(biāo)簽圖進(jìn)行處理后得到的單通道png 格式的灰度圖,灰度圖中的像素?cái)?shù)值大小在0 到8 之間,每個(gè)數(shù)值對(duì)應(yīng)一個(gè)類(lèi)別,便于語(yǔ)義分割網(wǎng)絡(luò)的使用。每個(gè)文件夾中的每張圖像按照“該文件夾名_序號(hào)”的方式命名,合成圖像和其對(duì)應(yīng)的RGB 語(yǔ)義分割標(biāo)簽圖示例如圖3所示。
圖3 合成圖像與合成標(biāo)簽示例Fig.3 Example of synthetic image and synthetic ground-truth
使用4 個(gè)一級(jí)文件夾分別保存經(jīng)驗(yàn)部分的原始拍攝圖像、目標(biāo)檢測(cè)標(biāo)簽、語(yǔ)義分割標(biāo)簽以及實(shí)例分割標(biāo)簽。保存原始圖像的一級(jí)文件夾下包含兩個(gè)二級(jí)文件夾,分別存儲(chǔ)單目圖像和雙目圖像。每張單目圖像的命名規(guī)則為“拍攝日期_monocular_序號(hào)”;雙目圖像分為左圖和右圖,分別命名為“拍攝日期_binocular_Left_序號(hào)”和“拍攝日期_binocular_Right_序號(hào)”,使用兩個(gè)文件夾進(jìn)行保存。
保存三種標(biāo)簽的每個(gè)文件夾下也分為單目和雙目?jī)刹糠帧C繌堅(jiān)紙D像對(duì)應(yīng)的各類(lèi)型標(biāo)簽存儲(chǔ)格式如表3 所示,目標(biāo)檢測(cè)的標(biāo)簽為txt 格式的文檔,語(yǔ)義分割的標(biāo)簽為png 格式的分割圖,實(shí)例分割的標(biāo)簽為文件,每個(gè)文件中包含5 個(gè)描述同一個(gè)實(shí)例分割標(biāo)簽的文檔與圖片。每個(gè)標(biāo)簽均命名為其對(duì)應(yīng)的原始圖像名稱(chēng),部分標(biāo)簽示例如圖4所示。
圖4 部分經(jīng)驗(yàn)圖像標(biāo)簽示例圖Fig.4 Images of partial labels
表3 三種類(lèi)型標(biāo)簽的存儲(chǔ)格式Table 3 Storage formats for three types of labels
前期合成部分的制作人員對(duì)Plantfactory 和Blender 兩個(gè)軟件進(jìn)行自主學(xué)習(xí),制作過(guò)程中盡可能保證對(duì)真實(shí)番茄植株環(huán)境的還原。經(jīng)驗(yàn)圖像由固定人員進(jìn)行采集,減少人員差異導(dǎo)致的不一致性;對(duì)拍攝圖像進(jìn)行甄別與篩選,并由其他人員做進(jìn)一步的檢查,剔除約7%的單目圖像,約10%的雙目圖像,保證數(shù)據(jù)的質(zhì)量。根據(jù)統(tǒng)一的標(biāo)注規(guī)范方案,對(duì)所有數(shù)據(jù)標(biāo)注人員進(jìn)行培訓(xùn),督促其在標(biāo)注過(guò)程中及時(shí)進(jìn)行自查,全部數(shù)據(jù)標(biāo)注完成后標(biāo)注人員之間相互校對(duì),對(duì)約10%的圖像標(biāo)注進(jìn)行二次修改。所有的數(shù)據(jù)按照“名稱(chēng)+序號(hào)”的方式妥善保存并備份,以便將來(lái)對(duì)該數(shù)據(jù)集進(jìn)行完善和補(bǔ)充。
使用兩個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)驗(yàn)證該數(shù)據(jù)集的可用性,分別為yolo[18]目標(biāo)檢測(cè)網(wǎng)絡(luò)以及基于ResNet101[19]的DeepLab[20]圖像語(yǔ)義分割網(wǎng)絡(luò)。對(duì)于目標(biāo)檢測(cè)任務(wù),使用單目標(biāo)注圖像的前1~85 張進(jìn)行訓(xùn)練,第86~100 張進(jìn)行測(cè)試;對(duì)于語(yǔ)義分割任務(wù),為證明該番茄數(shù)據(jù)集中合成部分對(duì)經(jīng)驗(yàn)部分在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練中的指導(dǎo)性,對(duì)該部分實(shí)驗(yàn)做2個(gè)設(shè)置,具體如下:
設(shè)置1:不使用番茄數(shù)據(jù)集中的合成部分進(jìn)行預(yù)訓(xùn)練,僅使用單目標(biāo)注圖像的前1~85張進(jìn)行訓(xùn)練,第86~100張圖像進(jìn)行測(cè)試。
設(shè)置2:使用該番茄數(shù)據(jù)集合成部分第1~3000張圖像進(jìn)行預(yù)訓(xùn)練,單目標(biāo)注圖像的前1~85 張進(jìn)行微調(diào),第86~100張圖像進(jìn)行測(cè)試。
表4 為目標(biāo)檢測(cè)任務(wù)的測(cè)試結(jié)果,使用可采摘果實(shí)和不可采摘果實(shí)兩個(gè)類(lèi)別的精確度(Precision,P)、召回率(Recall,R)、IoU 值設(shè)置為0.5的平均精度(Average Precision,AP)以及平均AP 值作為評(píng)價(jià)指標(biāo)。表5 為圖像語(yǔ)義分割任務(wù)的測(cè)試結(jié)果,使用像素準(zhǔn)確度(Pixiel Accuracy,acc)和所有類(lèi)別的平均交并比(mean Intersection-over-Union,mIoU)作為評(píng)價(jià)指標(biāo)。圖5為這兩個(gè)網(wǎng)絡(luò)測(cè)試的視覺(jué)結(jié)果圖。從表5中可以看到,設(shè)置2的測(cè)試結(jié)果和設(shè)置1的相比,acc和mIoU兩個(gè)值均有不同程度的提升,尤其是mIoU 值增加了2.68%,可見(jiàn)合成數(shù)據(jù)對(duì)經(jīng)驗(yàn)數(shù)據(jù)在網(wǎng)絡(luò)訓(xùn)練中的指導(dǎo)作用,而這些表格和圖片中的可觀數(shù)值也有力證實(shí)了該數(shù)據(jù)集的有效性。
圖5 數(shù)據(jù)驗(yàn)證視覺(jué)結(jié)果Fig.5 Visual Results of Data Validation
表4 目標(biāo)檢測(cè)實(shí)驗(yàn)測(cè)試結(jié)果Table 4 Test results of object detection
表5 圖像語(yǔ)義分割實(shí)驗(yàn)測(cè)試結(jié)果Table 5 Test results of image semantic segmentation
該數(shù)據(jù)集的合成部分可用于農(nóng)業(yè)場(chǎng)景下的圖像語(yǔ)義分割任務(wù)預(yù)訓(xùn)練;經(jīng)驗(yàn)部分的原圖像是在真實(shí)番茄溫室環(huán)境中采集的,包含多種類(lèi)型的視覺(jué)解析任務(wù)標(biāo)簽,為番茄圖像的物體檢測(cè)、語(yǔ)義分割、實(shí)例分割等神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)與評(píng)價(jià)提供數(shù)據(jù)支持;此外,該數(shù)據(jù)集可為其他作物生長(zhǎng)環(huán)境下的視覺(jué)解析任務(wù)提供預(yù)訓(xùn)練數(shù)據(jù),大大減少標(biāo)注的數(shù)量,節(jié)省人力與時(shí)間。
數(shù)據(jù)作者分工職責(zé)
周玲莉,分工:合成數(shù)據(jù)的制作、經(jīng)驗(yàn)數(shù)據(jù)采集、數(shù)據(jù)匯總整理及論文撰寫(xiě)。
任妮,分工:組織實(shí)施及論文撰寫(xiě)。
張文翔,分工:合成數(shù)據(jù)的制作、數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注。
程雅雯,分工:合成數(shù)據(jù)的制作、數(shù)據(jù)標(biāo)注。
陳誠(chéng),分工:數(shù)據(jù)質(zhì)量控制。
易中懿,分工:總體方案設(shè)計(jì)與指導(dǎo)。