劉偉 王源楠 江山 馬天 肖維
摘要:為及時(shí)發(fā)現(xiàn)并處理水面漂浮物,提高河湖監(jiān)管水平,提出了一種基于Mask R-CNN模型的水面漂浮物識別方法。設(shè)計(jì)了一套漂浮物標(biāo)簽分類規(guī)則,建立起河湖領(lǐng)域真實(shí)數(shù)據(jù)樣本集,然后構(gòu)建以抓圖服務(wù)、AI分析和預(yù)警平臺(tái)為核心模塊的水面漂浮物識別方案。對比研究了基于Mask R-CNN模型與基于HOG特征的漂浮物識別方法,并采用不同特征提取網(wǎng)絡(luò)進(jìn)行試驗(yàn)。結(jié)果表明:所提出的方法顯著優(yōu)于傳統(tǒng)的HOG特征方法,平均準(zhǔn)確率提高16%,平均召回率提高13.8%;且基于ResNet的方法對于不規(guī)則漂浮物的識別能力更強(qiáng)。新方法成功應(yīng)用于河湖監(jiān)管系統(tǒng),對常見目標(biāo)的識別準(zhǔn)確率達(dá)90%以上。
關(guān)鍵詞:水面漂浮物識別; Mask R-CNN; 深度學(xué)習(xí); ResNet
中圖法分類號: TP391
文獻(xiàn)標(biāo)志碼: A
DOI:10.16232/j.cnki.1001-4179.2021.11.037
0引 言
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,人們的生活越來越便捷,但環(huán)境保護(hù)意識還相對較弱。水環(huán)境作為人類賴以生存的重要保障也遭到破壞,突出表現(xiàn)在水面垃圾等漂浮物成為屢見不鮮的現(xiàn)象。水面漂浮物不僅影響美觀,更導(dǎo)致水污染、魚類死亡等各類問題,相關(guān)管理部門對其也越來越重視,及時(shí)發(fā)現(xiàn)并處理水面的垃圾漂浮物成為一項(xiàng)任務(wù)。依靠人工巡查來發(fā)現(xiàn)漂浮物的效率極低,迫切需要智能技術(shù)及時(shí)發(fā)現(xiàn)并預(yù)警。此外,隨著“金山銀山就是綠水青山”論斷的提出,政府部門也逐步提高了對水環(huán)境治理的認(rèn)識,水利部在智慧水利總體方案中也提出了利用智能視頻分析技術(shù)發(fā)現(xiàn)和識別水面漂浮物的技術(shù)路線。
在視頻監(jiān)控方面,隨著海康、大華等國內(nèi)廠商持續(xù)加大研發(fā),視頻監(jiān)控技術(shù)取得了長足的發(fā)展。視頻攝像頭的分辨率可以達(dá)到500萬像素(4K標(biāo)準(zhǔn)),云臺(tái)控制、視頻傳輸、視頻集成的技術(shù)也十分成熟,價(jià)格較為親民。目前水利及相關(guān)行業(yè)在河道、湖泊、水庫、渠道等附近已經(jīng)建設(shè)了大量的攝像頭,為分析水面垃圾漂浮提供了數(shù)據(jù)支撐。另外,深度學(xué)習(xí)算法給目標(biāo)檢測技術(shù)帶來了劃時(shí)代的進(jìn)步,相對于傳統(tǒng)的背景差分、光流法等技術(shù)取得了顯著的進(jìn)步,給水面垃圾漂浮物識別提供了技術(shù)支撐。
1研究現(xiàn)狀
傳統(tǒng)目標(biāo)檢測算法一般基于圖像特征和級聯(lián)分類的算法,在運(yùn)動(dòng)目標(biāo)檢測方面,有背景差分法、幀差法、光流法等。Navneet等首次提出以計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖作為圖像特征,即HOG特征[1],此方法作為經(jīng)典的人工設(shè)計(jì)特征而廣泛運(yùn)用于圖像檢測領(lǐng)域[2]。王敏等[3]針對靜態(tài)水面的特性,提出了一種水上物體檢測分割算法,以水面具有較低飽和度的特征對水面區(qū)域進(jìn)行提取,在此基礎(chǔ)上運(yùn)用浮雕處理凸顯水面區(qū)域的邊緣灰度,利用區(qū)域一致性進(jìn)行邊緣檢測分割出水面和水上物體,最后提取出目標(biāo)物體的中心位置。但其不足也很明顯,由于采用的圖像相對簡單,對于噪聲污染以及水面存在波浪、陽光反射等問題時(shí)表現(xiàn)不穩(wěn)定。
基于深度學(xué)習(xí)的檢測算法對圖像噪聲表現(xiàn)出了較強(qiáng)的魯棒性,主要分為兩類:二階段的目標(biāo)檢測算法和一階段的目標(biāo)檢測算法。前者是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本分類;后者則不用產(chǎn)生候選框,直接將目標(biāo)邊框定位的問題轉(zhuǎn)化為回歸問題處理。正是由于兩種方法的差異,在性能上也有不同,前者在檢測準(zhǔn)確率和定位精度上占優(yōu),后者在算法速度上占優(yōu)。二階段算法的代表就是FasterR-CNN[4],MaskR-CNN[5],一階段的算法的代表有SSD[6]、YOLOv1-v4[7-10]系列。
具體到水面漂浮物識別研究,國內(nèi)外對此研究不多。國外因?yàn)槿丝诿芏鹊汀⑺h(huán)境保護(hù)較好,這方面需求不多。國內(nèi)有相關(guān)的一些研究,但總體偏少,主要原因是對水面漂浮物素材的采集十分不易,需到野外長期觀察和收集,耗費(fèi)人力物力和時(shí)間較多。
李寧等[11]以塑料袋和塑料瓶為素材,訓(xùn)練AlexNet網(wǎng)絡(luò)結(jié)構(gòu),利用梯度下降法對網(wǎng)絡(luò)進(jìn)行了微調(diào),并融合光照矯正法對待識別圖像進(jìn)行預(yù)處理,最終對水面漂浮物的識別準(zhǔn)確率比基于HOG特征的方法提高了15%。李昌龍[12]以接入一個(gè)攝像機(jī)的圖像為素材,基于R-CNN網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,采用直方圖均衡化與對數(shù)變換對圖像進(jìn)行預(yù)處理,并提出了智能識別流程,在其測試集上達(dá)到了96%的準(zhǔn)確率。鄧?yán)诘萚13]為垃圾打撈設(shè)備提供視覺支持,采用了slic方法對圖像進(jìn)行預(yù)處理,然后提取邊緣、紋理、灰度特征,利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在實(shí)踐中取得較好的識別效果。雷李義等[14]以自己拍攝的廣西大學(xué)湖面垃圾照片為素材,提出了一個(gè)關(guān)于水面漂浮物的小型數(shù)據(jù)集,并分析了幾種目標(biāo)檢測模型在數(shù)據(jù)集上的表現(xiàn),F(xiàn)aster R-CNN,R-FCN和SSD。SSD目標(biāo)檢測模型有著更高的精確度,F(xiàn)aster R-CNN 模型則能給出更詳細(xì)的預(yù)測,而同時(shí)擁有豐富結(jié)構(gòu)特征和相當(dāng)深度特征的模型對于困難目標(biāo)有著更好的表現(xiàn)。Zhang等[15]基于Faster R-CNN將模型劃分為兩個(gè)模塊,分別融合低層和高層特征,在13FPS的速度下,MAP達(dá)到83.7%。
綜上所述,由于水面漂浮物的識別對準(zhǔn)確率和定位精度要求較高,本文采用二階段的算法。
2方法理論
2.1數(shù)據(jù)集
近幾年隨著深度學(xué)習(xí)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)的層數(shù)不斷增加。相較于傳統(tǒng)模型,深度學(xué)習(xí)模型的表達(dá)能力越來越強(qiáng),但同時(shí)也越容易犧牲對未知數(shù)據(jù)的泛化能力,而專注于解釋或記憶訓(xùn)練數(shù)據(jù),也就是出現(xiàn)所謂的過擬合現(xiàn)象。彌補(bǔ)這一缺陷的有效手段之一就是采用高質(zhì)量、大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練。
本文從湖北省荊州市、武漢市江夏區(qū)、重慶市石柱縣等真實(shí)監(jiān)控場景中,抓拍河流、湖泊的照片,篩選出包含漂浮物的圖片12 782張,整理成數(shù)據(jù)集。大型公開數(shù)據(jù)集ImageNet在組織1 400萬圖片時(shí),采用27個(gè)大類,21 841個(gè)小類[16]。李寧等[11]整理數(shù)據(jù)集僅包含常見的塑料袋和塑料瓶兩類,雷李義等[14]則主要對水面及岸邊植物細(xì)分為四小類。結(jié)合通用數(shù)據(jù)集分類方法及水面漂浮物的常見類型,并兼顧后續(xù)新數(shù)據(jù)的不斷并入,本文按兩級標(biāo)簽對漂浮物類別進(jìn)行分類,如表1所列。
本數(shù)據(jù)集共分成20大類,42小類,大類表示范圍包含了小類。由于人、車、船等目標(biāo)在河湖監(jiān)控視頻中經(jīng)常出現(xiàn),為了更有效地訓(xùn)練模型,把這些目標(biāo)也納入到漂浮物分類表中,并且進(jìn)行單獨(dú)分類。大類對應(yīng)一級標(biāo)簽,小類對應(yīng)二級標(biāo)簽。一級標(biāo)簽按照漂浮物對象劃分,二級按照材質(zhì)來區(qū)分,沒有材質(zhì)區(qū)分的一級,不細(xì)分二級,二級標(biāo)簽同一級標(biāo)簽。部分漂浮物由于數(shù)量太少,或者不典型,統(tǒng)一劃分到“其他”中。隨著漂浮服務(wù)數(shù)據(jù)量的積累,不屬于以上分類的漂浮物,統(tǒng)一放到其他中,當(dāng)“其他”類別中某一類漂浮物的數(shù)量達(dá)到100個(gè),則考慮增加標(biāo)簽類別。如果能劃分到表1中的一級標(biāo)簽下,則給該類別新增一個(gè)二級標(biāo)簽。如果無法劃分到一級標(biāo)簽下,則新增一級標(biāo)簽,標(biāo)簽序號在“42”之后繼續(xù)排序,這樣不改變之前已有的標(biāo)簽序號,可以不用修改標(biāo)注直接兼容新類別,一起參與訓(xùn)練,便于模型識別能力的不斷擴(kuò)充。
對于收集到的圖片,統(tǒng)一進(jìn)行白化、降噪,盡可能提高圖片質(zhì)量。本文使用開源的標(biāo)注工具CVAT對數(shù)據(jù)集進(jìn)行標(biāo)注,標(biāo)簽采用“一級標(biāo)簽_二級標(biāo)簽“的組合形式,標(biāo)注示例如圖1所示。
標(biāo)注策略采用“人工+模型”預(yù)標(biāo)注方式,前期以人工標(biāo)注為主,標(biāo)注一定量的數(shù)據(jù)之后,開始訓(xùn)練模型,使模型具備一定的識別能力,然后轉(zhuǎn)為以模型標(biāo)注為主,人工標(biāo)注為輔,數(shù)據(jù)集中的圖片樣本均先使用模型進(jìn)行預(yù)標(biāo)注,然后進(jìn)行人工的確認(rèn)。以此節(jié)約人工耗時(shí),提高標(biāo)注效率。
2.2網(wǎng)絡(luò)模型
Mask R-CNN[5]是Facebook AI Research(FAIR)于2018年提出的,繼承了之前所有R-CNN系列網(wǎng)絡(luò)的優(yōu)點(diǎn),并在Faster R-CNN[4]的基礎(chǔ)上加入了語義分割功能。相比傳統(tǒng)網(wǎng)絡(luò)VGG16[17],MaskR-CNN使用了ResNet[18]基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),使其能在更深的網(wǎng)絡(luò)層里提取有效的特征,所以提升了識別不規(guī)則或者是傳統(tǒng)網(wǎng)絡(luò)難以擬合的物體特征的概率。并且因?yàn)檎Z義分割功能提取的是ROI網(wǎng)絡(luò)卷積層的結(jié)果,加以拓展得到物體輪廓,所以在計(jì)算效率上與FasterR-CNN保持幾乎不變。網(wǎng)絡(luò)流程大概可分為4步,如圖2所示。
首先,圖片經(jīng)過預(yù)處理,將長或?qū)挻笥? 333像素的圖片按比例縮放,并使之縮放結(jié)果可以整除26,以確保在網(wǎng)絡(luò)結(jié)構(gòu)中經(jīng)過多次池化后保持整數(shù)。同時(shí)將小于分辨率的圖片各個(gè)顏色信道不足之處用像素0填充。并通過顏色正規(guī)化處理,然后,放入訓(xùn)練網(wǎng)絡(luò)進(jìn)行運(yùn)算。為了加快訓(xùn)練擬合速度,在不超過顯存容量的前提下盡量加大每次放入模型的圖片數(shù)量,將處理好的圖片集依照預(yù)設(shè)好的批量(batchsize)打包導(dǎo)入顯存。
圖2顯示卷積層(conv layers)為可變的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。以常用的50層ResNet為例將圖片集以[批量,通道(channel),長,寬]4維數(shù)組形式傳入網(wǎng)絡(luò),先經(jīng)過一個(gè)步長(Stride)為2,7*7*64的卷積層和一個(gè)步長為2,3*3的池化層,將信道維度從3擴(kuò)張到64,并將像素長寬壓縮到之前的1/4。再讓其進(jìn)行49組處理,每一組為一次卷積、池化、激活函數(shù)操作,將特征寬度提升到最大1 024。然后按照ResNet預(yù)設(shè),提取其第10,22,40,49層特征值,經(jīng)過上采樣處理得到關(guān)聯(lián)性更高的5層特征,最后通過3*3*256的卷積層消除上采樣的混疊效應(yīng),得到最終特征圖集,在圖中顯示為特征圖(featuremaps)。
在區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network)中,要通過上文生成的特征圖,并結(jié)合預(yù)設(shè)錨點(diǎn)(Anchor)得到目標(biāo)物體的大概區(qū)域框,如圖3所示。
創(chuàng)建預(yù)設(shè)錨點(diǎn)時(shí),根據(jù)目標(biāo)物體尺寸,在預(yù)設(shè)參數(shù)中設(shè)定預(yù)設(shè)框大?。?2,64,128,256,512),每一個(gè)預(yù)設(shè)框有3個(gè)尺寸比例(2∶1,1∶1,1∶2),所以每個(gè)位置產(chǎn)生15個(gè)預(yù)設(shè)框。在區(qū)域生成網(wǎng)絡(luò)階段,首先特征圖通過1個(gè)3*3的卷積和兩個(gè)1*1的卷積,得到1個(gè)數(shù)量為2*15(長*寬)的特征圖和一個(gè)數(shù)量為4*15(長*寬)的特征圖。其中第一個(gè)特征圖為每個(gè)前景預(yù)設(shè)框與背景預(yù)設(shè)框的概率,并按照前景與背景1∶4的比例保留背景數(shù)量,第二個(gè)特征圖為每個(gè)預(yù)設(shè)框的左上頂點(diǎn)坐標(biāo)和預(yù)設(shè)框的長寬邊長度與真實(shí)框的差值。
運(yùn)用上文中得到的前景框與在第一步得到的特征圖裁剪出大小不等的小特征圖,在感興趣區(qū)域池化(Region of Interest pooling)中使用RoI Align,為每一個(gè)可能的目標(biāo)物體輸出14*14*256大小的特征圖。裁剪之后,用2*2大小的最大池化來獲得最終的7*7*256特征圖。每個(gè)特征圖通過線性全連接層輸出目標(biāo)種類和目標(biāo)種類長度*4的邊界框(Bounding-box)。在Faster R-CNN訓(xùn)練階段,計(jì)算真實(shí)框坐標(biāo)與輸出邊界框坐標(biāo)的距離差,得出Lbox和真實(shí)類別與輸出類別的概率差Lcls,以此反向傳播改進(jìn)網(wǎng)絡(luò)。
2.3應(yīng)用方案
本文構(gòu)建以AI分析服務(wù)為核心,以數(shù)據(jù)為支撐,以預(yù)警平臺(tái)為重點(diǎn)的分布式監(jiān)控方案,核心業(yè)務(wù)邏輯流程圖如圖5所示。
(1) 抓圖服務(wù)-數(shù)據(jù)。
抓圖服務(wù)模塊為整個(gè)流程提供數(shù)據(jù)來源。該模塊基于開源的輕量級框架SpringBoot開發(fā),自動(dòng)采集圖像數(shù)據(jù),適配多家硬件廠商以及流媒體數(shù)據(jù),動(dòng)態(tài)配置頻率、時(shí)段,拓展性強(qiáng),具體如圖6所示。
(2) 數(shù)據(jù)庫-存儲(chǔ)。
抓圖服務(wù)獲取的數(shù)據(jù)存儲(chǔ)于分布式文件存儲(chǔ)系統(tǒng)MongoDB,并通過GridFS來處理大文件的存儲(chǔ)。直接將圖片這種大文件存儲(chǔ)于數(shù)據(jù)庫十分有利于大量圖片文件的復(fù)制、刪除以及備份。同時(shí)由于其分片式存儲(chǔ)機(jī)制,實(shí)現(xiàn)分布式存儲(chǔ)的操作簡單,拓展性強(qiáng),安全性高。
(3) 中間件-通信。
存儲(chǔ)模塊、展示模塊與AI模塊的通信均采用消息中間件RabbitMQ進(jìn)行,其在整個(gè)分析流程中存儲(chǔ)、轉(zhuǎn)發(fā)消息,可用性高、拓展性強(qiáng)。
(4) AI-分析。
AI分析模塊以Mask R-CNN為核心算法模型,集成FackBook的開源框架Detectron 2,實(shí)現(xiàn)對數(shù)據(jù)的實(shí)時(shí)推理與分析。
(5) 預(yù)警平臺(tái)-展示。
預(yù)警平臺(tái)(WEB端)串接整個(gè)系統(tǒng)的各個(gè)模塊,從用戶在WEB端提交定期或即時(shí)的分析請求,請求進(jìn)入到RabbitMQ消息隊(duì)列,然后轉(zhuǎn)發(fā)至AI分析模塊。收到分析請求后,AI分析模塊從存儲(chǔ)模塊提取MongoDB Grid FS文件進(jìn)行智能分析,并將結(jié)果再次推送至Rabbit MQ消息隊(duì)列,最終WEB端收到AI分析模塊的分析結(jié)果,并進(jìn)行展示和統(tǒng)計(jì),同時(shí)即刻發(fā)送預(yù)警信息至相關(guān)工作人員的操作終端。
整個(gè)監(jiān)控方案實(shí)現(xiàn)全流程自動(dòng)化采集、存儲(chǔ)、分析、展示和推送,極大地提高對監(jiān)控區(qū)域的監(jiān)管質(zhì)量和效率。
3試 驗(yàn)
3.1試驗(yàn)環(huán)境及參數(shù)
本文的模型訓(xùn)練及測試均在Detectron 2平臺(tái)上進(jìn)行。Detectron 2是繼Detectron目標(biāo)檢測平臺(tái)之后,F(xiàn)AIR(Facebook AI Research)開發(fā)的下一代目標(biāo)目標(biāo)檢測和分割研究的平臺(tái)。它基于Pytorch框架,以Mask R-CNN基準(zhǔn)測試作為起點(diǎn),集成了最先進(jìn)的目標(biāo)檢測算法。服務(wù)器安裝Ubuntu 18.04系統(tǒng),并配備了一張NVIDIA Tesla V100顯卡。結(jié)合漂浮物目標(biāo)特點(diǎn),設(shè)置Mask RCNN模型預(yù)設(shè)參數(shù)如下:
綜合考慮服務(wù)器性能,選擇超參數(shù)為:batch size,8;iteration,49 999;learning rate,0.000 25。
3.2評估標(biāo)準(zhǔn)
本文評估標(biāo)準(zhǔn)采用目前主流的目標(biāo)檢測評價(jià)方法,即準(zhǔn)確率和召回率。在計(jì)算這兩項(xiàng)指標(biāo)時(shí),以IoU=0.5作為基本閾值。
(1) IoU。
以IoU作為衡量預(yù)測目標(biāo)的位置偏差指標(biāo),當(dāng)識別出的類別正確且IoU達(dá)到規(guī)定的閾值,則表明該識別結(jié)果正確。IoU的定義如下:
IoU=P∩GP∪G(5)
式中:P表示預(yù)測樣本面積,G表示真實(shí)樣本面積,P∩G表示預(yù)測樣本與真實(shí)樣本的重疊面積,P∪G表示預(yù)測樣本與真實(shí)樣本原始樣本的并集面積。
傳統(tǒng)目標(biāo)檢測以及深度學(xué)習(xí)目標(biāo)檢測算法在計(jì)算IoU時(shí),均只能從box的層面進(jìn)行計(jì)算,不可避免地引入背景誤差,而Mask R-CNN是從像素層面計(jì)算,去除了計(jì)算IoU時(shí)的背景誤差,尤其當(dāng)水面漂浮物的形狀極不規(guī)則時(shí),對模型的識別效果評價(jià)更加準(zhǔn)確。
(2) 準(zhǔn)確率。
數(shù)據(jù)集中的水面漂浮物,一類是獨(dú)立存在的單個(gè)漂浮物,比如塑料瓶、塑料袋、魚等等,另一類是以水葫蘆為代表的聚集成一團(tuán)的漂浮物,為統(tǒng)一評價(jià)標(biāo)準(zhǔn),把成團(tuán)的水葫蘆當(dāng)作一個(gè)水葫蘆對象來處理。針對預(yù)測結(jié)果,統(tǒng)計(jì)準(zhǔn)確識別漂浮物的數(shù)量與識別出的漂浮物總數(shù)量之比,稱為識別準(zhǔn)確率,定義如下:
P=TPTP+FP(6)
式中:TP即True Positive,表示正樣本被正確識別為正樣本的數(shù)量,F(xiàn)P即False Positive,表示負(fù)樣本被錯(cuò)誤識別正樣本的數(shù)量。TP與FP之和,表示所有被識別為正樣本的數(shù)量,在本文中則表示識別出的漂浮物總數(shù)量。
(3) 召回率。
準(zhǔn)確率是針對預(yù)測結(jié)果而言的性能指標(biāo),召回率則是針對原始樣本而言,它表示的是原始樣本中正樣本被正確識別的比例,定義如下:
R=TPTP+FN(7)
式中:FN即False Negative,表示正樣本被錯(cuò)誤識別為負(fù)樣本的數(shù)量,TP+FN即表示原始樣本中所有的正樣本數(shù)量,在本文中則表示漂浮物的總數(shù)量。
3.3試驗(yàn)結(jié)果及分析
由于漂浮物數(shù)量分布極不均勻,本文以水面漂浮物中常見的水葫蘆、塑料袋、塑料瓶和魚為例,從訓(xùn)練樣本數(shù)量、特征提取模型等方面對Mask RCNN在水面漂浮物場景下的識別性能進(jìn)行研究。訓(xùn)練集、驗(yàn)證集、測試集按照8∶1∶1的數(shù)量比例進(jìn)行劃分,在訓(xùn)練集和驗(yàn)證集上調(diào)試出最佳訓(xùn)練參數(shù)后,把所有訓(xùn)練集和驗(yàn)證集的樣本共同作為訓(xùn)練集,以最佳參數(shù)進(jìn)行訓(xùn)練,得到最終的模型,在測試集上測試模型性能。
3.3.1樣本數(shù)量
水葫蘆數(shù)據(jù)集一共有2 683個(gè)樣本,預(yù)留10%的樣本作為測試集,即268個(gè),在剩余的樣本中隨機(jī)抽取不同數(shù)量的樣本作為訓(xùn)練集和驗(yàn)證集。不同訓(xùn)練樣本總量下,模型性能如圖7所示。
從圖7可以看出:隨著樣本數(shù)量的增加,Mask R-CNN對水葫蘆的識別準(zhǔn)確率和召回率顯著增加,當(dāng)水葫蘆的數(shù)量達(dá)到2500左右時(shí),模型的識別準(zhǔn)確達(dá)到96.5%,召回率達(dá)到86.2%。但數(shù)量達(dá)到一定程度后,準(zhǔn)確率和召回率的增張速度逐漸放緩。
3.3.2對比試驗(yàn)
分別以塑料瓶、魚、塑料袋和水葫蘆數(shù)據(jù)集為對象,對比測試基于HOG特征的傳統(tǒng)目標(biāo)檢測方法與Mask RCNN模型的性能,如表2所列。所有輸入圖像在輸入模型之前均只做縮放和歸一化處理,不做其他任何預(yù)處理操作。
從試驗(yàn)結(jié)果中可以清晰地看到:Mask R-CNN模型在準(zhǔn)確率和召回率上的均顯著由于傳統(tǒng)基于HOG特征的目標(biāo)檢測方法,其中平均準(zhǔn)確率提高16.0%,平均召回率提高13.8%。
基于HOG這一類手工設(shè)計(jì)的特征模式進(jìn)行目標(biāo)檢測的傳統(tǒng)漂浮物識別方法由于對圖像噪聲極為敏感,而真實(shí)河湖領(lǐng)域的圖像素材又復(fù)雜多樣,不僅場景豐富,而且由于圖像采集設(shè)備的不同,質(zhì)量差別較大,因此性能不佳。Mask R-CNN基于神經(jīng)網(wǎng)絡(luò)的特征提取方法能從數(shù)據(jù)集中學(xué)習(xí)并找到目標(biāo)更本質(zhì)的特征,識別準(zhǔn)確率和召回率顯著高于傳統(tǒng)方法。
3.3.3特征提取網(wǎng)絡(luò)
相比于基礎(chǔ)的特征提取網(wǎng)絡(luò)VGG16,Mask R-CNN采用ResNet結(jié)構(gòu)作為特征提取網(wǎng)絡(luò),試驗(yàn)對比研究了分別采用VGG16、ResNet50和ResNet101作為Mask R-CNN的特征提取網(wǎng)絡(luò)時(shí)模型對塑料瓶、魚、塑料袋與水葫蘆的識別性能,如圖8所示。
從圖8可以看出:以ResNet 50為特征提取模型時(shí),Mask R-CNN對4種常見的水面垃圾漂浮物的識別準(zhǔn)確率顯著高于VGG16,平均高出3.3%,而ResNet101性能更加優(yōu)異,平均高出ResNet 50網(wǎng)絡(luò)1.5%。由此可見,ResNet的特征提取能力顯著強(qiáng)于VGG16,而且層數(shù)越多,提取能力越強(qiáng)。
詳細(xì)對比4種類別的性能,可以發(fā)現(xiàn)不論是ResNet系列還是VGG16,對于塑料瓶和魚的識別準(zhǔn)確率均高于塑料袋和水葫蘆。塑料瓶和魚的形態(tài)特征相對固定,而塑料袋和水葫蘆的形態(tài)更加不規(guī)則,這對網(wǎng)絡(luò)擬合能力的挑戰(zhàn)更大。
ResNet 50相比于VGG16對塑料瓶和魚的準(zhǔn)確率平均提升2個(gè)百分點(diǎn),而對塑料袋和水葫蘆的準(zhǔn)確率提升明顯,達(dá)到平均4.5%,ResNet 101則分別提升了3.1%和6.45%。不難發(fā)現(xiàn),對于形態(tài)不規(guī)則的物體,ResNet的擬合效果更佳。
3.4應(yīng)用效果
本文構(gòu)建的深度學(xué)習(xí)預(yù)警方案已成功運(yùn)用于某區(qū)河流監(jiān)控系統(tǒng)。系統(tǒng)總計(jì)接入攝像頭30個(gè),預(yù)置位100個(gè),覆蓋區(qū)內(nèi)的主要河流、湖泊和閘口,監(jiān)控面積總計(jì)約25 km2,24 h不間斷進(jìn)行自動(dòng)監(jiān)控。設(shè)置模型識別置信度閾值t=0.5,IoU閾值i=0.5,即當(dāng)模型識別目標(biāo)的置信度和重疊率同時(shí)超過0.5時(shí),才判定為識別出漂浮物。
2020年第三季度初的預(yù)警信息統(tǒng)計(jì)如圖9所示,預(yù)警類型及數(shù)量分布如圖10所示,預(yù)警類型僅列出數(shù)量較多的類型。
經(jīng)清漂工作人員抽樣驗(yàn)證,船、工程車和人這3類目標(biāo)平均識別準(zhǔn)確率高達(dá)95%,水葫蘆、塑料袋以及樹葉的平均識別準(zhǔn)確率達(dá)到90%。實(shí)際應(yīng)用性能雖略低于試驗(yàn)結(jié)果,但仍然能達(dá)到較高水平,顯著地提高了清漂工作效率。
4結(jié) 論
基于深度學(xué)習(xí)的相關(guān)技術(shù)現(xiàn)階段處于井噴發(fā)展?fàn)顟B(tài),大量成熟的目標(biāo)檢測、分割算法紛紛落地于各行各業(yè)的實(shí)際應(yīng)用場景。以Mask RCNN為代表的一些列優(yōu)秀算法對于水環(huán)境污染防治發(fā)揮了重要作用。本文研究得到以下主要成果及結(jié)論。
(1) 構(gòu)建了常見漂浮物類型分類體系,以目標(biāo)對象為一級標(biāo)簽,以對象的材質(zhì)作為二級分類依據(jù),并且與人、車、船等常見目標(biāo)一起參與分類和訓(xùn)練,實(shí)現(xiàn)了對河湖監(jiān)控視頻信息的系統(tǒng)拆分與組織,為監(jiān)管信息化提供數(shù)據(jù)支持。
(2) 數(shù)據(jù)量的提升能有效提高深度學(xué)習(xí)模型Mask R-CNN的性能,以水葫蘆為例,最終達(dá)到96.5%的識別準(zhǔn)確率和86.2%的召回率。
(3) 基于Mask R-CNN的漂浮物識別方法在識別性能上顯著優(yōu)于基于HOG特征的傳統(tǒng)漂浮物識別方法,平均準(zhǔn)確率提高16%,平均召回率提高13.8%。
(4) 相比于VGG16網(wǎng)絡(luò),分別以ResNet 50和ResNet 101作為Mask R-CNN的特征提取網(wǎng)絡(luò)時(shí)的識別準(zhǔn)確率分別高出3.3%和4.8%,并且ResNet系列對于不規(guī)則的目標(biāo)的擬合能力更強(qiáng)。
(5) 本文以Mask R-CNN為基礎(chǔ),構(gòu)建一套包含視頻接入、算法推理、前端展示、預(yù)警消息推送的全流程預(yù)警方案,為目前的河湖監(jiān)管提供了有力技術(shù)支撐,有效提升了河湖監(jiān)管的自動(dòng)化和智能化水平。
參考文獻(xiàn):
[1]DALALN,TRIGGSB.Histograms of oriented gradients for human detection[C]∥Computer Vision and Pattern Recognition,2005(1):886-893.
[2]蔡強(qiáng),劉亞奇,曹健,等.圖像目標(biāo)類別檢測綜述[J].計(jì)算機(jī)科學(xué)與探索,2015,9(3):257-265.
[3]王敏,周樹道.靜態(tài)水上物體檢測分割算法[J].實(shí)驗(yàn)室研究與探索,2010,29(6):30-32.
[4]REN S Q,HE K M,ROSSG,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[5]HE K M,GKIOXARIG,Dollàr P,et al.Mask R-CNN[C]∥Computer vision and pattern recognition,2017:2961-2969.
[6]LIUW,ANGUELOVD,ERHAND,et al.SSD:Single shot multiBox detector[C]∥European Conference on Computer Vision,2016(2):21-37.
[7]REDMONJ,DIVVALAS,GIRSHICKR,et al.You only look once:unified,real-time object detection[C]∥Computer Vision and Pattern Recognition,2016(2):779-788.
[8]REDMON J,F(xiàn)ARHADI A.YOLO9000:Better,F(xiàn)aster,Stronger[C]∥Computer Vision and Pattern Recognition,2017(2):7263-7271.
[9]REDMON J,F(xiàn)ARHADI A.YOLOv3:An incremental improvement[J].arXiv,2018(4):1804.02767.
[10]BOCHKOVSKIYA,WANG CY,LIAOHY M.YOLOv4:Optimal speed and accuracy of object detection[J].arXiv,2020(3):2004.10934.
[11]李寧,王雨萱,徐守坤,等.基于AlexNet的小樣本水面漂浮物識別[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(2):245-251.
[12]李昌龍.基于R-CNN訓(xùn)練法的水面漂浮物智能識別技術(shù)探討[J].信息化技術(shù)研究與應(yīng)用,2019(增1):18-21.
[13]鄧?yán)?,?yán)立甫,張?jiān)婈?,?基于機(jī)器視覺的水面漂浮物智能識別判定系統(tǒng)[J].電子測試,2019(17):133-134.
[14]雷李義,艾矯燕,彭婧,等.基于深度學(xué)習(xí)的水面漂浮物目標(biāo)檢測評估[J].環(huán)境與發(fā)展,2019(6):117-123.
[15]ZHANG L L,ZHANG Y,ZHANG Z,et al.Real-time water surface object detection based on improved Faster-RCNN[J].Sensors(Basel),2019(16):3523.
[16]DENG J,DONG W,SOCHERR,et al.ImageNet:A large-scale hierarchical image database[C]∥Computer Vision and Pattern Recognition,2009:248-255.
[17]SIMONYANK,ZISSERMANA.Verry deep convolutional networks for large-scale image recognition[C]∥International Conference on Learning Representations,2015.
[18]HE K M,ZHANGX Y,RENS P,et al.Deep Residual learning for image recognition[C]∥Computer Vision and Pattern Recognition,2016:770-778.
(編輯:鄭 毅)
Abstract:In order to detect and deal with floating objects on water surface in time and improve the supervision level of rivers and lakes,we proposed a method for recognition of floating objects on water surface based on Mask R-CNN algorithm.First,we designed a set of floating object label classification rules,and established a real data sample set in the field of rivers and lakes.Then we built a water surface floating object identification scheme with image capture service,AI analysis and early warning service platform as the core modules.We compared the floating object recognition method base on the Mask R-CNN model and the HOG feature,and conducted experiments with different feature extraction networks.The results showed that the proposed method was significantly better than the traditional HOG method,the average accuracy increased 16%,the average recall rate increased 13.8%,and the ResNet-based method was more capable of identifying irregular floating objects.This method was successfully applied to the river and lake supervision system,and the recognition accuracy of common targets was over 90%.
Key words:recognition of floating objects;Mask R-CNN;deep learning;ResNet