方俊 邱春榮
摘要:運用目標(biāo)檢測技術(shù),水下機器人海底打撈技術(shù)可替代人工捕撈,解決人工作業(yè)危險系數(shù)高、經(jīng)濟(jì)效益低的問題。該文水下目標(biāo)檢測研究對象為海參、海膽、扇貝、海星四類生物,針對水下圖像顏色偏移嚴(yán)重、存在明顯跨域等問題,提出了一種基于Cascade-Rcnn的海底生物目標(biāo)檢測方法,結(jié)合傳統(tǒng)圖像處理,解決水下圖像跨域問題,最終精度達(dá)到0.507(iou0.5:0.95?Map)。
關(guān)鍵詞:目標(biāo)檢測???Cascade-Rcnn????跨域???顏色偏移
中圖分類號:TP29???文獻(xiàn)標(biāo)識碼:A???文章編號:1672-3791(2022)06(b)-0000-00
Research?on?Object?Detection?Technology?of?Underwater?Image?Based
FANG?Jun??Qiu?Chunrong
(Changsha?Social?Work?College,Changsha,Hunan?Province,410004?China)
Abstract:?Using?target?detection?technology,?underwater?robot?seabed?fishing?technology?can?replace?manual?fishing?and?solve?the?problems?of?high?risk?coefficient?and?low?economic?benefit?of?manual?operation.The?research?objects?of?underwater?target?detection?in?this?paper?are?four?types?of?organisms:?sea?cucumbers,?sea?urchins,?scallops,?and?starfish.?In?view?of?the?serious?color?shift?of?underwater?images?and?the?obvious?cross-domain?problems,?this?paper?proposes?a Cascade-Rcnn-based?underwater?biological?target?detection?method,?which?combines?traditional?image?processing?to?solve?the?cross-domain?problem?of?underwater?images,?and?the?final?accuracy?reaches?0.507?(?iou0.5:0.95).
Key?Words:?Target?detection;?Cascade-Rcnn;?Domain?shift;?Color?shift
中圖分類號:TP29???文獻(xiàn)標(biāo)識碼:A???文章編號:1672-3791(2022)06(b)-0000-00
人工潛水捕撈海產(chǎn)品的方式存在危險系數(shù)高、作業(yè)時間短、身體傷害大等諸多問題,故研究水下機器人進(jìn)行海生物捕撈任務(wù)具有重大的意義[1-2]。水生物目標(biāo)檢測主要技術(shù)難點在于:一方面,水下圖像存在嚴(yán)重的顏域問題,給水下水生物目標(biāo)檢測帶來困難,容易導(dǎo)致過擬合問題;另一方面,水生物形狀多變,又附著于環(huán)境,運用傳統(tǒng)的人工特征點篩選提取很難達(dá)到精度需求[3-4]。
深度學(xué)習(xí)在目標(biāo)檢測領(lǐng)域發(fā)展迅速,諸如Faster-rcnn、Cascade-rcnn、Yolo等模型的出現(xiàn)促進(jìn)了計算機視覺在工業(yè)領(lǐng)域的應(yīng)用[5-7]。該文針對復(fù)雜的海底捕撈作業(yè)場合提出了一種基于Cascade-rcnn的目標(biāo)檢測方法,運用傳統(tǒng)圖像處理方法解決圖像偏移和跨域問題,實現(xiàn)深度學(xué)習(xí)和傳統(tǒng)視覺算法的結(jié)合應(yīng)用。
使用Cascade?Rcnn模型作為基線,主要是為了解決水下目標(biāo)檢測任務(wù)的高準(zhǔn)確性需求,Cascade?Rcnn的復(fù)雜模型結(jié)構(gòu)在水下圖像這種顏色偏移嚴(yán)重、存在明顯跨域的圖像檢測任務(wù)中其泛化性能更好,更能準(zhǔn)確地抓取水產(chǎn)生物的具體位置。
1?數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強
1.1實驗數(shù)據(jù)集
數(shù)據(jù)集來自于鵬城實驗室水下目標(biāo)檢測算法賽(光學(xué)圖像賽項),其中訓(xùn)練集為5543幅,A組測試集800幅,B組測試集1200幅,見圖1。檢查目標(biāo)生物有海參、海膽、扇貝、海星,見圖2。該實驗采用COCO?mAP[@0.5:0.05:0.95]指標(biāo)(mean?Average?Precision)?進(jìn)行計算,即將10個不同IOU閾值下的mAP取平均值作為最終結(jié)果。對于任意一IOU閾值,其對應(yīng)的mAP計算公式如下:
其中r為召回率(recall),p(r)?為當(dāng)召回率為r時,檢測結(jié)果的準(zhǔn)確率(precision),mAP為4個類別的AP平均值。
觀察數(shù)據(jù)集肉眼即可發(fā)現(xiàn)數(shù)據(jù)集存在明顯顏色偏移,即大部分圖像呈明顯藍(lán)綠色,且圖像對比度較低,主要原因是自然光在水中傳播時會呈指數(shù)衰減。設(shè)I0代表某一水層的光量,經(jīng)過傳輸L距離后的光量I為:
其中,c為體積衰減系數(shù),單位m?1,而不同深度,不同波長,光的衰減是程度不同,這就導(dǎo)致圖像存在明顯色偏,且在不同海域存在色偏程度不同,圖像跨域(domain-shift)的問題。
針對上述多種問題,提出以下的數(shù)據(jù)預(yù)處理和數(shù)據(jù)擴(kuò)充方案。
1.2?數(shù)據(jù)預(yù)處理
針對色偏問題常用的做法為白平衡,但白平衡易造成目標(biāo)色素?fù)p失,特征表示能力下降,影響建模結(jié)果。故采用Oparam方法進(jìn)行顏色通道矯正,緩減由于光線衰減程度不同而造成的色偏問題,主要的計算公式如下:
其中Ur、Ug、Ub分別為紅綠藍(lán)三通道的像素值之和,Uref為三通道像素值算術(shù)平均值,Pr、Pg、Pb為顏色矯正前像素點的值,Pr’、Pg’、Pb’為顏色矯正后像素點的矯正結(jié)果。通過矯正后可得到接近于現(xiàn)實世界狀況的正常圖像,由圖3可見矯正效果。
1.3?數(shù)據(jù)擴(kuò)充
域間差異(domain?shift)是指不同的數(shù)據(jù)集之間存在數(shù)據(jù)分布差異,訓(xùn)練的模型一般只能用在與訓(xùn)練集分布相似的數(shù)據(jù)集上,否則會產(chǎn)生具有明顯差距的結(jié)果。水下圖像中,不同海域、不同深度下所采集的圖像往往存在不同的色偏,這樣就產(chǎn)生了域間差異問題,會導(dǎo)致網(wǎng)絡(luò)泛化性能差、容易過擬合等問題,該文采用了兩種不同方向的數(shù)據(jù)擴(kuò)充方法,分別為:直方圖規(guī)定化,圖像度量擾動。
直方圖規(guī)定化(histogram?specification)是指通過圖像變換將一幅圖像的直方圖變成規(guī)定形狀的直方圖的增強方法。假設(shè)Pr(r)表示原始圖像的灰度概率密度,Pz(z)表示規(guī)定化圖像的灰度概率密度(r和z分別是原始圖像的灰度級、規(guī)定化后圖像的灰度級)。
在本實驗中具體的方式為,以一定概率針對一張原始圖像隨機選取一張其他的訓(xùn)練集圖像作為模板圖像,在HSV空間中對原始圖片的直方圖進(jìn)行規(guī)定化處理,得到擴(kuò)充圖像,見圖4
圖像度量擾動指的是以一定概率對圖像進(jìn)行不同程度,不同方式的度量擾動,主要包括:隨機光亮度擾動、隨機對比度擾動、隨機飽和度擾動、隨機色調(diào)擾動、隨機通道交換。考慮到單純使用直方圖規(guī)定化,域的適應(yīng)范圍依然在訓(xùn)練集中,故加入一些擾動,在域中進(jìn)行隨機偏移,模擬出更多的圖像域,進(jìn)一步解決跨域問題,見圖5。
除上述兩種解決跨域問題的數(shù)據(jù)擴(kuò)充之外,加入常用形變類擴(kuò)充增強網(wǎng)絡(luò)的魯棒性能,主要包括隨機翻轉(zhuǎn),隨機旋轉(zhuǎn)等,并采用多尺度訓(xùn)練增強網(wǎng)絡(luò)對不同尺度目標(biāo)的建模能力。
2?基于cascade-rcnn的模型
2.1?cascade-rcnn
Cascade-rcnn主要用于解決faster-rcnn中正樣本采樣IoU設(shè)定困難的問題:IoU設(shè)定過低會導(dǎo)致圖像引入太多周邊環(huán)境信息,最終導(dǎo)致bbox回歸效果較差以及模型歧義不收斂的問題,而iou設(shè)定過高則會導(dǎo)致正樣本數(shù)量太少,模型較易過擬合。Cascade-rcnn提出了muti-stage的結(jié)構(gòu),每個stage都有一個不同的IoU閾值,每個stage的proposal為上個stage的回歸結(jié)果,通過這樣的方式來逐步地提升IoU的閾值,達(dá)到了更高的精度。圖6是模型流程圖。
水下圖像目標(biāo)檢測任務(wù),對于最終結(jié)果的IoU準(zhǔn)確度要求較高,選擇常用的faster-rcnn很難達(dá)到準(zhǔn)確的回歸結(jié)果,故選擇cascade-rcnn作為baseline進(jìn)行建模,提升在高iou要求下的map結(jié)果。
2.2?roi-align
選擇roi?align替換roi?pooling,roi?align取消量化操作,使用雙線性內(nèi)插的方法獲得坐標(biāo)為浮點數(shù)的像素點上的圖像數(shù)值,從而將整個特征聚集過程轉(zhuǎn)化為一個連續(xù)的操作。
2.3?Deformable?Convolutional?Networks
海生物目標(biāo)形狀不規(guī)則(海參、海星此類問題比較突出),標(biāo)準(zhǔn)卷積核會提取到很多無用信息,加入可變形卷積提高網(wǎng)絡(luò)學(xué)習(xí)空間幾何形變的能力。在該任務(wù)中,在模型的backbone中加入3層可變形卷積,強化模型形變建模能力。
2.4?Global?context?block
海底生物生存地點一般具有一定的規(guī)律,不同種類的生物生存的海域、深度是不同的,而相同生物存在群居現(xiàn)象,背景知識、全局信息的加入可強化建模效果,尤其是增加中小尺度目標(biāo)的召回率。故引入注意力機制,選擇了GCB(Global?context?block)作為注意力網(wǎng)絡(luò)加入到后backbone的后3個stage中,增強模型的全局建模能力,加大中小目標(biāo)的召回。
3?實驗結(jié)果
為體現(xiàn)各種優(yōu)化帶來的精度提升,做了如表1的消融實驗。
實驗結(jié)果表明,Cascade-rcnn在水下目標(biāo)檢測任務(wù)中更具優(yōu)勢,而Dcn和GCB模塊的加入增強了模型的性能,使得模型能夠更精確地提取水下的形變目標(biāo)和中小目標(biāo)。Oparam、直方圖匹配、圖像度量擾動三種方法能帶來2個百分點的精度提升,驗證了使用圖像擴(kuò)增方法來解決水下圖像顏色偏移嚴(yán)重、存在明顯跨域問題的有效性,最終融合各類改進(jìn),獲得了iou0.5:0.95?Map?0.507的不錯成績。
4結(jié)語
該文提出了一種基于Cascade-rcnn的水下圖像目標(biāo)檢測方案,該方案通過使用傳統(tǒng)圖像處理算法解決跨域問題,通過使用深度學(xué)習(xí)算法實現(xiàn)水下目標(biāo)建模,良好地結(jié)合了兩方面算法的優(yōu)勢,取得了較好結(jié)果。根據(jù)具體情況方案可做相應(yīng)改進(jìn),一方面可以使用精度更高的目標(biāo)檢測算法,如EfficenDet、Trident等,另一方面可以在組成模塊上做更多的探討,如CBAM、SE等。
參考文獻(xiàn)
[1]?張悅.面向海產(chǎn)品的水下圖像處理及目標(biāo)檢測研究[D].濟(jì)南:山東大學(xué),2021.
[2]?林森,趙潁.水下光學(xué)圖像中目標(biāo)探測關(guān)鍵技術(shù)研究綜述[J].激光與光電子學(xué)進(jìn)展,2020,57(6):26-37.
[3]?吳宇,蔡永斌,湯榮華.水下視覺圖像處理和識別技術(shù)研究[J].艦船電子工程,2019,39(5):93-96.
[4]?顏小紅.基于深度學(xué)習(xí)的水下目標(biāo)檢測方法研究[D].哈爾濱:哈爾濱工程大學(xué),2021.
[5]?彭豪,李曉明.基于改進(jìn)Faster?R-CNN的小目標(biāo)檢測模型[J].電子測量技術(shù),2021,44(24):122-127.
[6]?夷德.基于YOLO的目標(biāo)檢測優(yōu)化算法研究[D].南京:南京郵電大學(xué),2021.
[7]?CAI?Z,WASCONCELOS?N.Cascade?r-cnn:?Delving?into?High?Quality?Object?Detection[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?2018:6154-6162.