向林浩,鄭佳楠,周國(guó)豪,劉銳,劉偉建
(1.中國(guó)船級(jí)社,北京 100007;2.南京智慧水運(yùn)科技有限公司,南京 210001)
隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)等深度學(xué)習(xí)方法的發(fā)展,利用其開展圖像識(shí)別的效果已經(jīng)超過(guò)傳統(tǒng)的圖像識(shí)別方法。無(wú)人機(jī)、機(jī)器人等新型裝備在船舶檢驗(yàn)中得到越來(lái)越廣泛的應(yīng)用。在長(zhǎng)時(shí)間的作業(yè)過(guò)程中,這些設(shè)備將采集大量的圖像數(shù)據(jù),需要驗(yàn)船師對(duì)圖像實(shí)時(shí)保持關(guān)注并判斷船舶狀況,易導(dǎo)致視覺疲勞。因此,有必要將基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)引入船舶檢驗(yàn)領(lǐng)域,快速地識(shí)別出無(wú)人機(jī)、機(jī)器人等新型裝備所采集的船體結(jié)構(gòu)圖像中的典型結(jié)構(gòu)節(jié)點(diǎn),便于后續(xù)進(jìn)一步對(duì)典型節(jié)點(diǎn)是否存在腐蝕、裂紋、變形等缺陷開展目標(biāo)檢測(cè),也便于自動(dòng)保存節(jié)點(diǎn)圖像作為檢驗(yàn)證據(jù)留存。
為了保證典型船體結(jié)構(gòu)節(jié)點(diǎn)檢測(cè)的準(zhǔn)確率和效率,提出開發(fā)一種基于Faster R-CNN算法的深度神經(jīng)網(wǎng)絡(luò)模型用于船舶大型肘板趾端(以下簡(jiǎn)稱“趾端”)結(jié)構(gòu)與縱骨貫穿結(jié)構(gòu)的目標(biāo)檢測(cè),建立不同類型船舶的趾端結(jié)構(gòu)與縱骨貫穿結(jié)構(gòu)數(shù)據(jù)集,并對(duì)樣本數(shù)據(jù)進(jìn)行清理和數(shù)據(jù)增強(qiáng)。采用遷移學(xué)習(xí)的方式訓(xùn)練出用于趾端結(jié)構(gòu)和縱骨貫穿結(jié)構(gòu)檢測(cè)的Faster R-CNN算法模型,通過(guò)無(wú)人機(jī)實(shí)際拍攝的趾端與縱骨貫穿結(jié)構(gòu)視頻,驗(yàn)證該算法模型。
結(jié)合船體結(jié)構(gòu)圖像樣本存在的結(jié)構(gòu)形式及布置復(fù)雜、缺陷形態(tài)復(fù)雜、圖像噪聲、光照條件與拍攝角度差異性大等因素,分析船體結(jié)構(gòu)圖像樣本采集與分類要求、數(shù)據(jù)集標(biāo)準(zhǔn)等,以保證算法模型的收斂性以及泛化能力,避免因船體結(jié)構(gòu)數(shù)據(jù)集質(zhì)量導(dǎo)致典型結(jié)構(gòu)節(jié)點(diǎn)的目標(biāo)檢測(cè)算法模型訓(xùn)練存在欠擬合、過(guò)擬合、不收斂等問(wèn)題。
采集到的趾端結(jié)構(gòu)、縱骨貫穿結(jié)構(gòu)圖像示例見圖1。
圖1 數(shù)據(jù)采集示意
結(jié)合目前主流的深度學(xué)習(xí)目標(biāo)識(shí)別算法對(duì)數(shù)據(jù)集的要求,利用主流的數(shù)據(jù)標(biāo)注工具對(duì)典型船體結(jié)構(gòu)節(jié)點(diǎn)開展數(shù)據(jù)標(biāo)注工作。質(zhì)量好的船體結(jié)構(gòu)數(shù)據(jù)集應(yīng)具有以下2種特征:①可供標(biāo)注的船體結(jié)構(gòu)樣本圖像正負(fù)樣本比重一定,且樣本量多;②船體結(jié)構(gòu)節(jié)點(diǎn)標(biāo)注質(zhì)量高。標(biāo)注品質(zhì)取決于人工標(biāo)注時(shí)對(duì)圖像像素點(diǎn)的位置判斷精準(zhǔn)度,人工標(biāo)注的像素點(diǎn)越接近于被標(biāo)注船體結(jié)構(gòu)節(jié)點(diǎn)的邊緣像素,則標(biāo)注質(zhì)量就越高。需要標(biāo)注者在標(biāo)注工作中保持較高的專業(yè)性和專注度。若一份標(biāo)注工作的精確率要求為100%,則像素點(diǎn)與被標(biāo)注物的邊緣像素點(diǎn)的誤差應(yīng)在一個(gè)像素值以內(nèi)。
1)數(shù)據(jù)清洗:檢查船體結(jié)構(gòu)樣本是否存在缺失結(jié)構(gòu)數(shù)據(jù)、船艙環(huán)境噪聲數(shù)據(jù)、重復(fù)結(jié)構(gòu)數(shù)據(jù)等問(wèn)題。
2)數(shù)據(jù)標(biāo)注:分配船體結(jié)構(gòu)標(biāo)注任務(wù),制定船體結(jié)構(gòu)標(biāo)注指南,執(zhí)行標(biāo)注任務(wù)。
3)標(biāo)注檢測(cè):由驗(yàn)船師與算法訓(xùn)練專家交叉評(píng)審標(biāo)注質(zhì)量。
數(shù)據(jù)標(biāo)注之后,還需結(jié)合船體結(jié)構(gòu)節(jié)點(diǎn)檢測(cè)算法模型訓(xùn)練過(guò)程中出現(xiàn)的問(wèn)題,不斷調(diào)整船體結(jié)構(gòu)數(shù)據(jù)集以解決由于數(shù)據(jù)標(biāo)注中出現(xiàn)的問(wèn)題或者是數(shù)據(jù)集本身的問(wèn)題而導(dǎo)致的訓(xùn)練問(wèn)題,形成滿足典型船體結(jié)構(gòu)節(jié)點(diǎn)識(shí)別要求的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn),并轉(zhuǎn)換為各類目標(biāo)檢測(cè)算法模型所需的數(shù)據(jù)集格式。
按照趾端結(jié)構(gòu)和縱骨貫穿結(jié)構(gòu)的結(jié)構(gòu)特征,分別對(duì)所建立的數(shù)據(jù)集中的圖像樣本進(jìn)行標(biāo)注,示例見圖2。
圖2 結(jié)構(gòu)標(biāo)注示意
在一步檢測(cè)法(one-stage)方面,Joseph Redmon等提出YOLO(you only look once)目標(biāo)檢測(cè)算法[1]。YOLO檢測(cè)速度雖然快,但是容易出現(xiàn)遺漏目標(biāo)的情況。針對(duì)YOLO模型的不足,Liu Wei提出SSD(single shot multibox detector)模型,融合了YOLO和Faster R-CNN優(yōu)點(diǎn)的SSD模型,提高了檢測(cè)速度和準(zhǔn)確性。該模型以VGG16[2]為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取,在不同大小的特征圖上按照比例生成不同大小的默認(rèn)框(default box),從而實(shí)現(xiàn)了對(duì)不同大小物體進(jìn)行檢測(cè),提高了整個(gè)模型的泛化能力。
而二步檢測(cè)法(two-stage)是將目標(biāo)識(shí)別問(wèn)題分解成兩個(gè)階段性任務(wù),首先是產(chǎn)生候選框,然后再對(duì)候選框進(jìn)行分類以及位置精調(diào)。Ross Girshick等于2014年提出了一種區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-based convolutional neural networks,R-CNN)[3],該算法相比于傳統(tǒng)的目標(biāo)檢測(cè)方法,在準(zhǔn)確率上有很大的提升,但因識(shí)別速度不快等缺點(diǎn),導(dǎo)致其無(wú)法運(yùn)用到實(shí)時(shí)檢測(cè)系統(tǒng)上。針對(duì)R-CNN存在的缺點(diǎn),何凱明(kaiming He)等提出了空間金字塔模型(spatial pyramid pooling net,SPP-Net)[4],該方法雖然加快了R-CNN的速度,但需要對(duì)模型進(jìn)行多次訓(xùn)練。Ross B.Girshick提出了使用ROI Pooling的池化結(jié)構(gòu)對(duì)R-CNN進(jìn)行改進(jìn)。何凱明(He Kaiming)等又提出了增加候選區(qū)域網(wǎng)絡(luò)(region proposal networks,RPN)結(jié)構(gòu)的Faster R-CNN檢測(cè)方法[5],該網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)不同大小的候選框從而實(shí)現(xiàn)對(duì)多尺度的目標(biāo)檢測(cè)的效果,使得位置檢測(cè)更精準(zhǔn),速度更快。
綜合考慮典型船體結(jié)構(gòu)節(jié)點(diǎn)識(shí)別模型的開發(fā)難度以及模型訓(xùn)練效率,選擇Faster R-CNN算法來(lái)訓(xùn)練模型來(lái)完成船體結(jié)構(gòu)識(shí)別任務(wù)。
首先,采用卷積層、Relu非線性激活層與池化層的組合構(gòu)建Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu),如VGG16或Resnet101去除全連接層后的結(jié)構(gòu),提取整張圖像的特征圖。再將該特征圖輸入到區(qū)域生成網(wǎng)絡(luò)層中提取候選框。針對(duì)各候選框,采用Softmax層判斷候選框選取的正確性,進(jìn)而采用邊界回歸算法對(duì)候選框進(jìn)行修正,以獲得精確的候選框。將提取的特征圖與獲得的精確候選框輸入到池化層,提取候選特征圖并進(jìn)行分類,以確定最終識(shí)別的目標(biāo)。Faster R-CNN結(jié)構(gòu)見圖3。
圖3 Faster R-CNN結(jié)構(gòu)示意
2.3.1 數(shù)據(jù)預(yù)處理
考慮到船體結(jié)構(gòu)形式復(fù)雜、尺度差異大,采集的樣本質(zhì)量參差不齊,會(huì)影響模型最終的識(shí)別效果。因此,在標(biāo)注完樣本數(shù)據(jù)后,對(duì)樣本中用于訓(xùn)練的圖像樣本和其中包含的所有目標(biāo)回歸框進(jìn)行可視化分析。收集的圖像樣本大小從800像素×800像素至6 000像素×6 000像素均有分布,并且差異較大。圖像樣本統(tǒng)計(jì)見圖4。
圖4 圖像樣本統(tǒng)計(jì)
各區(qū)間分布比例見圖5。
圖5 圖像樣本分布
回歸框尺寸極差較大,既有很小的回歸框,尺寸接近0,也有超大回歸框,尺寸超過(guò)3 000像素。目標(biāo)回歸框統(tǒng)計(jì)見圖6。
圖6 目標(biāo)框統(tǒng)計(jì)
進(jìn)一步分析回歸框的具體分布,僅有2.8%的回歸框尺寸大于1 000像素。
最終刪除部分異常離群數(shù)據(jù),并將圖像分辨率縮放至640像素作為模型的數(shù)據(jù)集。
2.3.2 數(shù)據(jù)增強(qiáng)
在實(shí)際的船舶環(huán)境中,環(huán)境光照、趾端以及縱骨貫穿結(jié)構(gòu)的角度變化非常復(fù)雜,為了增強(qiáng)模型在不同光照、拍攝角度下的泛化性,同時(shí)為了盡量避免訓(xùn)練過(guò)程中出現(xiàn)的過(guò)擬合現(xiàn)象,選擇通過(guò)數(shù)據(jù)增強(qiáng)的方式來(lái)擴(kuò)充與提升訓(xùn)練樣本的數(shù)量與質(zhì)量。針對(duì)船舶環(huán)境中光照變化頻繁的問(wèn)題,選擇采用改變圖像亮度的方法來(lái)模擬光照的變換。數(shù)據(jù)增強(qiáng)效果見圖7。
圖7 數(shù)據(jù)增強(qiáng)效果
R-CNN是雙階段檢測(cè)中最具代表性的網(wǎng)絡(luò)結(jié)構(gòu),與YOLO為代表的單階段網(wǎng)絡(luò)相比具有更高的檢測(cè)準(zhǔn)確率。
考慮到兼顧速度和檢測(cè)精度的應(yīng)用環(huán)境,對(duì)Faster-RCNN算法的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改良與運(yùn)用。改良后的Faster-RCNN網(wǎng)絡(luò)結(jié)構(gòu)見圖8。
圖8 改進(jìn)后的Faster-RCNN的網(wǎng)絡(luò)結(jié)構(gòu)
在選擇好目標(biāo)檢測(cè)算法之后,利用數(shù)據(jù)標(biāo)注工作中形成的滿足當(dāng)前目標(biāo)檢測(cè)算法以及網(wǎng)絡(luò)結(jié)構(gòu)的船體結(jié)構(gòu)節(jié)點(diǎn)訓(xùn)練數(shù)據(jù),采用在VOC開源數(shù)據(jù)上的模型進(jìn)行遷移學(xué)習(xí),初始學(xué)習(xí)率設(shè)為0.001。同時(shí)設(shè)置學(xué)習(xí)率衰減策略,具體做法為在連續(xù)3輪迭代過(guò)程中,如果損失函數(shù)下降幅度低于0.02則學(xué)習(xí)率衰減為原來(lái)的0.5,經(jīng)過(guò)50輪迭代訓(xùn)練后,模型精度達(dá)到90%以上。訓(xùn)練結(jié)果見圖9。
圖9 訓(xùn)練結(jié)果
使用訓(xùn)練好的模型對(duì)船舶檢驗(yàn)無(wú)人機(jī)拍攝的船體結(jié)構(gòu)視頻進(jìn)行驗(yàn)證,實(shí)驗(yàn)平臺(tái)的硬件環(huán)境為12核CPU Intel Xeon E5-2678 v3,GPU為GTX 1080Ti,檢測(cè)速度可達(dá)10.2 幀/s。
本文通過(guò)實(shí)際檢測(cè)中返回的置信度來(lái)評(píng)價(jià)船體結(jié)構(gòu)檢測(cè)識(shí)別的準(zhǔn)確率。置信度可以理解為框出的Box內(nèi)確實(shí)有物體的自信程度和框出的Box將整個(gè)物體的所有特征都包括進(jìn)來(lái)的自信程度。置信度可用來(lái)評(píng)判在實(shí)際分類任務(wù)中分類器得到的結(jié)果是否可靠。該指標(biāo)與數(shù)據(jù)集無(wú)直接關(guān)聯(lián)性,故可以表示實(shí)際檢測(cè)任務(wù)中的檢測(cè)準(zhǔn)確率。將置信度閾值設(shè)置在90%之上進(jìn)行識(shí)別,可以直觀的從圖中看出被識(shí)別物體的類別以及置信度,相關(guān)的檢測(cè)見圖10,位于類別名之后的是該類別的置信度,該指標(biāo)表示模型本身對(duì)該次檢測(cè)任務(wù)所返回結(jié)果的認(rèn)可程度,數(shù)值越接近于1,表明其結(jié)果越可信。
圖10 趾端結(jié)構(gòu)識(shí)別結(jié)果
基于Faster R-CNN的算法模型可準(zhǔn)確識(shí)別船舶大型肘板趾端與縱骨貫穿結(jié)構(gòu),模型精度達(dá)到90%以上。驗(yàn)證結(jié)果表明,將基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法應(yīng)用于船舶檢驗(yàn)領(lǐng)域可行。
后續(xù)研究應(yīng)考慮根據(jù)船體結(jié)構(gòu)檢驗(yàn)范圍,進(jìn)一步開展其他類型船體結(jié)構(gòu)節(jié)點(diǎn)以及船體結(jié)構(gòu)缺陷的目標(biāo)檢測(cè),同時(shí)提高模型的檢測(cè)速度,對(duì)船舶檢驗(yàn)無(wú)人機(jī)拍攝的視頻進(jìn)行全范圍的實(shí)時(shí)檢測(cè)。