国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)Mask R-CNN 的遙感圖像多目標(biāo)檢測(cè)與分割

2020-07-17 08:20:06李森森
關(guān)鍵詞:卷積聚類維度

李森森,吳 清

河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401

1 引言

近十年來(lái)遙感技術(shù)有了很大的發(fā)展,光學(xué)遙感傳感器分辨率也得到了很大的提升,大量高分辨率遙感圖像逐漸在軍事和民用領(lǐng)域發(fā)揮出重要作用。如何更好地從遙感圖像中提取特征,做到更加準(zhǔn)確的識(shí)別與分割成為一個(gè)重要的研究方向[1]。

遙感圖像往往具有更加復(fù)雜的背景。HOG[2]、SIFT[3]、SVD[4]等傳統(tǒng)的方法需要針對(duì)不同的場(chǎng)景利用大量先驗(yàn)知識(shí)進(jìn)行人工特征設(shè)計(jì),但在面對(duì)復(fù)雜遙感圖像時(shí),人工設(shè)計(jì)特征的描述能力十分有限,并且適用性和通用性很差,表現(xiàn)效果并不理想,這一問(wèn)題在多目標(biāo)檢測(cè)中更為突出。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,相較于傳統(tǒng)方式,通過(guò)大量的數(shù)據(jù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到圖像更深層次的特征,做到更加準(zhǔn)確的識(shí)別與分割。對(duì)遙感圖像目標(biāo)檢測(cè)的研究,Jiang等人[5]利用基于超像素分割的方法對(duì)遙感圖像進(jìn)行碎片提取,通過(guò)將提取的圖像碎片輸入CNN網(wǎng)絡(luò)來(lái)檢測(cè)是否存在車(chē)輛;Cheng等人[6]提出RICNN神經(jīng)網(wǎng)絡(luò),在原有CNN體系基礎(chǔ)上引入旋轉(zhuǎn)不變層來(lái)提升遙感圖像的多目標(biāo)檢測(cè)性能;Nie等人[7]為提高船只檢測(cè)準(zhǔn)確率,通過(guò)使用Soft-NMS替換Mask R-CNN中的NMS算法,對(duì)非最大檢測(cè)框的檢測(cè)分?jǐn)?shù)進(jìn)行權(quán)重衰減而非徹底移除,有效地解決了在處理密集船只時(shí)難以分開(kāi)的問(wèn)題。對(duì)于遙感圖像目標(biāo)分割的研究,Long等人[8]提出全卷積神經(jīng)網(wǎng)絡(luò),去掉通用檢測(cè)網(wǎng)絡(luò)末端的全連接層,創(chuàng)建了端到端的分割神經(jīng)網(wǎng)絡(luò),并成為分割網(wǎng)絡(luò)的基礎(chǔ);祖寶開(kāi)等人[9]把分塊低秩表示的方法應(yīng)用于市區(qū)遙感圖像,完成市區(qū)圖像不同區(qū)域的劃分;楊承文等人[10]通過(guò)貝葉斯深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)相結(jié)合的方式,完成在僅有少量標(biāo)注樣本訓(xùn)練情況下的圖像區(qū)域分類;He等人[11]引入土地覆蓋網(wǎng)絡(luò)的概念,提出一種基于分布度統(tǒng)計(jì)的分析方法來(lái)客觀地對(duì)分割結(jié)果進(jìn)行評(píng)估;李梁等人[12]將改進(jìn)的特征金字塔結(jié)構(gòu)應(yīng)用于Mask R-CNN,用于對(duì)航拍圖像中受災(zāi)害區(qū)域進(jìn)行分割,通過(guò)更充分地提取圖像特征達(dá)到了很好的分割效果。

上述方法,都沒(méi)能對(duì)遙感圖像從目標(biāo)檢測(cè)與分割兩方面進(jìn)行分析,并且對(duì)于多目標(biāo)考慮較少,往往側(cè)重于單一目標(biāo)的情況。為了更好地解決多目標(biāo)遙感圖像檢測(cè)與分割問(wèn)題,本文以He K等人[13]提出的Mask R-CNN為網(wǎng)絡(luò)基礎(chǔ),提出了Lmask R-CNN(Leap Mask R-CNN)網(wǎng)絡(luò)。Mask R-CNN屬于R-CNN系列網(wǎng)絡(luò),解決了RCNN[14]、Fast R-CNN[15]、Faster R-CNN[16]中 存 在 的 問(wèn)題。Mask R-CNN本身具有優(yōu)秀的檢測(cè)和分割效果,但主要用于處理自然圖像,對(duì)于遙感圖像處理不夠理想。目前,針對(duì)該網(wǎng)絡(luò)在遙感圖像方面的改進(jìn),大多用于處理特定目標(biāo),改進(jìn)方面集中于更好地提取圖像特征,但這使得網(wǎng)絡(luò)的通用性不高,難以適用于多目標(biāo)情況,并且對(duì)于分割網(wǎng)絡(luò)處理很少。

本文針對(duì)Mask R-CNN在遙感圖像多目標(biāo)識(shí)別方面的不足進(jìn)行改進(jìn),主要采取了三種措施:分層跳連多層特征融合、自適應(yīng)的感興趣區(qū)域提取、融合部分全連接的目標(biāo)分割。改進(jìn)后的Mask R-CNN模型提高了特征提取能力,降低了卷積過(guò)程中像素位置信息的損失,提高了目標(biāo)檢測(cè)和分割的效果。

2 相關(guān)算法

2.1 Mask R-CNN檢測(cè)算法

Mask R-CNN是在Faster R-CNN基礎(chǔ)上提出的目標(biāo)檢測(cè)與分割網(wǎng)絡(luò)。主要改進(jìn)包含:利用RestNet+FPN[17]進(jìn)行特征提??;提出感興趣區(qū)域空間對(duì)稱化(RoIAlign)替換原網(wǎng)絡(luò)中的感興趣區(qū)域池化(RoIPooling);增加分割支路進(jìn)行目標(biāo)分割,網(wǎng)絡(luò)模型如圖1所示。

Mask R-CNN在RestNet網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建FPN特征金字塔。RestNet劃分為5個(gè)模塊(圖1中C1~C5所示)。FPN特征金字塔由自底向上和自頂向下兩個(gè)路徑組成。自底向上路徑就是ResNet網(wǎng)絡(luò),生成C1~C5粗粒度的特征圖。自頂向下路徑利用將高層特征進(jìn)行上采樣(×2)操作與卷積層網(wǎng)絡(luò)次高層輸出特征層進(jìn)行融合操作,融合采用兩個(gè)特征圖點(diǎn)對(duì)點(diǎn)數(shù)值相加的方式,得到P5~P2特征層。P6特征層由P5最大池化得來(lái),但網(wǎng)絡(luò)不存在P1特征層。由于C1層特征尺寸過(guò)大,生成P1應(yīng)用于感興趣區(qū)域提取會(huì)造成參數(shù)量激增,綜合考慮舍棄P1,但也放棄了部分圖像底層特征。RestNet+FPN特征提取網(wǎng)絡(luò)通過(guò)構(gòu)建多尺度特征層的形式替換單一的ResNet單特征結(jié)構(gòu),使網(wǎng)絡(luò)更好地提取圖像低維語(yǔ)義特征,檢測(cè)性能也大大提升。

圖1 Mask R-CNN模型

RPN感興趣區(qū)域提取網(wǎng)絡(luò)利用P2~P6特征層來(lái)產(chǎn)生候選框,利用3×3卷積核在每層特征圖中進(jìn)行滑動(dòng),對(duì)每個(gè)滑動(dòng)窗口中心采取3種不同尺寸的anchor。每個(gè)候選框用坐標(biāo)(x,y,w,h)表示,(x,y)為區(qū)域左上角坐標(biāo),(w,h)為寬和高,映射到目標(biāo)區(qū)域偏移量為(dx,dy,dw,dh)。class支路利用1×1卷積核和Softmax[18]分類器得到該區(qū)域前景和背景的概率,box支路利用1×1卷積核得到預(yù)測(cè)偏移量 (d?x,d?y,d?w,d?h)。RPN網(wǎng)絡(luò)損失函數(shù)由分類和區(qū)域坐標(biāo)兩部分組成,定義為:

其中,p為實(shí)際標(biāo)簽,p?為預(yù)測(cè)標(biāo)簽,前景定義為1,背景為0,λ為調(diào)節(jié)比例參數(shù),默認(rèn)為1。前景與背景分類損失Lcls(p,p?)采用如下定義的對(duì)數(shù)損失函數(shù):

定位損失Lbbox(d,d?)可定義為:

其中:

采用梯度下降算法進(jìn)行訓(xùn)練,得到最終的候選框。

通過(guò)RoIAlign層將候選框處理到同一尺度,傳入目標(biāo)檢測(cè)和分割網(wǎng)絡(luò)。RoIAlign層取消了原RoIPooling的兩次量化過(guò)程,采用雙線性內(nèi)插的方法得到像素點(diǎn)上的像素值,將特征聚集過(guò)程轉(zhuǎn)換為一個(gè)連續(xù)過(guò)程,在處理每個(gè)候選框的過(guò)程中保存浮點(diǎn)數(shù)邊界,而不是進(jìn)行量化,增強(qiáng)了算法在目標(biāo)檢測(cè)時(shí)的精度。

對(duì)于目標(biāo)檢測(cè),網(wǎng)絡(luò)采取常用的全連接層加Softmax分類器的形式實(shí)現(xiàn)。對(duì)于新增支路目標(biāo)分割網(wǎng)絡(luò),通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)的形式實(shí)現(xiàn)。利用多個(gè)3×3卷積操作增強(qiáng)目標(biāo)特征信息,通過(guò)反卷積將特征圖擴(kuò)大一倍,縮小特征層與原圖像的倍數(shù),從而減少將目標(biāo)區(qū)域映射到原圖像中去時(shí)的誤差。通過(guò)對(duì)特征圖每一個(gè)像素都產(chǎn)生一個(gè)預(yù)測(cè)值,來(lái)實(shí)現(xiàn)目標(biāo)分割。分割網(wǎng)絡(luò)對(duì)每個(gè)感興趣區(qū)域產(chǎn)生c(分類數(shù)目)維的分割掩碼,通過(guò)利用分類網(wǎng)絡(luò)所計(jì)算出的類標(biāo)號(hào)(例如class=i),得到最終的目標(biāo)分割圖(分割掩碼的第i維)。這種方式能夠很好地防止出現(xiàn)類間競(jìng)爭(zhēng),對(duì)不同類別間進(jìn)行解耦,大大簡(jiǎn)化計(jì)算過(guò)程,并使得網(wǎng)絡(luò)取得了非常好的分割效果。

雖然Mask R-CNN有效地實(shí)現(xiàn)了目標(biāo)檢測(cè)與分割,但應(yīng)用于遙感圖像還存在一些問(wèn)題。例如,遙感圖像存在視角特殊性、背景復(fù)雜度高等問(wèn)題,需要更多的底層特征,但是特征提取卻非常困難;目標(biāo)間尺寸差異過(guò)大,不能自適應(yīng)提取感興趣區(qū)域,造成目標(biāo)丟失嚴(yán)重;圖像中存在大量小目標(biāo)使得分割網(wǎng)絡(luò)需要具有更高的精度。本文針對(duì)這些問(wèn)題進(jìn)行了重點(diǎn)研究。

2.2 本文檢測(cè)算法

為了提高M(jìn)ask R-CNN網(wǎng)絡(luò)對(duì)光學(xué)遙感圖像進(jìn)行目標(biāo)檢測(cè)與分割的準(zhǔn)確率,主要包含以下三個(gè)方面:首先,在特征提取過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)如何提取更為有效的抽象特征,進(jìn)而更準(zhǔn)確地對(duì)像素進(jìn)行分類。其次,在目標(biāo)感興趣區(qū)域提取過(guò)程中,能夠同時(shí)提取各種尺寸差異過(guò)大的目標(biāo),以防止小目標(biāo)的丟失。最后,在對(duì)目標(biāo)進(jìn)行分割的過(guò)程中,通過(guò)更好地提取目標(biāo)的邊界信息,可以更準(zhǔn)確地將像素點(diǎn)還原到原始圖像的對(duì)應(yīng)位置,增強(qiáng)分割精度。

針對(duì)上述三個(gè)方面的內(nèi)容,本文在特征提取過(guò)程中提出兩種分層跳連融合的提取網(wǎng)絡(luò),來(lái)增強(qiáng)圖像特征提取,并使提取出的各個(gè)特征層包含更多來(lái)自圖像的有用信息。在感興趣區(qū)域提取網(wǎng)絡(luò)中,通過(guò)加入K-means算法對(duì)訓(xùn)練集目標(biāo)進(jìn)行聚類分析,使網(wǎng)絡(luò)能夠自適應(yīng)初始化待提取面積,減少人為指定偏差造成的目標(biāo)丟失。在Mask R-CNN的分割網(wǎng)中,利用反卷積操作來(lái)實(shí)現(xiàn)精度的提高,但遙感圖像大量小目標(biāo)的存在需要更精確的邊界信息,本文通過(guò)將全連接網(wǎng)絡(luò)融入全卷積網(wǎng)絡(luò)的形式來(lái)提高圖像的邊緣提取率,并且將反卷積層改為上采樣操作來(lái)避免棋盤(pán)效應(yīng)的出現(xiàn),提高分割精度。

2.2.1 基于分層跳連融合方式的特征提取網(wǎng)絡(luò)

由于高分辨率遙感圖像目標(biāo)間尺寸差異過(guò)大、小目標(biāo)過(guò)多、圖像背景復(fù)雜等特點(diǎn),造成了特征提取困難,所以,設(shè)計(jì)了如圖2所示的分層跳連特征融合提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)為增大特征層感受野以及更好地實(shí)現(xiàn)分層跳連,加入了由C5特征層進(jìn)行2×2最大池化得到的C6特征層。Mask R-CNN中只采用兩個(gè)特征圖點(diǎn)到點(diǎn)數(shù)值相加的特征融合方式,但當(dāng)分層跳連融合存在時(shí),采用這種方法會(huì)導(dǎo)致特征差異和精度損失過(guò)大,為了解決這一問(wèn)題,在分層跳連存在時(shí),網(wǎng)絡(luò)采取維度相加的方式來(lái)進(jìn)行特征融合。

在原網(wǎng)絡(luò)中,C2~C5特征層通過(guò)添加1×1卷積層全部將維度統(tǒng)一為256參與特征融合,并且得到的P2~P6特征層維度也為256。改進(jìn)后的網(wǎng)絡(luò)采用分層跳連維度增加的方式進(jìn)行融合,為了使各特征層維度與原網(wǎng)絡(luò)保持一致和盡量減小運(yùn)算量,通過(guò)利用1×1卷積層,將C1~C6維度統(tǒng)一為128。自下而上融合過(guò)程中,利用分層跳連融合的方式生成c2~c5特征層,計(jì)算過(guò)程如下:

圖2 分層跳連融合特征提取網(wǎng)絡(luò)

其中,上角標(biāo)代表維度,2≤i≤5,i代表層級(jí),M代表最大池化,規(guī)格為2×2,U2代表2倍上采樣,符號(hào)⊕代表兩特征層維度疊加。c1和c6直接由C1和C6通過(guò)1×1卷積得來(lái),維度為128。在自下而上的分層跳連方式底層特征融合過(guò)程中,加入C1層和C6層的使用,能夠進(jìn)一步增加特征圖中低維與高維特征,可以更好地保留底層特征和減小高維特征減少帶來(lái)的視野丟失。并且,C1特征層也不再進(jìn)行舍棄,分別通過(guò)跳連和卷積方式傳入c2和c1中。這時(shí)得到的c2~c5中,其高層特征中就融合了低層的特征,但低層特征中包含的高層特征較少。所以,在原有網(wǎng)絡(luò)自上而下特征融合的基礎(chǔ)上加入由c1~c6自上而下的分層跳連方式高層特征融合,跳連之前統(tǒng)一將c1~c6特征層維度利用1×1卷積變?yōu)?28,得到圖2網(wǎng)絡(luò)中融合了高層與低層特征的P5~P2層。融合過(guò)程為:

其中,符號(hào)+代表兩個(gè)特征層對(duì)應(yīng)位置數(shù)值相加。P6是由c6通過(guò)1×1卷積得來(lái),維度為256。采用公式(6)自上而下分層跳連的特征融合可以使高維度特征信息利用跳連的形式直接融入底層特征中去,在原有的自上而下基礎(chǔ)上,通過(guò)跳連使得拓寬了橫向高維度特征來(lái)源,例如,原始網(wǎng)絡(luò)P2特征層僅由P3和C2得來(lái),改進(jìn)后可以發(fā)現(xiàn)由c1,c3,P3得來(lái),c3包含了C2與C4特征。所以,改進(jìn)后的網(wǎng)絡(luò)通過(guò)利用1×1卷積改變特征層維度的方式,實(shí)現(xiàn)了分層跳連特征融合,使得低維特征與高維特征進(jìn)一步加深融合,為后續(xù)感興趣區(qū)域提取以及目標(biāo)檢測(cè)與分割提供了更好的特征層。

2.2.2 自適應(yīng)面積的感興趣區(qū)域提取

Mask R-CNN的RPN網(wǎng)絡(luò)區(qū)域選取框標(biāo)準(zhǔn)集合S為固定的{322,642,1282,2562,5122},不能根據(jù)實(shí)際場(chǎng)景需求做出調(diào)整。本文通過(guò)對(duì)訓(xùn)練樣本集進(jìn)行K-means聚類來(lái)自動(dòng)調(diào)整最適合的選取框面積。

假設(shè)訓(xùn)練集中目標(biāo)樣本X有n個(gè)對(duì)象,X={X1,X2,…,Xn},其中每個(gè)對(duì)象都具有長(zhǎng)(h)和寬(w)兩個(gè)維度的屬性,取所有長(zhǎng)寬的最大值與最小值,記為(hmax,hmin,wmax,wmin),設(shè):其中,Cmin代表訓(xùn)練集中目標(biāo)的最小區(qū)域(小于等于最小目標(biāo)),Cmax代表訓(xùn)練集中目標(biāo)的最大區(qū)域(大于等于最大目標(biāo))。

由于P2~P6特征層(共5層)應(yīng)用于感興趣區(qū)域提取,因此S集合包含5種面積,并依次應(yīng)用于P2~P6。為解決K-means算法對(duì)初始化中心敏感的問(wèn)題,網(wǎng)絡(luò)利用下式確定5個(gè)初始化聚類中心{C1,C2,C3,C4,C5}:

i代表第i個(gè)聚類中心,n代表聚類中心個(gè)數(shù)。采用歐式距離計(jì)算每個(gè)對(duì)象到每一個(gè)聚類中的距離:

其中,Xi表示第i個(gè)對(duì)象,1≤i≤n,Cj表示第 j個(gè)樣本聚類中心,1≤j≤5,Xit表示第i個(gè)對(duì)象的第t個(gè)屬性,1≤t≤2,Cjt表示第 j個(gè)聚類中的第t個(gè)屬性。依次比較每個(gè)對(duì)象到各個(gè)聚類中心的距離,將對(duì)象分配到距離最近的聚類中心的聚類簇中,得到5個(gè)類簇{Z1,Z2,Z3,Z4,Z5}(Z代表每一類包含所有對(duì)象的集合),更新后的各個(gè)聚類中心為各個(gè)類簇中所有對(duì)象在各個(gè)維度的均值:

其中,Cj表示第 j個(gè)聚類中心,1≤j≤5, ||Sj表示第 j個(gè)類簇中包含對(duì)象的個(gè)數(shù),Xi表示第 j個(gè)類簇中的第i個(gè)對(duì)象,1≤i≤ ||Sj。重復(fù)上述操作直至聚類中心不再變化,得到最終5個(gè)聚類中心{C1,C2,C3,C4,C5}。為了同時(shí)處理數(shù)據(jù)集中存在的特小目標(biāo)與特大目標(biāo),加入了Cmax與Cmin的比重。因此,設(shè)定區(qū)域選取框標(biāo)集合S為:

2.2.3 局部融合全連接的分割網(wǎng)絡(luò)

Mask R-CNN分割網(wǎng)絡(luò)利用全卷積網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取與分割,但文獻(xiàn)[19-20]關(guān)于全連接層應(yīng)用的研究發(fā)現(xiàn),全連接網(wǎng)絡(luò)相較于卷積神經(jīng)網(wǎng)絡(luò)具有更加準(zhǔn)確的提取功能,但運(yùn)算量巨大。本文為了融合兩者優(yōu)點(diǎn),在分割網(wǎng)絡(luò)中加入部分全連接網(wǎng)絡(luò)來(lái)輔助全卷積網(wǎng)絡(luò)實(shí)現(xiàn)更好的分割。

改進(jìn)后的目標(biāo)分割網(wǎng)絡(luò)如圖3所示,在原有全卷積網(wǎng)絡(luò)的基礎(chǔ)上,利用2×2最大池化操作將第1特征層降為原來(lái)一半,再利用1×1卷積操作將特征圖維度降為10(目標(biāo)類別數(shù))。此時(shí)特征圖大小為7×7×10,通過(guò)7×7大小的卷積核生成包含490個(gè)參數(shù)的全連接層。同理,原分割網(wǎng)絡(luò)第4特征層利用同樣方式處理得到7×7×10特征層,通過(guò)點(diǎn)對(duì)點(diǎn)數(shù)值相加的方式與變形后的全連接特征進(jìn)行融合,對(duì)融合特征進(jìn)行相同的卷積操作得到全連接層,經(jīng)過(guò)變形、2倍上采樣操作和1×1卷積升維操作后恢復(fù)到原始尺寸,融合上下兩個(gè)流程的特征層。此時(shí)得到的特征層中,融入了全連接路徑傳來(lái)的淺層語(yǔ)義紋理信息,這些信息對(duì)于處理小目標(biāo)十分重要。

原分割網(wǎng)絡(luò)使用反卷積操作縮小特征圖與原始圖像之間的比例,達(dá)到減少目標(biāo)區(qū)域映射到原圖像中的誤差,實(shí)現(xiàn)增強(qiáng)分割準(zhǔn)確度的目的。但在反卷積增大特征層分辨率的過(guò)程中,由于卷積運(yùn)算的存在會(huì)出現(xiàn)像素位置重疊,導(dǎo)致得到的像素點(diǎn)疊加了其他像素信息,破壞了像素之間的位置關(guān)系,造成棋盤(pán)效應(yīng)。改進(jìn)后的網(wǎng)絡(luò)由上采樣操作替換反卷積操作,上采樣操作可以根據(jù)最大池化過(guò)程中保留的像素位置信息直接將像素還原到原始位置并填充拓展區(qū)域,避免了像素位置重疊與丟失,更好地保存了像素之間的位置關(guān)系,也避免了棋盤(pán)效應(yīng),從而降低了特征層在提高分辨率過(guò)程中的誤差,進(jìn)一步提高了網(wǎng)絡(luò)的分割效果。

增加的全連接支路,僅包含1×1與7×7兩種卷積核,1×1卷積核用來(lái)升降維,7×7卷積核用來(lái)生成全連接層。7×7卷積核處理7×7×10的特征圖,特征圖維度僅為10。所以,整個(gè)全連接支路訓(xùn)練參數(shù)相較于原網(wǎng)絡(luò)256維的全卷積網(wǎng)絡(luò)來(lái)說(shuō)影響很小,相較于整個(gè)Mask R-CNN網(wǎng)絡(luò)參數(shù)來(lái)說(shuō)完全可以忽略不計(jì)。

綜上所述,本文Lmask R-CNN網(wǎng)絡(luò)模型整體結(jié)構(gòu)如圖4所示。

3 實(shí)驗(yàn)結(jié)果及分析

本文仿真環(huán)境為Intel?CoreTMi7-4790K CPU@4.0 GHz,單GPU NVIDIA GTX 1070 Ti,Windows 7,開(kāi)發(fā)環(huán)境為Python。

3.1 數(shù)據(jù)集處理

本實(shí)驗(yàn)采用NWPU VHR-10數(shù)據(jù)集,該數(shù)據(jù)集包括飛機(jī)、船舶等在內(nèi)的10類高分辨遙感圖像。原數(shù)據(jù)目標(biāo)標(biāo)簽只包含邊界矩形框信息,無(wú)法實(shí)現(xiàn)分割任務(wù),所以本實(shí)驗(yàn)在原邊界信息基礎(chǔ)上進(jìn)行重新標(biāo)注。通過(guò)工具VIA(VGG Image Annotator),按照物體的輪廓進(jìn)行標(biāo)注,從而能夠?qū)崿F(xiàn)目標(biāo)分割。如圖5(b)為重新標(biāo)注后的數(shù)據(jù)集,將每個(gè)樣例中所有邊界點(diǎn)的最大橫坐標(biāo)和縱坐標(biāo)以及最小橫坐標(biāo)和縱坐標(biāo)重新組合成矩形框,即可得到原數(shù)據(jù)集圖5(a)中的矩形框。數(shù)據(jù)集的拓展嚴(yán)格按照這一方式執(zhí)行。實(shí)驗(yàn)中,數(shù)據(jù)集被隨機(jī)劃分為訓(xùn)練集(70%)和測(cè)試集(30%)。

由于NWPU VHR-10數(shù)據(jù)集樣本較少,所以選用COCO數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù)集,并且在圖片輸入神經(jīng)網(wǎng)絡(luò)前,隨機(jī)對(duì)其加入上下翻轉(zhuǎn)、左右翻轉(zhuǎn)、高斯模糊三種方式的隨機(jī)組合處理,圖片標(biāo)簽進(jìn)行同等方式映射。

3.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用AP(Average Precision)、mAP(mean Average Precision)對(duì)模型進(jìn)行定量評(píng)估。

圖3 基于局部融合全連接的目標(biāo)分割網(wǎng)絡(luò)

圖4 Lmask R-CNN網(wǎng)絡(luò)模型

圖5 數(shù)據(jù)集前后對(duì)比示例

對(duì)于每一類目標(biāo)檢測(cè)給出的置信度,從高到低進(jìn)行排序:

其中,G代表真實(shí)區(qū)域,D代表網(wǎng)絡(luò)檢測(cè)結(jié)果。當(dāng)IOU>τ(τ?[0,1])記為正確預(yù)測(cè)的結(jié)果,否則記為預(yù)測(cè)錯(cuò)誤。依據(jù)預(yù)測(cè)結(jié)果的正確與否計(jì)算TP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative),依據(jù)TP、FP、FN、TN來(lái)計(jì)算召回率(recall)、精確度(precision)、AP和mAP。

單類目標(biāo)準(zhǔn)確率計(jì)算結(jié)果為:

其中,p代表precision,r代表recall。所有類別平均準(zhǔn)確率計(jì)算結(jié)果為:

其中,C代表類別數(shù)。

3.3 感興趣區(qū)域自適應(yīng)結(jié)果與分析

對(duì)NWPU VHR-10數(shù)據(jù)集自適應(yīng)提取面積大小結(jié)果如圖6所示??梢园l(fā)現(xiàn),遙感圖像目標(biāo)大部分集中于左下方,右上方大區(qū)域附近也有零散分布,這也表明遙感圖像中包含大量的小目標(biāo),并且大、小目標(biāo)尺寸間差距過(guò)大,僅通過(guò)人為設(shè)定提取面積,極易造成特征提取不充分,大目標(biāo)或小目標(biāo)感興趣區(qū)域檢測(cè)丟失情況的出現(xiàn)。通過(guò)利用K-means聚類算法,結(jié)果如表1所示。通過(guò)公式(12)得到感興趣區(qū)域選取框集合S={342,842,1382,2272,3732},更好地兼顧了不同目標(biāo)間的大小及尺寸特性,使得網(wǎng)絡(luò)更好適用于遙感圖像存在大量小目標(biāo)的情況,為更好地實(shí)現(xiàn)目標(biāo)檢測(cè)與分割提供前提。

圖6 自適應(yīng)感興趣區(qū)域的聚類結(jié)果

表1 聚類結(jié)果數(shù)值

3.4 目標(biāo)檢測(cè)與分割實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)選取ResNet-50作為特征提取網(wǎng)絡(luò),利用從COCO數(shù)據(jù)訓(xùn)練好的模型進(jìn)行遷移學(xué)習(xí)訓(xùn)練,學(xué)習(xí)率設(shè)置為0.001,最大迭代次數(shù)設(shè)置為200。實(shí)驗(yàn)結(jié)果分為目標(biāo)檢測(cè)和目標(biāo)分割兩部分。

表2給出了本文與五種不同算法在NWPU VHR-10數(shù)據(jù)集上,IOU閾值設(shè)為0.7的目標(biāo)檢測(cè)結(jié)果。通過(guò)結(jié)果發(fā)現(xiàn),傳統(tǒng)的COPD算法效果最差,各個(gè)類別準(zhǔn)確率都非常低,平均正確率僅為58.54%;RICNN整體略有提升,但不明顯,F(xiàn)aster R-CNN+FPN算法相較于前兩種算法,各類別準(zhǔn)確率都有很大提升,但對(duì)于小目標(biāo)檢測(cè)檢測(cè)率不高;ODDP算法雖然提升了小目標(biāo)檢測(cè)的準(zhǔn)確率,但對(duì)于船、儲(chǔ)油罐、網(wǎng)球場(chǎng)、車(chē)輛等小目標(biāo)的正確率還較低;Mask R-CNN對(duì)于橋、船、車(chē)輛的識(shí)別率很低,說(shuō)明網(wǎng)絡(luò)對(duì)于特征不明顯的目標(biāo)不敏感;Lmask相比COPD、RICNN、Faster R-CNN+FPN、ODDP和Mask RCNN平均正確率分別提升32.45%、27.99%、18.75%、4.28%和7.14%,特別是對(duì)于飛機(jī)、儲(chǔ)油罐、網(wǎng)球場(chǎng)、車(chē)輛等小目標(biāo)的識(shí)別效果明顯??傮w而言,目前目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)大多針對(duì)自然場(chǎng)景圖像而設(shè)計(jì)的,不能很好適應(yīng)遙感圖像小目標(biāo)過(guò)多、不同類別目標(biāo)間尺寸差異過(guò)大等特點(diǎn),造成漏檢、誤檢情況的出現(xiàn)。本文提出的Lmask R-CNN通過(guò)利用分層跳連特征融合網(wǎng)絡(luò)以及自適應(yīng)感興趣區(qū)域網(wǎng)絡(luò),使得網(wǎng)絡(luò)特征提取更加充分,更好地利用圖像低維特征與高維特征進(jìn)行融合,以及通過(guò)訓(xùn)練集自適應(yīng)設(shè)置感興趣區(qū)域面積大小,使得網(wǎng)絡(luò)在保證大目標(biāo)不丟失的前提下,大大增強(qiáng)了小目標(biāo)識(shí)別率與準(zhǔn)確率。

表2 目標(biāo)檢測(cè)的平均精度 %

表3為目標(biāo)分割的結(jié)果,除Mask-RCNN和本文改進(jìn)算法之外,其余幾種算法不具有分割功能,所以僅對(duì)比了這兩種算法在不同IOU(0.5,0.6,0.7)下的準(zhǔn)確率。準(zhǔn)確率變化曲線如圖7所示,通過(guò)對(duì)比結(jié)果發(fā)現(xiàn),IOU在0.5,0.6,0.7情況下,平均正確率分別提升3.32%,6.41%,3.58%。隨著IOU的增大,提升呈現(xiàn)先升后降的情況,說(shuō)明Lmask R-CNN比Mask R-CNN具有更高的分割精度,隨著IOU增大,正確率波動(dòng)變化較小,但當(dāng)IOU過(guò)高時(shí),二者都會(huì)被判定為分割失敗,縮小兩者間精度差距。改進(jìn)的分割網(wǎng)絡(luò)通過(guò)融入局部全連接網(wǎng)絡(luò),利用全連接網(wǎng)絡(luò)優(yōu)秀的特征提取整合能力,提取并保存更加細(xì)致的邊界信息,實(shí)現(xiàn)了更加細(xì)致的分割。

圖7 分割結(jié)果趨勢(shì)對(duì)比圖

圖8 為L(zhǎng)mask R-CNN與Mask R-CNN部分檢測(cè)結(jié)果對(duì)比圖。通過(guò)對(duì)比前后實(shí)驗(yàn)結(jié)果,Mask R-CNN在檢測(cè)飛機(jī)、儲(chǔ)油罐、輪船等小目標(biāo)時(shí),均存在目標(biāo)丟失的問(wèn)題,對(duì)圖像中的小目標(biāo)容易漏檢。改進(jìn)后的網(wǎng)絡(luò)很好地優(yōu)化了這一問(wèn)題,對(duì)于飛機(jī)、輪船全部檢測(cè)出來(lái),由于儲(chǔ)油罐存在特別小的個(gè)體,也存在漏檢現(xiàn)象,但遠(yuǎn)好于原網(wǎng)絡(luò)。對(duì)于棒球場(chǎng)目標(biāo),兩者都全部檢測(cè)出來(lái)。在分割表現(xiàn)方面,原網(wǎng)絡(luò)由于漏檢問(wèn)題的存在,造成部分目標(biāo)無(wú)法進(jìn)行分割。在分割好的目標(biāo)間通過(guò)對(duì)比可以發(fā)現(xiàn),改進(jìn)后的網(wǎng)絡(luò),對(duì)于目標(biāo)邊界分割的細(xì)致性優(yōu)于原網(wǎng)絡(luò),更好地將目標(biāo)區(qū)域分割出來(lái),例如飛機(jī)機(jī)翼與機(jī)尾、棒球場(chǎng)扇形邊界等。

表3 分割檢測(cè)的平均精度 %

在運(yùn)行時(shí)間對(duì)比方面,Mask R-CNN每張圖像平均運(yùn)行時(shí)間為0.327 s,本文方法為0.392 s。對(duì)比精度的提升效果,時(shí)間僅增加了0.065 s,在實(shí)際應(yīng)用過(guò)程中,對(duì)時(shí)效性影響有限。能在額外計(jì)算成本可以忽略不計(jì)的情況下,提高識(shí)別和分割的準(zhǔn)確率與精度。

4 結(jié)束語(yǔ)

本文提出了一種在高分辨率遙感圖像實(shí)現(xiàn)多目標(biāo)檢測(cè)與分割的算法Lmask R-CNN,首先提出兩種分層跳連融合方式,使獲得的圖像特征更細(xì)致豐富;然后提出自適應(yīng)面積的感興趣區(qū)域提取,使各種尺寸差異過(guò)大的目標(biāo)能夠同時(shí)被檢測(cè),一定程度上減少了目標(biāo)漏檢情況的出現(xiàn);最后提出局部融合全連接的目標(biāo)分割網(wǎng)絡(luò),通過(guò)利用全連接網(wǎng)絡(luò)輔助卷積分割網(wǎng)絡(luò)形式,實(shí)現(xiàn)目標(biāo)物體的更精確分割。實(shí)驗(yàn)結(jié)果表明,該算法在目標(biāo)檢測(cè)方面,對(duì)比其他算法擁有更高的精度,在目標(biāo)分割方面也優(yōu)于原算法,具有很好的應(yīng)用前景。

猜你喜歡
卷積聚類維度
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
淺論詩(shī)中“史”識(shí)的四個(gè)維度
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于DBSACN聚類算法的XML文檔聚類
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個(gè)維度”解有機(jī)化學(xué)推斷題
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
磴口县| 西峡县| 封丘县| 横山县| 共和县| 芒康县| 洛南县| 扶沟县| 江永县| 贵德县| 绍兴市| 昌都县| 泽州县| 阳谷县| 巴楚县| 涿州市| 阿拉善盟| 当雄县| 刚察县| 吕梁市| 大邑县| 南溪县| 通许县| 滁州市| 达日县| 工布江达县| 崇礼县| 芦溪县| 浦江县| 白沙| 罗山县| 桦甸市| 安龙县| 涿州市| 平潭县| 博白县| 宽城| 遂溪县| 新宾| 杭锦后旗| 阜宁县|