汪 云
(汕頭職業(yè)技術(shù)學(xué)院計算機系,廣東 汕頭 515000)
衛(wèi)星圖像中提取道路提取是許多應(yīng)用的必要步驟,如車輛導(dǎo)航[1]、城市規(guī)劃[2]、智能交通[1]、圖像注冊[3]、地理信息系統(tǒng)更新[4]、土地利用檢測[5]等。由于高分辨率圖像中道路周圍的環(huán)境比較復(fù)雜,各類側(cè)重點算法不斷涌現(xiàn)。這些方法大多可以分為三類:生成道路像素級標(biāo)記[6,7]、檢測道路骨架[8,9]以及兩者的結(jié)合[10,11]。
從遙感圖像中提取道路可以分為兩個層次:道路區(qū)域分割和道路網(wǎng)絡(luò)提取。道路區(qū)域分割是將圖像中的每個像素分為道路和非道路,而道路網(wǎng)絡(luò)提取是獲取道路中心線及其連通性。在本文中,我們將道路提取任務(wù)作為二進制語義分割任務(wù)來處理,以生成道路的像素級標(biāo)記,重點解決道路區(qū)域分割層次。近年來,深度學(xué)習(xí)技術(shù)在計算機視覺方面取得了很大進展,其中許多已經(jīng)被引入到遙感圖像的道路區(qū)域分割中。宋青松等[12]將全卷積網(wǎng)絡(luò)引入道路區(qū)域分割,實現(xiàn)了密集的端到端推理。但是FCN簡單的線性插值上采樣使得模型性能很差。從FCN演化而來的Unet具有對稱的編解碼結(jié)構(gòu),解碼器采用參數(shù)可學(xué)習(xí)的反卷積,使得語義分割更加準(zhǔn)確。褚晶輝等人[13]提出了一種改進的用于道路區(qū)域分割的Unet網(wǎng)絡(luò),該網(wǎng)絡(luò)使用ResNet作為其編碼器來實現(xiàn)更高的性能。雖然Unet分割算法在道路遙感圖像上進行了多次下采樣使得圖像特征大量減少,以及該網(wǎng)絡(luò)沒有考慮到圖像感受野從而對于小目標(biāo)提取存在缺陷。
D-LinkNet使用帶有預(yù)訓(xùn)練編碼器的Linknet 作為其主干,并在中心部分具有額外的擴張卷積層。Linknet是一個高效的語義分割神經(jīng)網(wǎng)絡(luò),它利用了跳過連接、剩余塊和編碼器-解碼器架構(gòu)的優(yōu)勢。最初的Linknet使用ResNet18作為編碼器,這是一個相當(dāng)輕但性能優(yōu)越的網(wǎng)絡(luò)。D-LinkNet網(wǎng)絡(luò)雖然使用空洞卷積通過間隔采樣的方式來控制感受野,但是與Unet同樣存在下采樣嚴(yán)重的問題,在上采樣過程中沒有很多對特征進行融合來恢復(fù),而是簡單的特征拼接,對于多尺度特征融合不全面。
本文從兩個方面進行了研究:一是Unet分割算法在道路遙感圖像上進行了多次下采樣使得圖像特征大量減少,以及該網(wǎng)絡(luò)沒有考慮到圖像感受野從而對于小目標(biāo)提取存在缺陷;二是D-LinkNet網(wǎng)絡(luò)雖然使用空洞卷積通過間隔采樣的方式來控制感受野,但是與Unet同樣存在下采樣嚴(yán)重的問題,在上采樣過程中沒有很多對特征進行融合來恢復(fù),而是簡單的特征拼接,對于多尺度特征融合不全面等問題,提出基于一種改進離散余弦間隔損失函數(shù)的遙感道路分割方法。
目前,預(yù)訓(xùn)練網(wǎng)絡(luò)該數(shù)據(jù)集圖像為512*512,因此,首先對圖像進行裁剪加大圖像的感受野,對于網(wǎng)絡(luò)訓(xùn)練講究正負(fù)樣本均衡,圖像分割也是一種圖像分類,只是像素分類,因此當(dāng)截圖圖像中前景目標(biāo)過少的圖像去除,盡量保證圖像中大部分為前景目標(biāo),最后本實驗采用殘差網(wǎng)絡(luò)為主干網(wǎng)絡(luò),D-LinkNet為分割架構(gòu),對于特征提取層,對初始化權(quán)重按照高斯方法初始化而非全0,以提高精度和泛化性。流程如下:
①圖像裁剪為256*256;
②圖像清洗,根據(jù)面積大小選擇閾值150篩選訓(xùn)練圖像;
③選擇主干網(wǎng)絡(luò);
④特征提取層權(quán)重初始化;
⑤超參數(shù)調(diào)試;
⑥訓(xùn)練;
⑦測試和驗證,得到roc和miou曲線。
最廣泛使用的分類損失函數(shù)softmax損失如下所示:傳統(tǒng)的softmax損失廣泛用于圖像識別與分割中,由于softmax損失函數(shù)并未明確優(yōu)化嵌入的功能,可能使類內(nèi)樣本的相似性和類間樣本的多樣性提高,這會導(dǎo)致在類內(nèi)發(fā)生圖像感觀變化,例如特征或者方向發(fā)生變化。因此我們固定偏差bj=0,將對數(shù)轉(zhuǎn)換為WTxi=Wjxicosθj,其中,θj是權(quán)重Wj與重量W之間的夾角。通過歸一化固定單個權(quán)重Wj=1,修復(fù)嵌入特征xj,并將其重新縮放為s。預(yù)測僅取決于特征和權(quán)重之間的角度,并將嵌入特征分布在半徑為s 的超球面上。
圖1表示基于特征xi和權(quán)重W歸一化,將每個類別的cosθj(logit)作為WTxi。通過計算arccosθy并得到特征xi與基本真值權(quán)重之間的角度。由于Wj為每個級別提供了一種中心,在基本真實的目標(biāo)角度θyi上增加一個角余量罰分m。之后,我們計算cos(θyi+m),通過將所有對數(shù)乘以特征標(biāo)度s,對數(shù)通過softmax函數(shù)并導(dǎo)致交叉熵?fù)p失。
圖1 ArcAction損失的監(jiān)督下訓(xùn)練DCNN進行行為識別
權(quán)重使得預(yù)測僅取決于特征和權(quán)重之間的角度。因此,嵌入特征分布在半徑為s的超球面上:
由于嵌入特征分布在超球面上的每個特征中心周圍,并且在xi和Wyi之間添加了附加的角余量m,以同時增強類內(nèi)部的緊湊性和類間差異。由于擬議的附加角裕度罰分等于規(guī)范化超球面中的測地距離裕度罰分,因此將方法命名為ArcAction。
本文從包含足夠樣本(約14000張圖像)的2個不同類型中選擇圖像,以分別訓(xùn)練具有softmax 和ArcAct ion損失的2-D特征嵌入網(wǎng)絡(luò)。如圖1所示,softmax損失提供了大致可分離的特征嵌入,但在決策邊界上產(chǎn)生了明顯的歧義,而建議的ArcAction損失可以在最接近的類之間造成更大明顯差異,具有可行性。同時加法余量也相當(dāng)于正則的作用優(yōu)化了softmax的權(quán)重,使得不容易出現(xiàn)訓(xùn)練失效的情況也讓樣本非均衡時的訓(xùn)練變得不過于快速收斂而出現(xiàn)過擬合,故最終采用式(3)作為損失函數(shù),為快速分析該損失函數(shù)的性能,通過對其使用logit分析得到如下結(jié)果。
圖2繪制了softmax,CosAction,ArcAction和在其最佳邊距設(shè)置下的目標(biāo)logit曲線,曲線越窄表明參數(shù)對損失函數(shù)的影響強,因此可以通過修改參數(shù)來提升分類性能,而非如softmax,CosAction過寬,修改參數(shù)也無法提升性能。
為了驗證我們方法的有效性,本文采用裁剪后約14000張256*256*3大小的圖像進行訓(xùn)練完成道路分割任務(wù),對比方法是經(jīng)典網(wǎng)絡(luò)Unet和2018年冠軍方法D-LinkNet,對比指標(biāo)為mIou。實驗結(jié)果表明,該方法取得了較好的道路提取效果:DeepGlobe 道路提取數(shù)據(jù)集的最佳mIoU得分為0.6975,與其他最先進的基于深度學(xué)習(xí)的框架如Unet和D-LinkNet 相比,本文將結(jié)果提升0.1795和0.1472。
圖2 損失函數(shù)logit分析