侯作勛 魯泓言 武偉超 周家樂 屈曉磊,*
基于深度監(jiān)督的TransUNet可見光衛(wèi)星圖像分割
侯作勛1魯泓言2武偉超3周家樂2屈曉磊2,*
(1 北京空間機(jī)電研究所,北京 100094)(2 北京航空航天大學(xué)儀器科學(xué)與光電工程學(xué)院,北京 100191)(3 北京理工大學(xué)光電學(xué)院,北京 100081)
衛(wèi)星部件 圖像分割 深度學(xué)習(xí) 遙感應(yīng)用
衛(wèi)星技術(shù)的持續(xù)發(fā)展,為人類日常生活和探索未知世界帶來了諸多便利,但是近年來,隨著衛(wèi)星數(shù)量的不斷增加,尤其是商業(yè)航天領(lǐng)域的蓬勃發(fā)展[1],出現(xiàn)了很多新的問題。其中最突出的問題是軌道變得越來越擁擠,也越來越不安全。例如馬斯克的星鏈計(jì)劃包括42 000顆衛(wèi)星,其衛(wèi)星失效率很高,壽命初期已達(dá)到3%。這些衛(wèi)星未來都將成為太空垃圾,將嚴(yán)重威脅人類進(jìn)一步發(fā)射衛(wèi)星的安全性。因此,亟需發(fā)展空間目標(biāo)探測與識別技術(shù)解決這一問題。而在空間目標(biāo)探測與識別技術(shù)中,通過空間視覺相機(jī)精確定位衛(wèi)星的重要部件是對故障衛(wèi)星和太空垃圾進(jìn)行準(zhǔn)確抓捕和維修的前提條件[2]。衛(wèi)星的部件主要包括衛(wèi)星星體、太陽翼、衛(wèi)星天線、星箭對接環(huán)、發(fā)動機(jī)和有效載荷等,而天線、星箭對接環(huán)、發(fā)動機(jī)、有效載荷均位于衛(wèi)星星體上,因此,星體和太陽翼的識別、定位對于衛(wèi)星抓捕具有重要意義。
空間目標(biāo)識別,尤其是星上載荷構(gòu)成識別是開展在軌服務(wù)與維護(hù)的基礎(chǔ),核心是對目標(biāo)圖像進(jìn)行分割,實(shí)現(xiàn)不同區(qū)域?qū)?yīng)不同的物體載荷。2001年,英國的Cropp等人通過單目可見光相機(jī)來估計(jì)已知目標(biāo)衛(wèi)星的相對位置和方向[3]。2002年,日本的Terui等人基于Cropp的研究,提出了使用單目可見光相機(jī)來識別空間碎片和失效衛(wèi)星等在軌大型物體的相對位置和姿態(tài)的方法[4]。由于單目視覺方式獲取信息量少,導(dǎo)致載荷構(gòu)成識別非常困難[5]。為了提升目標(biāo)識別正確率,目前的研究方向是不斷提升可以測量的信息量,手段包括雙目視覺、飛行時間技術(shù)、結(jié)構(gòu)光等[6-10]。2006年,日本的Terui等人借助雙目可見光相機(jī)獲取目標(biāo)的圖像信息,設(shè)計(jì)了立體視覺和3D模型匹配相結(jié)合的算法,提高了空間目標(biāo)衛(wèi)星識別的精度[6];2015年,德國的Tzschichholz提出了一種使用3D飛行時間相機(jī)與高分辨率灰度相機(jī)相結(jié)合的測距信息進(jìn)行空間目標(biāo)衛(wèi)星的姿態(tài)和位置的估計(jì),提高了姿態(tài)估計(jì)的速度[7];2017年,德國的 Klionovska提出了使用光子混合器設(shè)備傳感器對空間目標(biāo)衛(wèi)星部件進(jìn)行初始姿態(tài)和位置的估計(jì)識別算法,進(jìn)一步降低了評估的誤差。國內(nèi)也有不少研究集中在空間目標(biāo)衛(wèi)星檢測、識別和位姿估計(jì)上[8]。2012年,哈爾濱工業(yè)大學(xué)徐文福等人利用雙目可見光相機(jī),實(shí)現(xiàn)目標(biāo)衛(wèi)星的快速識別和位姿估計(jì)[9];2016年,清華大學(xué)的梁斌設(shè)計(jì)了單目相機(jī)與結(jié)構(gòu)光系統(tǒng),通過圓形與矩形投影時的幾何約束關(guān)系測量空間非合作目標(biāo)的位姿[10]。但是衛(wèi)星對載荷的質(zhì)量非常敏感,期望負(fù)載輕小,以上方法增加了系統(tǒng)的復(fù)雜度,在實(shí)際應(yīng)用中代價很大。只采用單目相機(jī)就可以實(shí)現(xiàn)有效分割,這是目前最經(jīng)濟(jì)的方式。此外,傳統(tǒng)的衛(wèi)星檢測、識別和分割方法,往往需要手動設(shè)計(jì)特征,對于不同衛(wèi)星檢測、識別和分割的魯棒性較差。近年來,深度學(xué)習(xí)算法的蓬勃發(fā)展為單目相機(jī)的有效分割提供了可能,核心是基于學(xué)習(xí)充分發(fā)掘圖像內(nèi)部的固有特征,實(shí)現(xiàn)魯棒的分割。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其已被廣泛應(yīng)用于自然圖像、醫(yī)學(xué)圖像等的檢測、識別和分割上。LeNet[11]網(wǎng)絡(luò)結(jié)構(gòu)的誕生,標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)。但由于當(dāng)時條件限制,深度學(xué)習(xí)一直沒得到進(jìn)一步發(fā)展。直到AlexNet[12]出現(xiàn),深度學(xué)習(xí)才在圖像處理領(lǐng)域引起了廣泛的研究。深度神經(jīng)網(wǎng)絡(luò)是非線性的,具有很強(qiáng)的特征表示能力,在圖像分類等領(lǐng)域有較好的性能,但是其在像素級的語義分割任務(wù)上的效果一直較差。2014年,全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[13]的提出,使得像素級的圖像分割效果明顯提升,是圖像語義分割里程碑式的進(jìn)展。2015年,Ronneberger等人提出的U-Net模型在醫(yī)學(xué)圖像分割領(lǐng)域的應(yīng)用,取得了較好的效果[14]。深度神經(jīng)網(wǎng)絡(luò)的高級特征往往具有豐富的語義特征,但是在空間目標(biāo)定位任務(wù)中表現(xiàn)較差。U-Net 的網(wǎng)絡(luò)結(jié)構(gòu)在同分辨率的特征圖上實(shí)現(xiàn)跨層連接,多尺度上實(shí)現(xiàn)編碼和解碼的同分辨率特征的融合。此后,多種模塊被融入U(xiǎn)-Net用以改進(jìn)網(wǎng)絡(luò),提升分割性能。與卷積神經(jīng)網(wǎng)絡(luò)相比,基于自注意力機(jī)制的模型結(jié)構(gòu)Transformer具有較強(qiáng)的學(xué)習(xí)能力,可以建模圖片所有位置之間的依賴關(guān)系,能夠提升神經(jīng)網(wǎng)絡(luò)的分割性能。Jieneng Chen等人將基于自注意力機(jī)制的模型視覺Transformer(ViT)融入U(xiǎn)-Net提出了TransUNet,在語義分割任務(wù)上取得了較好的結(jié)果[15-16]。2017年,Zhengxin Zhang等人將殘差網(wǎng)絡(luò)(ResNet)[17]的殘差連接結(jié)構(gòu)加入了U-Net進(jìn)行道路提取任務(wù),提出了殘差學(xué)習(xí)“U”型卷積神經(jīng)網(wǎng)絡(luò)Residual U-Net(ResU-Net)[18]。殘差結(jié)構(gòu)能夠優(yōu)化U-Net深層網(wǎng)絡(luò)的訓(xùn)練,提高了模型的特征學(xué)習(xí)能力,優(yōu)化了模型性能。Attention U-Net在U-Net基礎(chǔ)上,引入了注意力機(jī)制,將注意力模塊(Attention)引入了U-Net的解碼器模塊中,通過學(xué)習(xí)圖像中不同區(qū)域的重要程度,訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)抑制圖像無關(guān)區(qū)域,提高重要區(qū)域的權(quán)重,更關(guān)注目標(biāo)區(qū)域,網(wǎng)絡(luò)性能提升[19]。除了對U-Net的改進(jìn)之外,其他網(wǎng)絡(luò)如全分辨率殘差網(wǎng)絡(luò)(Full Resolution Residual Network,F(xiàn)RRN)和Dual Attention Network(DANet)等也在圖像分割任務(wù)上取得了較好的效果。FRRN在網(wǎng)絡(luò)結(jié)構(gòu)中設(shè)計(jì)了一條攜帶邊界信息的全分辨率流和一條攜帶語義信息傳遞的殘差流,在每層網(wǎng)絡(luò)中全分辨率流特征輸入殘差流網(wǎng)絡(luò)進(jìn)行特征融合,融合后的特征輸出更新全分辨率流,實(shí)現(xiàn)了高精度分割[20]。DANet在傳統(tǒng)FCN上設(shè)計(jì)了位置自注意力模塊和通道自注意力模塊,分別模擬空間維度上不同位置之間的語義依賴性和不同通道間的語義依賴性。模型融合了兩種自注意力模塊的輸出特征,分割精度得到提升[21]。
針對空間目標(biāo)圖像分割這一難題,本文采用基于深度監(jiān)督的TransUNet(Deep Supervised TransUNet,DSTransUNet)網(wǎng)絡(luò),其創(chuàng)新性在于在Jieneng Chen等人提出的TransUNet網(wǎng)絡(luò)的基礎(chǔ)上,通過引入深度監(jiān)督機(jī)制,實(shí)現(xiàn)從不同的深度學(xué)習(xí)衛(wèi)星圖像各部件內(nèi)部的語義特征,增強(qiáng)中間特征圖的品質(zhì),同時緩解隨著網(wǎng)絡(luò)規(guī)模增加帶來的梯度消失等問題,顯著提高了對衛(wèi)星目標(biāo)、星體和太陽翼的分割精度。同時在衛(wèi)星部件圖像和對應(yīng)標(biāo)簽不好獲取的情況下,利用仿真方法制作得到數(shù)據(jù)集。
U-Net具有卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn),即距離較近的像素間相關(guān)性強(qiáng),對局部信息的學(xué)習(xí)性能較好,但是距離較遠(yuǎn)相關(guān)性比較弱。與卷積神經(jīng)網(wǎng)絡(luò)相比,基于自注意力機(jī)制的模型(如Transformer)在計(jì)算兩位置之間的關(guān)聯(lián)所需的操作次數(shù)不隨距離增長,可以較好建模長距離位置之間的依賴關(guān)系。TransUNet將Transformer引入U(xiǎn)-Net,在編碼器部分加入Transformer對圖像的全局信息進(jìn)行建模,大幅提高了分割精度。
不同于標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)僅靠輸出層逐步反向傳播來降低模型預(yù)測和標(biāo)簽的損失,深度監(jiān)督機(jī)制在不同深度隱藏層中添加額外的目標(biāo)函數(shù)來對其特征圖品質(zhì)進(jìn)行監(jiān)督。Chen-Yu Lee等人在深度神經(jīng)網(wǎng)絡(luò)的隱藏層中加入了監(jiān)督信息來判斷隱藏層特征圖的好壞,提出了Deeply-Supervised Nets(DSN)結(jié)構(gòu),在圖像分類任務(wù)上取得了較好的結(jié)果[22]。通過隱藏層額外的深度反饋影響權(quán)重更新過程,提高隱藏層的特征圖品質(zhì),進(jìn)一步提高最終的分類結(jié)果。而對于圖像分割任務(wù)來說,較深的隱藏層可以對分割品質(zhì)好壞起到較大的影響,只在原分辨率的輸出上添加監(jiān)督信息可能會忽略隱藏層圖像品質(zhì)的好壞。對于我們的衛(wèi)星部件分割來說,不同衛(wèi)星圖像的星體、太陽翼的大小不是固定的,如果在較淺的隱藏層添加額外的深度反饋,將網(wǎng)絡(luò)權(quán)重約束到目標(biāo)區(qū)域,可以進(jìn)一步優(yōu)化深層輸出特征圖品質(zhì),進(jìn)而優(yōu)化最終分割結(jié)果。另一方面,僅靠輸出層在圖像原分辨率下進(jìn)行監(jiān)督會使網(wǎng)絡(luò)側(cè)重細(xì)節(jié)紋理信息的學(xué)習(xí),而對較深隱藏層進(jìn)行監(jiān)督可以使網(wǎng)絡(luò)直接學(xué)習(xí)衛(wèi)星部件的語義特征,這種學(xué)習(xí)方式可以提高對衛(wèi)星部件識別的魯棒性,使得神經(jīng)網(wǎng)絡(luò)在面對不同紋理的衛(wèi)星時也能有較好的分割效果。為了監(jiān)督不同深度模型的輸出,可以在不同深度的層添加深度監(jiān)督機(jī)制,這些輔助的監(jiān)督信息有助于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,提高圖像分割網(wǎng)絡(luò)的性能。
DSTransUNet總體模型結(jié)構(gòu)如圖1所示,輸入圖像在編碼器部分進(jìn)行4次下采樣,每次下采樣特征張量分辨率變?yōu)樵瓉淼囊话耄ǖ罃?shù)逐漸增加,第4次下采樣輸入Transformer模塊對全局信息進(jìn)行建模。在解碼器部分對特征張量進(jìn)行上采樣,每次上采樣分辨率變?yōu)樵瓉淼?倍,特征通道數(shù)逐漸減少,且與編碼器部分同分辨率的特征張量對應(yīng)的通道數(shù)相同,和編碼器的同分辨率張量進(jìn)行跨層連接。每一個深度的特征張量上采樣到原分辨率后進(jìn)行深度監(jiān)督,模型共5個損失函數(shù)均為交叉熵?fù)p失函數(shù)。本文中我們與已有分割模型進(jìn)行了大量的對比實(shí)驗(yàn),最終得到相比于對比方法最優(yōu)的分割精度,驗(yàn)證了模型改進(jìn)的有效性。
圖1 DSTransUNet網(wǎng)絡(luò)結(jié)構(gòu)圖
本文構(gòu)建了仿真數(shù)據(jù)集來進(jìn)行訓(xùn)練和驗(yàn)證。為了仿真空間衛(wèi)星目標(biāo)的可見光圖像,我們構(gòu)建9個三維衛(wèi)星模型,并對其進(jìn)行紋理貼圖和渲染。在仿真光照環(huán)境上,同時設(shè)置了太陽光源和環(huán)境光源,其中太陽光使用平行光進(jìn)行模擬,由于其他星體造成的環(huán)境光則使用強(qiáng)度較弱的環(huán)境光源來模擬。通過隨機(jī)選取追蹤相機(jī)的角度和距離,仿真渲染不同角度和距離的可見光衛(wèi)星圖像。最終,在每個三維模型下,以不同的角度、距離仿真渲染200幅圖像,圖像尺寸為224像素×224像素,整個數(shù)據(jù)集包含衛(wèi)星仿真圖像共1 800張,同時每張圖片有對應(yīng)的標(biāo)簽,將可見光衛(wèi)星圖像分割為宇宙背景、星體和太陽翼。在訓(xùn)練和驗(yàn)證過程中,我們將每個衛(wèi)星模型的200張圖像作為一份,全部數(shù)據(jù)集分為9等份,然后進(jìn)行9折交叉驗(yàn)證。9折交叉驗(yàn)證就是將數(shù)據(jù)集平均分成九等份,每次選用其中的一份作為驗(yàn)證集,其余的八份作為訓(xùn)練集進(jìn)行訓(xùn)練和測試,一共進(jìn)行九次。最后得到模型平均的評估結(jié)果作為最終的分割結(jié)果。圖2給出了部分衛(wèi)星仿真圖像以及其對應(yīng)的標(biāo)簽,上半部分是經(jīng)過渲染仿真后得到的衛(wèi)星圖像,下半部分是每個衛(wèi)星圖像對應(yīng)的標(biāo)簽。
圖2 衛(wèi)星仿真圖像及標(biāo)簽
我們的訓(xùn)練和測試環(huán)境為Ubuntu 16.04操作系統(tǒng),基于Pytorch 深度學(xué)習(xí)框架[23],使用4塊GeForce RTX 2080Ti顯卡,實(shí)驗(yàn)中所有模型訓(xùn)練批次設(shè)置為4,以此獲得較優(yōu)的訓(xùn)練速度和收斂精度,選擇 Adam 優(yōu)化器訓(xùn)練,學(xué)習(xí)率設(shè)置為2×10–5,損失函數(shù)選取加入類別權(quán)重的交叉熵,公式如下
本文使用衛(wèi)星分割的準(zhǔn)確率和雅卡爾指數(shù)定量地評價和對比分割方法。本文中的衛(wèi)星分類問題,可以看作對每個像素進(jìn)行多類別的分類,所以可以通過真陽性(TP)、假陽性(FP)、假陰性(FN)、真陰性(TN)的像素集合來計(jì)算各個類別對應(yīng)的準(zhǔn)確率和雅卡爾指數(shù)。其中準(zhǔn)確率ACC的定義如下
式中表示對應(yīng)部件的標(biāo)簽區(qū)域像素;表示對應(yīng)部件區(qū)域的預(yù)測結(jié)果;與相交的區(qū)域表示預(yù)測結(jié)果中為正確區(qū)域的像素,即TP。各衛(wèi)星部件雅卡爾指數(shù)JSC可以通過下式計(jì)算
雅卡爾指數(shù)也稱交并比(Intersection of Union,IOU),被定義為真實(shí)區(qū)域和預(yù)測區(qū)域交集和并集像素?cái)?shù)的比值。
圖3給出了3個分割的示例和不同分割方法分割結(jié)果的對比。在所有對比模型中,ResU-Net對于星體的分割存在明顯的錯誤分割,對第一行圖像中太陽翼的過分割比較明顯,將星體附近的背景區(qū)域也預(yù)測為了太陽翼;對第二行圖像中太陽翼的分割較為模糊;而第三行圖像中星體和太陽翼的分割不規(guī)則,且交融在一起,分割效果較差。FCN和DANet網(wǎng)絡(luò)模型在視覺上分割效果較為相似,存在將背景區(qū)域預(yù)測為衛(wèi)星星體和太陽翼的問題,存在明顯的分割錯誤。U-Net對第一行和第二行圖像的預(yù)測結(jié)果尚可,但在第三行圖像中將衛(wèi)星星體識別為太陽翼區(qū)域,產(chǎn)生了非常明顯的分割錯誤。Attention U-Net網(wǎng)絡(luò)模型分割結(jié)果較前面幾種網(wǎng)絡(luò)模型更好,但分割結(jié)果與標(biāo)簽相比仍有較大差距。FRRN網(wǎng)絡(luò)模型在所有卷積模型中視覺效果較好,但分割邊緣比較粗糙,丟失了大量細(xì)節(jié)。TransUNet對于細(xì)節(jié)的處理明顯好于所有卷積神經(jīng)網(wǎng)絡(luò),但邊緣細(xì)節(jié)的錯誤分割仍多于DSTransUNet。本文提出的DSTransUNet在三個分割示例中均展現(xiàn)出了較好的分割精度,給出了最接近標(biāo)簽的分割結(jié)果。
圖3 各網(wǎng)絡(luò)模型分割結(jié)果可視化對比
圖4給出了DSTransUNet解碼過程中不同深度上特征圖。特征圖的亮度越高代表對應(yīng)區(qū)域權(quán)重越高。第一行是不同深度網(wǎng)絡(luò)中對宇宙背景進(jìn)行分割的特征權(quán)重;第二行是對星體進(jìn)行分割的特征權(quán)重;而第三行是對太陽翼進(jìn)行分割的特征權(quán)重。可以看出隨著解碼層數(shù)從左側(cè)的低分辨率上升到右側(cè)的高分辨率過程中,特征權(quán)重越來越集中在待分割區(qū)域上。
圖4 DSTransUNet深監(jiān)督特征圖
表1 不同神經(jīng)網(wǎng)路模型在數(shù)據(jù)集上的各指標(biāo)結(jié)果對比
Tab.1 Comparison of the results of different neural network models on the dataset 單位:%
本文將深度監(jiān)督引入TransUNet,提出了DSTransUNet用于可見光空間衛(wèi)星目標(biāo)的圖像分割,可以高精度地將可見光衛(wèi)星圖像分割為宇宙背景、衛(wèi)星星體和太陽翼,為空間抓取提供重要信息。同時本文構(gòu)建仿真圖像數(shù)據(jù)集,對DSTransUNet進(jìn)行了定量評價,并與現(xiàn)有方法進(jìn)行對比,結(jié)果顯示DSTransUNet的分割精度高于現(xiàn)有方法,能夠有效地對空間可見光衛(wèi)星圖像進(jìn)行分割。
[1] 羅格, 衛(wèi)征. 航天遙感與中國空間信息產(chǎn)業(yè)發(fā)展[J]. 航天返回與遙感, 2018, 39(4): 10-17.
LUO Ge, WEI Zheng. China Aerospace Remote Sensing and Spacial Information Industry Development[J]. Spacecraft Recovery & Remote Sensing, 2018, 39(4): 10-17. (in Chinese)
[2] 陳磊, 高升, 袁寶峰, 等. 基于多相機(jī)的空間機(jī)械臂視覺系統(tǒng)[J]. 航天返回與遙感, 2014, 35(3): 35-42.
CHEN Lei, GAO Sheng, YUAN Baofeng, et al. Multi-camera Based Space Manipulator Vision System[J]. Spacecraft Recovery & Remote Sensing, 2014, 35(3): 35-42. (in Chinese)
[3] CROPP A, PALMER P. Pose Estimation and Relative Orbit Determination of a Nearby Target Microsatellite Using Passive Imagery[C]//Dynamics and Control of Systems and Structures in Space 2002, July 14-18, 2002, Cambridge. Bedfordshire: Cranfield University Press, 2002: 389-395.
[4] TERUI F, KAMIMURA H, NISHIDA S. Motion Estimation of Large Space Debris Objects Using Imaging[J]. The Proceedings of the JSME Annual Meeting, 2002, 1: 289-290.
[5] 韓璐瑤, 譚嬋, 劉云猛, 等. 在軌實(shí)時空間目標(biāo)檢測算法研究[J]. 航天返回與遙感, 2021, 42(6): 122-131.
HAN Luyao, TAN Chan, LIU Yunmeng, et al. Research on the On-orbit Real-time Space Target Detection Algorithm[J]. Spacecraft Recovery & Remote Sensing, 2021, 42(6): 122-131. (in Chinese)
[6] TERUI F, KAMIMURA H, NISHIDA S I, et al. Motion Estimation to a Failed Satellite on Orbit using Stereo Vision and 3D Model Matching[C]//9th International Conference on Control, Automation, Robotics and Vision, December 5-8, 2006, Singapore. IEEE, 2007.
[7] TZSCHICHHOLZ T, BOGE T, SCHILLING K, et al. Relative Pose Estimation of Satellites Using PMD-/CCD-Sensor Data Fusion[J]. Acta Astronautica, 2015, 109: 25-33.
[8] KLIONOVSKA K, BENNINGHOFF H. Initial Pose Estimation Using PMD Sensor during the Rendezvous Phase in On-orbit Servicing Missions[C]//27th AAS/AIAA Space Flight Mechanics Meeting, February 5-9, 2017, San Antonio Texas, USA. Univelt Inc, 2017: 919-934.
[9] XU W F, XUE Q, LIU H D, et al. A Pose Measurement Method of a Non-cooperative GEO Spacecraft Based on Stereo Vision[C]//12th International Conference on Control, Automation, Robotics and Vision, December 5-7, 2012, Guangzhou, China. IEEE, 2013: 966-971.
[10] GAO X H, LIANG B, PAN L, et al. A Monocular Structured Light Vision Method for Pose Determination of Large Non-cooperative Satellites[J]. International Journal of Control Automation and Systems, 2016, 14(6): 1535-1549.
[11] LECUN Y, BOTTOU L. Gradient-based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[12] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 60(2): 1097-1105.
[13] LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[14] RONNEBERGER O, FISCHER P, BROX T, et al. U-Net: Convolutional Networks for Biomedical Image Segmentation[J]. IEEE Access, 2021(9): 16591-16603.
[15] CHEN J, LU Y, YU Q, et al. Transunet: Transformers Make Strong Encoders for Medical Image Segmentation[EB/OL]. [2022-01-05]. https://arxiv.org/abs/2102.04306, 2021.
[16] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[EB/OL]. [2022-01-05]. https://arxiv.org/abs/2010.11929, 2020.
[17] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition: CVPR 2016, June 27-30, 2016, Las Vegas, USA. Piscataway: IEEE, 2016: 770-778.
[18] ZHANG Z, LIU Q, WANG Y H. Road Extraction By Deep Residual U-Net[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749-753.
[19] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: Learning Where to Look for the Pancreas[EB/OL]. [2022-01-05]. https://arxiv.org/abs/1804.03999, 2018.
[20] POHLEN T, HERMANS A, MATHIAS M, et al. Full-resolution Residual Networks for Semantic Segmentation in Street Scenes[EB/OL]. [2022-01-05]. https://arxiv.org/abs/1611.08323v1.
[21] FU J, LIU J, TIAN H J, et al. Dual Attention Network for Scene Segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 15-20, 2019, Long Beach, CA, USA. IEEE, 2019: 3141-3149.
[22] LEE C Y, XIE S, GALLAGHER P, et al. Deeply-supervised Nets[EB/OL]. [2022-01-05]. https://arxiv.org/abs/1409.5185v2.
[23] PASZKE A, GROSS S, MASSA F, et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library[EB/OL]. [2022-01-05]. https://arxiv.org/abs/1912.01703v1.
A Deep Supervised TransUNet for the Segmentation of Visible Satellite Image
HOU Zuoxun1LU Hongyan2WU Weichao3ZHOU Jiale2QU Xiaolei2,*
(1 Beijing Institute of Mechanics & Electricity, Beijing 100094, China)(2 School of Instrumentation and Optoelectronics Engineering, Beihang University, Beijing 100191, China)(3 School of Optics and Photonics, Beijing Institute of Technology, Beijing 100081, China)
satellite component; image segmentation; deep learning; remote sensing application
TP753
A
1009-8518(2022)05-0142-08
10.3969/j.issn.1009-8518.2022.05.014
2022-04-02
侯作勛, 魯泓言, 武偉超, 等. 基于深度監(jiān)督的TransUNet可見光衛(wèi)星圖像分割[J]. 航天返回與遙感, 2022, 43(5): 142-149.
HOU Zuoxun, LU Hongyan, WU Weichao, et al. A Deep Supervised TransUNet for the Segmentation of Visible Satellite Image[J]. Spacecraft Recovery & Remote Sensing, 2022, 43(5): 142-149. (in Chinese)
侯作勛,男,1986年生,2008年獲西安交通大學(xué)電子科學(xué)與技術(shù)專業(yè)學(xué)士學(xué)位,2015年獲西安交通大學(xué)控制科學(xué)與技術(shù)專業(yè)博士學(xué)位,高級工程師。主要研究方向?yàn)檫b感器設(shè)計(jì)、智能圖像處理。E-mail:hzx_007xjtu@163.com。
屈曉磊,男,1984年生,2007年獲西安交通大學(xué)軟件工程專業(yè)學(xué)士學(xué)位,2009年獲華中科技大學(xué)模式識別專業(yè)碩士學(xué)位,2012年獲日本東京大學(xué)生物工程專業(yè)博士學(xué)位,副教授。主要研究方向?yàn)獒t(yī)學(xué)超聲成像、圖像處理與識別。E-mail:quxiaolei@buaa.edu.cn。
(編輯:龐冰)