王楨 楊培峰 張秋儀 楊晉蘇
文章編號(hào):2096-398X2024)03-0174-08
(1.福建理工大學(xué) 計(jì)算機(jī)科學(xué)與數(shù)學(xué)學(xué)院, 福建 福州 350118; 2.福建理工大學(xué) 建筑與城鄉(xiāng)規(guī)劃學(xué)院, 福建 福州 350118)
摘 要:針對(duì)城市綠化識(shí)別中存在的無(wú)可用公開數(shù)據(jù)集、人工標(biāo)注數(shù)據(jù)任務(wù)大、圖像邊界分割不精確的問(wèn)題,提出結(jié)合無(wú)人機(jī)影像和深度學(xué)習(xí)網(wǎng)絡(luò)的城市綠化自動(dòng)識(shí)別框架.首先建立基于無(wú)人機(jī)影像的城市綠化數(shù)據(jù)集,其次,運(yùn)用交互式自動(dòng)標(biāo)注工具EISeg對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,引入U(xiǎn)2Net用于無(wú)人機(jī)影像下的城市綠化識(shí)別,最后,在網(wǎng)絡(luò)的特征提取模塊引入最大池化索引來(lái)加強(qiáng)對(duì)目標(biāo)邊界的分割能力.結(jié)果表明,相較于其它深度學(xué)習(xí)網(wǎng)絡(luò),U2Net在小規(guī)模數(shù)據(jù)集中有著優(yōu)異的表現(xiàn)且改進(jìn)后的網(wǎng)絡(luò)在1 000張的訓(xùn)練集中達(dá)到了97.16%的分類精度,較原始的U2Net提高0.68%,模型參數(shù)量、計(jì)算量、內(nèi)存均未顯著提升.改進(jìn)后的方法提升了城市綠化的識(shí)別精度,可以為城市綠化識(shí)別提供一種新的自動(dòng)解譯方法.
關(guān)鍵詞:城市綠化識(shí)別; U2Net; 無(wú)人機(jī)影像; 深度學(xué)習(xí)
中圖分類號(hào):TP751??? 文獻(xiàn)標(biāo)志碼: A
Urban greening recognition method? based on improved U2Net and unmanned aerial vehicle images
WANG hen1, YANG Pei-feng2*, HANG Qiu-yi2, YANG Jin-su2
1.College of Computer Science and Mathematics, Fujian University of Technology, Fuzhou 350118, China; 2.College of Architecture and Planning, Fujian University of Technology, Fuzhou 350118, China)
Abstract:An automatic urban greening identification framework that combines UVA images and deep learning networks was proposed for the problems of no available public dataset,large manual labeling data task,and imprecise image boundary segmentation in urban greening identification.Firstly,an urban greening dataset based on UAV images was established.Then,the interactive automatic labeling tool EISeg was used to label the data,and introduction of U2Net for urban greening identification under UAV images.At last,the max pooling indices was introduced in the feature extraction module of the network to strengthen the segmentation ability of the target boundary.The experimental results show that U2Net has excellent performance in small-scale datasets and the improved U2Net network achieved overall accuracy of 97.16% in a small datasets of 1 000,which is 0.68% better than the original U2Net,and the number of model parameters,computation,and memory has not been significantly improved.The improved U2Net network combined with UAV images can better recognize the green coverage area in the city and provide a new automatic decoding method for urban green recognition.
Key words:urban greening identification; U2Net; UAV images; deep learning
0 引言
城市建成區(qū)的綠化覆蓋率高低反映了區(qū)域生態(tài)環(huán)境的好壞,是評(píng)估一個(gè)城市宜居性的重要因素[1],也是創(chuàng)建文明城市考核和評(píng)選國(guó)家園林城市的一個(gè)重要指標(biāo).早期我國(guó)針對(duì)城市綠化覆蓋率的計(jì)算采取了人工丈量統(tǒng)計(jì)的方法,該方法費(fèi)時(shí)費(fèi)力且統(tǒng)計(jì)結(jié)果不精確.住建部在2010年發(fā)布了《城市園林綠化標(biāo)準(zhǔn)》GB/T50563-2010),規(guī)范中要求用衛(wèi)星或航空遙感影像作為綠化覆蓋率的評(píng)價(jià)依據(jù)和評(píng)價(jià)標(biāo)準(zhǔn).在機(jī)器學(xué)習(xí)識(shí)別綠化的方法未興起之前,主要運(yùn)用GIS軟件和遙感影像,通過(guò)目視解譯來(lái)識(shí)別目標(biāo)區(qū)域的綠化并計(jì)算綠化覆蓋率[2].這種目視解譯方法需要受過(guò)培訓(xùn)的解譯人員在GIS軟件上進(jìn)行綠化識(shí)別和面積的繪制,雖然精度和可靠度高,但是當(dāng)需要識(shí)別的綠化面積很大時(shí),會(huì)產(chǎn)生難以計(jì)量的工作量,這無(wú)疑是一份冗長(zhǎng)、乏味且費(fèi)力的工作,因此亟需一種能夠自動(dòng)識(shí)別且準(zhǔn)確率高的綠化識(shí)別方法.
在自動(dòng)化提取綠化的需求下,一些諸如最大似然法、支持向量機(jī)等機(jī)器學(xué)習(xí)的方法被提出用于城市綠化的識(shí)別[3,4],但是受到“椒鹽噪聲”以及模型本身性能等因素的影響,通過(guò)機(jī)器學(xué)習(xí)方法取得的分類精度并不理想.此后基于遙感影像的面向?qū)ο蠓椒ǎ?,6]被提出用于城市綠化提取,雖然精度相較之前有所提高,但是需要人為調(diào)整參數(shù),這仍然不夠便捷.深度學(xué)習(xí)通過(guò)加深網(wǎng)絡(luò)層數(shù)來(lái)學(xué)習(xí)目標(biāo)物體更深層次的特征,近幾年被廣泛應(yīng)用于遙感圖像的識(shí)別和分類分割任務(wù)中[7,8].語(yǔ)義分割是用于遙感影像綠化識(shí)別的重要和熱門方向.諸如FCN[9]、U-Net[10]、Seg-Net[11]、PSPNet[12] 、Deep labv3+[13]等經(jīng)典語(yǔ)義分割方法如雨后春筍般崛起.
在這些網(wǎng)絡(luò)中提出了全卷積層、U型網(wǎng)絡(luò)編解碼架構(gòu)獲取上下文信息、多尺度特征融合、空洞卷積等來(lái)提高網(wǎng)絡(luò)在執(zhí)行圖像分割任務(wù)時(shí)的準(zhǔn)確率.Deep labv3+也是近期用于城市綠化識(shí)別、城市道路識(shí)別等現(xiàn)實(shí)應(yīng)用的主流網(wǎng)絡(luò) [14-17].但大多數(shù)基于深度學(xué)習(xí)的網(wǎng)絡(luò)為防止過(guò)擬合[18]以及挖掘不同場(chǎng)景和不同尺度情況下目標(biāo)的本質(zhì)特征,通常需要大量數(shù)據(jù)來(lái)訓(xùn)練模型,Liu等[14]將Gaofen-2遙感影像作為數(shù)據(jù)源,手工制作了19 687個(gè)訓(xùn)練樣本并結(jié)合deeplabv3+網(wǎng)絡(luò)設(shè)計(jì)了城市綠化識(shí)別框架,數(shù)以萬(wàn)計(jì)帶標(biāo)簽的數(shù)據(jù)保障了深度學(xué)習(xí)模型識(shí)別的準(zhǔn)確率,但同時(shí)對(duì)數(shù)據(jù)量以及標(biāo)注工作量提出了挑戰(zhàn).而遙感方面的高精度影像數(shù)據(jù)集,尤其是專門用于城市綠化識(shí)別方面的公開數(shù)據(jù)集目前十分稀少,雖然現(xiàn)在有諸如SIRI-WHU、Gaofen Image、Vaihingen等公開數(shù)據(jù)集,但這些公開數(shù)據(jù)集存在一些缺點(diǎn):數(shù)據(jù)少且涉及范圍廣,單個(gè)數(shù)據(jù)集中城市場(chǎng)景的數(shù)據(jù)不超過(guò)200張;空間分辨率低,1米以上的空間分辨率,只能勉強(qiáng)識(shí)別出一些較大體積的目標(biāo);不同數(shù)據(jù)集的空間分辨率也不相同,所處地區(qū)經(jīng)緯度差異大導(dǎo)致植被種類不同.不同的空間分辨率以及不同地區(qū)的植被特征使得模型學(xué)習(xí)特征困難,將多個(gè)數(shù)據(jù)集的數(shù)據(jù)整合到一起用于深度學(xué)習(xí)模型的訓(xùn)練可能反而會(huì)干擾模型對(duì)于特征的學(xué)習(xí).
歐洲空間局ESA)在2015年6月起免費(fèi)提供分辨率為10米/像素的哨兵2號(hào)MSI數(shù)據(jù),這為利用遙感數(shù)據(jù)進(jìn)行相關(guān)研究帶來(lái)契機(jī).雖然可以利用遙感數(shù)據(jù)對(duì)地表植被進(jìn)行研究,但是到目前為止,主要是針對(duì)森林[19]和草原[20]這些大面積綠色的區(qū)域取得一些顯著性的研究成果.這種10米分辨率級(jí)別的遙感數(shù)據(jù)對(duì)背景復(fù)雜的城市地區(qū)進(jìn)行綠化識(shí)別仍然存在巨大的難度.例如,一般道路兩側(cè)成年行道樹的冠幅平均寬度在4~6米之間,如果影像數(shù)據(jù)是10米一個(gè)像素點(diǎn),那么一個(gè)像素點(diǎn)甚至無(wú)法表示一顆成年的行道樹.而城市內(nèi)有不少諸如行道樹、街頭綠化、小區(qū)綠化等小片綠化面積的情況,如果用5~10米精度級(jí)別的影像來(lái)識(shí)別城市中的綠化,那么許多小面積的綠化將因?yàn)橄袼卦蚝茈y被檢測(cè)到,城市綠化統(tǒng)計(jì)結(jié)果的準(zhǔn)確率也將大打折扣,因此5米以上分辨率的遙感影像不太適合于精細(xì)化的城市綠化識(shí)別.
衛(wèi)星遙感影像的成像結(jié)果也會(huì)受到云霧、天氣等影響.相較于衛(wèi)星遙感影像,無(wú)人機(jī)影像有著靈活性高、云下飛行、分辨率高、時(shí)效性強(qiáng)、成本低等優(yōu)點(diǎn)[21].到目前為止,無(wú)人機(jī)影像的分辨率可以達(dá)到厘米級(jí)像素,在相同區(qū)域面積和相同圖像尺寸的前提下,使得其相較于衛(wèi)星遙感影像亞米級(jí)以上的像素,帶來(lái)了十倍乃至百倍更高精度的圖像數(shù)據(jù)量.
此外,無(wú)人機(jī)影像成像時(shí),若光線較弱或受到建筑物陰影遮擋,則綠植在圖像中會(huì)表現(xiàn)得偏暗,且與部分偏黑的地面展現(xiàn)出視覺(jué)上的相似性,綠植與地面區(qū)別小以及一些復(fù)雜的地物背景會(huì)在一定程度上干擾網(wǎng)絡(luò)精確分割出邊界,從而導(dǎo)致整體準(zhǔn)確率的降低.
為解決可用于城市綠化識(shí)別的公開數(shù)據(jù)集少的問(wèn)題,提出以無(wú)人機(jī)的高分辨率影像作為數(shù)據(jù)源,將馬路、住宅區(qū)、郊區(qū)、公園、城中村等城市中主要的綠化區(qū)域作為篩選對(duì)象,構(gòu)建了數(shù)量分別為1 000 張、2 000張、4 000張的自制無(wú)人機(jī)影像數(shù)據(jù)集.為解決數(shù)據(jù)標(biāo)注工作量大的問(wèn)題,運(yùn)用交互式自動(dòng)標(biāo)注工具EISeg進(jìn)行數(shù)據(jù)標(biāo)注并引入基于深度學(xué)習(xí)的像素級(jí)分類網(wǎng)絡(luò)U2Net [22],運(yùn)用其在不降低特征映射分辨率的前提下提取該階段內(nèi)的多尺度特征這一強(qiáng)化特征學(xué)習(xí)能力、增加目標(biāo)語(yǔ)義信息的特點(diǎn)來(lái)降低網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的需求量,一方面簡(jiǎn)化原有的標(biāo)注流程、另一方面降低所需要標(biāo)注數(shù)據(jù)的數(shù)量,結(jié)合兩者來(lái)減少標(biāo)注任務(wù)繁重的問(wèn)題.為增強(qiáng)對(duì)于目標(biāo)邊界的分割能力,在網(wǎng)絡(luò)的ReSidual U-blockRSU)的上下采樣過(guò)程引入最大池化索引.最后將改進(jìn)的網(wǎng)絡(luò)和其它深度網(wǎng)絡(luò)在自制的無(wú)人機(jī)影像數(shù)據(jù)集上進(jìn)行定量和定性對(duì)比試驗(yàn),以期為城市綠化的識(shí)別提供一種兼顧效率和準(zhǔn)確率的自動(dòng)解譯方法.
1 網(wǎng)絡(luò)架構(gòu)及優(yōu)化
1.1 網(wǎng)絡(luò)架構(gòu)
論文將U2Net作為城市綠化提取網(wǎng)絡(luò)的原型.U2Net是一個(gè)基于深度卷積神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器架構(gòu).這種U型的編碼器-解碼器以及多層特征融合的架構(gòu),使得網(wǎng)絡(luò)即使面臨數(shù)據(jù)量少的情況,仍然能通過(guò)模型訓(xùn)練得到非常不錯(cuò)的準(zhǔn)確率.
該網(wǎng)絡(luò)的最大特點(diǎn)是分為內(nèi)外兩個(gè)層級(jí)的結(jié)構(gòu),在一個(gè)大的U型結(jié)構(gòu)里又嵌套了小型的U型結(jié)構(gòu),并在每個(gè)小U型結(jié)構(gòu)中分別進(jìn)行不同尺度的特征提取和融合.外層是與U-Net網(wǎng)絡(luò)架構(gòu)相似的6層U型結(jié)構(gòu),而每一層網(wǎng)絡(luò)內(nèi)部又是一個(gè)小型的類似于U-Net的模塊,原作者將內(nèi)部的U型結(jié)構(gòu)稱為RSU模塊.RSU模塊通過(guò)對(duì)特征圖的逐級(jí)下采樣以及膨脹卷積的使用,在不增加計(jì)算量的前提下獲得了更大的感受野以及目標(biāo)的局部與全局之間的聯(lián)系,同時(shí)該模塊也使得網(wǎng)絡(luò)的層數(shù)變得更多.
通過(guò)RSU模塊進(jìn)行下上采樣可以在不降低外層網(wǎng)絡(luò)特征分辨率的情況下,獲取到該特征分辨率下不同尺度的上下文信息.網(wǎng)絡(luò)外層的編碼器-解碼器架構(gòu)獲取到不同層次下的目標(biāo)特征,再通過(guò)特征融合模塊實(shí)現(xiàn)不同層次特征的拼接,以此來(lái)獲得豐富的上下文信息,將這些信息合成最終的預(yù)測(cè)結(jié)果,根據(jù)最終預(yù)測(cè)結(jié)果執(zhí)行圖像的分割任務(wù).
U2Net的網(wǎng)絡(luò)為了獲得更大的感受野,在RSU模塊里進(jìn)行多次下采樣,經(jīng)過(guò)多次下采樣后,網(wǎng)絡(luò)會(huì)丟失原圖的部分位置信息,因此最終得到的預(yù)測(cè)圖可能存在目標(biāo)邊界位置表達(dá)能力欠缺的現(xiàn)象,而最大池化索引能在一定程度上彌補(bǔ)邊界信息丟失過(guò)多的問(wèn)題.
1.2 最大池化索引
最大池化索引Max Pooling Indices)最早在2016年的SegNet網(wǎng)絡(luò)中被提出,后來(lái)被廣泛應(yīng)用到各種分類網(wǎng)絡(luò)中.最大池化方法被用來(lái)壓縮圖像,加速運(yùn)算過(guò)程.壓縮圖像時(shí),圖像中的細(xì)節(jié)信息難免丟失,而最大池化索引在網(wǎng)絡(luò)編碼部分進(jìn)行最大池化操作時(shí)記錄最大值所在的位置,然后在解碼時(shí)通過(guò)池化索引實(shí)現(xiàn)非線性上采樣.通過(guò)這樣的方式獲得更為精確的區(qū)域邊界位置.增加特征圖對(duì)于細(xì)節(jié)和邊界區(qū)域的表達(dá),得到更光滑的預(yù)測(cè)圖[23].最大池化索引過(guò)程如圖1所示.
1.3 融合最大池化索引的MPI-RSU
RSU模塊進(jìn)行不同尺度的下采樣時(shí),采用concat的方式將經(jīng)過(guò)上采樣后的解碼器層與同個(gè)層級(jí)的編碼器特征進(jìn)行通道上的拼接,最終得到更多通道層面的特征信息,這樣雖然得到更厚更豐富的特征,但每個(gè)通道本身的信息仍會(huì)隨著下采樣而逐漸丟失一些邊緣信息,而最大池化索引捕獲和記錄了編碼器特征映射中的位置信息,從而獲得了更為精確的邊界定位[23].圖2展示了改進(jìn)后的Max Pooling Indices ReSidual U-bolck LayerMPI-RSU-L)模塊.為了使得RSU模塊在上采樣還原特征圖的過(guò)程中能更加精確地還原照片中綠化與非綠化間的邊界信息,在不顯著增加計(jì)算負(fù)擔(dān)的前提下,RSU模塊引入了最大池化索引來(lái)替換原來(lái)的上下采樣過(guò)程,相較于之前的采樣過(guò)程,在2×2的池化器中只需在編碼器特征映射中額外花費(fèi)2位來(lái)存取其位置信息.編碼部分采取記錄索引信息的最大池化索引,而解碼部分則通過(guò)記錄索引位置還原回上一層的大小并和編碼器部分的上一層通過(guò)concat方式進(jìn)行拼接.網(wǎng)絡(luò)中的RSU-4F模塊通過(guò)膨脹卷積來(lái)代替池化操作,增加了網(wǎng)絡(luò)的感受野.Qin在文獻(xiàn)中提到,在RSU-4F部分,圖片的尺寸通過(guò)網(wǎng)絡(luò)外層的下采樣已經(jīng)非常小了,此部分繼續(xù)進(jìn)行池化很難提升模型的分類精度[23].基于此,只在RSU-7、RSU-6、RSU-5、RSU-4部分進(jìn)行替換,對(duì)RSU-4F部分不做更改.RSU-7、RSU-6、RSU-5、RSU-4的區(qū)別在于隨著網(wǎng)絡(luò)外層層數(shù)變化,每當(dāng)外層層數(shù)減一,相應(yīng)RSU模塊中編碼器和解碼器也減少一層池化卷積操作,詳細(xì)情況如圖2所示.
在圖2中:H代表圖片高度,W代表圖片寬度.C_in代表輸入通道數(shù),C_out代表輸出通道數(shù),C_mid代表中間層通道數(shù).Conv2d代表卷積層,BN代表批量歸一化層,ReLU代表修正線性單元激活層,k=3代表卷積核尺寸為3×3,s=1代表步距為1.d=2代表采取膨脹系數(shù)為2的膨脹卷積.Concat表示網(wǎng)絡(luò)層之間采用Concat拼接方法.
2 數(shù)據(jù)和技術(shù)框架
整體流程分為3部分:第一部分進(jìn)行數(shù)據(jù)獲取處理,第二部分進(jìn)行模型優(yōu)化和訓(xùn)練,第三部分進(jìn)行綠化識(shí)別任務(wù).
2.1 數(shù)據(jù)來(lái)源與處理
研究使用的無(wú)人機(jī)影像來(lái)自于大疆經(jīng)緯M300RT在漳州市南靖縣180米高空拍攝的影像,影像的獲取時(shí)間是2022年8月,拍攝面積約8.63 km2,空間分辨率為5 cm,影像具有紅、綠、藍(lán)三波段.
數(shù)據(jù)獲取過(guò)程為獲?。海?)設(shè)定拍攝路徑、范圍、間距、高度后進(jìn)行航空攝影;(2)空三加密、正射糾正;(3)引入OpenCV庫(kù)用將原始影像切分為適合深度學(xué)習(xí)訓(xùn)練的尺寸512*512,并對(duì)切分后的圖像進(jìn)行編號(hào);(4)對(duì)切分后的圖像進(jìn)行篩選,篩選策略為不同圖片中各自包含馬路、住宅區(qū)、城中村以及公園等這些城市中具有代表性的場(chǎng)景,數(shù)據(jù)集包含更多城市的綠化場(chǎng)景,使模型應(yīng)對(duì)城市中不同場(chǎng)景下的綠化識(shí)別也擁有更為良好的泛化能力.被切分后的圖片分為前景和背景,前景指城市中各類綠化覆蓋區(qū)域的像素,背景是指除綠化之外的其它區(qū)域的像素,剔除背景區(qū)域超過(guò)90%的圖片(正負(fù)樣本平衡策略);(5)運(yùn)用飛槳開發(fā)的自動(dòng)交互式分割軟件EISeg,該軟件通過(guò)對(duì)目標(biāo)區(qū)域的點(diǎn)擊,自動(dòng)預(yù)框選出與目標(biāo)區(qū)域相似的區(qū)域,經(jīng)過(guò)多次互動(dòng)點(diǎn)擊得到所需標(biāo)注的目標(biāo)區(qū)域,最后通過(guò)人工微調(diào)獲取到準(zhǔn)確地分割結(jié)果,通過(guò)該自動(dòng)標(biāo)注軟件得到掩膜圖像;(6)再次運(yùn)用OpenCV庫(kù)對(duì)原圖和掩膜進(jìn)行上下翻轉(zhuǎn)、45度旋轉(zhuǎn)和鏡像進(jìn)行數(shù)據(jù)擴(kuò)充.按照9∶1的比例劃分為訓(xùn)練集和驗(yàn)證集,共得到1 000 張、2 000張、4 000張三個(gè)不同量級(jí)的數(shù)據(jù)集,數(shù)據(jù)的獲取與處理流程如圖3所示.
2.2 模型優(yōu)化、訓(xùn)練與對(duì)比
提出對(duì)U2Net網(wǎng)絡(luò)中的優(yōu)化方法,用最大池化索引來(lái)替換網(wǎng)絡(luò)中原有RSU模塊的上下采樣過(guò)程,選擇多個(gè)主流的深度學(xué)習(xí)語(yǔ)義分割網(wǎng)絡(luò)用于進(jìn)行后續(xù)對(duì)比試驗(yàn),對(duì)網(wǎng)絡(luò)設(shè)置相應(yīng)的訓(xùn)練參數(shù),準(zhǔn)備不同數(shù)量的數(shù)據(jù)集進(jìn)行訓(xùn)練.通過(guò)各個(gè)網(wǎng)絡(luò)訓(xùn)練后的評(píng)價(jià)指標(biāo)數(shù)據(jù)對(duì)比,網(wǎng)絡(luò)改進(jìn)的消融實(shí)驗(yàn)對(duì)比,實(shí)例預(yù)測(cè)的定性對(duì)比來(lái)驗(yàn)證改進(jìn)后網(wǎng)絡(luò)的有效性,網(wǎng)絡(luò)修改和訓(xùn)練流程如圖4所示.
2.3 綠化識(shí)別任務(wù)
驗(yàn)證模型的有效性后,將每一張大尺寸的無(wú)人機(jī)影像通過(guò)編程進(jìn)行切分,將城市建成區(qū)范圍內(nèi)的影像均切分成大小為512*512的圖片,并將切割后的圖片以坐標(biāo)位置_x的格式進(jìn)行命名(其中x代表此坐標(biāo)影像切分的第幾張圖片).調(diào)用此前訓(xùn)練好的模型權(quán)重,將所有圖像載入模型進(jìn)行預(yù)測(cè)任務(wù).在模型進(jìn)行像素級(jí)預(yù)測(cè)時(shí),記錄預(yù)測(cè)為綠化的像素?cái)?shù)量并將圖片名稱和像素?cái)?shù)量通過(guò)追加寫的方式保存到csv文件中作為驗(yàn)證數(shù)據(jù).將每張圖片預(yù)測(cè)為綠化的像素進(jìn)行累加并除以所有圖片的總像素,得到目標(biāo)區(qū)域的綠化覆蓋率.最后將所有的預(yù)測(cè)圖進(jìn)行拼接融合,形成最終的建成區(qū)綠化覆蓋圖,任務(wù)執(zhí)行流程如圖5所示.
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)環(huán)境
本文的網(wǎng)絡(luò)模型基于Pytorch深度學(xué)習(xí)框架進(jìn)行搭建,采用CUDA并行計(jì)算平臺(tái).軟硬件的詳細(xì)信息為CPU:Intel Core i9-10900 CPU @3.70GHz; GPU:NVIDIA GeForce RTX3070; CUDA:11.6; Python:3.8.13; Pytorch:1.12.0; 操作系統(tǒng):Windows 11 64-bit.
3.2 參數(shù)配置
模型共訓(xùn)練360個(gè)epoch;batch_size為 8;初始學(xué)習(xí)率le-3;選擇Adamadaptive moment estimation)優(yōu)化器,超參數(shù)lr=le-3,betas分別取0.9和0.999,weight_decay=le-2;學(xué)習(xí)率下降的方式是先進(jìn)行熱身訓(xùn)練,再通過(guò)“cos”的方式下降.
3.3 評(píng)價(jià)指標(biāo)
為定量評(píng)估深度學(xué)習(xí)網(wǎng)絡(luò)在城市綠化識(shí)別任務(wù)的表現(xiàn),將精確率Precision)、召回率Recall)、綜合指標(biāo)Fβ-score),其中β2取1、總體分類精度Overall Accuracy,OA)作為評(píng)價(jià)指標(biāo),公式如式1)~4)所示.
Precision=GTPGTP+GFP(1)
Recall=GTPGTP+GFN(2)
Fβ-score=1+β2)Precision×Recallβ2Precision+Recall)(3)
OA=GTP+GTNGTP+GTN+GFP+GFN(4)
式1)~4)中:GTP是模型正確分割為綠化的像素?cái)?shù);GTN為模型正確分割非綠化的像素?cái)?shù);GFN為模型錯(cuò)誤的將綠化分割為非綠化的像素?cái)?shù);GFP為模型錯(cuò)誤的將非綠化分割為綠化的像素?cái)?shù).
3.4 模型優(yōu)化有效性評(píng)價(jià)
通過(guò)消融實(shí)驗(yàn),分析U2Net網(wǎng)絡(luò)性能受不同池化方法的影響,從而證明改進(jìn)方法的有效性和必要性.對(duì)比結(jié)果如表1所示.
在表1中,“√”代表引入了對(duì)應(yīng)方法,而“×”則代表未引用對(duì)應(yīng)方法.實(shí)驗(yàn)中除了改進(jìn)方法不同,其他參數(shù)均相同.在模型的RSU模塊引入Max Pooling Indices方法,然后與原來(lái)的池化方法所得到的結(jié)果進(jìn)行對(duì)比.由表2可知,模型的參數(shù)量、計(jì)算量、模型內(nèi)存均未發(fā)生改變.證明通過(guò)該改進(jìn)方法并不會(huì)增加模型的計(jì)算成本和內(nèi)存消耗.
3.5 不同網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)
本文將改進(jìn)的U2Net與FCN、U-Net、Deep labv3、Deep labv3+和原始U2Net在自制的無(wú)人機(jī)影像數(shù)據(jù)集上進(jìn)行城市綠化識(shí)別對(duì)比實(shí)驗(yàn).對(duì)比結(jié)果如表2所示.
表2中的實(shí)驗(yàn)數(shù)據(jù)以F1指標(biāo)的最大值作為從每個(gè)epoch獲取結(jié)果的依據(jù).由表3可得,在1 000 張、2 000張、4 000張的數(shù)據(jù)集中,改進(jìn)的U2Net在OA和F1值高于其它深度學(xué)習(xí)網(wǎng)絡(luò).尤其在1 000張量級(jí)的數(shù)據(jù)集中,U2Net和改進(jìn)后的U2Net由于自身網(wǎng)絡(luò)架構(gòu)的優(yōu)勢(shì),展現(xiàn)出遠(yuǎn)高于其它深度學(xué)習(xí)網(wǎng)絡(luò)的性能,改進(jìn)后的U2Net其各項(xiàng)評(píng)價(jià)指標(biāo)為OA97.16%),F(xiàn)194.95%),Precision 95.23%),Recall94.06%),較改進(jìn)之前分別提高了0.68%、1.01%、0.97%、1.18%.在不同數(shù)量的數(shù)據(jù)集中(數(shù)據(jù)集數(shù)量由小至大),改進(jìn)后的網(wǎng)絡(luò)較改進(jìn)之前的OA分別提升了0.68%、0.53%、0.46%;而F1則分別提升了1.01%、1.23%、1.32%.證明替換為最大池化索引的網(wǎng)絡(luò)性能得到一定的提升.
觀察實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),表中其它深度學(xué)習(xí)網(wǎng)絡(luò)各項(xiàng)指標(biāo)隨著數(shù)據(jù)集數(shù)量增加而提升顯著,當(dāng)前最熱門的語(yǔ)義分割網(wǎng)絡(luò)Deep labv3+在4 000張的數(shù)據(jù)集中,Recall的得分取得了所有對(duì)比網(wǎng)絡(luò)中的最高分并且F1取得的成績(jī)也逼近改進(jìn)后的U2Net網(wǎng)絡(luò).此外,U2Net和改進(jìn)后的U2Net的各項(xiàng)指標(biāo)隨著數(shù)據(jù)集數(shù)量的增加而提升,由于在1 000張數(shù)據(jù)集的訓(xùn)練中已經(jīng)達(dá)到非常高的數(shù)值,后續(xù)數(shù)值的提升并不明顯.
3.6 網(wǎng)絡(luò)改進(jìn)前后分割效果對(duì)比
為直觀地觀察U2MPINet與U2Net網(wǎng)絡(luò)之間的實(shí)際分割效果,將經(jīng)過(guò)1 000張數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)進(jìn)行實(shí)例分割.對(duì)比數(shù)據(jù)是從無(wú)人機(jī)影像中截取了部分訓(xùn)練集之外尺寸為512*512的圖片.圖6展示了不同城市場(chǎng)景下網(wǎng)絡(luò)改進(jìn)前后的綠化分割效果圖.
U2Net與改進(jìn)的U2Net網(wǎng)絡(luò)都表現(xiàn)出和人工標(biāo)簽相近的分割結(jié)果.但是改進(jìn)的U2Net在目標(biāo)邊界處展現(xiàn)出更為精確和光滑的分割結(jié)果.例如在馬路場(chǎng)景中,改進(jìn)后的U2Net能識(shí)別出圖片中的路燈,而U2Net則不然;還有圖片中的行道樹,改進(jìn)后的網(wǎng)絡(luò)對(duì)行道樹樹蔭與馬路之間的區(qū)分做了精細(xì)化的分割,而U2Net得到一個(gè)更為“粗糙”的分割結(jié)果.在住宅區(qū)的場(chǎng)景中,改進(jìn)后的網(wǎng)絡(luò)在圖片右下方出現(xiàn)了一定的誤檢,但是左下方因高樓遮擋而產(chǎn)生的陰影區(qū)域下細(xì)小的白色圍欄這一非綠化區(qū)域被識(shí)別出來(lái),而U2Net網(wǎng)絡(luò)忽視了這一區(qū)域.在公園場(chǎng)景中,由于原始圖像右下方的馬路和草地之間邊界模糊,U2Net將更多地草地預(yù)測(cè)成了非綠化區(qū)域,并且分割結(jié)果表現(xiàn)得不規(guī)則,而改進(jìn)后的網(wǎng)絡(luò)則表現(xiàn)得更好.在城中村場(chǎng)景中,圖像右上角陰影部分的非綠化覆蓋區(qū)域被改進(jìn)后的U2Net準(zhǔn)確識(shí)別出來(lái),而U2Net則將這一深色部分識(shí)別為綠化覆蓋區(qū)域了.
通過(guò)上述分析可以得到, U2Net與改進(jìn)后的U2Net可以準(zhǔn)確識(shí)別出圖像中大部分綠化覆蓋區(qū)域,但是改進(jìn)后的U2Net對(duì)于目標(biāo)的邊界區(qū)域以及圖像陰影區(qū)域的分割更為精確.
4 結(jié)論
本文將改進(jìn)的U2Net網(wǎng)絡(luò)應(yīng)用于城市綠地識(shí)別任務(wù)中,提出一種面向高分辨率無(wú)人機(jī)影像的城市綠地自動(dòng)識(shí)別技術(shù).將改進(jìn)前后的網(wǎng)絡(luò)與當(dāng)前流行的深度學(xué)習(xí)像素級(jí)分類網(wǎng)絡(luò)進(jìn)行對(duì)比,通過(guò)實(shí)驗(yàn)證明改進(jìn)的有效性以及該網(wǎng)絡(luò)在小規(guī)模數(shù)據(jù)集城市綠地識(shí)別任務(wù)中的顯著優(yōu)勢(shì),為今后城市進(jìn)行綠地識(shí)別和監(jiān)測(cè)提供一種新的、訓(xùn)練數(shù)據(jù)更少的、分類精度更優(yōu)秀的自動(dòng)解譯方法,進(jìn)一步減少城市綠地識(shí)別中的重復(fù)性工作.
整個(gè)技術(shù)框架仍然有改進(jìn)空間,從數(shù)據(jù)和模型兩個(gè)方面出發(fā),數(shù)據(jù)層面:無(wú)人機(jī)影像只有紅、綠、藍(lán)三個(gè)波段的信息,波段信息有限,現(xiàn)階段已有研究開始關(guān)注將特征工程融入到深度學(xué)習(xí)模型中來(lái)豐富特征學(xué)習(xí)的維度,例如加入不同季節(jié)的植被特征來(lái)加強(qiáng)網(wǎng)絡(luò)對(duì)綠植的識(shí)別準(zhǔn)確率.模型方面:為保障模型可以學(xué)習(xí)到豐富的特征,RSU模塊將編碼器階段的特征通過(guò)拼接的方式拼接到解碼器上來(lái)豐富特征信息,但是這樣全盤接受在豐富特征信息的情況下也帶來(lái)了計(jì)算量的增加,在保證分類精度的前提下,如何優(yōu)化模塊,以更少的計(jì)算量來(lái)得到等量或更多的特征信息,例如調(diào)整RSU模塊的計(jì)算過(guò)程或增加注意力機(jī)制等,是此后需要進(jìn)一步研究和解決的目標(biāo).
參考文獻(xiàn)
[1] Han J,hao X,hang H,et al.Analyzing the spatial heterogeneity of the built environment and its impact on the urban thermal environment-case study of downtown shanghai.Sustainability,2021,1320):11 302.
[2] 楊 桄,劉湘南.遙感影像解譯的研究現(xiàn)狀和發(fā)展趨勢(shì).國(guó)土資源遙感,20042):7-10,15.
[3] 王修信,吳 昊,盧小春,等.利用混合像元分解結(jié)合SVM提取城市綠地.計(jì)算機(jī)工程與應(yīng)用,2009,4533):216-217,226.
[4] Durduran S S.Automatic classification of high resolution land cover using a new data weighting procedure:The combination of k-means clustering algorithm and central tendency measuresMC-CTM).Applied Soft Computing,2015,35:136-150.
[5] 李成范,尹京苑,趙俊娟.一種面向?qū)ο蟮倪b感影像城市綠地提取方法.測(cè)繪科學(xué),2011,365):112-114,120.
[6] 李夢(mèng)雅,朱小平,賈小鳳.應(yīng)用面向?qū)ο蟮母叻直媛蔬b感數(shù)據(jù)提取城市綠地.北京測(cè)繪,2019,332):196-200.
[7] 鄭遠(yuǎn)攀,李廣陽(yáng),李 曄.深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用研究綜述.計(jì)算機(jī)工程與應(yīng)用,2019,5512):20-36.
[8] Weinstein B G,Marconi S,Bohlman S,et al.Individual tree-crown detection in RGB imagery using semi-supervised deep learning neural networks.Remote Sensing,2019,1111):1 309.
[9] Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:3 431-3 440.
[10] Ronneberger O,F(xiàn)ischer P,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention.Munich,Germany:Springer,2015:234-241.
[11] Badrinarayanan V,endall A,Cipolla.SegNet:A deep convolutional encoder-decoder architecture for image Segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,3912):2 481-2 495.
[12] hao H,Shi J,Qi X,et al.Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii:IEEE,2017:2 881-2 890.
[13] Chen L C,hu Y ,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision.Munich,Germany:Springer,2018:833-851.
[14] Liu W Y,Yue A ,Shi W H,et al.An automatic extraction architecture of urban green space based on DeepLabv3plus semantic segmentation model[C]//2019 IEEE 4th International Conference on Image,Vision and Computing ICIVC).Xiamen,China:IEEE,2019:311-315.
[15] 陳 周,費(fèi)鮮蕓,高祥偉,等.高分辨率遙感影像分割的城市綠地提取研究.測(cè)繪通報(bào),202012):17-20.
[16] 任鴻杰,劉 萍,岱 超,等.改進(jìn)DeepLabV3+網(wǎng)絡(luò)的遙感影像農(nóng)作物分割方法.計(jì)算機(jī)工程與應(yīng)用,2022,5811):215-223
[17] 許澤宇,沈占鋒,李 楊,等.增強(qiáng)型DeepLab算法和自適應(yīng)損失函數(shù)的高分辨率遙感影像分類.遙感學(xué)報(bào),2022,262):406-415.
[18] Li ,amnitsas ,Glocker B.Analyzing overfitting under class imbalance in neural networks for image segmentation.IEEE Transactions on Medical Imaging,2020,403):1 065-1 077.
[19] Mi L,Chen? .Superpixel-enhanced deep neural forest for remote sensing image semantic segmentation.ISPRS Journal of Photogrammetry and Remote Sensing,2020,159:140-152.
[20] Wang? B,Ma Y ,hang Y N,et al.Review of remote sensing applications in grassland monitoring.Remote Sensing,2022,1412):2 903.
[21] 楊 柳,陳延輝,岳德鵬,等.無(wú)人機(jī)遙感影像的城市綠地信息提取.測(cè)繪科學(xué),2017,422):59-64.
[22] Qin X B,hang? C,Huang C,et al.U2-Net:Going deeper with nested U-structure for salient object detection.Pattern Recognition,2020,106:107 404.
[23] ou Q,hang ,Li Q,et al.Deepcrack:Learning hierarchical convolutional features for crack detection.IEEE Transactions on Image Processing,2018,283):1 498-1 512.
【責(zé)任編輯:陳 佳】
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(42201225); 福建省自然科學(xué)基金青創(chuàng)項(xiàng)目(2021J05220)
作者簡(jiǎn)介:王 楨(1997—),男,浙江杭州人,在讀碩士研究生,研究方向:圖像處理、計(jì)算機(jī)視覺(jué)
通訊作者:楊培峰(1972—),男,浙江長(zhǎng)興人,教授,博士生導(dǎo)師,研究方向:城市生態(tài)規(guī)劃、區(qū)域與城鄉(xiāng)空間發(fā)展,young72@qq.com
陜西科技大學(xué)學(xué)報(bào)2024年3期