馮權(quán)瀧 牛博文 朱德海 陳泊安 張 超 楊建宇
(1.中國農(nóng)業(yè)大學(xué)土地科學(xué)與技術(shù)學(xué)院, 北京 100193; 2.自然資源部農(nóng)用地質(zhì)量與監(jiān)控重點實驗室, 北京 100193)
土地利用/覆被(Land use and land cover, LULC)專題圖,是表達自然土地類型以及人類開發(fā)利用土地狀況的專題要素地圖,在資源調(diào)查、環(huán)境監(jiān)測、生態(tài)保護、城市規(guī)劃、農(nóng)業(yè)生產(chǎn)等領(lǐng)域具有十分重要的作用。由于遙感具有大范圍同步觀測等優(yōu)勢,已經(jīng)成為土地利用/覆被制圖的主要數(shù)據(jù)來源,如何基于遙感影像實現(xiàn)土地利用/覆被的自動分類成為研究熱點問題[1-8]。
在深度學(xué)習(xí)技術(shù)[9]興起以前,土地利用/覆被遙感分類多依賴于人工設(shè)計特征與機器學(xué)習(xí)分類器[10-11]。其中人工設(shè)計特征包括歸一化植被指數(shù)等光譜指數(shù)、紋理特征、纓帽變換特征等[12-13],而機器學(xué)習(xí)分類器多以決策樹、隨機森林和支持向量機為主[14-17]。人工設(shè)計特征對專家知識的要求很高,同時其魯棒性和泛化能力存在一定缺陷,導(dǎo)致更換研究區(qū)和數(shù)據(jù)后,已有的遙感分類模型往往不能取得較好的分類結(jié)果。
相比于經(jīng)典機器學(xué)習(xí)算法,深度學(xué)習(xí)不需要人工設(shè)計特征的環(huán)節(jié),而是能夠根據(jù)損失函數(shù)自動提取與目標(biāo)任務(wù)最相關(guān)的特征,具有魯棒性強、模型易于遷移等優(yōu)勢,成為了遙感領(lǐng)域的一個研究熱點,并已經(jīng)應(yīng)用在城市土地利用分類、濱海濕地土地覆被分類、作物精細分類、道路及建筑等專題要素制圖等領(lǐng)域[18-22]。鑒于深度學(xué)習(xí)的相關(guān)研究成果日益增多,本文擬從樣本數(shù)據(jù)集、模型結(jié)構(gòu)、算法策略方面對深度學(xué)習(xí)在土地利用/覆被遙感分類中的研究進展進行綜述,為相關(guān)研究人員提供參考。
首先介紹人工智能與深度學(xué)習(xí)的相關(guān)知識,包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等常用網(wǎng)絡(luò)模型;然后從樣本角度出發(fā),對現(xiàn)有的土地利用/覆被遙感分類樣本集進行綜述;其次從深度學(xué)習(xí)模型的角度出發(fā),綜述土地利用/覆被遙感分類中用到的各種深度神經(jīng)網(wǎng)絡(luò)模型;再次從模型泛化能力的角度出發(fā),對稀疏樣本下深度學(xué)習(xí)模型的學(xué)習(xí)策略進行綜述;最后對未來研究方向進行展望。深度學(xué)習(xí)樣本-模型-算法總體框架如圖1所示。
圖1 深度學(xué)習(xí)樣本-模型-算法框架圖Fig.1 Flow chart of sample-model-strategy for deep learning
人工智能是研究用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門技術(shù)科學(xué)[23]。隨著大數(shù)據(jù)技術(shù)以及高性能計算的發(fā)展和成熟,以深度學(xué)習(xí)為代表的人工智能已經(jīng)在語音識別、目標(biāo)檢測、機器翻譯等領(lǐng)域取得了超過傳統(tǒng)算法的性能,并逐漸受到遙感與地學(xué)領(lǐng)域?qū)<业年P(guān)注和重視。具體而言,人工智能包括許多研究分支,其中機器學(xué)習(xí)是實現(xiàn)人工智能的一種重要方法,而深度學(xué)習(xí)作為機器學(xué)習(xí)的一個分支,通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)對人類大腦認(rèn)知過程的模擬[9]。
深度學(xué)習(xí)可以看作經(jīng)典人工神經(jīng)網(wǎng)絡(luò)的“深度”版本,通過增加隱含層數(shù)量,從而提高特征學(xué)習(xí)和表達能力。實際上,深度學(xué)習(xí)是深度神經(jīng)網(wǎng)絡(luò)的同義詞,常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò),以及用于語義分割的全卷積神經(jīng)網(wǎng)絡(luò)等。
1.2.1卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)主要用于計算機視覺(Computer vison, CV)領(lǐng)域[24-27],通過卷積、池化等操作,對圖像的高層語義特征進行提取。
一個典型的卷積神經(jīng)網(wǎng)絡(luò)為VGG[25],主要包含卷積層、池化層、全連接層和分類層。其中,卷積層主要利用卷積算子實現(xiàn)特征向量的計算,并通過多層卷積堆疊,實現(xiàn)多層級的圖像特征提??;池化層包括均值池化、最大值池化等,主要為了減小特征圖的尺寸;全連接層中所有神經(jīng)元以全連接的形式進行連接;分類層主要采用softmax分類器。
以自然圖像分類為例,相比于經(jīng)典的機器學(xué)習(xí)模型,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢是將圖像特征提取與分類任務(wù)集成到一個模型中,通過端到端訓(xùn)練,可以使模型自動學(xué)習(xí)到最具代表性的圖像特征,進而提高分類精度。
1.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)的輸入一般為序列數(shù)據(jù)(如文本、視頻等),其隱含層之間是存在連接的,t時刻隱含層的輸入不僅來自輸入層,同時來自t-1時刻隱含層的輸出。
循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入是一個序列數(shù)據(jù)Xt,t時刻隱含層的輸出是ht,A表示循環(huán)神經(jīng)網(wǎng)絡(luò)當(dāng)前的狀態(tài)[31]。常用的循環(huán)神經(jīng)網(wǎng)絡(luò)包括長短時記憶網(wǎng)絡(luò)(Long short term memory, LSTM)[28]、門控循環(huán)單元(Gated recurrent unit, GRU)[29]、Transformer[30]等。由于循環(huán)神經(jīng)網(wǎng)絡(luò)在處理序列數(shù)據(jù)方面具有天然的優(yōu)勢[31],已經(jīng)被應(yīng)用在多時相遙感影像分析、高光譜圖像分類中,用于建模多時相數(shù)據(jù)之間以及高光譜不同波段之間的相互依賴關(guān)系。
1.2.3生成對抗網(wǎng)絡(luò)
生成對抗網(wǎng)絡(luò)(Generative adversarial network, GAN)[32]包括:生成器(Generator, G)和判別器(Discriminator, D)。其中生成器G主要用來學(xué)習(xí)真實圖像的分布,從而使生成的圖像更加接近于真實圖像;而判別器D主要對生成的圖像進行真假判斷。生成對抗網(wǎng)絡(luò)的訓(xùn)練過程是一個min-max的優(yōu)化問題。
隨著網(wǎng)絡(luò)的迭代訓(xùn)練,生成器G與判別器D不斷進行對抗,并最終達到一種動態(tài)平衡:生成器G生成的圖像十分接近真實情況,判別器D無法判斷出圖像真假,對于給定圖像預(yù)測為真的概率為50%。在遙感領(lǐng)域,生成對抗網(wǎng)絡(luò)主要用于模擬樣本的生成和模型的對抗訓(xùn)練。
1.2.4全卷積神經(jīng)網(wǎng)絡(luò)
全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional network, FCN)是將卷積神經(jīng)網(wǎng)絡(luò)CNN中的全連接層替換為卷積層所形成的,被用于圖像語義分割任務(wù)中,并在醫(yī)學(xué)圖像分割等領(lǐng)域[33-36]得到應(yīng)用。相比于基于中心像素所在圖像塊的分類方式,全卷積神經(jīng)網(wǎng)絡(luò)可以減少冗余計算、提高大范圍土地利用/覆被制圖的效率,受到了廣泛關(guān)注[37-38]。經(jīng)典的全卷積神經(jīng)網(wǎng)絡(luò)包括FCN[39]、UNet[40-42]、DeepLab[43-46]等模型。
從樣本角度來綜述土地利用/覆被遙感分類中樣本數(shù)據(jù)集的研究進展。隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[47-49]、循環(huán)神經(jīng)網(wǎng)絡(luò)[50-51]、全卷積神經(jīng)網(wǎng)絡(luò)[52-53]等模型均被應(yīng)用到土地利用/覆被遙感分類中。然而如何驗證不同模型之間的可比性,從而進一步評價模型優(yōu)劣,成為關(guān)鍵問題。因此,開源樣本數(shù)據(jù)集的構(gòu)建具有十分重要的意義。
近年來,各國學(xué)者、機構(gòu)發(fā)布了一系列土地利用/覆被遙感分類樣本數(shù)據(jù)集,涵蓋了不同尺度、傳感器類型、時間/空間/光譜分辨率等,為相關(guān)研究提供了基準(zhǔn)數(shù)據(jù)支持。本文將其分為兩個類型:圖像塊級樣本和像素級樣本。其中圖像塊級樣本多來自于遙感場景識別數(shù)據(jù)集,用一個N×N大小圖像塊(image-patch)表示一種土地利用/覆被類型。而像素級樣本多來自于遙感語義分割數(shù)據(jù)集,對不同土地利用/覆被的邊界進行像素級別的標(biāo)注。
基于圖像塊的土地利用/覆被樣本集與遙感場景識別數(shù)據(jù)集類似,其標(biāo)注過程表現(xiàn)為對一個N×N的圖像塊賦以特定的土地利用/覆被類別(圖2)。該樣本集對應(yīng)的深度學(xué)習(xí)模型多為基于CNN或RNN的圖像分類模型,優(yōu)勢是標(biāo)注過程簡單,劣勢是并不能獲取特定地物的邊界信息。
圖2 圖像塊級土地利用/覆被樣本示例[54]Fig.2 LULC sample based on image-patch[54]
表1列舉了廣泛使用且具有影響力的圖像塊級樣本數(shù)據(jù)集,并給出了相關(guān)元數(shù)據(jù)。
如表1所示,圖像塊級樣本集多以航空影像(如UC Merced[54]、SAT-4/SAT-6[58])和高分辨率的Google Earth衛(wèi)星影像(如WHU-RS19[55]、AID[60]等)為主,空間分辨率多在0.3~2 m之間,然而其光譜分辨率較低,多為RGB或RGB-NIR影像??紤]到深度學(xué)習(xí)模型訓(xùn)練對于海量標(biāo)簽樣本的需求,數(shù)據(jù)集整體呈現(xiàn)出樣本數(shù)量不斷增加的趨勢,從幾千發(fā)展到幾十萬不等。此外,少部分?jǐn)?shù)據(jù)集以Sentinel-2等多光譜衛(wèi)星影像作為數(shù)據(jù)源,其光譜分辨率有所提升,然而其空間分辨率相對較低。
表1 圖像塊級土地利用/覆被遙感分類樣本集Tab.1 Commonly used LULC sample dataset based on image-patch
上述樣本集在土地利用/覆被類別數(shù)量的設(shè)定上存在兩種分化。一方面,部分?jǐn)?shù)據(jù)集只關(guān)心少數(shù)概要性的地物類別,如SAT-4數(shù)據(jù)集僅包含裸地、森林、草地和其它共4類土地覆被類型;另一方面,部分?jǐn)?shù)據(jù)集則更關(guān)注土地利用/覆被的精細分類,如UC Merced、WHU-RS19、AID等包含幾十種具有特定語義的土地利用/覆被類別。
基于像素的土地利用/覆被樣本集與遙感語義分割數(shù)據(jù)集類似,其標(biāo)注過程表現(xiàn)為對某一特定地物涵蓋的所有像素進行標(biāo)注(圖3)。該樣本集對應(yīng)的深度學(xué)習(xí)模型多為語義分割模型,優(yōu)勢是可以獲取地物的準(zhǔn)確邊界,劣勢是標(biāo)注工作量較大。
圖3 像素級土地利用/覆被樣本集示例[62]Fig.3 LULC sample based on pixel[62]
由于逐像素的土地利用/覆被制圖能夠提供更為精細的地物分布情況,對氣候、生態(tài)、水文等多領(lǐng)域的研究有著重要意義[63],其樣本數(shù)據(jù)集的發(fā)布也日益增加。
常用的像素級樣本集如表2所示??梢钥闯?,大部分樣本集擁有更多的波段數(shù),但在樣本數(shù)量、類別等方面都存在局限性。同時,受到光譜分辨率的制約,這類數(shù)據(jù)集的空間分辨率較低。同時大部分?jǐn)?shù)據(jù)集僅為指定研究區(qū)內(nèi)的單幅影像與標(biāo)注,只有一些最近發(fā)布的數(shù)據(jù)集(如DeepGlobe、GID)其樣本數(shù)量和空間分辨率較高,但僅為一般的RGB或RGB-NIR影像,光譜分辨率較低。
表2 像素級土地利用/覆被遙感分類樣本集Tab.2 Commonly used LULC sample dataset based on pixel
像素級樣本集一般具有更為精細的土地利用/覆被類別設(shè)定,如GIC發(fā)布的Indian pines數(shù)據(jù)集供包含玉米、小麥等共16種土地覆被類別,GID數(shù)據(jù)集則包含了工廠、居民區(qū)、灌叢等共15種土地利用/覆被類別。
總體而言,相比于圖像塊級樣本集,像素級樣本集仍缺乏標(biāo)注質(zhì)量高的大規(guī)模數(shù)據(jù)集,且現(xiàn)有的大部分?jǐn)?shù)據(jù)集僅針對特定區(qū)域,普適性有待提升。
以Google Scholar中的論文引用次數(shù)作為影響力指標(biāo),對常用土地利用/覆被遙感分類樣本集進行影響力分析(圖4)。如圖4所示,基于像素尺度的樣本集影響力較大,以GIC發(fā)布的Indian pines[65-66]和University of Pavia[65]數(shù)據(jù)集為代表,且由該團隊發(fā)布的Salinas[65]和KSC[65]數(shù)據(jù)集也具有較高的影響力。在圖像塊尺度的樣本集中,經(jīng)典數(shù)據(jù)集UC Merced[54]具有最高影響力,國內(nèi)學(xué)者提出的AID[60]和RSSCN7[56]數(shù)據(jù)集發(fā)布時間相對較晚,但由于其在樣本數(shù)量、質(zhì)量、尺寸等方面的優(yōu)勢,其近兩年影響力逐漸提升。
圖4 常用土地利用/覆被遙感分類樣本集影響力統(tǒng)計結(jié)果Fig.4 Impact statistics of commonly used LULC sample dataset
同時,圖4表明國內(nèi)外學(xué)者更多關(guān)注基于多/高光譜影像的逐像素分類。一方面由于更多光譜信息的引入,可以有效提高地物的類間可分性,提升分類精度;另一方面,逐像素分類結(jié)果能夠?qū)ν恋乩?覆被情況進行更精細的刻畫,也利于后續(xù)變化檢測等任務(wù)。同時,圖像塊級分類受限于大范圍制圖時的“棋盤效應(yīng)”,其在遙感場景分類中更受關(guān)注。
從模型角度,綜述土地利用/覆被遙感分類中常用的深度學(xué)習(xí)模型,包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、全卷積神經(jīng)網(wǎng)絡(luò)(FCN)等。
卷積神經(jīng)網(wǎng)絡(luò)因其強大的圖像特征提取能力,在土地利用/覆被分類中被廣泛應(yīng)用。在前期研究中,研究人員多傾向于直接使用計算機視覺領(lǐng)域內(nèi)的經(jīng)典模型(AlexNet、VGG、ResNet等)或者自行搭建一個簡單網(wǎng)絡(luò),通過訓(xùn)練基于圖像塊的分類模型,然后在整個研究區(qū)的影像上以滑窗(sliding window)方式得到逐像素或逐圖像塊的預(yù)測結(jié)果。其中REZAEE等[69]采用在ImageNet上預(yù)訓(xùn)練的AlexNet網(wǎng)絡(luò)進行了濕地土地覆被制圖的研究,并將其與隨機森林等經(jīng)典機器學(xué)習(xí)模型進行比較,結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)可以有效改善濕地土地覆被分類精度。類似的研究如文獻[70-76]。
然而上述研究僅僅是借用CV經(jīng)典模型,并沒有考慮到遙感多譜段成像的特點。針對這一問題,研究人員轉(zhuǎn)向了雙路(或雙分支)卷積神經(jīng)網(wǎng)絡(luò)的研究,用于同時學(xué)習(xí)遙感影像的空間特征和光譜特征。在一個典型的雙路神經(jīng)網(wǎng)絡(luò)中,包含兩個分支或子網(wǎng)絡(luò),即空間特征提取子網(wǎng)絡(luò)和光譜特征提取子網(wǎng)絡(luò)。其中HUANG等[77]設(shè)計了一個雙路卷積神經(jīng)網(wǎng)絡(luò)模型用于城市土地利用制圖,該模型的第1個分支是在ImageNet上預(yù)訓(xùn)練的AlexNet網(wǎng)絡(luò),用于提取空間特征,第2個分支是由幾個卷積層級聯(lián)形成的小卷積網(wǎng)絡(luò)(small DCNN),用于提取光譜特征,最后采用特征堆疊的方法進行空間-光譜特征的融合,并基于WorldView高分辨率影像實現(xiàn)了香港和深圳的城市土地利用制圖,取得了91.25%的分類精度。類似的研究如文獻[78-80]。
筆者針對城市土地利用遙感分類問題,對雙路卷積神經(jīng)網(wǎng)絡(luò)進行改進,構(gòu)建了多尺度殘差模塊以增強空間特征的代表性和可分性,從而有效提高了分類精度。同時針對濱海濕地土地覆被分類問題[81],通過引入多源光學(xué)、雷達遙感影像,提出了一個多路卷積神經(jīng)網(wǎng)絡(luò)模型(圖5),該模型通過多尺度可變形卷積模塊提高其對于地物尺寸和形狀變異的魯棒性,并設(shè)計了一個深度特征自適應(yīng)融合模型,用于融合多傳感器、多時相的光學(xué)和雷達數(shù)據(jù),在黃河三角洲取得了93.78%的分類精度,并驗證了多傳感器數(shù)據(jù)的融合可以有效增加濱海濕地土地覆被類型之間的可分性。此外,筆者還針對農(nóng)業(yè)塑料覆被[82]、城中村[83]等土地利用/覆被中的專題要素進行了提取。
圖5 多路卷積神經(jīng)網(wǎng)絡(luò)模型[81]Fig.5 Multi-branch convolutional neural network model[81]
循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于對序列信號進行建模,雖然不能像CNN那樣對遙感影像的空間特征進行提取,但RNN對光譜特征和時序特征的學(xué)習(xí)能力要強于CNN,同樣被廣泛應(yīng)用于土地利用/覆被的遙感分類研究中[84-92]。
在光譜特征提取方面,RNN被用于多光譜和高光譜影像的分類中,用于建模不同波段之間的相互依賴關(guān)系。MOU等[85]針對高光譜影像的土地利用/覆被分類問題,較早使用LSTM、GRU等循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建了分類模型。其中模型的輸入為單個像素對應(yīng)的光譜曲線,模型的輸出則為對應(yīng)的土地利用/覆被類別,并在3個航空高光譜數(shù)據(jù)集上驗證了RNN模型的分類效果。后續(xù)研究則集中在如何繼續(xù)優(yōu)化RNN模型結(jié)構(gòu),從而提高光譜特征提取能力。文獻[86]研究具有典型性,通過構(gòu)建級聯(lián)RNN模型進行高光譜分類,該模型由2個RNN級聯(lián)而成,其中第1個RNN用于去除高光譜影像中的冗余波段,第2個RNN則利用剩余波段進行影像分類。通過上述級聯(lián)的方式,可以進一步提高模型的分類精度。相關(guān)研究還包括文獻[87]。
在時序特征提取方面,RNN被用于多時相遙感影像的分類研究中,通過學(xué)習(xí)多時相影像之間的時序依賴關(guān)系,從而提高不同地物的類間可分性以改善土地利用/覆被分類精度。其中,RUΒWURM等[88]基于多時相Sentinel-2號影像,分別采用LSTM和GRU構(gòu)建了土地覆被分類模型,并在17種地物分類中取得了90%的精度,驗證了RNN在時序特征提取中的有效性。類似研究有文獻[89-91],均采用RNN對耕地中的農(nóng)作物進行了精細分類。
考慮到CNN的優(yōu)勢在于遙感影像的空間特征提取,而RNN的優(yōu)勢在于光譜特征和時序特征提取,因此將CNN和RNN進行耦合可以實現(xiàn)空間、時序、光譜特征之間的有效融合,并進一步提高土地利用/覆被分類的精度。其中,MEI等[93]基于高光譜影像,分別構(gòu)建了空間注意力卷積神經(jīng)網(wǎng)絡(luò)和光譜注意力循環(huán)神經(jīng)網(wǎng)絡(luò)模型,分別對高光譜的空間特征和光譜特征進行提取,并通過特征融合進一步提高分類精度。MOU等[94]構(gòu)建了一個CNN-RNN耦合模型實現(xiàn)了光譜-空間-時序特征的有效提取,其中CNN用于提取遙感影像的光譜-空間特征,而RNN用于提取多時相影像的時序特征,通過級聯(lián)CNN和RNN模型,實現(xiàn)了土地利用/覆被的變化檢測。類似的研究還包括文獻[95-98]。
筆者針對小尺度的土地利用/覆被精細分類問題,構(gòu)建了一種基于循環(huán)注意力網(wǎng)絡(luò)的CNN-RNN耦合模型[99],并應(yīng)用在多時相無人機可見光影像的分類中(圖6)。具體而言,考慮到無人機影像具有豐富幾何結(jié)構(gòu)信息的特點,首先構(gòu)建多尺度可變形卷積神經(jīng)網(wǎng)絡(luò),對無人機影像進行空間特征提取,以提高模型對于地塊形狀和尺度變異的魯棒性;同時構(gòu)建融合注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò),實現(xiàn)多時相無人機影像空間特征和時序特征的自適應(yīng)融合;該模型取得了92.80%的分類精度,并驗證了循環(huán)注意力融合模型在學(xué)習(xí)多時相特征依賴關(guān)系方面的有效性。
圖6 循環(huán)注意力網(wǎng)絡(luò)模型[99]Fig.6 Attention-based recurrent convolutional neural network[99]
相比于CNN、RNN等模型以基于圖像塊的方式進行土地利用/覆被分類,全卷積神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)像素級的地物分類,在大范圍土地利用/覆被制圖時其計算效率高的優(yōu)勢較為明顯。其中FCN是計算機視覺領(lǐng)域最早提出的全卷積神經(jīng)網(wǎng)絡(luò)模型,被廣泛應(yīng)用于土地利用/覆被分類領(lǐng)域。其中張宏鳴等[100]利用FCN-8s模型對灌區(qū)無人機影像進行了渠系提取,楊亞男等[101]基于FCN-8s模型對無人機影像中的梯田進行了提取,都取得了較好分類結(jié)果。同時,研究人員在FCN的基礎(chǔ)上進行了模型改進,如孫鈺等[102]針對無人機影像農(nóng)業(yè)塑料覆被分類任務(wù)對FCN模型進行了改進,SHRESTHA等[103]提出了一種增強的FCN模型用于提高建筑物的分類精度。相關(guān)研究還包括文獻[104-105]。
同時,UNet以模型結(jié)構(gòu)簡潔、魯棒性高等優(yōu)勢,受到了遙感領(lǐng)域研究人員的關(guān)注,其模型也被不斷改進,并廣泛應(yīng)用于土地利用/覆被分類中。DIAKOGIANNIS等[106]提出了一種UNet的改進模型,將殘差連接、空洞卷積、金字塔池化以及多任務(wù)學(xué)習(xí)方法進行組合,同時改進Dice損失以解決樣本不平衡問題,提高了土地利用/覆被的分類精度。YE等[107]將空間-光譜注意力機制應(yīng)用于UNet模型,以提升不同卷積層之間的特征表達一致性,實現(xiàn)了建筑物的高精度提取。類似的研究還包括文獻[106-113]。
DeepLab系列模型也在土地利用/覆被分類中得到了廣泛應(yīng)用。其中LIN等[114]利用通道注意力模塊對DeepLab模型進行改進,以提升模型對光譜特征的敏感性,并將其應(yīng)用于道路提取。吳永靜等[115]采用ResNet-50作為特征提取網(wǎng)絡(luò)對DeepLab進行改進,并基于高分辨率遙感影像實現(xiàn)了光伏用地的高精度分類。相關(guān)研究還包括文獻[72,115-119]。
相比于計算機視覺領(lǐng)域,土地利用/覆被遙感分類中的樣本標(biāo)注對專家知識的要求更高,必要時還需要進行野外考察,從而造成了訓(xùn)練樣本的稀疏性。如果僅使用有限的標(biāo)簽樣本,將容易造成分類模型的過擬合,降低模型的時空泛化能力,因此如何綜合利用有限的標(biāo)簽樣本和海量無標(biāo)簽樣本進行模型訓(xùn)練,就成為了一個關(guān)鍵技術(shù)問題。下面主要闡述樣本稀疏條件下的土地利用/覆被遙感分類算法的研究進展,所涉及的算法包括主動學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)等。
主動學(xué)習(xí)最早見于機器學(xué)習(xí)領(lǐng)域,是目前解決標(biāo)簽樣本稀疏的常用學(xué)習(xí)策略之一。其核心思想為:首先使用少量標(biāo)簽樣本訓(xùn)練分類模型,再利用該模型從無標(biāo)簽樣本集中選擇最具代表性或最易錯分的樣本,由專家對其進行標(biāo)注,再加入到標(biāo)簽樣本集中,并迭代訓(xùn)練模型,從而使模型具有更高的精度和泛化能力[120-122]。
主動學(xué)習(xí)的核心問題在于如何選取無標(biāo)簽樣本。其選擇策略種類較多,主要劃分為3類:基于無標(biāo)簽樣本的不確定性,如委員會查詢[123];基于無標(biāo)簽樣本對模型的影響程度,如Fisher信息比[124];基于無標(biāo)簽樣本的分布情況,如流形學(xué)習(xí)[125]、KL散度[126]等。
主動學(xué)習(xí)備受遙感領(lǐng)域研究人員的關(guān)注[127-135],并被應(yīng)用到土地利用/覆被遙感分類中。HAUT等[131]設(shè)計了一種主動學(xué)習(xí)策略,用于貝葉斯卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,通過構(gòu)建多維貝葉斯卷積神經(jīng)網(wǎng)絡(luò)以適應(yīng)多種高光譜影像,在Indian Pines、Salinas等公開數(shù)據(jù)集上實現(xiàn)了較好的分類結(jié)果。楊承文等[132]將深度貝葉斯網(wǎng)絡(luò)與主動學(xué)習(xí)策略相結(jié)合,先基于有限的標(biāo)簽樣本對模型進行預(yù)訓(xùn)練,再篩選出不確定性高的樣本對模型進行進一步訓(xùn)練,從而增強了模型在樣本稀疏條件下的泛化性。相關(guān)研究還包括文獻[130,133-134]。
上述方法均采用預(yù)先設(shè)計好的策略或準(zhǔn)則對無標(biāo)簽樣本進行選取,然而這些策略或準(zhǔn)則的泛化性仍難以得到保證。為了解決這些問題,部分學(xué)者將度量學(xué)習(xí)與主動學(xué)習(xí)相結(jié)合,通過優(yōu)化損失函數(shù)的設(shè)計以提高無標(biāo)簽樣本選擇的合理性。其中ZHANG等[135]提出了一種結(jié)合主動學(xué)習(xí)的多度量學(xué)習(xí)方法,通過多個度量指標(biāo)的分配,以學(xué)習(xí)并優(yōu)化損失函數(shù),在Houston和Indian Pines數(shù)據(jù)上驗證了該方法的有效性。
與主動學(xué)習(xí)類似,半監(jiān)督學(xué)習(xí)旨在利用少量標(biāo)簽樣本和大量無標(biāo)簽樣本對模型進行訓(xùn)練。不同的是,半監(jiān)督學(xué)習(xí)更強調(diào)訓(xùn)練過程的自動化,而不是主動學(xué)習(xí)中大量的人工干預(yù)[136-137]。半監(jiān)督學(xué)習(xí)主要包括兩大類:基于偽標(biāo)簽的方法和基于一致性正則化的方法。前者主要利用為無標(biāo)簽樣本賦予偽標(biāo)簽的思想,利用當(dāng)前模型給予無標(biāo)簽樣本最有可能被預(yù)測的類別作為其偽標(biāo)簽,之后將偽標(biāo)簽加入標(biāo)簽數(shù)據(jù)集對模型進行繼續(xù)訓(xùn)練[138];后者主要依賴對干擾不變性的假設(shè),即對同一樣本進行數(shù)據(jù)增強,而增強后的樣本之間,其預(yù)測標(biāo)簽應(yīng)當(dāng)保持一致[139]。
由于土地利用/覆被分類往往難以獲得海量、高質(zhì)量的標(biāo)簽樣本,因此半監(jiān)督學(xué)習(xí)受到了廣大研究人員的關(guān)注。其中,在基于偽標(biāo)簽的半監(jiān)督學(xué)習(xí)方面,CENGGORO等[140]采用了一種變分半監(jiān)督學(xué)習(xí)框架,同時利用標(biāo)簽樣本和無標(biāo)簽樣本對深度學(xué)習(xí)模型進行優(yōu)化,以解決土地利用/覆被分類中的樣本不平衡問題。相關(guān)研究還包括文獻[141]。
筆者在偽標(biāo)簽法方面開展了半監(jiān)督深度學(xué)習(xí)的相關(guān)研究。針對半干旱區(qū)的土地覆被分類問題,提出了一種多門控機制的半監(jiān)督深度學(xué)習(xí)框架[142],通過概率門、不確定性門和抗噪性門的聯(lián)合使用,以篩選并生成高質(zhì)量的偽標(biāo)簽樣本(圖7),并通過消融實驗證實了不同門控機制的有效性。同時,針對城市防塵綠網(wǎng)的遙感分類問題,構(gòu)建了一種two-step的半監(jiān)督深度學(xué)習(xí)算法[143],首先篩選高概率的無標(biāo)簽樣本,然后將其與標(biāo)簽樣本進行特征相似度計算,若top-k的標(biāo)簽樣本具有相同的類別,則將該類別賦給當(dāng)前無標(biāo)簽樣本。
圖7 多門控機制的半監(jiān)督深度學(xué)習(xí)框架[142]Fig.7 Multi-gate semi-supervised learning method[142]
除了上述偽標(biāo)簽樣本方法外,一致性正則化方法也得到了研究。其中ZHANG等[144]提出了一種基于半監(jiān)督學(xué)習(xí)的語義分割網(wǎng)絡(luò)(S4Net),在對標(biāo)簽樣本進行特征提取的同時,對無標(biāo)簽樣本施加隨機變換或擾動,并利用組合的損失函數(shù)訓(xùn)練模型,在DeepGlobe數(shù)據(jù)集上取得了具有競爭力的結(jié)果。文獻[145]進行了類似研究。
本文所指的弱監(jiān)督學(xué)習(xí)主要針對不確切監(jiān)督(Inexact supervision)問題[146],即基于粗粒度的上游標(biāo)簽實現(xiàn)細粒度的下游任務(wù)。在土地利用/覆被遙感分類中,常見的弱監(jiān)督學(xué)習(xí)表述如下:如何在只有圖像塊級別或低分辨率的土地利用/覆被標(biāo)注的情況下,去實現(xiàn)像素級別或高分辨率的土地利用/覆被遙感分類任務(wù)。
弱監(jiān)督學(xué)習(xí)可以一定程度上實現(xiàn)粗粒度標(biāo)注樣本的復(fù)用,對于樣本稀疏引起的模型過擬合具有一定的緩解作用,在近期受到了遙感研究人員的關(guān)注[147-151]。其中,SCHMITT等[147]探索了如何使用低分辨率的土地覆被樣本去生成高分辨率的土地覆被分類圖,首先采用MODIS的500 m分辨率的全球土地覆被數(shù)據(jù)集作為低分辨率樣本集,然后利用DeepLab v3+和UNet語義分割模型在高分辨率Sentinel影像數(shù)據(jù)集SEN12MS上進行訓(xùn)練,并在DFC2020數(shù)據(jù)集的驗證集上進行精度評估。雖然作者指出上述方法的精度并不能令人滿意,但是其技術(shù)路線可以給人以啟發(fā),因為低分辨率的土地利用/覆被樣本比較容易獲得,相似的研究還包括文獻[148]。相比于SCHMITT等[147]直接使用低分辨率的樣本對模型進行訓(xùn)練,WANG等[149]則利用圖像塊級的標(biāo)簽樣本和類激活圖(Class activation maps, CAMs)的方法獲取像素級的偽標(biāo)簽,并將偽標(biāo)簽加入標(biāo)簽樣本集,對UNet語義分割模型進行重新訓(xùn)練,證明了上述弱監(jiān)督方法在土地覆被分類中的有效性。針對跨領(lǐng)域的土地利用/覆被分類問題,LI等[150]提出了一個基于弱監(jiān)督約束的語義分割模型,通過弱監(jiān)督遷移不變性約束、弱監(jiān)督偽標(biāo)簽約束以及弱監(jiān)督旋轉(zhuǎn)一致性約束,改善了模型的分類效果。
自監(jiān)督學(xué)習(xí)屬于無監(jiān)督學(xué)習(xí)的一種[152],可在沒有明確人工監(jiān)督信息的情況下(如標(biāo)簽),從數(shù)據(jù)本身出發(fā)構(gòu)建學(xué)習(xí)算法[153]。主要通過設(shè)計輔助任務(wù)(如灰度圖像上色[154]、拼圖游戲[155]、圖像修復(fù)[156]等)來對模型進行預(yù)訓(xùn)練,從而更好完成下游任務(wù)(如目標(biāo)檢測、語義分割等)。近年來,隨著各種輔助任務(wù)的提出,自監(jiān)督策略的訓(xùn)練效果越來越接近全監(jiān)督學(xué)習(xí),引起了越來越多國內(nèi)外研究者的關(guān)注。
目前將自監(jiān)督學(xué)習(xí)應(yīng)用到土地利用/覆被遙感分類中的研究較少,國內(nèi)外相關(guān)研究均處于起步階段。其中AYUSH等[157]提出了地理感知自監(jiān)督對比學(xué)習(xí)策略,該方法通過時序正樣本對在空間上對齊的方式,并結(jié)合影像拍攝地點的知識,在Map of the World數(shù)據(jù)集上較MoCo-v2模型提升了8%的精度。REN等[158]提出一種基于相互信息的自監(jiān)督模型,并首次將自監(jiān)督學(xué)習(xí)應(yīng)用于PolSAR土地覆被分類任務(wù)中,通過輔助任務(wù)的設(shè)計,提高了土地覆被制圖的性能。文獻[159-160]進行了類似研究。
遷移學(xué)習(xí)主要解決不同域(源域和目標(biāo)域)之間的模型對齊問題[161]??紤]到遙感影像具有天然的多域性,即在時間、空間、光譜等維度上存在天然差異,因此如何將源域?qū)W習(xí)到的知識遷移至目標(biāo)域,并利用有限的目標(biāo)域樣本提升遙感分類模型的性能,就依賴于遷移學(xué)習(xí)的深入研究。
遷移學(xué)習(xí)主要包括基于模型參數(shù)的遷移、基于域適應(yīng)的遷移、基于對抗學(xué)習(xí)的遷移等。其中基于模型參數(shù)的遷移屬于早期被廣泛應(yīng)用的方法,深度學(xué)習(xí)網(wǎng)絡(luò)的微調(diào)法(fine tune)即屬于此類方法。其中WURM等[162]利用在QuickBird上訓(xùn)練好的模型遷移至具有不同光譜波段的Sentinel-2和TerrasSAR-X中,并對貧民窟這一獨特的土地利用類型進行分類,結(jié)果表明基于模型參數(shù)的遷移對異源傳感器(QuickBird與SAR)之間的學(xué)習(xí)效果較差,而對于同源傳感器(QuickBird與Sentinel-2)之間的分類結(jié)果具有提升作用。
在基于域適應(yīng)的遷移方面,QIN等[163]提出了一種基于張量對齊的域適應(yīng)(Domain adaptation, DA)方法。首先將源域和目標(biāo)域的遙感影像分割成超像素,然后通過對齊矩陣實現(xiàn)源域和目標(biāo)域之間的子空間對齊,并通過投影矩陣完成特征重映射,從而提高了目標(biāo)域內(nèi)土地利用/覆被分類的精度。文獻[164-165]進行了類似研究。
在基于對抗學(xué)習(xí)的遷移方面,XU等[166]采用對抗學(xué)習(xí)策略提出了一種可轉(zhuǎn)移注意力的對齊方法,以增加細粒度特征,并在語義分割模型中使用域適應(yīng)方法,以緩解類間不平衡問題。文獻[167-168]進行了類似研究。
深度學(xué)習(xí)本質(zhì)上屬于數(shù)據(jù)驅(qū)動模型,其在土地利用/覆被遙感分類中的性能很大程度上取決于樣本數(shù)據(jù)的規(guī)模、標(biāo)注質(zhì)量、地物類別的多樣性與完備性等。雖然研究人員相繼發(fā)布了一些土地利用/覆被分類遙感樣本數(shù)據(jù)集,然而大部分樣本僅采樣自某一地區(qū)和某一時相,這將導(dǎo)致訓(xùn)練出的深度學(xué)習(xí)分類模型的時空泛化能力較差,如果直接將上述分類模型用于其他地區(qū)或時相,分類精度往往難以得到保證。
為了解決土地利用/覆被遙感分類中深度學(xué)習(xí)模型的時空泛化問題,一個最直接有效的辦法是構(gòu)建大規(guī)模遙感樣本數(shù)據(jù)集,并進行公開發(fā)布,從而有助于廣大研究人員利用其進行深度學(xué)習(xí)模型構(gòu)建與訓(xùn)練。實際上,在計算機視覺領(lǐng)域,正是由于ImageNet等大規(guī)模開源樣本數(shù)據(jù)集的發(fā)布,才有效促進了深度學(xué)習(xí)在自然圖像分類、目標(biāo)檢測等領(lǐng)域的發(fā)展和落地應(yīng)用。
在未來研究中,可以優(yōu)先考慮以下兩種類型的遙感樣本數(shù)據(jù)集:圖像塊級樣本數(shù)據(jù)集;像素級樣本數(shù)據(jù)集。其中圖像塊級樣本數(shù)據(jù)集的構(gòu)建方法與UC Merced、AID等場景識別數(shù)據(jù)集類似,用一個遙感圖像塊來表示某一種特定的土地利用/覆被類型,樣本標(biāo)注的過程較為簡單,標(biāo)注人員直接對該遙感圖像塊的類別進行賦值即可。然而這種樣本并不能提供精確的地物邊界信息,導(dǎo)致大區(qū)域制圖結(jié)果出現(xiàn)明顯的邊緣鋸齒效應(yīng);此外一個遙感圖像塊中往往同時存在多種地物類型,這種場景復(fù)雜性也將增加分類難度。相比于圖像塊級樣本數(shù)據(jù)集,像素級樣本數(shù)據(jù)集可以提供每一種土地利用/覆被類型的邊界信息,然而標(biāo)注工作量較高,較為費時費力。同時,在構(gòu)建上述兩類樣本數(shù)據(jù)集時,還需要考慮遙感影像的多源性,盡可能覆蓋多尺度、多傳感器、多時相、多區(qū)域的遙感影像,進而提高樣本數(shù)據(jù)集的完備性和可用性。
在當(dāng)前土地利用/覆被遙感分類研究中,研究人員或直接采用計算機視覺領(lǐng)域較為成熟的深度學(xué)習(xí)模型、或在經(jīng)典模型上進行結(jié)構(gòu)改進,在各自數(shù)據(jù)集上取得了較好的分類精度。雖然也有相關(guān)研究人員針對遙感影像的特點進行模型結(jié)構(gòu)優(yōu)化,但其適用范圍往往需要進一步驗證。
在未來的研究中,一方面可以繼續(xù)借鑒計算機視覺領(lǐng)域的最新研究成果,但更重要的是需要分析遙感影像自身特點,有針對性地對深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)進行改進。相比于計算機視覺領(lǐng)域關(guān)注的自然圖像,遙感影像具有天然的多源、多傳感器、多譜段、多尺度、多時相等特征。在設(shè)計分類網(wǎng)絡(luò)時,多光譜影像、高光譜影像、雷達影像的特征提取網(wǎng)絡(luò)是否需要單獨設(shè)計,不同波段之間的特征是否需要融合,厘米級的無人機影像、亞米級的高分辨率衛(wèi)星影像以及中低分辨率衛(wèi)星影像,其特征提取網(wǎng)絡(luò)有何不同,多時相影像、多傳感器影像之間如何進行特征融合,從而進一步提高分類的精度和可靠性,同時,相比于自然圖像,遙感影像更多揭示的是宏觀地學(xué)現(xiàn)象,因此在設(shè)計深度學(xué)習(xí)模型結(jié)構(gòu)時,如何考慮增加地學(xué)的先驗知識,從而提高模型結(jié)構(gòu)的合理性,也是一個需要思考的問題。
此外,還可以研究深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動尋優(yōu)方法,即網(wǎng)絡(luò)結(jié)構(gòu)也是從樣本數(shù)據(jù)集中學(xué)習(xí)得到的。需要注意的是,網(wǎng)絡(luò)結(jié)構(gòu)的自動尋優(yōu)需要海量的訓(xùn)練樣本,如果樣本集的規(guī)模較小,其學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)僅是局部最優(yōu)解,其時空泛化能力仍存在缺陷。
通過構(gòu)建大規(guī)模遙感樣本數(shù)據(jù)集,可以一定程度上解決深度學(xué)習(xí)模型的時空泛化能力問題。然而大規(guī)模樣本集的構(gòu)建費時費力,同時在實際的土地利用/覆被遙感分類中,可用的樣本數(shù)量總是較少的,因此稀疏樣本是遙感領(lǐng)域研究者需要面對的一個重要議題。稀疏樣本可以從時間和空間兩方面去理解,即已有的樣本數(shù)據(jù)集往往是基于某一特定時間、特定空間的影像進行標(biāo)注的,那么在這一時空范圍以外的遙感影像,如果不進行大規(guī)模重新標(biāo)注,那么其樣本必然是稀疏的。此外,對歷史影像而言,如果沒有對應(yīng)時間段的野外采樣記錄,其樣本類別只能通過遙感影像目視解譯的方法進行判讀,其不確定性較高。
為了解決稀疏樣本問題,在未來的研究中,可以重點考慮無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)等算法。其中無監(jiān)督學(xué)習(xí)對標(biāo)簽樣本的依賴度最低,其通過海量無標(biāo)簽樣本的訓(xùn)練,從而將原始影像數(shù)據(jù)轉(zhuǎn)換到一個類間可分性高的特征空間。而自監(jiān)督學(xué)習(xí)屬于無監(jiān)督學(xué)習(xí)中的一個熱門方向,其相關(guān)思想也可以被遙感領(lǐng)域研究人員所借鑒。這是因為遙感影像作為天然的無標(biāo)簽樣本庫,可為無監(jiān)督學(xué)習(xí)提供海量無標(biāo)簽訓(xùn)練樣本。同時,半監(jiān)督學(xué)習(xí)由于同時考慮了有限的標(biāo)簽樣本和海量的無標(biāo)簽樣本,也可以緩解因稀疏樣本造成的遙感分類模型的過擬合問題。遷移學(xué)習(xí)則重點考慮不同光譜、空間、時間分辨率遙感影像之間的樣本復(fù)用問題,可以采用域適應(yīng)的方法實現(xiàn)遙感分類模型的時空譜遷移,提高模型泛化能力。
綜上,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,土地利用/覆被樣本集的種類和數(shù)量將持續(xù)上升,為模型訓(xùn)練和精度對比提供數(shù)據(jù)支撐;深度學(xué)習(xí)模型的結(jié)構(gòu)也將得到進一步優(yōu)化,并更能適應(yīng)遙感影像的特點;各種學(xué)習(xí)策略的不斷改進,將會提高模型在樣本稀疏條件下的時空泛化能力。上述樣本-模型-算法的改進將持續(xù)推動深度學(xué)習(xí)在土地利用/覆被制圖中的廣泛應(yīng)用。