許長(zhǎng)青,陳振杰*,侯仁福
(1.南京大學(xué)地理與海洋科學(xué)學(xué)院,南京 210046;2.安徽省第一測(cè)繪院,合肥 230031)
(?通信作者電子郵箱chenzj@nju.edu.cn)
土地利用和土地覆蓋(Land Use and Land Cover,LULC)變化對(duì)全球能量平衡,水、碳和養(yǎng)分循環(huán),以及陸地生態(tài)系統(tǒng)多樣性等環(huán)境問(wèn)題存在重要的影響[1],LULC 信息提取始終是遙感領(lǐng)域的熱門(mén)研究方向[2]。該信息可由地面調(diào)查或影像解譯獲得,后者因動(dòng)態(tài)、豐富和廉價(jià)的信息源而成為L(zhǎng)ULC 信息獲取最為高效的手段[3]。隨著傳感器技術(shù)的飛速發(fā)展,遙感影像的數(shù)據(jù)量和可靠性均顯著提高,制約LULC 信息獲取的瓶頸已從如何獲得高質(zhì)量的影像數(shù)據(jù)轉(zhuǎn)換為如何實(shí)現(xiàn)大批量影像數(shù)據(jù)集高效且精確的自動(dòng)化分類(lèi)。
過(guò)去的幾十年中,大量學(xué)者致力于研究高效精確的遙感信息自動(dòng)化提取方案。從最初嘗試使用最大似然法[4]建立地類(lèi)分類(lèi)概率模型,或使用無(wú)監(jiān)督聚類(lèi)模型[5]等方法對(duì)影像信息單元按照數(shù)值相似性比較的方案進(jìn)行歸類(lèi),發(fā)展到在先驗(yàn)知識(shí)的基礎(chǔ)上,構(gòu)建基于樹(shù)的監(jiān)督分類(lèi)模型,如決策樹(shù)[6]、基于類(lèi)型概率判別的最大似然估計(jì)[7]等。近年來(lái),基于高性能計(jì)算和機(jī)器學(xué)習(xí)等技術(shù),對(duì)海量遙感影像進(jìn)行抽象信息提取和多維知識(shí)凝練,形成了融合先驗(yàn)知識(shí)的LULC 分類(lèi)模型,如構(gòu)建基于區(qū)域性融合分割的隨機(jī)森林[8]、最大化影像特征差異的支持向量機(jī)[9]、多維知識(shí)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)[10]和基于空間動(dòng)態(tài)感知的深度卷積神經(jīng)網(wǎng)絡(luò)[11],極大地提高了遙感影像分類(lèi)的效率和質(zhì)量[12-14]。然而,現(xiàn)有研究方案大多基于高精度的先驗(yàn)知識(shí)提取和學(xué)習(xí),此類(lèi)先驗(yàn)知識(shí)往往數(shù)量少、保密性強(qiáng)且代價(jià)高昂,難以滿(mǎn)足實(shí)際應(yīng)用需求,因此如何獲取大量可用、廉價(jià)的先驗(yàn)知識(shí),并從中提取足量、高質(zhì)量的樣本訓(xùn)練模型,獲得高精度的分類(lèi)結(jié)果仍是制約LULC 自動(dòng)化分類(lèi)的重要因素。
樣本及其特征的自動(dòng)優(yōu)選是遙感影像自動(dòng)分類(lèi)的關(guān)鍵。隨著對(duì)地觀測(cè)和國(guó)土調(diào)查的持續(xù)開(kāi)展,各地已經(jīng)積累了豐富的LULC 歷史數(shù)據(jù)[15-16],這些數(shù)據(jù)可以為新的遙感影像分類(lèi)提供先驗(yàn)知識(shí)。然而,這些數(shù)據(jù)存在現(xiàn)勢(shì)性差、地類(lèi)圖斑與實(shí)際土地覆被類(lèi)型不一致等問(wèn)題,多為不精準(zhǔn)的先驗(yàn)知識(shí)。為使用該類(lèi)數(shù)據(jù)支撐高精度的LULC 分類(lèi)工作,在采樣前需對(duì)異常先驗(yàn)知識(shí)進(jìn)行甄別,避免錯(cuò)誤先驗(yàn)知識(shí)對(duì)模型訓(xùn)練的影響。此外,由于地類(lèi)圖斑尺度、形狀差異顯著,如何適應(yīng)圖斑的特征分布,自動(dòng)避開(kāi)地類(lèi)圖斑邊緣,采集數(shù)量盡可能多、特征優(yōu)化的樣本,有待深入探究[17]。
針對(duì)以上問(wèn)題,本文提出了一種融合不精準(zhǔn)先驗(yàn)知識(shí)的Landsat 8 OLI影像深度學(xué)習(xí)分類(lèi)方法。該方法自動(dòng)規(guī)避異常先驗(yàn)知識(shí),優(yōu)選樣本及其特征,獲得高質(zhì)量的影像樣本,配合深度學(xué)習(xí)方法實(shí)現(xiàn)高精度Landsat 8 OLI遙感影像分類(lèi)。
本文分類(lèi)數(shù)據(jù)源于Landsat 8 影像,先驗(yàn)知識(shí)源于土地利用現(xiàn)狀圖,所提方案使用概率模型過(guò)濾不精準(zhǔn)先驗(yàn)知識(shí),并融合知識(shí)輔助優(yōu)選圖斑采集區(qū)域,同時(shí)引入XGBoost(eXtreme Gradient Boosting)約簡(jiǎn)圖斑特征,構(gòu)建自動(dòng)樣本提取流程,最后基于深度殘差網(wǎng)絡(luò)[18-19]搭建Landsat 8 OLI 影像LULC 分類(lèi)模型,訓(xùn)練并預(yù)測(cè)獲得研究區(qū)LULC 分類(lèi)圖,形成完整的融合不精準(zhǔn)先驗(yàn)知識(shí)的Landsat 8 OLI 影像深度學(xué)習(xí)分類(lèi)方法,其技術(shù)路線(xiàn)如圖1所示。
由于土地利用調(diào)查時(shí)間與遙感影像獲取時(shí)間不同和語(yǔ)義差異,地類(lèi)圖斑與實(shí)際LULC 類(lèi)型不完全一致,將土地利用現(xiàn)狀視為完全正確的先驗(yàn)知識(shí)是不妥的。一般而言,經(jīng)語(yǔ)義處理后,發(fā)生變化的或類(lèi)型錯(cuò)誤的區(qū)域較少,即大部分先驗(yàn)知識(shí)是正確的。
因此,針對(duì)不精準(zhǔn)的先驗(yàn)知識(shí),本文使用概率模型識(shí)別和剔除錯(cuò)誤先驗(yàn)知識(shí),避免其對(duì)于樣本標(biāo)記的干擾。分析土地利用現(xiàn)狀圖中各種地類(lèi)的像元特征值概率分布區(qū)間,獲取各特征值的正常值域分布范圍,進(jìn)而識(shí)別異常先驗(yàn)知識(shí)。具體方法如下:1)像元值頻率統(tǒng)計(jì),統(tǒng)計(jì)各LULC 類(lèi)型的像元DN值分布區(qū)間和頻率。2)離群數(shù)據(jù)處理,對(duì)遙感影像像元亮度值,按類(lèi)型做數(shù)據(jù)縮尾處理,對(duì)各類(lèi)型累計(jì)頻率在[0.005,0.995]范圍之外的像元做異常標(biāo)記,初步去除特征值離群的地類(lèi)像元。3)像元異常特征劃分,對(duì)于剔除特征值離群的剩余像元,按LULC 類(lèi)型計(jì)算各影像特征的第一四分位數(shù)Q1和第三四分位數(shù)Q3,以劃定四分位距(InterQuartile Range,IQR)區(qū)間(式(1))[20],獲取每個(gè)特征正常值域范圍,特征值處于范圍外則將該特征視為像元的異常特征(式(2)),并統(tǒng)計(jì)像元的異常特征數(shù)量(式(3))。4)正確先驗(yàn)知識(shí)篩選,對(duì)于每個(gè)地類(lèi)像元,如果像元的異常特征數(shù)量在Q1-k*IQR和Q3+k*IQR之間,則該像元LULC 類(lèi)型視為正確先驗(yàn)知識(shí),予以保留;否則視為不精準(zhǔn)的先驗(yàn)知識(shí),剔除采樣區(qū)域(式(4))。
式(1)~(4)中:k為設(shè)定閾值,本文取1.5;m表示土地類(lèi)型;n表示特征類(lèi)型;i表示像元編號(hào);W為正常像元特征標(biāo)記;E為正常像元異常標(biāo)記。
圖1 融合不精準(zhǔn)先驗(yàn)知識(shí)的Landsat 8 OLI影像深度學(xué)習(xí)分類(lèi)方法技術(shù)路線(xiàn)圖Fig.1 Technology roadmap of deep learning classification method based on inaccurate prior knowledge for Landsat 8 OLI images
標(biāo)記樣本的質(zhì)量和數(shù)量直接影響深度學(xué)習(xí)模型的最終精度和模型泛化能力[21],人工標(biāo)記樣本效率低、先驗(yàn)知識(shí)利用率不足。樣本自動(dòng)選取是構(gòu)建高效土地利用分類(lèi)模型的最重途徑和基礎(chǔ)[22-23]。樣本自動(dòng)選取需解決以下問(wèn)題:1)如何避開(kāi)圖斑邊緣,采集類(lèi)型特征鮮明、樣本類(lèi)型統(tǒng)一的高質(zhì)量影像樣本;2)如何對(duì)大小、形狀差異顯著的不規(guī)則圖斑進(jìn)行采樣。
為解決上述問(wèn)題,本文以篩選出的正確先驗(yàn)知識(shí)為指導(dǎo),自動(dòng)獲得標(biāo)記樣本數(shù)據(jù)集。通過(guò)對(duì)不規(guī)則圖斑迭代劃分最大內(nèi)接矩形,實(shí)現(xiàn)在不規(guī)則區(qū)域中采集規(guī)則樣本,在提高先驗(yàn)知識(shí)使用率和樣本采集效率的同時(shí),避免采集窗口中出現(xiàn)異類(lèi)像元。主要流程如圖2 所示:1)采樣優(yōu)選區(qū)劃分。提取先驗(yàn)知識(shí)正確的地類(lèi)圖斑,以最小采樣單元(本文選擇實(shí)際地物大小為75 m×75 m 的超像素)作為采樣優(yōu)選區(qū)劃分閾值,去除采樣圖斑中面積小且分布雜亂區(qū)域。2)多尺度內(nèi)接矩形生成。首先生成圖斑的最大內(nèi)接矩形,然后對(duì)未劃入內(nèi)接矩形的區(qū)域迭代生成最大內(nèi)接矩形,直至內(nèi)接矩形小于最小采樣單元。使用獲得的多尺度內(nèi)接矩形作為樣本采集約束區(qū)域,避免采集圖斑邊緣區(qū)域,使用空間約束促進(jìn)采集的同類(lèi)樣本特征高相似度、異類(lèi)樣本特征高差異性。3)樣本提取。按照從最大內(nèi)接矩形最短邊到最小采樣區(qū)間最短邊的采樣尺度順序進(jìn)行樣本多尺度采樣,大尺寸樣本顧及地類(lèi)全局結(jié)構(gòu)特征,小尺寸樣本體現(xiàn)地類(lèi)局部細(xì)節(jié)信息。采集窗口以半個(gè)窗口尺寸的滑動(dòng)距離進(jìn)行遍歷采集,首先多尺度提取各內(nèi)接矩形內(nèi)部的樣本,再完成相鄰內(nèi)接矩形間的樣本多尺度提取。4)樣本數(shù)據(jù)標(biāo)準(zhǔn)化。對(duì)應(yīng)LULC 標(biāo)記作獨(dú)熱編碼[24],最終獲得高類(lèi)內(nèi)相似度、低類(lèi)間相似度的遙感影像標(biāo)記樣本。
圖2 融合先驗(yàn)知識(shí)的樣本自動(dòng)選取流程Fig.2 Process of automatic sample selection based on prior knowledge
深度學(xué)習(xí)雖可通過(guò)模型訓(xùn)練自動(dòng)生成一些特征向量,很大程度上簡(jiǎn)化特征工程的工作量。然而這些特征往往是不可解釋的隱性特征,導(dǎo)致模型泛化能力低。因此,樣本特征約簡(jiǎn)可通過(guò)提取重要特征舍棄不重要的、非共性特征,提高模型的運(yùn)行效率和泛化能力[25]。本文選擇的影像特征為光譜、指數(shù)和紋理信息的組合,如表1 所示,均源于遙感影像多波段數(shù)據(jù)。遙感影像指數(shù)是對(duì)多波段數(shù)據(jù)的線(xiàn)性組合,用以提高地類(lèi)影像特征的顯著性,利于網(wǎng)絡(luò)學(xué)習(xí)模型對(duì)數(shù)據(jù)的理解。紋理信息則可以反映目標(biāo)區(qū)域周?chē)鷨卧帕行畔⒑蛦卧g的聯(lián)系,是一種突出影像中同質(zhì)現(xiàn)象的視覺(jué)特征。所有數(shù)據(jù)均經(jīng)過(guò)特征標(biāo)準(zhǔn)化處理,其中單波段數(shù)據(jù)可生成一組紋理特征,即7類(lèi)光譜特征,每類(lèi)特征生成8組紋理特征數(shù)據(jù)。
由于7 類(lèi)光譜特征生成的同一種紋理特征存在大量的冗余信息,為簡(jiǎn)化特征維度和提取關(guān)鍵信息,本文使用主成分分析法選擇每類(lèi)最大信息量的一維信息作為最終紋理特征,降低數(shù)據(jù)冗余量,提高模型運(yùn)行效率。本文引入XGBoost 模型進(jìn)行特征數(shù)據(jù)約簡(jiǎn)[26]。該模型基于樹(shù)模型,可衡量特征在提升決策樹(shù)構(gòu)建中的價(jià)值,評(píng)價(jià)特征的重要性。特征重要性篩選閾值為0.004,特征篩選率30.8%。
表1 特征類(lèi)別說(shuō)明Tab.1 Feature category description
深度殘差網(wǎng)絡(luò)(Deep Residual Network,DRN)是在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中加入快捷連接結(jié)構(gòu)實(shí)現(xiàn)恒等映射,有效解決了加深網(wǎng)絡(luò)層數(shù)時(shí)出現(xiàn)的網(wǎng)絡(luò)能力退化問(wèn)題[37],DRN 因極其深的結(jié)構(gòu)擁有強(qiáng)大的信息表達(dá)能力,能夠完成復(fù)雜場(chǎng)景下的分類(lèi)工作。因此,本文基于DRN 構(gòu)建Landsat 影像LULC 分類(lèi)模型。訓(xùn)練模式基于五折交叉驗(yàn)證方法,將樣本數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù),按照類(lèi)型均等分布原則保持各類(lèi)型樣本數(shù)量平衡。每次訓(xùn)練樣本數(shù)為256 個(gè),卷積操作前對(duì)樣本進(jìn)行批標(biāo)準(zhǔn)化處理以避免過(guò)擬合[38],每次訓(xùn)練計(jì)算訓(xùn)練精度和驗(yàn)證精度。模型訓(xùn)練30批次,每次保存最佳驗(yàn)證精度的網(wǎng)絡(luò)模型,挑選所有批次中精度最優(yōu)模型作為預(yù)測(cè)模型。
本文構(gòu)建兩種常見(jiàn)的分類(lèi)模型作為對(duì)照組,包括最大似然法(Maximum Likelihood Estimation,MLE)和支持向量機(jī)(Support Vector Machine,SVM)。其中MLE 和SVM 基于ENVI5.3 平臺(tái),CNN 和DRN 基于TensorFlow1.14.0 平臺(tái)。模型參數(shù)組合使用貝葉斯優(yōu)化確定,具體如表2所示。
表2 不同模型主要參數(shù)Tab.2 Main parameters of proposed models
固定尺度的影像樣本在數(shù)據(jù)采集和模型分類(lèi)中,會(huì)因?yàn)槌叽缦拗茡p失大量的樣本鄰近像元的空間特征和語(yǔ)義信息[39],尤其對(duì)于像元空間信息有限的中低分辨率影像而言。因此本文采集多尺度樣本用作模型訓(xùn)練,且同類(lèi)同對(duì)象樣本間保持較高的空間重疊度(圖2),擴(kuò)大樣本特征信息的同時(shí)也增加了樣本的多樣性。在模型預(yù)測(cè)過(guò)程中,為充分利用多尺度樣本信息,本文使用測(cè)試時(shí)增強(qiáng)(Test Time Augmentation,TTA)生成待檢測(cè)樣本的多個(gè)不同版本[40],包括對(duì)影像的放大、縮小、水平翻轉(zhuǎn)以及垂直翻轉(zhuǎn)操作,并對(duì)這些樣本進(jìn)行預(yù)測(cè),最后基于預(yù)測(cè)結(jié)果投票以確定多尺度樣本中重疊區(qū)域的土地類(lèi)型,實(shí)現(xiàn)研究區(qū)全域影像多尺度分類(lèi)。
本文的分類(lèi)精度評(píng)價(jià)基于五折交叉驗(yàn)證方式,重復(fù)實(shí)驗(yàn)20 次,評(píng)價(jià)標(biāo)準(zhǔn)基于實(shí)驗(yàn)平均精度,包括全圖分類(lèi)精度和地類(lèi)界線(xiàn)精度。全圖分類(lèi)精度驗(yàn)證通過(guò)逐像素對(duì)比研究區(qū)內(nèi)所有圖斑的分類(lèi)結(jié)果與真實(shí)值,再基于差異面積計(jì)算得到分類(lèi)圖斑精度評(píng)價(jià)指數(shù),包括分類(lèi)圖斑精度、Kappa 系數(shù)和混淆矩陣。地類(lèi)界線(xiàn)精度評(píng)價(jià)基于Hu 矩獲取地類(lèi)界線(xiàn)特征[41-42](式(5)),添加反面積權(quán)重(式(6))和地類(lèi)界線(xiàn)匹配模型,改進(jìn)評(píng)價(jià)指數(shù)計(jì)算方式,以適應(yīng)由多個(gè)復(fù)雜形狀構(gòu)成的地類(lèi)界線(xiàn)精度評(píng)價(jià)場(chǎng)景?;谠撛u(píng)價(jià)方案,本文隨機(jī)選擇多組地類(lèi)圖斑,獲得反面積加權(quán)后預(yù)測(cè)的主要地類(lèi)界線(xiàn)與真實(shí)的地類(lèi)界線(xiàn)相似度,用以評(píng)價(jià)模型分類(lèi)結(jié)果。
式(5)中:為A形狀第i個(gè)不變特征矩;Hu(A,B)表示A、B地塊界線(xiàn)的相似度。式(6)中:Sji表示第j個(gè)地塊中i個(gè)匹配形狀的真實(shí)值面積;D(ture,pred)表示反面積加權(quán)后的真實(shí)地類(lèi)與分類(lèi)結(jié)果的地類(lèi)界線(xiàn)相似度,相似度越接近于0,表示兩地類(lèi)界線(xiàn)越相似,即地類(lèi)界線(xiàn)精度越高。
研究選取常州市新北區(qū)作為研究區(qū)域,該區(qū)域位于常州市北部,區(qū)域位于北緯31°48′~32°03′,東經(jīng)119°46′~120°01′。2014 年新北區(qū)轄河海、三井、龍虎塘3 個(gè)街道和春江、孟河、西夏墅、羅溪、薛家、新橋6 個(gè)鎮(zhèn),總面積439.16 km2。
為了獲得研究區(qū)清晰的影像數(shù)據(jù),本文選取常州市新北區(qū)完全無(wú)云的Landsat 8 OLI 影像數(shù)據(jù),影像條代號(hào)為119、行編號(hào)為038,成像時(shí)間為2014 年3 月16 日。本文使用Landsat 8 OLI 主要的7 個(gè)波段,且使用全色波段進(jìn)行影像融合,最終影像分辨率為15 m。使用常州市新北區(qū)2009 年土地利用現(xiàn)狀數(shù)據(jù)作為先驗(yàn)知識(shí),2014 年土地利用現(xiàn)狀數(shù)據(jù)用于分類(lèi)精度評(píng)估。該區(qū)域主要有5大類(lèi)LULC 數(shù)據(jù),包括水域、農(nóng)田、林地、草地、不透水面,本文將土地利用現(xiàn)狀地類(lèi)歸并為以上5類(lèi)(表3)。
表3 土地類(lèi)型分類(lèi)框架Tab.3 Land type classification framework
本文首先對(duì)遙感影像進(jìn)行預(yù)處理,識(shí)別并規(guī)避不精準(zhǔn)先驗(yàn)知識(shí),基于自適應(yīng)的樣本劃分方式提取樣本,使用XGBoost優(yōu)選影像特征,獲得樣本數(shù)據(jù)集。進(jìn)而,使用深度網(wǎng)絡(luò)模型學(xué)習(xí)先驗(yàn)知識(shí),預(yù)測(cè)得到常州市新北區(qū)LULC 分類(lèi)結(jié)果。利用1.5節(jié)中的精度評(píng)價(jià)方法,參考2014年土地利用現(xiàn)狀圖,可以得出本文方案獲得的LULC 分類(lèi)圖斑精度為88.7%±0.020,Kappa 系數(shù)為0.842±0.013。其分類(lèi)結(jié)果相較于傳統(tǒng)棋盤(pán)切片式采集方式的模型,分類(lèi)精度有8.9%±0.036 的圖斑精度提升(2.4 節(jié))。這表明本文樣本采集方案得到的超像素?cái)?shù)據(jù)集特征顯著、類(lèi)別差異明顯,使用該數(shù)據(jù)可訓(xùn)練出高精度的LULC分類(lèi)模型,獲得高精度的LULC分類(lèi)結(jié)果。
如圖3 分類(lèi)結(jié)果混淆矩陣所示,本文方法獲得的各類(lèi)型分類(lèi)精度均能保持在83%以上,分類(lèi)效果優(yōu)異。水域和不透水面與其他類(lèi)型特征差異顯著,分類(lèi)精度較高。而林地和草地?cái)?shù)量少、分布零散,存在部分草地和林地被誤分進(jìn)耕地的情況,因此草地和林地分類(lèi)精度低于其他LULC類(lèi)型。
圖3 DRN模型分類(lèi)結(jié)果的混淆矩陣Fig.3 Confusion matrix of DRN model classification result
圖4 對(duì)比的谷歌影像為米級(jí)高分影像,由于數(shù)據(jù)有限,使用2013-12-12、2013-12-30 和2014-03-09 三幅影像拼接而成。圖4 中:(a)為研究區(qū)內(nèi)集中分布的林地,該區(qū)域內(nèi)林地依山生長(zhǎng),特征顯著,模型分類(lèi)結(jié)果準(zhǔn)確,其分類(lèi)結(jié)果與2014 年土地利用現(xiàn)狀數(shù)據(jù)吻合。(b)為常州市新北區(qū)錄安洲,可以發(fā)現(xiàn)本文模型的不透水面分類(lèi)結(jié)果與土地利用現(xiàn)狀圖存在明顯差異。通過(guò)對(duì)照谷歌高分影像,人工判定該區(qū)域南部為耕地類(lèi)型,農(nóng)作物耕作痕跡明顯,土地利用現(xiàn)狀數(shù)據(jù)在此處存在誤差。(c)屬城鎮(zhèn)與農(nóng)田交接區(qū),兩者以河流為界,從分類(lèi)情況可以看出,模型識(shí)別的河流略偏向于耕地一側(cè),而與另一側(cè)的不透水面界限清晰,主要由于河流靠耕地一側(cè)多為淺灘和臨水植被,無(wú)人工堤壩,邊界難以界定。(d)為典型的中國(guó)南方農(nóng)村區(qū)域,耕地間遍布坑塘水面,并夾雜部分人工建筑,模型總體地類(lèi)輪廓識(shí)別較為準(zhǔn)確,且本文模型分類(lèi)的高速環(huán)形匝道有清晰的結(jié)構(gòu),精度明顯高于土地利用現(xiàn)狀圖。(e)為城鎮(zhèn)開(kāi)發(fā)區(qū)邊緣處,部分自然草地與待開(kāi)發(fā)的建筑裸地并存,經(jīng)人工對(duì)照高分影像,草地分類(lèi)結(jié)果準(zhǔn)確性?xún)?yōu)于土地利用現(xiàn)狀數(shù)據(jù)。(f)則為城市住宅區(qū),區(qū)域內(nèi)各LULC類(lèi)型特征明顯,模型成功將住宅區(qū)、河流等主要地類(lèi)分類(lèi),并正確識(shí)別出城市內(nèi)未進(jìn)行開(kāi)發(fā)的區(qū)域。
圖4 DRN模型的LULC分類(lèi)結(jié)果Fig.4 LULC classification results of DRN model
表4和圖5~6選擇典型地類(lèi)區(qū)域,計(jì)算預(yù)測(cè)地類(lèi)輪廓與真實(shí)地類(lèi)輪廓的相似程度,以評(píng)價(jià)模型分類(lèi)結(jié)果,可以看出各類(lèi)型輪廓相似性結(jié)果與全局分類(lèi)精度類(lèi)似,水域和不透水面由于其特征顯著,且呈規(guī)則形狀分布,輪廓相似程度較高,而耕地、林地和草地分布較散,特征不顯著且形狀復(fù)雜,因此輪廓相似度略低。各類(lèi)型地類(lèi)界線(xiàn)精度與2.2節(jié)分類(lèi)精度吻合。
表5 統(tǒng)計(jì)使用先驗(yàn)知識(shí)指導(dǎo)樣本采集工作對(duì)四種分類(lèi)模型最終分類(lèi)精度的影響。總體上,使用先驗(yàn)知識(shí)指導(dǎo)樣本采集獲得的訓(xùn)練數(shù)據(jù),由于不同地表覆蓋間顯性特征差異增強(qiáng),模型的最終分類(lèi)精度均有一定提升,表明本文方案可以有效提升常見(jiàn)的遙感影像分類(lèi)模型精度。對(duì)比各組分類(lèi)模型的精度提升結(jié)果可得,MLE 和SVM 使用本文方案采集的樣本,最終分類(lèi)精度為68.3%±0.015和78.1%±0.013,與CNN 和DRN相比有明顯差距,且分類(lèi)精度提升有限,主要由于模型相對(duì)較弱的表達(dá)能力和知識(shí)抽取能力,難以滿(mǎn)足遙感影像分類(lèi)等復(fù)雜場(chǎng)景下的精細(xì)分類(lèi)需求,因此在模型分類(lèi)能力的限制下,樣本質(zhì)量的提升并不一定能導(dǎo)致模型分類(lèi)精度的大幅提高。而對(duì)于CNN和DRN此類(lèi)的神經(jīng)網(wǎng)絡(luò)模型,使用大量人工神經(jīng)元連接進(jìn)行信息提取和判別,對(duì)復(fù)雜場(chǎng)景的適應(yīng)能力要優(yōu)于傳統(tǒng)分類(lèi)模型,在精細(xì)化分類(lèi)的同時(shí)也對(duì)圖斑樣本的質(zhì)量更敏感。使用更高質(zhì)量的分類(lèi)圖斑樣本后,CNN 和DRN 均有明顯的精度提升,最終分類(lèi)精度為86.8%±0.006 和88.7%±0.011。因此,對(duì)于處理遙感影像分類(lèi)的復(fù)雜場(chǎng)景下的分類(lèi)問(wèn)題,使用先驗(yàn)知識(shí)指導(dǎo)樣本采集工作可以提高樣本質(zhì)量,有效提升模型分類(lèi)精度,且在合理處理樣本后使用抽象能力更強(qiáng)的模型進(jìn)行分類(lèi)工作,會(huì)取得更顯著的精度提升和更優(yōu)異的分類(lèi)結(jié)果。
圖5 真實(shí)地類(lèi)輪廓Fig.5 Real land use contours
圖6 預(yù)測(cè)地類(lèi)輪廓Fig.6 Predicted land use contours
表4 地類(lèi)輪廓相似度評(píng)價(jià)Tab.4 Evaluation of similarity of land use contours
為進(jìn)一步討論本文樣本采集方案的分類(lèi)效果,本節(jié)在統(tǒng)一影像數(shù)據(jù)基礎(chǔ)上,設(shè)計(jì)常見(jiàn)的棋盤(pán)切片式和四叉樹(shù)劃分式樣本采集方案[43],對(duì)比提出的融合先驗(yàn)知識(shí)的樣本采集方案,獲得的樣本圖斑均由DRN 模型分類(lèi)。棋盤(pán)切片式采集方式將影像網(wǎng)格化處理,把現(xiàn)實(shí)地物視為規(guī)則化分布,故采樣窗口中包含大量異類(lèi)樣本單元,影響樣本質(zhì)量。四叉樹(shù)劃分采集方案本質(zhì)為區(qū)域性的影像單元裂變、合并,其采樣窗口的變化是在滿(mǎn)足一定閾值下的整體變化,難以根據(jù)特性空間特征進(jìn)行針對(duì)性調(diào)整。同時(shí)傳統(tǒng)采樣方案僅可用于樣本采集位置的選擇,對(duì)異常區(qū)域處理、多尺度樣本采集和樣本特征選擇方面均未涉及,因此獲得的樣本質(zhì)量較低,并不適用于地表情況復(fù)雜的遙感影像樣本提取工作。不同方案的分類(lèi)結(jié)果如圖7 所示,本文方案從融合不精準(zhǔn)先驗(yàn)知識(shí)出發(fā),綜合設(shè)計(jì)各個(gè)采集步驟,相較傳統(tǒng)樣本采集方案,獲得的樣本類(lèi)型特征更顯著,模型分類(lèi)總體精度和各類(lèi)型分類(lèi)精度均有明顯提高,表明本文方案更適用于LULC影像樣本提取和分類(lèi)工作。
表5 先驗(yàn)知識(shí)輔助采集樣本對(duì)模型分類(lèi)精度的提升Tab.5 Improvement of model classification accuracy brought by priori knowledge-aided sample collection
圖7 多樣本采集方案獲得的LULC分類(lèi)結(jié)果對(duì)比Fig.7 Comparison of LULC classification results obtained by multiple sample collection schemes
本文融合不精準(zhǔn)先驗(yàn)知識(shí),使用特征工程理論和概率模型,提出了適用于Landsat 8 OLI 影像深度學(xué)習(xí)分類(lèi)方法。該方法可以自動(dòng)規(guī)避先驗(yàn)知識(shí)不精準(zhǔn)區(qū)域,結(jié)合優(yōu)選的采樣區(qū)位和影像特征,可充分融合不精準(zhǔn)的先驗(yàn)知識(shí),獲得高質(zhì)量的影像分類(lèi)樣本。以常州市新北區(qū)為實(shí)驗(yàn)區(qū),以2009 年土地利用調(diào)查數(shù)據(jù)為先驗(yàn)知識(shí),采用本文方法對(duì)2014 年Landsat 8 OLI 影像進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,融合不精準(zhǔn)先驗(yàn)知識(shí)的Landsat 8 OLI影像深度學(xué)習(xí)分類(lèi)方法可獲得88.7%的全圖分類(lèi)精度,Kappa 系數(shù)為0.842,并能獲取較高的地類(lèi)界線(xiàn)精度。本文研究主要結(jié)論如下:
1)不精準(zhǔn)的先驗(yàn)知識(shí)可以作為L(zhǎng)ULC 自動(dòng)化分類(lèi)參考數(shù)據(jù)。本文方法使用概率模型對(duì)先驗(yàn)知識(shí)不精準(zhǔn)區(qū)域進(jìn)行判別,可以自動(dòng)感知先驗(yàn)知識(shí)異常區(qū)域,并作合理規(guī)避,從而融合先驗(yàn)知識(shí)中的精準(zhǔn)信息,輔助模型訓(xùn)練。
2)可變尺度和空間約束的影像樣本提取方式可以充分利用先驗(yàn)知識(shí),獲得類(lèi)別特征顯著的超像素?cái)?shù)據(jù)集。本文的自適應(yīng)樣本區(qū)域選擇方法,使用先驗(yàn)圖斑約束采樣,避免采集不同地類(lèi)邊界區(qū)域和異類(lèi)數(shù)據(jù)過(guò)多區(qū)域,能夠?qū)崿F(xiàn)在尺度差異顯著的先驗(yàn)知識(shí)區(qū)域提取空間特征顯著的樣本,獲得高類(lèi)內(nèi)相似度、低類(lèi)間相似度的超像素樣本數(shù)據(jù)集,可有效提高模型分類(lèi)精度。
同時(shí),本文影像分類(lèi)方法可以在不精準(zhǔn)先驗(yàn)知識(shí)的支持下獲得高精度的LULC 分類(lèi)結(jié)果,自動(dòng)化率高且適用性強(qiáng),但往往也會(huì)導(dǎo)致數(shù)據(jù)預(yù)處理流程的復(fù)雜化和模型運(yùn)算的密集化,勢(shì)必會(huì)影響LULC 分類(lèi)的實(shí)時(shí)性需求。因此,如何構(gòu)建平衡精度和時(shí)效的分類(lèi)方法仍需進(jìn)一步的探索。