程 銳,魏妍冰,陸 苗,吳文斌
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所,北京 100081)
耕地地塊是農(nóng)業(yè)經(jīng)營(yíng)管理的基本單元,具有面積大小、空間分布、物理邊界和幾何形態(tài)等多維特征,是衡量和表征耕地利用規(guī)模的重要指標(biāo),為農(nóng)作物監(jiān)測(cè)、農(nóng)業(yè)生產(chǎn)管理和農(nóng)業(yè)政策制定提供了重要的基礎(chǔ)信息[1]。目前全世界已有多種耕地地塊數(shù)據(jù),比如美國(guó)國(guó)家農(nóng)業(yè)統(tǒng)計(jì)局(National Agricultural Statistics Service)基于監(jiān)督分類的決策樹(shù)方法使用30米分辨率的Landsat影像,提供了1997—2019年覆蓋全美的耕地地塊數(shù)據(jù)(Cropland Data Layer)[2]。白俄羅斯的OneSoil公司基于機(jī)器學(xué)習(xí)算法使用10m分辨率的Senti‐nel2影像,提供2016—2020年覆蓋全歐洲與美國(guó)的耕地地塊數(shù)據(jù)One Soil Map(https://onesoil.ai/en/)。然而我國(guó)農(nóng)業(yè)以小農(nóng)經(jīng)濟(jì)為主體,耕地細(xì)碎化顯著,約95%的農(nóng)戶耕地面積低于2 hm2,戶均經(jīng)營(yíng)規(guī)模0.59hm2(8.8畝)[3],基于Landsat影像或Sentinel影像很難提取耕地地塊。因此亟需探索基于高空間分辨率數(shù)據(jù)的耕地地塊提取方法。
深度學(xué)習(xí)(Deep Learning)近年來(lái)發(fā)展迅速,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為一種應(yīng)用廣泛的深度學(xué)習(xí)模型,能通過(guò)組合低層次特征形成更加抽象的高層次特征,從而具有強(qiáng)大的特征提取能力[4]。CNN利用大數(shù)據(jù)來(lái)學(xué)習(xí)特征,能夠刻畫(huà)數(shù)據(jù)豐富的內(nèi)在信息[4]。C.Persello等利用SegNet網(wǎng)絡(luò)、FCN(Fully Convolutional Networks)網(wǎng)絡(luò)分別獲得耕地邊界的概率結(jié)果圖,并將該圖利用傳統(tǒng)邊緣方法(分水嶺分割、全局化邊界概率算子等)進(jìn)行二次處理得到耕地地塊[5]。Sun等利用3個(gè)具有層次性的神經(jīng)網(wǎng)路分層次獲得大地塊、耕地地塊與作物類別[6]。這些研究?jī)H應(yīng)用單個(gè)CNN分類器提取地塊,而單個(gè)分類器各有優(yōu)缺點(diǎn),如表1所示。CNN的網(wǎng)絡(luò)結(jié)構(gòu)豐富且各具特點(diǎn),如何選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)是使用者首要解決的問(wèn)題;同時(shí),由于訓(xùn)練樣本的局限性、網(wǎng)絡(luò)參數(shù)設(shè)計(jì)等問(wèn)題,CNN易出現(xiàn)過(guò)擬合[4]。
表1 單個(gè)CNN方法信息
集成學(xué)習(xí)(Ensemble learning)將多個(gè)弱監(jiān)督分類模型進(jìn)行集成,結(jié)合各個(gè)模型的優(yōu)勢(shì),得到一個(gè)強(qiáng)監(jiān)督分類模型,其核心思想是如果某一個(gè)分類器得到了錯(cuò)誤的預(yù)測(cè),通過(guò)集成學(xué)習(xí),其他分類器可以將錯(cuò)誤糾正回來(lái),減小偏差,提升預(yù)測(cè)效果[7]。集成學(xué)習(xí)方法比單一分類器擁有更好的預(yù)測(cè)性能,常見(jiàn)集成模型有Adaboost模型、隨機(jī)森林模型等[8]。
針對(duì)上述深度學(xué)習(xí)的網(wǎng)絡(luò)選擇和過(guò)擬合問(wèn)題,文章將深度學(xué)習(xí)和集成學(xué)習(xí)相結(jié)合,基于FCN、Seg‐Net、PspNet和Unet卷積神經(jīng)網(wǎng)絡(luò),構(gòu)建集成深度學(xué)習(xí)模型(Ensemble Deep Learning,EDL),進(jìn)行耕地地塊的提取。首先通過(guò)隨機(jī)可放回的Bagging抽樣方法在整體訓(xùn)練樣本集中得到不同的訓(xùn)練樣本子集,然后分別利用上述深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,預(yù)測(cè)耕地地塊后驗(yàn)概率,最后根據(jù)預(yù)測(cè)后驗(yàn)概率的算術(shù)平均值獲得提取結(jié)果,確定耕地地塊。
研究區(qū)位于黑龍江省富錦市前進(jìn)鎮(zhèn)(圖1a、b),富錦市是三江平原腹地的中心城市,2018年該市的耕地總面積為61.33萬(wàn)hm2(920萬(wàn)畝),大部分耕地種植水稻,糧食總產(chǎn)達(dá)到21億kg,是國(guó)家重要的商品糧生產(chǎn)基地[9]。選擇的研究數(shù)據(jù)為Maxar Technologies公司免費(fèi)提供的WorldView衛(wèi)星影像,該影像的空間分辨率為0.3m,共有RGB 3波段,成像時(shí)間為2012年6月29日(圖1c)。研究區(qū)的訓(xùn)練數(shù)據(jù)與驗(yàn)證數(shù)據(jù)都位于富錦市前進(jìn)鎮(zhèn)的創(chuàng)業(yè)農(nóng)場(chǎng),該地屬于國(guó)營(yíng)農(nóng)場(chǎng),耕地比較集中,以種植一年一熟的水稻為主。該文采用目視解譯方法,選擇深度學(xué)習(xí)所需要的訓(xùn)練和檢驗(yàn)區(qū)域,其中TR1、TR2與TR3是各個(gè)CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練的區(qū)域,TS1、TS2與TS3是各個(gè)CNN網(wǎng)絡(luò)進(jìn)行驗(yàn)證的區(qū)域(圖1c)。
圖1 研究區(qū)域
集成深度學(xué)習(xí)模型包括3個(gè)主要部分:Bagging抽樣、CNN多模型訓(xùn)練和預(yù)測(cè)結(jié)果集成,如圖2所示。實(shí)驗(yàn)使用了二分類的方式,即地塊邊界和非耕地邊界。在訓(xùn)練時(shí),使用Bagging篩選樣本的方法隨機(jī)獲取數(shù)據(jù),將總體精度作為訓(xùn)練的控制函數(shù),使其各模型具有獨(dú)立性,同時(shí)在更新權(quán)重時(shí)考慮了地塊邊界編碼值的區(qū)間大小變化。該文首先建立整體樣本集,在整體訓(xùn)練樣本集中,通過(guò)Bagging隨機(jī)可放回抽樣得到相同數(shù)量的訓(xùn)練樣本子集;然后使用不同的訓(xùn)練數(shù)據(jù)子集分別對(duì)FCN、Unet、SegNet和PspNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到各CNN的預(yù)測(cè)模型;最后基于4個(gè)預(yù)測(cè)模型得到地塊邊界的概率值,按取平均值的集成方式獲得基于集成深度學(xué)習(xí)模型的耕地地塊提取結(jié)果。
圖2 集成深度學(xué)習(xí)模型流程
首先,由于訓(xùn)練數(shù)據(jù)TR1、TR2、TR3像素?cái)?shù)過(guò)大,超過(guò)了各個(gè)CNN模型所能加載的數(shù)量閾值,故將訓(xùn)練數(shù)據(jù)全部裁剪為270像素×270像素×3波段,一共獲得300張的訓(xùn)練樣本影像。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量訓(xùn)練樣本,為提高分類準(zhǔn)確率,防止模型過(guò)擬合,研究采用旋轉(zhuǎn)、軸對(duì)稱、添加噪聲點(diǎn)等圖像增強(qiáng)技術(shù)[10],擴(kuò)大訓(xùn)練數(shù)據(jù)樣本,共計(jì)獲得了2 000張影像的樣本數(shù)據(jù)庫(kù)。
然后,基于2 000張影像的訓(xùn)練樣本集,利用Bagging隨機(jī)可放回抽樣方法得到1 000張影像的訓(xùn)練樣本子集。Bagging方法,又叫袋裝法,具有訓(xùn)練樣本可放回抽樣的特性,是一種在機(jī)器學(xué)習(xí)中常用的數(shù)據(jù)處理算法。假設(shè)從總體樣本量N中有放回的隨機(jī)選取M個(gè)樣本作為子樣本集,每個(gè)子樣本集的M個(gè)樣本是有放回隨機(jī)選取的,因此每個(gè)樣本不被選中的概率為:
因此所有子樣本集約包含原樣本集總數(shù)的60.65%,其余39.35%的樣本未被選中。在總體上,不同訓(xùn)練樣本子集是相互獨(dú)立的,樣本子集的多樣性保證了各個(gè)模型不會(huì)因?yàn)橛?xùn)練數(shù)據(jù)而產(chǎn)生偏倚[10]。
Bagging在不穩(wěn)定模型集合中表現(xiàn)較好,能在訓(xùn)練數(shù)據(jù)發(fā)生微小變化時(shí)產(chǎn)生不同泛化行為的模型,即增加了樣本的多樣性,又能有效解決CNN模型訓(xùn)練時(shí)的過(guò)擬合問(wèn)題。
集成深度學(xué)習(xí)使用4個(gè)不同的CNN模型,即FCN、SegNet、PspNet和Unet,分別提取耕地地塊邊界的概率值圖,最后進(jìn)行集成。經(jīng)典的CNN通常在卷積層使用全連接層得到固定長(zhǎng)度的特征向量進(jìn)行分類,Long等在2015年提出的全卷積神經(jīng)網(wǎng)絡(luò)FCN(Fully Convolutional Networks)可以接受任意尺寸的輸入圖像,第一次實(shí)現(xiàn)了基于端到端的卷積神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割[11]。FCN采用反卷積層對(duì)最后一個(gè)卷基層的特征圖進(jìn)行上采樣,使它恢復(fù)到輸入圖像相同的尺寸,從而可以對(duì)每一個(gè)像素都產(chǎn)生一個(gè)預(yù)測(cè),保留了原始輸入圖像中的空間信息。然而FCN的最大值池化層增大感受野的同時(shí),使得圖像損失了邊緣位置信息[11]。SegNet與FCN不同的地方是,SegNet采用的是vgg16全連接層前面的網(wǎng)絡(luò)結(jié)構(gòu),并引入了更多的編碼信息,使用的是池化索引(Pooling Indices),將下采樣過(guò)程中池化的位置記錄,在上采樣中是使用該信息進(jìn)行逆池化,使得每個(gè)filter都具有幾個(gè)權(quán)重,可以得到在Pooling中相對(duì)Pooling filter的位置。這也使得SegNet具有更好的邊緣檢測(cè)的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)[12]。PspNet網(wǎng)絡(luò)(Pyramid Scene Parsing Network)則使用了兩個(gè)Loss值來(lái)評(píng)價(jià)訓(xùn)練精度,上采樣過(guò)程采用雙線性內(nèi)插算法,加快了訓(xùn)練數(shù)據(jù)的收斂速度,保留了更多的非最大值池化的圖像信息[13]。Unet分為兩個(gè)部分,前半部分作用是特征提取,后半部分是進(jìn)行上采樣。Unet采用了完全不同的特征集成方式:拼接,即Unet采用將特征在channel維度拼接在一起,形成更厚的特征。因此Unet具有多尺度識(shí)別的特點(diǎn)并且非常適合于小樣本的訓(xùn)練,但易出現(xiàn)過(guò)擬合[14]。
基于Bagging隨機(jī)可放回抽樣構(gòu)建的訓(xùn)練樣本子集,分別訓(xùn)練4個(gè)網(wǎng)絡(luò)模型,得到相應(yīng)的預(yù)測(cè)模型,然后進(jìn)行地塊概率預(yù)測(cè)。在訓(xùn)練CNN模型過(guò)程中,為控制實(shí)驗(yàn)變量,4個(gè)CNN訓(xùn)練參數(shù)設(shè)置為相同值,比如共同使用梯度下降法進(jìn)行優(yōu)化、交叉熵作為損失函數(shù)、相同的學(xué)習(xí)率與dropout等。
基于4個(gè)CNN分類器的訓(xùn)練,得到其耕地邊界相應(yīng)的概率值(0~100%)。然后將4個(gè)CNN網(wǎng)絡(luò)得到的概率值設(shè)置相同權(quán)重,并按式(2)方法獲取平均值得到最后的概率結(jié)果,獲得基于集成深度學(xué)習(xí)的預(yù)測(cè)影像,這部分流程如圖2c。該實(shí)驗(yàn)數(shù)據(jù)經(jīng)過(guò)集成深度學(xué)習(xí)模型,可以兼顧各個(gè)CNN模型的優(yōu)勢(shì),大概率保證了即使某一個(gè)分類器出現(xiàn)錯(cuò)誤,最后集成結(jié)果也是正確的,從而使得耕地地塊更接近于真實(shí)的耕地空間分布情況。
式(2)中,P是指在集成深度學(xué)習(xí)模型中每個(gè)像素被分類為地塊邊界的概率,Pi是指在第i個(gè)CNN模型中像素為邊界的概率,n為分類器的總數(shù)量。
該文將得到的地塊邊界預(yù)測(cè)結(jié)果與驗(yàn)證區(qū)域的標(biāo)簽圖進(jìn)行對(duì)比,計(jì)算用戶精度(UA,User′s Accura‐cy)、生產(chǎn)者精度(PA,Producer′s Accuracy)、總體精度(ACC,Overall Accuracy)、KAPPA系數(shù)以及P-R曲線。用戶精度是指從分類結(jié)果中任取一個(gè)隨機(jī)樣本,其所具有的類型與地面實(shí)際類型相同的條件概率。生產(chǎn)者精度是指耕地邊界類別的地面真實(shí)參考數(shù)據(jù)被正確分類的概率。
式(3)中,M是所有樣本的個(gè)數(shù),mi為在第i類中被正確分類的個(gè)數(shù),n為總樣本個(gè)數(shù),Ρ0為總體分類精度,表示每一類正確分類的樣本數(shù)量之和除以總樣本數(shù),表示對(duì)每一個(gè)隨機(jī)樣本,所分類的結(jié)果與檢驗(yàn)數(shù)據(jù)類型相一致的概率。
式(4)(5)為KAPPA系數(shù)的計(jì)算過(guò)程,ai分別是每一類的真實(shí)樣本個(gè)數(shù),bi分別是每一類的預(yù)測(cè)樣本個(gè)數(shù),n代表地物類別數(shù)量,Κ就是KAPPA系數(shù),值越高,則分類效果越好。
P-R曲線是顯著性檢測(cè)評(píng)價(jià)曲線,以召回率(Recall)作為橫坐標(biāo)軸,精確率(Precision)作為縱坐標(biāo)軸,這是在機(jī)器學(xué)習(xí)中常用的二分類問(wèn)題精度評(píng)價(jià)方法。當(dāng)分類算對(duì)樣本進(jìn)行分類時(shí),置信度表示該樣本是某種類別的概率。通過(guò)置信度就可以對(duì)所有樣本進(jìn)行排序,再逐個(gè)閾值地選擇樣本,比閾值大的都屬于耕地地塊邊界,比閾值小的都屬于非耕地地塊邊界,形成不同閾值條件下的混淆矩陣。精確率Pre‐cision和召回率Recall從混淆矩陣中計(jì)算而來(lái)。精確率Precision能夠體現(xiàn)地塊邊界分類正確的比例,即分類為地塊邊界的樣本,分正確的概率的公式為:
式(6)中,TP(True Positive)為將地塊邊界預(yù)測(cè)為地塊邊界的數(shù)量,F(xiàn)P(False Positive)將非地塊邊界預(yù)測(cè)為地塊邊界的數(shù)量。召回率Recall又稱查全率為:
式(7)中,F(xiàn)N(False Negative)表示把非地塊邊界正確地分類為非地塊邊界的數(shù)量。通過(guò)設(shè)置不同的正類概率閾值,就可得到一系列的Precision與Recall值,從而形成顯著性檢測(cè)評(píng)價(jià)P-R曲線。
使用訓(xùn)練好的FCN、SegNet、PspNet、Unet和EDL從測(cè)試影像中提取耕地地塊邊界概率圖,各個(gè)方法提取的結(jié)果如圖3所示。4個(gè)CNN網(wǎng)絡(luò)都能有效提取耕地地塊,但是不同CNN具有各自的局限性。FCN能滿足提取地塊邊界的信息特征維度要求,提取的地塊邊界清晰,拼接痕跡不明顯,但碎斑在地塊內(nèi)部分布較多,預(yù)測(cè)效率也較低。SegNet的地塊邊界較清晰,但在預(yù)測(cè)過(guò)程中保留了多余的邊緣信息,導(dǎo)致拼接痕跡較明顯、碎斑分布較多。PspNet的地塊邊界清晰,雖然碎斑較少,但是碎斑的概率值較高,拼接痕跡較明顯,預(yù)測(cè)效率也較低。Unet的地塊邊界不明顯,碎斑的概率云圖分布較少,拼接痕跡較輕,但由于自身的網(wǎng)絡(luò)特性,損失較多的耕地地塊的邊緣信息,因此地塊邊界存在較多不連通的情況。EDL則綜合了各個(gè)CNN的優(yōu)勢(shì),能保證獲取到合適、足量的特征信息,在一定程度上可以糾正分類錯(cuò)誤的類別、降低碎斑的概率值和淡化影像切片的邊緣。因此EDL提取的地塊邊界清晰、碎斑的概率云圖分布較少、拼接痕跡較淡,總體來(lái)說(shuō)EDL的提取效果最好。
圖3 FCN、SegNet、Psp Net、Unet和EDL在驗(yàn)證區(qū)域的提取結(jié)果
使用EDL提取整個(gè)研究區(qū)的地塊邊界,經(jīng)過(guò)拓?fù)溴e(cuò)誤檢查以及去除碎斑后,使其與真實(shí)耕地?cái)?shù)據(jù)進(jìn)行疊加分析,獲得基于EDL的耕地地塊數(shù)據(jù),如圖4所示。再將其與耕地?cái)?shù)據(jù)面積驗(yàn)證,耕地重疊率為96.93%,如表3所示。
圖4 EDL提取研究區(qū)耕地地塊流程
表3 耕地面積對(duì)比
將驗(yàn)證區(qū)的地塊邊界概率圖轉(zhuǎn)為二值圖之后,各方法的精度評(píng)價(jià)如表4所示。從用戶精度來(lái)看,F(xiàn)CN的用戶精度最高,PspNet用戶精度最低,也側(cè)面反映了提取FCN非地塊邊界的能力最好。從生產(chǎn)者精度來(lái)看,PspNet用戶精度最低,F(xiàn)CN、Seg‐Net、Unet精度依次升高,EDL的生產(chǎn)者精度最高,這說(shuō)明EDL提取地塊邊界的能力最好。從總體精度來(lái)看,EDL的效果最好,F(xiàn)CN、Unet、PsPNet的效果次之。從KAPPA系數(shù)來(lái)看,EDL的值最高,也說(shuō)明了EDL的綜合分類性能最好。需要注意的是PspNet的4個(gè)指標(biāo)都較低,這可能是兩個(gè)原因:(1)地塊邊界是一個(gè)二分類問(wèn)題,PspNet采用了非最大值池化的方式,提取不出地塊邊界與地塊的差異;(2)PspNet碎斑的概率云圖概率值較大,這些碎斑易被歸納為地塊邊界??偟膩?lái)說(shuō),EDL的精度存在顯著提升,具有最高的生產(chǎn)者精度、總體精度以及KAPPA系數(shù)。精度評(píng)價(jià)結(jié)果表明集成深度學(xué)習(xí)EDL確實(shí)可以改善分類結(jié)果,提高耕地地塊邊界提取的準(zhǔn)確率。
表4 各方法的精度對(duì)比
圖5為各個(gè)CNN模型與集成深度學(xué)習(xí)模型的P-R曲線對(duì)比,其中X軸是代表Recall,Y軸表示Preci‐sion。平衡點(diǎn)(BEP)是指在P-R曲線中,“Precision=Recall”時(shí)的各個(gè)方法的取值,值越大,學(xué)習(xí)器的性能越好。EDL預(yù)測(cè)結(jié)果位于P-R曲線的最右上角,同時(shí)其BEP為最大值。集成深度學(xué)習(xí)方法的提取效果最好,Unet與SegNet表現(xiàn)效果幾乎一致,而FCN表現(xiàn)更次一等,PSP網(wǎng)絡(luò)表現(xiàn)最差。
圖5 多方法的P-R曲線對(duì)比
單個(gè)CNN網(wǎng)絡(luò)各有特點(diǎn),對(duì)于地塊邊界的分類具有偏向性。雖然從分類精度來(lái)看,各個(gè)CNN提取結(jié)果相似,但是在每個(gè)CNN模型中,對(duì)于同一地物其所得到的置信度是不同的。集成學(xué)習(xí)可以將多個(gè)CNN模型進(jìn)行集成,使得集成結(jié)果兼顧各個(gè)CNN的結(jié)果特征,去除掉一部分被錯(cuò)分的地物。在4個(gè)CNN訓(xùn)練過(guò)程中,需要從同一訓(xùn)練庫(kù)中選取樣本,使用Bagging法可放回抽樣的特性,保證各個(gè)訓(xùn)練樣本子集相互獨(dú)立。
該文使用集成深度學(xué)習(xí)的方法進(jìn)行地塊提取,從提取結(jié)果圖5看,EDL的耕地邊界清晰、碎斑較少。從分類精度來(lái)看,EDL的生產(chǎn)者精度為97%,總體精度為96%,kappa系數(shù)為0.66,均高于其余4個(gè)CNN網(wǎng)絡(luò)。從P-R曲線看,EDL的平衡點(diǎn)均大于其余4個(gè)CNN網(wǎng)絡(luò),具有更好的提取性能。相較于單個(gè)CNN網(wǎng)絡(luò),利用集成深度學(xué)習(xí)在高分辨率影像中提取耕地地塊,可以有效提高提取精度。
但是該文所使用的CNN為基于像素的分割網(wǎng)絡(luò)模型,因此提取的地塊邊界結(jié)果存在碎片、邊界不連續(xù)的情況,下一步工作將放在地塊邊界連通性上。此外,該文僅在東北的三江平原提取地塊,但我國(guó)幅員遼闊,如何將該方法應(yīng)用于我國(guó)其他地理?xiàng)l件不同的區(qū)域,值得進(jìn)一步的探索。
針對(duì)目前深度學(xué)習(xí)中存在的CNN網(wǎng)絡(luò)選擇困難以及過(guò)擬合問(wèn)題,該文提出基于集成深度學(xué)習(xí)模型的耕地地塊提取方法,該方法首先使用Bagging法實(shí)現(xiàn)樣本隨機(jī)抽樣,然后使用4個(gè)CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到各自的預(yù)測(cè)模型,最后通過(guò)集成學(xué)習(xí)提取到耕地地塊。結(jié)果表明了集成深度學(xué)習(xí)模型相較于單個(gè)CNN網(wǎng)絡(luò)具有更高的提取精度,實(shí)現(xiàn)了基于高分辨率遙感影像的地塊提取,這為我國(guó)地塊提取研究提供了新的方法與思路。
中國(guó)農(nóng)業(yè)資源與區(qū)劃2022年7期