劉建歌,白 穆,王馨爽
(1.自然資源部陜西基礎地理信息中心,陜西 西安 710054)
深度學習是目前遙感影像自動解譯的主流方法[1-5]。第一次全國地理國情普查[6]以及每年開展的基礎性地理國情監(jiān)測工作,獲取了包括地表覆蓋分類數據在內的可表征自然地表覆蓋情況和地理國情要素的海量數據庫[7-8]。地表覆蓋數據具有覆蓋面積全,精細度高且逐年更新的優(yōu)勢,使得該數據具有作為樣本進行遙感影像地物目標深度學習分類的能力和優(yōu)勢,與依照影像進行人工標注的工作相比,成本大大減少。
然而,直接使用地表覆蓋數據作為模型訓練的樣本數據,通常存在一定的誤差。為了驗證存在誤差的地表覆蓋數據作為樣本進行深度學習模型訓練的可行性,研究分別采用人工標注的準確樣本和不同量的地表覆蓋數據樣本進行模型訓練,比較和分析了不同樣本獲得的分類結果的準確性。研究結果表明深度學習分類算法具有一定的容錯能力,當樣本量足夠大時,即使樣本數據存在一定的誤差,同樣能夠得到有效的分類結果,從而驗證了地表覆蓋數據作為深度學習算法訓練樣本的可行性,一定程度上解決了深度學習中樣本獲取的難點問題。
研究采用高分二號影像,將秦嶺山區(qū)中的耕地作為提取對象,主要原因為:第一,山區(qū)地形復雜,影像質量不好,容易出現陰影、拉花、形變、邊界模糊等問題,與平坦地區(qū)的地物目標識別相比,自動解譯更加具有難度。第二,山區(qū)中的耕地情況復雜,例如,受季節(jié)和影像的影響較大,直接與地表覆蓋數據進行匹配,存在漏標和錯標的現象,如圖1a所示;存在大面積的耕地、林草的混雜區(qū)域,如圖1b所示;存在已經沒有耕種痕跡的撂荒耕地現象,這種情況應該分類為草地,但部分地表覆蓋數據未更新,仍標注為耕地,如圖1c所示。以上情況造成地表覆蓋數據與基于影像的人工標注結果差異較大,能夠有效比較出不同樣本之間的分類差異。
圖1 地表覆蓋數據與人工標注分類結果的差異(高分二號融合影像)
1.2.1 衛(wèi)星影像數據
研究采用的衛(wèi)星影像數據源為高分二號衛(wèi)星的全色影像和多光譜影像,其中全色波段的空間分辨率為1.0 m,多光譜的空間分辨率為4.0 m。影像通過正射校正、大氣校正后,利用高通濾波變換算法(HPF)將全色與多光譜影像進行融合,獲得空間分辨率為1.0 m的融合影像。
其中訓練影像采用位于商洛區(qū)域,處于植被生長季的高分二號多光譜與全色的融合影像,進行耕地提取的模型訓練,影像景號為GF2-1653111-20160620,大小約為35 000×33 000個像素,如圖2所示。
圖2 用于模型訓練的高分二號融合影像
用于分類和結果分析的影像采用與訓練影像同一天拍攝的高分二號多光譜與全色的融合影像,位于與訓練影像地表類型相似的商洛區(qū)域,影像景號為GF2-1653112-20160620。
1.2.2 地理國情監(jiān)測數據
我國的測繪部門于2015年完成了第一次全國地理國情普查工作,獲取了覆蓋全國范圍的高精度普查數據。在此基礎上,每年開展基礎性地理國情監(jiān)測,形成了豐富的地表覆蓋分類數據,反映了地表自然營造物和人工建造物的自然屬性。隨著地理國情普查工作的完成以及地理國情監(jiān)測工作的常態(tài)化,地理國情監(jiān)測成果日益豐富,具有客觀、精細以及全覆蓋等特點。
研究基于深度學習卷積神經網絡,采用在小樣本量條件下同樣能夠獲得較好分類結果的Unet模型[9],進行模型訓練和影像分類。
首先,比較相同樣本量情況下,準確樣本和地表覆蓋樣本之間的差異,研究選擇訓練影像中約10 000×10 000個像素大小(約0.1景訓練影像),且包括城鎮(zhèn)與山區(qū)的小區(qū)域(圖2的黃框區(qū)域)進行人工標注樣本和地表覆蓋分類樣本的比較,如圖3所示。同時計算出小區(qū)域人工標注樣本與地表覆蓋樣本之間的誤差率約為10%,據此粗略推斷訓練影像的耕地要素地表覆蓋誤差率約為10%。
圖3 高分二號影像黃框區(qū)域影像及樣本(紅色為耕地,灰色為其他)
其次,比較相同錯誤率條件下,不同樣本量深度學習算法的容錯情況,研究分別采用了小區(qū)域(黃框區(qū)域)對應地表覆蓋樣本、半景訓練影像對應地表覆蓋樣本以及整景訓練影像對應地表覆蓋樣本訓練分類模型。
綜上所述,研究基于相同的分類方法,比較和分析四組不同的訓練樣本獲得的分類結果,分別為小區(qū)域人工標注樣本、小區(qū)域地表覆蓋樣本、半景影像地表覆蓋樣本以及整景影像地表覆蓋樣本,進行模型訓練,獲得對應的分類模型。
為了能夠定量描述分類結果的準確性,需要對測試區(qū)域的耕地進行人工標注,獲得準確分類結果作為參考,因此在測試影像上選擇了四塊區(qū)域對分類結果進行評價,其中2個為城鎮(zhèn)區(qū)域,耕地特征明顯,地塊較大;另外2個為山區(qū),耕地分布較為細碎,且撂荒情況嚴重,地表覆蓋樣本的誤差較大,分類難度更大,如圖4所示。
圖4 測試用高分二號融合影像以及參考結果
將測試影像的人工標注分類結果作為參考,利用不同樣本獲得的分類結果計算混淆矩陣[10],得到總體準確率、Kappa值和耕地類別的F1值,對不同樣本獲得的分類結果進行優(yōu)劣性評價,以分析深度學習算法的容錯性和地表覆蓋數據樣本的可用性。
混淆矩陣是總結分類模型預測結果的情形分析表,以矩陣的形式將數據集中的分類,按照真實的類別與分類結果的2個標準進行匯總?;煜仃嚢?個元素:TP(真實值為1,預測值為1的數量);FP(真實值為0,預測值為1的數量);FN(真實值為1,預測值為0的數量)以及TN(預測值為0,標記值為0的數量)。其中,總體準確率表示被正確分類的像元總數與分類影像總像元數的比值;Kappa值為將所有地表真實分類中的像元總數乘以混淆矩陣對角線的和,減去各類真實像元與該類中被分類像元總數之積,除以總像元數的平方減去各類中真實像元總數與該類中被分類像元總數之積對所有類別求和的結果;F1值是分類結果的精確率和召回率的調和平均數,是分類模型精確度的一種有效指標[11],各參數的值均在[0,1]之間,值越大說明結果越好,精度越高,計算方法如公式(1)所示。
實驗采用的Unet模型輸入為4波段、大小為512×512×4的16位圖像塊,以及對應的512×512的樣本數據,并且采用早停法得到訓練的迭代次數以獲得最佳的分類模型。利用訓練好的模型對測試影像進行分類,并對不同樣本獲得的分類結果進行了定性和定量分析。
如圖5所示,不同樣本訓練模型獲得的分類結果差異較大,a、b、c、d分別表示圖4中4個區(qū)域的分類結果。
圖5 采用不同樣本訓練模型獲得的分類結果(紅色為耕地區(qū)域,灰色為其它)
根據結果可知,由于分類影像與訓練影像地表相近、時相相同,因此當采用人工標注的樣本時,即便樣本量較小,仍能夠獲得準確率高,邊界準確的分類結果。當采用地表覆蓋數據做樣本時,在小樣本量的情況下,分類結果最差,存在較大的誤檢情況,將大多數撂荒和混雜區(qū)誤檢為耕地,并且邊緣處分類結果不清晰,誤差較大。在地表覆蓋樣本誤差率不變的情況下,隨著樣本量的增加,分類結果越好,誤檢情況減少,且邊緣處分類結果越來越清晰,深度學習算法的容錯能力越強。
根據第2節(jié)中提到的評價方法,利用混淆矩陣將測試區(qū)域人工標注的耕地分類結果作為參考(圖4所示),分別計算了不同分類結果的準確率、Kappa值以及F1值,如圖6所示。
圖6 不同樣本分類結果的準確性分析
由圖6可知,小區(qū)域人工標注樣本能夠獲得準確率最高的分類結果,準確率最高能夠達到98%,最低也能夠達到94%。小區(qū)域地表覆蓋樣本的分類結果準確率最低,與人工標注結果的準確率相差約10%。隨著樣本量的增加,在地表覆蓋樣本誤差率不變的條件下,地表覆蓋樣本數據獲得的分類結果準確率、Kappa值以及F1值均在逐漸增加,且由圖5、6可以看出,采用整景地表覆蓋樣本能夠獲得與人工標注樣本相似的分類結果。
實驗結果表明采用整景影像進行訓練時,深度學習算法具有≥10%的容錯能力。隨著樣本量的增加,樣本的容錯能力在持續(xù)增加。當樣本的錯誤率更大時,則需要更多的樣本進行模型訓練。
研究表明深度學習的分類結果與樣本的準確性和樣本量存在密切關系,通常大量的準確樣本能夠得到最好的分類結果,但是樣本標注工作費時費力,時效低。利用地理國情監(jiān)測的地表覆蓋數據成果,能夠在短時間內獲取多景影像的樣本數據,直接使用地表覆蓋數據與訓練影像存在一定的誤差,但隨著樣本量的增加,深度學習算法的容錯能力越強。因此,當樣本量足夠大時,同樣能夠得到有效的分類結果,大大減少了樣本獲取的成本,提高了地物提取的時效性。研究成果說明了地表覆蓋數據作為深度學習分類樣本的可行性,為如何更好地使用該數據提供了思路,一定程度上解決了深度學習中樣本獲取的難點問題。
然而,研究選擇的地表場景相對簡單,對于復雜場景下深度學習算法的容錯能力、不同誤差率下需要的樣本量差異以及容錯能力的限度等方面,還需要進一步的實驗和研究。