李安娜 馬慶偉 董士偉 周鵬娜 李西燦 劉 玉
(1.山東農業(yè)大學信息科學與工程學院, 泰安 271018;2.山東省地質礦產勘查開發(fā)局八〇一水文地質工程地質大隊, 濟南 250014;3.北京市農林科學院信息技術研究中心, 北京 100097)
準確可靠的精度評價是遙感分類進行決策應用的前提和基礎[1]。通過抽樣構建混淆矩陣是進行遙感分類精度評價的關鍵步驟[2-3],目前常見的抽樣方法包括簡單隨機抽樣[4]、分層抽樣[5]、系統(tǒng)抽樣[6]等。抽樣的關鍵在于選取的樣本點是否具有代表性,現(xiàn)有抽樣方式獲取的樣本點分布在特征空間與地理空間中存在代表性不強的缺陷,導致由樣本點統(tǒng)計推斷總體容易出現(xiàn)偏差,因此設計樣本點權重調整方法進行相應的數(shù)據(jù)糾偏非常關鍵。
樣本點權重調整方法主要包括層次分析法[7]、專家打分法、格網法[8]及分層權重調整法[9]等。其中,層次分析法與專家打分法的權重調整規(guī)則一般是固定的,難以滿足復雜變化的應用場景,致使樣本點代表性難以得到保證;格網法直接對所有樣本點進行調整,導致大部分真實可靠的樣本點代表性有所降低,進而降低總體抽樣效果;分層權重調整法把總體數(shù)據(jù)按照某種特征或規(guī)則劃分成若干層[10-12],兼顧分層特征屬性信息對各層樣本點進行調整,提高了采樣效率,但其調整規(guī)則的科學性有待進一步提高。分層權重調整法主要包括調整樣本點權重和調整樣本點數(shù)量兩種模式。調整樣本點權重主要通過調整有偏樣本的屬性值,整個調整過程中不改變各層樣本點數(shù)量,如將樣本點劃分為聚集樣本點、稀疏樣本點和均勻樣本點,對聚集樣本點和稀疏樣本點進行權重調整,從而優(yōu)化采樣數(shù)據(jù)[13]。當采樣點數(shù)量較大,或者采樣數(shù)據(jù)質量較差時,該模式權重調整量大且可能糾偏效果較差,此外未能充分利用樣本點的地理空間信息。調整樣本點數(shù)量主要依據(jù)特征準則將各分層的樣本點數(shù)量進行增刪,以提高樣本點特征空間的代表性。目前常規(guī)分層抽樣實驗的各層初始樣本點數(shù)量大都由面積比例決定[14-17],沒有充分利用分層的特征信息。依據(jù)分層原理,設計相應的權重調整函數(shù),可以進一步提高樣本點分配的合理性,提高由樣本點統(tǒng)計推斷總體的準確性。在地物破碎、異質性強的區(qū)域,基于不確定信息進行分層可以提高樣點布設效率[18],如利用分類不確定性將樣本點分為多個不確定性空間分層,設計權重調整函數(shù)來分配各層采樣數(shù)量,保證樣本點空間分布的合理性[19]。該模式適用于不同的樣本點集,且不影響樣本點后續(xù)的地理空間優(yōu)化布局,兼顧了樣本點的地理空間和特征空間信息,提高了采樣代表性,但科學合理地構建權重調整函數(shù)非常困難,相關研究甚少。
綜合考慮各層的數(shù)量屬性和不確定性信息構建新的權重分配準則,可以提高各層權重分配的合理性。在定權過程中,兩種屬性如何定量構建權重調整函數(shù),是設計兼顧面積屬性與不確定性信息的樣本點權重調整方法的關鍵?;诖?本文以北京市順義區(qū)為例,在不確定性空間分層結果的基礎上,結合各層數(shù)量屬性與不確定信息,構建權重調整函數(shù)用來優(yōu)化樣本點特征空間的數(shù)量分配,用于布設遙感分類精度評價樣本點,對樣本點權重調整效果進行評價,并設置與不同布點方法的對比實驗,估計樣本點權重調整的數(shù)據(jù)糾偏效果,旨在提高各個分層的樣本點空間分配的科學性和合理性。
順義區(qū)位于北京市東北部,地理坐標為東經116°28′~116°59′,北緯40°00′~40°18′。地勢北高南低,氣候屬于暖溫帶半濕潤大陸性季風氣候。全區(qū)土地利用面積為1 020 km2,主要包括耕地、林地、建設用地、水域等。順義區(qū)復雜的環(huán)境屬性導致地物組成多樣,地類空間分布相互交錯,使得地物空間異質性較強,且光譜信息容易混淆。因此,設計兼顧面積屬性與不確定性信息的樣本點權重調整方法對順義區(qū)進行各層樣本點空間分配非常必要。
研究采用北京市順義區(qū)2017年分辨率10 m全球土地覆蓋產品FROM-GLC10、分辨率30 m Landsat 8 OLI遙感分類產品和不確定性空間分層結果,遙感產品的重分類和研究區(qū)的空間制圖基于ArcGIS 10.6軟件實現(xiàn)。數(shù)據(jù)詳情如下:
(1)FROM-GLC10遙感數(shù)據(jù)產品:采用Sentinel-2衛(wèi)星數(shù)據(jù),利用隨機森林分類方法將土地覆被分為10個類型[20],基于全球全季相驗證樣本評價的產品精度為72.76%,精度相對可靠,具有很好的適用性[21-24]。將順義區(qū)原始產品重分類為耕地、林地、草地、水域、建設用地和未利用地6類,用于對不同樣本點布設結果進行精度評價。
(2)遙感分類產品:基于2017年9月28日的Landsat 8 OLI衛(wèi)星數(shù)據(jù),采用隨機森林算法獲取每個像元歸屬各個地類的后驗概率,基于最大概率將研究區(qū)分為耕地、林地、草地、水域、建設用地和未利用地6類[19],分類結果如圖1所示?;?0 m FROM-GLC10對全部像元評價的總體精度為72.56%。該數(shù)據(jù)的用途為:①基于后驗概率計算概率殘差和概率熵,構建不確定性度量指標。②基于分類結果在精度評價中驗證樣本點權重調整效果。
圖1 順義區(qū)隨機森林遙感分類
(3)不確定性空間分層結果:Landsat 8 OLI衛(wèi)星數(shù)據(jù)隨機森林分類后,基于各個像元的后驗概率分別計算最大概率、模糊混淆指數(shù)、概率熵作為不確定性度量指標,采用模糊C均值聚類,將研究區(qū)劃分為3層:不確定性大、中、小的層[19],分層結果如圖2所示。該數(shù)據(jù)用途為:①用于計算各方法權重分配值,將全部樣本點數(shù)分配至各層。②用于各層樣本點的地理空間優(yōu)化布設。
圖2 順義區(qū)分類不確定性空間分層結果
技術路線如圖3所示,主要分為以下3個部分:①構建模糊調整權重?;陔S機森林算法獲得的后驗概率,計算概率殘差與概率熵,利用二者構建模糊中和指數(shù),并計算模糊中和指數(shù)權重。使用模糊中和指數(shù)權重與面積權重構建模糊調整權重,完成各層權重分配。②樣本點空間布設。基于權重調整結果和總樣本點數(shù),完成樣本點特征空間分配;基于平均最短距離最小化準則和空間模擬退火算法,完成樣本點地理空間優(yōu)化布設。③對比分析。構建總體精度(OA)、相對精度(RA)、均方根誤差(RMSE)和標準偏差(STDEV)指標,與不同調整權重的布點方法、未調整權重的布點方法進行對比分析,評估設計的模糊調整權重的樣本點布設效果。
圖3 技術路線圖
(1)模糊調整權重
不確定性空間分層后,僅考慮各層的數(shù)量屬性按照面積權重進行全部樣本點的分配,忽略地物不確定性信息,弱化不確定性分層的優(yōu)勢;僅考慮分層的不確定性信息構建權重調整函數(shù),忽略數(shù)量(面積)屬性,部分分層的權重分配結果可能呈現(xiàn)調整過度的過擬合現(xiàn)象,如不確定性程度很大且面積很小的分層,分配較多的樣本點數(shù),難以保證樣本點在特征空間的整體代表性。因此,研究將面積權重作為基礎權重,依據(jù)面積權重與模糊中和指數(shù)權重的差異程度確定調整量,以此構建權重調整函數(shù),得到模糊調整權重,具體計算公式為
(1)
其中
(2)
式中 Δi——模糊中和指數(shù)權重與面積權重的差異指數(shù)
n——總的分層數(shù)目
(2)模糊中和指數(shù)權重
概率矢量可以在像元尺度上表達遙感分類結果的不確定性,基于概率矢量可以構建衡量像元模糊程度的指標[25-26]。其中,概率殘差是衡量像元絕對不確定性的代表性指標,突顯了最大概率的優(yōu)勢,有效反映了像元歸屬最終類別的可信程度;概率熵是衡量像元相對不確定性和混合程度的代表性指標,考慮了概率矢量各成分之間的離散程度,利用了所有后驗概率提供的信息[27]。概率殘差和概率熵在空間中的分布結構既有相同性,又有互補性,綜合概率殘差和概率熵可以表征像元包含的不確定性信息[28]。
首先,對概率殘差和概率熵歸一化,再賦予二者相同的權重,構建模糊中和指數(shù)fij,用以衡量每個像元的不確定性程度,計算公式為
(3)
式中fij——第i層第j個像元模糊中和指數(shù)
Hij——第i層第j個像元歸一化概率熵
ΔPij——第i層第j個像元歸一化概率殘差
fij的取值范圍為0~1,fij越大,該像元模糊程度越高,越容易被誤分;fij越小,該像元模糊程度越低,分類越準確。
其次,計算每層平均模糊中和指數(shù),作為衡量每層不確定信息的指標,計算公式為
(4)
式中Ai——第i層平均模糊中和指數(shù)
mi——第i層像元總數(shù)
Ai取值范圍為0~1,Ai越大,該層平均模糊程度越高,越容易被誤分;Ai越小,該層平均模糊程度越低,分類越準確。
最后,由每層的平均模糊中和指數(shù)在總體平均模糊中和指數(shù)中的比例確定每層的模糊中和指數(shù)權重,計算公式為
(5)
(3)面積權重
根據(jù)分層后每層面積與研究區(qū)總面積的比例來確定各層權重,其表達式為
(6)
式中Si——第i層面積,km2
S——研究區(qū)總面積,km2
對于像元尺度的面積權重計算,相應面積可由像元個數(shù)與每個像元的面積相乘得到。面積權重越大表示該層包含像元數(shù)目相對越多,面積權重越小表示該層包含像元數(shù)目相對越少,充分反映了各分層的像元數(shù)量信息。
基于樣本點總數(shù)和各層權重得到每層分配的樣本點數(shù)量,完成樣本點的特征空間分配,其中樣本點總數(shù)的確定采用FOODY[29]提出的最少樣本點總數(shù)計算方法?;谄骄疃叹嚯x最小化準則和空間模擬退火算法實現(xiàn)樣本點空間布局優(yōu)化。其中平均最短距離最小化準則通過使研究區(qū)內任意一個樣本點到與它最鄰近樣本點之間距離的期望值最小,進而達到樣本點在地理空間中盡可能均勻覆蓋的目的[30-31]。空間模擬退火算法通過設置一個初始溫度及循環(huán)次數(shù),隨機布設初始樣本點并計算初始樣本點對應的目標函數(shù),之后通過擾動運動產生新的樣本點,通過2個目標函數(shù)對比確定是否接受新的樣本點布局,不斷循環(huán)此過程直至樣本點達到全局最優(yōu)布設[32]。
基于最少樣本點總數(shù),梯度設置不同的樣本點數(shù)據(jù)集進行多次實驗,選擇總體精度、相對精度、均方根誤差、標準偏差為評估指標,以FROM-GLC10數(shù)據(jù)為參考,對樣本點優(yōu)化布設結果進行精度評價。
總體精度為被正確分類的樣本點數(shù)與總體樣本點數(shù)的比值;相對精度表示與全部像元評價的總體精度的接近程度;均方根誤差為觀測值與全部像元評價的總體精度之間的離散程度;標準偏差用于給定一個數(shù)據(jù)集的離散程度。其中,總體精度POA的計算公式為
(7)
式中Ni——第i層樣本點總數(shù)
Ri——第i層分類正確的樣本點總數(shù)
Wi——第i層權重
計算樣本點權重調整結果。結合圖2,使用式(6)計算順義區(qū)不確定性大的層、不確定性中的層、不確定性小的層的面積權重分別為0.31、0.33、0.36。根據(jù)各像元屬于各個地類的后驗概率計算概率殘差及概率熵,使用式(3)獲得模糊中和指數(shù),再根據(jù)式(4)、(5)計算順義區(qū)不確定性大的層、不確定性中的層、不確定性小的層的模糊中和指數(shù)權重分別為0.50、0.37、0.13。利用面積權重及模糊中和指數(shù)權重,使用式(1)、(2)計算出順義區(qū)不確定性大的層、不確定性中的層、不確定性小的層的模糊調整權重分別為0.45、0.37、0.18。
對權重調整效果進行評價。假設順義區(qū)遙感影像分類期望精度為90%,依據(jù)FOODY的算法計算研究區(qū)最少布設的樣本點數(shù)為98個。設置98、196、294、392、490梯度數(shù)據(jù)集分別進行實驗,以減小偶然誤差,檢驗方法穩(wěn)定性。按模糊調整權重分配各梯度樣本點集,結果如表1所示。
表1 樣本點空間分配
完成各層樣本點數(shù)量分配之后,基于平均最短距離最小化準則與空間模擬退火算法實現(xiàn)樣本點地理空間布局優(yōu)化,5次實驗樣本點布設結果如圖4所示。將FROM-GLC10遙感數(shù)據(jù)產品重分類結果作為參考數(shù)據(jù),對布點結果進行精度評價?;谌肯裨u價的總體精度為72.56%,作為研究區(qū)總體精度的“真實值”。根據(jù)式(7)計算98、196、294、392、490個樣本點布設得到的總體精度分別為72.47%、69.90%、73.48%、73.28%、72.10%,進而計算其相對精度為99.82%、96.28%、98.79%、99.06%、99.31%,均方根誤差和標準偏差分別為0.01和0.01,結果表明模糊調整權重法的相對精度高、方法可靠穩(wěn)定。
圖4 樣本點優(yōu)化布設結果
(1)與其他權重調整布點方法對比
模糊調整權重與面積權重、模糊中和指數(shù)權重、不確定性空間分層權重進行對比分析,結果如表2所示。模糊調整權重與面積權重相比,不確定性大的層權重增加0.14,不確定性中的層增加0.04,不確定性小的層減少0.18。模糊調整權重與模糊中和指數(shù)權重相比,不確定性大的層減少0.05,不確定性中的層權重一致,不確定性小的層增加0.05。模糊調整權重與不確定性空間分層權重相比,不確定性大的層增加0.02,不確定性中的層減少0.02,不確定性小的層權重一致。
表2 不同方法權重計算結果
將不同梯度樣本點集分別按照面積權重、模糊中和指數(shù)權重、不確定性空間分層權重分配,并分別計算總體精度、均方根誤差、標準偏差以及總體精度的平均值,進行效果評價與對比分析,如表3所示。
表3 不同權重方法的總體精度和總體精度均值
基于模糊調整權重、面積權重、模糊中和指數(shù)權重、不確定性空間分層權重分配樣本點后評價的標準偏差分別為0.01、0.02、0.03、0.04,相應的均方根誤差分別為0.01、0.02、0.04、0.03;從表3可知,模糊調整權重法的總體精度均值與真實總體精度值最相近,可靠性最強,且其均方根誤差和標準偏差最小,穩(wěn)定性最好。模糊調整權重的定權結果,與面積權重相比,模糊程度高的分層權重增加,模糊程度低的分層權重減少,保留了更多的不確定性信息,強化了不確定性分層的優(yōu)勢,又避免了僅使用數(shù)量屬性定權造成的信息丟失現(xiàn)象;與模糊中和指數(shù)權重相比,在考慮不確定性信息的基礎上,根據(jù)各層實際的數(shù)量屬性,對不確定性小的層和不確定性大的層的權重做了適當增減,避免了權重調整過度問題;與不確定性空間分層權重相比,調整規(guī)則更加細致,刻畫出了具體的權重調整量,準確性和穩(wěn)定性更強。綜上,模糊調整權重比面積權重、模糊中和指數(shù)權重、不確定性權重方法的調整效果更優(yōu)。
(2)與未調整權重的布點方法對比
設置與未調整權重布點方法(空間均勻抽樣和簡單隨機抽樣方法)的對比實驗。樣本點數(shù)據(jù)集分別為98、196、294、392、490,其中簡單隨機抽樣在每個數(shù)據(jù)集中隨機抽樣5次,進一步降低隨機抽樣結果的偶然性。基于總體分類精度及其均值、均方根誤差和標準偏差的評價指標體系,對樣本點布設結果進行評價,如表4所示。模糊調整權重布點方法、空間均勻和簡單隨機抽樣方法標準偏差分別為0.01、0.04、0.04,相應的均方根誤差分別為0.01、0.05、0.02;本文抽樣方法的總體精度均值與真實總體精度值最相近,可靠性最強,且其均方根誤差和標準偏差最小,穩(wěn)定性最好。因此,模糊調整權重布設遙感分類精度評價樣本點效果優(yōu)于空間均勻抽樣和簡單隨機抽樣方法。
表4 不同抽樣方法的總體精度和總體精度均值
(1)設計的模糊調整權重用于不確定性空間分層的樣本點優(yōu)化布設,實現(xiàn)了各個分層的數(shù)量屬性和不確定性信息的融合。順義區(qū)不確定性大、中、小的層的模糊調整權重分別為0.45、0.37、0.18,5個不同數(shù)據(jù)集樣本點權重調整的精度評價總體精度、相對精度、均方根誤差、標準偏差結果分別為69.90%~73.48%、96.28%~99.82%、0.01和0.01。
(2)模糊調整權重、面積權重、模糊中和指數(shù)權重、不確定性空間分層權重布點方法和空間均勻抽樣、簡單隨機抽樣方法的總體精度均值與標準偏差分別為72.25%與0.01、73.09%與0.02、70.45%與0.03、69.81%與0.04、70.13%與0.04、73.54%與0.04,相應的均方根誤差分別為0.01、0.02、0.04、0.03、0.05、0.02。模糊調整權重布點方法的總體精度均值與真實總體精度值最相近,可靠性最強,且其均方根誤差和標準偏差最小,穩(wěn)定性最好。
(3)設計的模糊調整權重布點方法能夠兼顧面積屬性和不確定性信息,又可以避免信息丟失和調整過度,適用于解決樣本點空間分配定權問題。但在數(shù)據(jù)源、模糊中和指數(shù)構建、最優(yōu)權重調整方法等方面存在一定的不確定性,未來考慮綜合集成多源參考數(shù)據(jù)、模糊分層規(guī)則、不確定性信息最優(yōu)表征方法等,進一步降低或消除研究過程中的上述不確定性。