成 功,羅 丹,張洪瑞,鄧小青,張寶一
(1. 中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南 長沙 410083;
2. 中南大學(xué) 有色金屬成礦預(yù)測與地質(zhì)環(huán)境監(jiān)測教育部重點實驗室,湖南 長沙 410083;3. 湖南工商大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,湖南 長沙 410205)
對定量遙感反演結(jié)果進行檢驗是遙感反演研究的一個重點,之前研究多通過計算采樣點實測值與預(yù)測值二者數(shù)值上的差異,或通過直觀觀測對比反演結(jié)果與實測數(shù)據(jù)的空間一致性來評價其精度,存在一定的主觀性,需對定量反演結(jié)果空間精度進行分析。本文以長株潭地區(qū)土壤表層As元素為例,建立Landsat5遙感數(shù)據(jù)與元素含量之間的神經(jīng)網(wǎng)絡(luò)模型,預(yù)測研究區(qū)As元素的含量和分布,并引入混淆矩陣方法分析產(chǎn)品總體精度,通過多個指標(biāo)分析空間精度[1-11]。
本文研究區(qū)為長株潭地區(qū)(長沙-株洲-湘潭),位于湖南省湘江流域(112°45′~113°15′E,27°40′~28°22′N),屬于亞熱帶季風(fēng)氣候,四季分明,雨熱同期。長株潭地區(qū)為湖南經(jīng)濟發(fā)展的核心增長區(qū),湘江沿岸由于農(nóng)業(yè)生產(chǎn)和工業(yè)發(fā)展,尤其是機械、化學(xué)、有色金屬等的發(fā)展,地區(qū)內(nèi)大量重金屬累積于地表[12-13],土壤重金屬污染成為重要的研究課題。
1.2.1 實測元素含量
2005 年12 月于長株潭地區(qū)采集550 條樣本數(shù)據(jù),采樣方法為規(guī)則格網(wǎng)采樣,分布如圖1 所示。樣本采集基于地面20 cm 左右深度,風(fēng)化干燥過篩后進行實驗室化學(xué)成分分析。采用電感耦合等離子質(zhì)譜儀(ICP-MS)獲取元素含量,采樣點As 元素含量統(tǒng)計數(shù)據(jù)及環(huán)境標(biāo)準(zhǔn)如表1 所示。依據(jù)1995 年國家土壤環(huán)境質(zhì)量標(biāo)準(zhǔn),III 類適用于林地土壤和污染物容量較大的高背景值土壤和礦產(chǎn)附近等地的農(nóng)田,土壤質(zhì)量基本對環(huán)境不造成危害。研究區(qū)內(nèi)有26 個采樣點As含量超過III類,說明土壤存在一定的As污染。
圖1 研究區(qū)及采樣點
表1 樣本數(shù)據(jù)統(tǒng)計及環(huán)境標(biāo)準(zhǔn)
1.2.2 影像預(yù)處理
選取2005 年11 月的Landsat5 影像,分辨率為30 m×30 m,下載地址為(https://landsatlook.usgs.gov/viewer.html)。所選影像上空無云對影像進行輻射定標(biāo)、大氣校正、幾何校正等預(yù)處理。
輻射定標(biāo)消除傳感器在運行中自身光學(xué)器件性能逐漸退化,從而導(dǎo)致的輻射失真和畸變。大氣校正將影像的輻射亮度值轉(zhuǎn)換為地表反射率,主要目的是消除或減少大氣分子和氣溶膠對電磁波的散射、吸收而致使地物自身反射率的影響[14]。幾何校正消除影像上由于地物幾何位置、形狀等的變形引起的誤差。影像輻射定標(biāo)、大氣校正操作均在ENVI 5.3軟件平臺下完成;幾何校正通過ArcGIS 10.5 實現(xiàn),校正坐標(biāo)參考1∶50 000地質(zhì)圖,變換方式為一階多項式(仿射)。
1.2.3 相關(guān)性分析
對原始波段反射率(R)分別做對數(shù)變換(LogR)和倒數(shù)變換(1/R),使用SPSS軟件對反射率與As元素含量相關(guān)性進行分析,相關(guān)系數(shù)絕對值越大,說明反射率與含量的相關(guān)性越強。選取相關(guān)性較高的波段處理方法做進一步建模分析,分析結(jié)果如表2 所示。再選取倒數(shù)變換后的反射率與重金屬含量做定量分析。
表2 波段反射率與As含量相關(guān)性分析
BP 神經(jīng)網(wǎng)絡(luò)[15-16]具有結(jié)構(gòu)簡單、可塑性強的特點,能夠有效擬合非線性關(guān)系[17]。本次反演模型在MATLAB R2016a中實現(xiàn)。網(wǎng)絡(luò)模型結(jié)構(gòu)為單個隱含層的神經(jīng)網(wǎng)絡(luò),多光譜6 個波段反射率倒數(shù)為輸入,As 元素含量為輸出,隨機選取500 條數(shù)據(jù)作為建模數(shù)據(jù),剩余50條數(shù)據(jù)為驗證集。隱層節(jié)點數(shù)為8 個;訓(xùn)練誤差為0.01,學(xué)習(xí)速率0.01;訓(xùn)練函數(shù)為正切S 型傳遞函數(shù)tansig 和對數(shù)S 型傳遞函數(shù)logsig,學(xué)習(xí)訓(xùn)練函數(shù)為最速下降BP算法traingd。模型結(jié)構(gòu)如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 模型精度檢驗
除建模數(shù)據(jù)外剩余50條實測數(shù)據(jù)作為驗證集,通過對比實測與反演后As元素含量進行精度驗證,驗證指標(biāo)為決定系數(shù)R2和均方根誤差RMSE,其計算公式如下:
式中,y為實測As 元素含量;y?為模型反演后的預(yù)測值;yˉ為50個采樣點As元素含量的平均值。R2越大說明模型的擬合程度越高,模型精度越高;RMSE用來衡量預(yù)測值與實測值的偏差,RMSE 越小,說明模型的誤差越小,則模型越好。
2.2.2 混淆矩陣
混淆矩陣又稱為誤差矩陣,常用于精度評價,以N×N的矩陣來表示。本文選用二值化的矩陣,將采樣點按照其As元素含量分為極值點和非極值點,通過比較反演前后極值點與非極值點的一致性進行精度評價[18-19],評價指標(biāo)包括總體分類精度、用戶精度、產(chǎn)品精度等。矩陣結(jié)構(gòu)及相關(guān)指數(shù)計算見表3。
表3 混淆矩陣結(jié)構(gòu)及計算公式
混淆矩陣分類的正確性可以通過計算以下數(shù)值來評估:正確識別為極值點的數(shù)量(tp)、正確識別為非極值點的數(shù)量(tn)、未正確識別為極值點的數(shù)量(fp)、未被識別為非極值點的數(shù)量(fn)??傮w分類精度OA 用于評價所有采樣點反演前后分類的正確性,取值范圍[0,1],越接近1說明反演正確率越高。
2.2.3 空間精度評價
為評價反演結(jié)果與實測數(shù)據(jù)的高值區(qū)域在空間上的一致性,本文通過空間精度評價的多個指數(shù),從As元素含量高值區(qū)的數(shù)量、位置以及面積這三方面[20-21]進行精度評價。
基于數(shù)量的一致性分析包括正確率、錯誤率和缺失率,通過計算反演結(jié)果與實際高值區(qū)的對應(yīng)狀況來評估,計算公式如下:
式中,NC、NE、ND分別是正確、錯誤、以及未提取出的目標(biāo)的數(shù)量;PC、PE、PE取值范圍為[0,1],通常以0.5為給定閾值,PC值越高,說明預(yù)測與實測的高值區(qū)數(shù)量具有較高的一致性,精度較高;反之說明數(shù)量差異較大,反演精度也就較低。
基于位置的精度評價對比反演前后,提取的高值區(qū)質(zhì)心之間的距離及距離的均方根誤差:
式中,Ci、Ri代表實測數(shù)據(jù)的極值區(qū)和反演結(jié)果的極值區(qū);xCi、xRi為實測數(shù)據(jù)和反演結(jié)果As 元素富集區(qū)域質(zhì)心的x坐標(biāo);yCi、yRi為實測數(shù)據(jù)和反演結(jié)果極值區(qū)域質(zhì)心的y坐標(biāo),對應(yīng)質(zhì)心的距離與位置精度成反比;DistCi,Ri越小,說明反演結(jié)果與實測數(shù)據(jù)高值區(qū)的質(zhì)心越近,反之越遠;RMSEDist評價位置誤差,其值越小,精度越高。
基于面積的精度評價以O(shè)F 重疊指數(shù)為評價指數(shù),描述反演與實測高值區(qū)域之間重疊程度,公式如下:
式中,C∩R為實測As元素高值區(qū)與反演結(jié)果高值區(qū)的交集;OF 的取值范圍為[0,1];OF 值越接近1,說明高值區(qū)重疊面積越大、相似性越高;反之說明高值區(qū)重疊面積越低,通常以0.5為閾值。
按2.1 節(jié)所述構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)模型并進行訓(xùn)練,將影像波段反射率的倒數(shù)變換作為輸入,As含量為輸出,得到研究區(qū)反演結(jié)果。實測數(shù)據(jù)與反演數(shù)據(jù)分別進行可視化,As元素含量的空間分布如圖3所示。
圖3 采樣數(shù)據(jù)
實測結(jié)果顯示長沙市、株洲市和湘潭市及周圍地區(qū)均存在As元素的富集,長沙市含量最高,其次是株洲市和湘潭市,且As元素含量高值區(qū)有沿湘江分布的特點。反演數(shù)據(jù)顯示,三市均存在As 元素的高值區(qū)域,同樣高值區(qū)有沿湘江分布的特點,具有一致性。地區(qū)工業(yè)企業(yè)由于用水、交通等原因多沿湘江分布,人類活動尤其是地區(qū)工農(nóng)業(yè)生產(chǎn)是As元素富集的主要原因[13],也是湘江沿岸土壤重金屬污染較為嚴(yán)重的主要原因。
50條數(shù)據(jù)為驗證集,用于模型檢驗,預(yù)測值和實測值對比結(jié)果如圖4。檢驗結(jié)果的散點圖顯示,As 元素預(yù)測值與實測值呈現(xiàn)出一定的正相關(guān)關(guān)系,大多驗證樣本集中在1∶1線附近,說明反演結(jié)果較為準(zhǔn)確,R2為0.72,模型擬合程度較好;RMSE 為5.41,誤差較低。BP 神經(jīng)網(wǎng)絡(luò)模型能夠很好地反演重金屬元素As的含量。
圖4 模型預(yù)測值與實測值對比
為了獲取研究區(qū)極值點的分類精度,建立混淆矩陣,統(tǒng)計結(jié)果如表4 所示。其中極值點產(chǎn)品精度達0.66,用戶精度為0.64;非極值點產(chǎn)品精度為0.87,用戶精度為0.88,總體精度為0.77。相關(guān)指數(shù)均大于0.5,整體分類精度較高。
表4 混淆矩陣統(tǒng)計結(jié)果
混淆矩陣對比整個研究區(qū)采樣點反演結(jié)果與實測數(shù)據(jù)類別的一致性,缺少對高值區(qū)異常特征的分析,難以評價高值區(qū)空間分布上的一致性。提取反演前后As 元素高值區(qū)及其質(zhì)心,其空間分布狀況如圖5 所示,對反演結(jié)果進行空間精度評價。
實測數(shù)據(jù)顯示共有10個極值區(qū)域,反演結(jié)果顯示有8 極值區(qū)域。從圖5 可以看出,共識別出8 組As 元素高值區(qū)存在對應(yīng)關(guān)系,僅有兩處高值區(qū)未被反演出,正確率可達0.8,錯誤率和缺失率均較低,說明反演結(jié)果高值區(qū)域能夠正確對應(yīng)實際采樣的極值區(qū),反演結(jié)果精度較高?;诰嚯x的精度評價指標(biāo)顯示,對應(yīng)高值區(qū)質(zhì)心間距離最大值為4.17 km,最小值為0.52 km,平均值為2.27 km,標(biāo)準(zhǔn)差為1.07 km,均方根誤差為2.51 km?;谡麄€研究區(qū)范圍,反演的高值點位置與實測高值點位置相差不大,距離誤差較小,反演結(jié)果較好。重疊指數(shù)為0.58,說明反演高值區(qū)與實測高值區(qū)有大部分面積重合,一致性較高。由圖5 及表5,反演前后研究區(qū)As 元素高值區(qū)分布具有較高一致性,空間精度評價結(jié)果較好。
圖5 As元素高值區(qū)分布狀況
表5 實測與反演高值區(qū)在空間上的一致性評價
本文提出使用混淆矩陣和空間精度評價方法分析定量遙感反演結(jié)果的精度,對重金屬元素在空間分布上的差異進行評價,有效地說明元素極值區(qū)的空間一致性?;煜仃嚳傮w分類精度較高,通過分析模型預(yù)測的高值區(qū)域與實測數(shù)據(jù)的位置精度和形狀精度,兩者在數(shù)量、距離和面積上具有一致性,這是前期土壤重金屬含量反演研究中未涉及的。
對于定量遙感的精度評價,尤其是對反演前后高值區(qū)域空間分布一致性的評價,通過直觀觀測進行評價具有主觀性和一定誤差,很少通過一定的評價指標(biāo)對結(jié)果空間精度進行評價。Whiteside[22]等在研究中提到基于單一的評價指標(biāo)進行評價,很難概括其他方面的信息。Stephan[23]等同樣認(rèn)為需要多個指標(biāo)才能更準(zhǔn)確地對研究結(jié)果進行評價。因此,考慮到檢驗方法存在的局限性,需要從多個方面綜合分析,使評價方式互為補充,同時證明反演結(jié)果與實際情況的一致性。多光譜遙感反演的方法能夠有效地估計大范圍地區(qū)地表As元素的含量。
由于研究區(qū)地表覆被復(fù)雜,采樣點數(shù)量較少,間隔較大,導(dǎo)致模型預(yù)測結(jié)果存在偏差,基于距離的精度檢驗誤差較大。此外,由于各地區(qū)地表狀況具有特殊性,所建立的反演模型是否適用于其他地區(qū)有待進一步研究。
本文以長株潭為研究區(qū),結(jié)合多光譜遙感數(shù)據(jù)建立BP 神經(jīng)網(wǎng)絡(luò)模型,反演了地區(qū)As 元素含量并進行檢驗,通過混淆矩陣和多個指標(biāo)對反演精度進行評價,主要結(jié)論如下:
1)BP 神經(jīng)網(wǎng)絡(luò)模型能較好地反演As 元素含量,采用單點檢測值檢驗方法進行精度驗證,決定系數(shù)可達0.72,大于0.5這一閾值,且誤差較低。
2)可視化結(jié)果顯示,三市均存在As 元素富集,長沙市地表土壤As元素含量值最高,其次是株洲市和湘潭市。研究區(qū)內(nèi)As元素含量高值區(qū)域沿湘江分布,湘江流域是湖南省工業(yè)化、城鎮(zhèn)化和農(nóng)業(yè)的集中區(qū)域,且長株潭是全省經(jīng)濟中心,湘江沿岸更聚集了大量大中型工業(yè)企業(yè),農(nóng)業(yè)活動密集,工業(yè)污水排放和濫用農(nóng)藥是地區(qū)土壤As元素污染的重要原因。
3)混淆矩陣顯示總體分類精度較高,通過空間精度評價,反演前后As元素高值區(qū)在數(shù)量、距離、面積上均有較高的一致性,正確率都在0.5以上,反演結(jié)果的空間精度較高。該方法能較好地評價反演結(jié)果。
本文使用的混淆矩陣和相關(guān)空間精度評價指標(biāo)能夠用于對反演結(jié)果的精度評價,對地區(qū)土壤污染的監(jiān)測提供一定參考。此外,隨著遙感數(shù)據(jù)精度的不斷提高,定量遙感反演的空間精度也會越來越高。