王振華,徐利智,紀(jì)晴,劉智翔
(上海海洋大學(xué) 信息學(xué)院,上海 201306)
遙感影像分類結(jié)果的精度評(píng)價(jià)是遙感影像數(shù)據(jù)應(yīng)用決策的重要保障[1]。面向遙感影像分類結(jié)果的精度評(píng)價(jià)方法是一個(gè)亟待解決的科學(xué)問(wèn)題。
抽樣是產(chǎn)品質(zhì)量評(píng)估和數(shù)據(jù)精度評(píng)價(jià)的常用方法之一,是處理大批量信息的有效方法。抽樣是按預(yù)先確定的方案,從批或過(guò)程中隨機(jī)選取樣本,逐一檢查樣本質(zhì)量,從而對(duì)批或過(guò)程做出判定,是介于不檢驗(yàn)與百分比檢驗(yàn)之間的一種檢驗(yàn)方法[2]。常用的抽樣檢驗(yàn)方法包括簡(jiǎn)單隨機(jī)抽樣[3]、系統(tǒng)抽樣[4]、簇抽樣[5]、分層抽樣[5]和整群抽樣[6]等。這些抽樣方法大多是針對(duì)獨(dú)立同質(zhì)產(chǎn)品的精度評(píng)價(jià)。而區(qū)別于獨(dú)立同質(zhì)的產(chǎn)品,遙感影像數(shù)據(jù)具有空間相關(guān)性和異質(zhì)性等特征。因此,直接應(yīng)用現(xiàn)有的抽樣方法對(duì)其進(jìn)行精度評(píng)價(jià),存在樣本信息冗余度高和代表性弱等局限性。
兼顧遙感影像特性,亦有學(xué)者提出了遙感影像分類結(jié)果的精度評(píng)價(jià),如基于空間數(shù)據(jù)的相關(guān)性,Huang等[7]利用灰度共生矩陣量化遙感像元間的關(guān)系,優(yōu)化了系統(tǒng)抽樣方法用于遙感分類結(jié)果精度評(píng)價(jià);馬煒等[8]根據(jù)系統(tǒng)抽樣的原理,結(jié)合精度要求提出基于網(wǎng)格空間抽樣調(diào)查的濕地面積估測(cè)方法;Wang等[9]結(jié)合分層標(biāo)準(zhǔn)的選擇和抽樣單位大小,制定了作物面積估算空間抽樣方案;林芳芳[10]基于GF-1號(hào)遙感影像,綜合應(yīng)用遙感技術(shù)、抽樣技術(shù)、模擬退火算法及空間自相關(guān)理論等,對(duì)研究區(qū)農(nóng)作物種植面積進(jìn)行抽樣估算。上述研究利用遙感影像的空間相關(guān)性改進(jìn)了現(xiàn)有的抽樣方法,提高了遙感影像分類結(jié)果的精度評(píng)價(jià)效率。而遙感影像的空間異質(zhì)性特征亦影響著抽樣精度評(píng)價(jià)方法的設(shè)計(jì)與實(shí)現(xiàn)。
空間異質(zhì)性是不同地表覆蓋類型斑塊的空間分布關(guān)系以及空間分布變異程度,是影響空間地理數(shù)據(jù)研究的一個(gè)重要因素[11]。景觀格局指數(shù)是量化遙感影像數(shù)據(jù)的空間異質(zhì)性的方法之一。景觀格局一般指景觀的空間格局,既是大小和形狀各異的景觀要素在空間上的排列和組合,又是景觀異質(zhì)性的具體體現(xiàn),也是各種生態(tài)過(guò)程在不同尺度上作用的結(jié)果[12]。景觀格局指數(shù)包括斑塊密度、聚集度指數(shù)、香農(nóng)多樣性指數(shù)、蔓延度指數(shù)、分裂度指數(shù)等[13]。
本文基于景觀格局聚集度指數(shù)量化遙感影像的空間異質(zhì)性,提出了一種利用空間異質(zhì)性的遙感影像分類結(jié)果空間抽樣精度評(píng)價(jià)方法。
圖1給出了利用空間異質(zhì)性的遙感影像分類結(jié)果空間抽樣精度評(píng)價(jià)方法流程圖。該方法包括3部分內(nèi)容:1)利用景觀聚集度指數(shù)量化遙感影像的空間異質(zhì)性,實(shí)現(xiàn)研究區(qū)域空間區(qū)劃;2)基于聚集度指數(shù)推導(dǎo)各區(qū)劃空間的權(quán)重系數(shù),并分配各區(qū)劃空間的樣本量;3)在各區(qū)劃空間內(nèi)選擇樣本點(diǎn),并通過(guò)與參考數(shù)據(jù)比較,對(duì)各區(qū)劃空間進(jìn)行精度評(píng)價(jià),從而實(shí)現(xiàn)整個(gè)區(qū)域的遙感影像分類結(jié)果精度評(píng)價(jià)。
圖1 利用空間異質(zhì)性的空間抽樣精度評(píng)價(jià)方法流程圖
本文引入景觀聚集度指數(shù)(aggregation index,AI)量化遙感影像的空間異質(zhì)性,計(jì)算方法如式(1)、式(2)所示[14]。
(1)
(2)
式中:n為景觀中斑塊類型總數(shù),例如以5×5為滑動(dòng)窗口,n的取值為5;Pij為斑塊類型i與j相鄰的概率;Pi為景觀類型i所占景觀的比例;Pj/i為在給定斑塊類型i的情況下,斑塊類型j與其相鄰的條件概率;mij為景觀柵格網(wǎng)中斑塊i和j相鄰的邊數(shù);mi為斑塊類型i的總邊數(shù)。
景觀聚集度指數(shù)描述景觀中斑塊的聚集程度,反映景觀要素在景觀中的分散性,是一類能夠描述不同景觀斑塊的團(tuán)聚程度的指數(shù)。當(dāng)mij越大,即該計(jì)算窗口的地物類型越多,則Pj/i隨之增大,Pij反而越小。已知ln(Pij)是一個(gè)單調(diào)遞增函數(shù),因此此時(shí)AI隨著mij的增加而減小。若該景觀是由許多離散的小斑塊組成,則其聚集度指數(shù)就低。
根據(jù)遙感影像分類結(jié)果的精度要求和允許誤差,推導(dǎo)用于空間抽樣精度評(píng)價(jià)的樣本量,如式(3)所示。
(3)
式中:m為用于空間抽樣精度評(píng)價(jià)的樣本量;Z為標(biāo)準(zhǔn)正態(tài)分布統(tǒng)計(jì)量;P表示期望精度,即遙感影像分類結(jié)果的精度要求;E表示允許誤差;N表示樣本總體[16]。
由各區(qū)域的面積計(jì)算面積比,并根據(jù)該面積比和聚集度指數(shù)分配樣本量。原則是聚集度高的區(qū)域,其像元低概率入樣;聚集度低的區(qū)域,其像元高概率入樣。
待精度評(píng)價(jià)的實(shí)驗(yàn)數(shù)據(jù)選取美國(guó)德克薩斯州科波阿斯科夫的市區(qū)遙感影像數(shù)據(jù),拍攝時(shí)間為2015年4月16日,位置為97°54′W,31°03′N,分辨率為2 m,傳感器是超光譜數(shù)字圖像收集實(shí)驗(yàn)儀器 (hyperspectral digital imagery collection experiment,HYDICE)。圖2為遙感影像波段53、波段35、波段10合成的圖像,大小為302像素×302像素。
圖2 實(shí)驗(yàn)數(shù)據(jù)
用于精度評(píng)價(jià)的參考數(shù)據(jù)選取同區(qū)域的5類地物分類圖作為驗(yàn)證數(shù)據(jù),該驗(yàn)證數(shù)據(jù)通過(guò)結(jié)構(gòu)化的稀疏正則化非負(fù)矩陣分解(structured sparse regularized nonnegative matrix factorization,SS-NMF)方法對(duì)高光譜解混后獲得[17],如圖3所示。
所有數(shù)據(jù)均采用WGS_1984_UTM_zone_50N坐標(biāo)系;數(shù)據(jù)均來(lái)源于:http://www.escience.cn/people/feiyunZHU/Dataset_GT.html.
基于支持向量機(jī)(support vector machine,SVM)分類方法將實(shí)驗(yàn)數(shù)據(jù)分為5類地物,分別為道路、草地、樹(shù)木、建筑和土地。各類地物面積占比分別為18.01%、39.41%、17.24%、11.92%和13.42%。圖4為待精度評(píng)價(jià)的遙感影像分類結(jié)果。
圖3 精度評(píng)價(jià)參考數(shù)據(jù)
圖4 待精度評(píng)價(jià)的遙感影像分類結(jié)果
以像元為評(píng)價(jià)單元,本文待精度評(píng)價(jià)的遙感影像分類結(jié)果的樣本總量N為91 204。以精度要求為85%、允許誤差為1%,根據(jù)公式(1)、公式(2),計(jì)算得出用于精度評(píng)價(jià)的樣本量為813。
根據(jù)公式(3),計(jì)算研究區(qū)域的聚集度指數(shù)。采用自然斷點(diǎn)分級(jí)法對(duì)聚集度指數(shù)進(jìn)行劃分,指定類的數(shù)目為5?!白匀婚g斷點(diǎn)”[15]類別基于數(shù)據(jù)中固有的自然分組,對(duì)分類間隔加以識(shí)別,根據(jù)相似值進(jìn)行分組,使各個(gè)類之間的差異最大。圖5為聚集度指數(shù)頻率直方圖。圖6為實(shí)驗(yàn)區(qū)域的聚集度指數(shù)分布。
圖5 聚集度指數(shù)頻率直方圖
基于聚集度指數(shù)劃分的各空間區(qū)域所占面積如表1所示。
為保證樣本的代表性,在聚集度指數(shù)高的區(qū)域的像元具有高概率入樣,聚集度指數(shù)低的區(qū)域的像元具有低概率入樣。樣本點(diǎn)分配權(quán)重有各區(qū)劃空間的面積占比和聚集度指數(shù)確定,分別為50%、25%、10%、5%、10%,則樣本量分別為407、203、81、41、81。
在各區(qū)劃空間內(nèi)分別隨機(jī)抽取樣本點(diǎn),圖7(a)~圖7(e)分別為各區(qū)域樣本點(diǎn)空間布樣結(jié)果。
表1 各區(qū)劃空間面積分布
圖7 基于聚集度指數(shù)的樣本點(diǎn)布設(shè)圖和樣本點(diǎn)選擇
為驗(yàn)證本文提出的利用空間異質(zhì)性的遙感影像分類結(jié)果空間抽樣精度評(píng)價(jià)方法的可行性,將本文方法與簡(jiǎn)單隨機(jī)抽樣、分層抽樣和基于灰度共生矩陣的系統(tǒng)抽樣等抽樣精度評(píng)價(jià)方法進(jìn)行比較;將遙感影像分類結(jié)果的全檢作為真值,對(duì)本文方法的精度進(jìn)行評(píng)價(jià)。
圖8為基于不同抽樣方法的精度評(píng)價(jià)樣本點(diǎn)空間選擇。可以看出:1)基于簡(jiǎn)單隨機(jī)抽樣的精度評(píng)價(jià)樣本點(diǎn)分布隨機(jī)性較強(qiáng),樣本缺乏代表性,精度評(píng)價(jià)結(jié)果存在不確定性;2)基于分層抽樣的精度評(píng)價(jià)樣本點(diǎn)更多分布在大面積的地物上,樣本點(diǎn)信息存在冗余性且缺乏代表性;3)基于灰度共生矩陣的系統(tǒng)抽樣精度評(píng)價(jià)樣本點(diǎn)以等間隔的形式分布,但小面積地物或稀有地物的入樣概率低甚至存在不入樣的現(xiàn)象;4)本文提出的精度評(píng)價(jià)方法,用于精度評(píng)價(jià)的樣本點(diǎn)多分配在聚集度低的區(qū)域,即地物類型復(fù)雜區(qū)域的像元高概率入樣,而大面積同質(zhì)區(qū)域的像元低概率入樣。結(jié)果表明,本文方法克服了簡(jiǎn)單隨機(jī)抽樣的不確定性;與其他方法相比,降低了樣本點(diǎn)的信息冗余度,提高了樣本點(diǎn)的代表性。
圖8 不同抽樣方法的精度評(píng)價(jià)樣本點(diǎn)空間選擇
以像元為單位,對(duì)遙感影像分類結(jié)果進(jìn)行了全檢(full inspection,F(xiàn)I),表2給出了基于全檢[18]的精度評(píng)價(jià)混淆矩陣。
表2 基于全檢的精度評(píng)價(jià)混淆矩陣
采用簡(jiǎn)單隨機(jī)抽樣、分層抽樣、基于灰度共生矩陣系統(tǒng)抽樣和本文方法分別對(duì)遙感影像分類結(jié)果進(jìn)行精度評(píng)價(jià)。圖9給出了基于不同抽樣方法的精度評(píng)價(jià)結(jié)果。
由圖9可看出,本文方法的總體精度和Kappa系數(shù)均低于其他方法。這是因?yàn)樵摽臻g抽樣精度評(píng)
圖9 不同抽樣方法的精度評(píng)價(jià)結(jié)果
價(jià)方法的樣本點(diǎn)多選擇在地物聚集度指數(shù)低的區(qū)域,即其地物類型復(fù)雜區(qū)域,該區(qū)域在分類中易產(chǎn)生混分、誤分等。實(shí)驗(yàn)結(jié)果表明,本文提出方法對(duì)遙感影像分類結(jié)果具有較高的精度要求,較適合于精度要求高的遙感影像分類結(jié)果的精度評(píng)價(jià)。
本文引入遙感影像的空間異質(zhì)性,提出了一種利用空間異質(zhì)性的遙感影像分類結(jié)果空間抽樣精度評(píng)價(jià)方法。該方法通過(guò)計(jì)算遙感影像的聚集度指數(shù)將研究區(qū)域劃分為不同的空間區(qū)域,并設(shè)置不同區(qū)域的權(quán)重系數(shù);根據(jù)不同聚集度指數(shù)在各區(qū)域選擇用于精度評(píng)價(jià)的樣本點(diǎn),保證了聚集度指數(shù)低的區(qū)域(地物類型復(fù)雜區(qū)域)像元高概率入樣,聚集度指數(shù)高的區(qū)域(地物類型簡(jiǎn)單的區(qū)域)像元低概率入樣。
通過(guò)與傳統(tǒng)的抽樣方法比較,表明本文提出的方法降低了樣本的信息冗余度,提高了樣本的代表性;同時(shí),本文方法滿足待評(píng)價(jià)的遙感影像分類結(jié)果的較高精度要求,較適合于精度要求高的遙感影像分類結(jié)果的精度評(píng)價(jià)。