(1.同濟大學 測繪與地理信息學院,上海 200092;2.上海同繁勘測工程科技有限公司,上海 201900; 3.福建海洋研究所 福建省海島與海岸帶管理技術研究重點實驗室,福建 廈門 361013)
自然生態(tài)資源的高精度定量監(jiān)測與演化分析是國家自然資源統(tǒng)一管理的重要科學基礎,可為區(qū)域生態(tài)紅線劃定和資源環(huán)境承載能力研究提供有效支撐[1],而發(fā)展銜接天地觀測的機載多光譜成像科學系統(tǒng)是有效解決途徑[2]。目前,自然資源研究逐漸由宏觀轉向中微觀,自然資源調(diào)查要素的數(shù)量也在不斷攀升,針對特定目標生態(tài)參量的精確觀測,發(fā)展可定制波段、可靈活組配波段的多光譜成像設備,是一種可行且有效的方案。多光譜生態(tài)遙感的目的是構建特征波段和生態(tài)參量之間的精確映射關系[3],并基于此揭示遙感觀測目標的生態(tài)指標與光譜之間的交互機理。選擇針對觀測目標的特定波段配組方案,是在進行遙感監(jiān)測與反演前需要重點解決的問題。波段配組是指面向特定的多光譜遙感生態(tài)觀測任務預先組配好適用的多光譜波段參量,建立不同觀測目標和觀測設備光學參數(shù)之間的特定關聯(lián)。
生態(tài)遙感觀測目標的光譜信息是由各個波長的連續(xù)數(shù)據(jù)組成,波段選擇的目的是從高維的光譜數(shù)據(jù)中選擇一小部分波段,在保留地物重要光譜信息的同時,消除光譜的冗余[4]。波段選擇的常用方法有基于排序的方法[5]、基于降維的方法[6]、基于聚類的方法[7]以及基于機器學習的方法[8]等,這些方法主要是從高維的光譜數(shù)據(jù)中提取高信息量的波段,但只對光譜數(shù)據(jù)進行處理,并未考慮到與生態(tài)參量之間的關系。針對生態(tài)遙感,分析生態(tài)參量和光譜之間的相關性,提取高相關性的波段也是非常重要的波段選擇方法[9]。因此,面向特定的生態(tài)觀測目標,需要綜合考慮高信息量波段及其與生態(tài)參量之間的關系提出一套混合的波段選擇方法。
針對多光譜傳感器的波段配組,除了考慮選擇的波段,帶寬的選擇也是需要重點考慮的因素[10]。在高維的光譜數(shù)據(jù)中,大部分波段的數(shù)據(jù)是冗余的[11],冗余波段的信息如果與被選擇的波段信息混合會造成生態(tài)反演精度降低。目前針對水質(zhì)遙感和植被遙感,帶寬已被證明會影響反演精度,并且這些研究也提出了確定最大允許帶寬的方法[12]。但對于多光譜傳感器,最小帶寬也需要計算以確定最佳的帶寬范圍,因此需要提出一套綜合考慮最大最小帶寬的方法。
圖1 本方法總技術路線圖Fig. 1 Flowchart of the method
為此,本研究提出一種面向多光譜生態(tài)遙感觀測目標的波段配組方法,包括混合的波段選擇方法以及最佳帶寬范圍的分析方法,為可定制波段的多光譜傳感器提供波段配組依據(jù)。
本方法的總技術路線如圖1所示,共包含兩大模塊,分別是配組波段中心波長提取和帶寬分析。配組波段中心波長提取主要包含光譜自身高信息量波段提取以及光譜與生態(tài)指標高相關性波段提取,最后通過交集分析的方式選擇優(yōu)先提取的波段。帶寬分析主要包含最大帶寬分析和最小帶寬分析,最佳帶寬為兩者之間的閾值。
提取光譜自身高信息量的波段可以從信息熵和降維兩方面進行分析[13]。
信息熵可以分析出各個波段信息的含量,信息熵越大的波段所含信息量越大,因此選擇信息熵相對較大的波段。信息熵的計算公式如下所示:
(1)
其中:H(band)代表某一波段的信息熵,p(Rrs'i)代表某一波段出現(xiàn)某一反射率Rrsi的概率。通過計算每個波段的信息熵可獲得信息熵值的曲線,最終選取信息熵相對最大的前20%波段作為提取波段[14]。
降維的目的是提取高維數(shù)據(jù)中對信息貢獻量最大的部分,因子分析(factor analysis, FA)是降維方法的一種,可以分析數(shù)據(jù)中所包含的公共因子,并且給出各個因子中對信息貢獻最大的部分。公共因子數(shù)量的確定可以通過碎石分析的方式確定,碎石分析通過計算各波段間的相關系數(shù)獲得相關系數(shù)矩陣,再計算相關系數(shù)矩陣的特征值,一般選取大于1的特征值數(shù)量作為公共因子的數(shù)量[15]。相關系數(shù)的計算公式如下:
(2)
其中:R是相關系數(shù)值,Xa和Xb分別是兩個波段的反射率數(shù)據(jù)一維矩陣,Cov(Xa,Xb)是Xa和Xb的協(xié)方差,Var[Xa]是Xa的方差,Var[Xb]是Xb的方差。在確定了公共因子數(shù)后可以計算得到公共因子向量、特殊因子向量以及因子載荷矩陣,對載荷矩陣進行旋轉,以對公共因子做更好的解釋。從旋轉后的因子載荷矩陣中可以獲取各個波段對于各個公共因子的貢獻率,對每個公共因子的貢獻率進行[0,1]歸一化,選取歸一化后貢獻率大于0.95的波段作為因子分析所提取的波段。
由于波段反射率比值是遙感生態(tài)參量反演回歸分析中常用的變量[16],因此本研究的光譜與生態(tài)指標高相關性波段提取主要采用波段反射率比值與目標生態(tài)參量相關性分析的方法,分析公式如下:
(3)
其中:Ratab是兩個波段反射率比值所構成的一維矩陣,I是觀測目標的某一種生態(tài)參量值所構成的一維矩陣。通過公式計算可以獲得相關系數(shù)所組成的二維矩陣,同樣將矩陣中的數(shù)值進行[0,1]歸一化,取相關系數(shù)大于0.95組成的比值的兩個波段作為相關性分析所提取的波段[17]。
光譜自身高信息量波段提取以及光譜與生態(tài)指標高相關性波段提取所獲取的波段均為最終確定配組的備選波段,最后選擇至少兩種方法結果的交集部分作為優(yōu)先選擇的配組波段波長范圍。若出現(xiàn)兩種方法以上均存在交集的情況時,則交集部分的波段優(yōu)先級比兩種方法交集部分更高。
最大帶寬可通過計算不同帶寬的反射率與中心波長反射率的平均百分比誤差(absolute percent difference,APD)來決定。從提取的配組波段波長范圍中選擇一個波長,將該波長的反射率設置為準確的反射率值,然后將帶寬從0向左右兩側擴大,每次帶寬擴展2 nm。通過遙感反射率計算公式可得到擴大帶寬后的等效反射率,遙感反射率的一般公式如下:
(4)
其中:Rrs為遙感反射率,L為目標物反射的輻亮度,Ed為入射的輻照度。擴大帶寬后的反射輻亮度和入射輻照度為擴大的帶寬范圍中所有波段反射輻亮度和入射輻照度的總和。
計算反射率準確值和等效反射率的絕對百分比誤差,公式如下:
(5)
其中:APD為絕對百分比誤差,n為測量樣本反射率曲線的數(shù)量,Rrsacc為反射率準確值,Rrsnew為等效反射率值。最終可以獲取不同帶寬的絕對百分比誤差曲線,百分比誤差應在0.25%以內(nèi)[12],因此選取絕對百分比誤差為0.25%的帶寬值作為最大允許的帶寬。
最小帶寬則從多光譜傳感器的輻射分辨率角度分析,需要保證傳感器能夠分辨出觀測目標在被觀測時可能反射的最小輻亮度,需要滿足的條件公式如下:
(6)
其中:bc為某波段帶寬的中心波長,bw為帶寬,fLen(b)為傳感器在各個波段的透射率,L(b)為目標物在各個波段反射的輻亮度,Radmin為多光譜傳感器在以bc為中心波長的波段所能識別的最小輻亮度。
最終,配組波段的帶寬范圍應在允許的最大及最小帶寬之間。若帶寬允許范圍>10 nm,多選擇10的倍數(shù)作為帶寬;若范圍小于10 nm,則宜選擇整數(shù)帶寬。
本研究使用美國ASD公司產(chǎn)HandHeld2 Pro手持地物光譜儀和標準反射板白板進行水體的光譜數(shù)據(jù)采集,其中光譜儀波長范圍為325~1 075 nm,采樣帶寬為1.4 nm,采集步驟嚴格遵循水面以上測量法[18]。在采集水體光譜樣本的同時采集水質(zhì)樣本,于實驗室進行分析,獲取水質(zhì)指標的濃度,本研究的水質(zhì)指標濃度數(shù)據(jù)由污染控制與資源化研究國家重點實驗室分析獲得。
本研究的光譜數(shù)據(jù)與水質(zhì)樣本的采集地點位于上海市寶山區(qū)楊行鎮(zhèn),該區(qū)域為城市典型的建成區(qū),主要為工業(yè)區(qū)和居住區(qū),共計16條河道,其中有2條為運河,其余為景觀河流。采集點位共114個,采集時間2018年8月4日—9月6日,每個點位采集5組光譜信息,取平均值作為最終結果,水質(zhì)指標選擇化學需氧量和氨氮,這兩個指標是日常城市水質(zhì)監(jiān)測中的重要指標,也是國家標準《地表水環(huán)境質(zhì)量標準(GB 3838—2002)》[19]中重要的水環(huán)境指標。采集點位的分布如圖2所示。
圖2 光譜數(shù)據(jù)與水質(zhì)樣本數(shù)據(jù)采集點位Fig. 2 Sampling points of spectral data and water quality samples
圖3 光譜數(shù)據(jù)信息熵分析結果Fig. 3 Information entropy analysis result of spectral data
2.2.1 配組波段中心波長提取結果
信息熵分析結果如圖3所示,信息熵的最大值為3.51,波長為591 nm,信息熵值相對最大的前20%的波長范圍為558~658 nm,集中在綠色、黃色、紅色波段,為該范圍內(nèi)的波段及為信息熵分析所提取的波段范圍。
在使用因子分析波段提取方法前,需要采用碎石分析得到公共因子的數(shù)量,碎石分析的結果如圖4所示,其中前4個特征值>1,分別為252.62、12.16、4.19和1.31,因此公共因子的數(shù)量為4。因子分析的結果如圖5所示,得到4個含有最大信息量的成分,歸一化后成分1貢獻率>0.95的范圍為560~680 nm,主要為黃綠波段;成分2為825~892 nm,主要為近紅外波段;成分3為400~410 nm,主要為紫色波段;成分4為703~717 nm,主要為紅色波段。
圖4 碎石圖Fig. 4 Scree plot
反射率比值與水質(zhì)指標的相關性分析結果如圖6所示,圖中的相關系數(shù)值均已歸一化。圖6(a)為化學需氧量濃度與反射率比值的相關系數(shù)圖,其中相關系數(shù)>0.95的范圍是600~690 nm與703~715 nm反射率的比值部分,為黃色、紅色波段與紅色波段的比值。圖6(b)為氨氮濃度與反射率比值的相關系數(shù)圖,其中相關系數(shù)>0.95的范圍是480~520 nm與662~708 nm反射率比值部分,主要為藍綠波段與紅色波段的比值。
通過以上3種方法的分析,分別獲得4組以化學需氧量和氨氮為觀測目標的配組波段中心波長的提取結果,這些結果均為備選波段。圖7將3種方法得到的備選波段范圍標出,最終遵循優(yōu)先提取波段的方法,選擇至少3組結果交集的部分,分別為600~658 nm、662~680 nm、703~708 nm,這3個波長的范圍即為配組波段中心波長提取的最終結果。
圖5 因子分析波段提取結果Fig. 5 Band extraction result of factor analysis
圖6 反射率比值與水質(zhì)指標濃度相關性分析結果Fig. 6 Correlation analysis result between reflectance ratio and water quality index concentration
2.2.2 配組波段帶寬分析結果
依據(jù)波段中心波長提取的波長范圍,分別選擇640、675、705 nm作為波段的中心波長進行最大及最小帶寬分析。
圖7 配組波段中心波長范圍提取結果Fig. 7 Central wavelength ranges extraction result of band group matching
從圖8可以看出,隨著帶寬的不斷擴大,等效反射率與反射率準確值的絕對百分比誤差呈不斷上升的趨勢,說明帶寬會影響遙感對地物反射率的計算精度,帶寬越大,與中心波長準確的反射率值偏差越大。選取絕對百分比誤差為0.25%的帶寬值作為最大允許帶寬,因此以640 nm為中心波長,最大允許帶寬為68 nm;以675 nm為中心波長,最大允許帶寬為42 nm;以705 nm為中心波長,最大允許帶寬為34 nm。
圖8 反射率準確值與等效反射率的絕對百分比誤差曲線Fig. 8 APD curve between accurate reflectance and equivalent reflectance
圖9 數(shù)據(jù)集中相對最低的水體輻亮度曲線Fig. 9 Relative lowest water radiance curve in dataset
在114組光譜數(shù)據(jù)中心選取相對最低的水體輻亮度曲線,如圖9所示,其中640 nm波段的水體輻亮度為0.000 96 W/(m2×nm×sr),675 nm波段為0.000 83 W/(m2×nm×sr),705 nm波段為0.000 97 W/(m2×nm×sr)。以同濟大學測繪與地理信息學院自主研發(fā)的多光譜相機“極視1號”為例,該相機最低可以分辨的輻亮度值為0.1 μW/(cm2×nm×sr)。依據(jù)公式(6),以傳感器透射率的理想狀態(tài)即100%來計算,由于帶寬一般為整數(shù),因此可以得到3個配組波段的帶寬均需要大于2 nm。
表1為配組帶寬分析的最終結果,其中640 nm波段的帶寬范圍應在2~68 nm之間,675 nm應在2~42 nm之間,705 nm應在2~34 nm之間。
為驗證本研究配組波段結果在實際水質(zhì)遙感中的可行性,基于114組水質(zhì)及光譜樣本數(shù)據(jù),進行水質(zhì)反演的驗證實驗。選擇640、675、705 nm為中心波長,10 nm為帶寬,以3個波段的等效反射率為輸入數(shù)據(jù)。此外,選取450、750、800 nm作為對比波段,這3個波段不在任何一種方法提取的特征波段范圍內(nèi),同樣以10為帶寬,以3個波段的等效反射率為輸入數(shù)據(jù)。 依據(jù)國家標準《地表水環(huán)境質(zhì)量標準(GB 3838—2002)》[19],將水質(zhì)指標濃度分為6個級別,分別為Ⅰ類、Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類以及劣Ⅴ類,水質(zhì)分級的標準如表2所示,本研究樣本數(shù)據(jù)集中各個類別的數(shù)量如表3所示,反演模型的輸出數(shù)據(jù)即為水質(zhì)指標的水質(zhì)等級。水質(zhì)反演模型選擇支持向量機(support vector machine, SVM),該方法已實際應用于遙感水質(zhì)反演中[20],且對于小樣本數(shù)量有較好的分類精度。
表1 配組波段帶寬分析結果Tab. 1 Bandwidth analysis result of band group matching nm
將樣本數(shù)據(jù)集隨機分為訓練集和測試集,其中訓練集數(shù)據(jù)量為91組,測試集為23組,支持向量機水質(zhì)反演模型采用多分類方法,核函數(shù)選擇徑向基核函數(shù)。模型訓練的結果精度檢驗采用多分類常用的指標宏平均,主要包括宏平均的準確率、召回率及F1分數(shù),計算公式如式(7)~(12),此外,通過混淆矩陣驗證各個類別自身的準確分類精度。
表2 水質(zhì)分級標準Tab. 2 Water quality grading standards mg/L
表3 數(shù)據(jù)集各等級樣本數(shù)量Tab. 3 Sample number of each grade of the dataset
表4 反演模型宏平均準確率、召回率和F1分數(shù)Tab. 4 Macroprecision, macrorecall and macro F1-score of the inversion models
(7)
(8)
(9)
(10)
(11)
(12)
其中:TP為將正類預測為正類的數(shù)量,F(xiàn)P為將負類預測為正類的數(shù)量,F(xiàn)N為將正類預測為負類的數(shù)量。公式(7)~(9)分別為準確率、召回率和F1分數(shù)的計算公式,公式(10)~(12)分別為宏平均準確率、召回率和F1分數(shù)的計算公式。
表4為化學需氧量和氨氮反演模型的精度驗證結果,采用本研究配組波段構建的化學需氧量反演模型的宏平均準確率、召回率和F1分數(shù)分別為0.77、0.74、0.73,氨氮反演模型的宏平均準確率、召回率和F1分數(shù)分別為0.81、0.88、0.83。采用對比波段構建的化學需氧量反演模型的宏平均準確率、召回率和F1分數(shù)分別為0.51、0.55、0.52,氨氮反演模型的宏平均準確率、召回率和F1分數(shù)分別為0.73、0.58、0.57。采用本研究配組波段模型的混淆矩陣如圖10所示,化學需氧量反演模型的Ⅱ類、Ⅲ類、Ⅳ類分級精度較好,均達到了0.8以上,Ⅴ類以及劣Ⅴ類由于樣本數(shù)量較少分級精度為0.5;氨氮反演模型各個類別分級精度均較好,Ⅱ類、Ⅳ類的分級精度在0.6以上,其余分級精度均為1。采用對比波段模型的混淆矩陣如圖11所示,可以看到化學需氧量和氨氮的分級精度都相對較差。因此本研究針對化學需氧量和氨氮的波段配組方案實際可行。
圖10 本研究配組波段構建的反演模型混淆矩陣Fig. 10 Confusion matrices of the inversion models built with the selected bands
圖11 對比波段構建的反演模型混淆矩陣Fig. 11 Confusion matrices of the inversion models built with the bands for comparison
為揭示遙感觀測目標的生態(tài)指標與光譜之間的交互機理,建立不同觀測目標和觀測設備光學參數(shù)之間的特定關聯(lián),需要針對特定觀測目標選擇特定的波段配組方案。本研究提出一種面向多光譜生態(tài)遙感觀測目標的波段配組方法,該方法包括波段提取和帶寬分析。通過綜合考慮高信息量波段和與生態(tài)參量之間的關系,提出一種混合的波段提取方法。為確定各波段的最佳帶寬范圍,提出一種綜合考慮最大最小帶寬的帶寬分析方法。
以水質(zhì)遙感為例,通過信息熵分析、因子分析、相關性分析,提取針對化學需氧量和氨氮的配組波段,基于平均百分比誤差和儀器輻射分辨率的約束,確定了配組波段的帶寬允許范圍。以該配組方案的波段為中心波長,選取帶寬允許范圍中的某一值為帶寬,計算等效反射率并結合水質(zhì)指標等級作為水質(zhì)反演模型的訓練數(shù)據(jù),通過模型的精度驗證得到化學需氧量的總體分級精度在0.7以上,氨氮的總體分級精度在0.8以上,證明該波段配組方案實際可行。
本研究的波段配組方法可以為特定目標生態(tài)參量的精確觀測提供理論依據(jù),支撐自然資源生態(tài)要素的定量監(jiān)測與演化分析,并為可定制波段的多光譜傳感器提供波段配組依據(jù)。