高 媛,競 霞,劉良云,白宗璠
(1.西安科技大學測繪科學與技術學院,陜西西安 710054;2.中國科學院遙感與數字地球研究所,數字地球重點實驗室,北京 100094 )
條銹病是我國乃至世界發(fā)生面積廣、危害程度大的一種小麥病害,嚴重時可導致小麥減產40%以上[1]。傳統依靠人工田間調查的小麥條銹病監(jiān)測方法費時費力,難以多點同時大面積展開,且由于缺少病害空間分布的準確信息,易導致殺菌劑的漏施、多施,造成作物藥害以及土壤污染等環(huán)境問題[2]。近年來,隨著高光譜遙感技術的發(fā)展,一些基于遙感探測數據的無損快速診斷技術被用于作物病害監(jiān)測中[3],尤其是利用冠層光譜數據的作物病害遙感探測取得了重要進展[4-7],但其研究主要是基于已有植被指數或者光譜特征,并未考慮冠層反射光譜在受到土壤覆蓋度、冠層幾何結構、大氣等環(huán)境因子對光譜的吸收影響時隨著時空的變化[8],因此針對不同時空下的小麥條銹病,如何獲取動態(tài)的冠層光譜敏感因子顯得尤為重要。劉 琦等[9]在325~1 075 nm全波段范圍內成功建立模擬識別小麥條銹病的模型,但其數據直接使用全波段,包含大量無效信息,存在冗余等問題。獨立變量分析(independent component analysis,ICA)是一種提取高階統計上線性無關特征的方法,可以從一組混合觀察信號中分離出獨立信號,最早用于盲源信號分離問題,具有較高的收斂速度[10]。目前,已有研究將ICA應用于植物重金屬污染脅迫信息分析[11-12]。因此,本研究采用獨立變量分析對小麥冠層全波段光譜數據進行特征提取,獲取冠層光譜敏感因子。
小麥受到條銹病菌侵染后,光合能力和葉綠素含量迅速降低,而日光誘導葉綠素熒光與光合作用之間具有直接的聯系[13],能夠敏感反映作物光合生理上的變化[14]。張永江等[15]利用標準FLD(fraunhofer line discrimination)方法預測了小麥條銹病不同病情嚴重度的日光誘導葉綠素熒光,證實了日光誘導葉綠素熒光可以反映田間小麥條銹病的發(fā)病狀況。冠層反射光譜主要反映作物的生化特性,對作物色素含量的變化比較敏感,但難以揭示植被光合生理狀態(tài)[16],且受土壤顏色、陰影或者其他非綠色景觀成分等背景噪聲的影響較大[13]。條銹病菌侵染后,小麥植株水分、葉綠素含量、光合速率和光能轉換率等一些生理生化指標均會發(fā)生變化[4],綜合利用反射光譜在作物生化參數探測方面的優(yōu)勢和葉綠素熒光在光合生理診斷方面的優(yōu)勢,能夠更加客觀地映射小麥條銹病害的真實狀況,提高小麥條銹病的遙感探測精度。但目前的研究往往將冠層反射光譜數據與葉綠素熒光數據割裂開來分析或者僅僅只是將這兩種特征進行直接拼接作為病情指數估測模型的輸入參量[17-18],并未考慮各種特征數據與病情指數之間的最優(yōu)映射關系。多核學習是在支持向量機(support vector machine,SVM)的基礎上提出的一種新算法,能夠將不同的核函數組合起來學習,彌補單核支持向量機在針對樣本特征具有異構性時建模的不足[19]。
鑒于此,本研究首先將快速獨立分量分析(fast independent component analysis,FastICA)方法應用到冠層反射光譜的特征提取上,為模型構建提供良好的數據源。在融合冠層反射光譜特征與日光誘導葉綠素熒光指數時,分別選用可較好模擬二者與病情指數相關關系的核函數進行映射,使不同病情指數下的樣本能夠被組合后的特征更好表示,在此基礎上利用多核學習支持向量機方法有效組合不同特征和不同核建立病情指數估測模型,以期可以更好地揭示小麥條銹病病情指數與小麥的冠層光譜所表現出的生理生化參量之間的本質關系,提高小麥條銹病病情指數反演的精度。
試驗于2018年春季在河北省廊坊市中國農業(yè)科學院試驗站進行。其中,試驗區(qū)域小麥分為健康組(編號A、D)和染病組(編號B、C),每個試驗組面積220 m2,每組分為8個樣方(A1~A8、B1~B8、C1~C8、D1~D8),因此共有32個樣方,其中健康組和染病組各16個。小麥品種為銘賢169,染病組于2018年4月9日噴灑接種條銹病菌孢子,孢子溶液濃度9 mg·100 mL-1。
1.2.1 冠層光譜測量
冠層光譜測量使用ASD Field Spec 4光譜儀,測量時間為北京時間11:00-12:30,共測定2018年5月18日、5月24日和5月30日3個時期小麥條銹病不同病情嚴重度下的冠層光譜數據。觀測時測量高度始終離地面1.3 m,探頭垂直向下,探頭視場角25°,每區(qū)域測量10次取均值,并在測量前后用標準BaSO4參考板進行校正。利用公式(1)根據測量得到的光譜數據計算反射值。
R=Ltarget/Lboard×Rboard
(1)
式中R為冠層反射率,Ltarget為目標輻亮度,Lboard為參考板輻亮度,Rboard為參考板反射率。
1.2.2 病情指數調查
小麥條銹病病情指數調查與冠層光譜測量同步進行,測量方法為5點取樣法,即在每個樣方中選取對稱的5個點,每點約1 m2面積,各點分別選取30株小麥調查其發(fā)病情況。病情嚴重度分為9個梯度:0、1%、10%、20%、30%、45%、60%、80%和100%,分別記錄各梯度下小麥葉片數,根據記錄結果利用公式(2)計算測試群體的病情指數(disease index,DI)。
(2)
式中x為各梯度的級值,n為最高梯度值9,f為各梯度的葉片數[20]。
1.2.3 日光誘導葉綠素熒光指數提取
日光誘導葉綠素熒光指數在使用ASD Field Spec 4光譜儀測定的冠層光譜數據的基礎上利用輻亮度和反射率兩種方法提取[21]?;谳椓炼鹊娜~綠素熒光提取算法能夠得到葉綠素熒光強度值,屬于日光誘導葉綠素熒光的直接提取方法。該算法依據夫瑯和費暗線原理,利用夫瑯和費線內的一個波段和夫瑯和費線外的一個(或多個)波段的表觀輻亮度,通過計算自然光照條件下太陽光激發(fā)的熒光對“夫瑯和費井”的填充程度估算葉綠素熒光的強度。關于填充程度的計算,目前已有多種算法,本研究采用魯棒性較好的3FLD算法[22],其計算公式如公式(3)所示[23]。
(3)
已有研究表明,O2-A(760nm)波段氧氣吸收形成的夫瑯和費暗線特征明顯,熒光較強[24],且估測精度高[25]?;诖耍狙芯坷?FLD算法估測了O2-A波段的日光誘導葉綠素熒光強度。同時為了提高日光誘導葉綠素熒光提取精度,減弱冠層光譜數據測量不同時間段太陽光照強度等外界因素對日光誘導葉綠素熒光估算值的影響,本研究將計算得到的日光誘導葉綠素熒光的絕對強度分別除以夫瑯和費吸收線內的太陽入射輻照度,獲取該吸收線處的日光誘導葉綠素熒光的相對強度[26]。
(4)
式中Frelative為日光誘導葉綠素熒光相對強度,Iin為參考板獲取的夫瑯和費吸收線內的太陽入射輻照度。
基于反射率方法提取的日光誘導葉綠素熒光是1個反映熒光強度的反射率指數,屬于葉綠素熒光的間接提取方法。由于葉綠素發(fā)射的熒光對常用于評價植物健康活力的紅邊區(qū)的表觀反射率有一定貢獻,因此基于反射率的提取算法實質為通過分析熒光對650~800 nm紅邊區(qū)域反射率的影響來構建熒光光譜指數。目前,基于反射率的葉綠素熒光指數通常分為反射率比值指數、反射率一階導數指數以及填充指數三類[21],反射率比值指數利用一個受熒光影響強的波段和一個受熒光影響弱的波段的比值去除與反射率相關的光譜信息以獲取熒光信息,如Zarco-Tejada等[27]構建的R690/R655、R740/R720、R440/R690、R750/R800等比值指數。反射率一階導數指數主要用于探測紅邊光譜區(qū)熒光發(fā)射的細小變化[23],如Zarco-Tejada等[28]構建的一階導數光譜指數D730/D706。填充指數是通過兩個波段反射率的差間接反映熒光信息,但該指數除熒光信息外,也受隨大氣和太陽觀測幾何的變化的夫瑯和費暗線深度的影響,僅適用于在相同時間和觀測條件下的數據對比[23]。基于此,本研究僅計算目前常用的反射率比值指數和反射率一階導數指數并依據其與病情指數之間的顯著相關性進行指數篩選得到最終用于建模的反射率熒光指數。
1.3.1 獨立主成分分析
針對計算所得的冠層反射光譜,采用快速獨立分量分析(FastICA)方法提取特征。FastICA,又稱固定點算法,是ICA的一種快速算法,具有收斂速度快、分離效果好的優(yōu)點。ICA最早應用于盲源分離,能夠將測量得到的混合信號分離為相互獨立的源信號,數學模型表達式如公式(4) 所示:
X=AS
(5)
其中,k(x,x′)=exp(-‖x-x′‖2/2σ2),由實地觀測得到的n個樣本點的冠層反射光譜構成的n個行向量所組成;S=[S1,S2,…,Sm]T,為m個待測量獨立成分特征矩陣,A為混合矩陣,該矩陣與樣本中各獨立成分比重相關,維數為n×m,一般m≤n。
ICA在假設各成分之間相互獨立的基礎上,從混合的觀測信號X中分解出源信號S,即尋找混合矩陣W,使得
Y=WX
(6)
其中,Y是計算得到的獨立源信號S的最佳逼近。
1.3.2 多核支持向量機模型
SVM是一種建立在統計學習理論基礎上的基于結構風險最小化的學習方法,通過使用映射函數將低維輸入空間的樣本映射到高維空間,使其變?yōu)榫€性情況,其核心問題為核函數的確定[18]。傳統的SVM中常用的基核函數包括高斯核以及多項式核等,其表達式分別為:
k(xi,xj)=exp(-‖xi-xj‖2/2σ2)
(7)
k(xi,xj)=(xi·xj+1)p
(8)
其中,σ是高斯核參數,p是多項式核函數中的階數。
但是傳統單核SVM受到核函數的限制,當建模特征來源廣且與目標參量不一定滿足同一種映射關系時,無法充分挖掘特征與目標參量間的相關信息,使其應用受到限制[19]。多核學習方法是在SVM的基礎上發(fā)展而來的算法,其核心思想為基于Mercer定理,用多個基本核函數的凸組合代替?zhèn)鹘y單一核函數的方法來克服傳統單核函數的固有缺陷,提高學習性能[29]。多核學習中核函數的通用表達式為
(9)
式中Km表示傳統SVM中的基核函數,M表示基核函數的個數,dm是基核函數線性組合的權系數。
基于此,為了在構建小麥條銹病病情嚴重度估測模型時充分利用日光誘導葉綠素熒光和冠層反射光譜特征信息,本研究基于多核學習理論,以高斯核和多項式核作為基核函數,利用Matlab R2014b編程語言,采用梯度下降法計算權重系數,并以KKT條件作為算法的停止準則,構建多核學習支持向量機模型[29]。
鑒于留一交叉驗證法能夠充分利用樣本中所有數據,在有限樣本容量下盡可能減少“過擬合”問題,可以得到較為穩(wěn)定的誤差指標,盡量避免因為隨機抽選訓練集和測試集導致測試誤差的隨機變化,本研究采用該方法對模型精度進行檢驗。精度評價指標選用模型估測DI值與實測DI間的決定系數(determination coefficient,r2)和均方根誤差(root mean square error,RMSE)[30]2個 指標。
(10)
(11)
2.1.1 冠層反射光譜特征的選取
利用FastICA算法提取冠層反射光譜特征向量時,由于1 800 nm之后的冠層反射光譜數據信噪低,且在1 351~1 450 nm處光譜數據受空氣中水汽影響較大,因而為了減少噪聲干擾,選取波長在400~1 800 nm范圍內且不包含水汽影響的波段作為有效波段進行分析。由于不同波段的冠層光譜反射率與小麥條銹病病情指數之間的相關性不同(圖1),因此為了減少FastICA的輸入波段數,降低噪聲干擾,選取與DI顯著相關的波段作為FastICA的輸入波段,然后依次進行標準化以及白化操作以獲取獨立分量,最終依據表1中得到的各獨立分量與病情指數之間的相關系數挑選最終的冠層反射光譜特征。最終共挑選出冠層光譜特征6個,分別位于468~523 nm、558~713 nm以及1 410~1 563 nm波段處。
表1 冠層反射光譜獨立成分分量信息Table 1 Independent components of canopy reflectance spectrum
圖1 小麥冠層光譜與條銹病病情指數相關關系
2.1.2 日光誘導葉綠素熒光特征的選取
在選取日光誘導葉綠素熒光特征時,首先基于輻亮度算法計算O2-A波段的日光誘導葉綠素熒光強度;其次,對于基于反射率的熒光指數,在利用公式(1)將冠層輻亮度數據轉化為反射率的基礎上,參考已有的研究成果計算常用的反射率比值指數以及反射率一階導數指數R440/R690、R690/R655、R740/R720、R750/R800、D730/D706。最后計算上述特征參量與小麥條銹病病情指數之間的相關系數,挑選與DI極顯著相關的葉綠素熒光指數作為用于建模的日光誘導葉綠素熒光特征。從表2可以看出,O2-A吸收線位置處熒光相對強度、R440/R690、R740/R720、D730/D706與小麥條銹病病情指數達到了極顯著相關,可以作為日光誘導葉綠素熒光監(jiān)測小麥條銹病嚴重度的敏感因子。
表2 日光誘導葉綠素熒光指數信息Table 2 Solar-induced chlorophyll fluorescence index
2.2.1 不同特征參量的最優(yōu)核選取
針對優(yōu)選的冠層反射光譜特征以及日光誘導葉綠素熒光特征參量,分別利用支持向量機學習算法構建小麥條銹病病情嚴重度估測模型,并采用留一交叉法對不同模型精度進行驗證,分析各特征參量與病情指數之間的映射關系,以確定反射光譜數據和日光誘導葉綠素熒光的最優(yōu)核函數,其結果分別如圖2和圖3所示。圖2描述了冠層反射特征參量分別采用高斯核和多項式核構建支持向量機模型的效果,可以看出,對于利用FastICA提取的冠層反射率獨立成分分量而言,采用高斯核的效果優(yōu)于多項式核。而圖3的結果表明,對于葉綠素熒光指數而言,采用多項式核的效果優(yōu)于高斯核。葉綠素熒光主要反映作物光合作用狀態(tài),受土壤等非綠色植被背景噪聲的影響較小,因此可以選用特定分布的核函數如多項式核作為其與病情指數之間的映射函數。但對于作物冠層反射率而言,在獲取反射率光譜時,受土壤等背景噪聲的影響較大,導致獲取的樣本點反射率光譜與病情指數的關系不一定符合某種分布[2],而高斯核函數能夠實現高維空間的非線性映射,即使在樣本分布未知的情況下,其旋轉對稱性可確保不造成大的偏差,從而獲得較高的反演精度。
圖2 基于冠層反射率的小麥條銹病病情嚴重度反演模型預測DI值與實測值散點圖
圖3 基于熒光指數的小麥條銹病病情嚴重度反演模型預測DI值與實測值散點圖
2.2.2 多特征融合下的模型構建與精度評價
常用的多特征融合方法主要有直接拼接法和基于核函數的特征融合法兩種。其中,直接拼接法將所有特征并列形成高維的特征向量,并未考慮不同類型特征各自具有的特性,仍采用單一核函數映射所有特征來構建模型,不僅無法充分挖掘特征中包含的信息,同時可能還會增加分類器訓練和預測時的計算代價。而基于核函數的特征融合法將不同的特征用不同的核函數進行映射實現多特征融合,更有利于樣本數據特征的表達,可以在一定程度上彌補各個單特征的缺點,最大限度地發(fā)揮各種特征的優(yōu)勢,提高模型監(jiān)測精度。
為了驗證多特征融合下的多核學習支持向量機在小麥條銹病病情指數反演中的優(yōu)越性,首先比較僅采用冠層反射光譜特征或日光誘導葉綠素熒光特征的單一特征建模精度與將這兩種特征直接拼接的多特征融合的建模精度(表3);然后對比分析直接拼接法與基于多核學習的多特征融合兩種不同特征融合方法的建模精度(圖4)。
表3 多特征融合與單特征模型的精度對比Table 3 Accuracy comparison between multi-feature combination and single feature model
從表3可以看出,相對于使用單一特征,使用多特征融合方法的模型反演精度總體上有所提高。在使用高斯核建模時,基于直接拼接法融合冠層反射率特征以及葉綠素熒光指數特征后的模型預測DI值和實測DI值間的r2為 0.787,RMSE為0.142,優(yōu)于僅使用冠層反射率(r2= 0.725,RMSE=0.161)或者僅使用葉綠素熒光指數特征(r2=0.765,RMSE=0.149)時的模型精度;對于多項式核SVM而言,采用直接拼接法的模型r2為0.847,RMSE為0.120,優(yōu)于采用單一特征的建模精度。其次,由圖4可以看出,采用基于核函數的多特征融合方法模型的預測DI值與實測DI值之間的擬合程度最優(yōu),其r2為0.915,RMSE為0.090,相對于采用直接拼接法,其r2分別提高了16.3%、8.0%,RMSE分別減少了 36.6%、25.0%。說明對于冠層反射率光譜特征以及日光誘導葉綠素熒光指數特征而言,采用直接拼接法進行多特征融合雖然在一定程度上可以提高模型反演的精度,但該方法仍使用單一核函數映射融合后的特征,不能夠較好地反映不同類型特征具有的特性。而基于多核學習的多特征融合的小麥條銹病病情指數反演模型,可以最大限度地利用特征特性,將冠層反射光譜特征在作物生化參數探測的優(yōu)勢以及葉綠素熒光在光合生理診斷方面的優(yōu)勢結合起來,提高病情估測的精 準度。
圖4 反射率與熒光融合的小麥條銹病病情嚴重度反演模型預測DI值與實測值散點圖
小麥條銹病原菌在侵入小麥后,會造成小麥水分、葉綠素含量、光合速率和光能轉換率等一些生理生化指標均發(fā)生變化[4]。綜合利用反射光譜在作物生化參數探測方面的優(yōu)勢和葉綠素熒光在光合生理診斷方面的優(yōu)勢能夠比較全面客觀地映射小麥條銹病害的真實狀況,提高小麥條銹病的遙感估測精度。本研究表明,基于直接拼接法融合日光誘導葉綠素熒光及冠層光譜反射率特征作為輸入變量構建的小麥條銹病遙感探測模型的估測精度較采用單一熒光數據或反射光譜數據所構建的模型均不同程度提高,其中對于高斯核SVM,采用直接拼接法的多特征融合模型比采用單一冠層反射光譜數據或葉綠素熒光數據的模型預測DI值與實測DI值之間的r2分別提高了 8.6%、2.9%,RMSE分別減少了11.8%、4.7%;對于多項式核SVM而言,r2分別提高了 26.0%、5.6%,RMSE分別減少了31.8%、12.4%。
對于日光誘導葉綠素熒光指數與反射光譜特征的融合而言,雖然采用直接拼接法融合日光誘導葉綠素熒光和反射光譜數據作為小麥條銹病病情嚴重度估測模型的輸入參量能夠在一定程度上提高模型估測精度,但是不同光譜特征與病情指數之間不一定滿足相同的最優(yōu)映射關系,因此,本研究在提取可見光-近紅外反射率獨立分量特征組以及日光誘導葉綠素熒光指數特征組的基礎上,使用不同的核函數分別對不同特征組建模,以期可以找到不同特征參量與病情指數之間的最優(yōu)映射函數。本研究結果表明,對于冠層光譜而言,由于其實際測量時受到土壤、植株葉片角度等影響較大,采用在樣本分布情況未知下仍有較好建模結果,且以高斯核效果更優(yōu),而對于日光誘導葉綠素熒光指數而言,采用多項式核的效果優(yōu)于高斯核。基于此,本研究構建了特征最優(yōu)核映射的多核學習支持向量機模型。通過對比分析反射光譜數據和日光誘導葉綠素熒光數據特征進行直接拼接后的單核學習SVM模型與基于不同特征最優(yōu)核映射的多核學習SVM模型的預測精度發(fā)現,基于特征最優(yōu)核映射的多核學習模型效果較采用直接拼接法的多特征融合模型更優(yōu)。
在提取冠層反射光譜特征參量時,雖然本研究采用的獨立成分分量方法在一定程度上能夠避免全波段信息含量巨大、無效信息冗雜的問題,但如何消除數據測試時外界環(huán)境條件差異對光譜影響,使所建模型具有更強的穩(wěn)定性和適用性,還需要更加深入的研究。其次,在尋找不同特征參量組與病情指數之間的最優(yōu)核函數映射時,本研究僅采用高斯核和多項式核作為基礎核進行分析,當改變遙感監(jiān)測條銹病的敏感因子或者分析更多的核函數時,最優(yōu)映射核是否會改變以及如何更客觀合理地挑選不同特征參量的最優(yōu)核函數還有待進一步研究。
小麥病害不僅導致其反射光譜及日光誘導葉綠素熒光發(fā)生變化,而且病害的發(fā)生與小麥的生育期及其外界溫濕度條件等均有關系,如何綜合利用時相信息、溫濕度條件、反射光譜和日光誘導葉綠素熒光數據以及農學知識等多種數據和技術手段提高小麥條銹病遙感逆向識別的精度則是下一步工作的重點。