琚書存,汪志存,林芬芳,谷春艷,潘正高,張東彥*
(1.安徽省農(nóng)村綜合經(jīng)濟信息中心,安徽 合肥 230031;2.安徽大學(xué) 農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國家地方聯(lián)合工程研究中心,安徽 合肥 230601;3.南京信息工程大學(xué) 遙感與測繪工程學(xué)院,江蘇 南京 210044;4.安徽省農(nóng)業(yè)科學(xué)院 植物保護與農(nóng)產(chǎn)品質(zhì)量安全研究所,安徽 合肥 230031;5.宿州學(xué)院 信息工程學(xué)院, 安徽 宿州 234000)
中國是世界上種植小麥面積最廣的國家,種植面積高達2.4×105km2[1].小麥是中國糧食來源之一[2],所以小麥病害一直為研究熱點.赤霉病俗稱麥穗枯,為小麥的常見高發(fā)病,感染赤霉病的小麥籽粒含有以脫氧雪腐鐮刀菌烯醇為主的真菌毒素[3-4].該病嚴重影響小麥產(chǎn)量及出粉率,其中的真菌毒素通過小麥籽粒危害人畜生命健康[5-6].小麥赤霉病檢測主要使用化學(xué)生物方法[7],此方法存在效率低、成本高等問題,因此迫切需要一種快速、無損識別方法.盡管文獻[8]分析了氣象因子與小麥赤霉病的關(guān)系,找到了與小麥赤霉病相關(guān)性最強的氣象因子,建立了預(yù)測模型,但不能識別感染赤霉病的小麥籽粒.
近年來,高光譜遙感技術(shù)具有光譜范圍窄及波段多的特性,且目標識別精度高[9-10],已成為精準農(nóng)業(yè)的重要技術(shù)[11].文獻[12]利用高光譜成像技術(shù),對健康及患赤霉病的小麥籽粒進行分類,準確度達92%.文獻[13]利用高光譜成像技術(shù)檢測受鐮刀菌感染的小麥,用主成分分析對健康和患病小麥進行識別,研究結(jié)果表明若對最佳分類時期內(nèi)的小麥樣本進行識別,可大大提高分類的精度.文獻[14]找到了3個有效的高光譜窄波段間隔并將其用于檢測小麥赤霉病,分類效果顯著.文獻[15]對感染赤霉病的小麥籽粒圖像進行預(yù)處理和特征提取,提取圖像的形態(tài)和紋理特征參數(shù),根據(jù)相關(guān)性分析選擇最優(yōu)特征,建立線性判別分析、支持向量機和BP (back propagation)神經(jīng)網(wǎng)絡(luò)識別模型.
筆者以健康和感染赤霉病的小麥籽粒為研究對象,采用高光譜成像儀掃描小麥籽粒獲取高光譜圖像,使用圖像處理技術(shù)分離籽粒和背景后,經(jīng)導(dǎo)數(shù)、多元散射校正(multiple scattering correction,簡稱MSC)及主成分分析(principal component analysis,簡稱PCA)處理后,分別利用Fisher線性判別分析(Fisher linear discriminant analysis,簡稱FLDA)和BP神經(jīng)網(wǎng)絡(luò)模型識別小麥赤霉病籽粒,對比評估指標,確定最優(yōu)的組合.該文研究結(jié)果以期為小麥收購、加工等生產(chǎn)環(huán)節(jié)提供幫助,降低赤霉病籽粒對公眾健康的潛在威脅.
小麥籽粒樣本均來自安徽省農(nóng)科院試驗田,實驗場地位于安徽省農(nóng)業(yè)科學(xué)院(117°13′E,31°89′N),小麥品種為西農(nóng)979.實驗田劃分為4塊10 m×10 m的方形區(qū)域.待小麥成熟脫粒后,由植保專家從4塊試驗田中挑選檢測用的健康小麥籽粒和感染赤霉病的小麥籽粒樣本400個 (健康籽粒200個、染病籽粒200個),其中280個樣本(健康籽粒140個、染病籽粒140個)用于識別模型的建立,120個樣本(健康籽粒60個、染病籽粒60個)用于識別模型的驗證.
該文使用的SOC710E成像光譜儀,其光譜范圍為374~1 030 nm,波譜分辨率為2.3 nm,光譜儀成像尺寸為1 392×1 392像元.為降低可見光影響,實驗將光譜儀放入黑色箱,鏡頭垂直向下,將箱四周的鹵素燈光聚于底部中心.底部平鋪黑布,將小麥籽粒置于黑布,調(diào)整光譜儀的高度、焦距和曝光度,確保籽粒成像清晰.鹵素燈距離黑布的高度為40 cm,曝光18 ms后采集籽粒圖譜數(shù)據(jù).
圖像噪聲主要是光照強度不均勻形成的.為盡可能減少噪聲對實驗結(jié)果的影響,需校正圖像.圖像校正后的光譜反射率為
(1)
其中:Roriginal為光譜儀直接測得的光譜反射率,Rdark為光譜儀在無光源環(huán)境下測得的光譜反射率,Rwhite為白板的光譜反射率.
為了獲得小麥籽粒的光譜,使用ENVI5.3軟件中的感興趣區(qū)域工具提取并觀察小麥籽粒影像和光譜.從影像中手動提取健康籽粒(sound and none-damaged,簡稱SND)和感染赤霉病的患病籽粒(fusarium-damaged kernel,簡稱FDK),圖1為患病和健康小麥籽粒樣本的圖像.從圖1可看出:健康的小麥籽粒飽滿,顏色呈棕褐色;染病的小麥籽粒干癟,胚芽處呈白色至粉紅色.
圖1 患病和健康小麥籽粒樣本圖像
高光譜成像儀在成像時很容易受到外界環(huán)境和噪聲的影響,因此須對高光譜圖像進行如下預(yù)處理.
(1) 導(dǎo)數(shù)光譜.為了凸顯光譜的微小變化,對光譜反射率求1階導(dǎo)數(shù).1階導(dǎo)數(shù)的光譜反射率為
(2)
其中:Xi為波長i的光譜反射率,Xi+Δλ為波長i+Δλ的光譜反射率,Δλ為波長i與i+Δλ的波長間隔.
為消除因光強不均勻、樣本表面不平導(dǎo)致的基線漂移,再求導(dǎo)一次.2階導(dǎo)數(shù)的光譜反射率為
(3)
其中:Xi,1st為波長i的1階導(dǎo)數(shù)光譜反射率,Xi+Δλ,1st為波長i+Δλ的1階導(dǎo)數(shù)光譜反射率.
(2) 多元散射校正.多元散射校正(multiplicative scatter correction, 簡稱MSC)技術(shù)能降低散射對光譜反射率的影響,提高原始光譜的信噪比,校正樣本的平移和偏移.建立一個理想光譜,對理想光譜和樣本光譜作一元線性回歸,求偏移系數(shù)和平移系數(shù),根據(jù)這兩個系數(shù)修正其他樣品的光譜.實際應(yīng)用中,很難找到樣本的理想光譜,故將所有樣本的平均光譜作為理想光譜[16].多元散射校正的相關(guān)公式為
(4)
其中:X為理想光譜反射率,n為樣品數(shù),Xi是第i樣本的原始光譜反射率,mi和bi分別為偏移系數(shù)和平移系數(shù),Xi,MSC是經(jīng)多元散射校正后得到的光譜反射率.
(3) 主成分分析.通過主成分分析能快速降維.主成分分析的步驟如下:
步驟1 數(shù)據(jù)矩陣標準化(按照行向量計算);
步驟2 計算標準化后的數(shù)據(jù)矩陣的協(xié)方差矩陣;
步驟3 求協(xié)方差矩陣的特征值及其特征向量;
步驟4 計算主成分(按照行向量計算).
1.3.1 識別模型
FLDA和BP神經(jīng)網(wǎng)絡(luò)是兩種常用的識別模型,在高光譜分析中應(yīng)用較廣.
FLDA的思路是轉(zhuǎn)換原始樣本點的投影,尋找新的1維線性函數(shù)來代表原始多維樣本點投影,再根據(jù)該1維線性函數(shù)判別樣本點的類別[17].
BP神經(jīng)網(wǎng)絡(luò),是一種經(jīng)誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò).利用Matlab R2016b軟件中的initlay函數(shù),對網(wǎng)絡(luò)權(quán)重和偏值進行初始化,利用adaptwb函數(shù)對網(wǎng)絡(luò)權(quán)重和偏值進行動態(tài)調(diào)整.BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層、輸出層構(gòu)成,其中輸入層有3個通道,隱含層及輸出層均有1通道.輸入層的變量是按光譜貢獻率大小排序后位列前3的主成分值,輸出層的變量是預(yù)測標簽值(健康樣本為1,患病樣本為0).學(xué)習率、迭代次數(shù)分別設(shè)置為0.01,2 000.
實驗中,隨機選取70%試驗數(shù)據(jù)作為訓(xùn)練集、30%試驗數(shù)據(jù)作為驗證集.
1.3.2 評估指標
總體分類精度是基于混淆矩陣(confusion matrix)的評估指標,其表達式為
P0=Pr/Pall,
(5)
其中:Pr為正確分類的樣本數(shù),Pall為樣本總數(shù).
KAPPA系數(shù)既考慮了正確分類的樣本數(shù)又考慮了錯誤分類的樣本數(shù),其相關(guān)公式為
(6)
其中:Pe表示樣本預(yù)測數(shù)與真實數(shù)的一致性,ai為第i類樣本真實數(shù)目,bi為第i類樣本預(yù)測數(shù)目,c為類別數(shù),n為總樣本數(shù).KAPPA絕對值小于等于1,KAPPA絕對值越大,分類效果越好.
敏感性(sensitivity)為識別模型判定為健康的小麥籽粒中真正屬于健康的概率,特異性(specificity)為識別模型判定為患病的小麥籽粒中真正屬于患病的概率.敏感性和特異性計算公式分別為
(7)
(8)
其中:Tp為預(yù)測為健康的健康小麥籽粒樣本數(shù),F(xiàn)n為預(yù)測為健康的患病小麥籽粒樣本數(shù),Tn為預(yù)測為患病的患病小麥籽粒樣本數(shù),F(xiàn)p為預(yù)測為患病的健康小麥籽粒樣本數(shù).
圖2是健康及患病小麥籽粒樣本的原始光譜反射率曲線.從圖2可看出,健康小麥籽粒的原始光譜反射率曲線輪廓與患病小麥籽粒的基本一致,但患病籽粒原始光譜反射率曲線明顯高于健康小麥籽粒,這可能是因為小麥感染赤霉病后,籽粒中的水分、蛋白質(zhì)、淀粉的含量均低于健康小麥籽粒[18],導(dǎo)致反射光變強,從而有更高的反射率.
圖2 健康及患病小麥籽粒樣本的原始光譜反射率
圖3為多元散射校正后健康及染病小麥籽粒樣本的平均光譜反射率.從圖3可看出,多元散射校正后,在可見光波段(380~780 nm) 曲線平滑,在近紅外(780~1 030 nm)波段健康籽粒的反射率與患病籽粒的差異較大.
圖3 多元散射校正后健康及患病小麥籽粒樣本的平均光譜反射率
圖4為健康及染病小麥籽粒樣本1,2階導(dǎo)數(shù)的平均反射光譜率.從圖4可看出,兩類小麥籽粒樣本的1,2階導(dǎo)數(shù)的平均光譜反射率在一些波段幾乎重合,但在1階導(dǎo)數(shù)的374~800 nm波段,2階導(dǎo)數(shù)的530~805 nm和930~1 030 nm波段,二者的平均光譜反射率差異較大.
圖4 健康及染病小麥籽粒樣本1,2階導(dǎo)數(shù)的平均光譜反射率
對4種光譜數(shù)據(jù)(原始光譜、MSC、1,2階導(dǎo)數(shù))進行主成分分析,可得到特征分布圖.不同預(yù)處理方法在主成分上提取信息的效果不同.前3個主成分包含了數(shù)據(jù)的大部分信息,因此該文選用前3個主成分的特征進行分析.圖5為不同預(yù)處理的患病和健康小麥籽粒的第1, 2主成分的特征分布,圖6為不同預(yù)處理的患病和健康小麥籽粒的第2,3主成分的特征分布.由圖5,6可知,經(jīng)1階導(dǎo)數(shù)—PCA處理后,能明顯區(qū)分患病和健康小麥籽粒前3個主成分的特征分布,而經(jīng)原始光譜—PCA,MSC—PCA,2階導(dǎo)數(shù)—PCA處理后,患病和健康小麥籽粒的前3個主成分特征分布有明顯的重疊.
圖5 不同預(yù)處理的患病和健康小麥籽粒第1,2主成分的特征分布
圖6 不同預(yù)處理的患病和健康小麥籽粒的第2,3主成分的特征分布
表1為不同數(shù)據(jù)處理方法及識別模型的評估指標對比.由表1可知:對于原始光譜—PCA處理方法提取的特征,2種識別模型的總體分類精度均達到84%左右,但是KAPPA系數(shù)均較低,患病和健康樣本錯分的均較多;對于MSC—PCA處理方法提取的特征,2種識別模型總體分類精度均較低,其原因是該方法不能凸顯健康籽粒與患病籽粒主成分特征間的差異;對于2階導(dǎo)數(shù)—PCA處理方法提取的特征,2種識別模型的精度均最低,其原因是原始光譜數(shù)據(jù)2次求導(dǎo)后的光譜反射率降低,有用信息被削弱,不能凸顯患病與健康籽粒的光譜差異;1階導(dǎo)數(shù)—PCA—BP神經(jīng)網(wǎng)絡(luò)組合的總體分類精度最高,其值為91.67%.
表1 不同數(shù)據(jù)處理方法及識別模型的評估指標對比
筆者利用SOC710E成像光譜儀采集健康和感染赤霉病的小麥籽粒高光譜圖像,分別經(jīng)MSC,1,2階導(dǎo)數(shù)預(yù)處理后,采用主成分分析提取小麥籽粒的光譜特征,使用Fisher線性判別分析和BP神經(jīng)網(wǎng)絡(luò)模型識別,比較不同數(shù)據(jù)處理和模型組合的評估指標.結(jié)果表明:1階導(dǎo)數(shù)—PCA—BP神經(jīng)網(wǎng)絡(luò)組合的總體分類精度最高,其值為91.67%.該文存在的問題為:所采集的小麥籽粒樣本數(shù)量較少,可能對結(jié)果產(chǎn)生一定影響;另外,該文采用的主成分分析快速降維且提取了主成分,雖提取的主成分包含原始變量的大部分信息,消除了波段間冗余或重疊信息,但忽略了貢獻率很小而對輸出變量有較強解釋能力的主成分,此對識別性能產(chǎn)生影響.筆者將針對這些問題進行后續(xù)研究.