劉紅蕓,吳雪梅,李德侖,張富貴,張大斌,黃華成
(1. 貴州大學(xué)機械工程學(xué)院,貴陽市,550025; 2. 貴州省煙草農(nóng)業(yè)科學(xué)研究院,貴陽市,550081)
采摘期煙葉含水量是煙草工藝技術(shù)指標(biāo)之一,直接影響烤后煙葉的品質(zhì)。準(zhǔn)確地檢測采摘期煙葉水分含量,對煙草工藝具有重要意義。高光譜技術(shù)是一種無損檢測技術(shù),主要是通過對物體樣品光譜信息的測量后,可在一定程度上體現(xiàn)被測物體內(nèi)部物理結(jié)構(gòu)及化學(xué)成分的差別[1-2]。與傳統(tǒng)的化學(xué)成分檢測技術(shù)相比,高光譜圖像技術(shù)是一種物理檢測技術(shù)。通過建立高光譜分析模型,可同時預(yù)測多個指標(biāo),并具有分析快速、操作簡單、無損也無需對檢測樣品預(yù)處理等諸多優(yōu)勢[3-5]。目前,雖然國內(nèi)外也有相關(guān)研究從高光譜圖像技術(shù)及反射率的角度成功地估算作物的氮含量、葉綠素含量、水分含量及進行了病害檢測等[6-13],但是目前國內(nèi)外利用高光譜技術(shù)鑒定煙葉含水量的報道較少。因此,高光譜技術(shù)可用來對采摘期鮮煙葉葉片水分含量進行檢測。
高光譜技術(shù)對煙草葉片水分含量進行預(yù)測時,煙葉樣本中存在未知的光譜異常樣本,會直接影響模型精度[14]。在建立煙草葉片水分含量分析模型時,煙葉的光譜值與化學(xué)值之間具有一定的相關(guān)性。然而,數(shù)據(jù)集中存在異常光譜樣本時,會導(dǎo)致這種相關(guān)性降低,模型預(yù)測精度也會隨之降低。因此,有必要對異常樣本進行識別和處理后再進行建模分析。
本研究利用MSC、SNV、歸一化(Normalize)、數(shù)據(jù)中心化(Mean centering)、標(biāo)準(zhǔn)化(Autoscales)、移動窗口平滑、SG卷積平滑法、Savitzky-Golay一階導(dǎo)數(shù)、Savitzky-Golay二階導(dǎo)數(shù)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)多種方法來對樣本的高光譜數(shù)據(jù)進行預(yù)處理,再利用主成分分析結(jié)合馬氏距離(PCA-MD)的方法來消除異常樣本,選出最佳預(yù)處理方法,然后使用偏最小二乘法建立了煙葉水分含量模型。驗證高光譜技術(shù)應(yīng)用于煙葉水分含量預(yù)測的可行性,實現(xiàn)快速、無損和科學(xué)的煙葉水分含量檢測。
本研究以貴州省天柱縣(黔東南地區(qū))、息烽縣(黔中地區(qū))、安龍縣(黔西南地區(qū))、道真縣(黔北地區(qū))和威寧縣(黔西北地區(qū))五個地區(qū)采摘期云煙87中部煙葉為研究對象,于2019年7月30日—8月20日期間進行,每個地區(qū)選擇30個樣本,共采集150個煙葉樣本。
1.2.1 高光譜數(shù)據(jù)的獲取
首先選擇晴朗、無風(fēng)的天氣在戶外采用GaiaSky-mini2機載高光譜成像儀(四川雙利合譜)拍攝所采集煙葉樣本的高光譜圖像,并進行光譜圖像的黑白校正。然后使用ENVI5.3軟件對鮮煙葉葉片感興趣區(qū)域(Region of Interesting,ROI)進行繪制,但考慮到傳感器鏡頭邊緣存在減光現(xiàn)象,所選區(qū)域應(yīng)盡量避開主莖,遠離圖像邊緣且盡可能大的包絡(luò)煙葉葉面部分。最后計算樣本ROI內(nèi)的平均光譜數(shù)據(jù)值,將其作為煙葉葉片的原始光譜。本次所拍攝的光譜數(shù)據(jù)波長范圍為371.08~1 037.89 nm,包含176個波長點。
1.2.2 葉片水分含量的測定
在采集高光譜圖像后,將每一個煙葉樣本的葉片與主莖分開,用0.01 g的電子稱稱重并記錄為煙葉的鮮質(zhì)量(記為m0),立刻使用寫好標(biāo)簽的錫紙包裹(錫紙標(biāo)簽與煙樣標(biāo)簽一致),放入液態(tài)氮中保存(保證鮮煙葉化學(xué)性質(zhì)不受到損失)。將樣本帶回實驗室,取出液態(tài)氮所保存的樣品,使用鑷子將錫紙扎破后,然后放入真空冷凍干燥機處理后,進行稱重并記錄為煙葉干質(zhì)量(記為m1)。通過式(1)計算水分含量。
(1)
式中:f——樣本的水分含量;
m0——樣本的鮮質(zhì)量;
m1——樣本的干質(zhì)量。
1.3.1 預(yù)處理方法
由于受到外部環(huán)境和儀器暗電流的影響,在光譜數(shù)據(jù)采集過程中會出現(xiàn)散射、高頻隨機噪聲和基線漂移等問題,影響后續(xù)建立模型精度和穩(wěn)定性[15]。為了消除這些不良因素影響,應(yīng)用多元散射校正、標(biāo)準(zhǔn)正態(tài)變量交換、歸一化、數(shù)據(jù)中心化、標(biāo)準(zhǔn)化、移動窗口平滑、Savitzky-Golay卷積平滑、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)等方法對光譜進行預(yù)處理。
1.3.2 主成分分析結(jié)合馬氏距離剔除異常樣本(PCA-MD)
主成分分析(PCA)是采用降維的方式,在損失很少信息的條件下將原本多變量轉(zhuǎn)化為只有維數(shù)較少且互不相關(guān)變量來替代,可以計算出每個樣本光譜各個變量的主成分得分,是采用數(shù)學(xué)方法來降低光譜數(shù)據(jù)維數(shù)的有效方法[16-17]。
馬氏距離是計算空間中兩個不同數(shù)據(jù)點相似度的方法[18-20]。馬氏距離考慮了不相等的方差以及特征之間的相關(guān)性,通過對數(shù)據(jù)點的特征分配不同的權(quán)重來充分評估數(shù)據(jù)點之間的距離。而且馬氏距離可以調(diào)節(jié)數(shù)據(jù)的幾何情況,使得類似數(shù)據(jù)點之間的間距很小。因此,它可以用來提高聚類或分類算法的性能。
本文利用每個樣品的光譜數(shù)據(jù)與校正集的平均光譜數(shù)據(jù)之間的間距作為馬氏距離,結(jié)合主成分分析所得煙葉樣本得分,計算各個樣本的馬氏距離,然后將其與閾值作比較,并通過去除異常光譜樣品來提高模型的準(zhǔn)確性,計算方法如式(2)~式(3)。
(2)
(3)
式中:M——校正集光譜主成分得分矩陣的協(xié)方差陣;
ti——樣本i的主成分得分向量;
Di——校正集樣本i的馬氏距離。
檢驗校正集中的異常樣本存在的閾值計算如式(4)所示。
Dth=Dm+e·σd
(4)
式中:e——給定閾值調(diào)整權(quán)重系數(shù);
Dm、σd——m個樣本馬氏距離的平均值、標(biāo)準(zhǔn)差;
Dth——校正集閾值范圍。
凡滿足Di≥Dth,認為校正集中第i個樣本是異常樣本,予以剔除;反之Di 1.3.3 PLS預(yù)測模型 偏最小二乘法(PLS)是一種高效提取信息的方法,結(jié)合了多種統(tǒng)計分析方法的優(yōu)點,是用于光譜數(shù)據(jù)分析的重要方法。本研究將全波段波長作為模型的輸入變量,利用交叉驗證的方法(cross validation)來選取主成分數(shù),建立煙葉水分含量的PLS預(yù)測模型,通過模型的評價指標(biāo)來確定模型精度。 利用相關(guān)系數(shù)R與均方根誤差RMSE對模型的穩(wěn)定性和估測能力進行檢驗。R越大,即數(shù)值越靠近1,說明該模型的擬合精度越高,并且模型越穩(wěn)定;RMSE越小,則模型估測能力便越好、準(zhǔn)確度越高。文中采用RMSEC表示校正集樣本均方根誤差及RMSEP表示預(yù)測集樣本均方根誤差,相關(guān)計算公式如式(5)~式(6)。 (5) (6) 式中:yi——各煙葉樣本的水分含量真實值; m——校正集樣本量; n——預(yù)測集樣本量。 未經(jīng)預(yù)處理的原始光譜曲線圖和經(jīng)過不同預(yù)處理方法處理后煙葉樣本光譜曲線如圖1所示。 煙葉反射率的原始光譜顯示出明顯的散射噪聲和基線漂移,盡管這種分散的光譜曲線呈現(xiàn)出相似的變化趨勢(圖1(a))。經(jīng)過多元散射校正、移動窗口平滑、SG卷積平滑等預(yù)處理后的光譜曲線吸收和反射特征更加明顯,都有不同程度的強化和去噪作用。多元散射校正(圖1(b))、SNV(圖1(c))和標(biāo)準(zhǔn)化(圖1(d))處理后,光譜的重合度明顯提高,減少了散射噪聲的影響,但在400~500 nm波段范圍內(nèi)造成了光譜分散。 (a) Original spectrum (b) MSC (c) SNV 移動窗口平滑(圖1(f))和SG卷積平滑(圖1(g))處理后,明顯減少了700~1 000 nm范圍內(nèi)曲線的波動。歸一化(圖1(e))和數(shù)據(jù)中心化(圖1(h))處理后,光譜都歸入了某個特定的數(shù)值區(qū)間之內(nèi),在一定程度上減小了尺寸差異大和數(shù)據(jù)信息結(jié)構(gòu)不同的干擾。Savitzky-Golay一階求導(dǎo)(圖1(i))、Savitzky-Golay二階求導(dǎo)(圖1(j))、直接差分一階求導(dǎo)(圖1(k))、直接差分二階求導(dǎo)(圖1(l))與原始光譜曲線相比,吸收峰數(shù)量明顯增加。 在冷凍干燥處理過程中,將液態(tài)氮所保存的樣品取出及使用鑷子將錫紙扎破時,造成9個試驗樣本損壞,最后測量水分含量的試驗樣本總數(shù)為141。先使用Matlab2016a軟件的光譜預(yù)處理方法來進行處理141個采摘期鮮煙葉樣本原始光譜,然后將煙葉樣本光譜數(shù)據(jù)順序隨機打亂,使得劃分樣本時水分數(shù)據(jù)在預(yù)測集和校正集中分散均勻,然后以3∶1的比例把樣本數(shù)據(jù)集均勻地分成校正集及預(yù)測集。統(tǒng)計校正集和預(yù)測集樣本水分含量的結(jié)果如表1所示。校正集樣品煙葉水分含量變化范圍在66.98%~78.42%之間,標(biāo)準(zhǔn)偏差為2.291 7%;預(yù)測集樣品含水量在67.64%~79.22%之間,標(biāo)準(zhǔn)偏差為2.651 3%。 表1 水分含量數(shù)據(jù)統(tǒng)計Tab. 1 Statistics of moisture contents 取前15個主成分特征值的貢獻率進行比較,如圖2所示。 圖2 不同光譜預(yù)處理的前15個主成分累計貢獻率 為了對比各個預(yù)處理方法下光譜的主成分分析效果,分別對原始光譜進行多元散射校正(MSC)、歸一化(Normalize)、標(biāo)準(zhǔn)正態(tài)變量交換(SNV)、標(biāo)準(zhǔn)化(Autoscales)、數(shù)據(jù)中心化(Mean centering)、移動窗口平滑、Savitzky-Golay卷積平滑法、Savitzky-Golay一階導(dǎo)數(shù)、Savitzky-Golay二階導(dǎo)數(shù)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)的方法對原始光譜數(shù)據(jù)進行預(yù)處理,然后采用主成分分析求得它們的主成分累積貢獻率。 從圖2可以看出,Savitzky-Golay卷積平滑和移動窗口平滑預(yù)處理的前4個主成分累積貢獻率大于98%。結(jié)合主成分分析聚類效果,采用Savitzky-Golay卷積平滑和移動窗口平滑法效果相對較好,選擇這兩種光譜預(yù)處理方法的前4個主成分對馬氏距離進行計算。 采用交叉驗證對移動窗口平滑以及SG卷積平滑法預(yù)處理后光譜數(shù)據(jù)選取的主因子個數(shù)皆為5。106個樣本(校正集)經(jīng)過主成分分析的馬氏距離如圖3所示,使用移動窗口平滑法確定模型的最佳閾值為0.9,馬氏距離為2.574 1,剔除樣本個數(shù)為15;Savitzky-Golay卷積平滑法最佳閾值為2.2,馬氏距離為3.700 4,剔除樣本個數(shù)為3。 (a) 移動窗口平滑 本試驗應(yīng)用馬氏距離法鑒別異常光譜樣品并將其去除來增加PLS煙葉水分預(yù)測模型的精確度。設(shè)置閾值調(diào)整權(quán)重系數(shù)e=0.1∶0.1∶3。使用不同的權(quán)重系數(shù)e,便會得到不同的閾值,當(dāng)馬氏距離大于設(shè)定閾值時,對應(yīng)的樣本將被剔除。隨著e的增大,剔除樣品的個數(shù)逐漸減少。將異常光譜樣品剔除后,使用交叉驗證(cross validation)法對主成分數(shù)進行選取。采取PLS分別建立煙葉水分預(yù)估模型時,不同參數(shù)e下建立的PLS模型具有不同效果,選擇RMSEC最小時對應(yīng)的參數(shù)e和其剔除異常光譜樣本后的校正集來建立的PLS作為最終確定的煙葉水分含量定量分析模型。 以校正集煙葉樣品水分含量與估測水分含量之間的相關(guān)系數(shù)Rtrain,預(yù)測集樣品水分含量和估測水分含量的之間相關(guān)系數(shù)Rtest,校正集樣本均方根誤差RMSEC及預(yù)測集樣本均方根誤差RMSEP作為評價PLS模型優(yōu)劣的指標(biāo)。相關(guān)系數(shù)的值越高、均方根誤差的值越低,說明PLS模型對于煙葉水分含量的估測效果越好。在最佳建模參數(shù)下建立的PLS模型效果如表2、圖4所示。移動窗口平滑法處理的PCA-DA-PLS模型,校正集Rtrain=0.833 1、RMSEC=1.299 9,預(yù)測集Rtest=0.848 3、RMSEP=1.459 6;SG平滑處理的PCA-DA-PLS模型,交叉驗證法得到五個最佳主成分數(shù),校正集(Rtrain=0.856 9、RMSEC=1.211 5),預(yù)測集(Rtest=0.852 7、RMSEP=1.376 6)。SG平滑法預(yù)處理的PCA-DA-PLS模型的效果最佳,建立的PLS模型對煙葉含水量預(yù)測能力相對較好,取前五個主成分計算水分含量如式(7)所示。 Y=74.02X1+79.28X2+77.26X3+69.71X4+ 58.77X5+70.897 7 (7) 式中:Y——水分預(yù)測值; Xi——第i個主成分對應(yīng)的光譜數(shù)據(jù)。 表2 最佳建模參數(shù)下建立的PLS模型效果Tab. 2 PLS model effect established under the best modeling parameters (a) 移動窗口平滑校正集 (b) SG平滑校正集 為了檢測采摘期煙葉水分含量,獲取煙葉葉面高光譜數(shù)據(jù),本文利用主成分分析結(jié)合馬氏距離的方法來剔除異常樣本,建立煙葉含水量的PLS估測模型。 1) 采用MSC、SG卷積平滑、Moving-averag等方法預(yù)處理后的鮮煙葉樣本光譜曲線的吸收和反射特征更加明顯。比較了多種預(yù)處理方法的主成分分析結(jié)果,得出SG卷積平滑法與移動窗口平滑法效果最佳,二者的前4個主成分累計得分達到98%。 2) 在采用PCA-MD剔除異常樣本后,SG平滑法預(yù)處理的PCA-DA-PLS模型的效果最佳,剔除3個異常樣本,交叉驗證法得到5個最佳主成分數(shù),建立的PLS模型對煙葉含水量估測能力最好,校正集相關(guān)系數(shù)Rtrain為0.856 9、均方差RMSEC為1.211 5,預(yù)測集相關(guān)系數(shù)Rtest為0.852 7、均方差RMSEP為1.376 6。 3) 利用高光譜圖像技術(shù)預(yù)測煙葉的水分含量效果甚佳,實現(xiàn)了煙葉水分含量快速、無損地估測。2 結(jié)果與分析
2.1 預(yù)處理
2.2 樣本劃分
2.3 不同光譜預(yù)處理的主成分分析
2.4 剔除異常品對預(yù)測效果的研究
2.5 建模預(yù)測效果比較
3 結(jié)論