基于高光譜技術(shù)的采摘期煙葉水分含量研究*

2021-09-23 14:19:24劉紅蕓吳雪梅李德侖張富貴張大斌黃華成

中國農(nóng)機化學(xué)報 2021年9期

劉紅蕓，吳雪梅，李德侖，張富貴，張大斌，黃華成

(1. 貴州大學(xué)機械工程學(xué)院，貴陽市，550025； 2. 貴州省煙草農(nóng)業(yè)科學(xué)研究院，貴陽市，550081)

0 引言

采摘期煙葉含水量是煙草工藝技術(shù)指標(biāo)之一，直接影響烤后煙葉的品質(zhì)。準(zhǔn)確地檢測采摘期煙葉水分含量，對煙草工藝具有重要意義。高光譜技術(shù)是一種無損檢測技術(shù)，主要是通過對物體樣品光譜信息的測量后，可在一定程度上體現(xiàn)被測物體內(nèi)部物理結(jié)構(gòu)及化學(xué)成分的差別[1-2]。與傳統(tǒng)的化學(xué)成分檢測技術(shù)相比，高光譜圖像技術(shù)是一種物理檢測技術(shù)。通過建立高光譜分析模型，可同時預(yù)測多個指標(biāo)，并具有分析快速、操作簡單、無損也無需對檢測樣品預(yù)處理等諸多優(yōu)勢[3-5]。目前，雖然國內(nèi)外也有相關(guān)研究從高光譜圖像技術(shù)及反射率的角度成功地估算作物的氮含量、葉綠素含量、水分含量及進行了病害檢測等[6-13]，但是目前國內(nèi)外利用高光譜技術(shù)鑒定煙葉含水量的報道較少。因此，高光譜技術(shù)可用來對采摘期鮮煙葉葉片水分含量進行檢測。

高光譜技術(shù)對煙草葉片水分含量進行預(yù)測時，煙葉樣本中存在未知的光譜異常樣本，會直接影響模型精度[14]。在建立煙草葉片水分含量分析模型時，煙葉的光譜值與化學(xué)值之間具有一定的相關(guān)性。然而，數(shù)據(jù)集中存在異常光譜樣本時，會導(dǎo)致這種相關(guān)性降低，模型預(yù)測精度也會隨之降低。因此，有必要對異常樣本進行識別和處理后再進行建模分析。

本研究利用MSC、SNV、歸一化(Normalize)、數(shù)據(jù)中心化(Mean centering)、標(biāo)準(zhǔn)化(Autoscales)、移動窗口平滑、SG卷積平滑法、Savitzky-Golay一階導(dǎo)數(shù)、Savitzky-Golay二階導(dǎo)數(shù)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)多種方法來對樣本的高光譜數(shù)據(jù)進行預(yù)處理，再利用主成分分析結(jié)合馬氏距離(PCA-MD)的方法來消除異常樣本，選出最佳預(yù)處理方法，然后使用偏最小二乘法建立了煙葉水分含量模型。驗證高光譜技術(shù)應(yīng)用于煙葉水分含量預(yù)測的可行性，實現(xiàn)快速、無損和科學(xué)的煙葉水分含量檢測。

1 材料與方法

1.1 試驗地點

本研究以貴州省天柱縣(黔東南地區(qū))、息烽縣(黔中地區(qū))、安龍縣(黔西南地區(qū))、道真縣(黔北地區(qū))和威寧縣(黔西北地區(qū))五個地區(qū)采摘期云煙87中部煙葉為研究對象，于2019年7月30日—8月20日期間進行，每個地區(qū)選擇30個樣本，共采集150個煙葉樣本。

1.2 試驗數(shù)據(jù)獲取

1.2.1 高光譜數(shù)據(jù)的獲取

首先選擇晴朗、無風(fēng)的天氣在戶外采用GaiaSky-mini2機載高光譜成像儀(四川雙利合譜)拍攝所采集煙葉樣本的高光譜圖像，并進行光譜圖像的黑白校正。然后使用ENVI5.3軟件對鮮煙葉葉片感興趣區(qū)域(Region of Interesting，ROI)進行繪制，但考慮到傳感器鏡頭邊緣存在減光現(xiàn)象，所選區(qū)域應(yīng)盡量避開主莖，遠離圖像邊緣且盡可能大的包絡(luò)煙葉葉面部分。最后計算樣本ROI內(nèi)的平均光譜數(shù)據(jù)值，將其作為煙葉葉片的原始光譜。本次所拍攝的光譜數(shù)據(jù)波長范圍為371.08～1 037.89 nm，包含176個波長點。

1.2.2 葉片水分含量的測定

在采集高光譜圖像后，將每一個煙葉樣本的葉片與主莖分開，用0.01 g的電子稱稱重并記錄為煙葉的鮮質(zhì)量(記為m0)，立刻使用寫好標(biāo)簽的錫紙包裹(錫紙標(biāo)簽與煙樣標(biāo)簽一致)，放入液態(tài)氮中保存(保證鮮煙葉化學(xué)性質(zhì)不受到損失)。將樣本帶回實驗室，取出液態(tài)氮所保存的樣品，使用鑷子將錫紙扎破后，然后放入真空冷凍干燥機處理后，進行稱重并記錄為煙葉干質(zhì)量(記為m1)。通過式(1)計算水分含量。

(1)

式中：f——樣本的水分含量；

m0——樣本的鮮質(zhì)量；

m1——樣本的干質(zhì)量。

1.3 數(shù)據(jù)處理方法

1.3.1 預(yù)處理方法

由于受到外部環(huán)境和儀器暗電流的影響，在光譜數(shù)據(jù)采集過程中會出現(xiàn)散射、高頻隨機噪聲和基線漂移等問題，影響后續(xù)建立模型精度和穩(wěn)定性[15]。為了消除這些不良因素影響，應(yīng)用多元散射校正、標(biāo)準(zhǔn)正態(tài)變量交換、歸一化、數(shù)據(jù)中心化、標(biāo)準(zhǔn)化、移動窗口平滑、Savitzky-Golay卷積平滑、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)等方法對光譜進行預(yù)處理。

1.3.2 主成分分析結(jié)合馬氏距離剔除異常樣本(PCA-MD)

主成分分析(PCA)是采用降維的方式，在損失很少信息的條件下將原本多變量轉(zhuǎn)化為只有維數(shù)較少且互不相關(guān)變量來替代，可以計算出每個樣本光譜各個變量的主成分得分，是采用數(shù)學(xué)方法來降低光譜數(shù)據(jù)維數(shù)的有效方法[16-17]。

馬氏距離是計算空間中兩個不同數(shù)據(jù)點相似度的方法[18-20]。馬氏距離考慮了不相等的方差以及特征之間的相關(guān)性，通過對數(shù)據(jù)點的特征分配不同的權(quán)重來充分評估數(shù)據(jù)點之間的距離。而且馬氏距離可以調(diào)節(jié)數(shù)據(jù)的幾何情況，使得類似數(shù)據(jù)點之間的間距很小。因此，它可以用來提高聚類或分類算法的性能。

本文利用每個樣品的光譜數(shù)據(jù)與校正集的平均光譜數(shù)據(jù)之間的間距作為馬氏距離，結(jié)合主成分分析所得煙葉樣本得分，計算各個樣本的馬氏距離，然后將其與閾值作比較，并通過去除異常光譜樣品來提高模型的準(zhǔn)確性，計算方法如式(2)～式(3)。

(2)

(3)

式中：M——校正集光譜主成分得分矩陣的協(xié)方差陣；

ti——樣本i的主成分得分向量；

Di——校正集樣本i的馬氏距離。

檢驗校正集中的異常樣本存在的閾值計算如式(4)所示。

Dth=Dm+e·σd

(4)

式中：e——給定閾值調(diào)整權(quán)重系數(shù)；

Dm、σd——m個樣本馬氏距離的平均值、標(biāo)準(zhǔn)差；

Dth——校正集閾值范圍。

凡滿足Di≥Dth，認為校正集中第i個樣本是異常樣本，予以剔除；反之Di

1.3.3 PLS預(yù)測模型

偏最小二乘法(PLS)是一種高效提取信息的方法，結(jié)合了多種統(tǒng)計分析方法的優(yōu)點，是用于光譜數(shù)據(jù)分析的重要方法。本研究將全波段波長作為模型的輸入變量，利用交叉驗證的方法(cross validation)來選取主成分數(shù)，建立煙葉水分含量的PLS預(yù)測模型，通過模型的評價指標(biāo)來確定模型精度。

利用相關(guān)系數(shù)R與均方根誤差RMSE對模型的穩(wěn)定性和估測能力進行檢驗。R越大，即數(shù)值越靠近1，說明該模型的擬合精度越高，并且模型越穩(wěn)定；RMSE越小，則模型估測能力便越好、準(zhǔn)確度越高。文中采用RMSEC表示校正集樣本均方根誤差及RMSEP表示預(yù)測集樣本均方根誤差，相關(guān)計算公式如式(5)～式(6)。

(5)

(6)

式中：yi——各煙葉樣本的水分含量真實值；

m——校正集樣本量；

n——預(yù)測集樣本量。

2 結(jié)果與分析

2.1 預(yù)處理

未經(jīng)預(yù)處理的原始光譜曲線圖和經(jīng)過不同預(yù)處理方法處理后煙葉樣本光譜曲線如圖1所示。

煙葉反射率的原始光譜顯示出明顯的散射噪聲和基線漂移，盡管這種分散的光譜曲線呈現(xiàn)出相似的變化趨勢(圖1(a))。經(jīng)過多元散射校正、移動窗口平滑、SG卷積平滑等預(yù)處理后的光譜曲線吸收和反射特征更加明顯，都有不同程度的強化和去噪作用。多元散射校正(圖1(b))、SNV(圖1(c))和標(biāo)準(zhǔn)化(圖1(d))處理后，光譜的重合度明顯提高，減少了散射噪聲的影響，但在400～500 nm波段范圍內(nèi)造成了光譜分散。

(a) Original spectrum (b) MSC (c) SNV

移動窗口平滑(圖1(f))和SG卷積平滑(圖1(g))處理后，明顯減少了700～1 000 nm范圍內(nèi)曲線的波動。歸一化(圖1(e))和數(shù)據(jù)中心化(圖1(h))處理后，光譜都歸入了某個特定的數(shù)值區(qū)間之內(nèi)，在一定程度上減小了尺寸差異大和數(shù)據(jù)信息結(jié)構(gòu)不同的干擾。Savitzky-Golay一階求導(dǎo)(圖1(i))、Savitzky-Golay二階求導(dǎo)(圖1(j))、直接差分一階求導(dǎo)(圖1(k))、直接差分二階求導(dǎo)(圖1(l))與原始光譜曲線相比，吸收峰數(shù)量明顯增加。

2.2 樣本劃分

在冷凍干燥處理過程中，將液態(tài)氮所保存的樣品取出及使用鑷子將錫紙扎破時，造成9個試驗樣本損壞，最后測量水分含量的試驗樣本總數(shù)為141。先使用Matlab2016a軟件的光譜預(yù)處理方法來進行處理141個采摘期鮮煙葉樣本原始光譜，然后將煙葉樣本光譜數(shù)據(jù)順序隨機打亂，使得劃分樣本時水分數(shù)據(jù)在預(yù)測集和校正集中分散均勻，然后以3∶1的比例把樣本數(shù)據(jù)集均勻地分成校正集及預(yù)測集。統(tǒng)計校正集和預(yù)測集樣本水分含量的結(jié)果如表1所示。校正集樣品煙葉水分含量變化范圍在66.98%～78.42%之間，標(biāo)準(zhǔn)偏差為2.291 7%；預(yù)測集樣品含水量在67.64%～79.22%之間，標(biāo)準(zhǔn)偏差為2.651 3%。

表1 水分含量數(shù)據(jù)統(tǒng)計Tab. 1 Statistics of moisture contents

2.3 不同光譜預(yù)處理的主成分分析

取前15個主成分特征值的貢獻率進行比較，如圖2所示。

圖2 不同光譜預(yù)處理的前15個主成分累計貢獻率

為了對比各個預(yù)處理方法下光譜的主成分分析效果，分別對原始光譜進行多元散射校正(MSC)、歸一化(Normalize)、標(biāo)準(zhǔn)正態(tài)變量交換(SNV)、標(biāo)準(zhǔn)化(Autoscales)、數(shù)據(jù)中心化(Mean centering)、移動窗口平滑、Savitzky-Golay卷積平滑法、Savitzky-Golay一階導(dǎo)數(shù)、Savitzky-Golay二階導(dǎo)數(shù)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)的方法對原始光譜數(shù)據(jù)進行預(yù)處理，然后采用主成分分析求得它們的主成分累積貢獻率。

從圖2可以看出，Savitzky-Golay卷積平滑和移動窗口平滑預(yù)處理的前4個主成分累積貢獻率大于98%。結(jié)合主成分分析聚類效果，采用Savitzky-Golay卷積平滑和移動窗口平滑法效果相對較好，選擇這兩種光譜預(yù)處理方法的前4個主成分對馬氏距離進行計算。

2.4 剔除異常品對預(yù)測效果的研究

采用交叉驗證對移動窗口平滑以及SG卷積平滑法預(yù)處理后光譜數(shù)據(jù)選取的主因子個數(shù)皆為5。106個樣本(校正集)經(jīng)過主成分分析的馬氏距離如圖3所示，使用移動窗口平滑法確定模型的最佳閾值為0.9，馬氏距離為2.574 1，剔除樣本個數(shù)為15；Savitzky-Golay卷積平滑法最佳閾值為2.2，馬氏距離為3.700 4，剔除樣本個數(shù)為3。

(a) 移動窗口平滑

本試驗應(yīng)用馬氏距離法鑒別異常光譜樣品并將其去除來增加PLS煙葉水分預(yù)測模型的精確度。設(shè)置閾值調(diào)整權(quán)重系數(shù)e=0.1∶0.1∶3。使用不同的權(quán)重系數(shù)e，便會得到不同的閾值，當(dāng)馬氏距離大于設(shè)定閾值時，對應(yīng)的樣本將被剔除。隨著e的增大，剔除樣品的個數(shù)逐漸減少。將異常光譜樣品剔除后，使用交叉驗證(cross validation)法對主成分數(shù)進行選取。采取PLS分別建立煙葉水分預(yù)估模型時，不同參數(shù)e下建立的PLS模型具有不同效果，選擇RMSEC最小時對應(yīng)的參數(shù)e和其剔除異常光譜樣本后的校正集來建立的PLS作為最終確定的煙葉水分含量定量分析模型。

2.5 建模預(yù)測效果比較

以校正集煙葉樣品水分含量與估測水分含量之間的相關(guān)系數(shù)Rtrain，預(yù)測集樣品水分含量和估測水分含量的之間相關(guān)系數(shù)Rtest，校正集樣本均方根誤差RMSEC及預(yù)測集樣本均方根誤差RMSEP作為評價PLS模型優(yōu)劣的指標(biāo)。相關(guān)系數(shù)的值越高、均方根誤差的值越低，說明PLS模型對于煙葉水分含量的估測效果越好。在最佳建模參數(shù)下建立的PLS模型效果如表2、圖4所示。移動窗口平滑法處理的PCA-DA-PLS模型，校正集Rtrain=0.833 1、RMSEC=1.299 9，預(yù)測集Rtest=0.848 3、RMSEP=1.459 6；SG平滑處理的PCA-DA-PLS模型，交叉驗證法得到五個最佳主成分數(shù)，校正集(Rtrain=0.856 9、RMSEC=1.211 5)，預(yù)測集(Rtest=0.852 7、RMSEP=1.376 6)。SG平滑法預(yù)處理的PCA-DA-PLS模型的效果最佳，建立的PLS模型對煙葉含水量預(yù)測能力相對較好，取前五個主成分計算水分含量如式(7)所示。

Y=74.02X1+79.28X2+77.26X3+69.71X4+

58.77X5+70.897 7

(7)

式中：Y——水分預(yù)測值；

Xi——第i個主成分對應(yīng)的光譜數(shù)據(jù)。

表2 最佳建模參數(shù)下建立的PLS模型效果Tab. 2 PLS model effect established under the best modeling parameters

(a) 移動窗口平滑校正集 (b) SG平滑校正集

3 結(jié)論

為了檢測采摘期煙葉水分含量，獲取煙葉葉面高光譜數(shù)據(jù)，本文利用主成分分析結(jié)合馬氏距離的方法來剔除異常樣本，建立煙葉含水量的PLS估測模型。

1) 采用MSC、SG卷積平滑、Moving-averag等方法預(yù)處理后的鮮煙葉樣本光譜曲線的吸收和反射特征更加明顯。比較了多種預(yù)處理方法的主成分分析結(jié)果，得出SG卷積平滑法與移動窗口平滑法效果最佳，二者的前4個主成分累計得分達到98%。

2) 在采用PCA-MD剔除異常樣本后，SG平滑法預(yù)處理的PCA-DA-PLS模型的效果最佳，剔除3個異常樣本，交叉驗證法得到5個最佳主成分數(shù)，建立的PLS模型對煙葉含水量估測能力最好，校正集相關(guān)系數(shù)Rtrain為0.856 9、均方差RMSEC為1.211 5，預(yù)測集相關(guān)系數(shù)Rtest為0.852 7、均方差RMSEP為1.376 6。

3) 利用高光譜圖像技術(shù)預(yù)測煙葉的水分含量效果甚佳，實現(xiàn)了煙葉水分含量快速、無損地估測。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡