基于變量?jī)?yōu)選的蘋果糖分含量近紅外光譜檢測(cè)

2021-11-18 07:51張立欣楊翠芳王亞明

食品與機(jī)械 2021年10期

張立欣楊翠芳陳杰王亞明張曉

(1.塔里木大學(xué)信息工程學(xué)院，新疆阿拉爾 843300；2.南京理工大學(xué)理學(xué)院，江蘇南京 210094)

消費(fèi)者在購買水果時(shí)，除了注重顏色、大小、形狀等外部品質(zhì)外，對(duì)內(nèi)部品質(zhì)口感也極為看重，其中糖分含量直接影響其口感。傳統(tǒng)糖分含量的檢測(cè)方法為破壞性或侵入性測(cè)量，不僅費(fèi)時(shí)、費(fèi)力，而且還破壞了水果的完整性。

近些年，近紅外光譜(near infrared spectroscopy，NIR)分析技術(shù)因具有快速、便捷、無損的優(yōu)點(diǎn)逐漸被用于農(nóng)產(chǎn)品檢測(cè)中，如蘋果[1-2]、葡萄[3-4]、水蜜桃[5]、紅提[6]、香梨[7]、滑皮金桔[8]等。在光譜分析中，經(jīng)常會(huì)受到背景等隨機(jī)因素的干擾，因此需對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理[9]，常用的光譜預(yù)處理方法有一階導(dǎo)數(shù)、二階導(dǎo)數(shù)[10]、標(biāo)準(zhǔn)正態(tài)變換[11]、多元散射校正[12]、平滑變換[13]、標(biāo)準(zhǔn)化、歸一化、中心化等。白鐵成等[14]采用不同的預(yù)處理方法對(duì)南疆沙塵區(qū)駿棗葉片的光譜數(shù)據(jù)進(jìn)行預(yù)處理，分析發(fā)現(xiàn)不同方法對(duì)散射噪聲的處理能力存在差異。陳杰等[15]分別采用小波變換、多元散射校正以及二者結(jié)合的方法預(yù)處理數(shù)據(jù)，最后使用偏最小二乘法對(duì)3種方法預(yù)處理過的光譜數(shù)據(jù)建立羊肉水分含量的預(yù)測(cè)模型，結(jié)果表明，采用多元散射校正預(yù)處理方法建立的模型預(yù)測(cè)能力優(yōu)于小波變換，采用2種結(jié)合的預(yù)處理方法建立的模型最優(yōu)。為降低模型的復(fù)雜度，減少共線性的干擾，需要提取特征波段[16]，常用的方法有連續(xù)投影算法[17]、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法[7]、主成分分析[18]、無信息變量消除法[19]、隨機(jī)蛙跳算法[20]等，成甜甜等[21]分別采用隨機(jī)青蛙、無信息變量消除法、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法提取特征波長(zhǎng)后建立偏最小二乘模型，結(jié)果顯示模型預(yù)測(cè)效果整體提升。程介虹等[22]提出了一種改進(jìn)聯(lián)合區(qū)間的隨機(jī)蛙跳算法選擇特征波長(zhǎng)，通過聯(lián)合區(qū)間偏最小二乘法對(duì)全譜進(jìn)行變量初選，此時(shí)得到的波長(zhǎng)對(duì)目標(biāo)變量變化最為敏感，將其作為隨機(jī)蛙跳算法的初始變量子集，以解決其運(yùn)行時(shí)間較長(zhǎng)、效率較低的問題。袁凱等[23]采用3步混合策略，提出了間隔偏最小二乘、區(qū)間變量迭代空間收縮法和迭代保留信息變量聯(lián)用的特征變量選擇方法，對(duì)生鮮雞胸肉的近紅外光譜進(jìn)行特征波長(zhǎng)選擇，建立了雞肉水R分檢測(cè)模型。結(jié)果表明，建模波長(zhǎng)數(shù)量經(jīng)3步選擇后減少為全光譜建模的0.76%，但模型精確度和穩(wěn)定性逐步提高。Fang等[7]將連續(xù)投影算法、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法、RELIEF 3種方法選取的特征變量組合起來建模，取得了很好的預(yù)測(cè)效果。在模型建立方面，有線性模型，如偏最小二乘回歸[21]，也有非線性模型，如神經(jīng)網(wǎng)路[24]、隨機(jī)森林[25]、遷移學(xué)習(xí)[26]、極限學(xué)習(xí)機(jī)[27]等。

盡管已有研究利用光譜技術(shù)和成分含量指標(biāo)，取得了相對(duì)理想的預(yù)測(cè)效果，但是在對(duì)光譜數(shù)據(jù)進(jìn)行分析時(shí)，一般只采用一種預(yù)處理方法，忽略了多種預(yù)處理方法相結(jié)合效果更優(yōu)的可能性。選取特征波長(zhǎng)變量時(shí)，一般只采取一種方法，或者多種方法串聯(lián)起來，逐步減少特征變量的個(gè)數(shù)，雖然模型簡(jiǎn)化了，但是不同的波長(zhǎng)選取方法各有側(cè)重點(diǎn)，如果有重要的特征變量在某一步中漏掉，將永遠(yuǎn)不可能參與建模，影響模型的預(yù)測(cè)效果，而將多種特征變量組合起來建模的，目前鮮有報(bào)告。研究擬在總結(jié)前人研究的基礎(chǔ)上，基于近紅外光譜技術(shù)，以新疆阿克蘇的紅富士蘋果為研究對(duì)象，依據(jù)光譜數(shù)據(jù)和糖分含量的實(shí)測(cè)數(shù)據(jù)，采取多種組合方式對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理，采用不同方法選取特征變量，以選出的特征變量的組合作為輸入自變量，分別建立線性和非線性的糖分含量預(yù)測(cè)模型，重點(diǎn)研究不同的光譜預(yù)處理方法、特征變量和建模方法對(duì)預(yù)測(cè)結(jié)果的影響，以期為進(jìn)一步研究糖分含量的便攜式檢測(cè)裝置提供理論參考。

1 材料與方法

1.1 材料與儀器

1.1.1 材料

以阿克蘇的紅富士蘋果為試驗(yàn)對(duì)象，在試驗(yàn)中所使用的蘋果均產(chǎn)自紅旗坡農(nóng)場(chǎng)，挑選表面沒有缺陷、直徑范圍為65～85 nm且大小均勻的蘋果樣品，去除表面的污垢，放置在冰柜內(nèi)保存，控制在4 ℃，試驗(yàn)前分批拿出，待其恢復(fù)到室溫(20～25 ℃)后開始試驗(yàn)。

1.1.2 主要儀器

糖度鹽度兩用儀：MASTER-BX/S28M型，日本ATAGO公司；

推掃式高光譜分選系統(tǒng)：Hyperspspectral Sorting System型，北京卓立漢光公司。

1.2 試驗(yàn)方法

光譜測(cè)定范圍為900～1 700 nm(實(shí)際可測(cè)量到1 750 nm)，光譜分辨率5 nm，光譜采樣點(diǎn)4 nm。選取果身中心前后左右4個(gè)方位，提取大小為20像素×15像素，4個(gè)面均進(jìn)行提取，共1 200像素點(diǎn)，選取平均值為該樣本反射率。通過自帶的ENVI5.3 軟件提取ROI的光譜值，最后導(dǎo)出為Excel文件。選用糖度鹽度兩用儀，對(duì)蘋果采集了高光譜圖像的部位挖取適量果肉，深度為皮下0.5 cm左右，壓榨出汁水進(jìn)行糖度測(cè)量，測(cè)量3次取平均值，以此來作為蘋果糖度的標(biāo)準(zhǔn)值。

1.3 數(shù)據(jù)預(yù)處理

采用的光譜數(shù)據(jù)預(yù)處理方法有一階導(dǎo)數(shù)(1-DER)、二階導(dǎo)數(shù)(2-DER)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、多元散射校正(MSC)、SG平滑變換(SG)、標(biāo)準(zhǔn)化(STD)、最大最小歸一化(MMN)、中心化(CEN)。

1.4 提取特征波長(zhǎng)

主要采用連續(xù)投影算法(SPA)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)來選取特征波長(zhǎng)變量。

1.5 建模方法

偏最小二乘回歸法(PLS)集主成分分析、典型相關(guān)分析和多元線性回歸分析3種分析方法的優(yōu)點(diǎn)于一身，可以避免數(shù)據(jù)非正態(tài)分布、因子結(jié)構(gòu)不確定性和模型不能識(shí)別等潛在問題。并且能較好地解決樣本個(gè)數(shù)少于變量個(gè)數(shù)等問題，特別當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí)，用偏最小二乘回歸法更有效。

極限學(xué)習(xí)機(jī)(ELM)是一種簡(jiǎn)單易用、有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法，不同于傳統(tǒng)的訓(xùn)練算法(如BP算法等)，ELM算法對(duì)輸入層的權(quán)值和偏置進(jìn)行隨機(jī)賦值，然后用求Moore-Penrose廣義逆矩陣的方法直接解出隱含層到輸出層的權(quán)值。ELM算法需要手動(dòng)設(shè)置的參數(shù)只有隱含層結(jié)點(diǎn)個(gè)數(shù)，算法執(zhí)行過程中不需要人工調(diào)整參數(shù)，避免了傳統(tǒng)訓(xùn)練算法反復(fù)迭代的過程，快速收斂，極大地減少了訓(xùn)練時(shí)間，所得解是唯一最優(yōu)解，保證了網(wǎng)絡(luò)的泛化性能。

1.6 模型驗(yàn)證

采用Kennard-Stone算法將數(shù)據(jù)集以3∶1的比例劃分為訓(xùn)練集和測(cè)試集，依靠訓(xùn)練集建立模型，測(cè)試集將通過已經(jīng)建立好的模型進(jìn)行驗(yàn)證，以測(cè)試集的均方根誤差(RMSE)、擬合優(yōu)度(R2)作為標(biāo)準(zhǔn)來評(píng)判模型的優(yōu)劣，計(jì)算公式：

(1)

(2)

式中：

RMSE——均方根誤差；

R2——擬合優(yōu)度；

n——樣本個(gè)數(shù)；

yi——第i個(gè)樣本的觀測(cè)值；

2 結(jié)果與分析

2.1 原始光譜分析

采集的紅富士蘋果高光譜數(shù)據(jù)中，剔除異常值后，共得到160個(gè)樣本，其原始光譜曲線如圖1所示。

近紅外光主要是對(duì)含氫基團(tuán)X—H(X為C、N、O)振動(dòng)的倍頻和合頻吸收，其中包含了大多數(shù)類型有機(jī)化合物的組成和分子結(jié)構(gòu)的信息。選用連續(xù)改變頻率的近紅外光照射某樣品時(shí)，由于試樣對(duì)不同頻率近紅外光的選擇性吸收，通過試樣后的近紅外光線在某些波長(zhǎng)范圍內(nèi)會(huì)變?nèi)?，透射出來的紅外光線就攜帶有機(jī)物組分和結(jié)構(gòu)的信息。從圖1可以看出，950 nm附近處有一個(gè)明顯的峰，這是O—H基團(tuán)的3倍頻吸收帶，1 060 nm處的峰是N—H基團(tuán)的3倍頻帶，1 180 nm處的波谷位于C—H的3倍頻帶，1 440 nm處的波谷是H2O 2倍頻吸收帶等。如果樣品的組成相同，則其光譜也相同，反之亦然。因此，近紅外光譜分析法是一種間接的分析技術(shù)。在對(duì)未知樣本進(jìn)行分析之前，需要獲得樣品的光譜數(shù)據(jù)和用化學(xué)分析方法測(cè)得糖分含量的真實(shí)數(shù)據(jù)，建立光譜和糖分含量的關(guān)聯(lián)模型。如果建立了光譜與糖分含量的對(duì)應(yīng)關(guān)系，那么只要測(cè)得樣品的光譜，就能很快預(yù)測(cè)其糖分含量。采用KS算法，以3∶1的比例劃分訓(xùn)練集和測(cè)試集，訓(xùn)練集用于建立光譜和糖分含量的關(guān)聯(lián)模型，測(cè)試集用于檢驗(yàn)?zāi)Ｐ汀Ｓ?xùn)練集和測(cè)試集的劃分結(jié)果如表1所示。

圖1 原始光譜圖

表1 訓(xùn)練集和測(cè)試集的劃分結(jié)果

測(cè)試集和訓(xùn)練集的第一主成分、第二主成分分布如圖2所示。

從圖2可以看出，測(cè)試集的主成分都落在訓(xùn)練集的對(duì)應(yīng)主成分范圍之內(nèi)，說明數(shù)據(jù)的劃分是合理的。

圖2 訓(xùn)練集和測(cè)試集的主成分分布

2.2 光譜數(shù)據(jù)的預(yù)處理

在近紅外光譜應(yīng)用時(shí)，經(jīng)常會(huì)受到背景等隨機(jī)因素的干擾，因此需對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。根據(jù)預(yù)處理的效果大致分為基線校正、散射校正、平滑處理和尺度縮放4類。每一類又包含多種預(yù)處理方法，基線校正包括一階導(dǎo)數(shù)(1-DER)和二階導(dǎo)數(shù)(2-DER)等，散射校正包括標(biāo)準(zhǔn)正態(tài)變換(SNV)和多元散射校正(MSC)，平滑處理是SG平滑(SG)，尺度縮放包括標(biāo)準(zhǔn)化(STD)、最大最小歸一化(MMN)、中心化(CEN)等。對(duì)于光譜數(shù)據(jù)進(jìn)行分析時(shí)，沒有普適的預(yù)處理方法，通過對(duì)已有預(yù)處理方法按照預(yù)處理的目的進(jìn)行分類再排列組合是選擇最佳預(yù)處理方法的一種有效途徑[9]。因此，對(duì)于每一類中包含的預(yù)處理方法進(jìn)行for循環(huán)，按照表2從上到下的順序一次從每類預(yù)處理方法中選擇一種(0代表不作此類變換)，共得到3×3×2×4=72種組合的預(yù)處理方法。

表2 預(yù)處理方法

原始光譜數(shù)據(jù)分別經(jīng)過這72種方法預(yù)處理之后，建立PLS模型，交叉驗(yàn)證的均方根誤差(RMSECV)和擬合優(yōu)度如圖3所示。

圖3 不同預(yù)處理的預(yù)測(cè)效果

從圖3可以看出，不同的預(yù)處理方法預(yù)測(cè)效果存在差異，剛開始，交叉驗(yàn)證的均方根誤差有減小的趨勢(shì)，擬合優(yōu)度有增加的趨勢(shì)；在第4種預(yù)處理到第26種預(yù)處理之間，交叉驗(yàn)證的均方根誤差和擬合優(yōu)度基本處于穩(wěn)定狀態(tài)；在第27種預(yù)處理方式到第62種預(yù)處理方式之間，交叉驗(yàn)證的均方根誤差有波動(dòng)上漲的趨勢(shì)，擬合優(yōu)度波動(dòng)下降；從第63種預(yù)處理方式開始，交叉驗(yàn)證的均方根誤差波動(dòng)下降，擬合優(yōu)度波動(dòng)上升。這可能是由于在某些預(yù)處理過程中，波長(zhǎng)變量的重要信息被屏蔽掉了，影響模型的預(yù)測(cè)效果。比較而言，第4種預(yù)處理方法對(duì)應(yīng)的RMSECV最小，為0.898 9，擬合優(yōu)度為0.772 2。為提高模型的預(yù)測(cè)效果，以下均采用第4種預(yù)處理方法，即中心化預(yù)處理方法。

2.3 特征波長(zhǎng)選取

光譜能夠體現(xiàn)所含物質(zhì)的成分及含量，但也包含大量的冗余信息，在利用光譜數(shù)據(jù)分析之前，需要提取特征波長(zhǎng)變量，以減少共線性的影響，提高模型的穩(wěn)健性[16]。分別采用連續(xù)投影算法(SPA)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)提取特征變量。采用SPA算法進(jìn)行變量選擇，指定波長(zhǎng)變量數(shù)為2～50，采用均方根誤差最小來確定最終變量個(gè)數(shù)，變量選取過程如圖4所示。

從圖4可以看出，隨著所選變量個(gè)數(shù)的增加，均方根誤差有遞減的趨勢(shì)，當(dāng)所選變量個(gè)數(shù)為7時(shí)，均方根誤差為1.121 0，此后隨著所選變量個(gè)數(shù)的增加，均方根誤差并無明顯減小反而有遞增的趨勢(shì)。這是由于過少的變量參與建模，遺漏掉重要的解釋變量，導(dǎo)致模型的預(yù)測(cè)精度較低；過多的變量參與建模，又會(huì)引起變量之間的共線性。綜合分析，選取出7個(gè)特征波長(zhǎng)變量，對(duì)應(yīng)波長(zhǎng)為：911.06，932.90，1 065.87，1 110.91，1 385.35，1 612.63，1 665.41 nm。

圖4 變量的選取過程

采用CARS算法選擇特征波長(zhǎng)變量，迭代50次，以均方根誤差最小來確定波長(zhǎng)變量數(shù)，選取過程如圖5所示。

從圖5可以看出，隨著迭代次數(shù)的增加，均方根誤差呈先減小后增加的趨勢(shì)，到第17次迭代時(shí)，均方根誤差達(dá)到最小為0.831 4，此時(shí)選出的52個(gè)特征波長(zhǎng)變量，對(duì)應(yīng)波長(zhǎng)為：1 049.87，1 053.06，1 059.46，1 062.66，1 069.07，1 078.70，1 136.81，1 140.05，1 143.30，1 153.06，1 156.31，1 159.57，1 162.83，1 166.09，1 169.35，1 172.61，1 175.88，1 179.15，1 195.51，1 248.20，1 268.08，1 375.21，1 378.59，1 422.67，1 426.08，1 429.48，1 432.89，1 436.30，1 511.78，1 518.68，1 522.14，1 598.63，1 602.13，1 605.63，1 609.13，1 612.63，1 616.14，1 619.64，1 623.15，1 626.66，1 630.18，1 644.25，1 647.77，1 651.29，1 654.82，1 661.87，1 676.01，1 679.55，1 683.09，1 690.17，1 697.27，1 700.82 nm。

圖5 變量選取結(jié)果

SPA和CARS兩種方法選取的變量如圖6所示。從圖6可以看出，SPA和CARS方法選取的特征波長(zhǎng)變量只有一個(gè)在1 069 nm處重合，其他波長(zhǎng)變量并沒有重合。SPA算法選出的911.06 nm特征波長(zhǎng)，它位于C—H基團(tuán)的4倍頻吸收帶附近，CARS算法選出的1 049.87，1 179.15，1 429.48 nm的特征波長(zhǎng)分別位于N—H基團(tuán)的3倍頻、C—H的3倍頻、O—H的2倍頻吸收帶附近。SPA算法和CARS算法都只是選出了部分與物質(zhì)成分相關(guān)的變量，為了使波長(zhǎng)變量更全面地反映物質(zhì)的成分信息，考慮將兩種方法選出的特征變量組合起來。

圖6 選取的變量

2.4 模型建立

分別以SPA選出的7個(gè)特征波長(zhǎng)變量、CARS選出的52個(gè)特征變量、兩種方法選出的特征變量的組合共58個(gè)作為輸入自變量(重合的特征波長(zhǎng)變量只計(jì)算1次)，分別建立線性模型和非線性模型。

線性模型選用經(jīng)典的PLS模型，模型的預(yù)測(cè)效果如表3所示。從表3可以看出，將SPA和CARS方法選取的特征變量組合起來作為建模的輸入自變量，比單一的一種方法選出的特征變量建模的精度高，這是因?yàn)椴煌奶卣髯兞糠从车奈镔|(zhì)內(nèi)部品質(zhì)結(jié)構(gòu)不同，多特征變量組合參與建模，可以更全面地反映物質(zhì)的組成結(jié)構(gòu)。

表3 PLS模型的預(yù)測(cè)結(jié)果

采用非線性的ELM算法建模，分別以SPA選出的特征變量、CARS選出的特征變量、組合的特征變量參與建模，選擇sigmoid函數(shù)作為激活函數(shù)，通過反復(fù)嘗試，隱含層節(jié)點(diǎn)數(shù)分別取30，23，33，模型的預(yù)測(cè)效果如圖7所示。從圖7可以看出，組合的特征變量建模效果優(yōu)于單一方法選出的特征變量的建模效果。與表4進(jìn)行比較，可以發(fā)現(xiàn)，同樣的特征變量參與建模，ELM模型的預(yù)測(cè)精度更高，這是由于蘋果內(nèi)部的結(jié)構(gòu)復(fù)雜，除了線性結(jié)構(gòu)外，還有其他的非線性結(jié)構(gòu)，因此，非線性的ELM模型預(yù)測(cè)效果優(yōu)于線性的PLS模型。

圖7 ELM模型的預(yù)測(cè)結(jié)果

3 結(jié)論

對(duì)于中心化預(yù)處理之后的蘋果光譜數(shù)據(jù)，將連續(xù)投影算法選出的特征變量和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法選出的特征變量組合起來，能夠更全面地反映物質(zhì)的成分信息，建模效果優(yōu)于單一方法選出的特征變量的效果。同樣的特征變量參與建模，非線性的模型比線性模型更能反映蘋果內(nèi)部的復(fù)雜結(jié)構(gòu)。后續(xù)將研究多種方法選取特征變量，討論對(duì)模型預(yù)測(cè)效果的影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡