張立欣 楊翠芳 陳 杰 王亞明 張 曉
(1.塔里木大學(xué)信息工程學(xué)院,新疆 阿拉爾 843300;2.南京理工大學(xué)理學(xué)院,江蘇 南京 210094)
消費(fèi)者在購買水果時(shí),除了注重顏色、大小、形狀等外部品質(zhì)外,對(duì)內(nèi)部品質(zhì)口感也極為看重,其中糖分含量直接影響其口感。傳統(tǒng)糖分含量的檢測(cè)方法為破壞性或侵入性測(cè)量,不僅費(fèi)時(shí)、費(fèi)力,而且還破壞了水果的完整性。
近些年,近紅外光譜(near infrared spectroscopy,NIR)分析技術(shù)因具有快速、便捷、無損的優(yōu)點(diǎn)逐漸被用于農(nóng)產(chǎn)品檢測(cè)中,如蘋果[1-2]、葡萄[3-4]、水蜜桃[5]、紅提[6]、香梨[7]、滑皮金桔[8]等。在光譜分析中,經(jīng)常會(huì)受到背景等隨機(jī)因素的干擾,因此需對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理[9],常用的光譜預(yù)處理方法有一階導(dǎo)數(shù)、二階導(dǎo)數(shù)[10]、標(biāo)準(zhǔn)正態(tài)變換[11]、多元散射校正[12]、平滑變換[13]、標(biāo)準(zhǔn)化、歸一化、中心化等。白鐵成等[14]采用不同的預(yù)處理方法對(duì)南疆沙塵區(qū)駿棗葉片的光譜數(shù)據(jù)進(jìn)行預(yù)處理,分析發(fā)現(xiàn)不同方法對(duì)散射噪聲的處理能力存在差異。陳杰等[15]分別采用小波變換、多元散射校正以及二者結(jié)合的方法預(yù)處理數(shù)據(jù),最后使用偏最小二乘法對(duì)3種方法預(yù)處理過的光譜數(shù)據(jù)建立羊肉水分含量的預(yù)測(cè)模型,結(jié)果表明,采用多元散射校正預(yù)處理方法建立的模型預(yù)測(cè)能力優(yōu)于小波變換,采用2種結(jié)合的預(yù)處理方法建立的模型最優(yōu)。為降低模型的復(fù)雜度,減少共線性的干擾,需要提取特征波段[16],常用的方法有連續(xù)投影算法[17]、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法[7]、主成分分析[18]、無信息變量消除法[19]、隨機(jī)蛙跳算法[20]等,成甜甜等[21]分別采用隨機(jī)青蛙、無信息變量消除法、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法提取特征波長(zhǎng)后建立偏最小二乘模型,結(jié)果顯示模型預(yù)測(cè)效果整體提升。程介虹等[22]提出了一種改進(jìn)聯(lián)合區(qū)間的隨機(jī)蛙跳算法選擇特征波長(zhǎng),通過聯(lián)合區(qū)間偏最小二乘法對(duì)全譜進(jìn)行變量初選,此時(shí)得到的波長(zhǎng)對(duì)目標(biāo)變量變化最為敏感,將其作為隨機(jī)蛙跳算法的初始變量子集,以解決其運(yùn)行時(shí)間較長(zhǎng)、效率較低的問題。袁凱等[23]采用3步混合策略,提出了間隔偏最小二乘、區(qū)間變量迭代空間收縮法和迭代保留信息變量聯(lián)用的特征變量選擇方法,對(duì)生鮮雞胸肉的近紅外光譜進(jìn)行特征波長(zhǎng)選擇,建立了雞肉水R分檢測(cè)模型。結(jié)果表明,建模波長(zhǎng)數(shù)量經(jīng)3步選擇后減少為全光譜建模的0.76%,但模型精確度和穩(wěn)定性逐步提高。Fang等[7]將連續(xù)投影算法、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法、RELIEF 3種方法選取的特征變量組合起來建模,取得了很好的預(yù)測(cè)效果。在模型建立方面,有線性模型,如偏最小二乘回歸[21],也有非線性模型,如神經(jīng)網(wǎng)路[24]、隨機(jī)森林[25]、遷移學(xué)習(xí)[26]、極限學(xué)習(xí)機(jī)[27]等。
盡管已有研究利用光譜技術(shù)和成分含量指標(biāo),取得了相對(duì)理想的預(yù)測(cè)效果,但是在對(duì)光譜數(shù)據(jù)進(jìn)行分析時(shí),一般只采用一種預(yù)處理方法,忽略了多種預(yù)處理方法相結(jié)合效果更優(yōu)的可能性。選取特征波長(zhǎng)變量時(shí),一般只采取一種方法,或者多種方法串聯(lián)起來,逐步減少特征變量的個(gè)數(shù),雖然模型簡(jiǎn)化了,但是不同的波長(zhǎng)選取方法各有側(cè)重點(diǎn),如果有重要的特征變量在某一步中漏掉,將永遠(yuǎn)不可能參與建模,影響模型的預(yù)測(cè)效果,而將多種特征變量組合起來建模的,目前鮮有報(bào)告。研究擬在總結(jié)前人研究的基礎(chǔ)上,基于近紅外光譜技術(shù),以新疆阿克蘇的紅富士蘋果為研究對(duì)象,依據(jù)光譜數(shù)據(jù)和糖分含量的實(shí)測(cè)數(shù)據(jù),采取多種組合方式對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,采用不同方法選取特征變量,以選出的特征變量的組合作為輸入自變量,分別建立線性和非線性的糖分含量預(yù)測(cè)模型,重點(diǎn)研究不同的光譜預(yù)處理方法、特征變量和建模方法對(duì)預(yù)測(cè)結(jié)果的影響,以期為進(jìn)一步研究糖分含量的便攜式檢測(cè)裝置提供理論參考。
1.1.1 材料
以阿克蘇的紅富士蘋果為試驗(yàn)對(duì)象,在試驗(yàn)中所使用的蘋果均產(chǎn)自紅旗坡農(nóng)場(chǎng),挑選表面沒有缺陷、直徑范圍為65~85 nm且大小均勻的蘋果樣品,去除表面的污垢,放置在冰柜內(nèi)保存,控制在4 ℃,試驗(yàn)前分批拿出,待其恢復(fù)到室溫(20~25 ℃)后開始試驗(yàn)。
1.1.2 主要儀器
糖度鹽度兩用儀:MASTER-BX/S28M型,日本ATAGO公司;
推掃式高光譜分選系統(tǒng):Hyperspspectral Sorting System型,北京卓立漢光公司。
光譜測(cè)定范圍為900~1 700 nm(實(shí)際可測(cè)量到1 750 nm),光譜分辨率5 nm,光譜采樣點(diǎn)4 nm。選取果身中心前后左右4個(gè)方位,提取大小為20像素×15像素,4個(gè)面均進(jìn)行提取,共1 200像素點(diǎn),選取平均值為該樣本反射率。通過自帶的ENVI5.3 軟件提取ROI的光譜值,最后導(dǎo)出為Excel文件。選用糖度鹽度兩用儀,對(duì)蘋果采集了高光譜圖像的部位挖取適量果肉,深度為皮下0.5 cm左右,壓榨出汁水進(jìn)行糖度測(cè)量,測(cè)量3次取平均值,以此來作為蘋果糖度的標(biāo)準(zhǔn)值。
采用的光譜數(shù)據(jù)預(yù)處理方法有一階導(dǎo)數(shù)(1-DER)、二階導(dǎo)數(shù)(2-DER)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、多元散射校正(MSC)、SG平滑變換(SG)、標(biāo)準(zhǔn)化(STD)、最大最小歸一化(MMN)、中心化(CEN)。
主要采用連續(xù)投影算法(SPA)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)來選取特征波長(zhǎng)變量。
偏最小二乘回歸法(PLS)集主成分分析、典型相關(guān)分析和多元線性回歸分析3種分析方法的優(yōu)點(diǎn)于一身,可以避免數(shù)據(jù)非正態(tài)分布、因子結(jié)構(gòu)不確定性和模型不能識(shí)別等潛在問題。并且能較好地解決樣本個(gè)數(shù)少于變量個(gè)數(shù)等問題,特別當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí),用偏最小二乘回歸法更有效。
極限學(xué)習(xí)機(jī)(ELM)是一種簡(jiǎn)單易用、有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,不同于傳統(tǒng)的訓(xùn)練算法(如BP算法等),ELM算法對(duì)輸入層的權(quán)值和偏置進(jìn)行隨機(jī)賦值,然后用求Moore-Penrose廣義逆矩陣的方法直接解出隱含層到輸出層的權(quán)值。ELM算法需要手動(dòng)設(shè)置的參數(shù)只有隱含層結(jié)點(diǎn)個(gè)數(shù),算法執(zhí)行過程中不需要人工調(diào)整參數(shù),避免了傳統(tǒng)訓(xùn)練算法反復(fù)迭代的過程,快速收斂,極大地減少了訓(xùn)練時(shí)間,所得解是唯一最優(yōu)解,保證了網(wǎng)絡(luò)的泛化性能。
采用Kennard-Stone算法將數(shù)據(jù)集以3∶1的比例劃分為訓(xùn)練集和測(cè)試集,依靠訓(xùn)練集建立模型,測(cè)試集將通過已經(jīng)建立好的模型進(jìn)行驗(yàn)證,以測(cè)試集的均方根誤差(RMSE)、擬合優(yōu)度(R2)作為標(biāo)準(zhǔn)來評(píng)判模型的優(yōu)劣,計(jì)算公式:
(1)
(2)
式中:
RMSE——均方根誤差;
R2——擬合優(yōu)度;
n——樣本個(gè)數(shù);
yi——第i個(gè)樣本的觀測(cè)值;
采集的紅富士蘋果高光譜數(shù)據(jù)中,剔除異常值后,共得到160個(gè)樣本,其原始光譜曲線如圖1所示。
近紅外光主要是對(duì)含氫基團(tuán)X—H(X為C、N、O)振動(dòng)的倍頻和合頻吸收,其中包含了大多數(shù)類型有機(jī)化合物的組成和分子結(jié)構(gòu)的信息。選用連續(xù)改變頻率的近紅外光照射某樣品時(shí),由于試樣對(duì)不同頻率近紅外光的選擇性吸收,通過試樣后的近紅外光線在某些波長(zhǎng)范圍內(nèi)會(huì)變?nèi)?,透射出來的紅外光線就攜帶有機(jī)物組分和結(jié)構(gòu)的信息。從圖1可以看出,950 nm附近處有一個(gè)明顯的峰,這是O—H基團(tuán)的3倍頻吸收帶,1 060 nm處的峰是N—H基團(tuán)的3倍頻帶,1 180 nm處的波谷位于C—H的3倍頻帶,1 440 nm處的波谷是H2O 2倍頻吸收帶等。如果樣品的組成相同,則其光譜也相同,反之亦然。因此,近紅外光譜分析法是一種間接的分析技術(shù)。在對(duì)未知樣本進(jìn)行分析之前,需要獲得樣品的光譜數(shù)據(jù)和用化學(xué)分析方法測(cè)得糖分含量的真實(shí)數(shù)據(jù),建立光譜和糖分含量的關(guān)聯(lián)模型。如果建立了光譜與糖分含量的對(duì)應(yīng)關(guān)系,那么只要測(cè)得樣品的光譜,就能很快預(yù)測(cè)其糖分含量。采用KS算法,以3∶1的比例劃分訓(xùn)練集和測(cè)試集,訓(xùn)練集用于建立光譜和糖分含量的關(guān)聯(lián)模型,測(cè)試集用于檢驗(yàn)?zāi)P汀S?xùn)練集和測(cè)試集的劃分結(jié)果如表1所示。
圖1 原始光譜圖
表1 訓(xùn)練集和測(cè)試集的劃分結(jié)果
測(cè)試集和訓(xùn)練集的第一主成分、第二主成分分布如圖2所示。
從圖2可以看出,測(cè)試集的主成分都落在訓(xùn)練集的對(duì)應(yīng)主成分范圍之內(nèi),說明數(shù)據(jù)的劃分是合理的。
圖2 訓(xùn)練集和測(cè)試集的主成分分布
在近紅外光譜應(yīng)用時(shí),經(jīng)常會(huì)受到背景等隨機(jī)因素的干擾,因此需對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。根據(jù)預(yù)處理的效果大致分為基線校正、散射校正、平滑處理和尺度縮放4類。每一類又包含多種預(yù)處理方法,基線校正包括一階導(dǎo)數(shù)(1-DER)和二階導(dǎo)數(shù)(2-DER)等,散射校正包括標(biāo)準(zhǔn)正態(tài)變換(SNV)和多元散射校正(MSC),平滑處理是SG平滑(SG),尺度縮放包括標(biāo)準(zhǔn)化(STD)、最大最小歸一化(MMN)、中心化(CEN)等。對(duì)于光譜數(shù)據(jù)進(jìn)行分析時(shí),沒有普適的預(yù)處理方法,通過對(duì)已有預(yù)處理方法按照預(yù)處理的目的進(jìn)行分類再排列組合是選擇最佳預(yù)處理方法的一種有效途徑[9]。因此,對(duì)于每一類中包含的預(yù)處理方法進(jìn)行for循環(huán),按照表2從上到下的順序一次從每類預(yù)處理方法中選擇一種(0代表不作此類變換),共得到3×3×2×4=72種組合的預(yù)處理方法。
表2 預(yù)處理方法
原始光譜數(shù)據(jù)分別經(jīng)過這72種方法預(yù)處理之后,建立PLS模型,交叉驗(yàn)證的均方根誤差(RMSECV)和擬合優(yōu)度如圖3所示。
圖3 不同預(yù)處理的預(yù)測(cè)效果
從圖3可以看出,不同的預(yù)處理方法預(yù)測(cè)效果存在差異,剛開始,交叉驗(yàn)證的均方根誤差有減小的趨勢(shì),擬合優(yōu)度有增加的趨勢(shì);在第4種預(yù)處理到第26種預(yù)處理之間,交叉驗(yàn)證的均方根誤差和擬合優(yōu)度基本處于穩(wěn)定狀態(tài);在第27種預(yù)處理方式到第62種預(yù)處理方式之間,交叉驗(yàn)證的均方根誤差有波動(dòng)上漲的趨勢(shì),擬合優(yōu)度波動(dòng)下降;從第63種預(yù)處理方式開始,交叉驗(yàn)證的均方根誤差波動(dòng)下降,擬合優(yōu)度波動(dòng)上升。這可能是由于在某些預(yù)處理過程中,波長(zhǎng)變量的重要信息被屏蔽掉了,影響模型的預(yù)測(cè)效果。比較而言,第4種預(yù)處理方法對(duì)應(yīng)的RMSECV最小,為0.898 9,擬合優(yōu)度為0.772 2。為提高模型的預(yù)測(cè)效果,以下均采用第4種預(yù)處理方法,即中心化預(yù)處理方法。
光譜能夠體現(xiàn)所含物質(zhì)的成分及含量,但也包含大量的冗余信息,在利用光譜數(shù)據(jù)分析之前,需要提取特征波長(zhǎng)變量,以減少共線性的影響,提高模型的穩(wěn)健性[16]。分別采用連續(xù)投影算法(SPA)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)提取特征變量。采用SPA算法進(jìn)行變量選擇,指定波長(zhǎng)變量數(shù)為2~50,采用均方根誤差最小來確定最終變量個(gè)數(shù),變量選取過程如圖4所示。
從圖4可以看出,隨著所選變量個(gè)數(shù)的增加,均方根誤差有遞減的趨勢(shì),當(dāng)所選變量個(gè)數(shù)為7時(shí),均方根誤差為1.121 0,此后隨著所選變量個(gè)數(shù)的增加,均方根誤差并無明顯減小反而有遞增的趨勢(shì)。這是由于過少的變量參與建模,遺漏掉重要的解釋變量,導(dǎo)致模型的預(yù)測(cè)精度較低;過多的變量參與建模,又會(huì)引起變量之間的共線性。綜合分析,選取出7個(gè)特征波長(zhǎng)變量,對(duì)應(yīng)波長(zhǎng)為:911.06,932.90,1 065.87,1 110.91,1 385.35,1 612.63,1 665.41 nm。
圖4 變量的選取過程
采用CARS算法選擇特征波長(zhǎng)變量,迭代50次,以均方根誤差最小來確定波長(zhǎng)變量數(shù),選取過程如圖5所示。
從圖5可以看出,隨著迭代次數(shù)的增加,均方根誤差呈先減小后增加的趨勢(shì),到第17次迭代時(shí),均方根誤差達(dá)到最小為0.831 4,此時(shí)選出的52個(gè)特征波長(zhǎng)變量,對(duì)應(yīng)波長(zhǎng)為:1 049.87,1 053.06,1 059.46,1 062.66,1 069.07,1 078.70,1 136.81,1 140.05,1 143.30,1 153.06,1 156.31,1 159.57,1 162.83,1 166.09,1 169.35,1 172.61,1 175.88,1 179.15,1 195.51,1 248.20,1 268.08,1 375.21,1 378.59,1 422.67,1 426.08,1 429.48,1 432.89,1 436.30,1 511.78,1 518.68,1 522.14,1 598.63,1 602.13,1 605.63,1 609.13,1 612.63,1 616.14,1 619.64,1 623.15,1 626.66,1 630.18,1 644.25,1 647.77,1 651.29,1 654.82,1 661.87,1 676.01,1 679.55,1 683.09,1 690.17,1 697.27,1 700.82 nm。
圖5 變量選取結(jié)果
SPA和CARS兩種方法選取的變量如圖6所示。從圖6可以看出,SPA和CARS方法選取的特征波長(zhǎng)變量只有一個(gè)在1 069 nm處重合,其他波長(zhǎng)變量并沒有重合。SPA算法選出的911.06 nm特征波長(zhǎng),它位于C—H基團(tuán)的4倍頻吸收帶附近,CARS算法選出的1 049.87,1 179.15,1 429.48 nm的特征波長(zhǎng)分別位于N—H基團(tuán)的3倍頻、C—H的3倍頻、O—H的2倍頻吸收帶附近。SPA算法和CARS算法都只是選出了部分與物質(zhì)成分相關(guān)的變量,為了使波長(zhǎng)變量更全面地反映物質(zhì)的成分信息,考慮將兩種方法選出的特征變量組合起來。
圖6 選取的變量
分別以SPA選出的7個(gè)特征波長(zhǎng)變量、CARS選出的52個(gè)特征變量、兩種方法選出的特征變量的組合共58個(gè)作為輸入自變量(重合的特征波長(zhǎng)變量只計(jì)算1次),分別建立線性模型和非線性模型。
線性模型選用經(jīng)典的PLS模型,模型的預(yù)測(cè)效果如表3所示。從表3可以看出,將SPA和CARS方法選取的特征變量組合起來作為建模的輸入自變量,比單一的一種方法選出的特征變量建模的精度高,這是因?yàn)椴煌奶卣髯兞糠从车奈镔|(zhì)內(nèi)部品質(zhì)結(jié)構(gòu)不同,多特征變量組合參與建模,可以更全面地反映物質(zhì)的組成結(jié)構(gòu)。
表3 PLS模型的預(yù)測(cè)結(jié)果
采用非線性的ELM算法建模,分別以SPA選出的特征變量、CARS選出的特征變量、組合的特征變量參與建模,選擇sigmoid函數(shù)作為激活函數(shù),通過反復(fù)嘗試,隱含層節(jié)點(diǎn)數(shù)分別取30,23,33,模型的預(yù)測(cè)效果如圖7所示。從圖7可以看出,組合的特征變量建模效果優(yōu)于單一方法選出的特征變量的建模效果。與表4進(jìn)行比較,可以發(fā)現(xiàn),同樣的特征變量參與建模,ELM模型的預(yù)測(cè)精度更高,這是由于蘋果內(nèi)部的結(jié)構(gòu)復(fù)雜,除了線性結(jié)構(gòu)外,還有其他的非線性結(jié)構(gòu),因此,非線性的ELM模型預(yù)測(cè)效果優(yōu)于線性的PLS模型。
圖7 ELM模型的預(yù)測(cè)結(jié)果
對(duì)于中心化預(yù)處理之后的蘋果光譜數(shù)據(jù),將連續(xù)投影算法選出的特征變量和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法選出的特征變量組合起來,能夠更全面地反映物質(zhì)的成分信息,建模效果優(yōu)于單一方法選出的特征變量的效果。同樣的特征變量參與建模,非線性的模型比線性模型更能反映蘋果內(nèi)部的復(fù)雜結(jié)構(gòu)。后續(xù)將研究多種方法選取特征變量,討論對(duì)模型預(yù)測(cè)效果的影響。