王甜甜,馮國(guó)紅,朱玉杰
(東北林業(yè)大學(xué)工程技術(shù)學(xué)院,黑龍江哈爾濱 150040)
藍(lán)莓學(xué)名越橘,杜鵑花科,其成熟果實(shí)可食率達(dá)100%,果肉細(xì)膩,有酸甜可口的味道且伴有清爽宜人的香氣。富含花色苷、維生素C、維生素E、黃酮醇、花青素等多種抗氧化物質(zhì),被譽(yù)為“漿果之王”[1]。果實(shí)的營(yíng)養(yǎng)物質(zhì)含量與其成熟度、貯藏時(shí)間及腐敗程度的關(guān)聯(lián)甚密,是加工產(chǎn)品品質(zhì)及鮮食口感的重要因素之一。消費(fèi)者在購(gòu)買過(guò)程中除關(guān)心水果的味道外,營(yíng)養(yǎng)成分作為重要指標(biāo)也有著越來(lái)越高的關(guān)注度[2]。藍(lán)莓內(nèi)部品質(zhì)的傳統(tǒng)檢測(cè)方法多為破壞性檢測(cè),耗時(shí)長(zhǎng)、效率低,無(wú)法滿足生產(chǎn)實(shí)踐中大批量檢測(cè)的需求,亟待發(fā)展無(wú)損檢測(cè)技術(shù)對(duì)藍(lán)莓內(nèi)部品質(zhì)進(jìn)行快速檢測(cè)。
近年來(lái),可見/近紅外光譜、高光譜成像、電子鼻以及超聲波檢測(cè)等技術(shù)已經(jīng)嘗試用于水果內(nèi)在品質(zhì)的無(wú)損檢測(cè)[3-4]。其中,近紅外光譜技術(shù)(Near-Infrared Spectroscopy,NIR)因其操作簡(jiǎn)單、檢測(cè)速度快、穩(wěn)定性好、無(wú)污染等優(yōu)點(diǎn),逐漸成為農(nóng)產(chǎn)品無(wú)損檢測(cè)的一項(xiàng)重要技術(shù)手段。陳蓓等[5]利用競(jìng)爭(zhēng)適應(yīng)性重加權(quán)采樣法(Competitive Adaptive Reweighted Sampling,CARS)、無(wú)信息變量消除法、隨機(jī)蛙跳算法(Random Frog,RF)和連續(xù)投影算法對(duì)NIR 波長(zhǎng)進(jìn)行降維處理,定量預(yù)測(cè)人參皂苷中Rg1 和Rc 含量,所建偏最小二乘模型決定系數(shù)均達(dá)到0.94 以上。Agulheiro 等[6]對(duì)光譜進(jìn)行一階求導(dǎo)后利用偏最小二乘回歸定量分析草莓可溶性固形物含量,校正集決定系數(shù)和預(yù)測(cè)集決定系數(shù)分別達(dá)到0.9277 和0.8207。姜妍等[7]通過(guò)對(duì)光譜進(jìn)行一階求導(dǎo)、去趨勢(shì)算法和標(biāo)準(zhǔn)正太變換組合算法預(yù)處理后建立偏最小二乘模型,對(duì)青飼大豆三種主要品質(zhì)參數(shù)進(jìn)行定量分析,結(jié)果達(dá)到了較高的預(yù)測(cè)精度。以上研究表明,光譜預(yù)處理方法及分析模型的選擇對(duì)農(nóng)作物品質(zhì)的分析精度具有較大的影響,不同種類預(yù)處理和模型的組合方式會(huì)導(dǎo)致不同的分析結(jié)果。盡管國(guó)內(nèi)外基于NIR 預(yù)處理和建模的組合方式有很多,但對(duì)于分析不同貯藏時(shí)間下的藍(lán)莓果實(shí)內(nèi)部品質(zhì)的預(yù)處理和模型的組合方式還需進(jìn)一步的研究。
本研究收集了不同貯藏時(shí)間的藍(lán)莓果實(shí)樣品,基于NIR 技術(shù),比較多種預(yù)處理方法,并采用最佳的預(yù)處理方法結(jié)合競(jìng)爭(zhēng)適應(yīng)性重加權(quán)采樣法和隨機(jī)蛙跳算法篩選最佳的特征波長(zhǎng),運(yùn)用偏最小二乘回歸(Partial Least Square Regression,PLSR)和支持向量回歸(Support Vector Regression,SVR)兩種技術(shù)建立藍(lán)莓營(yíng)養(yǎng)成分含量快速預(yù)測(cè)模型,第一種屬于線性方法,被認(rèn)為是使用NIR 光譜時(shí)的標(biāo)準(zhǔn)技術(shù)之一;第二種屬于非線性方法,可能更適合定量分析。通過(guò)比較線性和非線性兩種方法,以期進(jìn)一步提高藍(lán)莓營(yíng)養(yǎng)成分的預(yù)測(cè)精準(zhǔn)度,并為藍(lán)莓收儲(chǔ)提供一種快速準(zhǔn)確的檢測(cè)方法。
藍(lán)莓品種 綠寶石,挑選大小均勻、無(wú)損傷的成熟新鮮藍(lán)莓于采摘當(dāng)天低溫貯藏運(yùn)回實(shí)驗(yàn)室,為確保實(shí)驗(yàn)樣品具有代表性梯度范圍,藍(lán)莓以每6 個(gè)為一組分為300 組裝在 PET 專用水果包裝盒放置于10 ℃恒溫箱內(nèi)貯藏,每次實(shí)驗(yàn)取30 組藍(lán)莓,待恢復(fù)室溫后采集其NIR 光譜,再進(jìn)行相關(guān)理化指標(biāo)的測(cè)定。樣品從貯藏當(dāng)天開始,每天選取30 組樣品進(jìn)行測(cè)定,共收集了藍(lán)莓貯藏1~10 d 的光譜及理化值數(shù)據(jù)。
LabSpec 5000 型光譜儀 美國(guó)ASD 公司;UV-1801 紫外可見分光光度計(jì) 北京北分瑞利公司;LYT-330 手持式折光儀 上海淋譽(yù)貿(mào)易有限公司;PX-70BⅢ生化培養(yǎng)恒溫箱 天津泰斯特儀器有限公司。
1.2.1 NIR 采集 采用LabSpec 5000 型光譜儀采集光譜,光譜掃描前,機(jī)器預(yù)熱時(shí)間為30 min,以保證采集結(jié)果的穩(wěn)定,設(shè)置采集參數(shù)波長(zhǎng)范圍350~2500 nm,使用配套軟件Indico ProVersion3.1 采集光譜,采集間隔1 nm。在樣品果腹赤道處每隔約120°掃描光譜3 次,以3 次所得平均結(jié)果作為該單果樣品的NIR 光譜,以每組中6 個(gè)樣品的平均光譜代表該組樣本的光譜數(shù)據(jù)。
1.2.2 理化值測(cè)定 由于果實(shí)的化學(xué)性質(zhì)在全貯藏過(guò)程中將會(huì)發(fā)生變化,因此這些性質(zhì)的無(wú)損估計(jì)對(duì)于銷售及健康食用等具有重要的使用價(jià)值[8]。在這方面,本研究中考慮的兩個(gè)化學(xué)性質(zhì)是可溶性固形物(Soluble Solids Content,SSC)和維生素C(Vitamin C,VC)。藍(lán)莓樣品的這些參數(shù)的實(shí)際值是在破壞性實(shí)驗(yàn)室分析中測(cè)量的,在光譜分析之后以下列方式進(jìn)行。
1.2.2.1 SSC 測(cè)定 取一組藍(lán)莓樣品,放入研缽搗碎,用紗布包裹,擠出藍(lán)莓汁液,對(duì)手持式折光儀進(jìn)行零點(diǎn)校正后,將汁液滴于折光儀獲得讀數(shù),測(cè)量3 次取平均值,作為該組樣本SSC 實(shí)測(cè)值[9]。
1.2.2.2 VC測(cè)定 稱取2 g 搗碎的藍(lán)莓加入1% HCL研磨均勻,加入蒸餾水定容至25 mL。取濾液2 mL加0.2 mL 10% HCl,加水稀釋至10 mL。以蒸餾水為空白對(duì)照,使用紫外分光光度計(jì)在423 nm 處測(cè)待測(cè)液吸光度值,并查標(biāo)準(zhǔn)曲線(C=15.12A+0.1222,R2=0.9833,由抗壞血酸標(biāo)準(zhǔn)液測(cè)得)計(jì)算得出[10-11]。
1.3.1 光譜數(shù)據(jù)預(yù)處理 建立SSC、VC含量的定量識(shí)別模型時(shí),采用馬氏距離[12-13]的方法來(lái)識(shí)別藍(lán)莓樣品中的異常樣品光譜,剔除馬氏距離大于10 的樣本。運(yùn)用基于x-y 聯(lián)合距離的樣本集劃分方法(SPXY)[14],按照訓(xùn)練集與驗(yàn)證集樣品數(shù)量之比4:1,將剔除異常樣品后的全部樣品光譜及理化值劃分為校正集和預(yù)測(cè)集,利用校正集數(shù)據(jù)進(jìn)行模型的訓(xùn)練,利用預(yù)測(cè)集數(shù)據(jù)進(jìn)行模型的性能測(cè)試。
原始光譜包括由于背景和環(huán)境光、樣品的曲率以及不同大小的藍(lán)莓造成的不需要的信息,為提高光譜分辨率,去除樣品表面顆粒不均勻帶來(lái)的雜散光等,消除或減弱非目標(biāo)因素的干擾,提高信噪比和判別準(zhǔn)確度,實(shí)現(xiàn)模型的可靠校準(zhǔn)和歸一化,建立相對(duì)穩(wěn)定的數(shù)學(xué)模型,因此有必要對(duì)284 個(gè)樣本的原始光譜進(jìn)行預(yù)處理,本研究將在軟件Unscrambler X 10.4 中實(shí)現(xiàn)光譜的預(yù)處理。光譜預(yù)處理主要采用一階導(dǎo)數(shù)(First Derivative,1-DER)、二階導(dǎo)數(shù)(Second Derivative,2-DER)、標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate Transform,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)、Savitzky-Golay 平滑(S-G)等一種或幾種方法組合進(jìn)行比較分析。其中導(dǎo)數(shù)算法可以消除樣品背景干擾、區(qū)分重疊峰、提高靈敏度;SNV 可以消除固體顆粒大小、表面散射以及光程變化對(duì)NIR 光譜的影響;MSC 主要是消除顆粒分布不均勻及顆粒大小產(chǎn)生的散射影響;S-G 旨在平滑噪聲數(shù)據(jù)并消除具有大障礙的數(shù)據(jù)點(diǎn)[15-17]。這幾種方法單獨(dú)或組合使用都會(huì)使分析結(jié)果不同,因此,需要大量的實(shí)驗(yàn)來(lái)驗(yàn)證以得到更合適的預(yù)處理方法。對(duì)光譜進(jìn)行預(yù)處理后,使用偏最小二乘法分別建模。最后,利用校正相關(guān)系數(shù)(Corrected Correlation Coefficient,Rc)、 校正均方根誤差(Root Mean Square Error of Correction,RMSEC)、 預(yù)測(cè)相關(guān)系數(shù)(Prediction Correlation Coefficient,Rp)、 預(yù)測(cè)均方根誤差(Root Mean Square Error of Prediction,RMSEP)來(lái)定量比較預(yù)測(cè)效果,計(jì)算公式如式(1)和(2)所示。Rc 和Rp 取值越接近1,RMSEC 和RMSEP 越接近0,模型的擬合性越好,預(yù)測(cè)精度越高。
式(1)和(2)中,RMSE 為均方根誤差;R為相關(guān)系數(shù);n 為樣本個(gè)數(shù);為第i 個(gè)樣本的觀測(cè)值;為觀測(cè)值的平均值; yi為第i 個(gè)樣本的預(yù)測(cè)值(i=1,2,3,…,n)。
1.3.2 特征波長(zhǎng)選擇算法 藍(lán)莓營(yíng)養(yǎng)成分預(yù)測(cè)模型的建立,需將所測(cè)得的藍(lán)莓樣品近紅外光譜數(shù)據(jù)作為預(yù)測(cè)模型的輸入變量,考慮到全光譜的輸入會(huì)有信號(hào)譜帶的重疊問(wèn)題,且降低模型的運(yùn)行速度[18];所以將全光譜進(jìn)行特征提取,以消除原始數(shù)據(jù)之間存在的共線性關(guān)系,提高預(yù)測(cè)結(jié)果穩(wěn)定性[19]。采用CARS 和RF 兩種原理不同的算法,對(duì)預(yù)處理后的光譜進(jìn)行特征波長(zhǎng)篩選,提取特征變量作為預(yù)測(cè)模型的輸入,此過(guò)程及后續(xù)的模型建立均在軟件matlab 2018b 中完成。
CARS 算法是通過(guò)蒙特卡羅采樣建立PLSR 模型,基于自適應(yīng)重加權(quán)采樣和一個(gè)指數(shù)遞減函數(shù),獲得多個(gè)波長(zhǎng)子集。然后,為每個(gè)波長(zhǎng)子集建立一個(gè)交叉驗(yàn)證模型。最后根據(jù)交叉驗(yàn)證均方根誤差(Cross Validation Root Mean Squared Error,RMSECV)值最小原則選擇最終的波長(zhǎng)[20-21]。由于自適應(yīng)重加權(quán)采樣和指數(shù)遞減函數(shù)的隨機(jī)性,每次的篩選結(jié)果都不同,因此需要多次執(zhí)行CARS 算法,將RMSECV 值最小時(shí)對(duì)應(yīng)的波長(zhǎng)變量作為最終的選擇。
RF 算法類似于可逆跳躍馬爾可夫鏈蒙特卡羅,通過(guò)迭代進(jìn)行,在隨機(jī)選取的波長(zhǎng)子集的基礎(chǔ)上生成一個(gè)新的波長(zhǎng)子集,并以一定的概率被接受。循環(huán)該步驟,直到完成N 次迭代并選擇區(qū)間子集,計(jì)算每次迭代中每個(gè)變量被選中的概率[22-23]。概率值越高,變量的重要性越大;具有最高概率的變量被選為特征變量。
1.3.3 預(yù)測(cè)模型 隨著光譜技術(shù)的發(fā)展,PLSR 也成為其分析時(shí)的常用方法。在通過(guò) PLSR 方法創(chuàng)建模型之前,需要確定潛在變量的數(shù)量。本研究利用留一法交叉驗(yàn)證優(yōu)化潛在變量的數(shù)量。潛在變量的最佳數(shù)量對(duì)應(yīng)于最低的RMSECV 值[24-27]。應(yīng)用此過(guò)程后,可以得到最佳的潛在變量,從而可得到更好的預(yù)測(cè)效果。
SVR 用于解決機(jī)器學(xué)習(xí)的問(wèn)題,被認(rèn)為是功能強(qiáng)大且能靈活應(yīng)用的一種計(jì)算算法。目前,被廣泛應(yīng)用于具有非線性性質(zhì)的、數(shù)據(jù)量大且繁雜的工作中。與PLSR 一樣,SVR 也需要在校準(zhǔn)過(guò)程之前設(shè)置一些參數(shù)。參數(shù)ε決定了回歸曲線的平坦程度,且0<ε<1;核函數(shù)參數(shù)g 和懲罰因子參數(shù)c 對(duì)支持向量回歸模型的精度和泛化能力的影響是最主要的,因此需要確定這兩個(gè)參數(shù)以提高模型的效果[28-29]。本文利用網(wǎng)格搜索技術(shù)的全局搜索能力,通過(guò)設(shè)定網(wǎng)格搜索的c 和g 值的搜索范圍和步長(zhǎng),自動(dòng)確定c 和g 參數(shù)的取值,然后進(jìn)行交叉驗(yàn)證,找出精確度最高的(c,g)對(duì),從而減少參數(shù)選擇的盲目性,提高參數(shù)選擇的精度[30-31]。
圖1 所示為藍(lán)莓樣本第1~10 d 的平均原始光譜曲線圖,不同顏色的曲線代表不同的儲(chǔ)藏期,圖中第1~10 d 的光譜反射率由高到低依次下降。由于350~500 nm 和2300~2500 nm 的范圍內(nèi)的光譜噪聲太大,因此截取500~2300 nm 的光譜作為本研究的分析范圍。在700~1300、1440~1830 nm 范圍,不同貯藏期藍(lán)莓樣品之間的反射率差異較大,因?yàn)樵搮^(qū)域主要承載了-OH、-NH、-CO 和C-H 官能團(tuán)信息,而SSC 和VC的化學(xué)結(jié)構(gòu)主就是由這類化學(xué)鍵組成,因此,利用近紅外光譜可用于檢測(cè)藍(lán)莓的SSC 和VC。
圖1 不同貯藏期藍(lán)莓原始平均光譜曲線圖Fig.1 Original average spectral curve of blueberries in different storage periods
圖2 為300 個(gè)樣本的馬氏距離,黑色直線以上的部分是馬氏距離大于10 的樣本,剔除馬氏距離大于10 的樣本共16 個(gè),將其余的284 個(gè)樣本按4:1 劃分為校正集和預(yù)測(cè)集。SSC 和VC分布范圍、校正集及預(yù)測(cè)集的平均值如表1 所示。SSC、VC校正集的分布范圍大于預(yù)測(cè)集的分布范圍,證明SPXY算法劃分后的校正集具有代表性,可以為模型提供更準(zhǔn)確的結(jié)果。
表1 SPXY 算法劃分校正集和預(yù)測(cè)集結(jié)果統(tǒng)計(jì)Table 1 SPXY algorithm divides calibration set and prediction set result statistics
圖2 所有樣本馬氏距離Fig.2 Mahalanobis distance for all samples
為了篩選最佳的光譜預(yù)處理方法,在Unscrambler X 10.4 軟件中得出12 種預(yù)處理組合,其中1-DER 采用間隔點(diǎn)數(shù)7,2-DER 采用間隔點(diǎn)數(shù)6,SG 采用窗口寬度13,多項(xiàng)式導(dǎo)數(shù)為3。用PLSR 建立模型,通過(guò)比較每種組合所得出的的Rc、RMSEC、Rp、RMSEP 來(lái)衡量預(yù)處理的效果。光譜預(yù)處理結(jié)果如表2 所示,通過(guò)MSC+2-DER(圖3)組合處理的光譜數(shù)據(jù)用于預(yù)測(cè)可溶性固形物和維生素C 含量均表現(xiàn)出相對(duì)較好的效果,且相較于原始光譜預(yù)測(cè)效果也大幅提升,說(shuō)明該預(yù)處理方法可提供更加有效的信息,可用于進(jìn)一步波長(zhǎng)篩選及建模分析。
表2 不同組合預(yù)處理結(jié)果Table 2 Different combinations of preprocessing results
圖3 MSC+2-DER 預(yù)處理后的近紅外光譜Fig.3 NIR spectra after MSC+2-DER pretreatment
將經(jīng)過(guò)光譜預(yù)處理的原始光譜利用CARS 算法和RF 算法提取特征波長(zhǎng),以下是SSC 和VC特征波長(zhǎng)提取過(guò)程。
CARS 的提取中,蒙特卡羅采樣設(shè)置為15 次,9 折交叉驗(yàn)證。300 次迭代過(guò)程中SSC 和VC的RMSECV 變化如圖4(a)和圖4(b)所示,RMSECV 值隨著重復(fù)選擇次數(shù)的增加均呈現(xiàn)先緩慢下降,然后再整體上升的趨勢(shì),最后趨于平緩,當(dāng)RMSECV 值達(dá)到最小值時(shí),為所建PLSR 模型的最優(yōu)結(jié)果,此時(shí)對(duì)于SSC 和VC采樣分別運(yùn)行了178 次和162 次,RMSECV 值分別為1.427 和4.262。所選波長(zhǎng)數(shù)量分別為32 個(gè)和46 個(gè),對(duì)應(yīng)于全波段的位置分別如圖5(a)和圖5(b)所示。
圖4 RMSECV 隨采樣次數(shù)變化過(guò)程Fig.4 Process of RMSECV changing with the number of samples
圖5 優(yōu)選波長(zhǎng)分布Fig.5 Preferred wavelength distribution
基于RF 算法,對(duì)于SSC 和VC,每個(gè)變量被選擇的概率如圖6(a)和圖6(b)所示,選擇概率大于0.3 的變量為最終特征波長(zhǎng),SSC 和VC得到滿足條件的特征波長(zhǎng)分別有79 個(gè)和53 個(gè),如圖7(a)和圖7(b)所示。
圖6 變量選擇概率Fig.6 Variable selection probability
圖7 優(yōu)選波長(zhǎng)分布Fig.7 Preferred wavelength distribution
將兩種方法所選波長(zhǎng)變量結(jié)合起來(lái),去掉重復(fù)的波長(zhǎng),SSC 和VC分別有100 個(gè)和87 個(gè)波長(zhǎng)變量。以上優(yōu)選出的三種波長(zhǎng)組合將分別作為模型的輸入,通過(guò)比較建模結(jié)果分析CARS 和RF 兩種算法的適用性。
基于預(yù)處理之后選出的特征變量作為輸入量,分別建立PLSR 和SVR 模型,對(duì)藍(lán)莓中SSC 和VC含量進(jìn)行預(yù)測(cè)。
建立SVR 模型時(shí),利用網(wǎng)格法尋找最佳的參數(shù)c 和g。本文設(shè)定ε=0.01,設(shè)定網(wǎng)格搜索的c、g 值的搜索范圍和步長(zhǎng),這里設(shè)置為c∈[0, 10],步長(zhǎng)為0.5,g∈[-10, 0],步長(zhǎng)為1,將模型運(yùn)行50 次的結(jié)果取平均值作為最終預(yù)測(cè)結(jié)果進(jìn)行分析。兩種模型的預(yù)測(cè)結(jié)果見表3 所示。
表3 PLSR 和SVR 模型預(yù)測(cè)效果Table 3 PLSR and SVR model prediction effect
波長(zhǎng)選擇后,2 種優(yōu)化算法消除了大量與預(yù)測(cè)內(nèi)容無(wú)關(guān)的波長(zhǎng),用于建模的光譜數(shù)據(jù)量顯著減少。將CARS 算法和RF 算法提取到的特征波長(zhǎng)及組合波長(zhǎng)建立PLSR 模型,相較于全波段所建立的PLSR模型,優(yōu)選出的特征波長(zhǎng)所得到的Rc 和Rp 均大幅提高,RMSEC 和RMSEP 也相對(duì)減少,SSC 波長(zhǎng)變量分別降到了全波段變量1.7%、4.3%、5.6%,VC波長(zhǎng)變量分別降到了全波段變量的2.5%、2.9%、4.8%。說(shuō)明,利用CARS 和RF 特征波長(zhǎng)提取方法均可提高模型對(duì)藍(lán)莓中SSC 和VC含量的預(yù)測(cè)精度。
三種優(yōu)選變量組合中,CARS+RF 組合的波長(zhǎng)數(shù)量最多,建模結(jié)果最好。其余兩種波長(zhǎng)組合中,對(duì)于SSC 而言,RF 組合的建模效果比CARS 組合更好;對(duì)于VC而言,CARS 組合的建模效果比RF 組合更好??傊?,采用CARS 和RF 算法選出的光譜特征波長(zhǎng),能夠保留有效的光譜信息,在此基礎(chǔ)上將兩者相結(jié)合,進(jìn)一步提高了模型的預(yù)測(cè)效果,實(shí)現(xiàn)了算法之間的優(yōu)劣互補(bǔ)。
圖8 為利用CARS 結(jié)合RF 算法提取的特征波長(zhǎng)下,SSC 和VC含量真實(shí)值與預(yù)測(cè)值的變化趨勢(shì),(a)和(c)為PLSR 模型對(duì)SSC 和VC含量的預(yù)測(cè)結(jié)果,(b)和(d)為SVR 模型對(duì)SSC 和VC含量的預(yù)測(cè)結(jié)果。兩種模型進(jìn)行對(duì)比發(fā)現(xiàn),非線性的SVR 算法與線性的PLSR 算法的建模效果相差不大,但SVR算法并沒有表現(xiàn)出更好的預(yù)測(cè)效果。
圖8 SSC 與VC 預(yù)測(cè)值與真實(shí)值對(duì)比圖Fig.8 Comparison chart of predicted values and real values of SSC and VC
本研究結(jié)合CARS 和RF 算法篩選特征波長(zhǎng),利用PLSR 和SVR 算法對(duì)藍(lán)莓中的SSC 和VC含量進(jìn)行快速定量預(yù)測(cè)。采用近紅外光譜儀采集300組藍(lán)莓的原始光譜,利用馬氏距離剔除16 個(gè)異常樣本,比較五種不同的光譜預(yù)處理方法(1-DER、2-DER、SNV、MSC、S-G),并結(jié)合各種預(yù)處理方法對(duì)藍(lán)莓樣品的原始光譜進(jìn)行處理,并建立PLSR 模型進(jìn)行對(duì)比,選擇MSC 結(jié)合2-DER 作為藍(lán)莓原始光譜的最佳預(yù)處理方法,SSC 和VC含量預(yù)測(cè)的Rc 分別為0.7796、0.8089,RMSEC 分別為1.2052、3.5839,Rp 分別為0.7376、0.7021,RMSEP 分別為0.9673、3.6885。利用CARS 和RF 算法及兩種算法組合對(duì)預(yù)處理后的全光譜波段進(jìn)行特征波長(zhǎng)篩選,對(duì)于SSC 和VC,CARS 算法分別篩選出32 和46 個(gè)特征波長(zhǎng),RF 算法分別篩選出79 和53 個(gè)特征波長(zhǎng),組合篩選特征波長(zhǎng)分別為101 和87 個(gè)。比較篩選出的三種波長(zhǎng)組合對(duì)PLSR 模型預(yù)測(cè)性能的影響,發(fā)現(xiàn)兩種波長(zhǎng)篩選算法均能有效選取SSC 和VC的特征波長(zhǎng),CARS 結(jié)合RF 算法提取的特征波長(zhǎng)預(yù)測(cè)結(jié)果最好。為了進(jìn)一步探索本研究中校正模型的預(yù)測(cè)性能,將其與相同波長(zhǎng)組合下的SVR 模型進(jìn)行了比較,發(fā)現(xiàn)線性PLSR 和非線性SVR 算法分別建立的校正模型均具有較好的預(yù)測(cè)性能,但SVR 的預(yù)測(cè)結(jié)果略低于PLSR。研究表明,近紅外光譜結(jié)合機(jī)器學(xué)習(xí)算法是一種快速、無(wú)損檢測(cè)藍(lán)莓營(yíng)養(yǎng)物質(zhì)含量的方法,波長(zhǎng)選擇技術(shù)可以提高預(yù)測(cè)模型對(duì)藍(lán)莓中SSC 和VC的預(yù)測(cè)性能。機(jī)器學(xué)習(xí)與波長(zhǎng)篩選算法相結(jié)合便于建立無(wú)損檢測(cè)通用模型,能夠有效預(yù)測(cè)藍(lán)莓中多種營(yíng)養(yǎng)物質(zhì),為其質(zhì)量評(píng)價(jià)及監(jiān)測(cè)提供了一種有效的途徑。
本研究在藍(lán)莓貯藏溫度10 ℃條件下,共采集300 組樣本的光譜數(shù)據(jù)、SSC 和VC含量,為近紅外光譜快速檢測(cè)藍(lán)莓SSC 和VC含量提供了理論依據(jù)和數(shù)據(jù)支持。為進(jìn)一步提高模型預(yù)測(cè)精度,增強(qiáng)模型的泛化性能,在今后的研究中將增加樣本量,擴(kuò)大藍(lán)莓種類和貯藏溫度的采集范圍,對(duì)數(shù)據(jù)處理方法及預(yù)測(cè)模型進(jìn)行更深入的研究。