油桐籽不同年份和含油率差異對其含油率NIR檢測模型影響的研究

2019-07-17 03:36李水芳付紅軍文瑞芝

中國糧油學(xué)報(bào) 2019年6期

馬強(qiáng) 李水芳付紅軍王瓊文瑞芝

(中南林業(yè)科技大學(xué)理學(xué)院1，長沙 410004)(中南林業(yè)科技大學(xué)食品科學(xué)和工程學(xué)院2，長沙 410004)

油桐(Verniciafordii)為大戟科油桐屬植物，是我國具有代表性的經(jīng)濟(jì)林樹種和特有的工業(yè)油料樹種。油桐在我國秦嶺、淮河以南的16個省(市、區(qū))都有分布或栽培[1]。油桐籽含油率測定在其品質(zhì)分析、良種選育等方面有廣泛應(yīng)用。目前測定油桐籽含油率的方法是有機(jī)溶劑萃取的索氏抽提法[2-3]，該法耗時、需消耗化學(xué)試劑、測定成本較高。

近紅外光譜(near infrared spectroscopy, NIR)技術(shù)具有簡便、快速、易于操作、綠色環(huán)保等優(yōu)點(diǎn)。研究表明該技術(shù)能快速測定油菜、玉米、大豆、棉籽、花生等草本油料植物種子含油率[4-8]。有關(guān)木本油料植物種子含油率的測定，原姣姣等[9]和奚如春等[10]都對油茶籽含油率的NIR檢測進(jìn)行了研究。前期，李水芳等[11]對單一年份油桐籽含油率的NIR檢測進(jìn)行了研究。本研究以不同年份和不同含油率范圍樣本為實(shí)驗(yàn)對象，研究年份和含油率差異對油桐籽含油率NIR檢測模型的影響及如何減少這種影響，為在實(shí)際中建立準(zhǔn)確可靠的油桐籽含油率NIR檢測模型提供參考，也為其他油料植物種子含油率NIR檢測模型的建立提供借鑒。

1 材料和方法

1.1 油桐籽樣本

95個和107個油桐籽樣本分別于2014年11月24日和2015年11月23日采集于湖南省永順縣青坪鎮(zhèn)中南林業(yè)科技大學(xué)油桐實(shí)驗(yàn)基地——國家油桐種質(zhì)資源保存庫。2014年為貧產(chǎn)年，掛果率低，但單果體積大，桐籽含油率普遍較高；2015年為豐產(chǎn)年，掛果率高，但單果體積小，桐籽含油率普遍較2014年低。油桐果去皮留籽，桐籽去殼留仁，稍加錘碎，在70 ℃恒溫箱中烘干，裝入布袋中錘碎，過20目篩后置于干燥器內(nèi)備用。

1.2 NIR光譜數(shù)據(jù)采集

在約20 ℃室溫下，將樣品裝入儀器配備的樣品杯中，用Antaris Ⅱ型傅里葉變換近紅外光譜儀(配有積分球漫反射采集系統(tǒng)，InGaAs檢測器及TQ軟件)采集和保存光譜。采集條件為：光譜范圍10 000～4 000 cm-1，掃描次數(shù)64次，分辨率8 cm-1，4倍增益，數(shù)據(jù)采集格式為Log(1/R)，以內(nèi)置背景為參考，背景頻率為每次掃描前采集。每個樣本平行3次掃描，取平均光譜。

1.3 含油率測定

采集完光譜的樣本，以石油醚(分析純，30～60 ℃)為溶劑，索氏抽提法提取油脂。稱取約10 g樣本(精確到0.01 g，記為m0)，放入烘過后的濾紙筒中，用脫脂棉線捆扎好，稱取其質(zhì)量(精確到0.01 g，記為m1)，然后放于裝有石油醚的索氏抽提裝置中浸泡過夜，第2天抽提10 h左右，直到將2滴抽提液滴到玻璃片上，待溶劑揮發(fā)后，玻璃片上無油脂殘留為止，隨后，將抽提完油脂的濾紙包取出，放到70 ℃烘箱中烘干，稱重(精確到0.01 g，記為m2)。樣本含油率(ω)按式(1)計(jì)算：

(1)

每個樣本平行2次測定(2次測定的相對誤差不大于2.0%，否則重測)，取平均值。

1.4 光譜預(yù)處理、模型構(gòu)建及模型評價(jià)指標(biāo)

對原始光譜進(jìn)行預(yù)處理能消除無關(guān)信息及噪聲、增加樣本光譜之間的差異，提高模型的穩(wěn)健性和預(yù)測能力，實(shí)現(xiàn)模型的優(yōu)化。分別采用一階導(dǎo)數(shù)(1stder)、二階導(dǎo)數(shù)(2ndder)、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)化(SNV)、均值中心化(MC)、Savitzky-Golay平滑(S-G)及其組合等方法對原始光譜進(jìn)行預(yù)處理。

偏最小二乘(partial least squares，PLS)算法對光譜陣和數(shù)值陣同時進(jìn)行分解，并考慮二者的相互關(guān)系，加強(qiáng)對應(yīng)計(jì)算關(guān)系，從而保證獲得最佳的校正模型，是光譜多元校正分析中應(yīng)用最為廣泛的校正方法[12]。本研究以PLS算法構(gòu)建模型。

以校正模型內(nèi)部10折交叉驗(yàn)證的相關(guān)系數(shù)(Rcv)、均方根誤差(RMSECV)、相對標(biāo)準(zhǔn)偏差(RSDcv)、校正集的相關(guān)系數(shù)(Rc)、均方根誤差(RMSEC)、相對標(biāo)準(zhǔn)偏差(RSDc)及驗(yàn)證集外部驗(yàn)證的相關(guān)系數(shù)(Rp)、均方根誤差(RMSEP)、相對標(biāo)準(zhǔn)偏差(RSDp)為指標(biāo)評價(jià)模型。相關(guān)系數(shù)越接近1，均方根誤差和相對標(biāo)準(zhǔn)偏差越小，表明模型的校正精度和預(yù)測精度越好。而小的均方根誤差和相對標(biāo)準(zhǔn)偏差比大的相關(guān)系數(shù)更重要。

1.5 特征波長的篩選

油桐籽NIR由1 557個數(shù)據(jù)點(diǎn)構(gòu)成，波長點(diǎn)數(shù)遠(yuǎn)多于樣本個數(shù)，光譜共線性嚴(yán)重，有效的變量篩選不僅可以簡化模型，更主要的是可以剔除不相關(guān)或共線性變量，從而提高模型的預(yù)測能力和穩(wěn)健性。采用競爭性自適應(yīng)重加權(quán)(CARS)算法進(jìn)行變量篩選和光譜數(shù)據(jù)的壓縮、去噪和特征提取。CARS法[13]是一種有效篩選變量的迭代方法，在每一次迭代中，模仿達(dá)爾文進(jìn)化理論中“適者生存”的原則，相繼采用2種策略進(jìn)行變量消除：首先利用預(yù)定義的指數(shù)衰減函數(shù)強(qiáng)制去掉一部分競爭力相對較弱(指PLS模型回歸系數(shù)的絕對值相對較小)的變量；然后通過自適應(yīng)重加權(quán)采樣技術(shù)繼續(xù)對剩余變量進(jìn)行帶有一定隨機(jī)性的篩選，按概率繼續(xù)去掉一部分不重要的變量。迭代完成后，利用交叉檢驗(yàn)選出模型RMSECV最低的變量子集。

2 結(jié)果與討論

2.1 樣本集的劃分及油桐籽的近紅外光譜

由于2014年樣本含油率普遍較高，而2015年相對較低，致使2014年的95個樣本含油率范圍小于2015年107個樣本的含油率范圍。若用2014年的校正集建模預(yù)測2015年的驗(yàn)證集樣本或混合年份的驗(yàn)證集樣本，則驗(yàn)證集含油率數(shù)據(jù)會落在校正集含油率范圍之外，模型不適于對驗(yàn)證集的預(yù)測。因此，從2015年的107個樣本中取含油率范圍與2014年接近的79個樣本組成另外一個2015年的樣本集。為了對不同年份、不同含油率樣本進(jìn)行研究，我們將樣本劃分為5個集：樣本集1由2014年的95個樣本組成；樣本集2由2015年的79個樣本組成；樣本集3由2015年的107個樣本組成；樣本集4由2014年的95個樣本和2015年的79個樣本組成；樣本集5由2014年的95個樣本和2015年的107個樣本組成。對每個樣本集，取2/3作校證集，1/3作驗(yàn)證集。各樣本集劃分出的校正集和驗(yàn)證集的含油率化學(xué)測定值的統(tǒng)計(jì)結(jié)果如表1所示。

表1 油桐籽含油率化學(xué)測定值統(tǒng)計(jì)結(jié)果

由表1可知，對每個樣本集，驗(yàn)證集含油率范圍都在校正集含油率范圍內(nèi)，因此，校正集所建模型適于對其驗(yàn)證集進(jìn)行預(yù)測；對樣本集1、2和4，各自驗(yàn)證集的含油率范圍都在其他2個樣本集校正集的含油率范圍內(nèi)，因此，用各自校正集所建模型都適于對其他2個樣本集的驗(yàn)證集進(jìn)行預(yù)測。

圖1為2014年95個樣本和2015年107個樣本的平均光譜?？梢钥闯龆哂邢嗤恢玫奈辗?。

圖1 油桐籽樣本的的近紅外光譜圖

2.2 單一年份和混合年份樣本含油率NIR檢測模型的預(yù)測性能

分別用樣本集1、2和4的校正集建立含油率NIR檢測模型，并分別對3個樣本集的驗(yàn)證集進(jìn)行預(yù)測，以比較單一年份和混合年份樣本所建模型的預(yù)測能力。各模型對驗(yàn)證集的預(yù)測結(jié)果見表2。從表2可知：①對單一年份樣本，其校正集建立的模型對自身驗(yàn)證集的預(yù)測結(jié)果最好，對混合年份驗(yàn)證集的預(yù)測結(jié)果次之，而對另一單一年份驗(yàn)證集的預(yù)測結(jié)果最差；②對混合年份樣本，其校正集建立的混合年份模型無論是對單一年份還是混合年份的驗(yàn)證集，預(yù)測結(jié)果都較好；③混合年份模型對單一年份驗(yàn)證集的預(yù)測結(jié)果與單一年份模型對自身驗(yàn)證集的預(yù)測結(jié)果接近，甚至略好。因此，建立油桐籽含油率NIR檢測模型時，為了使模型有更好的適應(yīng)性，應(yīng)收集不同年份的樣本建立混合年份的檢測模型。這一結(jié)果，與Garcia-Alvarez等[14]對不同年份蜂蜜樣本中的果糖和葡萄糖含量進(jìn)行NIR建模分析時的結(jié)果類似。

表2 模型對驗(yàn)證集的預(yù)測結(jié)果

2.3 不同含油率范圍檢測模型的預(yù)測性能

為了比較不同含油率范圍樣本所建模型的預(yù)測性能，我們分別使用2015年的兩個樣本集2和3及混合年份的兩個樣本集4和5進(jìn)行分析，用校正集建立模型，并對各自的驗(yàn)證集進(jìn)行預(yù)測。各樣本集校正集10折交互檢驗(yàn)、校正模型內(nèi)部檢驗(yàn)及驗(yàn)證集外部預(yù)測的結(jié)果見表3。

表3 不同含油率范圍模型的預(yù)測結(jié)果

樣本集2和3同為2015年樣本，集3的含油率范圍34.6%～63.4%，標(biāo)準(zhǔn)偏差6.04，而集2的含油率范圍47.6%～61.4%，標(biāo)準(zhǔn)偏差3.56，集3的含油率范圍和標(biāo)準(zhǔn)偏差都明顯高于集2。雖然集3校正模型的3個相關(guān)系數(shù)(Rcv、Rc、Rp)都比集2校正模型對應(yīng)的3個相關(guān)系數(shù)更接近1，但均方根誤差(RMSECV、RMSEC、RMSEP)和相對標(biāo)準(zhǔn)偏差(RSDcv、RSDc、RSDp)卻比集2對應(yīng)的均方根誤差和相對標(biāo)準(zhǔn)偏差明顯要大，因此，集2校正模型預(yù)測精度比集3更高。比較集2和3各自的3個相關(guān)系數(shù)Rcv、Rc和Rp，集3的3個相關(guān)系數(shù)彼此更接近，因此，集3的模型更穩(wěn)定。同樣，樣本集4和5也存在相似的情況。因此，樣本含油率范圍對所建模型的預(yù)測性能有影響：含油率范圍大，盡管真實(shí)值與預(yù)測值的相關(guān)系數(shù)有所提高，但均方根誤差和相對標(biāo)準(zhǔn)偏差都有所升高，所以模型的預(yù)測精度下降，而穩(wěn)定性更好。

2.4 油桐籽含油率模型的構(gòu)建

用CARS法篩選變量時，每次運(yùn)行CARS算法的最優(yōu)采樣次數(shù)會不相同，選擇的變量數(shù)也有所不同，模型交互檢驗(yàn)的RMSECV也略有不同。對混合年份樣本集5，嘗試運(yùn)行10次CARS算法，選擇RMSECV最小的一次，此時，篩選出的變量為30個。它們對應(yīng)的波數(shù)范圍為：4 089～4 100、4 320、4 902～4 922、5 650～5 658、5 708～5 712、5 751～5 766、5 843～5 851、7 023～7 031、7 046～7 054 cm-1。波數(shù)粗略解析為[12,15]：4 089～4 100、4 320 cm-1在亞甲基C—H鍵的組合頻區(qū)(4 082～4 367 cm-1)；4 902～4 922 cm-1在甲基和亞甲基C—H鍵的第一組合頻區(qū)(4 160～5 000 cm-1)；5 650～5 658、5 708～5 712、5 751～5 766、5 843～5 851 cm-1在甲基和亞甲基C—H鍵的一級倍頻區(qū)(5 550～6 020 cm-1)；7 023～7 031、7 046～7 054 cm-1在甲基和亞甲基C—H鍵伸縮振動的一級倍頻加變形振動的組合頻區(qū)(6 900～7 090 cm-1)。

用篩選出的30個變量建立混合年份樣本集5的含油率PLS定量校正模型，然后對其驗(yàn)證集進(jìn)行預(yù)測，結(jié)果見圖2。由圖2可知，由66個混合年份樣本組成的驗(yàn)證集的RP為0.929，RMSEP為1.765，RSDP為3.31%，與表3中使用全部1 557個變量建模的預(yù)測結(jié)果相比，建模用變量數(shù)大大減少，模型得到了簡化，而預(yù)測精度略有提升。

圖2 驗(yàn)證集化學(xué)測定值與近紅外預(yù)測值的相關(guān)關(guān)系圖

3 結(jié)論

單一年份油桐籽樣本的NIR含油率檢測模型對本年份樣本的預(yù)測精度好，而對其他單一年份樣本的預(yù)測精度明顯下降，而混合年份油桐籽樣本的含油率NIR檢測模型對各年份樣本都能實(shí)現(xiàn)較準(zhǔn)確預(yù)測；相同年份不同含油率范圍的油桐籽樣本所建NIR檢測模型的預(yù)測結(jié)果存在差異，含油率范圍大，模型的預(yù)測精度略有下降，但模型更穩(wěn)定。所以建立油桐籽含油率NIR檢測模型時，應(yīng)收集不同年份的含油率范圍廣泛的樣本，所建模型既具有較好的預(yù)測精度，又具有更好的適應(yīng)性和穩(wěn)定性。對混合年份樣本，使用偏最小二乘(PLS)法建模，并結(jié)合競爭性自適應(yīng)重加權(quán)(CARS)法篩選變量，不僅模型得到了簡化，而且預(yù)測精度比使用全部1 557個變量建模略有提高。CARS結(jié)合PLS法建立的模型，實(shí)現(xiàn)了近紅外光譜技術(shù)對油桐籽含油率的較準(zhǔn)確預(yù)測：驗(yàn)證集的Rp為0.929，RMSEP為1.765，RSDp為3.31%。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡