馬 強(qiáng) 李水芳 付紅軍 王 瓊 文瑞芝
(中南林業(yè)科技大學(xué)理學(xué)院1,長沙 410004)(中南林業(yè)科技大學(xué)食品科學(xué)和工程學(xué)院2,長沙 410004)
油桐(Verniciafordii)為大戟科油桐屬植物,是我國具有代表性的經(jīng)濟(jì)林樹種和特有的工業(yè)油料樹種。油桐在我國秦嶺、淮河以南的16個省(市、區(qū))都有分布或栽培[1]。油桐籽含油率測定在其品質(zhì)分析、良種選育等方面有廣泛應(yīng)用。目前測定油桐籽含油率的方法是有機(jī)溶劑萃取的索氏抽提法[2-3],該法耗時、需消耗化學(xué)試劑、測定成本較高。
近紅外光譜(near infrared spectroscopy, NIR)技術(shù)具有簡便、快速、易于操作、綠色環(huán)保等優(yōu)點(diǎn)。研究表明該技術(shù)能快速測定油菜、玉米、大豆、棉籽、花生等草本油料植物種子含油率[4-8]。有關(guān)木本油料植物種子含油率的測定,原姣姣等[9]和奚如春等[10]都對油茶籽含油率的NIR檢測進(jìn)行了研究。前期,李水芳等[11]對單一年份油桐籽含油率的NIR檢測進(jìn)行了研究。本研究以不同年份和不同含油率范圍樣本為實(shí)驗(yàn)對象,研究年份和含油率差異對油桐籽含油率NIR檢測模型的影響及如何減少這種影響,為在實(shí)際中建立準(zhǔn)確可靠的油桐籽含油率NIR檢測模型提供參考,也為其他油料植物種子含油率NIR檢測模型的建立提供借鑒。
95個和107個油桐籽樣本分別于2014年11月24日和2015年11月23日采集于湖南省永順縣青坪鎮(zhèn)中南林業(yè)科技大學(xué)油桐實(shí)驗(yàn)基地——國家油桐種質(zhì)資源保存庫。2014年為貧產(chǎn)年,掛果率低,但單果體積大,桐籽含油率普遍較高;2015年為豐產(chǎn)年,掛果率高,但單果體積小,桐籽含油率普遍較2014年低。油桐果去皮留籽,桐籽去殼留仁,稍加錘碎,在70 ℃恒溫箱中烘干,裝入布袋中錘碎,過20目篩后置于干燥器內(nèi)備用。
在約20 ℃室溫下,將樣品裝入儀器配備的樣品杯中,用Antaris Ⅱ型傅里葉變換近紅外光譜儀(配有積分球漫反射采集系統(tǒng),InGaAs檢測器及TQ軟件)采集和保存光譜。采集條件為:光譜范圍10 000~4 000 cm-1,掃描次數(shù)64次,分辨率8 cm-1,4倍增益,數(shù)據(jù)采集格式為Log(1/R),以內(nèi)置背景為參考,背景頻率為每次掃描前采集。每個樣本平行3次掃描,取平均光譜。
采集完光譜的樣本,以石油醚(分析純,30~60 ℃)為溶劑,索氏抽提法提取油脂。稱取約10 g樣本(精確到0.01 g,記為m0),放入烘過后的濾紙筒中,用脫脂棉線捆扎好,稱取其質(zhì)量(精確到0.01 g,記為m1),然后放于裝有石油醚的索氏抽提裝置中浸泡過夜,第2天抽提10 h左右,直到將2滴抽提液滴到玻璃片上,待溶劑揮發(fā)后,玻璃片上無油脂殘留為止,隨后,將抽提完油脂的濾紙包取出,放到70 ℃烘箱中烘干,稱重(精確到0.01 g,記為m2)。樣本含油率(ω)按式(1)計(jì)算:
(1)
每個樣本平行2次測定(2次測定的相對誤差不大于2.0%,否則重測),取平均值。
對原始光譜進(jìn)行預(yù)處理能消除無關(guān)信息及噪聲、增加樣本光譜之間的差異,提高模型的穩(wěn)健性和預(yù)測能力,實(shí)現(xiàn)模型的優(yōu)化。分別采用一階導(dǎo)數(shù)(1stder)、二階導(dǎo)數(shù)(2ndder)、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)化(SNV)、均值中心化(MC)、Savitzky-Golay平滑(S-G)及其組合等方法對原始光譜進(jìn)行預(yù)處理。
偏最小二乘(partial least squares,PLS)算法對光譜陣和數(shù)值陣同時進(jìn)行分解,并考慮二者的相互關(guān)系,加強(qiáng)對應(yīng)計(jì)算關(guān)系,從而保證獲得最佳的校正模型,是光譜多元校正分析中應(yīng)用最為廣泛的校正方法[12]。本研究以PLS算法構(gòu)建模型。
以校正模型內(nèi)部10折交叉驗(yàn)證的相關(guān)系數(shù)(Rcv)、均方根誤差(RMSECV)、相對標(biāo)準(zhǔn)偏差(RSDcv)、校正集的相關(guān)系數(shù)(Rc)、均方根誤差(RMSEC)、相對標(biāo)準(zhǔn)偏差(RSDc)及驗(yàn)證集外部驗(yàn)證的相關(guān)系數(shù)(Rp)、均方根誤差(RMSEP)、相對標(biāo)準(zhǔn)偏差(RSDp)為指標(biāo)評價(jià)模型。相關(guān)系數(shù)越接近1,均方根誤差和相對標(biāo)準(zhǔn)偏差越小,表明模型的校正精度和預(yù)測精度越好。而小的均方根誤差和相對標(biāo)準(zhǔn)偏差比大的相關(guān)系數(shù)更重要。
油桐籽NIR由1 557個數(shù)據(jù)點(diǎn)構(gòu)成,波長點(diǎn)數(shù)遠(yuǎn)多于樣本個數(shù),光譜共線性嚴(yán)重,有效的變量篩選不僅可以簡化模型,更主要的是可以剔除不相關(guān)或共線性變量,從而提高模型的預(yù)測能力和穩(wěn)健性。采用競爭性自適應(yīng)重加權(quán)(CARS)算法進(jìn)行變量篩選和光譜數(shù)據(jù)的壓縮、去噪和特征提取。CARS法[13]是一種有效篩選變量的迭代方法,在每一次迭代中,模仿達(dá)爾文進(jìn)化理論中“適者生存”的原則,相繼采用2種策略進(jìn)行變量消除:首先利用預(yù)定義的指數(shù)衰減函數(shù)強(qiáng)制去掉一部分競爭力相對較弱(指PLS模型回歸系數(shù)的絕對值相對較小)的變量;然后通過自適應(yīng)重加權(quán)采樣技術(shù)繼續(xù)對剩余變量進(jìn)行帶有一定隨機(jī)性的篩選,按概率繼續(xù)去掉一部分不重要的變量。迭代完成后,利用交叉檢驗(yàn)選出模型RMSECV最低的變量子集。
由于2014年樣本含油率普遍較高,而2015年相對較低,致使2014年的95個樣本含油率范圍小于2015年107個樣本的含油率范圍。若用2014年的校正集建模預(yù)測2015年的驗(yàn)證集樣本或混合年份的驗(yàn)證集樣本,則驗(yàn)證集含油率數(shù)據(jù)會落在校正集含油率范圍之外,模型不適于對驗(yàn)證集的預(yù)測。因此,從2015年的107個樣本中取含油率范圍與2014年接近的79個樣本組成另外一個2015年的樣本集。為了對不同年份、不同含油率樣本進(jìn)行研究,我們將樣本劃分為5個集:樣本集1由2014年的95個樣本組成;樣本集2由2015年的79個樣本組成;樣本集3由2015年的107個樣本組成;樣本集4由2014年的95個樣本和2015年的79個樣本組成;樣本集5由2014年的95個樣本和2015年的107個樣本組成。對每個樣本集,取2/3作校證集,1/3作驗(yàn)證集。各樣本集劃分出的校正集和驗(yàn)證集的含油率化學(xué)測定值的統(tǒng)計(jì)結(jié)果如表1所示。
表1 油桐籽含油率化學(xué)測定值統(tǒng)計(jì)結(jié)果
由表1可知,對每個樣本集,驗(yàn)證集含油率范圍都在校正集含油率范圍內(nèi),因此,校正集所建模型適于對其驗(yàn)證集進(jìn)行預(yù)測;對樣本集1、2和4,各自驗(yàn)證集的含油率范圍都在其他2個樣本集校正集的含油率范圍內(nèi),因此,用各自校正集所建模型都適于對其他2個樣本集的驗(yàn)證集進(jìn)行預(yù)測。
圖1為2014年95個樣本和2015年107個樣本的平均光譜??梢钥闯龆哂邢嗤恢玫奈辗?。
圖1 油桐籽樣本的的近紅外光譜圖
分別用樣本集1、2和4的校正集建立含油率NIR檢測模型,并分別對3個樣本集的驗(yàn)證集進(jìn)行預(yù)測,以比較單一年份和混合年份樣本所建模型的預(yù)測能力。各模型對驗(yàn)證集的預(yù)測結(jié)果見表2。從表2可知:①對單一年份樣本,其校正集建立的模型對自身驗(yàn)證集的預(yù)測結(jié)果最好,對混合年份驗(yàn)證集的預(yù)測結(jié)果次之,而對另一單一年份驗(yàn)證集的預(yù)測結(jié)果最差;②對混合年份樣本,其校正集建立的混合年份模型無論是對單一年份還是混合年份的驗(yàn)證集,預(yù)測結(jié)果都較好;③混合年份模型對單一年份驗(yàn)證集的預(yù)測結(jié)果與單一年份模型對自身驗(yàn)證集的預(yù)測結(jié)果接近,甚至略好。因此,建立油桐籽含油率NIR檢測模型時,為了使模型有更好的適應(yīng)性,應(yīng)收集不同年份的樣本建立混合年份的檢測模型。這一結(jié)果,與Garcia-Alvarez等[14]對不同年份蜂蜜樣本中的果糖和葡萄糖含量進(jìn)行NIR建模分析時的結(jié)果類似。
表2 模型對驗(yàn)證集的預(yù)測結(jié)果
為了比較不同含油率范圍樣本所建模型的預(yù)測性能,我們分別使用2015年的兩個樣本集2和3及混合年份的兩個樣本集4和5進(jìn)行分析,用校正集建立模型,并對各自的驗(yàn)證集進(jìn)行預(yù)測。各樣本集校正集10折交互檢驗(yàn)、校正模型內(nèi)部檢驗(yàn)及驗(yàn)證集外部預(yù)測的結(jié)果見表3。
表3 不同含油率范圍模型的預(yù)測結(jié)果
樣本集2和3同為2015年樣本,集3的含油率范圍34.6%~63.4%,標(biāo)準(zhǔn)偏差6.04,而集2的含油率范圍47.6%~61.4%,標(biāo)準(zhǔn)偏差3.56,集3的含油率范圍和標(biāo)準(zhǔn)偏差都明顯高于集2。雖然集3校正模型的3個相關(guān)系數(shù)(Rcv、Rc、Rp)都比集2校正模型對應(yīng)的3個相關(guān)系數(shù)更接近1,但均方根誤差(RMSECV、RMSEC、RMSEP)和相對標(biāo)準(zhǔn)偏差(RSDcv、RSDc、RSDp)卻比集2對應(yīng)的均方根誤差和相對標(biāo)準(zhǔn)偏差明顯要大,因此,集2校正模型預(yù)測精度比集3更高。比較集2和3各自的3個相關(guān)系數(shù)Rcv、Rc和Rp,集3的3個相關(guān)系數(shù)彼此更接近,因此,集3的模型更穩(wěn)定。同樣,樣本集4和5也存在相似的情況。因此,樣本含油率范圍對所建模型的預(yù)測性能有影響:含油率范圍大,盡管真實(shí)值與預(yù)測值的相關(guān)系數(shù)有所提高,但均方根誤差和相對標(biāo)準(zhǔn)偏差都有所升高,所以模型的預(yù)測精度下降,而穩(wěn)定性更好。
用CARS法篩選變量時,每次運(yùn)行CARS算法的最優(yōu)采樣次數(shù)會不相同,選擇的變量數(shù)也有所不同,模型交互檢驗(yàn)的RMSECV也略有不同。對混合年份樣本集5,嘗試運(yùn)行10次CARS算法,選擇RMSECV最小的一次,此時,篩選出的變量為30個。它們對應(yīng)的波數(shù)范圍為:4 089~4 100、4 320、4 902~4 922、5 650~5 658、5 708~5 712、5 751~5 766、5 843~5 851、7 023~7 031、7 046~7 054 cm-1。波數(shù)粗略解析為[12,15]:4 089~4 100、4 320 cm-1在亞甲基C—H鍵的組合頻區(qū)(4 082~4 367 cm-1);4 902~4 922 cm-1在甲基和亞甲基C—H鍵的第一組合頻區(qū)(4 160~5 000 cm-1);5 650~5 658、5 708~5 712、5 751~5 766、5 843~5 851 cm-1在甲基和亞甲基C—H鍵的一級倍頻區(qū)(5 550~6 020 cm-1);7 023~7 031、7 046~7 054 cm-1在甲基和亞甲基C—H鍵伸縮振動的一級倍頻加變形振動的組合頻區(qū)(6 900~7 090 cm-1)。
用篩選出的30個變量建立混合年份樣本集5的含油率PLS定量校正模型,然后對其驗(yàn)證集進(jìn)行預(yù)測,結(jié)果見圖2。由圖2可知,由66個混合年份樣本組成的驗(yàn)證集的RP為0.929,RMSEP為1.765,RSDP為3.31%,與表3中使用全部1 557個變量建模的預(yù)測結(jié)果相比,建模用變量數(shù)大大減少,模型得到了簡化,而預(yù)測精度略有提升。
圖2 驗(yàn)證集化學(xué)測定值與近紅外預(yù)測值的相關(guān)關(guān)系圖
單一年份油桐籽樣本的NIR含油率檢測模型對本年份樣本的預(yù)測精度好,而對其他單一年份樣本的預(yù)測精度明顯下降,而混合年份油桐籽樣本的含油率NIR檢測模型對各年份樣本都能實(shí)現(xiàn)較準(zhǔn)確預(yù)測;相同年份不同含油率范圍的油桐籽樣本所建NIR檢測模型的預(yù)測結(jié)果存在差異,含油率范圍大,模型的預(yù)測精度略有下降,但模型更穩(wěn)定。所以建立油桐籽含油率NIR檢測模型時,應(yīng)收集不同年份的含油率范圍廣泛的樣本,所建模型既具有較好的預(yù)測精度,又具有更好的適應(yīng)性和穩(wěn)定性。對混合年份樣本,使用偏最小二乘(PLS)法建模,并結(jié)合競爭性自適應(yīng)重加權(quán)(CARS)法篩選變量,不僅模型得到了簡化,而且預(yù)測精度比使用全部1 557個變量建模略有提高。CARS結(jié)合PLS法建立的模型,實(shí)現(xiàn)了近紅外光譜技術(shù)對油桐籽含油率的較準(zhǔn)確預(yù)測:驗(yàn)證集的Rp為0.929,RMSEP為1.765,RSDp為3.31%。