馬怡婷,李魯僑,石釔琦,尹紅,趙天倫,陳進(jìn)紅,祝水金
(浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院/ 浙江省作物種質(zhì)資源重點實驗室,杭州 310058)
棉花纖維是重要的紡織、醫(yī)療和軍工原料,棉花副產(chǎn)品也是重要的再生資源。棉籽是棉花生產(chǎn)中的重要副產(chǎn)物,每生產(chǎn)1 kg 棉花纖維就會產(chǎn)生1.65 kg 棉籽[1]。棉籽中含有大量的油和蛋白質(zhì),分別占棉仁質(zhì)量的27.83%~45.6%和28.24%~44.05%。因此,棉籽是重要的植物蛋白資源和油料資源[2]。
棉籽蛋白約含90%球蛋白,組成近似于豆類蛋白,營養(yǎng)價值遠(yuǎn)高于谷物蛋白[3]。因棉籽中蛋白含量高,浸提棉籽油后剩余的棉籽粕可用作動物的蛋白飼料,并廣泛應(yīng)用于食品和發(fā)酵行業(yè)[4-5]。棉籽蛋白具有優(yōu)良的成膜溶解性和熱加工能力,通過溶液澆注或熱壓成型方法可將其加工成生物降解塑料,有巨大的利用潛力[6-7]。棉籽仁中油分含量高,提煉出來的棉籽油是重要的優(yōu)質(zhì)食用油之一,富含油酸和亞油酸等不飽和脂肪酸,有助于降低血脂和血壓[8-9]。
棉籽營養(yǎng)成分的分析對棉花育種、生產(chǎn)以及棉籽產(chǎn)品加工均具有重要的指導(dǎo)意義。目前棉籽油分含量的測定主要采用索氏提取法和氣相色譜法,測定總蛋白質(zhì)含量主要采用凱氏定氮法等化學(xué)檢測方法[10]。傳統(tǒng)的檢測方法雖然精確度和靈敏度都較高,但存在費時、費力、檢測成本較高且損耗樣品等問題。近紅外光譜分析技術(shù)具有簡單快速、無污染、低成本、無損傷、多指標(biāo)等優(yōu)點,更適合于大規(guī)模樣品的無損檢測。該技術(shù)已廣泛應(yīng)用于農(nóng)業(yè)、醫(yī)藥、食品、林業(yè)和能源等領(lǐng)域[11-12]。在棉籽營養(yǎng)品質(zhì)性狀研究中,近紅外光譜分析技術(shù)也成功應(yīng)用于水分、棉酚、植酸、蛋白質(zhì)、油分、氨基酸和脂肪酸含量的校正模型的構(gòu)建。
汪旭升等[13]、Quampah 等[14]構(gòu)建了棉仁粉油分含量的近紅外光譜校正模型,秦利等[15]建立了棉仁粉總蛋白含量的校正方程,均取得理想效果。然而,這些研究都是基于棉仁粉的快速分析,分析前需要經(jīng)過硫酸脫絨、剝殼、研磨粉碎等處理。棉籽整粒的蛋白質(zhì)和油分含量的近紅外光譜分析檢測也取得了長足進(jìn)展,韓智彪等[16]、商連光等[17]建立棉籽油分含量近紅外光譜無損檢測分析模型,徐鵬等[18]、Huang 等[19]和王慶康[20]建立的光籽油分和蛋白質(zhì)含量的近紅外光譜無損檢測分析模型也達(dá)到了比較好的預(yù)測效果,但均以硫酸脫絨后的光籽為對象。棉籽硫酸脫絨成本高,常影響種子生活力,并易污染環(huán)境。因此,建立棉花毛籽蛋白質(zhì)、油分含量的近紅外光譜分析模型具有更重要的實踐意義。
近紅外光譜檢測技術(shù)的核心是定量校正模型,選擇合適的建模方法能夠很大程度地優(yōu)化近紅外光譜檢測模型[21]。本研究分別采用支持向量機(jī)(support vector machine,SVM)[23]、隨機(jī)森林(random forest,RF)[24]和線性偏最小二乘法(partial least square method, PLS)[25]3 種建模方法建立蛋白質(zhì)和油分含量的校正模型,為棉花毛籽蛋白質(zhì)和油分含量的估測提供一種快速、無損、低成本的分析方法,用于棉花毛籽品質(zhì)的快速精確評價,為棉花種子品質(zhì)育種研究、棉籽營養(yǎng)成分評價技術(shù)優(yōu)化和相關(guān)檢測儀器設(shè)備的研發(fā)提供技術(shù)支持。
2020 年將本實驗室多年自交保存的426 份陸地棉品種資源種植在海南省三亞市崖州區(qū),以收獲的成熟種子為試驗材料。為保證樣品的均一性和穩(wěn)定性,采用開水燙種法精選棉花毛籽。將毛籽用開水浸燙并攪拌1 min (水溫90 ℃左右)后,加入3 倍體積的涼水?dāng)嚢杈鶆颍ㄗ罱K水溫40 ℃左右),挑選深褐色和深棕紅色的健籽于38~40 ℃烘干,水分平衡2 d 后,放入密閉容器中備用。
利用NIRFlex-N500 傅立葉變換近紅外光譜儀(瑞士步琦公司)采集挑選的棉籽樣品的光譜圖,采集光譜的波數(shù)范圍為4 000~10 000 cm—1,每4 cm—1采集反射強度(reflection, R),共計1 501 個光譜點,重復(fù)掃描64 次后取平均值。每份棉籽樣品分3 次裝入測量池中,保證每次待測樣品上樣的緊實度相近,掃描均在25 ℃±0.5 ℃條件下進(jìn)行。掃描后獲取光譜數(shù)據(jù),計算每份樣品的3 次光譜數(shù)據(jù)的平均值,并將反射強度轉(zhuǎn)化為lg(1/R),得到棉籽樣品的原始光譜圖。
將上述完成光譜掃描后的樣品,進(jìn)行濃硫酸脫絨,水分平衡2 d 后,放入密閉容器中備用。利用FOSS 多功能近紅外分析儀NIRS DS 2500 進(jìn)行掃描,近紅外光譜分析儀的采集波長范圍為400~2 500 nm,本研究采用的數(shù)據(jù)是波長1100~2 498 nm 范圍內(nèi)光譜數(shù)據(jù), 數(shù)據(jù)間隔為2 nm,測樣方式為漫反射,儀器類型為光柵掃描型。樣品杯裝滿棉籽后,用壓塊壓實后進(jìn)行掃描,每個樣品測定2 次,掃描獲得所有樣品的近紅外光譜。得到的光譜數(shù)據(jù)經(jīng)過預(yù)處理之后代入Huang等[19]建立的整粒棉籽(光籽)油分含量和蛋白質(zhì)含量的近紅外光譜校正模型,得到蛋白質(zhì)含量和油分含量,作為參考值。
采用光譜- 理化值共生距離算法(sample set partitioning based on joint X-Y distance sampling,SPXY)[22]按照3∶1 的比例將樣品劃分為包含320 個樣本的校正集和包含106 個樣本的預(yù)測集。SPXY 算法是由Galvao 等[22]首先提出的,從經(jīng)典的Kennard-Stone(KS)算法擴(kuò)展而來,SPXY將光譜和理化值特征參數(shù)一起考慮來計算樣品之間的距離,保證最大程度描述樣本分布,有效地覆蓋多維向量空間,增加樣本間的差異性和代表性,提高模型穩(wěn)定性。
光譜預(yù)處理用Unscrambler V9.7(CAMO,挪威)軟件。用Savitzky-Golay(SG)平滑法、一階導(dǎo)數(shù)(first derivative, 1D)、二階導(dǎo)數(shù)(second derivative, 2D)、變量標(biāo)準(zhǔn)化(standard normal variate,SNV)、多元散射校正法 (multiplicative scatter correction, MSC)、基準(zhǔn)化(baseline)、去趨勢化(detrend)中的1 種或幾種結(jié)合的方法對原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,以消除干擾信息。
采用SVM、RF 和PLS 3 種方法建立校正模型進(jìn)行對比分析。采用Matlab R2021a 軟件進(jìn)行近紅外光譜校正模型的構(gòu)建和檢驗。
通過預(yù)測決定系數(shù)(coefficient of determination,R2)、均方根誤差 (root mean square error,RMSE)和剩余預(yù)測偏差(residual prediction deviation,RPD)評價模型。其中,預(yù)測決定系數(shù)和剩余預(yù)測偏差值越大,均方根誤差值越小,模型的預(yù)測性能和穩(wěn)健性越好。RPD 是預(yù)測集的樣本標(biāo)準(zhǔn)差與均方根誤差的比值。
選取1.1 試驗材料中的118 份陸地棉材料,手工去除雜質(zhì)后(即不進(jìn)行開水燙種精選棉花毛籽)按照1.2 的方法采集近紅外光譜數(shù)據(jù),利用1.4 中的SPXY 算法將118 份材料按照3∶1 的比例劃分為包含89 個樣本的校正集和包含29個樣本的預(yù)測集,按照1.6 的方法構(gòu)建近紅外光譜校正模型,與精選棉花毛籽的模型進(jìn)行比較,研究開水燙種精選棉花毛籽對蛋白質(zhì)和油分含量近紅外光譜快速分析的作用。
對426 份棉花毛籽樣品進(jìn)行近紅外光譜掃描,得到原始光譜圖(圖1)??梢钥闯?,光譜曲線整體較為平滑均勻,在4 000~10 000 cm—1全光譜范圍內(nèi),426 份棉籽樣品光譜的變化趨勢基本保持一致,在4 760 cm—1、5 200 cm—1、6 800 cm—1和8 280 cm—1附近有明顯的吸收峰。雖然在未經(jīng)任何預(yù)處理的原始光譜中很難直接判斷出光譜是否存在噪聲信息,但是可看出原始光譜中存在一定的基線漂移和基線偏移。
圖1 整粒棉花毛籽原始近紅外光譜圖Fig.1 The original NIR spectra of the cottonseed
采用SPXY 方法,分別以1.3檢測的蛋白質(zhì)含量或油分含量為y變量,近紅外光譜值為x變量,將樣本劃分為包含320 個樣本的校正集和包含106 個樣本的預(yù)測集,校正集和預(yù)測集的蛋白質(zhì)含量和油分含量的統(tǒng)計值如表1 所示??梢钥闯?,棉花毛籽中蛋白質(zhì)含量平均為44.616%,變化范圍為30.107% ~56.776%,油分含量平均為32.399%,變化范圍為24.260% ~41.768%,說明樣本集中樣品蛋白質(zhì)和油分含量分布范圍廣。校正集樣本的蛋白質(zhì)含量和油分含量范圍涵蓋了預(yù)測集樣本的含量范圍,并且均存在較廣泛的變異,說明樣品集劃分合理,有助于建立穩(wěn)健可靠的預(yù)測模型。
表1 校正集和預(yù)測集的蛋白質(zhì)含量和油分含量的統(tǒng)計值Table 1 Statistical values of protein contents and oil contents for both calibration and prediction sets
針對光譜樣本數(shù)據(jù)的消噪和基線校正需求,分別采用SG 平滑、SNV、MSC、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、基準(zhǔn)化和去趨勢化等單獨或組合共10 種方法對光譜數(shù)據(jù)進(jìn)行預(yù)處理,并以PLS 算法構(gòu)建模型評價光譜預(yù)處理的效果結(jié)果見表2、表3??梢?,預(yù)處理可以消除光譜中部分無效信息,使構(gòu)建的校正模型參數(shù)較未處理的模型參數(shù)有不同程度提升,提高了模型的預(yù)測性能。其中,經(jīng)MSC+1D 預(yù)處理后構(gòu)建的棉花毛籽蛋白質(zhì)含量校正模型和經(jīng)MSC 預(yù)處理后構(gòu)建的棉花毛籽油分含量校正模型表現(xiàn)較好,本研究中棉花毛籽蛋白質(zhì)含量建模采用MSC+1D 預(yù)處理,油分含量建模采用MSC 預(yù)處理。
表2 不同預(yù)處理后基于PLS 建立的棉花毛籽蛋白質(zhì)含量模型的參數(shù)Table 2 Parameters of protein PLS model for fuzz cottonseed established by different pretreatment methods
表3 不同預(yù)處理后基于PLS 建立的棉花毛籽油分含量模型的參數(shù)Table 3 Parameters of oil PLS model for fuzz cottonseed established by different pretreatment methods
利用SVM、RF 和PLS 方法分別建立棉花毛籽蛋白質(zhì)含量和油分含量的預(yù)測模型,模型的相關(guān)評價指標(biāo)見表4。在蛋白質(zhì)含量和油分含量預(yù)測中,PLS 模型和SVM 模型在校正集的擬合效果較好,決定系數(shù)均大于0.8,但是在預(yù)測集的擬合效果不理想,都存在過擬合的現(xiàn)象;RF 模型在校正集和預(yù)測集的擬合效果都非常好,決定系數(shù)均大于0.9,預(yù)測集剩余預(yù)測偏差均大于3,模型的泛化能力強。說明基于RF 方法建立的預(yù)測模型能較好地應(yīng)用于近紅外光譜檢測棉花毛籽蛋白質(zhì)含量和油分含量。基于近紅外光譜利用RF法構(gòu)建的棉花毛籽蛋白質(zhì)含量和油分含量的校正模型的預(yù)測值與真實值之間的相關(guān)性如圖2~3,可以看出,大多數(shù)樣本點均勻地分布在對角線上或兩側(cè),說明該模型具有較好的預(yù)測效果,可以替代傳統(tǒng)的化學(xué)測定方法。
表4 棉花毛籽蛋白質(zhì)含量和油分含量不同校正模型的評價指標(biāo)比較Table 4 Comparison of different models for protein content and oil content in cottonseed with fuzz
表5 校正集和預(yù)測集的未精選棉花毛籽蛋白質(zhì)和油分含量統(tǒng)計值Table 5 Statistical values for protein content and oil content of unselected cottonseed with fuzz in the calibration set and prediction set
圖2 基于RF 模型的棉籽蛋白質(zhì)含量的預(yù)測值與參考值的相關(guān)性Fig.2 The correlation between predicted value of RF model and reference value of protein content in cottonseed
圖3 基于RF 模型的棉籽油分含量的預(yù)測值與參考值的相關(guān)性Fig.3 The correlation between predicted value of RF model and reference value of oil content in cottonseed
118 份未精選棉花毛籽樣品中蛋白質(zhì)含量為33.171%~56.776%,平均為41.097%,標(biāo)準(zhǔn)偏差為3.712%,變異系數(shù)為9.03%;油分含量為26.136%~40.769%,平均為33.650%,標(biāo)準(zhǔn)偏差為2.923%,變異系數(shù)為8.68%。校正集樣本的蛋白質(zhì)含量、油分含量范圍涵蓋了預(yù)測集樣本的含量范圍,樣品集劃分合理,可以用來建立預(yù)測模型。
未精選棉花毛籽的蛋白質(zhì)含量建模采用MSC+1D 預(yù)處理,油分含量建模采用MSC 預(yù)處理。將預(yù)處理后的光譜數(shù)據(jù)作為輸入變量,分別采用SVM、RF 和PLS 方法建立的蛋白質(zhì)含量和油分含量的模型評價指標(biāo)見表6。相比精選棉花毛籽的建模結(jié)果,未精選棉花毛籽的建模效果大幅度下降,其中蛋白質(zhì)含量和油分含量的RF 模型在預(yù)測集的決定系數(shù)分別下降了22.99%和25.52%。說明開水燙種法精選對于毛籽蛋白質(zhì)含量和油分含量的近紅外光譜建模效果有明顯提升作用。
表6 未精選棉花毛籽蛋白質(zhì)含量和油分含量的校正模型的評價指標(biāo)比較Table 6 Comparison of models for protein content and oil content of unselected cottonseeds with fuzz
軋花后的棉籽常帶有短絨,用濃硫酸脫去短絨的棉籽稱為光籽,剝?nèi)シN殼后的棉仁磨成粉為棉仁粉。傳統(tǒng)的檢測方法是對棉仁粉進(jìn)行化學(xué)測定,其中蛋白質(zhì)含量測定采用凱氏定氮法,油分含量測定采用索氏抽提法,這些方法測定時間長,對儀器設(shè)備要求高,測定成本高,且會破壞樣本、無法再用于其他研究,特別是棉花育種相關(guān)研究。近紅外光譜技術(shù)已普遍應(yīng)用于多種作物種子相關(guān)性狀的快速測定[26-30],在棉籽中成功地實現(xiàn)了棉仁粉和光籽的營養(yǎng)成分含量建模和測定[15-20]。然而,無損的光籽也需進(jìn)行濃硫酸脫絨處理,而棉籽脫絨費時費力,容易污染環(huán)境,且可能影響種子活力。因此,基于近紅外光譜無損快速地檢測棉花毛籽的營養(yǎng)品質(zhì)更具有實用價值。
近紅外光譜建模的基礎(chǔ)是樣本的實際含量。黃莊榮[10]建立的光籽蛋白質(zhì)和油分含量快速測定法,其近紅外光譜校正模型中預(yù)測集的決定系數(shù)分別為0.959 和0.950,剩余預(yù)測偏差分別為4.871 和4.429,預(yù)測精度高、穩(wěn)定性好,完全可以代替化學(xué)方法測定的蛋白質(zhì)和油分含量。本研究采用Huang 等[19]的方法對棉花選光籽樣本進(jìn)行測定,蛋白質(zhì)含量為30.107%~56.776%,平均為44.616%;油分含量為24.260%~41.768%,平均為32.399%,與Huang 等[19]測定的棉籽樣本蛋白質(zhì)含量和油分含量數(shù)據(jù)大致相同。
利用近紅外光譜測定棉花毛籽營養(yǎng)成分的困難在于棉籽較大,在填充樣品時不可避免地留有很大的空隙,而且其堅硬的外殼和緊密的短絨影響光的穿透,且肉眼難以識別未成熟的種子和干癟的種子。以上因素都給近紅外光譜數(shù)據(jù)帶來了大量無用的干擾信息,導(dǎo)致信噪比降低,影響建模效果,降低預(yù)測精度。為了克服這些困難,本研究采用開水燙種法挑選健籽,既不影響種子的完整性又能保證種子活力,采用MSC 或MSC+1D 預(yù)處理后,有效減少材料本身、測量環(huán)境、操作等對光譜數(shù)據(jù)的影響,提取保留了有效信息。
本研究中未精選棉花毛籽的近紅外光譜校正模型效果都不理想,和精選毛籽的建模結(jié)果差距較大。這主要因為開水燙種法精選飽滿成熟的種子,降低了均勻度、飽滿度、短絨對光譜采集的影響,剔除了近紅外光譜數(shù)據(jù)中夾雜的部分噪聲、光散射等干擾信息。說明開水燙種法精選是棉花毛籽近紅外光譜建模過程中至關(guān)重要的一步,這為棉花毛籽其他營養(yǎng)品質(zhì)的近紅外光譜快速分析提供借鑒。常規(guī)的棉籽精選都是在硫酸脫絨后進(jìn)行光籽篩選,會破壞種子的完整性,本研究采用開水燙種法挑選健籽,可保證種子完整性和活力,不會影響后續(xù)播種,且簡單、直觀、速度快。
棉花毛籽化學(xué)成分組成豐富,近紅外光譜中包含其他的化學(xué)組分信息,數(shù)據(jù)復(fù)雜且重疊,含有較多非線性信息、噪聲和異常值。RF 法可以充分利用線性的和潛在的非線性信息進(jìn)行建模,對異常值和噪聲具有很好的容忍度,模型泛化能力強,預(yù)測準(zhǔn)確率較高且不容易出現(xiàn)過擬合[31]。PLS法不考慮光譜數(shù)據(jù)與化學(xué)成分之間的非線性關(guān)系,只根據(jù)光譜數(shù)據(jù)與化學(xué)成分之間的線性信息預(yù)測輸出,非線性信息數(shù)量較多,就容易導(dǎo)致模型過度擬合。而當(dāng)優(yōu)化參數(shù)選擇不正確、光譜數(shù)據(jù)不均勻時,SVM 法也可能會出現(xiàn)過擬合的問題,對大數(shù)據(jù)樣本的模型泛化能力不理想。本研究比較了基于上述3 種方法構(gòu)建的模型在近紅外光譜檢測棉花毛籽蛋白質(zhì)和油分含量中的效果,結(jié)果顯示基于RF 法建立的預(yù)測模型效果最好。因此,綜合考慮模型的適配度和準(zhǔn)確性,RF模型更適用于棉花毛籽蛋白質(zhì)含量和油分含量的快速檢測。
本研究利用開水燙種法篩選成熟飽滿的棉籽(毛籽)采用SPXY 算法對樣品集進(jìn)行劃分,分別運用MSC 和MSC+1D 的預(yù)處理方法,基于RF 法構(gòu)建了棉花毛籽中蛋白質(zhì)含量和油分含量的近紅外光譜校正模型,模型的決定系數(shù)大于0.9,預(yù)測集的均方根誤差小于1、剩余預(yù)測偏差大于3,能較好地用于棉籽蛋白質(zhì)含量和油分含量的近紅外光譜檢測,可替代傳統(tǒng)方法。研究結(jié)果不僅可為棉花種子品質(zhì)育種和棉籽加工、生產(chǎn)與銷售中營養(yǎng)成分估測提供了1 種綠色高效的快速評價方法,還可為其他作物種子營養(yǎng)成分的無損分析提供技術(shù)借鑒。