鄒婷婷,何佳艷,齊慶璇,王瑩,尤夢晨
1(北京工商大學 北京市食品風味化學重點實驗室/食品添加劑與配料北京高校工程研究中心,北京,100048) 2(吉林省食品檢驗所,吉林 長春,130022)
?
采用正交投影偏最小二乘法快速無損分析乳粉蛋白質(zhì)含量
鄒婷婷1*,何佳艷1,齊慶璇1,王瑩2,尤夢晨1
1(北京工商大學 北京市食品風味化學重點實驗室/食品添加劑與配料北京高校工程研究中心,北京,100048) 2(吉林省食品檢驗所,吉林 長春,130022)
摘要應用近紅外光譜分析技術,建立了不同品牌不同種類不同批次的乳粉原樣和混合樣的蛋白質(zhì)定量分析模型。采用正交投影偏最小二乘法(orthogonal partial least squares,OPLS)建立近紅外光譜回歸模型,并與其他預處理方法和傳統(tǒng)偏最小二乘法(partial least squares,PLS)對比;采用交叉驗證法(cross-validation)全局尋優(yōu)方式獲得OPLS和PLS模型的最佳參數(shù);5個主成分建立的OPLS校正模型效果最佳,相關系數(shù)R為0.994 0,校正集交叉驗證均方根RMSECV為1.09,預測集的化學值與模型預測值的相關系數(shù)R達到0.976 7,分析模型的預測誤差均方根RMSEP為0.905。結果表明:OPLS回歸方法在簡化模型的同時提高了模型的預測泛化性能,能夠快速無損建立乳粉的蛋白質(zhì)近紅外定量模型。
關鍵詞近紅外光譜技術;乳粉;正交投影偏最小二乘法(OPLS);定量分析
在購買乳粉產(chǎn)品時,消費者當然重視其營養(yǎng)成分,但由于乳粉質(zhì)量檢測的局限性,多次發(fā)生劣質(zhì)乳粉事件,其中蛋白質(zhì)含量過低是乳粉主要質(zhì)量問題之一,所以國家已對乳粉蛋白質(zhì)含量進行嚴格監(jiān)管。但是現(xiàn)有檢測乳粉蛋白質(zhì)含量的標準方法都是化學方法,檢測過程操作比較復雜,或者涉及到專用儀器設備、檢測時間較長、需要一定的測試成本而且破壞樣品,無法進行實時在線檢測。近紅外光譜(near infrared spectroscopy,NIR)[1]組成主要有C—H,O—H,N—H基團分子振動的合頻和倍頻吸收峰,可以代表樣品化學物質(zhì)成分的定量和定性信息。近紅外光譜法是一種便捷、快速的綠色分析檢測技術,可用于乳粉的質(zhì)量控制、品種鑒別及摻假檢測等[2-6]。
2002年正交投影偏最小二乘法(orthogonal partial least squares,OPLS)由JOHAN等人提出[7],OPLS算法最大特點是將光譜陣X與化學值陣Y正交,可以消除光譜陣X中與化學值陣Y無關的變異信息,盡可能的保持原光譜有效信息,不但提高了模型的預測能力,也使模型得到簡化。
本文采用OPLS回歸方法,建立乳粉蛋白質(zhì)的定量分析模型,并與傳統(tǒng)光譜預處理方法的PLS建模效果進行比較,然后通過預測集對模型泛化性能進行評價。
1材料與方法
1.1實驗材料
不同品牌不同種類不同批次的乳粉原樣共26個樣品,購于大型超市,乳粉原樣樣品信息見表1。26個乳粉原樣以不同比例混合而得到70個混合樣品,乳粉原樣和混合樣共計96個樣本。
表1 乳粉原樣樣品信息
續(xù)表1
序號商品名稱生產(chǎn)廠商22全脂乳粉吉林市娃哈哈啟力乳品有限公司23益生寶幼兒配方乳粉24益生寶較大嬰兒配方乳粉25益生寶嬰兒配方乳粉26全脂乳粉白城龍丹乳業(yè)科技有限公司
1.2參考值測定與樣品分組
樣品蛋白質(zhì)含量以中華人民共和國國家標準GB5009.5—2010中自動凱氏定氮儀法測定值為參考值。自動凱氏定氮儀法測定如下:稱取乳粉試樣0.2~2 g(約相當于30~40 mg氮),精確至0.001 g。按照自動凱氏定氮儀說明書的要求進行檢測,樣品的蛋白質(zhì)含量分布在11.20~25.40 g/100 g。
96個樣品隨機分成2組,一組為校正集,樣品總計73個,包含原樣18個,另一組為預測集,樣品總計23個,包含原樣8個,校正集和預測集各樣本蛋白質(zhì)含量統(tǒng)計數(shù)據(jù)見表2,校正集濃度范圍11.20~25.40 g/100 g,平均值為18.74 g/100 g,預測集濃度范圍11.36~25.10 g/100 g,平均值為18.11 g/100 g。
表2校正集和預測集樣品的蛋白質(zhì)含量統(tǒng)計單位:g/100g
Table 2 Protein content of milk powder
1.3儀器與測量條件
尼高力6700 傅立葉紅外光譜儀(配有光纖漫反射探頭、積分球、樣品杯等附件及TQ Analyst數(shù)據(jù)處理系統(tǒng)) 賽默飛世爾科技公司。全自動凱氏定氮儀Kjeltec 8400福斯公司。
近紅外光譜儀開機后預熱1 h后等儀器穩(wěn)定后使用;保持實驗室的溫度和濕度一致,溫度一般控制在25 ℃;采用漫反射光譜法,樣品置于樣品杯,掃描波數(shù)為10 000~4 000 cm-1,分束器CaF2,波數(shù)分辨率8 cm-1,采集次數(shù)為64次。每個樣品重復掃描3次,取平均值作為該樣本的原始光譜。
1.4原始近紅外光譜
圖1為96個乳粉樣品的近紅外光譜圖。如圖1所示,不同品牌不同種類不同批次的乳粉原樣和混合樣近紅外原始光譜非常相似。雖然樣品的包括蛋白質(zhì)在內(nèi)的成分含量和組成差異,但產(chǎn)生近紅外吸收的基團都是O—H 、C—H、N—H,而且近紅外的譜帶較寬且靈敏度較差,吸收峰重疊嚴重,常常會被掩蓋。所以傳統(tǒng)光譜檢索方法和肉眼難以解決,須借助多元校正方法。
圖1 96個乳粉樣品的近紅外漫反射光譜圖Fig.1 NIR spectra for 96 milk samples
2結果與討論
2.1乳粉蛋白含量OPLS和PLS校正模型的建立
近紅外原始光譜中除包含和樣品定性定量相關的信息外,也包含其他因素所導致的噪聲干擾信號,比如隨機噪音、基線漂移、光散射等。PLS具有高度的建模能力,但綜合提取出來的成分包含了各方面因素的綜合作用,模型的復雜度會因不相關信息的增加而增加,有必要通過適當?shù)念A處理來降低噪音等不相關信息的影響。常用的近紅外預處理方法包括平滑、導數(shù)、標準變量變換以及多元散射校正等。它們分別是對近紅外光譜中不同噪音信號的校正,導數(shù)可以消除基線漂移或平緩背景干擾的影響;平滑是常用的降噪方法;多元散射校正可以減小測樣器皿不一致或樣品粒徑不均勻?qū)庾V造成的影響;標準變量變換對光譜數(shù)據(jù)進行縮放,可消除光譜在吸光度軸上的差異。但是,上述的各種預處理方法只是單純對原始光譜中不同噪音信號的校正,并沒有考慮光譜數(shù)據(jù)與樣本含量之間的關系,而正交投影偏最小二乘法通過有效消除光譜矩陣中與樣本含量不相關的信息,盡可能保持近紅外光譜所攜帶的與樣本含量相關的最大有效信息,不僅簡化了光譜模型,而且提高了模型的預報能力和穩(wěn)健性。
在校正模型的建立中,主成分數(shù)是十分重要的參數(shù),主成分數(shù)過多則容易引入噪聲等不相干的信息,所建模型會出現(xiàn)過擬合的現(xiàn)象;主成分數(shù)過少則不能充分利用光譜信息,所建模型存在欠擬合的問題。為了選擇恰當?shù)闹鞒煞謹?shù)防止過擬合,采用五步交叉驗證的方法建立投影模型,將校正集樣品按4∶1的比例均勻隨機分為訓練集和測試集,分別用于建立校正模型和所建模型的外部檢驗。校正集中1/5的樣品作為預測集,其余4/5的樣品用于建立校正模型,得到模型后求得作為預測集的1/5樣品預測值。然后預測集樣品加入訓練集用于建模,另外1/5的樣品作為模型測試集求得預測值,5次之后校正集樣品的都進入過一次預測集,求出相應的預測值,最終計算校正集已知參考值與預測值的誤差均方根作為交叉驗證誤差均方根(RMSECV)。誤差均方根最小的主成分數(shù)即為模型最佳參數(shù),建立乳粉的蛋白質(zhì)近紅外回歸最佳模型,得到其他各項指標,包括交叉驗證相關系數(shù)(R-CV)、校正誤差均方根(RMSEC)。RMSE計算方法見公式(1):
(1)
式中:YNIR是樣品的近紅外預報含量,YREF是樣品標準方法測定的參考含量,n為樣品數(shù)量。
表3為OPLS和PLS兩種模型的分析結果,可以看出PLS最優(yōu)模型為平滑、標準變量變換結合一階導數(shù)前處理后的模型,OPLS 模型的交叉確認相關系數(shù)和交叉驗證誤差均方根都優(yōu)于PLS的分析結果。
表3 OPLS和PLS的最優(yōu)模型
注:(1) MSC:多元散射矯正; (2) SM:平滑處理; (3) SNV:標準變量變換; (4) 1D,2D:一階導數(shù)和二階導數(shù)。
圖2為OPLS和PLS模型主成分數(shù)優(yōu)化結果,所示為OPLS及PLS模型下各主成分數(shù)對應的交叉驗證均方根(RMSECV)。由圖2可以看到,經(jīng)過正交處理的光譜OPLS最優(yōu)模型主成分數(shù)為5,傳統(tǒng)預處理方法建立的PLS最優(yōu)模型主成分數(shù)為7。OPLS在主成分提取過程中,剔除了光譜矩陣X中與成分Y不相關的信息,使用較少的主成分累積貢獻率也可增強光譜數(shù)據(jù)與蛋白質(zhì)含量之間的相關性。而為了解釋這些無關變量,PLS模型需要采用更多的成分數(shù),同時也會有較高主成分累積貢獻率,所以模型的復雜程度會進一步增加,隨著待測信息復雜程度及樣品數(shù)量的增加,這種差異會更加明顯。校正集樣品標準方法測定的參考值與模型預測值的相關性,如圖3、圖4所示,橫坐標以中華人民共和國國家標準規(guī)定方法的測定值作為樣品的實際濃度值,縱坐標為校正模型對校正集各樣品濃度的預測值,可以看出,兩者的相關性良好。
圖2 OPLS和最佳PLS模型主成分優(yōu)化Fig.2 Optimization of principal components of OPLS and PLS model
圖3 OPLS模型校正集蛋白質(zhì)含量實際值與預測值的線性關系Fig.3 The linear relationship of protein content actual and predicted values of OPLS model calibration set
圖4 PLS模型校正集蛋白質(zhì)含量實際值與預測值的線性關系Fig.4 The linear relationship of protein content actual and predicted values of PLS model calibration set
2.2奶粉蛋白質(zhì)含量近紅外校正模型的外部驗證
為了驗證校正模型預測能力的可靠性和泛化性,將預測集樣品作為該模型的外部檢驗,校正模型最終外部檢驗的指標為預測誤差均方根(RMSEP),表示標準方法測定的參考值與模型預測值之間的誤差,其數(shù)值越小代表其模型泛化能力和預測能力越高,相關系數(shù)(R)表示模型預測值和標準方法測定的實際值之間的相關性,其值越接近1,代表模型擬合程度越好。圖5和圖6為2種模型預測結果。
圖5 OPLS模型預測集蛋白質(zhì)含量實際值與預測值的線性關系Fig.5 The linear relationship of protein content actual and predicted values of OPLS model prediction set
圖6 PLS模型預測集蛋白質(zhì)含量實際值與預測值的線性關系Fig.6 The linear relationship of protein content actual and predicted values of PLS model prediction set
如圖5所示,OPLS 模型預測值與化學值相關系數(shù)達到了0.976 7,RMSEP為0.905。和PLS模型比較,OPLS 模型相關系數(shù)提高和預測誤差均方根減小,說明OPLS 模型的準確性有所提高,預測能力和泛化能力有所增強。預測集奶粉樣品蛋白質(zhì)含量模型預測值和化學值的相關性如圖5、圖6所示,OPLS
模型預測值和標準方法測出的化學值相關性更好,與傳統(tǒng)的凱氏定氮法結果更接近。
3結論
采用近紅外光譜技術結合OPLS建模方法,對奶粉中蛋白質(zhì)的含量進行了定量分析。通過與傳統(tǒng)前處理后的PLS預測結果的對比可以看出,OPLS 相對于傳統(tǒng)的PLS 模型,降低了模型維數(shù),增強了模型的可解釋性、穩(wěn)健性及預測能力。結果表明,OPLS 模型結合近紅外光譜法快速無損測定奶粉中的蛋白質(zhì)含量是可行的。
參考文獻
[1]陸婉珍,袁洪福,徐廣通,等.現(xiàn)代近紅外光譜分析技術[M]. 北京: 中國石油化工出版社 ,2000:2-5.
[2]張中衛(wèi),溫志渝,曾甜玲,等. 微型近紅外光纖光譜儀用于奶粉中蛋白質(zhì)脂肪的定量檢測研究[J]. 光譜學與光譜分析,2013,33(7): 1 796-1 800.
[3]穆同娜,莊勝利,趙玉琪,等. 近紅外光譜法快速檢測嬰兒配方奶粉中的脂肪酸含量[J]. 現(xiàn)代食品科技,2015(4):278-281.
[4]彭攀,林慧,杜如虛. 利用近紅外光譜技術同時檢測奶粉中的多個摻假成分[J]. 計算機與應用化學,2011,28(3): 307-310.
[5]張華秀,李曉寧,范偉,等. 近紅外光譜結合Boosting-PLS快速檢測奶粉中蛋白質(zhì)含量[J]. 計算機與應用化學,2010,27(9): 1 197-1 200.
[6]周晶,孫素琴,李擁軍.近紅外光譜和聚類分析法無損快速鑒別不同輔料奶粉[J]. 光譜學與光譜分析,2009,29(1) :110-113.
[7]TRYGG J, WOLD S, Orthogonal projections to latent structures (O-PLS)[J].Journal of Chemometrics, 2002, 16(3):119-128.
The research of fast nondestructive analysis of the protein content in milk powder based on OPLS algorithm
ZOU Ting-ting1*, HE Jia-yan1,QI Qing-xuan1, WANG Ying2, YOU Meng-chen1
1(Beijing Key Laboratory of Flavor Chemistry/Beijing Higher Institution Engineering Research Center of Food Additives and Ingredients,Beijing Technology and Business University,Beijing 100048,China) 2(Jilin Institute For Food Control,Changchun 130022,China)
ABSTRACTWith the application of near-infrared spectrum spectroscopy technique, protein quantitative analysis models for both mixed and original milk powder samples of different brands and different batches was set up. Orthogonal projection partial least squares method was adopted to establish the near-infrared spectrum regression model, and this method was compared with other pretreatment method and traditional partial least squares method; cross validation global optimization method was used to obtain the best parameters of OPLS and PLS models; OPLS correction model established by five principal components has the best effect, and the correlation coefficient R is 0.994 0, cross-validation root mean square of calibration set is 1.09, correlation coefficient R of chemical values of prediction set and model prediction is 0.976 7, the error root mean square of the prediction of the analysis model is 0.905. The result shows that OPLS regression method simplified the model and at the same time improved the generalization performance of this model, and could rapidly and nondestructively establish the near-infrared quantitative model for testing protein content in milk powder.
Key wordsnear infrared (NIR) spectroscopy; milk powder; OPLS; qualitative analysis
收稿日期:2015-06-14,改回日期:2015-10-14
DOI:10.13995/j.cnki.11-1802/ts.201604032
第一作者:博士,講師(本文通訊作者,E-mail:zou2010@aliyun.com)。