阮健,陳焱森,萬平民,潘中保,張震,閆磊,任小麗,張淑君
(1.華中農(nóng)業(yè)大學(xué),動物遺傳育種與繁殖教育部實驗室,武漢 430070;2.武漢金旭畜牧科技發(fā)展有限公司,武漢 430065;3.河南省奶牛生產(chǎn)性能測定中心,鄭州 450046)
收稿日期:2018-08-20
基金項目:國家重點研發(fā)計劃(2017YFD0501903);奶業(yè)技術(shù)體系崗位(CARS-36)資助。
通訊作者:張淑君,教授,博士生導(dǎo)師,主要研究方向為動物遺傳育種與繁殖。
牛奶及其奶產(chǎn)品中物質(zhì)含量豐富,中紅外光譜(MIR)技術(shù)是一項能夠快速、無損、定性、定量檢測奶及奶產(chǎn)品中各種有機物與無機物的檢測技術(shù)。其光譜條帶密度與官能團的比例關(guān)系可用于定量分析[1]。為了建立準確度和精度高的預(yù)測模型,國內(nèi)外研究人員對大量的建模方法進行了比較試驗。使用正確的建模方法可以極大提高模型的健壯性,在進行外部驗證時會得到較高的決定系數(shù)(R2)。回歸建模方法主要分為線性和非線性兩種,其中非線性方法的應(yīng)用最廣泛。除此之外,有些多用于分類分析的方法也可以用于回歸建模。2006年,國外學(xué)者通過MIR成功建立了預(yù)測模型,可預(yù)測奶牛中大部分脂肪酸含量[2],并在后來的幾年里,通過不斷改進方法,提高了模型的預(yù)測準確性。2010年,科學(xué)家用MIR順利預(yù)測了牛奶的蛋白質(zhì)組成[3],2011年應(yīng)用MIR預(yù)測了牛奶的真蛋白質(zhì)含量[4]。在隨后的幾年中,建立了大量具有高精度的預(yù)測模型。在研究人員不斷地嘗試和選擇中,根據(jù)均方根誤差(RMSEP)和決定系數(shù)(R2)等參數(shù)大小,對模型進行了比較和評價。本文對這些常用于牛奶及奶產(chǎn)品中成分定量回歸建模的方法及其特征給與介紹和總結(jié),以期為我國以后相關(guān)研究及應(yīng)用提供參考。
牛奶及奶產(chǎn)品通過中紅外光譜儀得到的MIR以及其轉(zhuǎn)化的數(shù)據(jù)矩陣往往存在自變量之間的多重相關(guān)性,如果采用最小二乘法(LS),這種變量多重相關(guān)性會嚴重危害參數(shù)估計,擴大模型預(yù)測誤差,影響模型穩(wěn)定性。而偏最小二乘法(PLS)能規(guī)避這個問題。現(xiàn)行的校正方法即是偏最小二乘法(PLS)[5],偏最小二乘回歸的基本作法是首先在自變量集中提出第一成分t1(t1是x1,x2,…,xm的線性組合,且盡可能多地提取原自變量集中的變異信息);同時在因變量集中也提取第一成分u1,并要求t1與u1相關(guān)程度達到最大。此方法運用了部分主成分分析法(PCA)的思想,PCA可以解決變量間共線性的問題。二者的不同在于PCA是從數(shù)據(jù)中抽提出的主成分進行回歸,一般來說是選擇自變量得分靠前的幾個主成分,只考慮了自變量的主成分,所提取的主成分對自變量系統(tǒng)有很強的解釋能力,它們是通過自變量之間的相關(guān)系數(shù)矩陣的特征值、特征向量得出的,包含了大部分自變量的變異信息,在提取主成分的過程中,與因變量是完全分開的,二者之間沒有任何聯(lián)系[6]。然后根據(jù)得分系數(shù)矩陣將原變量代回到所得的新模型中。而PLS不僅考慮了自變量的主成分得分,也考慮了自變量與因變量之間各自主成分的相關(guān)關(guān)系。因此,可以認為兩種方法選擇的主成分是不同的主成分,PCA篩選出的主成分t1是離差信息最大的方向,而PLS通常不是。因此,偏最小二乘回歸是一種多因變量對多自變量的回歸。通過PCA建立模型的時候,往往不能包括所有的樣本信息,導(dǎo)致回歸方程的擬合度較差。而使用PLS時,在最終模型中將包含原有的所有自變量。2009年,Mauer等[7]定量檢測嬰幼兒奶粉中的三聚氰胺,通過PLS建立奶粉中三聚氰胺濃度回歸模型,其決定系數(shù)R2>0.99,交叉驗證均方誤RMSECV≤0.9,殘差預(yù)測偏差RPD>12。光譜因子分析能夠?qū)⑽磽诫s的嬰兒配方奶粉與含有1ppm三聚氰胺的樣品以99.99%的置信度分開,對樣品區(qū)的分類準確無誤。
Lu等人基于最小二乘支持向量機(LS-SVM)建立了一種使用近紅外光譜檢測奶粉中純?nèi)矍璋返男路f且快速的方法[8]。在應(yīng)用紅外光譜技術(shù)對奶粉中脂肪含量進行無損檢測時,采用LS-SVM對光譜透射率和脂肪含量值進行建模時,模型對脂肪含量有較好的預(yù)測值,預(yù)測誤差均方根(RMSEP)為0.8367[9]。支持向量機(SVM)是一種建立在結(jié)構(gòu)風(fēng)險最小化基礎(chǔ)上的機器學(xué)習(xí)方法,具有小樣本、非線性、高維度、預(yù)測精度高等特點。它在解決非線性問題上有很多特有的優(yōu)勢。SVM除了能處理分類問題和判別分析問題外,也能特別成功地處理回歸問題。支持向量回歸機的基本思想是尋求一個線性回歸方程去擬合所有的樣本點,它尋求的最優(yōu)超平面不是將兩類最大限度分開,而是使樣本點離超平面總方差最小。分類問題中求得的超平面也可以用于解決回歸問題。其算法是通過一個非線性映射φ,將數(shù)據(jù)x映射到高維特征空間F,并在這個空間進行線性回歸。即
b為閾值。因此,它將實際問題通過非線性變換轉(zhuǎn)換到高維的特征空間,在高維空間中構(gòu)造線性決策函數(shù)來實現(xiàn)原空間中的非線性決策函數(shù),回歸建模將低維非線性的輸入映射到高維線性的輸出[10]。而LS-SVM是基于SVM算法的一種衍生算法。相對于SVM,LS-SVM把不等式的約束條件變成了等式約束,從而使拉格朗日乘子的求解方便許多,加快了求解速度[11]。但是LS-SVM的預(yù)測精度比SVM稍差一些。吳迪等[9,12]采用LS-SVM算法成功實現(xiàn)了奶粉中脂肪和蛋白質(zhì)的無損檢測,且預(yù)測結(jié)果要優(yōu)于傳統(tǒng)的PLS的預(yù)測結(jié)果。
在對汽油光譜數(shù)據(jù)進行處理時研究人員比較了包括ANN和PLS以及PCA等不同方法的準確性。結(jié)果表明,當(dāng)數(shù)據(jù)是非線性時,ANN比PLS表現(xiàn)更好[13,14]。通過將一個隱層神經(jīng)網(wǎng)絡(luò)應(yīng)用于平均中心吸收光譜,得到了實驗數(shù)據(jù)的最佳結(jié)果[14]。Balabin等在用光譜法檢測液態(tài)奶、嬰兒配方奶粉和普通奶粉中的三聚氰胺時比較了多種回歸方法。同樣,對于非線性的數(shù)據(jù),ANN比PLS有更好的表現(xiàn)[15]。ANN是受神經(jīng)元的工作原理啟發(fā)得來的,每一個神經(jīng)元細胞通過樹突接受從其他神經(jīng)元細胞傳來的電化學(xué)信號。當(dāng)電化學(xué)信號的總強度達到一定閾值時,神經(jīng)元便可以被激活,之后電化學(xué)信號通過突觸被傳送到與之相連的神經(jīng)元。神經(jīng)元之間的連接可以隨著連通次數(shù)的增加而增強,對每個輸入信號αi均要乘以連接系數(shù)wi來表示連接的強弱。所有信號乘以相應(yīng)的連接系數(shù)并求和后需減去一定的閾值b。如果總和大于0,則神經(jīng)元是激活的,若小于0,則神經(jīng)元是抑制的。總信號∑ni=1Wiαi-b作為變量輸入傳遞函數(shù)f(x),而傳遞函數(shù)的值是神經(jīng)元后處理的信號,可以將其輸出或者輸入到下一個神經(jīng)元[16]。神經(jīng)網(wǎng)絡(luò)的回歸分析,是基于通過對樣本的學(xué)習(xí),來實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)中自變量對應(yīng)變量的映射的。也就是說神經(jīng)網(wǎng)絡(luò)不能得到簡單的回歸方程數(shù)學(xué)表達式,其結(jié)果是經(jīng)過網(wǎng)絡(luò)結(jié)構(gòu)以及閾值等確定的。預(yù)測時,輸入一個自變量,就會得到一個因變量作為結(jié)果輸出[17]。ANN方法的主要缺點是其計算的復(fù)雜性和隨機性。
Ferragina等在對牛奶成分進行分析時比較了偏最小二乘法(PLS)、修改后-偏最小二乘法(MPLS)、貝葉斯嶺回歸(Bayes RR)、貝葉斯A(Bayes A)、貝葉斯B(Bayes B)共五個回歸預(yù)測方法 。該實驗從氣相色譜分析的47個脂肪酸(FA)中選擇了4個足以代表所有47個FA在飲食、生理、碳酸鏈長度(小、中、長)、FA結(jié)構(gòu)中雙鍵存在與否及比例等方面變化的FA作為參考物質(zhì),結(jié)果表明,與PLS和MPLS相比,剩下的三個方法表現(xiàn)出同樣好的預(yù)測準確性[18]。貝葉斯模型的表現(xiàn)型是基于標準化光譜的線性回歸模型:
其中β0是截距,{Xij}是標準化的波長數(shù)據(jù),βj是每一個波長的效果,εi是假定為獨立且相同分布的模型殘差(iid),其中正態(tài)分布以零為中心,方差是σε2。鑒于上述假設(shè),給定效果和方差參數(shù)的數(shù)據(jù)的條件分布是
其中y= {yi},θ代表了收集到的模型參數(shù),。先驗密度是:
其中截距被指定為具有非常大方差的正態(tài)先驗,這相當(dāng)于把截距視為“固定”效應(yīng),殘差方差被指定為自由度為dfε的倒數(shù)比例卡方(χ-2)比重和比例參數(shù)Sε,波長的影響被指定為由一組超參數(shù)Ω索引且隨機獨立同分布先驗p(βj|Ω)。p(Ω)代表先驗分布的超參數(shù);p(βj|Ω)和p(βj|Ω)根據(jù)所述應(yīng)用的模型而不同。貝葉斯嶺回歸(Bayes RR),貝葉斯A(Bayes A)和貝葉斯B(Bayes B)區(qū)別在于分配給效果的占優(yōu)比重的形式不同。Bayes RR:在貝葉斯RR中,效果被賦予高斯先驗。該規(guī)范將估計值縮小到零,貝葉斯A和貝葉斯B也發(fā)生了這種情況;收縮的程度在效果上是均勻的,并且該方法不執(zhí)行變量選擇[19,20]。Bayes A:在貝葉斯A中,(βj|Ω)iid~ t(βj|dfε,Sβ) 是一個t比例的密度,與高斯先驗相比,其可引起效應(yīng)估計的差異收縮,而與表型弱相關(guān)的預(yù)測因子的估計效應(yīng)則向零強烈收縮,是具有強關(guān)聯(lián)的預(yù)測因子的收縮,并隨著反應(yīng)縮小到較小程度[19,20]。Bayes B:p(βj|Ω)是零質(zhì)量點和t比例密度的混合物,即:(βj|Ω)iid~ π×t(βj│dfε,Sβ)+(1-π)×1(βj=0) ,其中,π是先驗概率,βj從t密度中得出。
以上所列出來的是最常見的幾種方法,在實際的科學(xué)研究和生產(chǎn)應(yīng)用中更多使用的是以上方法的多種衍生算法。例如線性PLS(Linear-PLS)、多項式PLS(ploy-PLS)、樣條函數(shù)擬合PLS(Spline-PLS)、神經(jīng)元擬合PLS、非線性迭代PLS、BP人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)等。通過中紅外光譜對牛奶和奶產(chǎn)品中成分含量進行回歸預(yù)測時,用于建模的方法多種多樣,很難確定哪一種方法是最合適的,可使用多種方法進行分析,最后選擇R2以及RPD最高以及RMSEP等誤差參數(shù)最小的模型作為最終的預(yù)測模型。