王愷怡,楊 盛,郭彩云,卞?;郏?*
(1.天津工業(yè)大學 省部共建分離膜與膜過程國家重點實驗室,化學工程與技術(shù)學院,天津 300387;2.紹興市柯橋區(qū)污染物總量控制中心,浙江 紹興 312030;3.宜賓學院 過程分析與控制四川省高校重點實驗室,四川 宜賓 644000)
由于具有快速、無損、綠色等優(yōu)點,光譜分析技術(shù)已廣泛應用于食品、石油化工、醫(yī)療和農(nóng)業(yè)等領域的復雜樣品分析[1]。其中建立一個準確、穩(wěn)定的多元校正模型是光譜分析技術(shù)直接分析復雜樣品的關鍵。由于光譜中變量數(shù)通常大于樣本數(shù),并且有些變量與預測組分無關,這可能降低模型的預測能力[2]。因此,在建模前需采用變量選擇去除無關變量的影響以提高模型的預測性能[3-7]。
最小絕對收縮與選擇算子(LASSO)是Tibshirani[8]提出的一種收縮估計方法。該方法在回歸系數(shù)絕對值之和小于一個常數(shù)的情況下,使殘差平方和(RSS)最小化,這意味著某些回歸系數(shù)會被縮小為零,從而達到變量選擇的目的。LASSO變量選擇在生物信息學和化學計量學領域得到了越來越多的關注[9-13]。基于LASSO的優(yōu)點,本文將其引入到復雜樣品的光譜定量分析中。首先利用LASSO對兩組復雜樣品的光譜進行變量選擇,然后采用偏最小二乘(PLS)[14]和多元線性回歸(MLR)建立模型,并與無信息變量消除-PLS(UVE-PLS)[15]、蒙特卡羅結(jié)合無信息變量消除-PLS(MCUVE-PLS)[16]和隨機檢驗-PLS(RT-PLS)[17]進行比較。結(jié)果表明,基于LASSO的變量選擇方法計算時間短,選擇變量少且保持了較好的預測性能。
LASSO在普通最小二乘(OLS)函數(shù)的基礎上引入一范數(shù)正則化(L1)懲罰項來約束RSS,即在回歸系數(shù)的絕對值小于某個常數(shù)的條件下使RSS最小化。假設X=[x1,x2,…,x m]T∈Rm×p,y=[y1,y2,…,y m]T∈Rm×1和β=[β1,β2,…,βp]T∈R p×1,其中T表示矩陣的轉(zhuǎn)置,X、y和β分別是光譜、目標值和回歸系數(shù),m和p分別表示樣本數(shù)和變量數(shù)。已知X和y,求β,構(gòu)成線性回歸問題:y=X×β+ε。它通常由OLS求解,優(yōu)化目標函數(shù)如下:
-1表示矩陣的逆。在光譜分析中,變量個數(shù)通常遠遠大于樣品個數(shù),即p?m,這將使(XTX)-1不可求。定義LASSO的公式為:
其中t為調(diào)優(yōu)參數(shù)。公式(2)等價于公式(3):
假設XTX+λΩ-為非奇異矩陣,方程的解為:
參數(shù)λ需預先確定,它控制著回歸系數(shù)中零的數(shù)量。但在實際中很難確定λ的最佳值。Efron等[18-19]提出了用于快速求解LASSO的最小角回歸(LARS)算法。該算法通過前向梯度(Forward stagewise)策略尋找最佳變量集合,最初設定所有回歸系數(shù)都為0,每次迭代加入或刪除一個變量。LARS中的最佳模型位置s為重要參數(shù),s為0表明無變量被選擇,s為1表示選擇了最大的變量數(shù)。通過采用交叉驗證尋找模型的最佳位置s。LARS算法不僅解決了尋找最佳λ值的困難且提高了計算效率。因此,本研究采用LARS算法實現(xiàn)LASSO變量選擇。采用10折交叉驗證和Sp準則[18]確定最佳模型位置s以及回歸系數(shù)。
本文選擇了兩組復雜樣品的光譜數(shù)據(jù)集驗證LASSO方法的有效性。數(shù)據(jù)集1是50個三元調(diào)和油樣品的近紅外光譜數(shù)據(jù)。光譜使用近紅外(NIR)分光光度計(TJ270-60,天津市拓普儀器有限公司)采集,波長范圍為800~2 500 nm,采樣間隔為1 nm,共1 701個波長點。分析組分為香油、大豆油和稻米油。以香油的含量為目標組分,采用Kennard-Stone(KS)方法對50個樣品數(shù)據(jù)進行劃分,訓練集樣品33個,預測集樣品17個。訓練集的近紅外光譜如圖1A所示。
圖1 三元調(diào)和油的近紅外光譜圖(A)及生物樣品的拉曼光譜圖(B)Fig.1 NIR spectra of ternary blend oil samples(A)and Raman spectra of bio-fluid samples(B)
數(shù)據(jù)集2是文獻中90個生物樣品的拉曼光譜數(shù)據(jù)[20]。采用RP-1 Raman Identification System(美國印第安納州,西拉法葉,普渡研究園區(qū)Spectra code Inc.公司)拉曼光譜儀測定。拉曼光譜的采集曝光時間為25 s,波數(shù)范圍為2 636.3~473.6 cm-1,采樣間隔約為5 cm-1,共有422個波長點。分析組分是人體尿液中含有的8種重要代謝物。本文以肌氨酸含量為研究對象。采用KS分組方法對90個樣品數(shù)據(jù)進行劃分,訓練集樣品60個,預測集樣品30個。訓練集的拉曼光譜如圖1B所示。
通過LARS實現(xiàn)LASSO的變量選擇,第一步確定最佳模型位置s。首先設置s取值范圍為0~1,將其劃分1 000段,間隔0.001,采用10折交叉驗證計算每個s下的RSS,即每個s得到10個RSS,取10個RSS的平均值得到最終的RSS。共計算了1 000個s下RSS的平均值,并采用Sp準則,確定最佳模型s的位置。圖2A、B分別顯示兩個數(shù)據(jù)集的1 000個s下RSS的平均值以及標準差隨s的變化圖。
圖2 數(shù)據(jù)集1(A)和數(shù)據(jù)集2(B)的RSS隨著1 000個s值的變化圖Fig.2 Variation of RSS with 1 000 s values for dataset 1(A)and dataset 2(B)the solid line represents the average value of 10 RSS obtained by 10-fold cross-validation for each s value,the asterisk and short vertical line indicate the average values and standard deviations of RSS at each 50 s values(實線表示每個s值進行10折交叉驗證得到的10個RSS的平均值,星號和短豎線表示每隔50個s值處RSS的平均值以及標準差)
從圖2A、B可看出,當s值為0時,RSS的均值最大。隨著s的增大,RSS的均值逐漸下降,后趨于平緩。10折交叉驗證的標準差也隨s值的增大逐漸變小。數(shù)據(jù)集1的標準差大于相同s值對應的數(shù)據(jù)集2的標準差。通過S p準則選擇最佳模型對應的s值,如圖中虛線所示,數(shù)據(jù)集1和數(shù)據(jù)集2的最佳s值分別為0.405和0.383。
通過10折交叉驗證和S p準則得到最佳模型位置,選擇最佳位置進行LASSO變量選擇得到β系數(shù)。圖3A、B分別顯示數(shù)據(jù)集1和2進行LASSO選擇變量后的β系數(shù)分布。從圖3A可看出,對于數(shù)據(jù)集1,大多數(shù)的β系數(shù)均為0,說明LASSO方法具有很好的數(shù)據(jù)稀疏性。β值不為零的系數(shù)值雖大小不一,但這些非零的變量均將被選擇,與數(shù)值大小無關。對于數(shù)據(jù)集2,從圖3B中可得到相似結(jié)論,該數(shù)據(jù)集選擇的變量主要集中在1 300~500 cm-1范圍內(nèi)。
圖3 數(shù)據(jù)集1(A)和數(shù)據(jù)集2(B)的LASSO的β系數(shù)分布Fig.3 Distribution ofβcoefficients in LASSO for dataset 1(A)and dataset 2(B)
為了更好地考察LASSO變量選擇方法保留變量的分布情況,數(shù)據(jù)集1和2的訓練集平均光譜和保留的變量分別顯示在圖4A、B中。作為對比,UVE、MCUVE和RT 3種變量選擇方法保留的變量也顯示在圖中。
圖4 數(shù)據(jù)集1(A)和數(shù)據(jù)集2(B)4種變量選擇方法保留變量的分布圖Fig.4 Distribution of retained variables by the four variable selectionmethods for dataset 1(A)and 2(B)
從圖4A可以看出,對于數(shù)據(jù)集1,UVE保留的變量最多;MCUVE保留的變量數(shù)目和UVE相比有所減少,但在UVE的變量范圍內(nèi);RT保留的變量在UVE和MCUVE保留變量的范圍內(nèi)進一步減少;LASSO則在RT保留的變量范圍內(nèi)進一步減少變量。從圖4B可以看出,對于數(shù)據(jù)集2,UVE、MCUVE和RT保留的變量數(shù)相差不大且位置相似。LASSO保留的變量最少,變量所在的位置與其他3種變量選擇方法有部分重疊。結(jié)果表明LASSO保留變量的位置與其它變量選擇方法基本一致,且保留的變量更少。
為了驗證LASSO的變量選擇方法效果,在LASSO變量選擇后分別建立了MLR和PLS模型,并與PLS、UVE-PLS、MCUVE-PLS、RT-PLS進行比較。6種方法的保留變量數(shù)、RMSEP、R和運行時間列于表1。其中保留變量數(shù)表明模型的簡單程度,RMSEP和R值用于衡量模型的預測準確度,運行時間衡量模型的運算效率。
表1 兩個數(shù)據(jù)集的不同建模方法的結(jié)果比較Table 1 Result comparison of different modeling methods for the two datasets
從表1可以看出,對于數(shù)據(jù)集1,UVE、MCUVE、RT和LASSO 4種變量選擇方法保留的變量數(shù)依次減少。其中LASSO保留的變量數(shù)最少,僅15個,少于數(shù)據(jù)集1訓練集的33個樣品數(shù)。因此LASSO變量選擇后可建立MLR模型。與全波長的PLS相比,進行UVE、RT和LASSO變量選擇后建立的PLS得到的RMSEP小于PLS,且R值大于PLS,說明這3種變量選擇方法均可提高PLS模型的預測準確度,其中以LASSO-PLS的預測準確度最高。而LASSO變量選擇后建立MLR模型的預測準確度比LASSO-PLS差,PLS由于無變量選擇的步驟,因此其計算效率最高。LASSO-PLS、LASSO-MLR的計算效率比UVE、MCUVE、RT快1個數(shù)量級。因此,對于數(shù)據(jù)集1,綜合保留變量數(shù)、預測準確度及運算效率,LASSO-PLS的性能最佳。
對于數(shù)據(jù)集2,UVE、MCUVE和RT 3種變量選擇方法保留的變量均較少,預測準確度明顯優(yōu)于PLS,且計算時間不超過5 s,說明這3種變量選擇方法的效果良好。LASSO-MLR和LASSO-PLS能進一步減少保留的變量,提高計算效率及PLS的預測準確度,其中以LASSO-MLR的預測準確度最高。兩個數(shù)據(jù)集的結(jié)果均表明,基于LASSO的變量選擇方法保留的變量數(shù)更少,計算效率高且能提高PLS模型的預測性能。
本文利用兩個復雜樣品的近紅外和拉曼光譜數(shù)據(jù)集探究了基于LASSO的變量選擇方法在光譜變量選擇中的性能,并與PLS、UVE-PLS、MCUVE-PLS和RT-PLS方法在保留變量數(shù)、預測性能和運算效率上進行比較。結(jié)果表明,與其他3種變量選擇方法相比,基于LASSO的變量選擇方法不僅計算時間短,使用變量數(shù)少,還可以得到更高或者相當?shù)念A測準確度。因此,LASSO算法有望廣泛應用于光譜的變量選擇。