田 靜,陳 斌*,陸道禮,盛龍禹,蔡貴民
(1 江蘇大學(xué)食品與生物工程學(xué)院 江蘇鎮(zhèn)江 212013 2 上海中科航譜光電技術(shù)有限公司 上海 200086 3 上海棱光技術(shù)有限公司 上海 200023)
近紅外光譜技術(shù)(Near infrared spectroscopy,NIRS) 經(jīng)過多年的發(fā)展已相當(dāng)成熟,尤其是在食品、農(nóng)產(chǎn)品、醫(yī)藥、材料等領(lǐng)域得到廣泛的應(yīng)用[1-3]。NIRSA 是基于樣品組分中基團在近紅外光譜區(qū)有特征吸收,通過構(gòu)建吸收光譜信息和待測指標(biāo)之間的定量關(guān)系,實現(xiàn)對樣品品質(zhì)的快速檢測技術(shù)。其優(yōu)勢體現(xiàn)在快速高效、綠色無損、可多組分同時檢測[4-6]。近紅外光譜模型在使用過程中,由于檢測條件、檢測環(huán)境或儀器設(shè)備發(fā)生變化,近紅外光譜的吸光度會出現(xiàn)差異,導(dǎo)致建成的校正模型失效,而重新建立模型需耗費大量的人力、物力[7-8],因此,實現(xiàn)儀器間的模型共享是NIRS 實際應(yīng)用中的瓶頸問題之一,是該技術(shù)走向生產(chǎn)實踐必須解決的問題[9-10]。
近年來,國內(nèi)外大量研究人員針對近紅外光譜分析的模型傳遞問題進行了較為深入的研究,并取得許多成果[11-13]。目前近紅外模型傳遞的研究多數(shù)局限于相同分光原理的儀器之間,而對不同分光原理的近紅外光譜儀間的模型傳遞鮮有報道。如能實現(xiàn)不同分光原理的儀器間的光譜標(biāo)準(zhǔn)化、模型傳遞,可有效降低不同分光原理儀器需獨立建立校正模型的成本,對NIRSA 技術(shù)在各行業(yè)的應(yīng)用與推廣具有重要的意義。
以小麥粉為試驗樣品,以光柵掃描型、法布里-珀羅干涉儀型、聲光可調(diào)濾光器型3 種不同分光原理的3 臺近紅外光譜儀的小麥粉近紅外光譜為研究對象,分別采用直接標(biāo)準(zhǔn)化(Direct standardization,DS)、分段直接標(biāo)準(zhǔn)化(Piecewise direct standardization,PDS)、一元線性回歸直接標(biāo)準(zhǔn)化(Simple linear regression direct standardization,SLRDS) 等3 種算法對3 種分光原理近紅外光譜儀采集的同一樣品光譜進行標(biāo)準(zhǔn)化,使用歐氏距離、光譜標(biāo)準(zhǔn)化誤差率2 個指標(biāo)定量描述同一樣品的從機光譜標(biāo)準(zhǔn)化前、后與主機光譜間的差異,距離和誤差率越小,表示樣本光譜間的差異越小,從而使近紅外光譜校正模型在不同原理儀器間的共享的預(yù)測誤差最小。
模型傳遞主要是通過建立主機和從機光譜、模型參數(shù)或預(yù)測值之間的函數(shù)關(guān)系,校正因儀器差異、檢測條件或檢測環(huán)境因素變化而導(dǎo)致的預(yù)測誤差。模型傳遞方法依照校正對象可分為3 類:對模型參數(shù)進行校正,如兩步偏最小二乘方法等;對預(yù)測結(jié)果進行校正,如斜率/偏差算法[14]等;對光譜進行校正,即光譜標(biāo)準(zhǔn)化后再帶入模型計算,如分段直接標(biāo)準(zhǔn)化等。
對模型參數(shù)進行校正,是通過添加一系列新環(huán)境、新儀器等條件下測定的樣品光譜來擴充原模型,并通過光譜預(yù)處理方法、穩(wěn)健回歸算法等增強模型的預(yù)測效果,使模型能適用于新測試條件下采集的樣品光譜。這種方法在使用過程中,需盡可能多地選擇不同的樣本、儀器、測樣環(huán)境等,然后將這些光譜都應(yīng)用到模型的建立過程,以擴充其變化范圍[15]。同時,當(dāng)儀器或環(huán)境發(fā)生改變時,需對建模樣本進行不斷擴充,這是一個相當(dāng)復(fù)雜的過程。另外,隨著儀器的不斷老化、儀器部件的更換,這種方法很難滿足模型傳遞所需達到的目的。
對預(yù)測結(jié)果進行校正的前提是假設(shè)主機和從機的預(yù)測結(jié)果呈線性關(guān)系。當(dāng)主機、從機光譜差異不大時,該方法能獲得較好的校正效果。然而,絕大部分情況下由于假設(shè)并不成立,因此其對模型傳遞的效果較差,適用范圍較窄。
光譜標(biāo)準(zhǔn)化的思路與前面兩種不同 (如圖1所示),光譜標(biāo)準(zhǔn)化首先是對模型的輸入進行校正,即對同一樣品在不同儀器所采集的光譜數(shù)據(jù)進行校正,減少各儀器間的光譜背景與強度的影響,使得同一樣品在不同儀器得到的光譜盡可能一致(此時標(biāo)準(zhǔn)化后的光譜是樣品的虛擬光譜),降低光譜間的差異性,有效解決不同儀器間光譜校正模型的傳遞,光譜標(biāo)準(zhǔn)化方法可以實現(xiàn)不同分光原理的儀器間的模型共享。
圖1 光譜標(biāo)準(zhǔn)化與模型傳遞的差異Fig.1 The differences between spectral standardization and model transfer
試驗所用樣品購自國內(nèi)各地區(qū)線下超市和線上的小麥粉,共計154 個樣本,其中包括:高筋小麥粉、中筋小麥粉、低筋小麥粉、自發(fā)粉和全麥粉等品種,收集到的樣品冷藏條件下保存,備用。
取出小麥粉樣品,置于室溫下平衡24 h 后采集光譜。
光譜采集儀器:1 臺光柵掃描(Dispersive scanning)型S450 近紅外光譜儀,上海棱光科技有限公司 (簡稱S450),工作波長范圍900~2 500 nm,波長間隔1 nm;1 臺法布里-珀羅干涉儀(Fabry-Perot interferometer,F(xiàn)PI) 型N500 近紅外光譜儀,濟南海能儀器股份有限公司 (簡稱N500),掃描波長范圍1 550~1 950 nm,波長間隔2 nm;1 臺聲光可調(diào)濾光器(Acousto optical tunable filter,AOTF)型近紅外光譜儀,上海中科航譜光電技術(shù)有限公司研發(fā)(簡稱AOTF),掃描波長范圍1 100~2 300 nm,波長間隔1 nm。以S450 作為主機,記為M,以N500 及AOTF 作為從機,分別記為S1、S2,采集樣品光譜。每個樣品重復(fù)掃描3 次,結(jié)果取平均光譜。
理化指標(biāo)測定儀器:采用D200 杜馬斯定氮儀(濟南海能儀器股份有限公司)測定樣品的粗蛋白含量。由于光譜標(biāo)準(zhǔn)化的前提是主、從機采集的光譜具有相同波段范圍和同樣的數(shù)據(jù)間隔,而3 臺不同類型的近紅外光譜儀器的工作波長和光譜數(shù)據(jù)的波長間隔不同,其中N500 的光譜數(shù)據(jù)的波長范圍最短 (1 550~1 950 nm),波長間隔最大(2 nm),因此在光譜標(biāo)準(zhǔn)化前需將3 臺儀器的波長范圍和間隔統(tǒng)一。N500 儀器每2 nm 取1 個波長點,共201 個波長點,S450、AOTF 儀器每隔1 nm取1 個波長點,共401 個波長點。使用Excel 2016軟件對S450、AOTF 儀器光譜數(shù)據(jù)的波長范圍進行剪切,在截取1 550~1 950 nm 波長范圍后,抽取與N500 相同的波長點,以得到201 個波長點后的數(shù)據(jù)作為該樣品的光譜數(shù)據(jù),并在該波長區(qū)間進行光譜標(biāo)準(zhǔn)化。采用SPXY 算法(Sample set partitioning based on joint x-y distance),按6∶4 的比例將樣本劃分為校正集 (92 個) 與預(yù)測集(62個)。
小麥粉樣品的粗蛋白含量檢測按照GB/T 31578-2015《糧油檢驗 糧食及制品中粗蛋白測定杜馬斯燃燒法》方法,采用D200 杜馬斯定氮儀,每個樣品平行檢測3 次(相對極差不超過4%),以3次檢測結(jié)果的均值為最終值。小麥粉樣品的粗蛋白含量測定結(jié)果見表1。
表1 小麥粉樣品的粗蛋白含量分布表Table 1 Crude protein content of wheat flour samples
采用歐氏距離和光譜標(biāo)準(zhǔn)化誤差率2 個指標(biāo)定量評價光譜間的差異性,對同一樣品的從機光譜標(biāo)準(zhǔn)化前、后與主機光譜之間的差異進行評價。
2.3.1 歐氏距離 采用光譜間的歐式距離(D)定量評價儀器間的光譜差異。D 越大,儀器間光譜的差異越明顯。
式中,k——波長點;Aik——從機上采集的光譜在第k 個波長點處、第i 條光譜的吸光度值;——標(biāo)準(zhǔn)光譜(主機)在第k 個波長點的吸光度值。
2.3.2 光譜標(biāo)準(zhǔn)化誤差率 使用光譜標(biāo)準(zhǔn)化誤差率(Spectral standardization error rate,SSER)評價指標(biāo)表征不同儀器間的光譜標(biāo)準(zhǔn)化后的準(zhǔn)確度,定量描述同一樣品的從機光譜經(jīng)標(biāo)準(zhǔn)化后與主機光譜之間的差異。光譜標(biāo)準(zhǔn)化誤差率越小,光譜與主機光譜的差異越小。
對第i 個樣本的光譜標(biāo)準(zhǔn)化誤差率定義為:
式中,{Mij,i=1,…,N,j=1,…,K}——主機采集的樣本光譜矩陣;{Tij,i=1,…,N,j=1,…,K}——從機光譜經(jīng)光譜標(biāo)準(zhǔn)化后的樣本光譜矩陣;N——樣本數(shù);K——光譜的波長點數(shù)。
對于全部樣品集合,其平均誤差率SSERave和最大誤差率SSERmax定義為:
模型建立過程中采用校正相關(guān)系數(shù)(Rc)和校正標(biāo)準(zhǔn)偏差(RMSEC)對模型的性能進行評價,建立最優(yōu)的校正模型。模型建立完成后,通常采用預(yù)測相關(guān)系數(shù)(Rp)、預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)和相對標(biāo)準(zhǔn)偏差(RPD)等指標(biāo)來綜合評價模型的預(yù)測性能。RMSEC、RMSEP 越小,Rc和Rp越接近1,所建模型的穩(wěn)定性與預(yù)測性能越好。RPD 用來評價模型精度的指標(biāo),當(dāng)RPD<1.75 時,預(yù)測精度過低,模型不可用;當(dāng)RPD>3 時,表明模型的預(yù)測精度較高。
采用江蘇大學(xué)近紅外工作室自主研發(fā)的NIRSA 5.8.8 系統(tǒng) (計算機軟件著作權(quán)登記號為2007SR06801)、IBM SPSS Statistics 25 和Excel 2016 等軟件平臺進行數(shù)據(jù)分析。
采用DS、PDS、SLRDS 算法對光譜進行標(biāo)準(zhǔn)化,以實現(xiàn)不同分光原理的儀器間模型傳遞。
DS 算法主要是通過主機標(biāo)樣集的光譜與從機標(biāo)樣集的光譜之間的數(shù)學(xué)關(guān)系建立光譜標(biāo)準(zhǔn)化轉(zhuǎn)移矩陣,借助轉(zhuǎn)移矩陣對從機上采集的光譜進行校正,從而減少不同儀器間所測同一樣本光譜數(shù)據(jù)的差異。PDS 算法與DS 算法原理相似,不同點是PDS 從采集到的光譜上分出連續(xù)的波段,在每個波段窗口分別計算變換系數(shù),根據(jù)每個波段窗口的變換系數(shù)建立光譜標(biāo)準(zhǔn)化轉(zhuǎn)移矩陣,利用轉(zhuǎn)移矩陣對從機上采集的光譜進行校正,從而實現(xiàn)主、從機光譜最大程度的相似,試驗采用左右波段窗口區(qū)域?qū)挾圈?3。SLRDS 算法是假設(shè)不同波長點間的吸光度是相互獨立的,利用一元線性回歸對從機上的光譜進行校正。
以主機M 上采集的92 個校正集樣品的近紅外光譜及其粗蛋白含量數(shù)據(jù)為研究對象,通過偏最小二乘法(Partial least square,PLS)建立分析模型,用于模型傳遞。為了消除光譜數(shù)據(jù)中無關(guān)信息和噪音的干擾,使用多元散射校正(Multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variate transformation,SNV)、歸一化(Normalization)和中心化(Centralized)等常用的近紅外光譜預(yù)處理方法對樣品光譜進行預(yù)處理,通過建立的PLS 校正模型評價預(yù)處理方法的優(yōu)、劣,選擇最優(yōu)預(yù)處理方法。不同預(yù)處理方法的校正模型評價結(jié)果見表2。
表2 不同預(yù)處理方法的樣品蛋白PLS 校正模型評價Table 2 Evaluation of PLS correction model for protein samples under different pretreatment methods
由表2可知,對比不同預(yù)處理方法建模效果,其中主成分?jǐn)?shù)為7 時,歸一化+MSC 預(yù)處理后的校正模型效果較好,此時PLS 模型的Rc值為0.971,RMSEC 值為0.4552,Rp值為0.9620,RMSEP 為0.4267,RPD 為4.2187,模型具有較高的預(yù)測精度。MSC 可以消除樣品杯中因小麥粉樣品分布不均勻等因素導(dǎo)致的散射系數(shù)差異對其漫反射光譜的影響。經(jīng)歸一化+MSC 預(yù)處理后的光譜建模效果最佳。
在3 臺近紅外光譜儀上采集全部小麥粉樣品的光譜圖如圖2所示??汕宄吹?,兩臺從機與主機所采集的光譜有較明顯的差異。從機所采樣品光譜的吸光度在縱軸上存在一定的平移。主機與從機采集的光譜在1 650~1 750 nm 及1 850~1 950 nm 波段范圍差異較大,這可能是因光學(xué)元器件和分光效率引起的儀器間的系統(tǒng)誤差所致。
圖2 3 臺儀器采集的近紅外光譜平均圖Fig.2 Mean near-infrared spectrogram obtained by three instruments
計算主機所有樣品的平均光譜記為標(biāo)準(zhǔn)光譜,分別計算各儀器上測得樣品光譜與標(biāo)準(zhǔn)光譜的歐式距離,記錄各距離值的頻數(shù)分布,其分布情況如圖3所示。
由圖3可看出,主機采集的樣品光譜與標(biāo)準(zhǔn)光譜的距離大部分在0.5 以下,而從機采集的樣品光譜與標(biāo)準(zhǔn)光譜的歐氏距離較大。其中,從機S1采集的樣品光譜與標(biāo)準(zhǔn)光譜的距離大多在2.0~3.0 范圍,從機S2采集的樣品光譜與標(biāo)準(zhǔn)光譜的距離大多在1.0~2.5 范圍。這可能是因選用的3 臺近紅外光譜儀的分光原理不同,故所采樣品光譜信息差異較為顯著。
圖3 不同儀器小麥粉樣品光譜的歐式距離頻數(shù)分布Fig.3 Spectrum Euclidian distance frequency distribution of wheat flour samples with different instruments
利用主機模型分別對3 臺儀器測量的62 個預(yù)測集樣品進行預(yù)測分析,3 臺儀器的預(yù)測結(jié)果及預(yù)測散點圖如表3和圖4所示。
圖4 校正前主機模型對3 臺儀器的預(yù)測散點圖Fig.4 Forecast scatter diagram of 3 instruments by host model before calibration
由表3可知,將主機建立的小麥粉粗蛋白校正模型用于主機驗證集樣品預(yù)測時,模型預(yù)測精度較高,Rp達0.9620,RMSEP 和RPD 分別為0.4267 和4.2187。當(dāng)該模型對2 臺從機的驗證集樣品預(yù)測時,Rp也較高,分別為0.8169 和0.9389,而RMSEP 和RPD 兩項評價指標(biāo)較差,說明3 臺光譜儀器間存在較大的系統(tǒng)誤差,主機的校正模型不能與2 臺從機共享。單一使用Rp指標(biāo)不能全面評價模型的性能,需與RMSEP 和RPD 等指標(biāo)同時使用,才能全面評價模型的預(yù)測效果。
表3 模型傳遞前主機模型對3 臺儀器預(yù)測集的預(yù)測結(jié)果Table 3 The prediction results of the host model to 3 instrument verification sets before model transfer
DS、PDS、SLRDS 算法均為有監(jiān)督的算法,需選擇標(biāo)樣集,且標(biāo)樣集樣品數(shù)的選取對光譜標(biāo)準(zhǔn)化效果有重要的影響,樣品數(shù)過少會導(dǎo)致信息不充分,而過多會增加數(shù)據(jù)處理的難度,出現(xiàn)過擬合的假象。采用Kennard-Stone(K-S)算法從主、從機的校正集中分別取10,20,30,40,50,60 個樣品作為光譜標(biāo)準(zhǔn)化的標(biāo)樣集。3 種算法的標(biāo)樣集樣品數(shù)與RMSEP 大小的關(guān)系如圖5所示。
圖5 采用DS、PDS 和SLRDS3 種算法的2 臺從機RMSEP 隨標(biāo)樣集樣品數(shù)的變化Fig.5 RMSEP of two slave machines varies with the number of samples in the standard sample set
圖5顯示,隨著樣品數(shù)的增加,標(biāo)樣集中所含有用信息增多,RMSEP 的數(shù)值降低。由圖5a 可知,針對從機S1,在DS 算法中,RMSEP 數(shù)值隨標(biāo)樣集樣品數(shù)的增加而顯著降低,當(dāng)樣品數(shù)大于50時,RMSEP 變化不大。在PDS 和SLRDS 算法中,隨著樣品數(shù)的增加,RMSEP 數(shù)值逐漸降低,變化趨勢較為平穩(wěn)。由圖5b 可知,針對從機S2,3 種算法的RMSEP 數(shù)值整體呈現(xiàn)隨標(biāo)樣集樣品數(shù)的增加而減少的趨勢,當(dāng)樣品數(shù)大于50 時,RMSEP 出現(xiàn)增大的趨勢。最終選擇50 個樣品作為標(biāo)樣集。
選取50 個樣品為標(biāo)樣集,分別采用DS、PDS、SLRDS 算法對2 臺從機采集的樣品光譜進行光譜標(biāo)準(zhǔn)化,計算標(biāo)準(zhǔn)化后的樣品光譜與標(biāo)準(zhǔn)光譜的歐式距離,記錄各距離值的頻數(shù)分布,如圖6所示。
圖6 光譜標(biāo)準(zhǔn)化后不同儀器小麥粉樣品光譜的歐式距離頻數(shù)分布Fig.6 Euclidean distance frequency distribution of wheat flour samples with different instruments after spectral standardization
圖6顯示,經(jīng)3 種方法光譜標(biāo)準(zhǔn)化后,2 臺從機光譜與標(biāo)準(zhǔn)光譜的歐氏距離均降至2.0 以下,距離大多數(shù)分布在0~1.0 范圍。這表明光譜標(biāo)準(zhǔn)化方法大幅度提高了主、從機采集光譜的一致性,而不能單從光譜間的歐氏距離評價3 種光譜標(biāo)準(zhǔn)化方法的優(yōu)、劣,還需使用光譜標(biāo)準(zhǔn)化誤差率和模型預(yù)測效果進行評價。
將經(jīng)DS、PDS、SLRDS 算法的從機預(yù)測集標(biāo)準(zhǔn)化光譜輸入主機模型中進行預(yù)測。分別計算3種算法應(yīng)用于2 臺從機后的光譜標(biāo)準(zhǔn)化誤差率,比較光譜標(biāo)準(zhǔn)化平均誤差率、最大誤差率及模型傳遞后預(yù)測效果,結(jié)果如表4所示。
表4 標(biāo)準(zhǔn)化后的光譜差異及模型傳遞效果Table 4 Spectral differences after standardization and model transfer effect
由表4可知,2 臺從機采集的樣品光譜經(jīng)3種算法標(biāo)準(zhǔn)化后,與主機光譜的平均誤差率、最大誤差率大幅度降低,這表明標(biāo)準(zhǔn)化后從機光譜與主機光譜的差異性明顯降低。同時,主機模型對其的預(yù)測效果較標(biāo)準(zhǔn)化前也有不同程度的提升。結(jié)果表明,3 種算法對從機S2的標(biāo)準(zhǔn)化效果較好,優(yōu)于從機S1;主機模型對從機S2的預(yù)測效果也優(yōu)于從機S1。2 臺從機光譜均經(jīng)DS 算法標(biāo)準(zhǔn)化后效果最好,其對從機S1的SSERave和SSERmax分別為0.9057 和 3.3667,Rp、RMSEP、RPD 分別達0.8949,0.7052,2.2408;對從機S2的SSERave和SSERmax分別為0.6595 和2.8471,Rp、RMSEP、RPD分別達0.9687,0.4105,4.0284,模型預(yù)測精度較光譜標(biāo)準(zhǔn)化前有大幅度的提升。
針對小麥粉中粗蛋白含量的近紅外光譜校正模型,在3 臺不同分光原理的近紅外光譜儀間共享問題,采用DS、PDS、SLRDS 算法開展光譜標(biāo)準(zhǔn)化及模型傳遞研究。結(jié)果表明:
1) DS、PDS、SLRDS 算法均屬于有監(jiān)督的光譜標(biāo)準(zhǔn)化算法,隨著樣品數(shù)的增加,標(biāo)樣集中所含有用信息增多,3 種算法的RMSEP 數(shù)值整體呈現(xiàn)隨轉(zhuǎn)換集樣品數(shù)的增加而減小的總體趨勢;也要避免因樣品數(shù)增加過多而出現(xiàn)過擬合的現(xiàn)象。經(jīng)比較,小麥粉樣品的光譜標(biāo)準(zhǔn)化時,選擇50 個樣品參與光譜標(biāo)準(zhǔn)化,小麥粉粗蛋白的近紅外校正模型傳遞的誤差最小。
2) 經(jīng)3 種算法對光譜標(biāo)準(zhǔn)化后,2 臺從機采集的光譜與主機光譜差異性顯著降低,主機模型對其的預(yù)測效果大幅提升,其中對從機S2的預(yù)測效果的提升優(yōu)于從機S1。
3) 3 種算法中,2 臺從機光譜均經(jīng)DS 算法標(biāo)準(zhǔn)化后誤差率最小,主機模型預(yù)測效果最好,模型預(yù)測精度較光譜標(biāo)準(zhǔn)化前有大幅提升。