王菊香,韓 曉,邢志娜
(1.海軍航空大學(xué),山東煙臺264001;2.海軍裝備部駐北京地區(qū)第三軍事代表室,北京100071)
近紅外光譜分析模型是借助化學(xué)計量學(xué)方法而建立的分析指標(biāo)和近紅外光譜的多元校正模型。通過基礎(chǔ)方法測定每個樣品各組分和物理性質(zhì)的相關(guān)數(shù)據(jù)并在光譜儀上采集光譜數(shù)據(jù),利用化學(xué)計量學(xué)算法有效提取光譜信息,建立近紅外光譜與分析指標(biāo)的關(guān)聯(lián)關(guān)系,實現(xiàn)多個分析項目(組分或性質(zhì))的同時快速分析。近紅外光譜分析最大的特點是光譜信息豐富但吸收強(qiáng)度較低,樣品不須進(jìn)行稀釋、轉(zhuǎn)化等預(yù)處理,不須使用大量的化學(xué)試劑,可直接取樣測定,一般幾分鐘就能測出結(jié)果,有效避免了環(huán)境污染和人身傷害。近紅外光譜分析可應(yīng)用于在石油、農(nóng)業(yè)、食品、化工、藥品等行業(yè)實驗室的定性和定量分析,還可用于現(xiàn)場和生產(chǎn)車間的在線檢測[1-4]。
近紅外光譜分析屬于建立在數(shù)學(xué)算法基礎(chǔ)上的二次分析,采集的光譜包含了儀器參數(shù)和測量條件等信息,同一樣品在不同儀器、不同測量環(huán)境下的光譜是不一致的。因此,近紅外光譜分析模型不能在2 臺儀器上同時使用。目前,實現(xiàn)實際應(yīng)用中模型共享的1個快速有效的手段是模型傳遞。模型傳遞通過數(shù)學(xué)的方法使同一樣品在不同儀器或不同測試條件下測定的光譜盡可能一致,減少重新建模所消耗的大量人力、財力和時間。目前,比較常用的模型傳遞算法有Slope/Bias 算法、DS 算法、PDS 算法等[5-7],以及對這些方法的優(yōu)化和改進(jìn)[8-11]。本文采用DS算法對混胺燃料的近紅外光譜分析模型進(jìn)行傳遞研究,重點比較奇異值分解(Singular Value Decomposition,SVD)算法和偏最小二乘法(Partial Least Squares,PLS)計算得到的轉(zhuǎn)換矩陣的效果。
通過收集和配制等方法獲得一定濃度差異的混胺樣品48 個,形成樣品集,對混胺燃料的密度及三乙胺、二甲苯胺、水分、二乙胺的含量進(jìn)行定量檢測,取至少2 次滿足平行要求的結(jié)果的平均值作為基礎(chǔ)數(shù)據(jù)。采用5 cm 光程的玻璃樣品池,在2臺波長范圍為700~1 100 nm(2 002 波長點)的近紅外光譜儀器(用于建模的是主儀器,用于傳遞的是從儀器)上,以空氣為參比,分別對混胺樣品進(jìn)行光譜掃描,以10 次掃描的平均值作為光譜數(shù)據(jù)。
采用K/S 算法將樣品集分為校正集、預(yù)測集和轉(zhuǎn)換集。校正集用于建模和轉(zhuǎn)換集樣品選擇,預(yù)測集用來檢驗建模和模型傳遞效果,轉(zhuǎn)換集用于模型傳遞。
對主儀器的40個校正集樣品的光譜進(jìn)行平滑、微分等處理,采用偏最小二乘法建立校正模型,采用交互驗證方法確定最佳主成分?jǐn)?shù),通過校正集標(biāo)準(zhǔn)偏差(SEC)、相關(guān)系數(shù)(R2)和預(yù)測集標(biāo)準(zhǔn)偏差(SEP)評價模型優(yōu)劣,確定最佳分析模型。
采用DS算法建立主儀器和從儀器測量光譜信號的函數(shù)關(guān)系,盡可能使從儀器上測定的譜圖與主儀器測定的同一樣品的譜圖相同。通過光譜平均差異(ARMS)、光譜校正率(Prcorrected)及SEP 評價傳遞性能[9-10]。
DS 算法是利用全譜區(qū)的光譜數(shù)據(jù)計算主儀器光譜S1和從儀器光譜S1之間的轉(zhuǎn)換矩陣F ,使得從儀器光譜與主儀器光譜基本一致[12-14]。文中采用奇異值分解[15-16]和偏最小二乘法[17]2 種算法計算轉(zhuǎn)換矩陣。轉(zhuǎn)換集樣本通過K/S 算法[18]獲得,轉(zhuǎn)換集樣品的數(shù)量通過計算ARMS確定。模型傳遞的基本流程見圖1。
圖1 DS傳遞算法流程圖Fig.1 Flow chart of DS algorithm
K/S算法是一種通過計算樣本之間的歐氏距離來選擇轉(zhuǎn)換集樣品的常用方法。為了選出合適的轉(zhuǎn)換集樣品,分別采用DS-SVD 和DS-PLS算法計算主、從儀器間的轉(zhuǎn)換矩陣,在對從儀器采集的光譜進(jìn)行校正的基礎(chǔ)上,繪制2 種算法所得樣品數(shù)與ARMS 和Prcorrected的關(guān)系圖,分別如圖2、3所示。
由圖2可見,隨著轉(zhuǎn)換集樣品數(shù)的增多,ARMS逐漸下降,當(dāng)選擇的轉(zhuǎn)換集樣品數(shù)增至16 時,ARMS 變化幅度很小,處于平穩(wěn)狀態(tài)。由圖2 和圖3 可見,DSPLS 算法的光譜校正效果好于DS-SVD,其光譜校正率可達(dá)到97.5%。
圖2 ARMS與轉(zhuǎn)換集樣品數(shù)的關(guān)系Fig.2 Relationship between ARMS and the number of transfer samples
圖3 轉(zhuǎn)換集樣品數(shù)對光譜校正率的影響Fig.3 Impact of the number of transfer samples on Prcorrected
主因子數(shù)對使用PLS 算法所轉(zhuǎn)換矩陣的校正效果的好壞有重要影響。為挑選最佳主因子數(shù),將ARMS 值隨主因子數(shù)的變化作圖。設(shè)定主因子數(shù)范圍1~10,計算不同主因子數(shù)下的校正參數(shù),并對從儀器預(yù)測集光譜進(jìn)行校正,計算校正后與主儀器光譜的ARMS 值。ARMS 隨主因子數(shù)變化如圖4 所示,整體趨勢為:先變大,再變小,后趨于平穩(wěn)。當(dāng)主因子數(shù)為3 時,ARMS 最小,校正效果最好。因此,最佳主因子數(shù)為3。
圖4 主因子數(shù)對ARMS的影響Fig.4 Impact of principal factor number on ARMS
選擇轉(zhuǎn)換集樣品數(shù)為16,采用最佳主因子數(shù)為3的DS-PLS 算法建立轉(zhuǎn)換矩陣。主、從儀器及校正后的光譜如圖5所示,從儀器光譜經(jīng)過DS-PLS校正后與主儀器間光譜的差異基本消除。
圖5 主儀器、從儀器以及校正后的光譜圖Fig.5 Spectra of reference instrument,target instrument and corrected spectrum
分別用主儀器所建模型對主、從儀器的15個混胺樣品光譜以及從儀器校正光譜進(jìn)行預(yù)測,獲得3 種情況混胺樣品的密度、三乙胺、二甲苯胺、水分和二乙胺指標(biāo)的預(yù)測結(jié)果的標(biāo)準(zhǔn)偏差,結(jié)果如表1所示。由表1可見,采用DS-PLS算法對從儀器光譜進(jìn)行校正后,密度、水分、三乙胺、二甲苯胺和二乙胺的預(yù)測結(jié)果的SEP 明顯降低,接近主儀器模型的預(yù)測效果,這說明DS-PLS算法對混胺燃料近紅外光譜分析模型傳遞是有效的。圖6 分別是密度、三乙胺含量、二甲苯胺含量、水分含量、二乙胺含量的主儀器光譜分析結(jié)果與真值的誤差(A)、模型校正前從儀器預(yù)測結(jié)果誤差(B)和模型校正后從儀器預(yù)測結(jié)果誤差(C)分布圖。由圖可見,模型校正前誤差值較大且容易偏向一邊,而模型校正后從儀器和主儀器預(yù)測結(jié)果的誤差接近且正負(fù)誤差分布較均勻,基本滿足誤差分析要求。
表1 DS-PLS模型傳遞前后混胺樣品的預(yù)測結(jié)果Tab.1 Prediction results of mixed-amine sample
圖6 各分析指標(biāo)近紅外光譜預(yù)測結(jié)果誤差分布圖Fig.6 Error distribution of analytical items determined by NIR
模型傳遞是解決實際應(yīng)用中近紅外光譜分析模型在不同儀器間共享的一個快速有效的手段,通過比較奇異值或PLS 算法,確定DS-PLS 算法能更好地消除不同儀器間光譜差異,光譜校正率達(dá)到97.5%,通過計算ARMS 確定了最佳轉(zhuǎn)換集樣品數(shù)和PLS 算法的主因子數(shù)。對混胺樣品數(shù)的分析結(jié)果表明,模型傳遞后,密度、水分、三乙胺、二甲苯胺和二乙胺的預(yù)測結(jié)果的SEP 大大降低,相關(guān)系數(shù)明顯提高,與主儀器模型的預(yù)測結(jié)果差距較小,基本實現(xiàn)了近紅外光譜分析模型在主從儀器間的共享,為其他樣品的模型傳遞提供了依據(jù)。