宋白玉,張瑞鑫,莊程翔,劉 哲,陳少華
(江蘇農(nóng)林職業(yè)技術(shù)學(xué)院,江蘇 鎮(zhèn)江 212400)
近紅外光譜技術(shù)(Near Infrared,NIR)的信息量豐富,可以直接透過樣品的內(nèi)部,波長范圍為800~2 500 nm。近紅外檢測技術(shù)具有多種成分同時(shí)分析、測量速度快、測試成本低、樣品無需預(yù)處理且不會遭到破壞、無需化學(xué)試劑等突出特點(diǎn),堪稱“綠色檢測技術(shù)”[1],在水果品質(zhì)檢測中得到了廣泛的應(yīng)用。
近紅外光是介于可見光和中紅外光之間的電磁波,光譜波長區(qū)域?yàn)?80~2 526 nm,波數(shù)為12 820~3 959 cm-1。近紅外光譜主要是有機(jī)分子的倍頻與合頻吸收光譜[1],它是由于分子振動的非諧振性使分子振動從基態(tài)向高能級躍遷時(shí)產(chǎn)生的。它記錄了含氫基團(tuán)(C-H,O-H,N-H,S-H)分子化學(xué)鍵基頻振動的倍頻和合頻信息[2],包含了絕大多數(shù)類型化合物及其混合物的質(zhì)量濃度,或品質(zhì)參數(shù)的豐富信息。可溶性固形物主要的組成基團(tuán)是C-H 和O-H,因此適合用NIR 技術(shù)來分析。根據(jù)“朗伯-比爾”吸收定律[3],不同的基團(tuán)和同一基團(tuán)在不同化學(xué)環(huán)境中的吸收波長有明顯差別,可以作為獲取有機(jī)物組成或性質(zhì)信息的有效載體[4]。因此,NIR 光譜不僅能夠反映絕大多數(shù)有機(jī)化合物的組成和結(jié)構(gòu)性能信息[5],而且對某些無機(jī)離子化合物,也能夠通過它對共存的本體物質(zhì)影響引起的光譜變化[6],間接地反映它存在的信息,而且從近紅外反射光譜還能得到樣品的密度、粒度、高分子物的聚合度及纖維直徑等物理狀態(tài)信息[7]。
由于有機(jī)組分的各官能團(tuán)在近紅外區(qū)具有多級吸收,且不同官能團(tuán)之間的譜峰相互疊加[8]和固體樣品的散射等因素的影響。因此,近紅外光譜在某個(gè)波長點(diǎn)的漫反射吸光度[9]與有機(jī)組分的質(zhì)量濃度或性質(zhì)之間并不是簡單的線性關(guān)系[3],必須采用化學(xué)計(jì)量學(xué)方法[4]解析復(fù)雜的近紅外光譜,建立光譜信息與有機(jī)組分之間的關(guān)系。
目前,光譜分析中定量分析中采用的化學(xué)計(jì)量學(xué)方法[5]主要有多元線性回歸、逐步多元線性回歸、主成分回歸、偏最小二乘法和人工神經(jīng)網(wǎng)絡(luò)等[10]。本文采用了主成分回歸和偏最小二乘法進(jìn)行分析,故在此只簡單介紹這2 種化學(xué)計(jì)量算法。
主成分回歸法(Principal Component Regression,PCR)[6]包括2 個(gè)步驟,首先是把原始數(shù)據(jù)進(jìn)行主成分分析(Principal Component Analysis,PCA),它是以因子分析為基礎(chǔ),將光譜數(shù)據(jù)向協(xié)方差最大方向投影,使數(shù)目較少的主成分成為原變量的線性組合,主成分最大限度地反映了被測樣品的組成和結(jié)構(gòu)信息,而最小限度地包含噪聲,通過對主成分個(gè)數(shù)的合理選取,去掉代表干擾組分和干擾因素的主成分;然后再用其中的幾個(gè)主成分與物質(zhì)的化學(xué)成分進(jìn)行多元線性回歸,這就是主成分回歸分析的主要思想。其優(yōu)點(diǎn)主要是可充分利用光譜數(shù)據(jù)的信息,增加了模型抗干擾能力[8]。但在分解光譜矩陣時(shí),未考慮光譜矩陣與樣品成分矩陣之間的內(nèi)在聯(lián)系,不能保證參與回歸的主成分一定與被測組分或性質(zhì)相關(guān)。
偏最小二乘法(Partial Least-Square Method,PLS)[7]從20 世紀(jì)80 年代被開始應(yīng)用于化學(xué)研究,現(xiàn)已成為化學(xué)計(jì)量學(xué)中最常用的多元校正方法,也是近紅外光譜分析上應(yīng)用最多的回歸方法。PLS 也是一種基于因子分析的多元校正方法,與主成分回歸法的區(qū)別是:它不僅將響應(yīng)矩陣進(jìn)行分解,提取主因子,還將質(zhì)量濃度矩陣進(jìn)行分解提取主因子,具有更強(qiáng)的提供信息的能力,所建立的校正模型[5]更穩(wěn)定,抗干擾能力更強(qiáng)。如同主成分回歸分析,在應(yīng)用PLS 時(shí),確定參與回歸的維數(shù)十分重要。
本次試驗(yàn)使用的是美國ASD 公司生產(chǎn)的Quality Spec?Pro 光譜儀,各參數(shù)設(shè)置如下:波長范圍為350~1 800 nm,光譜采樣間隔為1 nm,掃描次數(shù)為10 次,分辨率為3 nm(700 nm)、10 nm(1 400 nm)。近紅外波段(350~1 000 nm)選擇512 相元陣列硅(Si)檢測器,檢測距離為3 cm;短紅外波段(1 000~1 800 nm)選擇銦鎵砷(InGaAs)檢測器。探頭視場角為45°,光源是與光譜儀配套的12 V/30 W 鎢鹵燈。該NIR 裝置示意圖如圖1 所示。
圖1 NIR 測量裝置示意圖
在光譜采集前,對ASD 光譜儀預(yù)熱2 h,并穩(wěn)定光源15 min,以白板作為參比標(biāo)準(zhǔn),在溫度20 ℃及相對濕度55%的條件下,將草莓置于NIR 光譜采集系統(tǒng)上,對每個(gè)草莓樣品進(jìn)行1 次光譜測量,掃描點(diǎn)選擇表面圓滑部位,然后,換角度再進(jìn)行1 次光譜掃描。計(jì)算機(jī)自動計(jì)算得到樣品漫反射光譜,并取2 次測量的平均光譜。掃描后的譜圖如圖2 所示。
圖2 單個(gè)草莓樣品的近紅外漫反射譜圖
從圖中可以看出,譜線在670 nm、950 nm、1 175 nm 及1 425 nm 附近有明顯的特征峰值。
試驗(yàn)樣品均采于本課題組位于金華赤松鎮(zhèn)的草莓試驗(yàn)基地,采后即用冰盒帶回實(shí)驗(yàn)室,放置平板上待果實(shí)恢復(fù)室溫后即進(jìn)行樣品的光譜檢測和SSC(Soluble Solids Content)測定,試驗(yàn)在當(dāng)天完成。在對樣品進(jìn)行測量前,首先用半干的毛巾擦干凈水果表面,再對樣本進(jìn)行預(yù)處理后進(jìn)行排序標(biāo)記并確定光譜采樣范圍。試驗(yàn)樣品共150 個(gè),在建模過程中,由軟件隨機(jī)分為2 組,即校正組和驗(yàn)證組,樣品分別為112和38 個(gè),樣品溫度與室溫平衡后即進(jìn)行點(diǎn)對點(diǎn)的光譜采集與SSC 的測定。
本試驗(yàn)采用折射式數(shù)字糖度計(jì)[2]進(jìn)行測量。采集完光譜后,擠出草莓果汁,滴到糖度計(jì)的小槽中,滴滿為止,然后進(jìn)行可溶性固形物的測量。
應(yīng)用定量分析軟件The uascrambler 9.6 建立草莓可溶性固形物含量校正模型。建模采用2 種多元校正方法,即主成分分析和偏最小二乘法。將可溶性固形物含量的實(shí)測值導(dǎo)入該軟件,在建模過程中隨機(jī)選擇112 個(gè)作為建模樣品,38 個(gè)作為預(yù)測樣品。用未參與建模的樣品對模型進(jìn)行驗(yàn)證,評價(jià)模型的可行性,比較PCR 和PLS 的預(yù)測性能。
在近紅外光譜分析過程中,一般在通用的光譜儀上掃描一個(gè)樣品會得到上千個(gè)數(shù)據(jù)點(diǎn)。光譜圖譜帶重疊嚴(yán)重、背景復(fù)雜,其信息量非常豐富,這給定性和定量分析帶來了巨大困難。傳統(tǒng)觀點(diǎn)認(rèn)為主成分分析、偏最小二乘法具有較強(qiáng)的抗干擾能力,可全波長參與多元校正模型的建立。
隨著多組分混合物光譜定量分析研究的日趨活躍和深入,發(fā)現(xiàn)選取一定范圍的光譜甚至是幾個(gè)特定的波長點(diǎn)處的吸收值進(jìn)行定標(biāo)不但可以簡化計(jì)算,還可以提高模型的穩(wěn)定性和預(yù)測能力。當(dāng)采用全譜區(qū)進(jìn)行計(jì)算建模時(shí),不僅計(jì)算量大,而且在某些光譜區(qū)域樣品的光譜信息很弱或與樣品的組成或性質(zhì)缺乏相關(guān)關(guān)系,引入這樣的變量會造成多元校正模型的精度降低甚至錯(cuò)誤。如果對建模的光譜譜區(qū)進(jìn)行選擇,將有利于簡化模型、減少噪聲影響,提高運(yùn)算效率和模型的穩(wěn)定性。
本研究選擇不同的譜區(qū)采用PLS 和PCR 這2 種方法分別建立不同譜區(qū)的校正模型,根據(jù)它們的預(yù)測效果,得到建立校正模型的最適譜區(qū)。
由于儀器、樣品背景或其他因素影響,近紅外光譜分析中經(jīng)常出現(xiàn)譜圖漂移或偏移現(xiàn)象,如不加處理,同樣會影響校正模型建立的質(zhì)量和未知樣品預(yù)測結(jié)果的準(zhǔn)確性。可以采用扯平峰谷點(diǎn)、偏置扣減、微分處理和基線傾斜等方法?;€校正最常用的解決方法是對光譜進(jìn)行一階微分或二階微分處理,前者主要解決基線的偏移,后者則解決基線的漂移。采用微分可以較好地凈化圖譜信息。本試驗(yàn)比較了原始光譜及一階和二階微分光譜所建模型的預(yù)測效果。
在對未知樣本進(jìn)行測定時(shí),根據(jù)測定的光譜和校正模型的實(shí)用性判斷,確定建立的校正模型能否對未知樣本進(jìn)行測定。一般在實(shí)際建模過程中把交叉驗(yàn)證的決定系數(shù)R2和校正標(biāo)準(zhǔn)差(RMSEC)作為評價(jià)標(biāo)準(zhǔn)。在外部檢驗(yàn)中,用決定系數(shù)R2和預(yù)測標(biāo)準(zhǔn)差(RMSEP)作為評價(jià)標(biāo)準(zhǔn)。決定系數(shù)R2越大,而校正標(biāo)準(zhǔn)差(RMSEC)和預(yù)測標(biāo)差(RMSEP)越小,說明模型越可靠。
校正標(biāo)準(zhǔn)差的計(jì)算公式如下:
式(1)中:IRMSEC為校正標(biāo)準(zhǔn)差值;M為定標(biāo)集的樣品數(shù);iy^ 為第i個(gè)樣品的預(yù)測值;yi為第i個(gè)樣品的化學(xué)分析值。
預(yù)測標(biāo)準(zhǔn)差值的計(jì)算公式如下:
式(2)中:JRMSEP為預(yù)測標(biāo)準(zhǔn)差值;n為驗(yàn)證集的樣品數(shù)。
決定系數(shù)R2給出了真實(shí)組分值中出現(xiàn)的變量百分?jǐn)?shù),預(yù)測含量值越接近真值,R2越接近100%,其計(jì)算公式如下:
式(3)中:yn為M個(gè)樣品真值的平均值。
草莓樣品可溶性固形物含量分析結(jié)果如表1所示。由表可知,校正集樣品中可溶性固形物范圍為9.1~17.3,標(biāo)準(zhǔn)偏差為1.857 4,平均值為11.514 6;驗(yàn)證集樣品的可溶性固形物范圍為9.6~17.1,平均值為12.235 4,標(biāo)準(zhǔn)偏差為1.498 2。測定值呈典型的“鐘”形的正態(tài)分布,這表明樣品值具有較廣泛的代表性,并保證方差分析、回歸分析等統(tǒng)計(jì)方法所對應(yīng)的樣本值服從正態(tài)分布。草莓糖度的分析結(jié)果如表2 所示。
表1 草莓樣品可溶性固形物含量分析結(jié)果
表2 草莓糖度的分析結(jié)果
在運(yùn)用偏最小二乘法建立模型的過程中,選擇不同的譜區(qū),對結(jié)果具有一定的影響。運(yùn)用The uascrambler 9.6定量分析軟件將全光譜波段分成11 個(gè)交叉的波段,表3 和表4 只列舉了部分譜區(qū),即選擇了預(yù)測效果最佳的譜區(qū),并按效果由好到差依次列于表中。
表3 不同譜區(qū)對PLS 模型效果的影響
表4 不同譜區(qū)對PCR 模型效果的影響
結(jié)合表3 和表4,從交叉驗(yàn)證后預(yù)測值和實(shí)際值的決定系數(shù)R2、校正標(biāo)準(zhǔn)差(RMSEC)以及模型預(yù)測后的決定系數(shù)R2、預(yù)測標(biāo)準(zhǔn)差(RMSEP)可以看出,總的來說PLS 對原始光譜的建模要優(yōu)于PCR 對原始光譜的建模。由表3 可知,通過偏最小二乘法所得的模型,在波段為500~1 600 nm 范圍內(nèi),交叉驗(yàn)證得到最大的R2和最小的RMSEC值,分別為0.995 5和0.108 1;并且用這個(gè)模型預(yù)測驗(yàn)證集,所得到的R2和RMSEP值也最理想,分別為0.872 7 和0.493 2。
因此,500~1 600 nm 為PLS 建模的最適譜區(qū)。而由表4 可知,通過PCR 所得模型的最適譜區(qū)為800~1 400 nm。產(chǎn)生這個(gè)差異的原因尚未弄清有待進(jìn)一步研究,本文不做討論。
本試驗(yàn)采用一階微分和二階微分這2 種常用的光譜預(yù)處理方法,并且比較原始光譜、一階微分光譜和二階微分光譜所建模型的預(yù)測能力。對可溶性固形物進(jìn)行建模時(shí),采用偏最小二乘法、主成分回歸法2 種不同的數(shù)學(xué)校正法,并分別在其最適譜區(qū)內(nèi)建模,最后對2 種模型進(jìn)行比較討論。
利用PLS 和PCR 對不同預(yù)處理光譜進(jìn)行建模,預(yù)測模型結(jié)果如表5 所示,由表可知,PCR 和PLS 的預(yù)測能力有明顯差別。比較PLS 和PCR 分別基于原始光譜、一階微分光譜和二階微分光譜的模型,PLS 普遍具有較高的R2值及較小的RMSEC 值和RSMEP 值,表明PLS 法更適于草莓的建模分析。
表5 建模和預(yù)測模型結(jié)果
從分析結(jié)果來看,對樣品的原始光譜采用一階、二階微分處理后的PLS 預(yù)測模型的擬和度及預(yù)測效果有一定的差異,由好到差依次是:原始光譜、一階光譜、二階光譜。單看PLS 模型,一階光譜與二階光譜所建立的校正模型,其決定系數(shù)R2相差不大,分別為0.943 2、0.943 1,而與原始光譜相比,其決定系數(shù)R2為0.995 5,都有相對較大的差距。
再比較各種不同光譜預(yù)處理后的PCR 模型,也可以發(fā)現(xiàn),基于原始光譜建立的模型效果最好,其決定系數(shù)R2為0.992 9。而一階微分、二階微分處理后預(yù)測效果大大降低,決定系數(shù)分別為0.491 1、0.216 9。
以上結(jié)果說明,原始光譜所建模型的性能最好,一階微分和二階微分處理并沒有提高模型的預(yù)測能力。對于草莓可溶性固形物的近紅外光譜檢測,原始光譜比微分光譜更適合于建模。
進(jìn)行綜合比較后發(fā)現(xiàn),3 種不同光譜預(yù)處理方法所得到的驗(yàn)證決定系數(shù)R2、校正標(biāo)準(zhǔn)差(RMSEC)以及模型預(yù)測后的決定系數(shù)R2、預(yù)測標(biāo)準(zhǔn)差(RMSEP)都存在比較大的差別。因此,在建模過程中,要反復(fù)比較、慎重選擇,力求選擇的譜區(qū)、光譜預(yù)處理方法和建模方法為最佳搭配。
隨著儀器和光譜處理化學(xué)計(jì)量學(xué)軟件及相應(yīng)各類應(yīng)用模型的開發(fā),近紅外光譜技術(shù)作為一種快速及綠色的分析技術(shù)將會被應(yīng)用在越來越多領(lǐng)域中。
目前,在儀器的研發(fā)方面,更加注重高信噪比、高穩(wěn)定性、低檢測極限、便攜、價(jià)廉等要求;在應(yīng)用方面,突出在線、實(shí)時(shí)、遠(yuǎn)程、結(jié)果可靠等概念。因此,筆者認(rèn)為在未來的研究工作中應(yīng)以這些為導(dǎo)向,完善儀器、優(yōu)化軟件,使近紅外光譜技術(shù)發(fā)揮更大的作用。