楊 瓊, 朱乾華, 任 鵬, 龍 帥, 楊季冬*,2
(1.長江師范學(xué)院化學(xué)化工學(xué)院,重慶 408100;2.重慶三峽學(xué)院化學(xué)及環(huán)境工程學(xué)院,重慶 404000;3.西南科技大學(xué)生命科學(xué)與工程學(xué)院,四川綿陽 621010)
化學(xué)需氧量(COD)為水體受污染程度的重要計(jì)量指標(biāo)之一,因此,研究 COD 的測定方法具有重要意義。COD傳統(tǒng)的檢測方法有重鉻酸鹽法[1]、高錳酸鉀法[2]以及其它的方法[3,4],但這些化學(xué)分析法操作繁瑣,需用重金屬藥品,可能造成二次污染。因此,建立一種快速無損且高效的COD的分析方法很有必要,近紅外光譜分析技術(shù)就能達(dá)到這一要求。
近紅外(NIR)光譜技術(shù)具有快速、準(zhǔn)確、簡單和成本較低等優(yōu)點(diǎn),因此得到各行業(yè)的青睞[5],且在COD檢測領(lǐng)域迅速發(fā)展[6,7]。近紅外光譜分析結(jié)果的準(zhǔn)確性,取決于模型的合理使用和定標(biāo)模型的質(zhì)量好壞,所以必須選擇合適的模型建立方法。偏最小二乘法(PLS)是光譜數(shù)據(jù)處理常用的方法之一,且在使用中對其進(jìn)行了改進(jìn)[8],并發(fā)展了間隔偏最小二乘法(iPLS)、前向、后向間隔偏最小二乘法(FiPLS,BiPLS)等建模方法。PLS法一般利用全波譜建立模型,為了盡可能選擇靈敏度較高的波段,以簡化模型、提高模型精度。本文在利用近紅外光譜法結(jié)合PLS研究COD的基礎(chǔ)上,提出一種基于iPLS、FiBLS和BiPLS的COD近紅外光譜特征波段選擇方法。將全譜波段等分為30、20、15、12個子區(qū)間,以PLS算法對全譜波段和每個子區(qū)間單獨(dú)進(jìn)行回歸建模,然后以FiPLS 和BiPLS算法對各個區(qū)間進(jìn)行重新組合并得出優(yōu)化結(jié)果模型,用預(yù)測集標(biāo)準(zhǔn)偏差(RMSEP)和交叉驗(yàn)證均方差(RMSECV)作為模型的評價參數(shù)。結(jié)果顯示:全波段所建立的PLS的選擇效果最差,iPLS、FiPLS、 BiPLS選擇效果均有所改進(jìn),且BiPLS算法提升的效果最好。
日立U-4100 紫外-可見/近紅外分光光度計(jì);OPUS5.5光譜軟件;EL104 分析天平(Mettler-toledo,上海)。
重鉻酸鉀、硫酸亞鐵、鄰菲咯啉、硫酸亞鐵銨、硫酸銀、濃硫酸均為分析純。實(shí)驗(yàn)所用水為超純水。
按照環(huán)境監(jiān)測提供的方法在生活污水沉淀池采集120個水樣,其中80個樣本作校正集,40個樣本作預(yù)測集,經(jīng)20 min沉淀后,分為2組,一組測定其COD化學(xué)值,一組采集其近紅外光譜。COD 化學(xué)值測定參照國家標(biāo)準(zhǔn)方法[1]。測得COD標(biāo)準(zhǔn)值的范圍為28.40~528.0 mg·L-1。
使用1 cm 石英池,在波長800~1 800 nm 的近紅外區(qū)域,以空氣為參比,掃描廢水樣品,波長間隔2 nm,設(shè)置狹縫為2 nm,掃描速度為1 500 nm/s,每個樣品掃描3次,取平均值為廢水的NIR透射光譜圖,如圖1所示。
1.4.1PLS全譜模型PLS法最先產(chǎn)生于化學(xué)計(jì)量領(lǐng)域[9],用于克服解釋變量超出化學(xué)樣本個數(shù)而導(dǎo)致多重相關(guān)性問題。本文采用OPUS5.5計(jì)量學(xué)軟件建立PLS模型,采用留一法交互驗(yàn)證(Leave-one-out Cross Validation,LOO-CV)計(jì)算RMSECV。
1.4.2iPLS模型iPLS法原理是將預(yù)處理后的全光譜模型波段等分成若干子區(qū)間,然后逐個將子區(qū)間建立待測的PLS回歸模型。將得出各組結(jié)果中的RMSECV值進(jìn)行對比,最小的即為最優(yōu)的建立模型區(qū)間。
1.4.3BiPLS模型BiPLS法是在iPLS 的基礎(chǔ)上建立的一種算法,BiPLS法是一種對子區(qū)間只減不加的方法。方法是將含有n個單獨(dú)區(qū)間整個iPLS模型中逐一去除一個子區(qū)間,將剩余的n-1個子區(qū)間聯(lián)合建立PLS 模型,并記錄相應(yīng)的RMSECV值。然后固定剔除局部模型精度低的子區(qū)間進(jìn)入下一輪運(yùn)算,即去除該子區(qū)間之后,所建立的模型得到的RMSECV值最小,以這種方法逐一剔除最差區(qū)間,直到只剩一個子區(qū)間。將RMSECV值最小的聯(lián)合模型確定為最優(yōu)組合。
1.4.4FiPLS模型FiPLS法是一種對子區(qū)間只加不減的方法。它的操作方法是將iPLS單獨(dú)區(qū)間模型中RMSECV值最低的子區(qū)間作為第一入選區(qū)間(若RMSECV值一致,優(yōu)選相關(guān)值大的子區(qū)間),然后依次把剩下的n-1個子區(qū)間逐一與第一入選區(qū)間組合成n-1組聯(lián)合區(qū)間,進(jìn)行PLS回歸建模,以這種循環(huán)的方式優(yōu)選,各最優(yōu)組逐個聯(lián)合直到全部區(qū)間被同時建模。將RMSECV值最小的聯(lián)合模型確定為最優(yōu)組合模型。
預(yù)測集樣本與校正集樣本的劃分對數(shù)學(xué)模型的建立有著重要的作用,校正集樣本范圍需覆蓋預(yù)測集樣本,如果預(yù)測集樣本不在校正集樣本范圍之內(nèi),就必須擴(kuò)充校正集樣本。因此,本實(shí)驗(yàn)選用80個樣品作為校正集樣本,40個樣品作為預(yù)測集樣本。樣品中校正集化學(xué)值范圍為19.64~528.0 mg·L-1,平均值為120.4 mg·L-1;預(yù)測集化學(xué)值范圍為41.6~227.2 mg·L-1,平均值為98.38 mg·L-1。
從圖1可以看出,廢水樣品的近紅外透射光譜圖重疊很嚴(yán)重,所以對光譜進(jìn)行預(yù)處理是非常有必要的。本實(shí)驗(yàn)對比了原始光譜、多元散射校正、平滑處理、消除常量偏移、矢量歸一化、一階導(dǎo)數(shù)以及二階導(dǎo)數(shù)處理等光譜處理方法,結(jié)果顯示,效果最好的模型是由矢量歸一化法對光譜數(shù)據(jù)進(jìn)行處理而得到。因此,本實(shí)驗(yàn)所有模型的建立均選用矢量歸一法對光譜數(shù)據(jù)進(jìn)行預(yù)處理。
2.3.1PLS模型的建立圖1為廢水樣品波長800~1 800 nm近紅外光譜全譜,由圖可見該光譜的特征吸收范圍應(yīng)該在800~1 400 nm處,而在其他的波長點(diǎn)處吸收微弱或者沒有特征吸收,應(yīng)該選擇該波長范圍進(jìn)行建模。本文光譜預(yù)處理使用OPUS軟件,選用矢量歸一化法在全波進(jìn)行處理,將最優(yōu)波段自動選擇為800~1 400 nm。一般通過以下幾個主要參數(shù)評價一個模型的好壞:RMSECV作為局部模型精度衡量標(biāo)準(zhǔn),相關(guān)系數(shù)(R2)表示變量間的相關(guān)緊密程度;RMSEP反映實(shí)測值與預(yù)測值的差異,一個模型具有較高的R2,較低且值接近的RMSECV和RMSEP,就是較好的模型。根據(jù)選擇最優(yōu)模型的參數(shù),選出了最優(yōu)模型,其最優(yōu)模型的RMSECV為18.8 mg·L-1,相關(guān)系數(shù)(R2)為0.8219。
2.3.2iPLS模型的建立對原始光譜采用矢量歸一化法預(yù)處理后,確定全波段800~1 400 nm,將全譜每隔20 nm、30 nm、40 nm、50 nm分為30、20、15、12個子區(qū)間,將每個子區(qū)間利用PLS分別建立回歸模型,并選擇了各個區(qū)間的最優(yōu)模型,其最優(yōu)模型的統(tǒng)計(jì)結(jié)果分別如下表1所示。由表1可以看出,利用iPLS所建立的最佳模型比用全波段所建立的模型各個參數(shù)都有所提高。而把全波譜間隔20 nm劃分為30個區(qū)間所得的最優(yōu)模型為最佳,所以,選用把全波譜劃分為30個子區(qū)間來建立后面的FiPLS和BiPLS模型。
表1 iPLS模型的優(yōu)化結(jié)果
2.3.3FiPLS和BiPLS模型的建立因?yàn)閕PLS只能在一個子區(qū)間內(nèi)建模,沒有考慮到多個區(qū)間的組合,雖然減少了運(yùn)算量,但是它也會丟失一些其他區(qū)間的有用信息。因此我們在iPLS的基礎(chǔ)上,又使用BiPLS和FiPLS建立模型。因?yàn)榘讶ㄗV間隔20 nm劃分為30個區(qū)間所得的模型為最優(yōu)模型,因此,選用把全波譜劃分為30個子區(qū)間來建立FiPLS和BiPLS模型。兩個模型的結(jié)果參數(shù)如表2所示。
表2 BiPLS和FiPLS的模型參數(shù)
(續(xù)表2)
BiPLSFiPLSNumber intervals in modelSelected intervalRMSECV(mg·L-1)R2Number intervals in modelSelected intervalRMSECV(mg·L-1)R281816.80.8463232617.90.830072317.50.8450241418.00.829662517.60.8444251518.00.829752417.70.842026118.10.82694418.00.8373273018.00.82833217.20.8502282718.20.825221925.00.6901292819.40.799111723.50.6582302918.80.8219
從表2可以看出,在BiPLS模型中,當(dāng)入選區(qū)間數(shù)達(dá)到8、9、10個,此時的模型RMSECV值最小,為16.8 mg·L-1,當(dāng)入選區(qū)間數(shù)達(dá)到9時,相關(guān)系數(shù)最大為84.65,故選用入選區(qū)間為9時為最佳模型。為剩下參與建模區(qū)間序號有22、18、23、25、24、4、2、19、17。在FiPLS模型中,當(dāng)入選區(qū)間數(shù)達(dá)到13個,此時的RMSECV值最小,為17.2 mg·L-1,入選參與建模的區(qū)間序號有20、12、17、8、11、18、19、21、22、10、9、23、4。研究發(fā)現(xiàn)BiPLS和FiPLS均比全譜建模的PLS法以及iPLS所得的結(jié)果更為精確,且通過BiPLS和FiPLS的對比發(fā)現(xiàn),BiPLS最優(yōu)組合所得的RMSECV值比FiPLS最優(yōu)組合的更小,更為精確。所以我們選用參與建模區(qū)間序號為22、18、23、25、24、4、2、19、17組合所建立BiPLS模型來測定廢水中COD值,其最佳模型的RMSECV為16.8 mg·L-1,R2為0.8465。BiPLS法所建立的模型吸取了PLS全波長建模和iPLS建模的優(yōu)點(diǎn),既考慮到多個區(qū)間的組合,也減少了運(yùn)算量。
通常外部驗(yàn)證采用性質(zhì)與參與建模的校正集樣本具有相似的未參與建模樣本,為了評價模型的預(yù)測準(zhǔn)確性,普遍通過對比化學(xué)測量值和模型外部預(yù)測集樣品的預(yù)測值差別進(jìn)行驗(yàn)證。本實(shí)驗(yàn)用校正集樣本經(jīng)BiPLS算法優(yōu)選后的波長范圍建立數(shù)學(xué)分析模型,對預(yù)測集樣本的COD值進(jìn)行了預(yù)測,其RMSEP為15.9 mg·L-1,R2為0.8265。結(jié)果顯示近紅外光譜預(yù)測值和標(biāo)準(zhǔn)方法所測值具有較高的相關(guān)性,預(yù)測效果達(dá)到預(yù)期目標(biāo)。
前人利用近紅外光譜法對COD研究頗多,我們把本文方法與其他部分文獻(xiàn)做了對比,結(jié)果如表3所示。從表中可以看出,所列出來的文獻(xiàn)所用建模方法均為PLS,波段范圍比較廣,而我們?yōu)榱巳コǘ沃械臒o用部分來減小運(yùn)算量,通過研究發(fā)現(xiàn)利用BiPLS最優(yōu)組合所得的RMSECV值與RMSEP值更小,更為精確。其RMSECV和RMSEP分別為16.8 mg·L-1和15.9 mg·L-1。
表3 模型參數(shù)對比
本文利用近紅外光譜法結(jié)合PLS、iPLS、BiPLS和FiPLS對廢水樣品中的COD進(jìn)行分析,并對近紅外光譜特征波段進(jìn)行了選擇。結(jié)果表明:iPLS算法較全譜建模更為精確,且有效減少了模型的變量個數(shù),但是改進(jìn)的BiPLS和FiPLS算法更能體現(xiàn)這一優(yōu)勢,不僅在選擇中剔除了噪音多的區(qū)間,還能將多個較佳的區(qū)間進(jìn)行組合,但是FiPLS是只加不減的算法,在與BiPLS這種只減不加的算法相比較,更容易被干擾而導(dǎo)致精確度降低,使BiPLS最終結(jié)果比FiPLS更佳。所以,BiPLS更適合作為COD近紅外光譜特征波段選擇的算法。用最優(yōu)模型對預(yù)測集樣本的COD的含量進(jìn)行了預(yù)測,獲得較好結(jié)果。