楊曉麗,馬公喆,陳云秀,汪文超,劉夢(mèng)嬌
(曲靖師范學(xué)院化學(xué)化工學(xué)院,云南 曲靖 655011)
?
FiPLS在煙煤水分近紅外檢測(cè)中的應(yīng)用*
楊曉麗,馬公喆,陳云秀,汪文超,劉夢(mèng)嬌
(曲靖師范學(xué)院化學(xué)化工學(xué)院,云南曲靖655011)
偏最小二乘是一個(gè)在近紅外光譜解析中常用的計(jì)量學(xué)算法,結(jié)合變量篩選方法既可以提高模型的預(yù)測(cè)能力,也可以大大降低建模的難度。本文將前向區(qū)間偏最小二乘用于煙煤水分近紅外光譜解析。提取出的區(qū)間數(shù)為2,變量個(gè)數(shù)從1557減少到54個(gè)。所提取的波長(zhǎng)區(qū)間主要位于O-H一級(jí)泛頻吸收帶。預(yù)測(cè)平均絕對(duì)百分誤差從0.0865降低到0.0818。研究結(jié)果表明,前向區(qū)間偏最小二乘可以顯著減少變量數(shù)并提高預(yù)測(cè)準(zhǔn)確度。
煙煤;水分;偏最小二乘;區(qū)間選擇
近紅外光譜技術(shù)是一項(xiàng)快速、準(zhǔn)確、無損傷的檢測(cè)手段,目前已廣泛用于農(nóng)業(yè)、文本識(shí)別、營(yíng)養(yǎng)物質(zhì)檢測(cè)、石油化工等領(lǐng)域[1]。由于近紅外光譜屬于典型的高維數(shù)據(jù),且包含了大量隨機(jī)噪聲、儀器噪聲、無用信息等,這給近紅外光譜解析帶來了巨大挑戰(zhàn)?;瘜W(xué)計(jì)量學(xué)方法常用來解析近紅外光譜,如偏最小二乘[2]、人工神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)[4]等。偏最小二乘(partial least squares,PLS)可以很好地解決光譜共線性問題,常用于建立近紅外光譜檢測(cè)模型。在建立PLS模型的同時(shí)對(duì)光譜區(qū)間進(jìn)行選擇,可以進(jìn)一步提高建模精度、簡(jiǎn)化模型。區(qū)間策略[5]和移動(dòng)窗口技術(shù)[6]已用于光譜區(qū)間篩選。
煤炭在生產(chǎn)、流通和使用過程中,常需要檢測(cè)發(fā)熱量、水分、揮發(fā)分、灰分、固定碳等項(xiàng)目。傳統(tǒng)分析方法耗時(shí)、繁瑣,時(shí)間滯后性嚴(yán)重,往往不能滿足工藝調(diào)整的需要[7]。雖然煤的組成復(fù)雜,但是可以通過近紅外光譜技術(shù)獲得C-H、S-H、O-H等鍵的泛頻、合頻及倍頻吸收。因此,近紅外光譜技術(shù)被用來嘗試解決煤質(zhì)分析快速、實(shí)時(shí)、自動(dòng)化問題[8-9]。
本文針對(duì)煙煤水分檢測(cè),采用前向偏最小二乘法對(duì)光譜區(qū)間進(jìn)行篩選,并建立檢測(cè)模型。以交叉檢驗(yàn)均方根誤差評(píng)價(jià)光譜區(qū)間優(yōu)化效果,以預(yù)測(cè)絕對(duì)平均百分誤差、回收率和相關(guān)系數(shù)來評(píng)價(jià)模型預(yù)測(cè)精度。
1.1煙煤中水分檢測(cè)
煙煤樣品處理至80目粒度,采用熱重分析測(cè)量煙煤水分[10]。共100個(gè)樣品,從中選出測(cè)量值居中的10個(gè)樣本用于預(yù)測(cè),剩下的90個(gè)樣本用于建立模型。
1.2近紅外光譜采集
采用Thermo Antaris Ⅱ采集煙煤樣品近紅外光譜,波數(shù)范圍4000~10000 cm-1,分辨率:8 cm-1,掃描次數(shù):64,每條光譜包含1557個(gè)點(diǎn)。
偏最小二乘(partial least squares,PLS)采用正交策略提取出光譜中主成分并建立多元線性回歸模型[2]。由于PLS依據(jù)主成分分析建立回歸模型,因此主成分個(gè)數(shù)對(duì)建模準(zhǔn)確性非常重要。PLS在建模過程中,依次提取出包含信息量多的主成分,當(dāng)主成分的貢獻(xiàn)率達(dá)到85%以上就可以認(rèn)為包含了有用信息且剔除了噪聲及無用信息。本文中PLS自動(dòng)提取累計(jì)貢獻(xiàn)率85%以上的主成分建立回歸模型。
區(qū)間偏最小二乘(interval partial least squares,iPLS)將光譜分成m個(gè)等寬子區(qū)間,在每個(gè)子區(qū)間建立PLS回歸模型。采用留一法[11]計(jì)算交互驗(yàn)證均方根誤差(root mean squared error of cross validation,RMSECV)衡量該區(qū)間包含信息量多少。前向區(qū)間偏最小二乘(forward interval partial least squares,F(xiàn)iPLS)首先將各區(qū)間RMSECV從小到大排序,依次增加區(qū)間并計(jì)算新的留一交叉驗(yàn)證誤差,若誤差降低繼續(xù)增加區(qū)間,若誤差增大停止,所得到的就是篩選出的區(qū)間。用篩選出的區(qū)間建立PLS模型并進(jìn)行預(yù)測(cè),求得平均絕對(duì)百分誤差(mean absolute percent error,MAPE)、均方根誤差(root mean squared error of prediction,RMSEP),并考察預(yù)測(cè)回收率。
由于本文采用的PLS自動(dòng)篩選出累計(jì)貢獻(xiàn)率達(dá)到85%的主成分建立回歸模型,因此FiPLS模型需要調(diào)整的參數(shù)只剩下區(qū)間寬度。
3.1區(qū)間個(gè)數(shù)對(duì)區(qū)間篩選結(jié)果的影響
區(qū)間個(gè)數(shù)(nw)決定了FiPLS的準(zhǔn)確度,本文考察了區(qū)間個(gè)數(shù)從5~100,對(duì)最終預(yù)測(cè)MAPE和RMSEP影響(圖1)。
圖1 區(qū)間個(gè)數(shù)對(duì)MAPE和RMSEP的影響
顯而易見,MAPE和RMSEP對(duì)區(qū)間個(gè)數(shù)變化比較敏感,在一定區(qū)間內(nèi)上下波動(dòng)。當(dāng)nw>60時(shí),MAPE和RMSEP的波動(dòng)變得略寬,出現(xiàn)幾個(gè)小平臺(tái)。這說明區(qū)間個(gè)數(shù)較少時(shí),區(qū)間劃分對(duì)包含信息影響較大,因此MAPE和RMSEP波動(dòng)較大。隨著區(qū)間個(gè)數(shù)的逐漸增多,每個(gè)區(qū)間包含的變量個(gè)數(shù)逐漸減少,區(qū)間個(gè)數(shù)變化對(duì)區(qū)間寬度影響較小,MAPE和RMSEP的波動(dòng)變寬。仔細(xì)考察MAPE和RMSEP,可以發(fā)現(xiàn)MAPE隨nw變化更精細(xì),更能反映nw對(duì)區(qū)間篩選結(jié)果的影響。因此本文選取MAPE確定FiPLS最終結(jié)果。當(dāng)nw=58時(shí),F(xiàn)iPLS結(jié)果最佳,模型獲得的MAPE=0.818,RMSEP=0.0021。
為了進(jìn)一步評(píng)價(jià)模型對(duì)未知樣本的預(yù)測(cè)能力,本文還采用預(yù)測(cè)值與實(shí)際值的相關(guān)系數(shù)r來監(jiān)控模型性能。nw變化對(duì)r的影響見圖2。
從圖2可見,r與MAPE及RMSEP類似,都對(duì)nw變化很敏感。但r變化趨勢(shì)與MAPE及RMSEP并不一致,較低的MAPE或RMSEP并沒有提高預(yù)測(cè)值與實(shí)際值的相關(guān)性,這說明nw對(duì)各樣本預(yù)測(cè)準(zhǔn)確度的影響不一致,較高的相關(guān)性并不能代表較好的預(yù)測(cè)性能。
3.2區(qū)間篩選結(jié)果
當(dāng)nw=58時(shí),F(xiàn)iPLS獲得了最好的預(yù)測(cè)結(jié)果。篩選出的區(qū)間有兩個(gè),分別位于703~729變量區(qū)間及859~885變量區(qū)間(圖3),對(duì)應(yīng)的波數(shù)范圍是6707~6807 cm-1及7309~7409 cm-1。7209~7305 cm-1和6607~6703 cm-1均位于O-H一級(jí)泛頻吸收帶[12]。這進(jìn)一步說明FiPLS可以有效實(shí)現(xiàn)光譜區(qū)間篩選。圖3中用黑色方框表明了篩選出的兩個(gè)區(qū)域,由圖3可見在這兩個(gè)區(qū)域光譜圖有一個(gè)非常平緩的吸收峰出現(xiàn)。經(jīng)過區(qū)間篩選后,光譜包含的點(diǎn)數(shù)從1557減少到54個(gè),可以大大降低建模難度、提高建模速度。
3.3FiPLS結(jié)果
為了詳細(xì)考察FiPLS的預(yù)測(cè)性能,圖4a給出了PLS預(yù)測(cè)結(jié)果分析,圖4b給出了FiPLS結(jié)果分析。
對(duì)真實(shí)值和預(yù)測(cè)值進(jìn)行過原點(diǎn)的線性回歸,結(jié)果表明FiPLS的預(yù)測(cè)結(jié)果優(yōu)于PLS。FiPLS預(yù)測(cè)結(jié)果對(duì)真實(shí)值的線性回歸相關(guān)系數(shù)從0.01005升高到0.0616,回歸標(biāo)準(zhǔn)差基本沒有變化。PLS預(yù)測(cè)值的最高回收率是120.39%,最低回收率是93.89%;而FiPLS預(yù)測(cè)值的最高回收率降低到118.99%,最低回收率提升到94.72%。對(duì)比FiPLS的預(yù)測(cè)結(jié)果和PLS的預(yù)測(cè)結(jié)果可以發(fā)現(xiàn),F(xiàn)iPLS在減少光譜變量數(shù)的同時(shí)也提高了預(yù)測(cè)精度。
圖4 PLS(a)和FiPLS(b)預(yù)測(cè)結(jié)果
本文采用前向區(qū)間偏最小二乘對(duì)煙煤水分近紅外光譜解析進(jìn)行區(qū)間篩選,將光譜變量從1557個(gè)減少到54個(gè),可以大幅降低建模難度,加快建模速度。研究結(jié)果表明,前向區(qū)間偏最小二乘可以準(zhǔn)確提取出水分相關(guān)的兩個(gè)區(qū)間。對(duì)比篩選區(qū)間的預(yù)測(cè)結(jié)果和全光譜結(jié)果,算法在實(shí)現(xiàn)區(qū)間篩選的同時(shí)也可以提高預(yù)測(cè)準(zhǔn)確度。
[1]Ferrari M,Mottola L,Quaresima V.Principles,techniques,and limitations of near infrared spectroscopy [J].Canadian Journal of Applied Physiology,2004,29(4):463-487.
[2]Geladi P,Kowalski BR.Partial least square regression:a tutorial [J].Analytica Chimica Acta,1995,185(1):1-17.
[3]Borggard C,Thodberg H.Optimal minimal neural interpretation of spectra [J].Analytial Chemistry,1992,64(5):545-551.
[4]Vapnik V.The nature of statistical learning theory [J].IEEE Transactions on Neural Networks,1995,10(5):988-999.
[5]Bao JS,Cai YZ,Corke H.Prediction of rice starch quality parameters by near-infrared reflectance spectroscopy [J].Journal of Food Science,2001,66 (7):936-939.
[6]Delwiche SR,Bean MM,Miller RE,et al.Apparent amylose content of milled rice by near-infrared reflectance spectrophotometry [J].Cereal Chemistry,1995,72 (2):182-187.
[7]伍秀玲.煤質(zhì)工業(yè)分析指標(biāo)傳統(tǒng)法與全自動(dòng)工業(yè)分析方法的比較[J].煤質(zhì)技術(shù),2008(4):35-37.
[8]蘇彩珠,陳曉翔,黃文志,等.應(yīng)用NIRS分析技術(shù)快速檢測(cè)煤炭質(zhì)量[J].檢驗(yàn)檢疫科學(xué),2007,17(6):34-35.
[9]盧福潔,韓熹.近紅外光譜分析技術(shù)在煤品質(zhì)快速分析中的應(yīng)用[J].現(xiàn)代科學(xué)儀器,2011(4):43-44.
[10]常宏,李愛啟,王洪偉,等.煤中水分的快速測(cè)定[J].煤質(zhì)技術(shù),2004(2):50-52.
[11]Kearns M,Ron D.Algorithmic stability and sanity-check bounds for leave-one-out cross-validation [J].Neural Computation,1999,11(6):1427-1453.
[12]鄧孺孺,何穎清,秦雁,等.近紅外波段(900-2500nm)水吸收系數(shù)測(cè)量[J].遙感學(xué)報(bào),2012,16(1):199-206.
Determination of Bituminous Coal Moisture Based on FiPLS*
YANG Xiao-li,MA Gong-zhe,CHEN Yun-xiu,WANG Wen-chao,LIU Meng-jiao
(College of Chemistry and Chemical Engineering,Qujing Normal University,Yunnan Qujing 655011,China)
Partial least squares method is a widely used method in near-infrared spectra analysis.When combined with feature selection technique,it can highly improve the predictive ability of the model and reduce its complexity.Interval partial least squares were applied forward to determine bituminous coal moisture with near-infrared spectra.Two intervals were selected which were lied in O-H first universal frequency absorption band.Furthermore,the number of variables reduced from 1557 to 54.Prediction mean absolute percent error reduced from 0.0856 to 0.0818.
bituminous coal;moisture;partial least squares;interval selection
云南省省級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(編號(hào):201310664003);云南省教育廳一般項(xiàng)目(編號(hào):2012Y414);曲靖師范學(xué)院招標(biāo)項(xiàng)目(編號(hào):2011ZB006)。
楊曉麗(1980-),女,副教授,主要從事計(jì)算化學(xué)研究。
TQ015.9
B
1001-9677(2016)04-0026-03