国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

近紅外光譜定量分析的改進(jìn)ELM算法

2016-07-12 12:58張紅光盧建剛
光譜學(xué)與光譜分析 2016年9期
關(guān)鍵詞:共線性性質(zhì)光譜

張紅光,盧建剛

浙江大學(xué)工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310027

近紅外光譜定量分析的改進(jìn)ELM算法

張紅光,盧建剛*

浙江大學(xué)工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310027

極限學(xué)習(xí)機(jī)理論(extreme learning machine, ELM)作為一種新的化學(xué)計(jì)量學(xué)方法,在近紅外光譜定量分析中的應(yīng)用研究,已引起學(xué)術(shù)界的高度重視。然而,由于光譜數(shù)據(jù)維數(shù)較高,建立ELM模型時(shí)需要大量的隱節(jié)點(diǎn),導(dǎo)致隱含層輸出矩陣維數(shù)高且存在高度共線性,用現(xiàn)有的Moore-Penrose廣義逆算法求取隱含層輸出矩陣與待測(cè)性質(zhì)間的回歸模型往往會(huì)存在病態(tài)問(wèn)題?;贓LM建立光譜波長(zhǎng)變量與性質(zhì)之間的回歸模型,提出以ELM模型隱含層輸出矩陣作為新的變量,采用作者最新提出的基于變量投影重要性的改進(jìn)疊加PLS算法(stacked partial least squares regression algorithm based on variable importance in the projection,VIP-SPLS),建立新變量與待測(cè)性質(zhì)間的回歸模型。VIP-SPLS算法充分利用了每個(gè)隱節(jié)點(diǎn)的輸出信息,能有效解決高維共線性問(wèn)題,同時(shí)具有模型集成的優(yōu)點(diǎn),從而改進(jìn)了ELM模型的性能。將提出的改進(jìn)ELM算法(improved ELM,iELM)應(yīng)用于標(biāo)準(zhǔn)近紅外光譜數(shù)據(jù)集,結(jié)果表明iELM模型的精度相對(duì)于現(xiàn)有的PLS模型和ELM模型分別顯著提升了29.06%和27.47%。

近紅外光譜;光譜定量分析;回歸模型;極限學(xué)習(xí)機(jī)(ELM);偏最小二乘(PLS);變量投影重要性(VIP)

引 言

過(guò)去的數(shù)十年內(nèi)近紅外光譜分析技術(shù)已經(jīng)廣泛應(yīng)用于食品、制藥、石化等領(lǐng)域[1-5],原因是其具有快速、無(wú)損、無(wú)需或只需極少樣本預(yù)處理等突出優(yōu)點(diǎn)。然而近紅外光譜分析技術(shù)只能作為一種間接分析技術(shù),這是由于近紅外光譜往往存在背景漂移、噪聲干擾嚴(yán)重、譜帶高度重疊以及信號(hào)弱等問(wèn)題[6],無(wú)法直接從光譜獲取有用信息,需要依賴多元統(tǒng)計(jì)技術(shù)建立定量分析模型才能實(shí)現(xiàn)對(duì)待測(cè)性質(zhì)的測(cè)量。因而多元統(tǒng)計(jì)分析技術(shù)一直是近紅外光譜分析領(lǐng)域的重要研究?jī)?nèi)容,也得到了諸多學(xué)者的關(guān)注[7]。目前,已經(jīng)有很多方法應(yīng)用于近紅外光譜定量分析,包括多元線性回歸(MLR)、主成分回歸(PCR)、偏最小二乘回歸(PLS)、神經(jīng)網(wǎng)絡(luò)(ANN)[8]和支持向量機(jī)(SVM)[9]等,其中PLS應(yīng)用最為廣泛。

PLS是一種線性方法,只能建立光譜響應(yīng)與待測(cè)性質(zhì)間的線性定量模型[10]。當(dāng)近紅外光譜響應(yīng)與待測(cè)性質(zhì)間存在非線性時(shí),PLS模型性能往往不是很理想,有時(shí)甚至無(wú)法滿足應(yīng)用需求。為了克服近紅外光譜的非線性問(wèn)題,一些非線性建模方法,如ANN、SVM、相關(guān)向量機(jī)(RVM)[11]以及高斯過(guò)程回歸(GPR)[12]已經(jīng)被成功應(yīng)用于近紅外光譜分析之中。目前,探索和發(fā)現(xiàn)適用于近紅外光譜分析的新的建模方法仍是研究熱點(diǎn)。極限學(xué)習(xí)機(jī)(ELM)[13-14]是近些年興起的一種機(jī)器學(xué)習(xí)方法,其主要優(yōu)點(diǎn)包括容易使用、計(jì)算量小、具有優(yōu)異的泛化性能等。ELM只需隨機(jī)配置隱層節(jié)點(diǎn)的參數(shù)(輸入權(quán)重和偏置),然后利用Moore-Penrose廣義逆求取隱含層輸出與待測(cè)性質(zhì)間的權(quán)值。ELM已經(jīng)成功應(yīng)用于很多場(chǎng)合,也已經(jīng)被作為一種新的化學(xué)計(jì)量方法成功應(yīng)用于近紅外光譜分析之中[15-17]。

在ELM模型中,輸入變量經(jīng)過(guò)激發(fā)函數(shù)映射成隱含層輸出矩陣,下一步實(shí)質(zhì)是利用最小二乘方法建立隱含層輸出與待測(cè)性質(zhì)間的線性回歸模型。但近紅外光譜數(shù)據(jù)往往有成百上千的光譜變量,建立ELM模型時(shí),往往需要很多隱節(jié)點(diǎn),這將導(dǎo)致隱含層輸出矩陣存在維數(shù)高和高度共線性的問(wèn)題,此時(shí)用Moore-Penrose廣義逆求取隱含層輸出與待測(cè)性質(zhì)間的回歸模型效果會(huì)不甚理想,這點(diǎn)可從近紅外光譜建模方法的發(fā)展中得到結(jié)論。近紅外光譜由于其維數(shù)高,直接用最小二乘建立的回歸模型效果很差,所以目前已經(jīng)不用最小二乘方法建立近紅外光譜分析模型?;谧兞客队爸匾缘母倪M(jìn)疊加PLS(VIP-SPLS)是我們課題組近期提出的一種新的近紅外光譜建模方法,該方法首先基于變量的投影重要性(VIP)[18]對(duì)光譜變量排序,然后利用疊加PLS[19]方法對(duì)排序后的光譜數(shù)據(jù)建立多個(gè)子模型,通過(guò)子模型集成得到最終的模型。前期研究結(jié)果表明VIP-SPLS能充分利用每個(gè)光譜變量信息,能有效處理高維共線性問(wèn)題,同時(shí)具有模型集成優(yōu)點(diǎn)且已成功應(yīng)用于近紅外光譜分析之中。

因此,利用VIP-SPLS方法取代Moore-Penrose廣義逆,建立ELM模型中隱含層輸出與待測(cè)性質(zhì)間的回歸模型,從而解決ELM應(yīng)用于近紅外光譜分析建模時(shí)存在的高維數(shù)和高度共線性問(wèn)題,實(shí)現(xiàn)對(duì)ELM模型性能的改進(jìn)。最后將所提出方法應(yīng)用于一組標(biāo)準(zhǔn)近紅外光譜數(shù)據(jù)集,以實(shí)驗(yàn)驗(yàn)證該方法的有效性。

1 原理與算法

1.1 極限向量機(jī)(ELM)

ELM是一種新的單隱層前饋神經(jīng)網(wǎng)絡(luò)算法,由Huang等提出[13-14]。其核心是隨機(jī)初始化輸入變量與隱節(jié)點(diǎn)間的連接權(quán)值和偏置,然后通過(guò)最小二乘方法求取隱含層輸出矩陣與待測(cè)性質(zhì)間的權(quán)值,其數(shù)學(xué)表達(dá)形式如下所示

(1)

這里fP(xj)是ELM模型對(duì)樣本xj的預(yù)測(cè)值;P代表ELM模型隱節(jié)點(diǎn)個(gè)數(shù);ai和bi表示隱節(jié)點(diǎn)的學(xué)習(xí)參數(shù);βi(i=1, 2, 3,…,P)表示隱含層第i個(gè)節(jié)點(diǎn)到輸出層的連接權(quán)值;g(ai,bi,xj)表示第i個(gè)隱節(jié)點(diǎn)與輸入xj的關(guān)系,稱之為激發(fā)函數(shù),ELM算法中最常用的的激發(fā)函數(shù)是Sigmoid函數(shù),如下

(2)

建立ELM模型時(shí),先用激發(fā)函數(shù)g(ai,bi,xj)將校正集X映射為隱含層輸出矩陣H

(3)

則H與待測(cè)性質(zhì)Y之間的關(guān)系如下所示

Hβ=Y

(4)

可以求得隱含層輸出權(quán)值β,如下式所示

β=H+Y

(5)

這里H+表示H的Moore-Penrose廣義逆。

1.2 基于變量投影重要性的改進(jìn)疊加PLS算法(VIP-SPLS)

VIP-SPLS算法的核心思想是先將光譜數(shù)據(jù)集X按照光譜變量的VIP值從大到小排序得到重排后光譜數(shù)據(jù)集Xsorted。光譜變量的VIP值能夠體現(xiàn)該變量在預(yù)測(cè)待測(cè)性質(zhì)過(guò)程中的重要性[18],其求取依賴于PLS模型的建立,具體的計(jì)算公式見式(6)

(6)

這里n是光譜變量個(gè)數(shù),wja是第j個(gè)光譜變量在第a個(gè)PLS主成分中的負(fù)載權(quán)重,ta,wa和qa分別是PLS模型中光譜變量得分矩陣,載荷矩陣和待測(cè)性質(zhì)得分矩陣的第a列?;赩IP的光譜變量選擇方法通常遵循“大于1”的原則,即如果光譜變量的VIP值大于1則認(rèn)為該變量是很重要的應(yīng)該被選中。

當(dāng)所有的光譜變量都按照VIP值從大到小排序之后得到重排后光譜數(shù)據(jù)集Xsorted,基于Xsorted建立疊加PLS模型(stacked PLS, SPLS),方法是將Xsorted等分成多個(gè)子區(qū)間,基于每個(gè)子區(qū)間建立一個(gè)PLS模型,稱為子模型。每個(gè)子模型通過(guò)交叉驗(yàn)證建立最優(yōu)模型并得到交叉驗(yàn)證均方根誤差(RMSECV)?;诿總€(gè)子模型的RMSECV,得到每個(gè)子模型的疊加權(quán)重Wk

(7)

其中sk是第k個(gè)子模型的RMSECV的倒數(shù)。對(duì)未知樣本進(jìn)行預(yù)測(cè)時(shí),基于每個(gè)子模型的預(yù)測(cè)值yk和其對(duì)應(yīng)的疊加權(quán)重Wk,得到未知樣本的最終預(yù)測(cè)值

(8)

這里M表示疊加PLS模型中子模型個(gè)數(shù),即子區(qū)間個(gè)數(shù),可以通過(guò)交叉驗(yàn)證獲得最優(yōu)子區(qū)間個(gè)數(shù)M。

1.4 基于VIP-SPLS的改進(jìn)ELM(iELM)

近紅外光譜數(shù)據(jù)集通常包含成百上千的變量,用ELM建立近紅外光譜定量模型時(shí),往往需要很多隱節(jié)點(diǎn),這就導(dǎo)致隱含層輸出矩陣維數(shù)高且高度共線性。通常ELM模型中采用的Moore-Penrose廣義逆方法并不適用于高維共線性的回歸問(wèn)題,考慮到VIP-SPLS算法能夠建立精確的近紅外光譜定量模型,因而嘗試用VIP-SPLS算法替代Moore-Penrose廣義逆方法,建立ELM隱含層輸出矩陣與待測(cè)性質(zhì)間的回歸模型,最終得到適用于近紅外光譜定量分析的改進(jìn)ELM模型,稱之為iELM模型。

iELM模型的建立步驟如圖1所示。

2 實(shí)驗(yàn)部分

2.1 樣本數(shù)據(jù)集

為了驗(yàn)證iELM建模方法的有效性,將其應(yīng)用于一組經(jīng)常使用的標(biāo)準(zhǔn)近紅外光譜數(shù)據(jù)集。該數(shù)據(jù)集是小麥的近紅外透射光譜,用來(lái)檢測(cè)小麥的蛋白質(zhì)含量。每條樣本光譜包含100個(gè)波長(zhǎng)點(diǎn),范圍是850~1 050 nm。該數(shù)據(jù)集是公開的,可以從http://www.models.life.ku.dk/wheat_kernels網(wǎng)站下載。該數(shù)據(jù)集共有523個(gè)樣本,已經(jīng)被分成一組包含415個(gè)樣本的校正集和一組包含108個(gè)樣本的測(cè)試集。本文中所有程序均采用Matlab 7.1 編寫,在Windows 7環(huán)境下運(yùn)行,其中ELM工具箱下載自Huang的主頁(yè):http://www.ntu.edu.sg/home/egbhuang/elm_codes.html。

圖1 iELM模型建立流程圖

2.2 模型性能評(píng)價(jià)

將iELM模型與PLS模型和常規(guī)ELM模型進(jìn)行比較,以驗(yàn)證iELM模型的有效性,模型性能評(píng)價(jià)指標(biāo)是預(yù)測(cè)均方根誤差(RMSEP),其定義如下

(9)

3 結(jié)果與討論

首先建立PLS模型和ELM模型,經(jīng)過(guò)交叉驗(yàn)證可以確定PLS模型的最優(yōu)主成分個(gè)數(shù)是11,ELM模型最優(yōu)隱節(jié)點(diǎn)個(gè)數(shù)是100。PLS模型和ELM模型的預(yù)測(cè)結(jié)果見表1,其中PLS模型的RMSEP是0.703 7,而ELM模型的RMSEP是0.688 3??梢奅LM模型性能相對(duì)優(yōu)于PLS模型,也驗(yàn)證了ELM模型用于近紅外光譜定量分析的可行性。從這里也可以看出,當(dāng)ELM模型用于近紅外光譜定量分析時(shí),由于光譜數(shù)據(jù)往往包含成百上千的光譜變量,ELM模型需要的隱節(jié)點(diǎn)個(gè)數(shù)會(huì)比較多,這就導(dǎo)致ELM模型隱含層輸出矩陣存在著維度高和高度共線性問(wèn)題。因此為了進(jìn)一步提高ELM模型的精度,在已有ELM模型的基礎(chǔ)上,以ELM模型的隱含層輸出矩陣作為新的光譜變量,然后再用VIP-SPLS方法建立新的光譜變量和待測(cè)性質(zhì)間的回歸模型,最終得到iELM模型。經(jīng)過(guò)交叉驗(yàn)證,得到iELM模型中的VIP-SPLS模型的最優(yōu)子模型個(gè)數(shù)是2,即將排序后的ELM模型隱含層輸出矩陣等分成兩段間隔,每段間隔包含50個(gè)隱節(jié)點(diǎn)的輸出。同時(shí)也可以得到每個(gè)子模型的最優(yōu)主成分個(gè)數(shù)分別是29和26,每個(gè)子模型的權(quán)重如圖2所示, 從圖中可以發(fā)現(xiàn),以第1段間隔建立的子模型的權(quán)重更高,這是因?yàn)榈?段間隔包含的變量的VIP值更大,對(duì)待測(cè)性質(zhì)的預(yù)測(cè)更為重要,因而以這些變量建立的子模型對(duì)最終模型的貢獻(xiàn)更大。最終得到的iELM模型的預(yù)測(cè)性能見表1,其中iELM模型的RMSEP值是0.4992,相對(duì)于PLS模型和ELM模型,性能分別提升了29.06%和27.47%??梢娨肓薞IP-SPLS方法后,ELM模型隱含層輸出矩陣存在的高維度和高度共線性問(wèn)題得到了有效的解決,使得ELM模型的性能得到了顯著的改善,最終得到的iELM模型性能顯著優(yōu)于PLS模型和ELM模型。

表1 3種模型的性能的對(duì)比

圖2 iELM模型中VIP-SPLS模型的各子模型的權(quán)重值

Fig.2 Weight distribution of the sub-models in VIP-SPLS model incorporated in iELM model

圖3 三種模型對(duì)測(cè)試集的預(yù)測(cè)值與真實(shí)值的對(duì)比

為了進(jìn)一步比較PLS, ELM和iELM這三種模型的性能,圖3分別給出了三種模型的預(yù)測(cè)值與真實(shí)值間的相關(guān)性。

從圖中可以明顯看出iELM模型的預(yù)測(cè)值與真實(shí)值相關(guān)性最高,而且顯著優(yōu)于PLS模型和ELM模型,進(jìn)一步驗(yàn)證了本法的有效性。

4 結(jié) 論

提出了一種用于近紅外光譜定量分析的改進(jìn)ELM算法。該方法利用VIP-SPLS方法代替原ELM算法中的Moore-Penrose廣義逆方法,建立ELM模型的隱含層輸出矩陣與待測(cè)性質(zhì)間的回歸模型,最終得到改進(jìn)的ELM模型。由于近紅外光譜數(shù)據(jù)包含的光譜變量點(diǎn)數(shù)較多,當(dāng)ELM模型用于近紅外光譜定量分析時(shí),ELM模型需要較多的隱節(jié)點(diǎn),造成ELM模型的隱含層輸出矩陣存在著維度高和高度共線性的問(wèn)題,而VIP-SPLS方法能夠有效解決高維度和高度共線性的問(wèn)題,同時(shí)能充分利用每個(gè)變量的信息和具有模型集成的優(yōu)點(diǎn),因而將VIP-SPLS引入到ELM模型中,能夠改善應(yīng)用于近紅外光譜定量分析的ELM模型的性能。最后將所提出方法應(yīng)用于一組標(biāo)準(zhǔn)近紅外光譜數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明改進(jìn)ELM模型性能顯著優(yōu)于PLS模型和ELM模型,驗(yàn)證了本方法的有效性。

[1] Sinija V R, Mishra H N.LWT- Food Science and Technology, 2009, 42: 998.

[2] ZHANG Hong-guang, YANG Qin-min, LU Jian-guang, et al(張紅光,楊秦敏,盧建剛,等).Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2014, 34(4): 972.

[3] Li P, Du G R, Cai W S, et al.Journal of Pharmaceutical and Biomedical Analysis, 2012, 70: 288.

[4] Balabin R M, Safieva R Z.Analytica Chimica Acta, 2011, 689: 190.

[5] Zhang H G, Yang Q M, Lu J G.Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2014, 120: 625.

[6] Shao X G, Du G R, Jing M, et al.Chemometrics and Intelligent Laboratory Systems, 2012, 114: 44.

[7] Shao X G, Bian X H, Liu J J, et al.Analitical Methods, 2010, 11: 1662.

[8] Wythoff B J.Chemometrics and Intelligent Laboratory Systems, 1993, 18: 115.

[9] Li H D, Liang Y Z, Xu Q S.Chemometrics and Intelligent Laboratory Systems, 2009, 95: 188.

[10] Geladi P, Kowalski B R.Analytica Chimica Acta, 1986, 185: 1.

[11] Hernández N, Talavera I, Dago A, et al.Journal of Chemometrics, 2008, 22(11): 686.

[12] Chen T, Morris J, Martin E.Chemometrics and Intelligent Laboratory Systems, 2007, 87: 59.

[13] Huang G B, Zhu Q Y, Siew C K.Neurocomputing, 2006, 70: 489.

[14] Huang G B, Zhou H M, Ding X J, et al.Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on, 2012, 42: 513.

[15] Ouyang Q, Chen Q S, Zhao J W, et al.Food and Bioprocess Technology, 2012, 7: 1.

[16] Chen Q S, Ding J, Cai J R, et al.Food Chemistry, 2012, 135: 590.

[17] Jiang H, Zhu W X.Food Analytical Methods, 2013, 6: 569.

[18] Afanadora N L, Tranb T N, Buydensc L M C.Analytica Chimica Acta, 2013, 768: 49.

[19] Ni W D, Brown S D, Man R L.Journal of Chemometrics, 2009, 23(10): 505.

(Received Mar.30, 2015; accepted Jul.19, 2015)

*Corresponding author

An Improved ELM Algorithm for Near Infrared Spectral Quantitative Analysis

ZHANG Hong-guang, LU Jian-gang*

State Key Laboratory of Industrial Control Technology, Zhejiang University, Hangzhou 310027, China

Extreme learning machine (ELM) has been applied in near infrared spectral analysis as a novel chemometric method which attracted the attentions of various researchers.However, the dimension of spectral data is usually very high while more hidden nodes should be incorporated in original ELM model for spectral data.Thus the problems of high dimension and high colinearity in the output matrix of hidden layer of ELM model are inevitable.The solutions obtained with the existing Moore-Penrose generalized inverse can be ill-conditional due to the high dimension and high colinearity in the hidden layer output matrix.This study aims to propose an improved ELM to build spectral regression model.The proposed method firstly uses extreme learning machine (ELM) to relate spectral variables to response variable; then the output of each hidden node are treated as new variables; VIP-SPLS ( improved stacked PLS based on variable importance in the projection) proposed by our group recently is used to build the regression model between those new variables and the response variable.In this paper, this method is called as improved ELM (iELM).VIP-SPLS model can fully utilize the output information of each hidden node and can effectively solve the problems of high dimension and high colineariy.At the same time, VIP-SPLS also has the advantage of model ensemble.Therefore, the performance of ELM model used for spectral data can be improved if the VIP-SPLS is incorporated to relate the hidden layer output matrix and response variable.The proposed method is applied to a commonly used benchmark NIR spectral data for evaluation.The results demonstrate that the precision improvement of iELM model is 29.06% to PLS model and 27.47% to original ELM model, respectively.

Spectral quantitative analysis; Regression model; Extreme learning machine (ELM); Partial least square (PLS); Near infrared spectroscopy; Variable importance in the projection (VIP)

2015-03-30,

2015-07-19

國(guó)家(973計(jì)劃)項(xiàng)目(2012CB720500),國(guó)家自然科學(xué)基金項(xiàng)目(61590925,U1509211)資助

張紅光,1987年生,浙江大學(xué)控制系博士研究生 e-mail:hgzhang@iipc.zju.edu.cn *通訊聯(lián)系人 e-mail:jglu@iipc.zju.edu.cn

O657.3

A

10.3964/j.issn.1000-0593(2016)09-2784-05

猜你喜歡
共線性性質(zhì)光譜
基于三維Saab變換的高光譜圖像壓縮方法
隨機(jī)變量的分布列性質(zhì)的應(yīng)用
高光譜遙感成像技術(shù)的發(fā)展與展望
南瓜SWEET蛋白家族的全基因組鑒定與進(jìn)化分析
銀行不良貸款額影響因素分析
完全平方數(shù)的性質(zhì)及其應(yīng)用
九點(diǎn)圓的性質(zhì)和應(yīng)用
不完全多重共線性定義存在的問(wèn)題及其修正建議
我國(guó)壽險(xiǎn)需求影響因素的嶺回歸分析
厲害了,我的性質(zhì)