焦 亮,林 敏,劉輝軍,胡曉峰
?
JADE結(jié)合ELA鑒別砂梨成熟度的共享性模型
焦 亮,林 敏,劉輝軍,胡曉峰
(中國(guó)計(jì)量大學(xué) 計(jì)量測(cè)試工程學(xué)院,浙江 杭州 310018)
提出了特征矩陣聯(lián)合對(duì)角化(JADE)結(jié)合超限學(xué)習(xí)機(jī)(ELM)的穩(wěn)健建模方法,并應(yīng)用于砂梨成熟度的鑒別。砂梨近紅外光譜是多種獨(dú)立化合物光譜信號(hào)的隨機(jī)線性混合,首先采用多元散射校正和小波變換去除原始光譜噪聲,再利用JADE提取獨(dú)立光譜,得到包含獨(dú)立化合物濃度信息的混合矩陣;隨后使用ELM算法,通過(guò)調(diào)節(jié)隱層節(jié)點(diǎn)個(gè)數(shù)建立穩(wěn)健性強(qiáng)的成熟度鑒別模型。JADE利用高階累積量全面提取原始光譜的幅值、相位信息,降低不同化合物之間的光譜干擾,而ELM隱層節(jié)點(diǎn)參數(shù)隨機(jī)生成,兩者的有機(jī)結(jié)合可使所建模型穩(wěn)健性強(qiáng),有利于模型的傳遞與共享。該方法應(yīng)用于砂梨4種不同成熟度的鑒別,所建模型預(yù)測(cè)準(zhǔn)確率為96.67%。
JADE;ELM;近紅外光譜;砂梨成熟度;穩(wěn)健建模
近紅外光譜技術(shù)是一種高效的無(wú)損方法,已經(jīng)廣泛應(yīng)用于農(nóng)業(yè)、工業(yè)等領(lǐng)域。學(xué)者們使用主成分分析(Principal Component Analysis, PCA)、偏最小二乘(Partial Least Squares, PLS)方法分析芒果、鱷梨[1-2]中可溶性固形物、干物質(zhì)的含量,成功鑒別果實(shí)成熟度。傳統(tǒng)分析方法(PCA、PLS等)是利用輸入數(shù)據(jù)的二階統(tǒng)計(jì)量,根據(jù)信號(hào)幅度的變化分析數(shù)據(jù),容易出現(xiàn)原始數(shù)據(jù)特征信息丟失、流形結(jié)構(gòu)被破壞、數(shù)據(jù)分類性能下降等問(wèn)題,使所建模型穩(wěn)定性較弱,不利于校正模型的轉(zhuǎn)移與共享。校正模型的轉(zhuǎn)移與共享能夠大幅節(jié)省建模所需的經(jīng)濟(jì)成本,是目前研究熱點(diǎn)之一,建立一個(gè)穩(wěn)健性強(qiáng),分析精度高,適用范圍廣的校正模型是模型傳遞與共享的基礎(chǔ)[3]。近紅外光譜技術(shù)對(duì)有效光譜信息的提取仍存在很多難點(diǎn),如光譜復(fù)雜重疊,冗余信息量大,有效信息強(qiáng)度低等,且有效的光譜信息不僅存在于信號(hào)幅度中,更多存在于整個(gè)波形,需要使用高階統(tǒng)計(jì)分析,以得到非高斯分布和非線性信息。如水果成熟過(guò)程中可溶性固形物、水分、酸度等的含量會(huì)發(fā)生變化[4]等,水果的近紅外光譜可視為獨(dú)立化合物基本光譜的隨機(jī)線性組合,若將這些基本光譜組合方式的信息從原始光譜中提取出來(lái),直接用于建立模型,對(duì)于模型的共享將大有裨益,特征矩陣聯(lián)合近似對(duì)角化(Joint Approximative Diagona- lization of Eigenmatri,JADE)就是一種有效方法。
JADE是盲源信號(hào)分離(Blind Source Separation, BSS)的一種,以高階統(tǒng)計(jì)量為基礎(chǔ)[5],在源信號(hào)與混合通道參數(shù)均未知的情況下,提取具有統(tǒng)計(jì)獨(dú)立性質(zhì)的信號(hào)。Cardoso提出了特征矩陣聯(lián)合近似對(duì)角化算法,對(duì)各種盲信號(hào)都具有較好的提取作用,是一種數(shù)值穩(wěn)定,魯棒性強(qiáng)的代數(shù)獨(dú)立分量分析(Independent Component Analysis, ICA)方法,在信號(hào)分析的速度與精度上存在優(yōu)勢(shì)。已有學(xué)者將盲源信號(hào)提取應(yīng)用于光譜數(shù)據(jù)處理領(lǐng)域,分解復(fù)雜樣品的原始光譜,王功明[6]等針對(duì)紅外光譜的黑色體系分析,利用快速ICA算法從顏料的混合光譜中提取出了基本顏料的光譜,Mishra[7]等應(yīng)用高光譜技術(shù)結(jié)合JADE算法,提取花生粉和小麥粉譜圖中獨(dú)立成分并對(duì)其重構(gòu),實(shí)現(xiàn)了摻假樣品的鑒別。
超限學(xué)習(xí)機(jī)算法[8](Extreme Learning Machine,ELM)是一種新型神經(jīng)網(wǎng)絡(luò)算法,它能夠有效克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)選取復(fù)雜、易陷入局部最優(yōu)等問(wèn)題,只需設(shè)置隱層節(jié)點(diǎn)數(shù)就可獲得唯一的最優(yōu)解。利用JADE分解光譜數(shù)據(jù),得到獨(dú)立化合物的濃度信息,降低基本光譜之間的干擾,能夠提高后續(xù)分類算法的精度,ELM隨機(jī)生成神經(jīng)元,網(wǎng)絡(luò)穩(wěn)定性強(qiáng),適用于模型轉(zhuǎn)移。
本文提出JADE結(jié)合ELM算法,應(yīng)用于砂梨成熟度的鑒別。首先使用多元散射校正和小波變換對(duì)原始光譜預(yù)處理,去除光譜噪聲并對(duì)光譜數(shù)據(jù)有效壓縮,以減少模型計(jì)算量,然后用JADE算法分解原始光譜,得到與獨(dú)立化合物濃度有關(guān)的混合矩陣,最后將混合矩陣作為神經(jīng)網(wǎng)絡(luò)輸入,樣品成熟度作為網(wǎng)絡(luò)輸出,建立JADE結(jié)合ELM的成熟度鑒別模型。
JADE的特點(diǎn)是引入了多變量數(shù)據(jù)的四階累積量矩陣,并作特征分解[9-10]。JADE算法可從混合信號(hào)中恢復(fù)各個(gè)未知源信號(hào),有助于灰、黑色體系的數(shù)據(jù)分析。使用該算法需要滿足以下前提:在忽略系統(tǒng)噪聲情況下,各個(gè)未知源信號(hào)相互統(tǒng)計(jì)獨(dú)立且服從非高斯分布;混合數(shù)據(jù)矩陣為可逆矩陣。鮮果樣品可視為由多種化合物組成的混合體,樣品的近紅外光譜為化合物基本光譜的疊加組合,它們之間符合統(tǒng)計(jì)獨(dú)立的條件,將未知近紅外光譜體系表示成各化學(xué)成分的單組化學(xué)信號(hào)與其濃度的乘積,即:
=(1)
式中:表示實(shí)驗(yàn)中獲取的近紅外光譜矩陣;表示獨(dú)立化合物的濃度矩陣;表示獨(dú)立化合物基本光譜矩陣。因此選取適當(dāng)?shù)莫?dú)立化合物個(gè)數(shù),即JADE算法中的獨(dú)立分量數(shù),可以將光譜中統(tǒng)計(jì)獨(dú)立的本征變量提取出來(lái),從而摒棄光譜中冗余信息,達(dá)到降低建模難度,簡(jiǎn)化模型的效果。
當(dāng)忽略系統(tǒng)噪聲時(shí),JADE算法的數(shù)學(xué)表達(dá)式為:
=(2)
將這個(gè)模型應(yīng)用于近紅外光譜提取時(shí),式(2)中矩陣(n×k)為近紅外光譜信號(hào)矩陣,包含個(gè)樣品、個(gè)光譜點(diǎn),矩陣(n×m)為混合矩陣,表示了獨(dú)立光譜的疊加混合權(quán)重,矩陣(m×k)為潛在獨(dú)立分量矩陣,包含個(gè)獨(dú)立分量。的某一行等價(jià)某種符合統(tǒng)計(jì)獨(dú)立的化合物基本光譜,的某一列等價(jià)矩陣中基本光譜在不同樣品中的權(quán)重值。需要指出的是,JADE提取的獨(dú)立分量是一種符合統(tǒng)計(jì)獨(dú)立的分量,與實(shí)際的化學(xué)成分基本光譜未必吻合,需要選取獨(dú)立分量數(shù),提取反映完整光譜信息的混合矩陣,用于建立可靠的近紅外校正模型。
超限學(xué)習(xí)機(jī)是由Huang等提出的一種針對(duì)單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFNs)的新算法[11],它突破傳統(tǒng)人工學(xué)習(xí)方法的局限,更加向人腦學(xué)習(xí)方式靠攏。
一個(gè)具有個(gè)隱含層節(jié)點(diǎn)的單隱層前饋神經(jīng)網(wǎng)絡(luò)的輸出可以用式(3)來(lái)表示:
式中:a和b表示隱含層節(jié)點(diǎn)的學(xué)習(xí)參數(shù);=[1,2, …,]表示隱含層第個(gè)節(jié)點(diǎn)到輸出層的連接權(quán)值;(a, b,)表示第個(gè)隱含層節(jié)點(diǎn)與輸入的關(guān)系。若設(shè)激活函數(shù)為(),則有:
(a, b,)=(ax+b) (4)
任意選取個(gè)樣本(x,t)∈R×R,這里x,∈R為輸入,t∈R為目標(biāo)輸出。如果一個(gè)具有個(gè)隱含層節(jié)點(diǎn)SLFNs能以接近于0的誤差來(lái)逼近這個(gè)樣本,則存在,a和b有:
簡(jiǎn)化為:
=(6)
式中:被稱作網(wǎng)絡(luò)的隱含層輸出矩陣,隱含層節(jié)點(diǎn)數(shù)通常比訓(xùn)練樣本數(shù)小,因此訓(xùn)練誤差雖不能精確到零,但可使訓(xùn)練誤差逼近于零。輸出權(quán)值可以由下式得到:
式中:+表示隱含層輸出矩陣的Moore-Penrose廣義逆。
ELM證明了神經(jīng)元的生成可以獨(dú)立于訓(xùn)練樣本和其他節(jié)點(diǎn),隱含層連接權(quán)值和隱含層神經(jīng)元閾值根據(jù)激勵(lì)函數(shù)隨機(jī)設(shè)定,不需要調(diào)整。它具有學(xué)習(xí)速度快、泛化能力強(qiáng)等優(yōu)點(diǎn),適用于高維近紅外光譜數(shù)據(jù)的分類。
使用JADE結(jié)合ELM建模主要步驟如下:①對(duì)原始光譜使用傳統(tǒng)方法預(yù)處理,去除光譜噪聲;去除與樣品性質(zhì)缺乏相關(guān)關(guān)系的信息,壓縮光譜并使光譜數(shù)據(jù)更加符合JADE算法的要求;②采用JADE算法對(duì)預(yù)處理后的光譜分解,選擇適當(dāng)獨(dú)立分量數(shù),得到混合矩陣和獨(dú)立分量矩陣;③混合矩陣和樣品特征矩陣作為模型輸入,采用ELM算法建立分類模型,需改變隱層節(jié)點(diǎn)數(shù),得到可靠的模型。采用JADE-ELM建立成熟度鑒別模型時(shí),以模型的分類準(zhǔn)確率和預(yù)測(cè)分類準(zhǔn)確率為指標(biāo),分類準(zhǔn)確率接近100%為宜。分類準(zhǔn)確率定義如下:
光譜采集使用德國(guó)蔡司公司的MCS600陣列式光纖光譜儀,掃描范圍為450~1650nm。采譜后數(shù)據(jù)處理軟件為MATLAB R2013a。
砂梨樣本收集自某標(biāo)準(zhǔn)化商業(yè)果園。為保證果實(shí)成熟度準(zhǔn)確性,選擇果園內(nèi)果樹樹勢(shì)、管理水平相同的果實(shí),于8月7號(hào)開始采樣,采樣間隔為7天,共進(jìn)行4次,挑選大小一致,無(wú)病蟲害和無(wú)機(jī)械損傷的果實(shí),采后于實(shí)驗(yàn)室(避光,23℃)保存?zhèn)溆?,分別得到七成熟、八成熟、九成熟和全熟樣品共420個(gè),分別記為成熟度類別Ⅰ、Ⅱ、Ⅲ、Ⅳ。
本文用Kennard-Stone算法劃分420個(gè)樣品,為使4種成熟度樣品均勻分布在訓(xùn)練集、驗(yàn)證集和預(yù)測(cè)集中,以保證樣品集的合理性和代表性。訓(xùn)練集用于建立模型,驗(yàn)證集用于模型參數(shù)優(yōu)化,預(yù)測(cè)集用于模型可靠性檢驗(yàn)。訓(xùn)練集有240個(gè)樣品,驗(yàn)證集有120個(gè)樣品,預(yù)測(cè)集有60個(gè)樣品。4種成熟度樣品的劃分情況如表1所示。
表1 Kennard-Stone算法劃分樣本集結(jié)果
每次采收的果實(shí)放置24h后采集光譜,攝譜范圍為果實(shí)赤道上均勻分布3點(diǎn),取3次的光譜平均值作為樣品原始光譜。圖1為4種不同成熟度樣品的漫反射光譜圖。圖1可見(jiàn),不同成熟度樣品的原始光譜存在差異,但光譜重疊嚴(yán)重,相似度很高,說(shuō)明建立成熟度判別模型具有實(shí)際意義。
圖1 不同成熟度砂梨的光譜圖
原始光譜中包含電噪聲、樣品背景和雜散光等無(wú)關(guān)信息,同時(shí),近紅外光譜信息重疊嚴(yán)重,利用全波段進(jìn)行建模分析時(shí),光譜中的大量冗余信息會(huì)增加模型的復(fù)雜性,甚至影響預(yù)測(cè)精度,為減弱或消除各種干擾因素對(duì)校正模型性能的影響,需要對(duì)原始光譜預(yù)處理。經(jīng)過(guò)多種預(yù)處理方法(平滑、一階和二階求導(dǎo)、多元散射校正、小波變換)的比較,首先使用多元散射校正消除原始光譜的基線漂移,然后使用離散小波變換壓縮光譜數(shù)據(jù),選取DB2小波基函數(shù),進(jìn)行5層小波分解。
預(yù)處理后的光譜,已經(jīng)基本去除噪聲,使光譜數(shù)據(jù)更接近JADE算法的要求,有利于提取獨(dú)立成分的準(zhǔn)確性。使用JADE算法分解光譜,考察不同獨(dú)立分量個(gè)數(shù)對(duì)模型的結(jié)果影響。本文將獨(dú)立分量數(shù)初始值設(shè)為3,以1為步長(zhǎng)增加至25,模型其他參數(shù)固定不變,比較分類準(zhǔn)確率,獨(dú)立分量數(shù)與分類準(zhǔn)確率的關(guān)系如圖2所示,可以看出,獨(dú)立分量數(shù)增加過(guò)程中,分類準(zhǔn)確率逐漸增大,在數(shù)值達(dá)到12以后準(zhǔn)確率趨于平坦,獨(dú)立分量增多模型計(jì)算量隨之增大,因此選擇最佳獨(dú)立分量數(shù)為12。
圖2 獨(dú)立分量個(gè)數(shù)(3~25)對(duì)訓(xùn)練集分類準(zhǔn)確率的影響
以JADE分解后得到的混合矩陣和樣品成熟度作為輸入,使用超限學(xué)習(xí)機(jī)算法建立初始ELM分析模型。本文先分別選取“Sigmoidal”、“Sine”和“Hardlim”函數(shù)作為ELM模型隱含層激勵(lì)函數(shù)。經(jīng)過(guò)多次試驗(yàn)得到,“Sigmoidal”函數(shù)可獲得較穩(wěn)定的模型,具有較高判別精度。隱層節(jié)點(diǎn)數(shù)對(duì)模型的分類識(shí)別性能至關(guān)重要,本文將隱層節(jié)點(diǎn)數(shù)初始化設(shè)定為10,并以5為步長(zhǎng)依次增加至50,在各隱層節(jié)點(diǎn)數(shù)取值下重復(fù)訓(xùn)練20次,得到最佳模型參數(shù)為25,此時(shí)訓(xùn)練集分類準(zhǔn)確率為97.92%。
通過(guò)訓(xùn)練集建立JADE-ELM模型,使用驗(yàn)證集樣品對(duì)模型參數(shù)優(yōu)化,選擇獨(dú)立分量數(shù)為10,隱層節(jié)點(diǎn)數(shù)為25。將預(yù)測(cè)集樣品原始光譜導(dǎo)入模型,對(duì)預(yù)測(cè)集60個(gè)樣品分析,得到每種樣品的分類判別情況如表2所示,表中可見(jiàn),僅相鄰成熟度(II、III成熟類別)樣品出現(xiàn)2個(gè)誤判,可能原因是果實(shí)樣品在生長(zhǎng)過(guò)程中營(yíng)養(yǎng)缺乏或過(guò)剩,導(dǎo)致其有機(jī)物含量與同時(shí)期其他果實(shí)存在差異。分類模型分類最佳準(zhǔn)確率達(dá)到96.67%,模型可靠,能夠滿足實(shí)際商業(yè)需求。
收集同批次未知樣品,采集光譜并導(dǎo)入模型,模型輸出即樣品成熟度。需要注意的是,未知樣品種類、培育狀況要與建模集樣品一致,否則該分析樣品會(huì)被視為異物樣品,無(wú)法準(zhǔn)確判別。另外,可以將該樣品補(bǔ)充到原校正集中,更新校正模型,使該模型適用性增強(qiáng)。
表2 樣品預(yù)測(cè)集鑒別情況
本文使用JADE結(jié)合ELM建立了鑒別鮮果成熟度模型,應(yīng)用于砂梨的成熟度鑒別,選取獨(dú)立分量數(shù)和隱層節(jié)點(diǎn)數(shù)分別為12和25,所建模型分類準(zhǔn)確率為97.92%,將模型用于鑒別未知樣品,預(yù)測(cè)集分類準(zhǔn)確率為96.67%。JADE算法分解光譜,綜合分析光譜數(shù)據(jù)幅值、相位等信息,得到包含獨(dú)立化合物濃度信息的混合矩陣,有利于依據(jù)可溶性固形物、水分、酸度等信息鑒別鮮果成熟度;ELM算法建模,僅需調(diào)整隱層節(jié)點(diǎn)個(gè)數(shù)就可得到最優(yōu)解,保證了在模型轉(zhuǎn)移過(guò)程中模型的精度和穩(wěn)定性。結(jié)果表明,該算法能夠更好地改善鮮果成熟度鑒別模型的性能,所建模型穩(wěn)定性好,精度高,豐富了近紅外光技術(shù)建模算法,并為模型的傳遞與共享奠定基礎(chǔ)。
[1] Marques E J, de Freitas S T, Pimentel M F, et al. Rapid and non-destructive determination of quality parameters in the ‘Tommy Atkins’ mango using a novel handheld near infrared spectrometer[J]., 2016, 197: 1207-1214.
[2] Olarewaju O O, Bertling I, Magwaza L S. Non-destructive evaluation of avocado fruit maturity using near infrared spectroscopy and PLS regression models[J]., 2016, 199: 229-236.
[3] Robert N Feudale, Nathaniel A Woody, TAN Huwei, et al. Transfer of multivariate calibration models: a review[J]., 2002, 64(2): 181-192.
[4] JIANG H, ZHU W. Determination of Pear Internal Quality Attributes by Fourier Transform Near Infrared (FT-NIR) Spectroscopy and Multivariate Analysis[J]., 2013, 6(6): 569-577.
[5] 賈春陽(yáng), 李衛(wèi)華, 李小春, 等. 基于ICA的變化檢測(cè)新方法[J]. 光電工程, 2013(12): 39-43.
JIA Chunyang, LI Weihua, LI Xiaochun, et al. A novel change detection method using independent component analysis[J]., 2013 (12): 39-43.
[6] 王功明, 劉志勇. 基于光譜表示和獨(dú)立成分分析的混合顏料成分分析方法[J]. 光譜學(xué)與光譜分析, 2015, 35 (6): 1682-1689.
WANG G M, LIU Z Y. A composition analysis method of mixed pigments based on spectrum expression and independent component analysis[J]., 2015, 35(6): 1682-1689.
[7] Mishra P, Cordella C B Y, Rutledge D N, et al. Application of independent components analysis with the JADE algorithm and NIR hyperspectral imaging for revealing food adulteration[J]., 2016, 168: 7-15.
[8] HUANG G B, ZHU Q Y, Siew C K. Extreme learning machine: a new learning scheme of feed forward neural networks[C]//, 2004, 2: 985-990.
[9] Cardoso J F, Souloumica A. Blind beam forming for non-Gaussian signals[J]., 1993, 140(6): 362-370.
[10] HyvarinenA, Oja E. Independent component analysis: algorithms and applications[J]., 2003, 13: 411.
[11] HUANG G B, ZHU Q Y, Siew C K. Extreme learning machine: theory and applications[J]., 2006, 70(1-3): 489-501.
Sharing Model in Maturity Discrimination of Chinese Pears Based on JADE and ELM
JIAO Liang,LIN Min,LIU Huijun,HU Xiaofeng
(Measurement Test Engineering College, China JiLiang University, Hangzhou 310018, China)
The paper proposes an method of application of Joint Approximative Diagonalization of Eigenmatrix(JADE) algorithm and Extreme Learning Machine(ELM) for modeling steadily to discriminate maturity of different Chinese pears. The near infrared spectra of Chinese pears were linear combination of the different chemical components. To eliminate the noise, MSC and wavelet transform were used. Then the source signals were extracted from initial data set by JADE and a linear representation of non-Gaussian data was founded. By changing the number of neurons, ELM was used to build a discrimination maturity of different pears stability model. JADE was able to find more complete information of samples, and reduced the spectral interference. ELM has a high measurement precision and sets a few parameters. This method is the foundation of model transfer and sharing. Parameters of ELM algorithm were random, which made the model more stable. With Chinese pears as experimental samples, the model prediction accuracy was 96.67%.
JADE algorithm,extreme learning machine,near-infrared spectra,maturity discrimination of pears,modeling steadily
O657.33
A
1001-8891(2017)02-0194-05
2016-05-09;
2016-08-05.
焦亮(1993-),女,碩士,主要研究方向信號(hào)分析與處理,E-mail:931270678@qq.com。
國(guó)家重大科學(xué)儀器設(shè)備開發(fā)專項(xiàng)(2014YQ470377);浙江省公益技術(shù)應(yīng)用研究項(xiàng)目(2015C37075)。