龐曉宇,楊 忠*,呂 斌,賈東宇
1. 中國(guó)林業(yè)科學(xué)研究院林業(yè)新技術(shù)研究所,北京 100091 2. 中國(guó)林業(yè)科學(xué)研究院木材工業(yè)研究所,北京 100091
基于近紅外光譜與誤差反向傳播神經(jīng)網(wǎng)絡(luò)技術(shù)的三種人工林木材識(shí)別研究
龐曉宇1, 2,楊 忠1, 2*,呂 斌2,賈東宇2
1. 中國(guó)林業(yè)科學(xué)研究院林業(yè)新技術(shù)研究所,北京 100091 2. 中國(guó)林業(yè)科學(xué)研究院木材工業(yè)研究所,北京 100091
利用近紅外光譜結(jié)合誤差反向傳播神經(jīng)網(wǎng)絡(luò)(BP)對(duì)三種人工林木材(尾葉桉、馬尾松、南方無(wú)性系I-72楊)進(jìn)行識(shí)別,探討隱含層神經(jīng)元個(gè)數(shù)、光譜預(yù)處理方法、光譜范圍對(duì)BP網(wǎng)絡(luò)模型的影響,并與SIMCA法所建模型做比較。結(jié)果表明: (1)BP網(wǎng)絡(luò)結(jié)合全波段(780~2 500 nm)近紅外光譜數(shù)據(jù)建模,識(shí)別正確率達(dá)到97.78%,并確定隱含層神經(jīng)元數(shù)為13;(2)全波段光譜建模比短波段(780~1 100 nm)和長(zhǎng)波段(1 100~2 500 nm)光譜建模識(shí)別效果好,其識(shí)別正確率分別為97.78%, 95.56%和96.67%,用一階導(dǎo)數(shù)和二階導(dǎo)數(shù)對(duì)全波段光譜進(jìn)行預(yù)處理后,BP網(wǎng)絡(luò)模型識(shí)別正確率分別為93.33%和71.11%;用多元散射校正(MSC)對(duì)全波段光譜進(jìn)行預(yù)處理后,BP網(wǎng)絡(luò)模型識(shí)別正確率為98.89%,(3)在三種波段(780~2 500,780~1 100和1 100~2 500 nm)光譜建模的情況下,BP網(wǎng)絡(luò)建模識(shí)別正確率分別為95.56%, 96.67%和97.78%,SIMCA模型識(shí)別正確率分別為76.67%, 81.11%和82.22%,BP網(wǎng)絡(luò)建模比SIMCA法建模對(duì)三種人工林木材的識(shí)別正確率高。
BP網(wǎng)絡(luò);近紅外光譜;SIMCA;分類;尾葉桉、馬尾松、南方無(wú)性系I-72楊
我國(guó)木材資源短缺,為了緩解這一矛盾,必須大力發(fā)展人工林并高效利用木材資源。我國(guó)人工林保存面積達(dá)8億多畝,居世界第一,其中楊樹(shù)總面積超過(guò)1億500萬(wàn)畝,桉樹(shù)總面積6 000多萬(wàn)畝,馬尾松是我國(guó)南部重要用材樹(shù)種,經(jīng)濟(jì)價(jià)值高,然而,傳統(tǒng)的木材品質(zhì)鑒別方法需要消耗大量的人力、物力及時(shí)間,因此,尋求一種快速、準(zhǔn)確、低成本地評(píng)價(jià)木材性質(zhì)的方法是木材科學(xué)研究的重要內(nèi)容之一。近紅外光譜分析技術(shù)是一種無(wú)損、快速的木材識(shí)別技術(shù),九十年代開(kāi)始有用于識(shí)別木材的研究[1-2],近十幾年,國(guó)內(nèi)外研究均取得一定進(jìn)展,但都是采用傳統(tǒng)的多元統(tǒng)計(jì)方法對(duì)近紅外光譜建模,主要是主成分分析法(principal components analysis,PCA)[3]、簇類獨(dú)立軟模式法(soft independent modeling of class analogy,SIMCA)[4-5]和偏最小二乘回歸法(partial least squares regression,PLSR)[6 -8]。
人工神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)容錯(cuò)性、強(qiáng)抗干擾的非線性建模方法,近紅外光譜結(jié)合人工神經(jīng)網(wǎng)絡(luò)在木材領(lǐng)域的研究很有限,在材質(zhì)預(yù)測(cè)方面,李湃等對(duì)落葉松密度[9-10]和含水率[11]進(jìn)行預(yù)測(cè),Christian等[12]預(yù)測(cè)了火炬松的氣干密度、微纖絲角、硬度、管胞長(zhǎng)度和管胞壁厚,Watanabe等[13]預(yù)測(cè)了木材表面的干燥應(yīng)力,在木材識(shí)別領(lǐng)域,馬明宇等分別用廣義神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)對(duì)不同產(chǎn)地和品種的89個(gè)木材切片近紅外光譜進(jìn)行識(shí)別,重點(diǎn)探討了白噪音和偏置對(duì)識(shí)別效果的影響,但每種樹(shù)種建模數(shù)量過(guò)少。本研究對(duì)我國(guó)產(chǎn)量大、應(yīng)用廣且具有代表性的桉樹(shù)、馬尾松、楊樹(shù)三種人工林木材樹(shù)種進(jìn)行識(shí)別,分別用近紅外光譜結(jié)合誤差反向傳播神經(jīng)網(wǎng)絡(luò)(back-propagation network,BP)和SIMCA法建立模型,并對(duì)兩種方法進(jìn)行比較,旨在為近紅外光譜結(jié)合人工神經(jīng)網(wǎng)絡(luò)對(duì)人工林木材樹(shù)種快速識(shí)別的可行性進(jìn)行研究。
1.1 樣品和光譜的采集
試驗(yàn)采用的馬尾松(Pinusmassoniana)和南方無(wú)性系I-72楊(Populus×euramericana (Dode) Guineir cv. ‘San Martino’ (1-72/58))采自安徽省黃山區(qū)黃山公益林場(chǎng)(東經(jīng)118°14′~118°21,北緯32°4′-32°10),尾葉桉(Eucalyptusurophylla)采自廣東省遂溪縣城月鎮(zhèn)雷州林業(yè)局邁進(jìn)林場(chǎng)(東經(jīng)109°39′~110°38′,北緯20°18′-21°30′),將新鮮原木旋切為2 000 mm×1 300 mm×1.7 mm的木板,在大氣中自然干燥,為了方便測(cè)量,再將氣干后的木板加工成400 mm×200 mm×1.7 mm的小木板,每個(gè)樹(shù)種90個(gè)樣品,共270個(gè)樣品。
選用美國(guó)ASD公司生產(chǎn)的Field SpecR近紅外光譜儀(350~2 500 nm)進(jìn)行光譜采集,用白板(商用聚四氟乙烯)校準(zhǔn),光纖探頭垂直于樣品表面,每掃描30次并自動(dòng)平均為一條光譜后保存起來(lái),光斑直徑為1.8 cm。為減少每次操作狀態(tài)不同造成的誤差,每次光譜采集前都要對(duì)近紅外光譜儀預(yù)熱30 min。
1.2 數(shù)據(jù)分析
近紅外光譜經(jīng)ASD提供的專業(yè)軟件轉(zhuǎn)換成光譜數(shù)據(jù)文件,用Unscrambler 9.2軟件對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理和SIMCA分析,用Matlab2012b進(jìn)行人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析。
圖1為BP網(wǎng)絡(luò)對(duì)木材近紅外光譜數(shù)據(jù)分析流程圖,其中X是輸入向量,Y是隱含層輸出向量,O是輸出層輸出向量,d是期望輸出向量,V是輸入層到隱含層權(quán)值,B是輸入層到隱含層閥值,W是隱含層到輸出層權(quán)值,G是隱含層到輸出層閥值,Emin是目標(biāo)誤差,η是學(xué)習(xí)率,q是訓(xùn)練次數(shù),p是訓(xùn)練樣本,Ep是每個(gè)樣本誤差,ERME是網(wǎng)絡(luò)總誤差。
圖1 BP網(wǎng)絡(luò)分析木材近紅外數(shù)據(jù)流程圖
圖1中,(1)對(duì)網(wǎng)絡(luò)賦予隨機(jī)的初始權(quán)值和閥值,將樣本模式計(jì)數(shù)器p和訓(xùn)練次數(shù)計(jì)數(shù)器q置為1,誤差E置0,η設(shè)為0~1內(nèi)的小數(shù),Emin設(shè)為一個(gè)正的小數(shù);(2)木材近紅外光譜數(shù)據(jù)作為輸入向量,輸入網(wǎng)絡(luò),計(jì)算各層輸出y和o;(3)計(jì)算每個(gè)樣本的輸出誤差;(4)計(jì)算各層誤差信號(hào);(5)調(diào)整網(wǎng)絡(luò)權(quán)值和閥值;(6)檢查是否對(duì)所有樣本完成一次輪訓(xùn),若沒(méi)有完成,計(jì)數(shù)器p增1,返回步驟(2),否則轉(zhuǎn)步驟(7);(7)檢查網(wǎng)絡(luò)總誤差是否小于目標(biāo)誤差,若是,則建模成功,否則E置0,p置1,返回步驟(2)。
2.1 近紅外光譜結(jié)合BP網(wǎng)絡(luò)建模對(duì)人工林木材的識(shí)別
尾葉桉、馬尾松、南方無(wú)性系I-72楊三種木材的近紅外光譜數(shù)據(jù)進(jìn)行建模,每個(gè)樹(shù)種有90條光譜,隨機(jī)選取其中2/3用于建模,1/3用于預(yù)測(cè),共180條光譜用于建模,90條光譜用于預(yù)測(cè)。建模的光譜范圍為780~2 500 nm,通過(guò)PCA法在近紅外波段上提取特征向量,由于前8個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到99%以上,能代表原光譜包含的大部分信息,所以將8個(gè)主成分的得分矩陣作為BP網(wǎng)絡(luò)模型的輸入向量。網(wǎng)絡(luò)期望輸出采用0,1分類,若是該樹(shù)種,對(duì)應(yīng)位置顯示為1,否則,顯示為0,則桉樹(shù)為1 0 0,馬尾松為0 1 0,楊樹(shù)為 0 0 1,當(dāng)樣品對(duì)應(yīng)位置網(wǎng)絡(luò)輸出值大于0.5,且其他位置小于0.5時(shí),則判定該樣品識(shí)別正確,否則為錯(cuò)誤,采用均方根誤差(RMSEP)和正確率反映模型對(duì)未知樣本的預(yù)測(cè)效果,正確率越高,RMSEP越小,模型的擬合效果越佳。
建模采用單隱含層的前向BP網(wǎng)絡(luò),輸入層到隱含層為線性傳遞,隱含層到輸出層為對(duì)數(shù)傳遞,隨機(jī)賦予網(wǎng)絡(luò)初始權(quán)值和閥值,采用L-M(Levenberg-Marquardt)算法對(duì)網(wǎng)絡(luò)權(quán)值和閥值進(jìn)行調(diào)整,以得到小于目標(biāo)誤差的參數(shù)向量,學(xué)習(xí)率為0.1,最大訓(xùn)練次數(shù)為50 000次,設(shè)定的目標(biāo)誤差為0.001,網(wǎng)絡(luò)誤差為均方誤差。網(wǎng)絡(luò)隱含層神經(jīng)元數(shù)一般由經(jīng)驗(yàn)公式得出,a為0~10之間的常數(shù),m和n分別是輸入、輸出神經(jīng)元個(gè)數(shù),表1中分別顯示7種神經(jīng)元數(shù)建立的模型,每類模型預(yù)測(cè)十次,取十次結(jié)果平均值作為最終結(jié)果。
結(jié)果表明,BP網(wǎng)絡(luò)結(jié)合近紅外光譜能較好的識(shí)別木材,最高正確率達(dá)到97.78%,由于本實(shí)驗(yàn)均采用Levenberg-Marquardt算法建模,模型收斂速度快,且輸出向量較少,所以BP-Model1-7的建模時(shí)間短,均在2 s以內(nèi)。在所有模型中,桉樹(shù)和馬尾松都各有一個(gè)樹(shù)種不能正確識(shí)別,楊樹(shù)中有兩個(gè)樹(shù)種不容易識(shí)別,但通過(guò)調(diào)整隱含層神經(jīng)元數(shù),可以對(duì)模型優(yōu)化,一般隱含層神經(jīng)元數(shù)越多,擬合程度越高,但神經(jīng)元數(shù)過(guò)多,可能出現(xiàn)過(guò)擬合現(xiàn)象,降低識(shí)別率,同時(shí)神經(jīng)元數(shù)越多,內(nèi)部運(yùn)算越復(fù)雜,建模耗時(shí)越長(zhǎng),對(duì)計(jì)算機(jī)的運(yùn)算能力要求越高,所以對(duì)于非線性較弱,輸入和輸出波形不復(fù)雜的識(shí)別系統(tǒng),在隱含層神經(jīng)元數(shù)不多的情況下,也能得到較好的識(shí)別效果,所以綜合考慮,Model4中,隱含層數(shù)為13時(shí),既滿足正確率高,均方根誤差較小的要求,又不會(huì)對(duì)建模時(shí)計(jì)算機(jī)運(yùn)行造成負(fù)擔(dān)。
2.2 BP網(wǎng)絡(luò)的近紅外模型優(yōu)化研究
BP網(wǎng)絡(luò)模型優(yōu)化,從光譜預(yù)處理和波段選擇兩方面進(jìn)行研究,分別選取780~1 100,1 100~2 500和780~2 500 nm三種波段建模,并對(duì)全光譜數(shù)據(jù)進(jìn)行一階導(dǎo)數(shù)、標(biāo)準(zhǔn)正態(tài)變換(standard normal Variation,SNV)和多元散射校正(multiplicative scatter correction,MSC)預(yù)處理,對(duì)不同波段光譜數(shù)據(jù)和同一波段不同預(yù)處理后的光譜數(shù)據(jù)分別進(jìn)行主成分分析降維,選取貢獻(xiàn)率達(dá)到99%以上的主成分作為輸入向量,神經(jīng)元數(shù)確定為13,建模如表2所示。
表1 不同隱含層神經(jīng)元數(shù)的BP網(wǎng)絡(luò)模型
表2 不同預(yù)處理和光譜波段選擇的BP網(wǎng)絡(luò)模型
由BP-Model 4,BP-Model 8和BP-Model 9的總正確率得出,780~2 500 nm波段建模識(shí)別效果最好,780~1 100 nm波段建模識(shí)別效果最差,從各樹(shù)種的識(shí)別情況,可知在1 100~2 500 nm波段對(duì)桉樹(shù)和馬尾松都能全部識(shí)別,楊樹(shù)有兩個(gè)識(shí)別錯(cuò)誤,而在全波段范圍,楊樹(shù)能全部識(shí)別,桉樹(shù)和馬尾松各有一個(gè)樣本識(shí)別錯(cuò)誤,不同波段所包含的木材化學(xué)信息不同,識(shí)別效果有一定的差異。對(duì)全光譜波段數(shù)據(jù)分別進(jìn)行三種光譜預(yù)處理,結(jié)果顯示,多元散射校正能提高模型識(shí)別正確率。一階導(dǎo)數(shù)和二階導(dǎo)數(shù)處理后的數(shù)據(jù)建模,識(shí)別正確率下降很多,并且貢獻(xiàn)率達(dá)到99%以上需要的主成分?jǐn)?shù)過(guò)多,說(shuō)明導(dǎo)數(shù)處理后光譜數(shù)據(jù)的關(guān)聯(lián)性降低,可能原因是導(dǎo)數(shù)處理使近紅外數(shù)據(jù)失真。
2.3 BP網(wǎng)絡(luò)模型和SIMCA模型比較
圖2為三種人工林樹(shù)種780~2 500 nm的近紅外光譜圖,每個(gè)樹(shù)種選取三條樣品光譜作圖,可以直觀的看出,三種木材光譜圖能相互區(qū)分,但桉樹(shù)和楊樹(shù)光譜較接近,而馬尾松光譜與另兩種木材光譜區(qū)別明顯,造成這種現(xiàn)象的可能原因是楊木和桉樹(shù)均為闊葉材,而馬尾松為針葉材,針闊葉材的化學(xué)組成和解剖構(gòu)造都有一定差異,為進(jìn)一步區(qū)分這三種木材,對(duì)其進(jìn)行PCA分析,圖3為三種木材所有樣品的PCA得分圖,從圖中可以看出,樣品聚成三簇,但桉樹(shù)和楊樹(shù)較接近,有個(gè)別樣品混合到一起,馬尾松能很好的與另兩種樹(shù)種區(qū)分開(kāi),這與圖2顯示的結(jié)果一致,馬尾松樣品的簇類較分散,是由該樣品自身差異較大造成。
圖2 三種木材近紅外光譜圖
圖3 三種木材近紅外光譜的PCA得分圖
SIMCA是以主成分分析為基礎(chǔ)的分類方法,表3中顯示了三種波段SIMCA模型的預(yù)測(cè)結(jié)果,并且與BP網(wǎng)絡(luò)模型預(yù)測(cè)做對(duì)比,結(jié)果表明,對(duì)不同波段的建模效果,SIMCA法顯示的結(jié)果與BP網(wǎng)絡(luò)建模呈現(xiàn)的規(guī)律相同,均是780~2 500 nm波段建模識(shí)別效果最好,780~1 100 nm波段識(shí)別效果最差,但在三種波段模型中,BP網(wǎng)絡(luò)模型的木材識(shí)別率均明顯高于SIMCA模型的識(shí)別率,并BP網(wǎng)絡(luò)采用L-M算法對(duì)權(quán)值和閥值調(diào)整建模,建模時(shí)間比SIMCA法短。
表3 SIMCA與LM-BP網(wǎng)絡(luò)模型比較研究
利用近紅外光譜結(jié)合誤差反向傳播神經(jīng)網(wǎng)絡(luò)對(duì)三種人工林木材樹(shù)種的識(shí)別進(jìn)行了研究。BP網(wǎng)絡(luò)對(duì)近紅外全光譜建模識(shí)別三種人工林木材樹(shù)種,識(shí)別率達(dá)到97.78%,識(shí)別效果較優(yōu),并神經(jīng)元數(shù)確定為13;BP網(wǎng)絡(luò)模型優(yōu)化研究,對(duì)光譜進(jìn)行預(yù)處理,并用不同波段光譜建模,結(jié)果顯示,全波段光譜建模比短波段(780~1 100 nm)和長(zhǎng)波段(1 100~2 500 nm)光譜建模識(shí)別效果好,其識(shí)別正確率分別為97.78%,95.56%和96.67%,多元散射校正處理能提高BP模型識(shí)別正確率至98.89%,一階導(dǎo)數(shù)和二階導(dǎo)數(shù)預(yù)處理會(huì)使識(shí)別正確率分別下降至93.33%和71.11%;在三種波段光譜建模的情況下,BP網(wǎng)絡(luò)建模識(shí)別正確率分別為95.56%,96.67%和97.78%,均高于SIMCA法建模對(duì)三種人工林木材樹(shù)種識(shí)別正確率76.67%,81.11%和82.22%,并且建模時(shí)間要明顯小于SIMCA方法;上述結(jié)論說(shuō)明近紅外光譜結(jié)合誤差反向傳播神經(jīng)網(wǎng)絡(luò)技術(shù)可用于人工林木材樹(shù)種的快速識(shí)別。
[1] Borga P, H?m?l?inen M, Theander O. Holzforschung-International Journal of the Biology, Chemistry, Physics and Technology of Wood, 1992, 46(4): 299.
[2] Brunner M, Eugster R, Trenka E, et al. Holzforschung-International Journal of the Biology, Chemistry, Physics and Technology of Wood,1996, 50(2): 130.
[3] Russ A, Fiserova M. Wood Res., 2011, 56: 93.
[4] B?chle H, Zimmer B, Wegener G. Wood Science and Technology, 2012, 46(6): 1181.
[5] Dawson-Andoh B, Adedipe O E. Wood Science and Technology, 2012, 46(6): 1193.
[6] Braga J W B, Pastore T C M, Coradin V T R, et al. Iawa Journal, 2011, 32(2): 285.
[7] Watanabe K, Abe H, Kataoka Y, et al. Jpn. J. Histor. Bot., 2011, 19: 117.
[8] Horikawa Y, Mizuno-Tazuru S, Sugiyama J. Journal of Wood Science, 2015. 1.
[9] Li P, Zhang H F, Li Y X, et al. Advanced Materials Research, 2010, 129: 306.
[10] Lia Y, Lia P, Jiangb L. J. Inf. Comput. Sci., 2012, 13: 3783.
[11] Li P, Li Y X. Advanced Materials Research, 2012, 502: 253.
[12] Mora C R, Schimleck L R. Wood Science and Technology, 2010, 44: 561.
[13] Watanabe K, Kobayashi I, Matsushita Y, et al. Drying Technology, 2014, 32(5): 590.
[14] MA Ming-yu, WANG Gui-yun, HUANG An-min, et al (馬明宇, 王桂蕓, 黃安民,等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2012, 32(9): 2377.
(Received Sep. 26, 2015; accepted Jan. 14, 2016)
*Corresponding author
Recognition of Three Types of Plantation Wood Species with Near Infrared Spectra Coupled with Back-Propagation Network
PANG Xiao-yu1, 2, YANG Zhong1, 2*, Lü Bin2, JIA Dong-yu2
1. Research Institute of Forestry New Technology, Chinese Academy of Forestry, Beijing 100091, China 2. Research Institute of Wood Industry, Chinese Academy of Forestry, Beijing 100091, China
In this study, the near infrared spectroscopy coupled with Back-Propagation (BP) network was used for the recognition of three kinds of plantation wood (Eucalyptusurophylla,Pinusmassoniana,Populus×euramericana (Dode) Guineir cv. “San Martino” (1-72/58)). The study considered the effects of hidden layer neurons number, spectral pretreatment method and spectral regions on BP model, which are compared with SIMCA model simultaneously. The results showed that, (1) the recognition rate was 97.78% achieved by BP network model with hidden layer neurons number 13 and the spectral region of 780~2 500 nm. (2) BP model with spectral region of 780~2 500 nm was more robust than the other two BP models with spectral regions of 780~1 100 and 1 100~2 500 nm, of which recognition rates were 97.78%, 95.56% and 96.67%, respectively. After the full spectra was pretreated with the first derivative and the second derivative methods, the recognition rates of BP models fell down to 93.33% and 71.11%. However, the recognition rate of BP model rose to 98.89% with the full spectra being pretreated by the multiplicative scatter correction (MSC). (3) Compared with SIMCA models that recognition rates of three spectral regions (780~2 500, 780~1 100 nm, and 1 100~2 500 nm) were 76.67%, 81.11% and 82.22% respectively, BP network work models had higher recognition rates.
BP network; Near infrared spectroscopy; SIMCA; Classification;Eucalyptusurophylla;Pinusmassoniana;Populus×euramericana (Dode) Guineir cv. “San Martino” (1-72/58)
2015-09-26,
2016-01-14
國(guó)家自然科學(xué)基金項(xiàng)目(30800889,31370711)資助
龐曉宇,1990年生,中國(guó)林業(yè)科學(xué)研究院林業(yè)新技術(shù)研究所碩士研究生 e-mail: 408311170@qq.com *通訊聯(lián)系人 e-mail: zyang@caf.ac.cn
O657.3;S781
A
10.3964/j.issn.1000-0593(2016)11-3552-05