王學(xué)順,孫一丹,黃安民
(1.北京林業(yè)大學(xué)理學(xué)院,北京100083;2.中國(guó)林業(yè)科學(xué)研究院木材工業(yè)研究所,北京100091)
木材是可持續(xù)發(fā)展的重要原材料,保護(hù)并適度開發(fā)利用木材資源是人類生存發(fā)展的必要基礎(chǔ)與保障[1]。在木材交易中,普通樹種與珍貴樹種的價(jià)格差所帶來的巨額利潤(rùn)導(dǎo)致家具買賣等行業(yè)存在許多假冒偽劣產(chǎn)品。此外,在文博研究、工業(yè)生產(chǎn)中,不同性質(zhì)的木材具有不同的價(jià)值需求導(dǎo)向,從而導(dǎo)致市場(chǎng)定位的差異性明顯[2-3]。因此,只有快速、準(zhǔn)確的對(duì)木材的性質(zhì)特征加以鑒定,區(qū)分各樹種的屬性與差別,才能真正做到木材資源的高效利用。
隨著光譜解析學(xué)的發(fā)展,紅外光譜的定性與定量分析技術(shù)被廣泛應(yīng)用于木材識(shí)別中。近年來主成分分析[4]、聚類分析[5]、貝葉斯判別[6]以及支持向量機(jī)[7]等智能算法的引入,為木材識(shí)別技術(shù)提供了新的發(fā)展空間。主成分分析(Principal Compo-nent Analysis,PCA)投影判別法的二維或三維得分圖可以將同種物質(zhì)聚成一簇,直觀進(jìn)行樣品定性判別與分類處理[8-9]。聚類分析(Cluster analysis)是一組研究對(duì)象分為相對(duì)同質(zhì)的群組的統(tǒng)計(jì)分析技術(shù),在數(shù)理統(tǒng)計(jì),生物信息和金融管理等多種領(lǐng)域廣泛使用[10-11]。貝葉斯判別(Bayes discriminant)是一種傳統(tǒng)的多元統(tǒng)計(jì)方法,它是根據(jù)最小風(fēng)險(xiǎn)代價(jià)判決或最大似然比判決,并結(jié)合貝葉斯準(zhǔn)則來進(jìn)行判別分析的[12-13]。
支持向量機(jī)(Support Vector Machine,SVM)方法建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原則基礎(chǔ)上,根據(jù)有限的樣本信息在模型中的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以求獲得最好的推廣能力[14-15]。在支持向量機(jī)的徑向基核函數(shù)中,懲罰參數(shù)C和核參數(shù)γ對(duì)模型分類的性能優(yōu)劣具有重要影響。我們要選擇合適的C和γ,以提高模型的判別準(zhǔn)確率[14]。
本研究以10種木材的紅外光譜樣本為研究對(duì)象,通過對(duì)其進(jìn)行定性與定量分析,建立木材樹種的識(shí)別模型,為木材識(shí)別提供一定的參考價(jià)值與科學(xué)依據(jù)。
本文以10種珍貴木材的中紅外光譜為研究對(duì)象,鑒于木材樣本的體積較小,這里隨機(jī)進(jìn)行取樣而不再區(qū)分木材的心材或邊材部分。每種木材選取3個(gè)樣本,依次標(biāo)記為樣本Ⅰ、樣本Ⅱ和樣本Ⅲ,分別建立木材識(shí)別的定性分析與定量分析模型。研究所用的樣本木材均由中國(guó)林業(yè)科學(xué)研究院木材工業(yè)研究所提供。10種木材的樣本資料見表1。
儀器設(shè)備:實(shí)驗(yàn)室的光譜采集設(shè)備為美國(guó)Perkin Elmer公司提供的Spectrum GX,DTGS檢測(cè)器,分辨率4 cm-1,測(cè)量范圍:4 000~400 cm-1,光譜分析軟件的運(yùn)行平臺(tái)為Windows 7。
樣品制備:將2~3 mg待測(cè)樣品與200 mg溴化鉀砕晶置于瑪瑙研缽中,磨細(xì),并使其混合均勻。將研細(xì)混勻的粉末傾入壓片模具中,使用壓片機(jī)將其壓成圓形薄片,繼而放入紅外光譜儀樣品支架進(jìn)行測(cè)試。
表1 木材的樣品資料Tab.1 The data of timber samples
在溴化鉀壓片制樣中,由于研磨不細(xì),錠片不透明,紅外光發(fā)生散射,使光譜的高頻端基線抬高;為使譜圖美觀,通常需要基線校正,即將光譜的基線人為的拉回到0基線上。因此首先將原光譜轉(zhuǎn)換成吸光度光譜,對(duì)其基線校正后再進(jìn)行標(biāo)準(zhǔn)化處理,從而得到可供實(shí)驗(yàn)所用的光譜。本研究針對(duì)每個(gè)樣品共掃描3次,得到3組平行試驗(yàn)的光譜數(shù)據(jù),為了保證譜圖的清晰度,選取其中一組的5種木材樣品繪制紅外光譜圖,光譜圖如圖1所示。從圖中可以看出,紅外光譜的特征吸收峰在1 800~800 cm-1的波數(shù)段區(qū)域展現(xiàn)較為集中,所含樣本樹種信息較為豐富,因此本研究選取1 800~800 cm-1的樣本光譜數(shù)據(jù),利用SPSS軟件中的主成分分析進(jìn)行數(shù)據(jù)降維,得到16個(gè)主成分,貢獻(xiàn)率達(dá)99.684%,可滿足實(shí)驗(yàn)要求。
圖1 5種木材樣品的紅外光譜圖Fig.1 The infrared spectra of 5 kinds of timber samples
2.1.1 主成分二維得分圖
利用SPSS對(duì)降維后的木材紅外光譜的16個(gè)主成分?jǐn)?shù)據(jù)繪制二維得分圖,為了保證得分圖的清晰度,這里選取同為蘇木科的木材1至5即:愛里古夷蘇木、古夷蘇木、孿葉蘇木、印茄木、甘巴豆的各3個(gè)樣本進(jìn)行分析,其中5種木材按類別(Type)依次標(biāo)號(hào)為a1~a5,15個(gè)樣本數(shù)據(jù)依次標(biāo)為1~15。在所得的得分圖中,樣本在主成分空間中聚集成不同的類別,從而實(shí)現(xiàn)對(duì)木材的分類判別。以3個(gè)樣本的第一主成分作為橫坐標(biāo),第二主成分作為縱坐標(biāo),得到的二維主成分得分圖如圖2所示。
圖2 二維PCA得分圖Fig.2 The score plot of two-dimensional PCA
由圖2可知,二維PCA得分圖可以初步區(qū)分5種木材,且a4(印茄木)與其它四種木材差別較大,區(qū)分較為明顯;a1(愛里古夷蘇木)3個(gè)樣本(1、6、11)的第一、第二主成分大致分布在1.0~1.5之間;a2(古夷蘇木)3個(gè)樣本(2、7、12)的第一、二主成分大致分布在0~0.5之間;a3(孿葉蘇木)3個(gè)樣本(3、8、13)的第一、二主成分大致分布在0點(diǎn)附近;a5(甘巴豆)3個(gè)樣本(5、10、15)的第一主成分分布在0~0.5之間,第二主成分大致在1.5 ~2.0 之間,識(shí)別度不高。
2.1.2 主成分三維得分圖
為了更為清晰的區(qū)分該5種木材,本文選取3個(gè)樣本的前三個(gè)主成分繪制三維PCA得分圖。以第一主成分、第二主成分、第三主成分分別作為坐標(biāo)軸,得到的三維主成分得分圖如圖3所示。
由圖3可知,三維PCA得分圖比二維得分圖更為直觀地展現(xiàn)5種木材的區(qū)別,其中a4(印茄木)與其它四種木材差別更大,識(shí)別度較高;a1(愛里古夷蘇木)3個(gè)樣本的第一主成分大致分布在0.5~1.0之間,第二主成分大致分布在 0.0 ~1.0之間,第三主成分大致分布在 -1.0~0.5之間;a3(孿葉蘇木)的第一主成分大致分布在0.5~0.0之間,第二主成分大致分布在 -1.0~0.0之間,第三主成分大致分布在-0.5~1.0之間;而a2(古夷蘇木)和a5(甘巴豆)樣本的主成分較為分散,難以區(qū)分。綜上所述,三維PCA得分圖對(duì)木材的辨識(shí)度更高,同種木材的3個(gè)樣本投影更為緊密,便于識(shí)別,但識(shí)別準(zhǔn)確度有待進(jìn)一步提高。
圖3 三維PCA得分圖Fig.3 The score plot of three-dimensional PCA
本文選取10種樣品木材的3個(gè)樣本,其中樣品I中的10種木材依次標(biāo)號(hào)為a1~a10,樣品II依次標(biāo)號(hào)為a11~a20,樣品III依次標(biāo)號(hào)為 a21~a30,利用SAS軟件中的系統(tǒng)聚類法對(duì)降維后的16個(gè)主成分?jǐn)?shù)據(jù)進(jìn)行聚類分析。結(jié)果表明,判別準(zhǔn)確率為83.33%;鑒于木材種類增多且樣本量較少時(shí)識(shí)別譜系聚類圖較為復(fù)雜,識(shí)別難度較大,具有一定的局限性。
本文選取10種木材紅外光譜的3個(gè)樣本所預(yù)處理后的主成分?jǐn)?shù)據(jù),建立了貝葉斯判別模型。其中3個(gè)樣本依次(Obs)標(biāo)號(hào)為1~30,每個(gè)樣本中的10種木材按類別(TYPE)依次標(biāo)號(hào)為1~10,判別結(jié)果如圖4和圖5所示。
從圖4中可以看出,樣本I中的第2類木材判錯(cuò),樣本II中的第10類木材判錯(cuò),樣本III中的第1類和第2類木材判錯(cuò),由圖5可知貝葉斯判別錯(cuò)誤率為13.33%,即木材識(shí)別準(zhǔn)確率為86.67%,相比聚類分析操作簡(jiǎn)便、結(jié)果直觀,在木材紅外光譜識(shí)別上具有一定的先進(jìn)性,判別效果較好。
圖4 交叉驗(yàn)證判別分類的樣品及其相關(guān)信息Fig.4 Samples of cross validation discriminant classification and related information
圖5 貝葉斯判別結(jié)果Fig.5 The result of Bayes discriminant
2.4.1 網(wǎng)格搜索法優(yōu)化SVM模型
本文選取10種木材的3個(gè)樣本預(yù)處理后的紅外光譜數(shù)據(jù),依次調(diào)整支持向量機(jī)的訓(xùn)練集和測(cè)試集,建立了基于網(wǎng)格搜索法的支持向量機(jī)分類模型。選取徑向基核函數(shù),利用網(wǎng)格搜索法尋找懲罰參數(shù)C和核函數(shù)γ的最優(yōu)值。搜索范圍為2-7~27,支持向量的數(shù)目為20,10種木材的標(biāo)簽依次為1~10。
首先選取樣本I和樣本Ⅲ為訓(xùn)練集,樣本II為測(cè)試集,圖6為網(wǎng)格搜索法參數(shù)選擇的3D視圖,由圖可知,最優(yōu)的參數(shù)C和γ均為0.007 812 5,交叉驗(yàn)證的最高的判別準(zhǔn)確率為65%,帶入支持向量機(jī)模型的判別結(jié)果如圖7所示。結(jié)果表明,訓(xùn)練集整體分類準(zhǔn)確率為100%,測(cè)試集準(zhǔn)確率為70%,其中第4、7和10類木材即印茄木、翅雌豆木、條紋烏木判錯(cuò),歷時(shí)3.09 s。
圖6 網(wǎng)格搜索法參數(shù)選擇的3D視圖Fig.6 3D view of parameter selection with grid search method
圖7 網(wǎng)格搜索法模型判別結(jié)果Fig.7 The discriminant result of grid search method
繼而選取樣本II和III為訓(xùn)練集,樣本I為測(cè)試集,得到最優(yōu)的參數(shù)C和γ均為0.0078125,交叉驗(yàn)證的最高的判別準(zhǔn)確率為60%,帶入支持向量機(jī)模型得到測(cè)試集的判別結(jié)果表明,訓(xùn)練集整體分類準(zhǔn)確率為100%,測(cè)試集準(zhǔn)確率為90%,只有第6類木材即紫心蘇木判錯(cuò),歷時(shí)2.49 s。
最后選取樣本I和II為訓(xùn)練集,樣本III為測(cè)試集,得到最優(yōu)的參數(shù)C為1,最優(yōu)的γ為0.1,帶入支持向量機(jī)模型得到判別結(jié)果表明,訓(xùn)練集整體分類準(zhǔn)確率為100%,測(cè)試集準(zhǔn)確率為100%,沒有判錯(cuò),歷時(shí)2.54 s。
綜上所述,網(wǎng)格搜索法在選取樣本Ⅰ和Ⅱ?yàn)橛?xùn)練集,樣本Ⅲ為測(cè)試集時(shí)判別準(zhǔn)確率最高,達(dá)到100%,三次實(shí)驗(yàn)的平均判別準(zhǔn)確率為(70%+90%+100%)/3=86.67%。
2.4.2 遺傳算法優(yōu)化SVM模型
本文選取10種木材的3個(gè)樣本預(yù)處理后的紅外光譜數(shù)據(jù),依次調(diào)整支持向量機(jī)的訓(xùn)練集和測(cè)試集,建立了基于遺傳算法的支持向量機(jī)分類模型。試驗(yàn)樣本及數(shù)據(jù)預(yù)處理情況同2.4.1。選取徑向基核函數(shù),利用遺傳算法尋找懲罰參數(shù)C和γ核函數(shù)的最優(yōu)值。遺傳算法采用隨機(jī)遍歷抽樣(Stochastic universal selection)進(jìn)行選擇,種群大小為20,進(jìn)化代數(shù)為200,交叉概率Px=0.7,變異概率Pm=0.7,懲罰參C的變化范圍 [0,100],核參數(shù)γ的變化范圍 [0,1000],和連接在一起可組成一個(gè)17位二進(jìn)制數(shù)即個(gè)體的基因型。
首先選取樣本ⅠI和樣本Ⅲ為訓(xùn)練集,樣本Ⅱ?yàn)闇y(cè)試集,根據(jù)進(jìn)化代數(shù)與適應(yīng)度值關(guān)系所做的曲線可知,最優(yōu)的 C為 0.239 8,最優(yōu)的 γ為153.796 3,交叉驗(yàn)證的最佳分類準(zhǔn)確率為65%,遺傳算法所用時(shí)間為61.02 s。帶入支持向量機(jī)模型得到判別結(jié)果表明,訓(xùn)練集整體分類準(zhǔn)確率為100%,測(cè)試集準(zhǔn)確率為70%,其中第4、9和10類木材即印茄木、欖仁木、條紋烏木判錯(cuò)。
繼而選取樣本II和III為訓(xùn)練集,樣本I為測(cè)試集,根據(jù)進(jìn)化代數(shù)與適應(yīng)度值關(guān)系所做的曲線如圖8所示。由圖可知,最優(yōu)的C為0.341 5,最優(yōu)的γ為477.457 5,交叉驗(yàn)證的最佳分類準(zhǔn)確率為60%,遺傳算法用時(shí)54.81s。帶入支持向量機(jī)模型得到判別結(jié)果如圖9所示。結(jié)果表明,訓(xùn)練集整體分類準(zhǔn)確率為100%,測(cè)試集準(zhǔn)確率為100%,沒有判錯(cuò)。
圖8 遺傳算法的適應(yīng)度曲線Fig.8 Fitness curve of GA method
圖9 遺傳算法模型判別結(jié)果Fig.9 The discriminant result of GA method
最后選取樣本Ⅰ和Ⅱ?yàn)橛?xùn)練集,樣本Ⅲ為測(cè)試集,由于搜索時(shí)間過長(zhǎng),沒有明顯優(yōu)化效果,這里不再贅述。綜上所述,遺傳算法在選取樣本II和III為訓(xùn)練集,樣本I為測(cè)試集時(shí)判別準(zhǔn)確率最高,達(dá)到100%,平均判別準(zhǔn)確率為(70%+100%)/2=85%。
結(jié)合紅外光譜的定性分析與定量分析技術(shù),建立了木材樹種的識(shí)別模型。在定性分析中,繪制了紅外光譜樣本的二維和三維主成分得分圖,對(duì)木材種類進(jìn)行初步判別。在定量分析中,木材的聚類分析與貝葉斯判別模型的分類準(zhǔn)確率分別為83.33%和86.67%,而在網(wǎng)格搜索法與遺傳算法優(yōu)化的支持向量機(jī)模型中,分類準(zhǔn)確率均可達(dá)到100%,且平均判別準(zhǔn)確率依次為86.67%和85%。結(jié)果表明,主成分投影判別法可用于小樣本木材的分類研究中,三維得分圖比二維得分圖更為直觀,易于區(qū)分;當(dāng)木材種類增多時(shí),相比聚類分析,貝葉斯判別操作較為簡(jiǎn)便;而智能算法優(yōu)化的支持向量機(jī)模型更為成熟,一定程度上減少了樣本量不足對(duì)實(shí)驗(yàn)結(jié)果的影響,其中網(wǎng)格搜索法學(xué)習(xí)過程較為迅速,分類效果與遺傳算法相當(dāng),均適用于木材分類,可為木材識(shí)別研究提供科學(xué)的參考依據(jù)。
[1]汪杭軍,張廣群,祁亨年,等.木材識(shí)別方法研究綜述[J].浙江林學(xué)院學(xué)報(bào),2009,26(6):896-902.
[2]賈瀟然,劉迎濤.樹種識(shí)別技術(shù)的研究進(jìn)展[J].林業(yè)機(jī)械與木工設(shè)備,2009,37(9):15-10.
[3]張 潔,袁鵬飛,李 君.木材識(shí)別與鑒定技術(shù)研究綜述[J].湖北林業(yè)科技,2015,44(2):30-35.
[4]高 萌,王霓虹,李 丹,等.基于主成分、聚類與SVR組合算法的森林生物量估算方法研究[J].森林工程,2014,30(6):17-21.
[5]邵瀅宇,丁柏群.基于聚類分析的地鐵站點(diǎn)分類——以哈爾濱地鐵1 號(hào)線為例[J].森林工程,2015,31(3):106-111.
[6]付殿敬,徐敬領(lǐng),王貴文.基于Q型聚類分析和貝葉斯判別算法研究?jī)?chǔ)層分類評(píng)價(jià)[J].科技導(dǎo)報(bào),2011,29(3):29-33.
[7]范 宇,張冬妍,孫麗萍,等.基于SVM的木材干燥過程含水率軟測(cè)量研究[J].森林工程,2008,24(4):27-29.
[8] Shen D,Shen H P,Marron J S.Consistency of sparse PCA in high dimension,low sample size contexts[J].Journal of Multivariate A-nalysis,2013,115:317-333.
[9] Li Z H,Zhou P F,Li L.Dalian high-tech SMEs growth evaluation based on catastrophe and principal component projection method[J].Journal of Service Science and Management,2009,2(4):282-288.
[10]楊佰娟,鄭 立,韓笑天,等.紅外光譜技術(shù)結(jié)合聚類分析用于海洋綠藻分類研究[J].海洋環(huán)境科學(xué),2011,30(5):724-726.
[11] Ducinskas K,Drei iene L.Application of Bayes discriminant functions to classification of the spatial multivariate gaussian data[J].Procedia Environmental Sciences,2011,7:212-217.
[12] Massa A,Berman E,Boni A,et al.A classification approach based on SVM for electromagnetic subsurface sensing[J].IEEE T.Geoscience and Remote Sensing,2005,43(9):2084-2093.
[13]張 勇,趙 冰.灰度關(guān)聯(lián)分析結(jié)合支持向量機(jī)用于近紅外光譜研究[J].光譜學(xué)與光譜分析,2013,33(2):363-366.
[14]程志穎,孔浩輝,張 俊,等.粒子群算法結(jié)合支持向量機(jī)回歸法用于近紅外光譜建模[J].分析測(cè)試學(xué)報(bào),2010,29(12):1215-1219.
[15]劉 勝,范雅婷.基于近紅外光譜分析的多模型建模方法研究[J].林業(yè)科技,2014,39(2):20-24.