馮國(guó)紅 朱玉杰 徐華東 蔣天寧
(東北林業(yè)大學(xué),哈爾濱,150040)
為了滿(mǎn)足國(guó)民經(jīng)濟(jì)發(fā)展及人民生活用材日益增長(zhǎng)的需要,我國(guó)每年需要從歐美、東南亞、非洲等地區(qū)進(jìn)口上千萬(wàn)立方米的木材[1-2]。據(jù)海關(guān)進(jìn)口數(shù)據(jù)統(tǒng)計(jì),2018年僅第一季度我國(guó)的原木進(jìn)口量達(dá)1 437.86萬(wàn)m3。數(shù)量龐大的進(jìn)口木材中樹(shù)木種類(lèi)多樣,而同材積不同樹(shù)種的木材價(jià)格差異巨大。正因如此,以次充好的現(xiàn)象常有發(fā)生,如蟻木(Tabebuiaspp.)冒充紫檀木(Pterocarpusspp.)、鐵木豆(Swartziaspp.)冒充紅酸枝(Dalbergiaspp.)等。樹(shù)種不符已經(jīng)成為進(jìn)口木材貿(mào)易中最常見(jiàn)的欺詐手法,快速、準(zhǔn)確的鑒別樹(shù)種是維護(hù)進(jìn)口貿(mào)易公平、公正,解決進(jìn)口貿(mào)易糾紛、保證良好市場(chǎng)流通的關(guān)鍵[3-5]。
近紅外光譜技術(shù)具有綠色、快速、無(wú)損等優(yōu)點(diǎn),許多研究者結(jié)合支持向量機(jī)、反向傳播(BP)神經(jīng)網(wǎng)絡(luò)等分類(lèi)方法,將近紅外光譜技術(shù)應(yīng)用于木材種類(lèi)識(shí)別[6-10]。由于近紅外光譜的數(shù)據(jù)量較大,因此,往往需要對(duì)其做數(shù)據(jù)降維處理,主成分分析法(PCA)是較常采用的降維方法之一[11-12]。許多研究者在選擇主成分個(gè)數(shù)時(shí),僅憑累積貢獻(xiàn)率的大小進(jìn)行選擇,而主成分分析方法中關(guān)于累積貢獻(xiàn)率的考慮原則一般為大于85%即可[13-16]??梢?jiàn),依據(jù)此原則進(jìn)行選擇時(shí),主成分的可選范圍較寬,選擇的主成分?jǐn)?shù)越多,累積貢獻(xiàn)率越大,越容易滿(mǎn)足此原則。因此,選擇主成分時(shí)主觀(guān)性往往較強(qiáng),大部分選擇接近100%的。分析支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)等分類(lèi)方法的特點(diǎn)可知,輸入特征數(shù)量的多少會(huì)影響這些方法識(shí)別的準(zhǔn)確率,因此,有必要將主成分的選擇與分類(lèi)方法結(jié)合考慮,尋找一種更恰當(dāng)?shù)闹鞒煞诌x擇方法,以保證分類(lèi)方法獲得較高的識(shí)別率。
本文以風(fēng)車(chē)木(Conbretumimberbe)和非洲小葉紫檀(PterocarpustinctoriusWelw)為研究對(duì)象,以BP神經(jīng)網(wǎng)絡(luò)為分類(lèi)方法,依據(jù)遺傳算法(GA)尋優(yōu)能力[17-18],運(yùn)用GA對(duì)主成分進(jìn)行尋優(yōu);通過(guò)分析主成分經(jīng)GA尋優(yōu)前后BP神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果,揭示GA用于主成分尋優(yōu)的規(guī)律;以期為近紅外光譜應(yīng)用PCA依據(jù)BP神經(jīng)網(wǎng)絡(luò)識(shí)別樹(shù)種時(shí),提供一種更恰當(dāng)?shù)奶卣鬟x擇方法,從而保證更理想的識(shí)別效果。
主要儀器:美國(guó)ASD公司生產(chǎn)的LabSpec 5000光譜儀,波長(zhǎng)范圍350~2 500 nm,光譜分辨率——分辨波長(zhǎng)在700 nm時(shí)分辨精度為3 nm、分辨波長(zhǎng)在1 400 nm時(shí)分辨精度為10 nm、分辨波長(zhǎng)在2 100 nm時(shí)分辨精度為25 nm,使用光譜儀配套的軟件Indico Pro Version3.1采集光譜。
數(shù)據(jù)采集:木材試樣為6 cm×4 cm×1 cm的木塊,每塊木塊采集10組光譜數(shù)據(jù),風(fēng)車(chē)木和非洲小葉紫檀各采集150組,共采集300組。
平滑處理:采用7點(diǎn)移動(dòng)平滑處理。
波長(zhǎng)的篩選:觀(guān)察平滑處理的光譜圖,兩端的譜圖噪聲較大,選取波長(zhǎng)為500~2 200 nm的數(shù)據(jù)為分析范圍。
歸一化處理:將數(shù)據(jù)集映射到[0,1]上。
設(shè)計(jì)思路:利用遺傳算法進(jìn)行優(yōu)化計(jì)算[19-22],需要將解空間映射到編碼空間,每個(gè)編碼對(duì)應(yīng)問(wèn)題的一個(gè)解(即為染色體或個(gè)體)。此處將編碼長(zhǎng)度設(shè)計(jì)為N(N=選擇的主成分個(gè)數(shù)),染色體的每一位對(duì)應(yīng)一個(gè)輸入自變量,每一位的基因取值只能是“1”和“0”兩種情況,如果染色體某一位值為“1”,表示該位對(duì)應(yīng)的輸入自變量參與最終的建模;反之,則表示“0”對(duì)應(yīng)的輸入自變量不作為最終的建模自變量。選取測(cè)試集數(shù)據(jù)均方誤差的倒數(shù)作為遺傳算法的適應(yīng)度函數(shù),經(jīng)過(guò)不斷地迭代進(jìn)化,最終篩選出最具代表性的輸入自變量參與建模。
設(shè)計(jì)步驟如圖1所示。
(1)單BP模型建立。為了方便比較遺傳算法優(yōu)化前后的識(shí)別效果,采用選取的主成分做輸入自變量。
(3)優(yōu)化結(jié)果輸出。經(jīng)過(guò)一次次的迭代進(jìn)化,當(dāng)滿(mǎn)足迭代終止條件時(shí),輸出的末代種群對(duì)應(yīng)的便是問(wèn)題的最優(yōu)解或近優(yōu)解,即篩選出的最具代表性的輸入自變量組合。
(4)優(yōu)化BP模型建立。根據(jù)優(yōu)化計(jì)算得到的結(jié)果,將選出的參與建模的輸入自變量對(duì)應(yīng)的訓(xùn)練集和測(cè)試集數(shù)據(jù)提取出來(lái),利用BP神經(jīng)網(wǎng)絡(luò)重新建立模型進(jìn)行測(cè)試,從而進(jìn)行結(jié)果分析。
經(jīng)過(guò)平滑處理后的光譜圖顯示,風(fēng)車(chē)木和非洲小葉紫檀兩種樹(shù)種的光譜圖存在明顯的差異(見(jiàn)圖2)。
對(duì)風(fēng)車(chē)木和非洲小葉紫檀的平滑處理數(shù)據(jù)進(jìn)行主成分分析,獲得20個(gè)主成分的貢獻(xiàn)率和累積貢獻(xiàn)率(見(jiàn)表1)。由表1可見(jiàn):風(fēng)車(chē)木的前3個(gè)主成分累積貢獻(xiàn)率超過(guò)了85%,而非洲小葉紫檀的前3個(gè)主成分累積貢獻(xiàn)率未達(dá)到85%,前4個(gè)主成分累積貢獻(xiàn)率超過(guò)了85%。因此,按照累積貢獻(xiàn)率大于85%的選取原則,風(fēng)車(chē)木可選前3個(gè)及以上主成分為特征,非洲小葉紫檀可選前4個(gè)及以上主成分為特征,考慮到選取3個(gè)主成分為特征,個(gè)數(shù)較少,不利于識(shí)別,且為了使兩樹(shù)種的研究具有一致性,本文選取前4個(gè)及以上的主成分作為識(shí)別特征進(jìn)行研究。
表1兩樹(shù)種的主成分貢獻(xiàn)率和累積貢獻(xiàn)率
主成分風(fēng)車(chē)木貢獻(xiàn)率/%累積貢獻(xiàn)率/%非洲小葉紫檀貢獻(xiàn)率/%累積貢獻(xiàn)率/%157.957.950.650.6223.281.122.473.0310.491.510.183.141.292.75.388.451.193.82.390.760.594.31.392.070.494.70.992.980.395.00.593.490.395.30.493.8100.395.60.394.1110.395.90.394.4120.296.10.394.7130.296.30.395.0140.296.50.395.3150.296.70.395.6160.296.90.395.9170.297.10.296.1180.297.30.296.3190.297.50.296.5200.297.70.296.7
分別以前4~前20個(gè)主成分作為特征,采用Matlab軟件對(duì)BP神經(jīng)網(wǎng)絡(luò)識(shí)別風(fēng)車(chē)木和非洲小葉紫檀的效果進(jìn)行測(cè)試。測(cè)試中從290組樣本中隨機(jī)選取240組樣本作為訓(xùn)練樣本,50組作為測(cè)試樣本,每種情況測(cè)試20次。對(duì)測(cè)試結(jié)果進(jìn)行平均、變異性等整理(見(jiàn)表2)。
由表2可見(jiàn):以前4~前8主成分為特征時(shí),正確識(shí)別率較高,平均值最小為85.7%,最大為92.5%;以前9~前20個(gè)主成分為特征時(shí),正確識(shí)別率不高,平均值最小為41.8%,最大僅為71.8%。對(duì)比前4~前8和前9~前20識(shí)別率的變異系數(shù),前者較小,說(shuō)明前4~前8主成分作為特征時(shí),正確識(shí)別率的穩(wěn)定性較好。
表2 不同主成分?jǐn)?shù)的正確識(shí)別率
為進(jìn)一步分析不同主成分?jǐn)?shù)作為輸入特征時(shí)BP神經(jīng)網(wǎng)絡(luò)識(shí)別的差異性,對(duì)前4和前5的識(shí)別率進(jìn)行t大小指數(shù)主要體現(xiàn)了相鄰檢驗(yàn),對(duì)前4~前6、前4~前7、…、前4~前20的識(shí)別率分別進(jìn)行方差分析(見(jiàn)表3)。由表3可見(jiàn),取前4~前8主成分分別為輸入特征時(shí),識(shí)別的差異性不顯著(P>0.05)。當(dāng)選取的主成分?jǐn)?shù)達(dá)到9時(shí),差異性開(kāi)始顯著(P=9.36×10-5<0.05)。觀(guān)察主成分?jǐn)?shù)大于9之后的P值發(fā)現(xiàn),隨著主成分?jǐn)?shù)的增加,P值越來(lái)越小;當(dāng)選取的主成分?jǐn)?shù)為12時(shí),P值僅為1.04×10-11;當(dāng)選取的主成分?jǐn)?shù)為20時(shí),P值為4.36×10-36,幾乎為零。隨著選取的主成分?jǐn)?shù)的不斷增加,BP神經(jīng)網(wǎng)絡(luò)識(shí)別的差異性越來(lái)越明顯。
表3 不同主成分?jǐn)?shù)的差異性檢驗(yàn)
考慮尋優(yōu)后主成分?jǐn)?shù)應(yīng)≥4,因此,尋優(yōu)前主成分?jǐn)?shù)應(yīng)大于4,這里從6開(kāi)始,以前6~前20個(gè)主成分作為尋優(yōu)前的特征,應(yīng)用GA對(duì)其進(jìn)行尋優(yōu)。以尋優(yōu)后的主成分組合作為BP神經(jīng)網(wǎng)絡(luò)的輸入量,對(duì)BP神經(jīng)網(wǎng)絡(luò)識(shí)別風(fēng)車(chē)木和非洲小葉紫檀的效果進(jìn)行測(cè)試,測(cè)試方法同“PCA-BP神經(jīng)網(wǎng)絡(luò)法的樹(shù)種識(shí)別”,將尋優(yōu)后的平均識(shí)別率和變異系數(shù)整理(見(jiàn)表4)。
表4 GA尋優(yōu)后的正確識(shí)別率
比較表3和表4可見(jiàn):應(yīng)用GA對(duì)主成分進(jìn)行尋優(yōu)后,BP神經(jīng)網(wǎng)絡(luò)識(shí)別的準(zhǔn)確率有所提高,變異性有所下降。前6~前17個(gè)主成分經(jīng)過(guò)GA尋優(yōu)后,識(shí)別的準(zhǔn)確率均較高,平均值最小為86.5%、最大達(dá)98.0%,前6~前12主成分尋優(yōu)后的平均識(shí)別率均在90%以上。
依據(jù)表3、表4,對(duì)尋優(yōu)前后的識(shí)別率和變異系數(shù)進(jìn)一步做方差分析(見(jiàn)表5)。由表5可見(jiàn):得到的P值分別為8.000×10-6、5.447×10-3,均小于0.05,表明尋優(yōu)前后識(shí)別的準(zhǔn)確率和變異性均存在顯著的差異。
同樣,為進(jìn)一步分析不同主成分?jǐn)?shù)經(jīng)GA尋優(yōu)后BP神經(jīng)網(wǎng)絡(luò)識(shí)別的差異性,對(duì)前6和前7尋優(yōu)后的識(shí)別率進(jìn)行t檢驗(yàn),對(duì)前6~前20尋優(yōu)后的識(shí)別率分別進(jìn)行方差分析(見(jiàn)表6)。由表6可見(jiàn):前6~前17主成分經(jīng)GA尋優(yōu)后,BP神經(jīng)網(wǎng)絡(luò)獲得的識(shí)別率差異性不顯著(P>0.05);當(dāng)尋優(yōu)前的主成分?jǐn)?shù)達(dá)到18及以上時(shí),BP神經(jīng)網(wǎng)絡(luò)獲得的識(shí)別率差異性顯著(P<0.05)。
表5 識(shí)別率和變異系數(shù)的方差分析
表6 GA尋優(yōu)后的差異性檢驗(yàn)
整理GA尋優(yōu)后的主成分編號(hào),由于數(shù)據(jù)較多,此處僅列出了前6~前9各自的10次尋優(yōu)結(jié)果(見(jiàn)表7)。由表7可見(jiàn):尋優(yōu)后的主成分組合中均包含了第1和第2主成分,第3、第4主成分出現(xiàn)的頻次也較多;表明GA的尋優(yōu)結(jié)果與主成分的貢獻(xiàn)率有關(guān),主成分的貢獻(xiàn)率越大,越容易被選擇;這與原有主成分的選擇原則具有一致性。此外,訓(xùn)練樣本發(fā)生改變時(shí),尋優(yōu)的主成分組合又有所不同,表明GA尋優(yōu)時(shí)除了考慮主成分的貢獻(xiàn)率,還與選擇的樣本有關(guān)。與原有選擇固定的主成分作為特征相比,該方法更靈活,因此,更能保證識(shí)別的準(zhǔn)確率。
未經(jīng)GA尋優(yōu)的主成分,選擇時(shí)大多僅憑累積貢獻(xiàn)率,選擇的主成分是固定的。經(jīng)過(guò)GA尋優(yōu)的主成分組合,會(huì)包含貢獻(xiàn)率大的主成分,同時(shí),會(huì)隨著樣本的變化而發(fā)生改變,選擇的主成分更靈活。
表7 GA尋優(yōu)后的主成分編號(hào)
“PCA-BP神經(jīng)網(wǎng)絡(luò)法的樹(shù)種識(shí)別”中,前4~前8主成分作為輸入變量時(shí),正確識(shí)別率較高,當(dāng)主成分?jǐn)?shù)大于8時(shí),識(shí)別率下降,主成分?jǐn)?shù)越多下降的越顯著??梢?jiàn),此時(shí)獲得高的識(shí)別率的主成分區(qū)間較窄,僅有5種情況識(shí)別效果理想。此種情況顯然不利于主成分?jǐn)?shù)的選擇,若僅考慮累積貢獻(xiàn)率,以較多的主成分作為特征,得到的識(shí)別率將較低。
“GA-PCA-BP神經(jīng)網(wǎng)絡(luò)法的樹(shù)種識(shí)別”中,以前6~前17個(gè)主成分進(jìn)行尋優(yōu)識(shí)別時(shí),識(shí)別率均較高,當(dāng)以前18~前20個(gè)主成分進(jìn)行尋優(yōu)識(shí)別時(shí),識(shí)別率較低。對(duì)比未經(jīng)尋優(yōu)的識(shí)別結(jié)果可看出,此時(shí)獲得高的識(shí)別率的主成分區(qū)間較寬,從前6~前17有12種情況可供選擇,顯然這種方法更利于主成分的選擇。一般以累積貢獻(xiàn)率選擇主成分個(gè)數(shù)時(shí),大多不會(huì)超過(guò)17個(gè),因此,依據(jù)GA對(duì)主成分尋優(yōu)時(shí),只要選擇的主成分不是太少,便可獲得較好的識(shí)別效果。
比較尋優(yōu)前后的變異系數(shù),經(jīng)過(guò)尋優(yōu)之后的變異系數(shù)較尋優(yōu)前小,表明其正確識(shí)別率的波動(dòng)較小,識(shí)別結(jié)果更穩(wěn)定。
本文依據(jù)GA-PCA-BP神經(jīng)網(wǎng)絡(luò)對(duì)近紅外光譜識(shí)別樹(shù)種進(jìn)行了研究。以風(fēng)車(chē)木和非洲小葉紫檀為研究對(duì)象,應(yīng)用PCA對(duì)近紅外光譜數(shù)據(jù)進(jìn)行了特征提取,利用GA對(duì)主成分特征進(jìn)行了尋優(yōu),分別將尋優(yōu)前和尋優(yōu)后的主成分特征作為BP神經(jīng)網(wǎng)絡(luò)的輸入變量,進(jìn)行樹(shù)種識(shí)別測(cè)試。結(jié)果表明:依據(jù)BP神經(jīng)網(wǎng)絡(luò)識(shí)別樹(shù)種時(shí),運(yùn)用GA對(duì)近紅外光譜的主成分特征進(jìn)行尋優(yōu),可使尋優(yōu)前的主成分特征的選擇變得更寬泛,更容易保證BP神經(jīng)網(wǎng)絡(luò)獲得較高的識(shí)別率,且識(shí)別結(jié)果更穩(wěn)定。利用近紅外光譜依據(jù)GA-PCA-BP神經(jīng)網(wǎng)絡(luò)方法識(shí)別樹(shù)種是一種理想的方法。