劉曉利,李耀翔,彭潤(rùn)東,張哲宇,陳雅
摘要:近紅外光譜分析技術(shù)在木材密度的預(yù)測(cè)方面具有獨(dú)特的優(yōu)勢(shì),是一種方便且快速的無(wú)損檢測(cè)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)作為經(jīng)典的深度學(xué)習(xí)模型之一,能夠利用卷積和池化操作提取數(shù)據(jù)中的特征映射進(jìn)行學(xué)習(xí),與傳統(tǒng)的學(xué)習(xí)模型相比具有更強(qiáng)的模型表達(dá)能力。為此將卷積神經(jīng)網(wǎng)絡(luò)用于近紅外光譜預(yù)測(cè)木材的氣干密度,以樟子松為研究對(duì)象,獲取樣本木材橫切面的近紅外光譜數(shù)據(jù),采用杠桿值與學(xué)生化殘差t檢驗(yàn)(HLSR)法剔除奇異樣本,采用SGS+MC+Auto(Savitzky-Golay smoothing+ mean centering+ autoscaling)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling method, CARS)對(duì)特征波長(zhǎng)進(jìn)行提取,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)樟子松的氣干密度;并與偏最小二乘回歸(partial least squares regression , PLSR)、支持向量機(jī)(support vector regression , SVR)和BPNN(backpropagation network)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。結(jié)果表明,當(dāng)校正集比例小于0.65時(shí),模型預(yù)測(cè)結(jié)果略低于PLSR模型。但當(dāng)校正集比例大于0.7時(shí),卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)模型的預(yù)測(cè)精度優(yōu)于其他模型,且隨著訓(xùn)練樣本比例的增加,模型的性能和穩(wěn)定性也隨之提升。研究表明CNN可以顯著提高近紅外預(yù)測(cè)木材氣干密度的模型精度,實(shí)現(xiàn)基于近紅外技術(shù)的木材密度有效預(yù)測(cè)。為木材氣干密度無(wú)損檢測(cè)提供了理論基礎(chǔ)和科學(xué)依據(jù)。
關(guān)鍵詞:木材氣干密度;近紅外光譜;卷積神經(jīng)網(wǎng)絡(luò);樟子松:預(yù)測(cè)模型
中圖分類號(hào):S781.31文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-8023(2024)03-0142-10
NIR Prediction Model Optimization Study of Pinus sylvestris Wood?Density Based on Convolutional Neural Network
LIU Xiaoli, LI Yaoxiang*, PENG Rundong, ZHANG Zheyu, CHEN Ya
(College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)
Abstract:Near-infrared spectroscopy is uniquely suited to the prediction of wood density, and is a convenient and rapid non-destructive testing technique. Convolutional neural networks, as one of the classical deep learning models, is capable of extracting feature mappings from data for learning using convolutional and pooling operations, and has more powerful modeling capability compared to traditional learning models. In this study, CNN was used in near-infrared spectroscopy to predict the air-dry density of wood. Pinus sylvestris was used as the study object to obtain the near-infrared spectral data of the cross-section of the sample wood. The high leverage-studentized residual (HLSR) method was used to remove abnormal samples, and SGS+MC+Auto was used to pre-process the spectral data. The characteristic wavelengths were extracted by the CARS algorithm and a CNN model was constructed to predict the air-dry density of the samples. The prediction results were compared with the prediction results of the partial least squares (PLS), the support vector machine (SVR) and the BPNN neural network. The results showed: when the calibration set ratio was less than 0.65, the model prediction results were slightly lower than the PLSR model. However, when the calibration set proportion was greater than 0.7, the prediction accuracy of the CNN model was better than the other models, and the performance and stability of the model improved with the increase of the proportion of calibration set. The study showed that CNN can significantly improve the accuracy of the model for predicting wood air-dry density in near infrared (near infrared spectroscopy), and realize the effective prediction of wood density based on NIR technology. It provides a theoretical foundation and scientific basis for the non-destructive testing of wood air-dry density.
Keywords:Wood air-dry density; near-infrared spectroscopy; convolutional neural network; Pinus sylvestris; prediction model
0引言
木材密度是評(píng)價(jià)木材材質(zhì)的一項(xiàng)重要指標(biāo),不僅可以很好地表征木材硬度、干縮性等物理性能,而且還直接影響木材的產(chǎn)品質(zhì)量和加工價(jià)值[1-3]。木材密度的檢測(cè)一直是木材科學(xué)領(lǐng)域所關(guān)注的問(wèn)題。傳統(tǒng)的檢測(cè)木材密度的方法對(duì)樣本產(chǎn)生破壞且耗時(shí)長(zhǎng),無(wú)法滿足現(xiàn)代化簡(jiǎn)便、快速、無(wú)損檢測(cè)的要求[4]。因此,探索合理有效且能快速檢測(cè)木材密度的方法具有重要意義。
近紅外光譜(Near-infrared spectroscopy, NIRS)技術(shù)作為一種操作簡(jiǎn)單、實(shí)時(shí)響應(yīng)、無(wú)污染的無(wú)損檢測(cè)技術(shù),可對(duì)木材的化學(xué)組成和物理性質(zhì)快速、準(zhǔn)確地預(yù)測(cè)[5]。在預(yù)測(cè)木材密度領(lǐng)域方面,Zhang等[6]基于近紅外光譜技術(shù),提出了Resnet1D-SVR-TrAdaBoost.R2預(yù)測(cè)模型,實(shí)現(xiàn)了落葉松木材氣干密度的無(wú)損檢測(cè);趙鵬等[7]基于近紅外光譜技術(shù),采用最小二乘支持向量機(jī)模型預(yù)測(cè)4種木材樹(shù)種密度,預(yù)測(cè)集密度相關(guān)系數(shù)(R)為0.94;Li等[8]將近紅外光譜與PSO-SVM(particle swarm optimization-support vector machine)模型結(jié)合預(yù)測(cè)落葉松的樹(shù)種密度,預(yù)測(cè)集密度決定系數(shù)(R2)為0.92;汪紫陽(yáng)等[9]利用NIRS與PLS-DA(partial least squares discriminant analysis)結(jié)合,準(zhǔn)確識(shí)別了9種闊葉樹(shù),準(zhǔn)確率高達(dá)99.58%。
盡管NIRS具有便捷、有效等特點(diǎn),但在NIRS數(shù)據(jù)中,仍存在光譜波段寬、光譜信息冗余等問(wèn)題,從而降低模型泛化能力。為解決此類問(wèn)題,早期研究提出了不同的NIRS數(shù)據(jù)建模方法,目前常用的建模方法主要包括支持向量機(jī)回歸(support vector regression , SVR)、偏最小二乘回歸(partial least squares regression , PLSR)和BP神經(jīng)網(wǎng)絡(luò)(backpropagation network, BPNN)等模型[10-12]。然而,隨著對(duì)NIRS領(lǐng)域探索的不斷深入,傳統(tǒng)的建模方法的弊端也顯現(xiàn)出來(lái)。PLSR常被用于處理線性數(shù)據(jù),在面對(duì)非線性數(shù)據(jù)時(shí),模型精度往往較低[13-14]。SVR常被用于處理非線性回歸問(wèn)題,但參數(shù)的選擇過(guò)程存在隨意性和主觀性,對(duì)參數(shù)調(diào)節(jié)要求較高[15-16]。BPNN結(jié)構(gòu)復(fù)雜,易出現(xiàn)過(guò)擬合問(wèn)題。
卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)是深度學(xué)習(xí)領(lǐng)域使用最廣泛的算法之一,相較于傳統(tǒng)的建模方法(如PLSR、BPNN等),避免了模型參數(shù)復(fù)雜、建模時(shí)內(nèi)存過(guò)大、過(guò)擬合等問(wèn)題[17]。CNN憑借權(quán)值共享和局部關(guān)聯(lián)等優(yōu)勢(shì),明顯降低模型中權(quán)值個(gè)數(shù)與網(wǎng)絡(luò)計(jì)算的復(fù)雜度。CNN憑借從多維數(shù)據(jù)中提取有效特征、良好的模型泛化能力和魯棒性等優(yōu)點(diǎn),可以很好地解決高維數(shù)據(jù)中存在大量冗余信息與共線性的問(wèn)題,降低人為設(shè)計(jì)參數(shù)帶來(lái)的誤差[18-20]。近年來(lái),CNN被廣泛用于木材缺陷分類識(shí)別[21-23]、木材性能檢測(cè)[24-25]和樹(shù)種分類[26-28]等領(lǐng)域。王璨等[18]基于NIRS,分別采用CNN、BPNN、PLSR和LSSVM(least squares support vector machine)等模型預(yù)測(cè)土壤含水率,利用CNN模型得到最佳建模結(jié)果,預(yù)測(cè)集決定系數(shù)(determination coefficient of prediction set,R2)為0.956、均方根誤差(root mean squared error of prediction, RMSEP)為0.804。陳承武等[29]基于NIRS,將CNN與投票機(jī)制結(jié)合,實(shí)現(xiàn)了蒲黃炭的高效識(shí)別,測(cè)試集判別準(zhǔn)確率高達(dá)95.4%。以上研究表明CNN是一種優(yōu)秀的NIRS定量、定性分析方法。
本研究基于CNN在木材科學(xué)領(lǐng)域應(yīng)用的優(yōu)點(diǎn)和潛力,以樟子松氣干密度的NIRS數(shù)據(jù)集為研究對(duì)象,采用奇異值去除與光譜預(yù)處理等方法剔除異常樣本與光譜中基線漂移現(xiàn)象和噪聲干擾,然后對(duì)光譜數(shù)據(jù)波段優(yōu)選,分別采用 CNN、PLSR和SVR等算法建立樟子松密度預(yù)測(cè)模型,并比較預(yù)測(cè)模型預(yù)測(cè)效果的差異,選擇最優(yōu)預(yù)測(cè)模型。為NIRS在木材科學(xué)研究領(lǐng)域研究提供理論依據(jù)與模型。
1材料與方法
1.1儀器與樣本
試驗(yàn)儀器為美國(guó)ASD公司產(chǎn)品,名稱為L(zhǎng)abSpec Pro FR/A114260便攜式光譜掃描儀。利用此光譜儀掃描采集樣品的近紅外光譜。光譜波長(zhǎng)范圍選擇350~2 500 nm。光譜分辨率為:3 nm@700 nm,10 nm@1 400 nm,10 nm@2 100 nm。光譜采樣間隔為:1.4 nm@350~1 050 nm,2 nm@1 000~2 500 nm。光譜空白校準(zhǔn)使用商用聚四氟乙烯白板,照射光源用DC直流燈,二分叉光纖探頭采集光譜。
1.2試樣材料
所用樟子松樣品采自黑龍江省帶嶺林業(yè)局東方紅林場(chǎng),129°04′38″ E,46°53′13″ N。地處小興安嶺南麓。試驗(yàn)所需試驗(yàn)樣品均直接從當(dāng)?shù)刂撇膹S購(gòu)得。共得106個(gè)20 cm ×20 cm ×50 cm的樟子松木材樣品。將樣品在通風(fēng)干燥的試驗(yàn)室環(huán)境下放置4周至質(zhì)量恒定,測(cè)得此時(shí)樟子松木材樣本的平衡含水率約為10%。利用近紅外光譜儀采集木材橫切面的光譜數(shù)據(jù)[27]。木材氣干密度依據(jù)《木材物理力學(xué)性質(zhì)試驗(yàn)方法》(國(guó)家標(biāo)準(zhǔn)GB/T 1933—2009)進(jìn)行測(cè)定,見(jiàn)表1。
1.3基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的木材密度近紅外模型構(gòu)建
卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常包括輸入層(input layer)、卷積層(convolutional layer)、池化層(pooling layer)、全連接層(fully connected layer)與輸出層(output layer)。卷積層的作用是提取數(shù)據(jù)的特征信息。可訓(xùn)練的卷積核通過(guò)不斷地在輸入數(shù)據(jù)上滑動(dòng),并對(duì)所覆蓋數(shù)據(jù)執(zhí)行卷積運(yùn)算,提取特征信息。卷積運(yùn)算公式為
Xlj=f[∑i(Xl-1j*wjij)+blj]。(1)
式中:l表示卷積層數(shù);*表示卷積運(yùn)算;Xlj為第l卷積層輸出的j個(gè)特征圖;Xl-1j為第l-1卷積層輸出的i個(gè)特征圖;f()為激活函數(shù);wjij為第l層的卷積核;bll為第l卷積層偏置項(xiàng)。
池化層的作用是對(duì)卷積層輸出的特征信息進(jìn)行下采樣,減少參數(shù)數(shù)量并提高特征數(shù)據(jù)的魯棒性,從而避免過(guò)度擬合確保穩(wěn)定的卷積過(guò)程。全連接層作線性變換,提高模型泛化性能。
本研究采用王磊等[31]提出的全流程近紅外光譜分析模型(ATSpecNet)。ATSpecNet由1個(gè)輸入層、3個(gè)一維卷積層、3個(gè)最大池化層、1個(gè)展平層、6個(gè)全連接層、1個(gè)輸出層和1個(gè)超參數(shù)優(yōu)化器組成,由于本研究輸入的光譜數(shù)據(jù)共有63個(gè)特征,因此輸入層的大小為63×1,一維卷積核的數(shù)目分別為128、64和32,卷積核的大小分別為5、5和3,卷積步長(zhǎng)為1,激活函數(shù)為tanh。池化層的窗口大小為2;1個(gè)展平層;6個(gè)全連接層,輸出維度分別為32、16、8、4、2和1,使用tanh作為激活函數(shù),RMSprop為優(yōu)化器、初始學(xué)習(xí)率為0.01、epoch為200、均方誤差(MSE)為損失函數(shù),如圖1所示,通過(guò)優(yōu)化網(wǎng)絡(luò)損失函數(shù)來(lái)更新模型超參數(shù),最終根據(jù)預(yù)測(cè)結(jié)果的準(zhǔn)確性選擇最優(yōu)參數(shù),保存最優(yōu)CNN模型。
2結(jié)果與分析
2.1奇異值剔除
分別采用杠桿值與學(xué)生化殘差t檢驗(yàn)(high leverage studentized residual, HLSR)、聯(lián)合X-Y的離群值檢測(cè)方法(outlier samples detection based on joint X-Y distances ,ODXY)與光譜殘差檢驗(yàn)(spectral residual, SR)等方法對(duì)原始光譜數(shù)據(jù)進(jìn)行異常值剔除。3種異常樣本剔除算法的樣本剔除結(jié)果如圖2所示。以模型的預(yù)測(cè)集決定系數(shù)(R2)及RMSEP為模型的評(píng)估指標(biāo),見(jiàn)表2?;诋惓V堤蕹蟮腘IRS數(shù)據(jù)建立的PLSR模型的評(píng)估指標(biāo)可知,采用HLSR算法時(shí),主因子個(gè)數(shù)為6,預(yù)測(cè)集R2為0.612 2,RMSEP相較于未剔除異常值的模型降為0.017 9,是不同異常值剔除算法中預(yù)測(cè)結(jié)果的最小值。模型的魯棒性與泛化性能相較原始光譜均有較大改善。綜合考慮,HLSR被確定為建模前的異常值剔除算法。
采用HLSR剔除奇異樣本。通過(guò)查閱學(xué)生化殘差檢驗(yàn)的t分布臨界值表確定其值,本研究選擇 t=2.365?;贖LSR剔除異常樣本得到杠桿值與學(xué)生殘差分布圖。共剔除了樣本編號(hào)40、69共2個(gè)樣本。剔除異常樣本后的數(shù)據(jù)用于CNN模型的構(gòu)建。
2.2樟子松木材近紅外光譜預(yù)處理方法
通過(guò)搜索光譜預(yù)處理方法和產(chǎn)生最佳結(jié)果的潛變量數(shù)(nLV)來(lái)優(yōu)化PLSR模型。采用多元散射校正(multiplicative scatter correction, MSC)、標(biāo)準(zhǔn)化(autoscaling, Auto)、去趨勢(shì)(detrending, DT)、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation, SNV)、均值中心化(mean centering, MC)與Savitzky-Golay卷積平滑(Savitzky-Golay smoothing, SGS)等預(yù)處理方法相結(jié)合對(duì)原始光譜進(jìn)行預(yù)處理,見(jiàn)表3?;陬A(yù)處理后的NIRS光譜數(shù)據(jù)建立的PLSR模型的評(píng)價(jià)指標(biāo)均得到明顯的改善。說(shuō)明對(duì)NIRS光譜進(jìn)行預(yù)處理,可以很好地解決光譜的基線漂移及噪聲干擾等問(wèn)題,并達(dá)到提高模型預(yù)測(cè)性能的效果。綜合模型的評(píng)估指標(biāo),采用SGS+MC+Auto聯(lián)合光譜預(yù)處理方法時(shí),主成分?jǐn)?shù)為4,預(yù)測(cè)集R2為0.761 6,RMSEP相較于原始光譜從0.017 9降為0.014 1,是不同預(yù)處理方法處理后模型預(yù)測(cè)集RMSEP中的最小值。綜合考慮,本研究選擇SGS+MC+Auto處理后的NIRS數(shù)據(jù)建立CNN木材密度預(yù)測(cè)模型。
2.3樟子松木材近紅外光譜特征波段優(yōu)選
預(yù)處理方法可以消除NIRS數(shù)據(jù)中的隨機(jī)噪聲與基線偏移等問(wèn)題,提高光譜質(zhì)量與信噪比。但NIRS數(shù)據(jù)中仍是存在大量復(fù)雜冗余信息的高維數(shù)據(jù),嚴(yán)重干擾后續(xù)模型的預(yù)測(cè)精度與性能。因此為進(jìn)一步優(yōu)化NIRS數(shù)據(jù),剔除NIRS數(shù)據(jù)的冗余波段,提高模型的預(yù)測(cè)能力。本研究采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling method, CARS)提取特征波段。
采用CARS提取NIRS數(shù)據(jù)時(shí),蒙特卡洛采樣法(Monte Carlo sampling runs, MC)對(duì)木材樣本采樣100次,以10折交叉驗(yàn)證構(gòu)建最大潛變量因子數(shù)為15的PLSR。
采用CARS提取特征波段,最終選擇63個(gè)特征變量參與PLSR的構(gòu)建。模型預(yù)測(cè)精度與魯棒性得到明顯提升,其中預(yù)測(cè)集的評(píng)價(jià)參數(shù)R2從0.761 6提高到0.934 1,而 RMSEP從0.014 1降低為0.007 6。圖3(a)為被選擇的變量數(shù)目隨著采樣次數(shù)增加的趨勢(shì)圖。由圖3(a)可知,隨著采樣次數(shù)的增加,被選中的變量數(shù)目迅速地減少,但衰減趨勢(shì)逐漸放緩。
圖3(b)表示交叉驗(yàn)證均方根誤差(root mean squared error of cross validation, RMSECV)隨著采樣次數(shù)增加的變化趨勢(shì)圖。隨著大量冗余信息被剔除,RMSECV數(shù)值先減小后增大。當(dāng)采樣次數(shù)為51時(shí)RMSECV達(dá)到最小值,此時(shí)獲得最優(yōu)的特征波長(zhǎng)集。在1~50次的模型運(yùn)算過(guò)程中,NIRS數(shù)據(jù)中的冗余信息被剔除。當(dāng)采樣次數(shù)大于51時(shí),RMSECV數(shù)值呈現(xiàn)上升趨勢(shì),這表明冗余信息被剔除的同時(shí),部分有用信息也被去除,導(dǎo)致模型的預(yù)測(cè)精度降低。
圖3(c)表示篩選的特征波長(zhǎng)在每次采樣中的回歸系數(shù)的變化軌跡,其中星號(hào)線表示最小RMSECV對(duì)應(yīng)的子集數(shù)。對(duì)比圖3(a)、圖3(b)的結(jié)果相互對(duì)應(yīng),表明采樣次數(shù)為51次時(shí),RMSECV最小,此波長(zhǎng)變量子集是與樟子松樣品氣干密度相關(guān)最高的特征波長(zhǎng)子集,共篩選得到63個(gè)特征波長(zhǎng)。
2.4建模結(jié)果比較
為獲得最優(yōu)木材密度預(yù)測(cè)模型,本研究隨機(jī)選擇75%的有效樣本作為校正集(Calibration set),將該樣本集用于訓(xùn)練模型與更新模型超參數(shù)。選擇剩余25%的樣本作為預(yù)測(cè)集(Prediction set),將該樣本集的R2、RMSEP、相對(duì)分析誤差(RPD)等參數(shù)作為模型的評(píng)價(jià)指標(biāo),用于檢測(cè)所建模型的預(yù)測(cè)能力,比較模型優(yōu)劣。所得模型結(jié)果見(jiàn)表4。
通過(guò)對(duì)比不同模型下的樟子松密度預(yù)測(cè)結(jié)果,對(duì)相同光譜數(shù)據(jù)的樟子松密度的回歸預(yù)測(cè),CNN模型預(yù)測(cè)能力最優(yōu)。在模型魯棒性、泛化能力與預(yù)測(cè)精度方面,CNN模型的預(yù)測(cè)集決定系數(shù)最大(R2=0.941 9),比BP和SVR模型分別提高0.147 8和0.066 1,具有最大的回歸擬合度,表明CNN模型的擬合效果最優(yōu)。均方根誤差RMSEP最?。≧MSEP=0.006 9),比BP和SVR模型分別降低了0.006 6和0.003 3,表明CNN模型的預(yù)測(cè)精度最高。RPD最大(RPD=4.231 2),比BP和SVR模型分別提高了1.983 3和1.337 0,表明CNN模型預(yù)測(cè)效果、泛化性能最佳;BP神經(jīng)網(wǎng)絡(luò)模型在所有模型中表現(xiàn)較差;SVR、PLSR在4個(gè)模型中表現(xiàn)中等。通過(guò)比較發(fā)現(xiàn),CNN模型的預(yù)測(cè)精度、魯棒性、泛化性能最優(yōu),優(yōu)于BP、SVR等傳統(tǒng)模型。這是因?yàn)镃NN結(jié)構(gòu)可以學(xué)習(xí)輸入數(shù)據(jù)的高階特征信息,并最大程度地訓(xùn)練輸入NIRS數(shù)據(jù),從而建立預(yù)測(cè)能力優(yōu)秀的木材密度預(yù)測(cè)模型。
由表4中PLSR模型和CNN模型的評(píng)估指標(biāo)可以看出,PLSR模型校正集決定系數(shù)R2最大,為0.992 2,校正集的決定系數(shù)R2和預(yù)測(cè)集的決定系數(shù)R2的差值為0.058 1。但CNN模型校正集的決定系數(shù)R2和預(yù)測(cè)集的決定系數(shù)R2的差值為0.032 9,CNN模型校正集與預(yù)測(cè)集的評(píng)估指標(biāo)差異較小,因此CNN的回歸擬合程度與預(yù)測(cè)精度優(yōu)于PLSR。
PLSR與CNN模型的回歸結(jié)果如圖4所示。2個(gè)模型的校正集與預(yù)測(cè)集的密度預(yù)測(cè)值均分布在擬合線附近。由圖4可知,2個(gè)模型的校正集樣本分布差異并不明顯。相對(duì)于PLSR模型,CNN模型的預(yù)測(cè)集樣本更接近擬合線,模型的泛化能力更強(qiáng)。并且CNN模型的RPD值更大,說(shuō)明CNN模型的性能指標(biāo)優(yōu)于PLSR。
綜合分析表明,CNN模型是一種高性能的樟子松木材氣干密度NIRS模型。基于相同的近紅外光譜數(shù)據(jù),采用CNN技術(shù)能夠建立樟子松氣干密度預(yù)測(cè)模型,且相比于傳統(tǒng)的預(yù)測(cè)模型具有更高的模型穩(wěn)健性、泛化能力與預(yù)測(cè)準(zhǔn)確性。研究表明采用CNN 建模時(shí),CNN結(jié)構(gòu)能進(jìn)一步降低輸入數(shù)據(jù)的維度與排除不相關(guān)數(shù)據(jù)的干擾,并且篩選與挖掘NIRS數(shù)據(jù)中的高階、深層的特征信息[29]。利用這些特征信息進(jìn)行樟子松氣干密度的實(shí)值回歸,從而建立預(yù)測(cè)能力更好、泛化能力更強(qiáng)、魯棒性更強(qiáng)的預(yù)測(cè)模型。
雖然CNN技術(shù)的權(quán)重共享機(jī)制可以有效地降低模型中超參數(shù)的個(gè)數(shù),但由于CNN基本架構(gòu)是由輸入層、卷積層等網(wǎng)絡(luò)結(jié)構(gòu)堆疊而成,需要大量的訓(xùn)練樣本進(jìn)行訓(xùn)練,調(diào)節(jié)模型中的超參數(shù)。因此在建立CNN模型時(shí),當(dāng)參與建模的訓(xùn)練樣本量較小時(shí),模型的預(yù)測(cè)性能可能達(dá)不到最優(yōu),隨著校正集樣本量的增加,對(duì)增加的NIRS數(shù)據(jù)進(jìn)行訓(xùn)練,更新網(wǎng)絡(luò)結(jié)構(gòu)中的權(quán)重,從而尋求最優(yōu)的模型參數(shù),進(jìn)一步提升模型預(yù)測(cè)能力與精度。
2.5建模樣本量對(duì)模型預(yù)測(cè)精度的影響
為了研究不同建模樣本量對(duì)模型效果的影響,本研究采用隨機(jī)取樣法劃分校正集與預(yù)測(cè)集,校正集的占比梯度設(shè)置為0.5~0.9。模型的評(píng)價(jià)指標(biāo)為預(yù)測(cè)集樣本的R2、RMSEP與RPD。為進(jìn)一步驗(yàn)證CNN回歸預(yù)測(cè)模型的預(yù)測(cè)效果,建立BP、PLSR、SVR等傳統(tǒng)模型作為參考對(duì)象,見(jiàn)表5。
由表5可知,當(dāng)校正集樣本的占比為0.50時(shí),PLSR與SVR模型的預(yù)測(cè)性能與模型泛化性能優(yōu)于CNN模型,BP神經(jīng)網(wǎng)絡(luò)的模型性能最差。當(dāng)校正集樣本的比例為0.55與0.60時(shí),PLSR模型為最優(yōu)模型。CNN模型的預(yù)測(cè)性能得到了明顯的提升。當(dāng)校正集樣本占比大于0.70時(shí),CNN模型在所有模型中表現(xiàn)最佳,模型的預(yù)測(cè)精度、模型穩(wěn)定性與泛化性能均優(yōu)于其他傳統(tǒng)模型。當(dāng)校正集比例大于0.80時(shí),雖然模型的預(yù)測(cè)精度較高,但是預(yù)測(cè)集的樣本個(gè)數(shù)均小于21,代表性較弱。當(dāng)校正集占比為0.70時(shí),預(yù)測(cè)集的樣本個(gè)數(shù)大于30,具有較強(qiáng)的代表性,并且預(yù)測(cè)集的R2達(dá)到0.973 2,RMSEP為0.004 9,模型的預(yù)測(cè)結(jié)果較為理想。因此本研究中校正集樣本量最優(yōu)占比為0.70。
通過(guò)綜合評(píng)價(jià)各模型的評(píng)價(jià)指標(biāo),隨著校正集樣本比例的增大,雖然部分模型的預(yù)測(cè)精度略有降低,模型的預(yù)測(cè)精度整體呈現(xiàn)增高趨勢(shì),模型的性能不斷變優(yōu)。其中CNN模型的預(yù)測(cè)效果最佳,模型預(yù)測(cè)性能增幅較大。當(dāng)校正集樣本比例較小時(shí),PLSR和SVR模型的預(yù)測(cè)性能較佳,但是隨著比例的增加,模型精度的增長(zhǎng)幅度不明顯。BP神經(jīng)網(wǎng)絡(luò)模型性能始終劣于其他模型,但是隨著校正集樣本量的增大,模型的預(yù)測(cè)效果得到不斷優(yōu)化。單獨(dú)評(píng)價(jià)CNN模型時(shí),隨著校正集樣本比例的增大,CNN模型能夠提取更多的NIRS數(shù)據(jù)中關(guān)鍵特征點(diǎn),模型得到了更加有效的訓(xùn)練,提升了模型的預(yù)測(cè)精度與泛化能力。當(dāng)校正集樣本量較大時(shí),CNN模型可以充分提取NIRS數(shù)據(jù)中的高階信息,提高模型回歸擬合程度與預(yù)測(cè)精度,建立穩(wěn)定性強(qiáng)、預(yù)測(cè)性能良好的定量分析模型。與陳國(guó)喜等[16]、王璨等[18]研究結(jié)論一致。
3結(jié)論
本研究應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建樟子松氣干密度預(yù)測(cè)模型。建模過(guò)程中,通過(guò)奇異值剔除,保證了樣本的可靠性;通過(guò)光譜預(yù)處理和特征提取,剔除了光譜信息中的冗余信息。
經(jīng)過(guò)CNN與BP、PLSR和SVR建模比較,在校正集比例大于一定比例時(shí),CNN回歸模型的預(yù)測(cè)精度更高,泛化性能更強(qiáng)。比例較小的情況下模型性能優(yōu)于BP、但略低于PLSR和SVR模型。PLSR模型結(jié)果較優(yōu)是由于樟子松氣干密度和近紅外光譜之間存在線性關(guān)系,SVR模型較優(yōu)是由于SVR模型更適合小樣本數(shù)據(jù)的建模,隨著校正集樣本比例的提升,CNN模型預(yù)測(cè)性能逐漸提高,逐漸優(yōu)于PLSR、SVR等模型的預(yù)測(cè)性能。在大數(shù)據(jù)量的情況下,CNN回歸建模效果更佳??梢?jiàn),CNN回歸模型不僅為近紅外光譜預(yù)測(cè)木材氣干密度提供了新的思路,而且具有明顯的優(yōu)勢(shì)和重要的應(yīng)用價(jià)值。但CNN回歸建模也有一定的局限性,如當(dāng)樣本量較低時(shí),模型的預(yù)測(cè)精度不佳且泛化性能較弱。當(dāng)樣本量較大時(shí),雖然模型預(yù)測(cè)精度明顯提升,但是建模所需時(shí)間較長(zhǎng)。未來(lái)的研究重點(diǎn)應(yīng)是如何提升CNN的訓(xùn)練速度,提升CNN模型的泛化性能,使CNN在近紅外光譜領(lǐng)域得到更廣泛的應(yīng)用。
【參考文獻(xiàn)】
[1]張哲宇,李耀翔,王志遠(yuǎn),等.基于IFSR異常樣本剔除的落葉松木材密度近紅外優(yōu)化模型的研究[J].光譜學(xué)與光譜分析,2022,42(11):3395-3402.
ZHANG Z Y, LI Y X, WANG Z Y, et al. NIR model optimization study of larch wood density based on IFSR abnormal sample elimination[J]. Spectroscopy and Spectral Analysis, 2022, 42(11): 3395-3402.
[2]徐明鋒,柯嫻氡,張毅,等.粵東6種闊葉樹(shù)木材密度及其影響因子研究[J].華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2016,37(3):100-106.
XU M F, KE X D, ZHANG Y, et al. Wood densities of six hardwood tree species in eastern Guangdong and influencing factors[J]. Journal of South China Agricultural University, 2016, 37(3): 100-106.
[3]于雷,陳金浩,李龍飛,等.IPSO-BP木材絕干密度近紅外光譜預(yù)測(cè)模型[J].光譜學(xué)與光譜分析,2020,40(9):2937-2942.
YU L, CHEN J H, LI L F, et al. Prediction model of wood absolute dry density by near-infrared spectroscopy based on IPSO-BP[J]. Spectroscopy and Spectral Analysis, 2020, 40(9): 2937-2942.
[4]李穎,李耀翔,徐浩凱,等.基于降噪處理的蒙古櫟木材氣干密度NIRS定標(biāo)模型[J].南京林業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,40(6):148-156.
LI Y, LI Y X, XU H K, et al. Model calibrating for NIRS-based oak wood air-dry density prediction with denoising pretreatment[J]. Journal of Nanjing Forestry University (Natural Sciences Edition), 2016, 40(6): 148-156.
[5]褚小立,陸婉珍.近五年我國(guó)近紅外光譜分析技術(shù)研究與應(yīng)用進(jìn)展[J].光譜學(xué)與光譜分析,2014,34(10):2595-2605.
CHU X L, LU W Z. Research and application progress of near infrared spectroscopy analytical technology in China in the past five years[J]. Spectroscopy and Spectral Analysis, 2014, 34(10): 2595-2605.
[6]ZHANG Z Y, LI Y X, LI Y. Prediction approach of larch wood density from visible-near-infrared spectroscopy based on parameter calibrating and transfer learning[J]. Frontiers in Plant Science, 2022, 13: 1006292.
[7]趙鵬,李悅.可見(jiàn)光/近紅外光譜分析的木材樹(shù)種與密度同時(shí)預(yù)測(cè)[J].光譜學(xué)與光譜分析,2019,39(11):3525-3532.
ZHAO P, LI Y. Simultaneous prediction of wood density and wood species based on visible/near infrared spectroscopy[J]. Spectroscopy and Spectral Analysis, 2019, 39(11): 3525-3532.
[8]LI Y, VIA B K, YOUNG T, et al. Visible-near infrared spectroscopy and chemometric methods for wood density prediction and origin/species identification[J]. Forests, 2019, 10(12): 1078.
[9]汪紫陽(yáng),尹世逵,李春旭,等.可見(jiàn)/近紅外光譜技術(shù)識(shí)別樹(shù)葉樹(shù)種的研究[J].西北林學(xué)院學(xué)報(bào),2019,34(1):229-236,260.
WANG Z Y, YIN S K, LI C X, et al. Identification of tree leaf and species by VIS/NIR spectroscopy[J]. Journal of Northwest Forestry University, 2019, 34(1): 229-236, 260.
[10]YANG J, XU J F, ZHANG X L, et al. Deep learning for vibrational spectral analysis: recent progress and a practical guide[J]. Analytica Chimica Acta, 2019, 1081: 6-17.
[11]JIANG D Y, HU G, QI G Q, et al. A fully convolutional neural network-based regression approach for effective chemical composition analysis using near-infrared spectroscopy in cloud[J]. Journal of Artificial Intelligence and Technology, 2021, 1(1): 74-82.
[12]ZHU Z Q, QI G Q, LEI Y B, et al. A long short-term memory neural network based simultaneous quantitative analysis of multiple tobacco chemical components by near-infrared hyperspectroscopy images[J]. Chemosensors, 2022, 10(5): 164.
[13]方明明,劉靜.基于回歸卷積神經(jīng)網(wǎng)絡(luò)的近紅外光譜蘋(píng)果脆片品質(zhì)評(píng)價(jià)方法研究[J].食品科技,2020,45(7):303-308,316.
FANG M M, LIU J. Evaluation method of apple chips quality by near infrared spectroscopy based on regressive convolutional neural network[J]. Food Science and Technology, 2020, 45(7): 303-308, 316.
[14]BALABIN R M, SAFIEVA R Z, LOMAKINA E I. Comparison of linear and nonlinear calibration models based on near infrared (NIR) spectroscopy data for gasoline properties prediction[J]. Chemometrics and Intelligent Laboratory Systems, 2007, 88(2): 183-188.
[15]譚念,王學(xué)順,黃安民,等.基于灰狼算法SVM的NIR杉木密度預(yù)測(cè)[J].林業(yè)科學(xué),2018,54(12):137-141.
TAN N, WANG X S, HUANG A M, et al. Wood density prediction of Cunninghamia lanceolata based on gray wolf algorithm SVM and NIR[J]. Scientia Silvae Sinicae, 2018, 54(12): 137-141.
[16]陳國(guó)喜,周松斌,陳頎,等.基于波段注意力卷積網(wǎng)絡(luò)的近紅外奶粉皮革水解蛋白摻假檢測(cè)[J].光譜學(xué)與光譜分析,2022,42(12):3811-3816.
CHEN G X, ZHOU S B, CHEN Q, et al. Detection of hydrolyzed leather protein adulteration in infant formula based on wavelength attention convolutional network and near-infrared spectroscopy[J]. Spectroscopy and Spectral Analysis, 2022, 42(12): 3811-3816.
[17]CHEN Y Y, WANG Z B. End-to-end quantitative analysis modeling of near-infrared spectroscopy based on convolutional neural network[J]. Journal of Chemometrics, 2019, 33(5): e3122.
[18]王璨,武新慧,李戀卿,等.卷積神經(jīng)網(wǎng)絡(luò)用于近紅外光譜預(yù)測(cè)土壤含水率[J].光譜學(xué)與光譜分析,2018,38(1):36.
WANG C, WU X H, LI L Q, et al. Convolutional neural network application in prediction of soil moisture content[J]. Spectroscopy and Spectral Analysis, 2018, 38(1): 36.
[19]王飛.基于改進(jìn)CNN卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)識(shí)別模型構(gòu)建[J].自動(dòng)化技術(shù)與應(yīng)用,2024,43(2):127-131.
WANG F. Construction of music recognition model based on improved CNN convolutional neural network[J]. Techniques of Automation and Applications, 2024, 43(2): 127-131.
[20]張濤,張曉利,任彥.Transformer與CNN融合的單目圖像深度估計(jì)[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(6):88-94.
ZHANG T, ZHANG X L, REN Y. Monocular image depth estimation based on the fusion of transformer and CNN[J]. Journal of Harbin University of Science and Technology, 2022, 27(6): 88-94.
[21]司麗潔,高凡,丁安寧,等.基于卷積神經(jīng)網(wǎng)絡(luò)在木材缺陷識(shí)別中的研究進(jìn)展[J].林產(chǎn)工業(yè),2023,60(2):57-60,75.
SI L J, GAO F, DING A N, et al. Research progress in wood defect detection based on convolutional neural network[J]. China Forest Products Industry, 2023, 60(2): 57-60, 75.
[22] 趙京鶴,修大元,王金龍,等.絕緣紙板典型缺陷局放特征的CNN識(shí)別[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(5):79-88.
ZHAO J H, XIU D Y, WANG J L, et al. PD recognition for typical cardboard insulation defect with CNN[J]. Journal of Harbin University of Science and Technology, 2022, 27(5): 79-88.
[23]GAO M Y, SONG P, WANG F, et al. A novel deep convolutional neural network based on ResNet-18 and transfer learning for detection of wood knot defects[J]. Journal of Sensors, 2021, 2021: 4428964.
[24]呂俊霄,陳金浩,張怡卓,等.應(yīng)用二維相關(guān)近紅外光譜特征建立蒙古櫟彈性模量卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型[J].東北林業(yè)大學(xué)學(xué)報(bào),2022,50(9):109-113,134.
LYU J X, CHEN J H, ZHANG Y Z, et al. Establishment of convolutional neural network prediction model for elastic modulus of Quercus mongolica using two-dimensional correlation near infrared spectral features[J]. Journal of Northeast Forestry University, 2022, 50(9): 109-113, 134.
[25]NEYSES B, SCHARF A. Using machine learning to predict the density profiles of surface-densified wood based on cross-sectional images[J]. European Journal of Wood and Wood Products, 2022, 80(5): 1121-1133.
[26]YANG S Y, KWON O, PARK Y, et al. Application of neural networks for classifying softwood species using near infrared spectroscopy[J]. Journal of Near Infrared Spectroscopy, 2020, 28(5/6): 298-307.
[27]MAYRA J, KESKI-SAARI S, KIVINEN S, et al. Tree species classification from airborne hyperspectral and LiDAR data using 3D convolutional neural networks[J]. Remote Sensing of Environment, 2021, 256: 112322.
[28]KITA Y, SUGIYAMA J. Wood identification of two anatomically similar Cupressaceae species based on two-dimensional microfibril angle mapping[J]. Holzforschung, 2021, 75(7): 591-602.
[29]陳承武,王天舒,胡孔法,等.基于卷積神經(jīng)網(wǎng)絡(luò)與投票機(jī)制的蒲黃炮制品近紅外判別方法[J].光譜學(xué)與光譜分析,2022,42(11):3361-3367.
CHEN C W, WANG T S, HU K F, et al. Identification method of pollen typhae processed products based on convolutional neural network and voting mechanism[J]. Spectroscopy and Spectral Analysis, 2022, 42(11): 3361-3367.
[30]江澤慧,黃安民,王斌.木材不同切面的近紅外光譜信息與密度快速預(yù)測(cè)[J].光譜學(xué)與光譜分析,2006,26(6):1034-1037.
JIANG Z H, HUANG A M, WANG B. Near infrared spectroscopy of wood sections and rapid density prediction[J]. Spectroscopy and Spectral Analysis, 2006, 26(6): 1034-1037.
[31]王磊,宦克為,劉小溪,等.基于卷積神經(jīng)網(wǎng)絡(luò)的近紅外光譜全流程分析模型研究[J].分析化學(xué),2022,50(12):1918-1926.
WANG L, HUAN K W, LIU X X, et al. Full-range analysis model of near infrared spectroscopy based on convolutional neural network[J]. Chinese Journal of Analytical Chemistry, 2022, 50(12): 1918-1926.
[32]蔡健榮,黃楚鈞,馬立鑫,等.一維卷積神經(jīng)網(wǎng)絡(luò)的手持式可見(jiàn)/近紅外柑橘可溶性固形物含量無(wú)損檢測(cè)系統(tǒng)[J].光譜學(xué)與光譜分析,2023,43(9):2792-2798.
CAI J R, HUANG C J, MA L X, et al. Hand-held visible/near infrared nondestructive detection system for soluble solid content in mandarin by 1D-CNN model[J]. Spectroscopy and Spectral Analysis, 2023, 43(9): 2792-2798.