国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)和近紅外光譜的茶葉品種和等級鑒別

2022-11-24 08:28:36陽,俊,燕,鑫,春,玲*
分析科學(xué)學(xué)報 2022年5期
關(guān)鍵詞:特征提取波長光譜

圣 陽, 焦 俊, 滕 燕, 馬 鑫, 李 春, 蔣 玲*

(南京林業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,江蘇南京 210037)

茶葉不僅具有很高的經(jīng)濟價值,而且茶葉中富含茶多酚、氨基酸、咖啡堿等物質(zhì)[1],有益人體健康,深受消費者的喜愛。不同品種和等級的茶葉在價格上相差巨大,市場上茶葉銷售以假亂真、以次充好的現(xiàn)象時有發(fā)生[2]。感官評審法通過對茶葉外形、湯色、香氣、滋味等方面對茶葉品種和等級進行鑒別[3],但是這種方法主觀因素影響大,缺乏準確性。理化方法主要用于茶葉內(nèi)部成分的檢測[4],主要有氣相色譜[5]、液相色譜[6]等方法。這些理化方法不僅檢測成本高,而且測試周期長、操作復(fù)雜、專業(yè)性要求高,所以急需對茶葉品質(zhì)實現(xiàn)快速、無損、低成本檢測[7]。

近紅外光譜(Near Infrared Spectroscopy,NIRS),波長范圍在780~2 500 nm[8],可以用于含氫基團物質(zhì)的定性定量檢測,具有快速、無損、簡單的特點[9]。目前已有學(xué)者將近紅外光譜應(yīng)用于茶葉檢測相關(guān)領(lǐng)域,實現(xiàn)對茶葉品種[10]、產(chǎn)地[11]、等級[12]和是否發(fā)生霉變[13]的鑒別。目前大多采用主成分分析法(Principal Component Analysis,PCA)進行光譜特征提取,降低模型的復(fù)雜度,但PCA僅從數(shù)據(jù)方差最大的方向?qū)?shù)據(jù)進行壓縮[14],沒有考慮到近紅外光譜的實際物理特征,降維后的數(shù)據(jù)丟失了光譜的原始信息,模型的可解釋性低。而聯(lián)合區(qū)間偏最小二乘法[15](synergy interval PLS,siPLS)、連續(xù)投影算法[16](Successive Projections Algorithm,SPA)、競爭性自適應(yīng)重加權(quán)算法[17](Competitive Adaptive Reweighting Algorithm,CARS)可以在保留原始光譜信息的基礎(chǔ)上,實現(xiàn)對光譜的特征提取,在實際應(yīng)用中可以僅對特征波長附近的光譜數(shù)據(jù)進行采集,提高檢測的效率。Ren等[18]采用PCA+SVM方法快速分析評價紅茶的品質(zhì),并區(qū)分紅茶產(chǎn)地,鑒別不同產(chǎn)地紅茶地理起源,準確率達94.3%。Meng等[19]利用PCA+BP-ANN對福建三個品種的茶葉樣品進行鑒別,識別準確率達到95.6%。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)具備局部感知,權(quán)值共享的特點[20],模型的運行效率較高,從而被廣泛應(yīng)用在計算機視覺,自然語言處理,語音識別等領(lǐng)域。近年來有學(xué)者利用近紅外光譜與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合檢測夏威夷果[21]、煙葉[22]、花椒[23]等,對在茶葉品種和等級的鑒別還少有文獻報道。使用機器學(xué)習(xí)或者深度學(xué)習(xí)模型通常需要大量的樣本數(shù)量保證模型的準確性和穩(wěn)定性,而采集大量的光譜數(shù)據(jù)需要很高的成本,可采用數(shù)據(jù)增強的方式擴充數(shù)據(jù)集。

基于以上背景,本文對茶葉光譜數(shù)據(jù)進行預(yù)處理,分別采用聯(lián)合區(qū)間偏最小二乘法(siPLS)、連續(xù)投影算法(SPA)、競爭性自適應(yīng)重加權(quán)算法(CARS)選取光譜特征波長,對特征波長數(shù)據(jù)建立基于CNN的茶葉品種和等級的鑒別模型,最后使用平移法、線性疊加法、添加噪聲法對光譜數(shù)據(jù)集進行數(shù)據(jù)增強,驗證特征提取結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型的穩(wěn)定性。

1 實驗部分

1.1 樣品收集與制備

市售的5種茶葉分別是龍井、雨花茶、碧螺春、金駿眉和鐵觀音,分別制備30個樣本共計150個樣本。將市售的4個不同等級的龍井茶葉,分別制備30個樣本,共計120個樣本。所有樣本低溫避光儲藏,具體信息如表1所示。實驗前,將不同品種和等級的茶葉樣品粉碎成粉末,并通過100目篩后,取茶葉粉末2 g壓片制成樣品。

表1 5個品種和4個等級茶葉樣品信息Table 1 Sample information of five varieties and four grades of tea

1.2 近紅外光譜采集

實驗使用美國PerkinElmer Lambda 950紫外-可見近紅外分光光度計,對壓片樣品進行漫反射光譜掃描,波長范圍800~2 500 nm,設(shè)置間隔為1 nm,每個樣品進行3次光譜采集,取3次采集光譜的均值作為該樣品的光譜。維持室溫在25 ℃左右,相對濕度保持在45%~50%,測試前儀器預(yù)熱3 min以保證儀器的穩(wěn)定性。

1.3 光譜預(yù)處理

由于檢測器檢測到的光譜信號不僅包含樣品信息,還有各種儀器干擾信息,這些干擾信息會影響所建立模型穩(wěn)定性和可靠性,因此有必要在數(shù)據(jù)處理前對采集的光譜數(shù)據(jù)進行合理的處理[24],從而減弱甚至消除非目標因素對光譜信息的影響。本文用小波分析(WT)算法對光譜數(shù)據(jù)進行平滑去噪預(yù)處理。

1.4 特征波長選擇

1.4.1 siPLSsiPLS是一種常用的特征變量篩選方法,是聯(lián)合同一次區(qū)間劃分后的子區(qū)間建立的PLS模型,最終篩選出精度較高的特征變量。為了得到最佳的篩選結(jié)果,需要對子區(qū)間的劃分數(shù)及聯(lián)合區(qū)間數(shù)進行優(yōu)化,以交互驗證均方根誤差(Root Mean Square Error of Cross Validation,RMSECV)為評判標準,Bias是檢驗樣品的預(yù)測值與真實值之間的整體平均偏差。

1.4.2 SPASPA是一種使矢量空間共線性最小化的前向變量選擇算法,在有效信息獲取和降低共線信息的研究中取得了較好的效果。通過投影方式選取線性關(guān)系最小的波長組合,從光譜信息中尋找含有最低冗余信息的變量組,使得變量之間的共線性達到最小,同時保留原始數(shù)據(jù)的絕大部分特征,被選取的特征波長物理意義明確,具有很強的解釋能力,因此,可以有效地提高建模的速度以及模型的穩(wěn)定性。

1.4.3 CARSCARS算法利用自適應(yīng)重加權(quán)采樣手段選出PLS模型中回歸系數(shù)絕對值相對較大的波長點,去除權(quán)重相對較小的波長點,并使用RMSECV值最低的子集,可以有效地尋找到變量的最優(yōu)組合。

1.5 模型的方法及評價指標

1.5.1 CNNCNN是深度學(xué)習(xí)中最經(jīng)典的模型之一,它巧妙的減少了參數(shù)數(shù)量并且達到了全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)不了的效果。CNN的基本結(jié)構(gòu)通常由卷積層、池化層和全連接層三個部分組成,具體細節(jié)又可以分為濾波器、步長、卷積操作和池化操作等。由于近紅外光譜是一維信號,因此采用的卷積核為一維卷積核。池化是一種非線性的降采樣方法,主要是對卷積層輸出的特征值進行降維,減少運算規(guī)模。目前,池化方式主要分為最大值池化和平均值池化兩種方式,本工作則采用最大池化法對模型進行降采樣處理。為了防止過擬合現(xiàn)象,本模型選擇交叉熵函數(shù)(Cross-entropy)與模型權(quán)重系數(shù)L2正則化的結(jié)合作為模型的損失函數(shù)(Loss function)。

(1)

其中

(2)

式中,zi為第i個節(jié)點的輸出值;C為輸出節(jié)點的個數(shù),即分類的類別個數(shù);p(i)是輸出的概率值;W為模型權(quán)重;λ為正則化參數(shù)。

1.5.2 模型評價指標本研究將識別準確率(Accuracy)作為茶葉品種和等級鑒別模型的判別指標。

(3)

其中,Ncorrect為測試集中預(yù)測正確的數(shù)量;Ntotal為測試集樣本總數(shù)量。

2 結(jié)果與討論

2.1 光譜分析

用小波函數(shù)Daubechies的正交小波基Db3進行光譜信號去噪,其中分解尺度為4。圖1為隨機選取某一樣本處理前后的光譜,從中可以看出平滑去噪效果明顯。

圖1 隨機選取樣本的原始光譜和小波變換處理后的光譜Fig.1 Original spectrum of randomly selected samples and the spectrum after wavelet transform

圖2(a)和(b)分別為5個不同茶葉品種和4個不同龍井茶等級經(jīng)預(yù)處理后的近紅外光譜??梢钥闯霾煌贩N和等級的茶葉光譜變化趨勢相似,如在1 400~1 500 nm,1 900~2 000 nm,2 200~2 400 nm范圍內(nèi)有強度不同的吸收峰,由吸收峰的位置結(jié)合茶葉化學(xué)組分分析,以上吸收峰依次為氨基酸(R-NH),茶多酚(=C-H),咖啡堿(-OH)類化合物。不同品種和等級茶葉的茶多酚、氨基酸和咖啡堿等物質(zhì)成分的含量有差異,這些差異是應(yīng)用近紅外光譜實現(xiàn)茶葉品種和等級快速檢測的光譜信息基礎(chǔ)。要進一步找到與茶葉更為密切的特征波長,需要利用化學(xué)計量學(xué)方法對隱含特征波長進一步挖掘[25]。

圖2 5種茶葉預(yù)處理后的平均光譜(a)和4個等級龍井茶葉預(yù)處理后的平均光譜(b) Fig.2 Average spectra of 5 kinds of tea after pretreatment(a) and average spectra of 4 grades of Longjing tea after pretreatment(b)

2.2 特征波長選擇

2.2.1 siPLS特征波長選擇以5種茶葉光譜數(shù)據(jù)為例,4:1劃分訓(xùn)練集和測試集,經(jīng)反復(fù)比較,當劃分區(qū)間數(shù)為20,聯(lián)合區(qū)間數(shù)為4,對應(yīng)選取的子區(qū)間的波數(shù)范圍為1 215~1 300 nm,1 500~1 585 nm,1 800~1 885 nm,2 200~2 285 nm波長區(qū)間,一共340個波長變量,最優(yōu)波長區(qū)間如圖3(a)所示。此時測試集的RMSECV最小為0.0435,相關(guān)系數(shù)r為0.9992,如圖3(b)所示。

圖3 siPLS選取的最優(yōu)子區(qū)間(a)和相關(guān)系數(shù)及誤差(b) Fig.3 Optimal subinterval(a) and correlation coefficient and error(b) selected by siPLS

2.2.2 SPA特征波長選擇SPA在選取截取后的訓(xùn)練集光譜數(shù)據(jù)的特征波長點時,利用均方根誤差(Root Mean Square Error,RMSE)最小化原則選出均方根誤差的導(dǎo)數(shù)變小的過渡點,在過渡點之前冗余信息被剔除。由圖4(a)可知最后選取的特征波長數(shù)為15個,RMSE為0.0634。圖4(b)為選取的15個特征波長,依次為912、1 186、1 506、1 621、1 734、1 877、1 902、1 937、2 024、2 185、2 216、2 327、2 376、2 409、2 452 nm,這些波長基本都在茶葉光譜的吸收峰附近。

圖4 SPA特征波長選取個數(shù)(a)和選取的特征波長(b)Fig.4 Number of SPA characteristic wavelengths selected(a) and selected characteristic wavelengths(b)

2.2.3 CARS特征波長選擇對預(yù)處理后的訓(xùn)練集光譜數(shù)據(jù)使用CARS進行特征波長選擇,經(jīng)反復(fù)嘗試,本實驗將蒙特卡羅采樣次數(shù)設(shè)定為50,采用5折交叉驗證。由圖5(a)可知,隨著取樣運行次數(shù)的增加,選取變量的數(shù)量逐步遞減。由圖5(b)可知,RMSECV值先緩慢遞減后遞增。RMSECV值遞減,說明種茶葉光譜數(shù)據(jù)中部分無用的信息被剔除,RMSECV值遞增,說明茶葉光譜數(shù)據(jù)中有部分重要信息被剔除。當RMSECV值達到最小時,各變量的回歸系數(shù)如圖5(c)中豎線處,此時的采樣運行次數(shù)是17,RMSECV=0.014,CARS提取的最優(yōu)波長點數(shù)量為19。所選取的特征波長依次為891、972、1 190、1 233、1 421、1 463、1 537、1 549、1 635、1 689、1 735、1 748、1 901、1 967、1 973、2 004、2 112、2 134、2 219 nm。

圖5 CARS特征波長選取取樣變量數(shù)(a)、RMSECV(b)和回歸系數(shù)路徑(c) Fig.5 CARS characteristic wavelength selection sampling variable number(a),RMSECV(b) and regression coefficient path(c)

2.3 基于CNN的茶葉品種和等級鑒別

2.3.1 CNN搭建在建模之前先對光譜數(shù)據(jù)集進行劃分,按照4∶1劃分訓(xùn)練集和測試集,并采用5折交叉驗證,輸出為模型的平均正確率。CNN通常由卷積層(Convolutional layer)、池化層(Pooling layers)與全連層(Fully connected layers,F(xiàn)C)等構(gòu)成。卷積層用于提取特征,池化層可以減小卷積層提取的特征維數(shù),從而加速神經(jīng)網(wǎng)絡(luò)收斂,全連接層可將網(wǎng)絡(luò)前端輸出的特征還原給輸出層,最后由輸出層輸出分類結(jié)果。對特征波長選取后的光譜數(shù)據(jù),搭建了5層的卷積神經(jīng)網(wǎng)絡(luò),包括了3個卷積層和2個全連接層,具體實現(xiàn)過程如圖6所示,卷積層均使用大小為1×3×1的卷積核(kernel),步長(stride)設(shè)置為1,池化方式采用最大池化(Max Pooling,MP),卷積層的卷積核數(shù)量(kernel number)分別為32、64和128,將卷積運算后的光譜數(shù)據(jù)輸入到全連接層,兩個全連接層的神經(jīng)元個數(shù)分別為256和512個(以siPLS提取的茶葉特征波長數(shù)據(jù)為例,SPA和CARS結(jié)構(gòu)與之相同)。

圖6 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Convolution neural network structure diagram

2.3.2 CNN訓(xùn)練與測試CNN的訓(xùn)練和優(yōu)化依賴于損失函數(shù),損失函數(shù)計算預(yù)測值和真實值之間的誤差,通過反向傳播算法將誤差從最后一層反向傳播至網(wǎng)絡(luò)各層并更新權(quán)值。更新后的參數(shù)繼續(xù)參與訓(xùn)練,循環(huán)往復(fù),直到損失函數(shù)值達到最小,即達到了最終訓(xùn)練的目的。損失函數(shù)下降采用Adam優(yōu)化器[26],選擇訓(xùn)練過程中最佳梯度下降方向,可加速模型的收斂。學(xué)習(xí)率(learning-rate)初始化為0.01,dropout設(shè)置為0.5,迭代次數(shù)設(shè)置為500后開始訓(xùn)練。如果測試集損失值相比上一個訓(xùn)練周期沒有下降,則經(jīng)過50個周期后停止訓(xùn)練,以防止過擬合,不同模型在茶葉品種和等級鑒別的結(jié)果如圖7所示。

圖7(a)、7(b)為全光譜結(jié)合卷積神經(jīng)網(wǎng)絡(luò)建模結(jié)果,訓(xùn)練集損失值(loss)和測試集損失值(val_loss)在訓(xùn)練過程中迅速下降,模型為過欠擬合狀態(tài),模型的準確度較低。經(jīng)過特征波長選取后,相比圖7(c)、7(d) 的siPLS+CNN模型和圖7(e)、7(f)的SPA+CNN模型,圖7(g)、7(h)的CARS+SPA模型測試集精度更高,模型訓(xùn)練效果更好。

圖7 全光譜品種鑒別結(jié)果(a)、全光譜等級鑒別結(jié)果(b)、siPLS+CNN品種鑒別結(jié)果(c)、siPLS+CNN等級鑒別結(jié)果(d)、SPA+CNN品種鑒別結(jié)果(e)、SPA+CNN等級鑒別結(jié)果(f)、CARS+CNN品種鑒別結(jié)果(g)、CARS+CNN等級鑒別結(jié)果(h)Fig.7 Full spectra variety identification results(a),full spectra grade identification results(b),siPLS+CNN variety identification results(c),siPLS+CNN grade identification results(d),SPA+CNN variety identification results(e),SPA+ CNN grade identification results(f),CARS+CNN variety identification results(g),CARS+CNN grade identification results(h)

表2為采用不同特征提取方法結(jié)合CNN模型對5種茶葉和4個茶葉等級分類檢測的結(jié)果,在全光譜范圍類,卷積神經(jīng)網(wǎng)絡(luò)模型在茶葉品種和等級鑒別的精度僅有66.7%和75%,這是由于全光譜中含有許多無用信息且變量數(shù)過多。經(jīng)過特征波長提取后的光譜數(shù)據(jù)再結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型,在茶葉品種和等級的鑒別上可以實現(xiàn)更好的檢測精度,其中siPLS+CNN對品種和等級區(qū)分分別達到了91.67%和93.33%的準確率,SPA+CNN提高到95.83%和96.67%的準確率,CARS+CNN將準確率進一步提升到97.72%和98.67%。

表2 特征提取及卷積神經(jīng)網(wǎng)絡(luò)建模結(jié)果Table 2 Results of feature extraction and convolution neural network modeling

表3為特征提取結(jié)合支持向量機(Support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)、極端梯度提升(Extreme gradient boosting,Xgboost)、隨機森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)模型在茶葉品種和等級的鑒別結(jié)果(僅列舉CARS特征提取方法),模型參數(shù)均已調(diào)到最優(yōu),其中CARS+Xgboost模型表現(xiàn)最好,在品種和等級鑒別分別實現(xiàn)91.56%和93.33%的正確率,但和特征提取結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)果仍有差距。

表3 特征提取結(jié)合其他分類模型結(jié)果Table 3 Results of feature extraction combined with other classification models

2.3.3 模型穩(wěn)定性驗證針對機器學(xué)習(xí)模型所需樣本量大的問題,本文采用平移法、添加噪聲法和線性疊加法三種數(shù)據(jù)增強的方法對原始的光譜數(shù)據(jù)進行擴充。圖8為隨機選取的鐵觀音茶葉原始光譜通過不同方法的數(shù)據(jù)增強結(jié)果,圖8(a)為平移法生成的光譜數(shù)據(jù),將原始光譜的橫坐標隨機左右移動1~5 nm實現(xiàn)。圖8(b)為通過線性疊加法生成光譜數(shù)據(jù),將兩個隨機樣本光譜數(shù)據(jù)求和之后再除以比例生成。圖8(c)為添加噪聲法生成的光譜數(shù)據(jù),通過添加1~20 dB的高斯白噪聲得到。

圖8 平移法(a)、線性疊加法(b)和添加噪聲法(c)Fig.8 Translation method(a),linear superposition method(b) and noise addition method(c)

利用以上3種方法將原始光譜5個不同品種和4個等級的茶葉各擴充500個光譜數(shù)據(jù),將增強的光譜數(shù)據(jù)和原始光譜數(shù)據(jù)混合建模,按照4∶1的比例劃分訓(xùn)練集和測試集,采用5折交叉驗證,CARS+CNN模型的分類結(jié)果如表4所示(僅列舉CARS+CNN模型結(jié)果)。CARS+CNN模型在原始光譜的茶葉品種和等級的鑒別準確率為97.72%和98.67%,通過表4的結(jié)果可知,擴充后的數(shù)據(jù)集在CARS+CNN的建模結(jié)果和原始光譜結(jié)果非常接近,平移法和線性疊加法對模型的精度略有提升,而添加噪聲法使模型精度略有下降。總之,CARS+CNN模型在三種不同數(shù)據(jù)增強方法擴充的數(shù)據(jù)集都實現(xiàn)了和原始光譜建模相近的結(jié)果,說明了原始光譜建立的CARS+CNN模型具有很好的穩(wěn)定性。

表4 數(shù)據(jù)增強的卷積神經(jīng)網(wǎng)絡(luò)建模結(jié)果Table 4 Data-enhanced convolutional neural network modeling results

3 結(jié)論

本文利用近紅外光譜技術(shù),通過對光譜數(shù)據(jù)進行特征提取,對選取后特征數(shù)據(jù)建立卷積神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)了茶葉品種和等級的鑒別。其中SPA+CNN對茶葉品種和等級識別率分別達95.83%和96.67%,CARS+CNN對茶葉品種和等級識別率分別達97.72%和98.67%,為后續(xù)相應(yīng)裝置的研發(fā)提供了模型支持。同時,特征提取結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型在茶葉品種和等級鑒別結(jié)果優(yōu)于傳統(tǒng)的分類模型。本文使用平移法、線性疊加法、添加噪聲法對光譜數(shù)據(jù)集進行數(shù)據(jù)增強,驗證了特征提取結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型的穩(wěn)定性。因此,特征提取結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方法,可以實現(xiàn)近紅外光譜茶葉品種和等級的高精度鑒別,為茶葉品種和等級的快速鑒別提供幫助,減少專業(yè)人員的感官評審工作量,可作為傳統(tǒng)化學(xué)檢測法的有效補充。

猜你喜歡
特征提取波長光譜
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
基于三維Saab變換的高光譜圖像壓縮方法
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
雙波長激光治療慢性牙周炎的療效觀察
Bagging RCSP腦電特征提取算法
日本研發(fā)出可完全覆蓋可見光波長的LED光源
中國照明(2016年4期)2016-05-17 06:16:15
星載近紅外高光譜CO2遙感進展
便攜式多用途光波波長測量儀
物理實驗(2015年9期)2015-02-28 17:36:46
基于MED和循環(huán)域解調(diào)的多故障特征提取
苦味酸與牛血清蛋白相互作用的光譜研究
谷城县| 离岛区| 霞浦县| 墨玉县| 普陀区| 玉田县| 永年县| 岚皋县| 甘德县| 马尔康县| 昆明市| 滦南县| 四平市| 桐柏县| 通山县| 荔波县| 专栏| 卓资县| 萍乡市| 磐石市| 鸡东县| 曲阳县| 呼图壁县| 西贡区| 得荣县| 东宁县| 从江县| 永安市| 贺兰县| 美姑县| 清水河县| 陆丰市| 邯郸市| 六安市| 永福县| 两当县| 台湾省| 大连市| 阿尔山市| 濉溪县| 五寨县|