董鵬凱 趙上勇 鄭柯鑫 王冀? 高勛? 郝作強 林景全
1) (長春理工大學(xué)理學(xué)院, 長春 130022)
2) (山東師范大學(xué)物理與電子科學(xué)學(xué)院, 濟南 250358)
利用激光誘導(dǎo)擊穿光譜技術(shù)結(jié)合機器學(xué)習(xí)算法, 對東北5 個產(chǎn)地(大興安嶺、集安、恒仁、石柱、撫松)的人參進行產(chǎn)地識別, 建立了主成分分析算法分別結(jié)合反向傳播(BP)神經(jīng)網(wǎng)絡(luò)和支持向量機算法的人參產(chǎn)地識別模型.實驗采集了5 個產(chǎn)地人參共657 組在200—975 nm 的激光誘導(dǎo)擊穿光譜, 經(jīng)光譜數(shù)據(jù)預(yù)處理后, 對C, Mg, Ca, Fe, H, N, O 等元素的8 條特征譜線進行主成分分析, 原光譜數(shù)據(jù)的前3 個主成分累積貢獻率達到92.50%, 且樣品在主成分空間中呈現(xiàn)良好的聚集分類.降維后的前3 個主成分以2∶1 進行隨機抽取,分別作為分類算法的訓(xùn)練集和測試集.實驗結(jié)果表明主成分分析結(jié)合BP 神經(jīng)網(wǎng)絡(luò)及支持向量機的平均識別率分別為99.08%和99.5%.發(fā)生誤判的原因是集安和石柱兩地地理環(huán)境的接近而導(dǎo)致的H, O 兩元素在Ca 元素離子發(fā)射譜線下的歸一化強度相似.本研究為激光誘導(dǎo)擊穿光譜技術(shù)在人參產(chǎn)地的快速識別提供了方法和參考.
人參(panax ginseng)是五加科多年生草本植物, 在中國已有4000 多年的藥用和食用歷史.人參中主要有效成分為人參皂苷和多糖, 還含有維生素類、酶類、有機酸及其酯、蛋白質(zhì)、甾醇及其苷、多肽類、含氮化合物、木質(zhì)素、黃酮類和無機元素等多種成分, 具有滋補強身、預(yù)防疲勞、抗衰老、抗腫瘤、提高免疫功能等多種功效, 被廣泛應(yīng)用于制藥、保健產(chǎn)品、美容產(chǎn)品、飲料等領(lǐng)域, 對內(nèi)分泌系統(tǒng)、心血管疾病和中樞神經(jīng)系統(tǒng)等方面有突出療效[1,2].研究發(fā)現(xiàn), 人參皂苷、多糖等主要有效成分在人參內(nèi)形成、轉(zhuǎn)化與積累等過程與人參產(chǎn)地的土壤環(huán)境、日照環(huán)境和氣候環(huán)境有關(guān), 因此不同人參產(chǎn)地的相同品種人參在臨床療效上存在著較大的差異.目前, 中國人參產(chǎn)地眾多, 同一品種人參質(zhì)量參差不齊, 質(zhì)量監(jiān)控困難.東北三省是我國重要的人參產(chǎn)地, 目前不法商人借“長白山人參”等噱頭出售人參來牟取利益, 導(dǎo)致人參市場充斥大量偽品及混淆品, 嚴(yán)重影響人參的有效使用以及國際市場的推廣.所以人參產(chǎn)地的識別對人參質(zhì)量品牌保護非常重要, 并且對提高中藥制劑的臨床療效均一性和穩(wěn)定性及人參市場的發(fā)展具有重要研究意義.
傳統(tǒng)的“五行”“六體”識別方法對人參種類和質(zhì)量的判斷易受人為因素影響.隨著現(xiàn)代科技的發(fā)展, 通過對藥效成分含量的測定來確定不同產(chǎn)地藥材的差異是重要的中草藥識別方法.光譜技術(shù)因能客觀地反映藥材內(nèi)在質(zhì)量從而被廣泛應(yīng)用于中草藥鑒定中, 常用的光譜檢測方法主要有近紅外光譜(near infrared spectroscopy, NIR)技術(shù)、拉曼光譜(Raman spectroscopy)技術(shù)、熒光光譜(fluorescence spectroscopy)技術(shù)等[3?6].常規(guī)的光譜技術(shù)由于光譜信號微弱很容易受到背景光的影響, 且檢測樣品時處理時間長且復(fù)雜, 無法實現(xiàn)實時、在線和快速檢測.因此, 亟需一種快速可靠的人參產(chǎn)地檢測方法.
激光誘導(dǎo)擊穿光譜技術(shù)(laser inducted breakdown spectroscopy, LIBS)是一種原子發(fā)射光譜技術(shù)[7?9], 適用于所有物質(zhì)(氣態(tài)、液態(tài)、固態(tài)), 具有快速、微損、樣品準(zhǔn)備簡單和多元素同時探測等優(yōu)點, 廣泛地應(yīng)用于爆炸物檢測[10]、文化遺產(chǎn)[11]、生物醫(yī)學(xué)分析[12]、土壤重金屬檢測[13]、地質(zhì)分析[14]、食品安全[15]等領(lǐng)域.利用LIBS 技術(shù)和化學(xué)計量學(xué)方法結(jié)合可實現(xiàn)待測樣品的分類識別.Junjuri和Gundawar[16]利用主成分分析(principal component analysis, PCA)方法和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)兩種算法結(jié)合LIBS 技術(shù),采用PCA 方法對樣品進行分析, 以主成分?jǐn)?shù)據(jù)作為ANN 的輸入量實現(xiàn)了對5 種消費塑料進行鑒定, 最終識別精確度為97%—99%; Velioglu 等[17]利用LIBS 結(jié)合PCA 實現(xiàn)了純下腳料和混合下腳料摻假牛肉樣品的識別; Lin 等[18]使用LIBS 技術(shù)結(jié)合偏最小二乘(PLS-LDA)及支持向量機(support vector machines, SVM)方法實現(xiàn)了鋼種的識別,采用偏最小二乘支持向量機算法(LSSVM)將識別精度由96.25%和95%提高到了100%; Wang 等[19]利用LIBS 結(jié)合PCA 算法和ANN 算法對不同產(chǎn)地、不同部位的當(dāng)歸、黨參、川芎3 種中藥材進行分析鑒定, 達到99.89%的識別精度; 鄭培超等[20]利用隨機森林分類模型結(jié)合LIBS 技術(shù)對石斛進行價格等級分類, 利用袋外數(shù)據(jù)誤差率估計隨機森林在不同的決策樹個數(shù)和分裂屬性集中屬性個數(shù)下的分類效果, 選取最優(yōu)參數(shù), 將平均識別率提高到了96.46%.
目前關(guān)于LIBS 結(jié)合機器學(xué)習(xí)算法對人參產(chǎn)地分類還有待研究.本文基于LIBS 技術(shù)結(jié)合機器學(xué)習(xí)算法對人參產(chǎn)地快速識別, 首先通過PCA 提取人參樣品的LIBS 光譜數(shù)據(jù)的特征量, 分別采用BP 神經(jīng)網(wǎng)絡(luò)(back propagation artificial neural network, BP-ANN)算法、SVM 算法建立人參產(chǎn)地識別模型, 對東北5 個產(chǎn)地的同種人參(白參)進行聚類分析, 實現(xiàn)了人參產(chǎn)地的識別.結(jié)果表明,LIBS結(jié)合機器學(xué)習(xí)方法是實現(xiàn)人參產(chǎn)地快速識別的有效方法.
激光誘導(dǎo)擊穿光譜技術(shù)用于人參產(chǎn)地識別的實驗裝置如圖1 所示.激光光源為輸出波長1064 nm,脈寬10 ns, 重復(fù)頻率10 Hz 的Nd:YAG 激光器(Continuum, surellite II), 激光光束直徑為6 mm,激光光束通過由半波片和格蘭棱鏡組成的能量調(diào)節(jié)系統(tǒng)對誘導(dǎo)擊穿人參等離子體的脈沖能量進行調(diào)控, 激光光束經(jīng)焦距為120 mm 的熔石英玻璃平凸透鏡聚焦在人參樣品表面誘導(dǎo)擊穿產(chǎn)生等離子體.激光光束聚焦焦點位于人參樣品表面內(nèi)0.8 mm, 目的為避免誘導(dǎo)擊穿空氣等離子體, 減少對人參光譜分析帶來干擾.在與人參等離子體膨脹軸向方向成45°的人參等離子體發(fā)射光譜方向上,用焦距為75 mm 的熔石英透鏡收集耦合人參等離子體發(fā)射光譜耦合到配有ICCD 探測器(1024 ×1024 pixel, DH334)的中階梯光柵光譜儀(Andor,Me5000)的光纖探頭, 光譜儀焦距為195 mm, 光譜分辨率為 λ /?λ ≈5000 , 一次光譜探測范圍為200—975 nm.激光器和ICCD 探測器均由數(shù)字脈沖延時發(fā)生器(Standoff, DG645)同步觸發(fā)工作,通過優(yōu)化激光脈沖與ICCD 探測器間的時間延時和ICCD 探測器的探測時間門寬, 設(shè)定延時和門寬分別為1 和5 s, 獲得高信背比的人參LIBS 光譜信號.為避免人參樣品過度燒蝕, 人參樣品固定在三維平移臺上, 使每個激光脈沖作用在人參樣品表面新的位置.實驗中人參LIBS 光譜為100 個脈沖進行平均, 降低脈沖能量抖動對人參LIBS 光譜的穩(wěn)定性影響.實驗均在標(biāo)準(zhǔn)大氣壓、室內(nèi)溫度為22 ℃、空氣相對濕度為25%的條件下開展.
圖1 激光誘導(dǎo)擊穿光譜實驗裝置示意圖Fig.1.Schematic diagram of the experimental setup of LIBS.
實驗所用的人參樣品均為生長年限15 年的白參, 產(chǎn)地分別為遼寧省石柱(SZ)、恒仁(HR), 黑龍江省大興安嶺(DXAL), 吉林省撫松(FS)、集安(JA).LIBS 光譜信號受樣品密度、干燥度及研磨均勻性等物理屬性的影響, 在實驗前先對5 個產(chǎn)地的人參樣品進行純凈、干燥處理, 取干燥后的人參中間支干部位, 使用振動研磨機(安合盟(天津)科技發(fā)展有限公司, PrepM-01)研磨至粉末, 分別經(jīng)50 目和100 目過篩, 取1.5 mg 樣品過篩人參粉末, 使用機械壓片機(安合盟(天津)科技發(fā)展有限公司,FW-40)在25 MPa 壓力下壓制25 min, 制成直徑30 mm、厚度為2 mm 的圓形人參樣品, 用于人參產(chǎn)地識別實驗樣品.
主成分分析(principal component analaysis,PCA)算法是一種數(shù)據(jù)降維的高效信息處理方法,它采用特征分解獲得最大方差的主成分代替原來變量, 可以消除原變量的相關(guān)性, 降低數(shù)據(jù)的維數(shù),提高建模速度和穩(wěn)定性.PCA 分析方法為將人參樣品LIBS 光譜的采樣值整理并代入向量Xi=(xi1,xi2,···,xin) 中( n 為光譜特征值), m 為進行降維的m 組光譜數(shù)據(jù), 對樣本標(biāo)準(zhǔn)化: 標(biāo)準(zhǔn)化采用P維隨機變量, 選取m 個樣品, 構(gòu)造樣本陣, 對樣本陣進行標(biāo)準(zhǔn)變換:
其中, λ 稱為 R 的特征值, 非零向量 R 稱為A 對應(yīng)于特征值 λ 的特征向量; 根據(jù)主成分貢獻率選擇主成分, 計算主成分得分, 將所得主成分作為分類算法的輸入?yún)⒘? 對人參進行產(chǎn)地識別.
誤差反向傳播(back-propagation algorithm,BP)神經(jīng)網(wǎng)絡(luò)[21]是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò), 它利用大量的數(shù)據(jù)進行訓(xùn)練獲得輸入與輸出間的映射關(guān)系, 再通過梯度下降法不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值, 使網(wǎng)絡(luò)的誤差達到最小.圖2為典型的BP 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖.網(wǎng)絡(luò) N 個輸入節(jié)點, L 個輸出節(jié)點, 隱含層包含 Z 個神經(jīng)元.x1,x2,··· ,xN為網(wǎng)絡(luò)的實際輸入, y1,y2,··· ,yL為網(wǎng)絡(luò)的實際輸出.
圖2 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2.Structure of BP neural network.
BP 神經(jīng)網(wǎng)絡(luò)通常由輸入層(input layer)、輸出層(output layer)、一個或多個隱含層(hidden layer)組成.傳遞函數(shù)對誤差和訓(xùn)練時間會有很大的影響, 合理地選擇傳遞函數(shù)能夠降低網(wǎng)絡(luò)誤差, 四種傳遞函數(shù)為trainlm, trainda, traindm, Traindx.激活函數(shù)以及傳遞函數(shù)的確定需要根據(jù)訓(xùn)練數(shù)據(jù)來進行測試、對比與篩選.在進行BP 神經(jīng)網(wǎng)絡(luò)仿真前, 還需要先進行LIBS 光譜數(shù)據(jù)的訓(xùn)練集和測試集選擇, 從而能夠快速實現(xiàn)人參產(chǎn)地鑒定識別.
支持向量機[22](support vector machine, SVM)實現(xiàn)分類的本質(zhì)是找一條分割線, 將所有樣本點盡可能遠離分割線, 即最優(yōu)超平面.設(shè)訓(xùn)練樣本集{(xi,yi),i=1,2,··· ,l} , xi對應(yīng)樣本屬性值, yi對應(yīng)屬性值標(biāo)簽.對于非線性訓(xùn)練集, 通過一個非線性函數(shù)將訓(xùn)練數(shù)據(jù) x 映射到一個高維特征空間, 映射在高維空間中的不同產(chǎn)地人參屬性值向量?(xi)變?yōu)榫€性可分問題.此時需構(gòu)造最優(yōu)分類超平面并得到?jīng)Q策函數(shù).
其中 C 為識別參數(shù), ξi,i=1,··· ,l 為引入的非負松弛變量.采用拉格朗日(Lagrangian)乘子法求解該問題, 得到對偶形式.
其中 K (Xi,Xj)=?(Xi)T?(Xj) 為核函數(shù), 本實驗采用徑向基函數(shù)(radial basis function, RBF)作為 核函數(shù), 即
式 中, σ 表示高斯核函數(shù)寬度.最終, 決策函數(shù)
SVM 核心問題是優(yōu)化懲罰因子 C 及核函數(shù)g( g =1/σ2).懲罰因子控制對大間隔和最小訓(xùn)練錯誤率之間的平衡, 用于核空間上非線性可分?jǐn)?shù)據(jù).本實驗基于交叉驗證和網(wǎng)格搜索對 C 與 g 進行訓(xùn)練, 獲得最佳參數(shù) C , g 進行訓(xùn)練支持向量機算法 , 從而能夠快速實現(xiàn)人參產(chǎn)地鑒定識別.
進行人參產(chǎn)地識別, 需要考慮實驗待測產(chǎn)地人參的LIBS 全光譜信息, 但LIBS 全光譜信息量很大, 進而導(dǎo)致機器學(xué)習(xí)算法計算量過大, 從而人參產(chǎn)地的識別快速性不能得到保證.為此, 選取合適的特征譜線代表人參樣品的全光譜信息, 從而實現(xiàn)快速人參產(chǎn)地識別尤為重要.激光誘導(dǎo)人參的等離子體發(fā)射光譜由線狀光譜疊加在連續(xù)光譜上組成,連續(xù)背景光譜的存在, 導(dǎo)致了LIBS 光譜的信背比變低, 本文采用窗口平移平滑法降低背景連續(xù)光譜, 5 個產(chǎn)地人參的激光誘導(dǎo)擊穿光譜如圖3 所示.根據(jù)美國NIST 原子光譜數(shù)據(jù)庫對人參LIBS 光譜進行了元素標(biāo)記, LIBS 光譜中存在Mg, Ca, Fe 等礦質(zhì)營養(yǎng)元素以及C, H, N, O 等人參組成元素的原子發(fā)射光譜.不同產(chǎn)地人參中元素含量不同, 對應(yīng)的LIBS 特征譜線強度有一定的差異, 因而通過多條元素特征光譜強度可對人參產(chǎn)地進行識別.特征光譜的選擇應(yīng)滿足光譜線的重疊少、自吸收現(xiàn)象弱、譜線強度大(信背比高)等條件, 最終選取Mg,Ca, Fe, C, H, N, O 共7 個元素8 條特征譜線進行人參產(chǎn)地識別(特征譜線信息如表1 所列).
圖3 人參LIBS 光譜(產(chǎn)地分別為大興安嶺、集安、恒仁、石柱、撫松)Fig.3.LIBS spectra of ginseng(the ginseng origins are DXAL, JA, HR, SZ and FS).
表1 人參特征譜線及波長Table 1.Characteristic line and wavelength of ginseng.
在LIBS 實驗過程中, LIBS 光譜強度受到外部氣體流動、激光脈沖能量抖動及樣品表面元素含量的變化等因素影響, 從而導(dǎo)致在給定實驗條件下的LIBS 光譜強度存在一定的起伏, 這將對依據(jù)LIBS 光譜譜線強度作為元素定量分析產(chǎn)生一定的誤差.因此, 選取LIBS 光譜中多次重復(fù)性實驗較為穩(wěn)定且光譜強度值較大的特征譜線進行LIBS光譜強度歸一化處理, 能夠有效降低外部實驗環(huán)境等因素造成的LIBS 光譜強度起伏對定量分析的影響.本文人參樣品LIBS 光譜中Ca I 393.40 nm特征譜線強度最大, 且多次重復(fù)實驗的光譜強度穩(wěn)定, 因此選取譜線強度最大的Ca I 393.40 nm 作為歸一化標(biāo)準(zhǔn).為降低譜線強度波動對分類結(jié)果的影響, 每個LIBS 光譜中的8 條特征譜線強度均以Ca:393.40 nm 光譜強度作歸一化處理, 最終得到5 個產(chǎn)地人參的657 組數(shù)據(jù)(DXAL 117 組、JA 150組、HR 153 組、SZ 96 組、FS 141 組), 每組數(shù)據(jù)有8 個屬性, 作為PCA 的輸入: Xi=(xi1,xi2,··· ,xi8).
由PCA 分析出人參LIBS 光譜中Mg, Ca,Fe, C, H, N, O 共7 個元素8 條特征譜線對LIBS全譜的主成分貢獻情況, 得到前10 個主成分的貢獻率和主成分的累計貢獻率如圖4(a)所示, PC1,PC2 和 PC3 主成分累計貢獻率為92.5%, 可認(rèn)為PC1, PC2, PC3 包含了原始人參LIBS 光譜的大量信息.PC1, PC2 和 PC3 3 個主成分向量組成的三維散點圖如圖4(b)所示.圖4 中每個散點代表一個人參樣本, 可以看出同產(chǎn)地人參樣品的特征LIBS 光譜經(jīng)PCA 處理后存在特定的聚集區(qū)域,顯示了良好的聚類效果.結(jié)果表明結(jié)合PCA 處理后的LIBS 光譜數(shù)據(jù)能夠表征人參的產(chǎn)地特征信息, 且能將不同產(chǎn)地人參間的差異進行有效區(qū)分.由圖4(b)可知, HR, FS 和DXAL 等產(chǎn)地人參的聚類性較好, 相互之間區(qū)分度高, JA 和SZ 產(chǎn)地人參樣品也可聚在一起, 但存在部分重疊.
通過PCA 算法對5 個人參產(chǎn)地、共657 組LIBS數(shù)據(jù)進行光譜數(shù)據(jù)降維處理, 優(yōu)化PCA 算法參量,實現(xiàn)PC1, PC2 和 PC3 前3 個主成分累計貢獻率為92.5%, 就以PC1, PC2 和 PC3 主成分代替人參的LIBS 特征光譜, 從而構(gòu)建出人參樣品LIBS光譜的特征空間向量, 特征向量構(gòu)成的 6 57×3 的數(shù)據(jù)矩陣分別作為BP 神經(jīng)網(wǎng)絡(luò)與SVM 產(chǎn)地識別算法的輸入量, 進而依據(jù)PCA-BP 和PCA-SVM算法實現(xiàn)人參產(chǎn)地分類識別.BP 神經(jīng)網(wǎng)絡(luò)人參產(chǎn)地識別算法按產(chǎn)地以2:1 隨機選取經(jīng)主成分降維處理的657 組數(shù)據(jù), 分為438 組測試集(Test)和219 組訓(xùn)練集(Train).訓(xùn)練集構(gòu)成的 4 38×3 維數(shù)據(jù)矩陣作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸入量.網(wǎng)絡(luò)的輸入向量為三維數(shù)據(jù), 因此BP 神經(jīng)網(wǎng)絡(luò)的輸入層和輸出層的神經(jīng)元分別為3 和5.運行經(jīng)多次訓(xùn)練, 最佳隱含層神經(jīng)元個數(shù)為11, 輸入層激勵函數(shù)為tansig,輸出層激勵函數(shù)為purlin.網(wǎng)絡(luò)初始化參數(shù)的迭代數(shù)設(shè)為1000, 學(xué)習(xí)率為0.1, 誤差目標(biāo)為0.0001.
圖4 (a)各主成分貢獻率和主成分累積貢獻率; (b)前3 個主成分的三維散點圖Fig.4.(a) Contribution rate of each principal component and cumulative contribution rate of principal component; (b) three-dimensional scatter plot of first three principal components.
圖5 (a)為BP 神經(jīng)網(wǎng)絡(luò)最佳驗證性能圖, 訓(xùn)練誤差隨訓(xùn)練次數(shù)不斷減小, 測試均方差(MSE)也趨于平緩, 驗證曲線MSE 不再變化時網(wǎng)絡(luò)訓(xùn)練截止, 網(wǎng)絡(luò)性能最佳坐標(biāo)為(28, 0.03), 達到了最佳網(wǎng)絡(luò)識別精度.在此基礎(chǔ)上, 以BP 神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)對人參產(chǎn)地分類結(jié)果如圖5(b)所示, 圖中“*”表示測試標(biāo)簽, “○”表示實際標(biāo)簽.當(dāng)“*”和“○”重合時表明預(yù)測準(zhǔn)確, 結(jié)果顯示有2 個JA 產(chǎn)地的人參被誤判為SZ 產(chǎn)地, 其他產(chǎn)地100%識別, 平均識別精度達到99.08%, 人參產(chǎn)地識別算法模型運行時間為2.48 s, 同時結(jié)果表明神經(jīng)網(wǎng)絡(luò)收斂性良好, 誤差個數(shù)穩(wěn)定, 高質(zhì)量地實現(xiàn)了人參產(chǎn)地判別.
人參產(chǎn)地識別的SVM 算法的數(shù)據(jù)選取經(jīng)主成分降維處理的657 組數(shù)據(jù), 建立與BP 神經(jīng)網(wǎng)絡(luò)算法相同的訓(xùn)練集和測試集, 使用交互檢驗法優(yōu)化參數(shù), 得到PCA-SVM 的網(wǎng)格參數(shù)優(yōu)化如圖6(a)所示.圖6(a)的x, y 軸分別表示C, g 取以2 為底的對數(shù)的值, 使用網(wǎng)格搜索方法的分類(SVC)參數(shù)計算出最佳懲罰因子 C 為0.14, 最優(yōu)核函數(shù)g 為36.76, 此時交叉驗證準(zhǔn)確率為99.09%, 訓(xùn)練集準(zhǔn)確率為99.07%.經(jīng)參數(shù)優(yōu)化后SVM 算法對人參產(chǎn)地識別的預(yù)測運行結(jié)果如圖6(b)所示.圖6(b)中“△”表示預(yù)測標(biāo)簽, “○”表示實際標(biāo)簽.結(jié)果表明, 1 個JA 產(chǎn)地的人參被誤判為SZ, 識別精度為99.8%.其他產(chǎn)地的識別精度均為100%, 平均識別精度為99.5%, 人參產(chǎn)地識別算法模型運行時間為14.03 s.
圖5 (a) BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練性能曲線; (b) 分類結(jié)果圖Fig.5.(a) BP neural network training performance curve; (b) classification results.
圖6 (a) PCA-SVM 網(wǎng)格參數(shù)優(yōu)化; (b)分類識別結(jié)果圖Fig.6.(a) PCA-SVM grid parameter optimization; (b) classification recognition result graph.
表2 人參產(chǎn)地識別結(jié)果對比Table 2.Comparison of ginseng origin identification results.
PCA-BP, PCA-SVM 分類算法對人參產(chǎn)地的識別結(jié)果如表2 所列.由LIBS 技術(shù)結(jié)合機器學(xué)習(xí)的研究結(jié)果可知, PCA-BP 和PCA-SVM 兩種分類算法的分類精度均達到了99%以上, 實現(xiàn)了目標(biāo)分類精度, 但在JA 人參產(chǎn)地的識別上均發(fā)生了一定數(shù)量的誤判.在算法模型運行時間上, PCABP 算法和PCA-SVM 算法的人參產(chǎn)地識別運算時間分別為2.48 和14.03 s, PCA-BP 算法相對于PCA-SVM 算法的建模速度快了11.545 s, 有明顯優(yōu)勢.主要原因可能為BP 神經(jīng)網(wǎng)絡(luò)算法具有自主學(xué)習(xí)能力, 而SVM 算法需通過核函數(shù)將非線性問題實現(xiàn)線性的轉(zhuǎn)化, 識別能力依靠分類超平面的劃分, 需尋找最優(yōu)的核函數(shù)以滿足識別精度要求, 因而建模時間較BP 神經(jīng)網(wǎng)絡(luò)算法慢.
人參的品質(zhì)主要由人參皂苷及人參多糖的含量決定, 人參皂苷是固醇類化合物, 人參中皂苷和多糖主要由C, H, O 等元素決定.通過分析5 個產(chǎn)地人參C I 247.8 nm, H I 656.39 nm, O I 777.42 nm元素在Ca II 394.2 nm 元素譜線強度下的歸一化強度結(jié)果如圖7 所示.可以看出, JA 和SZ 兩地人參在組成成分上雖因產(chǎn)地的不同導(dǎo)致金屬元素的原子發(fā)射譜線強度存在差異, 但其H I 656.39 nm與O I 777.42 nm 兩條譜線強度的歸一化強度幾乎相同, 從而導(dǎo)致JA 和SZ 人參產(chǎn)地分類時發(fā)生誤判.
圖7 人參LIBS 譜中C, H, O 元素譜線的歸一化強度比Fig.7.Normalized intensity ratios of C, H and O element lines in the LIBS spectrum.
基于激光誘導(dǎo)擊穿光譜技術(shù)結(jié)合機器學(xué)習(xí)算法對5 個產(chǎn)地的人參進行了產(chǎn)地的分類識別, 測試集219 組光譜中, PCA-BP 算法和PCA-SVM 算法分別正確識別了217 組和218 組, 兩種算法的識別精度分別為99.08%和99.5%.但在分類速度上,主成分分析結(jié)合神經(jīng)網(wǎng)絡(luò)(PCA-BP)算法明顯優(yōu)于主成分分析結(jié)合支持向量機(PCA-SVM)算法.JA和SZ 兩種人參樣本LIBS 譜線中的H I 656.39 nm和O I 777.42 nm 譜線在以Ca:393.40 nm 光譜強度作歸一化處理后的強度幾乎相同, 最終導(dǎo)致兩產(chǎn)地發(fā)生誤判.實驗結(jié)果證明, PCA-BP 算法較PCASVM 算法訓(xùn)練速度快, 訓(xùn)練結(jié)果較為穩(wěn)定, 對5 個產(chǎn)地人參的分類精度較高, 因此利用LIBS 技術(shù)結(jié)合機器學(xué)習(xí)算法可實現(xiàn)人參產(chǎn)地的快速識別.