余靜孝,韋慶益,羅 潔,李 茜,蒲洪彬
(1.華南理工大學食品科學與工程學院,廣東 廣州 510641;2.江門市華訊方舟科技有限公司,廣東 江門 529000)
陳皮(Citri Reticulatae Pericarpium)為蕓香科植物橘及其栽培變種的干燥成熟果皮[1]。陳皮中含有大量以橙皮苷、川陳皮素和橘皮素為主的黃酮類活性成分,這些活性成分通常具有抗過敏、降低血管脆性、維持血壓正常滲透壓、抗病毒、抑制癌變、降低人體膽固醇含量和降血壓等生理作用[2]。自然界的環(huán)境多種多樣,陳皮的種類也多種多樣,由于陳皮品質與產地息息相關,因而對陳皮產地的鑒別顯得尤為重要[3]。
目前,對陳皮產地的鑒別方法很多。李旻等[4]采用分光測色計獲得陳皮顏色信息實現(xiàn)了對中藥材品種的簡單鑒別,此方法雖然簡單、快速,但是不法商販通常會對陳皮進行染色,給這種陳皮表面性狀鑒別方法帶來一定的干擾。對于陳皮內在成分的鑒別成為了一種常見的方法,宋玉鵬等[5]采用高效液相色譜法(HPLC)法測定了不同陳皮來源藥材中橙皮苷、川陳皮素、橘皮素和辛弗林的含量,證實了不同產地的陳皮中活性有所差異,進一步對陳皮產地進行了鑒別,化學分析法雖然較為精確,但是其前處理過于復雜,時間較長,無法達到快速、高效鑒別的目的。光譜檢測法作為一種新興、高效、無損的檢測方法,已被廣泛地應用于藥材的檢測,余梅等[6]采集不同產地陳皮近紅外光譜,采用化學計量學方法建立了陳皮產地的鑒別模型實現(xiàn)了陳皮產地的判別。
太赫茲波是指頻率在0.1~10 THz 的電磁波,其波段介于微波與紅外之間[7]。相對于其他電磁波,太赫茲波具有穿透性強、光子能量低、光譜頻帶寬和信噪比高等優(yōu)勢[8]。由于陳皮中的大多數(shù)活性成分的低頻振動和轉動模式均處于太赫茲的測量范圍之內,太赫茲時域光譜(THz-TDS)技術為陳皮產地的快速無損鑒別提供了新的技術途徑。目前采用太赫茲時域光譜技術對陳皮產地的研究鮮有報道,僅有楊少壯等[9]采用PCA-SVM 模型對不同年份的陳皮進行鑒別分析。
太赫茲光譜采集的過程中,往往會出現(xiàn)不同的譜峰之間的重疊、基線漂移等外界干擾,通常需要結合化學計量學方法對采集完的太赫茲光譜數(shù)據(jù)進行處理,進而減小由于外界干擾所帶來的誤差[10]。胡軍等[11]發(fā)現(xiàn)經過歸一化后建立的面粉中添加劑苯甲酸的PLSR 模型較原始光譜建立的模型更優(yōu),預測集的R2為0.979 0,預測集的RMSE 為1.28%。由于光譜數(shù)據(jù)維度過大,通常需要通過一定的數(shù)據(jù)降維方法來減少數(shù)據(jù)分析的難度和提高建模的速度[12]。劉陵玉等[13]利用太赫茲時域光譜技術結合PCA-LDA 算法實現(xiàn)了萃取過的西洋參和正宗西洋參的光譜數(shù)據(jù)的降維處理。對于多維度的光譜數(shù)據(jù),往往最終需要結合機器學習方面的建模方法實現(xiàn)準確的分析[14]。林紅梅等[15]基于太赫茲時域光譜技術利用支持向量機模型對軟玉和仿品實現(xiàn)了精確的鑒別,模型識別率高達98.6%。
本文主要通過基于太赫茲時域光譜技術結合化學計量學方法對陳皮產地進行快速無損鑒別分析,為陳皮產地的無損快速鑒別提供了一種新的研究方向和理論依據(jù),具有十分重要的實際應用價值。
新會陳皮;CCT-1800 太赫茲檢測儀,深圳市太赫茲科技創(chuàng)新研究院;HY-12 壓片機,天津天光光學儀器科技有限公司。
文中的新會陳皮主要包含了古井、七堡、雙水、梅江和三江5 個產地的陳皮。5 個產地的陳皮品種均為二紅皮,種植方式均為駁枝密植,由于幾個產地的地理位置較為相近,氣候差異相差不大,各個產地的陳皮均由江門市新會陳皮研究院采用統(tǒng)一的陳化方式和陳化環(huán)境對陳皮進行陳化之后供樣。
將陳皮片剪成約直徑13 mm 的圓片狀,再放入特制的模具并置于壓片機(1 Mpa,30 s)中將圓片壓平,最后將壓平的圓片狀樣品連同特制模具放于已充滿氮氣的太赫茲檢測儀(為保證光譜測量的準確性,樣本重復測量100 次,取平均值作為該樣品的原始光譜)中獲取太赫茲光譜數(shù)據(jù),試驗流程如圖1 所示。
圖1 太赫茲光譜數(shù)據(jù)獲取流程圖
獲得樣本個數(shù)如下:2017 年174 個(古井、七堡、雙水、梅江和三江各34、48、26、32 和34 個);2018 年152 個(古井、七堡、雙水、梅江和三江各42、27、23、24 和36 個);2019 年170 個(古井、七堡、雙水、梅江和三江各36、35、35、27 和37 個);2020 年112 個(古井、七堡、雙水、梅江和三江各20、21、21、19 和31 個);2021 年168 個(古井、七堡、雙水、梅江和三江各34、62、24、18 和30 個)。本太赫茲時域光譜儀的測量范圍為0.06~10.00 THz,由于0.06~0.20 THz 和2.0~10.0 THz 波段的信噪比較低,故采用0.2~2.0 THz 之間的吸收系數(shù)譜進行分析。
本文運用到的化學計量學方法多種多樣。數(shù)據(jù)預處理方法[16]有:標準正態(tài)變換(Standard Normal Variate Transform,SNV)、標準歸一化(Normalization,normal)、去趨勢(Detrended,DT)、一階導數(shù)(1st Derivative,1st-der)、二階導數(shù)(2nd Derivative,2ndder)、多元散射校正(Multiplicative Scatter Correction,MSC)、平滑濾波(Savitzky-Golay,SG)、移動平均平滑(Moving Average Smoothing,MAS)、均值中心化(Mean Centering,MC);數(shù)據(jù)特征提取方法為:線性判別分析(Linear Discriminant Analysis,LDA);分類建模方法有:K 鄰近分類(K-Neighbor Classification,KNNC)、支持向量機分類(Support Vector Machine Classification,SVC)、隨機森林分類(Random Forest Classification,RFC)、模型評價指標:準確度(Accuracy,acc)。光譜數(shù)據(jù)分析運用到化學計量學方法均基于python3.8 的Scikit-Learn 庫 在Jupyter Notebook上實現(xiàn)。
不同產地陳皮的平均光譜如圖2 所示。從圖2 可以看出,同一年份不同產地的吸收系數(shù)譜在0.2~2.0 THz 之間沒有明顯的吸收峰,隨著頻率的不斷增大,吸收系數(shù)也不斷增大,同一年份不同產地的吸收系數(shù)曲線重疊交叉嚴重,難找到一個適合的頻率區(qū)間來對不同產地的陳皮進行區(qū)分。從圖2(a)、(b)和(c)可以看出,梅江產地的吸收系數(shù)隨著頻率的不斷增大而逐漸地與其他產地吸收系數(shù)譜分離,可以實現(xiàn)初步的簡單鑒別。不同產地的土壤和氣候不同,理應會造成不同產地的陳皮中活性成分會有較大差異,可能是由于陳皮中所含的活性成分過多,導致太赫茲吸收系數(shù)譜呈現(xiàn)出來的是多種物質的混合光譜信息[17],這可能是由于其成分結構發(fā)生了變化或者由于樣品表面不平整引起了多重反射[18],總體來說從圖2 中無法準確清晰地根據(jù)光譜曲線鑒別出不同產地的陳皮??梢姛o法通過觀察陳皮的原始平均光譜準確地實現(xiàn)同一年份不同產地的鑒別,因而考慮結合化學計量學的分析方法做進一步的研究分析。
圖2 同一年份不同產地陳皮的平均光譜
往往會有很多的外界干擾存在于獲取太赫茲光譜的過程中,如:光譜的基線漂移、光譜的噪聲、光譜的散射和光譜的光程差異等[19]。因此,需要采用一定的預處理方法對太赫茲光譜數(shù)據(jù)進行處理,進而減小由于外界干擾所帶來的誤差,以提高后續(xù)建立的模型的準確度。本文采用Kennard-Stone(K-S)算法劃分光譜數(shù)據(jù)集,訓練集占比為75%,測試集占比為25%;模型均采用10 折的交叉驗證的網格搜索(Grid Search,CV)的方法獲取模型的最佳超參數(shù),實現(xiàn)最佳的模型準確度。
采用不同預處理方法之后的KNNC、SVC 和RFC 模型不同年份陳皮的不同產地鑒別的訓練集、驗證集和測試集準確度如圖3 所示。從圖3 中可以看出,當采用SG 預處理之后的分類模型的準確度都非常高,均高達90%,表明SG 預處理可以減小外界干擾引起的光譜數(shù)據(jù)振動幅度過大引起的誤差[20],從圖4 中可以看出,SG 預處理的光譜曲線相比于原始光譜更加光滑,表明SG 一定程度上減小了光譜的振動幅度。由此說明陳皮光譜數(shù)據(jù)的噪音主要來自于光譜振幅所帶來的誤差。與此同時,發(fā)現(xiàn)光譜經過有些預處理方法處理后,準確度非但沒有提高,反而下降了,表明有些預處理方法會扣除光譜中的有效信息,導致準確度降低[21]。從模型的角度進行分析,KNNC的驗證集和測試集的準確度均普遍低于SVC和RFC,表明SVC和RFC的魯棒性均優(yōu)于KNNC。將SVC和RFC進行對比發(fā)現(xiàn),兩者的驗證集和測試集的準確度不相上下,可能是由于每個年份的數(shù)據(jù)集中陳皮產地的組成不一樣,樣本類別本身具有一定的差異性;劃分數(shù)據(jù)集時,樣本的均衡性不一致均會小幅度地影響SVC和RFC模型的性能[22-23]。可見,光譜振動幅度過大帶來的影響是光譜數(shù)據(jù)的主要誤差,因此SG預處理很大程度上減小了這種誤差,各種模型的準確度均有了很大程度的提高。
圖3 基于不同預處理方法的KNNC、SVC、RFC模型陳皮產地的準確度柱狀圖
圖4 2021 年不同產地的太赫茲光譜圖
盡管通過SG 預處理建立的SVC 和RFC 模型均已有較高的準確度,但是為了實現(xiàn)快速識別的目的,考慮通過特征工程提取不同產地陳皮光譜數(shù)據(jù)的特征進而提高模型的運行速度。接下來將對經過SG 預處理后的光譜數(shù)據(jù)進行特征提取,并建立SVC 模型。線性判別分析(LDA)是一種有效的特征提取方法,可以將有用信息進行重新融合,形成更為有用的特征,由于其優(yōu)越的性能,常用于光譜特征提取的過程當中[24]。
經過LDA 特征提取過程后,每個樣品的光譜特征個數(shù)由原來的393 降為了4 個,減少了每個樣本的特征數(shù),大大節(jié)約了建模時間以及模型預測時間。從表1 可以看出,經過LDA 特征提取后,進一步減少了模型中的冗余信息,降低了模型的復雜度[25],解決了模型過擬合的問題,每個年份的驗證集和測試集的準確度均得到了進一步的提高,每個年份的預測集、驗證集和測試集的準確度均由原來的90% 多提高到了100%??梢?,經過LDA 特征提取后,將每個樣本具有高質量信息的特征進行融合,得到了更少但更為有價值的特征,提高模型驗證集的準確度的同時進一步提高了模型的魯棒性,測試集準確度的提高則進一步驗證了模型的可行性。
表1 基于SG預處理方法結合LDA特征提取的SVC模型陳皮產地的準確度
本文利用太赫茲時域光譜技術對2017、2018、2019、2020、2021 年5 個年份的古井、七堡、雙水、梅江、三江5 個產地的陳皮進行溯源分析。發(fā)現(xiàn)無法從原始平均光譜的特征峰和形狀等信息準確地鑒別出不同產地的陳皮,接著采用PCA 的無監(jiān)督方法初步發(fā)現(xiàn)少數(shù)產地具有成簇現(xiàn)象,但是依然無法準確地實現(xiàn)不同產地的快速鑒別,進而先采用多種預處理方法以減小外界干擾的影響,發(fā)現(xiàn)SG 預處理對于光譜中產生的振動幅度過大的誤差具有很大程度的減弱效果,并且SVC 模型具有更加精確和快速的鑒別效果,最后再次采用LDA 對SG 處理后的光譜進行特征提取,發(fā)現(xiàn)在提高SVC 模型運行速度的同時,也一定程度上提高了準確度??梢姴捎肧GLDA-SVC 模型可以有效地對不同產地的陳皮進行鑒別,對陳皮地道性的快速無損檢測具有意義。