張 芳, 周 昊, 徐 蓉, 徐寸發(fā), 韓 偉, 徐為民, 李 勇
(1.江蘇省農(nóng)業(yè)科學(xué)院中心實(shí)驗(yàn)室,江蘇南京 210014; 2.江蘇省農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品質(zhì)量安全與營(yíng)養(yǎng)研究所,江蘇南京 210014)
山藥為薯蕷科植物薯蕷(Dioscoreaopposita)的干燥根莖,作為藥食兩用的中藥材,具有補(bǔ)脾養(yǎng)胃、生津益肺、補(bǔ)腎澀精功效,受區(qū)域氣候特征、地質(zhì)特點(diǎn)、生長(zhǎng)習(xí)性等因素的影響,具有不同的產(chǎn)地特征。以廣西、河北、河南等地為主的幾大產(chǎn)地構(gòu)成了國(guó)內(nèi)主要山藥栽培區(qū)。以河南懷慶府(今博愛、武陟、溫縣)所產(chǎn)最佳,歷史悠久,質(zhì)量上乘,入藥療效好,謂之“懷山藥”,也稱道地山藥。傳統(tǒng)的道地山藥識(shí)別方法主要是感官評(píng)定法。感官評(píng)定法易受不同評(píng)定人經(jīng)驗(yàn)和主觀因素的影響,外界環(huán)境對(duì)感官評(píng)定法也會(huì)產(chǎn)生較大干擾,影響結(jié)果的客觀性和準(zhǔn)確性,因此,建立一種快速、可靠、方便的鑒別方法尤為重要。
紅外光譜技術(shù)是一種分析物質(zhì)結(jié)構(gòu)和含量的有用工具,可用于未經(jīng)化學(xué)方法提取樣本的分析,并且具有快速、無損、靈敏等特點(diǎn)[1],在化工、生物、醫(yī)藥等方面的應(yīng)用[2-5]日漸廣泛,逐步取代了繁瑣的、可信度不高的傳統(tǒng)分析方法。紅外光譜中所反映的是樣品的整體信息,是混合樣品中所有成分的疊加,只要樣品的處理方法統(tǒng)一,樣品中各種化學(xué)成分的質(zhì)和量相對(duì)穩(wěn)定,則其紅外光譜應(yīng)該是相對(duì)穩(wěn)定的,地域、種質(zhì)、加工方法、貯存等外界因素的影響,從紅外光譜上能夠反映出各自的差異性。但是,由于紅外光譜固有的復(fù)雜性及待測(cè)樣本中所含化合物的多樣性,紅外光譜解析比較困難,特別是譜圖僅有細(xì)微差別的樣品,如同種植物不同產(chǎn)地或不同栽培條件樣品的紅外光譜,這類光譜的差別肉眼不能有效識(shí)別,即使有的差別能夠識(shí)別,但是也不能確定哪些細(xì)微差別是鑒別的關(guān)鍵,而隱含的一些譜峰更是無法直接利用,因此,直接運(yùn)用紅外光譜進(jìn)行樣本鑒別存在較大局限。隨著化學(xué)計(jì)量學(xué)的發(fā)展,化學(xué)計(jì)量學(xué)方法被引入紅外光譜數(shù)據(jù)處理領(lǐng)域,在數(shù)據(jù)分析方面發(fā)揮出獨(dú)特優(yōu)勢(shì)。目前,化學(xué)計(jì)量方法結(jié)合紅外光譜技術(shù)已廣泛應(yīng)用于食品、飲料、土壤有機(jī)質(zhì)檢測(cè)、礦物成分分析、藥物等成分和品質(zhì)分析[6-8],以及產(chǎn)地和真?zhèn)舞b別[9-17]等領(lǐng)域。
本研究利用傅里葉變換紅外光譜儀鑒別道地山藥,采集樣本全波長(zhǎng)透射率譜圖,通過化學(xué)計(jì)量學(xué)方法對(duì)光譜數(shù)據(jù)進(jìn)行統(tǒng)一處理,以主成分分析(PCA)法、線性判別分析(LDA)法建立化學(xué)計(jì)量模型,實(shí)現(xiàn)對(duì)道地山藥和非道地山藥的有效鑒別。
本試驗(yàn)樣本共107個(gè),其中道地山藥樣本56個(gè),采自河南??;非道地山藥樣本51個(gè),采自河北省、江蘇省、山西省、山東省、安徽省、浙江省、云南省、廣東省。山藥樣品部分采購自原產(chǎn)地,部分由江蘇省農(nóng)業(yè)科學(xué)院經(jīng)濟(jì)作物研究所提供。樣本用毛刷刷去表面泥土,洗凈,過純水,切片,置于表面皿中,在60 ℃下干燥至恒質(zhì)量,粉碎,過篩,裝入密封袋并保存于干燥器中待測(cè)。
試驗(yàn)所用的中紅外光譜儀型號(hào):美國(guó)Thermo Fisher Scientific Nicolet iS50 FT-IR型傅里葉變換紅外光譜儀,掃描范圍為4 000~525 cm-1,分辨率為4 cm-1,掃描次數(shù)為32次。采用衰減全反射模式,采集樣本全波長(zhǎng)透射率光譜數(shù)據(jù)。
采用主成分分析和線性判別分析(PCA-LDA)對(duì)山藥道地性進(jìn)行判別。光譜數(shù)據(jù)的采集和保持通過軟件OMNIC 9(Thermo Nicolet,USA)實(shí)現(xiàn)。數(shù)據(jù)分析前先將原始數(shù)據(jù)進(jìn)行多元散射校正,然后采用PCA法對(duì)數(shù)據(jù)進(jìn)行降維處理,通過蒙特卡洛法從各個(gè)區(qū)域中隨機(jī)選定一部分樣本,利用LDA進(jìn)行建模,對(duì)剩余樣本進(jìn)行判別驗(yàn)證,重復(fù)1 000次,統(tǒng)計(jì)其準(zhǔn)確率。所有數(shù)據(jù)分析均在Matlab環(huán)境中完成。
山藥不同產(chǎn)地代表樣本的紅外圖譜(圖1-a)。從譜圖中可以看出,不同產(chǎn)地山藥的譜圖極其相似,很難分辨出差別,這主要是由于山藥中淀粉的含量為20%~30%[18],造成譜圖差異性不明顯,憑借肉眼很難實(shí)現(xiàn)山藥道地性鑒別,因此必須借助化學(xué)計(jì)量學(xué)技術(shù)對(duì)其圖譜解析。
鑒于山藥樣品的不均一性,樣品在處理中出現(xiàn)的諸如粒度不均勻、混合不充分,利用紅外光譜測(cè)量樣品時(shí),會(huì)出現(xiàn)的光散射等問題,本試驗(yàn)利用多元散射校正預(yù)處理方法來消除散射的干擾[19]。經(jīng)預(yù)處理后得到光譜(圖1-b)。
主成分分析(principal component analysis,PCA)是一種常用的提取光譜特征信息的方法,利用方差最大原則,對(duì)原始光譜數(shù)據(jù)所包含的多個(gè)自變量進(jìn)行線性擬合,以新的低維變量代替原始高維變量,進(jìn)而達(dá)到數(shù)據(jù)降維的目的[20]。主成分個(gè)數(shù)主要由累計(jì)貢獻(xiàn)率來決定,通常達(dá)到80%~90%時(shí)就可以用主成分代替原始變量作進(jìn)一步的分析[21]。我們采用PCA對(duì)預(yù)處理后的原始數(shù)據(jù)進(jìn)行降維處理,其中前7個(gè)特征矢量所對(duì)應(yīng)的累積方差為88.5%(>80%),能夠有效地提取出數(shù)據(jù)中的信息,PC1、PC2、PC3、PC4、PC5、PC6、PC7的權(quán)重分別為33.66%、14.89%、14.03%、10.11%、6.91%、5.20%、3.73%。前人研究結(jié)果,前3個(gè)主成分就可以反映樣本的大部分原始光譜信息,本試驗(yàn)需要6個(gè)主成分才能達(dá)到要求,可能是因?yàn)榍叭耸沁x取某一段光譜進(jìn)行研究,而本試驗(yàn)選取整個(gè)光譜進(jìn)行分析,光譜信息量太大,故需要的主成分?jǐn)?shù)也多。
經(jīng)主成分分析法降維處理后,用不同主成分組成二維投影見圖2。PC1和PC2、PC2和PC3、PC3和PC4、PC4和PC5組成的投影圖中,兩類樣本混合在一起,均不能將道地和非道地山藥進(jìn)行有效區(qū)分,PC5和PC6、PC6和PC7基本實(shí)現(xiàn)了道地與非道地山藥的區(qū)分,但有些樣本出現(xiàn)了重疊。所以,僅利用PCA不能有效區(qū)分道地和非道地山藥。
線性判別分析(LDA)是用于判斷樣品所屬類型的一種統(tǒng)計(jì)分析方法,首先找出特征向量w,將k組m元數(shù)據(jù)投影到另一個(gè)更低維的方向,使得投影后組與組之間盡可能地分開,而同一組內(nèi)的關(guān)系更加密切,從而在新空間對(duì)樣本進(jìn)行分類,使得PCA投影后不能再分的樣本經(jīng)LDA投影后則得到區(qū)分。通常在解決問題的過程中,LDA抓住了樣本的判別特征,而PCA抓住了樣本的描述特征[22]。在PCA-LDA的分析過程中,利用蒙特卡羅模擬隨機(jī)86個(gè)樣品為訓(xùn)練集,利用LDA對(duì)前10個(gè)主成分進(jìn)行模型建立,然后再對(duì)剩余21個(gè)樣品進(jìn)行預(yù)測(cè)分析。
以其中一次判別為例,利用PCA-LDA建立模型如下:
Y=0.012 0×PC1+(-0.055 5)×PC2+0.030 6×PC3+(-0.037 2)×PC4+0.016 0×PC5+0.060 5×PC6+(-0.071 3)×PC7+0.036 0×PC8+0.005 7×PC9+0.080 7×PC10+(-0.004 1)。
式中:Y為判別函數(shù),當(dāng)Y>0時(shí),樣品為道地山藥;當(dāng)Y<0時(shí),樣品為非道地山藥。
從圖3可以看出,道地和非道地山藥樣本都得到了很好的區(qū)分,訓(xùn)練集中,地道山藥樣品10、21、33、42被錯(cuò)誤識(shí)別為非道地山藥,非道地山藥樣品59被錯(cuò)誤識(shí)別為道地山藥;驗(yàn)證集中,21個(gè)樣品均分類正確。在1 000次運(yùn)行PCA-LDA后,訓(xùn)練集和驗(yàn)證集的分類結(jié)果,訓(xùn)練集鑒別道地山藥的準(zhǔn)確率為97.53%,鑒別非道地山藥的準(zhǔn)確率為98.88%;驗(yàn)證集中鑒別道地山藥和非道地山藥的準(zhǔn)確率分別為93.64%和95.70%(表1)。試驗(yàn)結(jié)果表明,PCA-LDA能夠有效區(qū)分道地和非道地山藥。
表1 1 000次運(yùn)行PCA-LDA分析結(jié)果
僅利用紅外光譜進(jìn)行山藥道地性判別有一定難度,也存在局限性,本研究利用紅外光譜結(jié)合建立主成分分析法(PCA)、線性判別分析(LDA)法建立模型,可實(shí)現(xiàn)對(duì)道地山藥和非道地山藥的有效判別。訓(xùn)練集鑒別道地山藥的準(zhǔn)確率為97.53%,鑒別非道地山藥的準(zhǔn)確率為98.88%,可見,采用PCA-LDA可以在一定程度上克服樣本數(shù)目少于量測(cè)變量的不足。對(duì)未知樣本進(jìn)行預(yù)測(cè),驗(yàn)證集中鑒別道地山藥和非道地山藥的準(zhǔn)確率分別為93.64%、95.70%,準(zhǔn)確率均達(dá)到了90%以上,取得了良好的鑒別效果。本研究結(jié)果表明,紅外光譜結(jié)合主成分分析和線性判別分析法建立模型有較強(qiáng)的鑒別區(qū)分能力,可以作為一種快速鑒別道地山藥的方法,也為鑒別其他樣本提供參考。