李 朵,李佩佩,欒真杰,孟曉萍,孫 菁*
1中國科學(xué)院西北高原生物研究所 青海省青藏高原特色生物資源研究重點實驗室,西寧 810008;2中國科學(xué)院大學(xué),北京 100049
五脈綠絨蒿(MeconopsisquintuplinerviaRegel)為罌粟科(Papaveraceae)綠絨蒿屬(Meconopsis)多年生草本植物,藏音譯名“歐貝完?!?,是使用廣泛的藏藥材,具有重要的藥用價值。《晶珠本草》記載,五脈綠絨蒿以花入藥,性味甘、澀、涼,具清熱解毒、消炎止痛的功效,可用于治療肺炎、肝炎等[1],也可清除自由基,提高抗氧化活性[2]。相關(guān)文獻(xiàn)亦記載,五脈綠絨蒿可用全草或花入藥,但以花入藥解熱效果好[3],不同的部位入藥效果不同。藥材有效成分的提取常以粉末進(jìn)行[4],粉末狀態(tài)有利于有效成分的快速有效提取,但是難以從外觀對入藥部位進(jìn)行準(zhǔn)確鑒別,而采用傳統(tǒng)的顯微鑒別或理化鑒別耗時耗力,不利于生產(chǎn)實踐應(yīng)用。因此,為了保證入藥療效和擴(kuò)大應(yīng)用,需建立一種快速、高效、準(zhǔn)確的原藥材部位判別方法。
中紅外光譜反映的是分子中原子的伸縮和變形振動運(yùn)動,波數(shù)范圍為4 000~400 cm-1,具有快速、準(zhǔn)確、重現(xiàn)性好、樣品制備少等優(yōu)點,應(yīng)用范圍廣泛[5-9]。目前關(guān)于中紅外光譜法鑒別藥材不同部位已有報道。Wang等[10]對白花丹參不同部位的紅外光譜、二階導(dǎo)數(shù)譜圖以及二維相關(guān)譜進(jìn)行了研究,結(jié)果表明,白花丹參不同部位的三級鑒定均存在差異。Zhao等[11]對青海省兩個不同居群五脈綠絨蒿的花、花梗、葉和全草進(jìn)行中紅外全光譜掃描,發(fā)現(xiàn)一維紅外光譜和二階導(dǎo)數(shù)譜圖能識別五脈綠絨蒿的不同部位,但是該工作僅從譜圖解析方面區(qū)分五脈綠絨蒿不同部位,判別效果不夠直觀、快速。本文在前述研究工作的基礎(chǔ)上,結(jié)合化學(xué)計量學(xué)方法建立五脈綠絨蒿部位判別模型,能夠更為快速直觀地識別五脈綠絨蒿不同部位。該方法不需要具備專業(yè)光譜學(xué)知識,有助于非專業(yè)人士操作,在生產(chǎn)實踐中具有更大的推廣應(yīng)用價值,可為藥企GMP生產(chǎn)實踐提供更為準(zhǔn)確快捷的檢測方法。在已有的關(guān)于中紅外光譜法鑒別藥材不同部位的報道中,大多是通過譜圖解析的方法識別藥材不同部位,或僅建立模型進(jìn)行判別,利用譜圖解析結(jié)合化學(xué)計量學(xué)方法建立模型進(jìn)行部位判別的研究則鮮有報道。
因此,本研究以傳統(tǒng)藏藥五脈綠絨蒿的葉部位、花部位及全草為研究對象,利用中紅外光譜分析技術(shù)開展了譜圖特征分析,同時結(jié)合化學(xué)計量學(xué)方法建立五脈綠絨蒿部位判別模型,從藥材源頭保證不同部位藥材的準(zhǔn)確性,為該資源后續(xù)的質(zhì)量檢測提供科學(xué)依據(jù)和有效借鑒,以期保障用藥的有效性。
于6~7月五脈綠絨蒿植物花期,在青海省玉樹縣、循化縣和湟中縣三個地區(qū)的五脈綠絨蒿典型生長環(huán)境,即高山草甸、陰坡灌叢中采集五脈綠絨蒿全草。同一地區(qū)每隔數(shù)米采集一株全草,且隨機(jī)選取植株大小,以確保樣本能代表該地區(qū)的五脈綠絨蒿整體水平,不同地區(qū)間五脈綠絨蒿外觀上無明顯差異。將采集的植株帶回實驗室洗凈、晾干,分為花、葉及全草,共得到346份不同部位樣品,分別粉碎、過200目篩后放入干燥器,待分析用。原植物標(biāo)本經(jīng)中國科學(xué)院西北高原生物研究所盧學(xué)峰研究員鑒定為罌粟科綠絨蒿屬五脈綠絨蒿(MeconopsisquintuplinerviaRegel)。
儀器:IS50傅里葉變換紅外光譜分析儀(美國,Thermo Fisher公司),烘箱(上海一恒科學(xué)儀器有限公司),電子天平(Meterler ME104,0.000 1g),壓片模具(直徑:13 mm,美國PIKE公司),瑪瑙研缽,粉碎機(jī),200目篩,干燥器。
試劑:溴化鉀(光譜純,Thermo Fisher Scientific公司)。
1.3.1 中紅外光譜的采集
利用KBr壓片法對樣品進(jìn)行中紅外光譜采集,樣品顆粒度大小為200目,以樣品∶KBr=1∶100的比例進(jìn)行研磨,用1.9 T的壓力進(jìn)行壓片,掃描前扣除CO2和水的干擾,掃描次數(shù)為32次,分辨率為4 cm-1。采集光譜時,每個樣品采集3次,并取平均譜圖作為原始光譜。數(shù)據(jù)采集前先將儀器預(yù)熱半小時,待儀器穩(wěn)定后使用。實驗室溫度保持在25 ℃左右,濕度控制在35%以下。
1.3.2 方差分析
利用SPSS軟件對各吸收峰處的吸光度值進(jìn)行單因素方差分析,判斷同一吸收峰處五脈綠絨蒿不同部位的吸光度值之間是否存在差異。
1.3.3 模型的建立
研究所用的TQ Analyst軟件中應(yīng)用于定性分析方法有距離匹配(Distance Match,DM)和判別分析(Discriminant Analysis,DA)方法。其中,DM是通過計算未知樣品光譜到每類物質(zhì)光譜集中點的距離來判斷未知樣品與已知物質(zhì)類別的匹配方法,比較結(jié)果稱為“距離匹配值”(也稱馬氏距離),反應(yīng)了樣品與標(biāo)準(zhǔn)品的匹配程度[12]。DA是一種有監(jiān)督模式識別方法,通過計算未知樣品光譜到每類物質(zhì)光譜中心的距離來判斷未知樣品與哪個類別最相似,結(jié)果是提供與未知樣品光譜最相似的物質(zhì)類別的名稱[13]。
數(shù)學(xué)模型的建立需要具有光譜數(shù)據(jù)和其他定性數(shù)據(jù)的校正集、預(yù)測集和外部驗證集樣品,將樣品的中紅外均譜(n= 3)導(dǎo)入TQ Analyst軟件,利用隨機(jī)法對樣本集進(jìn)行劃分,各部位選10份樣品為外部測試集,剩下的316份樣品2/3為校正集,1/3為預(yù)測集[14],各部位樣本集分布如下(表1)。
表1 五脈綠絨蒿不同部位樣品校正集與預(yù)測集的樣本集分布Table 1 Modeling and validation distribution in different parts of M.quintuplinervia
平滑方法根據(jù)不同譜圖類型進(jìn)行選擇:原譜圖不經(jīng)平滑處理,一階導(dǎo)數(shù)譜圖(D1)、D2均經(jīng)Norris平滑處理,有效位數(shù)為5,有效位間隔為5。再根據(jù)TQ Analyst軟件的建模方法、光程類型及譜圖類型的預(yù)處理方法設(shè)計正交試驗因素水平表(表2)和正交試驗表L18(2×32),利用正交試驗及極差分析優(yōu)化建模方法、光程類型及譜圖類型。
表2 正交試驗因素水平表Table 2 Factor table of orthogonal experiment
根據(jù)正交試驗下建模條件的組合,記錄不同建模組合條件下模型的校正集誤判數(shù)和預(yù)測集誤判數(shù),以式(1)和式(2)計算模型的識別率和預(yù)測率,以此為指標(biāo)判斷模型效果,識別率和預(yù)測率最高的建模條件組合為實際最優(yōu)組合。對正交試驗結(jié)果進(jìn)行極差分析,得出理論最優(yōu)組合。將實際最優(yōu)組合與理論最優(yōu)組合進(jìn)行比較,選出最佳建模條件,同時利用相關(guān)系數(shù)法(Correlation Coefficient)確定建模波段。最后,利用優(yōu)化的建模條件和建模波段建立部位判別模型。
識別率=(校正集總數(shù)-校正集誤判數(shù))/
校正集總數(shù)×100%
(1)
預(yù)測率=(預(yù)測集總數(shù)-預(yù)測集誤判數(shù))/
預(yù)測集總數(shù)×100%
(2)
1.3.4 模型評價
對所建模型進(jìn)行模型性能識別評價,模型性能識別評價除采用上述識別率及預(yù)測率為指標(biāo)外,另采用了誤分類率(ER),真正率(TPR),真負(fù)率(TNR)和F1進(jìn)行評價,其中ER指分類預(yù)測錯誤的樣本比例;TPR又稱靈敏度,指正確識別陽性樣本比例;TNR指正確識別陰性樣本比例,TPR、TNR和F1越高,ER越低,分類模型的性能越好[15]。各參數(shù)計算公式如下:
ER=(FP + FN)/n
(3)
TPR=TP/(TP + FN)
(4)
TNR=TN/(FP + TN)
(5)
F1=2 × TP/(2 × TP + FP + FN)
(6)
式中,TP為真正類,表示真樣本被識別為真樣本;FN為假正類,表示真樣本被識別為偽樣本;TN為真負(fù)類,表示偽樣本被識別為偽樣本;FP為假負(fù)類,表示偽樣本被識別為真樣本,n為總樣本量。
中紅外光譜吸收峰是基頻、倍頻或合頻吸收,具有分子結(jié)構(gòu)的特征性,光譜的不同峰位、峰形代表不同的基團(tuán),峰強(qiáng)度代表基團(tuán)的含量,它反映的是該混合體系中各個官能團(tuán)的成分的疊加譜,不同混合體系的化學(xué)組成不同,故其譜圖也不同[16]。根據(jù)五脈綠絨蒿不同部位的一維平均譜圖可知(圖1),五脈綠絨蒿不同部位的紅外譜圖大體上相似,但在2 852 cm-1處,葉部位具有明顯的吸收,而其它兩部位吸收不明顯;在1 385 cm-1處,僅全草有吸收,其他兩部位在此處沒有吸收峰。2 852 cm-1處為C-H鍵對稱伸縮振動,1 385 cm-1處為酯類C-H鍵彎曲振動,說明花和葉部位中基本不含酯類化合物,且在全譜圖范圍中,全草吸光度普遍高于其它部位,說明全草中化合物的含量高于其它部位,這與Zhao等[11]的研究結(jié)果一致。
圖1 五脈綠絨蒿不同部位中紅外一維平均譜圖Fig.1 Full MIR spectra range of different parts of M.quintuplinervia注:a:全草平均譜圖;b:葉平均譜圖;c:花平均譜圖。Note:a:Average MIR spectra of whole herbs;b:Average MIR spectra of leaves;c:Average MIR spectra of flowers.
由于不同部位的紅外譜圖大體上相似,宏觀上難以判斷不同部位是否對五脈綠絨蒿中紅外一維譜圖有影響,故在全波段范圍內(nèi),對不同部位同一吸收峰處的吸光度值進(jìn)行單因素方差分析,結(jié)果見表3。
表3 不同部位同一吸收峰處的吸光度值單因素方差分析Table 3 One-way ANOVA of each absorbance of different parts
續(xù)表3(Continued Tab.3)
波數(shù)Wave munber(cm-1)變異來源Source of variation平方和Sum of squares自由度df均方Mean squareF顯著性Significance1 736部位間0.21720.10832.459**部位內(nèi)1.0233060.003總變異1.2403081 634部位間0.76620.38320.600**部位內(nèi)6.3783430.019總變異7.1443451 516部位間0.10020.0507.950**部位內(nèi)1.3522140.006總變異1.4532161 413部位間0.57020.28530.238**部位內(nèi)3.0923280.009總變異3.6623301 385部位間0.16520.0837.357**部位內(nèi)1.3241180.011總變異1.4891201 322部位間0.32420.16227.762**部位內(nèi)1.7122930.006總變異2.0362951 246部位間0.56220.28136.998**部位內(nèi)2.5993420.008總變異3.1623441 104部位間0.70420.35218.203**部位內(nèi)5.6892940.019總變異6.3932961 056部位間1.66220.83125.640**部位內(nèi)11.0853420.032總變異12.748344618部位間0.38020.19047.471**部位內(nèi)1.2553140.004總變異1.635316537部位間0.23920.11935.041**部位內(nèi)0.6341860.003總變異0.873188
注:**P<0.01。
由表3可知,在全波段范圍內(nèi),2 852 cm-1處吸光度值之間差異不顯著,其他吸收峰處的吸光度值之間的差異均達(dá)到了極顯著水平,說明五脈綠絨蒿不同部位中化合物含量差別較大。
不同部位粉末的中紅外譜圖在全波段范圍內(nèi)存在差異,但僅從宏觀上難以區(qū)分,不利于在生產(chǎn)實踐中的推廣應(yīng)用。因此,可根據(jù)不同部位各吸收峰處吸光度值之間的差異建立五脈綠絨蒿部位判別模型,以快速準(zhǔn)確鑒別五脈綠絨蒿的不同部位。
2.2.1 建模條件的優(yōu)化
按正交試驗表進(jìn)行正交試驗,結(jié)果如表4所示。從表4可知,No.9模型結(jié)果在所有試驗組合中最好,模型識別率為99.05%,預(yù)測率為96.19%,為實際最優(yōu)組合。
表4 不同部位判別模型正交試驗結(jié)果直觀分析Table 4 Visual analysis of orthogonal test results of part discriminant model
根據(jù)各水平的K均值可知,A因素在1水平效果較好,B因素在2水平效果較好,C因素在3水平效果較好,故理論最優(yōu)組合為A1B2C3,即No.6。根據(jù)R值可知,譜圖類型是影響判別模型的主要因素,其次為建模方法,光程類型對模型影響效果較小。
理論最優(yōu)組合為No.6,實際最優(yōu)組合為No.9,由表4可知No.9模型效果優(yōu)于No.6,但兩種組合的識別率均為99.05%,No.9預(yù)測率為96.19%,No.6預(yù)測率為95.24%,相差較小,兩種組合僅光程類型不同,與極差分析中光程類型影響力度最小的結(jié)果一致。最終以No.9組合為建模條件,即建模方法為DM,光程類型為SNV,譜圖類型為D2;同時利用Correlation Coefficient方法進(jìn)行建模波段的選擇,最終確定建模波段為3 031~2 810 cm-1及1 800~1 450 cm-1兩個波段。
2.2.2 模型的建立
按優(yōu)化的建模條件及建模波段進(jìn)行建模,在316個樣本集中,葉部位有109個樣品,花部位有105個樣品,全草有102個樣品。在TQ Analyst軟件中利用DM方法、SNV歸一化和二階導(dǎo)數(shù)處理進(jìn)行建模,圖2為五脈綠絨蒿部位判別模型在前三個主成分中的3D顯示圖,其識別率為99.05%、預(yù)測率為96.19%。將外部測試集的30份樣品譜圖代入模型中進(jìn)行驗證,僅1份樣品識別錯誤,外部測試集識別率達(dá)到96.67%。
圖2 五脈綠絨蒿部位判別模型前三主成分3顯示D圖Fig.2 Part discriminant model of M.quintuplinervia in 3D on top 3 principal components
從模型3D圖看,該模型可將花部位分出,但葉部位與全草存在部分交叉,Zhao等[11]以五脈綠絨蒿全草的紅外譜圖為參照,利用OMNIC 7.0軟件的質(zhì)量檢查功能計算花梗、葉、花與全草的相似系數(shù),結(jié)果表明全草和葉的相似系數(shù)最高;五脈綠絨蒿全草中葉的生物量占比較大,花與根的生物量占比小,以上可能是導(dǎo)致葉部位與全草存在部分交叉的原因。
模型識別性能的評價通過有監(jiān)督方法進(jìn)行,通常采用ER、TPR、TNR和F1參數(shù)評價。利用式(3)~(6)計算各項參數(shù),結(jié)果如表5所示。
表5 不同部位模型識別性能評價參數(shù)表Table 5 Evaluation parameters of established model
一個良好的定性模型通常具有低的ER值和高的TPR、TNR和F1值[17]。由表5可知,該模型的ER值在0.02以下,TPR、TNR和F1值在0.97~1.00之間,說明該模型具有較好實用性,可用于快速有效地判別五脈綠絨蒿的不同部位。
本研究對五脈綠絨蒿不同部位的中紅外一維平均譜圖進(jìn)行分析,并建立了一種快速、高效、準(zhǔn)確的原藥材部位判別方法。一維平均譜圖中,不同部位的紅外譜圖大體相似,但在2 852和1 385 cm-1處存在差異,且在全譜圖范圍內(nèi),全草吸光度普遍高于其它部位,說明花和葉部位中基本不含酯類化合物,且全草中化合物的含量普遍高于其它部位。部位判別模型的建模條件為Distance Match+SNV+D2,建模波段為3 031~2 810和1 800~1 450 cm-1兩個波段,所建模型識別率為99.05%、預(yù)測率為96.19%,外部測試集識別率達(dá)到96.67%,且識別性能評價良好。該模型具有較好實用性,可用于快速、批量地判別五脈綠絨蒿的不同部位,且對模型使用者的專業(yè)性要求不高,有利于在實際生產(chǎn)中推廣應(yīng)用,在保障用藥安全性及療效方面具有重要意義,可為其他藏藥材資源不同部位的快速識別提供借鑒或參考。