白慶旭,候英,楊盼盼,李偉,林昕,蘇霽玲,徐娟,劉祥義
(1.西南林業(yè)大學 天麻研究院,云南 昆明 650224;2.云南焯耀科技有限公司,云南 昆明 650220)
天麻(GastrodiaelataBl.)為蘭科(Orchidaceae)天麻屬(GastrodiaR.Br.)植物的干燥塊莖,別名神草、赤箭、鬼督郵等,是一味傳統(tǒng)、名貴的中藥材,具有鎮(zhèn)靜、抗癲癇、鎮(zhèn)痛、活血、抗氧化、增智健腦等功效[1-3]。天麻在我國入藥已有2 000余年的歷史,首次是以赤箭之名記載于《神農本草經》[4],并且列為上品,之后的歷代中藥書籍均有相關記載,現(xiàn)已列為藥食同源物質。最早以山東泰安為天麻主要產區(qū),后由于自然環(huán)境變化及社會因素,其主要產地更替為陜西漢中、云南昭通、安徽六安、湖北宜昌等地[5]。不同產地的天麻有效成分含量有明顯差異,質量相差懸殊,而僅從外觀上不易分辨,導致市面上以次充好的現(xiàn)象時有發(fā)生。目前對天麻產地鑒別的方法主要是HPLC指紋圖譜[6]、非線性化學指紋圖譜[7]、電化學指紋圖譜[8]等方法,但存在需對天麻樣品進行分離提取,處理過程復雜,耗時長,所需試劑多等問題。
近年來,隨著化學計量學與計算機的發(fā)展,近紅外光譜技術也迅速發(fā)展,而且具有環(huán)保、高效、成本低、對樣品無破壞、無需化學試劑等優(yōu)點。如:張敏等[9]將不同產地的雞血藤(Kadsurainterior)用近紅外漫反射光譜法進行采集,運用一階導數(shù),矢量歸一化對其光譜圖進行預處理,并用因子法建立定性鑒別模型,模型能有效鑒別不同產地的雞血藤;楊海龍等[10]采集3個產地的山楂(CrataeguspinnatifidaBunge)近紅外光譜,用標準正態(tài)變量變換(SNV)和Savitzky-Golay(SG)平滑預處理方法,判別分析算法(DA)對3個產地的山楂進行了鑒別;唐艷等[11]采用微分處理,多元散射校正(MSC),Norris Derivative(ND)平滑處理等方法對西洋參(Panaxquinquefolius)圖譜進行預處理,在全波段采用正交偏最小二乘判別分析算法(OPLS-DA),建立西洋參產地的定性模型;李莉等[12]通過多種預處理方法,結合聚類分析、主成分分析、SIMCA 等算法分別對不同產地駱駝蓬(PeganumharmalaL.)建模進行評價,結果采用MSC,矢量歸一化,全波長預處理方法,結合SIMCA 算法識別能力最佳,該方法可以用于駱駝蓬的產地鑒別;馬天翔等[13]采用NIRDRS指紋圖譜技術,結合二階導數(shù)光譜,相似度分析,主成分分析對不同產地鎖陽(CynomoriumsongaricumRupr.)進行鑒別。
天麻中包含天麻素、天麻苷元、氨基酸、巴利森苷、天麻多糖等有機物,而這些有機物含有豐富的N-H、C-H、O-H等含氫基團,這些含氫基團振動的倍頻與合頻吸收在近紅外光譜區(qū)有響應。利用這一原理,采集天麻樣品的近紅外光譜,可以獲得大量的特征信息,以期將近紅外光譜技術用于天麻的產地鑒別。
各地天麻樣品88個(云南昭通30個,省內非昭通28個,省外30個),經西南林業(yè)大學天麻研究院劉祥義教授鑒定,樣品來源詳見表1。
表1 樣品編號及產地Tab.1 The number and sources of samples
續(xù)表1
AntarisⅡ傅立葉變換近紅外光譜儀(美國Thermo Fisher公司);PTF 100型中藥粉碎機(濟南樂瑞醫(yī)療器械有限公司;101-2ES 電熱鼓風干燥箱(北京市永光明醫(yī)療儀器有限公司);60目不銹鋼篩網(北中西泰安公司);SIMCA-P+11.0軟件(瑞典Umetrics公司);RESULT 3.0光譜采集軟件;TQ Analyst 8.6軟件;WEKA 3.6.6軟件。
1.3.1 樣品預處理
用自來水把不同產地收集天麻樣品清洗干凈,洗凈后用蒸餾水沖洗3次,切成2 mm的薄片、放入蒸鍋中蒸制3~5 min,將蒸制好的天麻薄片放入烘箱中溫度調至60 ℃烘干,烘干后取出放入中藥粉碎機粉碎,過60目篩網,篩網上樣品放入粉碎機再次粉碎,直至全部可過篩,將樣品存至密封袋備用。
1.3.2 采集近紅外光譜
將制好的天麻樣品放入平衡箱平衡1.5 h,使樣品含水量在10%到12%,將15 g樣品放入采樣杯,混勻壓緊。利用配備RESULT 3.0光譜采集軟件的AntarisⅡ傅里葉變換近紅外光譜儀采集天麻光譜。天麻光譜的采集方式為積分球漫反射模式,分辨率為8 cm-1,掃描范圍為10 000~ 4 000 cm-1,次數(shù)為64次。為減小實驗誤差,每個樣本重復測定3次,取平均光譜[14-15],見圖1。
圖1 樣品原始光譜Fig.1 The original spectrum of samples
1.3.3 訓練集和驗證集的選擇
將不同產地的樣品隨機分為訓練集和驗證集,其比例為3∶1,并對其進行分類賦值(表2)。訓練集用于建立天麻產地的定性模型,驗證集用于驗證定性模型對天麻樣品的預測能力。
表2 樣品分類及數(shù)量Tab.2 Classification and quantity of samples
1.3.4 近紅外光譜預處理
近紅外光譜受多方面因素影響,如樣品顆粒尺寸、光程、溫度、儀器采集時間等,會對模型準確性造成影響,因此需要對光譜進行一定的預處理[16-19]。本研究采用標準正態(tài)變量變換(SNV)與一階微分光譜(first derivative spectrum,FD)、二階微分光譜(second derivative spectrum,SD)、原始光譜(original spectrum,O),Savitzky-Golay(SG)和Norris Derivative(ND)兩種平滑方法相互組合的方法(表3),探索適合天麻產地鑒別的光譜預處理方法。
表3 光譜預處理方法Tab.3 Pre-treatment method of spectrum
1.3.5 特征波段的選擇
PCA-MD模型選擇經過最佳預處理的訓練集的方差光譜,選取方差較大的波段進行分析,見圖2。PLS-DA模型通過變量重要性圖(variable importance plot,VIP),選擇自變量對因變量影響大于1的波段[20]。
圖2 方差光譜Fig.2 Variance spectrum
1.3.6 主成分數(shù)的選擇
主成分數(shù)采用內部交互驗證法篩選,主成分數(shù)的選擇對模型預測能力有很大影響。主成分過少,會因光譜信息遺漏導致擬合不足;主成份過大,模型會包含過多的噪音,出現(xiàn)過擬合現(xiàn)象,當交互驗證均方根誤差(RMSECV)最小時,對應主成分數(shù)最佳[21]。
1.3.7 定性模型建立與評價
通過訓練集的內部交叉驗證來判斷模型的質量,RMSECV越小,穩(wěn)健性越好,準確率越高,模型的可信度越高。用驗證集的外部驗證來判斷模型的預測能力,Q2越大,說明模型預測能力越好。
2.1.1 主成分分析
選擇表3中最優(yōu)預處理方法SNV+SD+ND處理光譜,根據方差光譜(圖2)選擇方差大的波段(4 050~6 100 cm-1,6 800~7 500 cm-1),根據主成分貢獻率及累計貢獻率選擇主成分,選擇貢獻率大于1%的主成分,并滿足累計貢獻率大于70%的原則,選擇6個主成分數(shù),結果見表4。用PCA-MD算法進行建模,對3種產地的天麻進行主成分分析(圖3)。其中1為昭通天麻,2為省內非昭通天麻,3為省外天麻。通過對前3個主成分進行分析可以看出3個產地的天麻明顯成簇聚集,呈現(xiàn)出較為明顯的區(qū)域分布特征,說明相同產地的天麻有一定的相似性,不同產地的天麻有明顯的差異;1、2分布相對集中,3的分布較分散,說明昭通天麻、省內非昭通的天麻相似度高,成分差異相對較小,省外天麻成分差異較大,這與采集的省外天麻產地眾多有關。1與2、3的距離較遠,而2、3雖然可以分開,但距離很近,說明昭通天麻與省內非昭通和省外的天麻成分相差較大,而省內非昭通與省外的天麻相比,雖然成分也有差異,但差異并不十分明顯。
表4 主成分及貢獻率Tab.4 Principal components and contribution rate
圖3 主成分得分的3D展示
2.1.2 馬氏距離
對主成分進行分析,可以得知相同產地的天麻之間,不同產地的天麻之間的一些關系,但要想將這些關系表達清楚,還需要一些數(shù)據的引入,馬氏距離(mahalanobis distance,MD)這一統(tǒng)計量可以有效地反映類內與類間的關系。類內馬氏距離小,說明樣品相似度高,類間馬氏距離大,說明兩產地樣品差異大,反之亦然。根據極限中心定理和3δ原則[22],用馬氏距離確定不同產地天麻的類內與類間的控制閾值(表5、表6)。對驗證集的22個樣品進行外部驗證,所有樣品均在控制閾值內,全部可以進行判別,2個樣品判別錯誤,整體準確率達到90.91%,見表7。
表5 馬氏距離平均值Tab.5 Average value of Mahalanobis distance
表6 類內馬氏距離控制閾值Tab.6 Class Mahalanobis distance control threshold
表7 外部驗證結果Tab.7 External validation results
選擇SNV+SD+ND預處理方法,根據VIP法選擇VIP值大于1的波段,用此法最終選擇波段并不連續(xù),由許多波段累加組合,主要長波段為4 045~6 036、6 907~7 463 cm-1,其余為小波段。按主成分特征值大于1,累計貢獻率大于70%的原則[20],選擇4個主成分數(shù),顯著性均為R1(表8),用PLS-DA算法進行建模(圖4)。由圖4可看出1、2、3可明顯分開,對PLS-DA得分圖進行分析,該模型自變量累計解釋能力(R2X)=0.764,因變量累計解釋能力(R2Y)=0.903,Q2=0.851,RMSECV=0.192 6。表示4個主成分對自變量變異的解釋能力為76.4%,對因變量變異的解釋能力為90.3%,對不同產地天麻的預測能力為85.1%,交叉驗證均方根誤差為0.192 6,可以看出模型具有良好的解釋能力和預測能力并且有較好的穩(wěn)健性。為了驗證PLS-DA模型的可靠性,對模型進行置換檢驗,X矩陣不變,將Y矩陣變量隨機排列200次得到置換檢驗驗證圖(圖5)。模型可靠性與擬合直線的斜率,直線與Y軸的截距有關,斜率越大,截距越小,可靠性越高,圖中兩直線R2=0.202小于0.3,Q2=-0.337小于0,且兩條直線斜率都較大,說明未出現(xiàn)過擬合現(xiàn)象。并對模型進行交叉驗證方差分析(CV-ANOVA),結果顯示F=49.62,P=0,表明該模型在統(tǒng)計上顯著有效。對驗證集的22個樣品進行外部驗證,根據Galtier判別準則[23],除70號判別錯誤外,其余均判別正確,整體準確率達到95.45%,見表9。
表8 主成分數(shù)的選擇Tab.8 The choice of the number of principal component
圖4 PLS-DA散點3D模型Fig.4 Scatter 3D plot PLS-DA
圖5 置換檢驗的驗證直觀效果Fig.5 Plot of replacement test
用TQ軟件采集不同產地天麻樣品的近紅外光譜,對天麻光譜進行SNV+SD+ND預處理,用方差法選取4 050~6 100、6 800~7 500 cm-1波段的光譜,結合PCA-MD算法進行建模,提取模型的馬氏距離,主成分累計貢獻率對模型進行評估,結果顯示模型較好,根據極限中心定理和3δ原則對驗證集進行預測,判別正確率為90.91%。在原預處理光譜的基礎上,用SIMCA軟件VIP法選取主要波段為4 045~6 036、6 907~7 463 cm-1,其余為零散波段的光譜,建立PLS-DA模型,提取模型的R2X,R2Y,Q2,RMSECV對模型進行評估,結果顯示模型良好,并對模型進行置換檢驗和CV-ANOVA,驗證模型無過擬合現(xiàn)象,且在統(tǒng)計上顯著有效,根據Galtier判別準則對驗證集進行預測,判別正確率達到95.45%。通過比較,PLS-DA模型在天麻產地鑒別上優(yōu)于PCA-MD模型,可以更為準確的鑒別天麻產地,為天麻產地鑒別提供了一種新的方法。