寇天一
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
人參和西洋參都是五加科人參屬的草本植物,其干燥的根和根莖部位可入藥,它們的主要化學(xué)成分為皂苷類,化學(xué)結(jié)構(gòu)相當(dāng)復(fù)雜,藥用價(jià)值極高[1-2]。迄今為止,在人參和西洋參中已經(jīng)鑒定出超過(guò)60多種人參皂苷,《中國(guó)藥典》記載人參中最重要的成分是人參皂苷Rg1、Rb1和Re,西洋參和人參十分相似,唯一的區(qū)別就是西洋參含有獨(dú)有的擬人參皂苷F11。雖然人參和西洋參可以通過(guò)傳統(tǒng)方法(例如:基源鑒定、性狀鑒定、顯微鑒定)進(jìn)行鑒別,但是這些鑒別手段存在主觀性、片面性等問(wèn)題,而記載于《中國(guó)藥典》的高效液相色譜法(HPLC)是目前最權(quán)威、最全面的方法。例如,Wang等[3]在1999年使用高效液相色譜?串聯(lián)質(zhì)譜(HPLC-MS/MS),Chan等[4]在2000年使用高效液相色譜-電噴霧質(zhì)譜(HPLC-ESI-MS),根據(jù)人參皂苷的分布來(lái)區(qū)分西洋參和人參。Ma等[5]在2006年利用高效液相色譜?大氣壓化學(xué)電離質(zhì)譜(HPLC-APCIMS)對(duì)西洋參中F11的含量進(jìn)行了研究,發(fā)現(xiàn)可以用一種基于majonoside異構(gòu)體和人參皂苷Rd作為標(biāo)記物來(lái)鑒定來(lái)自中國(guó)和北美的西洋參。然而,高效液相色譜法是基于物質(zhì)的分離(依賴于吸附特性、表面電荷、配體特異性和蛋白質(zhì)分子大小的差異),需要復(fù)雜的預(yù)處理過(guò)程,且成本高、耗時(shí)長(zhǎng)[6-7]。因此,迫切需要尋找一種準(zhǔn)確、快速的分析方法來(lái)鑒別人參和西洋參。
太赫茲(THz)光譜具有安全、無(wú)損、快速,易穿透等特點(diǎn)[8],因此已被應(yīng)用于物理學(xué)[9-10]、生物學(xué)[11-12]、化學(xué)[13-14]、藥物學(xué)[15]等多個(gè)研究領(lǐng)域。太赫茲波段涵蓋了大多數(shù)有機(jī)分子的振動(dòng)和旋轉(zhuǎn)運(yùn)動(dòng)的特征吸收頻率。因此,太赫茲指紋圖譜可用于物質(zhì)的識(shí)別和定量分析,并且該技術(shù)已被用于檢測(cè)腫瘤代謝物同分異構(gòu)體2HG[16]、甲基乙二醛[17]、同型半胱氨酸等[18]。如果THz光譜可以識(shí)別人參和西洋參中的特異性皂苷,則有助于人參和西洋參的鑒別。
本文基于人參和西洋參的THz光譜特征,通過(guò)主成分分析(PCA)研究了人參和西洋參的鑒別方法。
材料:人參皂苷Rg1(>98%,CAS:22 427-39-0,購(gòu)買自Sigma-Aldrich,中國(guó)上海),擬人參皂苷F11(>98%,CAS:69 884-00-0,購(gòu)買自PureChem Standard,中國(guó)成都),環(huán)烯烴共聚物(COC)粉(顆粒大小50~100μm產(chǎn)自上海核研究所)。由于COC在太赫茲區(qū)的折射率彌散可以忽略,吸收可以忽略,因此非常適合于太赫茲光譜的分析[19]。實(shí)驗(yàn)所用的樣本均是人參和西洋參塊狀根部,且所有樣本均未進(jìn)一步純化。
在進(jìn)行太赫茲光譜分析前,被檢的人參、西洋參樣本需要經(jīng)過(guò)研磨、篩分和壓片過(guò)程。人參和西洋參在MM400球磨機(jī)(Retsch,德國(guó))中研磨成顆粒大小為40~50 μm的粉末狀,粉末樣品過(guò)篩后與COC均勻混合,然后用壓片機(jī)(4 t壓力)將樣品壓縮成厚1 mm、直徑13 mm的片劑。
實(shí)驗(yàn)裝置為德國(guó)Bruker公司生產(chǎn)的傅里葉變換紅外光譜儀,型號(hào)為Vectex80v。其中遠(yuǎn)紅外模塊光源為水冷汞燈,檢測(cè)器為DLaTGS/聚乙烯檢測(cè)器,光譜有效覆蓋區(qū)為30~680 cm?1,信噪比(SNR)優(yōu)于10 000∶1。儀器的光譜范圍為0.9~14 THz、分辨率為2 cm?1、掃描頻率為5 kHz,環(huán)境室溫約為22 ℃,樣品倉(cāng)保持真空以減少水蒸氣對(duì)實(shí)驗(yàn)的影響。
主成分分析法(principal component analysis,PCA)是一種簡(jiǎn)化數(shù)據(jù)集的統(tǒng)計(jì)抽取方法。PCA基本思路為借助正交變換,將相關(guān)聯(lián)的原變量轉(zhuǎn)為不相關(guān)的新變量,即將原變量系統(tǒng)變換成新的正交系統(tǒng),使之指向樣本點(diǎn)散布最開(kāi)的正交方向,進(jìn)而對(duì)多維變量系統(tǒng)進(jìn)行降維處理。
設(shè)原變量為x1,x2,···,xJ,主成分分析后得到的新變量為z1,z2,···,zm,均是x1,x2,···,xJ的線性組合(m<J,J是原變量的維數(shù),m是新變量保留原變量最大的維數(shù))。變量z1,z2,···,zm構(gòu)成的坐標(biāo)系是在原來(lái)坐標(biāo)系經(jīng)平移和正交旋轉(zhuǎn)后得到的,稱z1,z2,···,zm形成的空間為m維主平面。在主平面上,第一主分量z1對(duì)應(yīng)于數(shù)據(jù)變異最大的方向,對(duì)于z1,z2,···,zm,依次有V(z1)≥V(z2)≥??? ≥V(zm),V是對(duì)應(yīng)維度變量的主成分得分。因此,z1是攜帶原數(shù)據(jù)信息最多的一維變量[20],稱為第一主成分(PC1),第二坐標(biāo)的第二大方差為第二主成分(PC2),等等。基本算法和步驟如下:
(1)數(shù)據(jù)標(biāo)準(zhǔn)化處理
式中:xij為第i個(gè)分區(qū)第j個(gè)指標(biāo)的值;xj、Sj為第j個(gè)指標(biāo)樣本的樣本均值和樣本標(biāo)準(zhǔn)差,其中I為數(shù)據(jù)表的分區(qū)數(shù)。
(2)計(jì)算數(shù)據(jù)表(yij)I×J的相關(guān)矩陣R。
(3)求R的J個(gè)特征值λ1,λ2,???,λJ,其中λ1≥λ2,···,≥λJ,并求特征向量u1,u2,···,uJ,而u1,u2,···,uJ又稱為主軸。
(4)計(jì)算主成分
本文提取z1和z2作為PC1和PC2,用于樣品的定性分析。
人參皂苷Rg1屬于達(dá)瑪烷家族四環(huán)三萜皂苷成員,它的結(jié)構(gòu)中含有30個(gè)碳原子,這與甾醇十分相似。人參皂苷Rg1(屬于原三醇人參型皂苷,分子量為801.01)具有興奮中樞神經(jīng),防止性功能減退,增強(qiáng)記憶,恢復(fù)疲勞,促進(jìn)DNA、RNA合成,抗血小板凝集等作用。擬人參皂苷F11(一種ocotillol型皂苷,分子量為801.02)是達(dá)瑪烷家族的三萜皂苷成員,含有四環(huán)類固醇剛性骨架,具體很好的治療心肌缺血、腦缺血和中風(fēng)的作用[21-22]。
將Rg1和F11這兩種標(biāo)志物皂苷按25%質(zhì)量分?jǐn)?shù)制備成藥片狀,在同一天置于相同環(huán)境檢測(cè)8次,以獲得這兩種純品皂苷的太赫茲吸收譜及其誤差棒。
人參皂苷Rg1和擬人參皂苷F11的太赫茲光譜如圖1所示。圖1(a)中,人參皂苷Rg1的吸收峰位為8.36 THz和9.54 THz,在較低頻段并未發(fā)現(xiàn)太赫茲吸收峰。而擬人參皂苷F11則與人參皂苷Rg1大不相同,如圖1(b)所示,擬人參皂苷F11在較低頻段1.76 THz、2.31 THz、3.11 THz和3.61 THz處均有明顯的吸收峰,這些吸收峰相較于人參皂苷有巨大的差異。出現(xiàn)這種現(xiàn)象的原因是,相較于其他皂苷,擬人參皂苷F11中存在單獨(dú)的不飽和雙鍵(C=C鍵),主要發(fā)生的是非共軛的π軌道的π-π*躍遷,其分子結(jié)構(gòu)中不存在共軛體系,是一種非共軛物質(zhì),而人參皂苷Rg1等達(dá)瑪烷家族四環(huán)三萜皂苷中均含有共軛體系,這是兩者本質(zhì)的區(qū)別。此外,圖1中曲線上非常小的誤差棒反映了THz光譜分析的再現(xiàn)性和準(zhǔn)確性。
圖1 人參皂苷的太赫茲光譜Fig.1 Terahertz spectra of ginsenoside
在證明了太赫茲光譜指紋可用于特異性皂苷的識(shí)別后,我們進(jìn)一步做了人參和西洋參樣本的太赫茲光譜測(cè)試。圖2為人參和西洋參的太赫茲光譜,其中(a)~(c)為3種不同批次的人參樣本,而(d)~(f)為3種不同批次的西洋參樣本。將這6個(gè)樣本按上述制備過(guò)程制備成同等比例的樣本壓片,于同一天在相同環(huán)境下對(duì)每個(gè)樣本檢測(cè)4次,以獲得人參和西洋參的太赫茲吸收譜和誤差棒。
圖2 人參和西洋參的太赫茲光譜Fig.2 Terahertz spectra of ginseng and Panax quinquefolium
由圖2(a)、(b)、(c)可知,人參的光譜吸收峰與其特異性皂苷Rg1峰位相近,均在8~11 THz范圍內(nèi),具體峰位為8.96 THz和10.46 THz。由圖2(d)、(e)、(f)可知,除了2.31 THz的吸收峰太小無(wú)法檢測(cè)外,所有西洋參樣品均出現(xiàn)了擬人參皂苷F11的吸收峰,相較于人參,西洋參與其特異性皂苷的峰位對(duì)應(yīng)更精準(zhǔn)。同時(shí),在圖2的6張光譜曲線上,非常小的誤差棒同樣反映了太赫茲光譜在人參和西洋參檢測(cè)分析上的再現(xiàn)性和準(zhǔn)確性。實(shí)驗(yàn)證明,通過(guò)人參和西洋參的太赫茲光譜吸收峰的位置,可以精準(zhǔn)地分辨這2種五加科草本植物。
為了確定人參和西洋參的太赫茲光譜是否還可以作為與其他草本植物和非草本物質(zhì)的定性鑒別依據(jù),我們基于MATLAB軟件,采用主成分分析(PCA)算法進(jìn)一步進(jìn)行分類鑒定。
用于定性分析的樣本除了上述的三批次的人參和西洋參外,還對(duì)其他的草本植物(白芍和赤芍)和一些氨基酸物質(zhì)(谷氨酸、賴氨酸、同型半胱氨酸、色氨酸)進(jìn)行了定性分析。
圖3 12個(gè)樣本的主成分得分圖。Fig.3 Principal component score of 12 samples.
圖3為12個(gè)樣本太赫茲光譜數(shù)據(jù)的主成分得分圖(PC1值為97.62%,PC1+PC2值為99.31%)。當(dāng)前p個(gè)主成分的貢獻(xiàn)率足夠大(PC1+PC2+???+PCp>85.00%)時(shí),可以用前p個(gè)主成分近似代替原始數(shù)據(jù)集[23]。因此,這些光譜數(shù)據(jù)可以用PC1和PC2進(jìn)行近似分析。在主成分分析中,任意2個(gè)樣本的PC1得分越相似,說(shuō)明它們之間的相似性越強(qiáng),反之,樣本的PC1得分偏差越大,差異越大[24]。可以從圖3看出,人參和西洋參有十分相似的PC1得分,PC1得分集中于80.00%左右。究其原因,是人參和西洋參同為五加科人參屬草本植物,具有十分類似的主要成分,例如人參皂苷Rb1、Rg1和Re以及一些多糖等。同理,4種氨基酸物質(zhì)也有非常相似的PC1得分,這說(shuō)明它們的主成分相差不大。PC2得分的差異是源于各樣本存在不同的物質(zhì)組成成分,比如西洋參獨(dú)有的擬人參皂苷F11。人參、西洋參這2種五加科人參屬植物與谷氨酸、賴氨酸、同型半胱氨酸、色氨酸這4種非草本植物的物質(zhì)PC1得分相差很大,位居得分圖的兩側(cè),這說(shuō)明草本植物與非草本物質(zhì)的差異非常的大,因此可以很容易鑒別。另外,還可以看出,非五加科草本植物赤芍和白芍的PC1得分介于五加科植物和氨基酸物質(zhì)之間,這說(shuō)明不同屬的草本植物也可以被準(zhǔn)確鑒別。對(duì)于得分圖中的多種物質(zhì),完全由不同的成分決定了它們的顯著差異。
本文基于太赫茲光譜,采用主成分分析(PCA)對(duì)人參和西洋參進(jìn)行了鑒別。實(shí)驗(yàn)證明,采用太赫茲光譜能夠快速、準(zhǔn)確地區(qū)分人參皂苷Rg1和擬人參皂苷F11,而結(jié)合PCA算法可更有效地區(qū)別同屬五加科植物的人參和西洋參。本文鑒別方法還可以應(yīng)用于其他草本植物和氨基酸物質(zhì)的區(qū)分。