鐘偉萍,羅 陽(yáng),陳懿瑤,李小倩,王夢(mèng)妍,田孟良
1四川農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,成都 611130;2四川農(nóng)業(yè)大學(xué)新農(nóng)村發(fā)展研究院,雅安 625014
主成分分析方法[1](PCA)是將原來的數(shù)據(jù)指標(biāo)(一般是多維數(shù)據(jù))通過一系列算法重新組成新的互不相關(guān)的幾個(gè)綜合指標(biāo)代替原來數(shù)據(jù)指標(biāo)的一種統(tǒng)計(jì)方法,通過找出最能代表原始數(shù)據(jù)的計(jì)算方法,處理掉那些噪聲和冗余維度,在降低數(shù)據(jù)維度的同時(shí)還保證了數(shù)據(jù)原始特征不失真,對(duì)相似性越高的數(shù)據(jù),采用主成分分析越有效。在進(jìn)行主成分方差分析的時(shí)候存在單個(gè)指標(biāo)方差影響和指標(biāo)之間相關(guān)性影響,因此在前者計(jì)算的時(shí)候多采取協(xié)方差矩陣進(jìn)行計(jì)算,后者多采用相關(guān)性矩陣進(jìn)行計(jì)算分析。
我國(guó)石斛(Dendrobium)資源豐富,中國(guó)藥典[2]規(guī)定有4種石斛可供入藥,并且石斛作為藥食同源的植物,在保健品上使用也較多,所以市場(chǎng)上石斛“真假”混亂,加工品表觀不易鑒別。中國(guó)藥典規(guī)定的檢測(cè)方法檢測(cè)指標(biāo)有限,且檢測(cè)手段復(fù)雜。因此對(duì)已有檢測(cè)手段進(jìn)行檢測(cè)優(yōu)化,利用高效陰離子交換色譜和高效液相色譜檢測(cè)石斛中藥典規(guī)定及已報(bào)道明確活性的11種化學(xué)成分[3-5]。通過主成分分析對(duì)比,尋找質(zhì)量差異,在建立檢測(cè)檢驗(yàn)方法的同時(shí)也探討數(shù)據(jù)處理對(duì)分類鑒別產(chǎn)生的影響,為石斛種質(zhì)開發(fā)和質(zhì)量控制提供參考。
石斛材料為課題組收集的種質(zhì)資源,種類如下表(表1)。
表1 實(shí)驗(yàn)材料Table 1 The experimental materials
DIONEX-ICS-5 000+型離子色譜(配備脈沖安培積分檢測(cè)器),Chromeleon 7 色譜工作站, CarboPacTMPA100 Analytical(4 mm×250 mm)色譜柱(美國(guó)Thermo Fisher Scientific公司);Agilent 1200高效液相色譜儀(配備紫外分檢測(cè)器),XDB-C18色譜柱(美國(guó)Agilent公司);LX-03型萬能高速粉碎機(jī)(永康市紅光工貿(mào)有限公司);CP224S電子天平(德國(guó)Sartorius公司);UPH-III-10T型超純水機(jī)(成都超純科技有限公司);KQ-400KDE型高功率數(shù)控超聲波清洗器(東莞市科橋超聲波設(shè)備有限公司);Allegra X-30R Centrifuge 型離心機(jī)(美國(guó)貝克曼庫(kù)爾特);0.45 μm津騰有機(jī)濾頭及一次性注射器(天津市津騰實(shí)驗(yàn)設(shè)備有限公司)。
甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、果糖、乳糖、丁香酸、柚皮素、香豆素、香草醛標(biāo)準(zhǔn)品均為色譜級(jí)(北京Solarbio公司);50% NaOH溶液(美國(guó)sigma公司);無水乙醇為優(yōu)級(jí)純(成都市科隆化學(xué)品有限公司);甲醇、乙腈、磷酸均為色譜級(jí)(天津市科密歐化學(xué)試劑有限公司);用水為電阻率≥18.19 MΩ·cm的超純水。
1.3.1 色譜條件
離子色譜:淋洗液為超純水-5 mol/L NaOH溶液(0 min 90%~10% 0.8 mL/min,3 min 90%~10% 0.8 mL/min,5 min 85%~15% 0.8 mL/min,7 min 85%~15% 0.4 mL/min,9 min 80%~20% 0.3 mL/min,12 min 80%~20% 0.4 mL/min,14 min 80%~20% 0.6 mL/min,18 min 85%~15% 0.6 mL/min,20 min 85%~15% 0.8 mL/min,24 min 90%~10% 0.8 mL/min,30 min Stop),進(jìn)樣量25 μL,柱溫30 ℃。
液相色譜:流動(dòng)相為0.01%磷酸-乙腈-甲醇,洗脫程序(0 min 80%~0%~20%,6 min 70%~10%~20%,12 min 57%~10%~33%,15 min 54%~13%~33%,20 min 50%~20%~30%,22 min 70%~10%~20%,25 min 80%~0%~20%,流速0.6 mL/min),λ=270 nm,進(jìn)樣量6 μL,柱溫25 ℃。
1.3.2 標(biāo)準(zhǔn)品配制
分別精密量取各標(biāo)準(zhǔn)品配制成質(zhì)量濃度為1 000 mg/L儲(chǔ)備母液,在精密吸取配制成梯度濃度標(biāo)曲溶液,過0.45 μm濾膜后上樣檢測(cè)。
1.3.3 樣品制備
石斛糖樣液采用“水提醇沉”與三氟乙酸水解進(jìn)行制備,取上述一年生石斛材料,烘干粉碎過40目篩,精密稱定粉末0.5 g,加入50 mL超純水,400 W/50 ℃超聲提取1 h,放冷,取上清液5 mL,加入無水乙醇20 mL,冷藏4 h后離心(4 000 rpm)30 min,沉淀加10 mL熱水溶解得多糖提取液,在次精密吸取多糖提取溶液1 mL,精密加入TFA 1 mL(6 moL/L),密閉,100 ℃水解12 h,揮干溶劑,加入5 mL熱水溶解,放冷過0.45 μm濾膜得測(cè)試樣液I。
其余成分樣液采用“醇提”制備,精密稱取樣品粉末0.5 g,加入甲醇25 mL,400 W /40 ℃超聲提取2 h,放冷,取上清液過0.45 μm濾膜得測(cè)試樣液II。
1.3.4 數(shù)據(jù)處理
所有數(shù)據(jù)采用Excel 2016版和R x64 3.44版軟件進(jìn)行處理分析。
精密吸取配置成各糖濃度均為10 mg/L混合樣液,按1.3.1項(xiàng)下離子色譜條件進(jìn)樣測(cè)試,混合糖標(biāo)準(zhǔn)品分離色譜圖(圖1),出峰先后順序?yàn)楦事短?、鼠李糖、阿拉伯糖、葡萄糖、木糖、果糖、乳糖,所有糖?biāo)準(zhǔn)品能在20 min之內(nèi)實(shí)現(xiàn)快速分離鑒別,分離度、理論塔板數(shù)均達(dá)能到分析要求。
圖1 糖類標(biāo)準(zhǔn)品分離色譜圖Fig.1 The chromatogram of sugar standard注:1:甘露糖;2:鼠李糖;3:阿拉伯糖;4:葡萄糖;5:木糖;6:果糖;7:乳糖。Note:1:mannose;2:mannose;3:arabinose;4:glucose;5:xylose;6:fructose;7:lactose.
精密吸取配置其余4種化學(xué)成分,濃度為10 mg/L,按1.3.1項(xiàng)下液相色譜條件進(jìn)樣測(cè)試,混合標(biāo)準(zhǔn)品分離色譜圖(圖2),出峰先后順序?yàn)槎∠闼?、香草醛、香豆素、柚皮素?個(gè)標(biāo)準(zhǔn)品能在25 min之內(nèi)實(shí)現(xiàn)快速分離鑒別,分離度、理論塔板數(shù)均達(dá)能到分析要求。
圖2 4種化學(xué)標(biāo)準(zhǔn)品分離色譜圖Fig.2 The chromatogram of 4 chemical standard注:1:丁香酸;2:香草醛;3:香豆素;4:柚皮素。Note:1:syringate;2:vanillin;3:coumarin;4:naringenin.
通過標(biāo)準(zhǔn)曲線計(jì)算,得到線性回歸方程、線性范圍、回收率、相對(duì)標(biāo)準(zhǔn)偏差(RSD)等數(shù)據(jù)(表2)。數(shù)據(jù)表明,利用離子色譜和液相色譜對(duì)石斛樣品中化學(xué)成分的檢測(cè)分析滿足簡(jiǎn)便、快速、精確的要求。
表2 標(biāo)準(zhǔn)曲線Table 2 Linear equations
分別取樣液I和樣液II,分別按1.3.1項(xiàng)下離子色譜條件和液相色譜條件進(jìn)樣測(cè)試。測(cè)定各成分含量如下(表3),11種化學(xué)成分在石斛種分布差異顯著,所有石斛均含有甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、丁香酸、香豆素和柚皮素成分;麝香石斛中阿拉伯糖含量高于其它種,為0.63‰;紫婉石斛中葡萄糖和木糖含量高于其它種,分別為1.92‰和9.61‰;喇叭唇石斛中甘露糖、果糖、乳糖含量高于其它種,分別為6.74‰、0.39‰和3.08‰;黃喉石斛中鼠李糖含量高于其它種,為1.12‰;疊鞘石斛中香草醛含量高于其它種,為0.479‰;蜻蜓石斛中丁香酸、柚皮素含量高于其它種,分別為0.409‰和0.526‰;玫瑰石斛中香豆素含量高于其它種,為0.87‰。
表3 各成分含量(‰)Table 3 The component content(‰)
通過R計(jì)算,得到11種化學(xué)成相似性系數(shù)(表4),結(jié)果表明有45.5%的數(shù)據(jù)之間相似性系數(shù)大于0.3,其中以糖類成分之間相似性較高,因此數(shù)據(jù)適宜于采用主成分分析方法進(jìn)行進(jìn)一步分析。
表4 相似性系數(shù)矩陣Table 4 The similarity coefficient matrix
2.5.1 特征向量
利用R軟件分別輸入相關(guān)系數(shù)矩陣和協(xié)方差矩陣計(jì)算命令,得到其特征向量(表5),選取方差累積貢獻(xiàn)值大于80%的主成分進(jìn)行下一步分析。
表5 不同矩陣主成分分析的特征值Table 5 The eigenvalues of principal component analysis of different matrices
2.5.2 載荷矩陣
載荷矩陣(表6)反應(yīng)對(duì)評(píng)價(jià)結(jié)果的影響程度,其絕對(duì)值越趨近于1則代表該主成分對(duì)變量的代表性越高,對(duì)評(píng)價(jià)結(jié)果越重要。
表6 不同矩陣主成分載荷Table 6 The different matrix principal component loads
2.5.3 主成分得分圖
計(jì)算相關(guān)系數(shù)矩陣主成分得分,繪制主成分得分三維空間圖并結(jié)合平方歐式距離聚類樹狀圖(圖3),結(jié)果表明在這11種化學(xué)成分上,不同石斛之間可聚為以下幾類,第一類為細(xì)莖石斛、喇叭唇石斛和紫婉石斛,這3種石斛在甘露糖、阿拉伯糖、木糖、果糖、乳糖含量上相近;第二類為黃喉石斛和疊鞘石斛,這2種石斛在木糖、果糖、丁香酸含量上相近;第三類為鐵皮石斛、金釵石斛、姬竹葉石斛、鼓槌石斛、長(zhǎng)蘇石斛、長(zhǎng)距石斛、景洪石斛和滇金石斛,這8種石斛在果糖、鼠李糖、香豆素、柚皮素含量上相近;其余蜻蜓石斛、麝香石斛、玫瑰石斛各單獨(dú)為一類。
計(jì)算協(xié)方差矩陣主成分得分,繪制主成分得分二維空間圖并結(jié)合平方歐式距離聚類樹狀圖(圖4),結(jié)果表明在這11種化學(xué)成分上,分類主要衡量標(biāo)準(zhǔn)在于PC1向量上,在PC1主成分向量上距離相近,只是在PC2主成分向量上有一定距離,因此可以分為以下幾類,第一類為細(xì)莖石斛、紫婉石斛和喇叭唇石斛;第二是蜻蜓石斛和麝香石斛;第三類是金釵石斛、姬竹葉石斛、玫瑰石斛、長(zhǎng)蘇石斛、長(zhǎng)距石斛、景洪石斛、滇金石斛、鐵皮石斛、鼓槌石斛、黃喉石斛和疊鞘石斛。
圖3 相關(guān)系數(shù)矩陣主成分得分圖和聚類樹狀圖Fig.3 The principal component score of correlation coefficient matrix and Cluster tree
圖4 協(xié)方差矩陣主成分得分圖和聚類樹狀圖Fig.4 The principal component score of covariance matrix and Cluster tree
不論是在天然產(chǎn)物[6]或者中藥標(biāo)志物[7]的研究中,我們更多的是集中在研究其自身化學(xué)成分的組成、檢測(cè)方法手段的建立更新,但大量的數(shù)據(jù)隨著多維質(zhì)譜等新技術(shù)檢測(cè)設(shè)備[8-9]的更新而不斷的激增,那如何從中篩選有用指標(biāo),如何建立數(shù)據(jù)分析方法進(jìn)行大數(shù)據(jù)的挖掘,這將是人為鑒定和分類標(biāo)準(zhǔn)建立的重要末端環(huán)節(jié),而不同的數(shù)據(jù)分析處理方法將會(huì)帶來不同的標(biāo)準(zhǔn)體系。同時(shí),很多的化學(xué)成分是存在相關(guān)性的,所以面對(duì)海量的“多維”數(shù)據(jù)選擇能有效“降維”的分析手段,主成分分析是一個(gè)很好的數(shù)據(jù)處理分析方法。
通過色譜法測(cè)試得到的石斛樣品中11種化學(xué)成分進(jìn)行分析表明,16種石斛在化學(xué)成分上存在明顯差異,并且不同的主成分分析方法得到的結(jié)果存在一定差異,這本身與兩種算法差異存在關(guān)系。在對(duì)相關(guān)性較大的數(shù)據(jù)處理時(shí),如果采用協(xié)方差矩陣算法則可能導(dǎo)致重要的主成分和主成分次序發(fā)生變換;而在對(duì)原始數(shù)據(jù)做相關(guān)系數(shù)分析時(shí),會(huì)存在權(quán)大(即在原始數(shù)據(jù)中的重要程度)權(quán)小之分,而權(quán)的大小又是隨機(jī)的,所以在提取主成分時(shí)也會(huì)存在一定問題。
本次研究基于對(duì)石斛質(zhì)量控制標(biāo)準(zhǔn),建立高效、精確的檢測(cè)檢驗(yàn)手段得到大量數(shù)據(jù)的同時(shí),對(duì)主成分分析方法進(jìn)行研究,通過對(duì)比相關(guān)性矩陣和協(xié)方差矩陣兩種算法的不同,得到的分析結(jié)果還是存在一定差異。兩者的優(yōu)勢(shì)效應(yīng)不同是造成分析結(jié)果差異的主要原因,相關(guān)性矩陣的優(yōu)勢(shì)效應(yīng)主要表現(xiàn)在相關(guān)性大、相關(guān)性指數(shù)多的一類指標(biāo),而協(xié)方差矩陣主要表現(xiàn)在單個(gè)指標(biāo)方差大、指標(biāo)之間相關(guān)程度高的一類指標(biāo)。因此,在選擇主成分分析時(shí),應(yīng)注意數(shù)據(jù)分析方法的全面性,建立標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)處理和信息挖掘方法,避免采用單一、不全面的人為分類標(biāo)準(zhǔn)。而通過分析本次實(shí)驗(yàn)結(jié)果,采用協(xié)方差矩陣算法進(jìn)行的主成分分析更適用于此次所測(cè)試的結(jié)果,這主要是由于此次分析的11種化學(xué)成分中,有7種單糖成分,因此其指標(biāo)之間的相關(guān)程度較高,適用于協(xié)方差矩陣算法。