殷 明,王建林,黃浩亮,黃秋萍,楊萌萌,傅正平,陸亞林*
1. 中國(guó)科學(xué)技術(shù)大學(xué)國(guó)家同步輻射實(shí)驗(yàn)室,安徽 合肥 230026 2. 中國(guó)科學(xué)技術(shù)大學(xué)合肥微尺度物質(zhì)科學(xué)國(guó)家研究中心,安徽 合肥 230026 3. 中國(guó)科學(xué)技術(shù)大學(xué)化學(xué)與材料科學(xué)學(xué)院,安徽 合肥 230026
黃酮類化合物泛指兩個(gè)苯環(huán)通過(guò)中央三碳鏈連接而成的一類化合物,常以游離或糖苷形式廣泛存在于植物體內(nèi)的一大類多酚物質(zhì),具有抗氧化、抗菌、抗病毒、抑制腫瘤生長(zhǎng)等藥理作用。 目前中草藥市場(chǎng)上以次充好、以假亂真的現(xiàn)象比較常見(jiàn),嚴(yán)重?cái)_亂市場(chǎng)秩序和消費(fèi)者身體健康,為了確保藥品質(zhì)量安全和保護(hù)消費(fèi)者權(quán)益,采用一種可靠、有效的中草藥檢測(cè)方法是必不可少的。 傳統(tǒng)的中草藥檢測(cè)方法包括光譜法[1]、色譜法[2-3]、質(zhì)譜法[4-5]等,但是每種方法各有優(yōu)劣,沒(méi)有一種方法可以解決所有問(wèn)題。
太赫茲(Terahertz, THz)波是指頻率在0.1~10 THz范圍內(nèi)的電磁波,該頻段內(nèi)包含了大量有關(guān)物質(zhì)的物理、化學(xué)和結(jié)構(gòu)信息以及多種分子振動(dòng)模式,很多生物分子在太赫茲波段都有明顯的特征吸收峰,太赫茲譜學(xué)在食品、藥品、生物醫(yī)學(xué)領(lǐng)域有重要的應(yīng)用價(jià)值[6]。 本文利用太赫茲時(shí)域光譜技術(shù)(THz-TDS)研究常見(jiàn)的黃酮類化合物在太赫茲波段的光譜特性,同時(shí)利用幾種化學(xué)計(jì)量學(xué)方法對(duì)不同種類的黃酮類物質(zhì)進(jìn)行種類鑒別和定量分析,為中草藥的檢測(cè)提供一種無(wú)損、快速、有效的分析方法,在中藥材市場(chǎng)檢測(cè)中具有重要的應(yīng)用價(jià)值。
本文實(shí)驗(yàn)裝置使用自搭的透射式THz-TDS系統(tǒng),其原理圖如圖1所示。 通過(guò)測(cè)量得到太赫茲脈沖透過(guò)樣品和參考信號(hào)的振幅和相位信息,利用樣品信號(hào)[Es(ν)]和參考信號(hào)[Er(ν)]計(jì)算得到透射系數(shù)[T(ν)],透射系數(shù)定義如式(1)
(1)
式(1)中,ν是頻率,d為樣品厚度,c為真空中的光速,a表示吸收系數(shù),n表示折射率,根據(jù)式(1)中的實(shí)部和虛部,可以計(jì)算出樣品的折射率(n)和吸收系數(shù)(a)如式(2)和式(3)所示
(2)
(3)
圖1 透射式太赫茲時(shí)域光譜系統(tǒng)原理圖Fig.1 Schematic diagram of transmission terahertztime-domain spectroscopy system
其中,w是角頻率,φ(ω)為相位差,ρ(ω)為幅值比,k(ω)表示消光系數(shù)。
研究了8種常見(jiàn)的黃酮類化合物,它們包括黃芩素、槲皮素、柚皮素、大豆素、黃芩苷、葛根素、染料木素和天麻素。 所有樣品純度均大于99%,并購(gòu)買(mǎi)于同一批次,實(shí)驗(yàn)前均放在恒溫恒濕箱中保存,未經(jīng)過(guò)其他預(yù)處理。 實(shí)驗(yàn)樣品制備采用粉末壓片法,首先將樣品在瑪瑙研缽中充分研磨,然后與高密度聚乙烯粉末(HDPE)按照1∶2比例進(jìn)行充分混合,最后在壓片機(jī)下制成厚度為1 mm的薄片。 在做分類鑒別研究時(shí),每種黃酮類物質(zhì)制備10個(gè)樣品,一共80個(gè)樣品作為待測(cè)樣品; 在做定量預(yù)測(cè)分析時(shí),將黃酮類物質(zhì)與淀粉混合配制不同濃度的待測(cè)樣品,濃度范圍從10%~90%(w/w)(間隔10%),每種濃度制備10個(gè)樣品,共90個(gè)樣品作為待測(cè)樣品。 在建立定性和定量模型時(shí)將每種黃酮類物質(zhì)按照比例隨機(jī)分成校正集(70%)和預(yù)測(cè)集(30%)。
實(shí)驗(yàn)在室溫下利用THz-TDS測(cè)量了所有黃酮類化合物樣品,為了保證實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)確性,每個(gè)樣品測(cè)量3次取平均值得到樣品的太赫茲時(shí)域信號(hào),原始時(shí)域信號(hào)經(jīng)過(guò)Savitsky-Golay濾波預(yù)處理后,再通過(guò)計(jì)算得到樣品在0.2~2.5 THz范圍內(nèi)的吸收系數(shù),8種黃酮類物質(zhì)的THz吸收譜如圖2所示。 從圖中可以看出,雖然這些黃酮類物質(zhì)具有相似的分子結(jié)構(gòu),但每種物質(zhì)在太赫茲波段都有明顯不同的特征吸收峰,體現(xiàn)了太赫茲對(duì)生物分子的指紋譜特性。 因此,可以通過(guò)太赫茲吸收譜對(duì)黃酮類物質(zhì)進(jìn)行種類鑒別。
圖2 8種黃酮類物質(zhì)的太赫茲吸收譜Fig.2 Terahertz absorption spectra of eight flavonoids
實(shí)驗(yàn)測(cè)試了柚皮素和大豆素在78~320 K溫度范圍內(nèi)的的太赫茲吸收光譜,結(jié)果如圖3所示,從圖中可以看出,隨著溫度的降低,柚皮素和大豆素的三個(gè)吸收峰逐漸增強(qiáng),并且吸收峰頻率位置發(fā)生輕微的藍(lán)移,柚皮素的三個(gè)吸收峰1.4,1.58和1.78 THz分別藍(lán)移到1.42,1.6和1.80 THz,平移量為0.02 THz。 大豆素的三個(gè)吸收峰0.97,1.24和1.75 THz分別藍(lán)移到0.98,1.25和1.76 THz,平移量為0.01 THz。 通常,隨著溫度的降低,吸收峰變得更尖銳主要是能量振動(dòng)態(tài)分布隨溫度變化的結(jié)果,而由溫度引起的吸收峰位置的頻移被認(rèn)為是多種機(jī)制作用的結(jié)果,其中,藍(lán)移主要是由于熱膨脹引起的鍵長(zhǎng)增加以及振動(dòng)勢(shì)的非諧性導(dǎo)致的,紅移主要是由于分子間弱相互作用力導(dǎo)致的[7-10]。
圖3 柚皮素和大豆素隨溫度變化的吸收譜Fig.3 Temperature dependent of absorption spectra of naringenin and daidzein
主成分分析(principal component analysis, PCA)是一種基于統(tǒng)計(jì)學(xué)的無(wú)監(jiān)督模式識(shí)別方法,可以用來(lái)提取特征變量、降低數(shù)據(jù)維度以及可視化數(shù)據(jù)結(jié)構(gòu)。 支持向量機(jī)(support vector machines, SVM)是一種機(jī)器學(xué)習(xí)算法,具有很強(qiáng)的學(xué)習(xí)能力和泛化性能,可以有效地解決非線性的分類問(wèn)題。 本文首先通過(guò)PCA方法對(duì)原始光譜數(shù)據(jù)提取特征變量,圖4所示為所有樣品吸收譜做主成分分析得到的三維得分圖,其中,前五個(gè)主成分的累計(jì)方差貢獻(xiàn)率超過(guò)了98%,代表了原始數(shù)據(jù)的主要信息。 因此,可以提取前五個(gè)主成分作為SVM分類模型的輸入變量。 利用SVM在校正集上建立分類模型,選擇RBF徑向基核函數(shù)優(yōu)化模型,利用網(wǎng)格搜索尋找最優(yōu)參數(shù),得到正則化參數(shù)c=0.735 6和核參數(shù)g=1.435 3,交叉驗(yàn)證CV達(dá)到100%最高值,最后利用訓(xùn)練好的分類模型在預(yù)測(cè)集上對(duì)8種黃酮類物質(zhì)做分類鑒別,最終得到分類準(zhǔn)確率達(dá)到100%。 對(duì)比原始光譜數(shù)據(jù)作為支持向量機(jī)的輸入變量,本文利用PCA提取前五個(gè)主成分分量作為SVM輸入變量來(lái)建立校正模型,不僅提取了特征變量,而且減少了運(yùn)算量,提高了運(yùn)行效率和模型精確度。
圖4 8種黃酮類物質(zhì)太赫茲吸收譜的PCA三維得分圖Fig.4 PCA three-dimensional score map for terahertzabsorption spectra of eight flavonoids
利用偏最小二乘回歸(partial least squares regression, PLSR)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)回歸模型對(duì)淀粉中不同含量的黃酮類物質(zhì)進(jìn)行定量分析,其中ANN模型采用RBF神經(jīng)網(wǎng)絡(luò)。 在做定量預(yù)測(cè)分析過(guò)程中,通常用相關(guān)系數(shù)R2和均方根誤差RMSE兩個(gè)指標(biāo)來(lái)衡量模型的性能,其中,R2和RMSE的表達(dá)式如式(4)和式(5)所示
(4)
(5)
實(shí)驗(yàn)測(cè)量得到了淀粉中不同濃度柚皮素和大豆素的太赫茲時(shí)域光譜如圖5(a)和(c)所示。 從圖中可以看出,隨著淀粉中黃酮類物質(zhì)濃度含量的增加,吸收峰強(qiáng)度也隨著增強(qiáng)。 利用兩種回歸方法對(duì)淀粉中黃酮類物質(zhì)的濃度建立了定量預(yù)測(cè)模型,其預(yù)測(cè)結(jié)果如圖5(b)和(d)所示,圖中顯示了淀粉中黃酮類物質(zhì)的真實(shí)濃度和預(yù)測(cè)濃度之間的關(guān)系。 對(duì)淀粉中不同濃度含量的柚皮素的定量分析中,利用PLSR回歸模型得到的預(yù)測(cè)結(jié)果為: 有效成分含量預(yù)測(cè)值與其真實(shí)值之間的相關(guān)系數(shù)R2=0.991 1,均方根誤差RMSE=2.428 8。 利用ANN回歸模型得到的預(yù)測(cè)結(jié)果為:R2=0.994 4,RMSE=1.932 5。 對(duì)淀粉中不同濃度含量的大豆素的定量分析中,利用PLSR回歸模型得到的預(yù)測(cè)結(jié)果為:R2=0.992 8,RMSE=2.188 5。 利用ANN回歸模型得到的預(yù)測(cè)結(jié)果為:R2=0.996 4,RMSE=1.544 1。 對(duì)比兩種模型預(yù)測(cè)結(jié)果可以看出,ANN模型具有更高的相關(guān)系數(shù)以及更低的均方根誤差,因此,結(jié)果證明了利用THz-TDS對(duì)淀粉中不同濃度含量的黃酮類化合物做定量分析時(shí),ANN模型具有較高的預(yù)測(cè)精度。
利用THz-TDS研究了8種常見(jiàn)的黃酮類化合物在0.2~2.5 THz波段的生物分子特性,結(jié)果顯示均具有明顯不同的特征吸收峰,并研究了它們?cè)?8~320 K溫度范圍內(nèi)隨溫度變化的吸收特性,結(jié)果表明,隨著溫度的降低,特征吸收峰逐漸增強(qiáng),主要是由能量振動(dòng)態(tài)分布的影響,并且吸收峰位置發(fā)生藍(lán)移,主要是由于熱效應(yīng)以及振動(dòng)勢(shì)的非諧性導(dǎo)致的。 另外,通過(guò)化學(xué)計(jì)量學(xué)方法對(duì)這些黃酮類化合物進(jìn)行種類鑒別和定量分析,首先利用PCA提取光譜特征變量,然后將前五個(gè)主成分分量作為SVM的輸入變量進(jìn)行分類鑒別,通過(guò)優(yōu)化模型得到最優(yōu)參數(shù),得到分類準(zhǔn)確度為100%。 另外,采用PLSR和ANN回歸模型對(duì)淀粉中含有不同濃度的黃酮類物質(zhì)做定量檢測(cè),結(jié)果ANN方法得到了最高的預(yù)測(cè)精度。 綜上所述,本文利用THz-TDS技術(shù)研究了黃酮類物質(zhì)在太赫茲波段的生物分子特性,并結(jié)合化學(xué)計(jì)量學(xué)方法為黃酮類物質(zhì)提供了一種快速、有效、無(wú)損的分類鑒別和定量分析方法,對(duì)中草藥的檢測(cè)和質(zhì)量監(jiān)控領(lǐng)域具有實(shí)際的應(yīng)用價(jià)值。