韓寧娟 方歡樂 劉建利
1.西安培華學(xué)院醫(yī)學(xué)院,陜西西安 710125;2.西北大學(xué)生命科學(xué)院,陜西西安 710069
大葉鉤藤(Uncaria macrophylla)為茜草科,鉤藤屬大藤本植物,具有清熱安神、鎮(zhèn)靜息風(fēng)等作用[1],在2000 年的《中醫(yī)大辭典》[2]成分補(bǔ)遺中記載大葉鉤藤的葉子中含有鉤藤堿、柯諾辛堿和柯諾辛堿B、非生物堿類烏索酸、表兒茶素等[3]。李春等[4]用丙酮萃取提取大葉鉤藤鉤莖中的揮發(fā)性成分,并用氣相色譜-質(zhì)譜法分析分離鑒定出58 種化合物。定量結(jié)構(gòu)-色譜保留關(guān)系研究對(duì)于預(yù)測(cè)化合物的色譜保留時(shí)間,選擇分離條件,協(xié)助鑒定化合物等具有重要意義[5]。在這方面,研究人員做了很多有意義的工作。廖立敏等[6]構(gòu)建了飲用水中揮發(fā)性有機(jī)物結(jié)構(gòu)和色譜保留時(shí)間的關(guān)系模型;何琴等[7]構(gòu)建了香水百合香氣成分與色譜保留時(shí)間的關(guān)系模型;堵錫華等[8]構(gòu)建了烏藥化學(xué)成分結(jié)構(gòu)與色譜保留時(shí)間的關(guān)系模型,所建模型均有較好的穩(wěn)定性和預(yù)測(cè)能力。本文對(duì)大葉鉤藤鉤莖的58 個(gè)揮發(fā)性成分結(jié)構(gòu)用14 個(gè)描述符進(jìn)行表征,并用多元線性回歸(MLR)和偏最小二乘回歸(PLS) 建立大葉鉤藤鉤莖的58 個(gè)揮發(fā)性成分的分子結(jié)構(gòu)-色譜保留時(shí)間關(guān)系模型,預(yù)測(cè)色譜保留時(shí)間,采用“留一法”對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)價(jià),為中草藥中有機(jī)化合物結(jié)構(gòu)的定量結(jié)構(gòu)-色譜保留關(guān)系研究提供了參考。
對(duì)文獻(xiàn)[4]中大葉鉤藤鉤莖中的58 個(gè)化合物進(jìn)行
結(jié)構(gòu)表征,可得到14 個(gè)描述符,將部分變量列于表1。
按參考文獻(xiàn)[9-10]的方法,根據(jù)直接連接的非氫原子和其他非氫原子的直接相連的數(shù)目,將非氫原子分為4 種,例如和1 個(gè)非氫原子連接的非氫原子屬第1 類非氫原子,依次類推,再根據(jù)用公式(1)算出化合物中非氫原子的參數(shù)化Zi 值。
其中ni是非氫原子i 的電子層數(shù),qc是碳原子的電負(fù)性,qi是非氫原子i 的電負(fù)性,mi是非氫原子的價(jià)電子數(shù)i,hi是直接連接的氫原子數(shù)。
不同類型的非氫原子自身對(duì)化合物在色譜中保留時(shí)間的影響,數(shù)值x 按式(2)進(jìn)行累加計(jì)算。
其中k 為非氫原子i 的原子類型。
化合物結(jié)構(gòu)中非氫原子之間的關(guān)系對(duì)化合物色譜中保留時(shí)間的影響可以通過式(3)計(jì)算[11-13]。
若用n 和l 代表非氫原子的類型,rij 為兩個(gè)非氫原子之間的相對(duì)距離(即非氫原子的最短路徑鍵長(zhǎng)之和與C-C 單鍵鍵長(zhǎng)之比)。這樣,每個(gè)化合物結(jié)構(gòu)最多可以有14 個(gè)描述符進(jìn)行表征,包括不同類型的非氫原子自身4 個(gè),非氫原子之間的關(guān)系10 個(gè)描述符。
MLR 是定量結(jié)構(gòu)-色譜保留關(guān)系研究中最常用的一種方法,可以直觀、簡(jiǎn)便地對(duì)一組數(shù)據(jù)進(jìn)行最小二乘擬合處理,建立函數(shù)關(guān)系。主要過程包括:首先將計(jì)算出的化合物結(jié)構(gòu)描述用SPSS 12.0 軟件進(jìn)行逐步回歸篩選變量,并對(duì)變量進(jìn)行偏F 檢驗(yàn),當(dāng)有顯著性水平(P<0.05),則將變量作為候選變量,否則剔除,再將候選變量以相關(guān)系數(shù)(R)、標(biāo)準(zhǔn)偏差(SD)為指標(biāo)[14-16],對(duì)候選變量進(jìn)行逐步回歸分析,建立化合物結(jié)構(gòu)描述符與保留時(shí)間的關(guān)系模型。
PLS 可以很好地解決變量缺失值和多重共線性等問題。以化合物的結(jié)構(gòu)描述符為變量x,文獻(xiàn)[4]中實(shí)驗(yàn)測(cè)得的保留時(shí)間值為因變量Y。用simca-P 11.5軟件建立大葉鉤藤中的58 種有機(jī)化合物結(jié)構(gòu)描述符與氣相色譜保留時(shí)間的關(guān)系模型。變量重要性投影(VIP) 是一個(gè)能夠反映各變量對(duì)Y 解釋能力大小的重要指標(biāo),當(dāng)VIP 值大于1 時(shí),表明該自變量對(duì)Y 具有較大貢獻(xiàn),有較強(qiáng)的解釋能力。
無論是MLR 模型還是PLS 模型,都要求模型有較好的擬合能力和預(yù)測(cè)能力[17-20]。因此,在選擇模型時(shí)不僅要選擇擬合能力較好的模型,還要選擇交互檢驗(yàn)相關(guān)系數(shù)(Rcv)較大的模型。本文采用MLR 與PLS 分別進(jìn)行建模分析,并用“留一法”對(duì)模型的預(yù)測(cè)能力進(jìn)行檢驗(yàn)。一般認(rèn)為模型的R 在0.60~1.00,Rcv≥0.5,提示此模型擬合能力較好,預(yù)測(cè)能力強(qiáng)。建模的SD與樣本色譜保留時(shí)間的差值(樣本色譜保留時(shí)間的最大值-最小值)的比值<10%,則認(rèn)為該模型具有良好預(yù)測(cè)準(zhǔn)確性[21-24]。用方差膨脹因子衡量模型變量之間是否存在共線性,理想模型中所有變量的方差膨脹因子應(yīng)≤10[25]。
最終得到5 個(gè)變量MLR 模型結(jié)果如式(4)所示:
“留一法”交互檢驗(yàn)結(jié)果:Rcv=0.886,SDcv=5.862,F(xiàn)cv=45.687。模型R 為0.949,SD 為2.862,58 個(gè)樣本色譜保留時(shí)間的差值為48.434,模型的SD 與樣本保留時(shí)間差值的比值為5.91%。
PLS 模型的相關(guān)系數(shù)與“留一法”交互檢驗(yàn)的R和Rcv 分別為0.945 和0.867;SD 為2.678,模型的SD與樣本保留時(shí)間的差值的比值為5.53%。58 個(gè)樣本在PLS 前2 個(gè)主成分的得分散點(diǎn)圖見圖1,超過95%的樣本點(diǎn)落在95%置信度的Hotelling T2橢圓置信度范圍內(nèi)。本研究建立的模型變量x1、x2 的VIP 值都大于1,說明這2 個(gè)變量對(duì)色譜保留時(shí)間Y 的解釋能力較大,該體系中第1 類原子和第2 類原子對(duì)化合物的色譜保留時(shí)間預(yù)測(cè)值關(guān)系密切。見圖2。
圖1 樣本在前2 個(gè)主成分得分分布散點(diǎn)圖
圖2 變量重要性投影圖
兩個(gè)模型的預(yù)測(cè)數(shù)據(jù)都落在45°對(duì)角線附近,且都有幾個(gè)點(diǎn)偏離對(duì)角線,兩個(gè)模型的整體擬合效果較好,但個(gè)別樣本的誤差較大,見圖3。兩個(gè)模型都有3 個(gè)樣品的模型預(yù)測(cè)值和實(shí)驗(yàn)值之間的誤差略微超出2SD 范圍,但不到總樣品的6%,其余樣品產(chǎn)生的誤差不超過2SD 范圍,在可接受的誤差范圍內(nèi),兩個(gè)模型的質(zhì)量相當(dāng)。見圖4。
化合物定量結(jié)構(gòu)-色譜保留關(guān)系是色譜學(xué)基礎(chǔ)理論研究的重要組成部分,研究化合物的分子結(jié)構(gòu)與色譜保留時(shí)間的關(guān)聯(lián),對(duì)色譜過程中保留值的預(yù)測(cè)、探索色譜保留機(jī)制等方面具有重要意義[26]。在化合物結(jié)構(gòu)參數(shù)化表征過程中,不僅考慮了非氫原子的電子層數(shù)、最外層電子數(shù)、電負(fù)性等非氫原子自身的特性,還包含了非氫原子鍵合的氫原子個(gè)數(shù)、連接非氫原子的基團(tuán)個(gè)數(shù)等非氫原子的成鍵環(huán)境因素,比較全面地揭示化合物結(jié)構(gòu)中每個(gè)定點(diǎn)非氫原子的結(jié)構(gòu)特征。
圖3 模型預(yù)測(cè)值與實(shí)驗(yàn)值相關(guān)圖
圖4 預(yù)測(cè)誤差分布圖
但是,對(duì)化合物結(jié)構(gòu)描述符的表達(dá)是基于二維平面結(jié)構(gòu)得到的,分子立體結(jié)構(gòu)的特征如順反異構(gòu)體、旋光異構(gòu)等不能區(qū)分,建模所采用的是保留時(shí)間,未能避免由設(shè)備、方法和色譜柱等因素帶來的保留時(shí)間的系統(tǒng)性差異,需要在今后的研究中予以克服。
需要進(jìn)一步說明的是,本研究中個(gè)別樣本的預(yù)測(cè)誤差較大,可能是由于該樣品化合物的結(jié)構(gòu)跨度較大,包括醇、酮、醛、酸、植物甾醇等化合物,含有氧、硫、磷、氯等雜原子,是一個(gè)復(fù)雜的樣本體系。也可能是因?yàn)閷?shí)驗(yàn)本身存在誤差。但是,對(duì)于這樣一個(gè)復(fù)雜的樣本系統(tǒng),這兩個(gè)模型獲得的結(jié)果應(yīng)該令人滿意。
中國(guó)醫(yī)藥導(dǎo)報(bào)2020年34期