潘杰,劉德勝,顏貴明
(安徽中醫(yī)藥大學(xué),安徽 合肥 230012)
傳統(tǒng)中藥方劑常常是多種中藥配伍而成,具有成分復(fù)雜、不明確和藥理作用機(jī)制不明等特點(diǎn)。這些特點(diǎn)使得中藥藥效飽受爭(zhēng)議,難以在國(guó)際上進(jìn)一步推廣。近年來(lái),中藥學(xué)研究者們致力于中藥藥理藥效的研究。大部分研究集中在通過(guò)對(duì)藥材的有效成分進(jìn)行提取和分離得到單個(gè)有效成分,如人參皂苷[1]和青蒿素[2]等,再對(duì)提取出來(lái)的單個(gè)有效成分進(jìn)行藥理和藥效學(xué)研究。雖然這樣的研究克服了中藥方劑成分復(fù)雜的問題,并且在一定程度上解釋了單個(gè)有效成分的藥理學(xué)活性及作用機(jī)制,但是其作用療效相對(duì)于原本的中藥方劑卻大打折扣,即使在劑量加倍的條件下,其作用效果依舊不佳。于是越來(lái)越多的研究者提出不同藥理機(jī)制已明確的有效成分之間是否可以協(xié)同作用的概念。中藥譜效關(guān)系已經(jīng)被廣泛地運(yùn)用到了中藥藥效研究、藥物配伍、炮制工藝改良和藥效預(yù)測(cè)等領(lǐng)域[3-4]。該方法是指將已獲得的中藥指紋圖譜與中藥的藥理藥效學(xué)研究成果,通過(guò)各種生物信息學(xué)方法,建立兩者的線性或非線性相關(guān)關(guān)系,最終得到“譜-效”映射關(guān)系,用于預(yù)測(cè)單味藥物或中藥復(fù)方制劑的藥效和藥理機(jī)制[5]。不可否認(rèn)的是,數(shù)據(jù)分析在“譜-效”建模過(guò)程中發(fā)揮了重要的作用。而數(shù)據(jù)分析手段的科學(xué)性和合理性影響著“譜-效”建模的準(zhǔn)確性和有效性。近年來(lái),隨著大數(shù)據(jù)時(shí)代的來(lái)臨,越來(lái)越多譜效分析研究開始出現(xiàn),對(duì)不同的數(shù)據(jù)分析算法的了解和選擇決定了最終“譜-效”建模的有效性。本文將就近十幾年以來(lái)的譜效分析的數(shù)據(jù)分析算法進(jìn)行綜述,使讀者能充分認(rèn)識(shí)這些數(shù)學(xué)建模方法,擇優(yōu)選擇。
對(duì)各有效成分與藥效之間的相關(guān)性預(yù)測(cè)可采用人工神經(jīng)網(wǎng)絡(luò)、灰關(guān)聯(lián)度分析和相關(guān)分析等方法,這些數(shù)據(jù)分析方法可以建立中藥圖譜與藥物有效性的關(guān)系,為中藥藥效預(yù)測(cè)提供可能。
關(guān)聯(lián)度是指兩個(gè)變量的隨時(shí)間或其他的實(shí)驗(yàn)條件的變化趨勢(shì)的相關(guān)性,若兩個(gè)變量的同向變化趨勢(shì)程度高,則兩個(gè)變量的關(guān)聯(lián)度高,反之則關(guān)聯(lián)度低。灰關(guān)聯(lián)度分析即通過(guò)度量變量的發(fā)展趨勢(shì)的相同或相異程度,來(lái)衡量相關(guān)性。這類相關(guān)分析是對(duì)單一觀察對(duì)象表現(xiàn)現(xiàn)象的表觀評(píng)估,這些具有關(guān)聯(lián)性的變量其本質(zhì)上常常是互相影響,具有因果關(guān)系、協(xié)同關(guān)系或者是拮抗關(guān)系的。通過(guò)相關(guān)關(guān)系在一定程度上可以預(yù)估變量?jī)?nèi)部本質(zhì)的互作關(guān)系?;谊P(guān)聯(lián)度分析用于樣本的信息量單一,影響因素復(fù)雜的圖譜,可以客觀地體現(xiàn)各成分間的影響和互作。其基本分析步驟為:①分析中藥圖譜,仔細(xì)對(duì)比獲得共有峰,用相應(yīng)的藥效學(xué)參數(shù)指標(biāo)來(lái)作為評(píng)估標(biāo)準(zhǔn),無(wú)量綱化處理參考數(shù)列和比較數(shù)列,消除不同計(jì)量單位引起的差異;②計(jì)算得到藥效指標(biāo)和共有峰之間的絕對(duì)差值;③計(jì)算得到藥效指標(biāo)與每個(gè)特征峰間的關(guān)聯(lián)系數(shù),以平均值法求得關(guān)聯(lián)度[6]。如果兩個(gè)研究變量在隨實(shí)驗(yàn)加載條件變化而變化過(guò)程中的一致性程度較高,那么就定義為兩者關(guān)聯(lián)度比較大,相反,變化一致程度低則兩者關(guān)聯(lián)度小。梁建欽等[7]從芒果葉中利用不同極性溶劑提取到了有效物,已知這些提取物的抗炎特性差異很大,通過(guò) HPLC 法建立指紋圖譜。將昆明小鼠隨機(jī)分為三組,對(duì)照組給予生理鹽水作為陰性對(duì)照,地塞米松組作為陽(yáng)性對(duì)照,實(shí)驗(yàn)組給予芒果葉提取物,經(jīng)二甲苯誘導(dǎo)炎癥后,通過(guò)測(cè)定耳腫脹度作為抗炎藥效指標(biāo)。數(shù)據(jù)經(jīng)統(tǒng)計(jì)分析,把芒果葉不同極性提取物的抗炎藥效作為參考序列,把芒果葉不同極性溶劑提取物圖譜中特征峰峰面積數(shù)據(jù)作為比較序列,先對(duì)兩組數(shù)列進(jìn)行無(wú)量綱化處理,求得兩組數(shù)列的灰色關(guān)聯(lián)系數(shù),分別計(jì)算各個(gè)指標(biāo)與參考序列對(duì)應(yīng)元素的關(guān)聯(lián)系數(shù)的均值,稱之為為關(guān)聯(lián)序,最后對(duì)關(guān)聯(lián)序進(jìn)行排序,排序靠前則為重要藥效物質(zhì)。最終發(fā)現(xiàn)了芒果葉提取物抗炎作用的部分物質(zhì)基礎(chǔ)是芒果苷及X1(關(guān)聯(lián)系數(shù)=0.901 6),X3(關(guān)聯(lián)系數(shù)=0.955 8)峰。
ANNs是一種模擬人類神經(jīng)元網(wǎng)絡(luò)信號(hào)傳遞方式的并進(jìn)行信息化處理的數(shù)學(xué)建模算法。通過(guò)模仿大腦信號(hào)處理和記憶信號(hào)等方式進(jìn)行信號(hào)歸納處理。它具有以下幾個(gè)特點(diǎn)(1)非線性,(2)非局限性,(3)非常定性,(4)非凸性。它的優(yōu)點(diǎn)在于其非線性擬合能力,且不需要實(shí)現(xiàn)建立數(shù)學(xué)模型,充分考慮了事物內(nèi)部作用的復(fù)雜性及關(guān)系的模糊性,對(duì)復(fù)雜的信息進(jìn)行簡(jiǎn)化建模處理。其研究程序一般為:①利用已有的光譜/色譜提取化學(xué)組分信號(hào);②對(duì)信號(hào)進(jìn)行轉(zhuǎn)換和壓縮,用來(lái)提取特征峰的有效信號(hào);③將特征峰的有效信號(hào)與相對(duì)應(yīng)的藥效學(xué)指標(biāo)建立一定的映射函數(shù)關(guān)系,同時(shí)預(yù)測(cè)特征峰的綜合藥效。許雯雯等[8]在建立氣滯胃痛顆粒全時(shí)段多波長(zhǎng)融合指紋圖譜分析方法的基礎(chǔ)上,對(duì)6味藥材隨機(jī)配比成不同比例,用LPS誘導(dǎo)小鼠單核巨噬細(xì)胞釋放TNF-α,IL-6,NO,檢測(cè)各配比對(duì)這些細(xì)胞因子產(chǎn)生的抑制率作為抗炎藥效指標(biāo),先用灰色關(guān)聯(lián)度分析將藥效指標(biāo)與各組HPLC指紋圖譜關(guān)聯(lián)得出各色譜峰對(duì)抗炎活性的關(guān)聯(lián)程度,再用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合:先通過(guò)程序算法得到BP網(wǎng)絡(luò)預(yù)測(cè)值,再對(duì)測(cè)定值和預(yù)測(cè)值進(jìn)行線形回歸,最后得到回歸系數(shù)為0.983,說(shuō)明本次實(shí)驗(yàn)的預(yù)測(cè)性能較佳。
相關(guān)分析是通過(guò)對(duì)樣本原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,計(jì)算其相關(guān)性系數(shù)來(lái)衡量?jī)山M或幾組數(shù)據(jù)之間的關(guān)系的一種算法[9]。其基本步驟為:①兩組變量的正態(tài)性驗(yàn)證;②兩組數(shù)據(jù)一個(gè)作為橫坐標(biāo),一個(gè)作為縱坐標(biāo)做散點(diǎn)圖,直觀判斷兩組數(shù)據(jù)是否相關(guān)和相關(guān)類型;③求得相關(guān)系數(shù);④對(duì)相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn),得出結(jié)論。劉旭等[10]通過(guò)結(jié)扎大鼠冠狀動(dòng)脈造急性心肌缺血大鼠模型,利用HPLC獲得川芎提取物指紋圖譜,將各有效成分提取出來(lái)并給模型大鼠給藥,測(cè)定血清SOD活性、MDA含量作為抗心肌再灌注損傷藥效評(píng)估指標(biāo)。最后將川芎提取物藥效數(shù)據(jù)與指紋圖譜的共有峰的相對(duì)峰面積相關(guān)聯(lián),運(yùn)用雙變量相關(guān)分析,最終發(fā)現(xiàn)阿魏酸、川芎嗪可顯著降低血清中丙二醛(MDA)等的含量,可顯著升高血清超氧化物歧化酶(SOD)活力,均屬于中藥川芎抗心肌缺血再灌注損傷的主要有效成分。
通過(guò)傳統(tǒng)的藥理學(xué)和藥效學(xué)研究,我們明確了有效成分的藥效作用。再通過(guò)有效成分與藥效的關(guān)聯(lián)度預(yù)測(cè),我們可以得到藥物的譜效關(guān)聯(lián)性。但具體有效成分的分析需要通過(guò)多元線性回歸和偏最小二乘回歸分析等統(tǒng)計(jì)學(xué)數(shù)據(jù)分析進(jìn)行進(jìn)一步闡明。構(gòu)建準(zhǔn)確科學(xué)的回歸模型,可以初步衡量各有效成分對(duì)藥效的貢獻(xiàn)程度。
多元線性回歸是通過(guò)建立多個(gè)自變量和單個(gè)因變量的回歸模型,對(duì)每個(gè)自變量對(duì)因變量的影響程度進(jìn)行參數(shù)評(píng)估的統(tǒng)計(jì)學(xué)經(jīng)典算法。MLR是研究單個(gè)因變量與多個(gè)自變量間的線性回歸模型構(gòu)建的統(tǒng)計(jì)學(xué)方法[11]。通常用于構(gòu)建非表數(shù)據(jù)與部分表觀易分析測(cè)得指標(biāo)的統(tǒng)計(jì)學(xué)算法,從而實(shí)現(xiàn)通過(guò)易測(cè)指標(biāo)對(duì)難測(cè)指標(biāo)進(jìn)行預(yù)測(cè)分析。其主要想法是:①先量化處理數(shù)據(jù),選取并引入影響程度較大的變量;②計(jì)算逐步回歸方程;③對(duì)回歸方程進(jìn)行假設(shè)檢驗(yàn)并評(píng)價(jià)其有效性。吳尤嬌等[12]利用HPLC分析方法得到廣西不同產(chǎn)地的10批毛郁金藥材的指紋圖譜分析。通過(guò)高脂飼料喂養(yǎng)建立高脂血癥大鼠模型,連續(xù)3周給藥,設(shè)正常組、高脂模型組、辛伐他汀組和10批不同產(chǎn)地毛郁金乙醇提取物給藥組,以對(duì)高脂大鼠血清CHOL、TG含量降低程度作為降脂藥效指標(biāo),采用多元線性回歸分析研究各色譜與降血脂作用的相關(guān)性。
偏最小二乘回歸分析是綜合了多因變量對(duì)多自變量的回歸建模分析和主成分分析在內(nèi)的多元數(shù)據(jù)降維分析方法[13]。特別當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí),用偏最小二乘回歸分析更有效。另外,偏最小二乘回歸較好地解決了樣本個(gè)數(shù)少于變量個(gè)數(shù)等問題。其主要方法步驟為:①對(duì)自變量與因變量進(jìn)行線性組合;②轉(zhuǎn)變成無(wú)相互關(guān)系的綜合變量;③對(duì)新構(gòu)建的綜合變量進(jìn)行回歸分析。鄧書鴻等[14]通過(guò) HPLC 獲得三類黃芪提取物指紋圖譜,以小鼠自入水后到沉入水中 8 s 不能浮出水面的時(shí)間來(lái)作為衡量抗疲勞藥效的指標(biāo)。采用偏最小二乘回歸分析方法分析黃芪提取物 HPLC 指紋圖譜與抗疲勞藥效作用之間的譜效關(guān)系。最終結(jié)果發(fā)現(xiàn)對(duì)譜效關(guān)系有重要貢獻(xiàn)的變量共有36個(gè)(包括黃芪多糖和35個(gè)色譜峰)。
隨著越來(lái)越多的中藥化學(xué)成分的指紋圖譜的闡明,信息多樣的中藥圖譜所包含的信息也越來(lái)越多樣化。由于中藥成分的復(fù)雜性,我們希望找到最主要的藥效成分來(lái)進(jìn)一步進(jìn)行新藥開發(fā)。但往往重要的有效成分并不是簡(jiǎn)單地配比,而是多個(gè)變量以不同的效率去影響總體的藥效。通過(guò)主成分分析及典型相關(guān)分析的多因素降維算法,將原來(lái)多個(gè)維度的數(shù)據(jù)降維成二維或三維數(shù)據(jù)進(jìn)行分析,用以初步判斷各個(gè)化學(xué)成分對(duì)藥效的貢獻(xiàn)效益大小。
主成分分析法是經(jīng)典的聚類分析方法之一。主成分的確定由累計(jì)貢獻(xiàn)率和以特征值決定, 累計(jì)貢獻(xiàn)率以>85%且特征值以λi≥1為佳[15]。其基本建模步驟是:①原始指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化,并求得各成分間的相關(guān)系數(shù)矩陣R;②求得R矩陣的特征值、特征向量和貢獻(xiàn)率,用貢獻(xiàn)率與特征值確定主成分個(gè)數(shù)并解釋主成分含義;③合成主成分,并得到綜合評(píng)定。劉青萍等[16]采用HPLC法獲取了12批補(bǔ)陽(yáng)還五湯全方和14批補(bǔ)陽(yáng)還五湯精簡(jiǎn)方的指紋圖譜數(shù)據(jù),采用大腦中動(dòng)脈線栓法建立大腦中動(dòng)脈閉塞模型,檢測(cè)腦干濕重和腦梗死面積作為腦損傷保護(hù)藥效評(píng)估指標(biāo),運(yùn)用主成分分析法對(duì)采集的數(shù)據(jù)進(jìn)行降維處理,再運(yùn)用灰色關(guān)聯(lián)度法將指紋圖譜特征峰和腦損傷的保護(hù)藥效關(guān)聯(lián)起來(lái),最終發(fā)現(xiàn)保留時(shí)間為tR=6.47、20.65、26.40 min的化學(xué)成分,調(diào)控腦梗死面積、腦水腫的貢獻(xiàn)度最佳。
典型相關(guān)性分析利用典型的相關(guān)系數(shù)對(duì)兩組變量線性相關(guān)程度進(jìn)行定量描述,是一種簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的分析方法[17]。他的特點(diǎn)是可以通過(guò)研究相關(guān)關(guān)系較大的幾對(duì)典型代表變量,替代了兩組變量之間的復(fù)雜相互關(guān)系。分析的步驟:①確定相關(guān)分析中的幾組貢獻(xiàn)率較大的典型變量;②提取典型變量;③正態(tài)性檢驗(yàn)分析;④估計(jì)典型模型,評(píng)價(jià)擬合情況,計(jì)算相關(guān)系數(shù);⑤解釋典型變量;⑥顯著性檢驗(yàn)。于海帥等[18]利用HPLC方法得到了7種產(chǎn)地漏蘆的指紋圖譜,采用噻唑藍(lán)法檢測(cè)了幾種漏蘆對(duì)胃癌細(xì)胞的抑制增殖作用作為藥效研究指標(biāo),利用典型相關(guān)分析對(duì)漏蘆成分、藥效數(shù)據(jù)進(jìn)行相關(guān)分析。
中藥譜效關(guān)系的建立的核心在于建立中藥指紋圖譜與中藥藥理藥效的映射關(guān)系,當(dāng)然這也是它的難點(diǎn)所在。中藥指紋圖譜包括生物指紋圖譜和化學(xué)指紋圖譜,生物圖譜包括DNA圖譜和蛋白圖譜,主要用于中藥的鑒定,而化學(xué)指紋圖譜則包括了色譜圖譜和光譜圖譜,也就是我們傳統(tǒng)意義上的譜效分析中的“譜”[19]。中藥藥理藥效學(xué)研究與傳統(tǒng)意義上的藥效學(xué)研究的方法一致,通過(guò)離體細(xì)胞實(shí)驗(yàn)和在體動(dòng)物實(shí)驗(yàn)兩種實(shí)驗(yàn)方法進(jìn)行研究,最終目的在于確定目標(biāo)藥物制劑的藥物效應(yīng)和藥物作用靶點(diǎn)。值得注意的是,中藥指紋圖譜的研究和藥理藥效的研究通常是分開獨(dú)立進(jìn)行的,在研究過(guò)程中兩者是互相獨(dú)立的,要找到兩者的相關(guān)聯(lián)系需要選擇合適的數(shù)據(jù)處理技術(shù)來(lái)建立兩者之間的相互映射關(guān)系。
第一步需要找到指紋圖譜與藥物之間的相關(guān)關(guān)系。自然界中各個(gè)對(duì)象之間常常存在許許多多的互作關(guān)系,比如協(xié)同、拮抗或者因果關(guān)系等,兩個(gè)對(duì)象之間可能存在幾種以上的互作關(guān)系,所以當(dāng)很多事物聯(lián)系成一個(gè)網(wǎng)絡(luò)的時(shí)候,其復(fù)雜程度顯而易見。相關(guān)關(guān)系是通過(guò)估量?jī)蓚€(gè)事物的變化趨勢(shì)和走向的一致性,來(lái)初步推測(cè)兩者之間關(guān)聯(lián)性的一種算法,通過(guò)容易觀測(cè)到的指標(biāo)之間的變化來(lái)對(duì)對(duì)象內(nèi)部聯(lián)系進(jìn)行推測(cè)。建立初步確定一般相關(guān)關(guān)系之后,需要開始第二歩,即通過(guò)簡(jiǎn)單的回歸分析進(jìn)行線性或非線性擬合,初步判斷多個(gè)自變量對(duì)同一個(gè)因變量作用的比重。但我們都知道,自然環(huán)境中的因素并不是簡(jiǎn)單的配比,它具有數(shù)量多且關(guān)系復(fù)雜的特點(diǎn),因此這時(shí)候我們需要進(jìn)行第三步,即對(duì)數(shù)據(jù)進(jìn)行降維分析,將復(fù)雜且多的數(shù)據(jù)降成二維或三維的數(shù)據(jù),并尋找到配比最合理,擬合最佳的方式,更加全面地評(píng)估各組分對(duì)于總體藥效的奉獻(xiàn)比重。
當(dāng)然所有的數(shù)據(jù)處理算法都有各自的優(yōu)勢(shì)和劣勢(shì),為了能更加準(zhǔn)確合理的對(duì)藥效關(guān)系評(píng)估,需要多種算法的結(jié)合和相互驗(yàn)證,以建立最為科學(xué)合理的“譜-效”數(shù)學(xué)模型。隨著信息化時(shí)代的來(lái)臨,各個(gè)領(lǐng)域都面臨著大數(shù)據(jù)的革新,在生命科學(xué)領(lǐng)域和藥物研究領(lǐng)域更是如此。其實(shí)隨著時(shí)代的進(jìn)步,如何更加高效和科學(xué)的開展科學(xué)研究已經(jīng)成為一個(gè)我們不能回避的問題。比如在如今的中藥藥效關(guān)系研究當(dāng)中就存在這樣一個(gè)問題,每個(gè)進(jìn)行藥物成分研究的研究人員在進(jìn)行有效成分提取過(guò)后都會(huì)對(duì)藥效進(jìn)行研究,然后建立相應(yīng)的中藥效譜關(guān)系。但研究者們所選用的數(shù)據(jù)算法常常參差不齊,直接影響了最后效譜關(guān)系的有效性。是否可以構(gòu)建一個(gè)數(shù)據(jù)庫(kù),做藥理藥效研究的研究者將數(shù)據(jù)上傳,然后統(tǒng)計(jì)分析專家從數(shù)據(jù)庫(kù)下載數(shù)據(jù),最終建立合理的中藥效譜關(guān)系,它是一個(gè)一對(duì)多的關(guān)系,可以有效地將這些藥理藥效研究進(jìn)行多次利用,在很多領(lǐng)域已經(jīng)實(shí)現(xiàn)了這種平臺(tái)搭建,比如癌癥的基因組學(xué)和蛋白組學(xué)數(shù)據(jù)庫(kù)??偟膩?lái)說(shuō),高效準(zhǔn)確的數(shù)據(jù)處理和分析方法的科學(xué)使用必將推動(dòng)中藥譜效關(guān)系研究的蓬勃發(fā)展。