吳地堯 章新友 甘宇汾 于思婷
中圖分類號(hào) R28 文獻(xiàn)標(biāo)志碼 A 文章編號(hào) 1001-0408(2018)19-2717-06
DOI 10.6039/j.issn.1001-0408.2018.19.28
摘 要 目的:為數(shù)據(jù)挖掘算法在中藥研究中的進(jìn)一步應(yīng)用提供參考。方法:以“中藥”“Apriori”“FP-growth”“層次聚類”“熵聚類”“決策樹”“隨機(jī)森林”“貝葉斯”“支持向量機(jī)”“人工神經(jīng)網(wǎng)絡(luò)”“l(fā)ogistic回歸”“線性回歸”等為關(guān)鍵詞,組合查詢2000年1月-2018年5月發(fā)表于中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)、維普網(wǎng)相關(guān)文獻(xiàn),對(duì)數(shù)據(jù)挖掘算法在中藥研究各子領(lǐng)域中的應(yīng)用現(xiàn)狀進(jìn)行綜述。結(jié)果:共檢索到相關(guān)有效文獻(xiàn)573篇。數(shù)據(jù)挖掘算法較常應(yīng)用在方劑配伍規(guī)律、藥物分析、中藥藥性研究、制劑工藝研究等中藥研究子領(lǐng)域,但在醫(yī)案研究、譜效關(guān)系、量化診斷標(biāo)準(zhǔn)等子領(lǐng)域的應(yīng)用較少。在各子領(lǐng)域中,以在方劑配伍規(guī)律研究中運(yùn)用的數(shù)據(jù)挖掘算法種類最多,包括Apriori、FP-growth、層次聚類、熵聚類、決策樹、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、logistic回歸等,并以人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)兩種數(shù)據(jù)挖掘算法在中藥研究各子領(lǐng)域中應(yīng)用最廣。結(jié)論:數(shù)據(jù)挖掘算法在中藥研究各子領(lǐng)域中應(yīng)用廣泛,可為中藥現(xiàn)代化研究提供有力的技術(shù)支持。
關(guān)鍵詞 數(shù)據(jù)挖掘算法;中藥研究;方劑配伍規(guī)律;藥物分析;子領(lǐng)域
伴隨著中藥領(lǐng)域數(shù)據(jù)的暴漲[1],中藥數(shù)據(jù)挖掘應(yīng)運(yùn)而生。中藥數(shù)據(jù)挖掘是在中醫(yī)藥理理論指導(dǎo)下,對(duì)中藥新藥、中藥組方規(guī)律、作用機(jī)制、有效成分和組效關(guān)系等多個(gè)方面進(jìn)行深入挖掘的研究[2]。數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)的需要,創(chuàng)建數(shù)據(jù)挖掘模型的一系列探索和計(jì)算的方法。探討數(shù)據(jù)挖掘算法在中藥研究中的應(yīng)用現(xiàn)狀既可以直觀地闡述中藥研究領(lǐng)域中各數(shù)據(jù)挖掘算法的使用現(xiàn)狀,也能更詳盡地了解數(shù)據(jù)挖掘算法應(yīng)用的特點(diǎn)及領(lǐng)域,拓展數(shù)據(jù)挖掘算法在中藥研究中的應(yīng)用,為各算法的深入研究提供參考和借鑒。
以數(shù)據(jù)挖掘任務(wù)為分類依據(jù),對(duì)常用數(shù)據(jù)挖掘算法進(jìn)行逐個(gè)統(tǒng)計(jì)和應(yīng)用分析,數(shù)據(jù)挖掘能完成的任務(wù)總體可概括為兩類——描述性任務(wù)和預(yù)測(cè)性任務(wù)[2]。描述性任務(wù)即刻畫目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì);預(yù)測(cè)性任務(wù)即在當(dāng)前數(shù)據(jù)上進(jìn)行歸納從而做出預(yù)測(cè)。這兩類任務(wù)可劃分為六類:特征化與區(qū)分、關(guān)聯(lián)規(guī)則分析、分類分析、回歸分析、聚類分析、離群點(diǎn)檢測(cè)分析[3]。由于特征化與區(qū)分任務(wù)主要用于建立數(shù)據(jù)庫(kù)及數(shù)據(jù)預(yù)處理,離群點(diǎn)檢測(cè)任務(wù)大部分是由聚類分析方法完成[2],故在本文不對(duì)這兩種任務(wù)做詳細(xì)介紹。完成中藥數(shù)據(jù)挖掘任務(wù)常用數(shù)據(jù)挖掘算法見圖1。
在本研究中,筆者以“中藥”“Apriori”“FP-growth”“層次聚類”“熵聚類”“決策樹”“隨機(jī)森林”“貝葉斯”“支持向量機(jī)”“人工神經(jīng)網(wǎng)絡(luò)”“l(fā)ogistic回歸”“線性回歸”等為關(guān)鍵詞,組合查詢中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)、維普網(wǎng)等數(shù)據(jù)庫(kù)中于2000年1月-2018年5月期間發(fā)表的數(shù)據(jù)挖掘算法在中藥研究領(lǐng)域應(yīng)用的相關(guān)有效文獻(xiàn),其中檢索的算法名稱根據(jù)Data mining:concepts and techniques(第3版)一書以及相關(guān)文獻(xiàn)[3-5]總結(jié)得出。以數(shù)據(jù)挖掘算法分類建立11個(gè)文獻(xiàn)庫(kù),再將單個(gè)文獻(xiàn)庫(kù)里的文獻(xiàn)按照數(shù)據(jù)挖掘算法應(yīng)用的中藥研究子領(lǐng)域進(jìn)行分類(該算法應(yīng)用于中藥研究同一領(lǐng)域的文獻(xiàn)超過2篇及以上的,則可歸入某子領(lǐng)域中,若同一領(lǐng)域只有1篇文獻(xiàn)的則不單獨(dú)分類討論,合并歸類在“其他”項(xiàng)里)。由于部分文獻(xiàn)涉及到2個(gè)以上的挖掘算法,如一篇文獻(xiàn)同時(shí)運(yùn)用到?jīng)Q策樹和隨機(jī)森林兩種算法,則該文獻(xiàn)既歸類到?jīng)Q策樹文獻(xiàn)庫(kù)中,也歸類到隨機(jī)森林文獻(xiàn)庫(kù)中。最后,筆者根據(jù)檢索的文獻(xiàn)結(jié)果,按照算法應(yīng)用的中藥研究子領(lǐng)域進(jìn)行分類,然后結(jié)合各算法的特點(diǎn),綜合探討完成關(guān)聯(lián)規(guī)則分析、分類分析、回歸分析、聚類分析四類任務(wù)的常用數(shù)據(jù)挖掘算法在中藥研究中的應(yīng)用現(xiàn)狀。
1 文獻(xiàn)檢索結(jié)果
共檢索到相關(guān)有效文獻(xiàn)573篇,納入到11個(gè)文獻(xiàn)庫(kù)中,數(shù)據(jù)挖掘算法有效文獻(xiàn)檢索結(jié)果詳見表1。
2 中藥研究子領(lǐng)域分類及運(yùn)用的數(shù)據(jù)挖掘算法
中藥研究子領(lǐng)域有方劑配伍規(guī)律、藥物分析、中藥藥性研究等,其具體分類詳見表2。
由表2可知,數(shù)據(jù)挖掘算法主要應(yīng)用在方劑配伍規(guī)律、藥物分析、中藥藥性研究等中藥研究子領(lǐng)域,在醫(yī)案研究、譜效關(guān)系、量化診斷標(biāo)準(zhǔn)等子領(lǐng)域的應(yīng)用較少。在方劑配伍規(guī)律的研究中運(yùn)用到的數(shù)據(jù)挖掘算法種類最多,人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法應(yīng)用的范圍最廣,適用于多個(gè)中藥研究子領(lǐng)域。
3 應(yīng)用于中藥研究各子領(lǐng)域中的數(shù)據(jù)挖掘算法
3.1 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析主要用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系。其主要包含兩個(gè)階段:第一階段是從數(shù)據(jù)集中找出所有的頻繁項(xiàng)集,第二階段是由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則[3]。在中藥研究領(lǐng)域,完成關(guān)聯(lián)規(guī)則分析任務(wù)常用的算法有Apriori算法、FP-growth算法。
3.1.1 Apriori算法 Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的常用基本算法,該算法使用逐層搜索的迭代方法掃描數(shù)據(jù)庫(kù),收集滿足最小支持度的項(xiàng),找出頻繁項(xiàng)集,并直接產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則[3]。由檢索的39篇相關(guān)文獻(xiàn)可知,Apriori算法主要應(yīng)用于方劑配伍規(guī)律、醫(yī)案研究、中藥藥性研究等幾個(gè)研究子領(lǐng)域。(1)方劑配伍規(guī)律研究。如針對(duì)某具體疾病收集臨床常用處方、名醫(yī)名方或經(jīng)典古方,經(jīng)規(guī)范化處理后建立數(shù)據(jù)庫(kù),利用Apriori算法挖掘出數(shù)據(jù)庫(kù)中的核心藥對(duì)、高頻藥物組合,結(jié)合藥物功效特點(diǎn),在中醫(yī)理論指導(dǎo)下闡述組方配伍規(guī)律,其分析結(jié)果對(duì)臨床用藥或者新藥開發(fā)均有重要的指導(dǎo)意義[6]。(2)醫(yī)案研究。如利用Apriori算法對(duì)典型病例的中醫(yī)醫(yī)案中的理法方藥進(jìn)行關(guān)聯(lián)規(guī)則挖掘,為中醫(yī)臨床治療、中醫(yī)藥教學(xué)及中成藥的研制提供參考[7]。(3)中藥藥性研究。如利用Apriori算法挖掘出藥性與功效間的有機(jī)聯(lián)系,用現(xiàn)代科學(xué)理論闡釋中藥藥性理論,促進(jìn)中藥現(xiàn)代化發(fā)展[8]。
3.1.2 FP-growth算法 FP-growth算法是Apriori算法的優(yōu)化處理,其解決了Apriori算法在運(yùn)行過程中會(huì)產(chǎn)生大量候選集的問題[3],且在大規(guī)模方劑數(shù)據(jù)集篩查挖掘中具有較強(qiáng)的泛化性和“魯棒性”[9],更適合用于大樣本的方劑數(shù)據(jù)庫(kù)挖掘。
由檢索的14篇相關(guān)文獻(xiàn)可知,F(xiàn)P-growth算法主要運(yùn)用于藥房調(diào)劑研究、方劑配伍規(guī)律研究。(1)藥房調(diào)劑研究。如利用FP-growth算法統(tǒng)計(jì)常見的合并發(fā)放的藥物、小包裝中藥飲片的使用原則以及優(yōu)化藥物倉(cāng)位配置管理,從而提高藥房調(diào)劑處方的效率及準(zhǔn)確度[10]。(2)方劑配伍規(guī)律研究。如利用FP-growth算法挖掘數(shù)據(jù)集中的頻繁項(xiàng)集,從而找出方劑庫(kù)中的核心藥對(duì)、高頻藥物組合,從科學(xué)的角度闡明方劑配伍規(guī)律[11]。
3.2 聚類分析
聚類分析是把數(shù)據(jù)集劃分成若干子數(shù)據(jù)集的過程,使得數(shù)據(jù)集中的對(duì)象彼此相似,且區(qū)別于其他數(shù)據(jù)集中的對(duì)象。聚類分析主要包括劃分聚類、層次聚類、基于密度的聚類分析、基于網(wǎng)格的聚類分析[3]、復(fù)雜系統(tǒng)熵聚類[12]。由于劃分聚類、基于密度的聚類分析、基于網(wǎng)格的聚類分析的應(yīng)用報(bào)道較少,因此本文著重探討復(fù)雜系統(tǒng)熵聚類及層次聚類的應(yīng)用。
3.2.1 復(fù)雜系統(tǒng)熵聚類 復(fù)雜系統(tǒng)熵聚類是基于香農(nóng)提出的信息熵理論,通過計(jì)算某變量與其他變量間的關(guān)聯(lián)度系數(shù)來(lái)判斷變量之間是否相關(guān)[12]。該算法也是一種非監(jiān)督的模式發(fā)現(xiàn)算法,通過計(jì)算熵值來(lái)完成聚類任務(wù),特別適合具有高度離散性的中藥方劑數(shù)據(jù)。由檢索的113篇相關(guān)文獻(xiàn)可知,復(fù)雜系統(tǒng)熵聚類主要運(yùn)用中醫(yī)傳承輔助平臺(tái)軟件進(jìn)行挖掘分析,利用復(fù)雜系統(tǒng)熵聚類的算法挖掘方劑核心組合,分析方劑配伍規(guī)律,也可作為發(fā)現(xiàn)中藥新藥處方的挖掘工具[13]。
3.2.2 層次聚類 層次聚類即把數(shù)據(jù)劃分成不同層次上的組群。由檢索的28篇相關(guān)文獻(xiàn)可知,層次聚類算法主要運(yùn)用于方劑配伍規(guī)律、藥物分析、專利研究等幾個(gè)中藥研究子領(lǐng)域。(1)方劑配伍規(guī)律。如利用層次聚類算法可形成單一病證以及單一方劑下的藥物組合,或者根據(jù)性味形成聚類,在此基礎(chǔ)上繼續(xù)進(jìn)行關(guān)聯(lián)規(guī)則分析挖掘藥物的核心組合[14]。(2)藥物分析。如利用層次聚類方法可對(duì)中藥的多種活性成分或者分子骨架進(jìn)行合理分類,分析化學(xué)成分的遠(yuǎn)近親疏關(guān)系[15]。(3)專利研究。如利用層次聚類方法可揭示中藥復(fù)方專利發(fā)展的規(guī)律及專利如何驅(qū)動(dòng)行業(yè)發(fā)展的內(nèi)在因素[16]。
3.3 分類分析
分類分析是一種重要的預(yù)測(cè)數(shù)據(jù)的分析形式,包括兩個(gè)階段:構(gòu)建模型的學(xué)習(xí)階段和將構(gòu)建的模型用于預(yù)測(cè)數(shù)據(jù)特性的分類階段[3]。完成分類分析任務(wù)的常用算法有決策樹、貝葉斯分類、隨機(jī)森林、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)。
3.3.1 決策樹 決策樹是一種類似流程圖的樹結(jié)構(gòu),在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來(lái)求取凈現(xiàn)值的期望值≥0的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷可行性進(jìn)行決策分析[3]。由檢索的44篇相關(guān)文獻(xiàn)可知,決策樹算法主要應(yīng)用于中藥藥性研究、中藥安全性評(píng)價(jià)、藥物療效評(píng)價(jià)、藥物分析和方劑配伍規(guī)律等幾個(gè)中藥研究子領(lǐng)域。(1)中藥藥性研究。如總結(jié)已知藥物的性效規(guī)律后,再利用決策樹算法來(lái)預(yù)測(cè)未知或缺失的藥性,或利用決策樹研究藥性規(guī)律、性效關(guān)系[17]。(2)中藥安全性評(píng)價(jià)。如將流行病學(xué)指標(biāo)、用藥相關(guān)因素或者中藥化學(xué)成分等作為決策樹分析的變量,用于預(yù)測(cè)不良反應(yīng)發(fā)生的概率或者藥物是否有臟器毒性[18]。(3)藥物療效評(píng)價(jià)。如以患者中醫(yī)四診信息和疾病診查指標(biāo)為基礎(chǔ),利用決策樹模型探索臨床檢測(cè)指標(biāo)、疾病信息與診療效果間的關(guān)系,可為臨床治療提供參考[19-20]。(4)藥物分析。如利用決策樹建立挖掘模型,預(yù)測(cè)對(duì)指紋圖譜評(píng)價(jià)或定量分析影響較大的特征參數(shù),或者利用決策樹建立指紋圖譜的多維多息特征的數(shù)字化評(píng)價(jià)系統(tǒng),從而指導(dǎo)優(yōu)化試驗(yàn)操作條件,提高藥物分析結(jié)果的準(zhǔn)確性[21]。
3.3.2 隨機(jī)森林 隨機(jī)森林是利用“多棵樹”對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器,其基本單元為決策樹。從直觀角度來(lái)解釋,每棵決策樹為一個(gè)分類器,針對(duì)輸入的樣本給出相應(yīng)的分類選擇,并進(jìn)行投票。隨機(jī)森林集成所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出結(jié)果[22]。由檢索的22篇相關(guān)文獻(xiàn)可知,隨機(jī)森林算法主要應(yīng)用于藥物靶點(diǎn)預(yù)測(cè)、藥物分析、中藥藥性研究和中藥安全性評(píng)價(jià)等幾個(gè)中藥研究子領(lǐng)域。(1)藥物靶點(diǎn)預(yù)測(cè)。如利用一系列蛋白質(zhì)數(shù)據(jù)庫(kù)建立藥物成分-靶點(diǎn)的隨機(jī)森林模型,用于預(yù)測(cè)和識(shí)別中藥有效成分的作用靶點(diǎn),該法相比傳統(tǒng)的藥理試驗(yàn)方法,模型識(shí)別不僅效率高且操作簡(jiǎn)便[23]。(2)藥物分析、中藥藥性研究、中藥安全性評(píng)價(jià)。這3個(gè)子領(lǐng)域的隨機(jī)森林應(yīng)用過程皆與決策樹類似[24-26]。但隨機(jī)森林建立的模型泛化能力更強(qiáng),實(shí)用性更高[27]。
3.3.3 貝葉斯分類 貝葉斯分類是基于貝葉斯定理的一種統(tǒng)計(jì)學(xué)分類方法,即將給出的待分類項(xiàng),利用貝葉斯定理求解此項(xiàng)在不同類別中出現(xiàn)的概率,將概率最大的項(xiàng)定義為此待分類項(xiàng)所屬的類別[3]。由檢索的34篇相關(guān)文獻(xiàn)可知,貝葉斯分類算法主要應(yīng)用于中藥藥性研究、方劑配伍規(guī)律、中藥功效研究、藥物療效評(píng)價(jià)、藥物成本-效果評(píng)價(jià)等幾個(gè)中藥研究子領(lǐng)域。(1)中藥藥性研究。如將收集的臨床藥理數(shù)據(jù)、生理生化指標(biāo)、基原要素等藥物相關(guān)信息作為網(wǎng)絡(luò)節(jié)點(diǎn)(也稱變量)來(lái)建立網(wǎng)絡(luò)拓?fù)鋱D和條件概率表,以此預(yù)測(cè)中藥或其組分的四氣五味以及功效[28]。(2)方劑配伍規(guī)律。如收集方劑、證候、藥味的出現(xiàn)次數(shù)、有效率等關(guān)鍵數(shù)據(jù)并進(jìn)行統(tǒng)計(jì),然后建立貝葉斯分類預(yù)測(cè)藥物療效,或是與其他算法結(jié)合研究方劑組方規(guī)律,分析“病-證-方-藥”的關(guān)系[29]。(3)中藥功效研究。如將收集的藥理藥效相關(guān)指標(biāo),建立貝葉斯模型來(lái)預(yù)測(cè)中藥及組分的功效[30]。(4)藥物療效評(píng)價(jià)。如在貝葉斯理論基礎(chǔ)上建立網(wǎng)狀Meta分析,收集藥物基本功效、適應(yīng)證、安全性、評(píng)價(jià)現(xiàn)狀等指標(biāo),對(duì)藥物療效、安全性進(jìn)行復(fù)雜的綜合比較分析[31]。(5)藥物成本-效果評(píng)價(jià)。如在藥物經(jīng)濟(jì)學(xué)理論的基礎(chǔ)上設(shè)計(jì)貝葉斯混合處理比較法,為臨床合理用藥提供決策依據(jù),并為藥物經(jīng)濟(jì)學(xué)評(píng)價(jià)提供方法上的參考[32]。
3.3.4 支持向量機(jī) 支持向量機(jī)是一種二分類模型,旨在從樣本中找到一個(gè)支持向量,構(gòu)建出最好的分類超平面對(duì)樣本進(jìn)行分割,以實(shí)現(xiàn)分割間隔最大化[33]。由檢索的87篇相關(guān)文獻(xiàn)可知,支持向量機(jī)算法主要應(yīng)用于藥物分析、制劑工藝研究、中藥藥性研究、中藥鑒定、中藥活性成分研究、中藥安全性評(píng)價(jià)、中藥功效研究等幾個(gè)中藥研究子領(lǐng)域。(1)藥物分析。如利用支持向量機(jī)與紅外光譜結(jié)合建立快速藥物檢測(cè)模型,為產(chǎn)品質(zhì)量的實(shí)時(shí)監(jiān)測(cè)與質(zhì)量控制提供新方法[34]。(2)制劑工藝研究。如利用支持向量機(jī)為藥物提取時(shí)間、溶劑量、提取率等制劑條件建立預(yù)測(cè)模型,從而得到最優(yōu)工藝參數(shù)[35]。(3)中藥藥性研究。如以元素或化學(xué)成分的含量統(tǒng)計(jì)結(jié)果作為藥性分類的特征指標(biāo),利用支持向量機(jī)建立藥性識(shí)別模型,從而深入闡明藥性的內(nèi)在機(jī)理[36]。(4)中藥鑒定。如將支持向量機(jī)與光譜技術(shù)結(jié)合,對(duì)中藥進(jìn)行無(wú)損快速鑒別,提高了中藥鑒別的速率[37]。(5)中藥活性成分研究。如利用支持向量機(jī)構(gòu)建化學(xué)成分與藥效關(guān)系,建立組效關(guān)系模型,從而準(zhǔn)確地預(yù)測(cè)化合物的活性,所得結(jié)果對(duì)新藥的深入研究具有極其重要的意義[38]。(6)中藥安全性研究。如基于毒性標(biāo)志物或相關(guān)物理化學(xué)性質(zhì)建立毒性判別的支持向量機(jī)模型,可為中藥安全性的研究提供新的方法[39]。(7)中藥功效研究。如利用支持向量機(jī)建立功效分類模型,對(duì)不同的復(fù)方組合進(jìn)行藥效預(yù)測(cè),可為中藥復(fù)方的二次開發(fā)提供參考[40]。
3.3.5 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)是根據(jù)生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,以網(wǎng)絡(luò)拓?fù)渲R(shí)為理論基礎(chǔ),模擬人腦的神經(jīng)系統(tǒng)對(duì)復(fù)雜信息處理機(jī)制的一種數(shù)學(xué)模型[41]。由檢索的129篇相關(guān)文獻(xiàn)可知,人工神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于方劑配伍規(guī)律、藥物分析、制劑工藝研究、中藥功效研究、中藥鑒定、中藥藥性研究、中藥活性成分研究等幾個(gè)中藥研究子領(lǐng)域。(1)方劑配伍規(guī)律。如利用人工神經(jīng)網(wǎng)絡(luò)將不同配比的藥方與藥效指標(biāo)建立關(guān)聯(lián)預(yù)測(cè),優(yōu)選出最佳療效的組分配比藥方[42]。(2)藥物分析。如利用人工神經(jīng)網(wǎng)絡(luò)或與紅外光譜結(jié)合建立快速藥物檢測(cè)模型,為產(chǎn)品質(zhì)量的實(shí)時(shí)監(jiān)測(cè)與質(zhì)量控制提供新方法[43]。(3)制劑工藝研究。如以藥物提取時(shí)間、溶劑量、提取率等制劑條件為基礎(chǔ),建立預(yù)測(cè)模型,利用人工神經(jīng)網(wǎng)絡(luò)優(yōu)化工藝參數(shù)[44]。(4)中藥功效研究。如將收集的化合物、藥性、藥理作用等指標(biāo),利用人工神經(jīng)網(wǎng)絡(luò)對(duì)新化合物或未知成分的功效進(jìn)行預(yù)測(cè)分類[45]。(5)中藥藥性研究。如將收集的藥物相關(guān)信息,利用人工神經(jīng)網(wǎng)絡(luò)建立藥性識(shí)別模型從而實(shí)現(xiàn)對(duì)未知藥物藥性的預(yù)測(cè)[46]。(6)中藥鑒定。如將人工神經(jīng)網(wǎng)絡(luò)與光譜技術(shù)結(jié)合,實(shí)現(xiàn)對(duì)中藥的快速鑒別[47]。(7)中藥活性成分研究。如利用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建化學(xué)成分與藥效關(guān)系模型,從而準(zhǔn)確預(yù)測(cè)化合物的活性,促進(jìn)新藥的發(fā)展[48]。在藥物分析、中藥藥性研究等幾個(gè)研究子領(lǐng)域中,人工神經(jīng)網(wǎng)絡(luò)的運(yùn)用方法、步驟、目的均和支持向量機(jī)類似。綜合兩種算法的特點(diǎn)可知,分析結(jié)果輸出為多分類的研究適合采用人工神經(jīng)網(wǎng)絡(luò)算法來(lái)解決,而多變量小樣本的二分類研究適合采用支持向量機(jī)算法解決。
3.4 回歸分析
分類和回歸是預(yù)測(cè)問題的兩種主要類型,其區(qū)別在于輸出變量類型的不同。分類是定性輸出,用于預(yù)測(cè)離散變量;回歸是定量輸出,用于預(yù)測(cè)連續(xù)變量。用于完成回歸任務(wù)的常用算法有線性回歸、logistic回歸。
3.4.1 線性回歸 線性回歸是利用數(shù)理統(tǒng)計(jì)中回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。由檢索的46篇相關(guān)文獻(xiàn)可知,線性回歸算法主要應(yīng)用于藥物分析、譜效關(guān)系、藥物劑量研究等幾個(gè)中藥研究子領(lǐng)域。(1)藥物分析。如利用回歸算法建立回歸方程獲得相關(guān)系數(shù)和線形圖,從而反映藥物濃度與儀器響應(yīng)值的關(guān)系,主要用于驗(yàn)證分析方法學(xué)的準(zhǔn)確性[49]。(2)譜效關(guān)系。如利用回歸算法研究指紋圖譜中所含信息與藥效之間的關(guān)系,揭示其相關(guān)性[50-51]。(3)藥物劑量研究。如利用回歸算法優(yōu)化處方中每味藥物的劑量配比而劑量研究是處方配伍研究中的重要內(nèi)容[52]。
3.4.2 logistic回歸 與線性回歸不同,logistic回歸的因變量是分類變量(二分類或者多分類),其主要用來(lái)解決分類問題[3]。由檢索的51篇相關(guān)文獻(xiàn)可知,logistic回歸算法主要應(yīng)用于方劑配伍規(guī)律、藥物安全性評(píng)價(jià)、藥物療效評(píng)價(jià)、量化診斷標(biāo)準(zhǔn)等幾個(gè)中藥研究子領(lǐng)域。(1)方劑配伍規(guī)律。如文獻(xiàn)中的研究大多是利用logistic回歸算法對(duì)疾病分型用藥建立模型,或是統(tǒng)計(jì)藥物性味歸經(jīng)等因素建立多元回歸模型,為醫(yī)師用藥提供參考依據(jù)[53]。(2)中藥安全性評(píng)價(jià)。如利用logistic回歸算法分析中藥誘發(fā)不良反應(yīng)或毒性的相關(guān)因素及發(fā)生規(guī)律,促進(jìn)臨床合理用藥[54]。(3)藥物療效評(píng)價(jià)。如利用logistic回歸分析影響療效、并發(fā)證或是依從性的相關(guān)因素[55]。(4)量化診斷標(biāo)準(zhǔn)。如統(tǒng)計(jì)患者的中西醫(yī)臨床指標(biāo)、生理相關(guān)因素,再利用logistic回歸分析建立疾病證型分類模型用于疾病的預(yù)測(cè)[56]。
4 討論
通過分析研究發(fā)現(xiàn),在中藥研究領(lǐng)域,數(shù)據(jù)挖掘算法的運(yùn)用種類較多,研究范圍涵蓋方劑配伍規(guī)律、藥物分析等十幾個(gè)研究子領(lǐng)域。尤其在方劑配伍規(guī)律分析中,挖掘算法的運(yùn)用相當(dāng)成熟,已形成標(biāo)準(zhǔn)模式化操作,且鄒錦等[57]和董俊龍[58]的研究也報(bào)道運(yùn)用多種算法相結(jié)合對(duì)方劑配伍規(guī)律進(jìn)行深入挖掘,促進(jìn)了中藥新處方的發(fā)現(xiàn),為新藥研發(fā)提供了新的手段。在藥物劑量研究、中藥活性成分研究、藥物療效評(píng)價(jià)等幾個(gè)子領(lǐng)域中,數(shù)據(jù)挖掘算法也逐步開展,但相關(guān)應(yīng)用報(bào)道較少,一般更傾向于用傳統(tǒng)的臨床試驗(yàn)或是藥物試驗(yàn)作為研究分析手段。但是,僅靠煩瑣復(fù)雜的試驗(yàn)去解決問題不僅耗材、耗力、效率低,且試驗(yàn)得出的大量數(shù)據(jù)也無(wú)法得到有效處理。筆者建議將數(shù)據(jù)挖掘方法與傳統(tǒng)試驗(yàn)相結(jié)合,用人工智能算法得出的結(jié)果指導(dǎo)藥物試驗(yàn),從而減少不必要的損耗或者避免處理繁冗的數(shù)據(jù)。
[30] 劉穎,李江,王耘,等.貝葉斯網(wǎng)絡(luò)在中藥活血化瘀功效預(yù)測(cè)中的應(yīng)用[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2008,31(4):229-231.
[31] 孫繼佳,張蕾,邵建華,等.基于貝葉斯方法的中藥治療乙肝后肝硬化療效評(píng)價(jià)[J].數(shù)理醫(yī)藥學(xué)雜志,2012,25(4):436-440.
[32] 師宇,饒惠霞,翁開源. 5類抗類風(fēng)濕性關(guān)節(jié)炎類藥物的成本-效果分析:基于貝葉斯MTC法[J].廣東藥學(xué)院學(xué)報(bào),2016,32(6):790-796.
[33] 秦玉平.基于支持向量機(jī)的文本分類算法研究[D].大連:大連理工大學(xué),2008.
[34] 張福強(qiáng),唐向陽(yáng),王俊全,等.基于機(jī)器學(xué)習(xí)的紅外光譜丹參聚類分析[J].計(jì)算機(jī)與應(yīng)用化學(xué),2010,27(9):1301- 1303.
[35] 郭立瑋,李玲娟,董潔.基于計(jì)算機(jī)化學(xué)方法的中藥膜過程研究[J].膜科學(xué)與技術(shù),2011,31(3):196-204.
[36] 劉進(jìn),鄧家剛,覃潔萍,等.基于紅外光譜數(shù)據(jù)的中藥藥性識(shí)別研究[J].時(shí)珍國(guó)醫(yī)國(guó)藥,2010,21(3):561-563.
[37] 李飛雁,徐曼菲,喬延江.基于近紅外光譜技術(shù)天麻的產(chǎn)地區(qū)分[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2015,17(7):1405-1408.
[38] 徐明玲.活血化瘀類中藥的構(gòu)效關(guān)系研究[D].北京:北京化工大學(xué),2009.
[39] 張景芳,蔣蘆荻,張燕玲.支持向量機(jī)在中藥腎毒性研究中的應(yīng)用[J].中國(guó)中藥雜志,2015,40(6):1134-1138.
[40] 吳惠敏,葉少珍.基于粗糙集與SVM骨性關(guān)節(jié)炎復(fù)方中藥功效分析研究[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(3):311-316.
[41] 周玉.模糊競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)在中醫(yī)舌診中的應(yīng)用研究[D].廣州:廣東工業(yè)大學(xué),2007.
[42] 吳純偉,郭嘉雯,陳超,等.基于人工神經(jīng)網(wǎng)絡(luò)優(yōu)化腦脈通治療缺血性腦中風(fēng)組分配伍研究[J].中國(guó)藥學(xué)雜志,2016,51(6):454-458.
[43] 侯立強(qiáng),王爽.中藥指紋圖譜識(shí)別的機(jī)器學(xué)習(xí)算法研究[J].內(nèi)蒙古中醫(yī)藥,2014,33(22):97-98.
[44] 劉現(xiàn)磊,孫志海.人工神經(jīng)網(wǎng)絡(luò)在中藥制劑研究中的應(yīng)用[J].中國(guó)中醫(yī)藥現(xiàn)代遠(yuǎn)程教育,2012,10(3):128-130.
[45] 雍小嘉.采用知識(shí)發(fā)現(xiàn)技術(shù)判斷方劑功效的方法研究[D].成都:成都中醫(yī)藥大學(xué),2006.
[46] 李雨,李驍,薛付忠,等.基于人工神經(jīng)網(wǎng)絡(luò)的中藥藥性判別研究[J].山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2011,49(1):57-61.
[47] 元四輝,蘇薇薇,吳忠.中藥鑒定新方法:計(jì)算機(jī)模式分類技術(shù)及其應(yīng)用[J].中藥材,1997(8):424-427.
[48] 韓勝男.基于中藥組效關(guān)系的花椒揮發(fā)油抗腫瘤活性組分的研究[D].天津:天津大學(xué),2014.
[49] 馮軍勤,周譽(yù)昌,呂華,等.運(yùn)用近紅外漫反射光譜技術(shù)檢測(cè)中藥水分含量[J].大眾科技,2006(2):46-47.
[50] 許良,畢開順.多元線性回歸分析法在蒙藥森登-4湯譜效關(guān)系解析中的應(yīng)用[J].計(jì)算機(jī)與應(yīng)用化學(xué),2008(10):1189-1192.
[51] 劉吉楠.北豆根細(xì)胞毒活性譜效關(guān)系研究[D].哈爾濱:黑龍江大學(xué),2012.
[52] 李愛敏,王立堂,宋麗軍.對(duì)現(xiàn)代六經(jīng)辨證中運(yùn)用中藥配伍用量的數(shù)理統(tǒng)計(jì)分析[J].中醫(yī)研究,1995(5):9-10.
[53] 周保安,馮玉林,吳成. 2型糖尿病的補(bǔ)益藥證治用藥規(guī)律及l(fā)ogistic多元回歸分析[J].實(shí)用糖尿病雜志,2015,11(3):30-32.
[54] 劉紅杰,陳亮,李天昊,等.基于中醫(yī)傳統(tǒng)理論建立中藥腎毒性的logistic回歸預(yù)測(cè)模型[J].中藥新藥與臨床藥理,2016,27(4):571-577.
[55] 林寧,余楚婷,范海媚,等.上呼吸道感染治療用藥對(duì)感染后咳嗽發(fā)病的影響[J].中國(guó)中醫(yī)急癥,2016,25(10):1904-1906.
[56] 黃翌.慢性乙型肝炎中醫(yī)辨證計(jì)量診斷及用藥特點(diǎn)的研究[D].廣州:暨南大學(xué),2005.
[57] 鄒錦,楊學(xué)琴,張小勇,等.基于關(guān)聯(lián)規(guī)則和熵聚類的中醫(yī)經(jīng)方治療抑郁癥用藥規(guī)律[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2017,23(10):211-215.
[58] 董俊龍.關(guān)聯(lián)規(guī)則和聚類分析在方劑配伍規(guī)律研究中的應(yīng)用[D].沈陽(yáng):東北大學(xué),2010.
(收稿日期:2018-04-16 修回日期:2018-07-05)
(編輯:唐曉蓮)