高婉卿,程寧,李力松,黃辛迪,丁長松
機器學習在方劑研究中的應用概述
高婉卿1,程寧1,李力松1,黃辛迪1,丁長松1,2
1.湖南中醫(yī)藥大學,湖南 長沙 410208;2.湖南省中醫(yī)藥大數(shù)據(jù)分析實驗室(丁長松),湖南 長沙 410208
隨著信息技術的發(fā)展及大數(shù)據(jù)、人工智能的普及,中醫(yī)現(xiàn)代化研究得到極大發(fā)展。為探究辨證論治、組方配伍本質規(guī)律,方劑研究成為中醫(yī)傳承與發(fā)展的重要內容。為實現(xiàn)智能化中醫(yī)診療,根據(jù)病癥自動推薦準確有效的方劑成為研究關鍵。本文對近年來機器學習在方劑領域中的應用進行梳理,將聚類、支持向量機、關聯(lián)規(guī)則等傳統(tǒng)機器學習方法和深度學習技術的特點及其在方劑研究中的應用進行比較;分析機器學習在方劑研究中遇到的困境及其相應的解決辦法;指出機器學習在方劑研究中的趨勢,并對其前景進行展望。
機器學習;中醫(yī);方劑;客觀化;智能化;綜述
機器學習以計算機為工具模擬人類思維方式,通過學習知識和技能解決問題,在計算機視覺、自然語言處理、搜索技術、語音識別、推薦等諸多領域得到廣泛應用。決策樹、聚類、關聯(lián)規(guī)則等傳統(tǒng)機器學習算法通過提取樣本的數(shù)據(jù)特征分析其內在規(guī)律,往往適用于小樣本集。深度學習是機器學習領域中新的研究方向,將原始數(shù)據(jù)通過非線性模型映射為更高層次、更抽象的向量表示,通過足夠多的映射來學習復雜關系以解決實際問題,具有良好的泛化能力[1-2]。近年來在輔助醫(yī)療、醫(yī)學影像、藥物挖掘等方面發(fā)揮了重要作用[3]。
歷代醫(yī)家留下的海量醫(yī)案中蘊藏著醫(yī)家思想,借助信息技術對中醫(yī)臨床案例、方劑數(shù)據(jù)進行分析,挖掘其內在組方配伍規(guī)律,是中醫(yī)傳承與發(fā)展的有效途徑。傳統(tǒng)機器學習方法因其小樣本適應性、可解釋性已在方劑領域取得很多成果,而深度學習技術目前應用雖少,但其結構、學習方式適用于擬合中醫(yī)辨證論治、組方配伍思想,近年來在中醫(yī)面診[4]、中藥鑒定[5-6]等方面展開應用研究。本文對機器學習在方劑研究領域的現(xiàn)狀進行梳理,分析目前機器學習在該領域開展研究所面臨的挑戰(zhàn),并結合中醫(yī)藥數(shù)據(jù)特點提出解決思路,為機器學習技術在方劑領域的進一步研究提供參考和依據(jù),也為信息技術在中醫(yī)傳承與創(chuàng)新過程中的應用提供新思路。
聚類算法基于數(shù)據(jù)內部結構,通過聚類使同類型樣本具有較高相似性,不同類樣本具有明顯差異。常用于方劑與藥物研究的代表性聚類算法為K-Means[7]。
對治療某病的大量方劑進行聚類,以得到的聚類特征推測方劑治療準則、組方規(guī)律。如趙新等[8]收集全國17個省市中醫(yī)藥預防新型冠狀病毒64首方,基于熵聚類得到8個常用藥物組合,使用無監(jiān)督熵層次聚類算法挖掘出7個潛在新方。裴衛(wèi)等[9]運用K-Means方法對589首中醫(yī)治療肝硬化方中涉及的257味中藥進行聚類分析,并利用復雜網(wǎng)絡對比驗證,顯示聚類中心個數(shù)為5時,類別特征區(qū)分度較高。
為研究中醫(yī)治療疾病的藥物功效、性味歸經(jīng)等特性規(guī)律,常對治療該病的中藥進行聚類,進而探究組方配伍規(guī)律。李國春等[10]采用K-Means算法對半夏瀉心湯治療慢性胃炎臨床用藥進行分析,發(fā)現(xiàn)半夏瀉心湯7味中藥藥物組合呈規(guī)律性變化,有的藥物組合以清熱作用為主,有的以補益作用為主。賈海女等[11]對治療惡性胸腔積液的127首方劑經(jīng)聚類分析,得到28個常用藥物組合及7個新方劑。為分析藥物屬性與配伍關系,金滋力等[12]采用層次分析與聚類方法將藥物屬性進行聚類,分析屬性對規(guī)律配伍的作用,結果顯示大部分禁忌配伍組合與常規(guī)藥物組合的聚類結果具有明顯差異。聚類分析主要從宏觀角度對疾病、癥狀、藥物等進行分類,偏向整體特性,結果呈現(xiàn)概括性評價,難以挖掘出具體的診療規(guī)律。聚類算法的性能在很大程度上依賴于輸入特征構建的特征空間結構,聚類結果需結合專業(yè)知識進行判斷,導致數(shù)據(jù)標簽具有主觀性,不利于研究問題的本質。
通過SVM對方劑的功能分類,分析同類方劑共有特征,以探尋中藥配伍的本質規(guī)律。高全泉等[16]將10 000余首方劑作為實驗對象,訓練SVM分類器以預測新藥物組合歸屬的中醫(yī)治法類別。Xie等[17]對獲取的中醫(yī)治療信息采用TF-IDF構建特征向量,根據(jù)不同SVM分類模型對未標注數(shù)據(jù)進行人工標注,為后期利用神經(jīng)網(wǎng)絡預測方劑與疾病之間的關系做準備工作。
通過SVM對方劑臨床使用有效性進行劃分,以預測新藥物組合是否對疾病或證候發(fā)揮作用。Wang等[18]將575首知名方劑作為正樣本、隨機組合生成1961個非常規(guī)方劑為負樣本構成訓練集輸入SVM分類器,該模型在測試集上得到十分理想的分類效果。金滋力等[12]采用SVM分析方劑配伍數(shù)據(jù),對藥物配伍可行性進行預測建模,結果表明在線性SVM模型下,方劑功效預測準確率均可達90%。Pan等[19]為檢驗方劑是否有效,利用SVM結構風險最小原則,對方劑進行初步診斷,有效降低了錯診概率。
SVM在分類性能、泛化性能上表現(xiàn)較好,然而由于SVM空間消耗主要為訓練樣本的存儲、核矩陣的計算,借助二次規(guī)劃求解支持向量,涉及m階矩陣的計算,當樣本數(shù)目很大時,矩陣的存儲和計算將耗費大量機器內存和運算時間,因此在大規(guī)模訓練樣本上難以實施。然而中醫(yī)方劑領域的功效分類不僅是多分類問題,更是多標簽問題,對于該類問題的處理更為復雜。
關聯(lián)規(guī)則從數(shù)據(jù)集中探尋當前數(shù)據(jù)與其他數(shù)據(jù)事物或特征之間相互依存和關聯(lián)關系。關聯(lián)規(guī)則挖掘信息主要包含兩個階段:第一階段從數(shù)據(jù)集中找出所有高頻項目組;第二階段由高頻項目組產(chǎn)生關聯(lián)規(guī)則,以支持度衡量規(guī)則的普遍性,以置信度衡量規(guī)則的可靠度。常見的關聯(lián)規(guī)則算法有Apriori、FP-樹頻集算法。關聯(lián)規(guī)則算法簡單,易被接受與解釋,在探尋方劑高頻藥對、以病類方用藥研究、以證類方關聯(lián)規(guī)則挖掘中得到廣泛應用。
高頻藥組對組方配伍、方劑功效具有重要作用。白明等[20]整理中醫(yī)古籍中相似疾病組方,使用關聯(lián)規(guī)則總結其中內涵,尋找潛在的中藥配伍規(guī)律,得到甘草與桔梗、甘草與防風、甘草與羌活等關聯(lián)度較高的12個藥對。季濤等[21]采用關聯(lián)規(guī)則方法探究治療消渴癥用藥特點及規(guī)律,得到出現(xiàn)頻次10次以上藥對為人參-甘草、甘草-麥冬、人參-麥冬等187對3味中藥藥對包括人參-甘草-麥冬、天花粉-麥冬-黃連、天花粉-甘草-麥冬等117對,以及高頻次的4味藥對。
以病類方即針對具體疾病,探究其用藥規(guī)律。楊艷平[22]采用關聯(lián)規(guī)則Apriori算法分析133首治療銀屑病方劑,挖掘出20個核心藥物組合、10首可用于治療銀屑病新方劑。寧江等[23]對459例尋常型銀屑病醫(yī)案涉及的358味中藥進行頻數(shù)統(tǒng)計和關聯(lián)規(guī)則分析,發(fā)現(xiàn)銀屑病遣方用藥多考慮清熱涼血、補血活血、祛風解毒之品。劉嘉輝等[24]研究治療肝硬化用藥規(guī)律,對63個醫(yī)案中方劑藥物的功效、性味歸經(jīng)進行描述性統(tǒng)計,對高頻藥物進行關聯(lián)分析,得到5個置信度近100%的核心藥物組。
以證類方即針對具體證型,找出治療該類證的用藥規(guī)律。李欣等[25]統(tǒng)計治療尋常型銀屑病進行期血熱證的14類101味中藥,運用經(jīng)典統(tǒng)計和集對分析方法從中得到常用中藥22味。郭宏等[26]以符合標準的56例鼻鼽患者為研究對象,分析方劑中藥物的使用頻次,運用Apriori算法探討鼻鼽藥物配伍規(guī)律,挖掘出功效較強藥物,并得出鼻鼽“寒熱錯雜,虛實并見”證型中的特殊強關聯(lián)藥對。
關聯(lián)分析挖掘出的知識有限,僅考慮了并發(fā)情況,一般局限于某個術語與其他術語共現(xiàn)頻次較高的情況。然而方劑中有些中藥出現(xiàn)頻次較高,如“甘草”“大棗”等常以臣藥或佐藥的身份出現(xiàn),但對方劑功效的影響遠低于君藥,因而無法挖掘出中藥對方劑功效的真實貢獻度。
通過以上分析,我們可以推斷,留學生的語言能力與其語用語言能力有一定的關系,但與其社交語用能力之間關系不大。留學生的社交語用能力比其語用語言能力發(fā)展得要慢。這就要求我們在教學中加強對學生社交語用能力的培養(yǎng)。
以上論述了3種傳統(tǒng)機器學習方法在方劑領域應用情況。K-Means等聚類算法具有可解釋性強、計算復雜度低的優(yōu)點,但嚴重依賴樣本的特征工程處理。SVM適用于小樣本,不易出現(xiàn)“維度災難”,并且具有較強的魯棒性,但SVM計算復雜度較高,依賴核函數(shù)的選擇,同時也不適用于多分類任務。Apriori等關聯(lián)規(guī)則算法挖掘結果易于理解,但僅考慮樣本中事物的并發(fā)情況,強調結構化數(shù)據(jù)。聚類、分類、回歸以及關聯(lián)分析等傳統(tǒng)機器學習方法除在方劑研究中得到廣泛應用外,在中醫(yī)其他領域也取得不錯的研究成果,如中藥分類[27]、中藥識別[28]、面診識別[29]、舌象質量評估[30]、藥物選擇[22-23,31]等。
淺層神經(jīng)網(wǎng)絡主要對結構化、半結構化數(shù)據(jù)做場景預測。在中醫(yī)藥領域利用神經(jīng)網(wǎng)絡的自學習、自適應及非線性映射能力建立藥性特征與功效關系的關聯(lián)模型,擬合中藥屬性與功效的復雜非線性關系,以實現(xiàn)中藥藥性客觀化表示。淺層神經(jīng)網(wǎng)絡在方劑中的研究應用方向可歸納為方劑組成與功效對應關系、方劑與疾病對應關系、方劑配伍非線性規(guī)律。
李偉霞等[32]對養(yǎng)血補血、活血化瘀、調經(jīng)止痛3種功效方劑進行效應指標的標準化整合,采用人工神經(jīng)網(wǎng)絡將所測得的主要效應成分含量與3種功效整合效應進行相關分析,以闡述歸芎類組方中功效效應物質基礎及成分對功效的貢獻度。喬少杰等[33]將模糊神經(jīng)元引入神經(jīng)網(wǎng)絡,構建基于模糊神經(jīng)網(wǎng)絡的方劑功效約簡算法及神經(jīng)網(wǎng)絡模型EFNN,結果表明屬性約簡神經(jīng)網(wǎng)絡在方劑功效預測上具有較高的準確率。郭永坤等[34]將方劑信息“量子化”處理,以方劑基本特征屬性作為輸入,方劑功效作為輸出,使用神經(jīng)網(wǎng)絡建立中藥方劑功效預測系統(tǒng)。
Xie等[17]在利用SVM分類器將方劑劃分正負樣本的基礎上,構建多個淺層神經(jīng)網(wǎng)絡,將疾病與中藥分別作為網(wǎng)絡的輸入,經(jīng)詞嵌入層與全連接層將疾病與方劑中藥網(wǎng)絡輸出進行串聯(lián),構建疾病-方劑向量表示,并經(jīng)全連接將疾病-方劑向量表示映射到預測結果。該模型可用于探究疾病與方劑之間的關系,適宜驗證方劑對該疾病的有效性。
宋小莉等[35]對21首方劑數(shù)據(jù)構建BP神經(jīng)網(wǎng)絡,以擬合不同配伍與蛋白酶之間的非線性映射關系。實現(xiàn)半夏瀉心湯及其類方中8味中藥配伍劑量的胃黏液分泌預測。Song等[36]利用動量法與學習速率自適應相結合網(wǎng)絡模型建立藥味藥量與藥效學指標的非線性映射模型,探究藥物劑量對方劑配伍規(guī)律的影響。李味味等[37]在中藥組方配伍原則基礎上,構建補益類復方功效與藥物性味、歸經(jīng)關系BP神經(jīng)網(wǎng)絡模型,結果表明模型在預測補益類方劑的補氣、補血、補陰、補陽功效方面準確率可達92.5%。然而,傳統(tǒng)的神經(jīng)網(wǎng)絡存在局部最優(yōu)、過擬合及梯度擴散等問題,如在實驗中確定的性味、歸經(jīng)屬性并不能完全代表真實分類決策過程中的典型特征[36]。另外,中藥具有多種屬性,每種屬性對決策結果都具有一定影響,而淺層神經(jīng)網(wǎng)絡的分析能力有限,無法很好地擬合輸入與輸出結果之間復雜的非線性映射關系。
針對淺層神經(jīng)網(wǎng)絡表示能力有限,難以準確把握中醫(yī)辨證、藥物配伍的多重非線性關系和協(xié)同關系,深度學習以有限的參數(shù)和多層網(wǎng)絡結構模擬變量間的復雜關系,通過逐層特征變換,將原樣本特征空間變換到新的特征空間。因其復雜的非線性映射能力,深度學習的靈敏度、特異度、精度及準確度都高于傳統(tǒng)機器學習。因此,深度學習方法更適用于處理中醫(yī)藥領域的復雜問題。
Chen等[38]將中醫(yī)古籍中收集的88味清熱中藥與45味活血中藥采用Kennard-Stone算法分為100個校準樣本和33個驗證樣本,以藥性、藥味、毒性及十二歸經(jīng)中藥屬性為網(wǎng)絡輸入,卷積操作進行特征選擇,池化操作保留中藥關鍵特征,輸出中藥所屬類別,構建基于中藥藥性理論深度信念網(wǎng)絡功效分類模型。Hu等[39]為探索舌診對方劑的相關性,構建雙通道卷積神經(jīng)網(wǎng)絡模型,對不同舌診圖片與處方進行訓練,主通道用于中藥處方生成,輔通道用于預測處方治療主題,以2個全連接層輸出最后的處方生成結果。Zhang等[40]基于高血壓癥狀使用深度學習中的堆疊自動編碼器將臨床案例分為5個類別,分析各類高血壓病主要方劑和常用中藥的使用規(guī)律。
當前深度學習大部分研究主要集中于中醫(yī)舌診圖片、脈診信號處理,中醫(yī)方劑領域研究成果較少。辨證論治、組方配伍規(guī)律是中醫(yī)藥的重要組成部分,是中醫(yī)現(xiàn)代化的關鍵所在。深度學習技術可用來模擬方劑組成的“語義”信息,探究方劑組成與方劑功效之間的復雜關系,因此將深度學習引入方劑研究是中醫(yī)藥傳承與發(fā)展的必然方向。
傳統(tǒng)神經(jīng)網(wǎng)絡提升了基于數(shù)據(jù)特性進行具體問題建模的可行性,但對數(shù)據(jù)間隱藏特性的提取十分困難,深度學習適用于探究方劑功效間復雜關系及方劑配伍的內在規(guī)律。值得注意的是,無論淺層神經(jīng)網(wǎng)絡還是深度學習技術,模型構建難點在于不同問題、不同樣本需設定不同的超參數(shù),如神經(jīng)元的個數(shù)、優(yōu)化參數(shù)、樣本批次、訓練的輪數(shù)、學習速率等,需選擇合適的損失函數(shù)、優(yōu)化函數(shù)、激活函數(shù)。雖然深度學習以其優(yōu)越的性能已解決了中醫(yī)病例分類[41-42]、辨證分型[43],以及中醫(yī)相關圖片信息處理如舌診、面部圖片分析病因[4,44]、中草藥識別[5-6]等諸多難題,但在方劑領域的應用研究仍處于起步階段,需經(jīng)過實踐積累一定的研究經(jīng)驗。
3.1.1 藥名不規(guī)范
中醫(yī)歷史悠久,不同地區(qū)、不同學派及不同時期均有其命名規(guī)則、用藥習慣。中藥存在大量“同物異名”“同名異物”現(xiàn)象?!巴锂惷奔赐粋€物種有多個不同的名字,如虎杖又稱苦杖、斑杖、地榆、大蟲杖、活血丹等;“同名異物”指同一個名字可能涵括多個不同的中藥品種,如地黃可分為鮮地黃、干地黃和熟地黃,其性味歸經(jīng)有所不同,不能一概而論,然而方劑樣本中存在大量未明確指明用藥品種的數(shù)據(jù),導致研究結果存在偏差。
3.1.2 用藥劑量描述不規(guī)范
中藥在方劑中的使用劑量是確保其安全和療效的關鍵。方劑有湯劑、丸劑、散劑、丹劑等,不同類型方劑用藥劑量安全范圍有所差異,如金匱腎氣丸(干地黃240 g,山藥、山萸肉各120 g、澤瀉、茯苓、牡丹皮各90 g,桂枝、炮附子各30 g)展示劑量為整個療程用藥劑量,而通竅活血湯[赤芍3 g,川芎3 g,桃仁(研泥)9 g,紅棗7個,紅花9 g,老蔥3根,鮮姜9 g,麝香0.15 g]為湯藥劑量;數(shù)據(jù)存在古方與現(xiàn)代方混雜現(xiàn)象,如戎鹽散方(戎鹽三分,甘草半兩,蒲黃一兩,白礬三分,龍骨一兩,鹿角膠二兩)劑量單位為分、兩、錢等,而現(xiàn)代方主以“克”為單位;存在范圍用量,如化痰通腑飲中全瓜蔞3~40 g、膽星6~10 g;“個”“根”“條”等單位的使用,如通竅活血湯中的紅棗7個、老蔥3根,增加大量人工處理工作。明確方劑藥量-功效關系,是方藥研究的關鍵問題之一,以上問題為劑量信息的有效使用、方劑量化表示帶來嚴重阻礙。
3.1.3 功效術語不規(guī)范
方劑功效是研究中醫(yī)辨證論治的關鍵。方劑功效不是組成藥物功效進行簡單疊加,而是相互作用的結果[45]。方劑數(shù)據(jù)中,方劑功效表述存在大量同義不同型術語,如“祛濕”與“去濕”,“補氣養(yǎng)血”與“補氣血”;語義重復術語,如“益氣和中祛風”與“益氣和中”或“益氣”,導致方劑功效標簽高維度。另外,功效術語具有稀疏性,部分術語的正樣本個數(shù)極少,屬于極端多標簽,進一步提升了實驗的難度。
將信息轉變?yōu)橛嬎銠C可識別的形式是數(shù)據(jù)分析的前提。然而中醫(yī)理論涉及的理論知識較多且復雜。“君臣佐使”是方劑配伍的基本原則,等同于方劑的組方結構,這種結構的定義比較模糊,且無法確定結構的影響因素,方劑的名稱、中藥品數(shù)、中藥效力及其藥性都可能產(chǎn)生影響[46]。方劑用藥藥性組合規(guī)律十分復雜,如藥性理論包括藥氣、藥味、升降浮沉、歸經(jīng)及有毒無毒等內容,藥與藥之間存在“相須”“相使”“相畏”“相殺”“相惡”“相反”等關系。方劑數(shù)字化處理過程中必須考慮這些理論知識。在數(shù)據(jù)格式方面,方劑來源不同導致書寫形式不同。
深度學習需大量樣本,收集到的方劑樣本質量并不能得到保證。首先,方劑收集來源較廣,從古書、病案、網(wǎng)絡爬蟲、文獻等均可獲得,但有效性并未得到統(tǒng)一的公證;其次,不同經(jīng)驗、不同用藥習慣的中醫(yī)學者對同一方劑也存有主觀意愿;一個方劑對同一疾病不同體質患者功效不完全相同,導致樣本缺乏客觀性。
①數(shù)據(jù)集角度:傳統(tǒng)的機器學習方法在小數(shù)據(jù)集上可以取得很好的效果。大數(shù)據(jù)時代,隨著中醫(yī)數(shù)據(jù)不斷整理積累,傳統(tǒng)機器學習方法并不適合處理大樣本數(shù)據(jù)。②特征選擇角度:傳統(tǒng)機器學習方法最大優(yōu)勢在于發(fā)現(xiàn)信息中的共性規(guī)律,但對一些出現(xiàn)頻次不高的中藥可從方劑中獲得的信息較少。通常需要對研究問題的領域知識有充分的了解,以完成合適的特征抽取工作,最后才能對模型進行設計與訓練。③模型構建角度:方劑數(shù)據(jù)、特征、規(guī)則的特殊性,以及當前研究成果較少的局限性,對于模型框架、模型中各種參數(shù)的選擇需要進行不斷嘗試與改進,具有較大的工作量。④可解釋性角度:深度學習模型大多數(shù)為黑盒模型,中間過程難以解釋,不利于對組方配伍的內在規(guī)律進行探究。
首先,大數(shù)據(jù)為機器學習提供了海量的訓練樣本,給數(shù)據(jù)挖掘帶來了革命性進步。隨著中醫(yī)藥現(xiàn)代化研究的發(fā)展,中醫(yī)文獻、古籍整理,臨床案例收集工作已全面展開,中醫(yī)大數(shù)據(jù)呈線性增長。大數(shù)據(jù)與云計算技術的發(fā)展為具有模糊性、經(jīng)驗性特點的中醫(yī)藥提供了數(shù)據(jù)化的技術工具[47],充分利用大數(shù)據(jù)促進方劑科研的發(fā)展,將為中醫(yī)藥領域帶來重要的革命性變化。如何讓大數(shù)據(jù)成為研究發(fā)展的優(yōu)勢,則取決于對數(shù)據(jù)的收集與處理,因此,方劑的標準化、結構化是中醫(yī)藥大數(shù)據(jù)分析的關鍵所在。
其次,中藥復方配伍涉及藥效與物質基礎之間的關系,并不是組成藥物的簡單堆砌,而是依據(jù)藥物各有所長的功用在辨證、立法的基礎上配伍并發(fā)揮整體增效減毒的調節(jié)作用,使各具特性的藥物組合成一個新的有機整體[48]。在遵循中醫(yī)“辨證論治”基本理論的基礎上,通過分析復方屬性及功效,構建以中藥“四氣-五味-歸經(jīng)-升降沉浮-毒性-功效”等屬性為維度的多維空間量化模型。結合本體知識,針對不同問題的訓練樣本,借助或改進傳統(tǒng)機器學習算法等挖掘復方信息,最大程度擬合其中的非線性規(guī)律,為詮釋中醫(yī)治療機理、精準化醫(yī)療提供依據(jù)。
同時,方劑學研究中方證關系亦是業(yè)界關注的熱點,“法隨證立,方從法出,方以藥成”,方藥與病證關系是中醫(yī)辨證論治核心內容。認識方證關系的學術內涵、總結方證規(guī)律及揭示其現(xiàn)代內涵對于論證中醫(yī)藥學的科學性和提高臨床辨證的水平均有十分重要的意義。竇志芳等[49]認為,可運用計算機技術來整合歸納大量文獻信息,用以揭示證候、方劑和方證相關的知識,建立具有中醫(yī)學特色的文獻挖掘信息提取技術。深度學習應用于方證關系的研究雖仍處于初級階段,但其符合大數(shù)據(jù)分析、本質規(guī)律研究的需求,具有巨大的發(fā)展空間。
如今,借鑒網(wǎng)絡藥理學思維解析方劑多成分、多靶標整體調控作用原理已成為研究方劑的重要手段。網(wǎng)絡藥理學是基于“疾病-基因-靶點-藥物”相互作用網(wǎng)絡,觀察藥物對疾病網(wǎng)絡的關鍵節(jié)點或網(wǎng)絡模塊的調控效應,從而揭示藥物系統(tǒng)作用于人體的效應機制的藥物研究新模式。近年來,“成分-靶點-通路”研究模式已廣泛用于方劑物質基礎和作用機制分析。方劑研究中,使用機器學習方法對結構化方劑數(shù)據(jù)進行靶點預測,同時以中藥為連接點,將病證、方藥映射到生物分子網(wǎng)絡,結合網(wǎng)絡藥理學知識對預測結果進行評價與驗證。該方向有助于提升機器學習方劑研究結果可信度,實現(xiàn)中醫(yī)理論客觀化。
方劑是中醫(yī)臨床治療經(jīng)驗的有效載體,方劑用藥規(guī)律研究是中醫(yī)傳承的關鍵。研究初期,中醫(yī)領域中存在大量模糊數(shù)據(jù),缺乏規(guī)范化、結構化,可用于模型學習的樣本量較少,傳統(tǒng)機器學習方法為當時中醫(yī)的客觀化、內在規(guī)律的探究提供了有效途徑。聚類算法可用于探究用藥規(guī)律、生成處方,探尋癥狀、證候之間的關系;分類和回歸算法可用于疾病預測,證候癥狀、中藥方劑分類;關聯(lián)規(guī)則可通過對藥物與藥物、癥狀與癥狀、疾病與處方的關聯(lián)分析,探尋其中的關系,為中醫(yī)辨證論治、組方配伍研究做出貢獻。隨著方劑數(shù)據(jù)收集以及方劑研究的深入,傳統(tǒng)方法已無法全面闡釋方劑內在規(guī)律。深度學習方法以其強大的擬合能力、良好的泛化能力對方劑組方規(guī)律、處方與功效的多標簽對應關系進行分析,將對中醫(yī)藥學術繼承與創(chuàng)新帶來重要意義,同時也是中醫(yī)藥現(xiàn)代化發(fā)展的必然趨勢。
[1] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1554.
[2] HAO X, ZHANG G, MA S. Deep learning[J]. International Journal of Semantic Computing,2016,10(3):417-439.
[3] LI H, TIAN S, LI Y, et al. Modern deep learning in bioinformatics[J]. Journal of Molecular Cell Biology,2020,DOI:10.1093/jmcb/mjaa030.
[4] ER-YANG H, WEN G H, ZHANG S J, et al. Deep convolutional neural networks for classifying body constitution based on face image[J]. Computational & Mathematical Methods in Medicine,2017, 2017:1-9.
[5] WENG J C, HU M C, LAN K C. Recognition of easily-confused TCM herbs using deep learning[C]//Proceedings of the 8th ACM on Multimedia Systems Conference,2017.
[6] HUANG F, YU L, SHEN T, et al. Chinese herbal medicine leaves classification based on improved AlexNet convolutional neural network[C]//2019 IEEE 4th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC). Chengdu,2019.
[7]MAC QUEEN J. Some methods for classification and analysis of multivariate observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability,1967.
[8] 趙新,張林旭,路雪婧.基于數(shù)據(jù)挖掘預防新型冠狀病毒肺炎中醫(yī)方藥初探[J].中草藥,2020,51(5):1147-1152.
[9] 裴衛(wèi),吳輝坤,李曉東,等.基于機器學習的中醫(yī)治療肝硬化組方規(guī)律研究[J].世界科學技術-中醫(yī)藥現(xiàn)代化,2017,19(6):950-956.
[10] 李國春,戴慎.動態(tài)聚類分析在中醫(yī)方劑藥量組合規(guī)律中的應用[J].中國衛(wèi)生統(tǒng)計,2006,23(1):63-64,67.
[11] 賈海女,張沂,周夢玲,等.基于數(shù)據(jù)挖掘分析治療惡性胸腔積液內服處方的組方規(guī)律[J].中國醫(yī)藥導報,2020,17(14):150-154.
[12] 金滋力,胡建星,金宏威,等.基于支持向量機與層次分析法的中藥方劑配伍分析[J].中國中藥雜志,2018,43(13):2817-2823.
[13] YANG X B, LIANG Z H, ZHANG G, et al. A classification algorithm for TCM syndromes based on P-SVM[C]//2005 International Conference on Machine Learning and Cybernetics. IEEE. Guangzhou, 2005.
[14] CORTES C, VAPNIK V N. Support-vector networks[J]. Machine Learning,1995,20(3):273-297.
[15] BORRAJO M, ROMERO R, IGLESIAS E. A linear-RBF multikernel SVM to classify big text corpora[J]. Journal Biomedicine and Biotechnology,2015,2015:1-14.
[16] 高全泉,張帆,劉曉峰,等.中醫(yī)方劑屬性特征的獲取和知識挖掘實驗[J].計算機工程與應用,2011,47(28):212-214.
[17] XIE D, PEI W, ZHU W, et al. Traditional Chinese medicine prescription mining based on abstract text[C]//2017 IEEE 19th International Conference on e-Health Networking, Applications and Services (Healthcom). IEEE. Dalian,2017.
[18] WANG J F, CAI C Z, KONG C Y, et al. A computer method for validating traditional Chinese medicine herbal prescriptions[J]. The American Journal of Chinese Medicine,2005,33(2):281-297.
[19] PAN L Z, SONG A G, XU G Z, et al. Prescription diagnosis of upper limb rehabilitation training robot based on SVM-GDFNN[J]. Journal of Mechanical Engineering,2013,49(13):17-23.
[20] 白明,李楊波,苗明三.基于古籍數(shù)據(jù)挖掘的中醫(yī)防治疫病用藥規(guī)律分析[J].中藥藥理與臨床,2020,36(1):32-36.
[21] 季濤,宿樹蘭,尚爾鑫,等.基于關聯(lián)規(guī)則的中醫(yī)藥治療消渴癥的用藥規(guī)律與特點探析[J].中華中醫(yī)藥雜志,2016,31(12):4982-4986.
[22] 楊艷平.基于數(shù)據(jù)挖掘的治療銀屑病處方用藥規(guī)律研究[J].世界中醫(yī)藥,2015,10(10):1611-1613,1617.
[23] 寧江,曾召,盧傳堅.基于關聯(lián)規(guī)則的1979-2010年尋常型銀屑病期刊醫(yī)案用藥規(guī)律分析[J].中華中醫(yī)藥學刊,2013,31(10):2204-2206.
[24] 劉嘉輝,呂東勇,何潔茹,等.基于數(shù)據(jù)挖掘對國醫(yī)大師治療肝硬化用藥規(guī)律研究[J].中華中醫(yī)藥雜志,2015,30(12):4328-4331.
[25] 李欣,李斌,李福倫,等.尋常型銀屑病進行期血熱證與方藥的相關性研究[J].中醫(yī)雜志,2012,53(10):843-847.
[26] 郭宏,黃嘉韻,鄺艷萍.基于數(shù)據(jù)挖掘技術的郭宏治療鼻鼽用藥規(guī)律初步研究[J].中華中醫(yī)藥雜志,2017,32(3):1332-1335.
[27] RUAN C, WANG Y, ZHANG Y, et al. THCluster:herb supplements categorization for precision traditional Chinese medicine[C]// 2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE. Beijing,2017.
[28] CHEN Y J, LIU Y Y, ZHAO G Z, et al. Chinese traditional medicine recognition by support vector machine (SVM) terahertz spectrum[J]. Spectroscopy & Spectral Analysis,2009,29(9):2346.
[29] ZHANG J, ZHANG P, ZHUO L. Fuzzy support vector machine based on color modeling for facial complexion recognition in traditional Chinese medicine[J]. Chinese Journal of Electronics, 2016,25(3):474-480.
[30] ZHANG X, ZHANG X F, WANG B C, et al. An assessment method of tongue image quality in traditional Chinese medicine[C]//2016 9th International Congress on Image and Signal Processing, Bio Medical Engineering and Informatics (CISP-BMEI). IEEE. Datong, 2016.
[31] 吳元勝,張冰,袁娟娜,等.基于關聯(lián)規(guī)則的當代銀屑病醫(yī)案藥-癥數(shù)據(jù)挖掘分析[J].時珍國醫(yī)國藥,2012,23(11):2890-2892.
[32] 李偉霞,唐于平,尚爾鑫,等.基于人工神經(jīng)網(wǎng)絡的當歸-川芎藥對整體功效與化學物質關聯(lián)性分析[J].中國中藥雜志,2012,37(19):2935- 2942.
[33] 喬少杰,唐常杰,韓楠,等.基于模糊神經(jīng)網(wǎng)絡的方劑功效約簡算法[J].四川大學學報(工程科學版),2008,40(2):107-111.
[34] 郭永坤,章新友,劉莉萍,等.基于神經(jīng)網(wǎng)絡的中藥方劑功效預測系統(tǒng)研究[J].時珍國醫(yī)國藥,2019,30(2):493-495.
[35] 宋小莉,牛欣,司銀楚.基于BP神經(jīng)網(wǎng)絡的半夏瀉心湯及其類方配伍模型研究[J].中華中醫(yī)藥雜志,2005,20(6):383-384.
[36] SONG X L, NIU X, SI Y C, et al. Application of artificial neural network in compatibility modeling ofdecoction[J]. Chinese Clinical Pharmacology and Therapeutics,2005,10(1):104- 107.
[37] 李味味,章新友,仵倚,等.基于BP神經(jīng)網(wǎng)絡中藥復方功效的預測研究[J].中醫(yī)藥導報,2016,22(6):38-41.
[38] CHEN Z, CAO Y, HE S, et al. Development of models for classification of action between heat-clearing herbs and blood-activating stasis-resolving herbs based on theory of traditional Chinese medicine[J]. Chinese Medicine,2018,13(1):12.
[39] HU Y, WEN G, LIAO H, et al. Automatic construction of Chinese herbal prescriptions from tongue images using CNNs and auxiliary latent therapy topics[J]. IEEE Transactions on Cybernetics,2019,4:1-14.
[40] ZHANG Q, BAI C, CHEN Z, et al. Smart Chinese medicine for hypertension treatment with a deep learning model[J]. Journal of Network and Computer Applications,2019,129:1-8.
[41] LIANG Y, YIN Z, WEI B, et al. Traditional Chinese medicine clinical records classification using knowledge-powered document embedding[C]//IEEE International Conference on Bioinformatics & Biomedicine. Shenzhen,2017.
[42] SONG Z, XIE Y, HUANG W, et al. Classification of traditional Chinese medicine cases based on character-level bert and deep learning[C]//2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC). Chongqing,2019.
[43] HU Q, YU T, LI J, et al. End-to-End syndrome differentiation of Yin deficiency and Yang deficiency in traditional Chinese medicine[J]. Computer Methods and Programs in Biomedicine,2019, 174:9-15.
[44] HUO C M, ZHENG H, SU H Y, et al. Tongue shape classification integrating image preprocessing and Convolution Neural Network[C]//Intelligent Robot Systems. Wuhan,2017.
[45] 彭京,唐常杰,曾濤,等.基于神經(jīng)網(wǎng)絡和屬性距離矩陣的中藥方劑功效歸約算法[J].四川大學學報(工程科學版),2006,38(1):92-97.
[46] 王燁燃.方劑組方法則研究[D].哈爾濱:黑龍江中醫(yī)藥大學,2010.
[47] 黃欣榮,張艷朋.大數(shù)據(jù)技術與中醫(yī)現(xiàn)代化[J].中醫(yī)雜志,2014, 55(19):1621-1625.
[48] 麥藍尹,李怡萱,陳勇,等.基于數(shù)理統(tǒng)計方法學的中藥復方配伍研究進展[J].中國中藥雜志,2014,39(10):1749-1756.
[49] 竇志芳,郭蕾,張俊龍,等.將數(shù)據(jù)挖掘技術引入方證對應研究的思考[J].光明中醫(yī),2007,22(5):3-6.
Review of Application of Machine Learning in Study onTCMPrescriptions
GAO Wanqing1, CHENG Ning1, LI Lisong1, HUANG Xindi1, DING Changsong1,2
With the rapid development of information technology and popularization of big data and artificial intelligence, the research on objectification and modernization of TCM has made great progress. In order to explore the essential law of syndrome differentiation and treatment, essence law of prescription compatibility and prescription research have become an important research content of TCM inheritance and development. The key to realize intelligent diagnosis and treatment of TCM is recommend accurate and effective prescriptions according to the symptoms automatically. This article sorted out the application of machine learning in the field of prescriptions in recent years, and compared the characteristics of traditional machine learning methods and deep learning techniques such as clustering, support vector machines, association rules, and their applications in prescription research; analyzed the difficulties encountered by machine learning in the research of prescriptions and the corresponding solutions; pointed out the trend of machine learning in the research of prescriptions, and look forward to its prospects.
machine learning; TCM; prescription;objectification; intellectualization; review
R2-05
A
1005-5304(2021)06-0131-07
10.19879/j.cnki.1005-5304.202011013
國家重點研發(fā)計劃(2017YFC1703306);湖南省中醫(yī)藥科研計劃重點課題(2020002);湖南省自然科學基金(2018JJ2301);湖南省重點研發(fā)計劃(2017SK2111)
2020-11-01)
2020-11-10;編輯:華強)