陶 竹 徐梓銘 郭 艷 李 倩
(1 中國中醫(yī)科學(xué)院西苑醫(yī)院綜合科,北京,100091; 2 榆林市中醫(yī)醫(yī)院心血管科,榆林,719099)
中醫(yī)學(xué)是中華傳統(tǒng)文化傳承千年的瑰寶,將中醫(yī)學(xué)理論與實踐相結(jié)合的名老中醫(yī)經(jīng)驗是傳承中醫(yī)學(xué)的重要環(huán)節(jié),也是推動中醫(yī)學(xué)發(fā)展和加快中醫(yī)學(xué)創(chuàng)新的必然途徑[1]。但是,以院校傳承、師徒傳承、傳承工作站及書著形式等為主流傳承方式在效率及創(chuàng)新方面有一定的不足[2]。此外,諸多客觀條件及臨床效果評價標(biāo)準(zhǔn)的缺乏也是主流傳承方式亟須解決的重要問題。數(shù)據(jù)挖掘是指從海量的非有序數(shù)據(jù)中,通過算法搜索隱含在其中的信息和知識的過程[3],數(shù)據(jù)挖掘依靠軟件技術(shù)的進(jìn)步,探索名老中醫(yī)診治醫(yī)案中具有臨床價值和指導(dǎo)意義的信息。
本文通過研究近10多年數(shù)據(jù)挖掘在名老中醫(yī)經(jīng)驗傳承領(lǐng)域應(yīng)用的成果,總結(jié)分析了名老中醫(yī)經(jīng)驗的常用數(shù)據(jù)挖掘工具與分析方法的應(yīng)用現(xiàn)狀及趨勢,并嘗試從人工智能(Artificial Intelligence,AI)與中醫(yī)藥結(jié)合的角度出發(fā),為傳承與發(fā)展名老中醫(yī)經(jīng)驗提供更高效的途徑,助力中醫(yī)藥現(xiàn)代化研究。
1.1 常用數(shù)據(jù)挖掘軟件 SPSS是集數(shù)據(jù)自動處理、數(shù)據(jù)對接、數(shù)據(jù)統(tǒng)計等功能于一體的統(tǒng)計分析軟件,能進(jìn)行描述統(tǒng)計、線性模型、相關(guān)分析、回歸分析、神經(jīng)網(wǎng)絡(luò)和假設(shè)檢驗,并廣泛地應(yīng)用于學(xué)習(xí)算法、統(tǒng)計分析、文本分析以及大數(shù)據(jù)集成等場景中。在名醫(yī)經(jīng)驗中用其挖掘處方中藥物的使用頻次、配伍關(guān)系、關(guān)聯(lián)強弱及聚類特點等[4-6]。
同樣,集成了機器學(xué)習(xí)和統(tǒng)計算法的Weka軟件,其功能和SPSS重合性較高,并且能將已有的成熟處理方法應(yīng)用于新的數(shù)據(jù)集,可以通過回歸、分類、聚類、關(guān)聯(lián)規(guī)則和屬性選擇等方法來統(tǒng)計疾病各方面情況,獲得藥物與癥狀、藥物與藥物之間的相關(guān)性以及藥對配伍規(guī)則結(jié)果[7-9]。
與SPSS、Weka比起來,R和Python這2種編程語言,在時間序列分析、聚類,以及線性與非線性建模等統(tǒng)計分析場景中,被用作數(shù)據(jù)分析的圖形化工具,在提高中醫(yī)醫(yī)案數(shù)據(jù)挖掘的工作效率方面具有可視化的獨特優(yōu)勢,但學(xué)習(xí)成本較高,研究者需要在編譯環(huán)境下,通過引用Pandas、Numpy、Matplotlib等基礎(chǔ)庫,構(gòu)建可視化數(shù)據(jù)挖掘平臺,再進(jìn)行統(tǒng)計分析,并將結(jié)果可視化展示出來[10-11]。
1.2 常用數(shù)據(jù)挖掘平臺 中醫(yī)傳承輔助系統(tǒng)(Traditional Chinese Medicine Inheritance Support System,TCMISS)是集“數(shù)據(jù)錄入-數(shù)據(jù)管理-數(shù)據(jù)查詢-數(shù)據(jù)分析-分析結(jié)果輸出-網(wǎng)絡(luò)可視化展示”等功能于一體的中醫(yī)傳承輔助平臺,不僅可以采取頻次統(tǒng)計、聚類分析等方法對處方進(jìn)行深入挖掘,獲取高頻用藥、組方規(guī)律和核心處方,還具備方劑信息分析和藥對分析的關(guān)鍵功能,并在此基礎(chǔ)上實現(xiàn)基于復(fù)雜系統(tǒng)熵聚類的藥物組合分析和基于無監(jiān)督的熵層次聚類的新方分析[12-14]。
與之類似的還有古今醫(yī)案云平臺和中醫(yī)傳承計算平臺(Traditional Chinese Medicine Inheritance Computing System,TCMICS),古今醫(yī)案云平臺突出醫(yī)案數(shù)據(jù)管理,在十多年中醫(yī)醫(yī)案研究及數(shù)據(jù)積累的基礎(chǔ)上集成醫(yī)案研究分析方法及大數(shù)據(jù)、云計算等應(yīng)用模式,可檢索海量醫(yī)案及方劑,再進(jìn)行數(shù)據(jù)挖掘與分析[15-16]。TCMICS的統(tǒng)計分析功能涉及疾病的證候、治則治法、性別以及方劑中的中藥四氣五味、歸經(jīng)功效等,常用的方劑分析功能主要用于醫(yī)案處方中的藥物頻次、關(guān)聯(lián)規(guī)則、聚類分析、用量統(tǒng)計,分析出高頻中藥與藥物基本屬性,并探索常用藥物組合、提煉核心處方等[17-19]。
上述平臺通過客觀指標(biāo)和網(wǎng)絡(luò)化展示,縱向挖掘方劑配伍規(guī)律與名老中醫(yī)用藥經(jīng)驗,加上操作的簡便性,被用作名老中醫(yī)學(xué)術(shù)思想和經(jīng)驗傳承的重要工具。中醫(yī)類數(shù)據(jù)平臺發(fā)展到現(xiàn)在,已具備基本的統(tǒng)計和挖掘功能,數(shù)據(jù)挖掘系統(tǒng)的算法也在不斷發(fā)展和完善,大多算法互不排斥并能根據(jù)研究目的靈活組合[20],這意味著數(shù)據(jù)平臺功能的開發(fā)還有著許多可能。
2.1 相關(guān)性分析 相關(guān)性分析可以針對數(shù)據(jù)進(jìn)行數(shù)量統(tǒng)計、規(guī)律挖掘、分類比較、變量分析等。例如頻數(shù)分析是對總數(shù)據(jù)按某種標(biāo)準(zhǔn)進(jìn)行分組,統(tǒng)計出各個組內(nèi)含有個體的個數(shù),通常用于分析中藥的頻數(shù)、高頻中藥的性味歸經(jīng)、常用選方等[21-22]。關(guān)聯(lián)規(guī)則是從大量數(shù)據(jù)中發(fā)現(xiàn)滿足一定條件的項集之間隱藏的關(guān)聯(lián)[23],可以分析藥癥關(guān)系與藥物間配伍,或者挖掘疾病與癥狀、證候、中藥的潛在規(guī)律[24-25]。聚類分析則直接比較樣本中各事物的性質(zhì),用以挖掘醫(yī)案中蘊含的癥狀組合、病機組合、藥物配伍以及核心藥物等[26-27]。因子分析可以解釋原始指標(biāo)之間的相關(guān)性或方差關(guān)系,對確定的變量例如癥狀、脈象等通過主成分分析法進(jìn)行處理得出各公因子的方差,來解釋變量是否可靠[28-29];人工神經(jīng)網(wǎng)絡(luò)是模擬人腦工作機制的一種計算模型,類似于人腦神經(jīng)網(wǎng)絡(luò)的并行處理結(jié)構(gòu),可用于疾病證候的對比預(yù)測分析[30]。
2.2 預(yù)測性分析 預(yù)測性分析可以通過相關(guān)模型對數(shù)據(jù)進(jìn)行分類、展示與預(yù)測,貝葉斯網(wǎng)絡(luò)可以定性地展示因素間的復(fù)雜關(guān)系,定量地展示關(guān)系間強度,例如對癥狀-證素信息做分類識別[31];決策樹主要解決實際應(yīng)用中的分類問題,它是根和每個內(nèi)部結(jié)點都被標(biāo)記為一個問題的樹,從每個結(jié)點引出的弧代表與該結(jié)點相關(guān)聯(lián)的問題的可能答案,每個葉結(jié)點代表對問題解決方案的一個預(yù)測[32-33];支持向量機則基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到一個分類模型,可對未知數(shù)據(jù)作預(yù)測[34]。
3.1 醫(yī)案數(shù)據(jù)不規(guī)范 中醫(yī)醫(yī)案在進(jìn)行數(shù)據(jù)錄入時往往只錄入典型癥狀,缺乏四診資料,加上信息缺失、歧義多義、表述含糊等諸多問題,不僅影響中醫(yī)數(shù)據(jù)的采集和管理,更影響信息平臺的數(shù)據(jù)交互,所以醫(yī)案信息規(guī)范化是數(shù)據(jù)挖掘的第一步,為了體現(xiàn)辨證論治和因人制宜,在撰寫醫(yī)案和臨床病例時可以根據(jù)2013年制定的病例報告指南報告清單及楊紅等制定的中醫(yī)病例報告建議條目來進(jìn)行完善[35],病例報告的用詞也要有統(tǒng)一的規(guī)范標(biāo)準(zhǔn),例如使用淡紅舌、薄白苔、脈細(xì)等中醫(yī)診斷術(shù)語,在今后的診療中形成相應(yīng)的參考標(biāo)準(zhǔn)[36]。此外,電子病歷的結(jié)構(gòu)化管理可以大幅提高數(shù)據(jù)挖掘的效率,建設(shè)符合中國特點的臨床數(shù)據(jù)中心(Clinical Data Repository,CDR)和符合中國國情的臨床集成平臺[37],將醫(yī)院現(xiàn)有各臨床信息系統(tǒng)產(chǎn)生的相關(guān)信息,即時采集并轉(zhuǎn)換為國際和國家標(biāo)準(zhǔn)的信息存于CDR,同時完善智能分析模型和檢索引擎,實現(xiàn)病歷數(shù)據(jù)的實時、智能、全過程管理[38]。
3.2 挖掘信息不全面 多數(shù)研究僅針對常見證型中的藥物處方進(jìn)行統(tǒng)計分析,得出的藥對與處方規(guī)律太過淺顯,或只能體現(xiàn)處方的精要部分,難以全面概括用藥規(guī)律尤其是君臣佐使的配伍關(guān)系,不利于遣方用藥的化裁與處理;或者只對病例中的主要證型與主癥進(jìn)行分析,忽略次要癥狀和罕見證型,無法體現(xiàn)中醫(yī)辨證論治特色,不能全面真實地反映和傳承名老中醫(yī)學(xué)術(shù)經(jīng)驗,對臨床實踐和學(xué)習(xí)的指導(dǎo)意義十分有限。數(shù)據(jù)挖掘應(yīng)該是在海量數(shù)據(jù)中提取核心規(guī)律和深層次信息,例如在收集并錄入完整詳備的醫(yī)案信息后,不僅要對藥物進(jìn)行分析,還應(yīng)該補充分析各個綜合征與藥物的關(guān)系。
3.3 臨床實用仍欠缺 很多研究僅選取初診信息進(jìn)行研究,缺乏后續(xù)療效和隨訪內(nèi)容,加上“人機結(jié)合,以人為主”數(shù)據(jù)挖掘的結(jié)果不能完全反映名老中醫(yī)的思想,對于研究結(jié)果的解讀仍需要中醫(yī)思維、中醫(yī)理論支持,這恰恰是機器解讀缺乏的,所以挖掘結(jié)果的臨床可靠性和有效性還需大量統(tǒng)計驗證??梢蚤_發(fā)出規(guī)范的專家診療系統(tǒng),將疾病信息錄入后,分別生成多位名醫(yī)的經(jīng)驗處方,臨床工作者和學(xué)術(shù)研究者既能對處方的安全性和實用性進(jìn)行判定,又能參考和借鑒。
AI即模擬人類智能完成任務(wù),實現(xiàn)AI最常用的機器學(xué)習(xí)方法大致分為傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)2類[39],目前大部分中醫(yī)藥數(shù)據(jù)挖掘仍停留在傳統(tǒng)機器學(xué)習(xí)階段,而中醫(yī)辨證論治體系對智能化有較高的要求,因為中醫(yī)診療步驟是觀察癥狀、決定病因、商討治法和處方用藥,任何疾病沒有辨明癥狀之前都無法確定治法,更談不上處方用藥[40],因此,進(jìn)一步促成“AI+中醫(yī)藥”的融合互補成為趨勢,結(jié)合目前AI在西醫(yī)學(xué)領(lǐng)域的廣泛應(yīng)用,可以為名老中醫(yī)經(jīng)驗的學(xué)習(xí)與傳承提供有價值的參考并進(jìn)行展望。
4.1 疾病早期診斷與評估 大多數(shù)慢性疾病的發(fā)病過程非常隱匿,當(dāng)出現(xiàn)明顯的臨床癥狀時往往已經(jīng)錯過最佳治療階段,由此不難見得疾病早期診斷的重要性。醫(yī)學(xué)影像檢查作為疾病診斷最重要的輔助工具之一,其與AI的結(jié)合應(yīng)用較為廣泛,如利用堆棧去噪自編碼器(Stacked Denoising Autoencoder,SDAE)架構(gòu)的自動特征探索機制和噪聲容忍度優(yōu)勢,通過大量圖像訓(xùn)練識別病灶以區(qū)分良性結(jié)節(jié)與惡性結(jié)節(jié),以及乳腺超聲病變和肺CT結(jié)節(jié)[41]。類似的還有人工智能內(nèi)鏡超聲(Endoscopic Ultrasound-AI,EUS-AI),它能通過大量圖像訓(xùn)練以識別病灶,無侵入性且安全,還能自動進(jìn)行相應(yīng)的診斷,有望降低出血、感染等風(fēng)險[42]。對于復(fù)雜的神經(jīng)退行性疾病,捕捉身體的微弱異常信號是早期診斷與評估的新思路,AI可以通過無線電信號反射從環(huán)境中捕捉特定的呼吸信號來進(jìn)行識別和預(yù)測帕金森病[43]。
在名老中醫(yī)經(jīng)驗學(xué)習(xí)領(lǐng)域也可以通過四診信息AI模型來進(jìn)行疾病的鑒別和診療,紅外感應(yīng)系統(tǒng)、圖像收集系統(tǒng)和可穿戴設(shè)備技術(shù)愈發(fā)成熟使得四診信息的自動化采集更加可行,將主觀化的問診數(shù)據(jù)變成可量化的機器采集,通過分析得到標(biāo)準(zhǔn)化高質(zhì)量的四診數(shù)據(jù)[44-48],結(jié)合名醫(yī)醫(yī)案數(shù)據(jù)庫,提取適配度最高的臨床處方,再設(shè)定臨床療效指標(biāo),對擬出的新方做療效驗證。從更全面、更深層次探究名醫(yī)的臨床經(jīng)驗并智能化傳承,挖掘出超越個體的優(yōu)秀群體經(jīng)驗。
4.2 疾病的治療策略 在制定和改善疾病的治療策略上主要有兩代AI系統(tǒng),第一代系統(tǒng)旨在促進(jìn)醫(yī)學(xué)的4P模型:預(yù)測性、預(yù)防性、個性化性和參與性,提供患者的自主權(quán)[49],主要關(guān)注大數(shù)據(jù)分析的臨床決策,以及開發(fā)診斷和治療的算法,提高療效,減少醫(yī)療錯誤。有研究者在2個大型的重癥監(jiān)護(hù)室(ICU)數(shù)據(jù)庫的基礎(chǔ)上,開發(fā)了一個名為AI clincian的計算模型來模擬患者的治療環(huán)境和運動軌跡,該模型可以動態(tài)分析所有處方和計算每個治療方案的平均回報,最終確定最大回報的治療方法[50]。
但是大型數(shù)據(jù)庫有時缺乏長期穩(wěn)定的結(jié)構(gòu)良好的訓(xùn)練集,容易得到錯誤的相關(guān)性,因此采用率也較低。第二代系統(tǒng)預(yù)計將增加“進(jìn)展”這一概念[51],因為無論是生物還是疾病發(fā)展都是動態(tài)變化的過程,專注于改善生物過程,而不是通過分析數(shù)據(jù)來幫助診斷、預(yù)測或治療。該系統(tǒng)分為3個層次,第一層次提供的程序可以錄入藥物和非藥物干預(yù)處方,例如護(hù)理人員被要求在程序中輸入每種藥物的劑量和給藥時間,該程序中的隨機數(shù)發(fā)生器會在批準(zhǔn)的范圍內(nèi)引入劑量和時間的可變性[52];第二層次則是一個閉環(huán)系統(tǒng),根據(jù)第一層患者對治療的反應(yīng)來調(diào)整劑量和給藥時間的可變范圍,該系統(tǒng)將學(xué)習(xí)每個患者的動態(tài)信息,并全部導(dǎo)入算法,最終形成基于醫(yī)生確定的且對臨床有意義的療效參數(shù)及個人參數(shù);第三層次將疾病相關(guān)的變異性特征被納入治療算法,例如心率變異性可用于慢性心臟病患者[53],該算法可以不斷進(jìn)行比較和輸入,為患者選擇合適的動態(tài)定制模式。
兩代AI系統(tǒng)的進(jìn)步為中醫(yī)學(xué)提供了更多實踐可能,尤其是第二代AI系統(tǒng)將單個患者作為算法的中心,并及時調(diào)整其動態(tài)數(shù)據(jù)輸入與輸出的機制[54]。相當(dāng)于把西醫(yī)提出的精準(zhǔn)醫(yī)學(xué)和中醫(yī)整體觀念指導(dǎo)下的辨證論治有效結(jié)合,通過長期收集某例患者的各方面數(shù)據(jù),包括個人信息、疾病進(jìn)展、診療經(jīng)過以及環(huán)境、飲食等外部因素,形成個性化AI模型,不僅可以評估身體狀況和治療方案的動態(tài)變化,還能預(yù)測疾病的發(fā)生,但考慮到這種基于自身的數(shù)據(jù)模型存在局限性,可能無法預(yù)測未患過的疾病,所以慢性病人群將是首要的適用人群。以心血管疾病患者的治療為例,通過大量自身數(shù)據(jù)集訓(xùn)練出的個性化AI模型可以評估名老中醫(yī)處方運用于心血管疾病患者的臨床療效,根據(jù)疾病和個體內(nèi)外環(huán)境的變化,不斷優(yōu)化適用于該患者的中醫(yī)處方,實現(xiàn)診療系統(tǒng)的動態(tài)追蹤,還能預(yù)測疾病的進(jìn)展與風(fēng)險,醫(yī)患雙方配合共同做好疾病的預(yù)防和預(yù)后工作。在這種動態(tài)調(diào)整中,由于AI不具備人腦的慣性思維,如果長期錄入大量規(guī)范數(shù)據(jù)并進(jìn)行追蹤,AI有可能分析出比醫(yī)生本人更深層、更全面的診療方法,由此類推,不僅能訓(xùn)練出針對患有某種疾病的個體AI模型,還能形成針對醫(yī)家特色思想、疾病證型發(fā)展、同病不同醫(yī)家、同人多病等多種模型。
4.3 醫(yī)療資源的管理 除了利用AI解決特定的醫(yī)療問題之外,醫(yī)療資源的協(xié)調(diào)與管理也不容忽視,線上平臺的建立是AI的又一突破口,有研究者創(chuàng)建了線上的罕見病AI平臺[55],并提出了一個多醫(yī)院協(xié)作的操作機制。當(dāng)患者來到合作的醫(yī)院進(jìn)行評估時,會在本人許可的情況下收集他們的人口統(tǒng)計信息、臨床數(shù)據(jù)和聯(lián)系信息,并立即發(fā)送到該平臺。AI通過網(wǎng)絡(luò)提供全面評估,并將所獲得的信息保存在數(shù)據(jù)庫中,當(dāng)網(wǎng)絡(luò)評估的結(jié)果為“手術(shù)”時,就會通過系統(tǒng)觸發(fā)緊急通知醫(yī)生進(jìn)行確認(rèn),同時患者也會被告知全面檢查的流程。此外,醫(yī)生還可以根據(jù)平臺評估的結(jié)果,按輕重緩急查看病例,提高診療效率的同時又能協(xié)調(diào)醫(yī)療資源。
資源配置不合理、地理位置的局限、數(shù)據(jù)格式不兼容等同樣是名老中醫(yī)經(jīng)驗學(xué)習(xí)與傳承面臨的重大考驗[56],所以建立起一個針對醫(yī)療工作者和患者的廣泛協(xié)作的“線上醫(yī)院”是推廣名醫(yī)經(jīng)驗、發(fā)揚中醫(yī)文化的新途徑,重點是多醫(yī)院協(xié)作,包括綜合類醫(yī)院和??漆t(yī)院,各地區(qū)的合作醫(yī)院共用一個數(shù)據(jù)庫,將各醫(yī)院名老中醫(yī)的完整病案上傳,通過AI進(jìn)行歸類和分析,達(dá)到醫(yī)療資源的匯總和再分配。中醫(yī)學(xué)子和中醫(yī)臨床醫(yī)生可以通過查詢某類疾病或者證型得到相應(yīng)名老中醫(yī)的處方并進(jìn)行自動智能化分析,不僅有利于名老中醫(yī)經(jīng)驗的推廣還可以為臨床醫(yī)生提供指導(dǎo)。對于患者來說,輸入自己的詳細(xì)信息即可以獲得名老中醫(yī)的智能化處方,并通過“線上醫(yī)院”發(fā)送給??漆t(yī)生進(jìn)行審核,既能解決醫(yī)療資源的分散性,為醫(yī)療資源匱乏地區(qū)的患者提供醫(yī)療幫助,又能收集來自全國各地的醫(yī)療數(shù)據(jù)以不斷豐富AI模型的深度學(xué)習(xí),創(chuàng)建出真正適用于中醫(yī)真實世界的平臺。
綜上所述,在信息化時代下,無論是數(shù)據(jù)挖掘工具還是分析方法都已取得了長足進(jìn)步,為中醫(yī)藥數(shù)據(jù)分析提供了更豐富的途徑與手段。但不可否認(rèn),數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用尚有一定的局限,無論哪種分析方法都是對現(xiàn)有數(shù)據(jù)進(jìn)行統(tǒng)計和深度挖掘,并且需要人為進(jìn)行歸納總結(jié),但智能化的挖掘工具應(yīng)當(dāng)具備輸入和輸出2種能力。西醫(yī)學(xué)的AI分析方法在疾病早期診斷與評估、疾病的治療策略與醫(yī)療資源管理這幾個方面使用效果突出,不僅可以提供更快更準(zhǔn)確的診斷、指導(dǎo)個性化治療、進(jìn)行風(fēng)險預(yù)測,還能根據(jù)疾病的嚴(yán)重程度進(jìn)行分級,減少醫(yī)療錯誤,協(xié)助醫(yī)生進(jìn)行臨床診治與評估,優(yōu)化醫(yī)療軌跡,提高醫(yī)療效率和質(zhì)量,并節(jié)省醫(yī)療成本,可以為中醫(yī)藥領(lǐng)域尤其是名老中醫(yī)經(jīng)驗的學(xué)習(xí)與傳承提供有價值的參考。
中醫(yī)數(shù)據(jù)無疑是一個巨大寶庫,名醫(yī)經(jīng)驗更是中醫(yī)系統(tǒng)中的典范,集理論和經(jīng)驗于一身,代表著中醫(yī)治療的最高水平,數(shù)據(jù)挖掘技術(shù)應(yīng)用于中醫(yī)領(lǐng)域已有多年,在名醫(yī)經(jīng)驗的總結(jié)和傳承中發(fā)揮著重要的作用,隨著計算機技術(shù)的快速發(fā)展,AI蓬勃興起,不斷在中醫(yī)藥領(lǐng)域的科技創(chuàng)新中嶄露頭角,其運用于名醫(yī)經(jīng)驗傳承是必然趨勢,我們需要不斷促進(jìn)高質(zhì)量的中醫(yī)庫大數(shù)據(jù)與AI模型高水平的融合,打造出名老中醫(yī)經(jīng)驗學(xué)習(xí)與傳承的智能平臺。