楊濤,朱學芳
(1.南京大學信息管理學院,江蘇 南京 210023;2.南京中醫(yī)藥大學人工智能與信息技術學院,江蘇 南京 210023)
證是中醫(yī)學特有的概念,是對疾病過程中所處特定階段的病位、病性、病因以及病勢等所作出的病理性概括。辨證是在中醫(yī)學的理論指導下,對病人的各種臨床資料進行綜合分析,從而對疾病當前的病位與病性等本質做出判斷,并概括為完整證名的思維過程[1]。辨證是中醫(yī)臨床立法、處方、用藥的前提和基礎,辨證準確與否直接影響著臨床療效[2]。近半個世紀以來,眾多學者在辨證規(guī)范化、數(shù)字化和智能化方面進行了深入的探索,為中醫(yī)辨證智能化發(fā)展做出了重要貢獻[3-7]。近年來,隨著人工智能新技術的飛速發(fā)展,中醫(yī)辨證智能化迎來了新的機遇與挑戰(zhàn)。鑒于此,本文就中醫(yī)辨證智能化研究現(xiàn)狀及發(fā)展趨勢進行總結和探討,以期為中醫(yī)辨證的數(shù)字化和智能化發(fā)展提供借鑒。
在信息技術(特別是人工智能)飛速發(fā)展的背景下,多方面因素共同促成中醫(yī)辨證走上數(shù)字化和智能化的發(fā)展道路,這其中既有中醫(yī)發(fā)展本身的要求,也有科技發(fā)展的客觀因素。
中醫(yī)辨證主要依賴臨床專家的感官采集患者的四診信息,并在中醫(yī)理論指導下進行分析和判斷,因而受到較多主觀因素的影響;加上不同醫(yī)家學術流派、知識結構和臨證經(jīng)驗等存在差異,導致臨床上常會出現(xiàn)辨證不準、辨證不一等問題。而統(tǒng)一規(guī)范的中醫(yī)辨證模式是中醫(yī)辨證智能化的基礎,也是中醫(yī)現(xiàn)代化發(fā)展的重要內(nèi)容之一。借助信息技術建立標準化的四診采集和分析系統(tǒng),有望實現(xiàn)中醫(yī)辨證的規(guī)范化和標準化。
名老中醫(yī)是中醫(yī)界的楷模,具有較高的理論水平和豐富的實踐經(jīng)驗,代表著中醫(yī)藥學術和臨床研究的最高水平。然而,名老中醫(yī)的成長周期漫長,供需嚴重失衡。學習、總結和傳承名老中醫(yī)經(jīng)驗成為中醫(yī)傳承與發(fā)展的重要課題。借助人工智能技術,將名老中醫(yī)的經(jīng)驗進行數(shù)據(jù)化存儲、分析和利用,構建名老中醫(yī)專家系統(tǒng),可以有效解決名老中醫(yī)經(jīng)驗傳承問題。
隨著1956年達特茅斯會議開啟人工智能元年,人類進入了人工智能新時代。各個學科走上了數(shù)字化和智能化探索之路。美國斯坦福大學在1976年成功研制了用于鑒別細菌感染及治療的醫(yī)學專家系統(tǒng)MYCIN[8],開啟了醫(yī)學專家系統(tǒng)研究的序幕。國內(nèi)也于1978年開始中醫(yī)專家系統(tǒng)的研制,之后各種專家系統(tǒng)如雨后春筍般出現(xiàn)[9]。隨著信息化的發(fā)展,中醫(yī)臨床大數(shù)據(jù)也呈指數(shù)級增長,海量的數(shù)據(jù)推動了中醫(yī)智能化朝著以數(shù)據(jù)為驅動的新方向發(fā)展。在國家中醫(yī)藥發(fā)展政策的大力支持下,現(xiàn)代科技的大力推動下,中醫(yī)現(xiàn)代化發(fā)展的迫切需求下,中醫(yī)辨證的智能化發(fā)展迎來了前所未有的機遇。
中醫(yī)辨證是一個復雜的思維過程,臨床信息與證候之間存在復雜的映射關系[10]。建立科學、精準的中醫(yī)辨證模型一直是中醫(yī)診斷領域探索的目標之一。眾多專家學者圍繞中醫(yī)辨證問題進行了研究,提出了形式多樣的中醫(yī)辨證數(shù)學模型和知識表達方法,包括邏輯符號推理、模糊邏輯運算、數(shù)理統(tǒng)計、案例推理、機器學習等[11-15]??v觀整個中醫(yī)辨證智能化發(fā)展脈絡,可以將研究方法籠統(tǒng)地歸納為知識工程、數(shù)理統(tǒng)計、機器學習和深度學習四大類。
1978年國內(nèi)掀起了中醫(yī)專家系統(tǒng)的研究熱潮。通過總結名老中醫(yī)專家的診療知識,利用邏輯符號語言將其表示為產(chǎn)生式規(guī)則,形成知識庫;利用前向推理、反向推理等策略,實現(xiàn)中醫(yī)知識的推理和決策,進而模擬中醫(yī)專家思維,實現(xiàn)自動化診療。其中比較有代表性的有關幼波診療肝病計算機程序、鄒云翔中醫(yī)腎病計算機診療系統(tǒng)、姚貞白婦科專家診療系統(tǒng)等[16-18]。利用知識工程方法構建中醫(yī)辨證模型推理邏輯清晰,容易被中醫(yī)專家認可。然而,將中醫(yī)知識抽象成規(guī)則是一項復雜的工作,經(jīng)常出現(xiàn)規(guī)則不準、規(guī)則不全等問題;此外,當規(guī)則較多、推理鏈較長時,容易出現(xiàn)前后矛盾的推理,甚至循環(huán)推理等問題[16]。隨著科學技術的發(fā)展,知識圖譜成為知識工程新的研究熱點,利用知識抽取、融合、推理等技術,構造較為完善的中醫(yī)辨證知識圖譜,有望實現(xiàn)更為科學的中醫(yī)智能辨證。
利用加權求和、判別分析、回歸分析等模型構建中醫(yī)辨證模型。這類方法的特點是利用較為簡單的函數(shù)或者方程模擬中醫(yī)辨證。例如,朱文鋒教授自主設計“雙層頻權剪叉算法”和“加權求和浮動閾值運算”數(shù)學模型,成功研制了“文鋒”系列中醫(yī)輔助診療系統(tǒng)[2]。曾聃等利用逐步判別分析法對224例肝病患者的127個指標進行了建模,判別正確率達84.38%[19]。張啟明應用Logistic回歸分析分別對心病、肺病等進行了建模,實現(xiàn)了上述疾病的辨證分型[20-21]。數(shù)理統(tǒng)計方法簡單易用,在單一病證上尚可以達到較好的效果,但難以有效模擬非線性復雜病證的映射關系。
隨著信息化的飛速發(fā)展,數(shù)據(jù)呈指數(shù)級的增長,海量數(shù)據(jù)為人工智能的發(fā)展帶來前所未有的數(shù)據(jù)紅利。以數(shù)據(jù)為基礎的機器學習方法逐漸成為人工智能研究的主流方向之一。在中醫(yī)診斷領域,機器學習方法也被廣泛地借鑒和應用,中醫(yī)智能辨證研究也進入了數(shù)據(jù)驅動的時代,出現(xiàn)了一大批研究成果。丁亮等[22]利用深度神經(jīng)網(wǎng)絡對976例原發(fā)性肝癌病例進行建模,成功建立了原發(fā)性肝癌證型診斷分類模型,診斷準確率達82.8%。蘇翀等[23]利用決策樹算法對230例慢性阻塞性肺病患者數(shù)據(jù)進行建模,建立了慢性阻塞性肺病辨證模型,診斷準確率超過90%。Xia等[24]利用多標記K近鄰算法(ML-KNN)對767例臨床病例進行建模,成功建立了代謝綜合征的辨證模型。這類方法大多針對單一疾病構建證候分類模型,將復雜的辨證問題轉化為幾個基本證型的分類問題,難以應對臨床復雜的多病證兼夾診斷問題,臨床適用性不強。
廣義上講,深度學習屬于特殊的機器學習,但其與傳統(tǒng)以特征工程為基礎的機器學習又有著本質區(qū)別。其強大的自主特征學習和表示能力使其成為人工智能領域的新熱點。Pang等[25]將深度神經(jīng)網(wǎng)絡與注意力機制相結合,對10 910例艾滋病數(shù)據(jù)集進行了辨證模型構建,準確率達87.6%,表現(xiàn)優(yōu)于其他模型。Liu等[26]將RCNN、Text-HAN等多種深度學習模型應用于1 206例肺癌患者的辨證分型,最優(yōu)的模型F1值達到88.84%。深度學習模型構建需要大量的訓練樣本,數(shù)據(jù)的規(guī)模和質量影響著模型效果。此外,隨著網(wǎng)絡層數(shù)的增加,模型結構越發(fā)復雜,其可解釋性也越來越差。醫(yī)學診斷希望有較強的規(guī)律性和可解釋性,其黑箱特性也制約了其在醫(yī)療領域的應用。在深度學習領域,也有學者開始關注模型的解釋性研究,取得了一些成果,隨著研究的深入,有望在未來解決深度學習模型的解釋問題。
中醫(yī)辨證智能化離不開統(tǒng)一規(guī)范的辨證理論支撐。歷代醫(yī)家提出了多種辨證方法,它們相互交織、互為補充,共同指導著中醫(yī)臨床實踐。而如何有效地甄別選用辨證方法?如何讓辨證結果規(guī)范統(tǒng)一?如何讓辨證可量化、可重復?這些問題嚴重阻礙了中醫(yī)辨證的智能化發(fā)展。誠然,圍繞某一學術流派或者專家構建智能辨證系統(tǒng)也有其生命力,但從中醫(yī)現(xiàn)代化和國際化發(fā)展的角度而言,圍繞統(tǒng)一規(guī)范的中醫(yī)辨證理論體系構建智能辨證系統(tǒng),對中醫(yī)的發(fā)展更有裨益。
因此,應當對中醫(yī)辨證進行深入研究,在繼承以往辨證經(jīng)驗的基礎上,充分考慮辨證的靈活性和規(guī)范性,以及證的層次性和結構性,實現(xiàn)辨證的規(guī)范化和標準化。在這一方面,眾多學者做出了杰出工作。例如,朱文鋒教授提出“證素辨證學”[2],采用“根據(jù)證候、辨別證素、組成證名”的辨證原則,系統(tǒng)總結了常見證素及其組合規(guī)律,實現(xiàn)了辨證的規(guī)范。周仲瑛教授提出“病機病證學”[27],總結了病機十三條,建立了病機辨證網(wǎng)絡及其交叉復合關系,執(zhí)簡馭繁的指導臨床辨證。吳承玉教授提出“藏象辨證學”[28],以五臟系統(tǒng)為病位核心,按病性分類立證,采用單一病性和病位組成基礎證,再由基礎證組成臨床上復雜的證型,實現(xiàn)了辨證的靈活和規(guī)范。
當前,人工智能發(fā)展進入了以數(shù)據(jù)為基礎的智能時代,模型訓練依賴大樣本標記數(shù)據(jù)的學習,海量優(yōu)質的標準數(shù)據(jù)集對智能辨證模型構建顯得尤為關鍵。然而,由于客觀化的四診信息采集普及程度不高,中醫(yī)標準規(guī)范的缺位,以及臨床數(shù)據(jù)隱私保護等多方面原因,導致中醫(yī)領域難以形成大型的標準數(shù)據(jù)集,特別是涵蓋四診客觀化數(shù)據(jù)的標準數(shù)據(jù)集。
因此,要進一步普及四診采集設備,最大限度地采集客觀化數(shù)據(jù);建立、健全中醫(yī)數(shù)據(jù)采集、存儲、分析、利用、保護等相關規(guī)范和標準,加強規(guī)范和標準的執(zhí)行和落地;依托國家和省級中醫(yī)藥數(shù)據(jù)中心,構建統(tǒng)一規(guī)范的中醫(yī)標準數(shù)據(jù)集,為智能辨證模型構建提供優(yōu)質訓練數(shù)據(jù)。當前,以中國中醫(yī)科學院為代表的研究機構已經(jīng)開始嘗試建立中醫(yī)藥知識圖譜、中醫(yī)古籍數(shù)據(jù)平臺、中醫(yī)臨床大數(shù)據(jù)平臺等[29-31],為今后統(tǒng)一規(guī)范的中醫(yī)標準數(shù)據(jù)集建立奠定了基礎。
中醫(yī)智能辨證模型的構建大多直接應用較為成熟的人工智能方法。然而,無論是知識工程、數(shù)理統(tǒng)計、機器學習還是深度學習等方法都存在各自的局限性。知識工程難以解決推理鏈過長導致的矛盾推理和循環(huán)推理問題;數(shù)理統(tǒng)計難以有效模擬中醫(yī)辨證非線性的復雜映射關系;機器學習過分依賴大樣本高質量的標注數(shù)據(jù);深度學習的數(shù)據(jù)依賴性和可解釋性也受到行業(yè)詬病。
因此,要充分認識到不同分析方法的優(yōu)缺點,根據(jù)具體問題和數(shù)據(jù)特點,選擇合適的方法;此外,可以嘗試將多種方法融合起來建模,取長補短,實現(xiàn)更為精準的辨證;最后,要根據(jù)中醫(yī)辨證思維特點(如病證結合、從癥辨證等),設計符合中醫(yī)辨證理論的智能辨證數(shù)學模型,兼顧模型的準確性和可解釋性,更好地模擬中醫(yī)辨證思維,服務中醫(yī)臨床。
中醫(yī)辨證智能化需要以統(tǒng)一規(guī)范的中醫(yī)理論為指導,設計相應的數(shù)學模型,切實處理好先驗知識和臨床數(shù)據(jù)之間的關系,實現(xiàn)符合中醫(yī)“以象測藏,從癥辨證”思維的中醫(yī)辨證模型,實現(xiàn)真正意義上的類腦計算和認知智能。
多模態(tài)是指兩種以上的來源或者形式的數(shù)據(jù),例如四診通過觸覺、聽覺、視覺、嗅覺采集的不同類型的數(shù)據(jù)(圖像、文本、聲音、視頻等)[32]。當前,多模態(tài)機器學習已經(jīng)成為人工智能領域的熱點之一,旨在通過機器學習的方法實現(xiàn)處理和理解多源模態(tài)信息的能力。目前比較熱門的研究方向是圖像、視頻、音頻、語義之間的多模態(tài)學習[33]。眾所周知,中醫(yī)辨證講求望聞問切、四診合參,這一過程產(chǎn)生多模態(tài)數(shù)據(jù),將這些數(shù)據(jù)融合建模,將有效提升中醫(yī)辨證的客觀性和準確性。然而,傳統(tǒng)的中醫(yī)智能辨證模型大多基于病案數(shù)據(jù)資料進行建模,其四診數(shù)據(jù)均為醫(yī)生的主觀記錄,缺乏客觀數(shù)據(jù)的支撐。隨著數(shù)據(jù)采集技術的發(fā)展,通過舌象儀、脈診儀等設備,可以有效采集患者的四診信息,通過多模態(tài)機器學習,將多模態(tài)數(shù)據(jù)進行融合,利用多模態(tài)之間的互補性,剔除模態(tài)間的冗余性,從而學習到更好的特征表示,進而達到更為客觀、精準的中醫(yī)辨證。
中醫(yī)辨證是一個復雜的思維過程,既有依據(jù)中醫(yī)辨證先驗知識的邏輯推理,也有基于臨床大量醫(yī)案的歸納演繹。如何有效地利用中醫(yī)辨證的先驗知識,實現(xiàn)知識增強的中醫(yī)智能辨證已成為下一階段中醫(yī)辨證智能化研究的重要方向。當前,以深度學習為基礎的知識表示學習已經(jīng)開始應用到機器翻譯、智能問答等領域,取得了令人矚目的成績。將該技術遷移到中醫(yī)領域,從中醫(yī)典籍中整理出中醫(yī)知識,利用表示學習技術將先驗知識表示到低維稠密向量,將其與大樣本臨床數(shù)據(jù)一道進行訓練,實現(xiàn)歸一化的語義表示和多尺度知識融合,進而達到知識和數(shù)據(jù)的交互增強,實現(xiàn)更為精準和智能的中醫(yī)辨證。
傳統(tǒng)的中醫(yī)智能辨證應用只有單個模型進行辨證,模型準確率往往不高。將多個決策模型進行融合,采用類似專家會診的模式,可以大大增強辨證的準確性。從技術角度而言,可以從數(shù)據(jù)層面、特征層面、模型層面等進行模型設計。例如,在數(shù)據(jù)層面可以采用集成學習的思想,對數(shù)據(jù)進行多次采樣建模,前一個模型的殘差作為后一個模型的輸入,實現(xiàn)協(xié)同決策;在特征層面,可以分別抽取望、聞、問、切相關特征,將這些特征融合后進行建模和決策;在模型層面,可以利用不同的數(shù)據(jù)抽樣規(guī)則,或者不同的算法構建決策模型,之后采用加權投票的方式進行模型協(xié)同決策,提高辨證的準確率。
中醫(yī)臨床診療是醫(yī)患之間的交互問答過程。這種交互極具針對性和目的性。隨著語音識別、文語轉換、腦機接口等技術的發(fā)展,圍繞中醫(yī)診療場景,可以建立智能辨證程序與患者之間的智能語音交互。通過人機之間的問答,實現(xiàn)智能問診,通過舌脈等采集終端,進行舌脈數(shù)據(jù)的采集,之后再由算法進行分析,根據(jù)分析結論再進行針對性的問診,進而模擬真實世界的中醫(yī)診療過程,實現(xiàn)更為智能的中醫(yī)辨證。
中醫(yī)辨證屬于思維科學、系統(tǒng)科學、復雜科學范疇,具有豐富的科學內(nèi)涵。深入研究辨證的原理和規(guī)律,建立科學規(guī)范的數(shù)字化和智能化辨證方法,對中醫(yī)現(xiàn)代化發(fā)展具有重要意義。以中醫(yī)辨證理論為指導,建立科學合理的數(shù)學模型是中醫(yī)辨證智能化研究的關鍵。眾多學者圍繞這一領域進行了深入探索,取得了豐碩成果,也遇到了諸多問題。在新一代人工智能發(fā)展的新時代,中醫(yī)辨證智能化迎來新的機遇和挑戰(zhàn)??偨Y過往研究經(jīng)驗和教訓,展望未來發(fā)展趨勢,可為今后中醫(yī)辨證的智能化發(fā)展提供參考。