李丹,閆朝升,由佳鑫
(黑龍江中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,黑龍江 哈爾濱 150040)
中醫(yī)醫(yī)案是歷代醫(yī)家臨床診療經(jīng)驗及其學(xué)術(shù)思想的載體,是中醫(yī)傳承和發(fā)展的寶貴財富[1-2]。章太炎曾言:“中醫(yī)之成績,醫(yī)案最著。欲求前人之經(jīng)驗心得,醫(yī)案最有線索可尋。循此鉆研,事半功倍。”通過古代中醫(yī)醫(yī)案的整理和研究,構(gòu)建系統(tǒng)的、易用的、高質(zhì)量的醫(yī)案信息資源,并以此為基礎(chǔ),發(fā)現(xiàn)隱藏的、有價值的“病-證/癥-治-效”關(guān)系,凝煉證治規(guī)律,提煉醫(yī)家治病特色、臨證經(jīng)驗和學(xué)術(shù)思想,對中醫(yī)理論發(fā)展和診療實踐具有重要意義。其中,醫(yī)案整理是醫(yī)案研究的前提基礎(chǔ),是醫(yī)案研究質(zhì)量和效率的根本保障。經(jīng)歷數(shù)千年的發(fā)展和積累,中醫(yī)醫(yī)案浩如煙海,且記錄形式多樣,書寫風(fēng)格各異,記載內(nèi)容豐富,文獻(xiàn)載體分散[3]。中醫(yī)醫(yī)案整理存在著巨大挑戰(zhàn)。數(shù)據(jù)庫技術(shù)提供了高效、便捷的數(shù)據(jù)組織、存儲、共享的方法,現(xiàn)已成為中醫(yī)醫(yī)案整理的重要支撐技術(shù)。本文將對數(shù)據(jù)庫技術(shù)在古代中醫(yī)醫(yī)案整理中的應(yīng)用研究進(jìn)行綜述,以期為古代中醫(yī)醫(yī)案的整理及其再利用研究提供有益的參考和借鑒。
中醫(yī)醫(yī)案,又稱診籍、脈案、方案、病案、驗案、診籍等,是醫(yī)家綜合運用理法方藥臨證診治過程的文字性記錄[4]。中醫(yī)醫(yī)案發(fā)展源遠(yuǎn)流長?,F(xiàn)存最早的較完整醫(yī)案是西漢《史記·扁鵲倉公列傳》所載太倉公淳于意的二十五則“診籍”。經(jīng)過兩漢成形和晉唐醞釀的持續(xù)發(fā)展,宋金元時期的載案數(shù)量明顯多見,醫(yī)案專著開始出現(xiàn)[5-6]。其中,宋代形成了現(xiàn)存最早的醫(yī)案專著《傷寒九十論》[7]。作為醫(yī)案發(fā)展的日臻成熟與鼎盛時期,明清兩代涌現(xiàn)出大量的、形式種類多樣的醫(yī)案,出現(xiàn)了醫(yī)案類書,并開始研究醫(yī)案書寫格式和規(guī)范[8]。其中,明代出現(xiàn)了第一部醫(yī)案類書《名醫(yī)類案》,清代出現(xiàn)了現(xiàn)存篇幅最大的醫(yī)案類書《續(xù)名醫(yī)類案》。
中醫(yī)醫(yī)案記述著癥狀、病因、四診八綱結(jié)果、病機、轉(zhuǎn)歸、治法、治則、注意事項等概要內(nèi)容以及處方的藥物名稱、劑量、炮制方法、服用方法等治療措施或使用穴位、針灸操作方法、有關(guān)處理方法等內(nèi)容,或附有醫(yī)者的主觀觀點[9-10]。歷代醫(yī)案反映了古代醫(yī)家的辨證、立法、遣方、用藥等臨床經(jīng)驗及其思維過程。清末醫(yī)家周學(xué)海曾言:“宋后醫(yī)書,唯案好看,不似注釋古醫(yī)書之多穿鑿也,每家醫(yī)案中,必各有一生最得力處,細(xì)心遍讀,是能萃眾家之所長矣?!边@反映出中醫(yī)醫(yī)案的再利用價值,彰顯出中醫(yī)醫(yī)案整理和研究的突出意義。中醫(yī)醫(yī)案整理有助于提升醫(yī)案資料保存、檢索與應(yīng)用研究的質(zhì)量和效率,為中醫(yī)醫(yī)案的深度挖掘提供信息資源保障,促進(jìn)中醫(yī)傳承和創(chuàng)新發(fā)展[11]。傳統(tǒng)的醫(yī)案整理方法涉及以病證、藥、方等專題類案(如《小兒藥證直訣》《本草衍義》《普濟(jì)本事方》《秦伯未膏方集》)、個人專著(如《石山醫(yī)案》《傷寒九十論》《臨證指南醫(yī)案》)、斷代和地區(qū)合編(如《清代名醫(yī)醫(yī)案菁華》《龍砂八家醫(yī)案》)、流派或?qū)?祁惥?如《傷寒論方醫(yī)案選編》《謙益齋外科陜案》)、評輯(如《名醫(yī)類案》《古今醫(yī)案按》《王氏醫(yī)案繹注》)等[12]。上述整理積累了大量的、彌足珍貴的文字性醫(yī)案資料。數(shù)據(jù)庫構(gòu)建是中醫(yī)藥信息數(shù)字化處理實現(xiàn)途徑[13]。隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,數(shù)據(jù)庫技術(shù)現(xiàn)已廣泛應(yīng)用于古代中醫(yī)醫(yī)案的整理工作中,形成了大量的醫(yī)案信息資源,提升了古代中醫(yī)醫(yī)案的數(shù)字化整理水平,保證了醫(yī)案數(shù)據(jù)整理工作的質(zhì)量和效率,并以此為基礎(chǔ),利用統(tǒng)計分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能、大數(shù)據(jù)等技術(shù),開展基于古代中醫(yī)醫(yī)案的中醫(yī)治病特色、臨證經(jīng)驗和學(xué)術(shù)思想梳理挖掘和歸納提煉,增強了古代中醫(yī)醫(yī)案數(shù)據(jù)再利用的深度,有效地促進(jìn)了中醫(yī)傳承和發(fā)展。
數(shù)據(jù)采集是古代中醫(yī)醫(yī)案數(shù)據(jù)庫構(gòu)建的核心任務(wù)。采集平臺構(gòu)建和采集方法設(shè)計是古代中醫(yī)醫(yī)案數(shù)據(jù)采集系統(tǒng)性和高效性的根本保障。
根據(jù)共享能力差異,古代中醫(yī)醫(yī)案數(shù)據(jù)采集平臺主要分為共享服務(wù)型和研究專題型。在共享服務(wù)型古代中醫(yī)醫(yī)案數(shù)據(jù)采集平臺方面,北京中大安信科技發(fā)展有限公司聯(lián)合北京盤拓咨詢有限公司,利用Oracle 8i for UNIX,構(gòu)建了9個數(shù)據(jù)庫,包含了中醫(yī)醫(yī)案數(shù)據(jù)庫[14];于琦等[15]利用本體知識表示方法和語義網(wǎng)技術(shù),通過構(gòu)建醫(yī)案語義描述和術(shù)語詞典,識別和采集醫(yī)案信息,形成(半)結(jié)構(gòu)化的醫(yī)案存儲與管理利用,構(gòu)建了中醫(yī)醫(yī)案知識服務(wù)與共享系統(tǒng);中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所中醫(yī)藥大健康智能研發(fā)中心研發(fā)了古今醫(yī)案云平臺,建有古代醫(yī)案庫,能夠支持醫(yī)案數(shù)據(jù)錄入、檢索和分析[16]。研究專題型采集平臺主要用于滿足基于古代醫(yī)案的特定研究工作需要,如診療規(guī)律研究[17-21]、醫(yī)案查詢統(tǒng)計分析[22]等。
在采集方法方面,李丹等[23]在分析現(xiàn)有的古代治療信息數(shù)據(jù)庫設(shè)計缺陷基礎(chǔ)上,結(jié)合數(shù)據(jù)庫系統(tǒng)設(shè)計特點,從數(shù)據(jù)庫和應(yīng)用系統(tǒng)相融合角度,提出了一種古代中醫(yī)治療數(shù)據(jù)采集方法,設(shè)計了數(shù)據(jù)采集流程,保證了古代中醫(yī)醫(yī)案數(shù)據(jù)采集工作的系統(tǒng)化和規(guī)范化。閆朝升等[24]提出了中醫(yī)治療信息數(shù)據(jù)庫系統(tǒng)設(shè)計流程以及以方劑數(shù)據(jù)庫為中介的系統(tǒng)后臺數(shù)據(jù)庫架構(gòu),設(shè)計了方劑數(shù)據(jù)庫、疾病數(shù)據(jù)庫和中藥數(shù)據(jù)庫,建立了3個數(shù)據(jù)庫之間的關(guān)聯(lián)關(guān)系,為古代中醫(yī)醫(yī)案“病/證/癥-方-藥”數(shù)據(jù)采集提供了有效的方法和途徑。
作為數(shù)據(jù)庫的重要組成部分,數(shù)據(jù)模型是數(shù)據(jù)組織方式的一種表達(dá)形式,用于抽象和呈現(xiàn)醫(yī)案數(shù)據(jù)特征。目前,在古代中醫(yī)醫(yī)案數(shù)據(jù)庫設(shè)計中,關(guān)系模型是最為常用的結(jié)構(gòu)化數(shù)據(jù)模型,用于構(gòu)建古代中醫(yī)醫(yī)案關(guān)系型數(shù)據(jù)庫。該模型采用二維表形式,存儲醫(yī)案所含實體(如醫(yī)家、文獻(xiàn)、證候、癥狀、方劑、中藥等)及其屬性(如醫(yī)家的姓名、所處朝代等)、實體之間聯(lián)系(如方劑和中藥兩個實體之間的“使用”聯(lián)系)等信息。近年來,隨著數(shù)據(jù)分析和知識組織的需求不斷強烈,多維模型和圖模型被應(yīng)用于古代中醫(yī)醫(yī)案數(shù)據(jù)庫研究,分別用于構(gòu)建中央數(shù)據(jù)庫和知識庫。下面主要介紹古代中醫(yī)醫(yī)案中央數(shù)據(jù)庫和知識庫研究進(jìn)展。
中央數(shù)據(jù)庫是采用多維數(shù)據(jù)模型,滿足分析型數(shù)據(jù)需求并支持醫(yī)案數(shù)據(jù)分析挖掘的一種數(shù)據(jù)存儲環(huán)境。其中,多維數(shù)據(jù)模型是以維度(又稱為屬性)、維度層次(又稱為概念分層)和度量(又稱為觀測指標(biāo))為核心要素,用于支持綜合級數(shù)據(jù)存儲和使用的一種數(shù)據(jù)組織方式[25]。根據(jù)用戶等級不同,古代中醫(yī)醫(yī)案中央數(shù)據(jù)庫分為數(shù)據(jù)倉庫和數(shù)據(jù)集市兩類,分別用于滿足全局級用戶(如國家/省級的科研機構(gòu)、管理部門等)、部門級或個體用戶(如臨床科室、科研人員等)。杜佳麗[26]在確定方劑的角色及其性、味、歸經(jīng)、七情等分布主題基礎(chǔ)上,設(shè)計藥、癥、證、治等維度和頻次度量,建立事實表和維度表之間的依賴關(guān)系,構(gòu)建了慢性腎病中醫(yī)醫(yī)案方劑數(shù)據(jù)倉庫,并應(yīng)用于醫(yī)案方劑配伍規(guī)律研究。劉小生等[27]通過分解和規(guī)范歷代哮喘中醫(yī)文獻(xiàn)醫(yī)案的辨證、用藥、組方等信息,構(gòu)建了哮喘古文獻(xiàn)醫(yī)案數(shù)據(jù)倉庫,并應(yīng)用于哮喘中醫(yī)證治規(guī)律研究。李丹等[28]針對中藥分析型數(shù)據(jù)需求,利用星形模型,設(shè)計中藥的基本維度及其概念分層,構(gòu)建了中藥信息數(shù)據(jù)集市,為古代中醫(yī)醫(yī)案數(shù)據(jù)庫向中央數(shù)據(jù)庫的轉(zhuǎn)換提供了中藥信息多維數(shù)據(jù)模型。
在知識庫方面,本體知識庫是古代中醫(yī)醫(yī)案知識庫的重要類型。本體知識庫不僅能夠利用概念來表示知識,而且可以揭示知識之間內(nèi)在的關(guān)系[29]。葉超[30]通過剖析醫(yī)案所含知識概念以及概念之間關(guān)系,利用本體構(gòu)建工具—Protégé和本體描述語言—OWL(Ontology Web Language),構(gòu)建醫(yī)案本體的概念樹,形成中醫(yī)喘證領(lǐng)域本體類關(guān)系模型,建立中醫(yī)喘證的知識庫。方芳等[31]在收集經(jīng)典中醫(yī)醫(yī)案和獲取糖尿病領(lǐng)域知識基礎(chǔ)上,采用本體分析方法,構(gòu)建糖尿病醫(yī)案所含概念及其分類體系,并利用Protégé,創(chuàng)建了糖尿病醫(yī)案的本體知識庫。另外,隨著2012 年Google發(fā)布知識圖譜項目,知識圖譜得到廣泛關(guān)注與研究應(yīng)用。其中,知識圖譜(knowledge graph,KG)是以符號形式描述客觀世界中實體(概念)及其關(guān)聯(lián)關(guān)系,實現(xiàn)結(jié)構(gòu)化語義知識存儲的一種技術(shù)方法[32]。知識庫用于建構(gòu)知識圖譜的后臺知識存儲環(huán)境。針對知識圖譜的后臺知識庫,常見的數(shù)據(jù)模型包括資源描述框架(resource description framework,RDF)圖和屬性圖,分別對應(yīng)著三元組庫和圖數(shù)據(jù)庫[33]。其中,三元組的基本形式主要包括:(實體-關(guān)系-實體)和(實體-屬性-屬性值)。王菁薇等[34]利用知識圖譜技術(shù),借助圖數(shù)據(jù)庫—Neo4j,通過實體和關(guān)系抽取、數(shù)據(jù)預(yù)處理和知識導(dǎo)入等過程,實現(xiàn)了疾病、證候、癥狀、處方、藥物等實體及其關(guān)系的圖結(jié)構(gòu)存儲,形成了《傷寒論》所載醫(yī)案的語義知識網(wǎng)絡(luò),解決了醫(yī)案知識結(jié)構(gòu)化表示問題。阮彤等[35]利用文本抽取、多策略學(xué)習(xí)、關(guān)系數(shù)據(jù)向RDF數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)融合等技術(shù)方法,提出了中醫(yī)藥知識圖譜的自動構(gòu)建方法,構(gòu)建了醫(yī)案知識圖譜。于彤等[36]探索了中醫(yī)藥領(lǐng)域的知識圖譜構(gòu)建方法,研發(fā)了中醫(yī)臨床知識圖譜,包含了古代醫(yī)家或疾病的醫(yī)案知識庫。郭文龍[37]以方劑為對象,在構(gòu)建方劑本體概念模型基礎(chǔ)上,利用D2RQ(database to RDF query)工具,將關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)換成RDF格式的數(shù)據(jù),并使用Noe4j存儲RDF數(shù)據(jù),構(gòu)建了《傷寒論》《黃帝內(nèi)經(jīng)》《惠民藥方》《普濟(jì)方》等所載經(jīng)典方劑的知識圖譜。
數(shù)據(jù)基礎(chǔ)研究主要用于解決古代中醫(yī)醫(yī)案數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量問題,例如,結(jié)構(gòu)化語義標(biāo)注、數(shù)據(jù)缺失填充、數(shù)據(jù)規(guī)范化處理等研究。
古代中醫(yī)醫(yī)案具有突出的敘述性,其結(jié)構(gòu)化語義表示和轉(zhuǎn)換及其數(shù)據(jù)缺失處理是醫(yī)案數(shù)據(jù)庫科學(xué)性和完整性的基本保證。針對古代中醫(yī)醫(yī)案數(shù)據(jù)庫構(gòu)建的結(jié)構(gòu)化語義表示和轉(zhuǎn)換問題,文天才等[38]借鑒文獻(xiàn)標(biāo)引思想,利用XML的結(jié)構(gòu)性和擴展性,進(jìn)行病案信息的完全結(jié)構(gòu)化和知識表達(dá)層次化處理,實現(xiàn)了中醫(yī)醫(yī)案結(jié)構(gòu)化標(biāo)引系統(tǒng);于莉娟[39]利用框架語言—MEDL(meta-event definition language),實現(xiàn)中醫(yī)醫(yī)案的半結(jié)構(gòu)化表示,并通過詞法、語法、語義等分析、編譯,生成結(jié)構(gòu)化醫(yī)案,并導(dǎo)入中醫(yī)醫(yī)案數(shù)據(jù)庫。針對古代中醫(yī)醫(yī)案數(shù)據(jù)庫構(gòu)建的數(shù)據(jù)缺失問題,王瑞祥等[40]利用粗集理論的不完備數(shù)據(jù)填充方法,探索了基于間接處理和基于主癥相似關(guān)系的中醫(yī)醫(yī)案數(shù)據(jù)庫缺失數(shù)據(jù)填充方法,提高醫(yī)案數(shù)據(jù)庫的完備性;胡雪琴等[41]為解決詞性標(biāo)注所易出現(xiàn)的語義缺失問題,提出了基于語義標(biāo)注的醫(yī)案信息抽取途徑,基本過程為:首先,在設(shè)計不同粒度級的語義標(biāo)注基礎(chǔ)上,構(gòu)建中醫(yī)醫(yī)案語義標(biāo)注概念層(涉及詞、基本短語、復(fù)合短語、語句模式和溫病分類等5層),并用于標(biāo)注生語料庫,生成熟語料庫,提取中醫(yī)醫(yī)案的特征信息,保障中醫(yī)醫(yī)案數(shù)據(jù)庫的基礎(chǔ)數(shù)據(jù)質(zhì)量。
古代中醫(yī)醫(yī)案的數(shù)據(jù)規(guī)范化處理是其數(shù)據(jù)庫數(shù)據(jù)質(zhì)量的根本保障,主要涉及癥狀規(guī)范化、證候要素提取、病證源流考等方面。針對癥狀規(guī)范化處理問題,武嘉興[42]利用診釋學(xué)的原理和方法,對歷代醫(yī)案數(shù)據(jù)庫中的癥狀信息進(jìn)行表達(dá),獲得癥狀標(biāo)記詞,并生成規(guī)范的中醫(yī)癥狀單元;劉保延等[43]利用已經(jīng)構(gòu)建的中醫(yī)歷代醫(yī)案數(shù)據(jù)庫[22],從中醫(yī)癥狀的概念、命名、定義、臨床特征、輕重變化的判定等方面,開展了醫(yī)案癥狀規(guī)范化研究。針對古代中醫(yī)醫(yī)案所含方劑與其適用證候的關(guān)聯(lián)問題,許晗等[44]通過采集《名醫(yī)類案》中涉及補中益氣湯的醫(yī)案,采用頻數(shù)分析法、黃金分割法獲取補中益氣湯證的證候分布特點,發(fā)現(xiàn)“病-證-候”關(guān)系以及證候的病位和病因,有助于“方-證”視角下古代中醫(yī)醫(yī)案數(shù)據(jù)庫的數(shù)據(jù)規(guī)范化處理;李衛(wèi)紅等[45]以崩漏證候規(guī)范化研究為目標(biāo),采集并處理崩漏的歷代醫(yī)案,發(fā)現(xiàn)崩漏中醫(yī)證候類型、病位、病性等證候要素的頻數(shù)分布,提取證候要素的應(yīng)證組合規(guī)律。針對病證源流考問題,姜德友等開展了多種中醫(yī)病證的源流考研究,主要涉及病名沿革追溯以及古代不同時期對病因、病機及治法認(rèn)識的整理等內(nèi)容(如脫肛源流考[46])。
當(dāng)代醫(yī)家章次公曾言:“醫(yī)案為古人積驗所在,近人經(jīng)驗之總結(jié)亦匯集于醫(yī)案?!泵鎸χR經(jīng)濟(jì)時代,古代中醫(yī)醫(yī)案數(shù)字化信息資源是歷代醫(yī)家的治病特色、臨床經(jīng)驗及學(xué)術(shù)思想研究的重要支撐。如何科學(xué)、系統(tǒng)地整理古代中醫(yī)醫(yī)案,構(gòu)建高質(zhì)量的、高可用的醫(yī)案信息資源,保證中醫(yī)醫(yī)案研究的有效性和可靠性,是中醫(yī)傳承、發(fā)展和創(chuàng)新的所亟需解決的關(guān)鍵問題。目前,數(shù)據(jù)庫技術(shù)在古代中醫(yī)醫(yī)案整理領(lǐng)域的應(yīng)用已十分廣泛,成為了醫(yī)案信息資源建設(shè)所不可或缺的支撐技術(shù)。古代中醫(yī)醫(yī)案的數(shù)據(jù)庫建設(shè)質(zhì)量是其深度研究的核心影響因素。
針對古代中醫(yī)醫(yī)案數(shù)據(jù)庫構(gòu)建,數(shù)據(jù)結(jié)構(gòu)化處理是其首要任務(wù),滲透在數(shù)據(jù)采集平臺構(gòu)建、數(shù)據(jù)采集方法設(shè)計、數(shù)據(jù)模型建構(gòu)、數(shù)據(jù)基礎(chǔ)處理等過程中。但是,過度的結(jié)構(gòu)化處理破壞了醫(yī)案信息的完整性和醫(yī)家思維的整體性[4]?;谥R圖譜的醫(yī)案知識庫能夠?qū)崿F(xiàn)中醫(yī)醫(yī)案的網(wǎng)狀知識體系構(gòu)建,為醫(yī)案數(shù)據(jù)的過度結(jié)構(gòu)化處理所帶來的問題提供了一種有效的解決途徑,對于提升古代中醫(yī)醫(yī)案的整理與再利用能力具有十分重要的意義。在未來研究工作中,以古代中醫(yī)醫(yī)案知識圖譜構(gòu)建為目標(biāo),系統(tǒng)、科學(xué)、高效地探求網(wǎng)狀語義知識庫在古代中醫(yī)醫(yī)案整理與研究中的應(yīng)用途徑和方法,有益于提升古代中醫(yī)醫(yī)案資源的數(shù)字化、網(wǎng)絡(luò)化和智能化及其利用效率的最大化,進(jìn)一步彰顯數(shù)據(jù)庫技術(shù)對中醫(yī)傳承發(fā)展的重要支撐作用。