李鑫頡,賈振華,吳以嶺
(1.河北以嶺醫(yī)藥研究院,石家莊 050035;2.河北省絡病重點實驗室,石家莊 050035;3.國家中醫(yī)藥管理局重點研究室(心腦血管絡病/國家中醫(yī)藥管理局中醫(yī)絡病學重點學科),石家莊 050035)
中醫(yī)醫(yī)案是中醫(yī)學的重要內(nèi)容和中醫(yī)經(jīng)驗傳承的主要模式[1],是中醫(yī)理論之源泉。醫(yī)案,又稱脈案、方案、診籍,是中醫(yī)診治疾病臨床記錄所形成的第一手資料,為中醫(yī)學理論的發(fā)展、臨床經(jīng)驗的傳承發(fā)揮了不可替代的作用。誠如當代中醫(yī)名家章次公先生所說:“醫(yī)案為古人積驗所在,近賢經(jīng)驗之總結(jié)亦匯集于醫(yī)案?!?/p>
宋·許叔微《傷寒九十論》運用《傷寒論》的理法方藥治療并論述90種傷寒病證,先案后論,每案之后參以心得,開創(chuàng)了中醫(yī)個案專著之先河。明代出現(xiàn)了我國歷史上第一部醫(yī)案類書—江瓘《名醫(yī)類案》,匯集明代以前歷代醫(yī)家醫(yī)案及經(jīng)史百家中所載醫(yī)案近3000例,以病證分為205門。清代出現(xiàn)了現(xiàn)存篇幅最大的醫(yī)案類書《續(xù)名醫(yī)類案》,是中醫(yī)學術發(fā)展史上對中醫(yī)醫(yī)案的第二次全面整理。此類巨著亦為醫(yī)案整理研究的專著。至近現(xiàn)代,醫(yī)案研究更是層出不窮。1988年,黃煌[2]已在《醫(yī)案助讀》一書中探討了醫(yī)案的類例、閱讀、評注、撰寫、整理等問題。而茅曉[3]則從方法學上探討了醫(yī)案研究的方法,列為分析與綜合、歸納與演繹、系統(tǒng)方法等8法。上述醫(yī)案的整理研究為數(shù)據(jù)挖掘技術在中醫(yī)醫(yī)案中的應用奠定了基礎。
對海量且無序的中醫(yī)醫(yī)案數(shù)據(jù),僅靠傳統(tǒng)經(jīng)驗分析和簡單統(tǒng)計學處理無法獲得數(shù)據(jù)中隱含的規(guī)律,數(shù)據(jù)挖掘技術為從海量數(shù)據(jù)中提取潛藏信息提供了方法學支持。數(shù)據(jù)挖掘(Data Mining,DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中、不為人知但又是潛在有用的信息和知識的過程[4]。目前數(shù)據(jù)挖掘已在多個領域中應用,醫(yī)學研究具有復雜性、模糊性及非規(guī)范化的特點。其在中醫(yī)學上應用的文獻最早見于2001年,以二妙散為例,論述了中醫(yī)方劑的數(shù)據(jù)挖掘方法[5]。當前在中醫(yī)領域,數(shù)據(jù)挖掘應用最廣泛的是在中藥(復方)的研究中,并已取得了一定的進展[6]。如馮雪松等[7]對中藥指紋圖譜的數(shù)據(jù)挖掘研究,完善了中藥質(zhì)量標準,推動了中藥產(chǎn)業(yè)化。數(shù)據(jù)挖掘應用于中醫(yī)藥領域?qū)χ嗅t(yī)藥學術水平的提高、現(xiàn)代化研究的進程、生存空間的擴展產(chǎn)生巨大的促進作用。
目前常用于中醫(yī)學研究的數(shù)據(jù)挖掘方法有聚類分析、關聯(lián)規(guī)則分析、相關性分析和因子分析等。
2.2.1 聚類分析 直接比較樣本中各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,有助于對大量數(shù)據(jù)中的規(guī)則予以認識。聚類分析可將一些觀察對象依據(jù)某些特征加以歸類,在中醫(yī)醫(yī)案研究中,聚類分析能較好地避免分類過程中摻雜的主觀因素,客觀準確地反映研究對象,并從中可能發(fā)現(xiàn)其內(nèi)在的客觀規(guī)律[8]。張世筠等[9]運用變量聚類分析的數(shù)理統(tǒng)計方法,將中醫(yī)肝證的多個主要證型分類為實證、風證和虛證等3類。而聚類分析亦有其局限性,在研究中醫(yī)證候時對癥狀的歸屬要求具有專一性,聚類結(jié)果的好壞也沒有評價的客觀標準,由結(jié)果的有用性來決定[10]。
2.2.2 關聯(lián)規(guī)則分析 關聯(lián)規(guī)則是數(shù)據(jù)挖掘領域中最為常用和成熟的方法之一,目的是從給定的事項中,挖掘出事物特征之間滿足一定支持度和置信度的關聯(lián)現(xiàn)象。因此,可應用關聯(lián)規(guī)則幫助分析證候,組成中醫(yī)癥狀體征的內(nèi)在關系,更為客觀和準確地把握疾病的病機病理,并有助于辨證論治客觀化和規(guī)范化的研究。朱立成等[11]采用關聯(lián)規(guī)則分析名中醫(yī)哮喘醫(yī)案,得出中醫(yī)醫(yī)案中的用藥、四診信息、病因、病位、證候之間存在一定關聯(lián)性,并通過關聯(lián)規(guī)則分析獲取其中規(guī)律。關聯(lián)規(guī)則在應用過程中,可能會存在諸如支持度和置信度較高的規(guī)則,而實際并無應用意義,這就需要在運算時,保證高質(zhì)量的數(shù)據(jù)進行規(guī)則驗證以及多次反饋修正[12]。
2.2.3 相關性分析 相關性分析法是研究隨機變量之間的統(tǒng)計相關關系的一種數(shù)理統(tǒng)計方法。近年來在一些中醫(yī)醫(yī)案研究中,利用了統(tǒng)計學中相關及回歸的原理,研究醫(yī)案中出現(xiàn)的要素之間相關關系的規(guī)律性。如丁素珍等[13]對45例使用四逆湯的醫(yī)案進行分析,發(fā)現(xiàn)附子與干姜有明顯的劑量相關關系,證實姜附同伍、走守相輔的相關關系。叢華等[14]總結(jié)了中醫(yī)歷史上著名醫(yī)家的醫(yī)案22459條,采用非條件Logistic多元逐步回歸法篩選出肺病的常見臨床證候。相關分析必須以定性分析為前提,在進行預測時選取的樣本要盡量分散,以減少預測誤差,在進行預測時只有在現(xiàn)有條件不變的情況下才能進行,如果條件發(fā)生了變化,原來的方程也就失去了效用。
2.2.4 因子分析 又稱因素分析,是一種用來尋找隱藏在可測變量中無法直接觀察到卻影響或支配可測變量的潛在因子,并估計潛在因子對可測變量的影響程度以及潛在因子之間的關聯(lián)性的一種多元統(tǒng)計分析方法[15、16]。利用此方法可以分析醫(yī)家的處方規(guī)律和常用藥物組合。彭麗坤等[17]收集明清兩代部分醫(yī)籍、醫(yī)案、醫(yī)話總共559例治疫處方,總結(jié)歸納出明清中醫(yī)疫病發(fā)病、治法及用藥方面的一些特點及規(guī)律。因子分析的目的是用少數(shù)幾個因子去描述許多因素之間的聯(lián)系,即將相關聯(lián)比較密切的幾個變量歸在同一類中,每一類變量就成為一個(公)因子,以少數(shù)的幾個因子反映原變量的大部分信息[18]。
伴隨著中醫(yī)醫(yī)案的系統(tǒng)整理研究,中醫(yī)醫(yī)案證候研究亦取得了一些進展,但仍沒有找到合適的方法和途徑。無監(jiān)督數(shù)據(jù)分析方法的出現(xiàn)為中醫(yī)證候更為深入地規(guī)范化研究提供了方法學保障。與上述分析方法相比較,無監(jiān)督數(shù)據(jù)挖掘方法更適合目前中醫(yī)證候研究的需求。已有很多學者將無監(jiān)督數(shù)據(jù)分析方法運用到證候研究中,取得了一些可貴的經(jīng)驗。如趙燕[19]運用無監(jiān)督數(shù)據(jù)分析方法,通過理論探討、文獻挖掘、臨床調(diào)查、數(shù)據(jù)分析,提取了16個抑郁癥常見證候要素,初步摸索了應用無監(jiān)督數(shù)據(jù)分析方法,以證候要素為核心進行證候規(guī)范化研究的新模式。李海霞等[20]以冠心病心絞痛的證候聚類為例,對擴展熵的無監(jiān)督聚類進行分析。結(jié)果表明,通過該聚類方法得到的結(jié)果大多與臨床專家的經(jīng)驗相吻合,為中醫(yī)證候要素的標準化制定提供了客觀依據(jù)。
那么,何為無監(jiān)督數(shù)據(jù)挖掘方法呢?無監(jiān)督方法是相對于監(jiān)督方法而言,二者是機器學習方法研究的兩大策略。監(jiān)督挖掘方法是通過對已知類別的訓練樣本的學習,實現(xiàn)對未知樣本的分類判斷。無監(jiān)督挖掘方法是在無專家知識前期參與的情況下,從樣本(變量)的特征出發(fā),研究通過某種算法將特征比較相似的樣本(變量)聚集在一起,從而達到區(qū)分具有不同特征樣本的目的[21]。其優(yōu)點是可以發(fā)現(xiàn)樣本中隱含的共性和規(guī)律。在中醫(yī)證候研究中它更客觀,與中醫(yī)辨證思想更接近,更符合組方規(guī)律研究的需求。隨著研究的日益深入,無監(jiān)督數(shù)據(jù)挖掘方法將成為證候研究的新方向。
綜上,數(shù)據(jù)挖掘技術是一把開啟數(shù)據(jù)寶庫的金鑰匙,十分適用于分析散在、龐雜的中醫(yī)醫(yī)案資料,揭示中醫(yī)理論的科學內(nèi)涵,發(fā)現(xiàn)海量信息中的隱藏模式和內(nèi)在規(guī)律。當然,探討醫(yī)案研究方法不是研究醫(yī)案的最終目的,更應引起關注的應該是對古代醫(yī)案的理論研究和現(xiàn)代闡釋,即從古代醫(yī)案中發(fā)掘醫(yī)家的臨床辨證思維和學術創(chuàng)新思維,因而更為適合研究醫(yī)家思想的無監(jiān)督數(shù)據(jù)挖掘方法應運而生。
章太炎先生指出:“中醫(yī)之成績,醫(yī)案最著。欲求前人之經(jīng)驗心得,醫(yī)案最有線索可尋,循此鉆研,事半功倍?!币虼耍斜匾J真研究中醫(yī)醫(yī)案。數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取知識的有力工具,而無監(jiān)督數(shù)據(jù)挖掘方法更為適合繁雜的中醫(yī)醫(yī)案研究,必將在探索中醫(yī)理論和臨床規(guī)律中發(fā)揮不可估量的作用。
[1] 蔡林峰,傅冬綿,蒙 璐.案例推理技術在企業(yè)資信評估中的應用[J].微機發(fā)展,2004,14(7):118-121.
[2] 黃 煌.醫(yī)案助讀[M].北京:人民衛(wèi)生出版社,2001:3.
[3] 茅曉.《名醫(yī)類案》研究的方法學探討[J].南京中醫(yī)藥大學學報(社會科學版),2002,3(1):34.
[4] Micheline Kamber.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2001:3-4.
[5] 蔣永光.試論中醫(yī)方劑信息的數(shù)據(jù)化[J].中國中醫(yī)藥信息雜志,2001,8(12):80-81.
[6] 田 琳,閻英杰,朱建貴,等.數(shù)據(jù)挖掘及其在中醫(yī)藥領域中的應用[J].中國中醫(yī)基礎醫(yī)學雜志,2005,1(19):710.
[7] 馮雪松,董鴻曄.中藥指紋圖譜中的數(shù)據(jù)挖掘技術[J].藥學進展,2002,26(4):198-201.
[8] 劉 稼.聚類分析在中醫(yī)藥研究中的應用及意義[J].中醫(yī)藥學刊,2004,22(5):927-928.
[9] 張世筠,沈明秀,王先春,等.中醫(yī)肝證的變量聚類分析[J].中國中西醫(yī)結(jié)合雜志,2004,24(1):75-76.
[10] 蘇曉宇.數(shù)據(jù)挖掘聚類分析方法在中醫(yī)臨床中的運用[J].實用中西醫(yī)結(jié)合臨床,2010,10(6):90-92.
[11] 朱立成,林色奇,薛漢榮,等.名中醫(yī)哮喘醫(yī)案445例關聯(lián)規(guī)則分析[J].江西中醫(yī)學院學報,2007,19(5):83-87.
[12] 童元元,趙英凱,于 靜,等.關聯(lián)規(guī)則在中醫(yī)藥領域的應用研究[J].中國中醫(yī)藥信息雜志,2009,16(7):95-96.
[13] 丁素珍,曹 毅.45例四逆湯病案藥物劑量的相關與回歸分析[J].河南中醫(yī).1997,17(4):245-246.
[14] 叢 華,張啟明.肺病辨證用藥的Logistic回歸分析[J].山東中醫(yī)藥大學學報,2002,26(5):322-327.
[15] 毛國君,段立娟,王 實.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2005:64-108.
[16] 孫振球.醫(yī)學統(tǒng)計學[M].北京:人民衛(wèi)生出版社,2002:330-331.342-343.
[17] 彭麗坤,陳仁壽,李文林,等.明清中醫(yī)疫病發(fā)病、癥狀及用藥的因子分析研究[J].中醫(yī)藥信息,2009,29(4):4-7.
[18] 王 兵.基于古今醫(yī)案數(shù)據(jù)分析的水氣病證治規(guī)律研究[D].哈爾濱:黑龍江中醫(yī)藥大學學位論文,2010,34-35.
[19] 趙 燕.基于多種無監(jiān)督數(shù)據(jù)分析方法的抑郁癥證候要素研究[D].北京中醫(yī)藥大學學位論文,2007:6.
[20] 李海霞,孫占全,王 階,等.基于擴展熵的無監(jiān)督聚類的中醫(yī)辨證[J].中國中醫(yī)基礎醫(yī)學雜志,2007,17(8):627-629.
[21] 邱德紅,陳傳波.融合無監(jiān)督和監(jiān)督學習策略生成的多分類決策樹[J].小型微型計算機系統(tǒng),2004,25(4):555-559.