趙鐵牛 ,楊曉南 ,王惠君 ,于春泉 ,孟靜巖
(1.天津中醫(yī)藥大學中醫(yī)學院,天津 300193;2.天津市紅橋區(qū)中醫(yī)醫(yī)院內科,天津 300132)
中醫(yī)辨證是醫(yī)師在錯綜復雜的臨床表現(xiàn)中通過望、聞、問、切四診和各種辨證等手段收集信息,綜合分析,辨清疾病特異病因、病理變化、發(fā)生發(fā)展規(guī)律,透過現(xiàn)象找出疾病的本質,抓住病變的根本機制,做到治病求本,使辨證治療更具有針對性。在一定意義上,證候的診斷是一個在多種方案中如何進行選擇決策的問題。決策樹解決的核心問題就是數(shù)據(jù)分類,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。在實際應用過程中,決策樹可以分析定性數(shù)據(jù)的各種屬性,找出最有分辨能力的屬性,把數(shù)據(jù)庫劃分為多個子集,直到所有子集包含同一類型的數(shù)據(jù),最后得到的決策樹能對新的例子進行分類,并預測新數(shù)據(jù)將屬于哪一個組[1]。這樣,決策樹不僅可以從臨床診斷數(shù)據(jù)中辨析證候與癥狀間的復雜關系,總結歸納中醫(yī)專家的辨證規(guī)律并模擬其診斷推理過程,還可能發(fā)現(xiàn)客觀有用的新知識以豐富專家經(jīng)驗和中醫(yī)理論[2]。筆者對決策樹的基本原理、可行性分析、應用研究現(xiàn)狀、存在的問題及今后的發(fā)展趨勢進行總結和分析,為中醫(yī)證候診斷提供有力的工具。
決策樹算法在1966年由Hunt EB等人首次提出了概念學習系統(tǒng)(CLS)學習算法[3]。決策樹運用信息論知識原理對獲取到樣本的眾多屬性進行解析和歸納,并最終形成一種類似于流程圖的樹型結構。樹型結構節(jié)點為樣本的屬性,分支為屬性取值,其中樹的根結點為樣本中信息量最大的屬性,樹的中間節(jié)點則為每個子樹包含子集樣本中信息量最大的屬性,將樣本類別取值作為樹的葉節(jié)點。從根節(jié)點到葉節(jié)點的一條路徑形成一條分類規(guī)則。決策樹從節(jié)點來尋找分枝定類的思想就是逐步找到更具有確定類別意義的節(jié)點。其思路是找出最有分辨力的屬性,把數(shù)據(jù)庫劃分為許多子集,然后對每一個子集遞歸調用分枝過程,直到所有子集包含同一類型的數(shù)據(jù),最后得到的決策樹能對新的例子進行分類[4]。決策樹是以實例為基礎的歸納學習算法,它著眼于從一組無次序、無規(guī)則的數(shù)據(jù)中,根據(jù)不同的特征,以樹型結構表示分類或決策集合,產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律,通常用來形成分類器和預測模型,可以對未知數(shù)據(jù)進行分類或預測等,主要解決實際應用中分類問題,簡單來說,就是確定對象屬于哪個預定義的目標類[5]。決策樹常見的分類算法有ID3、C4.5、IBLE、CART、SLIQ 和 SPRINT 等[6]。
決策樹算法構造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊涵的分類規(guī)則。如何構造精度高、規(guī)模小的決策樹是決策樹算法的>核心內容。構造決策樹分兩步:1)根據(jù)訓練數(shù)據(jù)集來構建決策樹模型。實際上是一個從數(shù)據(jù)中獲取知識,進行機器學習的過程。樹代表訓練樣本的單個根節(jié)點開始,使用分類屬性,遞歸地通過選擇相應的測試屬性來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何后代上出現(xiàn),測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進行選擇。2)決策樹的剪枝。對上一階段生成的決策樹進行檢驗、校正和修下的過程,主要是用測試數(shù)據(jù)集中的數(shù)據(jù)校驗決策樹生成過程中產(chǎn)生的初步規(guī)則,將那些影響預測準確性的分枝剪除。剪枝后的樹變小、復雜度降低,在正確地對獨立檢驗數(shù)據(jù)分類時效果更快更好[7]。
2.1 證候數(shù)據(jù)的特點符合決策樹分析的資料要求 醫(yī)師在辨證過程中,摻雜了過多的主觀因素,證候辨識缺乏客觀、統(tǒng)一的標準,信息的不完整,給中醫(yī)診斷等造成諸多困難。中醫(yī)學數(shù)據(jù)復雜多樣,主要以定性為主,包括二分類變量、名義型變量和有序分類變量,還有一些數(shù)據(jù)屬于連續(xù)性變量;包含了大量的關于患者的病史、診斷等的臨床信息。ID3算法中要求的數(shù)據(jù)是定性數(shù)據(jù),在中醫(yī)證候研究中,如果出現(xiàn)連續(xù)性數(shù)據(jù),就不能直接使用決策樹算法進行分類。而C4.5算法不僅繼承了ID3算法的>全部優(yōu)點,還增加了對連續(xù)數(shù)據(jù)離散化等功能。這樣,決策樹可以同時處理大量的分類變量、有序變量。當遇到連續(xù)性變量時,需要轉化為分類變量、有序變量,但可能會導致有重要意義的數(shù)據(jù)信息不能完整體現(xiàn)出來。
2.2 決策樹為證候學研究提供決策工具 決策樹對中醫(yī)證型研究的數(shù)據(jù)進行了探索性分析,得到對證型鑒別診斷具有重要意義的因素,并對其重要性進行了量化;建立的決策樹能夠較好地對新病例進行判別。決策樹以樹形圖的形式表達中醫(yī)證候分類結果,分類規(guī)則比較直觀,且易于理解。在眾多的分類方法中,決策樹歸納分析具有易于提取顯式規(guī)則、計算量相對較小、可以顯示重要的決策屬性和較高的分類準確率等優(yōu)點[8]。在明確顯示對分類或預測有意義的證候信息的同時,還能生成一些用于分類的規(guī)則,準確地預測新病例的證型。
3.1 決策樹在中醫(yī)辨證中的應用 運用決策樹統(tǒng)計方法對中醫(yī)證型研究的數(shù)據(jù)進行了探索性分析,得到對證型鑒別診斷具有重要意義的因素,并對其重要性進行了量化;建立的決策樹能夠較好地對新的樣本進行判別。鐘穎等[9]利用決策樹方法,以名老中醫(yī)治療慢性胃炎病歷信息為對象,從病歷中篩選出辨證為“中虛氣滯”的病歷,從涉及的77種癥狀中篩選出的18個變量,構建能夠判斷癥狀與辨證“中虛氣滯”關系的決策樹,得出一些對于目標屬性有重要意義的癥狀。如:舌苔和舌質顏色、苔質的情況,大便便次異常的情況,噯氣、胃脘疼痛的性質等,指導中醫(yī)治療慢性胃炎臨床診斷,建立了較為令人滿意的預測模型。賀憲民等[10]利用熵的決策樹方法,通過從80個變量中選出了對判別的重要性排在前24位的變量實現(xiàn)對慢性胃炎脾胃濕熱型、濕濁中阻型、脾胃虛弱型、肝郁氣滯型和其他證型共5個證型的鑒別診斷,決策樹對訓練集和校驗集的87.64%和85.45%,對檢驗集的正確分類率為83%,建立的決策樹能夠較好地對新的樣本進行判別,從而為慢性胃炎的辨證施治提供客觀的依據(jù)。廖曉威等[11]利用增強型ES-ID3決策樹算法對專家已分類的300例樣本進行模型訓練,利用增強型ES-ID3決策樹算法和經(jīng)典ID3決策樹算法對300例訓練樣本的67個中醫(yī)癥狀和體征屬性進行分類計算的比較,經(jīng)典ID3決策樹算法對肝病數(shù)據(jù)的肝腎不足、肝腎陰虛、肝郁脾虛、脾腎陽虛、濕熱內蘊、痰熱內蘊六大證型進行分類的結果正確率只能達到50%左右,而增強型ES-ID3決策樹算法的>實驗正確率均超過了70%,不僅得到了令人滿意的分類結果,所提取的關鍵屬性集合也更精煉,可以減少醫(yī)務工作者對患者所需采集病癥特征的數(shù)目,降低醫(yī)務工作者的工作量。徐蕾等[12]信息熵的決策樹C4.5算法,篩選出影響中醫(yī)辨證分型的26個重要因素,主要是苔質膩,苔質薄,面色,胃脘疼痛性質,大便便次異常,胃脘脹,口氣等;產(chǎn)生可用于分類的診斷規(guī)則;建立中醫(yī)辨證模型,預測慢性胃炎的中醫(yī)辨證分型,為臨床判斷提供了重要的參考價值。
3.2 決策樹在證候診斷模型研究中的應用 利用決策樹構建證候的診斷模型,為將基于經(jīng)驗的中醫(yī)辨證轉向基于數(shù)據(jù)模型的辨證提供了方法,有助于促進證候的客觀化診斷。瞿海斌等[13]利用決策樹從290例血瘀證病例的35個變量中自動地提取相應的診斷規(guī)則,得到?jīng)Q策樹分類模型并歸納出血瘀證的診斷規(guī)則。利用該模型對194例血瘀證病例測試,其結果為陽性檢測正確率、陰性檢測正確率和檢測正確率分別達到97.67%、99.07%和98.45%。實驗結果表明決策樹能自動從中醫(yī)病例中歸納診斷規(guī)則,通過決策樹方法還可判斷各證候對于血瘀證診斷的貢獻大小。李梢等[14]聯(lián)合采用Logistic回歸和決策樹對1004例慢性乙肝患者進行證候學調查和實驗室檢測,包括88項癥狀、舌脈象、20項體征和14項實驗室指標進行數(shù)據(jù)分析,構建能夠區(qū)分慢性乙肝患者肝膽濕熱證、肝郁脾虛證的診斷模型,辨證診斷準確率為74.36%,發(fā)現(xiàn)苔白、淡紅舌、鞏膜黃染、兩目干澀、丙氨酸轉氨酶(ALT)和HBeAg是鑒別兩證型的有效指標組合,提高模型的診斷準確率,具有一定的辨證意義,有助于促進證候診斷客觀化。謝雁鳴等[15]運用決策樹對確診的520例原發(fā)性骨質疏松癥患者的四診信息建立了陰虛和陽虛診斷模型,陰虛決策樹診斷模型以五心煩熱、盜汗和便秘3個變量為主,訓練集的正確診斷率為99.72%,陽虛決策樹診斷模型以畏寒肢冷、大便稀溏、腰膝酸軟、頭暈和氣短5個變量為主,訓練集的正確診斷率為99.87%,表明模型效果較好。
3.3 決策樹在證候變化特征分析中的應用 決策樹應用于中醫(yī)證候學研究,探索單一證候變化特征及規(guī)律,探討提高辨證準確性的途徑和方法,對數(shù)據(jù)支持下的證候動態(tài)辨識客觀化提供依據(jù)。鄒蔚萌等[16]采用決策樹的CART算法,建立CART決策樹模型,驗證各個屬性的分布情況,揭示了缺血性中風病急性期火熱證口臭、起病急驟和發(fā)病后迅速出現(xiàn)的神識改變的特點,為中醫(yī)證候的動態(tài)辨識提供數(shù)據(jù)支持,初步探索了提高辨證客觀性,提供了證候與四診信息之間關系定量化的方法和途徑。張明雪等[17]運用決策樹方法,歸納出冠心病的主要證候要素(寒、痰、氣、瘀、虛等),可以通過冠心病發(fā)病早期重要指標“胸劇痛”、“背劇痛”、“緊脈”、“遲脈”、“手足不溫,厥冷”、“手足不溫,近衣被不緩解”來判定“寒邪”這一證候在冠心病發(fā)病和發(fā)展的過程中起著重要的作用。曲淼等[18]運用決策樹方法,歸納出冠心病的主要證候要素(寒、痰、氣、瘀、虛等),可以通過冠心病發(fā)病早期重要指標“活動較多即感心悸”、“活動較多即感氣短”、“稍有活動即感心悸”、“無乏力”、“稍有活動即感氣短”來判斷“心氣虛”這一證候在冠心病發(fā)病和發(fā)展的過程中起著重要的作用。張華[19]運用聚類分析和決策樹模型對風、火、痰、瘀、氣虛、陰虛陽亢6個證候要素如何動態(tài)影響病情輕重進行直觀地描述,并給出判斷的正確率,探索缺血性中風病急性期證候動態(tài)演變特征與神經(jīng)功能缺損程度的相關性,臨床醫(yī)師根據(jù)患者中醫(yī)證候表現(xiàn)預測病情嚴重程度及預后提供數(shù)據(jù)支持,為病證結合的研究模式提供一種思路,為臨證判斷病情和指導治療提供依據(jù)。
3.4 決策樹在分析證病信息與療效的關系中的應用 根據(jù)證病信息之間存在非線性的特點,利用決策樹分析方法分析證病信息與中西醫(yī)療法療效的關系,符合中醫(yī)辨證論治個體化診療思想,可以提高治療方案使用的針對性。查青林等[20]利用決策樹模型分析方法,以療效為分層變量,隨機將數(shù)據(jù)集分為訓練集(占75%)和驗證集(占25%),對確診的活動期類風濕性關節(jié)炎中藥治療組病例203例和西藥治療組病例194例的的四診信息、疾病診查信息及治療6個月后的療效信息進行挖掘分析。結果表明,中藥治療組中晨僵、舌淡紅、關節(jié)壓痛程度、夜尿多4項觀測指標不同組合患者的中藥治療療效有差異;西藥組中舌苔白、C反應蛋白、白細胞數(shù)量和晨僵4項觀測指標不同組合患者的中藥治療療效有差異。通過分析類風濕性關節(jié)炎證病信息與療效的關系,從證候信息的角度獲得藥物治療的最佳適應證,為實現(xiàn)個體化治療提供科學數(shù)據(jù)。
由于中醫(yī)證候研究數(shù)據(jù)訓練的樣本含量少或決策樹生成產(chǎn)生重復的子樹時,決策樹歸納算法會出現(xiàn)過度擬合,都會造成產(chǎn)生的決策樹過大,需要修剪決策樹。另外,在決策樹統(tǒng)計分析中,變量一旦進入模型后無法再從模型中剔除,在變量的選擇上不靈活。因此,采用后剪枝方法,對生成的決策樹進行剪枝,剔除掉一些不重要的候選屬性,避免過度擬合,使最后的結果更具有客觀性[21]。
雖然決策樹已經(jīng)被研究者嘗試應用到中醫(yī)證候研究領域,但尚處于起步階段。中醫(yī)學者從臨床證侯診斷數(shù)據(jù)中辨析證候與癥狀間的復雜關系,為中醫(yī)辨證提供一定的決策支持作用,具有廣闊的應用空間和研究價值。決策樹在證候研究領域期待解決問題和研究方向:1)決策樹在證侯診斷應用中的算法優(yōu)化;2)決策樹和其他方法結合在證侯診斷中的應用;3)決策樹算法與軟件實現(xiàn);4)決策樹在證候診斷應用中的簡化方法篩選??傊?,在中醫(yī)證候研究的實際工作中,需要中醫(yī)證候研究人員和統(tǒng)計分析人員加強合作,根據(jù)數(shù)據(jù)類型的特點及數(shù)據(jù)集的大小,選擇合適的算法和軟件實現(xiàn),確保中醫(yī)證候研究的質量和效率。
[1]龔燕冰,倪 青,王永炎.中醫(yī)證候研究的現(xiàn)代方法學述評(一)-中醫(yī)證候數(shù)據(jù)挖掘技術[J].北京中醫(yī)藥大學學報,2006,29(12):797-801.
[2]鄒蔚萌,高宏杰,鄒憶懷.決策樹技術在中醫(yī)證候學中應用研究思路[J].遼寧中醫(yī)藥大學學報,2011,13(2):126-128.
[3]劉鶯迎.決策樹分類算法的>分析和比較[J].科技情報開發(fā)與經(jīng)濟,2008,18(2):65-67.
[4]郭玉濱.決策樹算法研究綜述[J].電腦知識與技術,2006(2):155-160.
[5]范明譯.數(shù)據(jù)挖掘導論[M].北京:人民郵電出版社,2006.
[6]張 彥,劉暾東,李茂青.基于信息論的決策樹算法探討[J].自動化技術與應用,2006,25(1):4-7.
[7]李玲俐.數(shù)據(jù)挖掘中分類算法綜述[J].重慶師范大學學報(自然科學版),2011,28(4):44-46.
[8]季桂樹,陳沛玲,宋 航.決策樹分類算法研究綜述[J].科技廣場,2007,20(1):9-12.
[9]鐘 穎,胡雪蕾,陸建峰.基于關聯(lián)規(guī)則和決策樹的中醫(yī)胃炎診斷分析[J].中國中醫(yī)藥信息雜志,2008,15(8):97-99.
[10]賀憲民,孟 虹,王憶勤,等.基于熵的決策樹理論及其在中醫(yī)證型研究中的應用[J].數(shù)理統(tǒng)計與管理,2004,23(5):57-62.
[11]廖曉威,馬利莊,王 彥.ES-ID3算法及其在中醫(yī)辨癥中的應用[J].計算機工程與應用,2008,44(32):191-193.
[12]徐 蕾,賀 佳,孟 虹,等.基于信息熵的決策樹在慢性胃炎中醫(yī)辨證中的應用[J].中國衛(wèi)生統(tǒng)計,2004,21(6):329-331.
[13]瞿海斌,毛利鋒,王 階.基于決策樹的血瘀證診斷規(guī)則自動歸納方法[J].中國生物醫(yī)學工程學報,2005,24(6):709-711.
[14]李 梢,張寧波,李志紅,等.慢性乙型肝炎患者肝膽濕熱證和肝郁脾虛證的決策樹診斷模型初探[J].中國中西醫(yī)結合雜志,2009,29(11):993-996.
[15]謝雁鳴,朱蕓茵,葛繼榮,等.基于臨床流行病學調查的原發(fā)性骨質疏松癥中醫(yī)基本證候研究[J].世界科學技術-中醫(yī)藥現(xiàn)代化,2007,9(2):38-44.
[16]鄒蔚萌,崔方圓,龍子弋,等.基于數(shù)據(jù)挖掘的缺血性中風火熱證變化特征分析[J].遼寧中醫(yī)雜志,2011,38(6):1042-1044.
[17]張明雪,曹洪欣,常艷鵬,等.論“寒邪”在冠心病發(fā)病中的作用[J].中醫(yī)藥學報,2009,37(3):1-4.
[18]曲 淼,張明雪,張 蘭,等.論“心氣虛”在冠心病發(fā)病中的作用[J].中華中醫(yī)藥學刊,2010,28(2):282-285.
[19]張 華.使用決策樹從中醫(yī)證候量表評分判斷缺血性中風神經(jīng)功能缺損程度[J].遼寧中醫(yī)雜志,2008,35(9):1317-1319.
[20]查青林,何羿婷,喻建平,等.基于決策樹分析方法探索類風濕性關節(jié)炎證病信息與療效的相關關系[J].中國中西醫(yī)結合雜志,2006,26(10):871-876.
[21]張 林,張 昊.決策樹算法分析及其在實際應用中的改進[J].銅陵學院學報,2010,9(6):71-72.