楊 爽,劉恩順,孫增濤
(1.天津中醫(yī)藥大學,天津300073;2.天津中醫(yī)藥大學第二附屬醫(yī)院,天津300125)
中醫(yī)證候研究中數(shù)理統(tǒng)計方法應用現(xiàn)狀
楊 爽1,劉恩順2*,孫增濤2
(1.天津中醫(yī)藥大學,天津300073;2.天津中醫(yī)藥大學第二附屬醫(yī)院,天津300125)
證候是中醫(yī)診治疾病的核心。但證候缺乏客觀、統(tǒng)一的規(guī)范和標準,其本身具有多變性、模糊性、復雜性、隱匿性的特征,因此在證候量化、證候信息的挖掘與利用過程中存在諸多困難。近年來,粗糙集理論、模糊數(shù)學、人工神經(jīng)網(wǎng)絡及無監(jiān)督數(shù)據(jù)分析法等數(shù)理統(tǒng)計方法逐漸成為中醫(yī)證候研究中常用的方法,取得了一些成果,同時也存在一些問題。多種手段相結合綜合運用,將為中醫(yī)證候研究提供適宜的科學方法。
中醫(yī)證候研究;數(shù)理統(tǒng)計方法;應用現(xiàn)狀
中醫(yī)的證候是通過望、聞、問、切四診所獲知的在生命過程中表現(xiàn)在整體層次上的機體反應狀態(tài)及其運動、變化規(guī)律,是從時間和空間兩個方面反映疾病的過程及其相互依存和聯(lián)系的復雜關系。其本質是揭示疾病的階段性主要矛盾規(guī)律,并不斷隨時間而變動,存在著量變的過程,它不是人體局部的病理改變,也很難用注重定位、定性、定量的西醫(yī)病理生理學的“金標準”去評價,這決定了它不可能像西醫(yī)的“病”那樣用實證的方法去研究,也不能簡單以非此即彼的定性方法來區(qū)分。因此,中醫(yī)辨證除了定性之外,還要依賴定量分析。而且中醫(yī)所說的“病”是突出的證候,大多是病人的主觀癥狀,病人的“主觀感覺”是醫(yī)生的“客觀依據(jù)”,從病人的主觀感覺出發(fā),容易失治誤治。許多專家根據(jù)中醫(yī)證候復雜性,動態(tài)性,主觀性的特點,將其看做一個復雜的非線性系統(tǒng),他們提出用多種數(shù)理統(tǒng)計方法多角度研究證候的內部特征并取得了較好的效果。隨著科學技術的發(fā)展,越來越多且先進的數(shù)理統(tǒng)計方法將會被運用于證候研究中?,F(xiàn)將近年運用于中醫(yī)證候研究中的一些數(shù)理統(tǒng)計方法及其局限性綜述如下。
無監(jiān)督方法是用來探索完全未知的數(shù)據(jù)特征的方法,對原始數(shù)據(jù)信息依據(jù)樣本特性進行歸類,把具有相似特征的目標數(shù)據(jù)歸在同源的類里,并采用相應的可視化技術直觀地表達出來。[1]該方法包括多維尺度分析、相關分析、因子分析、聚類分析,以及隱結構模型等方法。聚類分析是以“物以類聚”為原則的一種統(tǒng)計方法,用數(shù)學的方法研究和處理給定對象分類的一種多元統(tǒng)計方法。曲淼等[2]使用該方法對105例抑郁癥病人的臨床資料進行分析,結論是:聚類分析發(fā)現(xiàn)心膽氣虛、氣虛血瘀、心腎不交、脾腎兩虧、腎虛肝郁、氣郁化火6個證候涵蓋了抑郁癥的大部分證候。結構方程模型是一種運用統(tǒng)計中的假設檢驗對有關現(xiàn)象的內在結構理論進行分析的一種統(tǒng)計方法。其特點是可證實所假設的先驗關系成立與否;可將隱變量和直接測量變量一并考慮;可對變量測量誤差及方差做出估計。謝世平等[3]使用結構方程模型從1 303例HIV/AIDS病例的45個辨證相關指標中提取了6個潛變量(因子),分別對應于中醫(yī)的6個證型:痰熱蘊肺、肺脾氣虛、濕熱內蘊、濕熱蘊毒、氣陰兩虛、邪結皮膚,代表著HIV/AIDS的常見臨床證型。用于研究HIV/AIDS中醫(yī)癥狀、證候及其相互關系。結果是:列出了各證型的主癥及次癥,顯示了各個證型的特征;合理解釋了HIV/AIDS的中醫(yī)證候分型和診斷規(guī)律。隱結構模型法是一種基于數(shù)據(jù)本身的特征、從各種角度對人群進行多維劃分的方法,其反映的是蘊含在數(shù)據(jù)中的規(guī)律,具有較強的客觀性和定量性。趙燕[4]研究了104例抑郁癥病人的臨床資料,將100個顯變量參與隱結構模型構建,尋到隱變量34個,分為79個隱類,得出結果是抑郁癥主要體現(xiàn)的病位類證候要素有:肝、心、膽、脾、胃、腎;主要體現(xiàn)的病性類證候要素有:氣滯、氣虛、濕、陽虛、痰、火。因子分析即用少數(shù)幾個公因子去描述許多指標或因素之間的聯(lián)系的方法。李得民等[5]采用該方法對112例超早期腦梗死患者的臨床資料進行研究,結果顯示:超早期腦梗死中醫(yī)證候可分為4類,分別為氣虛血瘀證、熱結腑實證、肝腎陰虛證、風痰阻絡證。在一定程度上揭示了超早期腦梗死中醫(yī)證型特點。
其各自的局限性在于:聚類結果具有不確定性,且存在聚類的單分配問題,比較適合應用于單一疾病的證候分類。結構方程模型擬合指數(shù)的估計的方法決定其要求有較大的樣本量,且需要專業(yè)知識與數(shù)理知識的緊密結合。既使結構方程模型的數(shù)據(jù)能很好的擬合,也不代表模型完全正確,只能說明不拒絕該假設模型。王利敏等[6]研究2 807例亞健康病人的臨床資料,構建結構方程模型,在反復擬合之下,排除了肝火證下重要意義的變量,對全面分析亞健康狀態(tài)的中醫(yī)證候有一定的影響。在使用無監(jiān)督數(shù)據(jù)分析方法時,一定要深入理解各方法運用的理論基礎及應用條件,多種方法聯(lián)合使用,可一定程度上減弱其局限性的影響。
2.1 粗糙集理論 粗糙集理論是處理不精確,不一致,不完整等各種不完備信息的一種新型的有效的數(shù)學工具,主要應用于研究不完整數(shù)據(jù)、不確定知識的表達、學習及歸納。該理論數(shù)學基礎成熟,不需要提供問題所需處理集合之外的任何先驗知識,避免了專家的主觀經(jīng)驗。而且該理論與處理其他不確定問題的理論有很強的互補性。吳昊[7]認為,中醫(yī)診斷實際上也是一種知識模型,它是把機體看成黑箱,直接找出輸入、輸出的關系。這些關系不是憑空臆造,而是從大量的實踐總結出來,能反映一定的客觀規(guī)律性,在實踐中行之有效,其存在的缺點就是缺乏對黑箱的具體分析。而粗糙集理論則是這種黑箱系統(tǒng)的有利分析工具,它利用臨床癥狀進行辨證,從中抽取出確定與可能的規(guī)則。
粗糙集理論同時也存在一定的局限性未得到很好的解決:1)粗糙集理論中對錯誤判斷的決定性機制非常簡單。因此,由粗糙集產(chǎn)生的決策規(guī)則很不穩(wěn)定而且有較差的分類精確性;[8]2)約簡的有效計算問題。如何處理數(shù)據(jù)中的噪音和丟失值問題,連續(xù)屬性離散化等仍未找到令人滿意的方法;3)粗糙集理論所處理的分類必須是完全正確或肯定的,因而它的分類是精確的,只考慮完全“包含”與“不包含”而沒有某種程度上的“包含”與“屬于”,不能處理模糊分類的問題。[9]4)粗糙集理論只有和專業(yè)判斷結合才有實際意義。郭建文等[10]采用粗糙集方法研究4 077例腦卒中病“陰陽類證”患者的臨床資料,得出在粗糙集分析中,健忘與陰虛、火熱、氣虛的診斷相關,但從中醫(yī)專業(yè)判斷來說,健忘跟火熱、陰虛、氣虛都無必然聯(lián)系,對證候判斷的意義均很有限。
要想更好的應用粗糙集理論,要得到精確的決策規(guī)則,必須把粗糙集理論和其他數(shù)據(jù)挖掘方法結合起來。王璐[11]在對基于粗糙集理論的屬性約簡方法的研究基礎上,通過比較分析現(xiàn)有的屬性約簡算法,提出了一種基于屬性作用集差異度的屬性約簡算法,經(jīng)過數(shù)據(jù)集上的實驗和測試比較表明所提出的方法是有效的。該方法不僅能得到較小的約簡子集,而且在執(zhí)行效率上具有很大的優(yōu)勢。
2.2 模糊數(shù)學 模糊數(shù)學是研究和處理模糊性現(xiàn)象的一種數(shù)學理論和方法。它引用了模糊矩陣復合運算方法,首先對各單項參數(shù)進行評價,然后考慮各項參數(shù)在總體中的地位,配以適當?shù)臋嘀?,再用模糊概念進行推理,經(jīng)過模糊矩陣復合運算,得出綜合評價結果。中醫(yī)學理論體系普遍存在著的模糊概念,導致了“只能意會,不可言傳”等問題的存在,模糊數(shù)學的出現(xiàn),使得這類概念的量化成為可能。謝杰[12]應用模糊數(shù)學方法對78例絕經(jīng)后骨質疏松患者的證型進行研究,得到了PMOP患者諸癥證型總體的病情情況,并構建了一個較好的PMOP證型診斷的模糊模式識別數(shù)學模型。
其局限性在于:模糊集的隸屬函數(shù)多數(shù)是憑經(jīng)驗給出的,帶有明顯的主觀性,在確定分類組數(shù)和分類原則時,需要人為引進判別參數(shù)和分類標準臨界值,在數(shù)學理論和實際應用上顯得不夠嚴謹,并且不能同時考慮到各個指標對分類的影響權重。[13]目前除了采取聯(lián)合運用其他數(shù)理統(tǒng)計方法外,還未有其他有效的解決方法。
2.3 人工神經(jīng)網(wǎng)絡 人工神經(jīng)網(wǎng)絡是一種將整體論與還原分析方法有機結合的研究復雜系統(tǒng)的方法,能夠有效處理復雜系統(tǒng)中雜亂無章的海量數(shù)據(jù),并能夠在海量數(shù)據(jù)中尋找模式及規(guī)律,歸納隱含的邏輯關系,發(fā)現(xiàn)多個信息單元之間相互關聯(lián)規(guī)則,同時還能從數(shù)據(jù)的分析研究中進行學科發(fā)展預測性研究,因而在中醫(yī)證候研究領域有著廣闊的應用前景。[14]許朝霞等[15]將支持向量機方法和人工神經(jīng)網(wǎng)絡進行比較,將2種方法應用于對心血管疾病的中醫(yī)臨床信息和證候類別之間的關系的分析上,建立模型,觀察其證候預測的準確性。得出結果是:經(jīng)過比較,對于心氣虛、心陽虛、心陰虛、痰濁、氣滯、血瘀等心血管疾病常見中醫(yī)證型,OCON網(wǎng)絡的識別準確率最高,均在60%以上,其中心氣虛和心陽虛證分別高達92.4%、82.9%。
其局限性在于:傳統(tǒng)的神經(jīng)網(wǎng)絡中確定的權重和“隱藏單元”的含義很難被專家解釋,而且不能從模型中提取規(guī)則。[9]作為一種非參數(shù)模型,人工神經(jīng)網(wǎng)絡的一切信息只來自于訓練集,其訓練的結果也就更加不穩(wěn)定,極容易產(chǎn)生泛化問題,出現(xiàn)過擬合(過學習、過訓練)的現(xiàn)象,降低泛化能力。通過正則化技術,剪枝技術,逐步構造技術及早期停止技術等可在一定程度上減弱神經(jīng)網(wǎng)絡的泛化問題。[16]
一些數(shù)理統(tǒng)計方法如卡方檢驗,頻數(shù)法等為大家所熟知,因此不在贅述。還有一些數(shù)理統(tǒng)計方法,如非負矩陣分解法,多維尺度分析法,復雜系統(tǒng)熵堆積,基于樹模型的分類算法研究,由于觀點較新,論述文獻較少,還需要進行繼續(xù)研究和探討。
馬克思說過:“一種科學只有成功的運用數(shù)學時,才算達到了真正完善的地步?!币虼?,應將多種數(shù)理統(tǒng)計方法結合起來,盡快為中醫(yī)證候研究提供更為適宜的科學方法。
[1]趙燕,薛曉林,吳秀艷,等.無監(jiān)督數(shù)據(jù)分析方法在證候研究中的應用[C].北京:中華中醫(yī)藥學會中醫(yī)診斷學分會論文集,2007.
[2]曲淼,唐啟盛,裴清華,等.抑郁癥中醫(yī)證候的聚類研究[J].吉林中醫(yī)藥,2007,27(11):10-12.
[3]謝世平,陳建設,許前磊,等.HIV/AIDS證候分型及量化診斷的結構方程模型分析[J].中國中醫(yī)基礎醫(yī)學雜志,2010,16(7):577-579.
[4]趙燕.基于多種無監(jiān)督數(shù)據(jù)分析方法的抑郁癥證候要素研究[D].北京:北京中醫(yī)藥大學,2007.
[5]李得民,李淑芳,劉金民.采用因子分析法對超早期腦梗死進行中醫(yī)證候分類的初步研究[J].吉林中醫(yī)藥,2010,30(11):956-958.
[6]王利敏,曲彬彬,趙歆,等.基于結構方程模型的亞健康狀態(tài)中醫(yī)證候量化分析研究[J].中華中醫(yī)藥雜志,2011,26(5):1033-1036.
[7]吳昊.粗糙集在中醫(yī)胸痹證候識別中的應用研究[D].呼和浩特:內蒙古大學,2006.
[8]Supriya K D,Krishna P R.ClusteringWeb Transac-tions Using Rough Approximation[J].Fuzzy Sets and Systems,2004(148):131-138.
[9]周忞,褚娜,李潔.中醫(yī)證候研究中的分類算法方法學研究[J].中西醫(yī)結合學報,2010,8(10):911-916.
[10]郭建文,黃燕.建立中風病“陰陽類證”辨證規(guī)范的數(shù)據(jù)挖掘研究[J].中醫(yī)藥導報,2010,16(9):17-20.
[11]王璐.基于粗糙集理論的屬性約簡算法及其在中醫(yī)證候診療中的應用研究[D].南昌:南昌大學,2010.
[12]謝杰.應用模糊數(shù)學方法對絕經(jīng)后骨質疏松癥的證型研究[D].廣州:廣州中醫(yī)藥大學,2007.
[13]許曉娟,王慶國,許海旭,等.模糊模式識別和模塊化思維用于中醫(yī)證候診斷的可行性探討[J].北京中醫(yī)藥大學學報,2007,30(1):17-21.
[14]孫貴香,袁肇凱.人工神經(jīng)網(wǎng)絡在中醫(yī)證候研究中的應用[J].中華中醫(yī)藥學刊,2007,25(7):1450-1452.
[15]許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經(jīng)網(wǎng)絡的心血管疾病中醫(yī)證候分類識別研究[J].北京中醫(yī)藥大學學報,2011,34(8):539-543.
[16]王愷,楊巨峰,王立,等.人工神經(jīng)網(wǎng)絡泛化問題研究綜述[J].計算機應用研究,2008,25(12):3525-3530,3533.
Application Status of Mathematical Statistics Method used in Traditional Chinese Medicine Syndrome Research
YANG Shuang1,LIU En-shun2*,SUN Zeng-tao2
(1.Tianjin University of Traditional ChineseMedicine,Tianjin 30073,China;2.Second Affiliated Hosptical of Tianjin University of TCM,Tianjin 300125,China)
Syndrome is the core of traditional Chinesemedicine diagnosis and therapy.But the lack of objective syndromes,unified codes and standards,its itself has polytropism,fuzziness,complexity,occult characteristics,so the quantitative syndrome and syndrome informationmining and utilization process there are a lotof difficulties.In recentyears,the rough set theory,fuzzy mathematics,and the artificial neural network and no supervision and data analysis,mathematical statistics methodgradually become the doctor of traditional Chinesemedicine syndrome commonly usedmethods for the research of,made some achievements,butalso some problems.A variety ofmeans combining comprehensive utilization,willbe the doctor of traditional Chinesemedicine syndrome study provides appropriate scientificmethod.
Traditional Chinesemedicine syndrome research;Mathematical statisticsmethod;Application status
R242
A
1007-4813(2013)02-0210-03
2012-12-18)
國家自然科學基金項目(81273999)。
楊 爽(1987-),女,博士研究生。研究方向:中醫(yī)藥防治呼吸系統(tǒng)疾病。
*
劉恩順,男,醫(yī)學博士,碩士研究生導師,E-mail:hellotcm@126.com。