李 雯,魏玉輝,傅松波,武新安
(蘭州大學第一醫(yī)院,甘肅 蘭州 730000)
近年來,糖尿病發(fā)病率呈逐年上升趨勢,已成為發(fā)達國家繼心血管病和腫瘤之后的第三大非傳染性疾病。流行病調(diào)查顯示,我國目前大約有4000萬糖尿病患者,預計到2025年,我國糖尿病患者將達到1 億。因而對糖尿病進行早期診斷及分類研究非常重要[1]。分類體系在醫(yī)學診斷中的應用日趨廣泛,從患者臨床檢驗數(shù)據(jù)到專家決策,均是臨床評價的重要過程。機器學習算法可以通過大量臨床檢驗數(shù)據(jù)和專家決策進行學習,尋找數(shù)據(jù)中存在的規(guī)律及影響疾病診斷的主要因素。目前,機器學習算法在疾病輔助診斷中的應用越來越廣泛,使用的算法涉及人工神經(jīng)網(wǎng)絡(ANN)、支持向量基(SVM)、遺傳算法(GA)、線性判別分析(LDA)等[2~8]。LDA 是用于判別個體所屬群體的一種統(tǒng)計方法,是多元統(tǒng)計分析中判別樣品所屬類型的一種重要方法,特別適合多變量的兩分類或多分類研究。目前,機器學習算法用于糖尿病診斷的研究少有報道[3]。本文采用臨床常規(guī)檢查指標(血常規(guī)、生化)與LDA 相結合的方法建立計算機輔助糖尿病診斷模型,取得了較為滿意的結果。
研究病例來自蘭州大學第一醫(yī)院病歷庫,所收集的資料均為醫(yī)院內(nèi)分泌科、普外科2007年全年出院患者。
均由有經(jīng)驗的內(nèi)分泌科醫(yī)師診斷。糖尿病病例352例,非糖尿病病例389例;男性428例,女性313例;年齡8~84歲,平均年齡(58 ±14)歲。錄入信息包括患者基本情況(年齡、性別、入院日期、出院日期等)、血常規(guī)檢查指標(白細胞、紅細胞等)、生化檢查指標(天冬氨酸氨基轉(zhuǎn)移酶、丙氨酸氨基轉(zhuǎn)移酶等)。
分別以1型、2型糖尿病,其他特異性糖尿病及妊娠期糖尿病的臨床診斷標準為納入標準收集病例。由有經(jīng)驗的內(nèi)分泌科醫(yī)師診斷為糖尿病的出院患者、普外科出院患者,排除其中基本情況、血常規(guī)檢查、生化檢查指標不齊全者,其余均納入研究。
判別分析是用于幫助研究者尋找區(qū)別各組差異的變量,將對象較準確地判入各組的方法[4]。判別分析最常見的應用是為了判定哪些變量具有組間判別效力而對研究對象中多個測量變量進行選擇[3]。經(jīng)過判別分析之后就會得到判別函數(shù)。判別分析適用于2組以上,且每個病例必須有2個以上變量的分類分析。
一般說來,我們可對2組間的判別擬合一個線性方程:Y=a+b1X1+b2X2+...+bnXn式中a 為常數(shù),b1 到 bn 為回歸系數(shù)。判別函數(shù)對2組判別問題的解釋較直接,具有最大相關系數(shù)的變量對預測組別的貢獻最大[3]。本實驗為了研究方便,定義糖尿病病例為1,而非糖尿病病例為-1。
逐步判別分析是根據(jù)多元方差分析中的wilk′s 統(tǒng)計量及F 值進行變量的篩選。每一步選一個判別能力最大的指標進入判別函數(shù),直到被引入模型的變量沒有一個符合進入模型的條件時,變量引入過程結束。逐步判別分析以wilk′s 統(tǒng)計量最小者入選,本研究中模型引入變量的最小F 值為10,剔除變量的最大F 值為2.71。這樣得到的判別函數(shù)所包含的指標都很重要。
按上述納入與排除標準收集病例,結合臨床檢驗結果與有經(jīng)驗臨床醫(yī)生的診斷對所收集病例進行分類,同時建立相應數(shù)據(jù)庫。
研究對象共741例,所有收集的病例以4∶1 比例分為訓練集樣本和測試集樣本。為使計算機能更合理地從資料中獲取信息,訓練集樣本應能很好地代表患者真實情況,因此,運用數(shù)據(jù)庫中已知其類別的樣本作為訓練集,從741例樣本中選擇594例(糖尿病病例281例,非糖尿病病例313例)樣本組成訓練集。為了檢驗從訓練集中得到識別函數(shù)的可靠程度,可利用一些未包括在訓練集中的樣本構成測試集,以檢驗其識別的可靠性,因此,將剩余147例(糖尿病病例71例,非糖尿病病例76例)樣本構成測試集,以驗證模型的預測能力。
通過訓練集獲得判別函數(shù)建立模型。將訓練集患者的基本情況、血常規(guī)檢查及生化檢查信息從Microsoft-Excel 數(shù)據(jù)庫導入SPSS 數(shù)據(jù)庫。然后用SPSS 統(tǒng)計軟件提供的判別分析方法對這些數(shù)據(jù)進行判別分析,選出對預測組別貢獻較大的變量,建立判別函數(shù)。
用訓練集與測試集的誤判率對模型進行判別效果評價,并引入特異性和敏感性指標進一步判斷LDA 的預測能力。
經(jīng)LDA 法進行判別分析后,逐步選出8項對區(qū)別各組貢獻較大的變量。判別函數(shù)的變量及Wilk′s 值,見表1。
表1 逐步判別分析篩選出的特征變量
在疾病診斷中常需根據(jù)就診者的檢查指標、體征等的分析,作出是否患有某種疾病的診斷,這種問題就可用判別分析解決[5]。逐步判別分析可以篩選出對于鑒別2類具有不同屬性的人群有較大貢獻的變量,從而使其結果具有較好的區(qū)分度。表中F 的絕對值越大就意味著該變量對模型的貢獻越大。由表1 中的F 值可知,變量總膽固醇比其他變量相對重要,這些變量所代表的臨床意義與診斷模型之間的關系有待進一步研究。由8個特征變量相對應的判別函數(shù)系數(shù)建立的糖尿病與非糖尿病分類判別函數(shù)如下。
糖尿病判別函數(shù):Y=-55.570+0.168X1+3.610X2+0.413X3+0.004X4-0.030X5+2.278X6+0.083X7+1.405X8
非糖尿病判別函數(shù):Y=-42.9820+0.115X1+2.849X2+0.372X3+0.008X4-0.010X5+2.149X6+0.071X7+0.871X8
將741例合格病例以4∶1 比例分為訓練集樣本和測試集樣本,經(jīng)交互檢驗法驗證可得訓練集的預測情況,見表2。
由表2可知,訓練集和測試集的預測準確率分別是85.7%和81.6%,模型總判別準確率為84.9%。
表2 LDA 判別模型預測準確率
LDA 對于糖尿病和非糖尿病的判別效果較好,為了進一步判斷LDA 的預測能力,實驗引入了特異性(Specificity)和敏感性(Sensitivity)指標。
其中TP 指真陽性數(shù),F(xiàn)N 指假陰性數(shù),TN 指真陰性數(shù),F(xiàn)P指假陽性數(shù)。在LDA 法判斷結果中,測試集的假陽性病例是31例,假陰性病例是54例。由此求得測試集樣本的敏感性是0.75,特異性是 0.88。
本文是首次源于臨床常規(guī)檢查指標(血常規(guī)、生化)與機器學習算法相結合建立計算機輔助糖尿病診斷模型。逐步判別分析的總判別準確率達到84.9%,雖然判別效果較好,但還可通過進一步擴大樣本量,或采用更加適合的機器學習算法提高判別能力。
[1]陳文彬.診斷學[M].第5版.北京:人民衛(wèi)生出版社,2004.
[2]Kemal Polat,Salih Gunes,Ahmet Arslan.A cascade learning system for classification of diabetes disease:Generalized Discriminant Analysis and Least Square Support Vector Machine[J].Expert Systems with Applications,2008(34):482~487.
[3]J Liang,R Du.Model-based Fault Detection and Diagnosis of HVAC systems using Support Vector Machine method[J].International Journal of Refrigeration,2007(30):1104~1114.
[4]Kemal Polat,Salih Gune.Breast cancer diagnosis using least square support vector machine[J].Digital Signal Processing,2007(17):694~701.
[5]Tim W,Nattkemper,Bert Arnrich,et al.Evaluation of radiological features for breast tumour classification in clinical screening with machine learning methods[J].Artificial Intelligence in Medicine,2005(34):129~139.
[6]Weida Tong,Qian Xie.Using Decision Forest to Clissify Prostate Cancer Samples on Basis of SELDI-TOF MS Data:Assessing Chance Correlation and Prediction Confidence[J].Environmental Health Perspectives,2004(112):1622~1627.
[7]Kemal Polat,Salih Gunes.Computer aided medical diagnosis systerm based on principal component analysis and artificial immune recognition systerm classifier algorithm[J].Expert Systems with Applications,2008(34):773~779.
[8]Marco A,M énde z,Christian Hodar,et al.Discriminant analysis to evaluate clustering of gene expression data[J].FEBS Letters,2002(522):24~28.