孫小宇 姚 晨 康曉平△
支持向量機在建立冠心病早期診斷模型中的應(yīng)用*
孫小宇1姚 晨2康曉平1△
目的探索支持向量機方法在建立冠心病早期診斷模型中的應(yīng)用,為冠心病危險因素在早期診斷中的合理應(yīng)用提供理論依據(jù)。方法 首先應(yīng)用logistic回歸分析方法篩選冠心病危險因素,將有統(tǒng)計學(xué)意義的危險因素與24 h動態(tài)心電圖檢查結(jié)果共同構(gòu)建支持向量機模型,并應(yīng)用測試數(shù)據(jù)集對各模型的診斷能力進行評價。結(jié)果 24 h動態(tài)心電圖檢查結(jié)果與危險因素共同構(gòu)建的支持向量機模型較單獨應(yīng)用24 h動態(tài)心電圖診斷有更好的診斷準確率和靈敏度,特異度較低。對應(yīng)用不同變量構(gòu)建的模型進行比較,應(yīng)用24 h動態(tài)心電圖,結(jié)合年齡、性別、糖尿病、高血壓構(gòu)建的模型診斷效果較好,準確率為70.35%,靈敏度為90.27%,特異度為34.76%。結(jié)論 應(yīng)用支持向量機可以建立合適的冠心病早期診斷模型;結(jié)合主要危險因素進行冠心病的早期診斷可以提高診斷準確率。
支持向量機 冠心病 診斷模型 24 h動態(tài)心電圖
*:“十一五”國家科技支撐計劃項目(2006BAI01A02)
1.北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(100191)
2.北京大學(xué)第一醫(yī)院(100034)
△通訊作者:康曉平,E-mail:Xpkang@bjmu.edu.cn
冠狀動脈粥樣硬化性心臟病(簡稱冠心病)已成為世界范圍內(nèi)的首位死亡原因,明確診斷是防治的首要任務(wù)〔1〕?,F(xiàn)研究已證實,核素心肌灌注顯像、冠狀動脈成像、冠狀動脈造影等檢查方法的診斷能力較強〔2-4〕。但這些方法由于設(shè)備昂貴、操作技術(shù)要求高、檢查費用高且為侵入性檢查,使它們更適用于疾病的確定性診斷,而不適合在早期診斷中應(yīng)用,特別是在基層醫(yī)院還不能作為常規(guī)檢查普及?;谠搯栴},一些研究者提出了聯(lián)合多種無創(chuàng)檢查方法的診斷策略,其中研究較多的是動態(tài)心電圖、運動心電圖及多排螺旋CT冠脈成像之間的組合。但聯(lián)合診斷雖能一定程度上提高疾病診斷效率,卻同樣存在技術(shù)、人員、費用上的限制。美國冠心病診療指南中提出,冠心病的診斷應(yīng)結(jié)合對直接危險因素的評估進行〔5〕。在中國基層醫(yī)院的臨床實踐中,醫(yī)生對冠心病的診治多數(shù)憑個人臨床經(jīng)驗,缺少科學(xué)應(yīng)用指南的循證依據(jù),導(dǎo)致較高的假陰性率或假陽性率出現(xiàn)。在影響冠心病的眾多因素中,哪些組合能提高診斷的靈敏度和特異度,有關(guān)的研究較少。因此,本研究將應(yīng)用支持向量機(support vectormachine,SVM)這種可以解決非線性可分問題的模式識別方法,結(jié)合臨床中普及面較廣的24 h動態(tài)心電圖檢查及冠心病常見危險因素,建立不同組合的冠心病診斷模型,并比較其診斷準確率,探索適用于冠心病早期診斷的組合模型。
數(shù)據(jù)來源于國內(nèi)20家三級甲等醫(yī)院中自2000年1月至2007年12月期間就診疑診冠心病并初次進行診斷性冠脈造影患者的資料。本文選取其中進行24h動態(tài)心電圖檢查,并能提供人口學(xué)及現(xiàn)病史資料的病例,共3 469例。其中,確診為冠心病者為2 237例,非冠心病者1 232例;性別分布為男性2 144例,女性1 325例,平均年齡為61歲。
(1)金標準的選擇 本研究中冠心病診斷的金標準為冠狀動脈造影檢查結(jié)果,其中以至少一支主要冠狀動脈或其主要分支的內(nèi)徑有≥50%的狹窄診斷為陽性。
(2)24h動態(tài)心電圖診斷標準 診斷結(jié)果共分為三類,即明確心肌缺血改變、可疑缺血改變以及正常,定義如下:明確心肌缺血改變:ST段呈水平型或下斜型壓低≥1mm且持續(xù)時間≥1min,且兩次缺血發(fā)作間隔至少1min;可疑缺血改變:有ST段壓低、T波倒置或高尖、QT間期延長、U波倒置等缺血心電圖表現(xiàn),但未達到明確心肌缺血改變診斷標準;或室性早搏≥100次/24h;或II度2型房室傳導(dǎo)阻滯。
(3)影響因素的篩選及賦值
以金標準診斷的是否患病為因變量,以患者性別、年齡、體質(zhì)指數(shù)、吸煙史、飲酒史、是否患有高血壓、高脂血癥、糖尿病、腦血管病等為自變量進行l(wèi)ogistic回歸,應(yīng)用后退法篩選變量,檢驗水準定為0.10。經(jīng)篩選具有統(tǒng)計學(xué)意義的主要危險因素(年齡、性別、是否患有高血壓、高脂血癥、糖尿病)及24h動態(tài)心電圖檢查結(jié)果的賦值見表1。
該理論是Vapnik等人1995年首先提出來的一種模式識別的新方法,在解決有限樣本、非線性及高維問題中表現(xiàn)出特有的優(yōu)勢,它追求的是在現(xiàn)有信息下的最優(yōu)解,克服了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法中合理結(jié)構(gòu)難以確定和存在局部最優(yōu)等缺陷,大大提高了學(xué)習(xí)方法的推廣能力〔6〕。
表1 篩選出的各變量賦值表
支持向量機通過非線性映射φ:Rn→H,將輸入空間的樣本映射到高維特征空間H中,在該空間中構(gòu)造最優(yōu)分類超平面。該最優(yōu)分類平面以結(jié)構(gòu)風險最小化為原則,使錯分個數(shù)最少以保證經(jīng)驗風險最小,間隔最大使推廣界的置信范圍最小。當數(shù)據(jù)為二維兩類線性可分,假設(shè)分類面方程為ω·x+b=0,將判別函數(shù)進行歸一化后,則要求所有樣本滿足如下約束:
其中,支持向量(SV)就是使式(1)中等號成立的樣本,其是訓(xùn)練集中的關(guān)鍵元素,它們離決策邊界最近。分類間隔算式為:
為控制模型推廣能力,則需最大化分類間隔,即通過最小化‖ω‖2來實現(xiàn)。為解決此問題,引入如式(3)所示Lagrange函數(shù):
式中αi>0為Lagrange系數(shù),此函數(shù)對ω和b最小化,對αi最大化。將上述問題轉(zhuǎn)化為其對偶問題,根據(jù)KKT條件,最終求解得到的最優(yōu)分類函數(shù)是:
當需要將輸入空間映射到高維特征空間時,只需通過核函數(shù) K,使得 K(xi,xj)= φ(xi)·φ(xj),就可以得到高維特征空間中的內(nèi)積,相應(yīng)的決策函數(shù)就變?yōu)椋?/p>
常用的核函數(shù)有多項式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)等。當訓(xùn)練樣本為線性不可分時,將允許一些錯分點的存在,此時引入一個非負松弛變量ξi≥1,i=1,…,l。此時,式(1) 變?yōu)椋?/p>
則是在上述條件下求下列目標函數(shù)的極小值:
其中,C是一個用戶自定義的懲罰因子,用于控制對錯分的懲罰程度,以保持樣本偏差與機器泛化能力之間的平衡。這樣,同時考慮最少錯分樣本和最大分類間隔,就得到了線性不可分情況下的最優(yōu)超平面。
本研究中應(yīng)用的核函數(shù)為支持向量機中應(yīng)用較多的徑向基核函數(shù),應(yīng)用中需要確定的參數(shù)有g(shù)和C,借助參數(shù)尋優(yōu)函數(shù),分別在10-2~102之間尋找,經(jīng)交叉驗證為最優(yōu)結(jié)果時,確定兩參數(shù)的值。
研究中將所有病例資料隨機抽取70%(2 427例)為訓(xùn)練樣本,剩余30%(1 042例)為測試樣本,訓(xùn)練樣本用于構(gòu)建支持向量機模型,測試樣本用于評價模型的分類效果。準確率、靈敏度及特異度為模型好壞的評價指標。
計量指標以均數(shù)和標準差描述,計數(shù)指標以例數(shù)及百分數(shù)描述。
支持向量機模型的建立應(yīng)用Matlab 7.0軟件,結(jié)合臺灣林智仁教授等編寫的Libsvm-2.89-3支持向量機工具包實現(xiàn)〔7〕;統(tǒng)計學(xué)描述應(yīng)用SAS 9.1.3軟件實現(xiàn)。
測試數(shù)據(jù)集內(nèi)樣本共1 042例,其中非冠心病患者374例,冠心病患者668例。通過將24h動態(tài)心電圖診斷結(jié)果中可疑心肌缺血和明確心肌缺血歸類為陽性,正常為陰性,24h動態(tài)心電圖檢查結(jié)果的診斷靈敏度為68.11%,特異度為44.12%,準確率為59.50%。對測試數(shù)據(jù)集內(nèi)研究對象的基本情況進行描述性統(tǒng)計,結(jié)果見表2。
表2 測試數(shù)據(jù)集內(nèi)研究對象基本情況描述
以是否患有冠心病為因變量,對變量進行l(wèi)ogistic回歸分析篩選主要的因素,表3列出有統(tǒng)計學(xué)意義的變量及統(tǒng)計量。
表3 logistic回歸模型的變量及統(tǒng)計量
應(yīng)用Libsvm-2.89-3工具包及Matlab 7.0軟件建立支持向量機模型,核函數(shù)選擇徑向基函數(shù)。將納入的研究因素劃分為人口學(xué)因素及現(xiàn)病史兩部分,人口學(xué)因素包括年齡及性別,現(xiàn)病史包括高血壓、高脂血癥及糖尿病。首先應(yīng)用24h動態(tài)心電圖檢查結(jié)果與人口學(xué)因素構(gòu)建診斷模型,繼而根據(jù)OR值大小依次納入病史信息,分別構(gòu)建不同的模型。不同模型的參數(shù)選取及測試結(jié)果如表4所見。
表4 納入不同變量構(gòu)建模型的參數(shù)及評價
支持向量機方法已逐漸應(yīng)用在醫(yī)學(xué)診斷領(lǐng)域,尤其對于一些非線性可分數(shù)據(jù),更顯示了它的優(yōu)勢,并且其設(shè)計簡單,建模涉及參數(shù)較少〔8〕。本研究中建立的支持向量機模型僅有兩個參數(shù),分別為徑向基核函數(shù)的參數(shù)g以及懲罰因子C。在既往一些研究中,模型參數(shù)通常使用默認值,但此時建立的模型很可能不是最優(yōu)模型。武振宇等人的研究中提到,應(yīng)對核函數(shù)參數(shù)進行調(diào)整,以確定最優(yōu)參數(shù)〔9〕。本研究中應(yīng)用了參數(shù)尋優(yōu)函數(shù),對選取不同參數(shù)的模型進行比較,確定最優(yōu)參數(shù)。研究中五個模型的最優(yōu)參數(shù)g變動幅度不大,包括0.25和0.5兩種取值,而懲罰因子C變動稍大,取值變化范圍為0.5~8。懲罰因子反應(yīng)了模型對離群點的重視程度,當離群點帶來的損失不容忽視時,則需要相應(yīng)提高懲罰因子的大小。在應(yīng)用年齡、性別和24h動態(tài)心電圖構(gòu)建模型時,可能由于僅有三個變量用于建模,一些離群點對于模型構(gòu)建的影響不可忽視,因此,經(jīng)尋優(yōu)函數(shù)選取的最優(yōu)C值為8,較其他模型的C值大。由于計算機業(yè)的迅速發(fā)展,用支持向量機計算及建立模型的方法變得簡單,應(yīng)用中的關(guān)鍵則是如何進行參數(shù)尋找、評價模型效果及建立合適的模型。
本研究中,僅用24h動態(tài)心電圖檢查診斷冠心病時診斷靈敏度為68.11%,特異度為44.12%,準確率為59.50%。構(gòu)建支持向量機模型時,在24h動態(tài)心電圖檢查的基礎(chǔ)上加入人口學(xué)因素,模型的診斷準確率及靈敏度高于單獨應(yīng)用24h動態(tài)心電圖,但特異度有所下降;繼而根據(jù)OR值的大小先后在模型中加入是否患有糖尿病、高血壓,模型的準確率及靈敏度得到了進一步的上升,特異度變化不大,均較低。這說明了對與冠心病密切相關(guān)的危險因素水平的評估有助于冠心病診斷靈敏度的提高。但在加入高脂血癥后,模型的準確率有所下降,這與既往研究中高脂血癥與冠心病關(guān)系密切的研究結(jié)果不符,這可能由于本研究中病例組和對照組的高脂血癥患病率均較高,分別為57.04%和51.60%,遠高于2006年中國心血管病報告中的血脂異常患病率18.6%〔10〕。導(dǎo)致這種情況發(fā)生的原因可能與本研究納入標準有關(guān),本研究所選病例為同時進行了24h動態(tài)心電圖及冠狀動脈造影的患者,為疑診冠心病患者,其血脂水平可能高于正常人群,而兩組高脂血癥患病率均高掩蓋了血脂因素對疾病的影響。對于logistic回歸中OR值較小的年齡,考察將其移除模型的診斷結(jié)果,雖然靈敏度有所提高,但特異度大幅度下降,準確率也有所下降,因此,作為冠心病的直接危險因素,年齡應(yīng)保留在模型中。本研究中的各模型診斷特異度均不高,一方面由于支持向量機模型以高總體正確率為目標,若樣本中患者數(shù)多于非患者數(shù),兩類的不均衡導(dǎo)致少數(shù)類錯分更多,特異度有可能較低。在下一步的工作中,可考慮嘗試一些解決非均衡數(shù)據(jù)問題的新方法構(gòu)建模型〔11〕,探索提高特異度的方法;另一方面,本研究是將24h動態(tài)心電圖檢查結(jié)果與各種冠心病高危因素組合后出現(xiàn)的假陽性增高現(xiàn)象,使誤診率升高,這也說明在冠心病的早期診斷中,將高危人群納入監(jiān)測是非常重要的。
冠心病的早期診斷對及時治療疾病,控制病情發(fā)展有重要意義,但應(yīng)用何種早期診斷方法一直是研究的熱點。一些診斷效率高的診斷方法對操作人員、檢查費用等均有較高要求,不適于基層醫(yī)院的應(yīng)用和疾病的早期診斷;其他檢查方法如靜息心電圖的診斷效率較低,運動或藥物負荷心電圖對操作者、患者狀態(tài)均有要求,這些不足也限制了他們與其他無創(chuàng)檢查方法聯(lián)合診斷的推廣和應(yīng)用。因此,探索適合冠心病早期診斷的方法有重要意義。美國冠心病診斷與治療指南中提出冠心病的診斷需結(jié)合冠心病的直接危險因素進行,因此,本研究探索了結(jié)合危險因素進行早期診斷,為其在臨床實踐中應(yīng)用提供理論依據(jù)。結(jié)果顯示,在應(yīng)用較易實現(xiàn)的24h動態(tài)心電圖檢查的基礎(chǔ)上,結(jié)合患者年齡、性別、是否患有糖尿病、高血壓的情況,借助支持向量機模型,提高了對冠心病診斷的準確率和靈敏度。盡管診斷模型的特異度不高,但對于冠心病一類有確定性診斷方法且有系統(tǒng)治療方案的疾病,早期診斷的高靈敏度即降低疾病的漏診率至關(guān)重要,且被誤診的患者亦是冠心病的高危人群,應(yīng)予以重視。
1.The global burden of disease:2004 update.http://www.who.int/healthinfo/global_burden_disease/2004_report_update/en/index.htm l.
2.Loong CY,Anagnostopoulos C.Diagnosis of coronary artery disease by radionuclide myocardial perfusi on imaging.Heart,2004,90 Suppl5:v2-v9.
3.M iller JM,Rochitte CE,Dewey M,et al.Diagnostic performance of coronary angiography by 64-row CT.N Engl JMed,2008,359(22):2324-2336.
4.Hamon M,Biondi-Zoccai GG,Malagutti P,et al.Diagnostic performance ofmultislice spiral computed tomography of coronary arteries as compared with conventional invasive coronary angiography:a meta-analysis.JAm Coll Cardiol,2006,48(9):1896-1910.
5.Gibbons RJ,Abrams J,Chatterjee K,et al.ACC/AHA 2002 guideline update for the management of patients with chronic stable angina—summary article:a report of the American College of Cardiology/American Heart Association Task Force on practice guidelines(Committee on the Management of Patients With Chronic Stable Angina).JAm Coll Cardiol,2003,41(1):159-168.
6.高雋.人工神經(jīng)網(wǎng)絡(luò)原理與仿真實例.北京:機械工業(yè)出版社,2007,78-93.
7.Chang C,Lin C.LIBSVM—A Library for Support Vector Machines.http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
8.李磊,黃水平.支持向量機原理及其在醫(yī)學(xué)分類中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2009(1):22-25.
9.武振宇,李康.支持向量機在基因表達數(shù)據(jù)分類中的應(yīng)用研究.中國衛(wèi)生統(tǒng)計,2007(1):8-10.
10.孔靈芝,胡盛獸.中國心血管病報告.北京:中國大百科全書出版社,2006,21-21.
11.解丹蕊,韓建新,薛惠鋒,等.非均衡數(shù)據(jù)的支持向量機新方法.計算機應(yīng)用研究,2009(5):1654-1656.
The Application of Support Vector Machine in Building the Early Diagnostic Model of Coronary Artery Disease
SunXi-aoyu,YaoChen,KangXiaoping.DepartmentofEpidemiologyand Biostatistics,SchoolofPublicHealth,PekingUniversity(100191),Beijing
Objective To explore the application of the Support Vector Machine(SVM)in the diagnosis of Coronary Artery Disease(CAD);And to provide the theory basis for the usage of risk factors in the early diagnosis.Methods Backward logistic regression was used to choose significant variables.We used significant variables and 24-hour holter to build the SVM.Then different models were evaluated with the same test dataset.ResultsThe accuracy and sensitivity of the SVM which was built with risk factors were higher than 24-hour holter to diagnose CHD,and the specificity was lower.After contrasting the diagnostic capabilities among different SVM models,we found that the model built with 24-hour holter,combined with age,sex,diabetes,hypertension was better.The accuracy was 70.35%,the sensitivity was 90.27% and the specificity was 34.76%.ConclusionSVM could be used as the early diagnostic method for CHD,and the accuracy of early diagnosis would be higher in consideration of major risk factors.
Support vector machine;Coronary artery disease;Diagnostic model;24-hour holter