鳳思苑 鞏曉文 崔 壯△ 高 靜 李長平 劉媛媛 劉 寅 馬 駿
【提 要】 目的 探討支持向量機和人工神經網(wǎng)絡在預測個體冠狀動脈旁路移植術后晚期靜脈移植血管病患病風險中的應用。方法 選取2015年3月-2017年12月天津市胸科醫(yī)院CABG術后超過一年的冠狀動脈粥樣硬化性心臟病患者,分別應用徑向基SVM、多項式SVM和BP神經網(wǎng)絡建立晚期SVGD預測模型。通過受試者工作特征曲線下面積、精確率、召回率及F1指標評價模型的預測性能。結果 BP神經網(wǎng)絡在測試集中反映模型精確率和召回率的F1值為0.84,而ROC曲線下面積均值為0.773,大于其他兩種SVM預測模型。結論 BP神經網(wǎng)絡對晚期SVGD的預測表現(xiàn)更佳,有助于臨床的輔助診斷。
冠狀動脈粥樣硬化性心臟病(coronary atherosclerotic heart disease,CHD)是嚴重威脅人類健康的最常見的心臟病之一。根據(jù)《中國衛(wèi)生和計劃生育統(tǒng)計年鑒(2016)》,2015年中國城市和農村居民冠心病死亡率分別為110.91/10萬和110.67/10萬,自2012年一直呈上升趨勢[1]。冠狀動脈旁路移植術(coronary artery bypass grafting,CABG)是目前治療CHD最有效方法之一,其中靜脈移植血管(saphenous vein graft,SVG)作為CABG術中常用的橋血管材料,其血管術后1年內通暢率為89%,10年后血管通暢率下降到61%[2]。CABG術后靜脈移植血管病變會降低血管通暢率,引起患者缺血癥狀的復發(fā),即靜脈移植血管病(saphenous vein graft disease,SVGD)[3]。它直接影響了CABG術后患者的遠期預后及生活質量。因此,建立SVGD患病風險的預測模型,在確定高危人群的范圍,做好針對性的預防措施,減緩SVGD的發(fā)生、降低CHD患者再行相關手術風險等方面顯得尤為重要。
目前的研究多為SVGD相關危險因素的研究,對于發(fā)病率高的晚期SVGD研究甚少,缺少晚期SVGD的風險預測模型[4-5]。本文主要運用數(shù)據(jù)挖掘技術中表現(xiàn)良好的支持向量機(support vector machines,SVM)和人工神經網(wǎng)絡(artificial neural networks,ANN)建立不同的預測模型,通過對影響模型性能的重要參數(shù)進行優(yōu)化調整,選擇適合晚期SVGD患病風險預測的最佳模型,從而更好的預防晚期SVGD的發(fā)生發(fā)展。
1.研究對象
選取2015年3月-2017年12月在天津市胸科醫(yī)院就診的CABG術后超過1年的CHD患者506人。納入標準:CABG術后出現(xiàn)缺血癥狀而入院檢查的患者;冠狀動脈及移植橋血管造影顯示至少含1支SVG橋血管狹窄≥50%;SVG橋齡≥1年;所有研究指標均無缺失值。排除標準:外吻合口部狹窄;嚴重瓣膜疾??;失代償性心力衰竭;惡性腫瘤或血液系統(tǒng)疾??;急慢性肺部疾?。患谞钕俟δ墚惓#粐乐馗文I功能不全;免疫系統(tǒng)疾病。最終入選患者506例,根據(jù)冠狀動脈造影結果,將患者分為SVGD組346例和非SVGD組160例。
2.研究方法
(1)資料收集 臨床基線資料,包括:性別、年齡、收縮壓、舒張壓、吸煙史、飲酒史、高血壓史、糖尿病病史、高脂血癥病史、腦卒中病史和心血管疾病家族史等。收集患者入院時實驗室檢驗指標、基本生化化驗指標、血常規(guī)化驗指標、既往行CABG術基本情況及冠脈造影復查結果。
(2)統(tǒng)計學分析 本研究采用5折交叉驗證的方法將506樣本集隨機分成5個正負比例相同的互斥子集:依次取出1個子集作為測試集,其余4個子集組合為訓練集。訓練集樣本用于建立模型,測試集樣本用于評估模型的預測效果。每個模型每次模擬都會得出相應的評估指標,通過循環(huán)模擬5次,將5次結果的平均值作為對該模型效果的估計。建模的基本過程如下:①利用非條件logistic回歸單因素分析篩選有統(tǒng)計學意義的變量納入模型,檢驗水準α=0.05;②利用R軟件中“e1071”包建立SVM模型(選擇徑向基核函數(shù)和多項式核函數(shù));③利用R軟件中的“nnet”包建立ANN模型(選擇誤差反向傳播網(wǎng)絡,簡稱BP神經網(wǎng)絡);④利用ROC曲線下面積、精確率、召回率及F1指標對三個模型的性能進行評估和比較。所有統(tǒng)計分析由SPSS 20.0、R 3.4.2完成。
1.基本情況
本次研究共納入CABG術后超過1年的CHD患者506人,其中男性369人,女性137人,平均年齡為(64.84±7.95)歲。
2.非條件logistic單因素分析
以是否是SVGD為因變量對采集到的信息分別進行單因素分析,結果顯示橋齡、原位靶血管病變支數(shù)、冠心病類型、左室射血分數(shù)(LVEF)、左室舒張末期內徑(LVDED)、α-羥丁酸脫氫酶(α-HBDH)、極低密度脂蛋白(VLDL)、脂蛋白a(LP(a))和同型半胱氨酸(Hcy)差異有統(tǒng)計學意義,見表1。
表1 單因素logistic分析結果
3.SVM模型及分析結果
本文SVM模型分別選用處理非線性數(shù)據(jù)的徑向基(RBF)核函數(shù)和多項式(Poly)核函數(shù)來構建。五次模擬都是通過十折交叉驗證誤差最小的標準來獲取核函數(shù)的最優(yōu)參數(shù)[6-7]。兩個模型所選預測變量的相對重要性排序如圖1和圖2。
4.BP神經網(wǎng)絡及分析結果
ANN模型采用最常用的BP神經網(wǎng)絡來建模分析。其輸入層節(jié)點數(shù)為9,輸出層節(jié)點數(shù)為1,隱藏層為一層,五次模擬的隱藏層節(jié)點數(shù)分別為2、1、1、1、2。BP神經網(wǎng)絡所選預測變量的相對重要性排序如圖3。
5.模型的性能度量
模型的性能度量就是對分類器的泛化能力進行比較,可選的評估指標有很多??紤]到患病風險的預測模型更多的是看重疾病的查準率和查全率,除了常見的ROC曲線下面積的比較,還使用了基于精確率(precision)和召回率(recall)調和平均的F1指標來評價[8]。經過交叉驗證后的多項式SVM在訓練集和測試集的ROC曲線下面積均值分別為0.931和0.726,徑向基SVM在訓練集和測試集的ROC曲線下面積均值分別為0.791和0.768,BP神經網(wǎng)絡在訓練集和測試集的ROC曲線下面積均值分別為0.791和0.773。三種模型詳細的評估指標參數(shù)見表2。
圖1 徑向基SVM變量相對重要性排序
圖2 多項式SVM變量相對重要性排序
圖3 BP神經網(wǎng)絡變量相對重要性排序
多項式SVM徑向基SVMBP神經網(wǎng)絡訓練集 精確率0.780.780.80召回率0.920.920.89 F1值0.850.850.86 AUC0.9310.7910.791測試集 精確率0.720.780.79召回率0.930.930.90 F1值0.810.840.84 AUC0.7260.7680.773
基于所研究數(shù)據(jù)非線性的特點,本研究采用SVM和ANN應用于CABG術后晚期靜脈移植血管病患病風險,得到了三個預測模型及其所選預測變量的相對重要性排序,并利用多項指標對模型的泛化能力進行評估和比較。研究發(fā)現(xiàn)雖然每個模型所選預測變量的相對重要性排序不一致,但是影響模型預測性能排在前三位的變量均是橋齡、LVDED和原位靶血管病變支數(shù),說明上述三個指標是影響晚期SVGD發(fā)生的主要因素。既往研究發(fā)現(xiàn)靜脈移植血管遠期再狹窄和閉塞的機制主要是血管的粥樣硬化[9]。長期的血管內膜損失,使靜脈移植血管發(fā)生纖維性彌漫粥樣斑塊病變,繼而會形成彌散、向心、少鈣及缺少纖維帽的斑塊。最終,斑塊破裂導致靜脈移植血管的狹窄和栓塞。綜合分析發(fā)現(xiàn)橋齡長的患者發(fā)生晚期SVGD可能性較高,原因可能與其靜脈橋血管發(fā)生粥樣硬化可能性較高有關,國外的很多研究也發(fā)現(xiàn)橋齡是靜脈橋狹窄的危險因素[10-12]。此外,研究還發(fā)現(xiàn)原位靶血管病變支數(shù)和LVDED與晚期SVGD的發(fā)生密切相關。
對于數(shù)據(jù)線性不可分情況,SVM的主要思想是利用核函數(shù)將輸入向量映射到一個高維的特征向量空間,并在該特征空間中構造最優(yōu)分類面[13]。本研究選用的徑向基核函數(shù)和多項式核函數(shù)分別是局部性核函數(shù)和全局性核函數(shù)的典型代表。在核函數(shù)參數(shù)選擇上,選用網(wǎng)格搜索法來遍歷搜索范圍內所有的參數(shù)組合,雖然預測速度相對較慢,但可以保證搜索到最優(yōu)參數(shù)[14-15]。分析結果顯示,徑向基SVM在測試集的ROC曲線下面積和F1值都高于多項式SVM,說明徑向基SVM較多項式SVM更適合晚期SVGD的風險預測,這可能與徑向基核函數(shù)有較好的學習能力有關。多項式SVM在訓練集的ROC曲線下面積為0.931,但是在測試集的表現(xiàn)較差,提示多項式SVM在訓練模型時可能存在過擬合的現(xiàn)象,模型的泛化能力較差。
BP神經網(wǎng)絡是一種具有自學習、自適應和很強的非線性映射能力的多層前饋神經網(wǎng)絡,由輸入層、隱藏層和輸出層組成。由于隱藏層的節(jié)點數(shù),尚無理論指導,本研究五次模擬的隱藏層節(jié)點數(shù)都是通過測試集ROC曲線下面積最大的標準反復試驗確定。分析的結果顯示,BP神經網(wǎng)絡在測試集的ROC曲線下面積略高于徑向基SVM,但在F1指標方面相同,表明BP神經網(wǎng)絡是本研究中最佳的預測模型。
目前冠狀動脈造影是診斷SVGD的金標準,但其檢測費用相對較高。本研究通過入選患者既往基線資料和臨床檢查指標建立BP神經網(wǎng)絡模型對SVGD患病風險進行預測,具有較高的查準率和查全率,對輔助診斷起到一定的幫助作用。在建模方面采用了交叉驗證的方法,可以從有限的數(shù)據(jù)中盡可能挖掘多的信息,避免結果出現(xiàn)局部的極值,提高了模型的穩(wěn)定性[16]。
本研究仍存在一些不足之處。首先,利用單因素logistic回歸,按0.05的水準從候選變量中篩選分類能力較強的變量作為模型預測因子,以提高建模的效率和預測性能,但受樣本含量和入選患者的代表性所限,結果可能會丟失一些與SVGD發(fā)病有關的潛在因素。其次,本研究采用了內部驗證的方法避免過擬合,但仍缺乏外部數(shù)據(jù)的驗證。因此,還應在后續(xù)研究中增大樣本量,納入更多地區(qū)的患者,進一步調整優(yōu)化模型,并對模型的預測性能、泛化能力和穩(wěn)定性進行更加客觀準確的評價。