左星光,范 靜
(1.上海第二工業(yè)大學(xué) 工學(xué)部,上海 201209;2.上海第二工業(yè)大學(xué) 文理學(xué)部,上海 201209)
隨著計算機科學(xué)與醫(yī)學(xué)的融合發(fā)展,基于機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型的疾病預(yù)測已成為臨床醫(yī)學(xué)診療的重要輔助手段,這也包括了對糖尿病的預(yù)測研究。由于糖尿病受到很多因素的影響,包括患者的遺傳、生活方式、環(huán)境等,還可能引發(fā)心臟病、腦血管疾病等并發(fā)癥。因此,急需建立高準確率的糖尿病預(yù)測模型,對普通人的糖尿病發(fā)病概率進行預(yù)測,以確定高危人群范圍,從而有效地控制糖尿病的發(fā)病率。
目前,已有多篇文獻利用神經(jīng)網(wǎng)絡(luò)對糖尿病進行預(yù)測研究。文獻[5]使用SPSS 軟件分析人工神經(jīng)網(wǎng)絡(luò)的統(tǒng)計量,得出人工神經(jīng)網(wǎng)絡(luò)用于糖尿病預(yù)測是有實際意義的,并比較了人工神經(jīng)網(wǎng)絡(luò)、支持向量機模型和集成學(xué)習(xí)AdaBoost 在糖尿病預(yù)測中的性能,結(jié)果顯示,人工神經(jīng)網(wǎng)絡(luò)的性能最佳。文獻[6]構(gòu)建了神經(jīng)網(wǎng)絡(luò)模型,得到83%的糖尿病預(yù)測準確率。文獻[7]使用Stacking 方法集成了邏輯回歸、隨機森林、支持向量機、極端梯度提升4 種算法建立了糖尿病預(yù)測模型,取得了85%的預(yù)測準確率。文獻[8]提出了一種新的基于迭代提升欠采樣的集成分類方法,通過從多數(shù)類樣本中進行欠采樣,形成弱分類器,最后用加權(quán)組合方式將弱分類器組合成一個強分類器。通過該采樣方法,在西醫(yī)和中醫(yī)兩種多標簽數(shù)據(jù)集上,準確率分別提升了6.30%和12.43%。文獻[9]基于網(wǎng)格搜索和交叉驗證的支持向量機算法建立了糖尿病并發(fā)癥預(yù)測模型,結(jié)合網(wǎng)格搜索算法在指定區(qū)間搜索最佳懲罰因子和徑向基核函數(shù)的方差,將糖尿病并發(fā)癥的預(yù)測準確率提高到92%。文獻[10]對比了卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)、決策樹模型和基于XGBoost 的梯度下降樹模型在糖尿病預(yù)測中的性能,使用的數(shù)據(jù)集為某醫(yī)院的糖尿病患者臨床檢查數(shù)據(jù)及其診斷結(jié)果。結(jié)果顯示,全連接神經(jīng)網(wǎng)絡(luò)的準確率最高,達到了78.10%。
然而由于疾病本身的復(fù)雜性以及不同患者的身體指標存在差異,致使疾病預(yù)測準確率仍需提高,疾病預(yù)測方法仍需完善。本文構(gòu)建了深度殘差網(wǎng)絡(luò)模型,解構(gòu)了殘差塊的結(jié)構(gòu),比較了不同的激活函數(shù)和優(yōu)化算法對模型性能的影響,進而,針對UCI 糖尿病數(shù)據(jù)進行了預(yù)測,并與多個糖尿病預(yù)測模型進行了對比分析,最后,總結(jié)了深度殘差網(wǎng)絡(luò)模型的優(yōu)缺點。
深度殘差網(wǎng)絡(luò)模型是基于神經(jīng)網(wǎng)絡(luò)構(gòu)建的。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦工作原理,從而實現(xiàn)類人工智能的機器學(xué)習(xí)技術(shù),支持處理圖像、文本、語音以及序列多種類型的數(shù)據(jù),可以實現(xiàn)分類、回歸和預(yù)測等。神經(jīng)網(wǎng)絡(luò)模型發(fā)展自美國神經(jīng)物理學(xué)家Frank Rosenblatt 提出的感知機模型。經(jīng)過學(xué)者們不斷地研究,神經(jīng)網(wǎng)絡(luò)得到了長足的發(fā)展:在架構(gòu)方面,從單層網(wǎng)絡(luò)演變?yōu)槎鄬泳W(wǎng)絡(luò)、從無法解決異或問題到能解決幾乎任何復(fù)雜問題;在神經(jīng)元激活方面,由最初的閾值比較發(fā)展為多種激活函數(shù);在模型優(yōu)化方面,隨機梯度下降(簡記為SGD)、Adam 等一系列優(yōu)化算法被應(yīng)用到神經(jīng)網(wǎng)絡(luò)模型中以更新模型中的參數(shù)。
20 世紀90 年代,美國電話電報公司的神經(jīng)網(wǎng)絡(luò)研究小組開發(fā)了一個用于讀取支票的卷積神經(jīng)網(wǎng)絡(luò)。文獻[12]使用改進的卷積神經(jīng)網(wǎng)絡(luò)在ImageNet 挑戰(zhàn)賽上大放異彩。自此卷積神經(jīng)網(wǎng)絡(luò)的理論與應(yīng)用得到飛速發(fā)展。隨著對神經(jīng)網(wǎng)絡(luò)模型研究的深入,研究人員發(fā)現(xiàn)網(wǎng)絡(luò)層數(shù)越深,模型的性能反而“退化”,同時還出現(xiàn)了參數(shù)量陡增、梯度彌散或梯度爆炸等一系列問題。為改善缺陷、提高卷積神經(jīng)網(wǎng)絡(luò)的泛化能力,文獻[13]設(shè)計了深度殘差網(wǎng)絡(luò)(簡記為DRN),該模型提出在各層之間引入恒等映射,通過恒等映射擬合殘差函數(shù)。這一改進能加快網(wǎng)絡(luò)的訓(xùn)練速度,緩解梯度彌散或梯度爆炸問題,并且可通過增加網(wǎng)絡(luò)深度來提高準確率,而不會出現(xiàn)“退化”問題。殘差網(wǎng)絡(luò)的出現(xiàn)使訓(xùn)練深層次的神經(jīng)網(wǎng)絡(luò)模型成為可能。
下面將從模型的原理、殘差塊的構(gòu)造、模型激活函數(shù)和優(yōu)化算法的選擇等四方面來詳細介紹深度殘差網(wǎng)絡(luò)模型。
卷積神經(jīng)網(wǎng)絡(luò)可以看成卷積層的堆疊,幾個卷積層堆疊在一起被稱為卷積塊。輸入數(shù)據(jù)經(jīng)過卷積塊之后會產(chǎn)生新的數(shù)據(jù),即在輸入和輸出之間存在映射關(guān)系。在深度殘差網(wǎng)絡(luò)中,這個映射關(guān)系稱為underlying mappings,記作(),表示模型輸入。圖1 是一個典型的殘差塊結(jié)構(gòu)。通過添加額外的恒等快捷連接,即()=,來自上層的輸出可直接添加到當前堆疊塊的輸出中,并且不用增加額外的參數(shù)。
圖1 殘差塊結(jié)構(gòu)
假設(shè)多個非線性層可以漸近逼近一個復(fù)雜函數(shù),這等價于多個非線性層可以漸近逼近一個殘差函數(shù)()=()-。因此,第個殘差塊執(zhí)行以下計算:
式 中:x,y是 第個 殘 差 塊 的 輸 入、輸 出 數(shù) 據(jù);W ={W |1 ≤≤}是與第個殘差塊相關(guān)的權(quán)重,是殘差塊中的層數(shù);是待學(xué)習(xí)的殘差函數(shù);函數(shù)()為恒等映射:()=;為激活函數(shù),表示數(shù)據(jù)相加之后要進行的操作。
圖2 是本文構(gòu)建的深度殘差網(wǎng)絡(luò)。
圖2 DRN 結(jié)構(gòu)
當也是一個恒等映射,即x=y,利用遞推逐項合并,得到第層的輸入為:
假設(shè)損失函數(shù)為,根據(jù)反向傳播的鏈式求導(dǎo)法則有:
為分析模型性能,本文采用準確率、精度、召回值、值和平均準確率等5 種指標。準確率和平均準確率將被作為主要評估指標。平均準確率為次實驗得到的準確率的平均值。準確率定義為預(yù)測正確的結(jié)果占總樣本的百分比,計算公式為:
式中:TP 表示實際是正類的樣本數(shù);FP 表示被模型誤判為正類的樣本數(shù);TN 表示實際為負類的樣本數(shù);FN 表示被模型誤判為負類的樣本數(shù)。精度定義為被預(yù)測為正類的樣本中實際為正類的樣本數(shù),計算公式為:
召回值定義為實際為正類的樣本中被預(yù)測為正類的比例,計算公式為:
值定義為精度和召回值的調(diào)和平均數(shù),計算公式為:
由于本文利用深度殘差網(wǎng)絡(luò)對糖尿病進行預(yù)測,而糖尿病數(shù)據(jù)集不同于圖像數(shù)據(jù),數(shù)據(jù)集中各個特征代表不同的含義,無法應(yīng)用卷積運算。因此用全連接層替換原來的卷積層。文獻[13]證明,在殘差塊中執(zhí)行全連接層的操作是可行的。
同時,在殘差塊中加入了批量標準化層(Batch Normalization)。引入批量標準化,可以降低樣本間值域的差異,使得模型中大部分數(shù)據(jù)處在非飽和區(qū)域,保證梯度反向傳播的有效性;還可以減少模型參數(shù)及其初始值對梯度的影響,從而加快網(wǎng)絡(luò)的收斂速度。批量標準化也可被看作是一種正則化手段,可使模型減少對Dropout 層的使用。
在批量標準化的計算過程中,假設(shè)輸入數(shù)據(jù)為,將其分為大小為的小批數(shù)據(jù),每小批數(shù)據(jù)稱為一個batch。對于batch 中的每個樣例,批量標準化的計算公式為:
值得注意的是,殘差塊中各層的排列順序?qū)δP托阅軙a(chǎn)生一定影響,不合理的排列順序可能會導(dǎo)致模型性能的下降。在模型具有相同參數(shù)量、學(xué)習(xí)率、學(xué)習(xí)輪數(shù)的基礎(chǔ)上,比較了基于圖3 和圖4 兩種殘差塊的模型性能。殘差塊Ⅰ中的BN 層和Dropout 層的位置被排在兩個全連接層之后,殘差塊Ⅱ正好相反。
圖3 殘差塊Ⅰ
圖4 殘差塊Ⅱ
經(jīng)過5 次訓(xùn)練后,得出表1 中所列結(jié)果。易知,無Dropout 時,基于殘差塊Ⅰ構(gòu)建的深度殘差網(wǎng)絡(luò)在5 次訓(xùn)練中準確率、召回值、值、平均準確率均高于殘差塊Ⅱ,分別提高了4.55%,18.03%,10.29%,3.53%。
值得注意的是,Dropout 層相當于給快捷連接添加了一個縮放。在本文設(shè)計的深度殘差網(wǎng)絡(luò)模型中,Dropout 的參數(shù)設(shè)置為0.5,即把上層傳遞過來的參數(shù)丟棄50%。從表1 的數(shù)據(jù)可看出,有Dropout 時,殘差塊Ⅰ的平均準確率仍高于殘差塊Ⅱ2.36%。綜上,殘差塊Ⅰ的性能優(yōu)于殘差塊Ⅱ的性能,殘差塊Ⅰ中無Dropout 的性能優(yōu)于有Dropout。因此本文采用殘差塊Ⅰ的結(jié)構(gòu),并去除了Dropout 層。
表1 基于殘差塊Ⅰ和殘差塊Ⅱ的模型性能對比 %
激活函數(shù)是神經(jīng)網(wǎng)絡(luò)中對數(shù)據(jù)進行計算的非線性函數(shù),通過這個非線性函數(shù)模擬神經(jīng)元處理過程。本文針對3 種常用激活函數(shù):ReLU、Sigmoid 和Tanh,在模型具有相同的參數(shù)量、訓(xùn)練輪數(shù)、批次數(shù)量的情況下,對比了它們對模型性能的影響,結(jié)果見表2。
表2 三種激活函數(shù)的性能 %
根據(jù)表2 數(shù)據(jù),容易得到Tanh 的性能最佳。原因在于Tanh 是以零為中心的函數(shù),其表達式為:
輸出值在[-1,1]之間,這使得經(jīng)Tanh函數(shù)運算后不會出現(xiàn)zigzag 現(xiàn)象。Tanh 還具有放大特征之間差異性的特點,能夠提高模型預(yù)測性能。Sigmoid函數(shù)的表達式為:
其函數(shù)值全為正數(shù),輸出值在[0,1]之間,數(shù)據(jù)流經(jīng)激活層后進行反向傳播時會出現(xiàn)參數(shù)同號的問題,容易造成優(yōu)化路徑出現(xiàn)zigzag 現(xiàn)象,減緩了模型的收斂速度。ReLU 函數(shù)的表達式為()=max(0,),其優(yōu)點是解決了在>0 方向的梯度消失問題,運算時只需判斷參數(shù)是否大于0,加快了模型收斂速度。但ReLU 也不是以零為中心的,并且在參數(shù)小于0 時輸出為0,從而可能會導(dǎo)致網(wǎng)絡(luò)中某些神經(jīng)元永遠不會被激活。因此,根據(jù)對比結(jié)果,本文選用Tanh 作為模型的激活函數(shù)。
本文對比了常用的4 種神經(jīng)網(wǎng)絡(luò)模型優(yōu)化算法:隨機梯度下降(SGD)、自適應(yīng)矩估計(Adam)、Adagrad 和Adadelta。
SGD 的求解思路是根據(jù)每一個樣本x和標簽y,得到更新參數(shù):
由于SGD 會對每個樣本計算梯度,導(dǎo)致算法會受到噪聲數(shù)據(jù)的影響,即并不是每次迭代都朝著整體最優(yōu)化方向,但算法優(yōu)化方向是朝著全局最優(yōu)解的,且最終結(jié)果也往往在全局最優(yōu)解附近。Adagrad 的優(yōu)化策略是讓學(xué)習(xí)率適應(yīng)參數(shù),即對于少數(shù)的特征賦予其較大的學(xué)習(xí)率;對于多數(shù)的特征賦予其較小的學(xué)習(xí)率。其缺點是由于不斷地累加梯度的平方,導(dǎo)致學(xué)習(xí)率可能會變得無限小。Adadelta 算法是Adagrad 算法的擴展,通過添加一個特定大小的歷史梯度計算窗口,來處理Adagrad 學(xué)習(xí)率持續(xù)變小的問題。Adam 對參數(shù)計算自適應(yīng)學(xué)習(xí)率,同時還保存了一個歷史梯度的指數(shù)衰減均值m,Adam 可自動更新m來抵消由于不恰當?shù)某跏蓟瘞淼钠?。使用不同?yōu)化算法的模型性能見表3。
表3 使用不同優(yōu)化算法時的模型性能 %
表3 的性能分析表明:優(yōu)化算法Adam 的預(yù)測準確率高于其余優(yōu)化算法0.65%~9.09%。因此,本文構(gòu)建的深度殘差網(wǎng)絡(luò)選用Adam 作為優(yōu)化算法。
本文采用UCI 機器學(xué)習(xí)庫的公開糖尿病數(shù)據(jù)集,原數(shù)據(jù)集中共有768 條樣本數(shù)據(jù)和9 個屬性字段。其中,確診為糖尿病的樣本數(shù)為500 個,未確診為糖尿病的樣本數(shù)為268 個。樣本類別呈現(xiàn)不對稱狀態(tài)。表4 統(tǒng)計了數(shù)據(jù)集中屬性列的均值、方差、最小值、四分位數(shù)及最大值。根據(jù)表4 中的數(shù)據(jù)發(fā)現(xiàn),葡萄糖、血壓、皮膚厚度、胰島素、BMI 屬性中的最小值均為0,顯然這是錯誤數(shù)據(jù),需要對其進行處理,這是因為數(shù)據(jù)集中的噪聲數(shù)據(jù)會導(dǎo)致模型性能降低,嚴重時可使模型無法收斂。將上述5 個特征按是否確診糖尿病進行分類,對未確診糖尿病且存在異常值的樣本使用該類別所有樣本的中位數(shù)填充,對確診糖尿病且存在異常值的樣本也進行同樣處理,于是,得到一個原始數(shù)據(jù)集。
表4 數(shù)據(jù)集各屬性統(tǒng)計值
同時,由于原數(shù)據(jù)集中確診糖尿病樣本數(shù)是未確診的兩倍,從確診樣本隨機選取268 個樣本,這樣,便得到一個樣本均衡數(shù)據(jù)集,其中的確診糖尿病的樣本數(shù)和未確診糖尿病的樣本數(shù)均為268 個。
為選取最優(yōu)特征,提高模型預(yù)測準確率,本文使用梯度提升樹算法對原數(shù)據(jù)集中的特征計算其重要性得分。梯度提升樹的基本思想是生成多個決策樹,每個決策樹用來擬合之前累加模型損失函數(shù)的負梯度,使累加模型的損失在負梯度方向減少,直到生成一個強學(xué)習(xí)器。梯度提升樹模型表示為
式中:為決策樹的數(shù)量;θ是第個決策樹的參數(shù);h(;θ)表示第個決策樹。使用前向分布算法,第步提升樹模型更新為:
更新過程中,θ要使得第步提升樹f()累加到的損失函數(shù)最小化,即:
通過這個思想計算每個特征在分類時所占的比重,以此得出每個特征的重要性程度。表5 只截取了得分最高的前4 個特征,其余特征的重要性得分均在0.1以下。
表5 特征重要性得分
為檢驗深度殘差網(wǎng)絡(luò)用于糖尿病預(yù)測的可靠性,比較了具有相同數(shù)量的參數(shù)、深度、寬度和計算成本的普通神經(jīng)網(wǎng)絡(luò)與深度殘差網(wǎng)絡(luò)。在分別進行了5 次訓(xùn)練后,圖5 中數(shù)據(jù)顯示,深度殘差網(wǎng)絡(luò)的性能明顯高于無殘差結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。具體地,深度殘差網(wǎng)絡(luò)比無殘差結(jié)構(gòu)的準確率提高了2.6%,精度提高了6.55%,值提高了2.73%,平均準確率提高了2.59%。實驗結(jié)果證明了深度殘差網(wǎng)絡(luò)可用于糖尿病預(yù)測且具有良好性能。
圖5 有/無殘差的模型性能比較
對于原始非均衡數(shù)據(jù)集,對深度殘差網(wǎng)絡(luò)與隨機森林模型、樸素貝葉斯模型、決策樹模型、支持向量機模型、邏輯回歸模型在準確率、精度、召回值、值和平均準確率上進行對比分析。其中,深度殘差網(wǎng)絡(luò)模型的最優(yōu)參數(shù)為:優(yōu)化算法Adam、損失函數(shù)Binary_corssentropy、驗證集比例為訓(xùn)練數(shù)據(jù)的30%、激活函數(shù)Tanh、Epochs 為100。支持向量機模型的最優(yōu)參數(shù)有:懲罰參數(shù)為10、核函數(shù)為RBF;而決策樹算法中的3 個主要參數(shù)的最優(yōu)參數(shù)選值為:max_depth=9,min_impurity_split=0.27,min_samples_leaf=9。
采用上述參數(shù)后,利用此6 種預(yù)測模型對原始數(shù)據(jù)集均進行了10 次實驗,實驗結(jié)果見表6。數(shù)據(jù)顯示,深度殘差網(wǎng)絡(luò)模型獲得最高準確率為89.61%,值最高為85.19%,模型預(yù)測性能較樸素貝葉斯算法提高了近12%。相比于隨機森林算法,準確率提升了1.95%,精度提升了9.65%。綜合來看,深度殘差網(wǎng)絡(luò)的平均預(yù)測準確率高于其他5 種機器學(xué)習(xí)算法的平均準確率。另外,在10 次訓(xùn)練任務(wù)中,深度殘差網(wǎng)絡(luò)模型的預(yù)測準確率沒有出現(xiàn)大幅波動,說明在使用原數(shù)據(jù)集進行糖尿病預(yù)測時,深度殘差網(wǎng)絡(luò)優(yōu)于5 種經(jīng)優(yōu)化的機器學(xué)習(xí)算法。
表6 原始數(shù)據(jù)集6 種預(yù)測模型的性能 %
采用3.2 節(jié)中各算法的最優(yōu)參數(shù),對樣本均衡數(shù)據(jù)集進行了10 次實驗,各模型性能數(shù)據(jù)如表7 所示。
表7 樣本均衡數(shù)據(jù)集6 種預(yù)測模型的性能 %
表7 的結(jié)果顯示:深度殘差網(wǎng)絡(luò)模型獲得最高準確率為91.35%,值最高為92.31%,預(yù)測性能較原始數(shù)據(jù)集的結(jié)果分別提高了1.74%,7.12%。同時,其余5 種模型性能評估指標較原始數(shù)據(jù)集的結(jié)果均穩(wěn)中有升。但總的來看,深度殘差網(wǎng)絡(luò)的平均預(yù)測準確率還是高于其他5 種機器學(xué)習(xí)算法的平均準確率。
值得一提的是,使用樣本均衡數(shù)據(jù)集時,深度殘差網(wǎng)絡(luò)模型的預(yù)測性能出現(xiàn)略微下降,平均準確率下降了1.24%。這是由于樣本數(shù)量較少,模型無法學(xué)習(xí)到整體的數(shù)據(jù)特征,模型參數(shù)無法得到有效更新,致使模型預(yù)測性能出現(xiàn)下降。
本文構(gòu)建了深度殘差網(wǎng)絡(luò)模型,并基于UCI 糖尿病數(shù)據(jù)集,將深度殘差網(wǎng)絡(luò)與支持向量機算法、決策樹算法、隨機森林、樸素貝葉斯、邏輯回歸等模型進行了預(yù)測性能對比分析。結(jié)果表明,深度殘差網(wǎng)絡(luò)模型對原始數(shù)據(jù)集及構(gòu)造的樣本均衡數(shù)據(jù)集的預(yù)測性能都是最優(yōu)的。但在減少樣本量后,深度殘差網(wǎng)絡(luò)模型的性能出現(xiàn)下降,同時網(wǎng)絡(luò)訓(xùn)練過程中損失值出現(xiàn)波動。實驗結(jié)果表明,盡管使用深度殘差網(wǎng)絡(luò)可以解決神經(jīng)網(wǎng)絡(luò)退化問題,加快網(wǎng)絡(luò)收斂速度,但是模型仍需要大量的樣本輸入,以獲得更高的精確率。