鄒 瓊 張 楊 萬(wàn) 毅 陳長(zhǎng)生△
糖尿病是以高血糖為特征的一種代謝性疾病,血糖高大多是由胰島素分泌缺陷或其生物作用受損引起,患糖尿病時(shí)持續(xù)存在的高血糖,會(huì)損害各種組織,特別是腦、腎、心臟、神經(jīng)等[1]。目前,糖尿病是全世界最主要的慢性非傳染性疾病之一[2]。新版糖尿病地圖指出,在全球范圍4.63億糖尿病患者中,有2.319億未診斷,未診斷率為50.1%,其中絕大多數(shù)為2型糖尿病患者。中國(guó)有超過(guò)6500萬(wàn)糖尿病患者尚未確診,這些患者沒(méi)有明顯的糖尿病癥狀,如果不能早發(fā)現(xiàn)、及時(shí)干預(yù),將增加糖尿病相關(guān)并發(fā)癥的風(fēng)險(xiǎn),從而極大地增加糖尿病相關(guān)醫(yī)療保健費(fèi)用[3]。在糖尿病相關(guān)方面的預(yù)測(cè)分析研究領(lǐng)域,目前更多的是采用機(jī)器學(xué)習(xí)(machine learning,ML)的方法。
機(jī)器學(xué)習(xí)是一類經(jīng)典的預(yù)測(cè)模型,已在慢性病發(fā)病風(fēng)險(xiǎn)識(shí)別以及危險(xiǎn)因素研究中得到了廣泛應(yīng)用[4]。這是一門(mén)研究機(jī)器如何適應(yīng)環(huán)境和從示例中學(xué)習(xí),并通過(guò)模仿人類學(xué)習(xí)過(guò)程來(lái)解決各種復(fù)雜問(wèn)題的知識(shí)。受醫(yī)學(xué)神經(jīng)系統(tǒng)的啟發(fā),機(jī)器學(xué)習(xí)算法在計(jì)算機(jī)系統(tǒng)上得到了應(yīng)用和發(fā)展,特別適用于大數(shù)據(jù)分析和多變量之間復(fù)雜關(guān)系的研究。目前,機(jī)器學(xué)習(xí)方法眾多,有Bagging、Boosting、支持向量機(jī)(support vector machines,SVM)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)等。
將機(jī)器學(xué)習(xí)方法應(yīng)用于糖尿病相關(guān)方面的預(yù)測(cè)可以提高臨床治療效果[5]。根據(jù)美國(guó)糖尿病協(xié)會(huì)(The American diabetes association,ADA),診斷糖尿病可基于血糖標(biāo)準(zhǔn),即:糖化血紅蛋白(≥6.5%)、空腹血糖(≥7.0 mmol/L)、OGTT(2小時(shí)值≥11.1 mmol/L)和有典型高血糖或高血糖危重癥狀的患者,隨機(jī)血糖≥11.1 mmol/L[6]。這種傳統(tǒng)≥11.1 mmol/L診斷方法既費(fèi)時(shí)又費(fèi)錢(qián),限制了低收入國(guó)家的實(shí)際應(yīng)用。而機(jī)器學(xué)習(xí)方法相比傳統(tǒng)方法,耗時(shí)較少,并且?guī)缀鯖](méi)有預(yù)測(cè)成本[7]。利用機(jī)器學(xué)習(xí)算法在現(xiàn)有數(shù)據(jù)基礎(chǔ)上建立預(yù)測(cè)模型,不僅能夠?yàn)獒t(yī)學(xué)領(lǐng)域提供高效的預(yù)測(cè)方法,而且能夠直接干預(yù)疾病預(yù)后的相關(guān)因素,以減輕疾病的危害以及減少個(gè)人和社會(huì)的負(fù)擔(dān)[8]。
預(yù)測(cè)模型使流行病學(xué)和衛(wèi)生統(tǒng)計(jì)學(xué)的研究成果更好地與臨床實(shí)踐相結(jié)合,通過(guò)高危篩查、臨床循證指南等方式促進(jìn)疾病的三級(jí)預(yù)防,降低疾病的發(fā)病率和死亡率[9]。根據(jù)使用對(duì)象的不同,糖尿病相關(guān)的預(yù)測(cè)模型可分為以下三類:
1.糖尿病發(fā)病風(fēng)險(xiǎn)評(píng)估模型:它是一種針對(duì)健康人(非糖尿病患者)的糖尿病風(fēng)險(xiǎn)預(yù)測(cè),主要用于識(shí)別糖尿病的高危人群,并對(duì)這些人群的糖尿病風(fēng)險(xiǎn)因素進(jìn)行干預(yù),從而將疾病消滅在萌芽狀態(tài),避免發(fā)生糖尿病,屬于一級(jí)預(yù)防的范疇[10]。這類模型操作簡(jiǎn)便,成本低廉,可盡早發(fā)現(xiàn)糖尿病高危人群,及時(shí)制定防控措施,有效降低糖尿病的發(fā)病率或減緩糖尿病的發(fā)生,并能一定程度降低衛(wèi)生負(fù)擔(dān)[11],具有重大的公共衛(wèi)生學(xué)意義。
2.糖尿病篩查模型:該模型是對(duì)社區(qū)人群進(jìn)行糖尿病篩查的工具,指導(dǎo)社區(qū)糖尿病篩查,然后對(duì)模型檢測(cè)到的糖尿病患者進(jìn)行深入的糖尿病檢測(cè)。這類模型的目的是從社區(qū)人群中識(shí)別患者,從而達(dá)到早發(fā)現(xiàn)和早治療的目的,屬于二級(jí)預(yù)防的范疇[10]。
3.糖尿病并發(fā)癥預(yù)測(cè)模型:也稱為糖尿病臨床模型,主要用于預(yù)測(cè)糖尿病患者未來(lái)幾年,甚至是更長(zhǎng)的時(shí)間內(nèi)發(fā)生某一種或某幾種并發(fā)癥的可能性,甚至可以預(yù)測(cè)并發(fā)癥發(fā)生的順序,屬二級(jí)預(yù)防和三級(jí)預(yù)防的范疇。國(guó)外開(kāi)展該研究較早,有些相關(guān)模型已經(jīng)程序化,形成了預(yù)測(cè)模型軟件,并可應(yīng)用在移動(dòng)終端上,其中最著名的有英國(guó)的前瞻性糖尿病研究模型(UK prospective diabetes study model,UKPDS model)和阿基米德糖尿病模型(Archimedes Model)[10]。
機(jī)器學(xué)習(xí)最早應(yīng)用于人工智能領(lǐng)域,屬于人工智能的核心,是一種實(shí)現(xiàn)人工智能的方法。機(jī)器學(xué)習(xí)是通過(guò)“吃大量的數(shù)據(jù)”來(lái)開(kāi)展“訓(xùn)練”,并通過(guò)各種算法規(guī)則學(xué)習(xí)完成任務(wù)的方法。機(jī)器學(xué)習(xí)傳統(tǒng)的算法包括決策樹(shù)、聚類、貝葉斯分類、支持向量機(jī)、Adaboost等。從學(xué)習(xí)方法上來(lái)分,機(jī)器學(xué)習(xí)算法可分為監(jiān)督學(xué)習(xí)(如判別分類問(wèn)題)、無(wú)(非)監(jiān)督學(xué)習(xí)(如聚類問(wèn)題)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、集成學(xué)習(xí)和深度學(xué)習(xí)[12]。
在監(jiān)督學(xué)習(xí)下,為一組示例或訓(xùn)練模塊提供正確的輸出,并在這些訓(xùn)練集的基礎(chǔ)上,通過(guò)將其輸出與作為輸入的輸出進(jìn)行比較,算法學(xué)習(xí)如何更準(zhǔn)確地響應(yīng)。監(jiān)督學(xué)習(xí)也稱為通過(guò)示例學(xué)習(xí)或從示例中學(xué)習(xí)。監(jiān)督學(xué)習(xí)任務(wù)可分為分類任務(wù)和回歸任務(wù),分類任務(wù)時(shí),輸出是離散的,而回歸任務(wù)時(shí),輸出是連續(xù)的[13]。常見(jiàn)的有監(jiān)督學(xué)習(xí)有樸素貝葉斯(naive Bayes,NB)、決策樹(shù)(decision tree,DT)、k-近鄰(k-nearest neighbor,KNN)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)、隨機(jī)森林(random forest,RF)、logistic回歸(logistic regression,LR)等。
無(wú)監(jiān)督學(xué)習(xí)方法是從數(shù)據(jù)中識(shí)別未識(shí)別的現(xiàn)有模式,以便從中導(dǎo)出規(guī)則,適用于數(shù)據(jù)類別未知的情況。無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)沒(méi)有標(biāo)記,被認(rèn)為是一種基于統(tǒng)計(jì)的學(xué)習(xí)方法,旨在從未標(biāo)記數(shù)據(jù)中發(fā)現(xiàn)隱藏結(jié)構(gòu)[13]。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)有k-均值聚類、主成分分析、系統(tǒng)聚類、獨(dú)立成分分析等。
半監(jiān)督學(xué)習(xí)是一種學(xué)習(xí)范式,研究計(jì)算機(jī)和自然系統(tǒng)(如人類)在有標(biāo)記和無(wú)標(biāo)記數(shù)據(jù)的情況下如何學(xué)習(xí)。半監(jiān)督學(xué)習(xí)的目標(biāo)是了解組合標(biāo)記和未標(biāo)記數(shù)據(jù)如何改變學(xué)習(xí)行為,并設(shè)計(jì)利用這種組合的算法。半監(jiān)督學(xué)習(xí)在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中具有重要意義,可在標(biāo)記數(shù)據(jù)稀缺或昂貴的情況下使用現(xiàn)成的未標(biāo)記數(shù)據(jù)來(lái)改進(jìn)監(jiān)督學(xué)習(xí)任務(wù)。一些流行的半監(jiān)督學(xué)習(xí)模型包括自訓(xùn)練、混合模型、聯(lián)合訓(xùn)練和多視圖學(xué)習(xí)、基于圖的方法和半監(jiān)督支持向量機(jī)[14]。
從不懂到通過(guò)不斷學(xué)習(xí)、總結(jié)規(guī)律,最終學(xué)會(huì)的過(guò)程便是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)被認(rèn)為是一種中間類型的學(xué)習(xí),其算法只提供一個(gè)反應(yīng),告訴輸出是否正確。算法必須探索并排除各種可能性,以獲得正確的輸出。強(qiáng)化學(xué)習(xí)被認(rèn)為是與批評(píng)家一起學(xué)習(xí),其算法不會(huì)對(duì)問(wèn)題提出任何建議或解決方案[15]。強(qiáng)化學(xué)習(xí)算法主要分為兩類:基于價(jià)值的算法(value-based)和基于策略的算法(policy-based)。強(qiáng)化學(xué)習(xí)的常見(jiàn)應(yīng)用場(chǎng)景包括兩個(gè)方面:動(dòng)態(tài)系統(tǒng)和機(jī)器人控制[15]。
集成學(xué)習(xí)是一個(gè)總稱,通常指的是在有監(jiān)督的機(jī)器學(xué)習(xí)任務(wù)中結(jié)合多個(gè)誘導(dǎo)因素來(lái)做出決策的方法。集成方法被認(rèn)為是許多機(jī)器學(xué)習(xí)方法面臨挑戰(zhàn)的最先進(jìn)的解決方案,通過(guò)訓(xùn)練多個(gè)模型并結(jié)合其預(yù)測(cè)來(lái)提高單個(gè)模型的預(yù)測(cè)性能[16]。三種最常見(jiàn)的集成學(xué)習(xí)分別為Bagging、Boosting和Stacking,可進(jìn)一步分為兩類:順序集成方法和并行集成方法。順序集成方法是利用基礎(chǔ)學(xué)習(xí)者之間的依賴性,按順序構(gòu)建基礎(chǔ)學(xué)習(xí)者的方法,例如Boosting;并行集成方法是利用基礎(chǔ)學(xué)習(xí)器之間的彼此獨(dú)立性,按并行構(gòu)建基礎(chǔ)學(xué)習(xí)器的方法,例如Bagging和隨機(jī)森林(Bagging的一個(gè)擴(kuò)展變體)[13]。
深度學(xué)習(xí)(deep learning,DL)是一類機(jī)器學(xué)習(xí)技術(shù),利用多層非線性信息處理進(jìn)行有監(jiān)督或無(wú)監(jiān)督的特征提取和轉(zhuǎn)換,以及模式分析和分類[17]。深度學(xué)習(xí)主要采用人工神經(jīng)網(wǎng)絡(luò)(ANN)來(lái)實(shí)現(xiàn),是一種受生物神經(jīng)系統(tǒng)工作方式啟發(fā)而構(gòu)造出的數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)由人工神經(jīng)元及其連接構(gòu)成,人工神經(jīng)元的工作邏輯可以使用多種線性、非線性數(shù)學(xué)函數(shù)來(lái)定義,其作用參數(shù)可通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)優(yōu)化而來(lái)。常見(jiàn)的深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)有多層感知機(jī)(multi-layer perceptron,MLP)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、深度自編碼器(deep autoencoder,DAE)[18]。
鑒于糖尿病控制的重要性,近年來(lái),研究人員探索了各種算法并調(diào)整了許多超參數(shù),以獲得最適合現(xiàn)實(shí)生活應(yīng)用的結(jié)果。
Dong等[19]采用機(jī)器學(xué)習(xí)方法構(gòu)建了2型糖尿病患者3年糖尿病腎病風(fēng)險(xiǎn)預(yù)測(cè)模型,并可用作臨床試驗(yàn)的篩選工具。文中比較了光梯度提升機(jī)(light gradient boosting machine,Light GBM)、極端梯度提升算法(eXtreme gradient boosting,XGBoost)、自適應(yīng)提升算法(adaptive boosting,AdaBoost)、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、支持向量機(jī)和logistic回歸這7種機(jī)器學(xué)習(xí)算法的預(yù)測(cè)性能,結(jié)果Light GBM模型的AUC(area under the curve,AUC)最高(0.815),靈敏度為0.741,特異度為0.797,準(zhǔn)確度為0.768。在此基礎(chǔ)上,SHAP框架(SHapley additive exPlanation,SHAP)可更好地解釋LightGBM模型結(jié)果。
Ihnaini等[20]采用集成深度學(xué)習(xí)模型和數(shù)據(jù)融合技術(shù)用于糖尿病預(yù)測(cè),提出了一種針對(duì)糖尿病的智能醫(yī)療推薦系統(tǒng)(smart healthcare recommendation system for multidisciplinary diabetes patients,SHRS-M3DP),并使用德國(guó)法蘭克福醫(yī)院和皮馬印第安人糖尿病數(shù)據(jù)集進(jìn)行模擬。同時(shí)將所提出的集成深度學(xué)習(xí)模型與其他分類器(SVM、LR、KNN、NB、RF和DT)進(jìn)行了預(yù)測(cè)效果的比較,所提出模型性能最佳,在融合數(shù)據(jù)集上的準(zhǔn)確度99.64%、精確度100%、靈敏度99%。Ihnaini等的系統(tǒng)改進(jìn)了疾病診斷性能,并主張將其應(yīng)用于糖尿病患者的自動(dòng)診斷和推薦系統(tǒng)。
Li等[21]利用中醫(yī)舌診與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合建立一種可用于評(píng)估高危重狀態(tài)血糖患者的預(yù)測(cè)模型。為獲得更好的分類效果,選取NB、LR、RF、SVM、XGBoost、ANN、KNN和DT這8種經(jīng)典機(jī)器學(xué)習(xí)模型,采用Stacking技術(shù)進(jìn)行模型融合,建立了Stacking模型。同時(shí)基于Vgg16、Vgg19、DenseNet121、ResNet50、InceptionV3和Xception開(kāi)發(fā)深度學(xué)習(xí)模型,結(jié)果Stacking模型的微觀平均AUROC(area under the receiver operating characteristic curve,AUROC)為0.87,宏觀平均AUROC為0.84,ResNet50模型的微觀平均AUROC為0.83,宏觀平均AUROC為0.82。
Thenappan等[22]為挖掘糖尿病數(shù)據(jù),設(shè)計(jì)了一種高準(zhǔn)確度的糖尿病早期預(yù)測(cè)模型。該研究基于EPCA(enhanced principal component analysis,EPCA)進(jìn)行特征提取,并采用改進(jìn)的支持向量機(jī)(modified support vector machine,MSVM)對(duì)疾病進(jìn)行預(yù)測(cè)和分類。同時(shí)與已有方法(KNN、DT、RF、LR、MLP、SVM、NB)進(jìn)行了分類效果比較,從性能分析來(lái)看,所提出方法的準(zhǔn)確度為97.13%,靈敏度為97.46%,特異度為97.11%,表現(xiàn)更出色。
Gupta等[23]基于皮馬印第安人糖尿病數(shù)據(jù)集,利用深度學(xué)習(xí)(DL)中的MLP和量子機(jī)器學(xué)習(xí)(quantum machine learning,QML)分別給出了相應(yīng)的預(yù)測(cè)模型。DL模型的準(zhǔn)確度0.95,靈敏度0.95,特異度為0.95,結(jié)果表明所開(kāi)發(fā)的DL模型具有優(yōu)勢(shì),并獲得了大多數(shù)性能指標(biāo)的最佳值。
Tan等[24]提出了一種用于糖尿病風(fēng)險(xiǎn)預(yù)測(cè)的GA-stacking(genetic algorithm-stacking,GA-stacking)集成學(xué)習(xí)模型。將采用與不采用遺傳算法(GA)的KNN、SVM、LR、NB、CNN和stacking模型在準(zhǔn)確度、特異度、靈敏度等指標(biāo)上進(jìn)行對(duì)比,結(jié)果表明加入GA可以提高預(yù)測(cè)效率,GA-stacking在青島體檢數(shù)據(jù)集上的平均準(zhǔn)確度、靈敏度、特異度分別為85.88%、39.24%、99.92%,在UCI(university of california at irvine,UCI)數(shù)據(jù)集上的準(zhǔn)確度、靈敏度、特異度分別為98.71%、96.77%、100%。
Chang等[25]提出了基于機(jī)器學(xué)習(xí)(ML)算法(樸素貝葉斯、隨機(jī)森林和決策樹(shù)J48)的電子診斷系統(tǒng),用于診斷糖尿病。樸素貝葉斯、隨機(jī)森林和決策樹(shù)J48結(jié)合SHAP框架形成了可解釋的機(jī)器學(xué)習(xí)模型。在完整的皮馬印第安人糖尿病數(shù)據(jù)集上,隨機(jī)森林在準(zhǔn)確度(79.57%)、特異度(75.00%)和AUC(86.24%)方面優(yōu)于樸素貝葉斯和決策樹(shù)J48,而決策樹(shù)J48具有最佳的靈敏度(88.43%)。J48決策樹(shù)始終保持88.43%(完整數(shù)據(jù)集)到89.92%(五因素?cái)?shù)據(jù)子集)的靈敏度,無(wú)論有多少特征需要處理,它都能很好地預(yù)測(cè)糖尿病的存在。樸素貝葉斯在微調(diào)特征時(shí)表現(xiàn)更好,而隨機(jī)森林在更多特征時(shí)表現(xiàn)更好。
Taha等[26]提出了一種基于模糊聚類和logistic回歸混合元分類器的集成學(xué)習(xí)方法,用于預(yù)測(cè)2型糖尿病。與6個(gè)單獨(dú)的分類器和2個(gè)集成方法(軟投票、硬投票)相比,該集成學(xué)習(xí)方法在皮馬印第安人數(shù)據(jù)集和Schorling數(shù)據(jù)集上的準(zhǔn)確度、靈敏度、AUC分別為99.31%、99.10%、99.10%和95.20%、95.40%、94.10%。
Sadeghi等[27]評(píng)估了深度神經(jīng)網(wǎng)絡(luò)(DNN)、極端梯度增強(qiáng)(XGBoost)和隨機(jī)森林(RF)在預(yù)測(cè)德黑蘭血脂和葡萄糖研究(Tehran lipid and glucose study,TLGS)隊(duì)列數(shù)據(jù)中少數(shù)民族糖尿病分類方面的性能。結(jié)果XGBoost和DNN(除了準(zhǔn)確度)在所有指標(biāo)方面都優(yōu)于RF。與XGBoost相比,DNN的AUROC具有更高的值(0.857),而重復(fù)編輯最近鄰(repeated edited nearest neighbors,RENN)使DNN的AUROC從0.857增加到了0.862。
Akula等[28]為了準(zhǔn)確預(yù)測(cè)2型糖尿病,提出了一種基于監(jiān)督機(jī)器學(xué)習(xí)的集成模型,其中有7種機(jī)器學(xué)習(xí)算法[KNN、SVM、DT、RF、梯度提升(gradient boosting)、MLP和NB],除NB之外的其他6種算法都存在非常低的精度,因此進(jìn)一步將所有算法合并到加權(quán)平均或軟投票集成模型中。集成模型在Practice Fusion和皮馬印第安人數(shù)據(jù)集上的準(zhǔn)確度、靈敏度、特異度分別為86.0%、88.4%、84.7%和89.1%、90.9%、88.4%。
Deberneh等[29]使用方差分析、卡方檢驗(yàn)和遞歸特征消除方法選擇了空腹血糖、糖化血紅蛋白、甘油三酯和體重指數(shù)等12個(gè)特征指標(biāo)。LR、RF、SVM、XGBoost、基于混淆矩陣的分類器集成方法(confusion matrix-based classifier integration approach,CIM)、stacking分類器(stacking classifier,ST) 和軟投票 (soft voting,SV)算法被用來(lái)生成預(yù)測(cè)模型。結(jié)果表明RF、SVM、CIM、SV的準(zhǔn)確度都為0.73,ST的精確度最高(0.75),SVM的靈敏度最高(0.74),但這些算法之間的性能差異在測(cè)試集上可忽略不計(jì)。
Kumar等[30]評(píng)估了英國(guó)NICE(national institute for health and care excellence,NICE)現(xiàn)有指南對(duì)評(píng)估新加坡女性妊娠期糖尿病風(fēng)險(xiǎn)的預(yù)測(cè)能力,并使用CatBoost(categorical boosting)梯度提升算法和SHAP框架開(kāi)發(fā)了一種無(wú)創(chuàng)預(yù)測(cè)模型。結(jié)果顯示NICE指南對(duì)新加坡女性的可預(yù)測(cè)性較差,AUC僅為0.60(95%CI:0.51~0.70),該無(wú)創(chuàng)預(yù)測(cè)模型的AUC為0.82(95%CI:0.71~0.93),大大優(yōu)于英國(guó)NICE指南。
Al-Nussairi等[31]提出了一種新的基于改進(jìn)灰狼優(yōu)化算法(enhanced grey wolf optimizer,EGWO)的人工神經(jīng)網(wǎng)絡(luò)算法用于糖尿病患者的分類。在皮馬印第安人糖尿病數(shù)據(jù)集上,與其他受自然啟發(fā)的優(yōu)化算法所訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較,所有算法的分類準(zhǔn)確度范圍為(0.69~0.76),其中EGWO算法的平均準(zhǔn)確度為0.76。
Wei等[32]應(yīng)用隨機(jī)森林和LASSO回歸建模預(yù)測(cè)糖尿病、血胰島素、空腹血糖(FPG)和口服葡萄糖耐量試驗(yàn)后2小時(shí)的血糖。結(jié)果RF預(yù)測(cè)糖尿病時(shí),發(fā)現(xiàn)集和驗(yàn)證集的AUROC分別為0.98和0.72,導(dǎo)致了性能差和過(guò)度擬合。而LASSO回歸預(yù)測(cè)糖尿病時(shí),發(fā)現(xiàn)集和驗(yàn)證集的AUROC分別為0.80和0.78,顯示出相對(duì)較高的性能而沒(méi)有過(guò)擬合。
Ravaut等[33]為預(yù)測(cè)2型糖尿病的發(fā)病率,利用加拿大安大略省行政健康數(shù)據(jù)建立了一個(gè)人群水平的極端梯度增強(qiáng)(XGBoost)模型,可處理不同的特征類型和缺失值,且對(duì)結(jié)果可進(jìn)行很好的解釋。該模型的AUC為80.26%(95%CI:80.21%~80.29%),并具有良好的校準(zhǔn)圖,外部和前瞻性驗(yàn)證效果好。
皮馬印第安人數(shù)據(jù)集是國(guó)內(nèi)外糖尿病相關(guān)研究最常用的數(shù)據(jù)集,而其他較小的數(shù)據(jù)集主要來(lái)自醫(yī)院。相關(guān)預(yù)測(cè)模型的性能有時(shí)會(huì)受到數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)特點(diǎn)的影響,一方面是特征平衡且結(jié)構(gòu)良好的少量樣本數(shù)據(jù)集容易構(gòu)建較優(yōu)模型,但較少的屬性特征可能無(wú)法反映多因素疾病的復(fù)雜性[34],且規(guī)模較小的研究可能不太具有廣泛的公共衛(wèi)生意義[35];另一方面是數(shù)據(jù)質(zhì)量和數(shù)據(jù)代表性在預(yù)測(cè)模型構(gòu)建中要非常重視,容易影響結(jié)果的準(zhǔn)確性和模型的可推廣性。糖尿病是一個(gè)全球性的公共衛(wèi)生問(wèn)題,除了本文提及的相關(guān)預(yù)測(cè)模型研究外,目前大多數(shù)的建模研究使用的都是特定人群、特定醫(yī)院或診所以及世界上某個(gè)特定區(qū)域數(shù)據(jù)集,所研究的模型是否能夠有效地應(yīng)用于其他地區(qū)的人群還尚不清楚,為了便于應(yīng)用并推廣,有關(guān)方法需進(jìn)一步在不同的人群中反復(fù)進(jìn)行訓(xùn)練、測(cè)試和驗(yàn)證。
機(jī)器學(xué)習(xí)是一個(gè)迭代的“試錯(cuò)”過(guò)程,運(yùn)用算法組合可獲得最佳模型。由于先前大多機(jī)器學(xué)習(xí)方法都基于單一學(xué)習(xí)方法建模,較常用的單一模型有支持向量機(jī)、樸素貝葉斯、logistic回歸和隨機(jī)森林等,其準(zhǔn)確性不高,泛化能力較差,容錯(cuò)性較差[36]。所以,目前糖尿病相關(guān)預(yù)測(cè)模型的發(fā)展趨勢(shì)是集成模型的構(gòu)建,集成模型一般比單一模型的預(yù)測(cè)性能更好,例如Taha等[26]建立的模糊C均值聚類(FCM)和logistic回歸混合元分類器模型以及Ihnaini等[20]給出的集成深度學(xué)習(xí)模型。集成學(xué)習(xí)方法雖比單一學(xué)習(xí)方法效果好,但仍有許多集成模型的預(yù)測(cè)性能和可靠性低,這也限制了其廣泛的應(yīng)用。因此建議研究者未來(lái)更加關(guān)注如何最大限度地提升集成模型的性能,以便推廣和應(yīng)用。
傳統(tǒng)統(tǒng)計(jì)學(xué)方法中,對(duì)于輸入值的每一步處理都具有相對(duì)明確而簡(jiǎn)單的關(guān)系[37]。而到目前,機(jī)器學(xué)習(xí)的可解釋性仍是一個(gè)難題。雖然機(jī)器學(xué)習(xí)算法的表示能力有所提高,但隨著模型復(fù)雜度的增加,機(jī)器學(xué)習(xí)算法的可解釋性變差,通過(guò)算法訓(xùn)練出的模型也被視為一個(gè)黑盒子[38]。預(yù)測(cè)模型可解釋性越低,成本負(fù)擔(dān)就越重,為了提高機(jī)器學(xué)習(xí)的可解釋性,很多研究者都使用了Shapley加法解釋(SHAP),使得模型對(duì)最終用戶來(lái)說(shuō)變得清晰易懂。另外,還有基于規(guī)則的解釋、激活值最大化、隱層神經(jīng)元分析、分離式表征等機(jī)器學(xué)習(xí)模型的解釋技術(shù)[38]。目前仍有很多機(jī)器學(xué)習(xí)的研究未考慮到可解釋性的問(wèn)題,這在將來(lái)是值得進(jìn)一步探究的方面。
實(shí)際應(yīng)用中,機(jī)器學(xué)習(xí)還存在離散性、無(wú)約束性等問(wèn)題。近幾十年來(lái),為了提高不同系統(tǒng)的性能和降低計(jì)算成本,各種優(yōu)化算法已經(jīng)被提出。傳統(tǒng)的優(yōu)化方法存在一些缺陷和局限性,如收斂于局部最優(yōu)解和搜索空間未知等[39]。因此,對(duì)于特定的模型和數(shù)據(jù)集,找出最適合的優(yōu)化技術(shù)非常重要。
事實(shí)上,大多數(shù)現(xiàn)代優(yōu)化技術(shù)通常是啟發(fā)式和元啟發(fā)式的,這在解決復(fù)雜優(yōu)化問(wèn)題時(shí)非常有效。元啟發(fā)式算法一般可分為四類:群體智能算法、進(jìn)化算法、基于物理的算法和基于人類的算法[39]。目前,元啟發(fā)式算法被廣泛用于優(yōu)化機(jī)器學(xué)習(xí)或深度學(xué)習(xí),甚至集成到混合預(yù)測(cè)模型上以開(kāi)發(fā)可靠的預(yù)測(cè)模型,以達(dá)到靈活、設(shè)計(jì)簡(jiǎn)單,不僅能更快地解決問(wèn)題,而且實(shí)現(xiàn)也不困難。例如文獻(xiàn)[31]使用改進(jìn)的灰狼優(yōu)化技術(shù)來(lái)優(yōu)化人工神經(jīng)網(wǎng)絡(luò),由于神經(jīng)網(wǎng)絡(luò)易陷入極小值,收斂速度慢等缺陷,需要添加合適的算法進(jìn)行優(yōu)化[40]?;依莾?yōu)化技術(shù)是一種群體智能算法,類似還有遺傳算法,麻雀搜索算法,蟻群優(yōu)化、粒子群優(yōu)化、鯨魚(yú)優(yōu)化、和獅子優(yōu)化算法等。
我們發(fā)現(xiàn)上述有關(guān)模型中都報(bào)告了準(zhǔn)確度,同時(shí)根據(jù)研究需要也選擇了其他一些性能指標(biāo)進(jìn)行報(bào)告。由于所報(bào)告的指標(biāo)存在異質(zhì)性,模型之間性能的比較就具有挑戰(zhàn)性。希望未來(lái)研究者能從混淆矩陣和AUC(ROC)中至少計(jì)算三個(gè)參數(shù)(靈敏度、特異度和AUC)。理想情況下,應(yīng)報(bào)告五個(gè)(準(zhǔn)確度、靈敏度、特異度、精確度和F1分?jǐn)?shù))或更多參數(shù)(AUC等),以便于比較。如果其中有一個(gè)缺失了,還可從其他參數(shù)進(jìn)行估計(jì)[34]。
目前,基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法雖然在疾病發(fā)生和預(yù)后方面具有良好的預(yù)測(cè)效果,但也存在著數(shù)據(jù)量大、一定時(shí)間內(nèi)數(shù)據(jù)連續(xù)、泛化能力弱、過(guò)擬合(over-fitting)、陷入局部極小、對(duì)隨機(jī)和不穩(wěn)定數(shù)據(jù)不敏感、對(duì)不平衡數(shù)據(jù)的預(yù)測(cè)效果不理想等缺點(diǎn)[41]。其中,不平衡數(shù)據(jù)分類問(wèn)題是極其重要的研究領(lǐng)域,需要引起重視。在建模時(shí)充分考慮非平衡數(shù)據(jù)的影響,可獲得預(yù)測(cè)性能高的模型,從而為我國(guó)人群糖尿病的預(yù)防和控制提供科學(xué)方法和依據(jù)[42]。未來(lái)有關(guān)方法學(xué)的醫(yī)學(xué)研究中將會(huì)更加注重上述缺點(diǎn),從而建立更優(yōu)秀的機(jī)器學(xué)習(xí)模型,在人群慢性病防治領(lǐng)域中將發(fā)揮更大的作用。
中國(guó)衛(wèi)生統(tǒng)計(jì)2023年4期