国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于IG-DNN混合決策算法的糖尿病預測研究

2019-10-15 02:21盧春城黃理燦劉靖雯
軟件導刊 2019年8期

盧春城 黃理燦 劉靖雯

摘 要:糖尿病患者人數(shù)眾多,對人的健康危害極大,盡早預測是否患有糖尿病是降低糖尿病死亡率的關鍵?;贗G-DNN混合決策算法進行糖尿病預測模型研究,其中糖尿病數(shù)據(jù)集來源于UCI機器學習庫—PIDD。PIDD包括768個記錄,每條記錄包含8個屬性。首先應用信息增益方法(IG)將屬性減少到5個,然后將其應用于DNN作為輸入。該方法分類準確度達到88.3%,效果優(yōu)于之前的大部分研究成果。

關鍵詞:糖尿病預測模型; PIDD; 信息增益(IG);深度神經(jīng)網(wǎng)絡(DNN)

DOI:10. 11907/rjdk. 182845 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2019)008-0021-05

Research on Diabetes Hybrid Decision Algorithm Based on IG-DNN

LU Chun-cheng, HUANG Li-can, LIU Jing-wen

(School of Information Science and Technology, Zhejiang Sci-tech University, Hangzhou 310018, China)

Abstract: A large number of patients suffer from diabetes which is extremely harmful to peoples health, and early prediction of diabetes is the key to reducing diabetes mortality. Machine learning algorithms are often used to build diabetes prediction models. In this paper, a hybrid decision algorithm based on IG-DNN is proposed. The diabetes dataset was derived from the UCI machine learning library, PIDD. The PIDD consists of 768 records, each of which contains 8 attributes. The proposed new method first applies the information gain method (IG) to reduce the attribute to 5 and then applies it to the DNN as input. The classification accuracy of the proposed new method is 88.3%, which is better than most previous research results.

Key Words: diabetes prediction model; PIDD; information gain; deep neural network

作者簡介:盧春城(1992-),男,浙江理工大學信息學院碩士研究生,研究方向為數(shù)據(jù)挖掘;黃理燦(1962-),男,浙江理工大學信息學院教授、碩士生導師,研究方向為分布式計算、下一代網(wǎng)絡;劉靖雯(1995-),女,浙江理工大學信息學院碩士研究生,研究方向為機器學習。

0 引言

糖尿病、高血壓、心腦血管疾病被稱為21世紀威脅人類健康的3大殺手 [1-2]。據(jù)統(tǒng)計,我國是全球糖尿病人數(shù)最多的國家,2017年糖尿病人數(shù)為1.14億,預計到2045年將達到 1.5億左右[3]。因此,糖尿病研究對于大眾身體健康具有十分重要的意義。

當前應用于糖尿病預測模型的建模方式主要有兩類:一類以統(tǒng)計學為基礎,主要包含Logistic回歸、Cox回歸等方法;另一類以機器學習算法為主,模型搭建方法主要有K近鄰算法(KNN)、決策樹、人工神經(jīng)網(wǎng)絡(ANN)等[4-7]。這些方法各有優(yōu)勢以及不足,如人工神經(jīng)網(wǎng)絡模型有整體性、并行性、較高的容錯性等特點,但存在對隨機性和波動性較大的數(shù)據(jù)預測精度差等劣勢。建立糖尿病及其并發(fā)癥預測模型必須考慮各個危險因素間的非線性作用,上述算法對復雜函數(shù)的表達能力有限,或多或少會受到制約[8-9]。

隨著深度學習技術的發(fā)展,其強大的特征提取和學習能力越來越多地應用到疾病預測領域[10-12]。

劉飛等[13]利用MRI圖像作為CNN輸入,提高了I型糖尿病患者和II型糖尿病患者的分類準確率,實現(xiàn)了對糖尿病患者MRI圖像的分類識別。

Andre Esteva等[14]利用CNN訓練129 450張臨床皮膚癌圖像,取得了與皮膚癌專家相當?shù)脑\斷性能,表明人工智能與皮膚科醫(yī)生水平相當。

相對于其它淺層機器學習方法,深度學習技術能夠提高疾病預測模型的準確率,而之前利用深度學習搭建的糖尿病預測模型相對較少。本文嘗試將深度神經(jīng)網(wǎng)絡(DNN)應用于糖尿病診斷預測并進行相應的性能評估。

1 數(shù)據(jù)集與研究方法

1.1 實驗數(shù)據(jù)集

本文研究所用糖尿病數(shù)據(jù)來源于UCI,全稱皮馬印第安人糖尿病數(shù)據(jù)集(簡稱PIDD)。該數(shù)據(jù)集由美國國立糖尿病、消化和腎臟疾病研究所(簡稱NIDDK)收集提供[15]。

PIDD共768個樣本,有8個特征屬性和一個標簽變量,8個特征屬性含義如下:①懷孕次數(shù)(NP);②在內(nèi)服葡萄糖耐量實驗中兩小時以后的血漿葡萄糖濃度,本文簡稱為血糖值(英文簡稱PGC);③舒張壓(mm Hg),本文簡稱為血壓(英文簡稱DBP);④三頭肌皮褶厚薄程度(mm),本文簡稱為皮脂厚度(英文簡稱TSFT);⑤2小時血清胰島素(mu/ml),本文簡稱為胰島素含量(英文簡稱Insulin);⑥體重指數(shù)(英文簡稱BMI);⑦糖尿病譜系功能,本文簡稱為遺傳指數(shù)(英文簡稱DPF);⑧年齡(英文簡稱Age)。

標簽變量值為0和1,其中1代表患有糖尿病,0代表不患有糖尿病。整理成csv文件后數(shù)據(jù)集如表1所示。

表1 PIDD數(shù)據(jù)集csv樣本格式

通過統(tǒng)計分析,標簽值為1的樣本數(shù)量是500個(占總樣本65.1%),標簽值為0的樣本數(shù)總共268個(占總樣本34.9%)。圖1展示了樣本標簽值分布情況。

圖1 PIDD數(shù)據(jù)集樣本標簽值分布

通過簡單計算可得到PIDD數(shù)據(jù)集的特征值,如表2所示。

表2 PIDD數(shù)據(jù)集特征值

1.2 研究方法

1.2.1 系統(tǒng)總體架構

系統(tǒng)架構如圖2所示。

圖2 總體架構

1.2.2 信息增益(IG)

數(shù)據(jù)集中每個屬性都具有特定的等級和重要性,為評估每個屬性的重要性,通過衡量其相對于其它屬性的增益比得到評估價值。信息增益算法通過估計經(jīng)驗熵和經(jīng)驗條件熵之間的差異獲取信息增益(X,Y),算法如下:

輸入:X,Y(其中X和Y被認為是離散變量);輸出:信息增益InfoGain(X,Y)。

其中X的經(jīng)驗熵表示如下:

[Entropy(X)=-xP(X)log2P(X)]? ? ? ? ? (1)

這里P(X)表示X的概率函數(shù),或離散變量取某值的概率。Y獲得的關于X的經(jīng)驗條件熵表示如下:

[Entropy(X|Y)=-VP(Y)Entropy(X|Y)=]

[-YP(Y)Entropy(X|Y)log2P(X|Y)]? ? (2)

信息增益是信息熵的差,即X的經(jīng)驗熵和Y的后熵的差,表示在消除不確定后獲得的信息量,如式(3)所示。

[InfoGain(X;Y)=Entropy(X)-Entropy(X|Y)]? (3)

特征的信息增益越大說明熵的變化越大,熵變化越大越有利于分類。信息增益體現(xiàn)了特征的重要性,信息增益越大說明特征越重要。

1.2.3 深度神經(jīng)網(wǎng)絡(DNN)

深度神經(jīng)網(wǎng)絡(DNN)是研究深度學習的基礎,而要理解DNN則先要理解DNN模型。

DNN模型是由感知機模型發(fā)展起來的,它是一個有若干輸入和一個輸出的模型,如圖3所示。

圖3 感知機模型

輸入和輸出之間學習到一個線性關系,得到中間輸出結果如公式(4)所示。

[z=i=1mwixi+b]? ? ? ? ? ? ?(4)

神經(jīng)元激活函數(shù)如公式(5)所示。

[sign(z)=-1? z<01? ? ?z0]? ? ? ? ? ? (5)

從而得到想要的輸出結果1或者-1。

這個模型只能用于二元分類,且無法學習比較復雜的非線性模型,因此在工業(yè)界無法使用。而神經(jīng)網(wǎng)絡在感知機模型上作了擴展,總結主要有3點:①加入了隱藏層,隱藏層可以有多層,增強了模型的表達能力;②輸出層的神經(jīng)元也可以不止一個輸出,可以有多個輸出,這樣模型可以靈活應用于分類回歸以及其它機器學習領域,如降維和聚類等;③對激活函數(shù)作擴展,感知機的激活函數(shù)是[sign(z)],雖然簡單但是處理能力有限,因此神經(jīng)網(wǎng)絡中一般使用其它激活函數(shù),比如在卷積神經(jīng)網(wǎng)絡里使用的Softmax函數(shù),如公式(6)所示。

[σ(z)j=ezjk=1Kezk]? ? ? ? ? ? ? (6)

還有后來出現(xiàn)的[tanx、ReLU]等。

神經(jīng)網(wǎng)絡基于感知機擴展,而DNN可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡。從DNN按不同層的位置劃分,DNN內(nèi)部神經(jīng)網(wǎng)絡層可分為3類:輸入層(input layer)、隱藏層(hidden layer)和輸出層(output layer),如圖4所示。

圖4 DNN結構

1.2.4 糖尿病預測模型評價標準

本文對糖尿病模型的性能評估主要采用準確度、靈敏度和特異度指標。評價靈敏度和特異度,要用到混淆矩陣定義,如表3所示。

表3 混淆矩陣定義

[分類\&模型預測患?。?模型預測未患?。?實際患?。?TP\&FN\&實際未患?。?FP\&TN\&]

從表3中可以得出4種情況:①在測試集中,當患有糖尿病的病人經(jīng)過模型被預測為糖尿病患者時,即是真正類(TP);②若患有糖尿病的病人被診斷為未患有糖尿病,即是假正類(FN);③當未患有糖尿病的病人經(jīng)過模型被診斷為未患有糖尿病時,即是真負類(FP);④若未患病的病人被診斷為患有糖尿病則為假負類(TN)[16]。

準確度通常用Acc表示,計算公式如下:

[Acc=TP+TNTP+FN+TN+FP]? ? ? ? (7)

靈敏度通常用Sen表示,計算公式如下:

[Sen=TPTP+FN]? ? ? ? ? ? ?(8)

特異度通常用Spe表示,計算公式如下:

[Spe=TNTN+FP]? ? ? ? ? ? ?(9)

上面3個指標能夠客觀分析評估模型,在醫(yī)學、數(shù)據(jù)挖掘和模型識別等領域應用廣泛。

2 實驗步驟

2.1 PIDD糖尿病數(shù)據(jù)集

本文的數(shù)據(jù)集來自UCI皮馬印第安人糖尿病數(shù)據(jù)集(PIDD),整理為csv文件如表4所示。

表4 PIDD csv格式

2.2 特征選擇及預處理

特征選擇和預處理采用信息增益算法(IG),一般一個屬性的熵越大,它能夠給分類系統(tǒng)帶來的信息量就越大,這樣就可以選擇重要性較高的屬性。weka中PIDD信息增益值折線如圖5所示。

從圖5可以看出,糖尿病數(shù)據(jù)集的屬性信息增益值在屬性TSFT處出現(xiàn)拐點,取top5屬性后的數(shù)據(jù)集如表5所示。

圖5 信息增益折線

表5 新數(shù)據(jù)集csv格式

2.3 訓練集和測試集劃分

考慮到DNN模型訓練需要大量數(shù)據(jù)集,本文劃分90%作為訓練集,共691個樣本,剩下的10%作為測試集,共77個樣本。

將訓練集數(shù)據(jù)整理成csv文件格式如表6所示。

表6 訓練集數(shù)據(jù)格式

表6中,691代表訓練集個數(shù),5代表經(jīng)過特征選擇后剩下的屬性。

2.4 使用DNN構造糖尿病分類器

利用TensorFlow搭建DNN分類器,通過不斷調(diào)整DNN參數(shù),得到層數(shù)對照試驗數(shù)據(jù)如表7所示(步長? ? ? ? 3 200)。

從表7可以看出,當隱藏層為10,20,40,40,20,10時,DNN模型預測準確率最高。

3 結果分析

經(jīng)過IG—DNN模型分析,得到當隱藏層為6層時,獲得模型分類準確率最高,為88.31%。如圖6所示。

表7 層數(shù)對比試驗數(shù)據(jù)

圖6 IG-DNN準確率

圖7 混淆矩陣

最后,通過Python畫出的混淆矩陣如圖7所示。從圖7可以得到:實際類型是1、預測類型是0的樣本數(shù)是4,實際類型是1、預測為1的樣本數(shù)是46;同時,實際類型是0預測類型是1的樣本個數(shù)是5,實際類型是0預測類型是0的樣本個數(shù)是22。

通過計算,相應的靈敏度(Sen)和特異度(Spe)分別是:0.92、0.81,見表8。

表8 IG-DNN算法結果評估

[準確率(%)\&靈敏度\&特異度\&88.3\&0.92\&0.81\&]

本文獲得的分類準確度和PIDD數(shù)據(jù)集的其它研究最佳值對比結果見表9。

表9 IG-DNN算法結果對比

4 結語

本文主要研究了基于IG-DNN混合決策算法在糖尿病預測分類中的效果。實驗結果表明:通過此方法可以獲得高達88.3%準確率,而且能夠獲得較高的特異值和靈敏度。但本文存在的不足之處是PIDD數(shù)據(jù)集特征屬性并不一定完全適用于中國人,后期需要制定中國人自己的糖尿病指標。將來可與醫(yī)院合作收集更多的糖尿病病例數(shù)據(jù),嘗試利用IG-DNN訓練出更好的模型,從而獲得更高的準確率。

參考文獻:

[1] 廖涌. 中國糖尿病的流行病學現(xiàn)狀及展望[J]. 重慶醫(yī)科大學學報,2015(7):1042-1045.

[2] 潘長玉. 中國糖尿病控制現(xiàn)狀——指南與實踐的差距,亞洲糖尿病治療現(xiàn)狀調(diào)查1998,2001及2003年中國區(qū)結果介紹[J]. 國際內(nèi)分泌代謝雜志,2005, 25(3):174-178.

[3] 周海龍,楊曉妍,潘曉平,等. 中國人群糖尿病疾病負擔的系統(tǒng)評價[J]. 中國循證醫(yī)學雜志,2014(12):1442-1449.

[4] 徐先明,吳海龍,劉軒,等. 一種機器學習妊娠期糖尿病發(fā)病風險及病情程度預測系統(tǒng)[P]. 中國,CN106446595A 2017-02-22.

[5] LI Y,WANG X Z,HUA Q. Using BP-network to construct fuzzy decision tree with composite attributes[C].International Conference on Machine Learning and Cybernetics. IEEE, 2004:1791-1795.

[6] 馬瑾,孫穎,劉尚輝. 決策樹模型在住院2型糖尿病患者死因預測中的應用[J]. 中國衛(wèi)生統(tǒng)計, 2013, 30(3):422-423.

[7] 李劍,吳清鋒,李舒梅. 數(shù)據(jù)挖掘技術在2型糖尿病風險評估模型中的應用[J]. 贛南醫(yī)學院學報,2014(6):974-977.

[8] SUDHA S. Disease prediction in data mining technique-a survey[J]. International Journal of Computer Applications & Information Technology, 2013, 2(1):189-195.

[9] SMITH J W,EVERHART J E,DICKSON W C,et al. Using the adaptive learning algorithm to forcast the onset of diabetes mellitus[J]. Proc Annu Symp Comput Appl Med Care, 1988(10):261-265.

[10] LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature, 2015 (7553):436-521.

[11] 吳邦華,黃?,?,姚強, 等. 大數(shù)據(jù)及人工智能方法在妊娠期糖尿病預測的應用[J]. 中國衛(wèi)生信息管理雜志,2017(6):96-99.

[12] 王威,李郁,張文娟,等.深度學習技術在疾病診斷中的應用[J].第二軍醫(yī)大學學報,2018,39(8):852-858.

[13] 劉飛,張俊然,楊豪.基于深度學習的糖尿病患者的分類識別[J].計算機應用,2018,38(S1):39-43.

[14] ESTEVA A,KUPREL B,NOVOA R A,et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature,2017 (8423):214-221.

[15] 李桂花,孔祥恩,張春天. 胰島素與辛伐他汀合用治療早期糖尿病腎病42例臨床觀察[J]. 中國實用內(nèi)科雜志,2007(1):154-159.

[16] 狄曉敏,謝紅薇. 多疾病共同危險因素挖掘與MARS預測模型研究[J]. 計算機應用與軟件,2013(10):36-40.

[17] WU J,DIAO Y B,LI M L, et al. A semi-supervised learning based method: Laplacian support vector machine used in diabetes disease diagnosis[J]. Interdisciplinary Sciences Computational Life Sciences, 2009, 1(2):151-155.

[18] TEMURTAS H,YUMUSAK N,TEMURTAS F. A comparative study on diabetes disease diagnosis using neural networks[J]. Expert Systems with Applications, 2009, 36(4):8610-8615.

[19] TOMAR D,AGARWAL S. Hybrid feature selection based weighted least squares twin support vector machine approach for diagnosing breast cancer, hepatitis, and diabetes[M]. Hindawi Publishing Corp,2015.

[20] HAYASHI Y,YUKITA S. Rule extraction using recursive-rule extraction algorithm with j48graft combined with sampling selection techniques for the diagnosis of type 2 diabetes mellitus in the Pima Indian dataset[J]. Informatics in Medicine Unlocked, 2016(2):92-100.

(責任編輯:杜能鋼)