国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K近鄰一隨機(jī)森林集成算法的肝病預(yù)測研究

2020-07-04 02:13:18蔡莉莉侯珂珂
電腦知識(shí)與技術(shù) 2020年13期
關(guān)鍵詞:隨機(jī)森林分?jǐn)?shù)

蔡莉莉 侯珂珂

摘要:為了提高肝病預(yù)測準(zhǔn)確率,提出一種基于K近鄰一隨機(jī)森林算法的肝病預(yù)測集成模型。首先對(duì)UCI數(shù)據(jù)集中的印度肝病數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理;然后分別采用K近鄰和隨機(jī)森林算法構(gòu)建出肝病預(yù)測的弱分類器;最后將兩個(gè)弱分類器利用voting策略進(jìn)行集成以獲得集成肝病預(yù)測模型。同時(shí)分析了特征對(duì)模型的貢獻(xiàn)程度。實(shí)驗(yàn)結(jié)果表明模型的性能指標(biāo)F1一分?jǐn)?shù)取得了84%的良好表現(xiàn)。因此利用該集成模型可為醫(yī)生的臨床診斷提供支持。

關(guān)鍵詞:肝病預(yù)測;K近鄰;隨機(jī)森林;集成模型;F1-分?jǐn)?shù)

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)13-0204-02

1引言

由于病毒感染、過量飲酒,吸人有害氣體以及攝人受污染的食物、咸菜和毒品等,近年來,肝病患者一直在不斷增加。慢性肝病容易誘發(fā)肝纖維化,若不及時(shí)診治會(huì)誘發(fā)為肝硬化甚至惡化為肝癌。根據(jù)相關(guān)數(shù)據(jù)顯示,全球肝癌及肝硬化死亡人數(shù)由1990年的130萬人上升至2010年的180萬人。原發(fā)性肝癌在2015年全球最常見癌癥中排第六位。5%至20%肝硬化病例會(huì)演變成肝癌,而超過50%的原發(fā)性肝癌由肝硬化引起。由于肝癌通常于末期才可確診,故死亡率居高不下,五年存活率約為5%。因此,在惡化成肝癌前,能夠及時(shí)有效地確診患者肝部疾病對(duì)于保障患者的生命健康起到至關(guān)重要的作用。

隨著計(jì)算機(jī)技術(shù)及人工智能理論的發(fā)展,在醫(yī)療領(lǐng)域,將機(jī)器學(xué)習(xí)算法應(yīng)用于疾病診斷的研究十分廣泛。劉宇、王健等將XGBoost和卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于心臟病預(yù)測研究中,葛皓昀將K近鄰算法應(yīng)用到肝炎預(yù)測中取得了較好的預(yù)測效果,此外,一些經(jīng)典的機(jī)器學(xué)習(xí)算法如SVM,隨機(jī)森林也被應(yīng)用到相關(guān)疾病預(yù)測的決策問題中。因此考慮將機(jī)器學(xué)習(xí)的方法應(yīng)用于肝病患者的診療中,一方面為醫(yī)生的臨床診斷提供指導(dǎo)幫助,另一方面也可有效提高醫(yī)生的診療效率。在借鑒上述工作的基礎(chǔ)上,本文提出一種基于K近鄰一隨機(jī)森林算法的集成學(xué)習(xí)策略,借助于集成學(xué)習(xí)良好的泛化性能及學(xué)習(xí)能力,將其應(yīng)用于患者肝病診斷問題研究中。

2K近鄰一隨機(jī)森林的集成肝病預(yù)測模型構(gòu)建

K近鄰(K nearest neighbour,KNN)算法作為常用的監(jiān)督學(xué)習(xí)算法之一,廣泛應(yīng)用于分類問題中。應(yīng)用K近鄰算法進(jìn)行分類的核心思想是通過度量特征空間中樣本之間的相似性,獲得距離目標(biāo)點(diǎn)最近的k個(gè)點(diǎn),然后根據(jù)少數(shù)服從多數(shù)的分類決策規(guī)則,將k個(gè)點(diǎn)中類別標(biāo)簽數(shù)最多的類賦予目標(biāo)點(diǎn),從而確定目標(biāo)點(diǎn)的分類。K近鄰算法因原理簡單,對(duì)異常值不敏感,使用起來較為方便,且分類效果較佳,得到了廣泛的應(yīng)用;但由于K近鄰算法度量距離時(shí)其復(fù)雜性依賴于數(shù)據(jù)集的大小,當(dāng)樣本量較大時(shí)其計(jì)算復(fù)雜度較高,并且容易過擬合,因此在實(shí)際應(yīng)用中也常將K近鄰算法與其他算法結(jié)合使用以提高模型的泛化能力。

集成學(xué)習(xí)(ensemble learning)是時(shí)下非常流行的機(jī)器學(xué)習(xí)算法。它本身不是一種獨(dú)立的機(jī)器學(xué)習(xí)算法,而是一種學(xué)習(xí)策略,基于數(shù)據(jù)構(gòu)建出多個(gè)弱分類器模型,然后集成所有模型的建模結(jié)果,廣泛應(yīng)用于市場營銷、疾病風(fēng)險(xiǎn)預(yù)測、金融風(fēng)險(xiǎn)評(píng)估等領(lǐng)域。集成學(xué)習(xí)算法常見的有袋裝法(bagging),提升法(boosting)等。隨機(jī)森林是隸屬于bagging集成學(xué)習(xí)算法中的一種經(jīng)典算法,其以決策樹作為弱分類器,通過構(gòu)建多棵決策樹形成的隨機(jī)森林對(duì)目標(biāo)樣本進(jìn)行決策。森林中的各個(gè)決策樹是獨(dú)立的,將若干個(gè)弱分類器決策樹的分類結(jié)果進(jìn)行投票選擇,從而組成一個(gè)強(qiáng)分類器,這就是隨機(jī)森林bagging的核心思想。

本文采用KNN算法和隨機(jī)森林算法作為弱分類器,分別針對(duì)肝病數(shù)據(jù)集建立預(yù)測模型,然后采用投票(voting)策略對(duì)兩個(gè)弱分類器進(jìn)行集成,其流程圖如圖1所示。

步驟一,將原始數(shù)據(jù)進(jìn)行預(yù)處理后按照訓(xùn)練測試集比例7:3進(jìn)行劃分,基于訓(xùn)練集分別采用KNN算法和隨機(jī)森林算法構(gòu)建出弱分類器;

步驟二,對(duì)構(gòu)建出的兩個(gè)弱分類器模型采用投票法進(jìn)行集成,構(gòu)建集成模型;

步驟三,計(jì)算模型的評(píng)價(jià)指標(biāo)以評(píng)估模型的性能。

3實(shí)驗(yàn)結(jié)果與分析

3.1數(shù)據(jù)集描述

本文研究的肝病數(shù)據(jù)集來源于印度安得拉邦東北部收集的共583條患者數(shù)據(jù)記錄,其中確診肝病患者為416例,無肝病者為167例。該數(shù)據(jù)集性別分布為:男性441位和女性142位。樣本集中每個(gè)樣本具有10個(gè)特征及1個(gè)類別標(biāo)簽屬性,其中類別標(biāo)簽標(biāo)明了患者肝部是否患病。而10個(gè)特征分別記錄了每位患者的性別、年齡及一些生理指標(biāo)信息。特征列表如表1所示。

通過表1可以發(fā)現(xiàn),該數(shù)據(jù)集的10個(gè)特征中大部分均為連續(xù)值屬性,僅性別為離散型二值屬性;而連續(xù)值屬性中如堿性磷酸酶、鋁胺轉(zhuǎn)氨酶及天冬氨酸轉(zhuǎn)氨酶等取值極差較大,如果不加處理則會(huì)對(duì)最終預(yù)測結(jié)果造成干擾。因此,對(duì)這類數(shù)據(jù)采用標(biāo)準(zhǔn)化方法進(jìn)行處理。另外,數(shù)據(jù)集中有4位患者的白蛋白和球蛋白比存在缺失值,針對(duì)這四條缺失的記錄,采用中位數(shù)進(jìn)行填充。

3.2模型評(píng)估標(biāo)準(zhǔn)

該醫(yī)學(xué)問題事實(shí)上是個(gè)分類問題,分類模型的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Accuracy)、查準(zhǔn)率(Precision)、查全率(Recall)、Fl一分?jǐn)?shù)等?;卺t(yī)學(xué)問題的特殊性,本文分類模型的主要目的是正確篩查出患有肝病的病人。假設(shè)患有肝病的樣本為正類樣本,則未患病的樣本為負(fù)類樣本。在該問題中,我們更關(guān)注正類樣本被有效識(shí)別為正類的準(zhǔn)確性,即正類樣本的查準(zhǔn)率和查全率指標(biāo)。因此在下面的模型評(píng)估指標(biāo)中選取預(yù)測準(zhǔn)確率,正類樣本的查準(zhǔn)率、查全率及F1-score作為模型的評(píng)價(jià)指標(biāo)。

3.3實(shí)驗(yàn)結(jié)果分析

本實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境為:CPU為Intel i5 2.39GHz;RAM為4GB。采用skleam模塊進(jìn)行程序?qū)崿F(xiàn),實(shí)驗(yàn)參數(shù)選取采用網(wǎng)格搜索法確定K近鄰的最佳K值為21,隨機(jī)森林中決策樹的個(gè)數(shù)為9。基于訓(xùn)練集訓(xùn)練后的弱分類器模型及集成模型在測試集上的性能表現(xiàn)如表2所示。

由表2可以看出,采用KNN算法及隨機(jī)森林算法構(gòu)建的集成模型融合了兩種算法的優(yōu)勢,使得模型的分類準(zhǔn)確率和F1-分?jǐn)?shù)得到了提升,泛化性能較為優(yōu)越。

由于集成模型中的隨機(jī)森林仍然屬于樹模型,對(duì)于樹模型可以判斷每個(gè)特征變量對(duì)模型的貢獻(xiàn)程度,從而判斷哪些特征變量對(duì)于患肝病的影響更為顯著,為醫(yī)生臨床診斷提供參考指標(biāo)。圖2繪制了各個(gè)特征對(duì)于預(yù)測模型的重要性程度。

如圖2所示,其中排在前5位的F2,F(xiàn)4,F(xiàn)5,F(xiàn)0,F(xiàn)6分別代表特征總膽紅素、堿性磷酸酶、鋁胺轉(zhuǎn)氨酶、年齡、天冬氨酸轉(zhuǎn)氨酶。因此患者應(yīng)著重關(guān)注這些指標(biāo),將他們控制在正常范圍內(nèi)以降低患病的概率;而患病風(fēng)險(xiǎn)一般是隨年齡增長而增加,因此對(duì)于年長者也應(yīng)格外關(guān)注自己的這些指標(biāo)。對(duì)于醫(yī)生在后續(xù)的臨床診斷中也可參考這些指標(biāo)的數(shù)值作為診療判斷依據(jù)。

4結(jié)論

本文使用uCI數(shù)據(jù)集中的印度肝病病人數(shù)據(jù)集展開研究,提出一種基于K近鄰和隨機(jī)森林的集成模型用于預(yù)測病人的肝臟是否患病。實(shí)驗(yàn)結(jié)果表明,該集成模型提高了樣本集的泛化能力。此外,針對(duì)用于建模的特征集合進(jìn)行了重要性的評(píng)估,找出了對(duì)模型貢獻(xiàn)程度較高的一些指標(biāo),為患者的就醫(yī)指導(dǎo)提供了相關(guān)依據(jù),同時(shí)也對(duì)醫(yī)生的臨床診斷具有一定的參考價(jià)值。

猜你喜歡
隨機(jī)森林分?jǐn)?shù)
善變的分?jǐn)?shù)
分?jǐn)?shù)的由來
無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
可怕的分?jǐn)?shù)
15. 唉,分?jǐn)?shù)
幽默大師(2017年12期)2017-10-30 01:54:42
算分?jǐn)?shù)
隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
和龙市| 青浦区| 余姚市| 灵川县| 枣庄市| 斗六市| 保亭| 清远市| 读书| 东山县| 定边县| 泾阳县| 临邑县| 芮城县| 柳河县| 潮州市| 尼玛县| 昌宁县| 买车| 常熟市| 武陟县| 长武县| 安平县| 汽车| 南郑县| 金堂县| 金寨县| 法库县| 华池县| 昌宁县| 南乐县| 凌海市| 万盛区| 新安县| 若羌县| 通化市| 浦北县| 深州市| 四平市| 木兰县| 宣化县|