国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于不完整乳腺癌數(shù)據(jù)的模型預(yù)測研究

2021-10-16 12:45鄧鈺芳
現(xiàn)代信息科技 2021年7期
關(guān)鍵詞:乳腺癌

摘要:針對不完整乳腺癌數(shù)據(jù)問題,該研究提出kmeans-KNN方法處理缺失值。首先對訓(xùn)練集進(jìn)行聚類并采用KNN進(jìn)行缺失值填充,基于完整訓(xùn)練集訓(xùn)練線性回歸模型填充測試集的缺失值,然后使用機(jī)器學(xué)習(xí)算法XGBoost、RF、KNN、SVM對完整訓(xùn)練集進(jìn)行訓(xùn)練建模,利用建立好的模型對完整測試集進(jìn)行測試。結(jié)果證明kmeans-KNN在缺失值預(yù)處理上優(yōu)于EM、MICE等常用的缺失值填補(bǔ)方法,在準(zhǔn)確度和AUC上,kmeans-KNN+SVM取得最優(yōu)。

關(guān)鍵詞:不完整數(shù)據(jù);乳腺癌;診斷預(yù)測

中圖分類號:R737.9? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2021)07-0050-04

Model Prediction Research Based on Incomplete Breast Cancer Data

DENG Yufang

(School of Computer,Electronics and Information,Guangxi University,Nanning? 530004,China)

Abstract:Aiming at the problem of incomplete breast cancer data,the study proposed the kmeans-KNN method to deal with missing values. First,cluster the training set and use KNN to fill in missing values,and train a linear regression model based on the complete training set to fill in missing values in the test set. Then,machine learning algorithms XGBoost,RF,KNN,and SVM are used to train and model the complete training set and complete test is used to test. The results show that kmeans-KNN is better than EM,MICE and other common missing value filling methods in missing value preprocessing,and kmeans-KNN+SVM is the best in accuracy and AUC.

Keywords:incomplete data;breast cancer;diagnosis prediction

收稿日期:2021-03-09

0? 引? 言

據(jù)國際癌癥研究機(jī)構(gòu)(IARC)發(fā)布的最新數(shù)據(jù)顯示[1],截至2020年乳腺癌已成為全球女性發(fā)病率最高的癌癥。在大數(shù)據(jù)時(shí)代,使用機(jī)器學(xué)習(xí)方法建立乳腺癌診斷模型進(jìn)行診斷預(yù)測為醫(yī)生的臨床決策提供科學(xué)參考是非常有意義的。然而機(jī)器學(xué)習(xí)方法的應(yīng)用是基于完整可分類的數(shù)據(jù)。如果不對缺失數(shù)據(jù)進(jìn)行處理則很難通過機(jī)器學(xué)習(xí)方法建立有效的生存預(yù)測模型,缺失數(shù)據(jù)的存在給乳腺癌生存預(yù)測帶來了很大的難度,甚至有可能會使整個(gè)數(shù)據(jù)失去價(jià)值。因此針對缺失數(shù)據(jù)進(jìn)行合理處理是非常有必要的。

針對不完整數(shù)據(jù)的處理,國內(nèi)外已有大量的相關(guān)研究。如Hadi等人采用不處理、均值、EM和K-近鄰(KNN)四種缺失值處理方法進(jìn)行比較研究,并使用KNN、決策樹、邏輯回歸和支持向量機(jī)(SVM)四種機(jī)器學(xué)習(xí)算法構(gòu)建乳腺癌生存模型,結(jié)果顯示KNN+KNN建立的模型最佳,而均值填充法的效果遠(yuǎn)差于EM和KNN填充法[2]。但是大多數(shù)研究是先刪除缺失數(shù)據(jù)然后基于隨機(jī)缺失假定來采用缺失值填充法進(jìn)行缺失值處理,并用均方根誤差和錯(cuò)誤率評價(jià)填充效果[3,4]。而實(shí)際應(yīng)用過程中往往無法驗(yàn)證隨機(jī)缺失的假定是否正確[5],且刪除數(shù)據(jù)容易導(dǎo)致構(gòu)造模型時(shí)出現(xiàn)偏倚。正如文獻(xiàn)[3]所說的要根據(jù)數(shù)據(jù)集缺失情況和所要研究內(nèi)容來決定缺失值處理方法,因此為建立有效的乳腺癌診斷模型,本文提出kmeans-KNN進(jìn)行缺失值預(yù)處理,然后采用XGBoost、隨機(jī)森林(RF)、KNN、SVM四種機(jī)器學(xué)習(xí)算法進(jìn)行建模。

1? 不完整乳腺癌數(shù)據(jù)的預(yù)處理方法

數(shù)據(jù)缺失問題一直是數(shù)據(jù)預(yù)處理的挑戰(zhàn)之一。目前對缺失數(shù)據(jù)的處理的常見方法有(1)刪除(2)不處理(3)填充[3]。刪除往往是對含有缺失值的樣本進(jìn)行刪除,不處理則是對含有缺失值的樣本不進(jìn)行任何處理,然而在基于以機(jī)器學(xué)習(xí)為基礎(chǔ)的數(shù)據(jù)挖掘中,除了采用XGBoost、決策樹C4.5樹形模型進(jìn)行數(shù)據(jù)建模外,其他的機(jī)器學(xué)習(xí)方法都難以處理含有缺失值的數(shù)據(jù)。填充法是對存在缺失值的樣本進(jìn)行填充。因此為提高乳腺癌診斷模型的精度,kmeans-KNN的缺失值處理方法步驟為:

(1)劃分?jǐn)?shù)據(jù)集D,訓(xùn)練集:測試集=70%:30%,將訓(xùn)練集完整的樣本記為Dc,含有缺失值的樣本記為Df。

(2)使用kmeans對Dc聚類。采用曼哈頓距離如式(1)計(jì)算數(shù)據(jù)集Df和Dc聚類之間的相似性。假設(shè)有樣本X1(X11,X12,…,X1n)和X2(X21,X22,…,X2n),曼哈頓距離公式dist為:

dist=|X1k-X2k|? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)

并將Df數(shù)據(jù)劃入到相應(yīng)的Dc聚類,即對數(shù)據(jù)集D進(jìn)行聚類。

(3)在聚類內(nèi)采用KNN填充缺失值,然后合并聚類樣本得到完整的訓(xùn)練集。

(4)基于訓(xùn)練集訓(xùn)練線性回歸模型對測試集中的缺失值進(jìn)行填充,最后利用機(jī)器學(xué)習(xí)算法建立乳腺癌的診斷模型。

2? 機(jī)器學(xué)習(xí)算法

隨著人工智能的成熟應(yīng)用,機(jī)器學(xué)習(xí)算法已被廣泛應(yīng)用于醫(yī)療領(lǐng)域研究,如疾病的診斷預(yù)測和藥物療效預(yù)測等[6,7]。

2.1? XGBoost算法

XGBoost是陳天奇等人于2016年開發(fā)的機(jī)器學(xué)習(xí)算法[8],該算法是boosting算法中的一種,它是集成許多決策樹模型的強(qiáng)分類器。其算法思想就是不斷地添加樹,即不斷地進(jìn)行特征分裂來生長一棵樹,而每次添加一棵樹,其實(shí)質(zhì)是學(xué)習(xí)一個(gè)新函數(shù),去擬合上次預(yù)測的殘差。對訓(xùn)練集,當(dāng)我們訓(xùn)練完成得到k棵樹,則樣本分?jǐn)?shù)是根據(jù)這個(gè)樣本的特征落到每棵樹中對應(yīng)的葉子節(jié)點(diǎn)的對應(yīng)分?jǐn)?shù),最后將每棵樹對應(yīng)的分?jǐn)?shù)加起來就是該樣本的預(yù)測值。本文利用XGBoost分類算法對已做缺失值預(yù)處理的完整的乳腺癌訓(xùn)練集進(jìn)行建模,首先根據(jù)基尼系數(shù)選出最優(yōu)的特征,如密度,并把該特征作為樹節(jié)點(diǎn)進(jìn)行分裂。每棵樹的深度為1,然后利用已建立好的模型對完整的測試集進(jìn)行測試。

2.2? 隨機(jī)森林算法

隨機(jī)森林算法(RF)是一個(gè)集成了多個(gè)決策樹的集成分類器。給定訓(xùn)練集之后,(1)從訓(xùn)練集中采取有放回隨機(jī)抽取n個(gè)樣本作為決策樹的訓(xùn)練集;(2)在訓(xùn)練決策樹模型的節(jié)點(diǎn)的時(shí)候,在節(jié)點(diǎn)上所有的樣本特征中選擇一部分樣本特征,并在這些隨機(jī)選擇的部分樣本特征中選擇一個(gè)最優(yōu)的特征來做決策樹的左右子樹劃分以增強(qiáng)模型的泛化能力。重復(fù)(1)(2)兩步,建立m棵決策樹,在分類任務(wù)中,m棵決策樹投出最多票數(shù)的類別為最終類別。本實(shí)驗(yàn)采用sklearn包中的隨機(jī)森林分類器對完整乳腺癌訓(xùn)練集進(jìn)行分類建模,該模型集成100棵決策樹,每棵樹采用基尼系數(shù)選出最優(yōu)樹節(jié)點(diǎn)進(jìn)行分裂,每棵樹的深度為1。

2.3? K-最近鄰算法

K-近鄰(KNN)算法是一種基本分類和回歸的算法。對于給定的訓(xùn)練集,對新的輸入樣本,采用距離度量,如歐式距離、馬氏距離等相似距離方法,在訓(xùn)練集中找到與該樣本最鄰近的K個(gè)樣本,這K個(gè)樣本的多數(shù)屬于某個(gè)類,就把該樣本分類到這個(gè)類中。且K的取值往往依賴于數(shù)據(jù)的分布特點(diǎn)。本文采用sklearn包中的KNN分類算法對完整的乳腺癌訓(xùn)練集進(jìn)行分類建模,K的取值為3,即對每個(gè)樣本尋找距離最近的3個(gè)樣本來確定樣本的類別。

2.4? 支持向量機(jī)

SVM是按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其基本模型是在特征空間上找到最佳的分離超平面使得訓(xùn)練集上二分類樣本間隔最大。給定訓(xùn)練集D={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,yi∈{+1,-1},i=1,2,…,n。wx+b=0為分離超平面,其中w,b分別為超平面的法向量和截距。則線性SVM學(xué)習(xí)算法步驟為:

(1)選擇懲罰參數(shù)C>0,構(gòu)造并求解凸二次規(guī)劃問題求最優(yōu)解α=(α1,α2,…,αn)T。

min aiajyiyj(xi ,xj)-ai,s.t. aiyi=0,

0≤αi≤C,i=1,2,…,n

(2)計(jì)算w=aiyixi,選擇滿足0≤α≤C的α,計(jì)算b=yj-aiyi(xi,xj)。

(3)求解超平面wx+b=0,則分類決策函數(shù)為f(x)= sign(wx+b)。

本文采用sklearn包中的SVM分類算法對完整的乳腺癌訓(xùn)練集進(jìn)行分類建模,該算法的核函數(shù)為線性核函數(shù),即在完整訓(xùn)練集中找到一條直線使得患良性和惡性腫瘤的患者能較好地區(qū)分開來。

3? 數(shù)據(jù)集與缺失數(shù)據(jù)處理方法的效果評價(jià)

本實(shí)驗(yàn)數(shù)據(jù)來源于UCI數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets.php)中的乳腺X光檢查數(shù)據(jù)集,共961例包含6個(gè)屬性其中最后一行為標(biāo)簽,如表1所示。

數(shù)據(jù)缺失類型分為三種:完全隨機(jī)性缺失、隨機(jī)缺失、非隨機(jī)缺失[3]。完全隨機(jī)缺失是缺失值與數(shù)據(jù)集中已知或者未知的特征是完全無關(guān)的。如該數(shù)據(jù)集中年齡字段是否缺失是完全隨機(jī)的,它只取決于患者本身與患者的其他特征信息無關(guān)。隨機(jī)缺失是指該類數(shù)據(jù)的缺失依賴于其他完全變量。如該數(shù)據(jù)集中缺失的腫塊形狀信息往往依賴于腫塊大小。非隨機(jī)缺失指的是數(shù)據(jù)的缺失依賴于不完全變量自身。如良性腫瘤患者的腫塊大小信息缺失。

針對不完整乳腺癌數(shù)據(jù)建立乳腺癌診斷模型,模型評價(jià)指標(biāo)是依據(jù)混淆矩陣的準(zhǔn)確度、精確度、特異度、召回率和AUC面積。

4? 仿真實(shí)驗(yàn)與結(jié)果

本文基于乳腺X光檢查數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先對該數(shù)據(jù)集隨機(jī)地劃分70%訓(xùn)練集和30%測試集,訓(xùn)練集和測試集中缺失值情況如表1所示。針對訓(xùn)練集的缺失數(shù)據(jù),該實(shí)驗(yàn)先將訓(xùn)練集劃分為無缺失值的完整樣本和含有缺失值的不完整樣本,對完整樣本采用kmeans聚成三類,依據(jù)曼哈頓相似距離計(jì)算不完整樣本和三個(gè)聚類中心的距離并將該樣本劃入最相似的聚類內(nèi),即對訓(xùn)練集聚為三類。在類內(nèi)采用KNN填充法填充缺失值,使缺失值樣本盡可能地符合實(shí)際值。為了驗(yàn)證kmeans-KNN方法的有效性,該實(shí)驗(yàn)還與EM、MICE等七種常用的缺失值處理方法進(jìn)行比較研究。對于測試集中的缺失值則采用線性回歸法訓(xùn)練訓(xùn)練集并填充相應(yīng)的缺失值。數(shù)據(jù)缺失值預(yù)處理完成后,分別采用XGBoost、RF、KNN、SVM四種機(jī)器學(xué)習(xí)算法對訓(xùn)練集進(jìn)行訓(xùn)練建模,這四種分類算法基于sklearn包實(shí)現(xiàn),參數(shù)設(shè)置中XGBoost、RF的最大深度為1,SVM的核心函數(shù)為“l(fā)inear”,其他的參數(shù)為sklearn包的默認(rèn)設(shè)置。最后用訓(xùn)練好的模型對測試集進(jìn)行測試,用準(zhǔn)確度、精確度、特異度、召回率和AUC五個(gè)評價(jià)指標(biāo)對模型效果進(jìn)行評價(jià)。

實(shí)驗(yàn)結(jié)果如圖1和圖2所示,對于未處理數(shù)據(jù),由于RF、KNN、SVM無法提供缺失值的自動(dòng)處理而無法有效建模,而XGBoost可將缺失值作為稀疏矩陣自動(dòng)處理從而建立有效的模型且模型的準(zhǔn)確度和AUC分別為78.2%和78.9%。該實(shí)驗(yàn)將kmeans-KNN與EM等七種缺失值填充法進(jìn)行比較研究,結(jié)果表明kmeans-KNN建立的模型準(zhǔn)確度和AUC普遍優(yōu)于其他結(jié)合方法。除了均值填充法外,經(jīng)缺失值處理后XGBoost模型準(zhǔn)確度、精確度、特異度、召回率、AUC普遍高于數(shù)據(jù)未處理建立的XGBoost模型效果。而在所有的方法結(jié)合中,kmeans-KNN+SVM建立的模型準(zhǔn)確度和AUC最優(yōu),且對于在同一缺失值處理下,SVM建立的模型準(zhǔn)確度優(yōu)于XGBoost、RF、KNN模型的準(zhǔn)確度,對于XGBoost、RF、KNN建立的模型效果比較則難分優(yōu)劣。

5? 結(jié)? 論

本文提出的kmeans-KNN方法可以有效解決缺失數(shù)據(jù)問題,且SVM在分類性能上表現(xiàn)最優(yōu)。通過該研究可知即使可以采用類似XGBoost方法在建模過程中自動(dòng)處理缺失值,但先做預(yù)處理再建模的效果往往會更好。

參考文獻(xiàn):

[1] 世界衛(wèi)生組織國際癌癥研究機(jī)構(gòu)(IARC).Estimated age-standardized incidence rates(World)in 2020 [EB/OL].(2021-03-02).https://gco.iarc.fr/today/online-analysis-multi-bars.

[2] DHAHRI H,MAGHAYREH E A,MAHMOOD A,et al. Automated Breast Cancer Diagnosis Based on Machine Learning Algorithms [J/OL].Journal of healthcare engineering,2019:4253641[2021-03-29].https://www.hindawi.com/journals/jhe/2019/4253641/.

[3] 劉星毅,農(nóng)國才.幾種不同缺失值填充方法的比較 [J].南寧師范高等專科學(xué)校學(xué)報(bào),2007,24(3):148-150

[4] 李琳,楊紅梅,楊日東,等.基于臨床數(shù)據(jù)集的缺失值處理方法比較 [J].中國數(shù)字醫(yī)學(xué),2018,13(4):8-10+80.

[5] 閆世艷,郭中寧,何麗云,等.臨床研究缺失數(shù)據(jù)多重填補(bǔ)敏感性分析方法 [J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(3):823-828.

[6] 彭佳麗,劉春容,李旭,等.采用XGBoost和隨機(jī)森林探索中國西部女性乳腺癌危險(xiǎn)因素 [J].現(xiàn)代預(yù)防醫(yī)學(xué),2020,47(1):1-4.

[7] 吳興惠,周玉萍,邢?;ǎ?機(jī)器學(xué)習(xí)分類算法在糖尿病診斷中的應(yīng)用研究 [J].電腦知識與技術(shù),2018,14(35):177-178+195.

[8] CHEN T Q,GUESTRIN C. XGBoost:A Scalable Tree Boosting System [C]//KDD16:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York City:Association for Computing Machinery,2016:785-794.

作者簡介:鄧鈺芳(1996.10—),女,漢族,廣西南寧人,碩士研究生在讀,研究方向:機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘。

猜你喜歡
乳腺癌
MRI多序列成像技術(shù)對乳腺癌的鑒別診斷分析
乳腺癌綜合治療的臨床分析
不開刀治療乳腺癌
什么是乳腺癌的內(nèi)分泌治療?
別逗了,乳腺癌可不分男女老少!
2021年我國乳腺癌患者或達(dá)250萬
男性也應(yīng)注意乳腺癌
浸潤性乳腺癌能治好嗎
太干凈的女性易患乳腺癌
男人也會得乳腺癌
焉耆| 集安市| 绿春县| 称多县| 新乡县| 井陉县| 曲麻莱县| 永平县| 封丘县| 南涧| 乌拉特中旗| 伊吾县| 赣州市| 荣昌县| 怀仁县| 嘉兴市| 诸城市| 舒城县| 白城市| 大港区| 松原市| 灵寿县| 洛川县| 德江县| 黄龙县| 渝中区| 广东省| 永定县| 三都| 台州市| 本溪| 于都县| 岗巴县| 乌拉特后旗| 百色市| 富锦市| 灵川县| 石屏县| 资阳市| 内乡县| 吉安市|