国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器學(xué)習(xí)的乳腺癌預(yù)測研究

2022-04-29 17:56:08張浪張星錢佳怡楊霜玲
計算機應(yīng)用文摘 2022年19期
關(guān)鍵詞:隨機森林機器學(xué)習(xí)相關(guān)性

張浪 張星 錢佳怡 楊霜玲

摘要:通過對kaggle官網(wǎng)關(guān)于乳腺癌的相關(guān)數(shù)據(jù)集的分析,文章選取了數(shù)據(jù)集中相關(guān)性較強的10個指標,對各個指標進行數(shù)據(jù)處理,使用隨機森林、XGBoost、相關(guān)性分析進行模型建立分析。通過機器學(xué)習(xí),得到相關(guān)結(jié)果以及準確率、精準率、召回率和F1,并通過比較不同算法之間準確率、精確率的差異,得出最優(yōu)的預(yù)測研究方案機制。通過模型對比評價,XGBoost算法的準確率、精確率等均在93.5%以上,隨機森林算法的準確率、精確率等均為92.4%。相比之下,XGBoost模型預(yù)測效果較佳。利用機器學(xué)習(xí)研究乳腺癌的預(yù)防預(yù)測,并應(yīng)用于實踐,對乳腺癌早期診斷有著十分重要的意義。

關(guān)鍵詞:機器學(xué)習(xí);乳腺癌;隨機森林;XGBoost;相關(guān)性

中圖法分類號:TP181文獻標識碼:A

Breast cancer prediction research based on machine learning

ZHANG Lang,ZHANGXing,QIANJiayi,YANGShuangling

(Guizhou Medical University,Guiyang 550025,China)

Abstract:Based on the analysis of the data set related to breast cancer on kaggle official website,10 indicators with strong correlation in the data set were selected for data processing.Random forest, XGBoost and correlation analysis were used for model establishment and analysis.Relevant results, accuracy,accuracy,recall and F1 were obtained through machine learning,andtheoptimal prediction research scheme mechanism was obtained by comparingthe difference of accuracy and accuracy among different algorithms. According to the evaluation of model comparison,the accuracy and accuracy of XGBoost algorithm are above 93.5%,and those of random forest algorithm are both 92.4%.XGBoost model has better prediction effect in comparison.It is of great significance for the early diagnosis of breast cancer to study the prevention and prediction of breast cancer with machine learnig and apply it into practice.

Key words: machine learning, breast cancer,randomforests,XGBoost,dependency

1 研究背景

乳腺癌是乳腺細胞在內(nèi)外環(huán)境因素影響下發(fā)生了異常細胞增殖反應(yīng)而最終失控導(dǎo)致癌變的臨床現(xiàn)象。其病變初期常表現(xiàn)出的癥狀為出現(xiàn)乳房腫塊、乳頭溢液、腋窩淋巴結(jié)的明顯充血腫大或壓痛感等各種局部癥狀,晚期患者也可能因淋巴結(jié)被癌細胞直接感染,導(dǎo)致發(fā)生了腫瘤及遠處組織淋巴性轉(zhuǎn)移,出現(xiàn)了乳腺周圍多部位淋巴器官良性增生及病變,甚至可能威脅乳腺患者的生命[1]。根據(jù)醫(yī)療數(shù)據(jù)顯示,全球乳腺癌的發(fā)病率逐年升高,這對社會經(jīng)濟發(fā)展造成嚴重影響,乳腺癌的早期診斷,尤其是當(dāng)病灶尚不能被觸及時,若能及時發(fā)現(xiàn),可以明顯改善預(yù)后。人工智能的發(fā)展可以協(xié)助醫(yī)生工作,幫助組織、理順和簡化診斷程序或其他醫(yī)療決策過程。利用數(shù)學(xué)模型以及統(tǒng)計方法分析數(shù)據(jù)資料,能夠依據(jù)乳腺癌的相關(guān)特征對乳腺癌進行細致分類,從而應(yīng)用于臨床,實現(xiàn)對不同個體的診斷和預(yù)測。機器學(xué)習(xí)算法在乳腺癌預(yù)測的應(yīng)用,有利于乳腺癌的風(fēng)險評估,從而幫助患者了解自身疾病特征,達到預(yù)防疾病的目的;對乳腺癌進行分級診斷,從而根據(jù)特征施行相對應(yīng)的治療方案,這對乳腺癌的“對癥下藥”、分級診斷和預(yù)防有著特別重要的意義。

2 研究現(xiàn)狀

在以計算機學(xué)科為研究對象的背景下,很多學(xué)者應(yīng)用理論與技術(shù)的結(jié)合,以提高乳腺癌預(yù)測的檢測水平。乳腺癌是乳腺上皮細胞在多種致病因子的作用下,發(fā)生增殖失控的現(xiàn)象。劉宇等[2]將聚類算法與XGBoost算法結(jié)合在一起,應(yīng)用K?means算法對所收集的數(shù)據(jù)按照其各自的特征進行了區(qū)分,并且利用XGBoost算法對乳腺癌進行了預(yù)測和分析。國內(nèi)外專家學(xué)者針對乳腺癌的研究已經(jīng)取得了一定的成果,隨著醫(yī)療信息化的發(fā)展,人們開始使用信息技術(shù)解決乳腺癌診斷治療中的問題,目前利用特征因素對乳腺癌進行預(yù)測是該領(lǐng)域研究的熱門。并且,隨著乳腺癌研究的深入,人們意識到單一的生理指標并不能對乳腺癌做出很好的預(yù)測,所以開始基于大量數(shù)據(jù)來分析、挖掘各種指標之間的聯(lián)系以及對結(jié)果的影響,從而建立起一些常見的乳腺癌的預(yù)警模型[3]。比如,DL 模型幫助患者提前五年預(yù)測乳腺癌,實現(xiàn)及早確診、及早治療;我國自主研發(fā)的治療乳腺癌抗 HER2單抗創(chuàng)新藥伊尼妥單抗打破進口藥壟斷。

3 數(shù)據(jù)及可視化

本文數(shù)據(jù)來源于kaggle官網(wǎng)關(guān)于乳腺癌的公開數(shù)據(jù)。樣本數(shù)據(jù)共569條,包括10類影響指標,即半徑、紋理、細胞核周長、細胞核面積、平滑程度、緊密度、凹度、凹點、對稱性、分形維數(shù)。通過對不同類型數(shù)據(jù)的整理,使用機器學(xué)習(xí)算法對數(shù)據(jù)進行定量和定類分析及訓(xùn)練。數(shù)據(jù)變量如表1所列。

圖1為利用各類指標數(shù)據(jù)構(gòu)建相的關(guān)系數(shù)熱力圖,樣本呈現(xiàn)正太分布狀態(tài)。組織核的平均面積與半徑和參數(shù)的均值呈強正相關(guān);一些參數(shù)中度正相關(guān)( r 在0.5~0.75之間)的是凹度和面積,凹度和周長等;同樣,可以看到 fractal_ dimension 與半徑、紋理、參數(shù)平均值之間存在一些強烈的負相關(guān)。由此可以推斷,乳腺腫塊的細針抽吸物(FNA)半徑、周長、面積、緊密度、凹度和凹點的平均值可用于癌癥的分類。這些參數(shù)的較大值傾向于顯示與惡性腫瘤的相關(guān)性。質(zhì)地、平滑度、對稱性或分維數(shù)的平均值并未顯示出較好的診斷偏好。

4 實驗過程和結(jié)果分析

本文選取相關(guān)性分析、隨機森林、XGBoost三種機器學(xué)習(xí)方法對乳腺癌吸針抽物相關(guān)特征進行對比分析,以實現(xiàn)對乳腺癌的早期預(yù)測。通過統(tǒng)計產(chǎn)品與服務(wù)解決方案軟件 SPSS 進行算法分析,建立測試集和訓(xùn)練集;以預(yù)測分析結(jié)果中的預(yù)測準確度、精確率、召回率、F1為主要評判參考指標;同時,通過建立混淆矩陣,對預(yù)測分析模型中的實際可用于預(yù)測對象的預(yù)測能力水平等進行綜合量化與評判。通過統(tǒng)計產(chǎn)品與服務(wù)解決方案軟件 SPSS 進行算法分析可得隨機森林和XGBoost特征重要性的結(jié)果分析,結(jié)果如圖2所示。

圖2展示了各特征(自變量)的重要性比例。通常情況下,特征越多分類效果就越好。但是,使用過多的特征會大幅增加模型運算量和模型運算的時間、費用等成本,降低整個模型的平均運算效率。因此,本文對相關(guān)數(shù)據(jù)進行了特征選擇,隨機森林和XGBoost按照數(shù)值大小呈正比,表現(xiàn)出重要性程度高低,計算出特征重要性。通過隨機森林特征重要性排名進行結(jié)果比較,對特征進行分析可知,面積、周長、半徑能夠較為直接衡量細胞核的相關(guān)特征,同時凹縫、凹度也屬于重要的特征值,有較強的區(qū)分度;對比XGBoost特征可知,凹度、周長、半徑能夠較為直接衡量細胞核的相關(guān)特征,同時凹縫、面積也屬于重要的特征值,有較強的區(qū)分度。對特征值取平均值,在統(tǒng)計上平均值反映出的是更加普遍的情況,具有更強的可用性。

訓(xùn)練數(shù)據(jù)集是指構(gòu)建模型時使用的樣本集,而測試數(shù)據(jù)集是指對最終模型進行性能評估的數(shù)據(jù)集,通過矩陣工廠 MATLAB、統(tǒng)計產(chǎn)品與服務(wù)解決方案 SPSS 進行混淆矩陣熱力圖分析。

混淆矩陣利用了準確率 A( Accuracy)、精確率 P (Precision)、召回率 R(Recall)和 F1四個評價指標來進行定量和評估分類器系統(tǒng)的分類效果與性能。準確率表示分類正確的樣本數(shù)在整個樣本中所占的比例,準確率越高,則預(yù)測越準確;精確率表示分類正確的正類樣本數(shù)占分類為正類樣本總數(shù)的比例;召回率表示分類正確的正類樣本數(shù)占原正類樣本數(shù)的比例; F1是精確率和召回率之間的折中,F(xiàn)1測度值越高,則分類效果越好。各指標的計算公式如表2所列。

其中,TP =真正例,TN =真負例,F(xiàn)P =假正例,F(xiàn)N =假負例,ncorrect=TP+TN,ntotal=TP+TN+FP+FN

由表3可知,在相同的數(shù)據(jù)集下,XGBoost分類的準確率為93.6%,而隨機森林的準確率為92.4%,其準確率越高說明算法越好。由此可見,XGBoost算法比隨機森林精準。F1值綜合了精確率與靈敏度的大小,由表3可知,在 F1值方面,XGBoost分類模型的 F1高于隨機森林分類模型1.2%,精確率高1.1%,召回率高1.2%。本文認為,通過對準確率、F1值、召回率、精確率的對比,XGBoost分類模型比隨機森林分類模型有所提高,因此可以認為該模型對輔助醫(yī)生診斷乳腺癌,對乳腺癌分類預(yù)測研究具有較大的意義,有較強的可行性。

5 結(jié)論

本文著重對乳腺癌的分類預(yù)測進行研究,通過對數(shù)據(jù)的處理,建立相關(guān)預(yù)測模型,并對模型準確度進行對比評價。模型顯示,乳腺吸針抽物的凹度、周長、半徑、面積對乳腺癌早期監(jiān)測有較好的指標作用,這對如何實現(xiàn)低成本、檢測快、無副作用的乳腺癌患者的分類預(yù)測非常重要。同時,對于慢性疾病管理也具有重要意義,但是由于收集資料和時間有限,未來的研究中,需要從以下方向進行改進:(1)慢性疾病是一類疾病的總稱,本文僅構(gòu)建了乳腺癌疾病預(yù)測和預(yù)測系統(tǒng),接下來可以對其他慢性疾病的預(yù)測進行研究:在建模時選取 UCI 公開數(shù)據(jù)庫里相關(guān)數(shù)據(jù),一方面在區(qū)域性和時限性存在缺陷,另一方面數(shù)據(jù)量有限,在建立模型時可能導(dǎo)致模型欠擬合,未來可以采用不同的數(shù)據(jù)集對模型進行修正,以提高預(yù)測的準確性;(2)對于慢性疾病患者而言,做好康復(fù)和護理是必不可少的一步,這也是醫(yī)護人員所關(guān)注的重點之一,所以未來可以在該系統(tǒng)上進行功能完善,建立“醫(yī)護康”一體化信息平臺,實現(xiàn)對慢性疾病患者的全生命周期管理。

參考文獻:

[1] 祝江濤.分析乳腺癌患者術(shù)后睡眠質(zhì)量及相關(guān)影響因素[J].世界睡眠醫(yī)學(xué)雜志,2021,8(8):1330?1331.

[2]劉宇,喬木.基于聚類和XGboost算法的心臟病預(yù)測[J].計算機系統(tǒng)應(yīng)用,2019,28(1):228?232.

[3]劉亮.機器學(xué)習(xí)算法在疾病診斷中的應(yīng)用研究[ D].貴陽:貴州大學(xué),2020.

作者簡介:

張浪(2001—),本科,研究方向:數(shù)據(jù)分析與圖像處理。

張星(2001—),本科,研究方向:XGBoost與相關(guān)性分析。

錢佳怡(2003—),本科,研究方向:隨機森林。

楊霜玲(2001—),本科,研究方向:數(shù)據(jù)挖掘。

猜你喜歡
隨機森林機器學(xué)習(xí)相關(guān)性
隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
基于Kronecker信道的MIMO系統(tǒng)通信性能分析
科技視界(2016年21期)2016-10-17 17:37:34
小兒支氣管哮喘與小兒肺炎支原體感染相關(guān)性分析
腦梗死與高同型半胱氨酸的相關(guān)性研究(2)
托里县| 威海市| 中超| 乌海市| 江达县| 信阳市| 台湾省| 金寨县| 独山县| 都兰县| 瓦房店市| 晴隆县| 永和县| 白山市| 惠州市| 萨嘎县| 伊宁县| 札达县| 道孚县| 泸溪县| 永修县| 太仆寺旗| 密山市| 泊头市| 会理县| 常熟市| 延安市| 赣州市| 略阳县| 仙游县| 商都县| 兴安县| 黄浦区| 奉新县| 石棉县| 于田县| 右玉县| 牙克石市| 梅河口市| 垣曲县| 布尔津县|