国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的肺癌生存預(yù)測(cè)模型研究

2021-05-25 01:02:06
關(guān)鍵詞:精確度觀測(cè)肺癌

王 婧

(淮北師范大學(xué) 計(jì)算機(jī)與技術(shù)科學(xué)學(xué)院,安徽 淮北 235000)

全球范圍內(nèi),肺癌是所有癌癥中發(fā)病率和死亡率最高的癌癥。近年來(lái),我國(guó)肺癌的發(fā)病率和死亡率呈明顯上升趨勢(shì)[1]。為了盡可能掌握疾病的原理,預(yù)測(cè)并提升病人的生存能力,研究員們通過(guò)胸部X光、計(jì)算機(jī)斷層掃描、病歷等材料出發(fā)進(jìn)行研究。

生存預(yù)測(cè)作為熱門(mén)研究方向,一直有不同領(lǐng)域的學(xué)者對(duì)其進(jìn)行研究,最初常利用Cox模型發(fā)現(xiàn)規(guī)律[2-3],也有部分是基于優(yōu)化方法進(jìn)行研究,文獻(xiàn)[4]使用微分表達(dá)式來(lái)選擇數(shù)據(jù)的特征,在訓(xùn)練初期使用排序算法選擇篩選對(duì)預(yù)測(cè)結(jié)果有效的特征,該篩選在提高預(yù)測(cè)準(zhǔn)確性的同時(shí),也減少了后續(xù)模型的計(jì)算時(shí)間。但是計(jì)算復(fù)雜度非常高,里面有大量涉及精確優(yōu)化步驟,只適合少量樣本的學(xué)習(xí)。近年來(lái)機(jī)器學(xué)習(xí)方法以較高的預(yù)測(cè)精確度、較快的運(yùn)算速度等優(yōu)勢(shì)逐漸成為主流方法之一。Jose F. Velez-Serrano等人[5]關(guān)注胰腺切除術(shù)后生存情況,通過(guò)醫(yī)學(xué)知識(shí)來(lái)提取人口學(xué)特征、醫(yī)院容量、診斷相關(guān)死亡編碼和切除手術(shù)類(lèi)型等參數(shù)建立boost模型,達(dá)到了91.6%的預(yù)測(cè)精度。

采用機(jī)器學(xué)習(xí)方法進(jìn)行生存預(yù)測(cè)研究的主要難點(diǎn)有兩個(gè),第一是經(jīng)典機(jī)器學(xué)習(xí)方法無(wú)法察覺(jué)不均衡數(shù)據(jù)中少量樣本的特征,比如文獻(xiàn)[6]通過(guò)利用聚類(lèi)法來(lái)發(fā)覺(jué)較少的類(lèi)別并對(duì)其進(jìn)行欠采樣處理。但是算法發(fā)揮不穩(wěn)定,隨機(jī)性太高;第二是特征對(duì)最終的結(jié)果影響重大,因此很多研究都集中在特征選取工程上。文獻(xiàn)[7-9]旨在從影像中提取癌癥圖像特征,采用批量選取最優(yōu)特征的方法,仿真表現(xiàn)該方法平均能提高5個(gè)百分點(diǎn)的精確度。文獻(xiàn)[10]提出了一種具有Levenberg-Marquardt模型的高階遞歸神經(jīng)網(wǎng)絡(luò)系統(tǒng)來(lái)管理多模態(tài)疾病信息,但是該算法的計(jì)算復(fù)雜度過(guò)高,在超過(guò)100個(gè)樣本時(shí),能計(jì)算的特征值數(shù)量非常小。Azar等人[11]挑戰(zhàn)小樣本高維度數(shù)據(jù),通過(guò)訓(xùn)練出大量的二元分類(lèi)器來(lái)實(shí)現(xiàn)集成多樣性;然后,由Cascade Forest選出重要的特征。極大提高了不均衡數(shù)據(jù)集中的準(zhǔn)確率。文獻(xiàn)[12]在原始輸入矩陣的基礎(chǔ)上生成大量的隨機(jī)派生特征,然后對(duì)中間值以及派生特征值做線性邏輯回歸;但是在百萬(wàn)以及以上數(shù)量級(jí)的數(shù)據(jù)集上表現(xiàn)不好,在千級(jí)以上的數(shù)據(jù)集中,機(jī)器學(xué)習(xí)的預(yù)測(cè)精準(zhǔn)度比較低,發(fā)揮不穩(wěn)定。

1 模型與方法

臨床對(duì)于肺癌病人的生存預(yù)測(cè)大多是基于檢查影響或者手術(shù)發(fā)現(xiàn)來(lái)決定的。但是實(shí)際情況下,檢查圖像不能清晰地呈現(xiàn)出腫瘤邊界,對(duì)腫瘤大小地判斷還依賴機(jī)器型號(hào)和醫(yī)生經(jīng)驗(yàn),并且腫瘤有可能已經(jīng)在肺部以外形成,相關(guān)數(shù)據(jù)不能體現(xiàn)實(shí)際情況。因此本研究綜合考慮患者的其他信息,獲取SEER數(shù)據(jù)庫(kù)中的全部涉及到肺癌患者的數(shù)據(jù)。

另外,在眾多分類(lèi)器中,隨機(jī)森林方法具有較好的靈活性,能夠捕捉到更多類(lèi)型的數(shù)據(jù),是準(zhǔn)確度相對(duì)較高、結(jié)構(gòu)簡(jiǎn)單、解釋性強(qiáng)的一個(gè)方法。本文基于隨機(jī)森林(Random Forest, RF)設(shè)計(jì)批量選擇特征的方法。之后將之應(yīng)用于XGBoost、CATBoost、神經(jīng)網(wǎng)絡(luò)等常見(jiàn)模型,仿真驗(yàn)證基于隨機(jī)森林的混合模型具有更高的精確度。

圖1為研究總體框架圖。首先是獲取數(shù)據(jù)的階段。本研究從SEER官方網(wǎng)站中獲取全部肺癌病人的數(shù)據(jù),選區(qū)第七版本的分級(jí)數(shù)據(jù)庫(kù)。隨后觀察缺失數(shù)據(jù)情況,可以發(fā)現(xiàn)部分?jǐn)?shù)據(jù)的癌癥TMN分級(jí)的重要臨床數(shù)據(jù)。由于TMN分級(jí)是醫(yī)生決定治療手段的重要一環(huán),對(duì)空白數(shù)據(jù)做刪除處理,得到129683條干凈數(shù)據(jù)。隨后對(duì)數(shù)據(jù)進(jìn)行選取,選取條件為確診年齡限定在20歲到80歲之間、起始觀測(cè)年份在2011到2013年,且已經(jīng)觀測(cè)到死亡狀態(tài)的樣本。最終得到2011年間觀測(cè)到的6547個(gè)樣本、2012年間觀測(cè)到的6358個(gè)樣本、2013年間觀測(cè)到的6252個(gè)樣本、以及2014年間觀測(cè)到的6113個(gè)樣本等四個(gè)樣本集,然后通過(guò)隨機(jī)森林方法反向篩掉在隨機(jī)森林中出現(xiàn)次數(shù)比較少的樣本特征,最后留下來(lái)的特征為診斷時(shí)期的年齡、性別、人種、所屬區(qū)域、TMN分級(jí)、手術(shù)類(lèi)型、存活時(shí)間、觀測(cè)節(jié)時(shí)患者的存活狀態(tài)特征。樣本的簡(jiǎn)要描述在本文第三個(gè)部分有詳細(xì)描述。之后利用其他常用的機(jī)器學(xué)習(xí)方法構(gòu)建預(yù)測(cè)模型,得到生存預(yù)測(cè)結(jié)果。

圖1 工作流程圖

1.1 基于隨機(jī)森林的特征選取

隨機(jī)森林算法是一種訓(xùn)練速度快,抗擬合能力比較強(qiáng)的方法,被廣泛地應(yīng)用在數(shù)據(jù)預(yù)處理,分類(lèi)預(yù)測(cè)等領(lǐng)域。在構(gòu)建RF的過(guò)程中,單個(gè)決策樹(shù)里的某一節(jié)點(diǎn)特征與其他特征相比,能夠?qū)崿F(xiàn)Gini增益的最大化,因此樹(shù)上的節(jié)點(diǎn)特征可以體現(xiàn)其重要性。另外,RF為了增加單顆決策樹(shù)的差異化,采用雙隨機(jī)的策略,即在采樣過(guò)程中隨機(jī)選取樣本的范圍,并在建立決策樹(shù)的過(guò)程中隨機(jī)選擇特征值集合,這樣能夠有效地避免對(duì)訓(xùn)練集的過(guò)擬合。

(1)

(2)

?number(Ti)*Cj*≥number(T-i)*Cj

(3)

(4)

(5)

(1)基于OOB方法生成包含N顆決策樹(shù)的隨機(jī)森林,其中每顆決策樹(shù)記為T(mén)i,i≤N。使用投票法獲得集成預(yù)測(cè)結(jié)果;

(4)對(duì)于特征j的重要性jimp計(jì)算為:

(6)

對(duì)于上述公式進(jìn)行分析,當(dāng)特征j被隨機(jī)加入與事實(shí)有所出入的擾動(dòng)之后,如果OOB樣本的準(zhǔn)確率大幅度降低,則說(shuō)明加入的隨機(jī)擾動(dòng)破壞了模型已經(jīng)習(xí)得的規(guī)律。如果特征j的jimp值相對(duì)其他特征的jimp值更大,即特征j的對(duì)模型結(jié)論影響更大,此時(shí)可以認(rèn)為jimp能夠表達(dá)當(dāng)特征j在當(dāng)前模型當(dāng)中的重要程度。實(shí)際上,如果特征j對(duì)于模型是有利的,那么將第j維特征置換成隨機(jī)值,將會(huì)降低模型的性能,OOB樣本誤差會(huì)變大。本文利用其隨機(jī)森林模型的特點(diǎn)作為量化每個(gè)特征重要性的依據(jù)進(jìn)行特征選擇。

1.2 基于XGBoost分類(lèi)器做生存預(yù)測(cè)

腫瘤是一個(gè)多因素參與、多階段發(fā)展的病癥。已經(jīng)成型的癌細(xì)胞的發(fā)生異常增殖后侵襲遷移并循環(huán)擴(kuò)散,通過(guò)血管完成遠(yuǎn)端的再生。醫(yī)學(xué)檢查無(wú)法判斷是否完整觀測(cè)到癌癥細(xì)胞的發(fā)展情況,因此腫瘤數(shù)量與大小的計(jì)量誤差影響因素眾多,且呈現(xiàn)非線性相關(guān)性。傳統(tǒng)的線性模型無(wú)法習(xí)得非線性的知識(shí)。神經(jīng)網(wǎng)絡(luò)具有以任意精度逼近非線性函數(shù)的優(yōu)越性能,但是肺癌病人的特征量非常小,樣本量比較大,樣本內(nèi)部存在因觀測(cè)不全導(dǎo)致的相似樣本而標(biāo)簽不同的沖突情況。因此神經(jīng)網(wǎng)絡(luò)仍然不適合作為本問(wèn)題的解決方案。

本文選用基于提升樹(shù)的機(jī)器學(xué)習(xí)系統(tǒng)集成學(xué)習(xí)算法XGBoost建立預(yù)測(cè)模型,該模型以良好的過(guò)擬合控制機(jī)制而著稱(chēng),具有實(shí)現(xiàn)非線性切分能力。設(shè)有訓(xùn)練集為{xs,s=1,2,…,S},每條樣本包含除標(biāo)簽外的M個(gè)特征,標(biāo)簽為ys。XGBoost利用多顆集成決策樹(shù)的輸出,作為最后的預(yù)測(cè)函數(shù)的輸入。當(dāng)對(duì)訓(xùn)練集樣本xs進(jìn)行學(xué)習(xí)時(shí),XGBoost模型可以被表示為:

(7)

其中fn(xs)是第n個(gè)樹(shù)對(duì)樣本xs預(yù)測(cè)值,記為wq(x),q:R→T。為了學(xué)習(xí)模型中使用的函數(shù)集合fn(xs),本研究使用如下的最小化正則化目標(biāo):

(8)

(9)

式中γ和λ是調(diào)整參數(shù),控制函數(shù)的學(xué)習(xí)效率,帶入到目標(biāo)函數(shù)中并進(jìn)行二階泰勒展開(kāi),可以推導(dǎo)該公式為:

(10)

使用貪心的思想,每一次都選取損失函數(shù)最小的參數(shù)進(jìn)行構(gòu)建,則每一次的增益可以計(jì)算為:

(11)

(12)

2 數(shù)據(jù)集樣本

首先從國(guó)家癌癥研究所監(jiān)測(cè)、流行病學(xué)和最終結(jié)果項(xiàng)目中選取合適肺癌患者樣本。缺失情況如圖2所示。圖中按照數(shù)據(jù)呈現(xiàn)樣式給出缺失值的情況,其中黑色部分代表無(wú)缺失數(shù)據(jù),白色出現(xiàn)的位置和缺失數(shù)據(jù)位置一一對(duì)應(yīng)。

圖2 樣本缺失值分布情況

缺失值過(guò)多會(huì)直接影響算法的精確度。對(duì)于缺失值的處理有兩種方法,第一種是刪除全部的缺失值,第二種是為缺失值進(jìn)行賦值。為了做出正確的選擇,本文觀察缺失數(shù)據(jù)值之間的關(guān)系,發(fā)現(xiàn)TMN分期數(shù)據(jù)是成對(duì)缺失的,即缺失完整的分期結(jié)論。TMN分期結(jié)論是臨床檢查給出的病程判斷,有極大的參考價(jià)值,因此對(duì)于這部分缺失的數(shù)據(jù)只能盡數(shù)刪除。另外值缺失嚴(yán)重的特征regional_node_examined反映了區(qū)域節(jié)點(diǎn)檢查發(fā)現(xiàn)的腫瘤狀況。由于該特征直接反映樣本患者的身體情況,因此對(duì)該缺失值做同樣的處理。篩選得到38329條干凈樣本數(shù)據(jù)集。

隨后對(duì)干凈數(shù)據(jù)進(jìn)行正向篩選。首先,為了獲得已經(jīng)觀測(cè)到正確生存期的患者,篩選已死亡樣本;其次,為了避免特殊年齡帶來(lái)的體制偏差,將確診年齡限定在在20歲到80歲之間;最后,由于最新版本的數(shù)據(jù)集對(duì)TMN數(shù)據(jù)的最晚觀測(cè)時(shí)間為2018年,因此在2013年以前確診的樣本觀測(cè)到的正確存活時(shí)間往往小于5年。這樣會(huì)帶來(lái)模型方面的數(shù)據(jù)沖突。比如,下面兩個(gè)向量分別是2010年和2015年確診的兩個(gè)病人的數(shù)值化后的樣本特征:

[14,71,1,2010,0,0,2,0,341,7,0,4,2,3,8,0,1,0,1,98,0,0,86,0]

[14,71,1,2015,0,0,2,0,341,7,0,8,3,3,8,0,1,0,1,98,0,0,1,1]

上述樣本特征加粗了兩樣本特征值數(shù)值不同的元素。最后一個(gè)加粗的位置是存活月份。雖然兩個(gè)診斷年份的樣本特征基本相同,但是存活時(shí)間差距非常大,這體現(xiàn)了單個(gè)樣本的數(shù)據(jù)沖突。另外,總體觀察各個(gè)年份的存活情況,得到存活數(shù)據(jù)分布如圖3所示。

圖3 樣本分布情況

這種差距是由于2018年未能觀測(cè)到存活時(shí)間超過(guò)5年的樣本。因此,對(duì)該類(lèi)型的數(shù)據(jù)進(jìn)行研究,必須對(duì)人為收集數(shù)據(jù)產(chǎn)生的客觀因素誤差摒棄掉。因此本研究選取2011至2014年的四年樣本進(jìn)行研究。

正向篩選后共得到25525個(gè)樣本,樣本特征的簡(jiǎn)要描述如表1所示。

表1 數(shù)據(jù)集樣本特征

表1給出所有樣本取值和樣本百分比,其中樣本取值是分類(lèi)數(shù)字化后的數(shù)值。該數(shù)據(jù)集是一個(gè)多因素不均衡數(shù)據(jù)集。之后利用隨機(jī)森林預(yù)測(cè)模型分析所選到的所有特征對(duì)于結(jié)果的影響力,反向篩選掉影響力為最小的屬性,挑選出用于預(yù)測(cè)存活時(shí)間的特征,然后構(gòu)建XGBoost預(yù)測(cè)模型以預(yù)測(cè)患者生存時(shí)間。

3 仿真結(jié)果

本研究運(yùn)用Python3.7進(jìn)行數(shù)據(jù)處理和分析。從本地SEER庫(kù)中導(dǎo)入所有和肺癌相關(guān)的樣本特征,刪除掉缺失值后,一共獲得了448866個(gè)樣本,26個(gè)樣本特征。經(jīng)過(guò)正向選擇年份、反向篩選樣本特征值后得到38329條數(shù)據(jù)。針對(duì)這些數(shù)據(jù)根據(jù)診斷年份進(jìn)行分組,在后面仿真過(guò)程中將每個(gè)樣本集按照3:7的比例隨機(jī)分成測(cè)試樣本集和訓(xùn)練樣本集。

3.1 隨機(jī)森林選擇特征

首先對(duì)所有的特征做重要性排序。經(jīng)過(guò)本文提出的策略,最終得到的特征重要性降序排序如表2所示。

表2 特征重要性

根據(jù)隨機(jī)森林方法準(zhǔn)則(Akaike Information Criterion,AIC)指標(biāo)篩選掉最后一個(gè)重要性低的編碼特征ICCC_site。另外,還可以觀察到Jimpor值高的幾個(gè)特征為生存狀態(tài)、年齡、觀測(cè)到的局部腫瘤數(shù)量,治療手段、病理分型結(jié)論等。在后續(xù)的計(jì)算中,可以證明了排名靠前的特征對(duì)分類(lèi)精確度起到了提升作用。

3.2 生存預(yù)測(cè)分析

首先對(duì)2011年、2012年、2013年、2014年四個(gè)樣本集數(shù)據(jù)進(jìn)行直接預(yù)測(cè)。本文選擇了LGBM、MN(神經(jīng)網(wǎng)絡(luò))、NN和RF兩者結(jié)合(記為NN+NF)等三種算法進(jìn)行預(yù)測(cè)。得到如圖4所示。

圖4 各個(gè)經(jīng)典算法的精確度

本研究采用預(yù)測(cè)精確度作為最終的評(píng)判指標(biāo)。由上圖可以觀察到,整體來(lái)說(shuō)RF的預(yù)測(cè)精度在四個(gè)樣本集中表現(xiàn)均良好,神經(jīng)網(wǎng)絡(luò)算法在2014年數(shù)據(jù)集上精度較低,NN+RF的融合算法整體精確度偏低。

隨后根據(jù)表2對(duì)數(shù)據(jù)進(jìn)行分組。由于重要性較高的幾個(gè)樣本的特征值取值范圍較大,不適宜用來(lái)分組,在此處選取取值范圍在0~3的Grade特征進(jìn)行分組。分組后的精確度顯示如圖5所示。

圖5 基于Grade特征分類(lèi)的各算法精確度

由圖可觀察到,各個(gè)算法的精確度都有明顯提升,且算法之間的差距縮小。這說(shuō)明該分組是合理的。在分組的同時(shí),實(shí)際上是降低了數(shù)據(jù)集的規(guī)模。為了說(shuō)明ACI指標(biāo)的可靠性,本研究選取排名靠后的特征Reason_no_Cancer。該特征取值范圍為0~6,對(duì)特征值分組后計(jì)算其精確度如圖6所示。

圖6 基于Reason_no_Cancer的各算法精確度

為方便對(duì)比,圖6同樣在精確度為90%處畫(huà)出橫坐標(biāo),并使用同樣的樣本量和更多算法(添加了XGboost、CATBoost、RF等四個(gè)算法)進(jìn)行計(jì)算。可觀察到整體精確度低于基于Grade進(jìn)行特征分類(lèi)的算法精度。雖然其中不乏存在樣本分布的區(qū)別,但是兩張圖中所有使用的數(shù)據(jù)量是一致的。圖6出現(xiàn)在第一個(gè)數(shù)據(jù)集上所有算法預(yù)測(cè)精度為1,這是因?yàn)榈谝活?lèi)的樣本集中只有61條數(shù)據(jù)。另外RF+NN的組合方式對(duì)這類(lèi)數(shù)據(jù)的分類(lèi)效果最佳。綜合所有算法所用集合和精確度,根據(jù)ACI準(zhǔn)則對(duì)樣本進(jìn)行處理可以極大地提高算法的穩(wěn)定性和精確度。

結(jié)語(yǔ)

在臨床經(jīng)驗(yàn)中,要做好肺癌的生存預(yù)測(cè),需要準(zhǔn)確地找出影響因素。患者目前的健康狀況,身體素質(zhì),家庭情況、是否繳納保險(xiǎn)等眾多特征值都是醫(yī)生在信息收集過(guò)程中的重點(diǎn)關(guān)注對(duì)象。從中挑選初有利用價(jià)值的數(shù)據(jù)對(duì)于傳統(tǒng)臨床診斷有很大的指導(dǎo)意義,相似的臨床數(shù)據(jù)可以為患者提供有力的數(shù)據(jù)經(jīng)驗(yàn)支持。

猜你喜歡
精確度觀測(cè)肺癌
觀測(cè)到恒星死亡瞬間
軍事文摘(2023年18期)2023-11-03 09:45:42
中醫(yī)防治肺癌術(shù)后并發(fā)癥
對(duì)比增強(qiáng)磁敏感加權(quán)成像對(duì)肺癌腦轉(zhuǎn)移瘤檢出的研究
研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
“硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
天測(cè)與測(cè)地VLBI 測(cè)地站周?chē)匦斡^測(cè)遮掩的討論
可觀測(cè)宇宙
太空探索(2016年7期)2016-07-10 12:10:15
高分辨率對(duì)地觀測(cè)系統(tǒng)
太空探索(2015年8期)2015-07-18 11:04:44
microRNA-205在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
滨州市| 商城县| 清水县| 咸阳市| 清水河县| 大安市| 孝义市| 绵竹市| 奉贤区| 南丰县| 内江市| 康保县| 新巴尔虎左旗| 门头沟区| 吉安县| 安徽省| 安化县| 沅陵县| 都兰县| 宜君县| 德昌县| 桐梓县| 新宁县| 宁波市| 嘉义市| 麦盖提县| 浦北县| 宝清县| 兴仁县| 永吉县| 阳春市| 阜新| 温州市| 和平县| 阿拉善盟| 宁乡县| 凤山市| 青龙| 昌黎县| 呼和浩特市| 太湖县|