国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

應(yīng)用隨機(jī)森林和支持向量機(jī)對(duì)三陰性乳腺癌基因數(shù)據(jù)的降維和篩選

2020-06-28 10:30:56郭志旺郭維恒劉學(xué)慧王立芹
關(guān)鍵詞:降維排序陰性

秦 璞 郭志旺 郭維恒 張 蕊 劉學(xué)慧 王立芹,△

【提 要】 目的 應(yīng)用隨機(jī)森林和支持向量機(jī)算法處理乳腺癌基因數(shù)據(jù),篩選三陰性和非三陰性乳腺癌的差異基因,為臨床應(yīng)用提供更多的參考靶點(diǎn)。方法 使用TCGA乳腺癌基因數(shù)據(jù),通過(guò)t檢驗(yàn)和隨機(jī)森林進(jìn)行降維處理,然后使用支持向量機(jī)、支持向量機(jī)遞歸特征消除法、隨機(jī)森林進(jìn)行變量重要性排序,將隨機(jī)森林和支持向量機(jī)與向前變量選擇法結(jié)合進(jìn)行模型預(yù)測(cè)并完成最終變量篩選,通過(guò)Holdout驗(yàn)證評(píng)價(jià)模型效果。結(jié)果 數(shù)據(jù)經(jīng)t檢驗(yàn)的FDR降維后剩余18702個(gè)基因,經(jīng)隨機(jī)森林降維后剩余6326個(gè)基因;對(duì)降維后經(jīng)三種方法排序的數(shù)據(jù)建立預(yù)測(cè)模型,獲得各模型約登指數(shù)等評(píng)價(jià)指標(biāo);對(duì)排序結(jié)果中靠前的基因進(jìn)行文獻(xiàn)搜索,發(fā)現(xiàn)大部分基因和三陰性乳腺癌的轉(zhuǎn)移或者預(yù)后有關(guān)。結(jié)論 針對(duì)高維基因表達(dá)數(shù)據(jù)進(jìn)行變量選擇,使用t檢驗(yàn)的FDR進(jìn)行降維、隨機(jī)森林對(duì)變量進(jìn)行排序篩選、支持向量機(jī)進(jìn)行預(yù)測(cè)效果最佳;通過(guò)檢索重要性排序靠前基因發(fā)現(xiàn)大多數(shù)與三陰性乳腺癌有關(guān),但某些靠前基因與三陰性乳腺癌無(wú)文獻(xiàn)研究,建議研究這些基因與三陰性乳腺癌的相關(guān)性。

隨著云計(jì)算、計(jì)算機(jī)智能存儲(chǔ)等技術(shù)的快速發(fā)展,海量高維數(shù)據(jù)已滲入到各個(gè)領(lǐng)域,在醫(yī)學(xué)研究中比較常見(jiàn)的高維數(shù)據(jù)就是基因表達(dá)數(shù)據(jù)。傳統(tǒng)統(tǒng)計(jì)方法難以對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行有效的處理分析,機(jī)器學(xué)習(xí)[1]是目前處理高維數(shù)據(jù)的主要方法,這類方法具有強(qiáng)大的特征識(shí)別、分類和預(yù)測(cè)的能力。通過(guò)機(jī)器學(xué)習(xí)的方法從基因表達(dá)數(shù)據(jù)中篩選出與疾病密切相關(guān)的基因,可指導(dǎo)基礎(chǔ)研究和臨床實(shí)踐,降低基礎(chǔ)研究費(fèi)用,便于研究靶向治療藥物,減輕患者痛苦,因此疾病相關(guān)基因的篩選對(duì)疾病的診斷和治療具有重要的現(xiàn)實(shí)意義[2-3]。

三陰性乳腺癌是指癌組織免疫組織化學(xué)檢查結(jié)果為雌激素受體、孕激素受體及人表皮生長(zhǎng)因子受體2均為陰性的乳腺癌,約占乳腺癌的20%左右[4-5],具有惡性程度高、侵襲能力強(qiáng)和易遠(yuǎn)處轉(zhuǎn)移等特點(diǎn),與其他類型的乳腺癌相比5年生存率更低[6-9]。本研究應(yīng)用隨機(jī)森林(random forest,RF)和支持向量機(jī)(support vector machine,SVM)處理三陰性乳腺癌患者和非三陰性乳腺癌患者的基因表達(dá)數(shù)據(jù),篩選與三陰性乳腺癌有關(guān)的基因并通過(guò)一些指標(biāo)組合進(jìn)行模型評(píng)價(jià),為臨床診斷、治療和基礎(chǔ)研究提供參考。

資料與方法

1.數(shù)據(jù)

使用癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數(shù)據(jù)庫(kù)的乳腺癌RNA-seq數(shù)據(jù),應(yīng)用GDC Data Transfer Tool軟件下載數(shù)據(jù)樣本,對(duì)數(shù)據(jù)進(jìn)行合并處理后,通過(guò)臨床數(shù)據(jù)癌組織免疫組織化學(xué)檢查結(jié)果可明確診斷為三陰性乳腺癌病人169例,非三陰性乳腺癌病人820例,共989個(gè)樣本,每個(gè)樣本測(cè)得60483個(gè)基因。

2.原理與方法

(1)隨機(jī)森林

(2)支持向量機(jī)

支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,在小樣本含量條件下具有較好的推廣能力和良好的泛化能力[12]。支持向量機(jī)可以通過(guò)核函數(shù)將原本線性不可分的數(shù)據(jù)轉(zhuǎn)化為線性可分?jǐn)?shù)據(jù),本研究使用運(yùn)算速度較快的線性核。使用R3.5.1軟件中的“e1071”包進(jìn)行分析。

(3)遞歸特征消除算法(recursive feature elimination,RFE)

遞歸特征消除法的主要思想是反復(fù)的構(gòu)建模型,該方法是一個(gè)循環(huán)過(guò)程,每個(gè)過(guò)程都包含以下3個(gè)步驟:①用當(dāng)前數(shù)據(jù)集訓(xùn)練分類器,獲得與分類器特征相關(guān)的信息即每個(gè)特征的權(quán)重;②根據(jù)事先制定的規(guī)則,計(jì)算所有特征的排序準(zhǔn)則分?jǐn)?shù)ci;③在當(dāng)前數(shù)據(jù)集中移除對(duì)應(yīng)于最小排序準(zhǔn)則分?jǐn)?shù)的特征。該循環(huán)過(guò)程一直執(zhí)行到特征集合中剩余最后一個(gè)變量時(shí)結(jié)束,執(zhí)行的結(jié)果為獲得一列按照特征重要性排序的特征序號(hào)列表,這個(gè)迭代循環(huán)過(guò)程實(shí)際上是一個(gè)序列后向選擇的過(guò)程,它在整個(gè)循環(huán)過(guò)程中先是去除了與判別不相關(guān)的特征,保留了對(duì)判別相對(duì)重要的優(yōu)化特征子集,因而可以達(dá)到優(yōu)化特征子集選擇,提高判別精度的目的。

將支持向量機(jī)與RFE算法整合可有較好的變量篩選效果,即SVM-RFE,該算法是由Isabelle Guyon等人[13]于2002年提出的,即SVM-RFE。該算法利用SVM線性核模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,得到每個(gè)特征的權(quán)向量,然后遞歸地刪除秩最小的特征,并將其存儲(chǔ)在堆棧數(shù)據(jù)結(jié)構(gòu)中,迭代過(guò)程一直持續(xù)到最后一個(gè)特征保留下來(lái)。使用R3.5.1軟件中“sigFeature”包進(jìn)行分析。

(4)變量重要性

變量重要性就是每個(gè)變量對(duì)分類結(jié)果的影響,變量的重要性評(píng)分是用來(lái)衡量預(yù)測(cè)變量對(duì)結(jié)局變量影響大小的評(píng)價(jià)指標(biāo)。本研究隨機(jī)森林變量重要性采用的是基尼系數(shù)下降值,支持向量機(jī)采用的是判別函數(shù)系數(shù)值w2。

(5)假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)

FDR[14]是對(duì)一個(gè)多重假設(shè)檢驗(yàn)陽(yáng)性結(jié)果中誤差比例的度量。通常直接經(jīng)t檢驗(yàn)得到的P值,若不經(jīng)過(guò)矯正發(fā)現(xiàn)的差異表達(dá)基因,則會(huì)存在大量的“假陽(yáng)性”,而通過(guò)FDR矯正則會(huì)降低其中假陽(yáng)性的比例。使用R3.5.1軟件中“qvalue”包進(jìn)行分析。

(6)統(tǒng)計(jì)分析方法

本研究基因表達(dá)數(shù)據(jù)有60483個(gè)基因,若使用全部基因建模,很多模型會(huì)出現(xiàn)高維失效,導(dǎo)致模型效果較差或者無(wú)法求解,因此對(duì)數(shù)據(jù)進(jìn)行降維處理。最常用的降維方法為t-FDR,即對(duì)t檢驗(yàn)得到的P值進(jìn)行FDR多重校正,刪除無(wú)統(tǒng)計(jì)學(xué)意義的基因。本研究還使用隨機(jī)森林進(jìn)行降維,計(jì)算每個(gè)變量基尼系數(shù)下降值和所有變量基尼系數(shù)下降值的均值,刪除基尼系數(shù)下降值位于均值以下的基因。

使用隨機(jī)森林、支持向量機(jī)、SVM-RFE來(lái)計(jì)算變量重要性,使用向前變量選擇法按照變量重要性評(píng)分,從大到小逐個(gè)引入變量,每加入一個(gè)變量就重新構(gòu)建一次模型。通過(guò)Holdout驗(yàn)證法對(duì)模型進(jìn)行評(píng)價(jià),將數(shù)據(jù)隨機(jī)分割成兩部分,其中2/3的樣本為訓(xùn)練集,另外1/3的樣本為測(cè)試集,計(jì)算測(cè)試集訓(xùn)練結(jié)果的敏感度、特異度、陽(yáng)性預(yù)測(cè)值(positive predictive value,PPV)、陰性預(yù)測(cè)值(negative predictive value,NPV)、準(zhǔn)確率、約登指數(shù)和F1統(tǒng)計(jì)量。本研究應(yīng)變量樣本不平衡,使用約登指數(shù)和F1統(tǒng)計(jì)量為主要評(píng)價(jià)指標(biāo),數(shù)據(jù)分析流程見(jiàn)圖1。

圖1 統(tǒng)計(jì)分析流程圖

(7)統(tǒng)計(jì)分析軟件及程序包

本研究使用R3.5.1軟件進(jìn)行數(shù)據(jù)處理和分析,除上述程序包以外還使用了“caret”等基礎(chǔ)軟件包。

結(jié) 果

1.降維

通過(guò)t-FDR降維,剩余18702個(gè)基因。通過(guò)隨機(jī)森林降維,剩余6326個(gè)基因。

2.變量排序結(jié)果

經(jīng)t-FDR和隨機(jī)森林降維后,分別使用隨機(jī)森林、支持向量機(jī)、SVM-RFE對(duì)基因變量的重要性進(jìn)行排序,前10位基因見(jiàn)表1。

3.預(yù)測(cè)結(jié)果與模型評(píng)價(jià)

使用隨機(jī)森林和支持向量機(jī)兩種分類器,對(duì)排序基因采用向前變量選擇法對(duì)是否為三陰性乳腺癌患者進(jìn)行分類,變量個(gè)數(shù)與評(píng)價(jià)指標(biāo)存在一定關(guān)系,結(jié)果見(jiàn)圖2~4。隨著納入模型的變量個(gè)數(shù)增多,指標(biāo)會(huì)有一定的上升趨勢(shì),而繼續(xù)增多則會(huì)趨向于平穩(wěn),綜合考慮變量個(gè)數(shù)和評(píng)價(jià)指標(biāo),選取變量少而評(píng)價(jià)指標(biāo)高的模型作為最終模型,最終模型選出變量個(gè)數(shù)及評(píng)價(jià)指標(biāo)見(jiàn)表2~4。

經(jīng)隨機(jī)森林降維結(jié)果各評(píng)價(jià)指標(biāo)不及經(jīng)t-FDR降維結(jié)果。使用SVM-RFE方法進(jìn)行重要性排序,建模后約登指數(shù)最高為0.8271;使用支持向量機(jī)進(jìn)行重要性排序,建模后約登指數(shù)最高為0.8392;兩種排序方法建模效果均不及隨機(jī)森林排序效果。

經(jīng)t-FDR降維、使用隨機(jī)森林排序后,使用隨機(jī)森林建模,入選變量個(gè)數(shù)為8個(gè)時(shí),模型各評(píng)價(jià)指標(biāo)均達(dá)到最優(yōu);若使用支持向量機(jī)建模,入選變量個(gè)數(shù)為8個(gè)時(shí)模型整體效果最好。經(jīng)隨機(jī)森林降維、使用隨機(jī)森林排序后,使用隨機(jī)森林建模,入選變量個(gè)數(shù)為8個(gè)時(shí),模型各評(píng)價(jià)指標(biāo)均達(dá)到最優(yōu);若使用支持向量機(jī)建模,入選變量個(gè)數(shù)為5個(gè)時(shí)模型整體效果最好,結(jié)果詳見(jiàn)圖2。

預(yù)測(cè)模型支持向量機(jī)的敏感度要遠(yuǎn)高于隨機(jī)森林,而隨機(jī)森林的陽(yáng)性預(yù)測(cè)值要高于支持向量機(jī),但整體上用支持向量機(jī)分類要優(yōu)于隨機(jī)森林。

圖2 基于RF重要性排序各模型評(píng)價(jià)指標(biāo)隨變量個(gè)數(shù)變化趨勢(shì)圖

圖3 基于SVM重要性排序各模型評(píng)價(jià)指標(biāo)隨變量個(gè)數(shù)變化趨勢(shì)圖

圖4 基于SVM-RFE重要性排序各模型評(píng)價(jià)指標(biāo)隨變量個(gè)數(shù)變化趨勢(shì)圖

排序t-FDR降維RFSVMSVM-RFERF降維RFSVMSVM-RFE1ESR1RPSAP42KIRREL3-AS1ESR1RP4-583P15.14OR7E110P2MLPHTRNP1WWTR1AGR3PROSPTMSB15B3GATA3IGKV2-26SF3B6GATA3SRD5A2VSNL14AGR3TMEM178ARAD51AP2LINC00504OR4C1PZNF518B5TTC6FRMPD2TTC39CTBC1D9MIR6726NT5DC26FOXA1RFX2IGKV2-26CCDC170RP11-13E1.5SRD5A27TBC1D9TRBV6-7ELOVL7CT62IGLV1-36NCLP28CCDC170ADAMTS1PF4V1MLPHRP11-361M10.4FTH1P199CT62GAPDHP24AC007292.7FOXCUTRPL31P54VRTN10RP11-279F6.1RP1-261G23.4LINC01675FOXA1SLC25A39P2LINC01015

表2 基于RF重要性排序各個(gè)模型評(píng)價(jià)指標(biāo)結(jié)果

表3 基于SVM重要性排序各個(gè)模型評(píng)價(jià)指標(biāo)結(jié)果

表4 基于SVM-RFE重要性排序各個(gè)模型評(píng)價(jià)指標(biāo)結(jié)果

4.統(tǒng)計(jì)分析結(jié)果與基因文獻(xiàn)研究的關(guān)聯(lián)性結(jié)果

對(duì)本研究的六種基因排序方法中排序前50的基因進(jìn)行文獻(xiàn)搜索,發(fā)現(xiàn)ESR1、AR、CCDC170、ERBB4、GATA3、FOXA1、THSD4、AGR2、AGR3、CXXC5、FAM171A1、FSIP1、CA12、FOXCUT、RHOB、SPDEF、TFF1、TFF3、MLPH、ADAMTS1等基因與三陰性乳腺癌相關(guān);ACADSB、BCAS1、DNALI1、SRD5A2等基因與乳腺癌相關(guān);AC007255.8、ANXA9、B3GNT5、CCDC125、DSC2、FZD9、MYB、SRARP、TTC6、LINC00504、LMX1B、ELOVL7、FRMPD2、RFX2、SF3B6等基因與其他癌癥有關(guān);因此排在前面的基因大部分和三陰性乳腺癌或者其他癌癥的轉(zhuǎn)移或者預(yù)后相關(guān),并且其中大部分基因是基于隨機(jī)森林重要性評(píng)分篩選出來(lái)的且多數(shù)是編碼基因,基于t_RF篩選出來(lái)的有31個(gè),基于RF_RF篩選出來(lái)的有28個(gè),基于t_SVM篩選出來(lái)的有3個(gè),基于RF_SVM篩選出來(lái)的1個(gè),基于t_RFE篩選出來(lái)的有2個(gè),基于RF_RFE篩選出來(lái)的有2個(gè)。

討 論

本研究顯示:t-FDR降維處理結(jié)果好于隨機(jī)森林降維結(jié)果,使用隨機(jī)森林重要性評(píng)分排序結(jié)果最好,使用支持向量機(jī)建模預(yù)測(cè)效果優(yōu)于隨機(jī)森林。

本研究數(shù)據(jù)有60483個(gè)基因,屬于超高維數(shù)據(jù),直接分析花費(fèi)時(shí)間長(zhǎng)、模型效果差,因此本研究先對(duì)數(shù)據(jù)降維處理。應(yīng)用隨機(jī)森林降維時(shí),以所有變量基尼系數(shù)下降值的均值為截?cái)帱c(diǎn)進(jìn)行變量刪除,降維后剩余基因數(shù)量遠(yuǎn)少于t-FDR降維,最終模型效果也不及t-FDR降維效果,可能是截?cái)帱c(diǎn)選取過(guò)大導(dǎo)致某些重要基因被刪除,使得結(jié)果差于t-FDR降維結(jié)果,所以在使用隨機(jī)森林降維時(shí)選用指標(biāo)及臨界值的設(shè)置有待深入研究。

本研究比較了SVM、SVM-RFE、RF三種基因排序方法,結(jié)果顯示隨機(jī)森林算法最優(yōu)。由于硬件設(shè)施的限制,放棄了SVM非線性核算法,僅使用SVM線性核算法進(jìn)行重要性排序,但是變量間可能存在非線性關(guān)系,最終導(dǎo)致變量的重要性排序不夠穩(wěn)定。RF本身就可處理線性和非線性問(wèn)題,所以RF的基因重要性排序較好,后期還可研究使用SVM非線性核算法進(jìn)行變量排序的效果如何。

Isabelle Guyon等人[15]將遞歸特征消除的思想與SVM相結(jié)合,這種融合后的方法選擇的基因具有更好的分類性能和生物學(xué)性能。通過(guò)SVM和SVM-RFE兩種排序方法最終模型效果比較,可以看出SVM-RFE基因排序效果明顯好于僅用SVM排序效果,指標(biāo)波動(dòng)有了很大收斂,見(jiàn)圖3~4。可能由于本研究SVM僅使用線性核的限制,導(dǎo)致SVM-RFE排序結(jié)果差于RF排序結(jié)果,后期還可將遞歸特征消除的思想與RF相結(jié)合做更深入的研究。

本研究顯示支持向量機(jī)進(jìn)行建模分類時(shí)結(jié)果好于隨機(jī)森林,使用支持向量機(jī)預(yù)測(cè)能力更強(qiáng)。機(jī)器學(xué)習(xí)方法中經(jīng)驗(yàn)風(fēng)險(xiǎn)指的是訓(xùn)練集的平均損失,當(dāng)樣本容量足夠大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證很好的學(xué)習(xí)效果,但樣本容量較小時(shí)會(huì)導(dǎo)致過(guò)擬合現(xiàn)象。支持向量機(jī)[16-20]以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為準(zhǔn)則,在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng),通過(guò)最大化不同類別之間的距離來(lái)尋找最優(yōu)分類超平面,提高了分類模型的泛化性,對(duì)維度過(guò)高和過(guò)擬合等問(wèn)題有著較好的抗性。

搜索文獻(xiàn)發(fā)現(xiàn)本研究中排序靠前的基因大部分已有基礎(chǔ)研究,并且與乳腺癌密切相關(guān)。其中有研究表明[21]ESR1啟動(dòng)子的高甲基化導(dǎo)致雌激素受體表觀遺傳沉默;孫嘉慧等人[22]研究發(fā)現(xiàn)ESR1基因敲除能夠增強(qiáng)乳腺癌細(xì)胞的侵襲能力。多項(xiàng)研究[23-26]表明基因CCDC170與ESR1表達(dá)高度相關(guān),還與不同的乳腺癌病理分子分型相關(guān),而且影響乳腺癌患者的預(yù)后,因此CCDC170可能參與乳腺癌的發(fā)病與轉(zhuǎn)移進(jìn)展,并影響患者的治療和預(yù)后。雄激素受體基因AR在三陰性乳腺癌中研究廣泛,大量臨床前研究[5,27-33]證實(shí)了AR在癌組織細(xì)胞增殖過(guò)程中的作用,并通過(guò)一系列的臨床試驗(yàn)對(duì)AR拮抗劑在乳腺癌中的安全性和有效性進(jìn)行了進(jìn)一步評(píng)估,得到AR可能成為治療三陰性乳腺癌的潛在靶點(diǎn)。最近基因SRARP[34]被鑒定為雄激素受體AR的一種新型輔抑制因子,SRARP與生存的基因組和表觀基因組范圍的關(guān)聯(lián)強(qiáng)烈支持它們的腫瘤抑制功能,特別是DNA高甲基化、低表達(dá)、體細(xì)胞突變和低拷貝數(shù)的SRARP與不良的癌癥結(jié)局相關(guān)。對(duì)于基因ERBB4、TFF1、TFF3、GATA3、FOXCUT等,目前均有研究[35-42]表明這些位點(diǎn)與三陰性乳腺癌診斷或預(yù)后相關(guān)。

猜你喜歡
降維排序陰性
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
排序不等式
恐怖排序
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
節(jié)日排序
鉬靶X線假陰性乳腺癌的MRI特征
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
三陰性乳腺癌的臨床研究進(jìn)展
hrHPV陽(yáng)性TCT陰性的婦女2年后隨訪研究
黃癸素對(duì)三陰性乳腺癌MDA-MB-231細(xì)胞的體內(nèi)外抑制作用
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
宿松县| 仲巴县| 习水县| 宁远县| 苍南县| 平江县| 东源县| 农安县| 丰城市| 兴和县| 延安市| 常州市| 苍溪县| 兰西县| 灵寿县| 平原县| 永州市| 郸城县| 苗栗市| 舟曲县| 嘉祥县| 武汉市| 永康市| 颍上县| 铅山县| 封丘县| 临邑县| 朔州市| 贡山| 凤翔县| 济源市| 乐都县| 绥中县| 安西县| 城口县| 葫芦岛市| 雷波县| 台中市| 黑山县| 乌拉特前旗| 镇赉县|