王會(huì)娜 黃偉 劉毅慧
摘要:原發(fā)性肝癌(PLC)患者精確放療后乙肝病毒(HBV)再激活是一種常見(jiàn)的并發(fā)癥,影響患者預(yù)后,危及患者的生命。通過(guò)連續(xù)小波進(jìn)行去噪,然后再通過(guò)隨機(jī)森林對(duì)特征重要性的排序找出引發(fā)乙肝病毒再激活的危險(xiǎn)因素,給醫(yī)生提供參考,進(jìn)而提前進(jìn)行預(yù)防治療,降低病毒再激活的發(fā)病率。首先對(duì)原始數(shù)據(jù)集進(jìn)行連續(xù)小波變換,之后使用隨機(jī)森林進(jìn)行關(guān)鍵特征的選取,將隨機(jī)森林模型下的特征按照重要性進(jìn)行排序,選取重要性最高的5個(gè)特征組成關(guān)鍵特征子集,然后將新的特征子集用隨機(jī)森林分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明隨機(jī)森林選取HBV DNA水平、TNM腫瘤分期、V10、V20、外放邊界這5個(gè)關(guān)鍵特征作為致使乙肝病毒再激活的危險(xiǎn)因素組合時(shí),進(jìn)行小波變換后,3折交叉驗(yàn)證下預(yù)測(cè)精度最高達(dá)到82.96%。本次研究表明,小波變換后可以有效地降噪,隨機(jī)森林可以通過(guò)評(píng)估變量的重要性,選出關(guān)鍵特征,很好地用于解決乙肝病毒再激活分類(lèi)預(yù)測(cè)問(wèn)題。
關(guān)鍵詞:原發(fā)性肝癌(PLC);乙肝病毒(HBV)再激活;連續(xù)小波;隨機(jī)森林;特征選??;交叉驗(yàn)證
0引言
原發(fā)性肝癌(PLC)是一種常見(jiàn)的惡性腫瘤疾病,在我國(guó),肝癌多發(fā)于東南沿海地區(qū),肝癌患者接受放療治療后,HBV再激活是一種最常見(jiàn)的并發(fā)癥。HBV再激活會(huì)引起肝損傷、肝衰竭,嚴(yán)重威脅患者的生命。論文中指出,腫瘤分期、HBV DNA水平、肝功能Child-Pugh分級(jí)是原發(fā)性肝癌患者接受三維適形放療(3D-CRT)后致乙型肝炎病毒(HBv)再激活的危險(xiǎn)因素。論文發(fā)現(xiàn)放療劑量、HBV DNA水平是HBV病毒再激活的危險(xiǎn)因素。論文首先用t檢驗(yàn)和logistic進(jìn)行特征提取,發(fā)現(xiàn)外放邊界、腫瘤分期TNM和HBVDNA水平是HBV再激活的危險(xiǎn)因素,用危險(xiǎn)因素作為數(shù)據(jù)集建立BP神經(jīng)網(wǎng)絡(luò)分類(lèi)模型識(shí)別率達(dá)到78.89%。論文建立SVM分類(lèi)模型預(yù)測(cè)精度達(dá)到78.89%。論文建立RBF神經(jīng)網(wǎng)絡(luò)模型,識(shí)別率提高到80%。隨后在論文中通過(guò)遺傳算法發(fā)現(xiàn)HBV DNA水平、腫瘤分期TNM、Chfld-Pugh、V45、外放邊界、外放邊界編碼和全肝最大劑量是乙肝病毒再激活的危險(xiǎn)因素,SVM分類(lèi)模型下的預(yù)測(cè)精度達(dá)到83.34%。
綜上分析可以得出,原發(fā)性肝癌患者接受適形放療后乙肝病毒再激活的危險(xiǎn)因素并非單一的,不同的臨床指標(biāo)都有可能會(huì)引發(fā)乙肝病毒再激活,因此研究中仍需要通過(guò)不同的特征提取方法來(lái)發(fā)現(xiàn)更多的危險(xiǎn)因素。
本文首先使用連續(xù)小波進(jìn)行小波變換,然后再采用隨機(jī)森林進(jìn)行特征提取。小波變換是一種信號(hào)的時(shí)間一尺度(時(shí)間-頻數(shù))分析法,具有多分辨分析(Multi-resolution Analysis)的特點(diǎn),而且在時(shí)頻兩域都具有表征信號(hào)局部特征的能力。連續(xù)小波變換突破了Fourier變換基底的限制,用一個(gè)函數(shù)的平移伸縮作為基底,開(kāi)展頻譜的研究。小波變換多用于信號(hào)去噪,特征提取等方面。其中,特征提取是根據(jù)隨機(jī)森林算法本身的變量重要性度量設(shè)計(jì)得到特征排序,由此選出得分最高的幾個(gè)特征,組成最優(yōu)特征子集,然后建立隨機(jī)森林分類(lèi)模型來(lái)研發(fā)應(yīng)用在分類(lèi)預(yù)測(cè)中。隨機(jī)森林是機(jī)器學(xué)習(xí)模型的一種,主要利用多個(gè)分類(lèi)決策樹(shù)對(duì)數(shù)據(jù)實(shí)現(xiàn)判別與分類(lèi)。而且,在對(duì)數(shù)據(jù)分類(lèi)的同時(shí),還可以根據(jù)變量的特點(diǎn),給出每個(gè)特征的重要性評(píng)分,評(píng)估每個(gè)特征在分類(lèi)中發(fā)揮的作用。目前利用隨機(jī)森林進(jìn)行特征選擇已廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域。