劉永超 王衛(wèi)兵 徐倩 郭艷宏 吳超
摘 要:卵巢癌是我國(guó)女性發(fā)病率較高的癌癥之一,并且有逐年增加的趨勢(shì)?;蛐酒粡V泛用于癌癥早期檢測(cè),癌癥的早發(fā)現(xiàn)可以確保生存率增加超過(guò)97%。本文針對(duì)基因芯片的質(zhì)譜數(shù)據(jù),提出了一種基于主成分分析(PCA)和支持向量機(jī)(SVM)的卵巢癌預(yù)測(cè)方法。重點(diǎn)進(jìn)行了模型設(shè)計(jì)和仿真對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:本文方法在預(yù)測(cè)精度上達(dá)到了89.1%,而只消耗4.791s的CPU時(shí)間,是一個(gè)較好的平衡點(diǎn)。
關(guān)鍵詞:
主成分分析;支持向量機(jī);卵巢癌預(yù)測(cè);基因芯片
DOI:10.15938/j.jhust.2021.03.014
中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2021)03-0099-04
A Cancer Prediction Method Based on Principal Component Analysis
and Support Vector Machine
LIU Yong-chao1,2 , WANG Wei-bing1, XU Qian3, GUO Yan-hong2, WU Chao2
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.The Second Affiliated Hospital of Qiqihar Medical University,Qiqihar 161000,China:
3.Distribution and Operation Inspection Room of Harbin Branch of Heilongjiang Power Supply Company,Harbin 150001, China)
Abstract:Ovarian cancer is one of the most common cancers contracted by women in China, and it has a tendency to increase year by year. The gene chip is widely applied to the early detection of cancer, which ensures an increase in survival rate over 97%. In this paper, by virtue of a mass spectrometry data of gene chip, an ovarian cancer prediction method based on principal component analysis (PCA) and support vector machine (SVM) is proposed. The model is designed and the simulation comparison experiments are carried out, which are at the core of the research. The experimental results verify that the proposed method has presented the superior performance with prediction accuracy of 89.1%and CPU time of 4.791s.
Keywords:principal component analysis; support vector machine; ovarian cancer prediction; gene chip
0 引 言
癌癥是人類生命和健康的主要威脅之一,是世界上最致命的疾病[1]。在我國(guó),癌癥患者逐年增加。在ACS的《2018年全球癌癥統(tǒng)計(jì)數(shù)據(jù)》報(bào)告中指出:癌癥發(fā)病率和死亡率我國(guó)均居全球第一!2018年在全球新增癌癥患者1810萬(wàn)人,我國(guó)占21%;全球死于癌癥的人數(shù)是960萬(wàn)人,我國(guó)占23.9%。卵巢癌是我國(guó)女性發(fā)病率較高的癌癥之一,并且有逐年增加的趨勢(shì),雖然可以通過(guò)降低風(fēng)險(xiǎn)因素來(lái)預(yù)防,但仍高發(fā)。癌癥的診斷是一項(xiàng)極其艱巨而復(fù)雜的任務(wù),但早期發(fā)現(xiàn)癌癥可以確保生存率增加超過(guò)97%[2]??梢?,卵巢癌早期發(fā)現(xiàn)對(duì)我國(guó)女性健康尤為重要。
基因芯片是利用核酸互補(bǔ)雜交原理按二維結(jié)構(gòu)將大量探針?lè)肿庸潭ㄓ谥С治锷?,與標(biāo)記的樣品分子進(jìn)行雜交反應(yīng),通過(guò)對(duì)雜交信號(hào)的監(jiān)測(cè)分析獲取樣品分子的數(shù)量和序列信息[3]。目前,廣泛應(yīng)用基因芯片檢測(cè)各種癌癥,但其產(chǎn)生的微陣列數(shù)據(jù)具有:樣本小、數(shù)據(jù)量大、維度高等特點(diǎn),很容易導(dǎo)致預(yù)測(cè)癌癥存在與否的分類失敗。所以,在預(yù)測(cè)前必須對(duì)數(shù)據(jù)進(jìn)行特征提取,這是提高分類質(zhì)量和降低分類算法的計(jì)算復(fù)雜性的重要步驟。
目前有很多機(jī)器學(xué)習(xí)的方法用于各種癌癥分類。文[4]采用一個(gè)無(wú)監(jiān)督的基因過(guò)濾算法以降低用于分型計(jì)算的數(shù)據(jù)噪聲,首先提出了一個(gè)概率模型對(duì)樣本中的分類結(jié)構(gòu)進(jìn)行建模,然后基于聚類的結(jié)果采用相對(duì)熵的方法獲得對(duì)分類貢獻(xiàn)大的基因作為特征基因,最后根據(jù)選出的特征基因做聚類來(lái)進(jìn)行癌癥分類。文[5]提出了一項(xiàng)關(guān)于前列腺癌疾病的調(diào)查研究,并使用神經(jīng)模糊分類系統(tǒng)進(jìn)行模式識(shí)別,以便盡早進(jìn)行治療計(jì)劃。文[6]通過(guò)基于內(nèi)核的學(xué)習(xí)和特征選擇提出了完整的癌癥診斷過(guò)程。使用SVM-RFE用于預(yù)過(guò)濾基因。文[7]提出了對(duì)數(shù)回歸的方法來(lái)預(yù)測(cè)和分類癌癥。文[8]提出了使用貝葉斯網(wǎng)絡(luò)方法來(lái)預(yù)測(cè)和分類癌癥。文[9]首先使用基因的分類信息指數(shù)來(lái)選取分類特征基因,去除無(wú)關(guān)基因進(jìn)行數(shù)據(jù)的預(yù)處理,然后用支持向量機(jī)來(lái)進(jìn)行癌癥的分類預(yù)測(cè)。文[10]提出了一種基于SVM模型診斷卵巢癌,使用模糊粗糙集理論進(jìn)行特征選擇,使用SVM來(lái)處理復(fù)雜真實(shí)的數(shù)據(jù),進(jìn)行快速學(xué)習(xí),此方法具有良好的分類性能。本文提出一種基于PCA和SVM的卵巢癌預(yù)測(cè)方法,使用PCA進(jìn)行卵巢癌微陣列數(shù)據(jù)樣本的特征提取,使用適合小樣本分類的SVM作為區(qū)分卵巢癌患者和非卵巢癌患者的分類器。
1 預(yù)測(cè)模型
假設(shè)總共有n個(gè)卵巢癌患者的微陣列數(shù)據(jù)記錄,每個(gè)記錄包含p個(gè)特征屬性。根據(jù)每個(gè)患者的特征數(shù)據(jù),通過(guò)分類實(shí)現(xiàn)預(yù)測(cè)患者是病態(tài)還是正常。本文提出的方法如圖1所示,其中,PCA可以在保證一定的信息利用率的基礎(chǔ)上提取簡(jiǎn)化特征屬性的維數(shù);SVM用于分類及預(yù)測(cè)。對(duì)卵巢癌患者的微陣列數(shù)據(jù)而言,一個(gè)數(shù)據(jù)包含上萬(wàn)個(gè)或幾萬(wàn)個(gè)特征屬性,可見使用PCA對(duì)這樣的數(shù)據(jù)進(jìn)行降維處理是有必要的。從模型的數(shù)據(jù)流上說(shuō),PCA輸出的數(shù)據(jù)作為SVM的輸入數(shù)據(jù),看似串行,實(shí)這則并行。對(duì)單個(gè)數(shù)據(jù)而言,PCA和SVM的工作是串行級(jí)的;對(duì)整體數(shù)據(jù)而言,PCA和SVM的工作是同步的,并行級(jí)的,SVM處理上一個(gè)數(shù)據(jù)的同時(shí)PCA可以降維下一個(gè)數(shù)據(jù),這樣可以提高模型的預(yù)測(cè)效率。
1.1 數(shù)據(jù)預(yù)處理
首先,處理缺失值和屬性的冗余值。歷史數(shù)據(jù)可能存在一些遺漏或冗余的屬性值,這可能會(huì)影響分類的準(zhǔn)確性和計(jì)算速度。
其次,數(shù)據(jù)標(biāo)準(zhǔn)化,消除其尺寸差異的影響。根據(jù)原始樣本中存在n個(gè)具有p個(gè)屬性的數(shù)據(jù),構(gòu)造n×p的變量矩陣,每個(gè)列在矩陣中標(biāo)準(zhǔn)化,獲得歸一化值z(mì)ij,其計(jì)算方法為
zij=xij-jsj (i=1,2,…,n j=1,2,…,p)(1)
j=∑ni=1xijn (i=1,2,…,n j=1,2,…,p)(2)
sj=∑ni=1(xij-j)2n-1 (i=1,2,…,n j=1,2,…,p)(3)
1.2 主成分分析
屬性中的太多變量將增加大量的計(jì)算負(fù)載。PCA可以刪除相關(guān)變量,并創(chuàng)建一些彼此無(wú)關(guān)的新變量。更重要的是,原始信息能最大限度地被這些新變量保留。PCA的實(shí)現(xiàn)過(guò)程描述如下:
計(jì)算標(biāo)準(zhǔn)化變量矩陣Z的協(xié)方差矩陣C,即
C=ZZTn-1(4)
計(jì)算協(xié)方差矩陣C的特征方程|C-λIp|=0,得到特征值λj和相應(yīng)的特征向量αj,其中j=1,2,…,p。
根據(jù)式(5)確定主成分k的數(shù)值,確保信息利用率高于95%。
∑kj=1λj∑nj=1λj≥95%(5)
特征值按從大到小排列,取前k個(gè)最大特征值對(duì)應(yīng)的特征向量,得到一個(gè)k行p列的特征向量矩陣V。
根據(jù)式(6)計(jì)算得到n行k列的矩陣X,這個(gè)矩陣X就是降維后的變量矩陣,包含k個(gè)主要成分的數(shù)據(jù)。
X=(VZT)T=ZVT(6)
1.3 支持向量機(jī)
SVM是一種判別分類器,由分類超平面所定義。也就是說(shuō),使用標(biāo)記的訓(xùn)練樣本訓(xùn)練模型,然后通過(guò)輸出最佳超平面來(lái)實(shí)現(xiàn)測(cè)試樣本分類。SVM描述如下:
卵巢癌預(yù)測(cè)問(wèn)題為非線性問(wèn)題,所以SVM的目標(biāo)函數(shù)f(x)表示為
f(x)=wT·φ(x)+b(7)
其中:x為輸入;w為權(quán)向量;b為偏置向量。把輸入數(shù)據(jù)映射到高維數(shù)據(jù)空間。
利用極大化間隔的求解思想,最終得到分類決策函數(shù)為
f(x)=∑ni=1αiyiK(xi,x)+b(8)
其中:K(xi,x)為核函數(shù),表示映射到的高維特征空間的兩個(gè)點(diǎn)的內(nèi)積<φ(xi)·φ(x)>。這里選擇學(xué)習(xí)能力強(qiáng)且誤差小的Gauss徑向基(RBF)核函數(shù)為
K(xi,x)=exp(-‖xi-x‖22σ2)(9)
其中,σ為核函數(shù)系數(shù),具有高的靈活性。
2 仿真實(shí)驗(yàn)與分析
2.1 數(shù)據(jù)集
本文所有仿真實(shí)驗(yàn)使用同一個(gè)數(shù)據(jù)集,是來(lái)自于AICR的卵巢癌微陣列質(zhì)譜數(shù)據(jù)集,樣本共有253個(gè),包括卵巢癌患者陽(yáng)性(病態(tài))和陰性(健康),且每個(gè)樣本的屬性有15000之多。在這253個(gè)卵巢癌數(shù)據(jù)樣本中隨機(jī)選其中的170個(gè)為訓(xùn)練集,剩余的83個(gè)為測(cè)試集,卵巢癌微陣列質(zhì)譜數(shù)據(jù)如表1所示。
2.2 仿真實(shí)驗(yàn)設(shè)計(jì)
設(shè)計(jì)3個(gè)仿真實(shí)驗(yàn)來(lái)證明本文提出的基于PCA和SVM的癌癥預(yù)測(cè)方法的有效性,即主成分k值確定、預(yù)測(cè)精度和算法效率。
仿真實(shí)驗(yàn)中的計(jì)算使用安裝了Libsvm-3.21工具包的MATLAB R2010b軟件完成。模型中的SVM參數(shù)隨機(jī)選擇,要求C∈[0,100]、σ∈[0.1,10],用MATLAB仿真的時(shí)候用經(jīng)驗(yàn)值或試湊法調(diào)節(jié)。
仿真實(shí)驗(yàn)都是在實(shí)驗(yàn)室的PC機(jī)上完成。PC機(jī)的OS為Win7 Sp1,硬件運(yùn)行環(huán)境為:處理器(CPU):Intel(R) Core(TM) i3-3110 CPU @ 2.4GHz,物理四核;內(nèi)存(RAM):8.00GB;磁盤驅(qū)動(dòng)器:ATA WDC WD5000LPVX-0;顯示適配器:NVIDIA GeForce GT 635M。
2.3 結(jié)果與分析
原始數(shù)據(jù)集總共有15000個(gè)屬性。通過(guò)本文1.2節(jié)計(jì)算協(xié)方差矩陣特征方程的特征值和特征向量的方法進(jìn)行了主成分分析,經(jīng)過(guò)分析,數(shù)據(jù)的特征值大大減少,290個(gè)屬性可以保證100%的信息利用率(通過(guò)計(jì)算貢獻(xiàn)率可以近似獲得)。在這個(gè)實(shí)驗(yàn)中,我們相信95%的信息利用率可以確保結(jié)果的正確性,即最少由98個(gè)數(shù)據(jù)屬性表示。然后,根據(jù)式(5)計(jì)算主成分k值。信息利用率選擇如圖2所示。 在圖2中,屬性個(gè)數(shù)被表示為橫軸,屬性個(gè)數(shù)對(duì)應(yīng)的信息利用率被表示為縱軸。
在數(shù)據(jù)集上,應(yīng)用所提出的方法進(jìn)行預(yù)測(cè)實(shí)驗(yàn),并與數(shù)據(jù)集上的KNN和ESOM等典型分類方法在預(yù)測(cè)精度上進(jìn)行了比較,如圖3所示??梢钥闯?,預(yù)測(cè)精度上最高是本文所提出的方法,預(yù)測(cè)精度為89.1%,高于KNN的71.7%和ESOM的62.5%。
通過(guò)消耗的CPU時(shí)間來(lái)比較本文方法、KNN和ESOM的效率,CPU時(shí)間對(duì)比如圖4所示。由于本文中使用的數(shù)據(jù)集擁有大量的屬性值,因此需要花費(fèi)很長(zhǎng)時(shí)間來(lái)訓(xùn)練和預(yù)測(cè)分類結(jié)果。在這3種方法中,KNN是最耗時(shí)的,所需的CPU時(shí)間高達(dá)1225.433s。由于本文方法和ESOM都對(duì)數(shù)據(jù)集進(jìn)行了降維處理,所以消耗的CPU時(shí)間較少。本文方法應(yīng)用了主成分分析,效率得到了極大的提高,只消耗4.791s的CPU時(shí)間。
3 結(jié) 論
根據(jù)微陣列質(zhì)譜數(shù)據(jù)的特點(diǎn),本文提出一種基于主成分分析(PCA)和支持向量機(jī)(SVM)的卵巢
癌預(yù)測(cè)方法。使用PCA在預(yù)測(cè)前對(duì)數(shù)據(jù)進(jìn)行特征提取,來(lái)提高分類質(zhì)量和降低分類算法的計(jì)算復(fù)雜性。使用SVM作為區(qū)分卵巢癌陽(yáng)性和陰性的分類器,其更適合小樣本分類。仿真實(shí)驗(yàn)結(jié)果表明:本文方法在預(yù)測(cè)精度上達(dá)到了89.1%,而只消耗4.791s的CPU時(shí)間,是一個(gè)較好的平衡點(diǎn),但仍需要在其他卵巢癌數(shù)據(jù)集上進(jìn)行驗(yàn)證。同時(shí),本文方法也可以應(yīng)用在其他高維數(shù)據(jù)分類的領(lǐng)域。
參 考 文 獻(xiàn):
[1] SIEGEL R L, MILLER K D,F(xiàn)EDEWA S A, et al. Colorectal Cancer Statistics, 2017.[J]. CA: A Cancer Journal for Clinicians, 2017, 67(3):177.
[2] MILLER K D, SIEGEL R L, LIN C C, et al.Cancer Treatment and Survivorship Statistics, 2016[J]. CA: A Cancer Journal for Clinicians, 2016, 66(4):271.
[3] 沈銳, 謝楊, 李磊, 等. 基因芯片技術(shù)在于癌癥診斷研究發(fā)展[J]. 世界最新醫(yī)學(xué)信息文摘, 2017,17(33):124.
SHEN Rui, XIE Yang, LI Lei, et al.Gene Chip Technology Lies in the Development of Cancer Diagnosis Research[J]. World Latest Medicine Information, 2017,17(33):124.
[4] 李澤, 包雷, 黃英武, 等. 基于基因表達(dá)譜的腫瘤分型和特征基因選取[J]. 生物物理學(xué)報(bào), 2002, 33(4): 413.
LI Ze, BAO Lei, HUANG Yingwu, et al. Cancer Subtype Discovery and Informative Gene Identification with Gene Expression Profiles[J]. Acta Biophysica Sinica, 2002, 33(4): 413.
[5] SUBRATA Kar, MAJUMDER D. Dutta. An Investigative Study on Early Diagnosis of Prostate Cancer Using Neuro-fuzzy Classification Systemfor Pattern Recognition[J]. International Journal of Fuzzy Systems, 2016,19(2): 1.
[6] MEDJAHED, SEYYID Ahmed. Kernel-based Learning and Featureselection Analysis for Cancer Diagnosis[J]. Applied Soft Computing , 2017,51: 39.
[7] ZHOU X B, LIU K Y, WONG S T C. Cancer Classification and Prediction Using Logistic Regression with Bayesian Gene Selection[J]. Journal of Biomedical Informatics, 2004,37: 249.
[8] HELMAN P, VEROFF R, ATLAS S R, et al. A Bayesian Network Classification Methodology for Gene Expression Data [J]. J. Comput. Biol., 2004, 11: 581.
[9] 李穎新, 阮曉鋼. 基于基因表達(dá)譜的腫瘤亞型識(shí)別與分類特征基因選取研究[J]. 電子學(xué)報(bào), 2005, 33(4): 651.
LI Yingxin, RUAN Xiaogang. Cancer Subtype Identification and Feature Gene Selection with Gene Expression Profiles[J]. Acta Electronica Sinica, 2005, 33(4): 651.
[10]BADRIA, F A. A Framework for Ovarian Cancer Diagnosis Basedon Amino Acids Using Fuzzy-rough Sets with SVM[J]. International Con-ference on Advanced Machine Learning Technologies and Applications, 2014.
(編輯:王 萍)