鄒修明,羅 楠,孫懷江
(1.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210094;2.淮陰師范學(xué)院 物理與電子電氣工程學(xué)院,江蘇 淮安 223300)
癌癥已經(jīng)成為人類健康最大的敵人之一.癌癥早期是治療的黃金時(shí)間,此期的癌癥患者比晚期患者有著腫瘤規(guī)模較小,更高的治愈幾率以及更小的并發(fā)癥及發(fā)病率等諸多優(yōu)勢(shì),所以癌癥早期檢測(cè)是醫(yī)學(xué)界研究的熱點(diǎn).癌癥的檢測(cè)方法有很多[1],比如在成像方面的用于檢測(cè)乳腺癌的X射線照相術(shù),在化學(xué)方面有前列腺癌的PSA測(cè)試等.當(dāng)癌癥腫瘤直徑小于1cm的時(shí)候,上述方法就會(huì)因腫瘤太小檢查不到而失效[2],而癌癥早期腫瘤的尺寸一般不會(huì)大于1cm.因此人們需要另外的方法來對(duì)早期癌癥進(jìn)行檢測(cè).
近年來表面增強(qiáng)激光解吸離子化時(shí)間飛行質(zhì)譜(SELDI-TOF-MS)是用于蛋白質(zhì)組學(xué)質(zhì)譜復(fù)合生物標(biāo)記物發(fā)現(xiàn)、鑒定,以及癌癥的診斷、預(yù)測(cè)和預(yù)后的重要技術(shù).結(jié)合各種生物信息學(xué)處理方法,對(duì)一些重大疾病發(fā)現(xiàn)的生物標(biāo)記物模式,都達(dá)到了較高的靈敏度和特異度,己經(jīng)被認(rèn)為是在腫瘤診斷中非常有前景的技術(shù)方法[3].一組圖譜中樣本量只有幾十或幾百個(gè),但每個(gè)樣本中卻含有成千上萬(wàn)個(gè)特征,對(duì)于癌癥和正常樣本分類問題,數(shù)個(gè)特征就足夠了,過多的特征不但會(huì)降低分類器的速度,還會(huì)降低識(shí)別率.因此質(zhì)譜數(shù)據(jù)分析就是利用生物信息學(xué)分析方法來分析高維小樣本的數(shù)據(jù),通過特征選擇來檢測(cè)出健康體和癌癥體之間表達(dá)差異,從而達(dá)到癌癥樣本的分類或搜索生物標(biāo)記物的目的.
本文在對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)處理,提出用T檢驗(yàn)方法選取特征,以支持向量機(jī)為分類器,針對(duì)蛋白質(zhì)質(zhì)譜數(shù)據(jù)進(jìn)行分析研究.在SELDI-TOF-MS的卵巢質(zhì)譜數(shù)據(jù)集上進(jìn)行了分類實(shí)驗(yàn).
通過SELDI-TOF-MS技術(shù)所獲取的數(shù)據(jù),其中含有與分類無關(guān)的冗余信息、導(dǎo)致分類決策失誤的噪聲以及由于實(shí)驗(yàn)環(huán)境等因素造成的數(shù)據(jù)偏差等,所以需要通過某些預(yù)處理方法來彌補(bǔ)一些可能掩蓋感興趣的生物學(xué)信息.對(duì)蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)采用哪些預(yù)處理方法沒有一個(gè)統(tǒng)一標(biāo)準(zhǔn).本文對(duì)原始數(shù)據(jù)集做了基線校正與標(biāo)準(zhǔn)化以及數(shù)據(jù)降維等預(yù)處理工作.
反映檢測(cè)器噪音隨時(shí)間變化的曲線稱為基線.對(duì)于SELDI-TOF-MS質(zhì)譜數(shù)據(jù)來說基線就是質(zhì)譜數(shù)據(jù)的基本強(qiáng)度值.由于化學(xué)噪音或者離子過載,質(zhì)譜數(shù)據(jù)通常會(huì)表現(xiàn)出一個(gè)變化的曲線,并且主要位于低質(zhì)荷比區(qū)域,可視為顯著峰與噪聲間的邊界.由于譜的偏移程度不同,通常將每個(gè)譜的基線調(diào)整到水平線上.本文對(duì)樣本數(shù)據(jù)基線校正效果如圖1所示.
圖1 樣本數(shù)據(jù)基線校正效果
對(duì)蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,有利于對(duì)不同譜圖特征進(jìn)行比較.如可防止較大初始值的數(shù)據(jù)與較小初始值的數(shù)據(jù)相比權(quán)重過大.另外,如果數(shù)據(jù)集中的各屬性的量綱和單位不同,在計(jì)算對(duì)象間的距離之前,也必須把不同的度量單位統(tǒng)一成相同的度量單位.常用的方法是把屬性的值域映射為一個(gè)相同的區(qū)間,這個(gè)過程稱為屬性的標(biāo)準(zhǔn)化.目前常用的一些標(biāo)準(zhǔn)化技術(shù)有正則標(biāo)準(zhǔn)化、反轉(zhuǎn)標(biāo)準(zhǔn)化、對(duì)數(shù)標(biāo)準(zhǔn)化、直接標(biāo)準(zhǔn)化等.本文采用直接標(biāo)準(zhǔn)化,即最小-最大方法[4],對(duì)特征提取后的數(shù)據(jù)(包括訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù))進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的第j個(gè)強(qiáng)度Ij-norm值的計(jì)算公式如下:
Ij-norm=(Ij-Imin)/(Imax-Imin)
(1)
式中,Ij-norm為標(biāo)準(zhǔn)化后的信號(hào)強(qiáng)度;Ij為原質(zhì)譜信號(hào)強(qiáng)度,Imin、Imax分別為原質(zhì)譜信號(hào)強(qiáng)度的最小值、最大值.
在數(shù)據(jù)降維預(yù)處理中,分箱法是一種峰點(diǎn)檢測(cè)和對(duì)齊的方法.其基本思想是用滑動(dòng)窗掃描原始譜[5],將滑動(dòng)窗名內(nèi)相鄰數(shù)據(jù)歸入數(shù)據(jù)箱.設(shè)滑動(dòng)窗窗寬為N,則數(shù)據(jù)箱的寬度為N,即箱中可放入N個(gè)用滑動(dòng)窗掃描原始譜得到質(zhì)荷比和對(duì)應(yīng)的強(qiáng)度值,形式為[(m/z1,I1),(m/z2,I2),…,(m/zN,IN)],要將它們合并成一個(gè)數(shù)據(jù)對(duì),形式為(m/z,I),從而達(dá)到減少數(shù)據(jù)維數(shù)的目的.?dāng)?shù)據(jù)箱的強(qiáng)度可用所有N個(gè)原始強(qiáng)度值函數(shù)來計(jì)算,m/z值可由N個(gè)原始m/z值的中值、平均值、最大強(qiáng)度對(duì)應(yīng)的m/z值或其他類似的值來確定.每箱選出一個(gè)對(duì)值來代表整個(gè)箱的質(zhì)荷比和對(duì)應(yīng)的強(qiáng)度值.通過滑動(dòng)窗掃描譜時(shí),滑動(dòng)窗的窗寬N需要人為估計(jì),如果太大,會(huì)使譜過分平滑,降維后的數(shù)據(jù)不能表達(dá)整個(gè)區(qū)間的情況;如果太小,達(dá)不到降維的目的.本文設(shè)置每個(gè)箱子的寬度為10,直接選擇箱內(nèi)的強(qiáng)度最大的值為該數(shù)據(jù)箱的峰值,這樣將15154維的數(shù)據(jù)降低到了1516維,這個(gè)步驟不但降低了維數(shù),使得數(shù)據(jù)更加容易處理,還去掉了很多影響實(shí)驗(yàn)效果的噪聲,突出了蛋白質(zhì)質(zhì)譜數(shù)據(jù)中蛋白質(zhì)表達(dá)的信息.
特征選擇的目的是從原始特征集中選擇一個(gè)特征子集.這個(gè)子集對(duì)于一個(gè)評(píng)價(jià)函數(shù)來說是最優(yōu)的,因此特征選擇是個(gè)最優(yōu)化過程.近年來,研究人員已經(jīng)提出了大量的蛋白質(zhì)質(zhì)譜數(shù)據(jù)特征選擇方法,主要可以分為以下三類:篩選器法、封裝器法以及嵌入法.篩選器的速度更快,而封裝器法和嵌入法的分類效果更好,考慮到時(shí)間復(fù)雜度與計(jì)算量等問題,本文采用篩選器法中的T檢驗(yàn)來進(jìn)行特征選擇.該方法算法簡(jiǎn)單,效果也比較好,因此在許多研究工作中采用了T檢驗(yàn)方法[6-9].
(2)
式(2)為最終求得第i維特征的T統(tǒng)計(jì)量,并且用該統(tǒng)計(jì)量作為兩類樣本間差異性的度量,即盡量選擇T統(tǒng)計(jì)量大的特征組成用于分類的特征向量.通過特征選擇將特征向量的維數(shù)降低到幾十的數(shù)量級(jí),這樣就能解決蛋白質(zhì)質(zhì)譜數(shù)據(jù)樣本維數(shù)高的問題.
圖2 質(zhì)譜數(shù)據(jù)分析流程
支持向量機(jī)(Support Vector Machine,SVM)[10,11]通過預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間,再在高維特征空間內(nèi)建立最優(yōu)超平面.由于在映射的高維特征空間內(nèi)計(jì)算非線性映射十分復(fù)雜,SVM通過定義核函數(shù)來解決這一問題,即將分類中涉及到空間的內(nèi)積用一核函數(shù)來代替,無需知道映射的具體形式,從而簡(jiǎn)化了計(jì)算量,避免發(fā)維數(shù)災(zāi)難.內(nèi)積核函數(shù)一般有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和Sigmoid核函數(shù)等.
采用的卵巢數(shù)據(jù)集(OvarianDataset8-7-02)來源于美國(guó)食品和藥物管理局(FDA)及國(guó)家腫瘤研究所(NCI)的臨床蛋白組學(xué)工程數(shù)據(jù)庫(kù).卵巢數(shù)據(jù)集共含253個(gè)樣本,其中含91個(gè)無病征對(duì)照組樣本與162個(gè)卵巢癌患者樣本數(shù)據(jù).?dāng)?shù)據(jù)集中每一個(gè)文件存儲(chǔ)一個(gè)樣本的數(shù)據(jù),每一個(gè)樣本數(shù)據(jù)的第一列有15154個(gè)m/z值,第二列是其對(duì)應(yīng)的強(qiáng)度值.質(zhì)譜數(shù)據(jù)分析流程如圖2所示.
通過分箱法提取峰值后向量維數(shù)變?yōu)榱?516維,經(jīng)過T檢驗(yàn)后得到一個(gè)特征向量相關(guān)性從高到低的排序,實(shí)驗(yàn)中我們分別取前1~N個(gè)向量,N分別為1~25、30、50、100、200個(gè)向量,并對(duì)所選向量做了10次交叉檢驗(yàn).
根據(jù)醫(yī)學(xué)診斷標(biāo)準(zhǔn),設(shè)癌癥為陽(yáng)性,正常為陰性,令TP、TN 、FP、FN分別代表真陽(yáng)性樣本數(shù)、真陰性樣本數(shù)、假陽(yáng)性樣本數(shù)、假陰性樣本數(shù),則靈敏性(SEN即癌癥樣本的識(shí)別率)為TP/(TP+FN),特異性(SPE即正常樣本的識(shí)別率)為TN/(TN+FP),陽(yáng)性預(yù)測(cè)值(PPV)為TP/(TP+FP),陰性預(yù)測(cè)值(NPV)為TN/(TN+FN),綜合識(shí)別率(GEN)為(TP+TN)/(TP+TN+FP+FN),均衡識(shí)別率(EQU)為(SEN+SPE)/2,針對(duì)卵巢質(zhì)譜數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),羅列了10種特征選擇數(shù)的實(shí)驗(yàn)結(jié)果,見表1.
表1 T檢驗(yàn)在卵巢質(zhì)譜數(shù)據(jù)集上選擇前1~N個(gè)特征時(shí)利用SVM分類結(jié)果(10次交叉驗(yàn)證)
由于實(shí)驗(yàn)側(cè)重于選取不同的特征向量數(shù)對(duì)SVM分類識(shí)別率的影響,因此沒有對(duì)SVM的參數(shù)和核函數(shù)進(jìn)行特別設(shè)計(jì),本實(shí)驗(yàn)內(nèi)積核函數(shù)采用了高斯核函數(shù).由表1可以看出,在特征數(shù)選擇范圍小于等于10時(shí),隨著選擇特征數(shù)的增加分類器的綜合識(shí)別率、特異性、陽(yáng)性預(yù)測(cè)值、均衡識(shí)別率也隨之增加,而靈敏性、陰性預(yù)測(cè)值處于上下浮動(dòng)狀態(tài),并在特征數(shù)為10時(shí)達(dá)到最大,此時(shí)靈敏度達(dá)到100%,特異度達(dá)到96.67%,綜合識(shí)別率達(dá)98.80%.當(dāng)選擇的特征數(shù)大于10時(shí),癌癥樣本的識(shí)別率保持為1,特異性和陽(yáng)性預(yù)測(cè)值,以及綜合和均衡識(shí)別率都開始了明顯的下降,說明未出現(xiàn)假陰性樣本,即癌癥患者全部判斷正確.當(dāng)選擇的特征數(shù)大于等于50時(shí),出現(xiàn)了假陽(yáng)性樣本,而且將正常樣本全部錯(cuò)判為癌癥樣本.說明選擇過多的特征反而造成分類性能的下降,甚至是完全的錯(cuò)分,而選擇特征數(shù)太少也會(huì)導(dǎo)致識(shí)別率不高,因此當(dāng)特征選擇為一個(gè)合適的值(本文為10)時(shí)實(shí)驗(yàn)效果最好.我們所建立的分類判別模型在識(shí)別率和魯棒性上近似或優(yōu)于其他模型[11-12].
運(yùn)用T檢驗(yàn)方法進(jìn)行特征選擇通常比較快、容易理解. 但也存在一些問題:如特征選擇基于適宜的準(zhǔn)則而不是依賴于所選分類器的性能;可能存在一些冗余特征;選擇了有較強(qiáng)鑒別力的特征,而忽略了弱小的個(gè)體等.
蛋白質(zhì)質(zhì)譜數(shù)據(jù)有很多信息尚未被人們發(fā)現(xiàn),很多更加有效的數(shù)據(jù)處理和分析方法也在探索中.在以后的實(shí)驗(yàn)中可以考慮對(duì)SVM參數(shù)和核函數(shù)的改進(jìn),以及在不同的數(shù)據(jù)集上研究特征選擇的最佳子集.研究各種處理高通量數(shù)據(jù)的算法,使其能夠勝任蛋白質(zhì)質(zhì)譜數(shù)據(jù)的特征選擇、樣本分類等問題,還可以研究和解釋通過這類算法得到結(jié)果所具有的生物學(xué)意義等.
參考文獻(xiàn):
[1]Smith R,Cokkinides V,Eyre H. American cancer society guidelines for the early detection of cancer[J]. CA Cancer J Clin,2003,53(1),:27-43.
[2]Swenson S,Jett J,Sloan J,et al. Screening for lung cancer with low-dose spiral computed tomography[J]. Am J Respir Crit Care Med,2002,165(4):508-513.
[3]陳主初. 疾病蛋白質(zhì)組學(xué)[M]. 北京: 化學(xué)工業(yè)出版社,2006:106.
[4]Yu J S,Chen X W. Bayesian neural network approaches to ovarian cancer identification from high-resolution mass spectrometry data[J]. Bioinformatics,2005,21(1):487-494.
[5]孟輝,洪文學(xué).蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)預(yù)處理技術(shù)綜述[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2009,28(3):469-475.
[6]Wu B,Abbott D,Fishman W,et al. Comparison of statistical methods for classification of ovarian cancer using mass spectrometry data[J]. Bioinformatics,2003,19(13):1636-1643.
[7]Dudoit J S,Fridlyand J,Speed T P. Comparison of discrimination methods for the classification of tumors using gene expression data[J]. Journal of the American Statistical Association,2002,97(457):77-87.
[8]Tusher VG,Tibshirani R,Chu G. Significance analysis of microarrays applied to the ionizing radiation response[J]. PNAS,2001,98(9):5116-5121.
[9]Cui X,Churchill G A. Statistical tests for differential expression in cDNA microarray experiments[J]. Genome Biology,2003,44 (4):210-218.
[10]潘義,鄭波,向杰,等.遺傳算法-偏最小二乘法用于卵巢癌血清蛋白質(zhì)組數(shù)據(jù)的特征挑選[J].四川大學(xué)學(xué)報(bào),2007,44(4):867-872.
[11]孟范靜,劉毅慧,等.SVM在基因微陣列癌癥數(shù)據(jù)分類中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2007,43(34):246-248
[12]Yu J S,Onagello S,Fiedler R,et al. Ovarian cancer identification based on dimensionality reduction for high-throughput mass spectrometry data[J].Bioinfor-matics,2005,21(10):2200-2208.