梁冰苑,昂清,王衛(wèi)東
1 解放軍總醫(yī)院醫(yī)學(xué)工程保障中心生物醫(yī)學(xué)工程研究室,北京市,100853
2 北京理工大學(xué)信息與電子學(xué)院,北京市,100081
質(zhì)譜分析的生物信息學(xué)方法及其對比分析
【作者】梁冰苑1,2,昂清1,2,王衛(wèi)東1
1 解放軍總醫(yī)院醫(yī)學(xué)工程保障中心生物醫(yī)學(xué)工程研究室,北京市,100853
2 北京理工大學(xué)信息與電子學(xué)院,北京市,100081
蛋白質(zhì)譜具有復(fù)雜、數(shù)據(jù)量大等特點(diǎn),采用一般的統(tǒng)計學(xué)方法難以得到滿意的疾病預(yù)測或分類結(jié)果。文從生物信息學(xué)的角度出發(fā),綜述了質(zhì)譜數(shù)據(jù)挖掘的決策樹模型、偏最小二乘法、神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)幾種主要方法,并對不同的方法給出了疾病診斷的實(shí)例說明,體現(xiàn)了質(zhì)譜分析方法對疾病判別和預(yù)測的重要作用。
生物信息學(xué);數(shù)據(jù)預(yù)處理;決策樹模型;偏最小二乘法;人工神經(jīng)網(wǎng)絡(luò);支持向量機(jī)。
生命科學(xué)的迅猛發(fā)展使人們從基因組學(xué)、蛋白質(zhì)組學(xué)等研究領(lǐng)域中獲得了大量的數(shù)據(jù)[1]。但數(shù)據(jù)并不等同于信息和知識,而是信息和知識的源泉。如何收集、存儲和分析這些數(shù)據(jù),尤其是如何從不連貫的數(shù)據(jù)中獲取有用的生物學(xué)信息,僅僅依靠傳統(tǒng)的數(shù)理統(tǒng)計手段是難以解決這些問題的。
伴隨著蛋白質(zhì)組學(xué)和基因組學(xué)研究的發(fā)展,生物信息學(xué)(bioinformatics)應(yīng)運(yùn)而生[2]。生物信息學(xué)以數(shù)學(xué)理論和計算機(jī)技術(shù)為主要手段,應(yīng)用軟件和計算機(jī)網(wǎng)絡(luò)為主要工具,通過對海量的原始數(shù)據(jù)進(jìn)行收集、存儲、管理、分析、注釋、加工和處理,從而獲得新的知識。通過將數(shù)據(jù)挖掘和信息處理技術(shù)應(yīng)用于臨床醫(yī)學(xué)數(shù)據(jù),生物信息學(xué)在醫(yī)學(xué)基礎(chǔ)研究和臨床實(shí)踐領(lǐng)域都發(fā)揮了巨大的輔助和推動作用。將生物信息學(xué)的方法應(yīng)用到質(zhì)譜數(shù)據(jù)的挖掘,可以很大程度上提高疾病預(yù)測的準(zhǔn)確度,并提高分類效率。
本文在查閱大量文獻(xiàn)的基礎(chǔ)上,綜述了質(zhì)譜分析的生物信息學(xué)方法,并分析、對比了幾種代表性研究方法的優(yōu)劣。
數(shù)據(jù)挖掘[3]是從大量、不完整、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中,提取隱含在其中人們事先不知道的、但又是潛在有用的信息和知識的過程。而質(zhì)譜分析的目的在于從原始質(zhì)譜數(shù)據(jù)中提取有用信息,為臨床疾病診斷和個體化治療方案的確定提供決策性建議。從信息學(xué)角度講,屬于數(shù)據(jù)挖掘范疇。
質(zhì)譜分析的方法有很多,每種方法都有自己的優(yōu)點(diǎn)和不足之處,到目前為止還沒有一種普適的方法。比選擇分類方法更重要的是熟悉選定的方法,以保證其正確和合理使用。通常需要根據(jù)主觀標(biāo)準(zhǔn)來進(jìn)行選擇,如研究人員的經(jīng)驗(yàn)和科學(xué)背景等。
目前,質(zhì)譜分析主要有決策樹模型(Decision Tree Analysis, DTA)[5]、偏最小二乘法(Partial Least Squares, PLS)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)[6]和支持向量機(jī)(Support Vector Machines, SVM)[7]等幾種方法。根據(jù)是否具有記憶和學(xué)習(xí)功能,可分為非智能算法(DTA、PLS)與智能算法(ANN、SVM)兩類。
在進(jìn)行質(zhì)譜數(shù)據(jù)分析前,首先需要對數(shù)據(jù)進(jìn)行預(yù)處理,為高質(zhì)量的挖掘結(jié)果打好基礎(chǔ)。
1.1 質(zhì)譜數(shù)據(jù)的預(yù)處理
“預(yù)處理”一詞給人的印象是處理一系列主要分析的次要前期階段。然而,預(yù)處理階段有其特殊的重要性,因?yàn)樗绊懙綌?shù)據(jù)處理后期階段的特定編碼格式的選擇。選擇正確的編碼格式,可以大大降低后續(xù)處理的計算量,提高分析的能力和效率。
迄今,還沒有一種通用、公認(rèn)的方法讀出譜線。目前常用的讀出譜峰的方法有:幅值法、一階導(dǎo)數(shù)法和二階導(dǎo)數(shù)法。信噪比大的明顯的譜峰,由平均質(zhì)量和強(qiáng)度最高值檢測和表征(圖1A)[4]。這里所說的“質(zhì)量”,實(shí)際上是“質(zhì)荷比”[8]。
圖1 質(zhì)譜數(shù)據(jù)預(yù)處理Fig.1 Mass spectrometry data preprocessing
如果不同譜線的峰值對應(yīng)相近的質(zhì)量,譜線的峰值就會互相配合并集群,這就是所謂的譜峰聚類(圖1B)。峰值完全依靠譜結(jié)構(gòu)分組。每個高峰聚類對應(yīng)于一個質(zhì)量區(qū)間,由一個特征性的質(zhì)量來描述,如某一集群中眾多譜峰的平均位置所對應(yīng)的質(zhì)量。按照譜峰的最大強(qiáng)度值讀出所有的譜線。
峰值的自動檢測和聚類往往同步進(jìn)行。在峰值檢測的第一步,峰值都是獨(dú)立地由單一質(zhì)譜決定的。譜峰聚類后,單一質(zhì)譜依據(jù)較嚴(yán)格的標(biāo)準(zhǔn)被再次分析,從而最初遺漏的信噪比較小的峰值將被發(fā)現(xiàn),也就是說一個峰值如果存在于許多譜中,那么它也很有可能存在于一個譜中。在圖1中,右側(cè)標(biāo)記“×”的極大值被其他譜證明,而左邊極大值的則得不到證明。峰值檢測和聚類通常分兩個步驟進(jìn)行:第一,峰值自動檢測和集群;第二,根據(jù)檢查結(jié)果,由有經(jīng)驗(yàn)的工作人員手動調(diào)整。
1.2 決策樹模型
1.2.1 模型原理
決策樹模型是一種階梯式劃分?jǐn)?shù)據(jù)(圖2)的算法。從給定的樣本數(shù)目基本一致的兩個數(shù)據(jù)集開始(圖2A,頂部)(例如兩組分別來自健康人和病人的血清質(zhì)譜的峰叢強(qiáng)度),通過從不同類別中將病例分離,檢查所有可能的特征截斷值的用途。兩個數(shù)據(jù)點(diǎn)之間的每個特定功能的截斷,對應(yīng)于兩個分類器:一個分類器將數(shù)值小(大)于截斷值的樣本分配到“白(黑)”類中,另一個功能相反的分類器將數(shù)值低(高)于截斷值的樣本分配到“黑(白)”類中(圖2A,中)。判斷截斷是否有效的依據(jù)是正確歸類病例的數(shù)目。用所有測得的功能檢查所有不同的截斷后,選擇最有用的截斷/特征對。在圖2A(下)中,最有用的切斷標(biāo)記為“*”, 該截斷生成的分類器只有3個錯誤分類的病例。從而,可獲得優(yōu)化的同質(zhì)類中的子數(shù)據(jù)集,例如圖2B中的子數(shù)據(jù)集I和II。數(shù)據(jù)分區(qū)的過程反復(fù)進(jìn)行,直到獲得的同質(zhì)類(Class homogenous)的子數(shù)據(jù)集的大小可以接受。圖2B顯示了一個連續(xù)應(yīng)用兩個截斷的例子,最后產(chǎn)生三個子數(shù)據(jù)集,記為“終端節(jié)點(diǎn)”I-III。
圖2 決策樹生成Fig.2 Decision Tree
決策樹生成中的核心問題是“過擬合”現(xiàn)象。決策樹過于擬合實(shí)際數(shù)據(jù)集,因而對于未曾發(fā)現(xiàn)的數(shù)據(jù)很可能是不適合的。
研究只對非過度擬合的決策樹感興趣。非過擬合決策樹的分類標(biāo)準(zhǔn)并不代表實(shí)際數(shù)據(jù)集的特性,而是潛在患者群的典型特征。如圖3 A,在單一的決策樹中使用許多分裂標(biāo)準(zhǔn),生成樹所使用的數(shù)據(jù)集的錯誤分類的數(shù)量可以減少到零。然而,只有最初的幾個準(zhǔn)則可以推廣到無形的數(shù)據(jù)。
可以通過停止準(zhǔn)則防止過度擬合。停止準(zhǔn)則,即決策樹生成過程中當(dāng)遇到某一標(biāo)準(zhǔn)時,則停止生成,例如,當(dāng)所有終端節(jié)點(diǎn)少于5例病人時。交叉驗(yàn)證是估計最佳分裂標(biāo)準(zhǔn)數(shù)量的一種很好的方式(圖3 B)。通過選擇各自的測試集上整體分類錯誤最少的樹的結(jié)構(gòu),可以獲得決策樹的最佳截斷個數(shù)。
圖3 過擬合Fig.3 Over-fitting
1.2.2 模型舉例
(1) 研究[15]表明,發(fā)明蛋白質(zhì)芯片飛行時間質(zhì)譜系統(tǒng),根據(jù)各蛋白質(zhì)峰的質(zhì)荷比(m/z),采用決策樹算法,建立一個決策樹的蛋白質(zhì)指紋圖譜模型;將檢測人血清中相應(yīng)的蛋白質(zhì)的質(zhì)荷比與本發(fā)明的模型進(jìn)行分析,就可以初步用于肺癌診斷,其預(yù)測準(zhǔn)確率為71%。
(2) 研究[16]表明,分類決策樹模型的交叉驗(yàn)證(測試組)總準(zhǔn)確率為81.8%,ALN有轉(zhuǎn)移的乳腺癌患者檢出率為83.3%,ALN無轉(zhuǎn)移的檢出率為80%,構(gòu)建的分類決策樹模型能達(dá)到區(qū)分ALN是否有轉(zhuǎn)移的最佳效果。
1.3 偏最小二乘法(PLS)
偏最小二乘法(Partial Least Squares,PLS)是一種適合處理變量數(shù)很大的建模方法,具有較強(qiáng)的提供信息能力,在分析化學(xué)中得到了廣泛的應(yīng)用[11-12]。PLS變量篩選法是在PLS回歸法基礎(chǔ)上作變量篩選的[9]。
1.3.1 PLS回歸法原理
PLS法是一種研究兩個數(shù)據(jù)塊或矩陣和相關(guān)關(guān)系的方法。在該方法中對數(shù)據(jù)矩陣實(shí)施序列的正交變換:
其中h為隱變量的個數(shù)。在變換過程中,使得到的矢量ti與對數(shù)據(jù)矩陣變換得到的矢量ui=Yqi的協(xié)方差為最大值。具體PLS正交變換算法見文獻(xiàn)[10]
式(1)可寫為矩陣的形式:
PLS回歸模型為:
將(2)帶入(3),可得:
因此,PLS回歸法的模型系數(shù)由(4)得:
其中,隱變量的個數(shù)或矩陣中變量的個數(shù)小于矩陣中變量的個數(shù)。
2.3.2 PLS變量篩選法原理
PLS變量篩選法是在PLS方法技術(shù)上發(fā)展起來的一種變量篩選法,能提取成分復(fù)雜的圖譜信息,且可以避免譜圖數(shù)據(jù)共線的問題。預(yù)測能力強(qiáng)且模型相對簡單。
在PLS變量篩選法中,首先用PLS法對含有全部變量的數(shù)據(jù)處理,建立一個預(yù)報穩(wěn)定性較高的模型。在此基礎(chǔ)上,利用其中回歸系數(shù)等有關(guān)信息進(jìn)行變量篩選。主要采用以下判據(jù)刪除影響不大的變量:
△Ei表示當(dāng)刪除第個變量時,PLS回歸模型的擬合誤差增加值;T為PLS法得到的正交矩陣,矩陣(TTT)-1為對角矩陣,較容易計算;R是PLS正交分解得到的矩陣,而矢量1i為第1i個分量為1、其余分量為0的一種特殊矢量;bi為第i個變量對應(yīng)的回歸系數(shù)。在PLS變量篩選法中,主要是刪除那些△Ei值很小對應(yīng)的變量。
1.3.3 模型舉例
⑴ 研究[17]中,Goncalves等應(yīng)用SELDI-TOF-MS研究了81例早期乳腺癌患者的血清蛋白質(zhì)組圖譜,其中40個蛋白質(zhì)在有轉(zhuǎn)移組和無轉(zhuǎn)移組中有顯著性差異表達(dá)。采用偏最小二乘法,最終得到了一個由40個蛋白組成的蛋白質(zhì)組預(yù)后預(yù)測圖譜,其預(yù)測的敏感度和特異度分別是87%和76%。血清蛋白質(zhì)組學(xué)在乳腺癌預(yù)后預(yù)測中得到應(yīng)用。
⑵ 研究[9]表明:肝癌病人和健康人的血清蛋白質(zhì)指紋圖譜數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理、PLS變量篩選法建立分類模型,模型CR值達(dá)到0.9611,100個樣本完全判斷正確。
1.4 人工神經(jīng)網(wǎng)絡(luò)模型
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)模型的研究目標(biāo),是通過研究人腦的組成機(jī)理和思維方式,探索人類智能的奧秘,進(jìn)而通過模擬人腦的結(jié)構(gòu)和工作模式,使機(jī)器具有類似人類的智能。應(yīng)用到醫(yī)學(xué)數(shù)據(jù)處理上,就是通過建立模型,找出血清蛋白質(zhì)譜中表征健康或疾病的信息。
感知器(perceptron)模型是一種最基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型。在感知器模型的基礎(chǔ)上,發(fā)展出了反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)、自組織映射(Self-Organized Mapping,SOM)神經(jīng)網(wǎng)絡(luò)等模型[12]。
BP神經(jīng)網(wǎng)絡(luò)可以處理共線性效應(yīng)和變量間交互作用,善于處理非線性的、模糊的、含有噪聲的數(shù)據(jù)情況,且理論基礎(chǔ)牢固,物理概念清晰,通用性好。SOM神經(jīng)網(wǎng)絡(luò)是無監(jiān)督競爭式學(xué)習(xí)網(wǎng)絡(luò),通過學(xué)習(xí)能夠提取待處理數(shù)據(jù)中的某種內(nèi)在規(guī)律,并按離散時間方式進(jìn)行分類,大大減弱了一致性準(zhǔn)則中的人為因素。神經(jīng)網(wǎng)絡(luò)的局限性在于,建立在漸進(jìn)理論的基礎(chǔ)上,需要無窮多的樣本才能較真實(shí)的模擬樣本的分布函數(shù),而實(shí)際上所得的樣本都是有限的。
1.4.1 反向傳播模型原理
反向傳播模型也稱B-P模型,是一種用于前向多層的反向傳播學(xué)習(xí)算法。所以將其稱作反向?qū)W習(xí)算法,是因?yàn)樵谛薷母魅斯ど窠?jīng)元的連接權(quán)值時,所依據(jù)的是該網(wǎng)絡(luò)的實(shí)際輸出與其期望的輸出之差,將這一差值反向一層一層的向回傳播,來決定連接權(quán)值的修改(圖4)。
圖4 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 BP neural network
B-P算法的學(xué)習(xí)過程如下:
(1) 選擇一組訓(xùn)練樣例,每一個樣例由輸入信息和期望的輸出結(jié)果兩部分組成;
(2) 從訓(xùn)練樣例集中取一樣例,把輸入信息輸入到網(wǎng)絡(luò)中;
(3) 分別計算經(jīng)神經(jīng)元處理后的各層節(jié)點(diǎn)的輸出;
(4) 計算網(wǎng)絡(luò)的實(shí)際輸出和期望輸出的誤差;
(5) 從輸出層反向計算到第一個隱層,并按照某種能使誤差向減小方向發(fā)展的原則,調(diào)整網(wǎng)絡(luò)中各神經(jīng)元的連接權(quán)值;
(6) 對訓(xùn)練樣例集中的每一個樣例重復(fù)(3)~(5)的步驟,直到對整個訓(xùn)練樣例集的誤差達(dá)到要求時為止。1.4.2 自組織映射模型原理
自組織映射神經(jīng)網(wǎng)絡(luò)是聚類分析中廣泛使用的一種高維可視化的無監(jiān)督學(xué)習(xí)算法,是通過模擬人腦對信號處理的特點(diǎn)而發(fā)展起來的一種人工神經(jīng)網(wǎng)絡(luò)。SOM網(wǎng)絡(luò)由輸入層和競爭層(輸出層)組成,且兩層之間是全連接的(圖5)。目前,SOM算法已被廣泛應(yīng)用于眾多信息處理領(lǐng)域,在血清蛋白質(zhì)譜分析中也發(fā)揮著很大作用[13]。
圖5 SOM網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 SOM neural network
SOM算法的學(xué)習(xí)過程如下:
將網(wǎng)絡(luò)中各輸入神經(jīng)元與競爭層神經(jīng)元的連接情況抽出,設(shè)網(wǎng)絡(luò)輸入模式為:
競爭層神經(jīng)元矢量為:
其中式(7)的Pk為連續(xù)值,式(8)的Aj為數(shù)字量。競爭層神經(jīng)元j與輸入層神經(jīng)元之間的連接權(quán)矢量為
1.4.3 模型舉例
⑴ 研究[18]采用BP-ANN算法,建立并存儲診斷模型、預(yù)后模型。診斷模型對大腸癌的診斷靈敏度和特異度分別為82.22%和80.45%,陰性預(yù)測值94.74%,陽性預(yù)測值51.39%,準(zhǔn)確度為80.80%。預(yù)后模型通過回驗(yàn),證明該模型的檢驗(yàn)符合率為62.96%。
⑵ 在研究[14]中,對所有質(zhì)譜數(shù)據(jù)用SOM-ANN進(jìn)行特征選擇(網(wǎng)絡(luò)為6*6,迭代次數(shù)為1 000次),按權(quán)值大小挑出權(quán)值大的那些特征,對權(quán)值相同的特征挑出其中一個。在卵巢癌質(zhì)譜數(shù)據(jù)的實(shí)驗(yàn)結(jié)果中,當(dāng)特征維數(shù)選擇為5左右時,SOM的識別率達(dá)到了87.2%,是一種有效的特征選擇方法。
1.5 支持向量機(jī)
支持向量機(jī)(Support vector machine,SVM)是一種新型模式識別方法,它能根據(jù)有限的樣本信息,在研究對象模型的復(fù)雜性與分類器的學(xué)習(xí)能力之間尋求最佳的折中方案。理論上,支持向量機(jī)算法得到的是全局最優(yōu)點(diǎn),解決了局部極值問題。該算法將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維的特征空間,巧妙地解決了維數(shù)問題,使算法復(fù)雜度與樣本維數(shù)無關(guān)。但是支持向量機(jī)算法的核函數(shù)選擇困難,且算法的復(fù)雜性導(dǎo)致訓(xùn)練速度較慢,不宜解決大規(guī)模的分類問題。
支持向量機(jī)剛主要用于解決數(shù)據(jù)分類問題,分類問題中最常見的是線性可分問題(圖6左)、大約線性可分(圖6右)、線性不可分情況(圖7)[14]。
圖6 線性可分(左),大約線性可分(右)。Fig.6 Linearly separable sample (left) Approximately linearly separable sample (right).)
圖7 線性不可分Fig.7 linearly inseparable sample
圖8 二維兩類可分樣本。Fig.8 Two types of two-dimensional separable sample
1.5.1 模型原理
SVM的基本思想是根據(jù)結(jié)構(gòu)風(fēng)險最小原理,尋找一個滿足要求的分割平面,使訓(xùn)練集中的點(diǎn)距離該平面盡可能地遠(yuǎn),即構(gòu)造一個分類函數(shù),將兩類樣本盡可能地區(qū)分開來,使得分類平面兩側(cè)的余裕(margin)盡可能最大(圖8)。
圖8中十字和圓圈分別代表兩類訓(xùn)練樣本點(diǎn),分類線H能把兩類正確的分開,H1、H2平行于H,且分別通過兩類樣本中離分類線H最近的點(diǎn)。H1、H2之間的距離叫兩類的分類空隙或分類間隔。
1.5.2 模型舉例
⑴ 本研究[19]中應(yīng)用非線性的SVM分類器(nonlinear SVM classifier),在此基礎(chǔ)上分別應(yīng)用1 000次5倍交叉驗(yàn)證和“留一法”交叉驗(yàn)證兩種方法,并建立評價模型。經(jīng)過計算篩選出最佳組合是:3 932 m/z+5635 m/z,即由這兩個蛋白質(zhì)峰構(gòu)建的模型可達(dá)到對乳腺癌患者的最佳檢測效果。
⑵ 研究[14]表明,腦良性腫瘤樣本較少,用SVM模型可以使這樣的小樣本具有較好的推廣性。在研究生物信息學(xué)方面,選擇了“留一法”SMV分類器簡歷評價模型,可以篩選出在膠質(zhì)瘤和腦良性腫瘤及健康對照中表達(dá)有差異的新的潛在生物標(biāo)記,并且可以建立檢測膠質(zhì)瘤敏感性和特異性都很高的判別模型,為膠質(zhì)瘤的診斷提供了新的方法。
高通量檢測技術(shù)的進(jìn)步,使原始蛋白質(zhì)表達(dá)譜的采集得以實(shí)現(xiàn),但隨之而來的是后續(xù)分析、處理技術(shù)和方法的新挑戰(zhàn)。使用得當(dāng)?shù)脑?,質(zhì)譜分析的結(jié)果可應(yīng)用于疾病預(yù)警或者檢測,為個體化治療方案的制定提供支持。
本文綜述了質(zhì)譜分析的幾種主要方法:決策樹模型、偏最小二乘法、神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)。對分析方法的基本原理、適用范圍、優(yōu)勢和不足之處做了具體論述,并分別給出疾病診斷的實(shí)例加以說明,展現(xiàn)了質(zhì)譜分析方法對疾病判別和預(yù)測的重要作用。
綜上所述,通過對臨床血清蛋白質(zhì)譜數(shù)據(jù)庫的原始數(shù)據(jù)開展分析,可以發(fā)現(xiàn)與疾病診斷或健康狀況預(yù)警相關(guān)聯(lián)的特征信息,提示或協(xié)助臨床診斷和個體化治療方案的確定,對人群健康分析和疾病預(yù)警的實(shí)現(xiàn)具有重要的指導(dǎo)意義。研究人員將在改進(jìn)現(xiàn)存方法的基礎(chǔ)上,創(chuàng)新質(zhì)譜處理方法,尋找生物信息學(xué)和臨床診斷間的契合點(diǎn)。
[1] C. Nicole White, Daniel W. Chan, and Zhen Zhang. Bioinformatics strategies for proteomic profiling[J].ELSEVIER, Clinical Biochemistry, 2004, 37: 636-641.
[2] 郝柏林, 張淑譽(yù). 生物信息學(xué)手冊(第二版)[M]. 上海: 上??茖W(xué)技術(shù)出版社, 2002
[3] Daniel T. Larose. Data mining methods and models[M]. 北京: 高等教育出版社, 2011
[4] Jan. C Wiemer, Alexander Prokudin. Bioinformatics in proteomics: application, terminology, and pitfalls[J]. ELSEVIER, Pathology-Research and Practice, 2004, (200): 173-178.
[5] L. Breiman, J. Friedman, R. Olhsen,et al. Classification and Regression Trees[M]. Wadsworth International, Belmont, California, 1984.
[6] C.M. Bishop. Neural Networks for Pattern Recognition[M]. Oxford University Press, New York, 1995.
[7] B.Sch.olkopf, A.J.Smola. Learning with Kernels[M]. MIT Press, Cambridge, Massachusetts, 2002
[8] 孟凡臣, 張艷貞, 胡英考, 等. 生物質(zhì)譜及其在蛋白質(zhì)組學(xué)研究中的應(yīng)用[J]. 生物技術(shù)通訊, 2006, 17(3): 468-470.
[9] 徐琨, 朱爾一, 楊芃原, 等. 由質(zhì)譜分析數(shù)據(jù)建立肝癌病人與健康人血清的分類模型[J]. 質(zhì)譜學(xué)報, 2008, 29(5):268-273.
[10] 朱爾一, 楊芃原. 化學(xué)計量學(xué)技術(shù)及應(yīng)用[M]. 北京: 科學(xué)出版社, 2001 [11] 王翼飛, 史定華. 生物信息學(xué)——智能化算法及其應(yīng)用[M]. 北京: 化學(xué)工業(yè)出版社, 2006
[12] 楊行峻, 鄭君里. 人工神經(jīng)網(wǎng)絡(luò)與盲信號處理[M]. 北京: 清華大學(xué)出版社, 2002
[13] 劉麗平, 李昂, 連森陽, 等. 自組織神經(jīng)網(wǎng)絡(luò)在生物信息學(xué)中的應(yīng)用[J]. 中國家禽, 2011, 33(6):47-50.
[14] 時沖. 蛋白質(zhì)質(zhì)譜數(shù)據(jù)挖掘方法研究[M]. 南京: 南京理工大學(xué), 2011
[15] 曾華宗. 一種用于肺癌早期診斷的蛋白質(zhì)指紋質(zhì)譜模型[P]. 中國專利: CN102200537A. 2011-09-28.
[16] 龐達(dá). 楊艷梅. 張國強(qiáng), 等. 血清SELDI蛋白質(zhì)指紋圖譜在乳腺癌腋淋巴結(jié)轉(zhuǎn)移中的應(yīng)用研究[J]. 中國腫瘤臨床. 2008. 35(17): 1010-1014.
[17] 陳劍, 王小蕓. SELDI-TOF-MS技術(shù)在乳腺癌中的應(yīng)用[J]. 醫(yī)學(xué)綜述, 2009, 15(11): 1642-1644.
[18] 王專, 李小瓊, 王開正, 等. 血清蛋白指紋圖與大腸癌預(yù)后診斷[J]. 世界華人消化雜志, 2010, 18(35): 3745-3751.
[19] 胡躍. 蛋白質(zhì)質(zhì)問圖譜和生物信息學(xué)在乳腺癌中的研究[M]. 浙江: 浙江大學(xué), 2005
Bioinformatics Methods and Their
Comparative Analysis of Mass Spectrometry
【W(wǎng)riters 】Liang Bingyuan1,2, Ang Qing1,2, Wang Weidong1
1 Biomedical Engineering Laboratory, Medical Engineering Support Center, Chinese PLA(People's Liberation Army)General Hospital, Beijing, 100853 2 School of Information and Electronics, Beijing Institute of Technology, 100081
bioinformatics, data preprocessing, decision tree analysis, partial least squares, artificial neural networks, support vector machines.
R318.5
A
10.3969/j.issn.1671-7104.2012.05.013
1671-7104(2012)05-0357-05
2012-04-13
國家自然科學(xué)基金(60971044)、國家科技支撐計劃
(2009BAI86B02)
王衛(wèi)東,主任、研究員、教授,E-mail: wangwd301@126.com
【 Abstract 】The protein spectrometry holds such characteristics of complex and large volumes of data that the general statistical methods can’t satisfy the demand of disease prediction or classification. Several kinds of main methods of mass spectrometry data mining,such as decision tree analysis, partial least squares, artificial neural networks and support vector machines is overviewed in bioinformatics perspective. And examples of different methods used to diagnose disease are illustrated . These show an important role of mass spectrometry in identification and prediction of disease.