趙璨,段瓊,何增有
(大連理工大學(xué) 國(guó)家示范性軟件學(xué)院,遼寧 大連 116620)
?
基于概率圖模型的蛋白質(zhì)推斷算法
趙璨,段瓊,何增有
(大連理工大學(xué) 國(guó)家示范性軟件學(xué)院,遼寧 大連 116620)
摘要:蛋白質(zhì)組學(xué)是研究細(xì)胞內(nèi)表達(dá)的所有的蛋白質(zhì)及其變化規(guī)律的一門新興學(xué)科。蛋白質(zhì)組學(xué)的一個(gè)重要目標(biāo)是能夠快速準(zhǔn)確的進(jìn)行蛋白質(zhì)鑒定。蛋白質(zhì)鑒定主要包括肽段鑒定和蛋白質(zhì)推斷兩個(gè)步驟。肽段鑒定是從原始質(zhì)譜數(shù)據(jù)中鑒定出肽段序列,而蛋白質(zhì)推斷是從這些鑒定得到的肽段中還原出原始的蛋白質(zhì)序列。但由于質(zhì)譜數(shù)據(jù)固有的不確定性和蛋白質(zhì)組的復(fù)雜性,使得解決蛋白質(zhì)推斷問題變得很困難。本文引入串聯(lián)質(zhì)譜數(shù)據(jù)對(duì)于蛋白質(zhì)存在概率的影響,提出了一種基于概率圖模型的方法(PGMPi)來解決蛋白質(zhì)推斷問題,將蛋白質(zhì)推斷問題抽象成一個(gè)概率圖模型的求解問題,通過尋找蛋白質(zhì)的最大后驗(yàn)概率來推斷真實(shí)存在的蛋白質(zhì)集合。該方法不僅能夠進(jìn)行有效的蛋白質(zhì)推斷,而且模型參數(shù)少,提高了算法的穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明該模型在蛋白質(zhì)推斷上具有很好的表現(xiàn)。
關(guān)鍵詞:蛋白質(zhì)推斷;肽段推斷;鳥槍法蛋白質(zhì)組學(xué);概率圖模型
蛋白質(zhì)組學(xué)是研究細(xì)胞內(nèi)表達(dá)的所有的蛋白質(zhì)及其變化規(guī)律的一門新興學(xué)科[1]。蛋白質(zhì)組主要是指由一個(gè)基因組,或一個(gè)細(xì)胞組織表達(dá)的所有蛋白質(zhì)?;蚪M基本是固定不變的,而蛋白質(zhì)組卻為動(dòng)態(tài)的,具有時(shí)空性和可調(diào)節(jié)性,能反映出特定基因的表達(dá)時(shí)間、表達(dá)量以及蛋白質(zhì)翻譯后的加工修飾等信息。蛋白質(zhì)組學(xué)的研究試圖比較細(xì)胞在不同生理或病理?xiàng)l件下蛋白質(zhì)表達(dá)的異同,從整體上研究細(xì)胞或組織內(nèi)蛋白質(zhì)的組成及其活動(dòng)規(guī)律。蛋白質(zhì)組學(xué)的一個(gè)重要目標(biāo)是能夠快速準(zhǔn)確地進(jìn)行蛋白質(zhì)鑒定,即確定一個(gè)樣本中真實(shí)存在的蛋白質(zhì)。只有鑒定到生物樣品中真實(shí)表達(dá)的蛋白質(zhì),才能準(zhǔn)確地對(duì)蛋白質(zhì)進(jìn)行定量以及推斷出蛋白質(zhì)之間相互作用關(guān)系(protein-protein interaction, PPI),為進(jìn)一步的疾病標(biāo)記物發(fā)現(xiàn)和新藥開發(fā)提供有力的支持[2]。因此,蛋白質(zhì)鑒定是蛋白質(zhì)組學(xué)研究的基礎(chǔ),對(duì)整個(gè)領(lǐng)域的進(jìn)一步發(fā)展和應(yīng)用有著十分重要的意義。
在高通量蛋白質(zhì)組學(xué)研究中,目前使用的主流技術(shù)是質(zhì)譜分析法(MS)[3],即用電場(chǎng)和磁場(chǎng)將運(yùn)動(dòng)的離子按它們的質(zhì)荷比分離后進(jìn)行檢測(cè)。同時(shí),為了從混合物樣本中分離出蛋白質(zhì)和肽段以便深入研究,液相色譜技術(shù)(LC)也被引入蛋白質(zhì)鑒定,最終形成了LC-MS技術(shù)[4]。在LC-MS的基礎(chǔ)上,鳥槍法蛋白質(zhì)組學(xué)是蛋白質(zhì)鑒定最常用的策略[5]。鳥槍法蛋白質(zhì)組學(xué)的基本流程如下:1)蛋白質(zhì)樣本通過酶切消化等生物實(shí)驗(yàn)獲得肽段的混合物溶液;2)將所得混合物進(jìn)行離子化并使用質(zhì)譜儀進(jìn)行串聯(lián)質(zhì)譜分析,從而得到一系列的串聯(lián)質(zhì)譜(MS/MS)數(shù)據(jù);3)對(duì)串聯(lián)譜圖進(jìn)行預(yù)處理后通過肽段鑒定和蛋白質(zhì)推斷得到樣本中可能存在的肽段和蛋白質(zhì)。其大體流程如圖1所示。
圖1 鳥槍法蛋白質(zhì)組學(xué)的基本流程Fig.1 The entire workflow of shotgun proteomics
到目前為止,研究人員已經(jīng)提出許多成熟可用的蛋白質(zhì)推斷算法[6-10]。關(guān)于這些方法的細(xì)節(jié)以及蛋白質(zhì)推斷過程中所遇到的問題挑戰(zhàn),讀者可以參閱最近的綜述文章[11-13]??傮w來說,可以把蛋白質(zhì)推斷問題的輸入抽象成一個(gè)二分圖,如圖2(a)所示,其中一側(cè)是候選蛋白質(zhì)集合,另一側(cè)是鑒定肽集合。例如,ProteinPropphet[6]、 IDPicker[10]均使用標(biāo)準(zhǔn)二分圖作為輸入,通過建立不同的假設(shè)來設(shè)計(jì)模型和算法。在二分圖模型中,由于輸入被限制,所以無(wú)論算法多么完美,結(jié)果還是無(wú)法進(jìn)一步完善。因此為了提高蛋白質(zhì)鑒定的準(zhǔn)確率,研究人員嘗試引入一些額外信息。借用額外信息改變傳統(tǒng)的蛋白質(zhì)推斷問題的輸入,即在原來的標(biāo)準(zhǔn)二分圖輸入的基礎(chǔ)上,加入額外信息,例如原始串聯(lián)質(zhì)譜和一級(jí)質(zhì)譜、蛋白質(zhì)相互作用網(wǎng)絡(luò)、mRNA表達(dá)信息等。圖2(b)所示為引入質(zhì)譜數(shù)據(jù)后的三層圖模型。
(a)標(biāo)準(zhǔn)的二分圖
(b)引入額外信息的圖結(jié)構(gòu)
Fig.2The standard bipartite graph and the graph when introducing extra information
蛋白質(zhì)推斷問題的一個(gè)最大的挑戰(zhàn)來自于肽段的退化,也稱共享肽段問題,即一個(gè)鑒定肽段被多個(gè)候選蛋白質(zhì)所共享。蛋白質(zhì)推斷算法的優(yōu)劣主要取決于它是否能準(zhǔn)確地找出哪些或者哪個(gè)蛋白質(zhì)真正地產(chǎn)生共享的肽段。目前為止,研究人員已經(jīng)開發(fā)出很多蛋白質(zhì)推斷算法, 如ProteinProphet、MSBayesPro[9]和Fido[7]等。雖然這些算法使用多種不同的方式來解決肽段退化問題,但都存在著一些固有的缺陷。ProeinProphet使用一個(gè)類期望最大化的迭代過程來估計(jì)蛋白質(zhì)存在的概率,該方法沒有明確定義如何優(yōu)化模型中計(jì)算蛋白質(zhì)概率的公式。相反地,MSBayesPro、HSM[8]和Fido都是從清晰準(zhǔn)確的統(tǒng)計(jì)假設(shè)中推導(dǎo)出公式的,但是,這些方法獲得最優(yōu)解的過程是很費(fèi)時(shí)的。
基于此,本文提出了一種基于概率圖模型的方法來解決蛋白質(zhì)推斷問題。本文的主要著眼點(diǎn)放在兩個(gè)問題上,一個(gè)是概率圖模型在蛋白質(zhì)推斷問題上的應(yīng)用,另一個(gè)是串聯(lián)質(zhì)譜數(shù)據(jù)對(duì)于蛋白質(zhì)存在概率的影響。前者將蛋白質(zhì)推斷問題抽象成一個(gè)概率圖模型的求解問題,鑒定到的肽段以及候選蛋白質(zhì)都抽象為節(jié)點(diǎn),候選蛋白質(zhì)及其對(duì)應(yīng)肽段之間的關(guān)系抽象為有向邊,這樣就可以抽象成一個(gè)有向的二部圖;后者主要是考慮肽鑒定過程中譜與肽段之間指派的正確性的影響,也可稱作肽段識(shí)別概率,是指鑒定肽在樣本中存在的后驗(yàn)概率,作為本文概率圖模型的輸入。
1基于概率圖模型的蛋白質(zhì)推斷算法
1.1算法介紹
概率圖模型是由圖論和概率論結(jié)合而成的描述多元統(tǒng)計(jì)關(guān)系的有效模型[14],它為多個(gè)變量之間復(fù)雜的依賴關(guān)系的表示提供了統(tǒng)一的框架,具有緊湊有效、簡(jiǎn)潔直觀的特點(diǎn)。其在計(jì)算機(jī)視覺、生物信息學(xué)、自然語(yǔ)言處理等領(lǐng)域都有廣泛的應(yīng)用。
圖3 引入質(zhì)譜信息的三層圖結(jié)構(gòu)Fig.3 The three-layer graph when introducing the MS/MS data
本文提出了基于概率圖模型的蛋白質(zhì)推斷算法(PGMPi),該方法主要將概率圖模型應(yīng)用到蛋白質(zhì)推斷問題上,同時(shí)引入肽鑒定過程中譜與肽段之間指派的正確性的影響。由于蛋白質(zhì)推斷輸入數(shù)據(jù)是一個(gè)二部圖,一側(cè)為候選蛋白質(zhì)的集合,另一側(cè)為肽段集合。本文將肽段以及候選蛋白質(zhì)都抽象為節(jié)點(diǎn),候選蛋白質(zhì)及其對(duì)應(yīng)肽段之間的關(guān)系抽象為有向邊,這樣就可以抽象成一個(gè)有向的二部圖;同時(shí)考慮串聯(lián)質(zhì)譜數(shù)據(jù)對(duì)于蛋白質(zhì)概率的影響,也將質(zhì)譜數(shù)據(jù)抽象為節(jié)點(diǎn),肽段和其對(duì)應(yīng)譜圖之間存在一個(gè)有向邊,這樣就得到一個(gè)三層的有向圖結(jié)構(gòu),從而將蛋白質(zhì)鑒定問題抽象為概率圖求解問題,如圖3所示。
本文算法基于有向圖模型,也稱為貝葉斯網(wǎng)絡(luò)[15]。需明確的是,模型的目標(biāo)是從候選蛋白質(zhì)集合中找到真正存在于樣本中的蛋白質(zhì)子集。根據(jù)這一目標(biāo),本文首先給出了一個(gè)圖中所有節(jié)點(diǎn)聯(lián)合概率分布,即譜圖、肽段及其對(duì)應(yīng)候選蛋白質(zhì)同時(shí)存在于樣本中的概率。由于有向圖采用乘積法則,對(duì)于x→y,聯(lián)合概率分布為p(x,y)=p(x)p(y|x)。其次對(duì)該聯(lián)合概率分布提出一些基本假設(shè),如蛋白質(zhì)之間相互獨(dú)立、每個(gè)鑒定肽打分之間相互獨(dú)立等,并根據(jù)這些假設(shè)條件做簡(jiǎn)單的數(shù)學(xué)變換確定參數(shù)變量,之后根據(jù)聯(lián)合概率分布給出蛋白質(zhì)的后驗(yàn)概率公式,由于求解具有最大聯(lián)合概率分布的候選蛋白質(zhì)問題規(guī)模較大,暴力求解的代價(jià)十分昂貴,故本文采用了吉布斯抽樣來獲得具有最大后驗(yàn)的最優(yōu)蛋白質(zhì)配置。
相關(guān)符號(hào)及其定義在表1中給了詳細(xì)的說明。
表1 蛋白質(zhì)推斷的符號(hào)說明
蛋白質(zhì)、肽段以及質(zhì)譜的聯(lián)合概率公式為
(1)
1.2模型參數(shù)化
1) 假設(shè)兩個(gè)候選蛋白質(zhì)之間相互獨(dú)立:
(2)
2) 假設(shè)不同的蛋白質(zhì)對(duì)于其對(duì)應(yīng)鑒定肽的貢獻(xiàn)是獨(dú)立的;
(3)
式(3)中,由于yj只有0和1兩種取值,所以可以表示為
(4)
(5)
式中:Nj表示可能產(chǎn)生肽段j的候選蛋白質(zhì)的集合,α為對(duì)應(yīng)參數(shù)。
3) 欲求得可能存在于樣本中的蛋白質(zhì)子集,需使得聯(lián)合概率最大化。模型可以轉(zhuǎn)化為尋找最大后驗(yàn)蛋白質(zhì)配置的問題,對(duì)于每個(gè)蛋白質(zhì)的后驗(yàn)概率:
(6)
4)根據(jù)以下規(guī)定,將蛋白質(zhì)和肽段進(jìn)行分組。
①在同一組中任意兩個(gè)元素之間至少存在一條路徑;
②除去組中的肽段之外,對(duì)于組中的蛋白質(zhì)沒有其他的肽段被鑒定到;
③沒有其他的蛋白質(zhì)可以生成組中的肽段。
(7)
模型的主要目標(biāo)為尋找一個(gè)具有最大后驗(yàn)的蛋白質(zhì)配置,也就是最大化每個(gè)蛋白質(zhì)后驗(yàn)概率P(Xi|S),從而推斷出真實(shí)存在于樣本中的蛋白質(zhì)集合。
1.3模型求解
給定蛋白質(zhì)的配置圖,以及肽段被正確識(shí)別的概率sj,在參數(shù)α確定的情況下,根據(jù)式(7)可直接計(jì)算出蛋白質(zhì)的后驗(yàn)概率。但是這種暴力求解方法的時(shí)間復(fù)雜度為O(2m),由于圖的規(guī)模較大,所以直接暴力求解的代價(jià)是十分昂貴的,故本文采用了吉布斯抽樣[16]來獲得具有最大后驗(yàn)的最優(yōu)蛋白質(zhì)配置。
吉布斯抽樣是馬爾可夫蒙特卡羅(Markov Chain monte Carlo,MCMC)算法中的特例,用來構(gòu)造多變量概率分布的隨機(jī)樣本??紤]具有p(z)=p(z1,z2,…,zm)分布的樣品集,并且給定一些符合馬爾可夫性質(zhì)的初始狀態(tài)。吉布斯抽樣的每一步驟都會(huì)根據(jù)剩余變量的當(dāng)前狀態(tài)值更新其中一個(gè)變量的狀態(tài)值。也就是說,對(duì)于z的第i個(gè)組件zi可以通過計(jì)算p(zi|zi)得到,其中zi表示除zi的所有組件。迭代這一過程在每一步使用一個(gè)轉(zhuǎn)變函數(shù)來更新變量信息,直到收斂為止。
將該方法用于求解蛋白質(zhì)推斷問題,大大降低了求解模型(PGMPi)的時(shí)間復(fù)雜度,算法收斂所得的蛋白質(zhì)后驗(yàn)概率即為該蛋白質(zhì)真實(shí)存在于樣本中的概率。需要說明的是,該方法所求的解為近似最優(yōu)解,但可以通過改變收斂的判斷標(biāo)準(zhǔn)來對(duì)近似解調(diào)優(yōu)。
2實(shí)驗(yàn)及結(jié)果評(píng)估
為了驗(yàn)證本文提出的蛋白質(zhì)推斷算法PGMPi的表現(xiàn),選取2個(gè)典型的蛋白質(zhì)推斷算法MSBayesPro, Fido在6個(gè)數(shù)據(jù)集上進(jìn)行比較實(shí)驗(yàn)。
2.1數(shù)據(jù)集
本文選取了6個(gè)公開的數(shù)據(jù)集來驗(yàn)證PGMPi的表現(xiàn):18 mixtures[17],Sigma49[18],Yeast[19],DME[20],HumanMD[21]和HumanEKC[19]。它們主要分為2類:有參考集的數(shù)據(jù)集和無(wú)參考集的數(shù)據(jù)集。前3個(gè)數(shù)據(jù)集都擁有相對(duì)應(yīng)的蛋白質(zhì)參考數(shù)據(jù)集,即預(yù)先知道的存在于樣本中的蛋白質(zhì)集合。另3個(gè)數(shù)據(jù)集則不擁有這樣的參考集。關(guān)于這些數(shù)據(jù)集的更多細(xì)節(jié)詳情請(qǐng)參見文獻(xiàn)[22]。
本文采用廣泛使用的目標(biāo)-誘餌的策略來評(píng)估算法的表現(xiàn)。該策略的主要思想為:在包含所有目標(biāo)蛋白質(zhì)序列以及等量的誘餌蛋白質(zhì)序列的混合蛋白質(zhì)數(shù)據(jù)庫(kù)中搜索串聯(lián)質(zhì)譜;當(dāng)鑒定得到的蛋白質(zhì)存在于蛋白質(zhì)參考集或者來自于目標(biāo)蛋白質(zhì)數(shù)據(jù)庫(kù)時(shí),該蛋白質(zhì)被認(rèn)為是正確的鑒定結(jié)果。
2.2參數(shù)設(shè)置
實(shí)驗(yàn)使用的數(shù)據(jù)庫(kù)搜索引擎為X!Tandem(v2010.10.01.1)[23],使用搜索引擎的默認(rèn)參數(shù)并假設(shè)這些參數(shù)已經(jīng)被最優(yōu)化。對(duì)于18 mixtures,Sigma49和Yeast數(shù)據(jù)集,所有的二級(jí)質(zhì)譜只搜索目標(biāo)蛋白質(zhì)數(shù)據(jù)庫(kù)。對(duì)于DME,HumanMD和HumanEKC,二級(jí)質(zhì)譜需要同時(shí)搜索目標(biāo)和誘餌數(shù)據(jù)庫(kù)。當(dāng)數(shù)據(jù)庫(kù)搜索引擎報(bào)告了肽段及其鑒定分?jǐn)?shù)后,實(shí)驗(yàn)繼續(xù)使用包含在TPP v4.5中的PeptideProphet[24]對(duì)鑒定結(jié)果做后續(xù)處理,得到肽段的鑒定概率。
本文將PGMPi和其他2個(gè)蛋白質(zhì)推斷算法MSBayesPro和Fido進(jìn)行比較。這2個(gè)算法都明確地使用條件概率處理肽段退化問題而且它們的程序包是開源的。實(shí)驗(yàn)運(yùn)行MSBayesPro和Fido算法時(shí)均使用默認(rèn)參數(shù)。PGMPi是使用R語(yǔ)言進(jìn)行實(shí)驗(yàn)求解的,該方法只有一個(gè)參數(shù)α,設(shè)定其取值范圍為α∈[0.2,0.8],實(shí)驗(yàn)設(shè)置PGMPi的參數(shù)α=5。
2.3實(shí)驗(yàn)結(jié)果
本文通過生成曲線評(píng)估不同的蛋白質(zhì)推斷算法的表現(xiàn)。該曲線根據(jù)不同的q_value繪制正確發(fā)現(xiàn)的蛋白質(zhì)鑒定物(TP)的個(gè)數(shù)。一個(gè)鑒定得到的蛋白質(zhì)如果出現(xiàn)在相應(yīng)的蛋白質(zhì)參考集或者目標(biāo)蛋白質(zhì)數(shù)據(jù)庫(kù)中,則認(rèn)為被正確發(fā)現(xiàn)(TP);反之,則認(rèn)為該蛋白質(zhì)是錯(cuò)誤發(fā)現(xiàn)的(FP)。給定某個(gè)概率閾值t,如果蛋白質(zhì)概率值大于閾值t的蛋白質(zhì)中有Tt個(gè)正確發(fā)現(xiàn)蛋白質(zhì)和Ft個(gè)錯(cuò)誤發(fā)現(xiàn)蛋白質(zhì),那么錯(cuò)誤發(fā)現(xiàn)率(FDR)用如下方式計(jì)算:FDRt=Ft/(Tt+Ft)。相應(yīng)的q_value定義為一個(gè)蛋白質(zhì)被報(bào)告的最小FDR:qt=mini≤tFDRi:qt=mini≤tFDRi。然后,通過不斷地改變概率閾值t生成最終的曲線。多個(gè)方法報(bào)告的排名最高的蛋白質(zhì)擁有相同的分?jǐn)?shù)1.0,這些蛋白質(zhì)在輸出文件中的排序是隨機(jī)的。本文跳過這些具有相同概率的蛋白質(zhì),從下一個(gè)出現(xiàn)的擁有不同概率的蛋白質(zhì)開始計(jì)算q_value。
圖4所示為3種不同的蛋白質(zhì)推斷算法的在6個(gè)數(shù)據(jù)集上的推斷結(jié)果評(píng)估曲線。一方面,這3個(gè)方法中沒有一個(gè)能在所有數(shù)據(jù)集上都表現(xiàn)為最好。在6個(gè)數(shù)據(jù)集上,PGMPi是最穩(wěn)定的并且沒有最差的表現(xiàn)??傮w來說,PGMPi在Yeast,DME,Sigma_49和HumanEKC數(shù)據(jù)集上幾乎都是表現(xiàn)最好的(或者和其他方法的表現(xiàn)非常相近)。同時(shí),PGMPi在18 mixtures數(shù)據(jù)集上表現(xiàn)次好。具體地說,在所有6個(gè)數(shù)據(jù)集上,PGMPi擊敗Fido 4次,擊敗MSBayesPro 5次。另一方面,當(dāng)q_value等于0時(shí)(沒有報(bào)告任何錯(cuò)誤的蛋白質(zhì)),PGMPi在HumanMD和HumanEKC數(shù)據(jù)集上能夠報(bào)告最多的正確蛋白質(zhì)。其他2個(gè)推斷算法也能在某些數(shù)據(jù)集上有類似的表現(xiàn)但沒有PGMPi多。具體的數(shù)據(jù)是:不報(bào)告任何錯(cuò)誤的蛋白質(zhì)時(shí),F(xiàn)ido在一個(gè)數(shù)據(jù)集上報(bào)告最多的正確的蛋白質(zhì),而MSBayesPro在所有數(shù)據(jù)集都沒有這樣的表現(xiàn)。
圖4繪制了3個(gè)蛋白質(zhì)推斷方法PGMPi、Fido和MSBayesPro在不同q_value下正確報(bào)告的蛋白質(zhì)的個(gè)數(shù)。整體來說,PGMPi在6個(gè)數(shù)據(jù)集上表現(xiàn)比較穩(wěn)定,尤其是在DME、HumanEKC及Yeast等3個(gè)數(shù)據(jù)集上都是表現(xiàn)最好的;在HumanMD和Sigma_49數(shù)據(jù)集上當(dāng)q_value較小時(shí),表現(xiàn)不是最優(yōu)的,但隨著q_value的增加,PGMPi較MSBayesPro和Fido而言都是最先達(dá)到最優(yōu)的;18 mixtures中PGMPi是表現(xiàn)次優(yōu)的。而Fido雖然在18 mixtures數(shù)據(jù)集中明顯優(yōu)于其他2個(gè)算法,但是在其他數(shù)據(jù)集中的表現(xiàn)都不是太理想,尤其是在Yeast數(shù)據(jù)集中的表現(xiàn)遠(yuǎn)遠(yuǎn)落后于其他2個(gè)算法,這也表明Fido在針對(duì)個(gè)別數(shù)據(jù)集來說可能會(huì)比較適合,模型相對(duì)來說不穩(wěn)定。對(duì)于MSBayesPro,該算法在Sigma_49數(shù)據(jù)集上,當(dāng)q_value較小時(shí),相比于PGMPi和Fido有不太顯著的優(yōu)勢(shì),但隨著q_value的增加就被PGMPi超過;在DME和HumanEKC兩個(gè)數(shù)據(jù)集上MSBayesPro都顯著弱于其他2個(gè)算法,表現(xiàn)相對(duì)較差,尤其是在HumanEKC數(shù)據(jù)集上,PGMPi和Fido都在q_value=0.03時(shí)可以全部鑒定出樣品中存在的蛋白質(zhì),而對(duì)于MSBayesPro, 當(dāng)q_value=0.035時(shí)還是沒能達(dá)到最優(yōu)解,由于其效果較差,為了便于比較將q_value>0.035的部分去掉了;MSBayesPro只在Yeast以及Sigma_49這2個(gè)數(shù)據(jù)集上和表現(xiàn)最好的方法相比,沒有明顯的差異;總的來說,MSBayesPro在6個(gè)數(shù)據(jù)集中的表現(xiàn)相比于其他蛋白質(zhì)推斷方法不太穩(wěn)定。
圖4 3種不同蛋白質(zhì)推斷算法的推斷結(jié)果Fig.4 Performance comparison among three different protein inference algorithms
2.4參數(shù)影響
由于PGMPi只有一個(gè)參數(shù),同MSBayesPro及Fido兩個(gè)模型的對(duì)比實(shí)驗(yàn)是在α=0.5的情況下進(jìn)行的,但其他參數(shù)對(duì)推斷效果是否有明顯的影響,即模型對(duì)參數(shù)是否是敏感的還未可知。所以本文對(duì)參數(shù)在各個(gè)數(shù)據(jù)集上的影響做了對(duì)比實(shí)驗(yàn),以測(cè)試模型對(duì)參數(shù)的敏感度。
由于生物信息的多樣性以及不確定性,導(dǎo)致同一模型對(duì)于相同參數(shù)在不同數(shù)據(jù)集的表現(xiàn)不一,同時(shí)同一模型不同參數(shù)對(duì)于結(jié)果也有著或多或少的影響。圖5報(bào)告的是PGMPi模型中不同參數(shù)在6個(gè)數(shù)據(jù)集上對(duì)于結(jié)果的影響,本文給定模型的參數(shù)取值區(qū)間為α∈[0.2,0.8],實(shí)驗(yàn)選取了0.2、0.3、0.5、0.7以及0.8等5個(gè)不同參數(shù)并繪制出在不同數(shù)據(jù)集上的結(jié)果對(duì)比圖(如圖5 所示),可以看出該模型不同參數(shù)的設(shè)置對(duì)于結(jié)果的影響不是很明顯,也就是說模型對(duì)于參數(shù)是不敏感的、相對(duì)穩(wěn)定的。具體而言,在18 mixtures、Yeast以及Sigma49數(shù)據(jù)集上不同參數(shù)對(duì)于推斷的結(jié)果幾乎沒有影響;在HumanEKC和HumanMD兩個(gè)數(shù)據(jù)集上,可以看出,當(dāng)參數(shù)α=0.2時(shí),其結(jié)果相對(duì)來說較好,但整體來說相對(duì)穩(wěn)定,波動(dòng)不大;而對(duì)于DME數(shù)據(jù)集,參數(shù)對(duì)于其結(jié)果有著相對(duì)明顯的影響,隨著參數(shù)的增加,效果相對(duì)來說有些下降。總體來說,模型參數(shù)在5個(gè)數(shù)據(jù)集上表現(xiàn)相對(duì)穩(wěn)定,而對(duì)于DME參數(shù)對(duì)于結(jié)果有著些許的影響,這是由于數(shù)據(jù)集的不同導(dǎo)致出現(xiàn)的差異,所以參數(shù)可能導(dǎo)致結(jié)果有些許的波動(dòng),但在可接受的范圍內(nèi)。因此該模型對(duì)參數(shù)是不敏感的、相對(duì)穩(wěn)定的。關(guān)于參數(shù)α的取值范圍,由于參數(shù)α表示的是某個(gè)候選蛋白質(zhì)存在其對(duì)應(yīng)的一個(gè)肽段被檢測(cè)到的概率。理論上來說參數(shù)α的取值范圍應(yīng)為(0,1],但是實(shí)驗(yàn)證明當(dāng)參數(shù)α=0.1時(shí)在某些數(shù)據(jù)集上就不能正確地推斷蛋白質(zhì),其最后的結(jié)果中存在某些蛋白質(zhì)的后驗(yàn)概率為無(wú)意義的數(shù)(NaN)。導(dǎo)致這種情況的原因,可能有2種情況:一種是由于生物樣本酶解的過程產(chǎn)生的,酶解過程為生物過程,我們無(wú)法精確地測(cè)量,在這個(gè)過程中,蛋白質(zhì)酶解的程度對(duì)于結(jié)果的預(yù)測(cè)也有著很大的影響,比如可能存在這樣一種情況,就是某個(gè)蛋白質(zhì)包含肽段j,但是酶解過程中將肽段水解成較小的氨基酸片段,這樣就鑒定不到該肽段的存在,特別是在這個(gè)蛋白質(zhì)只含有這一種肽段的情況下,就無(wú)法鑒定蛋白質(zhì)的存在。另一種可能是由于數(shù)據(jù)集的不同,也就是產(chǎn)生數(shù)據(jù)集中候選蛋白質(zhì)的生物組織的不同,蛋白質(zhì)酶解所需的水解酶不一樣,導(dǎo)致酶解效果以及酶解程度不同,對(duì)于蛋白質(zhì)包含的肽段可能沒有酶解出來,也可能酶解成更小的氨基酸片段。從而導(dǎo)致推斷結(jié)果有誤差,甚至出現(xiàn)無(wú)意義的數(shù)。綜合各種情況,本文選取了一個(gè)比較合理的參數(shù)取值[0.2,0.8],實(shí)驗(yàn)結(jié)果表明,雖然對(duì)于參數(shù)的變化模型效果表現(xiàn)比較穩(wěn)定,但是仍可以看出當(dāng)參數(shù)α=0.2時(shí),其推斷結(jié)果會(huì)相對(duì)更好一些,也就是說候選蛋白質(zhì)產(chǎn)生其對(duì)應(yīng)的肽段的概率小于0.2,從這也側(cè)面說明了生物酶解過程的隨機(jī)性、不徹底性。
圖5 參數(shù)對(duì)于模型結(jié)果的影響Fig.5 The effect of the parameter on the identification performance
3結(jié)束語(yǔ)
蛋白質(zhì)組學(xué)的一個(gè)重要目標(biāo)是能夠快速準(zhǔn)確地進(jìn)行蛋白質(zhì)鑒定,即確定一個(gè)樣本中真實(shí)存在的蛋白質(zhì),故蛋白質(zhì)鑒定問題得到了許多研究人員的關(guān)注。本文將蛋白質(zhì)推斷問題抽象為概率圖求解問題,并提出了一種基于概率圖模型的方法(PGMPi)來解決蛋白質(zhì)推斷問題。該模型首先給出了質(zhì)譜、肽段以及候選蛋白質(zhì)的聯(lián)合概率分布,根據(jù)給定的一些假設(shè)條件以及聯(lián)合概率確定每個(gè)蛋白質(zhì)的后驗(yàn)概率分布,從而將求解具有最大聯(lián)合概率分布的候選蛋白質(zhì)子集轉(zhuǎn)化為尋找一個(gè)具有最大后驗(yàn)的蛋白質(zhì)配置問題,最后采用吉布斯抽樣來對(duì)模型進(jìn)行求解,從而獲得具有最大后驗(yàn)的最優(yōu)蛋白質(zhì)配置。實(shí)驗(yàn)結(jié)果表明,本文提出的PGMPi的推斷表現(xiàn)不弱于其他蛋白質(zhì)推斷算法,并且同F(xiàn)ido和MSBayesPro相比,表現(xiàn)比較穩(wěn)定。特別是,PGMPi只有一個(gè)參數(shù),并且實(shí)驗(yàn)表明PGMPi在大多數(shù)數(shù)據(jù)集上對(duì)參數(shù)是不敏感的,不受參數(shù)設(shè)定的影響。
參考文獻(xiàn):
[1]ALTELAAR A F M, MUNOZ J, HECK A J R. Next-generation proteomics: towards an integrative view of proteome dynamics[J]. Nature reviews genetics, 2013, 14(1): 35-48.
[2]NOBLE W S, MACCOSS M J. Computational and statistical analysis of protein mass spectrometry data[J]. PLoS comput biol, 2012, 8(1): e1002296-e1002296.
[3]AEBERSOLD R, GOODLETT D R. Mass spectrometry in proteomics[J]. Chemical reviews, 2001, 101(2): 269-296.
[4]PENG J, ELIAS J E, THOREEN C C, et al. Evaluation of multidimensional chromatography coupled with tandem mass spectrometry (LC/LC-MS/MS) for large-scale protein analysis: the yeast proteome[J]. Journal of proteome research, 2003, 2(1): 43-50.
[5]HUNT D F, YATES J R, SHABANOWITZ J, et al. Protein sequencing by tandem mass spectrometry[J]. Proceedings of the national academy of sciences, 1986, 83(17): 6233-6237.
[6]NESVIZHSKII A I, KELLER A, KOLKER E, et al. A statistical model for identifying proteins by tandem mass spectrometry[J]. Analytical chemistry, 2003, 75(17): 4646-4658.
[7]SERANG O, MACCOSS M J, NOBLE W S. Efficient marginalization to compute protein posterior probabilities from shotgun mass spectrometry data[J]. Journal of proteome research, 2010, 9(10): 5346-5357.
[8]SHEN C, WANG Z, SHANKAR G, et al. A hierarchical statistical model to assess the confidence of peptides and proteins inferred from tandem mass spectrometry[J]. Bioinformatics, 2008, 24(2): 202-208.
[9]LI Y F, ARNOLD R J, LI Y, et al. A Bay esian approach to protein inference problem in shotgun proteomics[J]. Journal of computational biology, 2009, 16(8): 1183-1193.
[10]MA Z Q, DASARI S, CHAMBERS M C, et al. IDPicker 2.0: Improved protein assembly with high discrimination peptide identification filtering[J]. Journal of proteome research, 2009, 8(8): 3872-3881.
[11]CLAASSEN M. Inference and validation of protein identifications[J]. Molecular & cellular proteomics, 2012, 11(11): 1097-1104.
[12]HUANG T, WANG J, YU W, et al. Protein inference: a review[J]. Briefings in bioinformatics, 2012, 13(5): 586-614.
[13]LI Y F, RADIVOJAC P. Computational approaches to protein inference in shotgun proteomics[J]. BMC bioinformatics, 2012, 13: 1-17.
[14]CHENG QIANG, CHEN FENG, DONG JIAN WU, et al. Variational approximate inference methods for graphical models[J]. Acta Automatica Sinica, 2012,38(11): 1721-1734(in Chinese).
程強(qiáng),陳峰,董建武等,概率圖模型中的變分近似推理方法[J]. 自動(dòng)化學(xué)報(bào), 2012, 38(11): 1721-1734.
[15]COOPER G F, HERSKOVITS E. A Bayesian method for the induction of probabilistic networks from data[J]. Machine learning, 1992, 9(4): 309-347.
[16]HASTIE T, TIBSHIRANI R, FRIEDMAN J, et al. The elements of statistical learning: data mining, inference and prediction[J]. The mathematical intelligencer, 2005, 27(2): 83-85.
[17]BENJAMINI Y, HOCHBERG Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing[J]. Journal of the royal statistical society. series B
(Methodological), 1995, 57(1): 289-300.
[18]TABB D L, FERNANDO C G, CHAMBERS M C. MyriMatch: highly accurate tandem mass spectral peptide identification by multivariate hypergeometric analysis[J]. Journal of proteome research, 2007, 6(2): 654-661.
[19]RAMAKRISHNAN S R, VOGEL C, KWON T, et al. Mining gene functional networks to improve mass-spectrometry-based protein identification[J]. Bioinformatics, 2009, 25(22): 2955-2961.
[20]BRUNNER E, AHRENS C H, MOHANTY S, et al. A high-quality catalog of the Drosophila melanogaster proteome[J]. Nature biotechnology, 2007, 25(5): 576-583.
[21]RAMAKRISHNAN S R, VOGEL C, PRINCE J T, et al. Integrating shotgun proteomics and mRNA expression data to improve protein identification[J]. Bioinformatics, 2009, 25(11): 1397-1403.
[22]HUANG T, HE Z. A linear programming model for protein inference problem in shotgun proteomics[J]. Bioinformatics, 2012, 28(22): 2956-2962.
[23]CRAIG R, BEAVIS R C. TANDEM: matching proteins with tandem mass spectra[J]. Bioinformatics, 2004, 20(9): 1466-1467.
[24]KELLER A, NESVIZHSKII A I, KOLKER E, et al. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search[J]. Analytical chemistry, 2002, 74(20): 5383-5392
趙璨,女,出生于1991年,碩士研究生,主要研究方向是生物信息學(xué)、蛋白質(zhì)推斷以及PPI網(wǎng)絡(luò)推斷。
段瓊,男,1990年生,碩士研究生,主要研究方向?yàn)樯镄畔W(xué)、基于自頂向下的蛋白質(zhì)推斷。
何增有,男,1976年生,副教授,主要研究方向?yàn)閿?shù)據(jù)挖掘、生物信息學(xué),學(xué)術(shù)論文均發(fā)表在該領(lǐng)域的頂級(jí)期刊或會(huì)議上,出版學(xué)術(shù)專著1部。
中文引用格式:趙璨,段瓊,何增有.基于概率圖模型的蛋白質(zhì)推斷算法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(2): 376-383.
英文引用格式:ZHAO Can,DUAN Qiong,HE Zengyou.Protein inference method based on probabilistic graphical model[J]. CAAI transactions on intelligent systems, 2016,11(2): 376-383.
Protein inference method based on probabilistic graphical model
ZHAO Can,DUAN Qiong,HE Zengyou
(School of Software, Dalian University of Technology, Dalian 116620, China)
Abstract:Proteomics is an emerging discipline that focuses on the large-scale study of proteins expressed inan organism. An explicit goal of proteomics is the prompt and accurate identification of all proteins in a cell or tissue. Generally, protein identification can be divided into two parts: peptide identification and protein inference. In peptide identification, the peptide sequence is identified from raw tandem mass spectrometry , while the goal of protein inference is to identify which of these identified proteins is truly present in the sample. Because of the inherent uncertainty of MS data and the complexity of the proteome, there are several challenges in protein identification. In this article, we propose a novel method based on the probabilistic graphical model (PGMPi) that introduces the influence of tandem mass spectrometry. This method transforms the protein inference problem into a probabilistic graphical model problem to be solved, in which the maximum posteriori probabilities of proteins are identified in order to identify the protein set that is actually present in the sample. PGMPi can not only achieve efficient performance in terms of identification, but also introduces only one parameter, which ensures the algorithm's stability. The experimental results demonstrate that our method is superior to existing state-of-the-art protein inference algorithms.
Keywords:protein inference; peptide inference; shotgun proteomics; probability graph model
作者簡(jiǎn)介:
中圖分類號(hào):TP393
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-4785(2016)01-0376-08
通信作者:何增有. E-mail:zyhe@dlut.edu.cn.
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61572094).
收稿日期:2016-03-200.網(wǎng)絡(luò)出版日期:2016-05-13.
DOI:10.11992/tis.201603051
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0913.006.html