国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

探究影響生物代謝物注釋準(zhǔn)確性的因素

2023-12-30 15:59:52盧雨欣
工業(yè)微生物 2023年6期
關(guān)鍵詞:加合物皮爾遜分子式

盧雨欣

渭南師范學(xué)院,陜西 渭南 714000

在生物學(xué)領(lǐng)域,代謝組學(xué)是研究生物體的重要學(xué)科,其中,代謝物注釋扮演著關(guān)鍵的角色。代謝物通常在生物體內(nèi)的生化反應(yīng)中被消耗或生成,微小的環(huán)境變化都可能引起生物體內(nèi)生化過程的變化,從而導(dǎo)致代謝物的濃度和種類發(fā)生實(shí)時(shí)變化[1]。因此,代謝物的變化直接反映了生物體的生化和功能狀態(tài)。在代謝組學(xué)中,代謝物注釋對(duì)研究生物體具有重要意義。由于代謝物的組成非常復(fù)雜,一份樣品中可能包含大量不同種類的代謝物,這些代謝物中包含化學(xué)結(jié)構(gòu)和濃度各異的多種化學(xué)物,因此代謝物注釋的精確性顯得至關(guān)重要。

代謝物的注釋研究在研究生物體的各種調(diào)節(jié)機(jī)制[2]、微生物和植物分析[3]、基因功能的闡明[4]、疾病診斷[5]和藥物毒性[6]等方面發(fā)揮了重要的作用。而影響代謝物注釋的因素有很多,例如加合物列表的大小、p 值、皮爾遜系數(shù),分子式列表的大小及保留時(shí)間等。因此,為了探究各項(xiàng)參數(shù)對(duì)代謝物注釋準(zhǔn)確性的影響進(jìn)行本次試驗(yàn),以求為生物代謝組學(xué)的相關(guān)領(lǐng)域提供參考。

1 試驗(yàn)方法

本次試驗(yàn)主要采用伯明翰大學(xué)自主研發(fā)的代謝物注釋程序BEAMS 探究各項(xiàng)參數(shù)對(duì)代謝物注釋準(zhǔn)確性的影響。BEAMS 是依據(jù)代謝組學(xué)標(biāo)準(zhǔn)倡議報(bào)告標(biāo)準(zhǔn)的第三級(jí)進(jìn)行的注釋。

本次試驗(yàn)數(shù)據(jù)為某項(xiàng)目提供了三組不同的代謝物數(shù)據(jù),分別通過加合物列表、P 值、皮爾遜系數(shù)、分子式列表及保留時(shí)間進(jìn)行對(duì)比分析試驗(yàn)。BEAMS 的運(yùn)行如圖1 所示。

圖1 BEAMS 的運(yùn)行界面圖

數(shù)據(jù)分析過程主要包括四個(gè)階段,分別為峰值檢測(cè)、峰值注釋、分子式注釋及統(tǒng)計(jì)分析。首先是對(duì)代謝物進(jìn)行分組。根據(jù)保留時(shí)間(RT)對(duì)離子峰進(jìn)行分組,提取這些峰的離子色譜圖(EIC),再利用皮爾遜相關(guān)性對(duì)它們進(jìn)行二次分組,隨后根據(jù)不同的質(zhì)荷比(m/z)使用不同的加合物列表、同位素列表或低聚物列表進(jìn)行峰注釋。如果組內(nèi)每對(duì)峰的m/z 之差值較為合理,則認(rèn)為這兩個(gè)離子來自同一個(gè)代謝物[7]?;衔锏臏?zhǔn)確分子質(zhì)量可以通過分子式數(shù)據(jù)庫(kù)的計(jì)算和搜索來獲得并記錄分子式,并根據(jù)質(zhì)譜中的m/z 和加成離子形式計(jì)算出所有可能的分子式后進(jìn)行過濾,得到最終代謝物注釋結(jié)果[8]。本研究使用三個(gè)不同的代謝物數(shù)據(jù)集,分別改變加合物列表的大小、P 值、皮爾遜系數(shù)、分子式列表的大小及保留時(shí)間等,探究各項(xiàng)參數(shù)對(duì)于代謝物注釋準(zhǔn)確性的影響。試驗(yàn)步驟如圖2 所示。

圖2 試驗(yàn)流程圖

2 試驗(yàn)結(jié)果

為了探究各項(xiàng)參數(shù)對(duì)代謝物注釋準(zhǔn)確性的影響,本實(shí)驗(yàn)采用了三個(gè)不同的代謝物數(shù)據(jù)集、兩個(gè)不同的加合物列表、三個(gè)不同的分子式列表,并通過改變P 值、保留時(shí)間(RT)和皮爾遜系數(shù)進(jìn)行了試驗(yàn)。其中,代謝物數(shù)據(jù)集1 是通過超高效液相色譜-質(zhì)譜分析獲得“人工”數(shù)據(jù)集,包含相對(duì)較少的數(shù)據(jù);代謝物數(shù)據(jù)集2 和代謝物數(shù)據(jù)集3 則是“真實(shí)世界”中的生物樣本代謝物數(shù)據(jù)集,包含較為豐富的數(shù)據(jù)。加合物列表1 包含較少的數(shù)據(jù),加合物列表2 則包含較多的數(shù)據(jù)。分子式列表1、分子式列表2 和分子式列表3 分別包含較少、中等和較多的數(shù)據(jù)。圖3展示了加合物列表、代謝物數(shù)據(jù)集文件和分子式列表文件所包含數(shù)據(jù)的數(shù)量。

圖3 加合物列表、分子式列表及代謝物數(shù)據(jù)集中包含的數(shù)據(jù)數(shù)量圖

加合物列表1 和分子式列表1 只定義代謝物數(shù)據(jù)集1 中的已知代謝物,而加合物列表2、分子式列表2 與分子式列表3 則包含更多加合物與分子式。本研究將使用不同的數(shù)據(jù)庫(kù)和參數(shù)進(jìn)行試驗(yàn),統(tǒng)計(jì)每個(gè)特征所包含的分子式占總數(shù)量的百分比,以確定代謝物注釋的影響因素。

2.1 使用不同數(shù)據(jù)庫(kù)對(duì)代謝物注釋的影響

使用相同的P 值、皮爾遜系數(shù)和RT 更改加合物列表、分子式列表和代謝物數(shù)據(jù)集的結(jié)果如圖4所示。當(dāng)使用加合物列表1、分子式列表1 和代謝物數(shù)據(jù)集1 注釋代謝物時(shí),結(jié)果顯示該組有733 個(gè)代謝物的特征包含一個(gè)分子式(理想情況),占代謝物特征的65%。使用加合物列表2、分子式列表1 和代謝物數(shù)據(jù)集1 時(shí),有58.5%的代謝物特征包含一個(gè)分子式。除此之外,應(yīng)用其他數(shù)據(jù)庫(kù)時(shí),只有18%-23%的代謝物特征報(bào)告中包含一個(gè)分子式。因此,使用分子式列表1 和代謝物數(shù)據(jù)集1 時(shí),代謝物注釋的準(zhǔn)確性明顯高于使用其他分子式列表和代謝物數(shù)據(jù)集,這證明大型分子式列表會(huì)造成多個(gè)假陽(yáng)性,對(duì)代謝物注釋的準(zhǔn)確性有負(fù)面影響。

除此之外,在相同條件下,比較使用加合物列表1 和加合物列表2 的數(shù)據(jù)后發(fā)現(xiàn),使用加合物列表1的結(jié)果普遍優(yōu)于使用加合物列表2 的結(jié)果。在相同條件下,使用加合物列表2 時(shí),只有占特征組總數(shù)9%~12%的特征組包含一個(gè)分子式,相較于使用加合物列表1 的結(jié)果低6%~14%。此外,使用加合物列表2 時(shí),具有兩個(gè)以上特征的組數(shù)明顯增加,表明假陽(yáng)性峰的數(shù)量明顯增加,從而導(dǎo)致代謝物注釋的準(zhǔn)確性大大降低。然而,僅改變加合物列表時(shí),其變化相對(duì)于改變其他條件較小。當(dāng)加合物列表1 和分子式列表1 保持不變,代謝物數(shù)據(jù)集1 改為代謝物數(shù)據(jù)集2 時(shí),含有一個(gè)分子式的特征組數(shù)量從733 個(gè)減少到260 個(gè),占比從65%減少到22%。同樣,當(dāng)分子式列表1 和代謝物數(shù)據(jù)集1 不變,而加合物列表改變時(shí),包含一個(gè)分子式的特征群數(shù)量便從733 個(gè)下降到662 個(gè),占比從65%下降到59%。這表明分子式列表和代謝物數(shù)據(jù)集對(duì)代謝物注釋準(zhǔn)確性的影響相較于加合物列表更為顯著。由于較大的分子式列表和代謝物數(shù)據(jù)集包含更多的分子式和更多種代謝物,它們能夠注釋代謝物的衍生物。因此,當(dāng)使用加合物列表2、分子式列表3 和代謝物數(shù)據(jù)集3 時(shí),結(jié)果最差,僅有113 個(gè)代謝物特征包含一個(gè)分子式,有1 010 個(gè)代謝物特征包含一個(gè)以上的分子式。

2.2 使用不同參數(shù)對(duì)代謝物注釋的影響

在考察了分子式列表、加合物列表和代謝物數(shù)據(jù)集對(duì)代謝物注釋的影響后,本研究轉(zhuǎn)向使用代謝物數(shù)據(jù)集2,以研究不同參數(shù)對(duì)代謝物注釋準(zhǔn)確性的影響。與代謝物數(shù)據(jù)集1 不同,代謝物數(shù)據(jù)集2中的代謝物是未知的,因此選擇了較大的分子式列表3。這是因?yàn)樾⌒蛿?shù)據(jù)庫(kù)中可能缺乏某些分子式或代謝物種類。在本次試驗(yàn)中,通過調(diào)整最大保留時(shí)間差、皮爾遜系數(shù)、加合物列表和P 值,分別研究了各種參數(shù)對(duì)代謝物注釋的影響。

最大保留時(shí)間差、皮爾遜相關(guān)系數(shù)(Pearson correlation)、加合物列表和P 值都與特征組有關(guān)。理論上,相同代謝物的保留時(shí)間(RT)相同,但由于誤差和其他原因,RT 會(huì)有微小的偏差,所以一起用最大保留時(shí)間差來調(diào)整時(shí)間差,并對(duì)峰進(jìn)行分組。但僅根據(jù)保留時(shí)間進(jìn)行分組并無法滿足相關(guān)要求,還需要對(duì)峰形或峰豐度進(jìn)行相關(guān)分析。如果兩個(gè)峰之間的峰形或峰豐度的相關(guān)性高于預(yù)定的閾值,那么這兩個(gè)特征就會(huì)被認(rèn)定屬于同一代謝物[9]。這種相似性通常用兩個(gè)峰提取離子色譜(EIC)的皮爾遜系數(shù)衡量[10]。皮爾遜系數(shù)是用來計(jì)算兩個(gè)變量之間的關(guān)系強(qiáng)度的[11]。其數(shù)值在負(fù)1 和1 之間,其中1 是正相關(guān),負(fù)1 是負(fù)相關(guān)。一般來說,皮爾遜系數(shù)低于0.8被視為無效。P 值代表一個(gè)顯著性水平,非常重要,如果P 值不顯著,無論皮爾遜系數(shù)有多高,都可能是偶然結(jié)果。一般來說,P 值低于0.05 則表示成效顯著。使用不同參數(shù)對(duì)代謝物注釋的影響顯示在以下圖表中(圖5,6)。

圖5 數(shù)據(jù)集2 中分配給每個(gè)代謝物特征的分子式數(shù)量(使用加合物列表1)

如圖5 和圖6 所示,無論使用何種加合物列表、無論什么類型的參數(shù)發(fā)生變化,其結(jié)果都是相似的。例如,在圖5 中,當(dāng)最大RT 差值為2.0 和5.0 時(shí),具有一個(gè)分子式的特征數(shù)量都是880 個(gè);當(dāng)P 值為0.01 和0.0005 時(shí),具有一個(gè)分子式的特征數(shù)量也一樣。該試驗(yàn)把皮爾遜系數(shù)分別調(diào)整為0.7、0.8 和0.9。這是因?yàn)?.7 和0.9 的值分別代表被認(rèn)為無效和被認(rèn)為有效。當(dāng)我們使用這三個(gè)值時(shí),結(jié)果仍然是一樣的。雖然參數(shù)增加了五到十倍,但含有一個(gè)分子式的代謝物特征只是略有增加或保持穩(wěn)定。無論最大RT 差值、P 值和皮爾遜系數(shù)如何增加,含有一個(gè)分子式的特征數(shù)量都是17%。不含分子式的特征組數(shù)量和含一個(gè)以上分子式的特征組數(shù)量也很穩(wěn)定,比例保持在30%和52%。

圖6 數(shù)據(jù)集2 中分配給每個(gè)代謝物特征的分子式數(shù)量(使用加合物列表2)

3 結(jié)論與建議

試驗(yàn)數(shù)據(jù)表明,加合物列表、分子式列表和代謝物數(shù)據(jù)集文件對(duì)代謝物注釋結(jié)果的影響極為顯著。與此相反,最大RT 差異、皮爾遜系數(shù)和P 值對(duì)結(jié)果的影響幾乎可以忽略不計(jì)。當(dāng)使用含有大量數(shù)據(jù)的加合物列表、分子式列表和代謝物數(shù)據(jù)集時(shí),對(duì)代謝物注釋產(chǎn)生了負(fù)面影響,導(dǎo)致結(jié)果中含有多種代謝物的組數(shù)明顯增加,這表明出現(xiàn)了大量假陽(yáng)性峰。盡管每個(gè)代謝物都有大量離子,但只有其中一小部分能夠通過數(shù)據(jù)庫(kù)匹配得以識(shí)別,其他部分是同一組代謝物的衍生物。因此,使用大型的加合物列表、分子式列表和代謝組學(xué)數(shù)據(jù)集時(shí),可能會(huì)注釋出衍生物,從而在一個(gè)組中產(chǎn)生多種代謝物。

假陽(yáng)性峰的產(chǎn)生在分子式注釋和代謝物名稱注釋的過程中產(chǎn)生很多錯(cuò)誤。合適的分子式列表和代謝物數(shù)據(jù)集包括適當(dāng)?shù)姆肿邮胶痛x物名稱,因此當(dāng)選取合適的分子式列表和代謝物數(shù)據(jù)集時(shí),絕大部分假陽(yáng)性峰無法被注釋出來。而在較大的分子式列表和代謝物數(shù)據(jù)集中,假陽(yáng)性峰可以被注釋,導(dǎo)致含有兩種以上代謝物的組增加,沒有代謝物的組和只含有一種代謝物的組減少。形成假陽(yáng)性峰的原因有三個(gè):1. 兩個(gè)具有相同電荷狀態(tài)的前體離子在一個(gè)小的RT 窗口內(nèi)的質(zhì)量幾乎相同;2.每個(gè)代謝物都包含大量離子,但只有其中一小部分可以通過數(shù)據(jù)庫(kù)匹配來識(shí)別,另一部分是同一組代謝物的衍生物,如果不識(shí)別在電離過程中形成的碎片、同位素和被視為單同位素離子的加合物,可能會(huì)導(dǎo)致基于質(zhì)量的方法在檢測(cè)許多分子時(shí)出現(xiàn)錯(cuò)誤,一些高強(qiáng)度的單同位素峰可能存在許多后續(xù)的同位素峰,其強(qiáng)度可能會(huì)超過規(guī)定的閾值;3.在收集中心點(diǎn)數(shù)據(jù)時(shí),主峰周圍可能會(huì)產(chǎn)生一些峰,如果強(qiáng)度閾值的水平低于新生峰,可能會(huì)造成假陽(yáng)性的問題。

解決假陽(yáng)性峰的問題是非靶向代謝組學(xué)的重點(diǎn)和難點(diǎn),但目前還沒有評(píng)估代謝物鑒定假發(fā)現(xiàn)率(FDR)的指標(biāo)。目前的解決方案是:1. 控制RT。如果RT 很大,假陽(yáng)性峰的數(shù)量會(huì)增加,但應(yīng)該注意,太小的RT 會(huì)導(dǎo)致真正的候選峰產(chǎn)生損失。2. 根據(jù)實(shí)驗(yàn)結(jié)果選擇最佳強(qiáng)度閾值有助于減少假陽(yáng)性,重要的是,不會(huì)丟失真實(shí)的實(shí)驗(yàn)數(shù)據(jù)和結(jié)果。3.可以用一些軟件來減少假陽(yáng)性,如使用非靶向代謝組學(xué)的自動(dòng)數(shù)據(jù)分析管道(ADAP)來建立EIC。ADAP 的峰值檢測(cè)算法可以通過引入新的信噪比估計(jì)方法和其他一些過濾步驟來檢測(cè)EIC 中的假峰,但它通常運(yùn)用于GC-MS。

在這個(gè)實(shí)驗(yàn)中,分別采用了測(cè)試數(shù)據(jù)集和真實(shí)的生物數(shù)據(jù)集來測(cè)試各項(xiàng)參數(shù)對(duì)于代謝物注釋準(zhǔn)確性的影響。在實(shí)驗(yàn)過程中,使用了控制變量的方法對(duì)每個(gè)變量進(jìn)行多次測(cè)試。例如,在測(cè)試1 中,使用加合物列表1、分子式列表1 和代謝數(shù)據(jù)集1 作為控制組,并與其他使用較大加合物列表、分子式列表和代謝物數(shù)據(jù)集的組進(jìn)行比較,以使結(jié)果清晰易懂。在試驗(yàn)2 中,為了探究改變P 值的效果,對(duì)多個(gè)實(shí)驗(yàn)的P 值進(jìn)行了調(diào)整和觀察,從而避免誤差,保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。但在測(cè)試參數(shù)對(duì)代謝物注釋準(zhǔn)確性的影響時(shí),該實(shí)驗(yàn)只使用了一個(gè)數(shù)據(jù)集,可能會(huì)造成一些意外的誤差。

在代謝組學(xué)研究中,代謝物的注釋至關(guān)重要,錯(cuò)誤率過高就需要花費(fèi)大量的時(shí)間和金錢來識(shí)別錯(cuò)誤。因此,在進(jìn)一步研究中,建議使用更多數(shù)據(jù)集來測(cè)試各參數(shù)對(duì)代謝物注釋準(zhǔn)確性的影響。在之后的試驗(yàn)中可以使用更多的標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試,以避免因數(shù)據(jù)集問題產(chǎn)生的誤差。本實(shí)驗(yàn)使用加合物列表1、分子式列表1 和代謝物數(shù)據(jù)集1 時(shí),結(jié)果仍然存在一些特征組沒有分子式或一個(gè)以上的分子式。這可能是因?yàn)樵诮M特征階段存在一些誤差,如一些代謝物沒有被分組,可以選擇合適的參數(shù)和數(shù)據(jù)庫(kù)進(jìn)行注釋,直到所有特征組都有一個(gè)分子式,然后在相同參數(shù)下測(cè)試使用不同加合物列表、分子式列表文件和代謝物數(shù)據(jù)集的效果并觀察其結(jié)果,從而進(jìn)行進(jìn)一步的試驗(yàn)。

猜你喜歡
加合物皮爾遜分子式
確定有機(jī)物分子式的三個(gè)途徑
半胱氨酸消減丙烯酰胺的機(jī)理及消減工藝在薯?xiàng)l中的應(yīng)用
DNA加合物組的預(yù)處理及檢測(cè)方法研究進(jìn)展
苯并[a]芘及其代謝產(chǎn)物與DNA加合物檢測(cè)方法的研究進(jìn)展
現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
有機(jī)物分子式確定方法探秘
Excel在水文學(xué)教學(xué)中的應(yīng)用
卡方分布的探源
有機(jī)物分子式、結(jié)構(gòu)式的確定
鄂尔多斯市| 秭归县| 大厂| 云林县| 桐梓县| 镇平县| 徐水县| 大新县| 福海县| 南靖县| 温泉县| 大余县| 邛崃市| 阿图什市| 五寨县| 泊头市| 屯留县| 牙克石市| 桐城市| 罗山县| 南京市| 乐亭县| 和硕县| 贵定县| 珠海市| 将乐县| 抚宁县| 岳普湖县| 高密市| 察哈| 全南县| 苏尼特左旗| 班戈县| 靖江市| 安仁县| 惠水县| 高阳县| 磴口县| 车险| 闻喜县| 汽车|