劉 妮 劉 晗 趙阿曼 徐凡丁 劉文宇 段君博*
1(西安交通大學(xué)生命科學(xué)與技術(shù)學(xué)院,教育部生物醫(yī)學(xué)與信息工程重點實驗室,西安 710049)
2(蘇州大學(xué)附屬兒童醫(yī)院檢驗科,江蘇 蘇州 215003)
拷貝數(shù)變異(copy number variation,CNV)屬于基因組結(jié)構(gòu)變異,一般指長度大于1 kb的基因組大片段的拷貝數(shù)增加或減少[1]。有研究表明,CNV至少占到了人體基因組的12%[2],說明 CNV 不僅是基因組多態(tài)性的重要來源之一,而且相比單核苷酸多態(tài)性等基因變異類型,對人類健康的影響更為顯著。大量研究發(fā)現(xiàn),CNV與癌癥之間存在相關(guān)性[3-5]。因此,CNV的準確識別,對于癌癥等疾病的預(yù)防和治療具有重要的現(xiàn)實意義。
高通量測序技術(shù)能一次并行對幾十萬到幾百萬條DNA分子進行序列測定,大大提高了測序的效率。目前CNV檢測算法大多都是基于高通量測序技術(shù)[6],該技術(shù)又可以被劃分為全外顯子組測序技術(shù)與全基因組測序技術(shù)。全外顯子組測序技術(shù)相較于全基因組測序技術(shù),價格更低、耗時更短,且對基因疾病的研究更為有效[7-8],所以在臨床診斷和學(xué)術(shù)研究中使用得更為廣泛。
隱馬爾可夫模型(hidden Markov model,HMM)是比較經(jīng)典的機器學(xué)習(xí)模型,現(xiàn)已應(yīng)用于語音識別、行為識別以及生物信息等領(lǐng)域[9]。HMM在拷貝數(shù)變異檢測中也得到廣泛應(yīng)用,與其相關(guān)的算法眾多但各有優(yōu)劣,這使得在進行拷貝數(shù)變異檢測時算法的選擇成為一個重要問題。本研究選取5個具有代表性的基于HMM的CNV檢測算法,對其性能進行評估,并與實際情況進行結(jié)合,最終得出了不同應(yīng)用場景的算法選取指南。
首先,構(gòu)建仿真數(shù)據(jù)集與真實數(shù)據(jù)集;然后,選擇一些具有代表性的基于HMM的CNV檢測算法,從真陽性率(TPR)、假發(fā)現(xiàn)率(FDR)和計算性能等方面,對所選取的 CNV 檢測算法進行性能評估;最后,將被選擇的CNV 檢測算法的性能評估結(jié)果與實際應(yīng)用場景結(jié)合,獲得可供應(yīng)用的臨床使用指南。
本研究的數(shù)據(jù)集分為仿真的和真實的全外顯子數(shù)據(jù)集,以此來評估CNV檢測算法的性能。
對于仿真數(shù)據(jù)集的構(gòu)建,首先選擇hg19版本的人體10號染色體作為仿真數(shù)據(jù)的參考基因序列,然后使用SimulateCNVs軟件進行拷貝數(shù)變異仿真[10]。在外顯子區(qū)域模擬了不同的覆蓋值(X2、X20、X40、X70和X100),每種覆蓋值都包含10個參考樣本和30個待測樣本,每個待測樣本隨機產(chǎn)生拷貝數(shù)變異,并且每個樣本中重復(fù)和缺失拷貝數(shù)的變異數(shù)量相同。對于覆蓋度為X100的樣本,額外生成兩組拷貝數(shù)變異密度不同的數(shù)據(jù)集。
對于真實數(shù)據(jù)集,從NCBI數(shù)據(jù)庫中的SRP007198項目,下載來自5個個體的WES數(shù)據(jù)SRR292250、SRR303332、SRR303335、SRR303338和SRR303340。在Krumm等的研究中,這5個樣本共產(chǎn)生了32個拷貝數(shù)變異[11],將其作為金標準來評估CNV檢測工具的準確性。
為了幫助研究人員根據(jù)需求采用合適的基于HMM的CNV檢測方法,筆者選擇了具有代表性的算法。在此過程中,有兩個選擇算法的標準。首先是基于讀深度方法來檢測CNV,其次是基于HMM方法。此外,還需考慮算法文章的引用量以及源碼是否公開?;谶@些條件,確定了CNV檢測候選算法[12-15],但部分算法由于無法下載或版本過舊,故予以刪除,如M-HMM、EXCAVATOR、CoNVex和CONDEX等。最后,選擇了5種算法進行檢測,分別為XHMM[16]、ADTex[17]、CANOES[18]、ExomeCopy[19]和Exome Depth[20],基本信息如表1所示。
表1 研究選取算法的相關(guān)信息Tab.1 Selected representative CNV calling methods
就算法實現(xiàn)而言,XHMM主要采用主成分分析法對整個樣本組進行分析,根據(jù)它們的讀深信號變化來判斷樣本是否存在CNV;ADTex采用覆蓋深度對比法,一個樣本作為正常樣本,另一個則作為待測樣本,將兩個樣本的讀深信號化為一個個窗,對窗與窗的覆蓋深度進行對比,從而找出待測樣本的CNV;CANOES與XHMM相似,也是采用了主成分分析法;ExomeCopy采用基于GC、覆蓋度和窗負二項回歸模型,ExomeDepth則基于GC矯正的β-二項分布模型,這兩者的原理相似,都是經(jīng)過GC矯正,再將讀深信號轉(zhuǎn)化為Grange信號進行分析。
為了更全面地評價CNV檢測工具,選擇真陽性率(TPR)、假發(fā)現(xiàn)率(FDR)、計算性能等作為評價指標。真陽性率TPR為正確檢測出的CNV的數(shù)量除以CNV總數(shù)量,是正確識別真陽性結(jié)果比例的統(tǒng)計量,F(xiàn)DR為誤檢測到的CNV的數(shù)量除以檢測出的CNV總數(shù)量,是正確識別假陽性結(jié)果比例的統(tǒng)計量。
此外,為了更全面地評估這些算法,計算性能也是一個重要的指標,主要包括時間復(fù)雜度和空間復(fù)雜度。以算法運行時間來表征時間復(fù)雜度,以中央處理器和內(nèi)存的占用情況(即計算機資源使用量)來表征空間復(fù)雜度。時間復(fù)雜度和空間復(fù)雜度越低,則說明算法優(yōu)化得越好。
根據(jù)評價指標,對5種CNV檢測工具的性能進行評價。
全外顯子組測序數(shù)據(jù)的覆蓋深度和CNV的密度可能會對CNV檢測結(jié)果有影響,故將二者作為仿真系數(shù),評測其對檢測性能的影響。
2.1.1覆蓋深度
覆蓋深度為測序得到的堿基總量與基因組大小的比值,如X20表示覆蓋深度為20。為了評估覆蓋深度對這些算法的CNV檢測性能的影響,在外顯子區(qū)域模擬了不同的覆蓋值,包含X2、X20、X40、X70和X100共5種情況,每種情況下生成的CNV的缺失和重復(fù)數(shù)均相同。使用5種選定的算法,進行CNV檢測。檢測結(jié)果的TPR和FDR如圖1所示,其中(a)和(b)分別顯示覆蓋深度對5種檢測算法TPR和FDR的影響。根據(jù)圖1(a)可以得到以下結(jié)論:一是隨著數(shù)據(jù)覆蓋深度的增加,這5種檢測算法的TPR先迅速增加,后保持穩(wěn)定;二是在低覆蓋深度下,ADTex和XHMM無法獲得CNV檢測結(jié)果;三是ADTex和XHMM的CNV檢測結(jié)果的TPR明顯遜于ExomeCopy、ExomeDepth和CAONES。根據(jù)圖1(b)可以得到以下結(jié)論:一是檢測算法的FDR隨著覆蓋深度的增加而減少;二是XHMM的FDR最高,其他4種算法的FDR相對接近。從上述結(jié)果可以看出,在實際應(yīng)用中,100X的覆蓋深度對拷貝數(shù)變異檢測來說已經(jīng)足夠。
圖1 覆蓋深度對5種檢測算法性能的影響;(a)對TPR的影響;(b)對FDR的影響Fig.1 The changes of tools′ performances with respect to the coverage. (a) The changes of these tools′ TPR; (b) The changes of these tools′ FDR
2.1.2CNV密度
為了評估外顯子密度對這些算法的CNV檢測性能的影響,基于X100覆蓋深度模擬了一系列CNV,每1000、500和330個外顯子組平均會產(chǎn)生一個CNV,其中重復(fù)和缺失CNV的數(shù)量相同。 然后,使用選定的算法從這些數(shù)據(jù)中檢測CNV, 計算出的TPR結(jié)果如圖2所示??梢钥闯?,隨著拷貝數(shù)變異密度的增加,XHMM、CANOES、ExomeDepth和ExomeCopy的TPR降低。ExomeDepth在高密度下有明顯的下降,而其他3種算法則是略有下降。 相反,ADTex的TPR隨外顯子組密度的增加而增加,表明其在高外顯子組密度下具有檢測CNV的優(yōu)勢。
圖2 CNV密度對TPR的影響Fig.2 The changes of TPR with respect to the CNV density
為了全面地評估這幾種CNV檢測算法,在對檢測算法進行了統(tǒng)計學(xué)評估之后,將計算性能也作為算法的評價標準之一。以運行時間和計算機資源使用量來表征計算性能,5種算法的結(jié)果如圖3所示。
從圖3(a)可以看出,在相同條件下XHMM所花費時間明顯高于其他4種算法。ADTex和ExomeDepth所花費的時間大致相同,CANOES所花費時間高于前兩者,ExomeCopy所花費時間是最少的。
圖3 不同算法的計算性能對比。(a)5種工具的運行時間;(b)5種工具計算資源消耗的對比Fig.3 Computational performance comparison of the five tools. (a) Running times of the five tools;(b) Computer resources consumption of the five tools
從圖3(b)可以看出,在相同條件下XHMM占用了最高的電腦資源,CPU和內(nèi)存使用率最高,說明其算法優(yōu)化尚待提高。ADTex性能最佳、CPU和內(nèi)存使用率最低,CAONES具有較高的CPU使用率和非常低的內(nèi)存使用率,ExomeCopy的結(jié)果僅次于ADTex,ExomeDepth的CPU和內(nèi)存使用率都很高,研究人員可以根據(jù)自己的計算機配置選擇合適的算法。
對真實數(shù)據(jù)進行拷貝數(shù)變異檢測,以Krumm等的研究結(jié)果[11]作為金標準,分別用5種工具進行檢測,并且比較測得拷貝數(shù)變異重復(fù)和缺失的能力,結(jié)果如圖4所示。從圖4(a)中可以看出,ADTex、ExomeCopy和ExomeDepth的準確率較高,其中ADTex為68.75%,與模擬數(shù)據(jù)的結(jié)果相似。ExomeCopy和ExomeDepth的精度分別為75%和81.25%,不如模擬數(shù)據(jù)的結(jié)果。其中,ExomeDepth的真實數(shù)據(jù)結(jié)果與高密度外顯子組的模擬數(shù)據(jù)相似。CAONES的精度為56.25%,明顯低于模擬數(shù)據(jù);XHMM的準確率最差為25%,結(jié)果也與模擬的數(shù)據(jù)相似。從圖4(b)可以看到,不同算法對缺失型和重復(fù)型的拷貝數(shù)變異檢測的能力不同。CAONES和ExomeCopy對于缺失型和重復(fù)型拷貝數(shù)變異的檢測水平基本相同。 ExomeDepth可以檢測更多重復(fù)型拷貝數(shù)變異,同時對于缺失型拷貝數(shù)變異也有著很高的檢測水平;ADTex具有最佳的缺失型拷貝數(shù)變異檢測水平,幾乎可以檢測到所有缺失型拷貝數(shù)變異,但對于重復(fù)型拷貝數(shù)變異的檢測水平較差;XHMM的性能最差,幾乎沒有檢測到缺失型拷貝數(shù)變異,而且重復(fù)型拷貝數(shù)變異檢測水平也很低。
圖4 真實數(shù)據(jù)的檢測結(jié)果。(a)拷貝數(shù)變異檢測數(shù)量;(b)重復(fù)和缺失拷貝數(shù)變異檢測數(shù)量Fig.4 Detection results of real data. (a) Number of detected CNV. (b) Numbers of duplication and deletion CNV
本研究對于5種算法在各種情況下的檢測性能進行了系統(tǒng)比較,作為發(fā)布時間最早的算法,XHMM在TPR、FDR以及真實數(shù)據(jù)的表現(xiàn)上不是很理想。ADTex在TPR上的表現(xiàn)較差,并且每次只能進行一對參考樣本和測試樣本的對比,這對參考樣本的質(zhì)量提出了要求,但如果研究人員的樣本數(shù)量受限,則可以選擇ADTex算法。
CANOES開發(fā)年代較早,也沒有進行后續(xù)更新,但在拷貝數(shù)密度較高時的檢測效果比較好。ExomeCopy和ExomeDepth至今一直都有開發(fā)者進行更新與維護,因此能很好地適應(yīng)測序技術(shù)的發(fā)展。ExomeCopy在檢測拷貝數(shù)變異時較為保守,在模擬數(shù)據(jù)中往往將拷貝數(shù)變異的長度大為壓縮;ExomeDepth在各種情況下表現(xiàn)都很突出,因此在沒有特殊需求時是研究人員的首選。
綜上所述,筆者根據(jù)不同的應(yīng)用場景選擇合適的CNV檢測工具,形成了推薦指南,如表2所示。
表2 不同場景下CNV檢測算法的推薦指南Tab.2 The recommended tool for different requirements
在本研究中,首先選擇了5種基于HMM的CNV檢測工具:ExomeDepth、ExomeCopy、XHMM、ADTex和CANOES;然后,對所選的5種CNV檢測工具的性能進行了綜合評價和比較;最后,通過對實驗結(jié)果的分析,根據(jù)實際的應(yīng)用需求,分別推薦了合適的檢測工具。對多種CNV檢測進行比較,有助于CNV檢測算法的臨床應(yīng)用,在一定程度上保證了CNV檢測結(jié)果的準確率與可靠性。但在一些方面仍有待改進,比如本研究只選取了5種基于HMM的CNV檢測算法進行比較,真實數(shù)據(jù)樣本量較少,等等。在未來的工作中,可以在這些方面進一步完善,進行更多樣化的比較。