蘭遠(yuǎn)錚 許晶喬 王大利 陳雪莉
(1.復(fù)旦大學(xué)附屬眼耳鼻喉科醫(yī)院眼科 上海 200031; 2.復(fù)旦大學(xué)生命科學(xué)學(xué)院遺傳工程國家重點(diǎn)實(shí)驗(yàn)室 上海 200438; 3.遼寧省大連市兒童醫(yī)院中心實(shí)驗(yàn)室 大連 116012)
人類基因組廣泛存在多種遺傳變異形式。除了DNA的單個核苷酸突變,基因組還存在大片段DNA序列的變異?;蚱蔚目截悢?shù)變異(copy number variants,CNV)是指一種序列長度為1 kb~3 Mb的DNA結(jié)構(gòu)變異,通常包括單一片段的擴(kuò)增、缺失[1]。CNV可以解釋部分不由單核苷酸變異導(dǎo)致的人類遺傳病和疾病易感性。CNV位點(diǎn)的突變頻率比單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)更高,是人類疾病的重要致病因素之一。CNV除了與單基因疾病及罕見疾病相關(guān),也與許多人類復(fù)雜疾病如帕金森病[2]、阿爾茨海默病[3]、腫瘤[4]以及精神分裂癥[5]相關(guān)。
全外顯子組測序(whole-exome sequencing,WES)是一種廣泛應(yīng)用于臨床與科研的二代測序技術(shù),降低測序成本的同時提升了檢測效能,它的出現(xiàn)推動了遺傳病的研究進(jìn)程。許多眼科疾病均與遺傳相關(guān),并表現(xiàn)出復(fù)雜的遺傳學(xué)特性,一部分遵循孟德爾遺傳定律,還有部分是由于多個基因的變異共同造成的。如青光眼就是一種遺傳異質(zhì)性的神經(jīng)退行性疾病,目前有9個基因被人類孟德爾遺傳數(shù)據(jù)庫(OMIM)收錄為青光眼的致病基因[6],但仍有大量的案例無法被已知的致病基因解釋。其可能由WES中未發(fā)現(xiàn)的非編碼變異、CNV等導(dǎo)致,這有待進(jìn)一步深入研究。以原發(fā)性開角型青光眼(primary openangle glaucoma,POAG)為例,雖然在家系研究中發(fā)現(xiàn)大量基因位點(diǎn)與POAG呈現(xiàn)出基因-表型的相關(guān)性,但只有MYOC、OPTN、CYP1B1三個基因的單核苷酸突變和TBK1的CNV被明確證明存在于不同種族家系中[6]。此外,由于青光眼的遺傳基因存在地區(qū)差異性,目前研究所得的基因不能廣泛適用,并不能代表普遍現(xiàn)象[7-11]。因此,POAG的遺傳學(xué)研究仍具有廣闊的前景。針對與POAG類似的遺傳性眼病,應(yīng)考慮到其復(fù)雜的遺傳機(jī)制、特異的基因地域分布性等因素。在WES技術(shù)日趨成熟的基礎(chǔ)上,遺傳眼病的研究應(yīng)將重心從SNP擴(kuò)大到CNV的分析上,以期為更多的患者確定致病基因,擴(kuò)大各類遺傳性眼病的突變譜。
在這項(xiàng)研究中,我們選取了CNV模擬生成的數(shù)據(jù)、公共數(shù)據(jù)庫中的WES和panel的測序數(shù)據(jù)并進(jìn)行分析,在4種適用于WES數(shù)據(jù)的CNV檢測方法和軟件中進(jìn)行比較,旨在評估出合適的數(shù)據(jù)分析工具用于檢測CNV,有助于遺傳性眼病中CNV類型的致病突變分析的開展。
1.1 檢測數(shù)據(jù)
1.1.1 模擬數(shù)據(jù) 我們同樣用CNV模擬生成器VarSimLab[12]生成了模擬數(shù)據(jù),用來評估CNV檢測軟件。VarSimLab是一款高度優(yōu)化的模擬軟件,輸入FASTA格式的參考基因組和BED格式的目標(biāo)測序片段(如WES中的外顯子區(qū)域)后軟件可根據(jù)參數(shù)生成一系列擴(kuò)增或缺失的CNV區(qū)域。生成的文件包括:①一個列表文件,其中包括以txt格式保存的基準(zhǔn)CNV的已知列表;②一個FASTQ文件,保存不含CNV的短序列作為對照組;③一個FASTQ文件,保存含有生成CNV的短序列樣本。模擬數(shù)據(jù)中基準(zhǔn)CNV的已知列表被用作計算精確度、靈敏度、錯誤發(fā)現(xiàn)率(false discovery rate,FDR)的金標(biāo)準(zhǔn)。
1.1.2 遺傳性眼病患者的外顯子組測序數(shù)據(jù) 我們從美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的SRA數(shù)據(jù)庫中下載了2組含有144個眼病基因panel的測序數(shù)據(jù)和1組遺傳性眼病患者-正常配對的WES數(shù)據(jù)用來評估CNV檢測軟件。這些數(shù)據(jù)分別使用Illuminated HiSeq 2000平臺測得。
1.2 檢測WES數(shù)據(jù)的CNV工具 利用新一代測序技術(shù)(next generation sequencing,NGS)檢測CNV的策略主要有4種:①基于讀深(read count);②基于雙端比對(paired-end);③基于序列組裝(assembly);④基于分裂讀段(split-read)[13]。基于讀深的分析策略是NGS最常用的拷貝數(shù)檢測方法,因?yàn)樗膬?yōu)點(diǎn)是適用性廣。不管采用何種測序方法(單端或雙端)都可以用此種方法分析。在本研究中,我們選用了最新發(fā)布且被廣泛應(yīng)用的4種基于讀深分析策略的檢測工具(表1):①CODEX;②CONTRA;③cn.MOPS;④VarScan2。
表 1 CNV檢測工具
1.3 比較方法及指標(biāo) 在本研究中,我們以靈敏度(sensitivity)、FDR、特異度(specificity)作為評價CNV檢測軟件的指標(biāo)。以ratios(CNV值的比值)作為擴(kuò)增及缺失的標(biāo)準(zhǔn):若ratios> 檢測閾值(Threshold=0.5)為擴(kuò)增;若ratios< -Threshold為缺失;若ratios介于(-Threshold與Threshold)之間則認(rèn)為沒有CNV存在。
我們分別對每一種工具計算了靈敏度和FDR。按表2、3規(guī)則分別定義擴(kuò)增和缺失情況下的真陽性(ture positive,TP)、假陽性(false positive,FP)、真陰性(ture negative,TN)和假陰性(false negative,FN),從而可以計算出靈敏度和FDR。
表 2 計算倍增情況下的TP、FP、TN和FN
表 3 計算缺失情況下的TP、FP、TN和FN
2.1 模擬數(shù)據(jù)結(jié)果 實(shí)驗(yàn)通過模擬生成器VarSimLab生成了一組測序深度為1 M的WES數(shù)據(jù),用每個軟件分別檢測CNV。計算每種工具檢測擴(kuò)增和缺失的靈敏度和FDR(表4)??傮w來看,每個工具都有良好的靈敏度(70%~90%)和較低的FDR(30%左右),且都能更好地檢測擴(kuò)增的情況。cn.MOPS(靈敏度88.70%)和VarScan2(靈敏度80.26%)分別在檢測擴(kuò)增和缺失時有良好的表現(xiàn)。cn.MOPS雖然在算法上降低了FDR且在檢測擴(kuò)增時稍優(yōu)于其他軟件,但是在檢測缺失情況時的效果相對較差。
表 4 評估結(jié)果
2.2 WES測序數(shù)據(jù)與panel測序數(shù)據(jù)結(jié)果 為了進(jìn)一步證實(shí)模擬數(shù)據(jù)的評估結(jié)果,實(shí)驗(yàn)采用了2組含有144個眼病基因panel 的測序數(shù)據(jù)(SRR1165160和SRR1165161)和1組遺傳性眼病患者-正常配對的WES數(shù)據(jù)(SRR524806),通過其檢測出的CNV數(shù)目來驗(yàn)證(表5)。WES檢驗(yàn)結(jié)果基本與模擬數(shù)據(jù)的實(shí)驗(yàn)結(jié)果一致,但是在眼遺傳病相關(guān)的panel測序數(shù)據(jù)中并沒有檢測到CNV。
表 5 各軟件檢測出的CNV數(shù)目
2.3 軟件運(yùn)行速度 軟件運(yùn)行的速度也是我們在選擇處理大量WES工具時需要考慮的重要因素。本實(shí)驗(yàn)記錄了每個工具在處理同樣數(shù)據(jù)時所耗費(fèi)的平均時間(圖1)。cn.MOPS的處理速度明顯快于其他軟件,CODEX和VarScan2平均耗時相對較長。
圖1 每個工具的平均耗時 測試條件:基于Intel Xeon CPU E5-2650v2 @2.6GHz 1CPU 1M。
隨著NGS[14]的迅猛發(fā)展,其高通量、高分辨率的優(yōu)勢,能夠提供更精確和全面的基因組信息,基于高通量測序技術(shù)的CNV檢測方法被更為廣泛地應(yīng)用[15-16]。全基因組測序(whole-genome sequencing,WGS)和WES是2種主要的NGS用于CNV檢測的方法。WES是通過序列捕獲將全基因組外顯子區(qū)域(長度<2%基因組)捕獲并富集后進(jìn)行高通量測序的分析方法,具有對常見及罕見變異靈敏度高,測序序列短,測序成本較低的優(yōu)點(diǎn)[17]。外顯子區(qū)域是基因組中高度功能化的區(qū)域,在外顯子區(qū)域的CNV相對于不在外顯子區(qū)域的CNV更有可能成為致病基因。通過WES研究CNV成為了鑒定符合孟德爾遺傳定律疾病致病基因的有效方法,也被用于復(fù)雜疾病易感基因的研究和臨床診斷。
盡管自從NGS被用于CNV檢測以來,開發(fā)出了很多方法和工具,但是很少有軟件可以用于WES數(shù)據(jù)的CNV檢測?,F(xiàn)在已經(jīng)開發(fā)了許多用WGS數(shù)據(jù)檢測CNV的軟件。但是這些軟件要求所測得的數(shù)據(jù)連續(xù)分布;同時,用于WGS數(shù)據(jù)的軟件并沒有考慮WES由于捕獲富集過程產(chǎn)生的偏差,所以這些軟件并不適用于由WES檢測出的數(shù)據(jù)[18]。除此之外,在此次panel數(shù)據(jù)的模擬分析中未檢測到相關(guān)的CNV,其可能是因?yàn)閜anel的測序片段包含的基因比較少,且缺少合適的對照數(shù)據(jù)。目前所有可用于檢測NGS目標(biāo)(targeted)panel數(shù)據(jù)中的計算方法都存在一些不足[19]。而在現(xiàn)階段,與WGS和panel相比,WES以其低測序成本和較全面的功能基因檢測廣度的優(yōu)勢,在臨床與科研中的應(yīng)用范圍更廣,具有更豐富的基因組資源背景。故研發(fā)出適用于WES的數(shù)據(jù)分析工具成為眼遺傳學(xué)發(fā)展的迫切需求。
CODEX[20]通過同樣的測序流程標(biāo)準(zhǔn)化樣本后可實(shí)現(xiàn)多樣本處理,其中標(biāo)準(zhǔn)化流程包括消除由GC含量、外顯子長度、擴(kuò)增效率引起的偏差以及潛在的人為引起的系統(tǒng)性偏差。CODEX還包括了一個基于柏松分布的遞歸分割程序,準(zhǔn)確地模擬了基于計數(shù)的外顯子測序模型。
CONTRA[21]是用于檢測靶向重測序序列的軟件,它可以用于檢測小片段(100~200 bp)內(nèi)的CNV。CONTRA軟件均一化測序讀段和對每個堿基取對數(shù)有利于均一化GC含量和低覆蓋率區(qū)域的對數(shù)比計算??梢院芎玫亟鉀QGC含量過高或過低的覆蓋區(qū)域測序讀段相對減少的問題[22]。CONTRA很好地解決了二代測序本身覆蓋率低和測序偏差問題,且適合讀段不連續(xù)的全外顯子測序數(shù)據(jù)。高FDR意味著很多檢測出的CNV并不是真實(shí)存在的CNV,這會對后續(xù)分析產(chǎn)生很大的影響。
cn.MOPS[23]軟件則通過用多個樣本來判斷最真實(shí)準(zhǔn)確的CNV,可以很好地降低FDR。cn.MOPS合理地應(yīng)用了貝葉斯法則原理,可以有效降低FDR。
VarScan2[24]是專門為了檢驗(yàn)WES數(shù)據(jù)中的CNV開發(fā)的,尤其是癌細(xì)胞中CNV的檢測。VarScan2可以同時分析腫瘤樣本及其相應(yīng)正常樣本的序列數(shù)據(jù),檢測拷貝數(shù)變化。
針對此次測試的4種數(shù)據(jù)分析工具而言,cn.MOPS的平均耗時遠(yuǎn)小于其他三者,是耗時最長的VarScan2的30.49%。因此,針對大樣本的人群基因組數(shù)據(jù),在檢測時選擇cn.MOPS可顯著提高基因分析的效率,有助于不同地區(qū)人群基因組學(xué)的研究及遺傳流行病學(xué)研究;也適用于發(fā)病率相對較高的遺傳性眼病研究,有利于人群中常見的致病性CNV的確定,或可進(jìn)一步推動遺傳性眼病早期基因篩查及干預(yù)研究的開展。并且cn.MOPS對于擴(kuò)增突變具有更好的檢測靈敏度和低FDR,對于CNV類型以擴(kuò)增為主的遺傳性眼病,cn.MOPS是理想的分析工具。而以擴(kuò)增與缺失混雜或缺失為主的遺傳性眼病,應(yīng)選擇cn.MOPS與其他分析工具相結(jié)合的方法,彌補(bǔ)cn.MOPS對缺失突變檢測能力較弱的缺陷。
用于檢測CNV的每個軟件都有自己的優(yōu)點(diǎn)和缺點(diǎn),研究者可以根據(jù)需要選擇合適的CNV檢測軟件。同時,軟件開發(fā)人員可以參考每個軟件的算法特點(diǎn)聯(lián)合使用,也可以根據(jù)疾病相關(guān)基因的特點(diǎn)進(jìn)一步開發(fā)相應(yīng)的軟件。
志謝:感謝上海昂樸生物科技有限公司對本研究提供方法學(xué)建議。