楊漫漫,陳 濤,沈俊然,王 然,李 勇
(深圳市華大農業(yè)應用研究院∕深圳市動物基因組輔助育種工程實驗室,廣東 深圳 518083)
低覆蓋度重測序近年來在群體遺傳學分析[1,2]、基因組選擇[3,4]等方面的應用越來越廣泛。文庫質量對數據質量和分析效果有很大影響[5],覆蓋度低時尤為明顯,而片段化是文庫制備的第一個關鍵步驟。目前,片段化技術主要為物理打斷法和酶切打斷法,超聲是物理打斷法中最為常用的方法,而酶切打斷法主要分常規(guī)片段化酶和TN5轉座酶[6]。此外,為了解決文庫制備中由于PCR擴增導致的bias和copy errors等[7,8],無需PCR的PCR-free建庫方式也被廣泛應用[9,10]。長期以來,測序文庫的構建主要依賴人工操作,但文庫構建受到3方面的挑戰(zhàn):流程復雜度、過程污染和單個建庫成本。升級建庫技術,簡化操作流程,減少人與試劑和樣本的交互,在降低污染風險的同時,也減少了人工、樣本、試劑的投入以及縮短操作時間,進而使得每個樣本的投入成本也大大降低,這是測序流程自動化發(fā)展的基本趨勢[11]。本研究探索了不同建庫方式在低覆蓋度重測序中的數據表現,并對這些數據提供一個粗略的評估,為自動化建庫及測序流程優(yōu)化提供部分數據參考。
1.1.1 供試樣本供試材料為大白豬耳組織,來源于溫氏清遠原種場。
1.1.2 儀器與試劑S1000型Bio-rad PCR儀,美國Bio-rad公司;Qubit3.0型熒光定量儀、Qubit 1X dsDNA HS kit(Q33230),美國Thermo Fisher公司;MSP-960型高通量自動化樣本制備系統(tǒng)、MGIseq2000型基因組的測序儀、MGIEasy通用DNA文庫制備試劑套裝(1000006986)、MGIcare染色體異常檢測試劑盒(1000005279)、酶切PCRfree DNA文庫制備試劑盒(1000013455)、MGIseq2000RS高通量快速測序試劑套裝(1000013155),深圳華大智造科技股份有限公司;DNA磁珠法提取試劑盒(GO-BTCD-100),長春市志昂生物科技有限公司。
TN5原料酶由深圳華大生命科學研究院提供。
耳組織樣本使用組織DNA磁珠法提取試劑盒進行DNA提取,瓊脂糖凝膠電泳和Qubit dsDNA HS檢測試劑盒進行質量控制。
超聲打斷是文庫構建的經典方法,采用MGIEasy通用DNA文庫制備試劑套裝,初始樣本投入量約500 ng。MGIcare染色體異常檢測試劑盒操作步驟簡單,對DNA總量要求低(50 ng),能夠適用自動化設備。酶切PCRfree DNA文庫制備試劑盒DNA投入無需均一化,全流程無PCR錯誤累積,適合全程自動化。轉座酶建庫用于NGS測序近年來應用廣泛,根據Picelli等[12]、Zan等[13]的方法進行接頭序列改造后適應DNBseq平臺,初始樣本投入量在100 ng。詳細的文庫構建流程見圖1。
圖1 不同方式文庫構建流程
構建好的文庫在MGIseq2000測序儀上采用PE 100進行0.5-10x深度測序。
原始數據下機后,過濾掉堿基質量值低于20且比例超過30%的read。從4種建庫方式的數據中隨機選取6個樣品,使用軟件seqtk分別抽取15、30 Mb reads用于后續(xù)分析比較。
將過濾的clean Data比對到豬參考基因組序列(sus scrofa 11.1),參考基因組信息經處理,去除未定位序列和線粒體序列,有效基因組大小為2.45 Gb。Picard用于標記PCR重復序列后統(tǒng)計比對信息。GATK默認參數用于變異檢測,過濾掉假陽性位點后統(tǒng)計二等位SNP位點信息。
使用26個無關群體的大白豬重測序數據(深度12×-15×)的SNP集作為參考panel,使用beagle軟件分別對15、30 Mb數據的SNP集填充到全基因組水平,而后將填充的SNP位點和對應10×樣本的SNP信息進行比較,過濾掉原始個體SNP的缺失位點,計算相同個體間皮爾遜相關系數。
為了比較不同建庫方法獲得數據的一致性,選用經超聲打斷和不同酶切打斷(MGIcare、PCRfree和TN5酶法)獲得測序文庫,在MGIseq 2000平臺上采用PE 100進行高通量測序(表1),分別獲得200.00、307.69、125.00 Gb和1.05 Tb數據,數據產量及變異范圍符合預期。從表1的Q20和Q30數據可以看出,4種建庫方法獲得的數據質量較高,沒有明顯差異,其中Q20>97%,Q30>89%,GC含量為41.34%~44.17%,GC含量TN5組較高,可能與轉座酶的偏好性有關[14]。
表1 不同建庫方法的測序質量信息
對不同建庫方法獲得的測序數據進行比對(表2),發(fā)現比對率和惟一比對率分別能達97%和94%以上,其中PCRfree建庫組的惟一比對率最高,達96.56%;其他指標,如錯配率、重復率等都在正常范圍,相比而言,PCRfree建庫組在所有組中的重復率最高。此外,覆蓋度隨著測序深度的升高而上升,0.5×覆蓋度約30%,1×覆蓋度為44%~68%,2×以上覆蓋度超過80%。
表2 不同建庫方法的測序指標分析
將不同建庫方法分為2組,一組為手工組(超聲法、TN5),一組為自動化組(MGIcare、PCRfree),并對這2組測序數據進行比較分析。從個體數據各項指標的分布上看(圖2),自動化建庫數據更集中,波動性小于手工建庫數據。
圖2 手工建庫和自動化建庫指標分布
為了在同一水平上比較不同建庫方式下數據的各項指標,每種建庫方式選擇6個個體,分別隨機抽取15、30 Mb reads(對應測序深度約為0.5×和1×)進行分析(圖3)。數據均一化后,除覆蓋率和重復率指標外,其他指標在不同建庫方法下一致性均較好。覆蓋度的波動與建庫插入片段的長度以及測序隨機性帶來的個體間差異有關。從圖3可以看出,插入片段越短覆蓋度越低,如MGIcare在所有建庫方法中插入片段最短,為100~200 bp。均一化后,不同組重復率雖然有波動,但所有組都在正常范圍內。
圖3 15、30 Mb數據下各項指標分布
利用GATK軟件進行變異檢測,在0.5×的數據下,不同建庫方法獲得SNP數量為2 922 270~4 181 825,其中MGIcare獲得的SNP數量最高,PCRfree最低(圖4a)。在1×的抽成數據下,獲得的SNPs數量為6 532 715~7 375 447,不同組SNP數量分布的趨勢與0.5×類似。對檢出的SNPs進行填充準確性檢驗,發(fā)現利用高深度基因組測序個體進行基因型填充的準確性達74%以上,且0.5×與1×數據填充的準確性相當(圖4b)。
圖4 4種建庫方式變異檢測與填充準確性
高質量文庫的高效制備在NGS研究中發(fā)揮著重要作用,DNA樣本片段化是文庫制備的第一個關鍵步驟,包括不同的片段化方法和不同的制備流程。本試驗在同一個測序平臺上測試了利用不同片段化方法和文庫構建方式獲得了低覆蓋度重測序數據。數據分析結果表明,4種不同片段化方法獲得的測序數據在質量和指標上比較一致。盡管研究結果中PCRfree的重復較高,但仍然處于DNBseq平臺的正常范圍[15]。研究表明,重復不僅與PCR有關,還受到基因組復雜度、堿基組成、連接效率、滾環(huán)復制以及光學分辨率等方面影響[6]。MGIcare方法由于其片段化酶的特性導致插入片段的長度偏低(mean length=160 bp),同等數據量條件下覆蓋度相對較低,但在變異檢測方面更具優(yōu)勢。TN5轉座酶的文庫制備方法簡單、高效,更具有性價比[16]。在測試數據中,TN5酶組操作流程最簡單,耗時最少,得到與其他組相似的質量和指標分布數據。此外,還比較了不同建庫方式的差異,發(fā)現手工建庫和自動化建庫相比,自動化數據顯示出更好的一致性。這與流程中減少了人為操作引起的數據變異有關,對未來大規(guī)模推廣自動化建庫有很好的參考作用。對低深度數據進行填充,與高深度數據相比,低深度填充準確性超過74%。盡管遠低于預試驗的大規(guī)模低深度的數據(99.1%),這可能與高深度參考群與低深度測序群體的親緣關系、群體規(guī)模、LD等有關[17,18]。研究比較了不同的片段化方法和建庫方式獲得的測序數據,為后期規(guī)?;玫统杀镜牡蜕疃葴y序技術提供了數據參考。