李成
混合測序技術(shù)在高通量測序中的應(yīng)用
李成
介紹了高通量測序在面向大樣本時所面臨的問題,分析了高通量測序技術(shù)的原理和特點及其在解決大樣本測序時的技術(shù)優(yōu)勢,并總結(jié)了檢測矩陣的構(gòu)建方法,指出了混合測序能夠應(yīng)用于部分高通量測序?qū)嶒灢⒖纱蠓?jié)約測序成本,展望了混合測序技術(shù)在高通量測序中的應(yīng)用前景。
樣本混合;高通量測序;群試;分離矩陣
隨著高通量測序技術(shù)的不斷發(fā)展和測序成本的不斷降低,利用高通量測序技術(shù)進行醫(yī)學診斷具有較好的前景。同時,眾多醫(yī)學研究表明,許多疾病與某些稀有變異基因密切相關(guān),針對某些已知稀有變異基因的檢測能夠預判或診斷出與之密切相關(guān)的疾病。在新一代測序技術(shù)應(yīng)用于這些稀有變異基因檢測的過程中,有2個方面是應(yīng)用中亟待解決的問題:
(1)新一代測序技術(shù)帶給人們大量遺傳信息的同時,卻成為限制其廣泛應(yīng)用的一個障礙。新一代測序儀的一個測序流程能夠產(chǎn)生巨量的片段信息,如ABI公司的新一代測序平臺SOLID單次運行,便可分析6 GB的堿基序列;Illumina Genome Analyzer測序系統(tǒng)僅在2 h的運行時間里就可得到10 TB的信息[1],這些巨量信息僅僅用來提高某些固定堿基位點的測序覆蓋度,無疑是極為浪費的。(2)在針對此類稀有變異疾病進行大量人群篩查時,一個測序通道只針對一個個體樣本,而如今二代測序儀最多只有8個通道,因此一次測序流程只能測8個個體樣本,在針對大量人群稀有變異篩查的醫(yī)學檢驗中。簡單地利用測序儀逐個樣本篩查,成本是不可想像的。
將樣本混合后進行檢測能夠均衡兩方面,并可充分利用新一代測序儀的測序性能,從而大大降低測序成本。但僅僅簡單的混合無法分辨檢測到的變異片段來自于哪個樣本,如何將所得到的測序結(jié)果溯源,即找到測序結(jié)果片段的源樣本,是這種方法應(yīng)用的前提。
目前已有2類方法可進行混合:第一類方法是每個樣本序列被打斷后,成為適合測序的小片段,首先為這些小片段加上條形碼,即為屬于每個樣本的序列片段加上了一個“身份標志”,然后再進行混合測序。測序找到含稀有變異的片段時,通過條形碼這個身份標志,能夠分辨出屬于哪一個樣本[2]。但這種方法的實現(xiàn)需要在測序準備時、樣本打斷后進行,而且為每個樣本的一批片段標志條形碼,增加了一個工作步驟,并且需要逐樣本添加,保證每個樣本的條形碼唯一,所以大大增加了工作量。第二類方法就是本文要重點討論的混合測序(Overlapping pooling)技術(shù)。其原理是將樣本按照一定規(guī)律進行編碼混合,之后進行測序,根據(jù)混合測序的檢測結(jié)果和編碼規(guī)律再進行反向解碼,從而找到含變異的樣本。
以一個檢測實例說明樣本混合方法的原理。設(shè)待測樣本有20個,圖1表示了一種簡單的網(wǎng)格分組方法,但這種方法的成功應(yīng)用基于一個前提,即所有樣本僅有一個陽性樣本(如圖1(a)所示),若含2個以上的陽性樣本,則無法成功解碼(如圖1(b)所示)。
將20個樣本分別編號為1~20,分為A、B、C、D、E、Ⅰ、Ⅱ、Ⅲ、Ⅳ共9組,分組結(jié)果如圖2所示。
圖1 樣本混合方案設(shè)計檢測陽性樣本
圖2 樣本混合方案分組示意圖
根據(jù)圖2對9個組中的混合樣本分別進行檢測,一共檢測9次,就可以判斷出陽性樣本是哪一個。如圖1(a)所示,假設(shè)9次檢測結(jié)果中,B組和Ⅱ組檢測結(jié)果為陽性,說明這2組含有陽性樣本,再由前提條件只有1個陽性樣本,則根據(jù)圖2的分組規(guī)則,只有6號樣本為2組共同所有,所以6號樣本為陽性。這樣通過樣本混合分組,僅用9次檢測就找到了20個樣本的某個陽性樣本,從而避免了20個樣本的逐個檢測。
這種檢測算法可以用一個元素為0或1的檢測矩陣M來具體表示。設(shè)欲檢測樣本總數(shù)量為N,群試設(shè)計方案中共要進行T次檢測,則有一個T×N的(0,1)矩陣M,各列代表各個樣本,各行代表各組的檢測池(即一次檢測),Mij表示第i行和第j列相交的矩陣元素,Mij=1表明在所設(shè)計的實驗中要將第j號樣本混入到第i個檢測池中,即參與第i個檢測池的檢測實驗;Mij=0則表明第j號樣本不用加入到第i個檢測池中。例如,上節(jié)中樣本混合的分組方式可用檢測矩陣表示,如圖3所示。
圖3 樣本混合方案對應(yīng)檢測矩陣
檢測矩陣的每一列對應(yīng)一個樣本,每一行代表一個檢測池(即一次檢測),若某一列對應(yīng)的樣本為陽性樣本,則我們稱此列為陽性列;同樣,矩陣中代表檢測結(jié)果為陽性的檢測池的行稱為陽性行。觀察上例矩陣,任意一個列向量都與其他列不同,而這正是單陽性樣本能夠正確解碼的條件。但這種簡單的分組方式不能夠解決多個陽性樣本的檢測問題,如圖1(b)所示,如果6號和20號樣本均為陽性,則會使B、E、Ⅱ、Ⅳ4組檢測為陽性,而4組陽性的原因存在 {8,18}、{6,20}、{6,8,18}、{6,8,20}、{6,18,20}、{8,18,20}、{6,8,18,20}多種陽性樣本組合的可能性,故這種分組方式不能滿足檢測多個陽性樣本的要求。
研究人員經(jīng)過對群試理論的深入研究,發(fā)展了能夠檢測多個陽性樣本的Overlapping pooling方法。因為陽性樣本能夠通過檢測矩陣正確判斷的條件是結(jié)果列向量U(D)與其他任意d列的布爾和均不同,有了這種唯一性才能夠判斷出是哪d列對應(yīng)樣本陽性使結(jié)果列向量出現(xiàn)此結(jié)果。所以在檢測矩陣M設(shè)計過程中,要想檢測出d個陽性樣本,必須保證對于M中任意的2個不同的d列D1,D2,總有U(D1)≠U(D2),滿足這種性質(zhì)的(0,1)矩陣稱之為d-可分(dseparable)矩陣。但可分矩陣的解碼復雜度過高,因而Kautz和Singleton[3]提出了d-分離矩陣的定義:對于一個(0,1)矩陣M,若其中任意一列均不能夠被其他任意d列的布爾和所覆蓋(在(0,1)矩陣中,若一列A中所有的1元素在另一列B同樣位置上都有1元素,則稱A被B覆蓋),M稱為d-分離(ddisjunct)矩陣。d-分離矩陣可用來檢測最多d個陽性樣本。其解碼過程較簡單,只需將矩陣中每一列C與檢測結(jié)果向量進行比較,若C被結(jié)果向量覆蓋,則C所代表的樣本為陽性,反之為陰性。在大樣本中稀少突變的檢測過程中,各種實驗誤差導致的檢測錯誤往往是不可避免的,因而所設(shè)計的檢測矩陣還應(yīng)當具備一定的容錯性。D′Yachkov等[4]提出了容錯矩陣的概念,給出了(d;z)-可分矩陣的定義和其糾錯能力。但正如d-可分矩陣、(d;z)-可分矩陣解碼方式的時間復雜度過高,于是Macula提出de-分離矩陣的概念[5]:一個d-分離矩陣M稱為de-分離,若對于M中任意的d+1列中存在一列,有e+1行均為1,而其他d列的這些行均為0。1996年,Macula定義de-分離矩陣時認為其能夠糾正e個錯誤,但2003年Hwang[6]提出de-分離矩陣無法糾正e個錯誤,隨后D′Yachkov等[7]給出了證明,并重新定義了dz-分離矩陣M:對于M中任意的d+1列中存在一列,有z行均為1且不能被其他d列覆蓋。Yachkov認為dz-分離矩陣至少能夠查出z-1個錯誤和糾正(z-1)/2個錯誤。
在利用Overlapping pooling技術(shù)進行大樣本檢測實驗時,要通過構(gòu)建檢測矩陣實現(xiàn)混合方案和解碼的確定。因此,如何進行d-分離矩陣和dz-分離矩陣的構(gòu)建是此技術(shù)應(yīng)用的關(guān)鍵,其中,關(guān)于分離矩陣構(gòu)建主要有以下3種方法,現(xiàn)分別介紹如下。
2.1 區(qū)組設(shè)計
Kautz和Singleton[3]在20世紀60年代基于區(qū)組設(shè)計的研究給出了一種d-分離矩陣的構(gòu)造方法,但這種方法的發(fā)展受到信息論中參數(shù)最優(yōu)化理論的限制,一直難以找到最優(yōu)的區(qū)組。
2.2 橫向設(shè)計
最簡單的橫向設(shè)計就是上文提到的網(wǎng)格設(shè)計。針對網(wǎng)格設(shè)計只能檢測單陽性樣本的缺陷,Nicolas等[8]提出了橫向轉(zhuǎn)移設(shè)計(shifted transversal design,STD)方法,將所測樣本分為若干組分別混合檢測,并且每一組的混合方案均不同,每個樣本在每一組的被混合次數(shù)一致,并且能夠成功解碼。這種方法具有靈活的設(shè)計能力,能根據(jù)檢測樣本數(shù)、含有的陽性樣本個數(shù)、可能的錯誤發(fā)生率進行高效的混合方案設(shè)計,是目前所知的最優(yōu)的設(shè)計方法。這種方法應(yīng)用在藥物檢測領(lǐng)域取得了不錯的效果[9]。
2.3 直接構(gòu)造
Macula[10]給出了一個利用有限集的子集之間的包含關(guān)系設(shè)計檢測矩陣的方法:設(shè)M(n,k,d)是的(0,1)矩陣(d≤k 隨著近年來高通量測序技術(shù)的飛速發(fā)展,查找大量樣本中含稀有變異的樣本已成為一種重要應(yīng)用。為充分利用測序儀的單通道測序能力,有必要將樣本混合后進行測序,若利用Overlapping pooling技術(shù)將樣本有序混合,則可不必添加標志用的條形碼。實際應(yīng)用中,簡單的網(wǎng)格設(shè)計混合或二進制混合不能發(fā)現(xiàn)2個以上含變異的陽性樣本,如Snehit Prabhu等[11]介紹的基于Illumina′s Genome Analyzer-2測序平臺的混合方法中,一個混合檢測池不能含有2個以上的陽性樣本。為檢測出混合池中含2個以上的陽性樣本,Erlich等[12]設(shè)計了一種DNA Sudoku混合方法,混合之后添加條形碼,再進行測序。該設(shè)計能夠針對陽性樣本數(shù)和可能的檢測錯誤靈活設(shè)計混合方案,但各組間的混合池數(shù)目要求互質(zhì)。Xin等[13]基于橫向設(shè)計方法進行了酵母雙雜交相互作用組定位的實驗驗證,與逐個樣本的檢測相比,該方法大大節(jié)約了成本,提高了檢測效率,同時仍表現(xiàn)出相當?shù)撵`敏性。 Overlapping pooling技術(shù)源于群試理論,在高通量測序平臺上,這種實驗設(shè)計方法體現(xiàn)了相當?shù)膽?yīng)用價值。受限于群試理論的發(fā)展,這種混合方法在定量檢測上仍缺乏應(yīng)用,如一些常見的血液檢測中,每個血液樣本均和試劑反應(yīng)后測得一定的值,通過測量值是否在標準范圍內(nèi)來判斷是否為陽性樣本。這種情況下不能基于“含有”或“不含有”進行判斷,要結(jié)合測量值才能判斷。若能夠?qū)崿F(xiàn)定量檢測的混合實驗設(shè)計和解碼方法,則在眾多醫(yī)學常規(guī)檢測中均可應(yīng)用。如Amin Emad等[14]提出了半定量的群試方法,為這種方向的應(yīng)用提供了一定的參考價值。 [1] Shendure J,Ji H.Next-generation DNA sequencing[J].Nature Biotechnology,2008,26(10):1 135-1 145. [2] Patterson N,Gabriel S.Combinatorics and next-generation sequenc- (????)(????)ing[J].Nature Biotechnology,2009,27(9):827. [3] Kautz W H,Singleton R C.Nonrandom binary superimposed codes[J]. IEEE Trans Inform Thy,1964,10:363-377. [4] D′Yachkov A G,Rykov V V,Rachad A M.Superimposed distance codes[J].Problems Control Inform Thy,1983:12:1-13. [5] Macula A J.Error-correcting nonadaptive group testing with dPeP-disjunct matrices[J].Discrete Applied Mathematics,1997,80:217-222. [6] Hwang F K.On Macula′s error-correcting pool designs[J].Discrete Mathematics,2003,268:311-314. [7] D′Yachkov A,F(xiàn)rank H.A construction of pooling designs with some happy surprises[J].Journal of Computational Biology,2005,12:1129-1 136. [8] Thierry N.A new pooling strategy for high-throughput screening:the shifted transversal design[J].BMC Bioinformatics,2006,7:28. [9] Raghunandan M K,Peter J W.PoolHITS:a shifted transversal design based pooling strategy for high-throughput drug screening[J].BMC Bioinformatics,2008,9:256. [10]Macula,Anthony J.A simple construction of d-disjunct matrices with certain constant weights[J].Discrete Mathematics,1996,162:311-312. [11]Prabhu S,Pe′er I.Overlapping pools for high-throughput targeted resequencing[J].Genome Research,2009,19:1 254-1 261. [12]Erlich Y,Chang Y.DNA sudoku—harnessing high-throughput sequencing for multiplexed specimen analysis[J].Genome Research,2009,19:1 243-1 253. [13]Xin X F,Rual J F.Shifted transversal design smart-pooling for high coverage interactome mapping[J].Genome Research,2009,19:1262-1 269. [14]Emad A,Milenkovic O.IEEE International Symposium on Information Theory,Cambridge,JUL 01-06,2012[C].Urbana USA:IEEE,2012. (收稿:2013-05-07 修回:2013-11-25) (欄目責任編校:陳建新) Application of pooled sequencing technology to high-throughout sequencing LI Cheng The problems of high-throughout sequencing technology are introduced when used for large samples,whose principle,characteristics and advantages are also analyzed.The construction of the test matrix is summarized.It's pointed out that the introduction of pooled sequencing into some high-throughout sequencing experiments may result in decreased cost.The prospect of pooled sequencing technology is explored in the high-throughout sequencing.[Chinese Medical Equipment Journal,2014,35(9):116-118,121] composite sample;high-throughout sequencing;group testing;disjunct matrix R318;O151.21 A 1003-8868(2014)09-0116-04 10.7687/J.ISSN1003-8868.2014.09.116 李 成(1979—),男,工程師,主要從事生物醫(yī)學工程、生物醫(yī)學信息學方面的研究工作,E-mail:licheng18@163.com。 210002南京,南京軍區(qū)聯(lián)勤部藥品儀器檢驗所(李 成)3 Overlapping pooling技術(shù)在高通量測序中的應(yīng)用
4 Overlapping pooling技術(shù)的發(fā)展和面臨的問題
(Institute of Drug and Instrument Control,Joint Logistics Department of Nanjing Military Area Command,Nanjing 210002,China)