国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

單細(xì)胞測(cè)序方法研究進(jìn)展

2022-06-13 11:10:50操利超張核子
生物信息學(xué) 2022年2期
關(guān)鍵詞:單細(xì)胞高通量甲基化

操利超,巴 穎,張核子*

(1. 西北大學(xué) 生命科學(xué)學(xué)院,西安 710127;2. 深圳市核子基因科技有限公司,廣東 深圳 518071)

1 單細(xì)胞測(cè)序原理

單細(xì)胞測(cè)序從單個(gè)細(xì)胞水平上對(duì)DNA或RNA進(jìn)行擴(kuò)增和測(cè)序,主要包括單細(xì)胞分選、核酸提取和文庫(kù)構(gòu)建、高通量測(cè)序和數(shù)據(jù)分析等。

單細(xì)胞分選是單細(xì)胞測(cè)序的第一步,如何低成本的獲取大批量高質(zhì)量完整的單細(xì)胞對(duì)于單細(xì)胞測(cè)序非常重要。Gross等[1]詳細(xì)介紹了5種單細(xì)胞分選方法,即有限稀釋法(Limiting Dilution)、顯微操作法(Micromanipulator)、熒光激活細(xì)胞分選(Fluorescence activated cell sorting,F(xiàn)ACS)、激光顯微切割(Laser capture microdissection,LCM)和微流控分選(Microfluidics),這5種單細(xì)胞分選方法各有利弊,其中,微流控分選方法由于通量高、成本低等原因而廣泛應(yīng)用于各種商業(yè)化單細(xì)胞測(cè)序平臺(tái),例如 10X Genomics公司的Chromium系統(tǒng)就是利用微流控技術(shù)進(jìn)行單細(xì)胞分選,通過(guò)控制流體流動(dòng)來(lái)實(shí)現(xiàn)在微尺度上對(duì)目的細(xì)胞進(jìn)行分離。

分離得到單細(xì)胞后經(jīng)過(guò)細(xì)胞溶解獲取DNA或RNA。在傳統(tǒng)的高通量測(cè)序流程中,提取的DNA或RNA需要進(jìn)一步純化后才能應(yīng)用于擴(kuò)增,而在單細(xì)胞測(cè)序中,為了避免DNA或RNA在純化中丟失,目前大部分流程中去掉這一步驟。后述的文庫(kù)構(gòu)建前處理和文庫(kù)構(gòu)建流程在不同的測(cè)序平臺(tái)和方法有所不同,但基本上都是基于單分子標(biāo)簽(Unique Molecular Identifier,UMI)和細(xì)胞標(biāo)簽(Cell label, CL)的技術(shù),最終形成具有特異標(biāo)簽標(biāo)記的單細(xì)胞文庫(kù),文庫(kù)構(gòu)建完成后即進(jìn)行高通量測(cè)序和數(shù)據(jù)分析。在進(jìn)行數(shù)據(jù)分析時(shí),單分子標(biāo)簽為每個(gè)細(xì)胞甚至每個(gè)基因或轉(zhuǎn)錄本提供特異的識(shí)別碼,使得精確分析每個(gè)細(xì)胞的功能和特性成為可能。

2 單細(xì)胞測(cè)序分類

單細(xì)胞測(cè)序主要包括單細(xì)胞基因組測(cè)序(Single cell DNA sequencing, scDNA-seq)、單細(xì)胞轉(zhuǎn)錄組測(cè)序(Single cell RNA sequencing, scRNA-seq)和單細(xì)胞表觀組測(cè)序(Single cell epigenome sequencing),這三種測(cè)序類型可以從不同角度揭示細(xì)胞各個(gè)階段的功能和特性。

2.1 單細(xì)胞基因組測(cè)序

單細(xì)胞基因組測(cè)序可用來(lái)分析單細(xì)胞水平的點(diǎn)突變和拷貝數(shù)變異,用于揭示細(xì)胞群體差異、細(xì)胞進(jìn)化關(guān)系等,可最真實(shí)的獲得單克隆癌細(xì)胞的具體突變來(lái)源及精準(zhǔn)的突變頻率,以及區(qū)分癌癥發(fā)生、發(fā)展、演化過(guò)程中的主動(dòng)與被動(dòng)突變等。其主要難點(diǎn)是獲得高覆蓋度高保真性的全基因組擴(kuò)增產(chǎn)物,因此,在單細(xì)胞全基因組技術(shù)發(fā)展過(guò)程中,全基因組擴(kuò)增技術(shù)(Whole-genome amplification,WGA)也經(jīng)歷了幾次重大的變革。WGA主要有三種方式,包括簡(jiǎn)并寡核苷酸引物PCR (Degenerate Oligonucleotide-Primed Polymerase Chain Reaction,DOP-PCR)、多位點(diǎn)置換擴(kuò)增(Multiple Displacement Amplification,MDA)、 MDA與PCR相結(jié)合的方法(Multiple Annealing and Looping-Based Amplification Cycles,MALBAC)等三種。DOP-PCR方法的原理是在引物的3’端含有6bp的隨機(jī)序列,可以與基因組DNA隨機(jī)結(jié)合,從而實(shí)現(xiàn)對(duì)全基因組高質(zhì)量的擴(kuò)增[2];MDA方法引入了phi29 DNA聚合酶,使其與隨機(jī)的六聚體發(fā)生反應(yīng),phi29 DNA聚合酶具有很強(qiáng)的鏈置換特性,在等溫條件下,能夠擴(kuò)增出的50-100 kb的DNA片段[3]。相對(duì)于DOP-PCR,MDA的覆蓋度和均勻性有了明顯提升,但是這種方法并不是無(wú)偏倚性、無(wú)誤差的。鑒于MDA方法擴(kuò)增得到的基因組覆蓋度不均勻,Zong等[4]開(kāi)發(fā)了一種新的基因組DNA擴(kuò)增方法,即MALBAC。該方法將MDA與常規(guī)的PCR結(jié)合起來(lái),利用部分堿基簡(jiǎn)并化的雜交引物與模板退火結(jié)合,在鏈置換酶的作用下進(jìn)行擴(kuò)增,擴(kuò)增中間產(chǎn)物的3’端帶有特異性引物標(biāo)記,經(jīng)過(guò)一輪擴(kuò)增后,互補(bǔ)的標(biāo)記位于5’端,兩端的標(biāo)記互補(bǔ)成環(huán),成環(huán)后的擴(kuò)增子通過(guò)常規(guī)PCR進(jìn)行擴(kuò)增。

2.2 單細(xì)胞轉(zhuǎn)錄組測(cè)序

單細(xì)胞轉(zhuǎn)錄組測(cè)序可對(duì)單細(xì)胞中mRNA進(jìn)行基因表達(dá)定量、功能富集、代謝通路等分析,可以解決傳統(tǒng)轉(zhuǎn)錄組測(cè)序技術(shù)在早期胚胎發(fā)育、干細(xì)胞、癌癥、免疫等研究領(lǐng)域中存在的樣品量極低或細(xì)胞異質(zhì)性的問(wèn)題,是在單細(xì)胞水平研究基因表達(dá)強(qiáng)有力的工具。單細(xì)胞轉(zhuǎn)錄組測(cè)序需要對(duì)獲取的RNA進(jìn)行逆轉(zhuǎn)錄,收集cRNA產(chǎn)物并擴(kuò)增測(cè)序。各種成熟的單細(xì)胞轉(zhuǎn)錄組測(cè)序方法的標(biāo)準(zhǔn)操作規(guī)程(Standard Operating Procedure, SOP)在2013年前后均有文章發(fā)表(見(jiàn)表1)。單細(xì)胞轉(zhuǎn)錄組測(cè)序方法很多,在實(shí)際的項(xiàng)目中,需要根據(jù)實(shí)際情況綜合評(píng)估,選擇合適的測(cè)序方法。Christoph等[5]利用6種不同的單細(xì)胞轉(zhuǎn)錄組測(cè)序方法對(duì)583個(gè)小鼠胚胎干細(xì)胞進(jìn)行分析。相對(duì)于Smart-seq和Smart-seq2,其他檢測(cè)方法CEL-seq2、Drop-seq、MARS-seq和SCRB-seq采用了單分子標(biāo)簽技術(shù),這可以提高測(cè)序的準(zhǔn)確性,而Smart-seq和Smart-seq2在建庫(kù)時(shí)能獲取全長(zhǎng)轉(zhuǎn)錄本,這有利于檢測(cè)到更多的基因,經(jīng)過(guò)標(biāo)準(zhǔn)化的分析流程處理后,文章對(duì)這6種測(cè)序方法進(jìn)行了全面的對(duì)比,包括測(cè)序質(zhì)量、測(cè)序深度、檢測(cè)到的基因數(shù)、有效的細(xì)胞數(shù)、準(zhǔn)確性和靈敏度等。通過(guò)綜合考慮分析,給出的結(jié)論是當(dāng)對(duì)大量細(xì)胞進(jìn)行轉(zhuǎn)錄組定量分析時(shí),采用Drop-seq方法性價(jià)比最高,而對(duì)于少量細(xì)胞,MARS-seq和SCRB-seq和Smart-seq2方法更有效。

表1 不同單細(xì)胞測(cè)序方法學(xué)統(tǒng)計(jì)表Table 1 Different single cell sequencing methodologies

2.3 單細(xì)胞表觀組測(cè)序

單細(xì)胞表觀組測(cè)序可從單細(xì)胞水平獲得全基因組范圍內(nèi)的甲基化水平數(shù)據(jù),對(duì)于表觀遺傳學(xué)的時(shí)空特異性研究具有重要意義。單細(xì)胞表觀基因組測(cè)序主要是結(jié)合單細(xì)胞基因組測(cè)序和傳統(tǒng)的表觀組高通量測(cè)序方法(如BS-seq和ChIP-seq等)。如Guo等[13]利用單細(xì)胞全基因組簡(jiǎn)化胞甲基化測(cè)序(Single cell reduced representation bisulfite sequencing, scRRBS)的方法對(duì)小鼠胚胎干細(xì)胞進(jìn)行測(cè)序,可在單個(gè)細(xì)胞中檢測(cè)到高達(dá)150萬(wàn)個(gè)CpG位點(diǎn)的甲基化狀態(tài),同時(shí),該技術(shù)可以檢測(cè)單倍體精子細(xì)胞中單個(gè)CpG位點(diǎn)的甲基化狀態(tài),可探索單個(gè)細(xì)胞DNA甲基化的動(dòng)態(tài)變化。RRBS方法只能檢測(cè)到全基因組上5%左右的CpG位點(diǎn)的甲基化信息,且這些位點(diǎn)主要集中在CpG相對(duì)密集的區(qū)域,比如CpG島、啟動(dòng)子等,但是在胚胎早期發(fā)育過(guò)程中,全基因組范圍內(nèi)的甲基化狀態(tài)是變化的,為了檢測(cè)到更全面的甲基化信息,Zhu等[14]利用重亞硫酸鹽處理后接頭標(biāo)記技術(shù)(Post-bisulfite adaptor tagging,PBAT)對(duì)人植入前胚胎發(fā)育的各個(gè)階段進(jìn)行了深度測(cè)序,平均每個(gè)細(xì)胞能捕獲全基因組上的20%的CpG位點(diǎn),分析發(fā)現(xiàn)數(shù)以萬(wàn)計(jì)的基因組位點(diǎn)表現(xiàn)出從頭開(kāi)始的DNA甲基化(De novo DNA methylation)。這一發(fā)現(xiàn)表明,全基因DNA甲基化重編程過(guò)程在植入前胚胎發(fā)育過(guò)程中甲基化和去甲基化是處于動(dòng)態(tài)平衡的。同時(shí),通過(guò)DNA甲基化分析,可以追溯早期胚細(xì)胞的遺傳譜系,為破譯早期人類胚胎中DNA甲基化重新編程的秘密鋪平了道路?;谌旧|(zhì)免疫共沉淀技術(shù)(Chromatin Immunoprecipitation,ChIP)的測(cè)序方法,Rotem等[15]結(jié)合微流控和DNA特征碼技術(shù)進(jìn)行了數(shù)千個(gè)單細(xì)胞測(cè)序,從單細(xì)胞水平收集染色質(zhì)數(shù)據(jù),進(jìn)一步分析了表觀遺傳各方面的異質(zhì)性,而這在轉(zhuǎn)錄水平是無(wú)法獲取的。

2.4 單細(xì)胞多組學(xué)測(cè)序

此外,單細(xì)胞多組學(xué)研究(Single cell multi-omics sequencing)也逐步在科學(xué)研究中得到應(yīng)用。如Angermueller等[16]對(duì)61個(gè)小鼠胚胎干細(xì)胞同時(shí)進(jìn)行單細(xì)胞轉(zhuǎn)錄組和表觀組測(cè)序,分析了DNA甲基化異質(zhì)性和轉(zhuǎn)錄水平異質(zhì)性的關(guān)聯(lián)。Macaulay等[17]利用基因組和轉(zhuǎn)錄組平行測(cè)序(Genome and Transcriptome Sequencing, G&T-seq)方法對(duì)來(lái)源于小鼠和人類的220多個(gè)單細(xì)胞進(jìn)行測(cè)序,通過(guò)關(guān)聯(lián)分析發(fā)現(xiàn)了以前無(wú)法單獨(dú)從DNA或RNA測(cè)序推斷出的細(xì)胞特性。

3 單細(xì)胞測(cè)序技術(shù)平臺(tái)

3.1 單細(xì)胞分離和標(biāo)記平臺(tái)

單細(xì)胞測(cè)序技術(shù)一般是結(jié)合單細(xì)胞分離技術(shù)和特異性分子標(biāo)簽技術(shù)將單個(gè)細(xì)胞標(biāo)記上特定的標(biāo)簽,然后進(jìn)行高通量測(cè)序的技術(shù)。目前,國(guó)內(nèi)外大規(guī)模單細(xì)胞技術(shù)使用的單細(xì)胞分離和標(biāo)記平臺(tái)主要有基于10X Next GEM技術(shù)的ChromiumTM系統(tǒng)、BD RhapsodyTM單細(xì)胞分析系統(tǒng)、Illumina?Bio-Rad?單細(xì)胞測(cè)序解決方案、ICELL8 單細(xì)胞系統(tǒng)、C1TM單細(xì)胞全自動(dòng)制備系統(tǒng)等。各個(gè)單細(xì)胞分離和標(biāo)記平臺(tái)的原理、特點(diǎn)及應(yīng)用(見(jiàn)表2)。在實(shí)際的項(xiàng)目中,需要結(jié)合項(xiàng)目的特點(diǎn),考慮多種因素,選擇一種最能滿足實(shí)驗(yàn)且性價(jià)比高的平臺(tái)。

表2 不同單細(xì)胞分離和標(biāo)記平臺(tái)的原理、特點(diǎn)及應(yīng)用Table 2 Principle, characteristics, and application of different single cell separation and labeling platforms

3.2 單細(xì)胞高通量測(cè)序平臺(tái)

單細(xì)胞測(cè)序技術(shù)使用的高通量測(cè)序平臺(tái)有很多,如illumina系列、BGISEQ系列、Roche 454、ABI solid、Ion Proton等。目前,應(yīng)用于單細(xì)胞測(cè)序的高通量測(cè)序平臺(tái)主要是illumina系列,但其他測(cè)序平臺(tái)也逐漸被證明可應(yīng)用單細(xì)胞測(cè)序。Chen等[18]在illumina Hiseq2000和Ion Proton平臺(tái)上分別利用低覆蓋度的單細(xì)胞全基因組測(cè)序的方法對(duì)相同的樣本進(jìn)行測(cè)序,并從可重復(fù)性、測(cè)序錯(cuò)誤率、一致性、靈敏度和特異性等方面進(jìn)行比較分析,結(jié)果表明,兩種平臺(tái)各有優(yōu)缺點(diǎn)。

最近,有研究表明,BGISEQ測(cè)序平臺(tái)也可應(yīng)用于單細(xì)胞測(cè)序。Natarajan等[19]選取了468個(gè)單細(xì)胞對(duì)應(yīng)1,297個(gè)cDNA樣本,分別采用SMARTer和Smart-seq2的方法在BGISEQ-500和Illumina HiSeq平臺(tái)上進(jìn)行單細(xì)胞測(cè)序,本文首次從靈敏度和準(zhǔn)確性上比較在兩種平臺(tái)在單細(xì)胞轉(zhuǎn)錄組測(cè)序上的應(yīng)用,結(jié)果表明,BGISEQ-500可完成高質(zhì)量低成本的單細(xì)胞轉(zhuǎn)錄組測(cè)序。

4 單細(xì)胞測(cè)序數(shù)據(jù)分析

單細(xì)胞測(cè)序分析中,對(duì)于不同的測(cè)序類型和研究目的,會(huì)采用不同的分析流程。對(duì)于單細(xì)胞基因組測(cè)序和單細(xì)胞表觀組測(cè)序而言,數(shù)據(jù)分析流程與傳統(tǒng)的高通量測(cè)序數(shù)據(jù)分析方法類似[13, 20]。在單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析中,常見(jiàn)的分析內(nèi)容包括基因表達(dá)(gene expression)、可變剪切(alternative splicing)、T細(xì)胞受體譜 (T cell receptor profiling)或B細(xì)胞受體譜 (B cell receptor profiling)、細(xì)胞聚類(Cells clustering)、擬時(shí)序分析(Trajectory analysis)等,常見(jiàn)的單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析流程(見(jiàn)圖1),一些主流的分析軟件總結(jié)(見(jiàn)表3)。

表3 單細(xì)胞轉(zhuǎn)錄組測(cè)序分析軟件Table 3 Single cell transcriptome sequencing analysis toolkits

圖1 單細(xì)胞轉(zhuǎn)錄組測(cè)序分析流程Fig.1 Analysis workflow of single cell transcriptome sequencing

在單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析中,細(xì)胞聚類和擬時(shí)序分析是單細(xì)胞測(cè)序特有的分析內(nèi)容,下面將重點(diǎn)闡述。細(xì)胞聚類是單細(xì)胞測(cè)序數(shù)據(jù)進(jìn)一步分析的基礎(chǔ)。細(xì)胞聚類的基本原理是根據(jù)細(xì)胞的特征(比如基因表達(dá)等)將大量的細(xì)胞,通過(guò)聚類算法將細(xì)胞分成不同的亞群的過(guò)程。Dai H等[21]通過(guò)構(gòu)建單細(xì)胞的network,將network降維到二維的矩陣,并代替原有的不穩(wěn)定的基因表達(dá)矩陣,用以細(xì)胞聚類和擬時(shí)序分析,同時(shí),該種方法可以發(fā)現(xiàn)一些有意義的在傳統(tǒng)差異基因表達(dá)分析中漏掉的認(rèn)為不重要的基因。Elham等[22]利用Drop-seq方法對(duì)45 000個(gè)免疫細(xì)胞進(jìn)行單細(xì)胞測(cè)序,通過(guò)自己開(kāi)發(fā)的分析流程,通過(guò)貝葉斯聚類和標(biāo)準(zhǔn)化方法,提出差異表達(dá)分析不能完全體現(xiàn)亞群間差異,得到非常穩(wěn)定的協(xié)方差模式(Covariance pattern)不同的亞群。Xie等[23]用有監(jiān)督的機(jī)器學(xué)習(xí)方法大大提高了細(xì)胞聚類的效率, 在單核2.3 GHz的個(gè)人電腦上,訓(xùn)練19萬(wàn)個(gè)細(xì)胞的訓(xùn)練集只需要5分鐘,而做1萬(wàn)個(gè)細(xì)胞的分類不到1分鐘,而常用的聚類軟件Seurat,在對(duì)1W個(gè)細(xì)胞進(jìn)行聚類時(shí),時(shí)長(zhǎng)需要以小時(shí)來(lái)計(jì)算,內(nèi)存用量約15G-20 G,分析結(jié)果表明在準(zhǔn)確性上還有待提升,這主要跟提供的數(shù)據(jù)訓(xùn)練集有關(guān)。同樣,F(xiàn)eiyang Ma等[24]利用神經(jīng)網(wǎng)絡(luò)模型對(duì)小鼠細(xì)胞和人源免疫細(xì)胞數(shù)據(jù)集進(jìn)行訓(xùn)練,利用得到的訓(xùn)練結(jié)果來(lái)預(yù)測(cè)小鼠白細(xì)胞、人源外周血單核細(xì)胞和人源T細(xì)胞亞型,分析結(jié)果快速而準(zhǔn)確,表明該方法可以用來(lái)優(yōu)化目前的單細(xì)胞測(cè)序分析流程。隨著單細(xì)胞測(cè)序樣本量的增大,傳統(tǒng)的聚類分析方法需要耗費(fèi)大量的資源,機(jī)器學(xué)習(xí)的引入會(huì)是一個(gè)很有潛力的解決方向,但需要進(jìn)一步提高聚類的準(zhǔn)確性和擴(kuò)展應(yīng)用場(chǎng)景。

擬時(shí)序分析是基于大量單細(xì)胞的基因組學(xué)數(shù)據(jù),通過(guò)生物信息學(xué)算法來(lái)推斷這些細(xì)胞的發(fā)育時(shí)序。擬時(shí)序分析對(duì)于研究某一特定細(xì)胞類型的轉(zhuǎn)化,如CD8+T細(xì)胞的激活和耗竭、M1/M2型巨噬細(xì)胞極化等,往往具有一定的生物學(xué)意義。進(jìn)行擬時(shí)序分析的軟件有很多,Saelens等[25]針對(duì)110個(gè)真實(shí)數(shù)據(jù)集和229個(gè)模擬數(shù)據(jù)集,利用45種擬時(shí)序分析工具進(jìn)行分析和對(duì)比,分析結(jié)果表明工具和方法的選擇,主要取決于數(shù)據(jù)集維度和拓?fù)浣Y(jié)構(gòu)。

5 單細(xì)胞測(cè)序研究熱度分析

單細(xì)胞測(cè)序是為了解決傳統(tǒng)高通量測(cè)序的局限性,比如無(wú)法獲取單個(gè)細(xì)胞特有的遺傳信息,可能會(huì)丟失低豐度的信息,無(wú)法檢測(cè)難以培養(yǎng)富集的微生物等。因此,單細(xì)胞測(cè)序具有傳統(tǒng)高通量測(cè)序無(wú)法比擬的優(yōu)勢(shì)。2011年,《自然方法》雜志(Nature Methods)將單細(xì)胞測(cè)序列為年度值得期待的技術(shù)之一,2013年,《科學(xué)》雜志(Science)將單細(xì)胞測(cè)序列為年度最值得關(guān)注的六大領(lǐng)域榜首,2018年,《科學(xué)》雜志(Science)的年度十大科學(xué)突破之一就是單細(xì)胞測(cè)序的重要一環(huán)“單個(gè)細(xì)胞分離并逐個(gè)測(cè)序(Development cell by cell)”的研究進(jìn)展。由此可見(jiàn),單細(xì)胞測(cè)序作為一種技術(shù)手段被廣大科研工作者寄予厚望。

以"single cell sequencing"[All Fields]為關(guān)鍵詞去NCBI-pubmed數(shù)據(jù)庫(kù)搜索,統(tǒng)計(jì)搜索到的文章數(shù)(見(jiàn)圖2),可以發(fā)現(xiàn)從2011年到2020年間,單細(xì)胞測(cè)序發(fā)表的文章數(shù)基本上呈指數(shù)增長(zhǎng)(截止至2020年10月16日)。

圖2 以“單細(xì)胞測(cè)序技術(shù)”為關(guān)鍵詞在NCBI-pubmed庫(kù)中的搜索情況(截止至2020年10月16日)Fig.2 Statistics of published literature in NCBI-pubmed database using “single cell sequencing” as keyword (by October 16, 2020)

在科學(xué)網(wǎng)基金頁(yè)面(http://fund.sciencenet.cn/),以“單細(xì)胞測(cè)序”為項(xiàng)目名稱關(guān)鍵詞搜索,查詢結(jié)果有1 218項(xiàng),累計(jì)金額為75 772萬(wàn)元,項(xiàng)目涉及學(xué)科分類廣,主要集中在生命科學(xué)和醫(yī)學(xué)科學(xué)領(lǐng)域,分布圖(見(jiàn)圖3)(查詢結(jié)果截止至2020年10月16日)。

圖3 以“單細(xì)胞測(cè)序”為關(guān)鍵詞在科學(xué)網(wǎng)基金頁(yè)面查詢得到的項(xiàng)目分布統(tǒng)計(jì)圖(截止至2020年10月16日)Fig.3 Statistics distribution of projects on the Science Net using “single cell sequencing” as keyword (by October 16, 2020)

在美國(guó)國(guó)立衛(wèi)生研究院(NIH)官網(wǎng)上(https://projectreporter.nih.gov/),以“single cell sequencing”為關(guān)鍵詞搜索,查詢結(jié)果按照經(jīng)費(fèi)申請(qǐng)機(jī)構(gòu)進(jìn)行統(tǒng)計(jì),我們通過(guò)經(jīng)費(fèi)申請(qǐng)機(jī)構(gòu)可以簡(jiǎn)單了解其研究方向或研究領(lǐng)域,最終的統(tǒng)計(jì)結(jié)果(見(jiàn)圖4)(查詢時(shí)間跨度為2018年至2019年)。從圖中可以看出,在單細(xì)胞測(cè)序研究中,腫瘤和常見(jiàn)疾病相關(guān)研究機(jī)構(gòu)申請(qǐng)到的項(xiàng)目或研究經(jīng)費(fèi)較多,由此可以粗略推斷單細(xì)胞測(cè)序的熱點(diǎn)研究領(lǐng)域。

圖4 以“single cell sequencing ”為關(guān)鍵詞在美國(guó)NIH頁(yè)面查詢得到的項(xiàng)目分布統(tǒng)計(jì)圖(2018-2019年)Fig.4 Statistics distribution of projects on the NIH website using “single cell sequencing” as keyword (2018 - 2019)

由此可見(jiàn),單細(xì)胞測(cè)序在近年來(lái)一直是科研界的研究熱點(diǎn),被廣泛應(yīng)用于各個(gè)領(lǐng)域。

6 單細(xì)胞測(cè)序的應(yīng)用

單細(xì)胞測(cè)序在不同研究領(lǐng)域得到應(yīng)用,比如干細(xì)胞和發(fā)育生物學(xué)、腫瘤、免疫學(xué)等領(lǐng)域。

發(fā)育生物學(xué)作為生命基本過(guò)程的基礎(chǔ)學(xué)科,傳統(tǒng)的高通量測(cè)序無(wú)法詳細(xì)和系統(tǒng)的研究所有器官各種細(xì)胞的分子狀態(tài)和分化途徑。而單細(xì)胞測(cè)序可以分離單個(gè)細(xì)胞,對(duì)其中的遺傳信息進(jìn)行分析,構(gòu)建高分辨率的不同組織發(fā)育階段的基因表達(dá)譜。Takahashi K等[34]研究發(fā)現(xiàn),已分化的成纖維細(xì)胞可以在四種反轉(zhuǎn)錄因子OCT3/4, SOX2, c-Myc 和 KLF4的作用下重分化成多能干細(xì)胞,這一發(fā)現(xiàn)有望在多種疾病的機(jī)制研究和治療中發(fā)揮重要的作用。Brunskill EW等[35]利用單細(xì)胞測(cè)序研究了腎臟器官發(fā)育過(guò)程中的基因表達(dá)譜,發(fā)現(xiàn)在不同的發(fā)育階段,結(jié)構(gòu)相同的細(xì)胞群卻有著不同的來(lái)源。

在腫瘤研究中,了解腫瘤細(xì)胞內(nèi)異質(zhì)性對(duì)腫瘤的發(fā)生發(fā)展、其耐藥性的影響和重新定義細(xì)胞亞型等非常重要。傳統(tǒng)的高通量測(cè)序方法只能針對(duì)大量細(xì)胞群體進(jìn)行研究,只是細(xì)胞群體的總平均反應(yīng),無(wú)法反應(yīng)每個(gè)細(xì)胞的真實(shí)情況。而單細(xì)胞測(cè)序能夠揭示單個(gè)細(xì)胞的基因結(jié)構(gòu)和基因表達(dá)狀態(tài),反應(yīng)細(xì)胞間的異質(zhì)性。Li H等[36]利用單細(xì)胞測(cè)序技術(shù)對(duì)11個(gè)結(jié)直腸癌細(xì)胞和對(duì)應(yīng)的正常粘膜細(xì)胞進(jìn)行測(cè)序,利用參考成分分析(reference component analysis,RCA)算法進(jìn)行聚類分析鑒別出兩種不同的纖維母細(xì)胞瘤亞型,同時(shí),在其中發(fā)現(xiàn)了一些與上皮間充質(zhì)干細(xì)胞分化相關(guān)的基因表達(dá)上調(diào),為腫瘤細(xì)胞異質(zhì)性表征提供了一個(gè)很好的方法。Tirosh等[37]從19個(gè)黑色素瘤患者中分離了4 645個(gè)細(xì)胞進(jìn)行單細(xì)胞測(cè)序,研究發(fā)現(xiàn),非惡性腫瘤細(xì)胞會(huì)根據(jù)細(xì)胞類型如T細(xì)胞、B細(xì)胞、巨噬細(xì)胞、血管內(nèi)皮細(xì)胞等聚類,而不同病人來(lái)源的惡性腫瘤細(xì)胞會(huì)被分成不同的聚類,表明腫瘤細(xì)胞異質(zhì)性的存在。Baslan等[38]綜述了單細(xì)胞測(cè)序技術(shù)在研究腫瘤異質(zhì)性和腫瘤細(xì)胞演化中的作用,并以肺癌為例說(shuō)明了單細(xì)胞測(cè)序的應(yīng)用場(chǎng)景。

在免疫學(xué)領(lǐng)域,由于傳統(tǒng)的免疫學(xué)分析方法取樣來(lái)自于大量細(xì)胞,導(dǎo)致分析結(jié)果低估了單個(gè)免疫細(xì)胞的多樣性,單細(xì)胞測(cè)序可以更加精確地檢測(cè)單個(gè)免疫細(xì)胞的遺傳物質(zhì),從而理解機(jī)體復(fù)雜的免疫機(jī)制。Villani等[39]通過(guò)對(duì)來(lái)源于健康獻(xiàn)血者的2 400個(gè)細(xì)胞進(jìn)行單細(xì)胞測(cè)序,發(fā)現(xiàn)了6個(gè)DC細(xì)胞和4個(gè)單核細(xì)胞亞型,該研究是對(duì)pDCs分類的重新鑒定和修訂,這一研究成果將使得對(duì)疾病和健康的免疫檢測(cè)更加精確。

7 挑戰(zhàn)和展望

相對(duì)于傳統(tǒng)的高通量測(cè)序,單細(xì)胞測(cè)序檢測(cè)的技術(shù)難點(diǎn)不在于測(cè)序本身,而在于單個(gè)細(xì)胞中核酸物質(zhì)太少,以至于難以直接檢測(cè)。因此,單細(xì)胞測(cè)序的關(guān)鍵技術(shù)之一時(shí)需要對(duì)單細(xì)胞中極微量的DNA進(jìn)行高質(zhì)量、大幅度的擴(kuò)增,目前已經(jīng)有一些相對(duì)成熟的擴(kuò)增方法,但是這些擴(kuò)增技術(shù)都存在一些局限性,比如擴(kuò)增區(qū)域不全而導(dǎo)致未擴(kuò)增的區(qū)域無(wú)法被測(cè)序,而且擴(kuò)增會(huì)存在偏向性(Bias),導(dǎo)致擴(kuò)增不均一,這些問(wèn)題都會(huì)給后續(xù)的生物信息分析帶來(lái)很大的挑戰(zhàn)。同時(shí),F(xiàn)FPE樣本的實(shí)驗(yàn)處理和數(shù)據(jù)分析優(yōu)化很重要[38],因?yàn)榕R床上有很多樣本是FFPE樣本,而這些樣本很容易降解,從而使其進(jìn)行單細(xì)胞測(cè)序存在一些挑戰(zhàn)。除此之外,對(duì)于大量樣本量的單細(xì)胞測(cè)序來(lái)講,會(huì)產(chǎn)生海量的測(cè)序數(shù)據(jù),這對(duì)于數(shù)據(jù)的存儲(chǔ)、分析帶來(lái)了挑戰(zhàn)。

近年來(lái),云平臺(tái)在高通量測(cè)序領(lǐng)域得到廣泛的應(yīng)用,而數(shù)學(xué)、物理學(xué)等學(xué)科為生物信息學(xué)的發(fā)展提供了基礎(chǔ)算法,這使得生命科學(xué)大數(shù)據(jù)的計(jì)算、存儲(chǔ)和應(yīng)用成本大大降低。同時(shí),單細(xì)胞測(cè)序成本的降低,使其廣泛應(yīng)用于生命科學(xué)各個(gè)領(lǐng)域,這也積累了海量的單細(xì)胞測(cè)序數(shù)據(jù),而缺少高效精準(zhǔn)的單細(xì)胞測(cè)序數(shù)據(jù)分析方法或工具阻礙了單細(xì)胞測(cè)序的進(jìn)一步發(fā)展。目前,結(jié)合人工智能和生物信息算法,已經(jīng)在單細(xì)胞測(cè)序數(shù)據(jù)分析領(lǐng)域取得了突破。如Xiong等[40]利用人工智能深度學(xué)習(xí)算法,結(jié)合變分自編碼器和高斯混合模型,提取單細(xì)胞ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)數(shù)據(jù)的隱層特征,將問(wèn)題從復(fù)雜稀疏的高緯度的染色質(zhì)開(kāi)放圖譜空間投射到了簡(jiǎn)單抽象的低緯度特征空間,這種處理不但可以發(fā)現(xiàn)與解析細(xì)胞特異性的染色質(zhì)圖譜模式,還通過(guò)相似細(xì)胞信息共享,填補(bǔ)了技術(shù)限制導(dǎo)致的缺失值,從而巧妙地解決了單細(xì)胞ATAC-seq數(shù)據(jù)中高維度、稀疏性、二值化等問(wèn)題。而Cheng等[41]開(kāi)發(fā)的基于機(jī)器學(xué)習(xí)的分析管道潛在細(xì)胞分析法(Latent Cellular Analysis,LCA),通過(guò)將隱元胞狀態(tài)的余弦相似度度量與基于圖的聚類算法相結(jié)合,為種群數(shù)量推斷、降維、特征選擇和技術(shù)變異控制提供啟發(fā)式解決方案,且無(wú)需顯式基因過(guò)濾。Xie等[42]對(duì)正常肺中6種間充質(zhì)類型細(xì)胞和纖維化肺中7種間充質(zhì)類型細(xì)胞進(jìn)行單細(xì)胞RNA測(cè)序,并通過(guò)機(jī)器學(xué)習(xí)的方法,確定了它們的分化軌跡,從而為了解成纖維細(xì)胞的結(jié)構(gòu)和成纖維細(xì)胞在纖維化疾病中的作用提供了新的資源。Duan等[43]基于人工智能主題模型(Topic Modeling)的計(jì)算框架MUSIC(Model-based Understanding of Single cell CRISPR screening),用以有效地對(duì)單細(xì)胞CRISPR篩選數(shù)據(jù)進(jìn)行分析,用以揭示數(shù)據(jù)本身所體現(xiàn)的生物學(xué)意義。He等[44]基于半監(jiān)督學(xué)習(xí)的單細(xì)胞測(cè)序數(shù)據(jù)填補(bǔ)方法DISC ( Deep learning Imputation model with semi-supervised learning for Single Cell tranomes ),該方法可以利用少量的表達(dá)出來(lái)的基因信息及數(shù)據(jù)龐大的缺失表達(dá)基因之間的表達(dá)結(jié)構(gòu),可以實(shí)現(xiàn)基因表達(dá)分布修復(fù)、差異基因預(yù)測(cè)、基因表達(dá)相關(guān)性預(yù)測(cè)和稀有細(xì)胞類型預(yù)測(cè)等,為單細(xì)胞測(cè)序數(shù)據(jù)分析提供了重要的技術(shù)支撐。

8 結(jié) 論

相較傳統(tǒng)的混合細(xì)胞測(cè)序,單細(xì)胞測(cè)序技術(shù)能夠在復(fù)雜的群體組合(如腫瘤)中對(duì)不同細(xì)胞類型進(jìn)行區(qū)分,為了解各種發(fā)育、生理和疾病系統(tǒng)背后的過(guò)程提供了一個(gè)強(qiáng)大的方法,這也使得單細(xì)胞測(cè)序成為科研界的一個(gè)研究熱點(diǎn)。大量關(guān)注和資金的流入使得單細(xì)胞測(cè)序技術(shù)飛速發(fā)展,各種測(cè)序平臺(tái)和數(shù)據(jù)分析算法層出不窮。然而由于單細(xì)胞測(cè)序數(shù)據(jù)量大的特點(diǎn),使得數(shù)據(jù)分析的難度高,精度差成為阻礙該技術(shù)發(fā)展的主要因素。但隨著人工智能的發(fā)展,越來(lái)越多的研究者將人工智能技術(shù)用于單細(xì)胞測(cè)序數(shù)據(jù)的分析,并取得了不錯(cuò)的成果。相信在未來(lái),人工智能作為大數(shù)據(jù)分析的一個(gè)有效的解決方法而被廣泛應(yīng)用于單細(xì)胞測(cè)序數(shù)據(jù)分析領(lǐng)域。

猜你喜歡
單細(xì)胞高通量甲基化
高通量衛(wèi)星網(wǎng)絡(luò)及網(wǎng)絡(luò)漫游關(guān)鍵技術(shù)
人工智能助力微生物單細(xì)胞鑒定
科學(xué)(2020年4期)2020-11-26 08:27:16
高通量血液透析臨床研究進(jìn)展
Ka頻段高通量衛(wèi)星在鐵路通信中的應(yīng)用探討
中國(guó)通信衛(wèi)星開(kāi)啟高通量時(shí)代
聯(lián)合SNaPshot和單倍型分析技術(shù)建立G6PD缺乏癥單細(xì)胞基因診斷體系
單細(xì)胞測(cè)序技術(shù)研究進(jìn)展
鼻咽癌組織中SYK基因啟動(dòng)子區(qū)的甲基化分析
胃癌DNA甲基化研究進(jìn)展
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
通河县| 芦山县| 安乡县| 嘉黎县| 和田市| 大田县| 稻城县| 绥芬河市| 红河县| 西乌珠穆沁旗| 辽阳县| 崇阳县| 永清县| 辽宁省| 建阳市| 仪陇县| 麻江县| 南充市| 宜黄县| 庐江县| 福建省| 漠河县| 建湖县| 鄂托克旗| 临西县| 东方市| 佳木斯市| 新竹县| 衡阳县| 北票市| 大渡口区| 吴川市| 图木舒克市| 黄陵县| 全椒县| 丹凤县| 白朗县| 丹巴县| 龙陵县| 湟中县| 弥勒县|