国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

單細(xì)胞組學(xué)數(shù)據(jù)庫(kù)的研究進(jìn)展

2022-07-01 01:38:00蔡浩洋
關(guān)鍵詞:單細(xì)胞測(cè)序小鼠

蔡浩洋

(四川大學(xué) 生命科學(xué)學(xué)院 生物資源與生態(tài)環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室, 四川 成都 610064)

在過(guò)去,被廣泛接受的一個(gè)觀點(diǎn)是細(xì)胞個(gè)體特征與群體特征具有一致性.因此,研究人員的關(guān)注點(diǎn)在于研究對(duì)象的宏觀水平而非其細(xì)胞的個(gè)體水平.研究者們得到的數(shù)據(jù)通常是一群細(xì)胞中某種信號(hào)的平均值,或者是其中占優(yōu)勢(shì)數(shù)量的細(xì)胞的信號(hào)值.然而,近年的研究逐步揭示出單個(gè)細(xì)胞的個(gè)體特征具有明顯的異質(zhì)性[1-2],繼而研究人員將關(guān)注點(diǎn)從群體水平轉(zhuǎn)移到單細(xì)胞水平,單細(xì)胞測(cè)序技術(shù)應(yīng)運(yùn)而生.在近10多年里,二代測(cè)序、顯微鏡和微流控技術(shù)的改進(jìn)促使具有單細(xì)胞分辨率的各種復(fù)雜數(shù)據(jù)集迅速增加[3-4],在腫瘤學(xué)、免疫學(xué)、發(fā)育生物學(xué)甚至植物學(xué)研究領(lǐng)域,單細(xì)胞測(cè)序技術(shù)已經(jīng)逐漸普及,極大地推動(dòng)了不同生物學(xué)領(lǐng)域的研究.因而單細(xì)胞測(cè)序數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)的增長(zhǎng),例如張澤民等[5]組建的“新冠肺炎單細(xì)胞中國(guó)聯(lián)盟(SC4)”把單細(xì)胞測(cè)序技術(shù)應(yīng)用在新冠病毒的研究中,共收集到196個(gè)新冠病人的284個(gè)樣本,超過(guò)25 T近150萬(wàn)個(gè)細(xì)胞的單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)[5].隨著海量的單細(xì)胞測(cè)序數(shù)據(jù)的產(chǎn)生,研究人員希望能通過(guò)整合和分析這些龐大的數(shù)據(jù)來(lái)挖掘有價(jià)值的信息,其中構(gòu)建功能性數(shù)據(jù)庫(kù)用于存儲(chǔ)和分析這些數(shù)據(jù)成為一種高效的研究方法[4].迄今為止,單細(xì)胞相關(guān)數(shù)據(jù)庫(kù)已經(jīng)超過(guò)了20個(gè),但如何有效檢索和利用這些數(shù)據(jù)庫(kù)是研究人員需要面對(duì)的重要挑戰(zhàn).

1 單細(xì)胞測(cè)序技術(shù)與大數(shù)據(jù)時(shí)代

細(xì)胞的功能是由基因表達(dá)的不同組合來(lái)決定的.自從發(fā)現(xiàn)細(xì)胞是生命的基本單位以來(lái),研究人員一直試圖根據(jù)其性質(zhì)對(duì)細(xì)胞類型進(jìn)行表征和分類[6].最初,細(xì)胞分類主要以其定位、形狀和細(xì)胞成分為基礎(chǔ),細(xì)胞類型的定義在很大程度上取決于顯微鏡的改進(jìn).之后,免疫組織化學(xué)、流式細(xì)胞熒光分選技術(shù)(FACS)和熒光原位雜交(FISH)促進(jìn)了標(biāo)記基因(marker gene)在細(xì)胞分類中的應(yīng)用[6].這些技術(shù)揭示了形態(tài)相似的細(xì)胞之間的異質(zhì)性[7].單細(xì)胞基因表達(dá)分析的最新進(jìn)展為大幅提高細(xì)胞識(shí)別率和分類準(zhǔn)確性提供了可能.其中單細(xì)胞測(cè)序技術(shù)最吸引人的應(yīng)用之一是解碼復(fù)雜的細(xì)胞異質(zhì)性,并創(chuàng)建不同組織或器官中所有細(xì)胞類型的參考圖譜[8-9].例如,高通量單細(xì)胞qPCR[10-12],單細(xì)胞流式細(xì)胞術(shù)[13],單細(xì)胞轉(zhuǎn)錄組測(cè)序[14-18]都能以高分辨率研究細(xì)胞的異質(zhì)性.除此之外的其他方法,如單細(xì)胞基因組分析[19-22],表觀基因組分析[23-30],原位分析[31-33]等,為在單細(xì)胞水平上研究細(xì)胞表型和細(xì)胞行為提供了可能.

自2009年Tang等[17]發(fā)表第一篇關(guān)于單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)的文章以來(lái),這項(xiàng)技術(shù)得到了迅速的發(fā)展與應(yīng)用.單純地對(duì)幾個(gè)細(xì)胞進(jìn)行測(cè)序已經(jīng)不再滿足科研需求,迫切需要一次性對(duì)幾千甚至幾萬(wàn)個(gè)細(xì)胞同時(shí)進(jìn)行測(cè)序.隨后,McCarroll等[34]在《Cell》上發(fā)表了基于微滴包裹單細(xì)胞和捕獲磁珠技術(shù)的Drop-Seq方案,標(biāo)志著單細(xì)胞轉(zhuǎn)錄組測(cè)序進(jìn)入高通量時(shí)代.之后許多大規(guī)模低成本的單細(xì)胞測(cè)序技術(shù)被開(kāi)發(fā)出來(lái),例如,Cyto-Seq[35],Smart-seq3[36]等.自此,單細(xì)胞測(cè)序技術(shù)相關(guān)實(shí)驗(yàn)中分析的細(xì)胞數(shù)據(jù)量呈指數(shù)增長(zhǎng),超過(guò)了摩爾定律[37].龐大的數(shù)據(jù)給研究人員提供了寶貴的資源,同時(shí)也提出了挑戰(zhàn).在美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)上查找近10年跟單細(xì)胞測(cè)序技術(shù)相關(guān)的文獻(xiàn)已超過(guò)5 000篇(圖1)[38],產(chǎn)生的單細(xì)胞測(cè)序數(shù)據(jù)量也逐漸增加.一方面單細(xì)胞技術(shù)領(lǐng)域的迅猛發(fā)展使得單細(xì)胞數(shù)據(jù)量激增,另一方面對(duì)于如何處理這些數(shù)據(jù)的方法也在不斷增加.從Zappia等[39]的分析中可以看到用于處理單細(xì)胞數(shù)據(jù)的工具已超過(guò)1 000個(gè),并且還在持續(xù)增加中,其中R和Python為主要的分析語(yǔ)言.

圖1 單細(xì)胞研究文獻(xiàn)發(fā)表數(shù)量增長(zhǎng)趨勢(shì)

自2012年以來(lái),生物學(xué)大數(shù)據(jù)的挖掘和利用逐漸成為生命科學(xué)研究的前沿領(lǐng)域,單細(xì)胞測(cè)序技術(shù)的出現(xiàn)進(jìn)一步加快了海量數(shù)據(jù)的產(chǎn)生,這些數(shù)據(jù)滿足大數(shù)據(jù)的一般特性,即數(shù)據(jù)量大、速度快、類型多、價(jià)值高和真實(shí)性高,單細(xì)胞相關(guān)的大數(shù)據(jù)為各領(lǐng)域研究人員提供了寶貴的資源和機(jī)遇.

2 單細(xì)胞測(cè)序數(shù)據(jù)庫(kù)

面對(duì)龐大的單細(xì)胞數(shù)據(jù),構(gòu)建功能性的數(shù)據(jù)庫(kù)以統(tǒng)一整合和分析已有數(shù)據(jù)是一項(xiàng)迫切的需求.目前關(guān)于單細(xì)胞的數(shù)據(jù)庫(kù)已經(jīng)超過(guò)了20個(gè),涵蓋了轉(zhuǎn)錄組、基因組和表觀基因組等,所涉及的物種以人和小鼠為主,組織器官超過(guò)200種,數(shù)據(jù)產(chǎn)生平臺(tái)或技術(shù)包括10X Genomics、Smart-seq2、Fluidigm C1、Drop-seq等.本節(jié)主要介紹目前較有代表性的單細(xì)胞組學(xué)數(shù)據(jù)庫(kù)(以下簡(jiǎn)稱為單細(xì)胞數(shù)據(jù)庫(kù)).

2.1 不同物種來(lái)源的數(shù)據(jù)庫(kù)該類數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源于已經(jīng)發(fā)表的單細(xì)胞數(shù)據(jù)分析文獻(xiàn),并進(jìn)行統(tǒng)一標(biāo)準(zhǔn)的處理.這些數(shù)據(jù)的測(cè)序物種包括人、小鼠、斑馬魚(yú)、果蠅、擬南芥等.大部分?jǐn)?shù)據(jù)庫(kù)的數(shù)據(jù)是以人和小鼠為主,有4個(gè)數(shù)據(jù)庫(kù)包含除人和小鼠以外的物種,具體的數(shù)據(jù)庫(kù)信息列在表1中.

2.1.1以人類和小鼠為研究對(duì)象的數(shù)據(jù)庫(kù) 1) Mouse Cell Atlas[7].Mouse Cell Atlas數(shù)據(jù)庫(kù)主要收集的測(cè)序數(shù)據(jù)來(lái)源于小鼠.目前已經(jīng)更新到2.0版本,該數(shù)據(jù)庫(kù)利用Microwell-seq對(duì)40多種組織器官和超過(guò)40萬(wàn)個(gè)細(xì)胞進(jìn)行測(cè)序.Microwell-seq是一種高通量低成本的單細(xì)胞RNA測(cè)序技術(shù),使用該技術(shù)獲得小鼠各個(gè)組織器官的細(xì)胞聚類并做細(xì)胞類型定義,構(gòu)建了小鼠細(xì)胞圖譜.并且用戶可根據(jù)組織器官進(jìn)行搜索,展示各群的標(biāo)志基因,同時(shí)網(wǎng)絡(luò)圖展示各基因之間的關(guān)系.Mouse Cell Atlas數(shù)據(jù)庫(kù)有比較全面的小鼠單細(xì)胞測(cè)序數(shù)據(jù),在小鼠相關(guān)研究領(lǐng)域具有重要的地位.

2) scRNASeqDB[40].scRNASeqDB數(shù)據(jù)庫(kù)是一個(gè)收集和管理已經(jīng)公開(kāi)發(fā)表的人類單細(xì)胞基因表達(dá)數(shù)據(jù)集的數(shù)據(jù)庫(kù).該數(shù)據(jù)庫(kù)覆蓋了71個(gè)人類細(xì)胞系(或細(xì)胞類型)以及8 910個(gè)樣本.同時(shí)數(shù)據(jù)庫(kù)還提供了不同狀態(tài)下細(xì)胞中基因表達(dá)的詳細(xì)信息,以及基因表達(dá)的可視化圖像、Gene Ontology和pathway等特征.該數(shù)據(jù)庫(kù)有助于研究人員在廣泛的生物學(xué)和醫(yī)學(xué)領(lǐng)域?qū)θ祟悊渭?xì)胞的基因表達(dá)進(jìn)行研究.

3) CellMarker[41].CellMarker數(shù)據(jù)庫(kù)通過(guò)收集已發(fā)表的文獻(xiàn),整理出人的158個(gè)組織/亞組織的467個(gè)細(xì)胞類型的13 605個(gè)標(biāo)志基因,以及小鼠的81個(gè)組織、亞組織的389個(gè)細(xì)胞類型的9 148個(gè)標(biāo)志基因,為人類和小鼠組織中的各種細(xì)胞類型提供全面而準(zhǔn)確的細(xì)胞標(biāo)記資源.CellMarker數(shù)據(jù)庫(kù)提供交互式界面,用于瀏覽、搜索和下載不同組織的不同細(xì)胞類型的標(biāo)記,給研究人員在定義細(xì)胞類型方面提供了寶貴的參考信息.

2.1.2除人和小鼠外以其他物種為研究對(duì)象的數(shù)據(jù)庫(kù) 1) Single Cell Portal[42].Single Cell Portal數(shù)據(jù)庫(kù)是由Broad institute建立的,旨在為研究人員掃除單細(xì)胞分析障礙,加速單細(xì)胞研究.該數(shù)據(jù)庫(kù)所包含的物種除人和小鼠以外還包括斑馬魚(yú)、果蠅、原雞、食蟹猴、獼猴、野豬、樹(shù)鼩等9個(gè)物種.此外,數(shù)據(jù)庫(kù)提供按研究項(xiàng)目和按基因檢索,可通過(guò)物種、細(xì)胞類型、疾病類型、組織器官等選項(xiàng)搜索,以找到相應(yīng)的研究項(xiàng)目.每個(gè)項(xiàng)目都提供相關(guān)的文獻(xiàn)信息,并且可以在可視化界面進(jìn)行數(shù)據(jù)挖掘.

2) Single Cell Expression Atlas(SCEA)[43].SCEA數(shù)據(jù)庫(kù)收集整理了來(lái)自多個(gè)物種和不同實(shí)驗(yàn)條件下的原始單細(xì)胞測(cè)序數(shù)據(jù),使用統(tǒng)一標(biāo)準(zhǔn)的方法重新分析數(shù)據(jù),使得數(shù)據(jù)具有交叉可比性,并且該數(shù)據(jù)庫(kù)將分析結(jié)果以用戶友好的界面呈現(xiàn)出來(lái).通過(guò)基因搜索,研究人員可以快速了解其感興趣的基因在不同物種的單個(gè)細(xì)胞水平上的表達(dá)模式.SCEA數(shù)據(jù)庫(kù)整合了18個(gè)物種的數(shù)據(jù),涵蓋了動(dòng)物、植物、真菌以及原生動(dòng)物,其中動(dòng)物包括人類、小鼠、果蠅、血吸蟲(chóng)等10個(gè)物種,植物包括擬南芥、水稻、番茄以及玉米4個(gè)物種,真菌包含酵母,原生動(dòng)物包含伯氏瘧原蟲(chóng)以及惡性瘧原蟲(chóng).

2.2 收集特定研究領(lǐng)域數(shù)據(jù)的數(shù)據(jù)庫(kù)

2.2.1腫瘤學(xué)數(shù)據(jù)庫(kù) 1) CancerSEA[44].癌細(xì)胞的高度異質(zhì)性是癌癥研究和治療中的主要挑戰(zhàn).單細(xì)胞測(cè)序技術(shù)為以單細(xì)胞分辨率破譯癌細(xì)胞的各種功能狀態(tài)提供了前所未有的機(jī)會(huì),且癌癥單細(xì)胞測(cè)序數(shù)據(jù)已經(jīng)大量積累.CancerSEA描繪了一個(gè)癌癥單細(xì)胞功能狀態(tài)的圖譜,涉及來(lái)自25種癌癥類型的41 900個(gè)癌癥單細(xì)胞的14種功能狀態(tài)(包括干細(xì)胞、侵襲、轉(zhuǎn)移、增殖、上皮細(xì)胞-間充質(zhì)轉(zhuǎn)化(EMT)、血管生成、凋亡、細(xì)胞周期、分化、DNA損傷、DNA修復(fù)、缺氧、炎癥和沉默).數(shù)據(jù)庫(kù)支持以基因名稱、腫瘤類型和功能、基因集3種方式進(jìn)行搜索,提供了豐富的數(shù)據(jù)檢索方法.CancerSEA還在泛癌癥、特定癌癥類型和單個(gè)癌癥類型單細(xì)胞數(shù)據(jù)集中提供了功能狀態(tài)相關(guān)的PCG/lncRNA序列.

2) CancerSCEM[45].CancerSCEM數(shù)據(jù)庫(kù)包括了28項(xiàng)研究和20種人類腫瘤類型的208份癌癥樣本,并且對(duì)每一個(gè)樣本進(jìn)行了統(tǒng)一標(biāo)準(zhǔn)的分析,包括對(duì)數(shù)據(jù)進(jìn)行細(xì)胞類型注釋、功能基因表達(dá)分析、細(xì)胞通訊和生存分析等.數(shù)據(jù)庫(kù)采用統(tǒng)一的標(biāo)準(zhǔn)分析,因此可以比較不同癌癥類型之間的細(xì)胞成分和許多功能分子的表達(dá),此外友好的界面適合非生物信息學(xué)研究人員挖掘有價(jià)值的信息.同時(shí)該數(shù)據(jù)庫(kù)還提供在線分析功能,可以分析不同細(xì)胞類型之間某些基因的表達(dá)情況,以及基因之間的相互作用.

3) TISCH[46].TISCH數(shù)據(jù)庫(kù)整合了27種癌癥類型的76個(gè)高質(zhì)量腫瘤數(shù)據(jù)集中近200萬(wàn)個(gè)細(xì)胞的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),是一個(gè)專注于腫瘤微環(huán)境的大規(guī)模的管理數(shù)據(jù)庫(kù).數(shù)據(jù)庫(kù)將所收集到的數(shù)據(jù)統(tǒng)一進(jìn)行標(biāo)準(zhǔn)分析,允許在不同細(xì)胞類型、患者、組織來(lái)源、治療,以及不同癌癥類型之間進(jìn)行系統(tǒng)比較.研究者可以在TISCH數(shù)據(jù)庫(kù)中可視化、搜索和下載多種與腫瘤微環(huán)境相關(guān)信息,快速全面地進(jìn)行腫瘤微環(huán)境的探索.

2.2.2發(fā)育生物學(xué)數(shù)據(jù)庫(kù) 1) Human Cell Landscape(HCL)[47].HCL數(shù)據(jù)庫(kù)收集的資源非常豐富,它旨在繪制完整的人類單細(xì)胞圖譜.HCL數(shù)據(jù)庫(kù)包括對(duì)60種人體組織樣本和7種細(xì)胞培養(yǎng)樣本進(jìn)行Microwell-seq測(cè)序分析的數(shù)據(jù).數(shù)據(jù)庫(kù)包含了超過(guò)70萬(wàn)個(gè)單細(xì)胞,鑒定了人體102種細(xì)胞類型以及843種細(xì)胞亞型,系統(tǒng)性地繪制了跨越胚胎和成年2個(gè)時(shí)期的細(xì)胞圖譜,涵蓋了人體的8大系統(tǒng).研究者可以在其中根據(jù)細(xì)胞分型、組織和基因進(jìn)行搜索,數(shù)據(jù)庫(kù)可以下載單細(xì)胞表達(dá)矩陣,進(jìn)行自定義分析.研究者還可以上傳自己的表達(dá)矩陣進(jìn)行在線分析.

2) SCDevDB[48].SCDevDB是一個(gè)為研究細(xì)胞不同發(fā)育期間的單細(xì)胞基因表達(dá)譜而設(shè)計(jì)的數(shù)據(jù)庫(kù).該數(shù)據(jù)庫(kù)收集了10個(gè)人類單細(xì)胞RNA-Seq數(shù)據(jù)集,并且將這些數(shù)據(jù)集拆分成176個(gè)發(fā)育細(xì)胞群,構(gòu)建了24種不同的發(fā)育途徑.研究者可在該數(shù)據(jù)庫(kù)中根據(jù)發(fā)育的不同時(shí)期進(jìn)行信息篩選,它提供每個(gè)發(fā)育途徑中差異表達(dá)基因的列表,以及可視化分析結(jié)果.

2.2.3免疫學(xué)數(shù)據(jù)庫(kù) JingleBells[49].單細(xì)胞測(cè)序技術(shù)的發(fā)展加深了對(duì)免疫分化和激活過(guò)程的理解,JingleBells數(shù)據(jù)庫(kù)將數(shù)據(jù)劃分為免疫與非免疫類,收集了與120篇免疫相關(guān)文獻(xiàn)以及182篇非免疫領(lǐng)域文獻(xiàn)的單細(xì)胞測(cè)序數(shù)據(jù)集的原始數(shù)據(jù),并用標(biāo)準(zhǔn)的分析流程處理數(shù)據(jù),是一個(gè)標(biāo)準(zhǔn)化單細(xì)胞RNA-seq數(shù)據(jù)集的存儲(chǔ)庫(kù),可供研究者下載數(shù)據(jù)用于后續(xù)分析.

2.2.4收集其他研究領(lǐng)域數(shù)據(jù)的數(shù)據(jù)庫(kù) 1) SC2disease[50].SC2disease是一個(gè)人工收集并整合數(shù)據(jù)的數(shù)據(jù)庫(kù),能為研究者提供各種疾病的各細(xì)胞類型的基因表達(dá)譜.研究人員使用關(guān)于單細(xì)胞人類疾病樣本文獻(xiàn)中的數(shù)據(jù),并根據(jù)疾病、組織和細(xì)胞類型整理數(shù)據(jù).SC2disease包含946 481條數(shù)據(jù),對(duì)應(yīng)341種細(xì)胞類型、29種組織和25種疾病.數(shù)據(jù)庫(kù)中的每個(gè)條目都包含不同細(xì)胞類型、組織和疾病相關(guān)健康狀況之間差異表達(dá)基因的比較.SC2disease還提供了從基于單細(xì)胞的結(jié)果和基于全基因組關(guān)聯(lián)分析(GWAS)的結(jié)果得出的疾病的易感基因.

2) KIT(Kidney Interactive Transcriptomics)[51].隨著發(fā)表的有關(guān)腎臟單細(xì)胞文章的增加,研究人員對(duì)腎臟單細(xì)胞文章進(jìn)行了整理,構(gòu)建了一個(gè)腎臟單細(xì)胞數(shù)據(jù)集的在線分析數(shù)據(jù)庫(kù)KIT.迄今為止(2021年12月)該數(shù)據(jù)庫(kù)收錄的數(shù)據(jù)來(lái)自于16篇關(guān)于腎臟的單細(xì)胞文獻(xiàn)和RBK數(shù)據(jù)庫(kù).KIT數(shù)據(jù)庫(kù)總共收錄了130萬(wàn)個(gè)細(xì)胞,超過(guò)17種細(xì)胞類型,并且提供了根據(jù)基因名搜索以及在線分析的功能.

表 1 單細(xì)胞組學(xué)數(shù)據(jù)庫(kù)及其功能特點(diǎn)

續(xù)表1 scRNA-tools--是一個(gè)專門收集用于單細(xì)胞測(cè)序數(shù)據(jù)分析軟件的數(shù)據(jù)庫(kù)https://www.scrna-tools.org/[52]Single CellExpression Atlas(SCEA)18個(gè)物種229項(xiàng)研究,5 978 348個(gè)單細(xì)胞數(shù)據(jù)提供非常豐富的數(shù)據(jù)資源,可通過(guò)標(biāo)記基因來(lái)檢索細(xì)胞,選擇感興趣的數(shù)據(jù)集、物種等查看聚類等基本信息https://www.ebi.ac.uk/gxa/sc/home[43]Single CellPortal(SCP)9個(gè)物種409項(xiàng)研究,超過(guò)1 800萬(wàn)個(gè)單細(xì)胞數(shù)據(jù)庫(kù)分為按項(xiàng)目搜索以及按基因搜索,同時(shí)可視化相關(guān)信息,也可選擇細(xì)胞類型、器官、物種、疾病等進(jìn)行檢索https://singlecell.broa-dinstitute.org/single_cell[42]TISCH人類27種癌癥類型近200萬(wàn)個(gè)細(xì)胞是一個(gè)關(guān)于腫瘤微環(huán)境的單細(xì)胞數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)允許在不同細(xì)胞類型、患者、組織來(lái)源等方面之間進(jìn)行系統(tǒng)比較,可視化分析結(jié)果http://tisch.comp-genomics.org[47]CancerSCEM人類20種人類腫瘤類型,208份癌癥樣本是一個(gè)收集腫瘤單細(xì)胞測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù),分析了多個(gè)公共測(cè)序數(shù)據(jù)中基因的表達(dá)情況,還分析了細(xì)胞表面受體-配體、細(xì)胞間互作網(wǎng)絡(luò)等https://ngdc.cncb.ac.cn/cancerscem[45]ScMethBank人類和小鼠29種細(xì)胞類型和2種疾病模型是一個(gè)收集單細(xì)胞全基因組DNA甲基化數(shù)據(jù)的數(shù)據(jù)庫(kù),可通過(guò)樣本、基因、甲基化區(qū)域進(jìn)行搜索,并有可視化界面https://ngdc.cncb.ac.cn/methbank/scm/[57]

2.3 單細(xì)胞數(shù)據(jù)分析工具數(shù)據(jù)庫(kù)scRNA-tools[52]隨著單細(xì)胞測(cè)序數(shù)據(jù)的激增,用于分析單細(xì)胞測(cè)序數(shù)據(jù)的工具也呈現(xiàn)出增長(zhǎng)的趨勢(shì).scRNA-tools是一個(gè)收集單細(xì)胞測(cè)序數(shù)據(jù)分析軟件的數(shù)據(jù)庫(kù).該數(shù)據(jù)庫(kù)記錄了從2016年以來(lái)每年新增的分析軟件供研究人員選擇.截止目前已收集了1 124個(gè)用于單細(xì)胞數(shù)據(jù)分析的軟件.數(shù)據(jù)庫(kù)提供單細(xì)胞測(cè)序數(shù)據(jù)分析工具的詳細(xì)信息,用戶可以查詢常用工具的具體信息,還可以通過(guò)引用次數(shù)對(duì)工具進(jìn)行排序,以及根據(jù)分析目的對(duì)工具進(jìn)行分類,從而選擇合適的處理工具.

3 單細(xì)胞數(shù)據(jù)庫(kù)構(gòu)建與應(yīng)用

3.1 數(shù)據(jù)庫(kù)的構(gòu)建大部分生物學(xué)數(shù)據(jù)庫(kù)的主要功能是通過(guò)統(tǒng)一方法整合龐大的數(shù)據(jù)以提供快速檢索信息的平臺(tái).單細(xì)胞數(shù)據(jù)庫(kù)的構(gòu)建一般主要分為收集數(shù)據(jù)、處理數(shù)據(jù)以及數(shù)據(jù)展示3個(gè)步驟(圖2).

圖2 數(shù)據(jù)庫(kù)構(gòu)建基本流程

1) 收集數(shù)據(jù).單細(xì)胞數(shù)據(jù)庫(kù)中所收集的數(shù)據(jù)主要來(lái)源于已公開(kāi)發(fā)表的文獻(xiàn)中的數(shù)據(jù)集.在PubMed中以關(guān)鍵詞“single-cell sequencing”“single cell”“single cell RNA sequencing”等詞進(jìn)行檢索然后篩選出符合條件的文獻(xiàn)再?gòu)闹蝎@得數(shù)據(jù).數(shù)據(jù)集從GEO、GSEA、ZENODO等網(wǎng)站手動(dòng)下載.

2) 處理數(shù)據(jù).將下載的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析是數(shù)據(jù)庫(kù)構(gòu)建的核心功能,用不同的分析方法可能會(huì)得到不同的數(shù)據(jù),使得數(shù)據(jù)庫(kù)面向的用戶群體會(huì)大不一樣.單細(xì)胞數(shù)據(jù)庫(kù)中數(shù)據(jù)所使用的單細(xì)胞分析流程主要為質(zhì)控、細(xì)胞分群、差異表達(dá)以及細(xì)胞類型注釋.之后不同的數(shù)據(jù)庫(kù)根據(jù)不同的研究問(wèn)題進(jìn)行自定義分析,將分析得到的結(jié)果的集合有序地存入信息表中(MySQL、MongoDB等).

3) 數(shù)據(jù)展示.通常數(shù)據(jù)展示是通過(guò)搭建在線的網(wǎng)站以方便用戶搜索并在網(wǎng)站上展示出相關(guān)信息.用戶在網(wǎng)站的前端通過(guò)關(guān)鍵詞(如細(xì)胞類型、基因名等)發(fā)出請(qǐng)求,后臺(tái)程序以關(guān)鍵詞在信息表中搜索并且將搜索到的結(jié)果在網(wǎng)站前端可視化展示,以供用戶查看.

3.2 數(shù)據(jù)庫(kù)的選擇由于對(duì)細(xì)胞異質(zhì)性研究的興起,單細(xì)胞技術(shù)被廣泛用于回答發(fā)育生物學(xué)、神經(jīng)科學(xué)、腫瘤學(xué)和免疫學(xué)的許多基本問(wèn)題[58].單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)使得對(duì)生物變異進(jìn)行詳細(xì)研究成為可能[59].迄今為止,單細(xì)胞數(shù)據(jù)庫(kù)已超過(guò)20個(gè),如何選擇合適的數(shù)據(jù)庫(kù)進(jìn)行信息檢索是研究人員面對(duì)的首要問(wèn)題.

1) 根據(jù)研究對(duì)象選擇數(shù)據(jù)庫(kù).研究人員需根據(jù)不同的研究對(duì)象選擇不同的數(shù)據(jù)庫(kù)進(jìn)行信息檢索.如研究對(duì)象是人類,則可選擇收集人類單細(xì)胞數(shù)據(jù)的數(shù)據(jù)庫(kù)HCL、ScRNASeqDB等,在這些數(shù)據(jù)庫(kù)中能根據(jù)細(xì)胞類型、組織、器官等關(guān)鍵詞搜索相應(yīng)的標(biāo)志基因以及基因表達(dá)譜.CellMarker作為一個(gè)專門收集標(biāo)志基因的數(shù)據(jù)庫(kù),也能根據(jù)細(xì)胞類型搜索標(biāo)志基因.大部分?jǐn)?shù)據(jù)庫(kù)都提供可視化的功能,能直觀地顯示研究者所需要的信息.然而,不同的數(shù)據(jù)庫(kù)處理數(shù)據(jù)的方法可能是不相同的,因此要求研究者基于所研究的問(wèn)題選擇合適的數(shù)據(jù)庫(kù)進(jìn)行分析.

2) 根據(jù)研究領(lǐng)域選擇數(shù)據(jù)庫(kù).除了通過(guò)研究對(duì)象選擇數(shù)據(jù)庫(kù),還需要根據(jù)研究領(lǐng)域選擇合適的數(shù)據(jù)庫(kù).單細(xì)胞技術(shù)在腫瘤學(xué)、免疫學(xué)、發(fā)育學(xué)等領(lǐng)域上都得到了飛速發(fā)展,單細(xì)胞數(shù)據(jù)庫(kù)也在這些研究領(lǐng)域收集數(shù)據(jù),因此單細(xì)胞數(shù)據(jù)庫(kù)也可分為與腫瘤相關(guān)的數(shù)據(jù)庫(kù)CancerSEA、CancerSCEM、TISCH,與發(fā)育相關(guān)的數(shù)據(jù)庫(kù)SCDevDB和免疫相關(guān)的數(shù)據(jù)庫(kù)JingleBells,以及其他領(lǐng)域的數(shù)據(jù)庫(kù)(圖3).

圖3 單細(xì)胞數(shù)據(jù)庫(kù)分類

專業(yè)數(shù)據(jù)庫(kù)和綜合數(shù)據(jù)庫(kù)是2類最常見(jiàn)的數(shù)據(jù)庫(kù)類型,并且各有優(yōu)勢(shì).例如,scREAD是一個(gè)專門針對(duì)阿爾茲海默癥而建的單細(xì)胞數(shù)據(jù)庫(kù),對(duì)于阿爾茲海默癥的研究很有幫助.在研究腫瘤方面的內(nèi)容時(shí),盡管HCL、scRNASeqDB等數(shù)據(jù)庫(kù)也能檢索到部分信息,但是選擇腫瘤相關(guān)的單細(xì)胞數(shù)據(jù)庫(kù)CancerSEA以及腫瘤微環(huán)境相關(guān)的單細(xì)胞數(shù)據(jù)庫(kù)TISCH,可以得到更豐富的信息.

3.3 數(shù)據(jù)挖掘研究人員可通過(guò)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行搜索并進(jìn)行再次整理,對(duì)某一方面的信息進(jìn)行挖掘.例如,若想研究腫瘤細(xì)胞中細(xì)胞凋亡的機(jī)制,在腫瘤數(shù)據(jù)庫(kù)CancerSEA中搜索跟細(xì)胞凋亡有關(guān)的信息,數(shù)據(jù)庫(kù)返回的14種癌癥類型里都有細(xì)胞凋亡相關(guān)的數(shù)據(jù),點(diǎn)擊查看更多的信息,可以發(fā)現(xiàn)在這些數(shù)據(jù)集里有一些顯著的差異表達(dá)基因,研究者可根據(jù)這些基因進(jìn)行更深層的探索,或者挑選部分基因進(jìn)行實(shí)驗(yàn)驗(yàn)證.

總之,單細(xì)胞數(shù)據(jù)庫(kù)給研究人員帶來(lái)許多便利,這些數(shù)據(jù)庫(kù)集合了各種研究數(shù)據(jù)以及分析結(jié)果,研究者只需在數(shù)據(jù)庫(kù)中進(jìn)行搜索就能找到重要信息,而無(wú)需進(jìn)行原始數(shù)據(jù)收集和分析,節(jié)省了大量時(shí)間.

4 總結(jié)與展望

生物學(xué)中最基本的問(wèn)題之一是哪些類型的細(xì)胞以功能協(xié)調(diào)的方式形成不同的組織和器官.單細(xì)胞測(cè)序技術(shù)的發(fā)展使得研究人員可以在單細(xì)胞分辨率研究細(xì)胞表型和細(xì)胞行為,其發(fā)展?jié)摿薮?目前關(guān)于單細(xì)胞測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù)各有優(yōu)勢(shì),但各數(shù)據(jù)庫(kù)之間有數(shù)據(jù)交叉重復(fù)的部分,會(huì)造成一定的信息冗余.不同的數(shù)據(jù)庫(kù)所用的整合數(shù)據(jù)的方法也不相同.然而,迄今為止,盡管大量的數(shù)據(jù)集仍在持續(xù)產(chǎn)生,但可供研究人員使用的數(shù)據(jù)庫(kù)仍然不夠豐富.綜合數(shù)據(jù)庫(kù),如scRNASeqDB、PanglaoDB等對(duì)文獻(xiàn)中的單細(xì)胞表達(dá)數(shù)據(jù)集進(jìn)行整合,其中大部分來(lái)自人類和小鼠樣本.關(guān)注除人和小鼠以外物種的數(shù)據(jù)庫(kù)目前只有4個(gè).此外由于收集的數(shù)據(jù)來(lái)源不同、平臺(tái)不同、實(shí)驗(yàn)不同等因素,給整合數(shù)據(jù)帶來(lái)了困難,大部分?jǐn)?shù)據(jù)庫(kù)對(duì)于數(shù)據(jù)的處理一般只包含細(xì)胞聚類和差異基因表達(dá)譜的初步分析.

目前關(guān)于腫瘤的單細(xì)胞數(shù)據(jù)庫(kù)如CancerSEA、CancerSCEM等在腫瘤單細(xì)胞研究中應(yīng)用廣泛.盡管CancerSEA是2018年發(fā)布的第一個(gè)以單細(xì)胞分辨率分析癌細(xì)胞不同功能的數(shù)據(jù)庫(kù),但它只包含41 900個(gè)癌細(xì)胞的14種功能狀態(tài),而沒(méi)有考慮腫瘤微環(huán)境中的免疫細(xì)胞或基質(zhì)細(xì)胞.至于HCL數(shù)據(jù)庫(kù)雖然構(gòu)建了人類單細(xì)胞圖譜,但是完整的細(xì)胞圖譜還應(yīng)該整合更多的信息,如空間信息、多組學(xué)數(shù)據(jù)以及群體分析等.正如CellMarker數(shù)據(jù)庫(kù)被研究人員常用來(lái)查找不同細(xì)胞類型所對(duì)應(yīng)的標(biāo)志(marker)基因,SignatureDB能查到關(guān)于免疫細(xì)胞-B細(xì)胞的信息,但這些數(shù)據(jù)庫(kù)中也有冗余信息(例如在CellMarker數(shù)據(jù)庫(kù)里也能查到B細(xì)胞的部分信息).不同的數(shù)據(jù)庫(kù)由于收集的數(shù)據(jù)來(lái)自于不同的文獻(xiàn),數(shù)據(jù)整理的方法不一致,數(shù)據(jù)信息也無(wú)法完全對(duì)應(yīng).Mouse Cell Atlas數(shù)據(jù)庫(kù)里能查到關(guān)于小鼠的組織器官以及對(duì)應(yīng)的標(biāo)志基因,但這些信息和CellMarker中的信息并不完全一致.這也給研究人員在篩選合適的數(shù)據(jù)方面增加了工作量.迄今為止缺少一個(gè)整合數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)準(zhǔn)則.因此根據(jù)已有數(shù)據(jù)庫(kù)各自的功能特點(diǎn),期待未來(lái)的單細(xì)胞測(cè)序數(shù)據(jù)庫(kù)應(yīng)具有以下3條特征.

1) 更具綜合性.新方法的發(fā)展和新技術(shù)的進(jìn)步推動(dòng)了生物學(xué)的蓬勃發(fā)展.隨著單細(xì)胞測(cè)序技術(shù)應(yīng)用的持續(xù)推廣和更新,單細(xì)胞測(cè)序數(shù)據(jù)類型將會(huì)越來(lái)越多,所涉及的物種種類、組織、器官、細(xì)胞和基因也會(huì)增加,使數(shù)據(jù)的整合變得更復(fù)雜.數(shù)據(jù)庫(kù)所收錄的數(shù)據(jù)應(yīng)該更加全面與綜合.另外,僅僅利用單組學(xué)進(jìn)行研究已經(jīng)不能滿足研究人員的科研需求,單個(gè)組學(xué)數(shù)據(jù)只能解釋某一層面的問(wèn)題,無(wú)法從多個(gè)角度進(jìn)行深入探索.近年來(lái),單細(xì)胞多組學(xué)整合研究成為新的趨勢(shì),研究人員可以從多個(gè)組學(xué)的角度驗(yàn)證和分析數(shù)據(jù)并結(jié)合實(shí)驗(yàn)驗(yàn)證結(jié)果.因此,單細(xì)胞數(shù)據(jù)庫(kù)里的數(shù)據(jù)不再僅僅局限于基因組或轉(zhuǎn)錄組的數(shù)據(jù),還將包括表觀基因組學(xué)、代謝組學(xué)等更加綜合的單細(xì)胞數(shù)據(jù).如ATAC-seq數(shù)據(jù)、蛋白質(zhì)數(shù)據(jù)、FISH數(shù)據(jù)等.

2) 更具時(shí)效性.據(jù)《單細(xì)胞行研報(bào)告》[38],自2009年到2019年的10年間,單細(xì)胞研究相關(guān)文獻(xiàn)發(fā)表數(shù)量增長(zhǎng)了約14倍.尤其是自2013年至2021年,單細(xì)胞測(cè)序技術(shù)發(fā)展迅猛,新舊數(shù)據(jù)的更迭給研究人員選擇適用的數(shù)據(jù)帶來(lái)一定困難.因此,未來(lái)的單細(xì)胞數(shù)據(jù)庫(kù)應(yīng)及時(shí)更新數(shù)據(jù)信息,從新產(chǎn)生的大量的數(shù)據(jù)中及時(shí)梳理出有價(jià)值的數(shù)據(jù)以更新數(shù)據(jù)庫(kù),使數(shù)據(jù)庫(kù)能跟上單細(xì)胞研究領(lǐng)域的發(fā)展進(jìn)度,給研究人員提供及時(shí)并有價(jià)值的信息.

3) 更具健壯性.單細(xì)胞數(shù)據(jù)庫(kù)以網(wǎng)站框架為主體,以便科研人員查找信息.海量的數(shù)據(jù)給網(wǎng)絡(luò)服務(wù)提出了不小的挑戰(zhàn),當(dāng)研究人員在使用在線數(shù)據(jù)庫(kù)進(jìn)行搜索時(shí),能快速查找到正確的搜索信息并進(jìn)行展示是關(guān)鍵的用戶體驗(yàn).目前所發(fā)表的單細(xì)胞數(shù)據(jù)庫(kù)的構(gòu)建框架基本是由PHP+MySQL+HTML的形式,但是查詢的數(shù)據(jù)如何存儲(chǔ),以何種表格存儲(chǔ),如何構(gòu)建查詢方式等,是由構(gòu)建數(shù)據(jù)庫(kù)的研究人員設(shè)計(jì)的.面對(duì)數(shù)據(jù)庫(kù)中如此龐大的數(shù)據(jù),如何設(shè)計(jì)數(shù)據(jù)的存儲(chǔ)模式和查詢方式,如何更新數(shù)據(jù)等問(wèn)題關(guān)系到數(shù)據(jù)庫(kù)整個(gè)架構(gòu)的健壯性.

總之,單細(xì)胞研究領(lǐng)域有巨大的發(fā)展?jié)摿?有關(guān)單細(xì)胞數(shù)據(jù)的數(shù)據(jù)庫(kù)的發(fā)展也需要與時(shí)俱進(jìn).在大數(shù)據(jù)時(shí)代,龐大的數(shù)據(jù)量給單細(xì)胞數(shù)據(jù)的整合帶來(lái)了機(jī)遇,同時(shí)也帶來(lái)了信息篩選的挑戰(zhàn).能滿足上述3條特征的單細(xì)胞數(shù)據(jù)庫(kù)將會(huì)極大地促進(jìn)該領(lǐng)域的研究和發(fā)展.

猜你喜歡
單細(xì)胞測(cè)序小鼠
杰 Sir 帶你認(rèn)識(shí)宏基因二代測(cè)序(mNGS)
新民周刊(2022年27期)2022-08-01 07:04:49
二代測(cè)序協(xié)助診斷AIDS合并馬爾尼菲籃狀菌腦膜炎1例
傳染病信息(2021年6期)2021-02-12 01:52:58
人工智能助力微生物單細(xì)胞鑒定
科學(xué)(2020年4期)2020-11-26 08:27:16
小鼠大腦中的“冬眠開(kāi)關(guān)”
米小鼠和它的伙伴們
Avp-iCre轉(zhuǎn)基因小鼠的鑒定
聯(lián)合SNaPshot和單倍型分析技術(shù)建立G6PD缺乏癥單細(xì)胞基因診斷體系
基因捕獲測(cè)序診斷血癌
單細(xì)胞測(cè)序技術(shù)研究進(jìn)展
加味四逆湯對(duì)Con A肝損傷小鼠細(xì)胞凋亡的保護(hù)作用
应用必备| 盐源县| 开平市| 沙洋县| 湘阴县| 仁寿县| 聂拉木县| 泰顺县| 衡水市| 永兴县| 靖安县| 永丰县| 汉川市| 淅川县| 达拉特旗| 娄烦县| 台中市| 周至县| 洛浦县| 绥化市| 丹寨县| 大足县| 江达县| 绿春县| 会泽县| 平原县| 中阳县| 丰台区| 罗定市| 日照市| 沙田区| 青海省| 喜德县| 宿迁市| 渝中区| 依安县| 年辖:市辖区| 平邑县| 常德市| 华容县| 宜黄县|