何慧茹 李曉峰 張?chǎng)巍×?/p>
摘 ?要: 傳統(tǒng)數(shù)據(jù)降維方法處理單細(xì)胞RNA測(cè)序數(shù)據(jù)存在特征提取能力較差、聚類精度較低等問題,有必要引入深度學(xué)習(xí)方法以提高對(duì)復(fù)雜數(shù)據(jù)特征的提取能力。在對(duì)數(shù)據(jù)不進(jìn)行任何人工篩選的條件下,利用DAE提取表達(dá)能力更強(qiáng)的數(shù)據(jù)特征,分別以K?means和DBSCAN聚類作為DAE的頂層設(shè)置形成DAE+K?means和DAE+DBSCAN組合模型,將這兩種深度學(xué)習(xí)組合模型在Deng數(shù)據(jù)集上與傳統(tǒng)聚類模型SC3進(jìn)行對(duì)比。與SC3的0.73聚類精度相比,DAE+K?means和DAE+DBSCAN的聚類精度分別達(dá)到0.93和0.97,分別提高了0.2和0.24。實(shí)驗(yàn)結(jié)果表明,DAE在單細(xì)胞聚類領(lǐng)域具有廣闊的應(yīng)用前景。
關(guān)鍵詞: 單細(xì)胞聚類; 深度自動(dòng)編碼器; 深度學(xué)習(xí); K?means聚類; DBSCAN聚類; 結(jié)果分析
中圖分類號(hào): TN919?34; TP391 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)24?0144?05
Research on single?cell RNA sequencing data clustering based on DAE
HE Huiru, LI Xiaofeng, ZHANG Xin, LIU Nan
(School of Computer Science and Technology, Shandong Jianzhu University, Jinan 250101, China)
Abstract: As the traditional data dimension reduction method in processing single?cell RNA?sequencing data has some problems, such as poor feature extraction ability and low clustering accuracy, it is necessary to introduce the deep learning method to improve the extraction ability of complex data feature. Without any manual screening of data, the deep auto?encoder (DAE) is used to extract data feature with stronger expression ability. The K?Means and DBSCAN clustering is taken as the top?layer setting of DAE respectively to form DAE+K?Means or DAE+DBSCAN combined model, and the two deep learning combined models are compared with the traditional clustering model SC3 on Deng dataset. In comparison with the 0.73 clustering accuracy of SC3, the clustering accuracy of DAE+K?Means and DAE+DBSCAN reaches 0.93 and 0.97, respectively, which is improved by 0.2 and 0.24, respectively. The experimental results show that the DAE has a broad application prospect in the field of single?cell clustering.
Keywords: single cell clustering; DAE; deep learning; K?Means clustering; DBSCAN clustering; results analysis
0 ?引 ?言
基因表達(dá)是生物體生命活動(dòng)的基礎(chǔ)和關(guān)鍵步驟,有效測(cè)定基因表達(dá)水平是研究生物體生長(zhǎng)發(fā)育、發(fā)現(xiàn)新細(xì)胞亞群、探究腫瘤成因等生物學(xué)、醫(yī)學(xué)問題的基礎(chǔ)。近年來發(fā)展的基于高通量測(cè)序的單細(xì)胞RNA測(cè)序(single?cell RNA?sequencing, scRNA?seq)技術(shù)能夠在單個(gè)細(xì)胞粒度上進(jìn)行基因表達(dá)測(cè)序[1],為辨別生物組織中不同類型細(xì)胞的基因表達(dá)特征和全面揭示細(xì)胞之間的異質(zhì)性提供了強(qiáng)有力的技術(shù)支撐。
由于測(cè)序手段的限制以及基因表達(dá)高度復(fù)雜等原因,scRNA?seq數(shù)據(jù)普遍存在噪聲較大、維度較高、稀疏性較強(qiáng)等特點(diǎn),僅靠人工難以挖掘出有價(jià)值的生物細(xì)胞信息。如何有效地處理數(shù)據(jù)、區(qū)分不同細(xì)胞亞群成為目前研究的熱點(diǎn)。
近年來國(guó)內(nèi)外學(xué)者利用降維和聚類等方法對(duì)scRNA?seq數(shù)據(jù)進(jìn)行了相關(guān)研究。常用的scRNA?seq數(shù)據(jù)降維方法主要有主成分分析[2?4]、零膨脹因子分析[5]、t?隨機(jī)鄰域嵌入[6]等;聚類方法主要有K?means[2,7]、層次聚類[3]等。
針對(duì)傳統(tǒng)scRNA?seq數(shù)據(jù)處理方法存在特征提取能力差、聚類精度低等問題,提出將深度自動(dòng)編碼器(Deep Auto?Encoder,DAE)引入到scRNA?seq數(shù)據(jù)處理中。DAE作為數(shù)據(jù)特征提取常用的深度學(xué)習(xí)方法之一,在圖像分類[8?9]、短文本特征提取[10]、醫(yī)學(xué)診斷[11]等方面取得了良好效果。通過DAE對(duì)數(shù)據(jù)進(jìn)行特征提取,利用得到的低維特征進(jìn)行細(xì)胞聚類,提出DAE+K?means和DAE+DBSCAN兩種組合模型,提高了對(duì)scRNA?seq數(shù)據(jù)的聚類精度。
利用K?means對(duì)數(shù)據(jù)聚類時(shí),首先需要確定聚類數(shù)量。本文利用組內(nèi)平方誤差和(Sum of Squared Error, SSE)來確定最佳聚類數(shù)目。對(duì)于SSE和聚類數(shù)量[k]的二維圖像,圖像中的拐點(diǎn)所對(duì)應(yīng)的聚類數(shù)量即為最佳聚類數(shù)量。SSE的計(jì)算公式為:
[SSE=i=1kx∈Eidist(ei,x)2] ? ? ? ? ? ?(4)
式中:[k]為聚類的數(shù)量;[Ei]為第[i]個(gè)簇;[ei]為簇[Ei]的聚類中心;[x]為樣本對(duì)象。通過計(jì)算SSE來確定聚類數(shù)量,可以進(jìn)一步提高K?means的聚類精度。
2.4 ?DBSCAN聚類
DBSCAN(Density?Based Spatial Clustering of Application with Noise)是一種經(jīng)典的基于密度的聚類算法,該算法可以發(fā)現(xiàn)任意形狀的簇,能夠有效識(shí)別噪聲點(diǎn)和離群點(diǎn)[13]。該算法需要確定Eps和MinPts兩個(gè)參數(shù),其中,Eps是聚類簇的半徑,MinPts 是聚類簇內(nèi)最少點(diǎn)數(shù)。與K?means聚類相比,DBSCAN聚類無需事先確定聚類數(shù)目,但是Eps和MinPts兩個(gè)參數(shù)對(duì)DBSCAN聚類的效果影響較大。
2.5 ?模型評(píng)估
本文所用數(shù)據(jù)集帶有實(shí)際類別標(biāo)簽,為了便于與其他研究對(duì)比,使用調(diào)整蘭德系數(shù)(Adjusted Rand Index, ARI)作為聚類結(jié)果評(píng)價(jià)指標(biāo)。ARI是一個(gè)通用的聚類評(píng)價(jià)指標(biāo),可以用來評(píng)估不同模型的聚類精度。ARI的取值范圍為[-1,1],值越大代表聚類效果越好。ARI的計(jì)算公式如下:
[ARI=RI-E(RI)max(RI)-E(RI)] ? ? ? ? ? (5)
式中:RI表示蘭德系數(shù)(Rand Index,RI);[E(RI)]表示RI的期望。RI的計(jì)算公式如下:
[RI=R+WR+M+D+W] ? ? ? ? ? ? (6)
式中:[R]為被聚在一類的2個(gè)對(duì)象被正確分類的樣本點(diǎn)對(duì)數(shù);[W]為不應(yīng)該聚在一類的2個(gè)對(duì)象被正確分開的樣本點(diǎn)對(duì)數(shù);[M]為不應(yīng)該聚在一類的樣本被放在一類的樣本點(diǎn)對(duì)數(shù);[D]為應(yīng)該聚在一類的樣本被錯(cuò)誤分開的樣本點(diǎn)對(duì)數(shù)。
3 ?算例分析
3.1 ?數(shù)據(jù)集介紹
本文采用2014年Deng等人一組實(shí)驗(yàn)數(shù)據(jù)[14]。該數(shù)據(jù)包含268個(gè)細(xì)胞,每個(gè)細(xì)胞在22 431個(gè)基因上的測(cè)序結(jié)果,具有維度高、稀疏性大,并且同一基因在不同細(xì)胞上的表達(dá)值差異較大等特點(diǎn)。
3.2 ?DAE模型搭建
本文DAE模型基于TensorFlow的Keras庫(kù)實(shí)現(xiàn)。通過大量的實(shí)驗(yàn),最終構(gòu)建的DAE網(wǎng)絡(luò)結(jié)構(gòu)為22 431?100?6?100?22 431。其中,網(wǎng)絡(luò)輸入層和輸出層的神經(jīng)元個(gè)數(shù)均為22 431,3個(gè)隱含層的神經(jīng)元個(gè)數(shù)分別為100,6和100。本文在實(shí)驗(yàn)階段分別嘗試了隱含層數(shù)目分別為1,3,5,7,9的情況,不同隱含層數(shù)目的損失和運(yùn)行時(shí)間,如圖4所示。實(shí)線代表訓(xùn)練損失,虛線代表網(wǎng)絡(luò)訓(xùn)練需要的時(shí)間,以s為單位。當(dāng)隱含層數(shù)目低于3個(gè)時(shí),訓(xùn)練速度較快但訓(xùn)練損失相對(duì)較高,訓(xùn)練效果不理想;當(dāng)隱含層數(shù)目大于3個(gè)時(shí),訓(xùn)練損失相對(duì)較低但訓(xùn)練時(shí)間相對(duì)較長(zhǎng);當(dāng)隱含層數(shù)目為3,5時(shí),兩者的訓(xùn)練損失相差不大,但隱含層數(shù)目為5時(shí)的訓(xùn)練速度明顯變慢。因此選擇隱含層數(shù)目為3的DAE進(jìn)行對(duì)比實(shí)驗(yàn)。
3.3 ?實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)數(shù)據(jù)樣本總數(shù)為268個(gè),每個(gè)樣本的屬性個(gè)數(shù)為22 431維。對(duì)原始的scRNA?seq數(shù)據(jù)正則化處理之后,按照7∶3的比例隨機(jī)分成訓(xùn)練集和測(cè)試集,利用訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,基于訓(xùn)練好的DAE模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行降維。然后分別使用K?means和DBSCAN兩種聚類函數(shù)對(duì)DAE降維之后的測(cè)試數(shù)據(jù)進(jìn)行聚類,與使用傳統(tǒng)降維方法SC3的聚類結(jié)果進(jìn)行對(duì)比。
1) K?means聚類結(jié)果分析
利用SSE確定聚類簇?cái)?shù),測(cè)試集聚類簇?cái)?shù)的確定過程如圖5所示。隨著簇?cái)?shù)的增大,每一個(gè)類別中樣本數(shù)量越來越少,簇內(nèi)距離越來越小,SSE值越來越小。但并不是簇?cái)?shù)越多聚類效果越好,當(dāng)SSE減小幅度緩慢時(shí),即使進(jìn)一步增大聚類簇?cái)?shù)量也不能增強(qiáng)聚類效果。
由圖5可知,拐點(diǎn)為[k]=4,可以確定K?means的最佳聚類簇?cái)?shù)為4。
為了進(jìn)一步驗(yàn)證SSE的結(jié)果,設(shè)計(jì)了4組對(duì)比實(shí)驗(yàn),分別計(jì)算簇?cái)?shù)為3,4,5和6時(shí)的聚類精度,如表1所示。由于K?means的聚類中心是隨機(jī)產(chǎn)生的,為了排除一次性極端情況,本文在固定了1組網(wǎng)絡(luò)參數(shù)及聚類簇?cái)?shù)的情況下進(jìn)行了40次實(shí)驗(yàn),并取40次實(shí)驗(yàn)輸出的平均值作為最終結(jié)果。
由表1可知,簇?cái)?shù)的選擇對(duì)聚類性能有很大的影響。當(dāng)簇?cái)?shù)為4時(shí),聚類性能最好,ARI為0.93,進(jìn)一步證明了SSE確定數(shù)據(jù)聚類簇?cái)?shù)目的有效性。
2) DBSCAN聚類結(jié)果分析
首先通過固定MinPts=3、改變Eps,進(jìn)行了5組實(shí)驗(yàn),確定Eps的取值,實(shí)驗(yàn)結(jié)果分析如表2所示。
由表2可知,當(dāng)固定MinPts=3,Eps取值為0.33時(shí),聚類性能最好,ARI為0.97。
最后在Eps=0.33的條件下進(jìn)行了5組實(shí)驗(yàn)來確定最優(yōu)MinPts值。實(shí)驗(yàn)結(jié)果分析如表3所示。
由表3可知,當(dāng)固定Eps=0.33時(shí),MinPts≤4時(shí),聚類性能均為0.97,但當(dāng)MinPts>4時(shí),聚類性能變壞。
通過上述實(shí)驗(yàn)可知,當(dāng)Eps=0.33,MinPts=4時(shí)聚類性能最好,ARI為0.97。
3.4 ?聚類精度對(duì)比
3種模型的聚類精度如表4所示。
由表4可知,針對(duì)當(dāng)前測(cè)試集,DAE+DBSCAN組合模型聚類性能相對(duì)較好,ARI為0.97;DAE+K?means組合模型的聚類性能略有下降,ARI為0.93。兩者差距為0.04,差距相對(duì)較小,進(jìn)一步說明了2種模型在處理scRNA?seq數(shù)據(jù)中具有較高的可用性。但是隨著數(shù)據(jù)量的增加,K?means在聚類過程中會(huì)消耗更多的時(shí)間,而DBSCAN在對(duì)大數(shù)據(jù)聚類時(shí)效率更高。因此,針對(duì)不同的訓(xùn)練集選擇合適的訓(xùn)練模型還需根據(jù)任務(wù)的時(shí)間敏感度來決定。另一方面,DAE降維之后的數(shù)據(jù)聚類精度明顯優(yōu)于直接利用SC3進(jìn)行聚類的精度,這表明,在對(duì)scRNA?seq數(shù)據(jù)不進(jìn)行篩選的情況下,利用深度學(xué)習(xí)的DAE模型提取基因表達(dá)信息更利于后續(xù)的單細(xì)胞聚類。2種組合模型的聚類精度較SC3都有所提升,最高提升0.24,進(jìn)一步證明了深度學(xué)習(xí)在scRNA?seq數(shù)據(jù)處理方面的優(yōu)越性。
4 ?結(jié) ?論
特征的有效提取是影響聚類效果的主要因素,而深度學(xué)習(xí)強(qiáng)大的特征提取能力可以獲得后續(xù)細(xì)胞聚類所需的有效基因表達(dá)信息。目前,將深度學(xué)習(xí)技術(shù)應(yīng)用于單細(xì)胞RNA測(cè)序數(shù)據(jù)聚類的研究相對(duì)較少,本文引入深度學(xué)習(xí)方法以提高對(duì)復(fù)雜數(shù)據(jù)特征的提取能力。實(shí)驗(yàn)結(jié)果表明,DAE+DBASCN的聚類精度更高。得到這一結(jié)果的主要原因是原有方法并未對(duì)噪聲數(shù)據(jù)以及異常數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,而DBSCAN算法能剔除噪聲、對(duì)噪聲數(shù)據(jù)不敏感,K?means算法對(duì)噪聲以及異常數(shù)據(jù)較敏感,因此K?means聚類精度略低于DBSCAN聚類精度。并且DBSCAN在對(duì)大數(shù)據(jù)進(jìn)行聚類時(shí)效率更高,因而在數(shù)據(jù)規(guī)模較大且含有噪聲的聚類任務(wù)中,DAE+DBSCAN組合模型的效率相對(duì)較高。通過實(shí)驗(yàn)對(duì)比進(jìn)一步驗(yàn)證了深度學(xué)習(xí)的DAE算法在單細(xì)胞聚類領(lǐng)域具有較好的應(yīng)用前景。
參考文獻(xiàn)
[1] BUETTNER F, PRATANWANICH N, MCCARTHY D J, et al. F?scLVM: scalable and versatile factor analysis for single?cell RNA?seq [J]. Genome biology, 2017, 18(1): 212?224.
[2] KISELEV V Y, KIRSCHNER K, SCHAUB M T, et al. SC3: consensus clustering of single?cell RNA?seq data [J]. Nature methods, 2017, 9(3): 384?395.
[3] ZURAUSKIENE, JUSTINA, YAU C. PcaReduce: hierarchical clustering of single cell transcriptional profiles [J]. BMC bioinformatics, 2016, 17(1): 140?150.
[4] SHIN J, BERG D, ZHU Y, et al. Single?cell RNA?seq with waterfall reveals molecular cascades underlying adult neurogenesis [J]. Cell stem cell, 2015, 17(3): 360?372.
[5] PIERSON E, YAU C. ZIFA: dimensionality reduction for zero?inflated single?cell gene expression analysis [J]. Genome biology, 2015, 16(1): 241?250.
[6] ZEISEL A, SIMONE C, PETER L, et al. Cell types in the mouse cortex and hippocampus revealed by single?cell RNA?seq [J]. Science, 2015, 347(6226): 1138?1142.
[7] GRUN D, LYUBIMOVA A, KESTER L, et al. Single?cell messenger RNA sequencing reveals rare intestinal cell types [J]. Nature, 2015, 56: 251?255.
[8] SU Y C, LI J, PLAZA A, et al. Deep auto?encoder network for hyperspectral image unmixing [C]// 2018 IEEE International Geoscience and Remote Sensing Symposium. Valencia: IEEE, 2019: 4309?4321.
[9] 宮浩,張秀再,胡敬鋒.一種基于深度學(xué)習(xí)的遙感圖像分類及農(nóng)田識(shí)別方法[J].現(xiàn)代電子技術(shù),2019,42(8):179?182.
[10] 譚夢(mèng)婕,呂鑫,陶飛飛.基于多特征融合的財(cái)經(jīng)新聞話題檢測(cè)研究[J].計(jì)算機(jī)工程,2019,45(3):293?299.
[11] RONG W G, NIE Y F, OUYANG Y X, et al. Auto?encoder based bagging architecture for sentiment analysis [J]. Journal of visual languages & computing, 2014, 25(6): 840?849.
[12] 謝娟英,王艷娥.最小方差優(yōu)化初始聚類中心的K?means算法[J].計(jì)算機(jī)工程,2014,40(8):205?211.
[13] 胡健,朱海灣,毛伊敏.基于自適應(yīng)蜂群優(yōu)化的DBSCAN聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(14):105?114.
[14] DENG Q, RAMSKOLD D, REINIUS B, et al. Single?cell RNA?seq reveals dynamic, random monoallelic gene expression in mammalian cells [J]. Science, 2014, 343: 193?196.
作者簡(jiǎn)介:何慧茹(1995—),女,山東濟(jì)寧人,碩士研究生,研究方向?yàn)橛?jì)算生物、深度學(xué)習(xí)。
李曉峰(1971—),男,山東臨沂人,博士,教授,碩士生導(dǎo)師,研究方向?yàn)橛?jì)算生物、數(shù)據(jù)挖掘、深度學(xué)習(xí)。