劉桂鋒, 于紹楠, 崔 璐
(1. 吉林大學中日聯誼醫(yī)院 放射線科, 長春 130033; 2. 吉林大學中日聯誼醫(yī)院 醫(yī)療保險管理部, 長春 130033)
單細胞轉錄組學在細胞發(fā)育分化、 腫瘤浸潤免疫細胞的功能狀態(tài)以及慢性疾病診療等領域應用廣泛. 近年來, 針對單細胞轉錄組數據的研究已有許多結果[1]. 但在研究人體器官、 組織各主要發(fā)育階段及慢性疾病狀態(tài)下各類細胞的內在規(guī)律、 相互關系和穩(wěn)態(tài)失衡等復雜細胞分化問題時, 以聚類算法為代表的傳統(tǒng)細胞類型識別方法存在準確率較低及結果缺乏合理生物醫(yī)學解釋的缺陷. 因此, 探索高效準確的細胞類型識別算法成為該領域亟待解決的問題之一. 為得到更準確的細胞分類結果, 文獻[2]提出了一種半監(jiān)督聚類算法, 其利用少量已標記的基因信息引導細胞樣本的聚類, 但由于少量標記基因的監(jiān)督能力較弱, 因此該細胞分類方法的準確率有待提高; 文獻[3]提出了一種半監(jiān)督降維輔助細胞分類算法, 該方法將少量標記樣本與無標記樣本混合以訓練自動編碼器網絡, 實現標記信號的放大和傳播, 但由于無標記樣本作為訓練樣本時不可避免地存在誤差, 當標記樣本較多時其分類性能仍然無法與強分類器相比. 基于此, 本文提出一種基于集成學習策略的單細胞RNA-seq數據分類算法, 該方法能利用不同分類算法各自的優(yōu)點尋找最佳的細胞類型劃分.
給定一個單細胞RNA-seq基因表達矩陣E∈n×m, 其中包含n個基因、m個細胞樣本和樣本標簽集合Y.設集成分類模型中包含L個分類器, 則對于任一細胞樣本x, 有
(1)
其中hi(x)表示集成模型中第i個算法為細胞x預測的細胞類型標記,wi表示算法的權重系數,H(x)表示集成模型為細胞x加權投票得到的細胞標記.算法的權重系數wi可根據專家經驗設定, 也可通過對數據集進行多次采樣訓練學習和調整.
本文的集成分類算法選取線性判別分析[4]、k-近鄰算法[5]、 分類回歸樹算法[6]、 樸素Bayes算法[7]以及支持向量機算法[8].線性判別分析方法通過找到不同類型細胞基因特征的線性組合區(qū)分細胞類型, 其目標函數[4]為
(2)
優(yōu)化求解得到w后, 將其與細胞xi基因表達向量代入線性函數可求得xi的所屬類別.k-近鄰算法的分類決策規(guī)則為通過細胞i在特征空間中最新的k個細胞類型判斷其自身細胞的細胞類型[5]:
(3)
其中I為指示函數, 當yi=j時I=1, 否則I=0.
分類回歸樹算法采用決策樹模型進行分類, 決策樹上各節(jié)點應用基尼指數選擇特征.設細胞屬于第q類的概率為pq, 則概率分布的基尼指數定義[6]為
(4)
樸素Bayes算法[7]學習從輸入到輸出的聯合概率分布, 再基于學習到的模型, 輸入細胞xi, 求出使后驗概率最大的輸出yi:
(5)
其中fr為單細胞樣本xi在第r個基因上的函數值.
支持向量機算法的分類決策規(guī)則為先將細胞表示為核函數映射的高維特征空間中的點, 并尋找盡可能寬的和明顯的分類間隔, 對不同細胞類型進行間隔區(qū)分; 然后將新的細胞映射到同一空間, 并判斷新細胞落在間隔分區(qū)的位置預測所屬細胞類型yi[8]:
(6)
為檢驗集成學習算法的細胞分類能力, 本文首先利用慢性粒細胞白血病(chronic myeloid leukemia, CML)單細胞RNA-seq數據GSE76312[9]進行算法比較和驗證, 這些數據來自美國國家生物信息中心(NCBI). 目前, NCBI已收錄約51 500條單細胞RNA-seq數據. 本文選擇的數據GSE76312等包含5種類型的細胞, 分別是急變期慢性粒細胞白血病細胞(BC-CML)、 慢性期慢性髓性白血病細胞(CP-CML)、 人紅白血病細胞系(k562)、 正常造血干細胞(normal)以及前急變期慢性粒細胞白血病細胞(pre-BC)[10]. 選擇1 102個不含絡氨酸激酶抑制劑的細胞, 這些細胞在5種類別上的分布如圖1所示. 由圖1可見, 細胞類別分布不均衡, 其中CP-CML約包含500個細胞, 而k562的細胞數則小于50個. 集成學習可利用不同分類算法各自的優(yōu)點, 減少類別不均衡分布對結果的影響. 本文利用偽發(fā)現率和差異倍數選取前234個差異表達基因作為分類特征.
圖2為不同分類算法對數據GSE76312的分類準確率比較. 由圖2可見, 與線性判別分析、k-近鄰算法、 分類回歸樹算法、 樸素Bayes算法和支持向量機算法相比, 本文提出的集成學習算法準確率最高, 分別比上述各算法高1.8%,10.0%,14.9%,27.0%和1.3%. 實驗結果表明, 采用集成學習策略能有效利用不同算法的優(yōu)點, 提高細胞分類的準確性.
a. BC-CML; b. CP-CML; c. k562;d. normal; e. pre-BC圖1 單細胞RNA-seq數據GSE76312的類別分布Fig.1 Category distribution of single cell RNA-seq data GSE76312
a. 線性判別分析; b. k-近鄰算法; c. 分類回歸樹算法;d. 樸素Bayes算法; e. 支持向量機算法; f. 集成學習算法.圖2 不同分類算法對數據GSE76312的分類準確率比較Fig.2 Comparison of classification accuracy of different classification algorithms on data GSE76312
為考察算法的泛化能力, 本文將不同算法應用到三陰性乳腺癌(triple-negative breast cancer, TNBC)單細胞測序數據GSE118390上, 該數據共包含6種類型的細胞, 分別是基細胞、 巨噬細胞、 上皮細胞、 內皮細胞、 T淋巴細胞和B淋巴細胞[11]. 選擇1 112個細胞, 這些細胞在6種類別上的分布如圖3所示. 由圖3可見, 細胞類別分布不均衡, 這種不均衡分布會降低分類算法的性能. 其中上皮細胞包含868個細胞, 而B淋巴細胞數則小于50個. 集成學習能利用不同分類算法各自的優(yōu)點, 減輕不均衡分布的影響. 本文利用偽發(fā)現率和差異倍數選取前56個差異表達基因作為分類特征.
圖4為不同分類算法對數據GSE118390的分類準確率比較: 由圖4可見, 與線性判別分析、k-近鄰算法、 分類回歸樹算法、 樸素Bayes算法和支持向量機算法相比, 本文提出的集成學習算法準確率最高, 分別比上述各算法高11.2%,1.9%,0.9%,36.3%和10.7%. 實驗結果表明, 集成細胞分類算法在三陰性乳腺癌單細胞測序數據上也取得了較好的分類效果.
綜上所述, 針對單細胞RNA-seq數據上的細胞分類問題, 本文提出了一種基于集成學習策略的單細胞RNA-seq數據集成分類算法. 首先將單細胞RNA-seq數據的細胞類型識別模型轉換為集成學習模型; 然后基于支持向量機、 樸素Bayes算法、 分類回歸樹算法、k-近鄰算法和線性判別分析算法構建了集成細胞分類模型, 對單細胞RNA-seq數據集中的細胞進行精確劃分. 分別在慢性粒細胞白血病單細胞測序數據和三陰性乳腺癌細胞測序數據上的實驗結果表明, 本文的集成分類算法能取得更高的分類準確率和較好的泛化能力.
a. 基細胞; b. 巨噬細胞; c. 上皮細胞;d. 內皮細胞; e. T淋巴細胞; f. B淋巴細胞.圖3 單細胞RNA-seq數據GSE118390的類別分布Fig.3 Category distribution of single cell RNA-seq data GSE118390
a. 線性判別分析; b. k-近鄰算法; c. 分類回歸樹算法;d. 樸素Bayes算法; e. 支持向量機算法; f. 集成學習算法.圖4 不同分類算法對數據GSE118390的分類準確率比較Fig.4 Comparison of classification accuracy of different classification algorithms on data GSE118390