李政偉,李佳樹,尤著宏,聶 茹,趙 歡,鐘堂波
(1. 中國礦業(yè)大學(xué)礦山數(shù)字化教育部工程研究中心,江蘇徐州 221116;2. 中國礦業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇徐州221116;3. 西北工業(yè)大學(xué)計算機學(xué)院,陜西西安 710129)
MicroRNA(縮寫為miRNA)是一類小的、內(nèi)源性、非編碼單鏈RNA 分子,其長度大約為22 個核苷酸,在人類蛋白質(zhì)編碼基因的調(diào)控中起到關(guān)鍵作用[1]. 諸多研究分析顯示miRNA 在眾多生物進程中,例如細(xì)胞增殖、分化、凋亡、病毒感染等[2],起著至關(guān)重要的作用.同時,miRNA 的突變或者異常表達(dá)往往會誘導(dǎo)多種人類復(fù)雜疾病的產(chǎn)生和演化[3]. 例如,通過單變量Cox 回歸分析發(fā)現(xiàn),miR-155 和miR-150 的表達(dá)水平對淋巴瘤病人的無進展生存期(Progression-Free-Survival,PFS)有著重要影響[4]. 因此,識別miRNA 與疾病間的潛在關(guān)聯(lián)有助于醫(yī)療人員從分子角度理解疾病的病理機理,從而促進臨床診斷、治療和預(yù)后.
傳統(tǒng)的識別miRNA 與疾病間潛在關(guān)聯(lián)的生物學(xué)濕實驗方法主要有Northern 雜交[5]、逆轉(zhuǎn)錄聚合酶鏈反應(yīng)[6]、微陣列分析[7]等. 但是這些方法往往會受到環(huán)境影響,且需要大量的資金和時間投入,效率低下. 隨著計算機的存儲和運算能力的飛速發(fā)展,以及大量收集相關(guān)miRNA 和疾病信息的生物數(shù)據(jù)庫的建立,設(shè)計更加高效的計算方法,實現(xiàn)大規(guī)模、高置信度地預(yù)測miRNA 與疾病間的潛在關(guān)聯(lián),逐漸受到科研人員的廣泛關(guān)注[8,9].
啟發(fā)于深度學(xué)習(xí)理論在生物信息學(xué)領(lǐng)域的成功應(yīng)用[10,11],本文提出一種基于異質(zhì)圖注意力網(wǎng)絡(luò)的端到端模型即HGATMDA(Heterogeneous Graph Attention Network for MiRNA-Disease Associations Prediction)來預(yù)測miRNA 與疾病間的潛在關(guān)聯(lián). 具體而言,首先將集成的miRNA 相似性信息、集成的疾病相似性信息以及經(jīng)實驗驗證的miRNA-疾病關(guān)聯(lián)整合進miRNA-疾病異質(zhì)圖中,并設(shè)計了頂點類型轉(zhuǎn)換矩陣將異質(zhì)的頂點特征投影至同一向量空間中;其次,采用多頭注意力機制聚合異質(zhì)鄰居頂點特征,并將聚合后的特征與中心頂點的屬性特征相融合,得到更具有表達(dá)能力的miRNA和疾病頂點的特征表示;之后,將miRNA-疾病對特征輸入至全連接層(Fully Connected Layer,F(xiàn)CL)中得出預(yù)測的概率;最后,根據(jù)預(yù)測的概率與標(biāo)簽間的損失對整個模型進行端到端的訓(xùn)練. HGATMDA 模型的流程圖如圖1所示.
圖1 基于異質(zhì)圖注意力網(wǎng)絡(luò)的miRNA-疾病關(guān)聯(lián)預(yù)測模型流程圖
本實驗從“https://www.cuilab.cn/hmdd”下載了HMDD v2.0 和HMDD v3.0 數(shù)據(jù)集來對模型的預(yù)測效果進行驗證[12]. 如表1 所示,經(jīng)過數(shù)據(jù)預(yù)處理,HMDD v2.0 數(shù)據(jù)集中包含383 種疾病與495 種miRNA 間5 430條經(jīng)實驗證實的miRNA-疾病關(guān)聯(lián),HMDD v3.0 數(shù)據(jù)集中包含850 種疾病與1 057 種miRNA 間32 226 條經(jīng)實驗證實的miRNA-疾病關(guān)聯(lián). 為了便于存儲,本實驗采用二值矩陣A(nd×nm)來表示miRNA與疾病間的關(guān)聯(lián),其中nd 表示疾病數(shù)目,nm 表示miRNA 數(shù)目. 若疾病d(i)與miRNAm(j)有關(guān)聯(lián),則二值矩陣A對應(yīng)位置的元素A(d(i),m(j))被賦值為1,否則為0.
表1 本文所用miRNA-疾病關(guān)聯(lián)信息
基于表型相似的疾病可能與功能相似的miRNA發(fā)生關(guān)聯(lián)這一基本生物學(xué)假設(shè),Wang 等人提出一種計算miRNA 功能相似性的模型[13]. 本實驗從“https://www. cuilab.cn/files/images/cuilab/misim.zip”下載了miRNA 功能相似性數(shù)據(jù),并構(gòu)建出長度為nm的方陣FSM來存儲miRNA的功能相似性.
本實驗基于美國國家醫(yī)學(xué)圖書館的MeSH(Medi?cal Subject Headings)數(shù)據(jù)庫計算疾病的語義相似性[14]. 疾病間抽象出的數(shù)據(jù)結(jié)構(gòu)可以用有向無環(huán)圖(Directed Acyclic Graph,DAG)進行表示. 具體而言,采用DAG(d(i)) =(d(i),T(d(i)),E(d(i)))來描述疾病d(i),其中,T(d(i))表示包含頂點d(i)自身及其祖先頂點的集合,E(d(i))表示包含從d(i)的祖先頂點到頂點d(i)的路徑上所有直連的邊的集合. 因此,疾病d(k)對d(i)的語義貢獻值計算如下:
式(1)中,Δ表示語義貢獻衰減因子,設(shè)置為0.5;C{d(k)}表示疾病d(k)的孩子頂點集合. 于是,疾病d(i)的語義值定義為
基于不同疾病間共享的DAG 部分越多,就具有更高的語義相似性這一假設(shè)(其中共享的DAG 部分指不同疾病頂點的祖先頂點的交集),疾病語義相似性矩陣DSSM1計算如下:
由于不同疾病在DAG 中出現(xiàn)的次數(shù)不盡相同,同一層DAG 中的疾病往往也會有不同的疾病語義貢獻值,因此,根據(jù)疾病在DAG 中出現(xiàn)的次數(shù)計算另一種疾病d(k)對d(i)的語義貢獻值的計算如下:
相應(yīng)地,第二種疾病d(i)的語義值以及疾病的語義相似性矩陣DSSM2計算如下:
整合上述兩種疾病語義相似性矩陣,計算最終的疾病語義相似性矩陣DSSM如下:
鑒于上述方法得出的miRNA 功能相似性矩陣以及疾病語義相似性矩陣具有稀疏性,本實驗引入高斯相互作用譜核相似性[15]來進一步完善miRNA 和疾病的相似性信息. 根據(jù)miRNAm(i)是否與每一種疾病發(fā)生關(guān)聯(lián),構(gòu)建二值向量IP(m(i))表示miRNA 的相互作用譜.miRNA的高斯相互作用譜核相似性矩陣MGSM為
式(8)中,rm用以調(diào)控函數(shù)的帶寬,可通過規(guī)范化參數(shù)計算而得:
式(9)中,r'm設(shè)置為1. 同樣地,疾病的高斯相互作用譜核相似性矩陣DGSM可由下式計算:
其中,二值向量IP(d(i))表示疾病d(i)是否與每一種miRNA存在關(guān)聯(lián),r'd設(shè)置為1.
本文將miRNA 與疾病的高斯相互作用譜核相似性矩陣整合進miRNA 的功能相似性矩陣和疾病的語義相似性矩陣中,從而得到集成的miRNA相似性矩陣IM與集成的疾病相似性矩陣ID.
本文構(gòu)建了miRNA-疾病異質(zhì)圖,共包含兩類頂點(分別為miRNA 頂點與疾病頂點),以及一類邊(表示miRNA 與疾病間的關(guān)聯(lián)). 其中,miRNA 頂點數(shù)目為nm,疾病頂點數(shù)目為nd,miRNA 與疾病間的關(guān)聯(lián)數(shù)目為2S. 由于HMDD 數(shù)據(jù)集中經(jīng)實驗證實的miRNA-疾病關(guān)聯(lián)數(shù)目遠(yuǎn)小于miRNA 與疾病間的未知關(guān)聯(lián)數(shù)目,因此,從所有的未知關(guān)聯(lián)中隨機選取S條miRNA-疾病關(guān)聯(lián)作為負(fù)樣本. 在miRNA 和疾病頂點間相應(yīng)地添加S條正邊與S條負(fù)邊,并將miRNA 的集成相似性信息賦給miRNAm(i)頂點,作為其屬性特征Fm(i),即
由于miRNA-疾病異質(zhì)圖中的miRNA 頂點和疾病頂點分別處于不同的特征空間中,對于每一種類型的頂點(例如類型為Φi的頂點),本實驗設(shè)計了頂點類型轉(zhuǎn)換矩陣WΦi將miRNA 頂點和疾病頂點投影到同一向量空間中進行計算,即
式(6)中,F(xiàn)i和Hi分別表示頂點i的初始屬性特征和投影后的屬性特征;WΦi表示針對類型為Φi的頂點的投影矩陣,該矩陣可將不同向量空間的頂點投影至D維的向量空間中. 因此,miRNA頂點和疾病頂點可處在同一個向量空間中進行后續(xù)計算. 由于異質(zhì)鄰居頂點對中心頂點存在不同程度的影響,本實驗采用多頭注意力機制[16,17]聚合異質(zhì)頂點的鄰域信息,并將其與中心頂點的屬性信息進行融合,從而得到包含異質(zhì)圖結(jié)構(gòu)與頂點屬性信息的miRNA 和疾病的有效特征嵌入. 首先計算中心頂點i與其鄰居頂點j之間的注意力分?jǐn)?shù)eij:
式(17)中,LeakyReLU 為非線性激活函數(shù)(負(fù)輸入斜率為0.2). 僅計算頂點j?Ni的注意力分?jǐn)?shù)eij,其中,Ni表示頂點i的一階異質(zhì)鄰居頂點集合. 采用softmax 函數(shù)規(guī)范化注意力分?jǐn)?shù)eij,并計算出注意力權(quán)重系數(shù)αij,即
再根據(jù)頂點i的投影特征和注意力權(quán)重系數(shù)計算出頂點i的異質(zhì)鄰居聚合特征H'i,即
式(19)中,σ(?)表示ELU 激活函數(shù). 為了使模型學(xué)習(xí)到的特征嵌入更加穩(wěn)定,按照上述公式獨立計算K次,并將每次計算的結(jié)果拼接起來作為頂點i最終的異質(zhì)鄰居聚合特征H'i,即
上述過程僅聚合了異質(zhì)鄰居特征,卻忽略了中心頂點特征,因此將異質(zhì)鄰居聚合特征H'i與中心頂點特征Fi拼接,并通過全連接層進行特征融合,表示為
式(21)中,g(?)表示輸出維度為64的全連接層,⊕表示特征拼接操作. 最終分別獲得64維度的miRNA 嵌入特征Zm和64維度的疾病嵌入特征Zd.
為了獲得miRNAm(i)與疾病d(j)間關(guān)聯(lián)的預(yù)測概率,將上述得到的miRNA 和疾病嵌入特征拼接,并通過全連接層生成預(yù)測概率,即
式(22)中,f(?)表示輸入維度為128,輸出維度為1 的全連接層;sigmoid(?)表示非線性激活函數(shù).
本文采用交叉熵?fù)p失計算模型的預(yù)測值與標(biāo)簽間的損失,表示為
式(23)中,yij表示miRNAm(i)與疾病d(j)間的關(guān)聯(lián)標(biāo)簽;Y和Y-分別表示正樣本和負(fù)樣本對應(yīng)的頂點集. 最后,采用反向傳播算法對整個模型進行端到端的訓(xùn)練.
本實驗基于深度圖庫(Deep Graph Library,DGL)[18]實現(xiàn),后端采用PyTorch 框架,并采用Adam 作為模型的優(yōu)化器. 經(jīng)過網(wǎng)格搜索,設(shè)置學(xué)習(xí)率(Learning Rate)為0.0001,權(quán)重衰減(Weight Decay)為5×10-3. 為了防止過擬合,設(shè)置丟棄率(Dropout)為0.6. 為了保持較高的計算效率,設(shè)置多頭注意力頭數(shù)K為8,投影向量維度D為64. 為了充分訓(xùn)練模型的參數(shù),訓(xùn)練批次(Epochs)設(shè)置為1 000.
本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)以及F1 值(F1-score)作為模型的評價指標(biāo),具體計算公式如下:
式(24)~(27)中,TP,TN,F(xiàn)P,F(xiàn)N 分別表示真正例數(shù)、真負(fù)例數(shù)、假正例數(shù)和假負(fù)例數(shù). 此外,本文還繪制了受試者工作特征(Receiver Operating Characteristic,ROC)曲線以及精確率-召回率(Precision-Recall,P-R)曲線來直觀地顯示模型的預(yù)測能力,并分別計算了ROC 曲線下面積(Area Under the Curve,AUC)以及P-R 曲線下面積(Average Precision,AP)來綜合評估模型的預(yù)測能力.
本實驗采用5 折交叉驗證法(5-fold crossvalidation)對模型的預(yù)測能力進行評估. 本文所提模型在HMDD v2.0數(shù)據(jù)集上的預(yù)測結(jié)果如表2所示,取得了86.14%的準(zhǔn)確率、86.10%的精確率、86.25%的召回率以及86.15%的F1 值. 所提模型在HMDD v3.0 數(shù)據(jù)集上的預(yù)測結(jié)果如表3 所示,取得了87.85%的準(zhǔn)確率、88.02%的精確率、87.64%的召回率以及87.83%的F1值. 所提模型的5 折交叉驗證ROC 曲線和P-R 曲線如圖2 所示,該模型在HMDD v2.0 數(shù)據(jù)集上取得了93.52%的AUC 值和93.15%的AP 值,在HMDD v3.0 數(shù)據(jù)集上取得了94.82%的AUC 值和94.66%的AP 值. 由于HMDD v3.0 數(shù)據(jù)集中包含了更多的樣本數(shù)量,且深度學(xué)習(xí)模型在更大的數(shù)據(jù)集上一般體現(xiàn)出更優(yōu)的擬合效果,相較于HMDD v2.0 數(shù)據(jù)集,所提模型在HMDD v3.0數(shù)據(jù)集上關(guān)于6項評價指標(biāo)均表現(xiàn)出更高的值. 為方便后續(xù)對比實驗的展開,接下來的實驗均采用HMDD v2.0數(shù)據(jù)集為基準(zhǔn)數(shù)據(jù)集.
圖2 所提模型基于5折交叉驗證的實驗結(jié)果圖
表2 所提模型基于5折交叉驗證在HMDD v2.0數(shù)據(jù)集上的實驗結(jié)果
表3 所提模型基于5折交叉驗證在HMDD v3.0數(shù)據(jù)集上的實驗結(jié)果
本實驗將中心頂點特征與其鄰居聚合特征相融合作為最終的miRNA 和疾病的特征. 為了對比這種融合方式對模型預(yù)測能力的影響,本實驗分別設(shè)計了只采用中心頂點特征的模型和只采用異質(zhì)鄰居聚合特征的模型,最終的對比結(jié)果如表4 所示. 從表中可以看出,本文所提模型在這三個模型中取得了最高的準(zhǔn)確率、精確率、F1值、AUC 值以及AP值;盡管只采用鄰居聚合特征的模型取得了最高的召回率,但其在其他5項指標(biāo)上均遠(yuǎn)低于本文所提模型. 本文所提模型以多頭注意力機制形式從多個角度探索miRNA-疾病異質(zhì)圖中異質(zhì)頂點間復(fù)雜的交互信息,生成涵蓋異質(zhì)圖結(jié)構(gòu)及頂點屬性信息的嵌入特征,進一步加強miRNA 和疾病特征的表達(dá)能力,提高模型的預(yù)測能力.
表4 所提模型與未進行特征融合的模型的對比實驗結(jié)果
為了進一步驗證本文所提模型的有效性,將其與WBSMDA[19],BNPMDA[20],KBMFMDA[21],WBNPMD[22],M2GMDA[23],KNMBP[24],MCLPMDA[25]等7個模型基于5折交叉驗證的平均AUC 值進行比較,此外,還對比了不同注意力頭數(shù)K對所提模型AUC值的影響,詳細(xì)的對比結(jié)果如表5 所示. 從表中可以看出,適當(dāng)增加注意力的頭數(shù)可以提高模型的預(yù)測能力,但過多的注意力頭數(shù)反而會對模型預(yù)測能力起反作用. 最終,本文選擇的注意力頭數(shù)K=8,其對應(yīng)的AUC值為93.52%,在所有8個模型中最高.
表5 所提模型與其他方法的AUC值的對比結(jié)果
為了進一步評估本文所提模型在預(yù)測特定疾病潛在的相關(guān)miRNA 方面的性能,本文針對食管腫瘤疾病開展了病例研究. 首先采用HMDD v2.0 數(shù)據(jù)集對模型進行訓(xùn)練,然后預(yù)測與食管腫瘤有潛在相關(guān)的前50 種miRNA,最后通過dbDEMC[26]和miR2Disease[27]數(shù)據(jù)庫進行驗證.
食管腫瘤是一種發(fā)生在食管組織中的惡性腫瘤,全球范圍內(nèi)每年大約會有30 萬人死于食管腫瘤. 本文選擇食管腫瘤作為病例研究對象. 實驗驗證結(jié)果如表6所示,通過在dbDEMC 和miR2Disease 兩個數(shù)據(jù)庫中進行核實,模型預(yù)測的前25 個miRNA 中有24 個被證實,前50 個miRNA 中有48 個被證實. 因此,本文所提出的模型能有效預(yù)測出潛在的疾病相關(guān)miRNA,可作為一種便捷的工具指引研究人員開展相關(guān)具體的生物實驗研究.
表6 所提模型預(yù)測出的前50個與食管腫瘤有關(guān)聯(lián)的miRNA
本文提出了一種基于異質(zhì)圖注意力網(wǎng)絡(luò)的端到端計算模型(HGATMDA)預(yù)測潛在的miRNA 與疾病間的關(guān)聯(lián). 該模型首先將miRNA 和疾病間的多重相似性信息建模為異質(zhì)圖,并設(shè)計了頂點類型的轉(zhuǎn)換矩陣將異質(zhì)的頂點特征投影至同一向量空間中;然后采用多頭注意力機制聚合中心頂點的異質(zhì)鄰居特征,并將其與中心頂點的特征進行有效融合,得到更具有表達(dá)能力的miRNA 和疾病特征嵌入;最后,將得到的miRNA 和疾病特征嵌入輸入至全連接層中對潛在的miRNA 與疾病間關(guān)聯(lián)進行預(yù)測.5 折交叉驗證的結(jié)果表明,本文所提模型在多項評價指標(biāo)上均取得了較為滿意的結(jié)果.與未進行特征融合的模型的對比發(fā)現(xiàn),本文所提模型的特征融合策略能夠有效提升模型的預(yù)測性能. 此外,對食管腫瘤的病例研究結(jié)果也顯示出所提模型具有良好的預(yù)測能力. 上述實驗結(jié)果均表明,本文提出的計算模型可作為預(yù)測miRNA 與疾病間潛在關(guān)聯(lián)的可靠工具. 在接下來的研究中,將嘗試在模型中嵌入更多的多源信息,如miRNA 序列信息、靶基因信息等,以期進一步提升模型的預(yù)測性能.