富 坤,李佳寧
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
經(jīng)典的分子生物學(xué)中心法則將RNA 視為基因與其編碼蛋白的中間媒介。根據(jù)人類基因組序列分析顯示,大部分基因都可以參與轉(zhuǎn)錄過程形成對應(yīng)RNA 產(chǎn)物,但具有蛋白編碼功能的基因僅占人類基因組序列的約1.5%,這些非編碼基因通過轉(zhuǎn)錄產(chǎn)生了大量的非編碼RNA 分子[1,2]。其中,序列長度大于200 核苷酸分子的非編碼RNA 被稱為長鏈非編碼RNA(long non-coding RNA,lncRNA)[3]。越來越多的研究表明[4,5],lncRNA 可以通過堿基互補(bǔ)配對干擾下游基因的表達(dá),參與了人體內(nèi)包括轉(zhuǎn)錄及轉(zhuǎn)錄后調(diào)控、表觀遺傳調(diào)控、代謝過程和染色體動力學(xué)等多種生命進(jìn)程,并在其中發(fā)揮著重要的調(diào)控作用。因此,lncRNA 的突變或失調(diào)與多種復(fù)雜疾病,尤其是各種癌癥的產(chǎn)生發(fā)展密切相關(guān)[6,7]。而采用生物實驗驗證特定lncRNA-疾病關(guān)聯(lián)代價高昂,缺乏普適性。近年來通過挖掘已知的生物信息數(shù)據(jù),采用經(jīng)典機(jī)器學(xué)習(xí)或新興深度學(xué)習(xí)方法設(shè)計計算模型預(yù)測潛在lncRNA 與疾病關(guān)聯(lián),逐漸成為生物信息領(lǐng)域的研究熱點(diǎn)[8]。采用計算方法識別潛在的lncRNA-疾病關(guān)聯(lián),不僅可以在lncRNA 分子水平更好地理解各種人類復(fù)雜疾病的發(fā)生發(fā)展機(jī)制,也對復(fù)雜疾病的診斷、治療、預(yù)后和藥物反應(yīng)預(yù)測具有重要價值[9,10]。借助于高速發(fā)展的計算機(jī)技術(shù)以及各種智能計算方法的不斷完善,目前已經(jīng)存在大量的lncRNA-疾病關(guān)聯(lián)預(yù)測模型,但每種方法都有其各自的優(yōu)勢與不足。依據(jù)不同模型流程與算法的差異,當(dāng)前主流的預(yù)測方法分為以下4 類:基于機(jī)器學(xué)習(xí)的方法,基于生物特征信息的方法,基于信息網(wǎng)絡(luò)的方法和基于矩陣分解的方法。本文在此分類的基礎(chǔ)上介紹了每類方法中的經(jīng)典模型,并對每類方法的特點(diǎn)以及普遍存在的缺陷進(jìn)行了總結(jié),旨在系統(tǒng)性地歸納當(dāng)前l(fā)ncRNA-基本預(yù)測的計算模型,為后續(xù)模型的研發(fā)提供進(jìn)一步的改進(jìn)方向。
1.1 LRLSLDA 模型 根據(jù)“相似疾病通常與功能相似的lncRNA 相關(guān)”這一假設(shè),Chen X等[11]提出了lncRNA-疾病關(guān)聯(lián)預(yù)測領(lǐng)域的第1 個計算模型LRLSLDA。該方法基于半監(jiān)督機(jī)器學(xué)習(xí)框架,采用拉普拉斯正則最小二乘計算特定lncRNA 和相關(guān)疾病之間潛在關(guān)聯(lián)的概率得分。利用已知lncRNA-疾病關(guān)聯(lián)、lncRNA 表達(dá)譜數(shù)據(jù)以及高斯相互作用譜核構(gòu)建了lncRNA 與疾病的相似度矩陣,基于兩個相似度矩陣進(jìn)行拉普拉斯正則化操作,最小化損失函數(shù)。分別在lncRNA 空間和疾病空間得到兩個優(yōu)化后的分類器,將兩個分類器的預(yù)測組合作為關(guān)聯(lián)預(yù)測得分的輸出。最終預(yù)測概率得分矩陣的計算公式為:
其中,F(xiàn)L*和FD*分別代表基于lncRNA 和疾病空間的分類器最優(yōu)分類函數(shù),1w 為lncRNA 空間分類器的置信權(quán)重。F*(i,j)代表矩陣中第i 行的lncRNAli與第j 列的疾病dj間的關(guān)聯(lián)概率。
LRLSLDA 作為一種開創(chuàng)性方法,首次將機(jī)器學(xué)習(xí)分類框架應(yīng)用于lncRNA 與疾病關(guān)聯(lián)預(yù)測領(lǐng)域,為后續(xù)模型的開發(fā)提供了理論假設(shè)基礎(chǔ)與借鑒經(jīng)驗。在lncRNA-疾病關(guān)聯(lián)數(shù)據(jù)數(shù)量稀少的情況下,其留一法交叉驗證(LOOCV)實驗的AUC 值(ROC曲線下方面積)達(dá)到了0.776。然而,LRLSLDA 在不同空間下分別計算相似性的思想導(dǎo)致了模型的參數(shù)較多,大量參數(shù)只能依靠經(jīng)驗知識預(yù)設(shè),限制了模型預(yù)測性能的進(jìn)一步提升。此外,矩陣正則化操作的計算時間復(fù)雜度較高,難以適應(yīng)當(dāng)前快速增長的人類基因組學(xué)數(shù)據(jù)。
1.2 CFNBC 模型 基于LRLSLDA 方法的理論假設(shè),Yu J等[12]融合樸素貝葉斯分類器和協(xié)同過濾模型提出了CFNBC 預(yù)測模型。該模型基于已知的lncRNA-疾病關(guān)聯(lián)、lncRNA-miRNA 關(guān)聯(lián)和miRNA-疾病關(guān)聯(lián)搭建原始的三部網(wǎng)絡(luò)(tripartite network),之后利用基于項目的協(xié)同過濾推薦算法更新原始網(wǎng)絡(luò),將更新后網(wǎng)絡(luò)輸入樸素貝葉斯分類器,完成預(yù)測任務(wù)。該模型的創(chuàng)新在于應(yīng)用協(xié)同過濾算法豐富了原始網(wǎng)絡(luò)中l(wèi)ncRNA-疾病關(guān)聯(lián),使得最終的預(yù)測結(jié)果不完全依賴于已知的lncRNA 與疾病關(guān)聯(lián)數(shù)據(jù),在一定程度上抵消了已知關(guān)聯(lián)稀疏性的影響。在LOOCV實驗中,CFNBC方法的AUC值達(dá)到了0.86,對比當(dāng)時主流的lncRNA-疾病關(guān)聯(lián)預(yù)測模型,預(yù)測性能提升明顯。但是,基于樸素貝葉斯分類器模型的訓(xùn)練過程中,需要不存在關(guān)聯(lián)關(guān)系的lncRNA-疾病對作為負(fù)樣本輸入,模型基于隨機(jī)采樣收集的負(fù)樣本極有可能存在尚不知曉的關(guān)聯(lián),進(jìn)而影響分類器的預(yù)測準(zhǔn)確率。
1.3 基于深度學(xué)習(xí)的預(yù)測方法 深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個重要分支,已然成為機(jī)器學(xué)習(xí)研究的熱點(diǎn)問題。許多成熟的深度學(xué)習(xí)模型,如全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等,已經(jīng)被成功應(yīng)用于lncRNA-疾病關(guān)聯(lián)預(yù)測任務(wù)中[13-15]。如Xuan P等[16,17]基于帶注意力的雙卷積神經(jīng)網(wǎng)絡(luò)和混合圖卷積網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的方法提出兩個預(yù)測框架。這兩個模型的基本思想都是利用不同的神經(jīng)網(wǎng)絡(luò)模型提取隱含不同生物特征的lncRNA 和疾病節(jié)點(diǎn)表示,實現(xiàn)lncRNA-疾病關(guān)聯(lián)預(yù)測。Wu QW 等[18]優(yōu)化了Xuan P等[16,17]提出的第2 個混合模型,僅利用圖卷機(jī)提取的節(jié)點(diǎn)對特征和隨機(jī)森林分類器,實現(xiàn)了較之前模型更為優(yōu)秀的預(yù)測效果。不同于傳統(tǒng)的機(jī)器學(xué)習(xí)分類器,深度學(xué)習(xí)僅依靠輸入簡單的關(guān)聯(lián)特征或相似性數(shù)據(jù)就可以直接得到預(yù)測結(jié)果,不需要收集負(fù)樣本,避免了隨機(jī)負(fù)樣本帶來的訓(xùn)練誤差。但同樣受限于多源異構(gòu)數(shù)據(jù)的差異以及數(shù)據(jù)規(guī)模問題,大部分深度網(wǎng)絡(luò)模型難以依靠現(xiàn)有數(shù)據(jù),有效挖掘深層的lncRNA-疾病關(guān)聯(lián)信息,但其依舊是當(dāng)前主流預(yù)測方法的一個重要研究發(fā)展方向。
基于生物特征信息預(yù)測lncRNA-疾病關(guān)聯(lián)的方法大都出現(xiàn)在關(guān)聯(lián)預(yù)測模型研究早期,每種方法都依托于不同的生物研究證實理論或提出的合理假說,需要特定的專業(yè)先驗設(shè)計模型。因此,這類方法一般普適性較差,只能對當(dāng)前研究較為充分,或能夠使相應(yīng)假說成立的lncRNA 與疾病關(guān)聯(lián)進(jìn)行預(yù)測[19]。本文介紹了兩種早期經(jīng)典方法,分別基于lncRNA基因組位置和lncRNA 組織特異性相關(guān)理論實現(xiàn)關(guān)聯(lián)預(yù)測任務(wù)。
2.1 基于基因組位置的lncRNA 與心血管疾病預(yù)測方法 Li J等[20]基于lncRNA 的基因組位置信息,提出預(yù)測與心血管疾病相關(guān)lncRNA 的方法。該方法收集了與心血管疾病相關(guān)的基因數(shù)據(jù)、單核苷酸突變(SNP)關(guān)聯(lián)數(shù)據(jù),并通過關(guān)鍵詞檢索提取與心血管疾病相關(guān)的基因本體(GO)術(shù)語,得到GO 基因位置前后50 kb 內(nèi)的lncRNA 轉(zhuǎn)錄位點(diǎn),認(rèn)為在此范圍內(nèi)的lncRNA 與心血管疾病具有較高的關(guān)聯(lián)可能性。利用該方法預(yù)測出的10 個與血管平滑肌細(xì)胞增殖和遷移關(guān)聯(lián)的lncRNA 中,有8 個得到了相關(guān)文獻(xiàn)證實,證明了模型的有效性。此方法的缺點(diǎn)主要是應(yīng)用范圍有限,實驗數(shù)據(jù)與流程設(shè)計僅針對心血管疾病相關(guān)的lncRNA 預(yù)測,無法對lncRNA 與其他疾病關(guān)聯(lián)進(jìn)行預(yù)測。另一方面,基于基因組位置與功能相似性的假設(shè)同樣具有局限性,并非所有的lncRNA 都具有相鄰基因,相鄰基因也不一定全部具備相似功能。
2.2 基于lncRNA 組織特異性的相關(guān)疾病預(yù)測方法基于人類基因表達(dá)譜數(shù)據(jù)lncRNA 表達(dá)譜數(shù)據(jù)和基因-疾病關(guān)聯(lián)數(shù)據(jù),Liu MX等[21]根據(jù)lncRNA 的組織特異性特征提出了一種全新的lncRNA-疾病關(guān)聯(lián)預(yù)測模型。該模型根據(jù)lncRNA 在各不同組織中的表達(dá)量得到lncRNA 的組織特異性得分,按照設(shè)定閾值將lncRNA 分為組織特異lncRNA 和非組織特異lncRNA,對兩類lncRNA 分別設(shè)計不同的方法流程進(jìn)行關(guān)聯(lián)預(yù)測。對于組織特異的lncRNA,認(rèn)為該lncRNA 關(guān)聯(lián)與該組織相關(guān)的所有疾?。粚τ诜墙M織特異lncRNA,通過表達(dá)數(shù)據(jù)計算lncRNA 和基因的斯皮爾曼相關(guān)系數(shù),得到lncRNA 與基因的共表達(dá)關(guān)系,再利用lncRNA 與疾病共同關(guān)聯(lián)的基因集作為橋梁進(jìn)行超幾何分布富集分析,量化該關(guān)聯(lián)存在的概率。該模型交叉驗證的AUC 值達(dá)到了0.7645。在針對組織特異性lncRNA 進(jìn)行的案例分析結(jié)果中,在預(yù)測概率得分前10 的lncRNA 中,有4 個得到了相關(guān)文獻(xiàn)證實,而對于非組織特異性lncRNA,預(yù)測的36 個關(guān)聯(lián)中有32 個得到了相關(guān)文獻(xiàn)證實。
數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)可以天然地表示lncRNA 與各種生物分子間的相互作用,基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性信息的關(guān)聯(lián)預(yù)測方法也成為了lncRNA-疾病關(guān)聯(lián)預(yù)測方法中的一個重要分支[22,23]。此類方法可以高效地集成大規(guī)模的多源異構(gòu)網(wǎng)絡(luò)數(shù)據(jù),通常利用信息傳播或隨機(jī)游走的網(wǎng)絡(luò)發(fā)現(xiàn)算法實現(xiàn)網(wǎng)絡(luò)中節(jié)點(diǎn)的關(guān)聯(lián)預(yù)測[24]。相比于基于機(jī)器學(xué)習(xí)的集成模型或深度模型,該類方法的時間復(fù)雜度要低很多,可以更好地適應(yīng)快速增長的網(wǎng)絡(luò)數(shù)據(jù)。但是,多源數(shù)據(jù)間的差異集成以及大規(guī)模網(wǎng)絡(luò)的融合是此類方法函待解決的問題。
3.1 RWRlncD 模型 隨著生物大數(shù)據(jù)時代的到來,出現(xiàn)了海量的生物網(wǎng)絡(luò)數(shù)據(jù),研究者們借助不斷完善的網(wǎng)絡(luò)表示學(xué)習(xí)算法,設(shè)計了一系列基于lncRNA相關(guān)信息網(wǎng)絡(luò)的預(yù)測方法,其中早期的典型方法有Yang X 等[25]提出的RWRlncD 模型。通過集成lncRNA-疾病關(guān)聯(lián)、基因-疾病關(guān)聯(lián)數(shù)據(jù),將lncRNA映射為非編碼基因,構(gòu)建了一個編碼-非編碼基因-疾病二分網(wǎng)絡(luò)。然后,利用傳播算法來尋找該網(wǎng)絡(luò)中隱藏的lncRNA-疾病關(guān)聯(lián)。RWRlncD 方法以網(wǎng)絡(luò)的形式整合多種關(guān)聯(lián)數(shù)據(jù),從網(wǎng)絡(luò)投影的角度解釋了關(guān)聯(lián)數(shù)據(jù)中隱含的同類節(jié)點(diǎn)間相似性關(guān)聯(lián)。對103種疾病進(jìn)行的LOOCV 預(yù)測評估實驗中,AUC 值達(dá)到了0.7881。但由于二分網(wǎng)絡(luò)整合的關(guān)聯(lián)數(shù)據(jù)有限,模型采用的傳播算法難以挖掘網(wǎng)絡(luò)中深層的隱含關(guān)聯(lián)信息,這可能是導(dǎo)致RWRlncD 方法預(yù)測準(zhǔn)確率較低的原因。
3.2 BRWLDA 模型 基于大規(guī)模異構(gòu)網(wǎng)絡(luò),Yu G等[26]基于雙向隨機(jī)游走算法,提出了經(jīng)典的BRWLDA模型。該模型利用miRNA-疾病關(guān)聯(lián),miRNAlncRNA 關(guān)聯(lián)和lncRNA-疾病關(guān)聯(lián)數(shù)據(jù)構(gòu)建了lncRNA 功能相似性網(wǎng)絡(luò),在此網(wǎng)絡(luò)的基礎(chǔ)上融合疾病相似性網(wǎng)絡(luò)以及l(fā)ncRNA-疾病關(guān)聯(lián),構(gòu)建了一個定向雙關(guān)系網(wǎng)絡(luò)。在網(wǎng)絡(luò)上應(yīng)用雙向隨機(jī)游走方法挖掘潛在的lncRNA-疾病關(guān)聯(lián)。該研究表明,BRWLDA在LOOCV 評估實驗以及具有掩蔽關(guān)聯(lián)的模擬實驗中的表現(xiàn),都要比當(dāng)時主流預(yù)測方法更加準(zhǔn)確、可靠。此外,通過對lncRNA 功能相似性網(wǎng)絡(luò)設(shè)計的消融實驗,證明了3 個子網(wǎng)絡(luò)對模型預(yù)測性能的提升都起到了增益作用。
矩陣分解方法原理簡單,目前已經(jīng)有許多預(yù)測模型通過利用矩陣分解方法處理數(shù)據(jù)、提取特征,實現(xiàn)潛在lncRNA 與疾病關(guān)聯(lián)的預(yù)測[27,28]。此類方法的基本思想是利用多源數(shù)據(jù)集成來彌補(bǔ)數(shù)據(jù)稀疏性的影響,采用矩陣分解方法得到數(shù)據(jù)在低維空間中的表示。在參數(shù)優(yōu)化階段,通過最小化低維特征還原矩陣與原關(guān)聯(lián)矩陣的損失函數(shù)實現(xiàn)優(yōu)化,輸出補(bǔ)全后的關(guān)聯(lián)矩陣,為每個lncRNA 與疾病之間的關(guān)聯(lián)概率賦值[29]。此類方法的不足主要體現(xiàn)在矩陣分解算法效率不高,難以應(yīng)用于大規(guī)模數(shù)據(jù)下的關(guān)聯(lián)預(yù)測任務(wù)中。
4.1 MFLDA 模型 Fu G等[30]基于矩陣分解方法提出了lncRNA-疾病關(guān)聯(lián)預(yù)測模型MFLDA。該模型通過矩陣三角分解,將異構(gòu)的多源關(guān)聯(lián)矩陣分解為低秩矩陣,深入挖掘數(shù)據(jù)間存在的共有信息。MFLDA 為不同來源的數(shù)據(jù)分配權(quán)重、選擇集成數(shù)據(jù)集,采用迭代策略優(yōu)化權(quán)重和低秩矩陣,使用優(yōu)化后的低秩矩陣重構(gòu)原來稀疏的lncRNA-疾病關(guān)聯(lián)矩陣,識別潛在lncRNA-疾病關(guān)聯(lián)。在5 折交叉驗證實驗中,MFLDA 預(yù)測的AUC 值為0.7408。在乳腺癌,肺癌和胃癌的案例分析中,該模型預(yù)測的45 個關(guān)聯(lián)中有38 個得到了相關(guān)文獻(xiàn)證明。同時,作為一個通用的數(shù)據(jù)融合框架,MFLDA 也可用來預(yù)測其他生物實體間的關(guān)聯(lián)。
4.2 PMFILDA 模型 Xuan Z等[31]采用概率矩陣分解形式,提出預(yù)測lncRNA-疾病關(guān)聯(lián)的PMFILDA 模型。該模型基于lncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò)、lncRNAmiRNA 關(guān)聯(lián)網(wǎng)絡(luò)和miRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建了一個lncRNA-疾病加權(quán)關(guān)聯(lián)網(wǎng)絡(luò),通過基于網(wǎng)絡(luò)節(jié)點(diǎn)間相似性的k-近鄰算法進(jìn)一步更新網(wǎng)絡(luò)中的關(guān)聯(lián)權(quán)重,根據(jù)更新的lncRN-疾病加權(quán)網(wǎng)絡(luò)以概率矩陣分解方法預(yù)測潛在lncRNA-疾病關(guān)聯(lián)。LOOCV 驗證實驗結(jié)果表明,PMFILDA 模型預(yù)測的AUC 值達(dá)到了0.8794。在案例分析實驗中,PMFILDA 模型的表現(xiàn)同樣優(yōu)秀。同樣,該方法涉及到數(shù)據(jù)集成流程,多源數(shù)據(jù)間的不一致的問題尚未得到合理解決。
本文在對模型進(jìn)行分類的基礎(chǔ)上,介紹了當(dāng)前l(fā)ncRNA-疾病關(guān)聯(lián)預(yù)測領(lǐng)域中的幾種主流計算模型。通過以上介紹與分析,可以發(fā)現(xiàn)每種方法都有各自的優(yōu)勢與不足。早期基于生物特征信息方法的模型準(zhǔn)確率與擴(kuò)展性往往不盡如人意,當(dāng)前主流的基于機(jī)器學(xué)習(xí)與矩陣分解方法的模型具有較高的時間復(fù)雜度,使其難以適應(yīng)快速擴(kuò)充的生物信息數(shù)據(jù)?;谛畔⒕W(wǎng)絡(luò)上隨機(jī)游走或信息傳播方法的模型在集成多源數(shù)據(jù)后,依舊有著不錯的運(yùn)算效率與預(yù)測精度,但是仍要面對多源數(shù)據(jù)間的差異冗余與數(shù)據(jù)稀疏性問題。隨著生物信息數(shù)據(jù)的快速擴(kuò)充,基于深度學(xué)習(xí)的預(yù)測模型可能挖掘出lncRNA 與疾病之間的深度關(guān)聯(lián)信息,有望為探究lncRNA 的失調(diào)與疾病產(chǎn)生調(diào)控機(jī)制提供數(shù)據(jù)支撐,有望成為機(jī)器學(xué)習(xí)類方法研究的新方向。