王宇 韋錦濤
(曲阜師范大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 山東省曲阜市 273100)
miRNA 是一類長(zhǎng)度為17-24 nt 的內(nèi)源性非編碼RNA,在動(dòng)物和植物中參與基因表達(dá)后在轉(zhuǎn)錄調(diào)控的過(guò)程中起重要作用[1-3]。miRNA 與許多關(guān)鍵的生物進(jìn)程都有密切的關(guān)聯(lián),如細(xì)胞的發(fā)育、分化、凋亡和增殖[4,5]。眾多研究表明miRNA 的異常表達(dá)與許多人類疾病的發(fā)生、發(fā)展有密切的關(guān)聯(lián)[6-8]。所以,預(yù)測(cè)與疾病相關(guān)聯(lián)的miRNA 對(duì)于人類疾病的診斷、治療以及預(yù)防至關(guān)重要。用于預(yù)測(cè)與疾病相關(guān)的miRNA 的計(jì)算模型亟需開(kāi)發(fā),從而解決上述問(wèn)題可以極大地提高疾病診斷、治療的效率[9-11]。
具有相似功能的miRNA 更有可能與表型相似的疾病相關(guān)聯(lián),反之亦然。目前,基于這樣一條假設(shè),已經(jīng)有許多研究者提出了基于相似性度量的預(yù)測(cè)miRNA-疾病關(guān)聯(lián)的計(jì)算模型。Jiang 等人[12]首先構(gòu)建了miRNA 功能相似性網(wǎng)絡(luò)和人類疾病-miRNA 網(wǎng)絡(luò),然后計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的相似度分?jǐn)?shù),分?jǐn)?shù)高的miRNA 與疾病有關(guān)聯(lián)的可能性更大。Li 等人[13]通過(guò)計(jì)算已知疾病基因和靶基因之間的功能一致性分?jǐn)?shù)(FCS)來(lái)預(yù)測(cè)潛在的miRNA-疾病關(guān)聯(lián)。
近年來(lái),基于機(jī)器學(xué)習(xí)推斷miRNA-疾病關(guān)聯(lián)的方法取得了很好的預(yù)測(cè)性能。Chen 等人[14]基于半監(jiān)督分類器提出了正則化最小二乘法(RLSMDA)預(yù)測(cè)與疾病相關(guān)的miRNA,并整合了已知miRNA-疾病關(guān)聯(lián)、疾病相似性網(wǎng)絡(luò)和miRNA 相似性網(wǎng)絡(luò),RLSMDA 不需要負(fù)樣本。Chen 等人[15]提出了異質(zhì)性標(biāo)簽傳播模型用于預(yù)測(cè)miRNA-疾病關(guān)聯(lián)(HLPMDA),將一個(gè)異質(zhì)性標(biāo)簽在miRNA、疾病和長(zhǎng)非編碼RNA (lncRNA)的多網(wǎng)絡(luò)上進(jìn)行傳播,推斷可能存在的miRNA-疾病關(guān)聯(lián)。
另外,基于矩陣分解預(yù)測(cè)miRNA-疾病關(guān)聯(lián)的模型被大量提出。Zhao 等人[16]提出了基于非負(fù)矩陣分解和Kronecker 正則化最小二乘法(KronRLS)的對(duì)稱非負(fù)矩陣分解(SNMFMDA)的模型。Zhong 等人[17]構(gòu)建了一個(gè)雙層網(wǎng)絡(luò)以此來(lái)表示miRNA 之間、疾病之間以及miRNA 和疾病之間的復(fù)雜關(guān)聯(lián),基于非負(fù)矩陣分解來(lái)預(yù)測(cè)與疾病相關(guān)聯(lián)的miRNA。Xiao 等人[18]提出了圖正則化非負(fù)矩陣分解(GRNMF)模型,并引入了加權(quán)K 最近鄰譜作為預(yù)處理步驟。Shen 等人[19]整合了miRNA 功能相似性、疾病語(yǔ)義相似性和實(shí)驗(yàn)驗(yàn)證miRNA-疾病關(guān)聯(lián),根據(jù)協(xié)同矩陣分解預(yù)測(cè)miRNA-疾病關(guān)聯(lián)。
本文提出了基于圖正則化協(xié)同矩陣分解(GRCMF)的方法用于預(yù)測(cè)miRNA-疾病的關(guān)聯(lián),其預(yù)測(cè)過(guò)程如圖1所示。首先,我們整合了miRNA 功能相似性、疾病語(yǔ)義相似性、實(shí)驗(yàn)驗(yàn)證的miRNA-疾病關(guān)聯(lián)以及miRNA 和疾病的高斯核相似性,構(gòu)建了可靠的用于模型的數(shù)據(jù)集。其次,由于已知的miRNA-疾病關(guān)聯(lián)較少,因此我們采用了加權(quán)K 最近鄰(WKNKN)預(yù)處理步驟,將miRNA-疾病關(guān)聯(lián)矩陣Y 中的0 值轉(zhuǎn)換為0 到1 之間的小數(shù),從而提升預(yù)測(cè)性能。另外,我們?cè)趨f(xié)同矩陣分解(CMF)模型中引入了圖正則化,圖正則化可以通過(guò)利用數(shù)據(jù)的幾何結(jié)構(gòu)來(lái)保證基于局部的表示,防止過(guò)擬合[18,20]。最后,我們進(jìn)行了100 次五折交叉驗(yàn)證、留一驗(yàn)證以及案例研究,100 次五折交叉驗(yàn)證取得的平均AUC 值為0.9265,留一驗(yàn)證取得的AUC 值為0.9276。實(shí)驗(yàn)結(jié)果表明,基于圖正則化協(xié)同矩陣分解的模型在預(yù)測(cè)miRNA-疾病關(guān)聯(lián)方面是有效的。
圖1:GRCMF 流程圖
HMDDv2.0[7]是一個(gè)包含關(guān)于495 個(gè)miRNA 和383 個(gè)疾病之間5430 條已知關(guān)聯(lián)的數(shù)據(jù)庫(kù)。我們從下載的5430 個(gè)已知關(guān)聯(lián)中構(gòu)建了一個(gè)鄰接矩陣Y∈Rn×m來(lái)表示這些數(shù)據(jù),n 和m 分別代表miRNA 和疾病的個(gè)數(shù)。若一個(gè)miRNAmi經(jīng)實(shí)驗(yàn)驗(yàn)證與一個(gè)疾病dj有關(guān)聯(lián),則Yij為1,否則為0。
研究表明,功能相似的miRNA 更可能與相似的疾病有關(guān)聯(lián),反之亦然[22,23]。由于Wang 等人[23]的研究,我們從中獲取了miRNA 功能相似性分?jǐn)?shù),然后構(gòu)建了miRNA 功能相似性矩陣Sm∈Rn×n,矩陣的每個(gè)元素Sm(mi,mj)表示miRNAmi和mj的功能相似性分?jǐn)?shù)。
我們參照Wang 等人[23]的文獻(xiàn)通過(guò)層次有向無(wú)環(huán)圖(DAG)計(jì)算疾病語(yǔ)義相似性。疾病DAG 圖從MeSH 數(shù)據(jù)庫(kù)下載。DAGd=(d,Td,Ed)表示一個(gè)疾病d 的層次DAG 圖,其中Td表示疾病的集合,Ed表示DAG 中連接的集合,因此,根據(jù)DAG 圖我們可以按照以下公式來(lái)計(jì)算疾病D 的語(yǔ)義值:
其中,DD(d)表示疾病d’對(duì)于疾病d 的語(yǔ)義貢獻(xiàn)值(公式(2)),?表示語(yǔ)義貢獻(xiàn)因子,我們參照Wang 等人[23]的文獻(xiàn)將?設(shè)置為0.5。
因此,基于若兩個(gè)疾病的DAG 圖重復(fù)越多,則它們之間的相似性更大這樣一個(gè)假設(shè),我們按照公式(3)來(lái)計(jì)算疾病di和dj之間的語(yǔ)義相似性,并構(gòu)建了疾病語(yǔ)義相似性矩陣Sd∈Rm×m,矩陣的每個(gè)元素Sd(di,dj)表示疾病di和dj的語(yǔ)義相似性分?jǐn)?shù)。
許多預(yù)測(cè)miRNA-疾病關(guān)聯(lián)的模型[24-26]采用高斯核相互作用譜相似性來(lái)分別度量疾病和miRNA 相似性,并取得了更好的預(yù)測(cè)性能,本文首先根據(jù)miRNA-疾病關(guān)聯(lián)矩陣Y 中di(mj)與各miRNA(disease)之間是否存在已知的關(guān)聯(lián),將IP(di)和IP(mj)分別定義為疾病di和miRNA mj的相互作用譜,然后按照公式(4)計(jì)算疾病di與dj之間的高斯核相互作用譜相似性。
與公式(4)計(jì)算方法類似,我們按照公式(5)計(jì)算miRNAmi和mj的高斯核相互作用譜相似性:
其中,核帶寬βm,βd公式如下,和為原始帶寬。
總之,矩陣GD、GM 分別表示疾病和miRNA 的高斯核相互作用譜相似性。
根據(jù)上述各種度量相似性的方法,將高斯核相互作用譜相似性與miRNA 功能相似性、疾病語(yǔ)義相似性整合得到最終的miRNA 相似性和疾病相似性。本文分別構(gòu)建了miRNA功能相似性矩陣SM(公式(8))和疾病語(yǔ)義相似矩陣SD(公式(9)),SM(mi,mj)表示miRNAmi和mj的相似性,SD(di,dj)表示疾病di和dj的相似性。
令M={m1,m2,…,mn}和D={d1,d2,…,dm}分別表示n 個(gè)miRNA和m 個(gè)疾病的集合。鄰接矩陣Y∈Rn×m表示已知的miRNA 和人類疾病的關(guān)聯(lián),矩陣Y 是個(gè)稀疏矩陣。因此,對(duì)矩陣Y 進(jìn)行了一個(gè)加權(quán)K 最近鄰(WKNKN)[27]預(yù)處理,從而使得模型適用于那些沒(méi)有已知關(guān)聯(lián)信息的miRNA 和疾病,提升了預(yù)測(cè)性能。執(zhí)行WKNKN 之后,值為0 的Yij將會(huì)被替換為一個(gè)0 到1 之間的小數(shù)。WKNKN 具體步驟如下:
Y(mi)={Yi1,Yi2,…,Yim}是矩陣Y 的第i 行向量,即為miRNAmi的相互作用譜,類似地,Y(dj)={Y1j,Y2j,…,Ynj}是矩陣Y 的第j 列向量,即為疾病dj的相互作用譜。
首先,我們利用每一個(gè)miRNAmq與其他K 個(gè)最近miRNA 的相似性及其對(duì)應(yīng)的K 相互作用譜,得到如下相互作用譜:
其中,m1到mK是按照其與mq的相似性降序排列的miRNA。wi=αi-1*Sm(mi,mq)是權(quán)重參數(shù),mi和mq的相似性分?jǐn)?shù)越高,權(quán)重越大。α∈[0,1]是衰減項(xiàng),Qm=∑1≤i≤KSm(mi,mq)是歸一化參數(shù)。
然后,我們利用每一個(gè)疾病dp與其它K 個(gè)最近疾病的相似性及其對(duì)應(yīng)的K 相互作用譜,得到如下相互作用譜:
其中,d1到dK是按照其與dp的相似性降序排列的疾病。wj=αj-1*Sd(dj,dp)是權(quán)重參數(shù),dj和dp的相似性分?jǐn)?shù)越高,權(quán)重越大。Qd=∑1≤j≤KSd(dj,dp)是歸一化參數(shù)。
最后,我們將Ym和Yd的平均值替換值為0 的Yij,代表mi和dj關(guān)聯(lián)的可能性,然后按照公式(12)更新原始矩陣Y。
其中,ai是權(quán)重系數(shù),且a1=a2=1。
Shen 等人[19]使用協(xié)同矩陣分解(CMF)預(yù)測(cè)miRNA-疾病關(guān)聯(lián),并且取得了很好的效果,證明CMF 在預(yù)測(cè)與疾病相關(guān)的miRNA方面是一個(gè)有效的工具。CMF 目標(biāo)函數(shù)如下:
其中,‖.‖F(xiàn)表示矩陣的F 范數(shù),λl、λm以及λd是非負(fù)參數(shù)。
為了防止過(guò)擬合,提升預(yù)測(cè)性能,我們提出了圖正則化協(xié)同矩陣分解(GRCMF),即在CMF 中引入圖拉普拉斯正則化,圖正則化主要是通過(guò)充分利用數(shù)據(jù)幾何結(jié)構(gòu)來(lái)保證基于局部的表示[20]。圖正則化協(xié)同矩陣分解(GRCMF)目標(biāo)函數(shù)如下:
其中,‖.‖F(xiàn)表示矩陣的F 范數(shù),λl、λm、λd、λs以及λt是正則化參數(shù),tr(.)表示矩陣的跡,Lm=Dm-SM、L1=Dd-SD 分別為miRNA 相似性矩陣和疾病相似性矩陣的圖拉普拉斯矩陣[28]。Dm、Dd為對(duì)角矩陣,其項(xiàng)分別為miRNA 相似性矩陣SM 和疾病相似性矩陣SD 的行(或列)的和。
3.2.1 初始化A、B
對(duì)于輸入miRNA-疾病關(guān)聯(lián)矩陣Y,我們采用奇異值分解(SVD)對(duì)矩陣A、B 進(jìn)行初始化,過(guò)程如下:
3.2.2 優(yōu)化
本文采用最小二乘法迭代求解矩陣A、B。首先,令L 表示目標(biāo)函數(shù),然后令得到A、B 的迭代更新規(guī)則,即A、B 按照公式(17)迭代更新直至收斂。
最后,Y*=ABT為預(yù)測(cè)得到的miRNA-疾病關(guān)聯(lián)矩陣,對(duì)矩陣Y*中的值進(jìn)行排序,對(duì)于每一列,即疾病dj,進(jìn)行降序排列,排名越靠前的miRNA 越有可能與該疾病有關(guān)聯(lián)。
為了評(píng)估基于協(xié)同矩陣分解(GRCMF)預(yù)測(cè)miRNA-疾病關(guān)聯(lián)的預(yù)測(cè)性能,驗(yàn)證GRCMF 的有效性,我們將GRCMF 與三個(gè)優(yōu)秀的模型(ICFMDA[12],SACMDA[29]和IMCMDA[25])進(jìn)行比較,評(píng)估標(biāo)準(zhǔn)采用研究者們普遍使用的機(jī)器學(xué)習(xí)方法:五折交叉驗(yàn)證和留一驗(yàn)證。
圖2:GRCMD,ICFMDA,SACMDA 以及IMCMDA 的留一驗(yàn)證ROC 曲線及其AUC 值
圖3:GRCMD,ICFMDA,SACMDA 以及IMCMDA 的五折交叉驗(yàn)證ROC曲線及其AUC 值
基于LOOCV 的結(jié)果,繪制了通過(guò)不同閾值的接收器操作特性(ROC)曲線,可以計(jì)算ROC 曲線下面積(AUC)以評(píng)估模型的性能。AUC 值介于0 和1 之間,AUC 值越高,該模型的預(yù)測(cè)性能越好。最終,GRCMF、ICFMDA、SACMDA 和IMCMDA 分別獲得了0.9276,0.9072,0.8777 和0.8384 的AUC 值(見(jiàn)圖2)。顯然,GRCMF 在上述四種方法中獲得了最優(yōu)表現(xiàn)。
在五折交叉驗(yàn)證中,將所有已知的miRNA-疾病關(guān)聯(lián)樣本隨機(jī)分為五部分。然后,將四個(gè)部分作為模型學(xué)習(xí)的訓(xùn)練樣本,其余部分作為模型評(píng)價(jià)的測(cè)試樣本。與留一驗(yàn)證類似,所有未經(jīng)實(shí)驗(yàn)驗(yàn)證的miRNA-疾病關(guān)聯(lián)性均作為候選樣本??紤]到隨機(jī)樣本劃分可能帶來(lái)的偏差,我們對(duì)已知miRNA疾病相關(guān)性進(jìn)行了100次重復(fù)劃分,即進(jìn)行了100 次五折交叉驗(yàn)證,并得到了對(duì)應(yīng)的ROC 曲線和AUC值。最終結(jié)果中GRCMF 的預(yù)測(cè)效果最好,其平均AUC 值為0.9265,ICFMDA、SACMDA 和IMCMDA 的AUC 值分別為0.9046、0.8773和0.8330(見(jiàn)圖3)。
研究表明miRNA 的異常表達(dá)在人類復(fù)雜疾病的發(fā)生、發(fā)展中起著至關(guān)重要的作用。對(duì)疾病相關(guān)的miRNA 進(jìn)行深入研究和分析有助于找到新的生物標(biāo)志物和治療方法,從而提高患者的生存率。因此,有必要開(kāi)發(fā)更有效的計(jì)算模型來(lái)識(shí)別潛在的miRNA-疾病關(guān)聯(lián)。在本文中,我們提出了一個(gè)計(jì)算模型基于圖正則化協(xié)同矩陣分解(GRCMF)來(lái)識(shí)別新的miRNA-疾病關(guān)聯(lián)。GRCMF 利用了疾病語(yǔ)義相似性、miRNA 功能相似性以及已知的miRNA-疾病關(guān)聯(lián),并整合了高斯核相互作用譜相似性作為最終數(shù)據(jù)集來(lái)預(yù)測(cè)miRNA-疾病關(guān)聯(lián)。并采用留一驗(yàn)證和五折交叉驗(yàn)證來(lái)評(píng)估GRCMF 的預(yù)測(cè)性能,進(jìn)行了關(guān)于結(jié)腸癌、肝癌和乳腺癌的案例研究,最終結(jié)果表明,GRCMF 模型具有較好的預(yù)測(cè)性能,換句話說(shuō),GRCMF 在預(yù)測(cè)miRNA-疾病關(guān)聯(lián)方面可以作為有效的工具,為人類復(fù)雜疾病的診斷和治療提供新的方向。
然而,這種方法仍有局限性,需要進(jìn)一步探究。首先,我們對(duì)GRCMF 的相似性度量可能并不完善,許多其他miRNA 信息還沒(méi)有被考慮進(jìn)去。此外,我們的方法在預(yù)測(cè)性能上仍有改進(jìn)的空間。