国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于異質(zhì)網(wǎng)絡(luò)層次注意力機制的基因功能預(yù)測

2020-07-17 07:35:28萬美含朱揚勇
計算機工程 2020年7期
關(guān)鍵詞:基因功能異質(zhì)注意力

萬美含,熊 贇,朱揚勇

(1.復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院,上海 200433; 2.上海市數(shù)據(jù)科學(xué)重點實驗室,上海 200433;3.上海先進通信與數(shù)據(jù)科學(xué)研究院,上海 200433)

0 概述

基因是具有功能性的DNA片段[1]。由于可通過功能產(chǎn)物的表達(dá)或基因表達(dá)調(diào)控來影響生物體性狀[2],因此確定基因的功能是生物學(xué)中的核心問題之一,其對了解疾病的生化過程、識別和驗證新藥物的靶點等都具有重要意義[3]。

基因組測序的快速發(fā)展使得生物數(shù)據(jù)庫中基因和基因組序列的數(shù)據(jù)規(guī)模爆炸式增長,但其中有大量的基因功能仍是未知的[4]。因此,通過已有的基因特性信息對基因的功能進行預(yù)測是目前的研究熱點。

目前,已有大量的基因功能預(yù)測方法被提出,總體可歸為兩類:一類是基于guilt-by-association原則的方法,即與相似的生物物質(zhì)(如疾病)相連的基因應(yīng)共享相同的功能[5],通過融合不同類型的生物數(shù)據(jù),構(gòu)建一個與基因功能相關(guān)的網(wǎng)絡(luò)來預(yù)測基因的功能[6];另一類是基于基因本體(Gene Ontology,GO)的方法,即基因本體通過結(jié)構(gòu)化的術(shù)語以分子功能、生物過程和細(xì)胞成分3種屬性來描述基因,如文獻[7-9]利用基因本體計算不同基因之間的相似度,實現(xiàn)對基因功能的準(zhǔn)確預(yù)測。本文結(jié)合上述兩類方法,將基因本體數(shù)據(jù)作為基因節(jié)點的屬性,使用多種數(shù)據(jù)源構(gòu)建一個基因功能相關(guān)異質(zhì)信息網(wǎng)絡(luò)。

近年來,注意力機制受到學(xué)者的關(guān)注[10],且在各個研究領(lǐng)域得到廣泛應(yīng)用。在異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)方面,文獻[11]構(gòu)建了HAN模型,通過引入層次注意力機制進行異質(zhì)網(wǎng)絡(luò)節(jié)點表示學(xué)習(xí),文獻[12]在其基礎(chǔ)上使用節(jié)點結(jié)構(gòu)特征信息構(gòu)建了HANE模型,但該模型僅適用于無節(jié)點屬性的異質(zhì)網(wǎng)絡(luò)。本文將HANE模型擴展到屬性異質(zhì)信息網(wǎng)絡(luò)(Attributed Heterogeneous Information Network,AHIN)中,構(gòu)建一個具有節(jié)點屬性的基因功能相關(guān)異質(zhì)信息網(wǎng)絡(luò),并在此基礎(chǔ)上提出基于層次注意力機制的基因節(jié)點表示學(xué)習(xí)方法HAGE。

1 相關(guān)定義

本文通過結(jié)合多種類型的公開數(shù)據(jù)集,構(gòu)建一個具有節(jié)點屬性的基因功能相關(guān)異質(zhì)信息網(wǎng)絡(luò),并在該網(wǎng)絡(luò)上應(yīng)用基于層次注意力機制的網(wǎng)絡(luò)表示學(xué)習(xí)方法,為每一個基因節(jié)點生成一個節(jié)點嵌入向量,該向量可用于后續(xù)的基因功能預(yù)測任務(wù)。對上述過程中使用的相關(guān)概念進行形式化定義:

定義1異質(zhì)信息網(wǎng)絡(luò)[13]是具有多種節(jié)點類型或(和)多種邊類型的網(wǎng)絡(luò),表示為G=(V,E,T),其中,V是節(jié)點的集合,E是邊的集合。同時,φ:V→Tv是節(jié)點到節(jié)點類型的映射,φ:E→Te是邊到邊類型的映射,Tv和Te是預(yù)設(shè)的節(jié)點和邊的類型,并滿足|Tv|+|Te|>2,T=Tv∪Te。

由于本文使用的異質(zhì)信息網(wǎng)絡(luò)是基于基因-疾病關(guān)系網(wǎng)絡(luò)、基因-miRNA關(guān)系網(wǎng)絡(luò)和miRNA-疾病關(guān)系網(wǎng)絡(luò)生成的,因此其中包含3種節(jié)點類型(基因、疾病和miRNA)和3種邊類型(基因-疾病關(guān)系、基因-miRNA關(guān)系和miRNA-疾病關(guān)系)[14]。

定義2網(wǎng)絡(luò)模式[15]是定義在節(jié)點類型和邊類型上的一個有向圖,表示為SG={Tv,Te}。

本文構(gòu)建的基因功能相關(guān)異質(zhì)信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式如圖1所示。

圖1 基因功能相關(guān)網(wǎng)絡(luò)模式

本文中使用的元路徑及其含義如表1所示。

表1 基因功能相關(guān)網(wǎng)絡(luò)中的元路徑及其含義

2 HAGE模型結(jié)構(gòu)

在基因功能相關(guān)異質(zhì)信息網(wǎng)絡(luò)的基礎(chǔ)上,本文提出基于層次注意力機制的基因節(jié)點表示學(xué)習(xí)方法HAGE,為每一個節(jié)點學(xué)習(xí)一個節(jié)點嵌入向量。HAGE模型主要包括3個部分,即節(jié)點特征抽取、節(jié)點層次的注意力機制和元路徑層次的注意力機制。

2.1 節(jié)點特征抽取

給定一個異質(zhì)信息網(wǎng)絡(luò)G=(V,E,T)以及元路徑集合{P1,P2,…,Pm},對于V中的每一個節(jié)點vi,本文從2個方面考慮該節(jié)點的特征:節(jié)點的屬性信息ai以及該節(jié)點在網(wǎng)絡(luò)中的結(jié)構(gòu)特征fi。

在構(gòu)建的基因功能相關(guān)網(wǎng)絡(luò)中,基因節(jié)點屬性ai來自于基因本體數(shù)據(jù),將每個基因?qū)?yīng)的本體術(shù)語轉(zhuǎn)化為multi-hot編碼并作為基因節(jié)點的屬性。

對于節(jié)點網(wǎng)絡(luò)中的結(jié)構(gòu)特征fi,本文使用基于元路徑的連接分布來描述。在異質(zhì)網(wǎng)絡(luò)中,不同的元路徑具有不同的語義信息,因此,不同元路徑下相同節(jié)點間的連接分布也是不同的。對于同一對基因節(jié)點A和B,其通過元路徑基因-疾病-基因連接的路徑與通過元路徑基因-miRNA-基因連接的路徑完全不同,并且路徑的權(quán)重和數(shù)量也不同,因此,其連接分布也完全不同。

(1)

下面對連接強度矩陣IP進行歸一化,作為節(jié)點結(jié)構(gòu)特征矩陣FP:

(2)

最后,將每個節(jié)點vi的節(jié)點屬性與其基于元路徑的結(jié)構(gòu)特征進行拼接并作為節(jié)點的特征向量:

(3)

2.2 節(jié)點層次的注意力機制

首先在節(jié)點層次上使用注意力機制來學(xué)習(xí)基于元路徑鄰居節(jié)點的重要性,并通過聚合這些擁有不同權(quán)重的鄰居節(jié)點得到新的特征向量,即如果基因A具有功能f,其鄰居節(jié)點中功能與功能f相同或更近似的節(jié)點應(yīng)具有更大的權(quán)重,通過聚合不同鄰居節(jié)點的嵌入向量及其權(quán)重來更新基因節(jié)點A的嵌入向量。

(4)

其中,anode是一個深度神經(jīng)網(wǎng)絡(luò),代表節(jié)點層次的注意力機制。對于給定的元路徑P,基于該路徑的所有鄰居節(jié)點共享anode。

(5)

其中,σ是激活函數(shù),W是權(quán)重矩陣,aP是基于元路徑P節(jié)點層次的注意力向量。

(6)

(7)

給定一系列元路徑的集合{P1,P2,…,Pm},基于節(jié)點特征向量并利用節(jié)點層次的注意力機制可以得到m組新的節(jié)點特征向量{ZP1,ZP2,…,ZPm}。

2.3 元路徑層次的注意力機制

基于節(jié)點層次的注意力機制可以得到不同元路徑下新的節(jié)點特征向量,為得到最終的節(jié)點嵌入向量,需要對不同元路徑下的節(jié)點特征向量進行融合。

在異質(zhì)網(wǎng)絡(luò)中,不同的元路徑代表不同的語義信息,因此,需要為不同的元路徑分配不同的權(quán)重。使用一個元路徑層次的注意力機制[11]來學(xué)習(xí)不同元路徑的重要程度βP。給定元路徑的集合{P1,P2,…,Pm}以及基于節(jié)點層次注意力機制得到的新的節(jié)點特征向量{ZP1,ZP2,…,ZPm},為每個元路徑Pi學(xué)習(xí)一個權(quán)重系數(shù)βPi,定義為:

βPi=ameta(ZPi)

(8)

其中,ameta是一個深度神經(jīng)網(wǎng)絡(luò),代表元路徑層次的注意力機制。不同的元路徑將學(xué)習(xí)到不同的權(quán)重,對基因功能預(yù)測任務(wù)更重要的元路徑將具有更大的權(quán)重。

為學(xué)習(xí)不同元路徑的重要程度,首先對基于節(jié)點層次的注意力機制得到的節(jié)點特征向量進行非線性變換,然后將變換后的特征向量與元路徑層次的注意力向量q的相似度作為元路徑的重要程度。因此,對于元路徑Pi,其重要程度wPi表示為:

(9)

其中,W是權(quán)重矩陣,b是偏置向量,q是元路徑層次的注意力向量。

得到每條元路徑的重要程度wi后,對它們進行歸一化處理,得到每條元路徑的權(quán)重系數(shù)βi:

(10)

對不同元路徑下的節(jié)點特征向量進行融合,得到最終的節(jié)點嵌入矩陣Z:

(11)

為提高模型的精度,本文增加一個全連接層用于分類,并利用部分有標(biāo)簽的節(jié)點對模型進行優(yōu)化,使用交叉熵作為損失函數(shù):

(12)

其中,VL為擁有標(biāo)簽的節(jié)點集合,Yl為節(jié)點的標(biāo)簽,Zl為該節(jié)點的最終節(jié)點嵌入矩陣,C是分類器的參數(shù)。最后通過反向傳播對模型進行優(yōu)化,學(xué)習(xí)節(jié)點的節(jié)點嵌入向量。

2.4 HAGE算法描述

注意力的計算可以在所有節(jié)點和元路徑下單獨計算,因此,HAGE模型支持并行運算。給定一個元路徑P,節(jié)點層次的注意力機制時間復(fù)雜度為O(VPF1F2K+EPF1K),其中,VP是節(jié)點的數(shù)量,EP是基于元路徑的節(jié)點對的數(shù)量,K是多頭注意力機制的數(shù)量,F1是節(jié)點特征的數(shù)量,F2是輸出的節(jié)點嵌入向量的維度。總體的時間復(fù)雜度與節(jié)點數(shù)量以及基于元路徑的節(jié)點對呈線性關(guān)系。

HAGE模型的算法描述如下:

算法1HAGE算法

輸入異質(zhì)信息網(wǎng)絡(luò)G=(V,E,T),元路徑集合{P1,P2,…,Pm},節(jié)點屬性集合{ai,i∈V},多頭注意力機制數(shù)量K

輸出節(jié)點嵌入矩陣Z

for i∈V do

end

for Pi∈{P1,P2,…,Pm} do

for k=1,2,…,K do

for i∈V do

end

計算節(jié)點層次的特征向量

end

拼接得到節(jié)點層次的嵌入向量

end

計算元路徑層次的權(quán)重系數(shù)βPi;

end

反向傳播并更新HAGE模型的參數(shù);

return節(jié)點嵌入矩陣Z

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集

本文構(gòu)建的具有節(jié)點屬性的基因功能相關(guān)異質(zhì)信息網(wǎng)絡(luò)使用以下數(shù)據(jù)集:

1)使用DisGeNET[19]數(shù)據(jù)集構(gòu)建基因-疾病關(guān)系網(wǎng)絡(luò)。每條邊的權(quán)重根據(jù)可靠性設(shè)為0~1,選取數(shù)據(jù)集中權(quán)重在0.3以上的3 833條基因-疾病關(guān)系來構(gòu)建網(wǎng)絡(luò)。

2)使用miRTarBase[20]數(shù)據(jù)集構(gòu)建基因-miRNA關(guān)系網(wǎng)絡(luò)。miRTarBase是一個手工收集的經(jīng)過實驗驗證的miRNA及其靶基因關(guān)系的數(shù)據(jù)集,選取其中7 150對經(jīng)過蛋白質(zhì)印跡法以及報告基因分析驗證的基因-miRNA關(guān)系,并將權(quán)重設(shè)為1。

3)使用2個數(shù)據(jù)集構(gòu)建miRNA-疾病關(guān)系網(wǎng)絡(luò)。第1個數(shù)據(jù)集來自文獻[21]提供的242條miRNA-疾病關(guān)系;第2個數(shù)據(jù)集來自miRNet[22]數(shù)據(jù)集,選取其中疾病名稱可以對應(yīng)到OMIM編號的666條miRNA-疾病關(guān)系。將2個數(shù)據(jù)集進行融合,去除重復(fù)數(shù)據(jù)后,共有267個miRNA和59個疾病組成的878條miRNA-疾病關(guān)系。由于可信度較高,因此將權(quán)重設(shè)為1。

4)使用基因本體GO數(shù)據(jù)庫[23-24]中得到所有基因節(jié)點的本體信息,將其作為基因節(jié)點的節(jié)點屬性,共得到4 402個基因節(jié)點的基因本體信息。

5)使用MSigDB[25]基因集數(shù)據(jù)庫中的基因家族作為節(jié)點的標(biāo)簽。MSigDB將數(shù)據(jù)庫中的基因集按照PubMed中文獻的定義進行分類,同一家族的基因具有相似的功能性,它們具有同源性或者生物化學(xué)活性。結(jié)果總共有1 185個基因節(jié)點獲得了所屬的基因家族標(biāo)簽。

實驗數(shù)據(jù)集具體描述如表2所示。

表2 實驗數(shù)據(jù)集描述

3.2 對比算法

為評估本文方法的性能,選取以下算法作為對比方法:

1)GraphSAGE[26]。GraphSAGE通過聚集局部鄰居節(jié)點的特征來學(xué)習(xí)節(jié)點的節(jié)點嵌入向量。本文使用平均聚合器版本的GraphSAGE來證明為不同鄰居節(jié)點以及元路徑分配不同注意力的重要性。

2)GAT[27]。GAT是一個基于注意力機制的同質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)方法,其注意力系數(shù)通過單層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。本文在不同元路徑上使用GAT,選擇表現(xiàn)最好的作為最終結(jié)果。

3)HAGE w/o struc。HAGE w/o struc是HAGE的變種,其僅使用節(jié)點屬性作為節(jié)點初始特征向量,不考慮節(jié)點在網(wǎng)絡(luò)中的結(jié)構(gòu)特征。

4)HAGE w/o node。HAGE w/o node是HAGE的變種,其不使用節(jié)點層次的注意力機制,僅為不同的基于元路徑的鄰居節(jié)點分配相同的權(quán)重系數(shù)。

5)HAGE w/o meta。HAGE w/o meta是HAGE的變種,其不使用元路徑層次的注意力機制,僅為不同的元路徑分配相同的權(quán)重系數(shù)。

3.3 實驗設(shè)置

隨機初始化模型參數(shù),并且使用Adam[28]作為模型的優(yōu)化器。其中,學(xué)習(xí)率設(shè)置為0.001,正則化參數(shù)設(shè)置為0.005,多頭注意力機制數(shù)量K設(shè)置為8,元路徑層次的注意力向量q的維度為128,最終的節(jié)點嵌入向量維度為128。實驗運行環(huán)境為64位Linux系統(tǒng),GPU為NVIDIA GTX 1080 Ti。

3.4 節(jié)點分類

本文使用Micro-F1、Macro-F1、Average Precision 和AUC作為模型評價指標(biāo),實驗結(jié)果如表3所示。

由表3可以看出,在Micro-F1、Macro-F1、Average Precision和AUC這4種不同的指標(biāo)下,HAGE模型的分類效果均為最優(yōu)。相比于GraphSAGE和GAT 2種同質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)方法,HAGE由于考慮異質(zhì)網(wǎng)絡(luò)的特點即不同元路徑具有不同的語義信息,為不同的元路徑分配不同的權(quán)重,因此能夠取得更好的分類性能。與HAGE w/o struc、HAGE w/o node和HAGE w/o meta相比,HAGE的分類效果均有所提升,由此表明同時考慮網(wǎng)絡(luò)結(jié)構(gòu)特征、節(jié)點層次以及元路徑層次注意力機制的重要性。

3.5 模型性能分析

為分析本文模型的效率性能,構(gòu)建不同規(guī)模的屬性異質(zhì)信息網(wǎng)絡(luò)進行實驗,結(jié)果如表4所示。

表4 本文模型時間效率

3.6 參數(shù)敏感性分析

對實驗中使用的參數(shù)敏感性進行測試,研究不同參數(shù)對模型結(jié)果的影響。

1)多頭注意力機制數(shù)量

為測試多頭注意力機制的效果,設(shè)置不同K值進行測試,當(dāng)K=1時退化為單頭注意力機制,實驗結(jié)果如圖2所示??梢钥闯?隨著K值的增加,AUC的值也得到提升,當(dāng)K=8時模型的分類性能最好。

圖2 多頭注意力機制數(shù)量對AUC的影響

2)元路徑層次的注意力向量維度

元路徑層次的注意力機制的分類效果受元路徑層次的注意力向量q的影響,因此,在不同維度的注意力向量q下進行測試,實驗結(jié)果如圖3所示??梢钥闯?當(dāng)注意力向量q的維度為128時,模型的分類性能最好。

圖3 元路徑層次的注意力向量維度對AUC的影響

3)節(jié)點嵌入向量的維度

模型的分類效果受最終的節(jié)點嵌入向量Z維度的影響,因此對不同維度的節(jié)點嵌入向量Z進行測試,實驗結(jié)果如圖4所示??梢钥闯?模型的分類性能在維度為128時效果最好,后續(xù)隨著維度的繼續(xù)增加,AUC略微降低。

圖4 節(jié)點嵌入向量維度對AUC的影響

3.7 注意力機制性能分析

在學(xué)習(xí)基因節(jié)點的嵌入向量時,本文考慮了不同元路徑下的鄰居節(jié)點以及元路徑的重要性,并為它們分配不同的權(quán)重系數(shù)。為更好地理解權(quán)重的意義,分別從節(jié)點層次注意力機制以及元路徑層次注意力機制方面進行分析。

1)節(jié)點層次注意力機制

本文以基因CHEK2為例,其基于元路徑基因-疾病-基因(GDG)的鄰居如圖5所示,注意力權(quán)重系數(shù)如圖6所示。其中,基因CHEK2、BRCA2、RB1、BRCA1和TP53同屬于家族tumor suppressors(抑癌基因),RNASEL屬于家族protein kinases(蛋白激酶),HOXB13屬于家族homeodomain proteins(同源域蛋白),PIK3CA屬于家族oncogenes(致癌基因)。

圖5 基因CHEK2在元路徑GDG下的鄰居

圖6 基因CHEK2鄰居的權(quán)重系數(shù)分布

從圖6可以看出,具有相同或相似功能的同家族的鄰居基因節(jié)點的權(quán)重系數(shù)較大,其他家族的鄰居基因節(jié)點權(quán)重系數(shù)較小。其中BRCA1的權(quán)重最高,文獻[29]指出CHEK2和BRCA1參與的DNA修復(fù)有關(guān),與乳腺癌發(fā)生有較密切的關(guān)系,因此,它們之間的功能關(guān)聯(lián)更密切。由此可見,本文模型可以較好地學(xué)習(xí)到基因節(jié)點層次的重要性。

2)元路徑層次注意力機制

為分析模型學(xué)習(xí)到的不同元路徑的權(quán)重系數(shù)是否反映了該元路徑對基因功能預(yù)測任務(wù)的重要性,對比僅使用該元路徑進行基因功能預(yù)測的結(jié)果以及該元路徑的注意力權(quán)重系數(shù),結(jié)果如圖7所示。

圖7 3種元路徑的AUC與注意力權(quán)重系數(shù)對比

由圖7可以看出,單個元路徑的預(yù)測結(jié)果與該元路徑的注意力權(quán)重系數(shù)是成正比的,即該元路徑單獨進行基因功能預(yù)測時得到的AUC越高,其注意力權(quán)重系數(shù)越大。由此可見,本文模型能夠較好地學(xué)習(xí)到不同元路徑對基因功能預(yù)測任務(wù)的重要性。

4 結(jié)束語

本文提出基于異質(zhì)網(wǎng)絡(luò)層次注意力機制的基因節(jié)點表示學(xué)習(xí)方法HAGE。結(jié)合不同來源的數(shù)據(jù)集構(gòu)建一個具有節(jié)點屬性的基因功能相關(guān)網(wǎng)絡(luò),使用節(jié)點屬性以及節(jié)點在網(wǎng)絡(luò)中的結(jié)構(gòu)特征作為節(jié)點初始向量,并通過層次注意力機制為每一個基因節(jié)點學(xué)習(xí)一個節(jié)點嵌入向量,將其用于后續(xù)的基因功能預(yù)測任務(wù)。實驗結(jié)果表明,與GraphSAGE、GAT等方法相比,本文方法能夠取得較好的預(yù)測效果。下一步將把本文方法拓展到不同的生物數(shù)據(jù)集中進行預(yù)測,如蛋白質(zhì)交互網(wǎng)絡(luò)、miRNA基因共表達(dá)網(wǎng)絡(luò)和代謝網(wǎng)絡(luò)等。

猜你喜歡
基因功能異質(zhì)注意力
讓注意力“飛”回來
西瓜噬酸菌Ⅲ型分泌系統(tǒng)hrcQ基因功能分析
植物保護(2019年2期)2019-07-23 08:40:58
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
基因組編輯系統(tǒng)CRISPR—Cas9研究進展及其在豬研究中的應(yīng)用
藥用植物萜類生物合成β—AS基因研究進展
A Beautiful Way Of Looking At Things
隨機與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
MoS2/ZnO異質(zhì)結(jié)的光電特性
物理實驗(2015年10期)2015-02-28 17:36:52
執(zhí)政者應(yīng)學(xué)習(xí)異質(zhì)傳播
岫岩| 天祝| 康平县| 京山县| 嘉鱼县| 永丰县| 清流县| 沧源| 广饶县| 鄯善县| 三穗县| 且末县| 北宁市| 兴业县| 堆龙德庆县| 商河县| 天峨县| 米脂县| 南涧| 台东县| 巨鹿县| 启东市| 临朐县| 石门县| 天门市| 临江市| 同江市| 丰宁| 禄丰县| 安仁县| 榆社县| 临洮县| 广饶县| 清涧县| 和龙市| 万宁市| 尚志市| 桃源县| 府谷县| 观塘区| 长武县|