国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞向量的特征詞選擇

2018-06-20 07:51:06彭昀磊
關(guān)鍵詞:特征詞頻數(shù)相似性

彭昀磊,牛 耘

(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)

0 引 言

通過(guò)相互作用,細(xì)胞中的蛋白質(zhì)完成細(xì)胞中的大部分過(guò)程,比如細(xì)胞內(nèi)通訊。因而,蛋白質(zhì)交互信息(protein-protein interaction,PPI)成為了關(guān)鍵信息,用以解決大量醫(yī)學(xué)難題。目前,生物學(xué)家通過(guò)人工閱讀的方式識(shí)別醫(yī)學(xué)文獻(xiàn)中的PPI,并按照統(tǒng)一的格式將這些重要的信息錄入數(shù)據(jù)庫(kù),如HPRD[1]、IntAct[2]、MINT[3]。然而以上數(shù)據(jù)庫(kù)中的PPI信息并不全面,而且生物醫(yī)學(xué)的快速發(fā)展導(dǎo)致每年相關(guān)科學(xué)文獻(xiàn)的增長(zhǎng)數(shù)量達(dá)上千萬(wàn),每天也在產(chǎn)生新的蛋白質(zhì)之間的關(guān)系。因此要從醫(yī)學(xué)文獻(xiàn)中收集PPI信息,僅靠手工方式難以滿足現(xiàn)實(shí)的需求。

在此背景下,有監(jiān)督的機(jī)器學(xué)習(xí)方法被大量地運(yùn)用到研究PPI關(guān)系識(shí)別中,但需要依賴于大量的文本集合,并要求文本集合質(zhì)量高且標(biāo)注蛋白質(zhì)交互信息,而構(gòu)造這樣的集合需要耗費(fèi)大量的人力和時(shí)間。因此,筆者在之前的研究中提出了一種基于弱監(jiān)督的蛋白質(zhì)交互識(shí)別法,只需利用少量已有的標(biāo)注信息進(jìn)行蛋白質(zhì)交互關(guān)系識(shí)別。該方法對(duì)蛋白質(zhì)關(guān)系描述的上下文進(jìn)行聚類(lèi),提取出交互關(guān)系描述的模式,用模式對(duì)交互關(guān)系進(jìn)行判斷。文中在該方法的基礎(chǔ)上,提出了基于詞向量的特征詞選擇。為特征詞集合中的每個(gè)單詞產(chǎn)生一個(gè)向量,再根據(jù)單詞對(duì)應(yīng)的向量將單詞聚類(lèi),然后從聚類(lèi)結(jié)果中選出更能表達(dá)PPI信息的詞,繼而進(jìn)行PPI識(shí)別。

1 相關(guān)工作

近年來(lái),研究者們?cè)絹?lái)越多地采用基于機(jī)器學(xué)習(xí)的方法[4-6]去識(shí)別PPI信息。基于機(jī)器學(xué)習(xí)的方法主要包括兩大類(lèi):基于核函數(shù)的方法和基于特征的方法?;诤撕瘮?shù)的方法首先對(duì)句子結(jié)構(gòu)進(jìn)行深入研究,通過(guò)設(shè)計(jì)核函數(shù)衡量不同蛋白質(zhì)對(duì)間的相似度,然后使用支持核函數(shù)的分類(lèi)器進(jìn)行PPI關(guān)系識(shí)別。例如,Bunescu R C等[7]提出了最短依賴路徑核,以樹(shù)的形式來(lái)表示句子,用兩個(gè)實(shí)體之間的最短路徑表示實(shí)體之間的關(guān)系;文獻(xiàn)[8-11]使用基于圖核、多核(特征的核,樹(shù)核及圖核融合)的學(xué)習(xí)方法抽取PPI信息。基于特征的方法試圖從標(biāo)注有交互關(guān)系的蛋白質(zhì)對(duì)的句子中提取出對(duì)PPI識(shí)別有效的特征來(lái)建立模型,進(jìn)而判斷蛋白質(zhì)對(duì)是否含有交互關(guān)系。例如,文獻(xiàn)[12-15]從句子中的詞匯形式、位置以及蛋白質(zhì)的上下文等信息中提取特征。Yang等[6,16]使用了蛋白質(zhì)實(shí)體間的眾多特征,如:距離、鏈接、詞匯、關(guān)鍵詞等。但有監(jiān)督的方法需要大量有標(biāo)注的數(shù)據(jù),且研究對(duì)象是單個(gè)句子,因此只能依賴一個(gè)句子中的線索,對(duì)于復(fù)雜的句子描述很難判斷。

與上述方法不同,筆者在之前的工作中采用弱監(jiān)督方式,只需利用少量的標(biāo)注數(shù)據(jù),利用與交互關(guān)系的模式的相似性對(duì)交互關(guān)系進(jìn)行判斷?;谠摲椒?,文中利用基于詞向量的方法對(duì)特征詞集合中的單詞進(jìn)行聚類(lèi),并從聚類(lèi)結(jié)果中選出對(duì)PPI識(shí)別有效的特征詞,繼而進(jìn)行蛋白質(zhì)交互識(shí)別。

2 基于弱監(jiān)督的蛋白質(zhì)交互關(guān)系識(shí)別

基于弱監(jiān)督的蛋白質(zhì)交互識(shí)別主要分為四個(gè)模塊,下面簡(jiǎn)單描述這四個(gè)模塊。

2.1 種子實(shí)例特征表示

該模塊找到文本庫(kù)中包含種子的句子,其中每個(gè)句子對(duì)應(yīng)一個(gè)關(guān)系實(shí)例,然后生成關(guān)系實(shí)例的向量表示。其中每個(gè)句子的上下文都分為三個(gè)部分:第一個(gè)蛋白質(zhì)左邊n個(gè)單詞(BEF)、兩蛋白質(zhì)之間的單詞(BET)、第二個(gè)蛋白質(zhì)右邊n個(gè)單詞(AFT)。

2.2 產(chǎn)生提取模式

根據(jù)PPI描述的相似性對(duì)PPI描述的上下文進(jìn)行聚類(lèi),形成PPI描述的提取模式。先對(duì)每個(gè)實(shí)例賦予一個(gè)bet得分,再根據(jù)該得分,對(duì)實(shí)例從大到小排序。然后,采用單次聚類(lèi)算法(single-pass clustering)對(duì)排序好的實(shí)例進(jìn)行聚類(lèi),聚類(lèi)生成的結(jié)果也即PPI關(guān)系的提取模式。

2.3 用提取模式尋找候選的關(guān)系實(shí)例

對(duì)待判斷關(guān)系的蛋白質(zhì)對(duì)集中的每對(duì)蛋白質(zhì),和種子類(lèi)似,在文本庫(kù)中掃描包含該對(duì)蛋白質(zhì)的句子。對(duì)于每個(gè)句子,生成該句子對(duì)應(yīng)實(shí)例的向量表示,并和2.2節(jié)產(chǎn)生的提取模式進(jìn)行相似性比較。利用提取模式從所有句子(關(guān)系實(shí)例)中選出可能存在交互關(guān)系的實(shí)例,即候選關(guān)系實(shí)例。

2.4 用候選實(shí)例識(shí)別有交互關(guān)系的蛋白質(zhì)對(duì)

每一個(gè)候選實(shí)例對(duì)應(yīng)的蛋白質(zhì)對(duì),稱(chēng)為候選蛋白質(zhì)對(duì)。本節(jié)對(duì)候選蛋白質(zhì)對(duì)打分,得分越高,該蛋白質(zhì)對(duì)越有可能存在交互關(guān)系。最后,將候選蛋白質(zhì)得分大于等于Ttuple(Ttuple是候選蛋白質(zhì)對(duì)得分的閾值)的蛋白質(zhì)對(duì)添加到種子集中,以用于下一輪的迭代,直到滿足迭代的終止條件。

3 基于詞向量的特征詞選擇

在基于弱監(jiān)督的蛋白質(zhì)交互關(guān)系識(shí)別中,選取特征詞的方式過(guò)于簡(jiǎn)單,使得特征詞集合中存在大量的、不能有效表達(dá)交互關(guān)系的詞,如:show(說(shuō)明)、express(表達(dá))。

文中的目的是從特征詞集合中選出能有效表達(dá)交互關(guān)系的詞。首先,對(duì)于三個(gè)部分上下文,對(duì)每個(gè)上下文中的單詞作初步過(guò)濾(是指從特征詞集合中刪除停用詞、單字符單詞、數(shù)字、“字母+數(shù)字”的詞)。然后,從剩下的詞中過(guò)濾掉出現(xiàn)頻次小于等于3次的詞。接下來(lái)的處理過(guò)程主要分為四個(gè)模塊,下面詳細(xì)描述這四個(gè)模塊。

3.1 特征詞聚類(lèi)

根據(jù)對(duì)眾多特征詞的觀察,發(fā)現(xiàn)能較好表達(dá)交互關(guān)系的詞往往很相似,能夠被劃分在同一類(lèi),如:inhabit(抑制)、induce(引起)。部分不能表達(dá)交互關(guān)系的詞也很相似,亦能被劃分在同一組內(nèi),如:cause(引起)、result(導(dǎo)致)。剩下的單詞和其他單詞都不相似,只能獨(dú)自歸為一類(lèi),如:member(成員)、type(類(lèi)型),這些單詞一定不能表達(dá)交互關(guān)系,直接過(guò)濾掉。

3.1.1 訓(xùn)練詞向量

文中描述的詞向量是distributed representation,是采用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來(lái)的向量。其基本思想是:通過(guò)訓(xùn)練,將語(yǔ)料中的每個(gè)詞都映射成一個(gè)固定長(zhǎng)度(N維)的向量。該詞向量克服了one-hot representation(建立一個(gè)詞表,向量維度等于詞表大小,詞表示為對(duì)應(yīng)維度為1)的缺點(diǎn),即容易受到維數(shù)災(zāi)難(是指在涉及到向量的計(jì)算中,隨著維數(shù)的增加,計(jì)算量呈指數(shù)倍增長(zhǎng)的現(xiàn)象)的困擾、不能很好地刻畫(huà)詞與詞之間的相似性。

采用的詞向量工具word2vec是Google開(kāi)源的詞向量工具,其中模型采用的是Skip-Gram模型。訓(xùn)練詞向量所用的語(yǔ)料是所有蛋白質(zhì)對(duì)對(duì)應(yīng)的句子。

3.1.2 將特征詞聚類(lèi)并過(guò)濾僅含一個(gè)詞的類(lèi)

根據(jù)單詞之間的相似性分別對(duì)bef、bet、aft上下文中的單詞進(jìn)行單次聚類(lèi),得到三個(gè)聚類(lèi)結(jié)果clus_bef、clus_bet、clus_aft。算法1描述了單次聚類(lèi)的過(guò)程,該算法的輸入是單詞集合。

算法1:single-pass clustering。

輸入:Words={w1,w2,…,wn}

輸出:Clusters={}

1:cl1={w1}

2:Clusters={cl1}

3:forwn∈Words do

4:map={}//類(lèi)號(hào)和相似性值的映射

5:forcli∈Clusters do

6:simVal=Sim(wn,cli)

7:ifsimVal>=Tsimthen

8:map=map∪{cli:simVal}

9:end if

10:end for

11:if map is not NULL then

12:sort(map,simVal)

13:index=map1[key]

14:clindex=clindex∪{wn}

15:else

16:clm={wn}

17:Clusters=Clusters∪{clm}

18:end if

19:end for

20:return Clusters

算法1的第1、2行表示將單詞集合中的第一個(gè)單詞作為第一個(gè)類(lèi)中的第一個(gè)元素,第二個(gè)單詞和它作相似性比較。若相似性滿足閾值條件,則將第二個(gè)單詞加入到第一個(gè)類(lèi)中,否則,創(chuàng)建一個(gè)新類(lèi),并將第二個(gè)單詞加入。算法1的第4~19行表示依次計(jì)算單詞wn和每一個(gè)類(lèi)cli之間的相似性,選出單詞和任意類(lèi)之間相似性最大的那個(gè)類(lèi)clindex,并且單詞和該類(lèi)滿足閾值條件,則將單詞wn添加到類(lèi)clindex中。如果單詞wn和最大相似性的類(lèi)都不滿足閾值條件,則創(chuàng)建一個(gè)新的空類(lèi),將單詞wn添加進(jìn)去。算法1的第20行輸出所生成的類(lèi)。

一個(gè)單詞和一個(gè)類(lèi)之間的相似性是通過(guò)算法1第6行中的Sim(wn,cli)來(lái)計(jì)算的,也就是計(jì)算單詞wn和類(lèi)cli內(nèi)的各個(gè)成員單詞之間的相似性。對(duì)Sim(wn,cli),如果單詞wn和類(lèi)cli中半數(shù)以上單詞的相似性都滿足閾值條件,那么返回最大相似性值,否則返回0。

計(jì)算兩個(gè)單詞的相似性采用如下公式:

Sim(wm,wn)=cos(wordVectorm,wordVectorn)

(1)

(2)

其中,wordVectorm和wordVectorn分別表示第m和第n個(gè)單詞對(duì)應(yīng)的詞向量。

然后,在聚類(lèi)結(jié)果的每個(gè)類(lèi)中,對(duì)于相同詞根的詞,只留一個(gè)。如一個(gè)類(lèi)中有詞bind、binds,則保留其中任意一個(gè)詞。再過(guò)濾掉僅有一個(gè)元素的類(lèi),因?yàn)榛谖闹械募僭O(shè),這些類(lèi)中的元素不能表達(dá)交互關(guān)系。

3.2 選出不能表達(dá)交互關(guān)系的高頻詞

根據(jù)觀察,可以發(fā)現(xiàn)出現(xiàn)頻數(shù)大且不能表達(dá)交互關(guān)系的詞在上下文中分布的特點(diǎn)是:(1)在bet上下文出現(xiàn)的頻數(shù)小于在bef上下文或aft上下文中出現(xiàn)的頻數(shù)(其中頻數(shù)可分為“存在頻數(shù)”和“總頻數(shù)”)。例如:在50個(gè)蛋白質(zhì)對(duì)中,有17個(gè)蛋白質(zhì)對(duì)對(duì)應(yīng)句子的bef上下文含有詞“show”,且總共出現(xiàn)了27次,其存在頻數(shù)和總頻數(shù)分別是17和27;而只有7個(gè)蛋白質(zhì)對(duì)對(duì)應(yīng)句子的bet上下文含有詞“show”,且總共出現(xiàn)了9次,其存在頻數(shù)和總頻數(shù)分別是7和9。(2)總頻數(shù)的差值比存在頻數(shù)的差值更加明顯,即總頻數(shù)之差大于存在頻數(shù)之差。上述例子中總頻數(shù)之差為27-9=18,而存在頻數(shù)之差為17-7=10,且18>10。

因此,首先從bef、bet、aft上下文中分別選出各自的動(dòng)詞。繼而統(tǒng)計(jì)各個(gè)動(dòng)詞的存在頻數(shù),記為x,并統(tǒng)計(jì)該動(dòng)詞的總頻數(shù),記為y。然后,對(duì)數(shù)據(jù)記錄按照x從大到小排序,組成三張動(dòng)詞頻率表bef_v、bet_v、aft_v,表中一條數(shù)據(jù)記錄為(w,x,y)。然后,從三張動(dòng)詞頻率表中選出不能表達(dá)交互關(guān)系的高頻詞。先從bef_v和bet_v中選擇高頻詞,選擇的方式如下:

(1)在bef_v和bet_v動(dòng)詞頻率表中都存在;

(2)在bef_v頻率表中的排名比在bet_v中的排名更加靠前;

(3)同一個(gè)單詞,其在bef_v和bet_v中的總頻數(shù)之差(y1-y2)比存在頻數(shù)之差(x1-x2)更大。

三種方式的結(jié)果組成單詞集合wordSet1。對(duì)于aft_v和bet_v,其選擇方式與bef_v、bet_v之間的選擇方式類(lèi)似,其選擇結(jié)果組成單詞集合wordSet2。

3.3 過(guò)濾含有不能表達(dá)交互關(guān)系單詞的類(lèi)

由于3.1節(jié)得到的類(lèi)中,每個(gè)類(lèi)中的單詞相互之間都是比較相似的,因此,一旦某個(gè)類(lèi)中有單詞被判定為不能表達(dá)交互關(guān)系,那么包含該單詞的類(lèi)的所有元素也都不能表達(dá)交互關(guān)系,于是把這個(gè)類(lèi)刪除。

對(duì)于在3.1節(jié)中聚類(lèi)得到的clus_bef、clus_bet、clus_aft,以及在3.2節(jié)中得到的單詞集合wordSet1、wordSet2,從類(lèi)clus_bef中去掉含有集合wordSet1中單詞的類(lèi),從類(lèi)clus_aft中去掉含有集合wordSet2中單詞的類(lèi),從類(lèi)clus_bet中去掉含有集合wordSet1、wordSet2中單詞的類(lèi)。

3.4 過(guò)濾掉bet部分不存在的詞

在一個(gè)句子中,bet上下文比bef和aft部分上下文更有可能出現(xiàn)能較好表達(dá)交互關(guān)系的詞,因此,假如某些詞只在bef或aft中出現(xiàn),而未在bet中出現(xiàn)過(guò),那么這些詞不能表達(dá)交互關(guān)系,應(yīng)該被過(guò)濾掉。

在剩余的類(lèi)clus_bef、clus_bet、clus_aft中,對(duì)于類(lèi)中的每個(gè)單詞分別求詞根,并從bef部分中去掉bef部分存在而bet部分不存在的詞根,從aft部分中去掉aft部分存在而bet部分不存在的詞根。

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)中有交互關(guān)系的蛋白質(zhì)對(duì)是直接從HPRD數(shù)據(jù)庫(kù)中查詢獲取,并且只保留被PubMed數(shù)據(jù)庫(kù)中一篇以上摘要包含的那些蛋白質(zhì)對(duì)。而對(duì)于無(wú)交互關(guān)系的蛋白質(zhì)對(duì),將HPRD中的蛋白質(zhì)隨機(jī)組合成蛋白質(zhì)對(duì),去除已被HPRD數(shù)據(jù)庫(kù)包含的蛋白質(zhì)對(duì)以及未被PubMed數(shù)據(jù)庫(kù)記載的蛋白質(zhì)對(duì)。以一對(duì)蛋白質(zhì)為查詢參數(shù),從文獻(xiàn)中檢索出描述這兩個(gè)蛋白質(zhì)的所有句子,作為該蛋白質(zhì)對(duì)的簽名檔。

文中設(shè)置一個(gè)句子中BET上下文的有效單詞個(gè)數(shù)為6(有效單詞個(gè)數(shù)是指不包括標(biāo)點(diǎn)在內(nèi)的單詞個(gè)數(shù),不夠6個(gè)則取BET中所有的單詞)。滿足此要求的有交互和無(wú)交互關(guān)系的蛋白質(zhì)對(duì)分別有964和870對(duì),總共1 834對(duì)。這些蛋白質(zhì)對(duì)對(duì)應(yīng)的簽名檔構(gòu)成文本庫(kù)。從有交互關(guān)系的蛋白質(zhì)對(duì)中隨機(jī)挑選出50對(duì)作為種子。

4.2 實(shí)驗(yàn)設(shè)置

訓(xùn)練詞向量時(shí)有以下參數(shù):min_count指最低頻率,若一個(gè)詞在預(yù)料中出現(xiàn)次數(shù)小于最低頻率,就放棄該詞;size指每個(gè)詞的向量維度;window指訓(xùn)練時(shí)的上下文掃描窗口大小,如window為2就是考慮前2個(gè)詞和后2個(gè)詞。設(shè)置min_count為1,size為200,window為5。

使用精度(P)、召回率(R)和F值(F)作為評(píng)價(jià)標(biāo)準(zhǔn),它們的計(jì)算公式為:

(3)

(4)

(5)

為設(shè)定算法1中的單詞相似性閾值wTsim,將wTsim從[0,1]變化,以0.1為間隔,觀察聚類(lèi)結(jié)果。當(dāng)類(lèi)內(nèi)單詞越相似,類(lèi)間單詞越迥異,聚類(lèi)結(jié)果越理想,最終確定wTsim為0.5。在基于弱監(jiān)督的蛋白質(zhì)交互識(shí)別中,為取得合理的實(shí)例相似性閾值iTsim,將iTsim從[0.1,0.6]變化(避免F值過(guò)低),以0.1為間隔,記錄實(shí)驗(yàn)結(jié)果。

4.3 實(shí)驗(yàn)結(jié)果及分析

表1列舉了采用特征詞選擇前后,每個(gè)實(shí)例對(duì)應(yīng)bef、bet、aft部分的特征詞數(shù)量。

表1 各方案下的特征詞數(shù)量

表1中,c1表示未采用特征詞選擇;c2表示用詞向量進(jìn)行聚類(lèi)后,過(guò)濾僅含一個(gè)元素的類(lèi);c3表示未使用詞向量進(jìn)行聚類(lèi),只過(guò)濾掉不能表達(dá)交互關(guān)系的高頻詞以及bet中不存在的詞;c4表示用詞向量進(jìn)行聚類(lèi),過(guò)濾僅含一個(gè)元素的類(lèi),根據(jù)不能表達(dá)交互關(guān)系的高頻詞,從聚類(lèi)結(jié)果中過(guò)濾掉含有高頻詞的類(lèi),再過(guò)濾掉bet中不存在的詞。從c1到c4,三個(gè)上下文的特征詞數(shù)量大量減少。

分別采用方案c1~c4,得到不同實(shí)例相似性閾值iTim下的F值,如圖1所示。從圖1可以看出,方案c2和c3的F值基本比c1更優(yōu),表明特征詞選擇后識(shí)別結(jié)果更優(yōu)。

分別采用c2和c3,得到不同實(shí)例相似性閾值iTim下的識(shí)別結(jié)果,如表2所示。

從表2可以發(fā)現(xiàn),隨著實(shí)例相似性閾值iTim減小,方案2和3的識(shí)別精度下降,召回率上升,F(xiàn)值上升。所有閾值iTim下,方案c3的精度都比方案c2的高。當(dāng)閾值iTim在0.2及以下時(shí),方案3的召回率和F值都比方案2的低;當(dāng)閾值iTim在0.3及以上時(shí),方案3的召回率和F值都比方案2的高。

表2 采用方案c2和c3的識(shí)別結(jié)果 %

文中使用多種特征詞選擇方法,使得特征詞數(shù)量大幅減小,實(shí)例對(duì)應(yīng)的特征向量維數(shù)明顯降低,極大提高了蛋白質(zhì)交互的識(shí)別效率,且識(shí)別結(jié)果更優(yōu)。

5 結(jié)束語(yǔ)

為了從特征詞中選擇表達(dá)交互關(guān)系的詞,提出了基于詞向量的特征詞選擇方法。該方法在比較單詞相似性時(shí),使用了詞向量的方式,取得了較好的識(shí)別結(jié)果。但在選擇不能表達(dá)交互關(guān)系的高頻詞時(shí),僅考慮其在上文中的分布情況,下一步的研究將嘗試其他的選擇方法。

參考文獻(xiàn):

[1] PRASAD T S K,GOEL R,KANDASAMY K,et al.Human protein reference database-2009 update[J].Nucleic Acids Research,2009,37:767-772.

[2] KERRIEN S,ALAM-FARUQUE Y,ARANDA B,et al.IntAct-open source resource for molecular interaction data[J].Nucleic Acids Research,2007,35:561-565.

[3] CEOL A,ARYAMONTRI A C,LICATA L,et al.MINT,the molecular interaction database:2009 update[J].Nucleic Acids Research,2010,38:532-539.

[4] 崔寶今,林鴻飛,張 霄.基于半監(jiān)督學(xué)習(xí)的蛋白質(zhì)關(guān)系抽取研究[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2009,39(3):16-21.

[5] 董美豪.基于文本挖掘的蛋白質(zhì)相互作用對(duì)抽取方法的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2015.

[6] 楊志豪,洪 莉,林鴻飛,等.基于支持向量機(jī)的生物醫(yī)學(xué)文獻(xiàn)蛋白質(zhì)關(guān)系抽取[J].智能系統(tǒng)學(xué)報(bào),2008,3(4):361-369.

[7] BUNESCU R C,MOONEY R J.A shortest path dependency kernel for relation extraction[C]//Proceedings of the conference on human language technology and empirical methods in natural language processing.Vancouver,British Columbia,Canada:Association for Computational Linguistics,2005:724-731.

[8] HIDO S,KASHIMA H.A linear-time graph kernel[C]//Ninth IEEE international conference on data mining.[s.l.]:IEEE,2009:179-188.

[9] AIROLA A, PYYSALO S, PAHIKKALA T, et al.A graph kernel for protein-protein interaction extraction[C]//Proceedings of workshop on current trends in biomedical natural language processing.[s.l.]:Association for Computational Linguistics,2008:1-9.

[10] 唐 楠,楊志豪,林鴻飛,等.基于多核學(xué)習(xí)的醫(yī)學(xué)文獻(xiàn)蛋白質(zhì)關(guān)系抽取[J].計(jì)算機(jī)工程,2011,37(10):184-186.

[11] 劉 念,馬長(zhǎng)林,張 勇,等.基于樹(shù)核的蛋白質(zhì)相互作用關(guān)系提取的研究[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2013,41:232-236.

[12] NIU Y,OTASEK D,JURISICA I.Evaluation of linguistic features useful in extraction of interactions from PubMed;application to annotating known, high-throughput and predicted interactions in I2D[J].Bioinformatics,2010,26(1):111-119.

[13] 高 飛.基于MapReduce的蛋白質(zhì)相互作用信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西北農(nóng)林科技大學(xué),2016.

[14] 吳紅梅,牛 耘.基于特征加權(quán)的蛋白質(zhì)交互識(shí)別[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(2):114-117.

[15] 張 景,吳紅梅,牛 耘.基于Minimum Cuts的蛋白質(zhì)交互識(shí)別[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(6):17-21.

[16] 劉敏捷.基于組合學(xué)習(xí)和主動(dòng)學(xué)習(xí)的蛋白質(zhì)關(guān)系抽取[D].大連:大連理工大學(xué),2015.

猜你喜歡
特征詞頻數(shù)相似性
一類(lèi)上三角算子矩陣的相似性與酉相似性
淺析當(dāng)代中西方繪畫(huà)的相似性
基于改進(jìn)TFIDF算法的郵件分類(lèi)技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
中考頻數(shù)分布直方圖題型展示
低滲透黏土中氯離子彌散作用離心模擬相似性
學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
頻數(shù)和頻率
面向文本分類(lèi)的特征詞選取方法研究與改進(jìn)
盜汗病治療藥物性味歸經(jīng)頻數(shù)分析
湾仔区| 丰顺县| 平谷区| 阳高县| 永康市| 玉溪市| 正蓝旗| 江山市| 伊金霍洛旗| 安达市| 拜城县| 邵东县| 永济市| 柳州市| 涞源县| 鱼台县| 思茅市| 新源县| 福清市| 泉州市| 仪陇县| 沧源| 昌都县| 康乐县| 吉木萨尔县| 汶上县| 花垣县| 兴和县| 宁城县| 山阳县| 邵阳市| 宕昌县| 广汉市| 徐汇区| 宜宾市| 沭阳县| 泾川县| 丽水市| 山东省| 太湖县| 敖汉旗|