国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生物醫(yī)學(xué)文獻(xiàn)的化學(xué)物質(zhì)致病關(guān)系抽取

2018-01-12 07:20:32李智恒桂穎溢楊志豪林鴻飛
計算機研究與發(fā)展 2018年1期
關(guān)鍵詞:級別語料分類器

李智恒 桂穎溢 楊志豪 林鴻飛 王 健

1(大連理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院 遼寧大連 116024)

2(北京理工大學(xué)光電學(xué)院 北京 100081)

(zhihengli@mail.dlut.edu.cn)

當(dāng)前,生物醫(yī)學(xué)文獻(xiàn)數(shù)目大幅度增長,但是大量生物醫(yī)學(xué)知識仍然隱藏在文獻(xiàn)中,例如PubMed摘要.與其他主題相比,全球的PubMed用戶對化學(xué)物質(zhì)、疾病以及二者之間關(guān)系的檢索頻率最高[1-2],這也反映出它們在生物醫(yī)學(xué)研究和衛(wèi)生保健領(lǐng)域的重要意義[3].因此,一些生物醫(yī)學(xué)數(shù)據(jù)庫,如CTD (comparative toxicogenomics database)[4],通過人工標(biāo)注的方式,將非結(jié)構(gòu)化文本中的化學(xué)物質(zhì)-疾病關(guān)系(chemical-disease relation, CDR)標(biāo)注成結(jié)構(gòu)化知識,從而鑒定化學(xué)物質(zhì)的潛在毒性.但是,由于人工標(biāo)注CDR耗費大量時間和精力,并且很難滿足生物醫(yī)學(xué)文獻(xiàn)迅速增長的需求[3],因此,自動地從生物醫(yī)學(xué)文獻(xiàn)中抽取CDR信息成為一個重要的研究領(lǐng)域.

此前,一些研究已涉足藥物副作用關(guān)系抽取領(lǐng)域.Xu等人[5]提出一個知識驅(qū)動的模式學(xué)習(xí)方法,該方法與支持向量機(support vector machine, SVM)和基于共現(xiàn)方法相比,準(zhǔn)確率和F值有顯著提高,但是召回率有所下降.Kang等人[6]提出基于知識的藥物副作用事件抽取系統(tǒng),該系統(tǒng)與基于機器學(xué)習(xí)的方法相比,能夠利用小規(guī)模訓(xùn)練集數(shù)據(jù)取得較好效果.Gurulingappa等人[7]提出一個基于SVM的統(tǒng)計關(guān)系抽取系統(tǒng)用于從醫(yī)療病例報告中識別潛在藥物副作用事件.

2015年,BioCreative V組織一個從生物醫(yī)學(xué)文獻(xiàn)中自動抽取化學(xué)物質(zhì)致病(chemical-induced disease, CID)關(guān)系的評測任務(wù).該任務(wù)旨在支持新藥發(fā)現(xiàn)和藥物安全性檢測[3,8].參加評測的系統(tǒng)以原始PubMed文章摘要作為系統(tǒng)輸入,并被要求從摘要文本中抽取CID關(guān)系,返回關(guān)系排序列表,并為每一個抽取出的CID關(guān)系賦予置信分?jǐn)?shù).在評測任務(wù)中,UTH-CCB組[9]分別訓(xùn)練句子級別和文檔級別的SVM分類器,并將其合并以便抽取CID關(guān)系.由Erasmus MC 組設(shè)計的RELigator系統(tǒng)[10]利用豐富的特征進(jìn)行訓(xùn)練,包括含有先驗知識的圖形數(shù)據(jù)庫、語言學(xué)和統(tǒng)計學(xué)特征.盡管有以上很多嘗試,基于生物醫(yī)學(xué)文獻(xiàn)的CDR抽取仍然處于初級階段,并且系統(tǒng)性能仍有很大提升空間.例如,在BioCreative V CDR任務(wù)中,性能最好的系統(tǒng)取得的F值為57.03%[9].

本文提出一個化學(xué)物質(zhì)-疾病關(guān)系抽取系統(tǒng)——CDRExtractor,用于從生物醫(yī)學(xué)文獻(xiàn)中抽取CID關(guān)系.CDRExtractor包括句子級別SVM分類器(CS)和文檔級別SVM分類器(CD).第1階段,利用CS抽取句子中共現(xiàn)的化學(xué)物質(zhì)和疾病之間的CID關(guān)系.首先,我們?nèi)斯?biāo)注了句子級別的訓(xùn)練集.由于人工標(biāo)注費時費力且效率很低,標(biāo)注的訓(xùn)練語料有限,因此我們利用Co-training算法[11]擴展未標(biāo)注語料,將特征核和圖核[12]特征看作2個獨立的視圖進(jìn)行訓(xùn)練.第2階段,利用CD抽取不在同一句子中共現(xiàn)的化學(xué)物質(zhì)和疾病之間的CID關(guān)系,即跨句子的CID關(guān)系.CD充分利用摘要中的化學(xué)物質(zhì)和疾病特征,并返回文檔級別CID關(guān)系.最后,我們利用規(guī)則將CS和CD的輸出進(jìn)行整合,得到最終輸出結(jié)果.

1 任務(wù)及系統(tǒng)簡介

CDR任務(wù)組織者發(fā)布了用于進(jìn)行CID關(guān)系抽取的語料,其中包含1 500篇PubMed摘要(訓(xùn)練集、開發(fā)集、測試集各500篇),并標(biāo)出4 409個化學(xué)物質(zhì)、5 818個疾病和3 116個CID關(guān)系[8].如圖1所示,標(biāo)注者人工標(biāo)出文中的實體,并用實體的醫(yī)學(xué)主題詞概念標(biāo)識符(medical subject headings concept identifiers,MeSH?IDs)[3]進(jìn)行標(biāo)準(zhǔn)化.CID關(guān)系均在文檔級別標(biāo)注,即并未指明關(guān)系所在的具體句子.圖1中,第1個實例為句子中共現(xiàn)的CID關(guān)系,第2個實例為跨句子CID關(guān)系.

圖2所示為CDRExtractor系統(tǒng)結(jié)構(gòu)圖.CDRExtractor包含句子級別SVM分類器(CS)和文檔級別SVM分類器(CD).將特征核和圖核特征看作2個獨立的視圖,利用Co-training算法訓(xùn)練CS;根據(jù)文檔級別信息,利用特征核訓(xùn)練CD.最終通過規(guī)則將2個分類器的分類結(jié)果整合輸出.

Fig. 1 Samples from the CDR corpus圖1 CDR語料中的實例

Fig. 2 Architecture of the CDRExtractor system圖2 CDRExtractor系統(tǒng)結(jié)構(gòu)圖

2 句子級別關(guān)系抽取

2.1 語料預(yù)處理

本文利用BioCreative V CDR任務(wù)提供的訓(xùn)練集和開發(fā)集(各500篇PubMed摘要)訓(xùn)練句子級別SVM分類器CS.由于語料集是在文檔級別進(jìn)行標(biāo)注的,標(biāo)注出的CID關(guān)系具體來自哪個句子是未知的,因此需要構(gòu)造句子級別的語料集.

首先對文本進(jìn)行預(yù)處理:1)用實體的MeSH?ID代替文中實體名稱;2)過濾少于2種實體的句子.之后,我們抽取所有包含化學(xué)物質(zhì)-疾病(chemical-disease)實體對的句子并人工標(biāo)注是否含有CID關(guān)系——句子中明確指出化學(xué)物質(zhì)和疾病之間含有CID關(guān)系的實例被標(biāo)注為正例,其他實例均為負(fù)例.表1為本文中標(biāo)注的訓(xùn)練集和開發(fā)集中句子級別實例數(shù).

Table 1 The Statistics of the Labeled Datasets at Sentence Level

本文對標(biāo)注的一致性進(jìn)行評估,每位標(biāo)注者之間的Cohen’s kappa[13]分值為0.806,內(nèi)容分析的研究人員普遍認(rèn)為,Cohen’s kappa的得分超過0.8即為可靠性好[13].

2.2 句子級別分類器

對于句子中共現(xiàn)的chemical-disease實體對,本文利用2個基于核的方法訓(xùn)練句子級別的SVM分類器進(jìn)行分類.一個核可以被看作是對象的近似函數(shù)[14].不同的核從不同的角度計算2個句子的相似度.我們結(jié)合特征核和圖核2種核分別從語義特征和句法特征2個角度對句子級別的CID關(guān)系進(jìn)行抽取,利用Co-training方法引入大量未標(biāo)注語料擴充訓(xùn)練集從而使分類器主動學(xué)習(xí)特征,進(jìn)一步抽取句子級別的CID關(guān)系,提升系統(tǒng)性能.

2.3 特征核

下列特征被用于特征核的訓(xùn)練:

1) 詞特征.利用chemical-disease實體對之間及前后各M個詞作為特征計算相似度.本文系統(tǒng)中,M=4.

2)N元詞特征.二元和三元詞.

3) 實體距離特征.實體之間的距離在一定程度上影響2個實體之間的關(guān)系.因此,實體間的距離也被看作一個特征[14].例如:若chemical-disease實體對間的距離小于3,則該特征被標(biāo)記為“DISLess-ThanThree”.

4) 關(guān)鍵詞特征.某些詞,如“induced”,若出現(xiàn)在chemical-disease實體對附近,則句子中很可能存在CID關(guān)系.為識別類似關(guān)鍵詞,我們建立了1個包括動詞和短語在內(nèi)共200個詞條的關(guān)鍵詞表.除關(guān)鍵詞本身外,句子中是否存在關(guān)鍵詞也被看作1個二值特征.

5) 基于知識的特征.本文抽取了CTD數(shù)據(jù)庫[4]中未被標(biāo)為“therapeutic”的所有chemical-disease關(guān)系對.CTD是一個健壯的、公開數(shù)據(jù)庫,提供了人工標(biāo)注的化學(xué)物質(zhì)-基因/蛋白質(zhì)關(guān)系、化學(xué)物質(zhì)-疾病關(guān)系和基因-疾病關(guān)系.chemical-disease實體對是否存在于CTD中也被看作一個特征,因為大部分CID關(guān)系存在于CTD中.

2.4 圖 核

圖核方法中,用語法樹表示句子的圖形結(jié)構(gòu),通過比較圖中的公共節(jié)點來計算2個圖之間的相似度.本文利用含有2個非聯(lián)通子圖的全路徑圖核,分別表示句子的依存結(jié)構(gòu)和詞語的線性序列[12],如圖3所示.本文采取簡單權(quán)重模式,所有最短路徑上的邊的權(quán)重均為0.9,其他邊權(quán)重為0.3;第2個子圖上的每條邊的權(quán)重均為0.9.

Fig. 3 Graph kernel representation圖3 句子的圖核

表示2個輸入圖的相似度通過矩陣G來計算:

(1)

其中,A是邊的矩陣,Ai j表示連接節(jié)點Vi和Vj的邊的權(quán)重;L為標(biāo)簽矩陣,Li j=1表示節(jié)點Vj包含標(biāo)簽i.對于輸入圖矩陣G和G′,圖核K(G,G′)定義為

(2)

2.5 Co-training算法

人工構(gòu)建大規(guī)模語料費時費力.然而,有限的標(biāo)注語料很難使分類器獲得令人滿意的泛化能力.因此,本文引入半監(jiān)督學(xué)習(xí)方法——Co-training算法[11],擴充大量未標(biāo)注語料來提升分類器性能.

我們從PubMed網(wǎng)站*http://www.ncbi.nlm.nih.gov/pubmed/檢索“chemical-induced disease”,得到3 000篇MedLine摘要作為未標(biāo)注語料.之后利用PubTator[15]工具(網(wǎng)頁工具,利用已有文本挖掘技術(shù)進(jìn)行命名實體識別和關(guān)系抽取)對這些摘要中的化學(xué)物質(zhì)和疾病實體進(jìn)行識別和標(biāo)準(zhǔn)化.經(jīng)過預(yù)處理,共得到7 868個未標(biāo)注句子.

Co-training算法如下:1)我們利用少量標(biāo)注訓(xùn)練集分別訓(xùn)練基于特征核和圖核的分類器;2)利用2個分類器分別標(biāo)注一定數(shù)量的未標(biāo)注實例,其中被2個分類器標(biāo)注一致的實例會被加入訓(xùn)練集中形成下一次迭代的訓(xùn)練集.

算法1. Co-training算法.

輸入:標(biāo)注訓(xùn)練集D、未標(biāo)注數(shù)據(jù)集U;初始化訓(xùn)練集Df,Dg(Df=Dg=D);充足冗余的視圖Vf,Vg;迭代次數(shù)I;

輸出:特征核分類器hf和圖核分類器hg.

步驟:

① 從U中隨機選擇實例形成未標(biāo)注集合u,U=U-u;

② 在視圖Vf中利用Df訓(xùn)練分類器hf;在視圖Vg中利用Dg訓(xùn)練分類器hg;

③ 利用hf,hg標(biāo)注u中的實例;

④ 選擇標(biāo)注一致的p個正例和q個負(fù)例加入訓(xùn)練集,從U中選擇相同數(shù)量的實例代替加入訓(xùn)練集的實例,補充到u中;

⑤ 循環(huán): 步驟②~④ 直到未標(biāo)注語料U=?或者u中的實例數(shù)少于某特定值,或者I=0;

⑥ 輸出分類器hf,hg.

由于不同的分類器計算2個句子相似度的角度不同,結(jié)合2個分類器的相似度有助于減少重要特征的丟失[16],提高整體性能.文中分別給予特征核和圖核分類器的權(quán)重為0.7和0.3,用于整合2個分類器對同一實例給出的分值.

2.6 文檔級別結(jié)果整合

本文利用2條規(guī)則將句子級別的結(jié)果整合到文檔級別:

1) 若提取的CID關(guān)系來自文章題目,置信分值加0.3分.因為題目是文章的核心,其中的CID關(guān)系更為重要.

2) 若1篇文章中提取的某一CID關(guān)系超過1次,那么該CID關(guān)系的分值將相應(yīng)提升.因為多次提取出來的CID關(guān)系比其他關(guān)系更重要.

CID關(guān)系的置信分值score_f的計算為

(3)

其中,score_h表示CID關(guān)系獲得的最高分值;f,fC,fD分別表示抽取的CID關(guān)系、化學(xué)物質(zhì)和疾病頻率.上述參數(shù)的取值均為實驗獲得.

最終,利用閾值對CID關(guān)系進(jìn)行過濾,得到文檔級別輸出.

3 文檔級別關(guān)系抽取

本文利用文檔級別分類器CD對跨句子的CID關(guān)系進(jìn)行抽取.CD分類器在訓(xùn)練集和開發(fā)集上用特征核進(jìn)行訓(xùn)練,其特征包括:

1) 實體特征.化學(xué)物質(zhì)和疾病實體出現(xiàn)的頻次和先后順序,是否為第1次或最后一次出現(xiàn),其間是否有其他實體.上述特征很有可能與文章主題相關(guān),而文檔級別的關(guān)系很大程度上與文章的主題相關(guān).

2) 詞特征.chemical-disease實體之間的一元、二元詞以及其前后M個詞.在本文系統(tǒng)中,M=5.

3) 知識特征.chemical-disease實體對是否在CTD中.

CD利用上述特征對文檔級別CID關(guān)系進(jìn)行抽取,抽取出的結(jié)果與CS的結(jié)果進(jìn)行合并,之后利用如下規(guī)則進(jìn)一步處理,以提高系統(tǒng)性能:

1) 若一篇摘要中抽取的CID關(guān)系數(shù)目超過4個,則過濾掉既不出現(xiàn)在題目中,分值又低于0.7的關(guān)系.因為一篇文章通常集中討論的CID 關(guān)系有限,出現(xiàn)在題目中的化學(xué)物質(zhì)或疾病是文章的主題.若返回的關(guān)系中的實體均不出現(xiàn)在題目中,則全部保留.

2) 對于無結(jié)果返回的文章,包含題目中出現(xiàn)過的化學(xué)物質(zhì)的chemical-disease實體對作為返回關(guān)系輸出.

3) 用CTD數(shù)據(jù)庫過濾.經(jīng)過人工標(biāo)注CTD數(shù)據(jù)庫中的CID關(guān)系可以認(rèn)為是可靠的關(guān)系,因此可以提高系統(tǒng)的準(zhǔn)確率.

4 結(jié)果與討論

BioCreative V CDR評測任務(wù)提供的訓(xùn)練集、開發(fā)集和測試集各包含PubMed文摘500篇,其中的CID關(guān)系數(shù)分別為1038,1012,1066.本文在訓(xùn)練集和開發(fā)集上訓(xùn)練分類模型,利用測試集進(jìn)行測試.

4.1 句子級別抽取結(jié)果

首先利用Co-training算法訓(xùn)練模型抽取句子級別CID關(guān)系,每個模型的性能如表2所示,Co-training之后,模型的召回率明顯提高,但是準(zhǔn)確率相應(yīng)下降.因為Co-training過程加入模型標(biāo)注的實例,在添加更多信息的同時也加入一些噪音,影響準(zhǔn)確率.然而,召回率提升明顯高于對準(zhǔn)確率的影響,因此,F(xiàn)值有所提升.當(dāng)?shù)螖?shù)過多時,引入過多噪音,導(dǎo)致F值下降.事實上,半監(jiān)督學(xué)習(xí)方法并不穩(wěn)定,因為在學(xué)習(xí)過程中未標(biāo)注實例經(jīng)常被錯誤標(biāo)注[17].特征核和圖核模型的F值在迭代次數(shù)為1和4的時候達(dá)到峰值.

經(jīng)過合并之后,2個模型共同作用結(jié)果F值達(dá)到58.89%,明顯高于任何一個模型.這說明特征核和圖核從不同角度計算2個句子的相似度,并有所互補.

另外,句子級別結(jié)果映射到文檔級別需要根據(jù)式(3)計算分值,之后通過閾值進(jìn)行過濾.圖4(a)為準(zhǔn)確率(P)、召回率(R)和F值隨閾值增加的變化情況,閾值越大,準(zhǔn)確率越高、召回率越低.當(dāng)閾值取0.1時,F(xiàn)值達(dá)到峰值58.89%.圖4(b)展示了CD分類器性能隨閾值變化情況,閾值取-0.4時F值達(dá)到峰值66.48%.

Table 2 Results at Sentence Level表2 句子級別結(jié)果

Fig. 4 Relationship between performance and thresholds of CS and CD圖4 CS和CD性能隨閾值變化情況

4.2 文檔級別抽取結(jié)果

表3展示了不同的CID關(guān)系抽取系統(tǒng)在測試集上的性能.基于實體共現(xiàn)方法在句子級別和文檔級別的F值分別為34.46%和27.05%[3].RELigator系統(tǒng)利用先驗知識、語言學(xué)和統(tǒng)計學(xué)信息,獲得52.56%的F值[10],在評測的18組(46組結(jié)果)中排名第2.該系統(tǒng)利用自己的工具識別疾病實體(性能未知),利用評測機構(gòu)提供的工具tmChem[18](F值為92%)識別化學(xué)物質(zhì).

評測中,UTH-CCB組系統(tǒng)結(jié)合2個SVM分類器,F(xiàn)值達(dá)到57.03%[9],位列第1.隨后,UTH-CCB組提出系統(tǒng)CD-REST[19],其性能如表3所示,在標(biāo)準(zhǔn)實體標(biāo)注的情況下,F(xiàn)值達(dá)到67.16%.CD-REST融合大量生物醫(yī)學(xué)知識(MeSH,MEDI[20],SIDER[21],CTD)作為特征,對性能的提升作出很大貢獻(xiàn),未利用生物醫(yī)學(xué)資源的情況下準(zhǔn)確率、召回率和F值分別下降到59.60%,44%,50.73%(準(zhǔn)確率、召回率和F值分別下降6.2%,24.57%,16.43%).另外,利用識別工具對實體進(jìn)行識別之后,F(xiàn)值降低約9%(化學(xué)物質(zhì)和疾病識別的F值分別為90.72%和84.43%).這說明實體識別的準(zhǔn)確性對關(guān)系抽取性能影響很大.

在標(biāo)準(zhǔn)實體標(biāo)注情況下,首先,CDRExtractor利用Co-training方法,從大量未標(biāo)注語料中學(xué)習(xí)有用信息,大幅度減少人為的特征設(shè)計,F(xiàn)值達(dá)到58.89%;之后利用文檔級別分類器,抽取跨句子的CID關(guān)系,大幅度提升系統(tǒng)性能(召回率和F值分別提升14.91%和7.59%,而準(zhǔn)確率僅降低1.59%);最后利用規(guī)則對得到的抽取結(jié)果進(jìn)行整合,召回率又提升9.10%,F(xiàn)值達(dá)到67.72%,這說明后處理規(guī)則具有一定效果.另外,我們利用CD-REST的命名實體識別工具對測試集中實體進(jìn)行識別并測試了CDRExtractor的性能,其結(jié)果如表3所示.利用工具識別后的抽取結(jié)果,F(xiàn)值比標(biāo)準(zhǔn)實體標(biāo)注下的F值降低8.57%,再次說明,實體識別的性能對關(guān)系抽取性能影響很大.

Table 3 Relation Extraction Performance for Different Systems表3 不同系統(tǒng)的關(guān)系抽取性能

與CD-REST相比,CDRExtractor是利用Co-training方法,使系統(tǒng)從語義特征和語法特征2個角度主動學(xué)習(xí)到未標(biāo)注語料中的特征,并利用CD與CS互補抽取跨句子的CID關(guān)系,從而大幅度提升分類器的召回率;而CD-REST則是利用大量已有知識,人為地設(shè)計特征用于分類(CD-REST系統(tǒng)共利用11種知識特征、12種實體和上下文特征信息),其中包括MeSH,MEDI,SIDER,CTD數(shù)據(jù)庫.相比之下,CDRExtractor只應(yīng)用CTD數(shù)據(jù)庫信息,仍然達(dá)到更好的性能.

5 錯誤分析

5.1 準(zhǔn)確率錯誤分析

從生物醫(yī)學(xué)文獻(xiàn)中抽取CID關(guān)系是一個新穎的任務(wù),其性能仍有待提高.表4為CDRExtractor系統(tǒng)在測試集的100篇文章中的準(zhǔn)確率錯誤類型分析.

Table 4 Analysis of the System Precision Error Types表4 系統(tǒng)準(zhǔn)確率錯誤類型分析

表4顯示,超過半數(shù)的準(zhǔn)確率錯誤來自CS,自然語言表達(dá)的復(fù)雜性是此類錯誤的主要原因.例如:句子“CONCLUSION: C_D019808 reduces the rate of progression of C_D004317-induced D_D005923 to D_D007676 in SHR”中,系統(tǒng)錯誤地認(rèn)為“C_D004317”和“D_D007676”之間存在CID關(guān)系.

另外,32.18%的錯誤來自CD,主要原因(22/28)是系統(tǒng)調(diào)低了CD的閾值以得到更高的召回率,從而導(dǎo)致了假陽性實例的增加.另外6.90%的錯誤來源于規(guī)則中對未返回結(jié)果的文檔進(jìn)行的處理.事實上,這些規(guī)則很難定義,因為它對準(zhǔn)確率和召回率的影響是相反的.

5.2 召回率錯誤分析

表5為DRExtractor系統(tǒng)在測試集的100篇文章中的召回率錯誤類型分析.

Table 5 Analysis of the System Recall Error Types表5 系統(tǒng)召回率錯誤類型分析

大部分未被返回的CID關(guān)系存在于跨句子關(guān)系中.由于跨句子實體對之間的自然語言表達(dá)情況過于復(fù)雜,選取有效的特征成為難題.因此CD未返回的關(guān)系成為召回率錯誤的主要原因(61.25%).對于句子中共現(xiàn)的實體對,召回率錯誤的主要原因仍然是自然語言表達(dá)太過復(fù)雜.例如句子中包含過多的實體、修飾成分和從句等.這部分原因(38.75%)導(dǎo)致CS無法判斷實體之間是否存在關(guān)系.

另外,正如之前提到的,實體識別和標(biāo)準(zhǔn)化過程也會影響CID關(guān)系抽取的最終性能.例如CD-REST系統(tǒng)的實體識別工具(化學(xué)物質(zhì)和疾病識別的F值分別為90.72%和84.43%)進(jìn)行標(biāo)注的情況下與標(biāo)準(zhǔn)實體情況下相比,系統(tǒng)F值降低8.83%;本文系統(tǒng)CDRExtractor利用CD-REST系統(tǒng)工具進(jìn)行實體識別的情況下與標(biāo)準(zhǔn)實體情況下相比,F(xiàn)值降低8.57%.

6 結(jié) 論

從生物醫(yī)學(xué)文獻(xiàn)中自動抽取CID關(guān)系可以利用到新藥發(fā)現(xiàn)和藥物安全性檢測中[3,8].本文提出一個CID關(guān)系抽取系統(tǒng)——CDRExtractor,能夠從句子和文檔級別抽取CID關(guān)系,并經(jīng)過后處理規(guī)則將2部分結(jié)果融合,形成最終輸出.

句子級別分類器的訓(xùn)練階段,經(jīng)過人工標(biāo)注得到訓(xùn)練集.然而,人工標(biāo)注的CID關(guān)系費時費力且無法滿足大量增長的文獻(xiàn)數(shù)目的需求[3],因此我們利用Co-Training算法將特征核和圖核特征相結(jié)合,引入大量未標(biāo)注語料對訓(xùn)練集進(jìn)行擴充,減少人為的知識特征設(shè)計工作.之后CDRExtractor利用文檔級別分類器抽取跨句子的CID關(guān)系,從而顯著提高系統(tǒng)召回率.最后,利用后處理規(guī)則形成最終文檔級別的CID關(guān)系,過濾不可靠關(guān)系,得到更好性能.

另外,我們發(fā)現(xiàn)CTD數(shù)據(jù)庫等先驗知識能夠使抽取結(jié)果更加準(zhǔn)確.從文章主旨的角度來看,題目中的實體更為重要.對CDRExtractor的準(zhǔn)確率和召回率錯誤分析中可知,自然語言表達(dá)的復(fù)雜性是造成準(zhǔn)確率錯誤的主要原因,而CD未能抽取的跨句子CID關(guān)系是召回率錯誤產(chǎn)生的原因.

現(xiàn)階段,從生物醫(yī)學(xué)文獻(xiàn)中自動抽取CDR仍然有很大的提升空間.在未來的工作中,句子級別的CID關(guān)系抽取性能需要進(jìn)一步提高,因為從句子中抽取的CID 關(guān)系更為準(zhǔn)確.另一方面,對于跨句子的關(guān)系,需要設(shè)計更為有效的文檔級別特征.另外,指代消解方法可能會對跨句子的關(guān)系識別有所助益.

[3] Wei Chih-Hsuan, Peng Yifan, Leaman R, et al. Overview of the BioCreative V chemical disease relation (CDR) task[C/OL] //Proc of the 5th BioCreative Challenge Evaluation Workshop. 2015: 154-166[2015-12-30]. http://www.biocreative.org/media/store/files/2015/BC5CDR_overview.final.pdf

[4] Davis A P, Grondin C J, Lennon-Hopkins K, et al. The comparative toxicogenomics database’s 10th year anniversary: Update 2015[J]. Nucleic Acids Research, 2015, 43(D1): D914-D920

[5] Xu Rong, Wang Quanqiu. Automatic construction of a large-scale and accurate drug-side-effect association knowledge base from biomedical literature[J]. Journal of Biomedical Informatics, 2014, 51: 191-199

[6] Kang Ning, Singh B, Bui C, et al. Knowledge-based extraction of adverse drug events from biomedical text[J]. BMC Bioinformatics, 2014, 15(1): 64

[7] Gurulingappa H, Mateen-Rajpu A, Toldo L. Extraction of potential adverse drug events from medical case reports[J]. Journal of Biomedical Semantics, 2012, 3(1): 15

[8] Li Jiao, Sun Yueping, Johnson R, et al. Annotating chemicals, diseases, and their interactions in biomedical literature[C/OL] //Proc of the 5th BioCreative Challenge Evaluation Workshop. 2015: 173-182 [2015-12-30]. http://www.biocreative.org/media/store/files/2015/BC5CDRcorpus.pdf

[9] Xu Jun, Wu Yonghui, Zhang Yaoyun, et al. UTH-CCB@ BioCreative V CDR task: Identifying chemical-induced disease relations in biomedical text[C/OL] //Proc of the 5th BioCreative Challenge Evaluation Workshop. 2015: 254-259[2015-12-30]. http://www.biocreative.org/media/store/files/2015/BCV2015_paper_38n.pdf

[10] Pons E, Becker B, Akhondi S A, et al. RELigator: Chemical-disease relation extraction using prior knowledge and textual information[C/OL] //Proc of the 5th BioCreative Challenge Evaluation Workshop. 2015: 247-253[2015-12-30]. http://www.biocreative.org/media/store/files/2015/BCV2015_paper_37.pdf

[11] Wang Wei, Zhou Zhihua. Analyzing co-training style algorithms[C] //Proc of the European Conf on Machine Learning. Berlin: Springer, 2007: 454-465

[12] Airola A, Pyysalo S, Bj?rne J, et al. All-paths graph kernel for protein-protein interaction extraction with evaluation of cross-corpus learning[J]. BMC Bioinformatics, 2008, 9(11): S2

[13] Carletta J. Assessing agreement on classification tasks: The kappa statistic[J]. Computational Linguistics, 1996, 22(2): 249-254

[14] Cristianini N, Shawe-Taylor J. An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods[M]. Cambridge, UK: Cambridge University Press, 2000

[15] Wei Chih-Hsuan, Kao Hung-Yu, Lu Zhiyong. PubTator: A Web-based text mining tool for assisting biocuration.[J]. Nucleic Acids Research, 2013, 41 (W1): W518-W522

[16] Yang Zhihao, Zhao Zhehuan, Li Yanpeng, et al. PPIExtractor: A protein interaction extraction and visualization system for biomedical literature[J]. IEEE Trans on Nanobioscience, 2013, 12(3): 173-181

[17] Zhou Zhihua, Li Ming. Tri-training: Exploiting unlabeled data using three classifiers[J]. IEEE Trans on Knowledge and Data Engineering, 2005, 17(11): 1529-1541

[18] Leaman R, Wei Chih-Hsuan, Lu Zhiyong. tmChem: A high performance approach for chemical named entity recognition and normalization[J]. Journal of Cheminformatics, 2015, 7(1): S3

[19] Xu Jun, Wu Yonghui, Zhang Yaoyun, et al. CD-REST: A system for extracting chemical-induced disease relation in literature[J/OL]. Database, 2016[2016-04-13].https://academic.oup.com/database/article/doi/10.1093/database/baw036/2630291/CD-REST-a-system-for-extracting-chemical-induced

[20] Wei Weiqi, Cronin R M, Xu Hua, et al. Development and evaluation of an ensemble resource linking medications to their indications[J]. Journal of the American Medical Informatics Association, 2013, 20(5): 954-961

[21] Kuhn M, Campillos M, Letunic I, et al. A side effect resource to capture phenotypic effects of drugs[J]. Molecular Systems Biology, 2010, 6(1): 343

猜你喜歡
級別語料分類器
痘痘分級別,輕重不一樣
邁向UHD HDR的“水晶” 十萬元級別的SIM2 CRYSTAL4 UHD
新年導(dǎo)購手冊之兩萬元以下級別好物推薦
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
你是什么級別的
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
饶平县| 安康市| 正阳县| 盐源县| 仙桃市| 吉林省| 黄龙县| 孝义市| 清新县| 怀安县| 小金县| 北票市| 洞头县| 璧山县| 福州市| 英山县| 贺州市| 格尔木市| 丹东市| 哈尔滨市| 南靖县| 涿州市| 葵青区| 营山县| 桂阳县| 金湖县| 广南县| 建阳市| 洛浦县| 河南省| 太白县| 新绛县| 新干县| 榆中县| 揭西县| 共和县| 溧阳市| 阳春市| 马关县| 夹江县| 芦溪县|