国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向生物文本挖掘的語義標(biāo)注研究

2015-07-18 09:28:16魏小梅
關(guān)鍵詞:有向圖三元組后置

陳 波,呂 晨,魏小梅

(1.湖北文理學(xué)院 文學(xué)院,湖北 襄陽 441053;2.武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430072)

生物文本的語義標(biāo)注在生物文本挖掘和信息抽取領(lǐng)域非常重要。它有助于提高自動(dòng)檢索的精度和有效性[1-3]。但是,不含語義信息的資源為進(jìn)一步的實(shí)體識別和關(guān)鍵詞提取帶來了很多難題,而這些信息是醫(yī)生亟需的,比如:基因表觀遺傳學(xué)(Gene Epigenetics)、腫瘤(Oncology)等。

近年來,語義標(biāo)注在生物標(biāo)注領(lǐng)域越來越受到重視[4-6]。面向生物文本挖掘(Biomedical Text Mining),本文提出了一個(gè)新的語義表示模型“遞歸有向圖”。該模型可以很好地描述或推導(dǎo)出生物文本復(fù)雜句型中的生物概念關(guān)系。本文致力于建構(gòu)一個(gè)大規(guī)模的標(biāo)注生物語料庫——“the biomedical token semantic association(bioTSA)”,可以表示出文本中所有詞語(tokens)的語義關(guān)系。該語料庫的語料數(shù)據(jù)來源于BioNLP2009公開評測任務(wù)和BioNLP2013 GE公開評測任務(wù)的訓(xùn)練集。

當(dāng)前依存結(jié)構(gòu)是最流行的分析方法之一,基于依存結(jié)構(gòu)的許多文本分析研究都取得了很大的進(jìn)展[7-8]。其他相關(guān)的標(biāo)注研究,例如Kulick[2]研發(fā)的Framework,集成了樹庫(Treebank)和命題庫(Propbank),包含了句法結(jié)構(gòu)和謂詞論元結(jié)構(gòu);又如Kim[3]研發(fā)的語義標(biāo)注和事件標(biāo)注系統(tǒng)。然而在分析生物文本時(shí)遇到了很多難題,其中有很多特殊句式,例如:后置定語、復(fù)雜名詞短語、動(dòng)補(bǔ)結(jié)構(gòu)等,很難分析出正確的中心詞,這就導(dǎo)致下一步的實(shí)體關(guān)系抽取的錯(cuò)誤傳播。

我們對面向生物文本的分析提出了一個(gè)新的方法——“遞歸有向圖”。在前期的工作中,我們已經(jīng)耗費(fèi)了三年時(shí)間建構(gòu)了一個(gè)基于特征結(jié)構(gòu)的三萬句規(guī)模的中文句子級語義標(biāo)注語料庫[9],它大大豐富了中文語義資源。本文嘗試運(yùn)用遞歸有向圖來進(jìn)行英文的生物文本的語義標(biāo)注。本文中,我們選取后置定語作為研究對象。第一部分討論了我們提出的標(biāo)注方法;第二部分對生物文本中的后置定語句進(jìn)行了標(biāo)注;第三部分總結(jié)了整個(gè)標(biāo)注研究,包括標(biāo)注數(shù)據(jù)、標(biāo)注的一致性問題等;第四部分是結(jié)論。

一、遞歸有向圖的語義標(biāo)注

特征結(jié)構(gòu)并非一個(gè)新的術(shù)語,在很多領(lǐng)域都常見,比如生成語音學(xué)[10]、生成短語結(jié)構(gòu)語法[11]、詞匯功能語法[12]等。我們借用特征結(jié)構(gòu)的術(shù)語來提出一個(gè)新的模型,它可以形式化為遞歸有向圖。我們關(guān)注于更好的語義關(guān)系的描述,運(yùn)用該方法針對生物文本可以更完整地表示語義關(guān)系。

一個(gè)短語或者句子可以表示為若干個(gè)特征結(jié)構(gòu)的集合。一個(gè)特征結(jié)構(gòu)可表示成一個(gè)由實(shí)體(Entity)、特征(Feature)和特征值(Value)組成的三元組(Triple)的集合:[實(shí)體,特征,特征值]。遞歸有向圖詳見圖1。

一個(gè)特征三元組(feature structure triple)形式上可以表示為兩個(gè)“節(jié)點(diǎn)”(node)和連接它們的一條“邊”(edge)。實(shí)體或特征值表示為兩個(gè)“節(jié)點(diǎn)”,特征表示為兩個(gè)“節(jié)點(diǎn)”之間的“邊”。這樣,一個(gè)特征結(jié)構(gòu)三元組可看成是一個(gè)“圖”(graph),兩個(gè)節(jié)點(diǎn)之間的方向是從特征值指向?qū)嶓w,因此表現(xiàn)為一個(gè)“有向圖”(directed graph)。一個(gè)特征三元組反映一對語義關(guān)聯(lián),實(shí)體作為中心詞(the head),特征值依存于實(shí)體[13]。由于特征結(jié)構(gòu)允許嵌套和多重關(guān)聯(lián),因此可表示為“有向的遞歸圖”(recursive directed graph)。根據(jù)前期的研究[9,13],它更適用于復(fù)雜語義關(guān)系的抽取。

(1)gene expression①加粗并加下劃線的詞語為中心詞,僅加粗的詞語為文章討論的詞語,下同。from the HTLV-I LTR

圖1 特征結(jié)構(gòu):遞歸有向圖

圖2 例1特征結(jié)構(gòu)圖

例1是帶有介詞短語的復(fù)雜名詞短語,在生物文本中該類結(jié)構(gòu)很常見。該例中,實(shí)體是“gene expression”,特征是“from”,特征值是“the HTLV-I LTR”。例1由三個(gè)特征三元組構(gòu)成,圖2是例1的特征結(jié)構(gòu)圖。

Triple1-1:[expression, ,gene];

Triple1-2:[expression,from,the HTLV - I LTR];

Triple1-3:[HTLV -I LTR, ,the].

(2)Regulation of T1expression during induction of monocytic differentiation by okadaic acid

例2是一篇生物論文的標(biāo)題,由連續(xù)的8個(gè)名詞構(gòu)成的復(fù)雜名詞短語,這個(gè)句型比例1更加復(fù)雜,其中,很多語義關(guān)系是相互關(guān)聯(lián)、交錯(cuò)復(fù)雜的。例2由6個(gè)特征三元組構(gòu)成:

Triple2-1:[regulation,during,induction];

Triple2-2:[regulation,of,expression];

Triple2-3:[induction,of,differentiation];

Triple2-4:[differentiation,by,okadaic acid];

Triple2-5:[expression, ,T1];

Triple2-6:[differentiation,,monocytic].

在 Triple2-2中,“expression”是實(shí)體“regulation”的特征值,同時(shí),在 Triple2-5中,“expression”是實(shí)體,它的特征值是“T1”。單詞“differentiation”也是同樣的情況,在Triple2-3中充當(dāng)特征值,在Triple2-4中充當(dāng)實(shí)體。因此,在特征結(jié)構(gòu)模型中,一個(gè)節(jié)點(diǎn)可以是多重語義關(guān)系的節(jié)點(diǎn)。圖3是例2的特征結(jié)構(gòu)圖。

圖3 例2特征結(jié)構(gòu)圖

二、生物文本后置定語句型的語義標(biāo)注

跟形容詞相似,后置定語的功能是修飾和描寫名詞或名詞短語[14],后置定語的用法是復(fù)雜多變的。在生物文本中后置定語句型非常常見。從句法來說,它大致可分為三種類型:1、小句充當(dāng)后置定語,例如:who,whom,which,whose等等;2、短語充當(dāng)后置定語,例如:不定式短語、現(xiàn)在分詞短語、過去分詞短語、形容詞短語、介詞短語等等;3、單個(gè)詞充當(dāng)后置定語。在三種類型中,現(xiàn)在分詞短語、過去分詞短語和介詞短語充當(dāng)后置定語的情況會(huì)為自動(dòng)分詞帶來很多難題。特別是很難確定后置定語修飾的到底是哪一個(gè)中心詞,這會(huì)導(dǎo)致下一步的實(shí)體關(guān)系的抽取。我們標(biāo)注了113篇生物文本,包含906個(gè)句子,其中有82個(gè)后置定語句,比例占9%。例3至例5是標(biāo)注生物文本數(shù)據(jù)中典型的后置定語例句:

(3)T10 mRNA levels were superinduced in cellstreated with both okadaic acid and cycloheximide,whereas inhibition of protein synthesis had little,if any,effect on okadaic acid -induced T11 transcription.

例3中,后置定語是過去分詞短語“treated with both okadaic acid and cycloheximide”,它修飾的中心詞“cell”,兩者的語義關(guān)系是“受事——謂語”。例3中的后置定語可以描述為3個(gè)特征結(jié)構(gòu)三元組,圖4是例3的特征結(jié)構(gòu)圖。

Triple3-1:[treated, ,cells];

Triple3-2:[treated,with,okadaic acid];

Triple3-3:[treated,with,cycloheximide].

(4)Suppression of signals required for activation of transcription factor NF-kappa B in cellsconstitutively expressing the HTLV -I Tax protein.

圖4 例3特征結(jié)構(gòu)圖

例4中,后置定語由現(xiàn)在分詞短語“constitutively expressing the HTLV-I Tax protein”充當(dāng),但是它的中心詞不能確定,有3個(gè)名詞可能是中心詞:“activation”,或“transcription factor”,或“cells”。如果僅僅考慮距離,應(yīng)該是“cells”;但是根據(jù)語義關(guān)系,“transcription factor”應(yīng)該是正確的中心詞。例4中的后置定語可以描述為6個(gè)特征結(jié)構(gòu)三元組,圖5是例4的特征結(jié)構(gòu)圖。

Triple4-1:[expressing, ,the HTLV -I Tax protein];

Triple4-2:[expressing, ,constitutively];

Triple4-3:[expressing, ,transcription factor];

Triple4-4:[transcription factor, ,NF -kappa B];

Triple4-5:[transcription factor,in,cells];

Triple4-6:[activation,of,transcription factor].

圖5 例4特征結(jié)構(gòu)圖

(5)In contrast,in a number of multiple myeloma cell lines,representing differentiated,plasma cell- like B cells,PU.1DNA binding activity,mRNA expression,and Pu box-dependent transactivation were absent or detectable at a very low level.

例5中,很難確定充當(dāng)后置定語的動(dòng)詞“binding”的賓語是哪個(gè)單詞,有可能是單詞“activity”,或者“activity,mRNA expression”,或者“activity,mRNA expression,and Pu box-dependent transactivation”。根據(jù)語義關(guān)系,“binding”的主語是“DNA”,因此它的賓語應(yīng)該是“activity”。例5中的后置定語可以描述為3個(gè)特征結(jié)構(gòu)三元組,圖6是例5的特征結(jié)構(gòu)圖。

Triple5-1:[DNA, ,PU.1];

Triple5-2:[binding, ,DNA];

Triple5-3:[binding, ,activity].

圖6 例5特征結(jié)構(gòu)圖

后置定語比其他句型更容易導(dǎo)致錯(cuò)誤。我們僅僅標(biāo)注了82個(gè)后置定語句并總結(jié)了主要的三種情況。運(yùn)用特征結(jié)構(gòu)模型可以解決這個(gè)難題,并且可以表示生物文本中更多的語義信息。

我們從BioNLP’09公開評測任務(wù)中選擇了113篇生物語料,11篇摘要,從BioNLP2013 GE評測任務(wù)中選擇了102篇文本。我們建構(gòu)了一個(gè)包含906句的小規(guī)模生物語義標(biāo)注資源,關(guān)注的是句子中語義關(guān)系的標(biāo)注。

標(biāo)注人員小組包括20名博士和碩士,分別來自語言學(xué)、生物信息和計(jì)算機(jī)專業(yè)。標(biāo)注培訓(xùn)包括標(biāo)注方法、標(biāo)注的一致性、標(biāo)注平臺的使用和標(biāo)注語例。標(biāo)注者獨(dú)立工作,因?yàn)樘卣鹘Y(jié)構(gòu)的標(biāo)注僅需要確定語義關(guān)系,標(biāo)注的一致性達(dá)到95%,這個(gè)結(jié)果是比較好的。每周我們會(huì)交叉檢查該階段的標(biāo)注結(jié)果以避免人為錯(cuò)誤。

我們提出的特征結(jié)構(gòu)模型可以形式化為表示語義關(guān)系的“可遞歸的有向圖”。它是一個(gè)成功的嘗試用于生物的文本。下一步的工作,我們將擴(kuò)大生物語料庫。與其他方法相比,特征結(jié)構(gòu)更適合于抽取生物文本中的服裝語義關(guān)系,可以描述更多的語義關(guān)系,并允許多重語義關(guān)聯(lián)。標(biāo)注結(jié)構(gòu)表明,特征結(jié)構(gòu)的標(biāo)注更有效,精度也更高。應(yīng)用方面,我們的研究對生物文本挖掘有一定的意義,研究結(jié)果可以用于自動(dòng)問答、關(guān)系抽取等領(lǐng)域。

[1] PYYSALO S,GINTER F,HEIMONEN J,et al.BioInfer:A corpus for information extraction in the biomedical domain[J].BMC Bioinformatics,2007,8(1):50-73.

[2] KULICK S,BIES A,LIBERMAN M,et al.Integrated annotation for biomedical information extraction[C]//Proc of the Human Language Technology Conference and the Annual Meeting of the North American Chapter of the Association for Computational Linguistics(HLT/NAACL).Boston:Association for Computational Linguistics,2004:61 -68.

[3] KIM J D,OHTA T,TSUJII J.Corpus annotation for mining biomedical events from literature[J].BMC Bioinformatics,2008,9(1):10 -34.

[4] YAKUSHIJI A,MIYAO Y,TATEISI Y,et al.Biomedical infor-mation extraction with predicate-argument structure pat-terns[C]//Proceedings of the first International Symposium on Semantic Mining in Biomedicine(SMBM),Hinxton,Cambridgeshire,UK,April.2005.

[5] SPASIC I,ANANIADOU S,MCNAUGHT J,et al.Text mining and ontologies in biomedicine:making sense of raw text[J].Briefings in bioinformatics,2005,6(3):239 -251.

[6] COHEN A M,HERSH W R.A survey of current work in bio-medical text mining[J].Briefings in bioinformatics,2005,6(1):57-71.

[7] ZHANG Y,NIVRE J.Transition-based dependency parsing with rich non-local features[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:short papers-Volume 2.Boston:Association for Computational Linguistics,2011:188 -193.

[8] MELUK I.Dependency Syntax:Theory and Practice[M].Herndon:SUNY Press,1988.

[9] CHEN B,WU H M,LV C,et al.Semantic labeling of Chinese serial verb sentences based on feature structure[J].Lecture Notes in Computer Science,2013,8229(1):784 -790.

[10] KENSTOWICZ M,KISSEBERTH C.Generative Phonology[M].New York:Academic Press,1979.

[11] GAZDAR G.Generalized Phrase Structure Grammar[M].Cambridge:Harvard University Press,1985.

[12] DALRYMPLE M.Lexical Functional Grammar[M].New York:Academic Press,2001.

[13] CHEN B,JI D,LV C.Building a Chinese semantic resource based on feature structure[J].International Journal of Computer Processing of Languages,2012,24(1):95 -101.

[14] LU J,LU K.Research on syntactic characteristics of computer English and its English to Chinese translation Strategy[C]//Proc of 2013 Fifth International Conference on the Computational and Information Sciences(ICCIS).Los Alamitos:IEEE Computer Society,2013:1867-1870.

猜你喜歡
有向圖三元組后置
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
有向圖的Roman k-控制
特征標(biāo)三元組的本原誘導(dǎo)子
非正交五軸聯(lián)動(dòng)數(shù)控機(jī)床后置處理算法開發(fā)
關(guān)于余撓三元組的periodic-模
超歐拉和雙有向跡的強(qiáng)積有向圖
關(guān)于超歐拉的冪有向圖
沉淀后置生物處理組合工藝的工程應(yīng)用
Review of Research on the Prevention of HPV Infection and Cervical Cancer
后置式自動(dòng)發(fā)卡機(jī)系統(tǒng)應(yīng)用
济宁市| 连州市| 东兴市| 鹤岗市| 镇沅| 绵竹市| 抚松县| 新宁县| 耒阳市| 商河县| 锡林浩特市| 松溪县| 裕民县| 扶风县| 陵川县| 洪江市| 综艺| 淮安市| 嘉黎县| 扎赉特旗| 华容县| 普格县| 尚义县| 绥棱县| 赣榆县| 民权县| 东明县| 峡江县| 界首市| 农安县| 永和县| 满洲里市| 遵化市| 西畴县| 天峨县| 池州市| 竹北市| 邵阳县| 德江县| 黔西| 永嘉县|