面向生物文本挖掘的語義標(biāo)注研究

2015-07-18 09:28:16魏小梅

湖北文理學(xué)院學(xué)報(bào) 2015年7期

陳波，呂晨，魏小梅

(1．湖北文理學(xué)院文學(xué)院，湖北襄陽 441053;2．武漢大學(xué) 計(jì)算機(jī)學(xué)院，湖北武漢 430072)

生物文本的語義標(biāo)注在生物文本挖掘和信息抽取領(lǐng)域非常重要。它有助于提高自動(dòng)檢索的精度和有效性［1－3］。但是，不含語義信息的資源為進(jìn)一步的實(shí)體識別和關(guān)鍵詞提取帶來了很多難題，而這些信息是醫(yī)生亟需的，比如:基因表觀遺傳學(xué)(Gene Epigenetics)、腫瘤(Oncology)等。

近年來，語義標(biāo)注在生物標(biāo)注領(lǐng)域越來越受到重視［4－6］。面向生物文本挖掘(Biomedical Text Mining)，本文提出了一個(gè)新的語義表示模型“遞歸有向圖”。該模型可以很好地描述或推導(dǎo)出生物文本復(fù)雜句型中的生物概念關(guān)系。本文致力于建構(gòu)一個(gè)大規(guī)模的標(biāo)注生物語料庫——“the biomedical token semantic association(bioTSA)”，可以表示出文本中所有詞語(tokens)的語義關(guān)系。該語料庫的語料數(shù)據(jù)來源于BioNLP2009公開評測任務(wù)和BioNLP2013 GE公開評測任務(wù)的訓(xùn)練集。

當(dāng)前依存結(jié)構(gòu)是最流行的分析方法之一，基于依存結(jié)構(gòu)的許多文本分析研究都取得了很大的進(jìn)展［7－8］。其他相關(guān)的標(biāo)注研究，例如Kulick［2］研發(fā)的Framework，集成了樹庫(Treebank)和命題庫(Propbank)，包含了句法結(jié)構(gòu)和謂詞論元結(jié)構(gòu);又如Kim［3］研發(fā)的語義標(biāo)注和事件標(biāo)注系統(tǒng)。然而在分析生物文本時(shí)遇到了很多難題，其中有很多特殊句式，例如:后置定語、復(fù)雜名詞短語、動(dòng)補(bǔ)結(jié)構(gòu)等，很難分析出正確的中心詞，這就導(dǎo)致下一步的實(shí)體關(guān)系抽取的錯(cuò)誤傳播。

我們對面向生物文本的分析提出了一個(gè)新的方法——“遞歸有向圖”。在前期的工作中，我們已經(jīng)耗費(fèi)了三年時(shí)間建構(gòu)了一個(gè)基于特征結(jié)構(gòu)的三萬句規(guī)模的中文句子級語義標(biāo)注語料庫［9］，它大大豐富了中文語義資源。本文嘗試運(yùn)用遞歸有向圖來進(jìn)行英文的生物文本的語義標(biāo)注。本文中，我們選取后置定語作為研究對象。第一部分討論了我們提出的標(biāo)注方法;第二部分對生物文本中的后置定語句進(jìn)行了標(biāo)注;第三部分總結(jié)了整個(gè)標(biāo)注研究，包括標(biāo)注數(shù)據(jù)、標(biāo)注的一致性問題等;第四部分是結(jié)論。

一、遞歸有向圖的語義標(biāo)注

特征結(jié)構(gòu)并非一個(gè)新的術(shù)語，在很多領(lǐng)域都常見，比如生成語音學(xué)［10］、生成短語結(jié)構(gòu)語法［11］、詞匯功能語法［12］等。我們借用特征結(jié)構(gòu)的術(shù)語來提出一個(gè)新的模型，它可以形式化為遞歸有向圖。我們關(guān)注于更好的語義關(guān)系的描述，運(yùn)用該方法針對生物文本可以更完整地表示語義關(guān)系。

一個(gè)短語或者句子可以表示為若干個(gè)特征結(jié)構(gòu)的集合。一個(gè)特征結(jié)構(gòu)可表示成一個(gè)由實(shí)體(Entity)、特征(Feature)和特征值(Value)組成的三元組(Triple)的集合:［實(shí)體，特征，特征值］。遞歸有向圖詳見圖1。

一個(gè)特征三元組(feature structure triple)形式上可以表示為兩個(gè)“節(jié)點(diǎn)”(node)和連接它們的一條“邊”(edge)。實(shí)體或特征值表示為兩個(gè)“節(jié)點(diǎn)”，特征表示為兩個(gè)“節(jié)點(diǎn)”之間的“邊”。這樣，一個(gè)特征結(jié)構(gòu)三元組可看成是一個(gè)“圖”(graph)，兩個(gè)節(jié)點(diǎn)之間的方向是從特征值指向?qū)嶓w，因此表現(xiàn)為一個(gè)“有向圖”(directed graph)。一個(gè)特征三元組反映一對語義關(guān)聯(lián)，實(shí)體作為中心詞(the head)，特征值依存于實(shí)體［13］。由于特征結(jié)構(gòu)允許嵌套和多重關(guān)聯(lián)，因此可表示為“有向的遞歸圖”(recursive directed graph)。根據(jù)前期的研究［9，13］，它更適用于復(fù)雜語義關(guān)系的抽取。

(1)gene expression①加粗并加下劃線的詞語為中心詞，僅加粗的詞語為文章討論的詞語，下同。from the HTLV－I LTR

圖1 特征結(jié)構(gòu):遞歸有向圖

圖2 例1特征結(jié)構(gòu)圖

例1是帶有介詞短語的復(fù)雜名詞短語，在生物文本中該類結(jié)構(gòu)很常見。該例中，實(shí)體是“gene expression”，特征是“from”，特征值是“the HTLV－I LTR”。例1由三個(gè)特征三元組構(gòu)成，圖2是例1的特征結(jié)構(gòu)圖。

Triple1－1:［expression，，gene］;

Triple1－2:［expression，from，the HTLV － I LTR］;

Triple1－3:［HTLV －I LTR，，the］．

(2)Regulation of T1expression during induction of monocytic differentiation by okadaic acid

例2是一篇生物論文的標(biāo)題，由連續(xù)的8個(gè)名詞構(gòu)成的復(fù)雜名詞短語，這個(gè)句型比例1更加復(fù)雜，其中，很多語義關(guān)系是相互關(guān)聯(lián)、交錯(cuò)復(fù)雜的。例2由6個(gè)特征三元組構(gòu)成:

Triple2－1:［regulation，during，induction］;

Triple2－2:［regulation，of，expression］;

Triple2－3:［induction，of，differentiation］;

Triple2－4:［differentiation，by，okadaic acid］;

Triple2－5:［expression，，T1］;

Triple2－6:［differentiation，，monocytic］．

在 Triple2－2中，“expression”是實(shí)體“regulation”的特征值，同時(shí)，在 Triple2－5中，“expression”是實(shí)體，它的特征值是“T1”。單詞“differentiation”也是同樣的情況，在Triple2－3中充當(dāng)特征值，在Triple2－4中充當(dāng)實(shí)體。因此，在特征結(jié)構(gòu)模型中，一個(gè)節(jié)點(diǎn)可以是多重語義關(guān)系的節(jié)點(diǎn)。圖3是例2的特征結(jié)構(gòu)圖。

圖3 例2特征結(jié)構(gòu)圖

二、生物文本后置定語句型的語義標(biāo)注

跟形容詞相似，后置定語的功能是修飾和描寫名詞或名詞短語［14］，后置定語的用法是復(fù)雜多變的。在生物文本中后置定語句型非常常見。從句法來說，它大致可分為三種類型:1、小句充當(dāng)后置定語，例如:who，whom，which，whose等等;2、短語充當(dāng)后置定語，例如:不定式短語、現(xiàn)在分詞短語、過去分詞短語、形容詞短語、介詞短語等等;3、單個(gè)詞充當(dāng)后置定語。在三種類型中，現(xiàn)在分詞短語、過去分詞短語和介詞短語充當(dāng)后置定語的情況會(huì)為自動(dòng)分詞帶來很多難題。特別是很難確定后置定語修飾的到底是哪一個(gè)中心詞，這會(huì)導(dǎo)致下一步的實(shí)體關(guān)系的抽取。我們標(biāo)注了113篇生物文本，包含906個(gè)句子，其中有82個(gè)后置定語句，比例占9%。例3至例5是標(biāo)注生物文本數(shù)據(jù)中典型的后置定語例句:

(3)T10 mRNA levels were superinduced in cellstreated with both okadaic acid and cycloheximide，whereas inhibition of protein synthesis had little，if any，effect on okadaic acid －induced T11 transcription．

例3中，后置定語是過去分詞短語“treated with both okadaic acid and cycloheximide”，它修飾的中心詞“cell”，兩者的語義關(guān)系是“受事——謂語”。例3中的后置定語可以描述為3個(gè)特征結(jié)構(gòu)三元組，圖4是例3的特征結(jié)構(gòu)圖。

Triple3－1:［treated，，cells］;

Triple3－2:［treated，with，okadaic acid］;

Triple3－3:［treated，with，cycloheximide］．

(4)Suppression of signals required for activation of transcription factor NF－kappa B in cellsconstitutively expressing the HTLV －I Tax protein．

圖4 例3特征結(jié)構(gòu)圖

例4中，后置定語由現(xiàn)在分詞短語“constitutively expressing the HTLV－I Tax protein”充當(dāng)，但是它的中心詞不能確定，有3個(gè)名詞可能是中心詞:“activation”，或“transcription factor”，或“cells”。如果僅僅考慮距離，應(yīng)該是“cells”;但是根據(jù)語義關(guān)系，“transcription factor”應(yīng)該是正確的中心詞。例4中的后置定語可以描述為6個(gè)特征結(jié)構(gòu)三元組，圖5是例4的特征結(jié)構(gòu)圖。

Triple4－1:［expressing，，the HTLV －I Tax protein］;

Triple4－2:［expressing，，constitutively］;

Triple4－3:［expressing，，transcription factor］;

Triple4－4:［transcription factor，，NF －kappa B］;

Triple4－5:［transcription factor，in，cells］;

Triple4－6:［activation，of，transcription factor］．

圖5 例4特征結(jié)構(gòu)圖

(5)In contrast，in a number of multiple myeloma cell lines，representing differentiated，plasma cell－ like B cells，PU．1DNA binding activity，mRNA expression，and Pu box－dependent transactivation were absent or detectable at a very low level．

例5中，很難確定充當(dāng)后置定語的動(dòng)詞“binding”的賓語是哪個(gè)單詞，有可能是單詞“activity”，或者“activity，mRNA expression”，或者“activity，mRNA expression，and Pu box－dependent transactivation”。根據(jù)語義關(guān)系，“binding”的主語是“DNA”，因此它的賓語應(yīng)該是“activity”。例5中的后置定語可以描述為3個(gè)特征結(jié)構(gòu)三元組，圖6是例5的特征結(jié)構(gòu)圖。

Triple5－1:［DNA，，PU．1］;

Triple5－2:［binding，，DNA］;

Triple5－3:［binding，，activity］．

圖6 例5特征結(jié)構(gòu)圖

后置定語比其他句型更容易導(dǎo)致錯(cuò)誤。我們僅僅標(biāo)注了82個(gè)后置定語句并總結(jié)了主要的三種情況。運(yùn)用特征結(jié)構(gòu)模型可以解決這個(gè)難題，并且可以表示生物文本中更多的語義信息。

我們從BioNLP’09公開評測任務(wù)中選擇了113篇生物語料，11篇摘要，從BioNLP2013 GE評測任務(wù)中選擇了102篇文本。我們建構(gòu)了一個(gè)包含906句的小規(guī)模生物語義標(biāo)注資源，關(guān)注的是句子中語義關(guān)系的標(biāo)注。

標(biāo)注人員小組包括20名博士和碩士，分別來自語言學(xué)、生物信息和計(jì)算機(jī)專業(yè)。標(biāo)注培訓(xùn)包括標(biāo)注方法、標(biāo)注的一致性、標(biāo)注平臺的使用和標(biāo)注語例。標(biāo)注者獨(dú)立工作，因?yàn)樘卣鹘Y(jié)構(gòu)的標(biāo)注僅需要確定語義關(guān)系，標(biāo)注的一致性達(dá)到95%，這個(gè)結(jié)果是比較好的。每周我們會(huì)交叉檢查該階段的標(biāo)注結(jié)果以避免人為錯(cuò)誤。

我們提出的特征結(jié)構(gòu)模型可以形式化為表示語義關(guān)系的“可遞歸的有向圖”。它是一個(gè)成功的嘗試用于生物的文本。下一步的工作，我們將擴(kuò)大生物語料庫。與其他方法相比，特征結(jié)構(gòu)更適合于抽取生物文本中的服裝語義關(guān)系，可以描述更多的語義關(guān)系，并允許多重語義關(guān)聯(lián)。標(biāo)注結(jié)構(gòu)表明，特征結(jié)構(gòu)的標(biāo)注更有效，精度也更高。應(yīng)用方面，我們的研究對生物文本挖掘有一定的意義，研究結(jié)果可以用于自動(dòng)問答、關(guān)系抽取等領(lǐng)域。

［1］ PYYSALO S，GINTER F，HEIMONEN J，et al．BioInfer:A corpus for information extraction in the biomedical domain［J］．BMC Bioinformatics，2007，8(1):50－73．

［2］ KULICK S，BIES A，LIBERMAN M，et al．Integrated annotation for biomedical information extraction［C］//Proc of the Human Language Technology Conference and the Annual Meeting of the North American Chapter of the Association for Computational Linguistics(HLT/NAACL)．Boston:Association for Computational Linguistics，2004:61 －68．

［3］ KIM J D，OHTA T，TSUJII J．Corpus annotation for mining biomedical events from literature［J］．BMC Bioinformatics，2008，9(1):10 －34．

［4］ YAKUSHIJI A，MIYAO Y，TATEISI Y，et al．Biomedical infor－mation extraction with predicate－argument structure pat－terns［C］//Proceedings of the first International Symposium on Semantic Mining in Biomedicine(SMBM)，Hinxton，Cambridgeshire，UK，April．2005．

［5］ SPASIC I，ANANIADOU S，MCNAUGHT J，et al．Text mining and ontologies in biomedicine:making sense of raw text［J］．Briefings in bioinformatics，2005，6(3):239 －251．

［6］ COHEN A M，HERSH W R．A survey of current work in bio－medical text mining［J］．Briefings in bioinformatics，2005，6(1):57－71．

［7］ ZHANG Y，NIVRE J．Transition－based dependency parsing with rich non－local features［C］//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:short papers－Volume 2．Boston:Association for Computational Linguistics，2011:188 －193．

［8］ MELUK I．Dependency Syntax:Theory and Practice［M］．Herndon:SUNY Press，1988．

［9］ CHEN B，WU H M，LV C，et al．Semantic labeling of Chinese serial verb sentences based on feature structure［J］．Lecture Notes in Computer Science，2013，8229(1):784 －790．

［10］ KENSTOWICZ M，KISSEBERTH C．Generative Phonology［M］．New York:Academic Press，1979．

［11］ GAZDAR G．Generalized Phrase Structure Grammar［M］．Cambridge:Harvard University Press，1985．

［12］ DALRYMPLE M．Lexical Functional Grammar［M］．New York:Academic Press，2001．

［13］ CHEN B，JI D，LV C．Building a Chinese semantic resource based on feature structure［J］．International Journal of Computer Processing of Languages，2012，24(1):95 －101．

［14］ LU J，LU K．Research on syntactic characteristics of computer English and its English to Chinese translation Strategy［C］//Proc of 2013 Fifth International Conference on the Computational and Information Sciences(ICCIS)．Los Alamitos:IEEE Computer Society，2013:1867－1870．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向生物文本挖掘的語義標(biāo)注研究

一、遞歸有向圖的語義標(biāo)注

二、生物文本后置定語句型的語義標(biāo)注

一、遞歸有向圖的語義標(biāo)注