基于語(yǔ)義依存的中文本體非分類關(guān)系抽取方法

2012-11-30 03:19古凌嵐孫素云

計(jì)算機(jī)工程與設(shè)計(jì) 2012年4期

古凌嵐，孫素云

（廣東輕工職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系，廣東廣州510300）

0 引言

近年來(lái)，本體的應(yīng)用越來(lái)越廣泛，如語(yǔ)義網(wǎng)、搜索引擎、知識(shí)工程、信息提取等領(lǐng)域，而本體的構(gòu)建是本體應(yīng)用的基礎(chǔ)和關(guān)鍵，盡管目前已有許多本體構(gòu)建工具，能夠提供本體建立和校驗(yàn)等功能，但完全依靠人工進(jìn)行本體領(lǐng)域知識(shí)的獲取（包括搜集領(lǐng)域概念、定義概念間關(guān)系），不僅費(fèi)時(shí)費(fèi)力，而且無(wú)法保持本體的更新。因此，本體學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。

本體學(xué)習(xí)是指利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)等技術(shù)自動(dòng)或半自動(dòng)地從已有的數(shù)據(jù)資源中獲取期望的本體［1］。由文獻(xiàn) ［1］可知，本體學(xué)習(xí)主要任務(wù)是定義概念和概念關(guān)系（分類關(guān)系和非分類關(guān)系），而概念關(guān)系學(xué)習(xí)為高層任務(wù)，其中分類關(guān)系體現(xiàn)了兩個(gè)概念之間的包含關(guān)系（上下位關(guān)系），非分類關(guān)系則是除上下位以外的關(guān)系。非分類關(guān)系學(xué)習(xí)包括提取所涉及的概念對(duì)、進(jìn)行關(guān)系語(yǔ)義標(biāo)注兩方面。

1 相關(guān)工作

目前多數(shù)本體學(xué)習(xí)研究致力于術(shù)語(yǔ)和分類關(guān)系抽取，相對(duì)而言，非分類關(guān)系的抽取更加困難，同時(shí)得到的關(guān)注也較少。本體構(gòu)造中發(fā)現(xiàn)得到的非分類關(guān)系多數(shù)是人類本體工程師標(biāo)注所得。現(xiàn)有方法主要有兩種：基于模式的方法和基于關(guān)聯(lián)規(guī)則的方法，國(guó)內(nèi)對(duì)中文本體學(xué)習(xí)的研究多集中于后者。

基于模式的方法［2］是通過(guò)分析領(lǐng)域相關(guān)文本，歸納出頻繁使用的語(yǔ)言模式作為規(guī)則，而后作為文本中詞序列匹配的模式，來(lái)識(shí)別相應(yīng)的關(guān)系。Hearst等人率先提出詞匯—句法模式方法，利用手工構(gòu)造的模式實(shí)現(xiàn)了自動(dòng)地抽取關(guān)系。這種方法的主要問(wèn)題是：①關(guān)系抽取的效果受限于模式是否完備；②機(jī)械地使用模式匹配，導(dǎo)致所獲取的關(guān)系中包含大量無(wú)用概念對(duì)。

基于關(guān)聯(lián)規(guī)則的方法是一種常用方法，它是利用最初在數(shù)據(jù)庫(kù)領(lǐng)域定義的關(guān)聯(lián)規(guī)則，由Maedche等率先應(yīng)用于本體學(xué)習(xí)，繼而以概念層次為背景知識(shí)，用來(lái)發(fā)現(xiàn)概念間非分類關(guān)系的方法。文獻(xiàn) ［2］也是基于這種思想抽取概念間的非分類關(guān)系。這種方法的缺點(diǎn)是，只能判斷概念間是否存在關(guān)系，無(wú)法對(duì)關(guān)系進(jìn)行語(yǔ)義標(biāo)注。

上述方法主要局限于共現(xiàn)規(guī)則和頻率統(tǒng)計(jì)，而本體是領(lǐng)域知識(shí)語(yǔ)義的形式化標(biāo)志，且所用的數(shù)據(jù)資源是文本，因此，引入語(yǔ)義和句子語(yǔ)法分析開(kāi)展非分類關(guān)系學(xué)習(xí)將更為有效。文獻(xiàn) ［3］通過(guò)提取 “主謂賓”結(jié)構(gòu)，構(gòu)建［動(dòng)詞概念］和［概念動(dòng)詞］檢索模式，實(shí)現(xiàn)了自動(dòng)獲取非分類關(guān)系，并用動(dòng)詞標(biāo)記關(guān)系。文獻(xiàn) ［4］基于依存語(yǔ)法中動(dòng)詞為中心的思想，提出了擴(kuò)展的關(guān)聯(lián)規(guī)則方法，通過(guò)提取“主謂賓”結(jié)構(gòu)的概念對(duì)和動(dòng)詞，發(fā)現(xiàn)關(guān)系和標(biāo)記關(guān)系。但以上研究提取中文非分類關(guān)系時(shí)，僅考慮了單句結(jié)構(gòu)，且忽略了詞間的語(yǔ)義關(guān)聯(lián)。

針對(duì)現(xiàn)有方法中存在的抽取正確率低、缺少語(yǔ)義標(biāo)注問(wèn)題，在文獻(xiàn) ［3－4］基礎(chǔ)上，本文針對(duì)中文非分類關(guān)系抽取，提出了一種基于語(yǔ)義依存分析的方法，通過(guò)分析語(yǔ)句中成分的語(yǔ)義角色和依存關(guān)系，發(fā)現(xiàn)動(dòng)詞為中心的、具有語(yǔ)義依存關(guān)系的詞匯框架，并以語(yǔ)義相似度為依據(jù)，識(shí)別中文本體概念間的非分類關(guān)系，實(shí)現(xiàn)對(duì)關(guān)系的語(yǔ)義標(biāo)注。該方法克服了關(guān)聯(lián)規(guī)則無(wú)法標(biāo)識(shí)關(guān)系名稱缺點(diǎn)，以及僅考慮概念對(duì)和動(dòng)詞共現(xiàn)詞頻所帶來(lái)的關(guān)系抽取性能問(wèn)題。

2 研究基礎(chǔ)

2.1 語(yǔ)義角色標(biāo)注

語(yǔ)義角色是謂詞與論元的語(yǔ)義關(guān)系。常見(jiàn)的語(yǔ)義角色有施事、受事、與事、結(jié)果、工具和處所等。從語(yǔ)義上看，一個(gè)論元的語(yǔ)義角色分配主要取決于謂詞語(yǔ)義。例如：“我拿了一本書”，其中 “拿”為謂詞，“我”為施事者，“書”為受事者。

語(yǔ)義角色標(biāo)注是在句法分析基礎(chǔ)上，對(duì)句子中的詞語(yǔ)序列分組，并按照語(yǔ)義角色對(duì)它們進(jìn)行分類［5］。該方法不對(duì)整個(gè)句子進(jìn)行詳細(xì)的語(yǔ)義分析，而是以動(dòng)詞框架為考察對(duì)象，只標(biāo)注與謂詞相關(guān)論元的語(yǔ)義角色，這些論元作為此謂詞的框架中一部分被賦予了一定的語(yǔ)義含義，從而反映出句子中的謂詞與其它成分間的語(yǔ)義關(guān)系。

語(yǔ)義角色標(biāo)注的基本單元可以是句法成分［6］、短語(yǔ)［6］、詞［6］或者依存關(guān)系［7］等等。目前實(shí)現(xiàn)方式有兩種，一是建立在短語(yǔ)結(jié)構(gòu)句法分析方法的基礎(chǔ)之上，如基于統(tǒng)計(jì)的學(xué)習(xí)方法［8］；另一種使用依存句法分析結(jié)果進(jìn)行語(yǔ)義角色標(biāo)注［7］，兩者分析效果相近。

2.2 依存語(yǔ)法和依存語(yǔ)法分析

依存語(yǔ)法是一個(gè)用詞之間的依存關(guān)系（dependency relationship）來(lái)描述語(yǔ)言結(jié)構(gòu)的框架，又稱從屬關(guān)系語(yǔ)法。由法國(guó)語(yǔ)言學(xué)家L.Tesniere最先提出，其核心思想是以謂語(yǔ)動(dòng)詞為中心，研究句子中其它成分與謂詞的依存關(guān)系。依存語(yǔ)法認(rèn)為，句子中詞與詞之間的關(guān)系是有方向的，一個(gè)詞支配另一個(gè)詞，則稱這種支配與被支配的關(guān)系為依存關(guān)系，支配詞又被稱為被支配詞的中心詞，通?？杀憩F(xiàn)所在短語(yǔ)的主要語(yǔ)法、語(yǔ)義特征。

依存語(yǔ)法將句子結(jié)構(gòu)表示為詞對(duì)的二元關(guān)系。而句子成分間相互支配與被支配、依存與被依存的現(xiàn)象普遍存在于漢語(yǔ)的詞匯（合成語(yǔ)）、短語(yǔ)、單句、復(fù)合直到句群的各級(jí)能夠獨(dú)立運(yùn)用的語(yǔ)言單位之中，這一特點(diǎn)為依存關(guān)系的普遍性［9］。依存語(yǔ)法分析的目的是發(fā)現(xiàn)詞語(yǔ)間的語(yǔ)義聯(lián)系，根據(jù)依存語(yǔ)法5條公理［10］，在一個(gè)完整的句子中，所有語(yǔ)義聯(lián)系相互交織的結(jié)果將句子的線性結(jié)構(gòu)層次化，構(gòu)造成為語(yǔ)義依存樹(shù)的形式，從而反映出句子中各成分間的語(yǔ)義修飾關(guān)系，且與成分的物理位置無(wú)關(guān)。

依存語(yǔ)法分析方法目前已較成熟，利用已有的依存句法分析器（這里采用哈爾濱工業(yè)大學(xué)信息檢索研究中心開(kāi)發(fā)的依存句法分析器，目前該分析器對(duì)依存弧的標(biāo)記準(zhǔn)確率達(dá)到86%以上），可進(jìn)行句子語(yǔ)法分析，并以此為基礎(chǔ)發(fā)現(xiàn)依存關(guān)系，最終生成依存樹(shù)。例如：“家庭是孩子的第一個(gè)課堂?！狈治龅玫降囊来鏄?shù)如圖1所示。其中 “是”句子的中心詞（核心關(guān)系HED），“家庭”與中心詞有主謂依存關(guān)系（SBV），“課堂”則與中心詞有動(dòng)賓依存關(guān)系（VOB），另外，還有定中關(guān)系（ATT）、介賓關(guān)系（POB）等。

依存樹(shù)將形式化的語(yǔ)法規(guī)則和約束表述為結(jié)點(diǎn)、邊，以及它們所攜帶的信息，使得對(duì)句子的依存分析轉(zhuǎn)化為尋找句子中的一組依存對(duì)。

3 基于語(yǔ)義依存的非分類關(guān)系抽取

非分類關(guān)系一般由動(dòng)詞及與之相關(guān)的兩個(gè)概念構(gòu)成，可有以下定義。

圖1 依存樹(shù)

定義1 非分類關(guān)系形式表示為：R＝＜Cpre，Vrel，Csuc＞，其中Cpre，Csuc均為本體概念（依存樹(shù)中依存于中心詞的名詞或名詞詞組），稱Cpre為關(guān)系R前驅(qū)概念，Csuc為關(guān)系R后繼概念，Vrel（中心詞）是關(guān)系R的語(yǔ)義標(biāo)注。

由定義1，對(duì)于中心詞、主語(yǔ)、賓語(yǔ)構(gòu)成主干結(jié)構(gòu)的句子，如 “渦輪噴氣發(fā)動(dòng)機(jī)主要用于超聲速飛機(jī)?！本渥又械姆欠诸愱P(guān)系可以表述為：＜ “渦輪噴氣發(fā)動(dòng)機(jī)”，“用于”，“超聲速飛機(jī)”＞，即主語(yǔ) （“渦輪噴氣發(fā)動(dòng)機(jī)”）為前驅(qū)概念，而對(duì)于用中心詞、施事者、受事者描述主干結(jié)構(gòu)的句子，則施事者為前驅(qū)概念。

本文以本體概念集為學(xué)習(xí)種子，查找充當(dāng)語(yǔ)句所含動(dòng)詞框架中不同語(yǔ)義角色的概念對(duì)，而后計(jì)算動(dòng)詞框架的語(yǔ)義相似度來(lái)識(shí)別非分類關(guān)系。通過(guò)加入句子結(jié)構(gòu)和語(yǔ)義關(guān)系因素，來(lái)改善文獻(xiàn) ［3－4］方法的不足。該方法包括3個(gè)方面：①對(duì)文集進(jìn)行語(yǔ)義依存分析，獲得已標(biāo)記的句子集合；②分析句法結(jié)構(gòu)，提取動(dòng)詞框架構(gòu)成的句子主干；③計(jì)算語(yǔ)義相似度，發(fā)現(xiàn)非分類關(guān)系。

3.1 語(yǔ)義依存分析

根據(jù)中文術(shù)語(yǔ)特點(diǎn)，對(duì)于未標(biāo)注語(yǔ)料集進(jìn)行初步篩選。采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的ICTCLAS對(duì)文本進(jìn)行分詞，將每條語(yǔ)句切分為一組具有詞性標(biāo)注信息的中文組詞及符號(hào)，去掉對(duì)于句子意思表述無(wú)貢獻(xiàn)的詞，如感嘆詞、語(yǔ)氣詞、助詞等。而后利用基于漢語(yǔ)的依存語(yǔ)法分析器（采用哈爾濱工業(yè)大學(xué)信息檢索研究中心開(kāi)發(fā)的中文依存句法分析器，該分析器能夠?qū)崿F(xiàn)詞性標(biāo)注、語(yǔ)義角色標(biāo)注、依存語(yǔ)法分析等功能），給定語(yǔ)料集中的一個(gè)句子作為輸入，產(chǎn)生一棵標(biāo)注了依存關(guān)系、語(yǔ)義角色的語(yǔ)法分析樹(shù)，由依存關(guān)系確定句子中以動(dòng)詞中的從屬關(guān)系框架，而語(yǔ)義角色標(biāo)注則確定該從屬關(guān)系框架中相對(duì)應(yīng)的語(yǔ)義角色。

通過(guò)語(yǔ)義依存分析，對(duì)文集句子成分的語(yǔ)義角色、依存語(yǔ)法信息實(shí)現(xiàn)標(biāo)記，從而獲得文集中句子的語(yǔ)義依存結(jié)構(gòu)信息。

3.2 提取句子主干

由于中文語(yǔ)法的復(fù)雜性，一個(gè)復(fù)雜句子的依存信息結(jié)構(gòu)也會(huì)相當(dāng)龐大，如果直接對(duì)完整句子進(jìn)行分析處理，工作量巨大并且沒(méi)有必要。依存語(yǔ)法認(rèn)為每個(gè)句子都以動(dòng)詞為中心的從屬關(guān)系結(jié)構(gòu)，則保留句中謂語(yǔ) （中心動(dòng)詞）、及其主語(yǔ)、賓語(yǔ) （對(duì)于缺少主語(yǔ)或賓語(yǔ)的動(dòng)詞框架，因無(wú)法確定中心詞所涉及的另一個(gè)概念，不作考慮）框架，或是謂詞（中心動(dòng)詞）、及其施事者、受事者（類似地，過(guò)濾掉缺少施事者或受事者的動(dòng)詞框架）角色，構(gòu)成句子的主體架構(gòu)，而且非分類關(guān)系抽取關(guān)注的是概念（名詞或名詞詞組）之間的關(guān)系，因此，將句子進(jìn)行剪切，以去掉噪音，得到由中心詞、主語(yǔ)、賓語(yǔ)以及主語(yǔ)／賓語(yǔ)附屬成分（依存于主語(yǔ)／賓語(yǔ)和主語(yǔ)／賓語(yǔ)依存的詞為附屬成分），或是中心詞、施事者、受事者以及施事者／受事者附屬成分所形成的動(dòng)詞框架構(gòu)成的句子主干（當(dāng)句子為復(fù)句時(shí)，句子主干可能包含多個(gè)動(dòng)詞框架，僅考慮直接依存于中心詞的成分，會(huì)遺漏可能的非分類關(guān)系），且依存于中心詞的成分應(yīng)是名詞（詞組），用于非分類關(guān)系抽取。由于中文句法分析器是以詞為單位進(jìn)行句子成分的，而中文本體概念多為復(fù)合詞，在上述句子修剪過(guò)程中，將保留依存于主干成分的詞，作為主干成分的一部分，以提高抽取效率。動(dòng)詞框架提取算法描述：

輸入：標(biāo)記語(yǔ)義依存信息的句子集合S；

輸出：動(dòng)詞框架組成的句子主干集合S′；

（1）若S為空，則退出；

（2）對(duì)于S中的任一句子s，查找中心詞（核心關(guān)系HED）V；

（3）若s中同時(shí)有依存于V的SBV、VOB依存關(guān)系的角色Rs，Rv，則提取由V、Rs、Rv構(gòu)成的動(dòng)詞框架；

（4）若s中還同時(shí)有施事者、受事者語(yǔ)義角色Ra0，Ra1，且為名詞（詞組），則V、Ra0、Ra1構(gòu)成的動(dòng)詞框架；

（5）若句子s存在與V并列（并列關(guān)系 W）的中心詞Va，則轉(zhuǎn)步驟（3）；否則將s中所提取的動(dòng)詞框架集構(gòu)成句子s的主干加入S′，轉(zhuǎn)步驟（1）。

為了便于理解算法，給出動(dòng)詞框架提取的具體示例：

例1：處理器通過(guò)軟盤控制器才能訪問(wèn)軟盤驅(qū)動(dòng)器。

例2：一個(gè)硬盤一般由多個(gè)盤片組成。

例3：網(wǎng)絡(luò)技術(shù)利用高速互聯(lián)網(wǎng)，為我們提供一體化的信息服務(wù)。

例1是主謂賓結(jié)構(gòu)的句子，依存語(yǔ)法分析的結(jié)果如圖2所示?！霸L問(wèn)”為中心詞，“處理器”為主語(yǔ) （SBV關(guān)系），“驅(qū)動(dòng)器”為賓語(yǔ) （VOB關(guān)系），均依存于 “訪問(wèn)”，而“軟盤”依存于 “驅(qū)動(dòng)器”，提取的句子主干為 “處理器訪問(wèn)軟盤驅(qū)動(dòng)器?！薄６?屬于另一類句子，采用中心詞、施事者、受事者框架提取句子主干更為適合，其依存結(jié)構(gòu)信息如圖3所示。由圖可知， “組成”是中心詞， “硬盤”是施事者（A0），而 “由”是受事者（A1）， “盤片”是“由”的附屬成分，提取的句子主干為 “硬盤由盤片組成”。例3是復(fù)句，其中 “利用”和 “提供”是并列關(guān)系（W），可提取句中的兩個(gè)動(dòng)詞框架，即 “網(wǎng)絡(luò)技術(shù)”， “利用”，“高速互聯(lián)網(wǎng)”和 “網(wǎng)絡(luò)技術(shù)”，“提供”，“信息服務(wù)”。

通過(guò)對(duì)文集中句子進(jìn)行語(yǔ)義角色標(biāo)注、依存語(yǔ)法分析及句子主干提取，得到了標(biāo)注有句法結(jié)構(gòu)信息、語(yǔ)義關(guān)系的、由動(dòng)詞框架刻畫句子的文本。

3.3 語(yǔ)義相似度計(jì)算

對(duì)于經(jīng)過(guò)語(yǔ)義依存分析和句子主干提取的句子集，可表示為S＝｛F1，F(xiàn)2，…，F(xiàn)m｝，F(xiàn)i（i＝1，2，…，m）為動(dòng)詞框架，表示為Fi＝｛Ei1，Ei2，Ei3｝，Eij是框架元素（謂詞，主語(yǔ)／施事者，或賓語(yǔ)／受事者），且Eij＝（rij，fij，mij）（j＝1，2，3），其中rij表示語(yǔ)義角色（依存關(guān)系），fij表示詞性，mij表示語(yǔ)義（HowNet提供的語(yǔ)義描述）?？蚣茉仄ヅ錂?quán)重定義為：對(duì)于元素Ei1和Ei2，若ri1和ri2，fi1和fi2，mi1和mi2均相同，則匹配權(quán)重為1；若ri1和ri2，mi1和mi2相同，但fi1和fi2不同，則匹配權(quán)重為0.6；否則為0。語(yǔ)義相似度計(jì)算公式如下

利用式（1）計(jì)算句集中動(dòng)詞框架的語(yǔ)義相似度，當(dāng)大于相似度閾值的動(dòng)詞框架出現(xiàn)頻率達(dá)到某一閾值時(shí)，則認(rèn)為語(yǔ)義角色所對(duì)應(yīng)的本體概念間具有非分類關(guān)系，中心詞即關(guān)系名稱。

3.4 非分類關(guān)系的抽取算法

非分類關(guān)系的抽取是發(fā)現(xiàn)概念對(duì)及語(yǔ)義標(biāo)注的過(guò)程，其基本思路如圖4所示。另外，通過(guò)依存分析中標(biāo)注的同位關(guān)系（APP），還可以發(fā)現(xiàn)同義關(guān)系。

非分類關(guān)系學(xué)習(xí)是在已構(gòu)建本體概念集，語(yǔ)料集已經(jīng)過(guò)無(wú)用詞過(guò)濾處理的前提下進(jìn)行的。具體算法步驟：

（1）利用中文依存語(yǔ)法分析器對(duì)語(yǔ)料集進(jìn)行分析，得到句子語(yǔ)義依存結(jié)構(gòu)集合S；

（2）根據(jù)語(yǔ)言學(xué)規(guī)則，提取句子主干，得到由動(dòng)詞框架組成的句子主干集合S′；

（3）從本體概念集C中任取一個(gè)概念Ck，若C為空或概念均已標(biāo)記，則轉(zhuǎn) （7）；

圖4 非分類關(guān)系抽取流程

（4）在S中搜索包含Ck，且Ck充當(dāng)主語(yǔ)／施事者或賓語(yǔ)／受事者角色的所有動(dòng)詞框架F1，F(xiàn)2，…，F(xiàn)m，計(jì)算Fi、Fj（1≤i，j≤m）的語(yǔ)義相似度，若存在相似度大于閾值λ，則為候選框架，并加入候選框架集合CF中；否則轉(zhuǎn) （3）；

（5）若CF中某候選框架個(gè)數(shù)達(dá)到給定閾值ω，且C中存在與框架中賓語(yǔ)／受事者或主語(yǔ)／施事者角色的概念相似度超過(guò)閾值δ的概念Cl，則Ck、Cl具有非分類關(guān)系，根據(jù)依存結(jié)構(gòu)確定前趨概念、后繼概念，并用中心詞賦予關(guān)系語(yǔ)義標(biāo)注，同時(shí)對(duì)C中Ck、Cl標(biāo)記；

（6）若S中存在Ck、Cl的同位關(guān)系詞，則作為Ck、Cl的同義關(guān)系，加入其同義詞集合，并在C中作相應(yīng)標(biāo)記；轉(zhuǎn) （3）；

（7）結(jié)束。

若第（4）步出現(xiàn)Ck與句中多個(gè)動(dòng)詞框架有依存關(guān)系時(shí)，將看作新的候選非分類關(guān)系，另行計(jì)算。第（5）步中概念相似度計(jì)算采用了文獻(xiàn) ［8］的本體概念匹配算法。

4 實(shí)驗(yàn)及結(jié)果分析

由于目前沒(méi)有標(biāo)準(zhǔn)的中文語(yǔ)料庫(kù)，實(shí)驗(yàn)采用了復(fù)旦大學(xué)文本分類語(yǔ)料庫(kù)中計(jì)算機(jī)專業(yè)領(lǐng)域作為測(cè)試文集。該語(yǔ)料庫(kù)多來(lái)源于新聞或互聯(lián)網(wǎng)科普類，具有信息量大、覆蓋面廣、用語(yǔ)規(guī)范特點(diǎn)，從而使得實(shí)驗(yàn)結(jié)果具有較強(qiáng)的代表性。

從測(cè)試文集中選取了95個(gè)與計(jì)算機(jī)相關(guān)的概念作為實(shí)驗(yàn)本體概念集，設(shè)句子語(yǔ)義相似度閾值為0.53，對(duì)測(cè)試文集進(jìn)行了非分類關(guān)系的抽取。為了測(cè)試實(shí)驗(yàn)的有效性，采用基于關(guān)聯(lián)規(guī)則統(tǒng)計(jì)［1］、基于 “主謂賓”結(jié)構(gòu)提取概念對(duì)及關(guān)聯(lián)動(dòng)詞的方法（簡(jiǎn)稱基于 “主謂賓”結(jié)構(gòu)）、本文提出的方法分別進(jìn)行了實(shí)驗(yàn)，并通過(guò)正確率計(jì)算對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了比較，其結(jié)果如表1所示。正確率的計(jì)算方式是正確抽取的非分類關(guān)系數(shù)與測(cè)試文集中所有的非分類關(guān)系數(shù)之比。

表1 3種方法的實(shí)驗(yàn)結(jié)果對(duì)比

從實(shí)驗(yàn)結(jié)果來(lái)看，本文提出的方法抽取正確率明顯要高，并發(fā)現(xiàn)了同義關(guān)系。這是由于通過(guò)語(yǔ)義依存分析，提取了由動(dòng)詞框架構(gòu)成的句子主干，剔除了句子中對(duì)關(guān)系抽取的干擾因素，從而提高了正確率。而加入依存于主／賓語(yǔ)的附屬成分在一定程度上避免了分詞造成的錯(cuò)誤，如：例1句中 “軟盤驅(qū)動(dòng)器”用自動(dòng)分詞將會(huì)誤切分成 “軟盤／n驅(qū)動(dòng)器／n”，使得復(fù)合概念的非分類關(guān)系抽取更為有效。

跟蹤分析抽取過(guò)程發(fā)現(xiàn)，影響實(shí)驗(yàn)效果的主要因素有：①測(cè)試文本的選取。選擇不當(dāng)將導(dǎo)致召回率低，非分類關(guān)系對(duì)識(shí)別效率下降。如新聞?lì)愇谋局信c專業(yè)領(lǐng)域密切相關(guān)的內(nèi)容偏少，因此，應(yīng)以科普類或?qū)I(yè)研究類文章為主。②句子中心詞的選用。有些動(dòng)詞（如 “是”、“使”）作為中心詞時(shí)，所構(gòu)成的非分類關(guān)系多是錯(cuò)誤的，例如，句子“數(shù)據(jù)庫(kù)管理系統(tǒng)是一種系統(tǒng)軟件?！?，抽取后得到＜ “數(shù)據(jù)庫(kù)管理系統(tǒng)”，“是”，“系統(tǒng)軟件”＞，顯然數(shù)據(jù)庫(kù)管理系統(tǒng)與系統(tǒng)軟件是上下位的分類關(guān)系。而以 “是”為謂語(yǔ)的句子是一種常見(jiàn)的中文句子結(jié)構(gòu)，因此，有必要針對(duì)中心詞建立一個(gè)停用詞表。

另外，實(shí)驗(yàn)中同義關(guān)系的抽取不是很理想，主要原因是語(yǔ)法分析標(biāo)注同位關(guān)系時(shí)，因中文表述方式的多樣性而無(wú)法正確識(shí)別，如，“能力成熟度模型（CMM）”表述方式被識(shí)別為同位關(guān)系，但是 “CMM （能力成熟度模型）”將被標(biāo)注為其它關(guān)系。

5 結(jié)束語(yǔ)

本文提出了一種基于語(yǔ)義依存分析的中文非分類關(guān)系抽取方法。該方法將語(yǔ)義角色標(biāo)注和依存關(guān)系分析相結(jié)合，從句中提取中心詞和與之依存的語(yǔ)義角色構(gòu)成的動(dòng)詞框架，通過(guò)計(jì)算動(dòng)詞框架的語(yǔ)義相似度，獲得充當(dāng)不同語(yǔ)義角色的概念間非分類關(guān)系，并用中心詞標(biāo)注之。下一步將進(jìn)一步探討，如何結(jié)合中文語(yǔ)法特點(diǎn)，更有效地利用句子語(yǔ)義依存結(jié)構(gòu)中的信息，提高關(guān)系抽取的效果。

［1］DU Xiaoyong，LI Man，WANG Shan.A survey on ontology learning research ［J］.Journal of Software，2006，17 （9）：1837－1847（in Chinese）.［杜小勇，李曼，王珊.本體學(xué)習(xí)研究綜述［J］.軟件學(xué)報(bào)，2006，17 （9）：1837－1847.］

［2］XIANG Yang，ZHANG Bo，HAN Jie.Agent driven intelligent construction of Chinese ontology ［J］.Computer Engineering and Applications，2009，45 （10）：133－137 （in Chinese）.［向陽(yáng)，張波，韓婕.Agent驅(qū)動(dòng)的中文本體智能構(gòu)建研究［J］.計(jì)算機(jī)工程與應(yīng)用，2009，45 （10）：133－137.］

［3］WANG Suihua，ZHAO Ailing，MA Weiwei.Approach to extracting non－taxonomic relationships for Chinese ontology from web ［J］.Computer Engineering and Design，2010，31 （2）：451－454（in Chinese）.［王歲花，趙愛(ài)玲，馬巍巍.從 Web中提取中文本體非分類關(guān)系的方法［J］.計(jì)算機(jī)工程與設(shè)計(jì)，2010，31 （2）：451－454.］

［4］WEN Chun，SHI Zhaoxiang，XIN Yuan.Chinese Non－taxonomic relation extraction based on extended association rule［J］.Computer Engineering，2009，35 （24）：63－65 （in Chinese）.［溫春，石昭祥，辛元.基于擴(kuò)展關(guān)聯(lián)規(guī)則的中文非分類關(guān)系抽取［J］.計(jì)算機(jī)工程，2009，35 （24）：63－65.］

［5］Johansson R，Nugues P.The effect of syntactic representation on semantic role labeling［C］.Manchester，UK：Proc of the 22nd International Conference on Computational Linguistics，2008.

［6］CHEN Yaodong，WANG Ting，CHEN Huowang.Shallow semantic parsing research ［J］.Journal of Computer Research and Development，2008，45 （zl）：321－325 （in Chinese）.［陳耀東，王挺，陳火旺.淺層語(yǔ)義分析研究［J］.計(jì)算機(jī)研究與發(fā)展，2008，45 （zl）：321－325.］

［7］CHE Wanxiang，LI Zhenghua，HU Yuxuan，et al.A cascaded syntactic and semantic dependency parsing system ［C］.Manchester，UK：Proc of CoNLL，2008.

［8］LIU Ting，CHE Wanxiang，LI Sheng.Semantic role labeling with maximum entropy classifier［J］.Journal of Software，2007，18 （3）：565－573（in Chinese）.［劉挺，車萬(wàn)翔，李生.基于最大熵分類器的語(yǔ)義角色標(biāo)注［J］.軟件學(xué)報(bào)，2007，18 （3）：565－573.］

［9］PENG Hui，SHI Zhongzhi.Matching algorithm of semantic web service based on similarity of ontology concepts ［J］.Computer Engineering，2008，34 （15）：51－53 （in Chinese）. ［彭暉，史忠植.基于本體概念相似度的語(yǔ)義Web服務(wù)匹配算法［J］.計(jì)算機(jī)工程，2008，34 （15）：51－53.］

［10］LIU Huaijun，CHE Wanxiang，LIU Ting.Feature engineering for Chinese semantic role labeling ［J］.Journal of Chinese Information Processing，2007，21 （1）：79－84 （in Chinese）.［劉懷軍，車萬(wàn)翔，劉挺.中文語(yǔ)義角色標(biāo)注的特征工程［J］.中文信息學(xué)報(bào)，2007，21 （1）：79－84.］

［11］LIU Baoyan，LIN Hongfei，ZHAO Jing.Chinese sentence similarity computing based on improved edit－distance and dependency grammar ［J］.Computer Applications and Software，2008，25 （7）：33－34 （in Chinese）. ［劉寶艷，林鴻飛，趙晶.基于改進(jìn)編輯距離和依存文法的漢語(yǔ)句子相似度計(jì)算［J］.計(jì)算機(jī)應(yīng)用與軟件，2008，25 （7）：33－34.］

［12］Ciramita M.Unsupervised learning of semantic relations between concepts of a molecular biology ontology ［C］.Edinburgh，UK：Proc of the 19th International Joint Conference on Artificial Intelligence，2005.

［13］Kavalec M，Svatek V.A study on automated relation labeling in ontology learning ［C］.Ontology Learning From Text：Methods Evaluation and Applications.Amsterdam：IOS Press，2005.

［14］WEN Xu，ZHANG Yu.Syntactic structure parsing based Chinese question classification ［J］.Journal of Chinese Information Processing，2006，20 （2）：33－39 （in Chinese）. ［文勖，張宇.基于句法結(jié)構(gòu)分析的中文問(wèn)題分類［J］.中文信息學(xué)報(bào)，2006，20 （2）：33－39.］

［15］YANG Jianming.Ontology learning method based on semantic dependency ［D］.Hefei：University of Science and Technology of China，2008（in Chinese）.［楊建明.基于語(yǔ)義依存的本體學(xué)習(xí)方法［D］.合肥：中國(guó)科學(xué)技術(shù)大學(xué)，2008.］

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡