国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究

2012-06-29 06:29張瑞霞莊晉林楊國增
中文信息學(xué)報(bào) 2012年4期
關(guān)鍵詞:概念圖短語語義

張瑞霞,莊晉林,楊國增

(1. 華北水利水電學(xué)院 信息工程學(xué)院,河南 鄭州 450011;2.鄭州師范學(xué)院 數(shù)學(xué)系,河南 鄭州 450044)

1 引言

語義分析在中文信息處理領(lǐng)域中占有重要地位,特別是隨著一些知識(shí)庫和語義分析理論的成熟,使得語義分析的自動(dòng)化成為可能。《知網(wǎng)》是一個(gè)以英漢雙語所代表的概念以及概念的特征為基礎(chǔ)的常識(shí)知識(shí)庫,它主要描述了概念與概念之間以及概念所具有的特性之間的關(guān)系[1],在中文信息處理中得到廣泛應(yīng)用[2];而其中的重要組成部分之一,中文信息結(jié)構(gòu)(簡(jiǎn)記為CMS)描述了中文詞語的各個(gè)組成部分之間由《知網(wǎng)》所規(guī)定的動(dòng)態(tài)角色關(guān)系或?qū)傩?,其揭示了中文的語言結(jié)構(gòu)規(guī)律[3],可以作為中文語義分析的規(guī)則庫;然而在《中文信息結(jié)構(gòu)庫》[4]中包含眾多CMS,因此對(duì)其消歧是應(yīng)用的必要前提之一;文獻(xiàn)[5]應(yīng)用了CMS的消歧,但沒有說明如何對(duì)其進(jìn)行消歧;文獻(xiàn)[6]構(gòu)建了基于《知網(wǎng)》的中文信息結(jié)構(gòu)抽取器,但其規(guī)則形式不簡(jiǎn)練且規(guī)則中忽略了動(dòng)態(tài)角色,其次消歧策略不明了;鑒于此,本文首先以《中文信息結(jié)構(gòu)庫》為藍(lán)本形式化了CMS;然后根據(jù)CMS的構(gòu)成形式對(duì)其進(jìn)行優(yōu)先級(jí)劃分,并提出了不同的消歧方法: 如詞性序列消歧法、圖相容匹配消歧法、圖相容度計(jì)算消歧法及基于實(shí)例的語義相似度計(jì)算消歧法;最后描述了信息結(jié)構(gòu)集的消歧流程。實(shí)驗(yàn)證明此消歧是有效的。

2 CMS的形式化描述

在《中文信息結(jié)構(gòu)庫》中每個(gè)CMS由四部分組成,即: SYN_S,表示相應(yīng)的句法結(jié)構(gòu);SEM_S,表示語義結(jié)構(gòu);Query 和Answer,表示該信息結(jié)構(gòu)模式傳達(dá)的真正信息,并由此可產(chǎn)生的問與答; 例子,給出符合該信息結(jié)構(gòu)模式的真實(shí)語料的實(shí)例。例如:

SYN_S=V <-- N

SEM_S=(事件,烹調(diào)) <-- [成品受事] (食物/植物/獸/部件,%動(dòng)物/部件,% 植物)

Query1: 什么食品?

Answer1: V+N

例子: 炒-菜,烤-鴨,鹵-蛋,烤-白薯,烤-面包,拌-涼菜,炒-雞蛋

為了便于消歧,在不改變信息結(jié)構(gòu)表達(dá)意義的基礎(chǔ)上,對(duì)信息結(jié)構(gòu)中的SYN_S和SEM_S進(jìn)行形式化描述,以使其與《知網(wǎng)》2005版知識(shí)詞典的描述一致,從而能夠充分利用知網(wǎng)中的語義資源進(jìn)行消歧;約定在形式化描述式中,“|”表示或者,“...”表示省略,其他符號(hào)均表示出現(xiàn)在描述式中的實(shí)際符號(hào)。并對(duì)信息結(jié)構(gòu)中的例子進(jìn)行了詞性、詞義、語義角色標(biāo)注。

2.1 句法結(jié)構(gòu)的形式化描述

在CMS中,SYN_S中使用弧表示了短語或詞語間的修飾關(guān)系,即弧指向部分是修飾語,弧的離開部分是被修飾語,在SYN_S的形式化描述中,用“L”代替指向SYN_S左部分的弧,用“R”代替指向SYN_S右部分的弧,SYN_S形式化描述如下所示。

SYN_S::=Syntax Direction Syntax | Syntax Direction {SYN_S} |{SYN_S} Direction Syntax | {SYN_S}Direction {SYN_S}

Syntax::=《知網(wǎng)》的詞性標(biāo)記

Direction::= L | R

例如: SYN_S=V <-- N,可形式化為: SYN_S=V L N

2.2 語義結(jié)構(gòu)的形式化描述

SEM_S主要包含了三種信息,即: 詞語的語義信息,用義原或義原的組合形式表示;短語或詞語間的修飾關(guān)系,用弧表示;短語或詞語間的語義關(guān)系,用動(dòng)態(tài)角色表示。因此對(duì)SEM_S的形式化描述主要就是對(duì)這三方面的形式化描述。

對(duì)詞語語義信息的形式化描述,采用《知網(wǎng)》2005版本知識(shí)詞典中對(duì)概念項(xiàng)的描述方法;對(duì)短語或詞語間的修飾關(guān)系的形式化描述與句法結(jié)構(gòu)形式化描述相同;短語或詞語間的語義關(guān)系,均采用《知網(wǎng)》中動(dòng)態(tài)角色對(duì)應(yīng)的英文形式。SEM_S的形式化描述如下所示:

DEF1::=(sememe) | (sememe/sememe/...) | (sememe:label1=(word)) | (#:label2=(punc))

DEF2::=(sememe:role=DEF1) | (sememe:role=DEF2) | DEF1/DEF 2

DEF::=DEF1 | DEF2

SEM_S::=DEF direction DEF |{SEM_S} direction DEF | DEF direction{SEM_S}| {SEM_S} direction {SEM_S}

sememe::=《知網(wǎng)》中的義原

word::=《知網(wǎng)》概念詞典中的中文詞語

punc::=標(biāo)點(diǎn)符號(hào)

role::=《知網(wǎng)》中的動(dòng)態(tài)角色

label1::=ALI

label2::= PUNC

direction:=[role] L | R [role]

例如:

SEM_S=(事件,烹調(diào)) <-- [成品受事] (食物/植物/獸/部件,%動(dòng)物/部件,% 植物)

可形式化為:

SEM_S=(烹調(diào)) [ProductPatient] L (食物/植物/獸)/(部件:whole=(動(dòng)物/植物))

3 基于《知網(wǎng)》的CMS消歧方法

CMS消歧主要是對(duì)給定的短語選擇最優(yōu)的CMS,例如,“教學(xué)生”,如何選擇最優(yōu)CMS?這里主要涉及三個(gè)問題:

(1) 在眾多CMS中,應(yīng)該按照怎樣的次序進(jìn)行消歧,即CMS優(yōu)先級(jí)的問題;

(2) 設(shè)計(jì)怎樣的消歧方法,即消歧方法的設(shè)計(jì)問題;

(3) 如何綜合應(yīng)用這些消歧方法,即消歧的流程問題;

3.1 CMS的優(yōu)先級(jí)

對(duì)CMS劃分優(yōu)先級(jí)的目的是確定CMS消歧的次序,即優(yōu)先級(jí)高的CMS先消歧;對(duì)CMS劃分優(yōu)先級(jí)的依據(jù)是根據(jù)其SEM_S的構(gòu)成形式。

第一優(yōu)先級(jí): SEM_S中含有具體詞語,例如: SEM_S= (文字/姓) [modifier] L (人:ALI=(嫌/員/局/隊(duì)/處/婦/女)),此信息結(jié)構(gòu)集中共含有29條CMS,記為PRISET1.

第二優(yōu)先級(jí):SEM_S中含有的義原均為義原樹上的葉節(jié)點(diǎn),例如: SEM_S= (度過) R [patient] (時(shí)間),此信息結(jié)構(gòu)集中共含有38條CMS,記為PRISET2。

第三級(jí): SEM_S的中心義原為義原層次樹上的葉節(jié)點(diǎn),例如: SEM_S=(事件) [duration] L (時(shí)間),此信息結(jié)構(gòu)集中共含有33條CMS,記為PRISET3。

第四級(jí): SEM_S的非中心節(jié)點(diǎn)含有葉節(jié)點(diǎn)義原,例如: SEM_S= (性別值) [modifier] L (動(dòng)物/植物/團(tuán)體),此信息結(jié)構(gòu)集中共含有42條CMS,記為PRISET4。

第五級(jí)為未包含在前四級(jí)內(nèi)的CMS,例如: SEM_S= (使之是) R [ResultIsa] (萬物),此信息結(jié)構(gòu)集中共含有124條CMS,記為PRISET5。

規(guī)定優(yōu)先級(jí)數(shù)越低,其優(yōu)先級(jí)越高,優(yōu)先級(jí)高的CMS先進(jìn)入消歧流程,即依次對(duì)PRISET1、PRISET2、PRISET3、PRISET4、PRISET5進(jìn)行消歧。對(duì)CMS進(jìn)行了優(yōu)先級(jí)劃分后,就可以對(duì)不同優(yōu)先級(jí)別的信息結(jié)構(gòu)集采用不同的消歧方法。

3.2 CMS的消歧方法

由于《知網(wǎng)》知識(shí)詞典對(duì)詞語概念項(xiàng)的描述均采用遞歸層次形式描述,形式化描述后的CMS中的SEM_S也是采用遞歸層次形式描述,所以可以用圖結(jié)構(gòu)表示詞語的概念項(xiàng)[7]及CMS的SEM_S,因此信息結(jié)構(gòu)集消歧過程中就是對(duì)圖結(jié)構(gòu)的處理,可以利用成熟的圖理論,結(jié)合《知網(wǎng)》和圖理論擴(kuò)展了圖理論中的相關(guān)定義。

設(shè)G1與G2均為概念圖,其中G1=,G2=

定義1:G1等相容于G2: 若存在雙射函數(shù)f:V1→V2,對(duì)于vi,vj∈V1,∈E1當(dāng)且僅當(dāng)∈E2,并且vi、vj所代表的義原分別與f(vi)、f(vj)所代表義原相同,則稱G1等相容于G2,vi等相容于f(vi),vj等相容于f(vj),分別記作G1≈G2、vi≈f(vi)、vj≈f(vj)

從圖等相容的定義易知: 圖的等相容性具有自反性、對(duì)稱性和傳遞性。

定義2:G1上相容于G2: 若存在雙射函數(shù)f:V1→V2,對(duì)于vi,vj∈V1,∈E1當(dāng)且僅當(dāng)∈E2,并且vi、vj所代表的義原分別是f(vi)、f(vj)所代表義原的子孫義原,則稱G1上相容于G2,vi上相容于f(vi),vj上相容于f(vj),分別記作G1≤G2、vi≤f(vi)、vj≤f(vj)。

從圖上相容的定義易知: 圖的上相容性具有自反性、反對(duì)稱性和傳遞性。

如圖1、圖2、圖3、圖4、圖5分別表示概念圖G1、G2、G3、G4、G5,由以上定義則有G1≈G2、G1≤G3、G1|≈G4、G1|≤G5.

圖1 G1 圖2 G2 圖3 G3

圖4 G4 圖5 G5

為了量化概念圖G1、G2的相容性,引入相容度的概念。令G1、G2的相容度為com(G1,G2),設(shè)在不考慮節(jié)點(diǎn)所代表義原意義的情況下: 若G2?G1,則G1可能相容于G2,此時(shí)com(G1,G2)≥0;若G1?G2,則G2可能相容于G1,此時(shí)com(G1,G2)≤0;若G1?G2且G2?G1,則G1和G2不可能存在相容關(guān)系,此時(shí)com(G1,G2)=0。

計(jì)算comVex(v1i,f(v1i))時(shí),當(dāng)兩個(gè)節(jié)點(diǎn)表示詞語時(shí),若表示相同詞語,則comVex(v1i,f(v1i))=1,否則comVex(v1i,f(v1i))=0;當(dāng)兩個(gè)節(jié)點(diǎn)表示義原時(shí),若表示相同義原,則comVex(v1i,f(v1i))=1;若表示的義原不具有子孫關(guān)系,則它們是不相容的,所以comVex(v1i,f(v1i))=0;若表示的義原具有子孫關(guān)系,那么兩個(gè)節(jié)點(diǎn)的相容度與其相似度有一定關(guān)系,即兩義原越相似,其相容度越大,所以參照相似度計(jì)算方法計(jì)算comVex(v1i,f(v1i)),如式(2)所示:

在式(2)中,s(v1i)表示節(jié)點(diǎn)v1i所代表的義原;depth(s(v1i))表示義原s(v1i)在義原樹上的深度;min取兩者的最小值;depthTree表示s(v1i)所在義原樹的高度;λ1為調(diào)節(jié)參數(shù);dis(s(v1i),s(f(v1i))計(jì)算兩義原的距離。

計(jì)算dis(s(v1i),s(f(v1i))時(shí),當(dāng)s(v1i)是s(f(v1i))的子孫義原時(shí),則dis(s(v1i),s(f(v1i))為s(v1i)在義原樹上到s(f(v1i)的最短路徑長(zhǎng)度;當(dāng)s(v1i)是s(f(v1i))的祖先義原時(shí),則dis(s(v1i),s(f(v1i)))= - dis(s(f(v1i)),s(v1i)),同時(shí)令λ1=-λ1。

若G1?G2,則com(G1,G2)=-com(G2,G1)。

以上對(duì)圖相容性進(jìn)行了研究,接下來根據(jù)SEM_S的構(gòu)成形式及圖理論提出四種信息結(jié)構(gòu)消歧方法,分別為: 詞性序列消歧法、圖相容匹配消歧法、圖相容度計(jì)算消歧法及基于實(shí)例的語義相似度計(jì)算消歧法。設(shè)輸入短語為phrase,某一信息結(jié)構(gòu)CMS中的語義結(jié)構(gòu)為SEM_S、句法結(jié)構(gòu)為SYN_S,具體消歧方法如下所示。

詞性序列消歧法: 若SYN_S的詞性序列與phrase的詞性序列一致,則該CMS有可能成為較優(yōu)信息結(jié)構(gòu),否則不能成為較優(yōu)信息結(jié)構(gòu)。

圖相容匹配消歧法: 主要是通過對(duì)圖相容關(guān)系的定性分析進(jìn)行消歧,即若phrase中的詞圖與SEM_S中對(duì)應(yīng)的詞圖滿足一定的相容關(guān)系,則該CMS有可能成為較優(yōu)語義結(jié)構(gòu),否則不能成為較優(yōu)信息結(jié)構(gòu);根據(jù)圖的相容關(guān)系,圖相容匹配消歧法可分為圖局部等相容匹配消歧法、圖局部上相容匹配消歧法。

圖相容度計(jì)算消歧法: 按照?qǐng)D相容度的計(jì)算方法,經(jīng)過實(shí)驗(yàn)驗(yàn)證兩個(gè)圖越相容,則其相容度越大,而兩個(gè)圖的相容度越大,則其語義結(jié)構(gòu)越相似,所以此消歧法是通過計(jì)算phrase的概念圖與SEM_S概念圖的相容度,進(jìn)而選擇相容度較大的n個(gè)SEM_S所對(duì)應(yīng)的CMS構(gòu)成較優(yōu)信息結(jié)構(gòu)集。因此此方法關(guān)鍵是計(jì)算phrase和SEM_S的相容度。根據(jù)SYN_S可構(gòu)造一顆完全二叉樹SYN_TREE,并且在構(gòu)造SYN_TREE時(shí),遵循右子樹修飾同一根節(jié)點(diǎn)左子樹的原則;若把SEM_S中每一詞語的概念圖看成一節(jié)點(diǎn),則SEM_S的圖結(jié)構(gòu)與SYN_TREE在表示節(jié)點(diǎn)間的修飾關(guān)系方面是一致的;若phrase選取SEM_S作為其語義結(jié)構(gòu),則phrase的圖結(jié)構(gòu)與SEM_S相同;所以計(jì)算phrase與SEM_S的相容度,即計(jì)算兩者圖結(jié)構(gòu)的相容度,設(shè)phrase中含有m個(gè)詞語,各個(gè)詞圖組成的集合GS1={G1i|1≤i≤m},SEM_S各個(gè)概念圖組成的集合GS2={G2j|1≤j≤m},令G2i為SEM_S中心詞語的概念圖,則G1i為phrase中心詞語的概念圖,中心詞語概念圖的相容度對(duì)整體相容度影響要高于非中心詞語概念圖對(duì)整體相容度的影響;而關(guān)于非中心詞語對(duì)整體相容度影響與其距中心詞語的距離有關(guān),即距離中心詞語越近,影響越大;所以GS1和GS2的相容度comGs(GS1,GS2)如式(3)所示:

comGs(GS1,GS2)=com(G1i,G2i)+β2×

(3)

式(3)中,n=|GS2|,com(G1i,G2i)表示概念圖G1i和G2i的相容度,按照式(1)計(jì)算;λ2為調(diào)節(jié)參數(shù);disG(G2k,G2i)表示在SYN_TREE中代表G2k的葉節(jié)點(diǎn)到代表G2i葉節(jié)點(diǎn)的最短路徑長(zhǎng)度,即表示了非中心詞語與中心詞語間的距離。

基于實(shí)例的相似度計(jì)算消歧法: 由語言學(xué)規(guī)律易知,兩個(gè)短語的語義相似度越大,其語義結(jié)構(gòu)越相近,所以此方法主要通過比較phrase與CMS附帶短語實(shí)例的相似度進(jìn)行消歧。即對(duì)于待消歧的每個(gè)CMS,先計(jì)算phrase與CMS附帶例子中每個(gè)短語example的相似度,然后選擇最大相似度加入相似度比較序列,最后從相似度比較序列中選取n個(gè)較大相似度對(duì)應(yīng)的CMS構(gòu)成較優(yōu)信息結(jié)構(gòu)集。因此關(guān)鍵是計(jì)算phrase與example的相似度,由于可根據(jù)SYN_S構(gòu)造完全二叉樹SYN_TREE,同概念圖相容度計(jì)算分析,phrase與example中詞語間的修飾關(guān)系與SYN_TREE是一致的;為了使相似度計(jì)算與語義結(jié)構(gòu)相關(guān),在合成整體相似度時(shí),參照SYN_TREE的結(jié)構(gòu)進(jìn)行合成;計(jì)算它們概念圖的相似度可分為兩步:

第一步: 參照文獻(xiàn)[8]計(jì)算phrase與example對(duì)應(yīng)位置詞語概念圖的相似度,放入數(shù)組simPart中;

第二步: 根據(jù)SYN_TREE的結(jié)構(gòu)合成整體相似度,其算法為simTree(SYN_TREE,simPart,a,b),其中SYN_TREE為SYN_S的樹結(jié)構(gòu),a、b為參數(shù),分別表示中心詞語與非中心詞語在整體相似度計(jì)算過程中的權(quán)重,a+b=1,a>0.5,則simTree 的基本思想為:

當(dāng)SYN_TREE.lChild!=null&& SYN.TREE.rChild!=null時(shí),

sim =simTree(SYN_TREE.lChild,sim,a,b)×a+simTree(SYN_TREE.rChild,sim,a,b)×b;

當(dāng)SYN_TREE.lChild==null&& SYN.TREE.rChild==null時(shí),sim =(SYN_TREE的對(duì)應(yīng)位置詞圖的相似度)。

3.3 信息結(jié)構(gòu)集的消歧流程

假設(shè)輸入的短語為phrase,令備選信息結(jié)構(gòu)集為PRO_CMS,較優(yōu)信息結(jié)構(gòu)集為SUP_ CMS。

首先檢測(cè)phrase是否在某個(gè)信息結(jié)構(gòu)CMS附帶的例子中,若在,則把該CMS加入SUP_ CMS,消歧結(jié)束;否則按照信息結(jié)構(gòu)集的優(yōu)先級(jí)次序分別進(jìn)行消歧;對(duì)于每一優(yōu)先級(jí)的信息結(jié)構(gòu)集,均先通過詞性序列消歧法獲得PRO_ CMS,然后進(jìn)行不同的消歧流程。

PRISET1: PRO_ CMS中的每個(gè)信息結(jié)構(gòu)CMS,若通過圖局部上相容匹配消歧法,則加入SUP_ CMS;最后若|SUP_ CMS |大于0且不大于n,則消歧結(jié)束,否則應(yīng)用圖相容度計(jì)算消歧方法對(duì)SUP_ CMS進(jìn)行消減,消歧結(jié)束;

PRISET2: 對(duì)于PRO_ CMS中的每個(gè)信息結(jié)構(gòu)CMS,若通過圖局部等相容匹配消歧法,則加入到SUP_ CMS中;最后若|SUP_ CMS |大于0且不大于n,則消歧結(jié)束,否則利用圖相容度計(jì)算消歧法對(duì)SUP_ CMS進(jìn)行消減,消歧結(jié)束;

PRISET3: 對(duì)于PRO_ CMS中的每一個(gè)CMS,若phrase中心詞圖與SEM_S的中心詞圖通過圖的局部等相容匹配消歧法,其他對(duì)應(yīng)位置的詞圖通過圖的局部上相容匹配消歧法,則把CMS加入SUP_ CMS;最后若|SUP_ CMS |等于1,直接進(jìn)入PRISET4消歧過程,否則利用圖相容度計(jì)算消歧法對(duì)SUP_ CMS進(jìn)行消減后,再進(jìn)入PRISET4消歧過程。

PRISET4: 對(duì)于 PRO_ CMS中,若phrase的對(duì)應(yīng)位置的詞圖與CMS的SEM_S含有葉義原的詞圖通過圖的局部等相容匹配消歧法,其他對(duì)應(yīng)位置的詞圖通過圖的局部上相容匹配消歧法,則把該CMS加入SUP_ CMS;進(jìn)入PRISET5消歧過程;

PRISET5: 對(duì)于PRO_ CMS中的每個(gè)CMS,若phrase的每個(gè)詞圖與SEM_S對(duì)應(yīng)位置的詞圖均通過圖的局部上相容匹配消歧法,則把CMS加入到SUP_CMS中;最后若|SUP_ CMS |不大于n,則消歧結(jié)束,否則利用基于實(shí)例的相似度計(jì)算消歧方法對(duì)SUP_CMS進(jìn)行消減,消歧結(jié)束。

4 實(shí)驗(yàn)與分析

4.1 信息結(jié)構(gòu)消歧舉例

實(shí)驗(yàn)中參數(shù)的設(shè)置,參數(shù)n表示較優(yōu)信息結(jié)構(gòu)集SUP_ CMS中CMS的個(gè)數(shù),理想狀態(tài)是n=1,但通過實(shí)驗(yàn)發(fā)現(xiàn)若令n=1,則消歧效果不是很好,所以根據(jù)經(jīng)驗(yàn),各參數(shù)值如下所示: 令n=3,η1=1.2,λ1=1.8,λ2=1.6,a=0.6,b=0.4。

表1例舉了信息結(jié)構(gòu)消歧結(jié)果,若|SUP_CMS|>1,則用“√”標(biāo)注出實(shí)際應(yīng)該選擇的信息結(jié)構(gòu)。

表1 信息結(jié)構(gòu)消歧例表

在表1中,對(duì)于含有動(dòng)詞的短語例1-10,其消歧結(jié)果分為四類。

(1) |SUP_ CMS|=1,并且與實(shí)際最優(yōu)信息結(jié)構(gòu)一致,如例5、7、9;

(2) |SUP_ CMS|>1,且第一個(gè)較優(yōu)信息結(jié)構(gòu)為實(shí)際最優(yōu)信息結(jié)構(gòu),選擇第一個(gè)信息結(jié)構(gòu)即完成消歧工作,如例2、4、8;

(3) |SUP_ CMS|>1,但第一個(gè)較優(yōu)信息結(jié)構(gòu)不為實(shí)際最優(yōu)信息結(jié)構(gòu),但若進(jìn)一步研究事件的語義角色,利用其進(jìn)行消歧均可以得到唯一的最優(yōu)信息結(jié)構(gòu),如例1、3、10。

(4) |SUP_ CMS|> 1,需要結(jié)合事件更深層次的內(nèi)容或結(jié)合上、下文環(huán)境進(jìn)一步消歧,如例6。

對(duì)于不含有動(dòng)詞的名詞性短語,其消歧結(jié)果中所含有的信息結(jié)構(gòu)數(shù)大多為1,如例11、12、13、16、17,主要原因有二,一是在于《知網(wǎng)》的知識(shí)詞典中對(duì)名詞性概念描述的較詳盡;二是在信息結(jié)構(gòu)庫中描述名詞性短語的語義結(jié)構(gòu)較細(xì)致;對(duì)于名詞性短語如例14,雖然出現(xiàn)了兩個(gè)信息結(jié)構(gòu),但這兩個(gè)信息結(jié)構(gòu)的內(nèi)在形式是一致的,即其詞語間的修飾關(guān)系是一致的,所以無論選擇哪個(gè)信息結(jié)構(gòu)對(duì)于例14語義表示的效果是一樣的。

對(duì)于其他類型短語,如例18,在PRISET1的消歧過程中即可選定對(duì)應(yīng)的信息結(jié)構(gòu)。

4.2 實(shí)驗(yàn)結(jié)果分析

本實(shí)驗(yàn)的實(shí)驗(yàn)集由兩部分組成,第一部分來自《PFR人民日?qǐng)?bào)標(biāo)注語料》,從中抽取出符合CMS語義結(jié)構(gòu)的短語8 000個(gè),其中含有動(dòng)詞的短語4 000個(gè),不含動(dòng)詞的名詞性短語3 000個(gè),其他種類的短語1 000個(gè);第二部分來自哈工大信息檢索研究室語言技術(shù)平臺(tái)的標(biāo)注語料,從中抽取出符合CMS語義結(jié)構(gòu)的短語6 000個(gè),其中含有動(dòng)詞的短語3 000個(gè),不含動(dòng)詞的名詞性短語2 500個(gè),其他種類的短語500個(gè);并對(duì)這些短語進(jìn)行半自動(dòng)化語義標(biāo)注。

為了對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),提出準(zhǔn)確率和精確率,其計(jì)算方法如式(4)、式(5)所示。

(4)

(5)

實(shí)驗(yàn)過程中的主要參數(shù)設(shè)定如4.1中參數(shù)設(shè)定,則實(shí)驗(yàn)結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果可知,對(duì)于含有動(dòng)詞的短語,信息結(jié)構(gòu)消歧的準(zhǔn)確率較高,這是因?yàn)樵诤袆?dòng)詞的信息結(jié)構(gòu)中,SEM_S的語義描述較豐富,并且附帶了大量的例子;而精確率相對(duì)較低,是因?yàn)閯?dòng)詞本身語義豐富,有些語義要根據(jù)語言使用的習(xí)慣特征、語境特征來確定。

對(duì)于不含動(dòng)詞的名詞性短語,信息結(jié)構(gòu)消歧的準(zhǔn)確率較低,主要是因?yàn)榇朔N類型信息結(jié)構(gòu)的數(shù)量較多,其次名詞性短語構(gòu)成較靈活,再者由于CMS中例子的局限性,使用基于實(shí)例的相似度計(jì)算消歧也會(huì)產(chǎn)生誤差;精確率較高,是因?yàn)榇祟愋偷腃MS大都含有一些描述較細(xì)致的語義結(jié)構(gòu),并且附帶豐富的例子。

其他類型短語,準(zhǔn)確率和精確率較高,主要是因?yàn)檫@些類型的信息結(jié)構(gòu)數(shù)量相對(duì)少,并且其語義結(jié)構(gòu)描述很細(xì)致,所以計(jì)算效果較好。

5 結(jié)束語

對(duì)中文信息結(jié)構(gòu)消歧進(jìn)行了研究,首先形式化描述了信息結(jié)構(gòu);接著根據(jù)語義結(jié)構(gòu)的構(gòu)成形式對(duì)信息結(jié)構(gòu)進(jìn)行了優(yōu)先級(jí)劃分;然后根據(jù)信息結(jié)構(gòu)的特點(diǎn)提出了不同的消歧方法,如詞性序列消歧法、圖相容匹配消歧法、圖相容度計(jì)算消歧法、基于實(shí)例的相似度計(jì)算消歧法;最后設(shè)計(jì)了消歧流程。實(shí)驗(yàn)表明對(duì)信息結(jié)構(gòu)消歧的準(zhǔn)確率達(dá)到了90%以上,為其實(shí)際應(yīng)用奠定了基礎(chǔ)。

在下一步的工作中,需要繼續(xù)完善消歧方法,特別是提高消歧的精確率。例如,研究動(dòng)詞的角色,設(shè)計(jì)基于角色標(biāo)注的消歧方法;從語法角度,結(jié)合《現(xiàn)代漢語語法詞典》,研究基于語法規(guī)則的消歧方法;參照韻律信息,研究韻律對(duì)消歧的影響;再者從提高算法效率角度,研究高效的消歧算法。

[1] 董振東,董強(qiáng). 《知網(wǎng)》——《知網(wǎng)》簡(jiǎn)介[R].http://www.keenage.com.

[2] 董振東,董強(qiáng),郝長(zhǎng)伶. 《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2007,21(4):3-9.

[3] 董振東,董強(qiáng). 關(guān)于《知網(wǎng)》——中文信息結(jié)構(gòu)庫[R]. http://www.keenage.com.

[4] 董振東,董強(qiáng). 《知網(wǎng)》——中文信息結(jié)構(gòu)庫[R]. http://www.keenage.com.

[5] 董強(qiáng),郝長(zhǎng)伶,董振東. 基于《知網(wǎng)》的中文語塊抽取器[C]//全國第七屆語言學(xué)聯(lián)和學(xué)術(shù)會(huì)議論文集:234-239.

[6] 董強(qiáng),郝長(zhǎng)伶,董振東. 基于《知網(wǎng)》的中文信息結(jié)構(gòu)抽取[R]. http://www.keenage.com.

[7] 張瑞霞,肖漢. 基于《知網(wǎng)》的詞圖構(gòu)造[J].華北水利水電學(xué)院學(xué)報(bào),2008,29(3): 53-56.

[8] 張瑞霞,朱貴良,楊國增. 基于知識(shí)圖的漢語詞匯語義相似度計(jì)算[J]. 中文信息學(xué)報(bào),2009,23(3):116-120.

猜你喜歡
概念圖短語語義
真實(shí)場(chǎng)景水下語義分割方法及數(shù)據(jù)集
概念圖在小學(xué)高年級(jí)寫作教學(xué)中的應(yīng)用研究
語言與語義
批評(píng)話語分析中態(tài)度意向的鄰近化語義構(gòu)建
初中物理教學(xué)中運(yùn)用概念圖
“吃+NP”的語義生成機(jī)制研究
《健民短語》一則
概念圖策略在生物復(fù)習(xí)課中的應(yīng)用
济宁市| 陇南市| 玛多县| 弋阳县| 黄山市| 朝阳区| 忻州市| 全椒县| 当雄县| 乐至县| 阳谷县| 大邑县| 申扎县| 贡嘎县| 永泰县| 巨野县| 荆门市| 四会市| 大冶市| 丹江口市| 宁化县| 启东市| 正蓝旗| 永福县| 莱阳市| 延吉市| 定兴县| 南岸区| 穆棱市| 澄城县| 义马市| 浪卡子县| 亳州市| 陆丰市| 白银市| 金华市| 改则县| 清河县| 南和县| 旬阳县| 华容县|