国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HNC概念關(guān)聯(lián)性的領(lǐng)域判定研究

2013-04-23 06:48池哲潔
中文信息學(xué)報(bào) 2013年6期
關(guān)鍵詞:基元頻數(shù)關(guān)聯(lián)

池哲潔,張 全

(1. 中國(guó)科學(xué)院大學(xué),北京 100049;2. 中國(guó)科學(xué)院 聲學(xué)研究所,北京 100190)

1 引言

概念層次網(wǎng)絡(luò)(Hierarchical Network of Concepts,HNC)理論[1-3]立足語言概念空間,認(rèn)為語言概念空間是一個(gè)由基層(對(duì)應(yīng)概念基元空間)、第一介層(對(duì)應(yīng)句類空間)、第二介層(對(duì)應(yīng)語境單元空間)和上層(對(duì)應(yīng)語境空間)構(gòu)成的四層級(jí)結(jié)構(gòu)體,在此基礎(chǔ)上建立了自然語言的理解和處理的新模式。在概念基元空間中,按人類活動(dòng)以及其他生命體本能活動(dòng)、自然界災(zāi)禍狀態(tài)可劃分出十大領(lǐng)域類: 心理活動(dòng)及精神狀態(tài)、人類思維活動(dòng)、專業(yè)及追求活動(dòng)(第二類勞動(dòng))、理念活動(dòng)、第一類勞動(dòng)、業(yè)余活動(dòng)、信仰活動(dòng)、本能活動(dòng)、災(zāi)禍、狀態(tài),這一分類的主體是對(duì)人類活動(dòng)所屬范疇的分類[2]。

領(lǐng)域用來描述事件的類型,確定事件核心歸屬的范圍,它和情景、背景共同構(gòu)成語境單元的三要素。領(lǐng)域是語境單元的第一要素,同時(shí),情景和背景也是領(lǐng)域的函數(shù),即領(lǐng)域也能決定情景和背景,說明領(lǐng)域在語境單元空間中起主軸作用。在語境單元萃取(實(shí)現(xiàn)從句類空間到語境單元空間提升的過程)中,領(lǐng)域判定是其八大課題中的重要一項(xiàng),領(lǐng)域信息的獲取能夠?yàn)檎Z境單元萃取提供原始材料。

在已有工作中,對(duì)領(lǐng)域的研究主要是在句類和句群層面,韋向峰[4]設(shè)計(jì)了句類分析平臺(tái),在語段對(duì)領(lǐng)域、情景及背景等基本信息的獲取進(jìn)行研究;繆建明[5]采用句類表示式的方法將領(lǐng)域知識(shí)組織起來,形成領(lǐng)域句類知識(shí),為句群處理提供便利。本文嘗試一種在概念基元層面實(shí)現(xiàn)領(lǐng)域判定的方法: 直接利用領(lǐng)域概念,并結(jié)合概念關(guān)聯(lián)式,通過頻數(shù)統(tǒng)計(jì)直觀的呈現(xiàn)領(lǐng)域信息,最終基于頻數(shù)比較對(duì)領(lǐng)域做出判定。

2 HNC概念關(guān)聯(lián)式介紹

HNC概念關(guān)聯(lián)中,除了HNC邏輯符號(hào)定義的關(guān)聯(lián)外,還存在10種沿襲邏輯[6]關(guān)聯(lián)類型(表1)。

表1 10種沿襲邏輯關(guān)聯(lián)類型

對(duì)以上10種沿襲邏輯關(guān)聯(lián)說明如下:

強(qiáng)關(guān)聯(lián)(≡)的兩個(gè)節(jié)點(diǎn)關(guān)聯(lián)性強(qiáng),有些可視為同一個(gè),示例中a21910*b25(戰(zhàn)爭(zhēng)資源基建)與a42(戰(zhàn)爭(zhēng))強(qiáng)關(guān)聯(lián)。

強(qiáng)交式關(guān)聯(lián)(=)表示兩個(gè)節(jié)點(diǎn)在HNC作用效應(yīng)鏈各環(huán)節(jié)具有交織性表現(xiàn),它是同一個(gè)概念本體從不同觀察角度看到的不同映像,例如,3099(反復(fù))是107a(過程周行性)的效應(yīng)描述,強(qiáng)調(diào)實(shí)現(xiàn)過程的非單調(diào)性。

源、流式關(guān)聯(lián)(=>、<=)展示概念的源流關(guān)系,源和流是對(duì)偶的兩端;流式關(guān)聯(lián)中,前者是流,后者是源,源式關(guān)聯(lián)則相反,例如,7103^e46d01(好奇)是a60(探索與研究)的起因,故7103^e46d01強(qiáng)源式關(guān)聯(lián)于a60。

包含、屬于(%=、=%)是一種父集合和子集合的關(guān)系,在包含關(guān)聯(lián)中,前者的一部分是后者,屬于關(guān)聯(lián)則表示前者是后者的一部分,例如,q701e22(講談)包括a72^e21(教)。

對(duì)應(yīng)(:=)一般表示條件關(guān)系,例如,a11e1ne223(王朝更迭)對(duì)應(yīng)于a109(王權(quán)制度)。

等同(=:)是弱定義式,例如,a15(征服)是a131d01(國(guó)家、民族之間政治斗爭(zhēng))的最高級(jí)形式。

定義(::=)表示一個(gè)節(jié)點(diǎn)的內(nèi)涵可以通過其他節(jié)點(diǎn)或多個(gè)節(jié)點(diǎn)的組合來闡述,一般被定義者是單一概念節(jié)點(diǎn),而定義者則是多個(gè)概念節(jié)點(diǎn)的組合,例如,73228(先驗(yàn)理性行為)定義為基于先驗(yàn)理性的理性行為(7322(行為與理性),l83(主客觀因素的綜合),d22(先驗(yàn)理性))。

虛設(shè)(==)表示前者是后者的虛設(shè),前者是為了體現(xiàn)概念的完整性而設(shè)置的,其具體延伸見后者,例如,a103e22(對(duì)外政策)是a143(外交政策)的虛設(shè)。

不同概念關(guān)聯(lián)式反映概念間關(guān)聯(lián)性的強(qiáng)弱以及概念的關(guān)聯(lián)方向,強(qiáng)關(guān)聯(lián)、強(qiáng)交式關(guān)聯(lián)兩端的概念關(guān)聯(lián)性強(qiáng),且作用是相互的;源、流式關(guān)聯(lián)及包含、屬于則是弱一級(jí)的關(guān)聯(lián)式,且具有方向性。對(duì)于同一概念,可能存在多個(gè)概念關(guān)聯(lián)式,例如,a12in(治國(guó)基本方式的第一要點(diǎn))和a53e2m(治國(guó)的文武之道)強(qiáng)關(guān)聯(lián),同時(shí)也和a123e2m3(民政)強(qiáng)交式關(guān)聯(lián)。概念之間存在關(guān)聯(lián)關(guān)系,對(duì)于不同的概念,則可考慮應(yīng)用關(guān)聯(lián)關(guān)系將它們進(jìn)行合并,以縮減所要處理的概念,這樣能夠?yàn)楹罄m(xù)判斷提供便利。本文基于現(xiàn)有的概念關(guān)聯(lián)式,著重考慮包含領(lǐng)域信息的概念節(jié)點(diǎn),通過對(duì)文本中的概念進(jìn)行頻數(shù)統(tǒng)計(jì)實(shí)現(xiàn)文本的領(lǐng)域判定。

3 領(lǐng)域判定算法描述

本文對(duì)文本的領(lǐng)域判定主要基于帶有領(lǐng)域信息的概念節(jié)點(diǎn)并結(jié)合概念關(guān)聯(lián)式進(jìn)行的。通過詞語和概念基元的映射關(guān)系,將文本的詞形對(duì)應(yīng)到概念基元空間中,實(shí)現(xiàn)文本領(lǐng)域特征的第一次壓縮;獲取概念基元統(tǒng)計(jì)信息后,利用已有的概念關(guān)聯(lián)式,對(duì)概念進(jìn)行合并,實(shí)現(xiàn)文本領(lǐng)域特征的進(jìn)一步壓縮;對(duì)于合并后的概念基元,則考慮按概念層次進(jìn)行匯總,最終形成能夠直接用于領(lǐng)域判定的結(jié)果。

領(lǐng)域判定算法描述如下:

(1) 對(duì)待判定文本進(jìn)行分詞處理,完成分詞后,轉(zhuǎn)(2);

(2) 利用詞語—概念基元映射表,基于切分好的詞語統(tǒng)計(jì)概念基元信息,形成概念基元—頻數(shù)表,轉(zhuǎn)(3);

(3) 基于已有的概念關(guān)聯(lián)式,將概念基元信息進(jìn)行合并處理,形成合并后的概念基元與其頻數(shù)的對(duì)應(yīng)表,轉(zhuǎn)(4);

(4) 對(duì)合并后的概念基元按概念層次進(jìn)行匯總,最終形成可直接用于領(lǐng)域判斷的概念—頻數(shù)對(duì)應(yīng)表,轉(zhuǎn)(5);

(5) 基于最終匯總的概念對(duì)文本領(lǐng)域做出判斷。

3.1 概念基元信息統(tǒng)計(jì)

要基于帶有領(lǐng)域信息的概念節(jié)點(diǎn)對(duì)領(lǐng)域做出判定,必須先獲取概念基元信息。本文以詞語作為處理單位,利用現(xiàn)有的詞語—概念基元映射表進(jìn)行概念基元統(tǒng)計(jì),因此,此處主要進(jìn)行的處理是詞語切分和詞語到概念基元的映射。

本文的分詞工作是采用漢語分詞系統(tǒng)(NLPIR,又名ICTCLAS2013)[7]來完成的。該分詞系統(tǒng)給定默認(rèn)的詞典,但與本文采用的詞語—概念基元映射表有一些出入,部分映射表中的詞語不在該分詞系統(tǒng)的詞典中,為了能夠更充分地利用已有的映射信息,我們對(duì)詞語—概念基元映射表的詞語進(jìn)行處理,抽取映射表中未能被分詞系統(tǒng)切分成單一詞語的項(xiàng)目,將其整理后作為用戶詞典加入到分詞系統(tǒng)中。

完成詞語切分后,利用詞語—概念基元映射表將詞語與概念基元對(duì)應(yīng),統(tǒng)計(jì)概念基元信息,此處對(duì)切分出的所有詞語均進(jìn)行統(tǒng)計(jì),但對(duì)于詞語—概念基元映射表中未出現(xiàn)的詞語則因缺乏映射標(biāo)準(zhǔn)不予考慮。理論上,將詞語和概念基元對(duì)應(yīng)需要一個(gè)精確的標(biāo)注過程,考慮到本文是以判定領(lǐng)域?yàn)槟康?,添加非領(lǐng)域信息對(duì)結(jié)果判定不會(huì)產(chǎn)生太大影響,故在此處進(jìn)行從簡(jiǎn)處理,將所出現(xiàn)詞語對(duì)應(yīng)的概念基元一并統(tǒng)計(jì),以此結(jié)果作為概念基元的統(tǒng)計(jì)結(jié)果。

3.2 概念關(guān)聯(lián)式的應(yīng)用

據(jù)統(tǒng)計(jì),10種沿襲邏輯的概念關(guān)聯(lián)式共有3 641個(gè),各類沿襲邏輯的分布為(括號(hào)中的數(shù)目為該類型關(guān)聯(lián)式的數(shù)目): 強(qiáng)關(guān)聯(lián)(436)、強(qiáng)交式關(guān)聯(lián)(908)、強(qiáng)流式關(guān)聯(lián)(595)、強(qiáng)源式關(guān)聯(lián)(293)、包含(25)、屬于(160)、對(duì)應(yīng)(780)、等同(127)、定義(282)、虛設(shè)(35)。共有2 779個(gè)概念基元掛靠了概念關(guān)聯(lián)式,這些概念中,絕大多數(shù)只有一個(gè)概念關(guān)聯(lián)式與之對(duì)應(yīng),少部分概念有多個(gè)概念關(guān)聯(lián)式。

不同類型的關(guān)聯(lián)式所體現(xiàn)出的概念關(guān)聯(lián)性強(qiáng)弱程度不一樣,這樣,對(duì)于某一關(guān)聯(lián)式類型,可以賦予其一關(guān)聯(lián)權(quán)重μAssociationType,表示在特定關(guān)聯(lián)式下,將一概念向另一概念進(jìn)行合并時(shí),可以保留μAssociationType的原概念信息。例如,對(duì)于強(qiáng)關(guān)聯(lián)(≡)類型,其兩個(gè)概念節(jié)點(diǎn)可視為一個(gè),故可取μ≡=1,認(rèn)為合并后的概念能夠完全保留原概念信息。為各類型關(guān)聯(lián)式賦予關(guān)聯(lián)權(quán)重后,將不同概念節(jié)點(diǎn)進(jìn)行合并則具有量化指標(biāo),可直接應(yīng)用于基于頻數(shù)的計(jì)算中。

考慮到不同類型關(guān)聯(lián)式的關(guān)聯(lián)性強(qiáng)弱以及各關(guān)聯(lián)式在領(lǐng)域判定中所能起的作用,本文選取關(guān)聯(lián)性較強(qiáng)的7種關(guān)聯(lián)式,分別是: 強(qiáng)關(guān)聯(lián)、強(qiáng)交式關(guān)聯(lián)、強(qiáng)流式關(guān)聯(lián)、強(qiáng)源式關(guān)聯(lián)、包含、屬于、等同,這些關(guān)聯(lián)式形成一個(gè)鍵-值對(duì)結(jié)構(gòu)的關(guān)聯(lián)概念對(duì)應(yīng)表,鍵項(xiàng)對(duì)應(yīng)待合并概念節(jié)點(diǎn),值項(xiàng)則是合并后的概念節(jié)點(diǎn)。對(duì)關(guān)聯(lián)式選取的總體準(zhǔn)則是: 盡量讓包含領(lǐng)域信息的概念節(jié)點(diǎn)作為合并后的概念,即盡量讓領(lǐng)域概念出現(xiàn)在關(guān)聯(lián)概念對(duì)應(yīng)表中的值項(xiàng)。由于對(duì)各類型關(guān)聯(lián)式的關(guān)聯(lián)性沒有先驗(yàn)量化指標(biāo),并且領(lǐng)域概念對(duì)領(lǐng)域判定的貢獻(xiàn)可以體現(xiàn)為“有”或“無”這樣的布爾選項(xiàng),本文在計(jì)算關(guān)聯(lián)權(quán)重時(shí)做一簡(jiǎn)化處理,對(duì)各類型關(guān)聯(lián)式其關(guān)聯(lián)權(quán)重均取μAssociationType=1,對(duì)于各類型關(guān)聯(lián)式,本文采用的具體選取準(zhǔn)則為:

(1) 對(duì)于強(qiáng)關(guān)聯(lián)、強(qiáng)交式關(guān)聯(lián)、等同,出現(xiàn)在兩邊的概念地位一致,若兩端節(jié)點(diǎn)均包含領(lǐng)域信息,則不選用;若僅一方包含領(lǐng)域信息,則將不含領(lǐng)域信息的概念向包含領(lǐng)域信息的概念合并,形成的概念關(guān)聯(lián)式加入關(guān)聯(lián)概念對(duì)應(yīng)表中;若兩端節(jié)點(diǎn)均不含領(lǐng)域信息,則按原形式將概念關(guān)聯(lián)式加入關(guān)聯(lián)概念對(duì)應(yīng)表。

(2) 對(duì)于源、流式關(guān)聯(lián),將源向流合并,形成統(tǒng)一形式的概念關(guān)聯(lián)式,若源端節(jié)點(diǎn)包含領(lǐng)域信息,則該關(guān)聯(lián)式不選用,否則,將概念關(guān)聯(lián)式加入關(guān)聯(lián)概念對(duì)應(yīng)表。

(3) 對(duì)于包含、屬于,將“包含”的后者向前者合并,“屬于”的前者向后者合并,形成統(tǒng)一形式的概念關(guān)聯(lián)式,若關(guān)聯(lián)式前端節(jié)點(diǎn)包含領(lǐng)域信息,則該關(guān)聯(lián)式不選用,否則,將概念關(guān)聯(lián)式加入關(guān)聯(lián)概念對(duì)應(yīng)表。

(4) 對(duì)于一個(gè)概念節(jié)點(diǎn)有多個(gè)概念關(guān)聯(lián)式與之對(duì)應(yīng)的情況,優(yōu)先選取合并后值項(xiàng)帶有領(lǐng)域信息的關(guān)聯(lián)式,若帶有領(lǐng)域信息的關(guān)聯(lián)式有多個(gè),則按強(qiáng)關(guān)聯(lián)—強(qiáng)交式關(guān)聯(lián)—包含、屬于—源、流式關(guān)聯(lián)的順序選取。

基于上述選取準(zhǔn)則并經(jīng)過人工校對(duì),本文最終選取了866個(gè)概念關(guān)聯(lián)式,形成關(guān)聯(lián)概念對(duì)應(yīng)表,應(yīng)用于概念節(jié)點(diǎn)的合并中。

3.3 概念基元按層次匯總

應(yīng)用概念關(guān)聯(lián)式對(duì)概念進(jìn)行合并后,所得到的概念層次不一,無法直接應(yīng)用于領(lǐng)域的判定,因此,需要考慮對(duì)其中包含領(lǐng)域信息的概念做匯總處理,以形成能夠直接用于領(lǐng)域判定的結(jié)果。

HNC的概念具有層次性和網(wǎng)絡(luò)性,對(duì)概念按照概念范疇—概念林—概念樹—根概念—概念延伸結(jié)構(gòu)的方法從高層到低層來表示, 后一層面的概念是前一層面概念的延伸,延伸的概念處于更為底層的地位,越往底層,概念表達(dá)的意義越具體、越特殊。結(jié)合HNC關(guān)于領(lǐng)域概念的設(shè)定,本文將概念基元匯總到概念林層面,依此對(duì)文本的領(lǐng)域做出判定。以專業(yè)活動(dòng)領(lǐng)域?yàn)槔?,在概念林層面共?個(gè)節(jié)點(diǎn): a0(專業(yè)活動(dòng)基本共性)、a1(政治)、a2(經(jīng)濟(jì))、a3(文化)、a4(軍事)、a5(法律)、a6(科技)、a7(教育)、a8(衛(wèi)保)。

經(jīng)過不同層次的概念映射及人工篩選,本文形成一個(gè)概念基元—概念林對(duì)應(yīng)表,將其應(yīng)用于概念基元的匯總。對(duì)于匯總的概念林層次結(jié)果,本文采用簡(jiǎn)單的頻數(shù)對(duì)比方法對(duì)領(lǐng)域做出判定: 對(duì)匯總概念林結(jié)果進(jìn)行降序排列,選取其中出現(xiàn)頻數(shù)最高的領(lǐng)域概念所對(duì)應(yīng)的領(lǐng)域作為判定結(jié)果,若其中未出現(xiàn)包含領(lǐng)域的概念林節(jié)點(diǎn),則判定為“其他”領(lǐng)域。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)設(shè)置

本文的測(cè)試語料來源是國(guó)家語委現(xiàn)代漢語語料庫(以下簡(jiǎn)稱語委語料庫),主要考察專業(yè)活動(dòng)中的領(lǐng)域,從語委語料庫的中選取政治、經(jīng)濟(jì)和軍事三個(gè)領(lǐng)域的文本進(jìn)行測(cè)試,為每個(gè)領(lǐng)域選取120篇文本作為測(cè)試語料。

實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用正確率(Precision,簡(jiǎn)記P)、召回率(Recall,簡(jiǎn)記R)和F1值,對(duì)某個(gè)領(lǐng)域文本的判定結(jié)果,a表示確實(shí)屬于該領(lǐng)域的文本數(shù),b表示不屬于該領(lǐng)域而被誤判為該領(lǐng)域的文本數(shù),c表示屬于該領(lǐng)域卻沒有被判定為該領(lǐng)域的文本數(shù),則正確率、召回率和F1值的計(jì)算分式分別如下所示。

F1值綜合考慮了領(lǐng)域判定的正確率和召回率,對(duì)判定效果的評(píng)價(jià)更為全面,作為此次判定的評(píng)價(jià)指標(biāo)。

4.2 實(shí)驗(yàn)結(jié)果

對(duì)選取的語料采用本文的方法進(jìn)行測(cè)試,同時(shí),對(duì)于不應(yīng)用概念關(guān)聯(lián)式的情況也進(jìn)行了測(cè)試,作為本文方法的對(duì)比,所得結(jié)果如表2和表3所示。

表2 基于概念關(guān)聯(lián)式的領(lǐng)域判定結(jié)果

表3 不使用概念關(guān)聯(lián)式的領(lǐng)域判定結(jié)果

兩種方法F1值的對(duì)比情況如圖1所示。

圖1 兩種判定方法F1值對(duì)比情況

從以上結(jié)果可以看出: 本文添加概念關(guān)聯(lián)式進(jìn)行領(lǐng)域判定的方法效果較好,相比于不使用概念關(guān)聯(lián)式的情況,在判定正確率和召回率方面均有不同程度的提升,F(xiàn)1值改進(jìn)明顯(采用本文方法,政治、經(jīng)濟(jì)、軍事三個(gè)領(lǐng)域的F1值分別為: 90.61%、90.83%、90.99%,不使用概念關(guān)聯(lián)式的情況: 82.91%、78.07%、85.98%,各領(lǐng)域的F1值分別提升了7.7%、12.76%、5.01%),說明概念關(guān)聯(lián)式的使用在領(lǐng)域判定中能夠發(fā)揮積極作用。同時(shí),采用本文提出的判定方法進(jìn)行測(cè)試,其F1值均在90%附近,說明該方法在政治、經(jīng)濟(jì)、軍事三個(gè)領(lǐng)域的穩(wěn)定性較好。另外,無論使用概念關(guān)聯(lián)式與否,軍事領(lǐng)域的判定正確率都很高,說明這一類領(lǐng)域概念對(duì)領(lǐng)域的區(qū)分度強(qiáng),其他領(lǐng)域被誤判為該領(lǐng)域的可能性低。

在實(shí)驗(yàn)中我們發(fā)現(xiàn),絕大多數(shù)情況下,不使用概念關(guān)聯(lián)式能夠做出正確判定的文本,加入概念關(guān)聯(lián)式后其判定結(jié)果仍然是正確的,且作為判定指標(biāo)的頻數(shù)信息會(huì)往預(yù)定領(lǐng)域傾斜;但也存在一些文本,加入概念關(guān)聯(lián)式后,對(duì)領(lǐng)域的判定起到了干擾作用,即不使用概念關(guān)聯(lián)式時(shí)判定結(jié)果是正確的,使用概念關(guān)聯(lián)式反而得到其他領(lǐng)域的結(jié)果(該情況,軍事領(lǐng)域出現(xiàn)1篇,經(jīng)濟(jì)領(lǐng)域出現(xiàn)2篇)。究其原因,與所選取的概念關(guān)聯(lián)式中不同領(lǐng)域的關(guān)聯(lián)式分布不均衡有關(guān);同時(shí),對(duì)于一些文本,其本身就存在多個(gè)領(lǐng)域交叉的情況,而本文在結(jié)果判定中,只選取頻數(shù)最大的領(lǐng)域的做法略顯粗糙,對(duì)于多個(gè)領(lǐng)域的頻數(shù)結(jié)果相當(dāng),只簡(jiǎn)單取一項(xiàng)的做法欠缺合理性。我們相信,通過合理選取概念關(guān)聯(lián)式,構(gòu)造均衡的概念關(guān)聯(lián)式對(duì)應(yīng)表,并制定綜合考慮多領(lǐng)域結(jié)果的判定方法能夠提升領(lǐng)域判定的效果。

4.3 與基于關(guān)鍵詞的領(lǐng)域判定的對(duì)比

本文最后還設(shè)計(jì)了一種基于關(guān)鍵詞的領(lǐng)域判定方法,用于和前文采用的基于概念基元的判定方法進(jìn)行對(duì)比?;陉P(guān)鍵詞的領(lǐng)域判定方法操作如下: ①從訓(xùn)練語料中為各領(lǐng)域提取關(guān)鍵詞;②對(duì)待判定文本進(jìn)行詞頻統(tǒng)計(jì);③將詞頻統(tǒng)計(jì)結(jié)果與各領(lǐng)域關(guān)鍵詞對(duì)應(yīng),選取得分最高的領(lǐng)域作為判定結(jié)果。步驟①中的關(guān)鍵詞提取采用χ2統(tǒng)計(jì)量[8]實(shí)現(xiàn),其計(jì)算公式如式(4)所示。

其中,a表示某詞在指定領(lǐng)域中的頻數(shù),b為該領(lǐng)域各文本的總詞頻,c表示該詞在參照領(lǐng)域(非指定領(lǐng)域)中的頻數(shù),d表示參照領(lǐng)域的總詞頻,N=a+b+c+d;為領(lǐng)域中各個(gè)詞語計(jì)算χ2值,并按χ2值從大到小排序,選取提名靠前的K個(gè)(K人為指定,本文取K=200)詞語作為指定領(lǐng)域的關(guān)鍵詞;訓(xùn)練語料從語委語料庫中選取,各領(lǐng)域分別選取300篇文檔。在領(lǐng)域判定上,我們同樣使用頻數(shù)統(tǒng)計(jì)信息,與基于概念基元的方法一致。步驟③為每個(gè)關(guān)鍵詞賦予相同權(quán)重,以各領(lǐng)域所有關(guān)鍵詞的總頻數(shù)作為最終得分,領(lǐng)域判定基于得分排序,取最高得分作為判定結(jié)果。采用4.1節(jié)的測(cè)試語料,其判定結(jié)果如表4所示。

表4 基于關(guān)鍵詞的領(lǐng)域判定結(jié)果

從表4中可以看出,基于關(guān)鍵詞的方法在領(lǐng)域判定中效果不如基于概念基元的方法,其在政治、經(jīng)濟(jì)、軍事三個(gè)領(lǐng)域的F1值分別為77.23%、68.37%、78.09%,均低于基于概念基元而不使用概念關(guān)聯(lián)式,更低于使用概念關(guān)聯(lián)式的方法,這說明基于概念基元的方法在領(lǐng)域特征提取和凝練上是有優(yōu)勢(shì)的。

5 小結(jié)

本文基于HNC設(shè)計(jì)的領(lǐng)域概念,利用概念關(guān)聯(lián)式通過頻數(shù)統(tǒng)計(jì)、概念合并以及概念匯總進(jìn)行領(lǐng)域判定。采用本文提出的方法,對(duì)領(lǐng)域判定直接,不需要建立復(fù)雜的模型,且無需訓(xùn)練,具有很強(qiáng)的適用性。通過對(duì)特定領(lǐng)域的語料進(jìn)行測(cè)試,發(fā)現(xiàn)本文方法表現(xiàn)良好,相比于不使用概念關(guān)聯(lián)式的方法,其性能提升明顯。不過,本文也存在需要改進(jìn)和完善的地方,主要包括:

(1) 在頻數(shù)統(tǒng)計(jì)階段,由詞語到概念基元映射的過程中,本文選取全部概念的方法會(huì)對(duì)判定結(jié)果產(chǎn)生干擾,因此有必要進(jìn)行概念基元精確標(biāo)注的工作。

(2) 在關(guān)聯(lián)式選擇上,本文選取的概念關(guān)聯(lián)式在各領(lǐng)域中分布不均勻,對(duì)領(lǐng)域判定也會(huì)造成一定影響。因此,需要制定合理的選取準(zhǔn)則,以充分發(fā)揮概念關(guān)聯(lián)式的作用。

(3) 本文對(duì)不同類型概念關(guān)聯(lián)式的關(guān)聯(lián)權(quán)重采取統(tǒng)一賦值處理,沒能體現(xiàn)出各關(guān)聯(lián)式的關(guān)聯(lián)強(qiáng)度差異,有必要通過實(shí)驗(yàn)為不同的概念關(guān)聯(lián)式賦予權(quán)重,為使用概念關(guān)聯(lián)式提供量化標(biāo)準(zhǔn)。

(4) 本文簡(jiǎn)單地基于匯總結(jié)果的頻數(shù)信息判定領(lǐng)域的方法略顯粗糙,丁澤亞[9]曾經(jīng)利用關(guān)聯(lián)規(guī)則挖掘的方法從分類語料中獲取與類別關(guān)聯(lián)的概念及概念組合,可以考慮以此為參考,加入領(lǐng)域相關(guān)聯(lián)的概念組合信息,制定新的評(píng)分方式;另外,對(duì)于領(lǐng)域交叉型文本的判定也需要特別考慮,以制定該類型文本的判定準(zhǔn)則。

(5) 本文實(shí)驗(yàn)中所涉及的領(lǐng)域較少,在后續(xù)工作中有必要擴(kuò)大領(lǐng)域范圍,進(jìn)一步驗(yàn)證概念關(guān)聯(lián)式在不同領(lǐng)域的判定中能否夠發(fā)揮作用。另外,本文的工作只是在概念基元層面進(jìn)行的,僅依靠概念進(jìn)行處理有時(shí)效果不佳,因此有必要將判定工作擴(kuò)展到句子層面,在句類空間中利用領(lǐng)域句類知識(shí)對(duì)本文的工作進(jìn)行補(bǔ)充。

以上均是下一階段可嘗試的工作,希望通過上述改進(jìn),領(lǐng)域判定能夠取得更好的效果,從而在語境單元萃取方面發(fā)揮重要作用。

[1] 黃曾陽. HNC(概念層次網(wǎng)絡(luò))理論[M].北京: 清華大學(xué)出版社,1998.

[2] 黃曾陽.語言概念空間的基本定理和數(shù)學(xué)物理表示式[M].北京: 海洋出版社,2004.

[3] 苗傳江.HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論[M].北京: 清華大學(xué)出版社,2005.

[4] 韋向峰.基于HNC理論的擴(kuò)展句類分析平臺(tái)研究[D].中國(guó)科學(xué)院聲學(xué)研究所博士學(xué)位論文,2005.

[5] 繆建明.專業(yè)活動(dòng)領(lǐng)域句類的設(shè)計(jì)與知識(shí)表示[D].中國(guó)科學(xué)院聲學(xué)研究所博士學(xué)位論文,2007.

[6] HNC自然語言理解處理網(wǎng)站.HNC理論全書[OL].http://www.hncnlp.com/.

[7] 張華平. NLPIR漢語分詞系統(tǒng)下載包[OL]. http://ictclas.nlpir.org/newsdownloads?DocId=352.

[8] 楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海: 上海外語教育出版社,2002

[9] 丁澤亞.利用語言概念空間的文本分類研究[D].中國(guó)科學(xué)院聲學(xué)研究所博士學(xué)位論文,2012.

猜你喜歡
基元頻數(shù)關(guān)聯(lián)
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
基于多重示范的智能車輛運(yùn)動(dòng)基元表征與序列生成
一款低頻偶極子聲源設(shè)計(jì)
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
人體細(xì)胞內(nèi)存在全新DNA結(jié)構(gòu)
奇趣搭配
中考頻數(shù)分布直方圖題型展示
智趣
學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
基元樹建筑物圖像偽造組件檢測(cè)算法
图们市| 河东区| 秭归县| 临夏市| 务川| 肇庆市| 满洲里市| 丹寨县| 明溪县| 尚义县| 大邑县| 上栗县| 六枝特区| 无锡市| 炉霍县| 手游| 林州市| 牟定县| 佛教| 南宫市| 昌吉市| 玛曲县| 岫岩| 隆昌县| 金门县| 巴彦淖尔市| 宜丰县| 民和| 金阳县| 乡宁县| 通海县| 台州市| 达日县| 开化县| 剑河县| 鄂托克前旗| 福贡县| 高碑店市| 康保县| 庄浪县| 济源市|