国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于話題相關(guān)的文檔集的無向基本要素網(wǎng)絡(luò)的連通性探討

2015-04-21 08:17姬東鴻
中文信息學(xué)報 2015年4期
關(guān)鍵詞:連接性基本要素連通性

楊 華, 姬東鴻, 陳 波

(1. 貴州師范大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,貴州 貴陽 550001;2. 武漢大學(xué)文學(xué)院,湖北 武漢 430072;3. 武漢大學(xué)計算機(jī)學(xué)院,湖北 武漢 430072;4. 湖北文理學(xué)院文學(xué)院,湖北 襄陽 441053)

?

基于話題相關(guān)的文檔集的無向基本要素網(wǎng)絡(luò)的連通性探討

楊 華1, 2, 姬東鴻3, 陳 波3, 4

(1. 貴州師范大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,貴州 貴陽 550001;2. 武漢大學(xué)文學(xué)院,湖北 武漢 430072;3. 武漢大學(xué)計算機(jī)學(xué)院,湖北 武漢 430072;4. 湖北文理學(xué)院文學(xué)院,湖北 襄陽 441053)

基于數(shù)量有限的文檔,該文構(gòu)建以基本要素中的head和modifier為節(jié)點(diǎn)的無向網(wǎng)絡(luò)UBEN,調(diào)查了話題相關(guān)文檔的UBEN的連通性,指出了話題相關(guān)的文檔的UBEN具有的特性。討論停用詞對UBEN連通性的影響,比較了相關(guān)文檔集和隨機(jī)文檔集的UBEN的聯(lián)通特性的差異,指出了連通性在一定程度上是文檔之間內(nèi)容相關(guān)導(dǎo)致的融合結(jié)果。結(jié)論對多文檔自動文摘和信息檢索等任務(wù)有一定的意義。

話題相關(guān)文檔集;自動文摘;復(fù)雜網(wǎng)絡(luò);連通性;信息融合

1 引言

近年來,復(fù)雜網(wǎng)絡(luò)開始被用來描述語言這一復(fù)雜現(xiàn)象[1-4],包括語言的起源、性質(zhì)以及認(rèn)知等。結(jié)點(diǎn)小于句子的網(wǎng)絡(luò)主要有:單詞同現(xiàn)/搭配(collaboration)網(wǎng)[1],單詞依存語法網(wǎng)[5],同義詞典網(wǎng)[2, 6-8]、概念網(wǎng)[6, 8-9],詞匯聯(lián)想網(wǎng)[10]等。文獻(xiàn)[4]綜述了以單詞、句子、文本為結(jié)點(diǎn)的語言網(wǎng)絡(luò)。其他包含語言網(wǎng)絡(luò)綜述性內(nèi)容的為文獻(xiàn)[2-3]。目前構(gòu)建的、在以句子級別以下的單元為節(jié)點(diǎn)的語言復(fù)雜網(wǎng)絡(luò)大多有如下特點(diǎn):基于海量的文檔或者詞典;大多沒有權(quán)值;極少的網(wǎng)絡(luò)是有向的。很多研究對以什么單位為結(jié)點(diǎn),如何定義結(jié)點(diǎn)之間的關(guān)系,研究的興趣何在都未給予充分的回答[4]。但是,觀察這些網(wǎng)絡(luò)的構(gòu)建過程,結(jié)點(diǎn)都是相對完整的語義單位,結(jié)點(diǎn)之間在一定程度上語義相關(guān),從而形成邊。

多文檔就是多個文檔(通常為幾十篇)構(gòu)成的集合。多文檔又可以分為話題相關(guān)的文檔集和隨機(jī)挑選的文檔構(gòu)成的集合。

把文本表達(dá)成網(wǎng)絡(luò)可以對文本更深入地洞察[11]。文獻(xiàn)[12]在數(shù)量有限的、話題相關(guān)的文檔上,構(gòu)建了以基本要素的head和modifier為結(jié)點(diǎn)的網(wǎng)絡(luò)BEN,并嘗試將網(wǎng)絡(luò)特性和原文檔集的內(nèi)容特性關(guān)聯(lián)起來。BEN網(wǎng)絡(luò)的特點(diǎn)是:結(jié)點(diǎn)是比單詞更加完整,比句子更加精確的語義單元;結(jié)點(diǎn)之間的關(guān)系附帶了來自原文檔的豐富信息;網(wǎng)絡(luò)構(gòu)建來自于數(shù)量有限得多的文檔。在文獻(xiàn)中研究的語言網(wǎng)絡(luò)中,一些大規(guī)模的網(wǎng)絡(luò)表現(xiàn)出高度連通性[8],但是這些網(wǎng)絡(luò)都是基于詞典(而非真實(shí)的語料)或者大規(guī)模的語料。那么,對BEN這樣一個來自數(shù)量很有限的文檔集而言,連通性如何?語言本身的特性以及文檔內(nèi)容的相關(guān)性對連通性的影響會如何?本文將探索這些問題。

本文其余部分組織結(jié)構(gòu)如下:第二部分介紹了“多文檔”的概念;第三部分描述了基本要素的概念,及基于該概念的有向基本要素網(wǎng)絡(luò);第四部分介紹了無向基本要素網(wǎng)絡(luò)的構(gòu)建方法。第五部分給出了MC-FC性質(zhì)的定性描述;第六部分給出了實(shí)驗結(jié)果;第七部分總結(jié)了本文結(jié)論及應(yīng)用場合。

2 多文檔的概念

“多文檔自動文摘”任務(wù)是在話題相關(guān)的文檔集(通常是幾十篇)――多文檔(在此特定情況下,多文檔也就是內(nèi)容相關(guān)的文檔集)的基礎(chǔ)上,生成一篇能代表這些文檔的主要內(nèi)容、可讀性好的摘要,幫助用戶快速了解整個文檔的主要內(nèi)容。當(dāng)前,人們使用流行的搜索引擎,往往是閱讀搜索引擎取回的大量結(jié)果中的一部分,在其中尋找自己感興趣的信息。排在檢索結(jié)果最前面的若干篇文檔,例如,50個文檔,總體上可以看成是圍繞用戶查詢的話題相關(guān)文檔集。多文檔是一種獨(dú)特的文檔數(shù)據(jù)集。為方便陳述,把話題相關(guān)的文檔簡記為TDS(Topic-related Document Set)。相較于TDS,如果文檔集中的文檔是從海量的文檔中隨機(jī)抽取的,則稱該文檔集為隨機(jī)文檔的集合,簡記為RDS(Random Document Set)。

3 有向基本要素網(wǎng)絡(luò)

研究對語言網(wǎng)絡(luò)研究時,應(yīng)該回答下面的問題:構(gòu)建網(wǎng)絡(luò)的標(biāo)準(zhǔn)是什么,即結(jié)點(diǎn)和邊都代表什么?為什么要分析網(wǎng)絡(luò)即對這些網(wǎng)絡(luò)進(jìn)行分析的研究興趣是什么[4]。

BEN的節(jié)點(diǎn)的選擇與多文檔文摘中的表示粒度密切相關(guān)。在自動文摘的內(nèi)容選擇階段,選擇段落或句子作為基本粒度過于粗糙;詞的頻率對內(nèi)容的重要性有很好的指示作用,但是因為詞的粒度較小,且僅包含自己的語義信息,其在句中的結(jié)構(gòu)信息被忽視[13]。自動文摘系統(tǒng)評測工作的經(jīng)驗也證明從句子的粒度去評測過于粗糙,從單詞的層面來比較內(nèi)容太不精確。綜上,無論是內(nèi)容選擇,還是評測的要求,都需要介于單詞和句子之間的、可變長度的,包含重要信息的單元。文獻(xiàn)[14]提出了一種自動產(chǎn)生這種單元的方法,這就是基本要素(Basic Element,BE),并指出了使用BE作為基本粒度評測DUC2005中的自動文摘的方法。

BE描述的是基本要素中心詞(head)及其修飾(modifier)之間的關(guān)系(relation),表示為一個三元組“中心-修飾-關(guān)系” (head|modifier|relation),其中“中心詞”表示主要的語法成分,關(guān)系則表達(dá)了Head和Modifier之間的依存關(guān)系。為陳述方便,下文提及BE的時候,意指BE 三元組,而 BEH表示BE head,BEM表示BE modifier,BEHM為BE中的BEH或者BEM。圖 1是句子“The United Nations imposed sanctions on Libya in 1992 because of their refusal to surrender the suspects”中基本要素的一個例子。

圖1 BE的例子

有時候最小的語意單元是由單個詞構(gòu)成的,比如“England”,但是很多時候也由多個單詞共同組成,比如“the United States” ,可以統(tǒng)稱為詞項,也就是基本要素中的BEHM。顯然,BEHM是比單詞更精確的語義單元。我們定義了以BEHM為結(jié)點(diǎn)的網(wǎng)絡(luò),簡稱為BEN(BE Network)。BEN上的邊上附加有BEH和BEM之間的關(guān)系;因而相同的兩個結(jié)點(diǎn)之間可能存在不止一條邊。而每條邊上還附加有權(quán)值——相應(yīng)的BEH、BEM以及它們之間的某種關(guān)系在整個文檔集中出現(xiàn)的次數(shù)。BEN構(gòu)建的詳細(xì)過程見文獻(xiàn)[12]。該文獻(xiàn)還指出,結(jié)點(diǎn)的入權(quán)代表了一個BEHM在原文檔集中受到關(guān)注的程度。入權(quán)越低,說明在整個文檔集中,該BEHM越不可能是重要的內(nèi)容單元。

4 無向基本要素網(wǎng)絡(luò)的生成

語言網(wǎng)絡(luò)可以根據(jù)研究的目的來進(jìn)行定義。出

于本文的目的,我們構(gòu)建BEN的無向版本UBEN。把有向版本的網(wǎng)絡(luò)轉(zhuǎn)換成無向版本來研究連通性的理由是:BEN的網(wǎng)絡(luò)結(jié)點(diǎn)在作為BEH或者BEM的傾向性是非常重的*輔助實(shí)驗中,把網(wǎng)絡(luò)的結(jié)點(diǎn)作為BEH的傾向程度表示成100級,表示為結(jié)點(diǎn)的入度與度之比乘以100以后取整,或者結(jié)點(diǎn)的入權(quán)與結(jié)點(diǎn)鄰邊上權(quán)值和之比乘以100以后取整。結(jié)果顯示,在這兩種表示法下,分布在0,25,33,50,66,75,100的結(jié)點(diǎn)數(shù)處遠(yuǎn)比其他位置高,在0,100處的結(jié)點(diǎn)數(shù)又比25,33,50,66,75高很多。該現(xiàn)象的原因?qū)⒃谄渌撐闹忻枋?。此處僅定性描述。。此外,當(dāng)前大部分研究復(fù)雜網(wǎng)絡(luò)連通性的文獻(xiàn)中是針對無向網(wǎng)絡(luò)的。

UBEN與BEN相比有如下特征:BEN的結(jié)點(diǎn)的入權(quán)被附加在相應(yīng)的UBEN的結(jié)點(diǎn)之中,盡管網(wǎng)絡(luò)是無向的,但結(jié)點(diǎn)的入權(quán)仍然可以經(jīng)過簡單計算而獲得:計算文檔集產(chǎn)生的BE三元組可重集合里,一個結(jié)點(diǎn)充當(dāng)BEH的次數(shù)即可;在BEN中兩個結(jié)點(diǎn)之間由于關(guān)系不同而可能存在的多條邊在UBEN中被合并成一條邊,因為兩個結(jié)點(diǎn)之間無論是一條邊還是多條邊,起到的連接作用是一樣的;為了清晰,UBEN的構(gòu)建算法如圖 2所示。

5 無向基本要素網(wǎng)絡(luò)連通性

一些被研究過的語言網(wǎng)絡(luò)表現(xiàn)出高度的連通性[8]。與其他文獻(xiàn)中的語言網(wǎng)絡(luò)相比較,UBEN有如下特點(diǎn):1)UBEN的構(gòu)建目的是為了反映文檔集的內(nèi)容特性,而非研究語言的性質(zhì)、特征及語言的認(rèn)知和學(xué)習(xí)。因而,更多的是以多文檔的語義特性為研究對象。因此UBEN將被構(gòu)建在數(shù)量有限的文檔之上而非大規(guī)模的文檔集上;2)UBEN的結(jié)點(diǎn),即BEHM,既來自于真實(shí)的語料,也比當(dāng)前其他大部分網(wǎng)絡(luò)中使用的單詞更為精確。3)UBEN的邊上附加了類型,權(quán)值等來自于原文檔集的信息。那么,這樣一種精確定義,并且構(gòu)建于數(shù)量非常有限的文檔的網(wǎng)絡(luò),它的連通性會怎樣呢?對自然語言處理有何意義?

圖2 UBEN的生成

實(shí)驗結(jié)果表明:文檔集的UBEN通常由一個占絕對數(shù)量優(yōu)勢的結(jié)點(diǎn)的主要分量和數(shù)量不多的、其中包含結(jié)點(diǎn)數(shù)目相對小得多的分量構(gòu)成。前者也可稱為巨組元(the largest component)[7],這里我們稱

為MC(Major Component),而將那些瑣碎的分量稱為FC(Fragment Component)。為了方便后面陳述,把這種連接特性稱為MC-FCs。話題相關(guān)UBEN的另一個特性是:FC中的結(jié)點(diǎn)入權(quán)很低,因而不是多文檔中的關(guān)鍵信息,這個特性稱為UIFC(Unimportance In Fragment Component)。

6 實(shí)驗設(shè)計與結(jié)果

6.1 數(shù)據(jù)集與實(shí)驗設(shè)計

本節(jié)采用DUC2004[15]中用于任務(wù)1和任務(wù)2,DUC2005[16]的數(shù)據(jù)集來構(gòu)建BEN,DUC2004數(shù)據(jù)集包含來自TDT的50個文檔集,每個文檔集含有10篇話題相關(guān)的文檔。DUC2005的數(shù)據(jù)集包含50個文檔集,每個相關(guān)文檔集中含有25至50篇內(nèi)容相關(guān)的文檔。一般情況下,DUC2005的文檔比DUC2004的長。在將原文檔中的句子拆分成BE時候,采用的是南加州大學(xué)(ISI)發(fā)布的BE包1.0[17]。

6.2 連接特性描述

為了描述高度相關(guān)的文檔的UBEN的前面提到的兩個特性,表 1中列出了表達(dá)UBEN連通性的參量。沒有專門設(shè)計參數(shù)來描述MC,因為相應(yīng)的數(shù)值可以通過對FC的參數(shù)簡單計算而得。例如,可以通過觀察1-Pfc得到MC中的結(jié)點(diǎn)數(shù)與整個網(wǎng)絡(luò)中的結(jié)點(diǎn)數(shù)之比。

表1 描述UBEN連接特性的參數(shù)

6.3 實(shí)驗1: MC-FCs和UIFC特性

對DUC2004和DUC2005中兩個隨機(jī)選擇的典型文檔集(duc2004d30046t和duc2005d347b)構(gòu)造的UBEN,表 1中的五個參數(shù)的結(jié)果見表 2,說明這兩個文檔集的UBEN滿足MC-FCs和UIFC特性。

表 2 DUC2004和DUC2005中兩個典型多文檔的連接性參數(shù)

為了說明話題相關(guān)文檔的UBEN的MC-FCs特性和UIFC特性是一種普遍的現(xiàn)象,對表 1中的五個參數(shù),對DUC2004中的50個文檔集和DUC2005中的50個文檔集產(chǎn)生的BEN,計算了平均值和標(biāo)準(zhǔn)差,結(jié)果見表 3:A04 行和 A05行分別是DUC2004和DUC2005文檔集中,表 1中參數(shù)的平均值;SD04 行和 SD05行分別是DUC2004和DUC2005文檔集中,表 1中參數(shù)的標(biāo)準(zhǔn)差。顯然,實(shí)驗結(jié)果支持先前描述的結(jié)論:TDS的UBEN具備MC-FCs性質(zhì)和UIFC性質(zhì)。

表3 DUC2004和DUC2005中有關(guān)連接特性參數(shù)的統(tǒng)計數(shù)據(jù)

6.4 實(shí)驗2: 停用詞對連通性的影響

語言中的停用詞具有高度的連接性,這是語言本身的特性。在如此數(shù)量有限的文檔上,UBEN的高連通性與語言的停用詞的高度連接性關(guān)系如何?如果去掉停用詞,網(wǎng)絡(luò)的連通性有何變化?為此,設(shè)計了表 4中的五種去除停用詞的模式,五種模式對消除停用詞的影響上,總體上是越來越嚴(yán)格(III和IV哪個的影響更重暫時還不明確)。

表4 去除停用詞對網(wǎng)絡(luò)連通性的影響的五種模式

表 5是DUC2004年的一個典型文檔集(d30053t目錄)在以上五種模式下,計算出的表 1所列出參量的結(jié)果。表 6是DUC2005年的一個典型文檔集(d360f目錄)在以上五種模式下,計算出的表 1中所列出參量的結(jié)果。表 5和表 6均顯示,隨著消除停用詞的影響越來越嚴(yán)格,這兩個TDS的UBEN的零碎分量的數(shù)目Nfc明顯增加,但Nfn,Pfc,,IWSDfc的增加并不明顯。

表5 DUC2004的 d30053t 文檔集連接特性受去除停用詞的影響

NfcNfnPfcIWSDfcI5120.008298760.6666671.10554II6140.009831460.6428571.04247III16360.02680570.5833330.759203IV14360.02714930.6666670.881917V26740.06202850.6891890.752036

表6 DUC2005的 d360f 文檔集連接特性受去除停用詞的影響

NfcNfnPfcIWSDfcI23530.01382370.5849060.596656II25570.01499210.5789470.590788III621490.04104680.5906040.634716IV541400.03820960.6357140.709232V982520.07556220.6269840.687001

表 7是對DUC2004和DUC2005的所有文檔集連通性參數(shù)的統(tǒng)計結(jié)果,其中A04,S04列是的所有文檔集的五個連接性參量的平均值與標(biāo)準(zhǔn)差,A05,S05列是所有文檔集的各個連接性參量的平均值與標(biāo)準(zhǔn)差??梢钥闯觯瑢UC2004和DUC2005數(shù)據(jù)集,文檔集的MC-FCs性質(zhì)和UIFC性質(zhì)并沒有受到停用詞很大的影響。五種模式基本對連接性的影響是依次增大的, BEH比BEM的影響相當(dāng)——模式III比模式IV導(dǎo)致碎分量個數(shù)稍微大一點(diǎn)點(diǎn)。這些數(shù)據(jù),尤其是模式V的數(shù)據(jù)說明:停用詞對TDS的UBEN的連通特性確實(shí)有顯著影響,會明顯增加碎分量的個數(shù)。但MC-FCs和UIFC性質(zhì)基本不變??梢夿EN的高度連通性,可能并非簡單地由停用詞的高度連接性造成的,很可能大程度上源于文檔集內(nèi)部的相關(guān)性。

表7 DUC2004和DUC2005數(shù)據(jù)連接性受到停用詞的影響的統(tǒng)計數(shù)據(jù)

6.5 實(shí)驗3:隨機(jī)文檔網(wǎng)絡(luò)與相關(guān)文檔網(wǎng)絡(luò)的連接性差異

如前所述,去除停用詞能明顯增加網(wǎng)絡(luò)碎分量的個數(shù),但是卻不影響其MC-FCs性質(zhì)和UIFC性質(zhì)。那么,這個性質(zhì)是否在一定程度上是文檔之間的話題上的相關(guān)性導(dǎo)致的呢?為此,還需要比較高度相關(guān)的文檔集的UBEN與隨機(jī)文檔的UBEN之間的連通性。為此我們設(shè)計了如圖 3所示的實(shí)驗。其中對EdgeNum的設(shè)置如下,令其分別為:DUC2004的所有BEN的邊數(shù)的平均值,DUC2005的所有BEN的邊數(shù)的平均值,即2516和9478,即文獻(xiàn)[12]中Table 1中的(I,E),(II,E),這樣設(shè)置的原因是邊數(shù)比結(jié)點(diǎn)數(shù)更能表達(dá)原文檔集中的信息量。在EdgeNum取定某一值的情況下,分別考察表 4中列出的五種模式下,網(wǎng)絡(luò)的連通特性。實(shí)驗的結(jié)果如表 8。表中A表示平均值,S表示標(biāo)準(zhǔn)差。

圖3 隨機(jī)文檔的UBEN網(wǎng)絡(luò)的連接性參數(shù)的統(tǒng)計特性計算過程

EdgeNum去除停用詞的模式平均值與標(biāo)準(zhǔn)差NfcNfnPfcIWSDfcEdgeNum=2517IIIIIIIVVA16.5344.940.026970.639450.70532S5.2270815.063380.008530.042560.0821A20.0954.960.031720.640460.70979S5.0634315.521190.008650.042830.09112A46.02121.830.065680.631170.70528S8.3096425.043020.012260.026680.05759A46.75130.290.066540.651060.71967S10.0758532.253510.01520.031860.09094A80.53225.770.108780.656880.73634S15.1720548.757050.020370.027210.06011EdgeNum=9678IIIIIIIVVA24.9464.780.019040.627510.69874S7.931322.208640.006150.05220.10864A26.0266.230.018730.614370.68718S7.5223321.024210.005640.046130.09545A63157.480.041590.608560.66939S9.6095526.412230.006380.025920.05575A56.74147.810.037310.627170.68354S10.1946928.262010.006620.028420.06218A102.17260.920.062060.623030.67948S13.2992436.188530.007710.021790.04717

這樣,表 7的DUC2004和DUC2005數(shù)據(jù)下得到結(jié)果與表 8中EdgeNum=2 517,EdgeNum=9 678的數(shù)據(jù)分別形成了對應(yīng),前者表達(dá)的是相關(guān)文檔的網(wǎng)絡(luò)的連通性,后者表達(dá)隨機(jī)文檔的網(wǎng)絡(luò)的連通性。

觀察表 7和表 8,可以得到以下結(jié)論:1)隨機(jī)文檔的網(wǎng)絡(luò)與相關(guān)文檔的網(wǎng)絡(luò)都具備MC-FCs性質(zhì),但相關(guān)文檔的MC-FCs性質(zhì)更顯著得多。2)在指定的EdgeNum下,模式I與模式II的連接參數(shù)差異不大,這點(diǎn)在表 7中也得到體現(xiàn)。3)停用詞會顯著影響隨機(jī)文檔的網(wǎng)絡(luò)的連通分量的個數(shù),但表 7和表 8說明, MC-FCs性質(zhì)并未發(fā)生大的改變。表 8中Nfc與Nfn受BEH和BEM的影響非常接近。而且對于EdgeNum=2 517,BEM的影響反而超過BEH。這點(diǎn)相對于表 7有明顯差異。這點(diǎn)可能這樣解釋:一個非停用詞BEH,由于可能是多相關(guān)文檔的焦點(diǎn),被從多個角度描述,度數(shù)高,一旦被去掉,就會對導(dǎo)致碎分量的大幅增加;然而對于隨機(jī)文檔形成的網(wǎng)絡(luò),某個非停用詞的BEH,不能得到多個文檔的反復(fù)提及,從而度數(shù)高的概率比較低,BEH對連通性的影響相對來說就降低了,其在通信上的作用就接近了BEM。

如上所述,盡管停用詞的去除并沒有改變隨機(jī)文檔集或者相關(guān)文檔集的UBEN的MC-FCs性質(zhì)和UIFC性質(zhì),但是Nfc受到的影響還是很顯著的。表 9綜合了表 7與表 8中關(guān)于Nfc的數(shù)據(jù)。數(shù)據(jù)說明:就去除停用BEH和停用BEM對網(wǎng)絡(luò)碎分量數(shù)目的影響,隨機(jī)文檔受到的影響比相關(guān)文檔的明顯得多。這點(diǎn)可能作如下解釋:在隨機(jī)文檔的網(wǎng)絡(luò)中,由于缺乏足夠的非停用詞形成的關(guān)鍵的通信結(jié)點(diǎn),停用詞的去除對通信的影響作用就凸顯出來了。比如,不去除停用詞時(即I),DUC05的Nfc為21.3, NumScale=9678時Nfc為24.94,差異不大。但是在VI情形,這兩個數(shù)字卻分別為78.08和102.17,有顯著差異。所以,Nfc的大小,從一定程度上,能反映文檔集的內(nèi)容相關(guān)程度。

表9 相關(guān)文檔與隨機(jī)文檔的UBEN的碎分量數(shù)Nfc一覽

7 結(jié)論

調(diào)查了網(wǎng)絡(luò)的連通性,提出了MC-FCs性質(zhì),該性質(zhì)非常利于計算,因為計算可以局限在網(wǎng)絡(luò)最大連通分量上。MC-FCs性質(zhì)并不是單純因為停用詞的高連接性造成的,并且在話題相關(guān)的文檔集的網(wǎng)絡(luò)上,該性質(zhì)比在隨機(jī)的、不相關(guān)的文檔構(gòu)成的網(wǎng)絡(luò)上表現(xiàn)顯著得多,這說明MC-FCs一定程度上是話題相關(guān)的文檔信息融合的結(jié)果。這可能為自動文摘提供了一種新的思路: 即基于依存語法和復(fù)雜網(wǎng)絡(luò)理論,進(jìn)一步,可用于度量“相關(guān)文檔集”的內(nèi)容,比如,傳統(tǒng)的信息檢索系統(tǒng)返回若干“相關(guān)文檔”,對其中的前K篇文檔,不僅要求其與用戶的查詢高度相關(guān),而且應(yīng)盡量包含不重復(fù)的信息。依據(jù)本文的內(nèi)容,基于該K篇文檔構(gòu)成的UBEN應(yīng)具備足夠高的連通性,因而,UBEN的連通性可作為度量信息檢索系統(tǒng)的前K篇文檔構(gòu)成的“文檔集”的質(zhì)量的指標(biāo)之一。

另外要注意的是:實(shí)驗中設(shè)計的“隨機(jī)文檔”數(shù)據(jù),其實(shí)還是來自50或者100個話題相關(guān)文檔,其實(shí)還不夠隨機(jī),因此,真正的隨機(jī)文檔集的UBEN與話題相關(guān)文檔的UBEN在連通性上的差異都會更大,即本文的結(jié)論會更加可靠。

[1] Ferrer I Cancho R, Sole R V. The small world of human language[J]. Royal Society B: Biological Sciences. 2001, 268(1482): 2261-2265.

[2] Ferrer I Cancho R. The structure of syntactic dependency networks: Insights from recent advances in network theory[J]. The Problems of Quantitative Linguistics, Ruta, Chernivtsi. 2005: 60-75.

[3] Sole R V, Murtra B C, Valverde S, et al. Language Networks: their structure, function and evolution[J]. Trends in Cognitive Sciences. 2006.

[4] Mehler A. Large Text Networks as an Object of Corpus Linguistic Studies[C]//Proceedings of the Corpus Linguistics. An International Handbook of the Science of Language and Society. De Gruyter, Berlin/New York. 2007.

[5] Ferrer I Cancho R, Sol R V, K R. Patterns in syntactic dependency networks[J]. Physical Review E Phys Rev E. 2004, 69: 051915.

[6] Motter A E, De M A, Lai Y C, et al. Topology of the conceptual network of language[J]. Science Phys Rev E. 2002, 65: 065102.

[7] Newman M E. The structure and function of complex networks[C]//Proceedings of the Arxiv preprint cond-mat/0303516. 2003.

[8] Steyvers M, Tenenbaum J B. The Large-Scale Structure of Semantic Networks: Statistical Analyses and a Model of Semantic Growth[J]. Cognitive Science. 2001, 29(1): 41-78.

[9] Sigman M, Cecchi G A. Global organization of the Wordnet lexicon[J]. Proceedings of the National Academy of Sciences. 2002, 99(3): 1742-1747.

[10] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model for semantic growth[C]//Proceedings of the Arxiv preprint cond-mat/0110012. 2001.

[11] Antiqueira L, Nunes M G, Oliveira J O, et al. Strong correlations between text quality and complex networks features[J]. Physica A: Statistical Mechanics and its Applications. 2007, 373: 811-820.

[12] Yang H, He Y, Ji D, et al. Evaluating Multi-Document's Content: Using Basic Element Complex Networks[J]. Journal of Computational Information Systems. 2008, 4(3): 907-914.

[13] Nenkova A. Understanding the process of multi-document summarization: content selection, rewriting and evaluation[J]. 2006.

[14] Hovy E, Lin C Y, Zhou L. Evaluating DUC 2005 using basic elements[C]//Proceedings of the Fifth Document Understanding Conference (DUC). 2005.

[15] Paul O, James Y. An Introduction to DUC-2004[C]//Proceedings of the 4th Document Understanding Conference (DUC 2004). 2004.

[16] Dang H T. Overview of DUC 2005[C]//Proceedings of the DUC 2005 Workshop at HLT/EMNLP. 2005.

[17] Hovy E, Lin C Y, Zhou L, et al. Basic Elements[C]//Proceedings of the Available from hayden. isi. edu/BE. 2005.

Connectivity of Undirected Basic Element Network Constructed on Document Set of Topic-related Document

YANG Hua1, 2, JI Donghong3, CHEN Bo3,4

(1. School of Mathematics and Computer Science, Guizhou Normal University, Guiyang, 550001, China;2. College of Chinese Language and Literature, Wuhan University, Wuhan, 430072, China;3. School of Computer, Wuhan University, Wuhan, 430072, China;4. Department of Language & Literature, Hubei University of Art & Science, Xiangyang, Hubei 441053)

Based on relatively limited number of documents, undirected basic element networks (UBEN), in which nodes are header or modifier, are constructed. The connectivity of UBEN constructed on topic-related documents is investigated and the stopwords influence on connectivity is discussed. Furthermore, the connectivity difference between UBENs respectively constructed on topic-related documents and randomly-selected documents are contrasted. It is pointed out that connectivity of UBEN construced on topic-related documents are resulted from information fusion of the topic-related documents on some level, instead of from property of language only. This conclusion is of some significance for some natural language processing tasks, such as automatic summarization, information retrieval, etc.

topic-related document set; complex network, automated summarization, information fusion, information retrieval

楊華(1974—),博士后,教授,主要研究領(lǐng)域為自然語言處理。E-mail:yanghuastory@foxmail.com姬東鴻(1967—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理。E-mail:dhji@whu.edu.cn陳波(1976—),副教授,博士,主要研究領(lǐng)域為自然語言處理。E-mail:cb9928@foxmail.com

1003-0077(2015)04-0103-08

2013-06-27 定稿日期: 2014-02-17

國家自然科學(xué)基金項目 (61070243);國家社科基金重大項目(11&ZD189);貴州省高層次人才科研項目(TZJF-2010年048號);貴州省科教青年英才培養(yǎng)工程項目(“黔省專合字(2012)155號”);貴州師范大學(xué)博士科研啟動基金項目(11904-05032110011);中國博士后科學(xué)基金項目(2013M531730)

TP391

A

猜你喜歡
連接性基本要素連通性
偏序集及其相關(guān)拓?fù)涞倪B通性?
植被覆蓋度和降雨侵蝕力變化對小流域泥沙連通性的影響
中國自然保護(hù)地連通性的重要意義與關(guān)鍵議題
回到連接性:縣級融媒體中心建設(shè)的邏輯基礎(chǔ)
去2 度點(diǎn)后不滿足Pósa- 條件的圖的Z3- 連通性
為什么隔離在家讓人這么難受
亞洲航運(yùn)港口網(wǎng)絡(luò)連接性分析
詩化音樂 樂化詩歌——透過「音樂基本要素」分析「古詩新唱」多樣教學(xué)的實(shí)踐研究
基于職能履行角度對管理會計基本要素問題的探討
生活·思想·藝術(shù)