胡 泉,謝 芳,李 源,劉延申
(1.華中師范大學 物理學院,湖北 武漢 430079;2.湖北工業(yè)大學 計算機學院,湖北 武漢 430068;3.華中師范大學 計算機學院,湖北 武漢 430079)
基于復雜網(wǎng)絡(luò)理論的漢語復句關(guān)系詞搭配網(wǎng)的統(tǒng)計特征研究
胡 泉1,謝 芳2,李 源3,劉延申1
(1.華中師范大學 物理學院,湖北 武漢 430079;2.湖北工業(yè)大學 計算機學院,湖北 武漢 430068;3.華中師范大學 計算機學院,湖北 武漢 430079)
漢語復句關(guān)系詞是漢語復句在語表形式上的標記,是復句中標識關(guān)系的重要構(gòu)件,在現(xiàn)代漢語復句研究領(lǐng)域起著關(guān)鍵作用。漢語復句關(guān)系詞的搭配是指在漢語語篇中兩個或兩個以上的復句關(guān)系詞形成的句法共現(xiàn)形式,它不僅影響著分句的語義,而且影響著復句層次關(guān)系的劃分。該文利用復雜網(wǎng)絡(luò)的理論,基于已獲取的470個復句關(guān)系詞構(gòu)建了一個“現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)”。通過對該網(wǎng)絡(luò)中的平均路徑長度、聚集系數(shù)和度分布等特征的統(tǒng)計,用來發(fā)現(xiàn)漢語復句關(guān)系詞之間的搭配能力和搭配強度,這些結(jié)果能夠幫助復句層次關(guān)系和復句邏輯語義的自動識別。
漢語復句關(guān)系詞搭配;復雜網(wǎng)絡(luò);平均路徑長度;聚集系數(shù);度分布
復雜網(wǎng)絡(luò)是從全局的視角來研究復雜系統(tǒng)的新方法,無論網(wǎng)絡(luò)的結(jié)構(gòu)多么復雜,規(guī)模有多大,它都是采用節(jié)點和邊兩大基本要素來研究復雜的網(wǎng)絡(luò)系統(tǒng)[1]。
20世紀末,美國康奈爾(Cornell)大學的博士生D J Watts及其導師S H Strogatz于1998年6月在《Nature》上發(fā)表了題為Collectivedynarnicsof‘small-world’networks的文章[2]。該文章揭示了小世界特征,并進一步建立了一個小世界網(wǎng)絡(luò)模型。美國圣母(Notre Dame)大學物理系的A L Barabasi教授及其博士生R Albert于1999年10月在《Science》雜志上發(fā)表了一篇題為Emergenceofscalinginrandomnetworks的論文,進一步揭示復雜網(wǎng)絡(luò)的無標度特性,并建立相應的無標度網(wǎng)絡(luò)模型[3]。這兩篇文章的發(fā)表,使得復雜網(wǎng)絡(luò)開始成為數(shù)學、物理、生物,以及管理和工程技術(shù)人員等各個學科領(lǐng)域的學者們共同研究的新內(nèi)容、新方法,其研究方法還被稱為“網(wǎng)絡(luò)思維”[4-5]。“網(wǎng)絡(luò)思維”所關(guān)注的不是任何物理事物的本身,而是研究事物之間的聯(lián)系,或者說是事物內(nèi)部及其與外界的各種關(guān)系[1,4]。
復雜網(wǎng)絡(luò)的研究具有極強的交叉學科特征,目前,復雜網(wǎng)絡(luò)已經(jīng)在各個層面、各個領(lǐng)域都得到了廣泛的應用[1,5-6]。在復雜網(wǎng)絡(luò)的研究中,語言網(wǎng)絡(luò)作為一個新的研究方向,已經(jīng)悄然興起[7-9]。早先研究語言網(wǎng)絡(luò)的是Cancho和Sole于2001年采用復雜網(wǎng)絡(luò)的方法構(gòu)建了一個英文詞共現(xiàn)的語言網(wǎng)絡(luò)[10]。2004年韋洛霞和李勇等構(gòu)建了一個漢字網(wǎng)絡(luò),研究了該網(wǎng)絡(luò)的三度分隔與小世界效應問題[11];2005年又構(gòu)建了一個漢語詞組網(wǎng)絡(luò),研究了它的組織結(jié)構(gòu)與無標度特性[12];2007年劉知遠和孫茂松采用復雜網(wǎng)絡(luò)的方法構(gòu)建了一個漢語詞同現(xiàn)網(wǎng)絡(luò),研究了該網(wǎng)絡(luò)的小世界效應和無標度特性[13];2008年又構(gòu)建了一個漢語依存句法網(wǎng)絡(luò),研究了它的復雜網(wǎng)絡(luò)性質(zhì)[14]。從此許多語言學家和計算機工作者共同研究了一系列語言網(wǎng)絡(luò),這些研究表明: 人類語言也是人類復雜系統(tǒng)中的一種復雜網(wǎng)絡(luò),盡管各種不同語言網(wǎng)絡(luò)的構(gòu)造原理和構(gòu)造方法不同,但各種語言網(wǎng)絡(luò)都具有類似的統(tǒng)計特性[9-21]。
上述這些研究都是選取一種語言中的部分字和詞構(gòu)造一個復雜網(wǎng)絡(luò),帶有一定的驗證性,均未涉及到某種完整的詞庫或者句子。目前,中文信息處理正面臨著句處理和篇章處理的研究難題,在“句處理”方面,主要分為單句處理和復句的處理。現(xiàn)在研究漢語單句信息處理的成果較多,然而復句是連接單句與篇章的橋梁,是漢語語法的重要實體單位,它表達的語義信息豐富而復雜,因而在信息處理領(lǐng)域具有更加重要的研究價值[22]。
關(guān)系詞是復句、句群或語篇中用來連接句子表明邏輯關(guān)系的詞語,是句子間的邏輯語義關(guān)系的重要標志之一,在句法結(jié)構(gòu)分析中具有形式上和語義上的雙重作用[22-23]。
從1957年英國語言學家Firth正式將搭配(collocation)作為語言學術(shù)語提出至今,經(jīng)過近60年的研究積累和完善,搭配已發(fā)展為一個重要的語言學概念和研究領(lǐng)域[24]。
漢語復句關(guān)系詞的搭配是漢語語篇中兩個或兩個以上的復句關(guān)系詞形成的句法共現(xiàn),它是復句中用來聯(lián)結(jié)分句、標明分句間語義關(guān)系并形成復句句式的標記成分,是分句間句法關(guān)聯(lián)和語義關(guān)系的形式標志。漢語復句關(guān)系詞的搭配不僅影響著分句的語義,而且影響著復句層次關(guān)系的劃分[25]。研究發(fā)現(xiàn),漢語篇章中絕大多數(shù)關(guān)系詞都具有搭配特性(占86%以上),有些關(guān)系詞還只能以搭配的形式存在[26]。
漢語關(guān)系詞搭配的研究具有很高的應用價值: 關(guān)系詞搭配的研究在對外漢語教學、機器翻譯、信息檢索、詞義消岐和情感分析等各個方面的應用都具有非常重要的意義[25-27]。
本文基于復雜網(wǎng)絡(luò)的理論和研究方法對漢語復句關(guān)系詞的搭配關(guān)系進行研究,在 “漢語復句關(guān)系詞本體知識庫”的基礎(chǔ)上[28],抽取其中470個搭配關(guān)系詞構(gòu)建了一個現(xiàn)代漢語“復句關(guān)系詞搭配網(wǎng)”,并對該網(wǎng)絡(luò)的平均路徑長度、聚集系數(shù)和度分布等三個基本統(tǒng)計特性進行分析研究。研究表明: 現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)不僅是一個典型的復雜網(wǎng)絡(luò),而且這些統(tǒng)計特性反映了復句關(guān)系詞的搭配能力和搭配對象之間的強弱關(guān)系,它們是深入研究現(xiàn)代漢語復句關(guān)系詞、復句層次關(guān)系和復句邏輯語義的自動識別與處理的重要基礎(chǔ)[25-26]。
定義1 在漢語中,能構(gòu)成句法搭配的關(guān)系詞稱為“搭配關(guān)系詞”(或稱“搭配關(guān)系標記”),如“不但…而且…”是一組搭配關(guān)系詞,“只有…才能…”和“除非…否則…”都是搭配關(guān)系詞;在關(guān)系詞之間的搭配行為稱作“關(guān)系詞搭配”(或稱“關(guān)系標記搭配”),研究“關(guān)系詞搭配”,即發(fā)掘關(guān)系詞搭配的機制與規(guī)律;設(shè)wi、wj∈W,W={wj|wj是復句關(guān)系詞,j∈N},若D={
定義2 搭配關(guān)系詞對
一個實際的網(wǎng)絡(luò)可以形式化抽象為一個由節(jié)點集V和邊集E組成的圖形,即G=(V,E),其中,V中的元素稱為節(jié)點(vertex),節(jié)點數(shù)為N=|V|;E中的元素稱為邊(edge),邊數(shù)為M=|E|;而且E中的每條邊都對應有V中的一對節(jié)點(x,y)。[1,29-30]
通過對文獻[28]所介紹的漢語“復句關(guān)系詞本體知識庫”中的470個搭配關(guān)系詞進行分析、研究,構(gòu)造了圖1所示的現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)。
圖1 470個現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)的總體結(jié)構(gòu)圖
圖2 圖1中關(guān)系詞節(jié)點“接著”的局部放大圖
圖1中,以搭配關(guān)系詞為節(jié)點,以關(guān)系詞的搭配關(guān)系為連接邊。根據(jù)定義2,任何一對關(guān)系詞的搭配關(guān)系,都具有前呼標和后應標,所以它們是一種有向網(wǎng)絡(luò),每條邊都是由前呼標指向后應標。例如,“不但”與“而且”是一對搭配關(guān)系詞,“不但”是前呼標,“而且”是后應標,于是網(wǎng)絡(luò)中的連線是由“不但”指向“而且”,即“不但”-→“而且”。圖1包含有470個漢語復句搭配關(guān)系詞的所有節(jié)點,以及這些節(jié)點之間所具有的3 958條邊,這些節(jié)點和邊所構(gòu)建的網(wǎng)絡(luò)是一個非連通的復雜網(wǎng)絡(luò)。
由于許多關(guān)系詞既可以是前呼標,又可以是后應標,例如,關(guān)系詞“但是”,當其作為“前呼標”時,它可以與“反”、“反倒”、“反而”等12個“后應標”搭配;而當關(guān)系詞“但是”作為“后應標”時,它又可以和“倒”、“倒是”、“即便”等28個“前呼標”搭配,所以在圖1中,許多關(guān)系詞節(jié)點既有入度(箭頭指向該節(jié)點),又有出度(由它出發(fā)指向其他關(guān)系詞節(jié)點)。例如,圖2為圖1中關(guān)系詞節(jié)點“接著”的放大圖,由圖2可以看出,關(guān)系詞“接著”既有12個入度,又有28個出度。
通過對圖1的分析研究,不僅可以深入挖掘漢語復句關(guān)系詞的搭配能力和搭配強度,對于進一步研究復句層次結(jié)構(gòu)的自動識別,以及復句邏輯語義的自動分析均具有重要的應用價值,而且對于復雜網(wǎng)絡(luò)的本體和應用研究也將產(chǎn)生促進作用。
定義3 平均路徑長度(averagepathlength): 復雜網(wǎng)絡(luò)中,兩個節(jié)點i和j之間的距離dij,定義為該兩個節(jié)點之間的最短路徑上的邊數(shù);網(wǎng)絡(luò)中任意兩個節(jié)點之間的距離的最大值叫做網(wǎng)絡(luò)的直徑(diameter),記作D,即
(1)
實際上,D為網(wǎng)絡(luò)中任意兩個節(jié)點的最短路徑長度。網(wǎng)絡(luò)的平均路徑長度,定義為任意兩個節(jié)點之間的平均值,即
(2)
其中,n為整個網(wǎng)絡(luò)的節(jié)點數(shù)目[1,5]。
表1 圖1中部分節(jié)點的最短路徑長度
續(xù)表
通過對圖1進行統(tǒng)計分析,在現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)圖中,網(wǎng)絡(luò)的直徑D=10,表1給出了圖1中部分節(jié)點的最短路徑長度D。由表1可以看出,D為10的路徑有多條,例如,關(guān)系詞節(jié)點“但是”到“不然”、“從而”、“而不是”、“故”和“結(jié)果是”等關(guān)系詞節(jié)點的最短路徑長度均為10。
根據(jù)式(1)和式(2),由圖1可以計算出復句關(guān)系詞搭配網(wǎng)中的總路徑長度如式(3)所示。
(3)
由于圖1的節(jié)點數(shù)是n=470,所以由式(2)得到該網(wǎng)絡(luò)的平均路徑長度如式(4)所示。
(4)
現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)的路徑長度和平均路徑長度反映了兩個關(guān)系詞之間的距離。例如,從表1可以看出,關(guān)系詞“但是”與關(guān)系詞“便是”之間的距離是7,即“但是”→“卻”→“不料”→“倒”→“基本上”→“是”→“不是”→“便是”。然而關(guān)系詞“但是”與“不料”、“倒”、“基本上”、“是”、“不是”和“便是”等六個關(guān)系詞均不搭配,它們只是一種間接關(guān)系,即關(guān)系詞“但是”與關(guān)系詞“卻”搭配,關(guān)系詞“卻”與關(guān)系詞“不料”搭配,關(guān)系詞“不料”與關(guān)系詞“到”搭配,關(guān)系詞“到”與關(guān)系詞“基本上”搭配,關(guān)系詞“基本上”與關(guān)系詞“是”搭配,關(guān)系詞“是”與關(guān)系詞“不是”搭配,關(guān)系詞“不是”與關(guān)系詞“便是”搭配。如果關(guān)系詞“但是”與關(guān)系詞“便是”出現(xiàn)在同一個復句中時,它們可能會跨越多個復句的層次。
現(xiàn)代漢語復句中,兩個關(guān)系詞之間的距離體現(xiàn)了復句關(guān)系詞的離析度,文獻[25]和文獻[31]討論了離析度在復句關(guān)系和層次自動分析中的意義。所以,現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)中的路徑長度和平均路徑長度是進一步研究計算機自動識別復句層次關(guān)系的一種基本依據(jù)。
(5)
顯然,Ci=[0,1],即0≤Ci≤1;當ki=1時,Ei=0,只有當ki>1時才有可能Ei>0。
設(shè)整個網(wǎng)絡(luò)的節(jié)點數(shù)為n,則整個網(wǎng)絡(luò)的聚集系數(shù)C即為所有節(jié)點的聚集系數(shù)Ci(其中i=1,2,3,…,n)的平均值[1,5]。即:
(6)
式(6)中0≤C≤1 。如果當且僅當網(wǎng)絡(luò)中所有的節(jié)點均為孤立節(jié)點時,則C=0,這時整個網(wǎng)絡(luò)中沒有任何連接邊;如果當且僅當整個網(wǎng)絡(luò)中任何兩個節(jié)點都直接相連,則C=1 ,這樣的網(wǎng)絡(luò)稱為“全局耦合網(wǎng)絡(luò)”[1,5]。
在現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)中,聚集系數(shù)可以用來度量一個關(guān)系詞節(jié)點與其相鄰的任意關(guān)系詞節(jié)點之間產(chǎn)生搭配關(guān)系的可能性和搭配強度。
由定義4和式(5)可知,圖1中的470個搭配關(guān)系詞構(gòu)成了470個子網(wǎng)絡(luò),圖3展示了圖1中搭配關(guān)系詞節(jié)點“但是”與其可能搭配的關(guān)系詞節(jié)點之間所構(gòu)成的子網(wǎng)。從圖3可以看出,該子網(wǎng)中有k73=k“但是”=40個的節(jié)點數(shù)與節(jié)點“但是”相連,這40個節(jié)點之間存在的實際邊數(shù)是E73=E“但是”=74條。于是搭配關(guān)系詞“但是”節(jié)點的聚集系數(shù)如式(7)所示。
(7)
圖3 圖1中搭配關(guān)系詞節(jié)點“但是”與其可能搭配的40個關(guān)系詞節(jié)點之間所構(gòu)成的子網(wǎng)圖
表2給出了圖1中部分子網(wǎng)的節(jié)點數(shù)ki、實際邊數(shù)Ei和相應的聚集系數(shù)Ci的值。
表2中,i為圖1中關(guān)系詞節(jié)點(子網(wǎng))的編號,Ni為關(guān)系詞子網(wǎng)名,ki為相應子網(wǎng)的節(jié)點數(shù),Ei為該子網(wǎng)中的實際邊數(shù),Ci為該子網(wǎng)相應的聚集系數(shù)值。
根據(jù)式(6),在這n=470個節(jié)點的“現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)”中,整個網(wǎng)絡(luò)的聚集系數(shù)C就是所有關(guān)系詞節(jié)點i(i=1,…,470)的聚集系數(shù)Ci的平均值,即
(8)
表2 圖1中部分子網(wǎng)的節(jié)點數(shù)ki、實際邊數(shù)Ei和相應的聚集系數(shù)Ci的值
續(xù)表
在圖1所示的現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)中,其平均路徑長度為2.291 9,平均聚集系數(shù)為0.175 53,這些數(shù)據(jù)說明圖1的現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)具有典型的“小世界效應”[1]。它體現(xiàn)了漢語“復句關(guān)系詞本體知識庫”中的470個搭配關(guān)系詞之間的搭配關(guān)系都具有較好的搭配能力和大小不同的搭配強度。
定義5 節(jié)點“平均度”: 在復雜網(wǎng)絡(luò)中,所有節(jié)點i的度ki的平均值就叫做該網(wǎng)絡(luò)的節(jié)點“平均度”,用
(9)
于是,復雜網(wǎng)絡(luò)中節(jié)點的度的分布情況就可以采用度分布函數(shù)P(K)來刻畫[1,5]。
定義6 度分布函數(shù)P(K): 設(shè)網(wǎng)絡(luò)中一個隨機選定的節(jié)點的邊的條數(shù)為N,該節(jié)點的度為k,于是度分布函數(shù)如式(10)所示。
(10)
式(10)中,K表示該節(jié)點的度的參數(shù);P(k)的含義是: 網(wǎng)絡(luò)中任意一個隨機選定的節(jié)點i的度,恰好等于k的概率[1,5]。
在有向網(wǎng)絡(luò)中,一個節(jié)點的度可以劃分為“入度”(in-degree)和“出度”(out-degree)兩種。所謂節(jié)點的入度是指從其他節(jié)點指向該節(jié)點的邊的數(shù)目;所謂節(jié)點的出度是指該節(jié)點指向其他節(jié)點的邊的數(shù)目。
由圖1可以統(tǒng)計出470個關(guān)系詞節(jié)點的總?cè)攵戎凳? 979和總出度值是1 979,合計度數(shù)是3 958,這些度值就是網(wǎng)絡(luò)中的實際邊數(shù)。
根據(jù)式(9),圖1中470個關(guān)系詞節(jié)點i的平均度
(11)
在現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)中,平均度
復雜網(wǎng)絡(luò)中的度分布概率刻畫了該復雜網(wǎng)絡(luò)的“無尺度”現(xiàn)象,利用式(10)可以計算出“現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)”中470個節(jié)點的度分布概率,這些概率值進一步刻畫了圖1是一種典型的“無尺度語言網(wǎng)絡(luò)”。表3給出了圖1中部分復句關(guān)系詞節(jié)點的度分布數(shù)據(jù)及其度分布概率值,圖4給出了部分節(jié)點的概率分布情況。
圖4 圖1中部分節(jié)點的度的概率分布圖
iNikip(ki)iNikip(ki)iNikip(ki)iNikip(ki)35不看10.0021358不知10.0021381倒不如40.00851104反過來50.0106436不可10.0021359才300.0638382倒不如說30.00638105反正40.0085137不料60.0127760才能50.0106483倒反10.00213106非但150.0319138不論100.0212861誠然50.0106484倒是110.02340107否則270.0574539不能30.0063862除非60.0127785的話160.03404108剛30.0063840不然120.0255363除了130.0276686都260.05532109跟著20.0042641不如30.0063864出于10.0021387多虧50.01064110更160.0340442不如說30.0063865此后10.0021388而210.04468111更不必說70.0148943不是90.0191566此外20.0042689而不是50.01064112更不要說50.0106444不是說20.0042667從而20.0042690而后70.01489113更不用說40.0085145不說40.0085168初期10.0021391而況10.00213114更何況90.0191546不特40.0085169但520.1106492而且270.05745115更加20.0042647不問30.0063870但凡20.0042693而是20.00426116更是160.0340448不要20.0042671但凡是20.0042694而已10.00213117更為重要的50.0106449不要說70.0148972但卻30.0063895爾后60.01277118更重要的50.01064
表3中,i為圖1中關(guān)系詞節(jié)點的編號,Ni為該節(jié)點名,ki為該節(jié)點的度,p(ki)為該關(guān)系詞節(jié)點的度分布概率值。
本文基于復雜網(wǎng)絡(luò)的理論與研究方法對漢語復句關(guān)系詞本體知識庫中470個搭配關(guān)系詞進行分析
研究,構(gòu)建了一個現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò),得到470個節(jié)點間的最短路徑長度、網(wǎng)絡(luò)的聚集系數(shù)和度分布等三大基本統(tǒng)計值,這些統(tǒng)計值是復句關(guān)系詞搭配能力和搭配對象之間的關(guān)系,以及它們的搭配強度的反映。通過對現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)的三大統(tǒng)計特征的分析研究,可進一步探討復句的層次關(guān)系和復句邏輯語義關(guān)聯(lián)的特點與規(guī)律,是進一步研究復句層次關(guān)系和復句邏輯語義自動識別、自動處理的重要基礎(chǔ)與理論依據(jù)。
現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)是基于漢語“復句關(guān)系詞本體知識庫”而構(gòu)建的,它具有典型的動態(tài)性,所以從分類模型角度分析,它屬于動態(tài)網(wǎng)絡(luò);而從搭配角度分析,它是共現(xiàn)網(wǎng)絡(luò);從搭配關(guān)系詞本體角度分析,它是典型的語義網(wǎng)絡(luò);從搭配關(guān)系詞的前呼和后應關(guān)系角度分析,它是一種依存關(guān)系網(wǎng)絡(luò)[7]。
漢語復句是連接分句與篇章的橋梁,是漢語語法的重要實體單位,它表達的語義信息豐富而復雜,所以研究復句和復句關(guān)系詞的計算機自動識別與處理顯得更為重要、更加迫切,然而這又是非常艱難的研究任務(wù)。本文所研究的現(xiàn)代漢語復句關(guān)系詞搭配網(wǎng)絡(luò)的平均路徑長度、聚集系數(shù)、度分布等統(tǒng)計特征,體現(xiàn)了現(xiàn)代漢語復句關(guān)系詞之間的搭配能力和搭配強度,文獻[25]指到,搭配能力和搭配強度是進一步研究復句層次關(guān)系和復句邏輯語義自動識別的基礎(chǔ)。所以,在本文的研究基礎(chǔ)上,將進一步研究現(xiàn)代漢語復句關(guān)系詞搭配依存網(wǎng)絡(luò),為深入研究現(xiàn)代漢語復句層次關(guān)系和復句邏輯語義的計算機自動識別與自動處理奠定基礎(chǔ)。
[1] 汪小帆,李翔,陳關(guān)榮編著.復雜網(wǎng)絡(luò)理論及其應用[M].北京: 清華大學出版社,2006: 9-29.
[2] D J Watts,S H Strogatz.Collective dynamics of‘small- world’networks[J]. Nature.1998,393(6684): 440-442 .
[3] A L Barabasi,R Albert.Emergence of scaling in random networks[J].Science.1999, 286(5439): 327-335.
[4] Barabási A L. Linked: The New Science of Networks. Massachusetts[M].Persus Publishing, 2002: 223-256.
[5] 周濤,柏文潔,汪秉宏等.復雜網(wǎng)絡(luò)研究概述[J].系統(tǒng)工程理論與實踐,2005,34(1): 31-36.
[6] 范超,王厚峰.社交網(wǎng)絡(luò)中的社團結(jié)構(gòu)挖掘[J].中文信息學報,2014,28(1): 56-63.
[7] 韓普,王東波,路高飛,等.語言網(wǎng)絡(luò)研究進展[J].中文信息學報,2014,28(1): 9-18.
[8] Amancio D R,Antiqueira L Pardo T A S,etl.Complex networks analysis of manual and machine translations[J].International Journal of Modern Physics C.2008,19(4): 583-598.
[9] 劉海濤.漢語語義網(wǎng)絡(luò)的統(tǒng)計特征[J].科學通報,2009,54(14): 2060-2064.
[10] Cancho R F I,Sole R V.The Small World of Human Langquage[C]//Proceedings of the the Royal Society of London Series B-Biological Sciences,2001(1482): 2261-2265.
[11] 韋洛霞,李勇,李偉,等.漢字網(wǎng)絡(luò)的3度分隔與小世界效應[J].科學通報,2004,49(24):2615-2616.
[12] 韋洛霞,李勇,康世勇,等.漢語詞組網(wǎng)的組織結(jié)構(gòu)與無標度特性[J].科學通報,2005,50(15): 1575-1579.
[13] 劉知遠,孫茂松.漢語詞同現(xiàn)網(wǎng)絡(luò)的小世界效應和無標度特性[J].中文信息學報,2007,21(6):52-58.
[14] 劉知遠,鄭亞斌,孫茂松.漢語依存句法網(wǎng)絡(luò)的復雜網(wǎng)絡(luò)性質(zhì)[J].復雜系統(tǒng)與復雜性科學,2008,5(2): 37-45.
[15] 劉海濤.漢語句法網(wǎng)絡(luò)的復雜性研究[J].復雜系統(tǒng)與復雜性科學.2007,4(4): 38-44.
[16] 趙鵬,蔡慶生,王清毅,等.一種基于復雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J].模式識別與人工智能,2007,20(6): 827-831.
[17] 劉海濤.語言復雜網(wǎng)絡(luò)的聚類研究[J].科學通報,2010,55(27-28): 2667-2674.
[18] 陳芯瑩,劉海濤.漢語句法網(wǎng)絡(luò)的中心節(jié)點研究[J].科學通報,2011,56(10): 726-731 .
[19] Yu S,Liu H,Xu C.Statistical properties of Chinese phonemic networks[J].Physics A.2011,390(7): 1370-1380.
[20] 趙輝,劉懷亮,范云杰.復雜網(wǎng)絡(luò)理論在中文文本特征選擇中的應用研究[J].現(xiàn)代圖書情報技術(shù),2012,224(9): 23-28.
[21] 孫茂松,劉 挺,姬東鴻,等.語言計算的重要國際前沿[J].中文信息學報,2014,28(1):1-8.
[22] 邢福義.漢語復句研究[M].北京: 商務(wù)印書館,2001: 26-37.
[23] 魯松,白碩,李素建,等.漢語多重關(guān)系復句的關(guān)系層次分析[J].軟件學報,2001,12(7): 987-995.
[24] 孫茂松,王昌寧,方捷.漢語搭配定量分析初探[J].中國語文,1997,256(1): 29-38.
[25] 姚雙云.復句關(guān)系標記的搭配研究[M].武漢: 華中師范大學出版社.2008: 75-180.
[26] 姚雙云,胡金柱,等.關(guān)聯(lián)詞搭配的自動發(fā)現(xiàn)[J].計算機應用研究,2011,28(12): 4426-4428,4432.
[27] 魯松,宋柔.漢英機器翻譯中描述型復句的關(guān)系識別與處理[J].軟件學報,2001,12(1): 83-93.
[28] 胡金柱,吳鋒文等.漢語復句關(guān)系詞庫的建設(shè)及其利用[J].語言科學,2010,(2): 133- 142.
[29] Huanshen Jia,Haixing Zhao.Spanning Trees in a Class of Four Regular Small World Network Computer Science and Application[J].2014,4(4): 43-49.
[30] Ke Zhang,Haixing Zhao,F(xiàn)axu Li,et al.A Kind of Deterministic Small-World Networks Model and Analysis of Their Characteristics[J].2014,4(4): 27-31.
[31] 劉云.漢語虛詞知識庫的建設(shè)[M].武漢: 華中師范大學出版社.2009: 204-302.
[32] Hu Quan,Liu yanshen,et al. Research on the Automatic Identification method of the Collocation of Relative Word in Chinese Complex Sentences[C]//Proceedings of the 2013 3rd International Conference on Advanced Materials and Information Technology Processing, Los Angeles, CA, USA.2013,10: 1-2.
Statistical Analysis of the Collocation Networks of Relative Words in Chinese Complex Sentences Based on Complex Network Theory
HU Quan1, XIE Fang2, LI Yuan3, LIU Yanshen1
(1. College of Physical Science and Technology,Central China Normal University, Wuhan, Hubei 430079, China;2. College of Computer, Hubei University of Technology, Wuhan, Hubei 430068, China;3. College of Computer, Central China Normal University, Wuhan, Hubei 430079, China)
The relative words are markers in Chinese Complex Sentences, indicating the relationships between the clauses. The collation relationship of relative words means the co-occurrence form of one or more relative words in one complex sentence. It can influence the semantic and gradation relationship of the clauses. This paper constructs a Collation Network of relative words of Chinese Complex Sentences with 470 relative words based on the complex networks. We study the characteristics of average length of path, clustering coefficient, and distribution of degree depending on the collation network. These results can be applied to analyze the collation strength of relative words, which might help identify the gradation relationship and logic semantics of complex sentence automatically.
the collocation of relative words of Chinese complex sentences;complex networks;average path length;clustering coefficient; distribution of degree
胡泉(1980—),博士,講師,主要研究領(lǐng)域為計算機軟件工程和中文信息處理。E-mail:123750955@qq.com謝芳(1981—),博士,講師,主要研究領(lǐng)域為業(yè)務(wù)流程建模、自然語言處理。E-mail:33460694@qq.com李源(1972—),博士,副教授,主要研究領(lǐng)域為計算機軟件工程和中文信息處理。E-mail:yuanli@mail.ccnu.edu.cn
1003-0077(2016)04-0056-09
2014-03-08 定稿日期: 2015-01-30
國家社科青年基金(13CYY037);教育部社科基金(14YJA740020);國家自然科學基金(61177063)
TP391
A