演化的漢語同現(xiàn)網(wǎng)絡(luò)的Laplacian譜分析

2021-12-17 09:18:50張子涵

華中師范大學學報(自然科學版) 2021年6期

張子涵，梁偉

(河南理工大學數(shù)學與信息科學學院，河南焦作 454003)

人類語言是一個經(jīng)過長期演化而形成的復(fù)雜系統(tǒng)[1].語言的許多重要特性都可以利用復(fù)雜網(wǎng)絡(luò)來描述.近年來，語言網(wǎng)絡(luò)成為復(fù)雜網(wǎng)絡(luò)研究的熱點問題之一，它為我們進一步了解語言的特性提供了新思路和新方法[2-3].

譜分析方法能夠揭示大規(guī)模且復(fù)雜環(huán)境下相互作用的實體之間的全局結(jié)構(gòu)模式[4].實踐經(jīng)驗表明，譜分析方法可能更適合于缺乏規(guī)律性的數(shù)據(jù)[5].近年來，在社團探測、互聯(lián)網(wǎng)、生物網(wǎng)和社會網(wǎng)絡(luò)等方面，利用譜分析方法來研究網(wǎng)絡(luò)的結(jié)構(gòu)信息已經(jīng)引起了越來越多的研究者的關(guān)注[5-8].

在語言網(wǎng)絡(luò)鄰接矩陣特征譜的研究方面，已經(jīng)取得了非常豐碩的成果.2007年，Cancho等在語法網(wǎng)絡(luò)中利用譜分析法將同類的單詞進行了聚類[9].2009年，Mukherjee等研究了語音網(wǎng)絡(luò)的特征譜，發(fā)現(xiàn)譜密度中間呈三角形分布，而尾部卻服從冪律分布[4].2010年，Choudhury和Chatterjee研究了英語、法語等詞同現(xiàn)網(wǎng)絡(luò)的特征譜密度，發(fā)現(xiàn)它們都具有三角形分布[10].2015年，筆者研究了由詩歌構(gòu)建的1 010個中、英文同現(xiàn)網(wǎng)絡(luò)的特征譜密度，發(fā)現(xiàn)在1 007個網(wǎng)絡(luò)中出現(xiàn)了“M”-型分布，而其它3個字網(wǎng)絡(luò)則呈三角形分布[11-12].2016-2017年，筆者研究了由四種文學體裁構(gòu)成的中、英文同現(xiàn)網(wǎng)絡(luò)的特征譜，并比較了它們的異同[13-14].近年來，又研究了演化的漢語網(wǎng)絡(luò)的統(tǒng)計參數(shù)之間的關(guān)系，發(fā)現(xiàn)特征譜的行為不會隨著時間的變化而改變[15].最近，我們研究了11個不同歷史時期的漢語網(wǎng)絡(luò)的特征譜，并得到了一些有趣的結(jié)論[16].

鄰接矩陣的特征譜包含了網(wǎng)絡(luò)的局部信息，而Laplacian特征譜卻反映了網(wǎng)絡(luò)的全局屬性[17].對于一些難以計算或估計的網(wǎng)絡(luò)而言，Laplacian譜可以提取一些有用且重要的信息[18].如今，Laplacian譜在解決實際問題中已經(jīng)得到了非常好的應(yīng)用[7，17-21].

但是，在語言網(wǎng)絡(luò)中對Laplacian譜的研究卻很少.2002年，Belkin和Goldsmith利用特征向量分解法研究了英語和法語網(wǎng)絡(luò)模型的Laplacian矩陣的特征向量[22].除了文獻[22]之外，沒有發(fā)現(xiàn)語言網(wǎng)絡(luò)中有關(guān)Laplacian特征譜的其它研究成果.演化的漢語網(wǎng)絡(luò)的Laplacian譜有什么特性？這些特性是否會隨著時間的演化而改變呢？演化的漢語網(wǎng)絡(luò)的鄰接譜和Laplacian譜之間有何異同？通過研究演化的漢語網(wǎng)絡(luò)的Laplacian譜能否得出有意義的結(jié)論呢？本文嘗試解決這些有趣的問題.

本文基于不同大小和類型的語料庫，建立了演化的漢語同現(xiàn)網(wǎng)絡(luò)，并利用Laplacian譜分析法對這些網(wǎng)絡(luò)進行了系統(tǒng)的研究.

1 基本概念

如果網(wǎng)絡(luò)包含n個節(jié)點，那么它的鄰接矩陣A定義為(aij)n×n[23]，其中如果節(jié)點i、j之間有邊相連則aij=1，否則aij=0.ki=∑jaij為節(jié)點i的度.設(shè)

D=diag(k1，k2，…，kn)

是一個對角線上元素為節(jié)點度的對角矩陣，則矩陣

L=D-A

稱為該網(wǎng)絡(luò)Laplacian矩陣[24].λ是L的特征值，如果存在一個n-維非零向量x，使得

Lx=λx.

L的所有特征值構(gòu)成的集合稱為Laplacian譜.對于無向網(wǎng)絡(luò)而言，L是實對稱矩陣，因此它具有n個(可能各不相等)實特征值，并且對應(yīng)的n個特征向量是相互正交的[23].它的最小特征值λ=0，其它特征值全為正[25].因此，可以將L的特征值排序為：

λ1≥λ2≥…≥λn-1≥λn=0.

譜密度[17]定義為

其中，

2 主要結(jié)論

在字(詞)同現(xiàn)網(wǎng)絡(luò)中，節(jié)點表示字(詞)，若兩個字(詞)至少在一個句子里連續(xù)出現(xiàn)，則它們之間用一條邊相連[15].文獻[15]研究了演化的現(xiàn)代漢語網(wǎng)絡(luò)的鄰接矩陣的特征譜.鄰接矩陣和Laplacian 矩陣的特征譜不同.Laplacian譜反映了圖的全局屬性，而鄰接譜卻只包含了其局部屬性[17].演化的漢語網(wǎng)絡(luò)的Laplacian譜有什么特性？這些特性是否會隨著時間的演化而改變呢？演化的漢語網(wǎng)絡(luò)的鄰接譜和Laplacian譜之間有何異同？通過研究這些網(wǎng)絡(luò)的Laplacian譜能否得出有意義的結(jié)論呢？為了解決這些問題，本文分別從散文、小說、科普和新聞中隨機選取了200篇中文文章，它們也是文獻[13，15]中的基本語料庫.10、30、50、100、150和200篇文章分別合在一起，構(gòu)建了12個字、詞同現(xiàn)網(wǎng)絡(luò)，分別用Net10、Net30、Net50、Net100、Net150和Net200 表示.在這些網(wǎng)絡(luò)中，前者中的文本是后者的子集，即Net10?Net30?Net50?Net100?Net150?Net200.它們可以看作是演化的漢語語言網(wǎng)絡(luò)[15].我們計算了這些網(wǎng)絡(luò)的Laplacian譜，并在表1中列出了部分數(shù)據(jù).

表1 演化的漢語字、詞網(wǎng)絡(luò)的統(tǒng)計參數(shù)Tab.1 Statistical parameters of the evolving Chinese character and word co-occurrence networks

2.1 譜密度

圖1 演化的漢語網(wǎng)絡(luò)的譜密度Fig.1 Spectral densities of the evolving Chinese co-occurrence networks

在字網(wǎng)絡(luò)中，52.72(Net10)>41.16(Net30)>34.43(Net50)>32.84(Net100)>31.98(Net150)>26.03(Net200)；在詞網(wǎng)絡(luò)中，74.86(Net10)>71.98(Net30)>68.76(Net50)>64.20(Net100)>61.68(Net150)>41.98(Net200).顯然，隨著網(wǎng)絡(luò)規(guī)模的增加，[0，3]上ρ(λ)的和逐漸減小.

ER隨機圖[26]、WS小世界網(wǎng)絡(luò)[27]和BA無標度網(wǎng)絡(luò)[28]的鄰接矩陣和Laplacian矩陣的譜密度之間有何異同？ER圖的兩個譜密度都趨于Wigner半圓形分布[8，29].對于WS網(wǎng)絡(luò)，隨著p的增加(p為邊相連的概率)，鄰接矩陣的ρ(λ)趨于半圓形分布[8]，而Laplacian的峰值卻接近于平均度[29].在BA網(wǎng)絡(luò)中，鄰接矩陣的ρ(λ)關(guān)于0對稱且呈三角形分布[8，29-30]；Havel-Hakimi無標度網(wǎng)絡(luò)的Laplacian譜的最大值偏向于較小的特征值[29].顯然，我們網(wǎng)絡(luò)的ρ(λ)與無標度網(wǎng)絡(luò)是相似的.BA網(wǎng)絡(luò)是增長和優(yōu)先連接共同作用的結(jié)果[28].演化的漢語網(wǎng)絡(luò)中也存在增長和優(yōu)先連接，且度較大的節(jié)點為“的”“了”和“是”.這可能是漢語網(wǎng)絡(luò)與BA網(wǎng)絡(luò)的ρ(λ)相類似的主要原因.

研究發(fā)現(xiàn)，漢語字(詞)網(wǎng)絡(luò)的鄰接矩陣的ρ(λ)呈三角形(“M”-型)分布[15]；如果網(wǎng)絡(luò)規(guī)模足夠大，那么單個網(wǎng)絡(luò)的ρ(λ)的最大值出現(xiàn)在λ=0處，在λ=±1處有兩個小的高峰，并且在λ=0的兩側(cè)幾乎是對稱的[15].顯然，Laplacian矩陣和鄰接矩陣的ρ(λ)是不同的，產(chǎn)生這些差異的原因是什么呢？學者Chung等指出，不同的矩陣可以產(chǎn)生不同的特征譜分布圖[19].Laplacian矩陣的特征值是正的，但是鄰接矩陣的有正有負，這可能是造成差異的原因之一.為了便于比較鄰接譜和Laplacian譜的異同，在表2中對這些異同進行了歸納.

2.2 譜排序

字、詞網(wǎng)絡(luò)的所有特征值的范圍分別為：

0～396.01(Net10)，0～936.01(Net30)，0～1447.00(Net50)，0～1770.00(Net100)，0～1919.00(Net150)，0～2675.00(Net200)；

0～511.01(Net10)，0～1590.00(Net30)，0～3069.00(Net50)，0～4522.00(Net100)，0～5355.00(Net150)，0～9701.00(Net200)．

顯然，最小特征值為0，最大特征值λ1隨著網(wǎng)絡(luò)規(guī)模的增加而變大.另外，字網(wǎng)絡(luò)的λ1的值小于相應(yīng)的詞網(wǎng)絡(luò)的值.

為了更好地研究Laplacian譜的特性，將每個網(wǎng)絡(luò)的所有特征值進行了降序排列，并利用Matlab繪制了λi與i的關(guān)系(見圖2)，其中特征值λi按降序排列；左側(cè)小圖是雙對數(shù)坐標下非常大的特征值的排序圖，右圖是半對數(shù)坐標下較大特征值的排序圖；最后四個圖是半對數(shù)坐標下中間部分特征值的排序圖.

大的特征值是如何分布的呢？研究發(fā)現(xiàn)非常大的特征值和其它較大的特征值的分布完全不同.因此，在圖2的每個大圖中截取了具有明顯變化的部分，并制作了兩個小圖(見圖2的插圖)，其中左邊是前9或11大特征值(不包括λ1)在雙對數(shù)坐標下的排序圖，而右邊是從第11或13至100的特征值(一般隨著網(wǎng)絡(luò)規(guī)模的增加，選取的特征值的數(shù)量也會增加)在半對數(shù)坐標下的排序圖.圖2表明，前9或11大特征值的分布可以用雙對數(shù)坐標下的一條直線來擬合(見圖2的左側(cè)插圖)，即

圖2 網(wǎng)絡(luò)的譜排序圖 Fig.2 Spectral ordering graph of the network

λi∝i-α，i=2，…，10或12，

其中，α>0，并且斜率-α的值有如下排序.

字網(wǎng)絡(luò)：

-0.27(Net200)>-0.29(Net100)>-0.31 (Net50)>-0.32(Net30，Net150)>-0.48 (Net10)；

詞網(wǎng)絡(luò)：

-0.52(Net50)>-0.53(Net100)>-0.56(Net30)>-0.58(Net200)>-0.59(Net10)>-0.62(Net150).

顯然，隨著網(wǎng)絡(luò)規(guī)模的增加，字網(wǎng)絡(luò)的斜率一般也會隨之增大，但是詞網(wǎng)絡(luò)并沒有顯示出單一的增長或下降趨勢.對于從第11或13到100的特征值，它們在半對數(shù)坐標中呈線性分布(見圖2的右側(cè)插圖)，即

λi∝e-β i， 11≤i≤100，

其中β>0.此外，字、詞網(wǎng)絡(luò)的斜率-β分別有如下排序：

-0.005(Net200，Net150，Net100)>-0.006 (Net50，Net30，Net10)；

-0.006(Net10)>-0.007(Net100，Net150)>-0.008(Net50，Net30，Net200)．

顯然，在字網(wǎng)絡(luò)中，當網(wǎng)絡(luò)規(guī)模增加時，斜率一般會變大，但是在詞網(wǎng)絡(luò)中，這種趨勢并不明顯.

其中γ>0.在字網(wǎng)絡(luò)中，γ=0.001，但是在詞網(wǎng)絡(luò)中，其斜率-γ的排序如下：

-0.0001(Net200，Net150)>-0.0002 (Net100，Net50)>-0.0004 (Net30)>-0.0009 (Net10).

顯然，在詞網(wǎng)絡(luò)中，隨著網(wǎng)絡(luò)規(guī)模的增加，斜率一般也會隨之變大.

在演化的漢語網(wǎng)絡(luò)中，鄰接譜和Laplacian譜的排序之間有何異同呢？對于鄰接譜而言，前150個特征值的分布滿足λi∝-clogi(c>0)，c的值會隨著網(wǎng)絡(luò)規(guī)模的增加而變大；然而中間部分的譜排序卻滿足λi∝-0.01i[15].顯然，鄰接譜和Laplacian譜的排序分布是不同的(見表2).但是，在字網(wǎng)絡(luò)中，當網(wǎng)絡(luò)規(guī)模增加時，鄰接譜和Laplacian譜排序的斜率一般都會增大.

表2 演化的漢語網(wǎng)絡(luò)(Net10，Net30，Net50，Net100，Net150，Net200)的鄰接譜和Laplacian譜的異同Tab.2 Summary of the adjacency and the Laplacian spectra of the evolving Chinese networks (Net10， Net30，Net50，Net100，Net150，Net200)

2.3 度與特征向量

由圖3可知，度和V1的變化趨勢不明顯，而鄰接矩陣的最大特征值對應(yīng)的特征向量分量的最大值位于度最大的節(jié)點處[13].度和V2的變化趨勢一般是相反的.度和V3之間的變化趨勢在不同的網(wǎng)絡(luò)中是不同的.當N很小時，度和V3的變化趨勢不明顯，但是當N足夠大時，它們的變化趨勢在字網(wǎng)絡(luò)中是一致的，而在詞網(wǎng)絡(luò)中卻相反.

圖3 度(綠色，-)和三大特征向量V1(藍色，×)，V2(青藍色，+)和V3(紅色，*)的關(guān)系圖Fig.3 Plots of the normalized degrees and the top three eigenvectors V1 (blue，×)，V2 (cyan-blue，+)and V3 (red，*)，respectively

3 總結(jié)

通過分析演化的漢語網(wǎng)絡(luò)的Laplacian譜，發(fā)現(xiàn)了網(wǎng)絡(luò)的一些統(tǒng)計特征，為進一步了解漢語的特性提供了一些有用的見解.顯然，仍然有許多問題需要探索.例如，得到的有關(guān)漢語的結(jié)論是否也適用于其它語言？如何建立一個合理的網(wǎng)絡(luò)模型來刻畫語言的演化？解決這些問題還需要后續(xù)做大量的研究.