張子涵,梁 偉
(河南理工大學數(shù)學與信息科學學院,河南 焦作 454003)
人類語言是一個經(jīng)過長期演化而形成的復(fù)雜系統(tǒng)[1].語言的許多重要特性都可以利用復(fù)雜網(wǎng)絡(luò)來描述.近年來,語言網(wǎng)絡(luò)成為復(fù)雜網(wǎng)絡(luò)研究的熱點問題之一,它為我們進一步了解語言的特性提供了新思路和新方法[2-3].
譜分析方法能夠揭示大規(guī)模且復(fù)雜環(huán)境下相互作用的實體之間的全局結(jié)構(gòu)模式[4].實踐經(jīng)驗表明,譜分析方法可能更適合于缺乏規(guī)律性的數(shù)據(jù)[5].近年來,在社團探測、互聯(lián)網(wǎng)、生物網(wǎng)和社會網(wǎng)絡(luò)等方面,利用譜分析方法來研究網(wǎng)絡(luò)的結(jié)構(gòu)信息已經(jīng)引起了越來越多的研究者的關(guān)注[5-8].
在語言網(wǎng)絡(luò)鄰接矩陣特征譜的研究方面,已經(jīng)取得了非常豐碩的成果.2007年,Cancho等在語法網(wǎng)絡(luò)中利用譜分析法將同類的單詞進行了聚類[9].2009年,Mukherjee等研究了語音網(wǎng)絡(luò)的特征譜,發(fā)現(xiàn)譜密度中間呈三角形分布,而尾部卻服從冪律分布[4].2010年,Choudhury和Chatterjee研究了英語、法語等詞同現(xiàn)網(wǎng)絡(luò)的特征譜密度,發(fā)現(xiàn)它們都具有三角形分布[10].2015年,筆者研究了由詩歌構(gòu)建的1 010個中、英文同現(xiàn)網(wǎng)絡(luò)的特征譜密度,發(fā)現(xiàn)在1 007個網(wǎng)絡(luò)中出現(xiàn)了“M”-型分布,而其它3個字網(wǎng)絡(luò)則呈三角形分布[11-12].2016-2017年,筆者研究了由四種文學體裁構(gòu)成的中、英文同現(xiàn)網(wǎng)絡(luò)的特征譜,并比較了它們的異同[13-14].近年來,又研究了演化的漢語網(wǎng)絡(luò)的統(tǒng)計參數(shù)之間的關(guān)系,發(fā)現(xiàn)特征譜的行為不會隨著時間的變化而改變[15].最近,我們研究了11個不同歷史時期的漢語網(wǎng)絡(luò)的特征譜,并得到了一些有趣的結(jié)論[16].
鄰接矩陣的特征譜包含了網(wǎng)絡(luò)的局部信息,而Laplacian特征譜卻反映了網(wǎng)絡(luò)的全局屬性[17].對于一些難以計算或估計的網(wǎng)絡(luò)而言,Laplacian譜可以提取一些有用且重要的信息[18].如今,Laplacian譜在解決實際問題中已經(jīng)得到了非常好的應(yīng)用[7,17-21].
但是,在語言網(wǎng)絡(luò)中對Laplacian譜的研究卻很少.2002年,Belkin和Goldsmith利用特征向量分解法研究了英語和法語網(wǎng)絡(luò)模型的Laplacian矩陣的特征向量[22].除了文獻[22]之外,沒有發(fā)現(xiàn)語言網(wǎng)絡(luò)中有關(guān)Laplacian特征譜的其它研究成果.演化的漢語網(wǎng)絡(luò)的Laplacian譜有什么特性?這些特性是否會隨著時間的演化而改變呢?演化的漢語網(wǎng)絡(luò)的鄰接譜和Laplacian譜之間有何異同?通過研究演化的漢語網(wǎng)絡(luò)的Laplacian譜能否得出有意義的結(jié)論呢?本文嘗試解決這些有趣的問題.
本文基于不同大小和類型的語料庫,建立了演化的漢語同現(xiàn)網(wǎng)絡(luò),并利用Laplacian譜分析法對這些網(wǎng)絡(luò)進行了系統(tǒng)的研究.
如果網(wǎng)絡(luò)包含n個節(jié)點,那么它的鄰接矩陣A定義為(aij)n×n[23],其中如果節(jié)點i、j之間有邊相連則aij=1,否則aij=0.ki=∑jaij為節(jié)點i的度.設(shè)
D=diag(k1,k2,…,kn)
是一個對角線上元素為節(jié)點度的對角矩陣,則矩陣
L=D-A
稱為該網(wǎng)絡(luò)Laplacian矩陣[24].λ是L的特征值,如果存在一個n-維非零向量x,使得
Lx=λx.
L的所有特征值構(gòu)成的集合稱為Laplacian譜.對于無向網(wǎng)絡(luò)而言,L是實對稱矩陣,因此它具有n個(可能各不相等)實特征值,并且對應(yīng)的n個特征向量是相互正交的[23].它的最小特征值λ=0,其它特征值全為正[25].因此,可以將L的特征值排序為:
λ1≥λ2≥…≥λn-1≥λn=0.
譜密度[17]定義為
其中,
在字(詞)同現(xiàn)網(wǎng)絡(luò)中,節(jié)點表示字(詞),若兩個字(詞)至少在一個句子里連續(xù)出現(xiàn),則它們之間用一條邊相連[15].文獻[15]研究了演化的現(xiàn)代漢語網(wǎng)絡(luò)的鄰接矩陣的特征譜.鄰接矩陣和Laplacian 矩陣的特征譜不同.Laplacian譜反映了圖的全局屬性,而鄰接譜卻只包含了其局部屬性[17].演化的漢語網(wǎng)絡(luò)的Laplacian譜有什么特性?這些特性是否會隨著時間的演化而改變呢?演化的漢語網(wǎng)絡(luò)的鄰接譜和Laplacian譜之間有何異同?通過研究這些網(wǎng)絡(luò)的Laplacian譜能否得出有意義的結(jié)論呢?為了解決這些問題,本文分別從散文、小說、科普和新聞中隨機選取了200篇中文文章,它們也是文獻[13,15]中的基本語料庫.10、30、50、100、150和200篇文章分別合在一起,構(gòu)建了12個字、詞同現(xiàn)網(wǎng)絡(luò),分別用Net10、Net30、Net50、Net100、Net150和Net200 表示.在這些網(wǎng)絡(luò)中,前者中的文本是后者的子集,即Net10?Net30?Net50?Net100?Net150?Net200.它們可以看作是演化的漢語語言網(wǎng)絡(luò)[15].我們計算了這些網(wǎng)絡(luò)的Laplacian譜,并在表1中列出了部分數(shù)據(jù).
表1 演化的漢語字、詞網(wǎng)絡(luò)的統(tǒng)計參數(shù)Tab.1 Statistical parameters of the evolving Chinese character and word co-occurrence networks
圖1 演化的漢語網(wǎng)絡(luò)的譜密度Fig.1 Spectral densities of the evolving Chinese co-occurrence networks
在字網(wǎng)絡(luò)中,52.72(Net10)>41.16(Net30)>34.43(Net50)>32.84(Net100)>31.98(Net150)>26.03(Net200);在詞網(wǎng)絡(luò)中,74.86(Net10)>71.98(Net30)>68.76(Net50)>64.20(Net100)>61.68(Net150)>41.98(Net200).顯然,隨著網(wǎng)絡(luò)規(guī)模的增加,[0,3]上ρ(λ)的和逐漸減小.
ER隨機圖[26]、WS小世界網(wǎng)絡(luò)[27]和BA無標度網(wǎng)絡(luò)[28]的鄰接矩陣和Laplacian矩陣的譜密度之間有何異同?ER圖的兩個譜密度都趨于Wigner半圓形分布[8,29].對于WS網(wǎng)絡(luò),隨著p的增加(p為邊相連的概率),鄰接矩陣的ρ(λ)趨于半圓形分布[8],而Laplacian的峰值卻接近于平均度[29].在BA網(wǎng)絡(luò)中,鄰接矩陣的ρ(λ)關(guān)于0對稱且呈三角形分布[8,29-30];Havel-Hakimi無標度網(wǎng)絡(luò)的Laplacian譜的最大值偏向于較小的特征值[29].顯然,我們網(wǎng)絡(luò)的ρ(λ)與無標度網(wǎng)絡(luò)是相似的.BA網(wǎng)絡(luò)是增長和優(yōu)先連接共同作用的結(jié)果[28].演化的漢語網(wǎng)絡(luò)中也存在增長和優(yōu)先連接,且度較大的節(jié)點為“的”“了”和“是”.這可能是漢語網(wǎng)絡(luò)與BA網(wǎng)絡(luò)的ρ(λ)相類似的主要原因.
研究發(fā)現(xiàn),漢語字(詞)網(wǎng)絡(luò)的鄰接矩陣的ρ(λ)呈三角形(“M”-型)分布[15];如果網(wǎng)絡(luò)規(guī)模足夠大,那么單個網(wǎng)絡(luò)的ρ(λ)的最大值出現(xiàn)在λ=0處,在λ=±1處有兩個小的高峰,并且在λ=0的兩側(cè)幾乎是對稱的[15].顯然,Laplacian矩陣和鄰接矩陣的ρ(λ)是不同的,產(chǎn)生這些差異的原因是什么呢?學者Chung等指出,不同的矩陣可以產(chǎn)生不同的特征譜分布圖[19].Laplacian矩陣的特征值是正的,但是鄰接矩陣的有正有負,這可能是造成差異的原因之一.為了便于比較鄰接譜和Laplacian譜的異同,在表2中對這些異同進行了歸納.
字、詞網(wǎng)絡(luò)的所有特征值的范圍分別為:
0~396.01(Net10),0~936.01(Net30),0~1447.00(Net50),0~1770.00(Net100),0~1919.00(Net150),0~2675.00(Net200);
0~511.01(Net10),0~1590.00(Net30),0~3069.00(Net50),0~4522.00(Net100),0~5355.00(Net150),0~9701.00(Net200).
顯然,最小特征值為0,最大特征值λ1隨著網(wǎng)絡(luò)規(guī)模的增加而變大.另外,字網(wǎng)絡(luò)的λ1的值小于相應(yīng)的詞網(wǎng)絡(luò)的值.
為了更好地研究Laplacian譜的特性,將每個網(wǎng)絡(luò)的所有特征值進行了降序排列,并利用Matlab繪制了λi與i的關(guān)系(見圖2),其中特征值λi按降序排列;左側(cè)小圖是雙對數(shù)坐標下非常大的特征值的排序圖,右圖是半對數(shù)坐標下較大特征值的排序圖;最后四個圖是半對數(shù)坐標下中間部分特征值的排序圖.
大的特征值是如何分布的呢?研究發(fā)現(xiàn)非常大的特征值和其它較大的特征值的分布完全不同.因此,在圖2的每個大圖中截取了具有明顯變化的部分,并制作了兩個小圖(見圖2的插圖),其中左邊是前9或11大特征值(不包括λ1)在雙對數(shù)坐標下的排序圖,而右邊是從第11或13至100的特征值(一般隨著網(wǎng)絡(luò)規(guī)模的增加,選取的特征值的數(shù)量也會增加)在半對數(shù)坐標下的排序圖.圖2表明,前9或11大特征值的分布可以用雙對數(shù)坐標下的一條直線來擬合(見圖2的左側(cè)插圖),即
圖2 網(wǎng)絡(luò)的譜排序圖 Fig.2 Spectral ordering graph of the network
λi∝i-α,i=2,…,10或12,
其中,α>0,并且斜率-α的值有如下排序.
字網(wǎng)絡(luò):
-0.27(Net200)>-0.29(Net100)>-0.31 (Net50)>-0.32(Net30,Net150)>-0.48 (Net10);
詞網(wǎng)絡(luò):
-0.52(Net50)>-0.53(Net100)>-0.56(Net30)>-0.58(Net200)>-0.59(Net10)>-0.62(Net150).
顯然,隨著網(wǎng)絡(luò)規(guī)模的增加,字網(wǎng)絡(luò)的斜率一般也會隨之增大,但是詞網(wǎng)絡(luò)并沒有顯示出單一的增長或下降趨勢.對于從第11或13到100的特征值,它們在半對數(shù)坐標中呈線性分布(見圖2的右側(cè)插圖),即
λi∝e-β i, 11≤i≤100,
其中β>0.此外,字、詞網(wǎng)絡(luò)的斜率-β分別有如下排序:
-0.005(Net200,Net150,Net100)>-0.006 (Net50,Net30,Net10);
-0.006(Net10)>-0.007(Net100,Net150)>-0.008(Net50,Net30,Net200).
顯然,在字網(wǎng)絡(luò)中,當網(wǎng)絡(luò)規(guī)模增加時,斜率一般會變大,但是在詞網(wǎng)絡(luò)中,這種趨勢并不明顯.
其中γ>0.在字網(wǎng)絡(luò)中,γ=0.001,但是在詞網(wǎng)絡(luò)中,其斜率-γ的排序如下:
-0.0001(Net200,Net150)>-0.0002 (Net100,Net50)>-0.0004 (Net30)>-0.0009 (Net10).
顯然,在詞網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)規(guī)模的增加,斜率一般也會隨之變大.
在演化的漢語網(wǎng)絡(luò)中,鄰接譜和Laplacian譜的排序之間有何異同呢?對于鄰接譜而言,前150個特征值的分布滿足λi∝-clogi(c>0),c的值會隨著網(wǎng)絡(luò)規(guī)模的增加而變大;然而中間部分的譜排序卻滿足λi∝-0.01i[15].顯然,鄰接譜和Laplacian譜的排序分布是不同的(見表2).但是,在字網(wǎng)絡(luò)中,當網(wǎng)絡(luò)規(guī)模增加時,鄰接譜和Laplacian譜排序的斜率一般都會增大.
表2 演化的漢語網(wǎng)絡(luò)(Net10,Net30,Net50,Net100,Net150,Net200)的鄰接譜和Laplacian譜的異同Tab.2 Summary of the adjacency and the Laplacian spectra of the evolving Chinese networks (Net10, Net30,Net50,Net100,Net150,Net200)
由圖3可知,度和V1的變化趨勢不明顯,而鄰接矩陣的最大特征值對應(yīng)的特征向量分量的最大值位于度最大的節(jié)點處[13].度和V2的變化趨勢一般是相反的.度和V3之間的變化趨勢在不同的網(wǎng)絡(luò)中是不同的.當N很小時,度和V3的變化趨勢不明顯,但是當N足夠大時,它們的變化趨勢在字網(wǎng)絡(luò)中是一致的,而在詞網(wǎng)絡(luò)中卻相反.
圖3 度(綠色,-)和三大特征向量V1(藍色,×),V2(青藍色,+)和V3(紅色,*)的關(guān)系圖Fig.3 Plots of the normalized degrees and the top three eigenvectors V1 (blue,×),V2 (cyan-blue,+)and V3 (red,*),respectively
通過分析演化的漢語網(wǎng)絡(luò)的Laplacian譜,發(fā)現(xiàn)了網(wǎng)絡(luò)的一些統(tǒng)計特征,為進一步了解漢語的特性提供了一些有用的見解.顯然,仍然有許多問題需要探索.例如,得到的有關(guān)漢語的結(jié)論是否也適用于其它語言?如何建立一個合理的網(wǎng)絡(luò)模型來刻畫語言的演化?解決這些問題還需要后續(xù)做大量的研究.