国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

演化的漢語同現(xiàn)網(wǎng)絡(luò)的Laplacian譜分析

2021-12-17 09:18:50張子涵
關(guān)鍵詞:鄰接矩陣特征向量斜率

張子涵,梁 偉

(河南理工大學數(shù)學與信息科學學院,河南 焦作 454003)

人類語言是一個經(jīng)過長期演化而形成的復(fù)雜系統(tǒng)[1].語言的許多重要特性都可以利用復(fù)雜網(wǎng)絡(luò)來描述.近年來,語言網(wǎng)絡(luò)成為復(fù)雜網(wǎng)絡(luò)研究的熱點問題之一,它為我們進一步了解語言的特性提供了新思路和新方法[2-3].

譜分析方法能夠揭示大規(guī)模且復(fù)雜環(huán)境下相互作用的實體之間的全局結(jié)構(gòu)模式[4].實踐經(jīng)驗表明,譜分析方法可能更適合于缺乏規(guī)律性的數(shù)據(jù)[5].近年來,在社團探測、互聯(lián)網(wǎng)、生物網(wǎng)和社會網(wǎng)絡(luò)等方面,利用譜分析方法來研究網(wǎng)絡(luò)的結(jié)構(gòu)信息已經(jīng)引起了越來越多的研究者的關(guān)注[5-8].

在語言網(wǎng)絡(luò)鄰接矩陣特征譜的研究方面,已經(jīng)取得了非常豐碩的成果.2007年,Cancho等在語法網(wǎng)絡(luò)中利用譜分析法將同類的單詞進行了聚類[9].2009年,Mukherjee等研究了語音網(wǎng)絡(luò)的特征譜,發(fā)現(xiàn)譜密度中間呈三角形分布,而尾部卻服從冪律分布[4].2010年,Choudhury和Chatterjee研究了英語、法語等詞同現(xiàn)網(wǎng)絡(luò)的特征譜密度,發(fā)現(xiàn)它們都具有三角形分布[10].2015年,筆者研究了由詩歌構(gòu)建的1 010個中、英文同現(xiàn)網(wǎng)絡(luò)的特征譜密度,發(fā)現(xiàn)在1 007個網(wǎng)絡(luò)中出現(xiàn)了“M”-型分布,而其它3個字網(wǎng)絡(luò)則呈三角形分布[11-12].2016-2017年,筆者研究了由四種文學體裁構(gòu)成的中、英文同現(xiàn)網(wǎng)絡(luò)的特征譜,并比較了它們的異同[13-14].近年來,又研究了演化的漢語網(wǎng)絡(luò)的統(tǒng)計參數(shù)之間的關(guān)系,發(fā)現(xiàn)特征譜的行為不會隨著時間的變化而改變[15].最近,我們研究了11個不同歷史時期的漢語網(wǎng)絡(luò)的特征譜,并得到了一些有趣的結(jié)論[16].

鄰接矩陣的特征譜包含了網(wǎng)絡(luò)的局部信息,而Laplacian特征譜卻反映了網(wǎng)絡(luò)的全局屬性[17].對于一些難以計算或估計的網(wǎng)絡(luò)而言,Laplacian譜可以提取一些有用且重要的信息[18].如今,Laplacian譜在解決實際問題中已經(jīng)得到了非常好的應(yīng)用[7,17-21].

但是,在語言網(wǎng)絡(luò)中對Laplacian譜的研究卻很少.2002年,Belkin和Goldsmith利用特征向量分解法研究了英語和法語網(wǎng)絡(luò)模型的Laplacian矩陣的特征向量[22].除了文獻[22]之外,沒有發(fā)現(xiàn)語言網(wǎng)絡(luò)中有關(guān)Laplacian特征譜的其它研究成果.演化的漢語網(wǎng)絡(luò)的Laplacian譜有什么特性?這些特性是否會隨著時間的演化而改變呢?演化的漢語網(wǎng)絡(luò)的鄰接譜和Laplacian譜之間有何異同?通過研究演化的漢語網(wǎng)絡(luò)的Laplacian譜能否得出有意義的結(jié)論呢?本文嘗試解決這些有趣的問題.

本文基于不同大小和類型的語料庫,建立了演化的漢語同現(xiàn)網(wǎng)絡(luò),并利用Laplacian譜分析法對這些網(wǎng)絡(luò)進行了系統(tǒng)的研究.

1 基本概念

如果網(wǎng)絡(luò)包含n個節(jié)點,那么它的鄰接矩陣A定義為(aij)n×n[23],其中如果節(jié)點i、j之間有邊相連則aij=1,否則aij=0.ki=∑jaij為節(jié)點i的度.設(shè)

D=diag(k1,k2,…,kn)

是一個對角線上元素為節(jié)點度的對角矩陣,則矩陣

L=D-A

稱為該網(wǎng)絡(luò)Laplacian矩陣[24].λ是L的特征值,如果存在一個n-維非零向量x,使得

Lx=λx.

L的所有特征值構(gòu)成的集合稱為Laplacian譜.對于無向網(wǎng)絡(luò)而言,L是實對稱矩陣,因此它具有n個(可能各不相等)實特征值,并且對應(yīng)的n個特征向量是相互正交的[23].它的最小特征值λ=0,其它特征值全為正[25].因此,可以將L的特征值排序為:

λ1≥λ2≥…≥λn-1≥λn=0.

譜密度[17]定義為

其中,

2 主要結(jié)論

在字(詞)同現(xiàn)網(wǎng)絡(luò)中,節(jié)點表示字(詞),若兩個字(詞)至少在一個句子里連續(xù)出現(xiàn),則它們之間用一條邊相連[15].文獻[15]研究了演化的現(xiàn)代漢語網(wǎng)絡(luò)的鄰接矩陣的特征譜.鄰接矩陣和Laplacian 矩陣的特征譜不同.Laplacian譜反映了圖的全局屬性,而鄰接譜卻只包含了其局部屬性[17].演化的漢語網(wǎng)絡(luò)的Laplacian譜有什么特性?這些特性是否會隨著時間的演化而改變呢?演化的漢語網(wǎng)絡(luò)的鄰接譜和Laplacian譜之間有何異同?通過研究這些網(wǎng)絡(luò)的Laplacian譜能否得出有意義的結(jié)論呢?為了解決這些問題,本文分別從散文、小說、科普和新聞中隨機選取了200篇中文文章,它們也是文獻[13,15]中的基本語料庫.10、30、50、100、150和200篇文章分別合在一起,構(gòu)建了12個字、詞同現(xiàn)網(wǎng)絡(luò),分別用Net10、Net30、Net50、Net100、Net150和Net200 表示.在這些網(wǎng)絡(luò)中,前者中的文本是后者的子集,即Net10?Net30?Net50?Net100?Net150?Net200.它們可以看作是演化的漢語語言網(wǎng)絡(luò)[15].我們計算了這些網(wǎng)絡(luò)的Laplacian譜,并在表1中列出了部分數(shù)據(jù).

表1 演化的漢語字、詞網(wǎng)絡(luò)的統(tǒng)計參數(shù)Tab.1 Statistical parameters of the evolving Chinese character and word co-occurrence networks

2.1 譜密度

圖1 演化的漢語網(wǎng)絡(luò)的譜密度Fig.1 Spectral densities of the evolving Chinese co-occurrence networks

在字網(wǎng)絡(luò)中,52.72(Net10)>41.16(Net30)>34.43(Net50)>32.84(Net100)>31.98(Net150)>26.03(Net200);在詞網(wǎng)絡(luò)中,74.86(Net10)>71.98(Net30)>68.76(Net50)>64.20(Net100)>61.68(Net150)>41.98(Net200).顯然,隨著網(wǎng)絡(luò)規(guī)模的增加,[0,3]上ρ(λ)的和逐漸減小.

ER隨機圖[26]、WS小世界網(wǎng)絡(luò)[27]和BA無標度網(wǎng)絡(luò)[28]的鄰接矩陣和Laplacian矩陣的譜密度之間有何異同?ER圖的兩個譜密度都趨于Wigner半圓形分布[8,29].對于WS網(wǎng)絡(luò),隨著p的增加(p為邊相連的概率),鄰接矩陣的ρ(λ)趨于半圓形分布[8],而Laplacian的峰值卻接近于平均度[29].在BA網(wǎng)絡(luò)中,鄰接矩陣的ρ(λ)關(guān)于0對稱且呈三角形分布[8,29-30];Havel-Hakimi無標度網(wǎng)絡(luò)的Laplacian譜的最大值偏向于較小的特征值[29].顯然,我們網(wǎng)絡(luò)的ρ(λ)與無標度網(wǎng)絡(luò)是相似的.BA網(wǎng)絡(luò)是增長和優(yōu)先連接共同作用的結(jié)果[28].演化的漢語網(wǎng)絡(luò)中也存在增長和優(yōu)先連接,且度較大的節(jié)點為“的”“了”和“是”.這可能是漢語網(wǎng)絡(luò)與BA網(wǎng)絡(luò)的ρ(λ)相類似的主要原因.

研究發(fā)現(xiàn),漢語字(詞)網(wǎng)絡(luò)的鄰接矩陣的ρ(λ)呈三角形(“M”-型)分布[15];如果網(wǎng)絡(luò)規(guī)模足夠大,那么單個網(wǎng)絡(luò)的ρ(λ)的最大值出現(xiàn)在λ=0處,在λ=±1處有兩個小的高峰,并且在λ=0的兩側(cè)幾乎是對稱的[15].顯然,Laplacian矩陣和鄰接矩陣的ρ(λ)是不同的,產(chǎn)生這些差異的原因是什么呢?學者Chung等指出,不同的矩陣可以產(chǎn)生不同的特征譜分布圖[19].Laplacian矩陣的特征值是正的,但是鄰接矩陣的有正有負,這可能是造成差異的原因之一.為了便于比較鄰接譜和Laplacian譜的異同,在表2中對這些異同進行了歸納.

2.2 譜排序

字、詞網(wǎng)絡(luò)的所有特征值的范圍分別為:

0~396.01(Net10),0~936.01(Net30),0~1447.00(Net50),0~1770.00(Net100),0~1919.00(Net150),0~2675.00(Net200);

0~511.01(Net10),0~1590.00(Net30),0~3069.00(Net50),0~4522.00(Net100),0~5355.00(Net150),0~9701.00(Net200).

顯然,最小特征值為0,最大特征值λ1隨著網(wǎng)絡(luò)規(guī)模的增加而變大.另外,字網(wǎng)絡(luò)的λ1的值小于相應(yīng)的詞網(wǎng)絡(luò)的值.

為了更好地研究Laplacian譜的特性,將每個網(wǎng)絡(luò)的所有特征值進行了降序排列,并利用Matlab繪制了λi與i的關(guān)系(見圖2),其中特征值λi按降序排列;左側(cè)小圖是雙對數(shù)坐標下非常大的特征值的排序圖,右圖是半對數(shù)坐標下較大特征值的排序圖;最后四個圖是半對數(shù)坐標下中間部分特征值的排序圖.

大的特征值是如何分布的呢?研究發(fā)現(xiàn)非常大的特征值和其它較大的特征值的分布完全不同.因此,在圖2的每個大圖中截取了具有明顯變化的部分,并制作了兩個小圖(見圖2的插圖),其中左邊是前9或11大特征值(不包括λ1)在雙對數(shù)坐標下的排序圖,而右邊是從第11或13至100的特征值(一般隨著網(wǎng)絡(luò)規(guī)模的增加,選取的特征值的數(shù)量也會增加)在半對數(shù)坐標下的排序圖.圖2表明,前9或11大特征值的分布可以用雙對數(shù)坐標下的一條直線來擬合(見圖2的左側(cè)插圖),即

圖2 網(wǎng)絡(luò)的譜排序圖 Fig.2 Spectral ordering graph of the network

λi∝i-α,i=2,…,10或12,

其中,α>0,并且斜率-α的值有如下排序.

字網(wǎng)絡(luò):

-0.27(Net200)>-0.29(Net100)>-0.31 (Net50)>-0.32(Net30,Net150)>-0.48 (Net10);

詞網(wǎng)絡(luò):

-0.52(Net50)>-0.53(Net100)>-0.56(Net30)>-0.58(Net200)>-0.59(Net10)>-0.62(Net150).

顯然,隨著網(wǎng)絡(luò)規(guī)模的增加,字網(wǎng)絡(luò)的斜率一般也會隨之增大,但是詞網(wǎng)絡(luò)并沒有顯示出單一的增長或下降趨勢.對于從第11或13到100的特征值,它們在半對數(shù)坐標中呈線性分布(見圖2的右側(cè)插圖),即

λi∝e-β i, 11≤i≤100,

其中β>0.此外,字、詞網(wǎng)絡(luò)的斜率-β分別有如下排序:

-0.005(Net200,Net150,Net100)>-0.006 (Net50,Net30,Net10);

-0.006(Net10)>-0.007(Net100,Net150)>-0.008(Net50,Net30,Net200).

顯然,在字網(wǎng)絡(luò)中,當網(wǎng)絡(luò)規(guī)模增加時,斜率一般會變大,但是在詞網(wǎng)絡(luò)中,這種趨勢并不明顯.

其中γ>0.在字網(wǎng)絡(luò)中,γ=0.001,但是在詞網(wǎng)絡(luò)中,其斜率-γ的排序如下:

-0.0001(Net200,Net150)>-0.0002 (Net100,Net50)>-0.0004 (Net30)>-0.0009 (Net10).

顯然,在詞網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)規(guī)模的增加,斜率一般也會隨之變大.

在演化的漢語網(wǎng)絡(luò)中,鄰接譜和Laplacian譜的排序之間有何異同呢?對于鄰接譜而言,前150個特征值的分布滿足λi∝-clogi(c>0),c的值會隨著網(wǎng)絡(luò)規(guī)模的增加而變大;然而中間部分的譜排序卻滿足λi∝-0.01i[15].顯然,鄰接譜和Laplacian譜的排序分布是不同的(見表2).但是,在字網(wǎng)絡(luò)中,當網(wǎng)絡(luò)規(guī)模增加時,鄰接譜和Laplacian譜排序的斜率一般都會增大.

表2 演化的漢語網(wǎng)絡(luò)(Net10,Net30,Net50,Net100,Net150,Net200)的鄰接譜和Laplacian譜的異同Tab.2 Summary of the adjacency and the Laplacian spectra of the evolving Chinese networks (Net10, Net30,Net50,Net100,Net150,Net200)

2.3 度與特征向量

由圖3可知,度和V1的變化趨勢不明顯,而鄰接矩陣的最大特征值對應(yīng)的特征向量分量的最大值位于度最大的節(jié)點處[13].度和V2的變化趨勢一般是相反的.度和V3之間的變化趨勢在不同的網(wǎng)絡(luò)中是不同的.當N很小時,度和V3的變化趨勢不明顯,但是當N足夠大時,它們的變化趨勢在字網(wǎng)絡(luò)中是一致的,而在詞網(wǎng)絡(luò)中卻相反.

圖3 度(綠色,-)和三大特征向量V1(藍色,×),V2(青藍色,+)和V3(紅色,*)的關(guān)系圖Fig.3 Plots of the normalized degrees and the top three eigenvectors V1 (blue,×),V2 (cyan-blue,+)and V3 (red,*),respectively

3 總結(jié)

通過分析演化的漢語網(wǎng)絡(luò)的Laplacian譜,發(fā)現(xiàn)了網(wǎng)絡(luò)的一些統(tǒng)計特征,為進一步了解漢語的特性提供了一些有用的見解.顯然,仍然有許多問題需要探索.例如,得到的有關(guān)漢語的結(jié)論是否也適用于其它語言?如何建立一個合理的網(wǎng)絡(luò)模型來刻畫語言的演化?解決這些問題還需要后續(xù)做大量的研究.

猜你喜歡
鄰接矩陣特征向量斜率
輪圖的平衡性
二年制職教本科線性代數(shù)課程的幾何化教學設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
物理圖像斜率的變化探討
物理之友(2020年12期)2020-07-16 05:39:16
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
求斜率型分式的取值范圍
基于子孔徑斜率離散采樣的波前重構(gòu)
基于鄰接矩陣變型的K分網(wǎng)絡(luò)社團算法
MMC-MTDC輸電系統(tǒng)新型直流電壓斜率控制策略
電測與儀表(2016年6期)2016-04-11 12:05:54
罗江县| 高密市| 库尔勒市| 广饶县| 体育| 介休市| 宕昌县| 唐河县| 贡嘎县| 东乡| 政和县| 丁青县| 东乌珠穆沁旗| 黑水县| 南开区| 邹城市| 浏阳市| 肥西县| 奈曼旗| 肃南| 溆浦县| 蚌埠市| 承德市| 东丽区| 安龙县| 嵊州市| 南华县| 辽阳县| 大荔县| 长乐市| 吴堡县| 阿拉善左旗| 钟山县| 隆德县| 东明县| 成都市| 隆林| 怀仁县| 富源县| 台东县| 山丹县|