韓 普,王東波,路高飛,蘇新寧
(1. 南京郵電大學(xué) 管理學(xué)院,江蘇 南京 210023;2. 南京農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南京,210095;3. 南京大學(xué) 信息管理學(xué)院,江蘇 南京 210093)
1998年,Nature上發(fā)表了Watts和Strogatz有關(guān)小世界網(wǎng)絡(luò)的論文[1],1999年,Science發(fā)表了Barabasi和Albert的隨機(jī)網(wǎng)絡(luò)的論文[2],兩篇文章在全球科學(xué)領(lǐng)域產(chǎn)生了巨大影響,被認(rèn)為是復(fù)雜網(wǎng)絡(luò)研究的里程碑。從數(shù)學(xué)的角度上講,復(fù)雜網(wǎng)絡(luò)起源于圖論,數(shù)學(xué)界稱1736年是圖論歷史元年,因?yàn)檫@一年瑞士數(shù)學(xué)家Euler發(fā)表了圖論的首篇論文《哥尼斯堡七橋問題無解》。傳統(tǒng)條件下,圖論研究的頂點(diǎn)數(shù)量往往比較少,現(xiàn)代信息技術(shù)的出現(xiàn),使得圖論得到進(jìn)一步的發(fā)展,借助現(xiàn)代信息技術(shù),可以處理擁有幾萬甚至幾十萬節(jié)點(diǎn)的真實(shí)網(wǎng)絡(luò)。大規(guī)模真實(shí)網(wǎng)絡(luò)是人類社會(huì)發(fā)展需要解決的問題,正是源于社會(huì)的需求,復(fù)雜網(wǎng)絡(luò)得到社會(huì)學(xué)、生物學(xué)、醫(yī)學(xué)、物理學(xué)、經(jīng)濟(jì)學(xué)、信息科學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、交通等學(xué)科領(lǐng)域研究者的關(guān)注[3-4]。
在復(fù)雜網(wǎng)絡(luò)的研究中,語言網(wǎng)絡(luò)作為一個(gè)新的研究方向,正在悄然興起。語言和文字是人類文明的起源,也是人類文明出現(xiàn)的兩大標(biāo)志,作為人類智慧的結(jié)晶,也是除了化石之外,最能體現(xiàn)悠久文明和燦爛文化的方式之一。據(jù)推測,人類目前有數(shù)千種語言[5],傳統(tǒng)語言學(xué)一般將其劃分為9大語系。受到地域和文化的影響,同一語言也存在著分化現(xiàn)象。雖然語言種類繁多,但不同語種之間存在著一定的聯(lián)系,目前的相關(guān)研究尚不能對(duì)以下問題進(jìn)行解釋,幾千種語言之間是否存在共性?不同語言中的規(guī)律和淵源如何挖掘?一些小語種語言正在消失,所蘊(yùn)含的人類智慧如何保留?1949年,哈佛大學(xué)語言學(xué)家Zipf發(fā)現(xiàn)了語言學(xué)中的Zipf定律[6],這一定律最初在英語中發(fā)現(xiàn),但隨后的相關(guān)研究表明,其他語言一定程度上也符合Zipf定律[7-10],雖然在部分語言中呈現(xiàn)的并不完美[9-10]。對(duì)語言研究來說,Zipf定律無疑是一個(gè)重大發(fā)現(xiàn),它描述了詞頻和詞序存在著一定聯(lián)系,揭示了語言學(xué)中的靜態(tài)規(guī)律,但如果將單詞打亂,詞頻和詞序依然可以滿足Zipf定律,所以這個(gè)定律并不能解釋人類語言更為復(fù)雜的問題。在語言學(xué)界,語言是一種網(wǎng)絡(luò)的觀點(diǎn)已經(jīng)被普遍接受[11-12],由于語言的特點(diǎn),語言不僅是一種網(wǎng)絡(luò),還是一種復(fù)雜網(wǎng)絡(luò)[13]。Cancho和Sole首次用復(fù)雜網(wǎng)絡(luò)的方法研究了英語同現(xiàn)詞網(wǎng)絡(luò)。隨后,不同語種中由不同語言單位及其關(guān)系構(gòu)成的語言網(wǎng)絡(luò)受到了關(guān)注。由于語言網(wǎng)絡(luò)的跨學(xué)科特點(diǎn),該領(lǐng)域吸引了一批語言學(xué)家、物理學(xué)家、生物學(xué)家和數(shù)學(xué)家參與其中。從已有的研究來看,語音、語素、詞匯、短語在不同語言中構(gòu)成的網(wǎng)絡(luò)幾乎均具有真實(shí)網(wǎng)絡(luò)的一般統(tǒng)計(jì)特性,多數(shù)網(wǎng)絡(luò)在整體上呈現(xiàn)出了典型的小世界特征和無尺度現(xiàn)象,與社會(huì)網(wǎng)絡(luò)、生物網(wǎng)絡(luò)、生態(tài)網(wǎng)絡(luò)具有類似的特征??偟膩碚f,目前語言網(wǎng)絡(luò)的研究已經(jīng)取得了一定的進(jìn)展。本文將從語言網(wǎng)絡(luò)的特點(diǎn)、常用統(tǒng)計(jì)特性、相關(guān)模型、語言網(wǎng)絡(luò)的分類和研究進(jìn)展進(jìn)行論述。
語言網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)的子集,在語言網(wǎng)絡(luò)研究中常借鑒復(fù)雜網(wǎng)絡(luò)的研究方法。一般來說,度、平均最短路徑長度、聚集系數(shù)以及中介度是語言網(wǎng)絡(luò)常用的統(tǒng)計(jì)特征。
度: 度是對(duì)節(jié)點(diǎn)而言,節(jié)點(diǎn)i的度即與該節(jié)點(diǎn)連接的其他節(jié)點(diǎn)的數(shù)目。語言網(wǎng)絡(luò)通常是有向網(wǎng)絡(luò),根據(jù)節(jié)點(diǎn)的指向關(guān)系,度又分為出度和入度。節(jié)點(diǎn)度是語言網(wǎng)絡(luò)最常用的統(tǒng)計(jì)參數(shù),度分布是衡量一個(gè)網(wǎng)絡(luò)無尺度現(xiàn)象的重要特征。
平均最短路徑長度: 在復(fù)雜網(wǎng)絡(luò)中,節(jié)點(diǎn)i與j的距離d(i,j)實(shí)際上就是連接節(jié)點(diǎn)i和節(jié)點(diǎn)j所需的最短路徑長度。大部分真實(shí)網(wǎng)絡(luò)都具有較小的平均最短路徑長度
聚集系數(shù): 在圖論中,聚集系數(shù)是圖中點(diǎn)傾向于集聚在一起的程度的一種度量。對(duì)于語言網(wǎng)絡(luò),該參數(shù)呈現(xiàn)了與一個(gè)語言節(jié)點(diǎn)相連的其他節(jié)點(diǎn)中相互直接連接的概率。網(wǎng)絡(luò)聚集系數(shù)可分為基于全局的和局部的,通常情況下,聚集系數(shù)是指全局平均聚集系數(shù)。該參數(shù)和平均最短路徑長度一起用來判斷小世界網(wǎng)絡(luò)。
中介度: 該概念源于分析社會(huì)網(wǎng)絡(luò)中個(gè)體的重要性,1977年由Freeman提出[14],他認(rèn)為,如果一個(gè)節(jié)點(diǎn)處于多對(duì)節(jié)點(diǎn)之間,該節(jié)點(diǎn)的度可能會(huì)較低,但這個(gè)度較低的點(diǎn)可能會(huì)起到重要的中介作用,是網(wǎng)絡(luò)中重要的節(jié)點(diǎn)。中介度衡量了一個(gè)節(jié)點(diǎn)位于其他節(jié)點(diǎn)之間的程度,表示其他節(jié)點(diǎn)對(duì)其依賴的程度。在語言網(wǎng)絡(luò)中,陳芯瑩和劉海濤認(rèn)為,中介度測量的是一個(gè)點(diǎn)在多大程度上位于網(wǎng)絡(luò)中其他點(diǎn)的“中間”,一個(gè)度數(shù)相對(duì)比較低的點(diǎn)可能起到重要的“中介”作用,因而處于網(wǎng)絡(luò)中心[15]。一個(gè)節(jié)點(diǎn)中介度測量的是該節(jié)點(diǎn)對(duì)應(yīng)的行動(dòng)者在多大程度上成為“掮客”或者“中間人”,能在多大程度上控制其他節(jié)點(diǎn)。一個(gè)節(jié)點(diǎn)的中介度越大,表明大量語句將通過它,它的作用就越重要。
語言網(wǎng)絡(luò)具有哪些特征,屬于什么類型,與其他類型的網(wǎng)絡(luò)有哪些不同,這是語言網(wǎng)絡(luò)研究首先要關(guān)注的基本問題。在語言網(wǎng)絡(luò)研究中,多種網(wǎng)絡(luò)被證明具有小世界模型和無尺度模型的特征,為了判斷語言網(wǎng)絡(luò)的類型,往往會(huì)與其他網(wǎng)絡(luò)模型等進(jìn)行比較。這里僅列出語言網(wǎng)絡(luò)研究中常涉及到的幾個(gè)模型。
隨機(jī)網(wǎng)絡(luò)模型: 該模型是隨機(jī)圖論在網(wǎng)絡(luò)中的進(jìn)一步發(fā)展。隨機(jī)網(wǎng)絡(luò)是在給定一個(gè)概率p的情況下,對(duì)網(wǎng)絡(luò)中任意兩節(jié)點(diǎn)間的可能連接,都嘗試以概率p進(jìn)行連接。經(jīng)典的隨機(jī)網(wǎng)絡(luò)模型是Erd?s和Rényi提出的ER隨機(jī)網(wǎng)絡(luò)模型。真實(shí)的語言網(wǎng)絡(luò)模型并不是ER模型,但在語言網(wǎng)絡(luò)研究中,為了界定語言網(wǎng)絡(luò)的類型,突出語言網(wǎng)絡(luò)的特征,在整體特征統(tǒng)計(jì)分析時(shí),往往與ER隨機(jī)網(wǎng)絡(luò)進(jìn)行比較。客觀世界中,一個(gè)真實(shí)網(wǎng)絡(luò)具有小世界現(xiàn)象的一個(gè)體現(xiàn)是其最長路徑長度D≈Drand。小世界現(xiàn)象是真實(shí)網(wǎng)絡(luò)的一個(gè)重要特征,但真實(shí)網(wǎng)絡(luò)與ER隨機(jī)網(wǎng)絡(luò)的一個(gè)重要區(qū)別是聚類系數(shù)C?Crand。
小世界模型: 該模型是一個(gè)總稱,當(dāng)一個(gè)網(wǎng)絡(luò)滿足較高的聚集系數(shù)和較短的平均最短路徑等條件時(shí),便可以稱為小世界網(wǎng)絡(luò)。在語言網(wǎng)絡(luò)中,小世界網(wǎng)絡(luò)一般是指1998年由Watts和Strogatz 在Nature中提出的基于人類社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型。他們最早生成了具有高聚集系數(shù)和最短路徑長度的網(wǎng)絡(luò),該網(wǎng)絡(luò)也稱WS小世界模型。語言網(wǎng)絡(luò)大都符合WS小世界模型,大多數(shù)節(jié)點(diǎn)只需經(jīng)過少量的邊便可到達(dá)。在聚集系數(shù)上,與隨機(jī)語言網(wǎng)絡(luò)相比,真實(shí)語言網(wǎng)絡(luò)的聚集系數(shù)較高。
無尺度網(wǎng)絡(luò)模型: 無尺度網(wǎng)絡(luò)是物理學(xué)領(lǐng)域的一個(gè)專業(yè)詞匯,統(tǒng)計(jì)物理學(xué)家習(xí)慣于把服從冪律分布的現(xiàn)象稱為無尺度現(xiàn)象,相應(yīng)的網(wǎng)絡(luò)稱為無尺度網(wǎng)絡(luò)。度分布是判斷無尺度網(wǎng)絡(luò)的重要特性,在大量的真實(shí)網(wǎng)絡(luò)實(shí)驗(yàn)中,度分布呈現(xiàn)出無尺度現(xiàn)象,度分布一般對(duì)兩邊取log做圖。其分布可用函數(shù)P(k)來描述,P(k)表示的是一個(gè)隨機(jī)選定的節(jié)點(diǎn)的度為k的概率。即P(k)為網(wǎng)絡(luò)中度為k的節(jié)點(diǎn)占節(jié)點(diǎn)總數(shù)的比例,見式(1)。
為了減小度分布曲線尾部噪音的干擾,也可以采用累積度分布函數(shù)Pk表示累積度的分布。大量真實(shí)語言網(wǎng)絡(luò)被證明具有冪律度分布的現(xiàn)象,是一種無尺度網(wǎng)絡(luò)。換言之,語言網(wǎng)絡(luò)具有成長性和優(yōu)先連接性,可以將分散的節(jié)點(diǎn)組織起來,形成穩(wěn)定有意義的系統(tǒng)。
在復(fù)雜網(wǎng)絡(luò)研究基礎(chǔ)上,語言網(wǎng)絡(luò)研究已經(jīng)取得了一定進(jìn)展。由于語言網(wǎng)絡(luò)具有典型的跨學(xué)科特點(diǎn),其研究分散在多個(gè)學(xué)科中,如語言學(xué)、數(shù)學(xué)、物理學(xué)、生命科學(xué)和信息科學(xué)。如何全面了解語言網(wǎng)絡(luò)的當(dāng)前研究成果和研究進(jìn)展,對(duì)語言網(wǎng)絡(luò)進(jìn)行合理分類是必要的。目前語言網(wǎng)絡(luò)并沒有統(tǒng)一認(rèn)可的分類,從不同的角度,可將語言網(wǎng)絡(luò)劃分為不同的類型。根據(jù)網(wǎng)絡(luò)是否有向,可分為有向語言網(wǎng)絡(luò)和無向語言網(wǎng)絡(luò);按照是否有權(quán)重,可分為加權(quán)語言網(wǎng)絡(luò)和無權(quán)語言網(wǎng)絡(luò);按照網(wǎng)絡(luò)構(gòu)建來源是否真實(shí)語料,可分為靜態(tài)語言網(wǎng)絡(luò)和動(dòng)態(tài)語言網(wǎng)絡(luò),如基于詞典資源的靜態(tài)語言網(wǎng)絡(luò),基于真實(shí)文本語料的動(dòng)態(tài)語言網(wǎng)絡(luò)。在當(dāng)前多種語言網(wǎng)絡(luò)研究基礎(chǔ)上,從語言單位構(gòu)成并結(jié)合目前語言網(wǎng)絡(luò)主要關(guān)注方向,本文將語言網(wǎng)絡(luò)劃分為語音網(wǎng)絡(luò)、共現(xiàn)網(wǎng)絡(luò)、依存句法網(wǎng)絡(luò)、語義概念網(wǎng)絡(luò),對(duì)于沒有包含在4種網(wǎng)絡(luò)中的,稱為其他語言網(wǎng)絡(luò)。目前語言網(wǎng)絡(luò)繁雜,本分類中前四種網(wǎng)絡(luò)可以涵蓋大部分的研究,對(duì)于部分關(guān)注較少,或者僅在某一語言中存在的語言網(wǎng)絡(luò),即在4種語言網(wǎng)絡(luò)之外的網(wǎng)絡(luò),本文一并稱為其他語言網(wǎng)絡(luò),具體見圖1。
圖1 語言網(wǎng)絡(luò)結(jié)構(gòu)圖
將語言網(wǎng)絡(luò)進(jìn)行合理的劃分對(duì)語言網(wǎng)絡(luò)研究具有重要意義,首先,通過對(duì)語言網(wǎng)絡(luò)研究的系統(tǒng)梳理,有助于研究者全面了解語言網(wǎng)絡(luò)當(dāng)前的研究現(xiàn)狀。其次,對(duì)于不同領(lǐng)域研究者,可以結(jié)合自己的研究方向,選擇語言網(wǎng)絡(luò)的一個(gè)或幾個(gè)子領(lǐng)域,有針對(duì)性的深入研究。本文將對(duì)以上幾類語言網(wǎng)絡(luò)分別進(jìn)行詳細(xì)介紹。
語音系統(tǒng)是人類重要的交流系統(tǒng),在溝通交流中扮演著重要角色。從語言的觀點(diǎn)來看,語音是最微觀的范疇。音節(jié)是聽覺能感受到的最自然的語音單位,音素是最小的語音單位或最小的語音片段,是音節(jié)的組成部分。雖然目前世界上有幾千種語言,但音素?cái)?shù)量卻要小的多,不同語言的發(fā)音差異較大。語音系統(tǒng)在整體上有什么特點(diǎn)?是否有共性?對(duì)于這些問題,研究者從復(fù)雜網(wǎng)絡(luò)的角度對(duì)音節(jié)、音素等語音網(wǎng)絡(luò)進(jìn)行了探究。
Medeiros和Corso等基于葡萄牙語詞典和作家作品全集,構(gòu)建了葡萄牙語的音節(jié)網(wǎng)絡(luò)[16],網(wǎng)絡(luò)節(jié)點(diǎn)為葡萄牙語音節(jié),節(jié)點(diǎn)的連接以兩個(gè)音節(jié)是否可以組成詞為依據(jù),統(tǒng)計(jì)參數(shù)表明該網(wǎng)絡(luò)具有較高的聚集系數(shù)和較短的平均距離,該網(wǎng)絡(luò)的冪指數(shù)γ≈1.4,葡萄牙語音節(jié)的增長符合優(yōu)先增長模型。Peng和Minett等基于普通話詞典和粵語詞典,分別構(gòu)建了普通話和粵語的基本音節(jié)網(wǎng)絡(luò)和音調(diào)音節(jié)網(wǎng)絡(luò)[17],該方法與Medeiros采用的方法類似,以音節(jié)為節(jié)點(diǎn),以兩個(gè)音節(jié)是否可以組成漢語中的詞建立音節(jié)之間的邊。如“火車”漢語拼音為“huo3 che1”,粵語拼音為“fo2 ce1”,漢語音調(diào)音節(jié)網(wǎng)絡(luò)中“huo3”和“che1”為節(jié)點(diǎn),其相鄰連接“huo3”和“che1”為網(wǎng)絡(luò)的邊,粵語音調(diào)音節(jié)網(wǎng)絡(luò)構(gòu)造與漢語類似,這些網(wǎng)絡(luò)都表現(xiàn)出了隨機(jī)網(wǎng)絡(luò)所不具有的,但真實(shí)網(wǎng)絡(luò)所具有的特征,度分布符合無尺度分布,具有較高的聚集系數(shù),表明漢語音節(jié)網(wǎng)絡(luò)是一種小世界網(wǎng)絡(luò)和無尺度網(wǎng)絡(luò)。Arbesman和Strogatz等基于詞典研究了英文、中文等6種語言的音位網(wǎng)絡(luò)[18],發(fā)現(xiàn)音位網(wǎng)絡(luò)具有與其他網(wǎng)絡(luò)不同的特點(diǎn),在度分布上介于指數(shù)分布和冪律分布之間。于水源、劉海濤利用漢語字典、漢語詞典和兩組真實(shí)語料,分別從字、詞和句子的角度,以漢語音素為節(jié)點(diǎn),相鄰音素構(gòu)造有向邊,如“甘”包含三個(gè)音素“k”、“a”和“n”,共包含兩個(gè)有向邊“k→a”、“a→n”,構(gòu)建了6種漢語音素網(wǎng)絡(luò)[19]。結(jié)論發(fā)現(xiàn)音素網(wǎng)絡(luò)有相當(dāng)高的度和更短的平均路徑,音素的度分布符合指數(shù)分布,但有權(quán)音素網(wǎng)絡(luò)度分布符合無尺度分布,表明語音網(wǎng)絡(luò)是一種穩(wěn)定的網(wǎng)絡(luò)系統(tǒng)。
語音網(wǎng)絡(luò)主要以靜態(tài)網(wǎng)絡(luò)為主,動(dòng)態(tài)語音網(wǎng)絡(luò)研究較少。通過多組語音網(wǎng)絡(luò)的研究,可以發(fā)現(xiàn)語音網(wǎng)絡(luò)整體上的特點(diǎn),多種語言之間呈現(xiàn)出了比較接近的特征,但與字詞等其他類型語言網(wǎng)絡(luò)有不同的特征,尤其是在度分布上。可以認(rèn)為語音網(wǎng)絡(luò)是一種特殊結(jié)構(gòu)的網(wǎng)絡(luò),這種結(jié)構(gòu)保證語音系統(tǒng)是一種高效并且有效的人類交流系統(tǒng)[19],是人類語音在進(jìn)化過程中逐步演變的結(jié)果。通過語音網(wǎng)絡(luò)研究,有助于認(rèn)識(shí)語音系統(tǒng)的組織結(jié)構(gòu),了解人類在語音上的認(rèn)知機(jī)理以及語音交流系統(tǒng)的原理。
共現(xiàn)網(wǎng)絡(luò)是基于真實(shí)語料而構(gòu)建的網(wǎng)絡(luò),不同語料構(gòu)建的網(wǎng)絡(luò)會(huì)有所差異。共現(xiàn)網(wǎng)絡(luò)具有動(dòng)態(tài)性,屬于典型的動(dòng)態(tài)網(wǎng)絡(luò)。按照共現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)的構(gòu)成,還可以進(jìn)一步劃分為字共現(xiàn)網(wǎng)絡(luò)和詞共現(xiàn)網(wǎng)絡(luò)。詞共現(xiàn)網(wǎng)絡(luò)不論是在表意文字還是表音文字中均可構(gòu)建,字共現(xiàn)網(wǎng)絡(luò)存在于漢語等表意文字中。較早采用復(fù)雜網(wǎng)絡(luò)方法構(gòu)建的語言網(wǎng)絡(luò)是英文詞共現(xiàn)網(wǎng)絡(luò)[11]。共現(xiàn)網(wǎng)絡(luò)構(gòu)造比較方便,尤其是對(duì)于英文等不需要分詞的語言,非常容易構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),不需要大量的語言學(xué)知識(shí)支持,只需考慮共現(xiàn)關(guān)系,相關(guān)的研究也比較多。
對(duì)于共現(xiàn)關(guān)系,也有不同的理解,最簡單的共現(xiàn)是鄰接關(guān)系,也可以將共現(xiàn)理解為在一個(gè)句子中同時(shí)出現(xiàn)。Cancho和Sole認(rèn)為,在一個(gè)句子中出現(xiàn)的詞是有關(guān)系的,多數(shù)共現(xiàn)關(guān)系是有語法聯(lián)系的,最相關(guān)的詞一定是距離最近的。他們基于BNC語料庫,將同現(xiàn)的距離控制在2以內(nèi),構(gòu)建了英語的共現(xiàn)詞網(wǎng)絡(luò)[11],該網(wǎng)絡(luò)平均最短路徑在2.6左右,與隨機(jī)網(wǎng)絡(luò)相比,表現(xiàn)出明顯的無尺度特性和小世界效應(yīng)。Dorogovtsev和Mendes認(rèn)為,相互連接的詞可以用復(fù)雜網(wǎng)絡(luò)來描述,并且根據(jù)句子中詞的共現(xiàn)關(guān)系,提出了一個(gè)語言演變的模型[12],該模型將語言視為詞之間的自組織網(wǎng)絡(luò)。Choudhury和Chatterjee等對(duì)涵蓋了3大語系的7種語言[20](英語、法語、德語、孟加拉語、愛沙尼亞語、印地語、泰米爾語)構(gòu)建了詞共現(xiàn)網(wǎng)絡(luò),通過整體拓?fù)涮卣鬟M(jìn)行深入比較,揭示了7種語言網(wǎng)絡(luò)的共同特征,并進(jìn)一步研究了共現(xiàn)網(wǎng)絡(luò)的譜特征。
在中文詞共現(xiàn)研究中,劉知遠(yuǎn)和孫茂松在1 300萬詞次的《人民日報(bào)》語料和5 000萬字左右的人工分詞語料庫基礎(chǔ)上構(gòu)建了漢語的詞共現(xiàn)網(wǎng)絡(luò)[21],得到漢語詞共現(xiàn)網(wǎng)絡(luò)的平均最短路徑在2.63~2.75之間,聚類系數(shù)遠(yuǎn)大于相同參數(shù)下的隨機(jī)網(wǎng)絡(luò),揭示了漢語在詞共現(xiàn)網(wǎng)絡(luò)上的小世界效應(yīng)和無標(biāo)度特性,表現(xiàn)出了與英語共現(xiàn)詞網(wǎng)絡(luò)類似的性質(zhì)。Zhou和Hu等在1998年1月份的《人民日報(bào)》語料基礎(chǔ)上,采用不同方法構(gòu)造了兩種漢語詞無向同現(xiàn)網(wǎng)絡(luò)[22],一種是鄰接距離為1的網(wǎng)絡(luò),一種是只要兩個(gè)詞匯在一個(gè)句子中同時(shí)出現(xiàn),則認(rèn)為兩個(gè)詞節(jié)點(diǎn)存在連接的網(wǎng)絡(luò),并且考慮了不同詞性的情況,結(jié)果兩個(gè)網(wǎng)絡(luò)均呈現(xiàn)出小世界效應(yīng)、無尺度特征、層次結(jié)構(gòu)和負(fù)相關(guān)性,在整體特征上和其他語言網(wǎng)絡(luò)相似。
和英語等表音文字相比,漢語是表意文字,在構(gòu)建語言網(wǎng)絡(luò)上有更多選擇,在沒有分詞的情況下,還可以構(gòu)成字共現(xiàn)網(wǎng)絡(luò)。Peng和Minett等基于詞典資源,根據(jù)漢語詞匯中的共字關(guān)系構(gòu)建了漢字網(wǎng)絡(luò)[17],由漢字構(gòu)建的網(wǎng)絡(luò)表現(xiàn)出明顯的高聚集系數(shù)和無尺度特征。Liang和Shi等對(duì)散文、小說、科普文章、新聞報(bào)道4種體裁的中文和英文語料,分別構(gòu)建了英文詞共現(xiàn)網(wǎng)絡(luò)、中文字共現(xiàn)網(wǎng)絡(luò)和詞共現(xiàn)網(wǎng)絡(luò)[23],從復(fù)雜網(wǎng)絡(luò)角度揭示了3類語言網(wǎng)絡(luò)的共性和個(gè)性,其共同之處是均滿足無標(biāo)度特征和小世界現(xiàn)象,不同之處在于從某種程度上英文的表達(dá)要比中文更為簡潔。Liang和Shi等還對(duì)中國歷史上不同歷史時(shí)期的漢字網(wǎng)絡(luò)進(jìn)行了對(duì)比研究[24],發(fā)現(xiàn)99.6%的漢字網(wǎng)絡(luò)具有無尺度特征度分布,95.0%的漢字網(wǎng)絡(luò)有小世界的現(xiàn)象。Sheng和Li構(gòu)建了英文詞共現(xiàn)和中文字共現(xiàn)的有權(quán)網(wǎng)絡(luò)[25],語料分別來自George Orwell英文版小說《一九八四》和中文版的《毛澤東傳記》,結(jié)果發(fā)現(xiàn)兩個(gè)網(wǎng)絡(luò)不僅呈現(xiàn)出無尺度等共同特征,還呈現(xiàn)出顯著的不同,中文字共現(xiàn)網(wǎng)絡(luò)中高權(quán)重連接要高于英文詞共現(xiàn)網(wǎng)絡(luò)。
此外,詞共現(xiàn)網(wǎng)絡(luò)還被用來研究語言的演化,Ke和Yao基于英語兒童對(duì)話語料,采用詞共現(xiàn)方法構(gòu)建了不同兒童的語言網(wǎng)絡(luò)[26],從網(wǎng)絡(luò)視角研究了兒童語言的發(fā)展。
構(gòu)建詞共現(xiàn)網(wǎng)絡(luò)需要滿足一個(gè)重要假設(shè),即Cancho和Sole在構(gòu)建BNC英語詞共現(xiàn)網(wǎng)絡(luò)時(shí)的假設(shè)[11],在一個(gè)句子中以鄰接關(guān)系出現(xiàn)的兩個(gè)詞匯是有一定聯(lián)系的。詞共現(xiàn)網(wǎng)絡(luò)的每一個(gè)節(jié)點(diǎn)都是有意義的語言單位,通過調(diào)節(jié)詞共現(xiàn)的距離可以構(gòu)造一個(gè)句子內(nèi)部詞匯之間的連接,雖然很難將詞共現(xiàn)稱為句法網(wǎng)絡(luò),但鄰接詞之間的確有一定的意義。字共現(xiàn)網(wǎng)絡(luò)主要以漢語為代表,漢語是典型表意文字,具有獨(dú)特和優(yōu)美的結(jié)構(gòu),有強(qiáng)大的組合能力,古漢語中一個(gè)字往往可以表達(dá)一個(gè)完整的含義,但現(xiàn)代漢語由一個(gè)字表示完整詞意的比較少,多是由組合詞來表示詞意。漢語字共現(xiàn)網(wǎng)絡(luò)的構(gòu)建可以像英文詞共現(xiàn)網(wǎng)絡(luò)一樣,不需要分詞處理,這對(duì)于漢語研究來說,所構(gòu)建的網(wǎng)絡(luò)更為客觀,往往可以用來探索詞匯的形成以及字詞的演化。
依存語法理論的創(chuàng)立者,法國語言學(xué)家Tesnière認(rèn)為句子是一個(gè)有機(jī)的整體,詞和鄰近詞會(huì)產(chǎn)生聯(lián)系,這些聯(lián)系構(gòu)成了句子框架,并認(rèn)為“謂語”中的動(dòng)詞是句子的中心,不受其他成分支配,其他成分與動(dòng)詞直接或間接地產(chǎn)生聯(lián)系。圖2是依存句法的示例。
圖2 依存句法中英文示例
在圖2中,箭頭代表句法上的一種支配關(guān)系,支配者在箭頭起點(diǎn),被支配者在箭頭終點(diǎn)。Cancho和Sole等給出了依存句法網(wǎng)絡(luò)(SDN)的描述[27],SDN是一種有向網(wǎng)絡(luò),每個(gè)單詞構(gòu)成網(wǎng)絡(luò)的節(jié)點(diǎn),網(wǎng)絡(luò)的有向邊由存在依存關(guān)系的詞進(jìn)行連接。Cancho在依存句法基礎(chǔ)上,構(gòu)造了3種歐洲語言(德語、羅馬語、捷克語)依存句法網(wǎng)絡(luò)[28],從度分布、層次組織、中心性、聚集系數(shù)和負(fù)相關(guān)性等幾個(gè)統(tǒng)計(jì)特性進(jìn)行了分析,發(fā)現(xiàn)3種語言的句法網(wǎng)絡(luò)具有與其他語言網(wǎng)絡(luò)類似的特性,并且在一些細(xì)微的模式上表現(xiàn)出同質(zhì)性。
劉知遠(yuǎn)、鄭亞斌和孫茂松利用清華大學(xué)100萬詞的句法標(biāo)注樹庫,在依存句法基礎(chǔ)上,構(gòu)造了漢語依存句法有向網(wǎng)絡(luò)[29],得到了漢語依存句法網(wǎng)絡(luò)平均路徑長度
依存網(wǎng)絡(luò)句法結(jié)構(gòu)本身簡便,與共現(xiàn)網(wǎng)絡(luò)構(gòu)建相比,依存網(wǎng)絡(luò)的構(gòu)建需要依存句法標(biāo)注,顯得稍微復(fù)雜。和共現(xiàn)網(wǎng)絡(luò)相比,依存句法能夠較好展現(xiàn)詞與詞之間的句法關(guān)系。雖然基于詞共現(xiàn)的語言網(wǎng)絡(luò)比較易于構(gòu)建,但卻忽略了詞與詞之間的句法和語義的關(guān)系。基于依存句法構(gòu)建的語言網(wǎng)絡(luò)比基于詞共現(xiàn)構(gòu)建的語言網(wǎng)絡(luò)更具有語言學(xué)特征,依存句法網(wǎng)絡(luò)更容易獲得語言學(xué)領(lǐng)域的認(rèn)可。目前依存句法網(wǎng)絡(luò)研究和其他語言網(wǎng)絡(luò)研究一樣大多停留在宏觀層面上,需要進(jìn)一步的深入探索。另外,依存句法網(wǎng)絡(luò)也存在一些問題,一方面,依存句法網(wǎng)絡(luò)需要依存句法分析,單純的依存句法損失了節(jié)點(diǎn)的順序關(guān)系,不利于語言的生成;另一方面依存句法構(gòu)建的網(wǎng)絡(luò)和人腦的認(rèn)知網(wǎng)絡(luò)是否最為接近,還有待進(jìn)一步探究和證明。此外,句法網(wǎng)絡(luò)和詞共現(xiàn)網(wǎng)絡(luò)在整體的特性上也有很多相同之處,其原因也有待于進(jìn)一步探索。
語義概念網(wǎng)絡(luò)是從語義層面上構(gòu)建的較為深入的語言網(wǎng)絡(luò)。根據(jù)網(wǎng)絡(luò)構(gòu)建資源的不同,語義概念網(wǎng)絡(luò)可分為靜態(tài)語義概念網(wǎng)絡(luò)和動(dòng)態(tài)語義概念網(wǎng)絡(luò)。靜態(tài)語義概念網(wǎng)絡(luò)利用概念詞典資源構(gòu)建,動(dòng)態(tài)語義概念網(wǎng)絡(luò)基于真實(shí)標(biāo)注語料構(gòu)建。靜態(tài)語義網(wǎng)絡(luò)較為常見,該類型網(wǎng)絡(luò)的一個(gè)典型特征是靜態(tài)性,其構(gòu)建資源并不是真實(shí)語料。根據(jù)詞典資源的不同,還可以進(jìn)一步劃分,基于同義詞詞典可以構(gòu)成同義詞網(wǎng)絡(luò),基于概念詞典可以構(gòu)成概念網(wǎng)絡(luò)。詞典資源便于獲取并且精確度相對(duì)也比較高,相關(guān)的研究較多。
Sigman和Cecchi基于Wordnet概念詞典,構(gòu)造了基于WordNet中名詞語義網(wǎng)絡(luò)[37],該網(wǎng)絡(luò)以詞典中的名詞為節(jié)點(diǎn),以名詞之間的4種連接關(guān)系(上位關(guān)系hypernymy,反義關(guān)系antonomy,部分關(guān)系meronomy,一詞多義關(guān)系polysemy)作為語義網(wǎng)絡(luò)的邊,研究發(fā)現(xiàn)WordNet本身就是一個(gè)自組織系統(tǒng),遵從無尺度分布,并發(fā)現(xiàn)一詞多義對(duì)構(gòu)建整個(gè)語義網(wǎng)絡(luò)有重要作用。Motter和de Moura等基于Moby II同義詞詞典,構(gòu)建了英文概念網(wǎng)絡(luò)[38],該網(wǎng)絡(luò)以單詞為節(jié)點(diǎn),以單詞之間是否有同義關(guān)系構(gòu)建網(wǎng)絡(luò)的邊,發(fā)現(xiàn)該網(wǎng)絡(luò)具有較高的聚集系數(shù)(C=0.52)和較短的平均路徑長度(
基于詞典的語義網(wǎng)絡(luò)是靜態(tài)的,所反映的現(xiàn)象并不完全是語言在真實(shí)交流過程中的呈現(xiàn),但由于動(dòng)態(tài)語義標(biāo)注語料較困難,動(dòng)態(tài)語義概念網(wǎng)絡(luò)的研究較少。劉海濤通過對(duì)真實(shí)語料進(jìn)行語義角色標(biāo)注,構(gòu)造一種節(jié)點(diǎn)為實(shí)詞、連接為語義或論元關(guān)系的網(wǎng)絡(luò)[42],研究了漢語的動(dòng)態(tài)語義概念網(wǎng)絡(luò)的整體特征。雖然研究結(jié)果表明漢語動(dòng)態(tài)語義網(wǎng)絡(luò)也是小世界和無尺度的,但在一些特征上與依存句法網(wǎng)絡(luò)和靜態(tài)語義網(wǎng)絡(luò)有所不同。
與共現(xiàn)網(wǎng)絡(luò)和句法網(wǎng)絡(luò)相比,語義網(wǎng)絡(luò)是一種更為復(fù)雜的網(wǎng)絡(luò)。靜態(tài)語言網(wǎng)絡(luò)反映了概念之間的語義關(guān)系,如同義關(guān)系、上下位關(guān)系等。靜態(tài)語言網(wǎng)絡(luò)可以從一定角度上通過揭示這些語義關(guān)系來研究人腦中知識(shí)網(wǎng)絡(luò)的形成,對(duì)語義詞典的構(gòu)建和人類認(rèn)識(shí)的探索有一定幫助?;谡鎸?shí)語料的動(dòng)態(tài)語義概念網(wǎng)絡(luò),反映的是在真實(shí)環(huán)境中人類語言交流中的語義關(guān)系,可以用來研究語義產(chǎn)生的機(jī)理,深入了解動(dòng)態(tài)的概念交流網(wǎng)絡(luò)。
盡管語言網(wǎng)絡(luò)類型較多,但相關(guān)研究主要集中在前面提到的4種網(wǎng)絡(luò)上。除此之外,還有一些語言網(wǎng)絡(luò),關(guān)注度較少,或者僅存在于某一語言中。例如,漢語中的字結(jié)構(gòu)網(wǎng)絡(luò),這在英語等表音文字中是不存在的。根據(jù)漢字的構(gòu)成,Li和Zhou對(duì)新華字典中6 652個(gè)漢字進(jìn)行了拆解,構(gòu)造了漢字的部首網(wǎng)絡(luò)[43],如“按”可以拆分成“扌”和“安”兩個(gè)部首節(jié)點(diǎn),由于兩個(gè)部首可以組成漢字,那么這兩個(gè)節(jié)點(diǎn)之間存在連接,研究揭示了漢字部首網(wǎng)絡(luò)具有與其他真實(shí)語言網(wǎng)絡(luò)同樣的特性。另外,根據(jù)漢語詞組的組成,Li和Wei構(gòu)建了漢字詞組網(wǎng)絡(luò)[44],該網(wǎng)絡(luò)將詞組作為網(wǎng)絡(luò)的節(jié)點(diǎn),若兩個(gè)詞組節(jié)點(diǎn)中出現(xiàn)同一個(gè)漢字就認(rèn)為它們有一條連接,如“網(wǎng)球”、“網(wǎng)絡(luò)”、“絡(luò)繹不絕”便可以構(gòu)建3個(gè)節(jié)點(diǎn)兩條邊的詞組網(wǎng)絡(luò),研究發(fā)現(xiàn)漢字詞組網(wǎng)絡(luò)的平均最短路徑和聚類系數(shù)與英語單詞網(wǎng)絡(luò)類似,到達(dá)另一個(gè)詞組的平均距離為3,具有典型小世界特性。此外,王建偉和榮莉莉?qū)η迦A紫光數(shù)據(jù)庫中兩個(gè)字組成的詞構(gòu)建了中文字網(wǎng)絡(luò)[45],他們以選取的7 440個(gè)漢字作為網(wǎng)絡(luò)中的節(jié)點(diǎn),以詞中相鄰漢字為網(wǎng)絡(luò)的邊,研究表明中文字共現(xiàn)網(wǎng)絡(luò)具有真實(shí)網(wǎng)絡(luò)的統(tǒng)計(jì)特性(γ=1.15,C=0.451 6)。
通過對(duì)語言網(wǎng)絡(luò)研究的系統(tǒng)梳理,我們發(fā)現(xiàn),從語言最基本單位音素到句法結(jié)構(gòu),均可構(gòu)建相應(yīng)的語言網(wǎng)絡(luò)。從各種語言網(wǎng)絡(luò)的研究結(jié)果來看,依據(jù)不同方法、不同資源構(gòu)建的語言網(wǎng)絡(luò)幾乎均屬于小世界網(wǎng)絡(luò)并且具有無尺度特征,與其他復(fù)雜網(wǎng)絡(luò)具有類似的整體特征,但在具體特征參數(shù)上,存在著差別,這些共性和個(gè)性可以總結(jié)如下:
首先,語言是人類智慧的結(jié)晶,語言網(wǎng)絡(luò)具有與隨機(jī)網(wǎng)絡(luò)不同的特征。通過多種語言網(wǎng)絡(luò)的研究表明,無尺度特性和小世界現(xiàn)象在語言網(wǎng)絡(luò)中普遍存在。語言網(wǎng)絡(luò)的無尺度特征表明,在節(jié)點(diǎn)數(shù)量龐大的各種語言網(wǎng)絡(luò)中,發(fā)揮著重要作用僅有少部分節(jié)點(diǎn)。小世界現(xiàn)象表明,語言網(wǎng)絡(luò)和社會(huì)網(wǎng)絡(luò)一樣,一個(gè)節(jié)點(diǎn)到另外一個(gè)節(jié)點(diǎn)的最短距離往往很短。
其次,各種語言網(wǎng)絡(luò)在整體上呈現(xiàn)出類似的特性,但不同語言網(wǎng)絡(luò)之間存在著差別,如部分語音網(wǎng)絡(luò)的度并不完全符合冪律分布,漢語音素?zé)o權(quán)網(wǎng)絡(luò)的度呈現(xiàn)指數(shù)分布[19]。在語言網(wǎng)絡(luò)其他統(tǒng)計(jì)特征上,也存在顯著差異,如在凝聚度和最短路徑方面,和靜態(tài)語義概念網(wǎng)絡(luò)相比,動(dòng)態(tài)語義概念網(wǎng)絡(luò)凝聚度偏低,平均最短路徑較長,所組成的網(wǎng)絡(luò)顯得更為松散。對(duì)于動(dòng)態(tài)語言網(wǎng)絡(luò),不同的體裁、語種構(gòu)建的網(wǎng)絡(luò)也有所區(qū)別,這些都表明語言網(wǎng)絡(luò)不僅可以從整體上衡量語言的特性,還可以用來研究語言的個(gè)性化和相似性。
從音素、音節(jié)、字、詞、短語、句法到語義、概念,語言網(wǎng)絡(luò)研究層次在逐漸加深,但對(duì)于人類語言中的復(fù)雜問題依然沒有進(jìn)行很好的解釋,哪種語言網(wǎng)絡(luò)更貼近人類在語言交流時(shí)的語言系統(tǒng),語言表達(dá)中詞匯究竟是如何組織的,靜態(tài)語義概念在人類大腦中如何存儲(chǔ),目前的語言網(wǎng)絡(luò)研究還不能回答這些問題。
作為復(fù)雜網(wǎng)絡(luò)的一個(gè)子領(lǐng)域,語言網(wǎng)絡(luò)剛剛出現(xiàn)10年左右的時(shí)間,已經(jīng)在國際上產(chǎn)生了一定影響力的研究,受到了物理學(xué)、語言學(xué)、信息科學(xué)等多個(gè)領(lǐng)域的關(guān)注。總的來說,語言網(wǎng)絡(luò)研究進(jìn)展可以總結(jié)為以下幾點(diǎn)。
1) 語言網(wǎng)絡(luò)研究開創(chuàng)了語言學(xué)研究新方向
作為一門以經(jīng)驗(yàn)為基礎(chǔ)的學(xué)科,語言學(xué)在19世紀(jì)中葉開始成為一項(xiàng)獨(dú)立的研究,它是以其自身特征、規(guī)律作為學(xué)科對(duì)象進(jìn)行研究的一門學(xué)科。語言學(xué)的研究方法主要以定性、定量或定性結(jié)合定量為主,復(fù)雜網(wǎng)絡(luò)為語言學(xué)研究提供了一個(gè)全新的視角,借助現(xiàn)代信息技術(shù),將語言作為一個(gè)系統(tǒng),從整體和局部挖掘語言的規(guī)律,呈現(xiàn)語言節(jié)點(diǎn)之間的動(dòng)態(tài)連接性,是對(duì)當(dāng)前以字、詞、短語、句子和篇章范疇的語言學(xué)研究的深化。
2) 當(dāng)前時(shí)期是語言網(wǎng)絡(luò)研究的黃金時(shí)機(jī)
語言學(xué)規(guī)則是通過語言學(xué)專家根據(jù)經(jīng)驗(yàn)和內(nèi)省的知識(shí)總結(jié),存在著一定的局限性。面對(duì)浩瀚的語言文本,只能窺一面而不能知全貌,信息技術(shù)可以為超級(jí)復(fù)雜網(wǎng)絡(luò)的運(yùn)算提供便利途徑。此外,網(wǎng)絡(luò)上大量的電子資源為語言網(wǎng)絡(luò)研究提供了豐富語料來源。
3) 語言網(wǎng)絡(luò)已經(jīng)取得了一定研究成果
從已有研究來看,語言網(wǎng)絡(luò)研究已經(jīng)發(fā)現(xiàn)了之前所沒有關(guān)注的研究領(lǐng)域。將人類語言作為一個(gè)整體系統(tǒng),揭示了語言作為一個(gè)有機(jī)系統(tǒng)具有真實(shí)網(wǎng)絡(luò)的特征,發(fā)現(xiàn)了語言的一些共性,如語言網(wǎng)絡(luò)中的核心節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)的構(gòu)成中發(fā)揮著重要作用;超越單個(gè)以句子為單位的分析;一個(gè)語言節(jié)點(diǎn)對(duì)整個(gè)語言網(wǎng)絡(luò)都有一定的作用;語言網(wǎng)絡(luò)不同于隨機(jī)網(wǎng)絡(luò);語言網(wǎng)絡(luò)的鄰接節(jié)點(diǎn)發(fā)生連接的概率要遠(yuǎn)大于隨機(jī)網(wǎng)絡(luò)等。
4) 語言網(wǎng)絡(luò)有別于其他網(wǎng)絡(luò)
雖然目前的研究從多種角度揭示了語言網(wǎng)絡(luò)具有和大部分真實(shí)網(wǎng)絡(luò)一樣的特征,但不能忽視語言網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的不同之處。如引文網(wǎng)絡(luò)是一種獨(dú)特的網(wǎng)絡(luò),一種典型的不連通網(wǎng)絡(luò),從時(shí)間上說,被引文獻(xiàn)節(jié)點(diǎn)一般只能出現(xiàn)在引文的時(shí)間之前。語言是一種有向網(wǎng)絡(luò),如果構(gòu)建的是無向語言網(wǎng)絡(luò),這樣就忽視了詞的先后順序的問題,而詞的先后順序是影響語言生成機(jī)制的重要因素。所以在研究網(wǎng)絡(luò)共性的同時(shí),不能忽視語言網(wǎng)絡(luò)的個(gè)性,這些個(gè)性特征對(duì)于語言的識(shí)別和區(qū)別均是關(guān)鍵問題。
5) 語言網(wǎng)絡(luò)研究是一門跨學(xué)科的研究
語言網(wǎng)絡(luò)研究屬于典型的跨學(xué)科研究,不是一個(gè)學(xué)科所能解決的問題,需要將語言學(xué)、物理學(xué)、數(shù)學(xué)、信息科學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)等多個(gè)學(xué)科知識(shí)融合起來。目前來自物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)的研究者對(duì)該領(lǐng)域進(jìn)行了關(guān)注,語言學(xué)領(lǐng)域的研究者還比較少。不同學(xué)科的關(guān)注視角也有所不同,物理學(xué)、數(shù)學(xué)注重網(wǎng)絡(luò)機(jī)理研究,語言學(xué)偏重于從定性的角度進(jìn)行研究。目前這些領(lǐng)域的研究還是基本處在孤立的狀態(tài),未能真正實(shí)現(xiàn)多學(xué)科的交叉融合。語言網(wǎng)絡(luò)研究的時(shí)期已經(jīng)來臨,迫切需要多學(xué)科領(lǐng)域的研究人員進(jìn)行協(xié)作研究,解決目前語言中還難以回答的問題。
6) 構(gòu)建合適的語言網(wǎng)絡(luò)
究竟采用什么樣的方式構(gòu)建語言網(wǎng)絡(luò)是合適的,這個(gè)問題又回到了語言網(wǎng)絡(luò)的本質(zhì)問題上,采用復(fù)雜的方式還是采用簡便的方式,雖然在依存句法關(guān)系中,僅有50%左右的連接屬于鄰接詞,但依存網(wǎng)絡(luò)就是在真實(shí)交流系統(tǒng)中,反映在人腦中的語言網(wǎng)絡(luò)嗎?可以直接用于失語癥患者的治療嗎?如果不是真實(shí)網(wǎng)絡(luò),那么到底有多接近呢?經(jīng)驗(yàn)語言學(xué)還回答不了這些問題,筆者認(rèn)為,從認(rèn)知的語言角度,如果能結(jié)合真實(shí)環(huán)境下的人腦所建構(gòu)的語言復(fù)雜網(wǎng)絡(luò),應(yīng)該有更大的應(yīng)用前景。要想更深入研究人腦中的語言網(wǎng)絡(luò),需要認(rèn)知語言學(xué)和心理學(xué)領(lǐng)域的結(jié)合,而不僅僅是局限于網(wǎng)絡(luò)整體的研究,而應(yīng)將更多的研究著眼于局部細(xì)節(jié)。
7) 語言網(wǎng)絡(luò)研究還有待深入
目前的語言網(wǎng)絡(luò)研究主要還停留在整體層面,針對(duì)語言網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)的深入研究還非常少,目前語言學(xué)界等領(lǐng)域的研究者已經(jīng)意識(shí)到該問題,逐漸將目光投向網(wǎng)絡(luò)內(nèi)部。
語言網(wǎng)絡(luò)不是一個(gè)泛泛的理論研究,相關(guān)研究已經(jīng)應(yīng)用于信息檢索[46]、機(jī)器翻譯[47]、詞義消歧[48]、自動(dòng)文摘[49]、關(guān)鍵詞提取[50]、情感分析[51]、失語癥患者治療研究[52]等領(lǐng)域。語言網(wǎng)絡(luò)的研究才剛剛起步,我國學(xué)者已經(jīng)緊隨這一潮流,目前在語言網(wǎng)絡(luò)領(lǐng)域中已經(jīng)占有一席之地,尤其是在漢語語言網(wǎng)絡(luò)領(lǐng)域。漢語作為最古老的語言之一,也是目前使用人數(shù)最多的語言,其研究不僅可以解決漢語語言中的問題,還對(duì)英語、日語等其他語言研究有重要的啟發(fā)。我們期待在各學(xué)科領(lǐng)域的全力協(xié)作下,語言網(wǎng)絡(luò)研究能取得一定進(jìn)展。
[1] Watts D J, Strogatz S H. Collective dynamics of small-world networks[J].Nature,1998,393:440-442.
[2] Barabasi A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286:509-512.
[3] 汪小帆,李翔,陳關(guān)榮. 復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京: 清華大學(xué)出版社,2006.
[4] 陳關(guān)榮. 復(fù)雜網(wǎng)絡(luò)及其新近研究進(jìn)展簡介[J].力學(xué)進(jìn)展, 2008,38(06): 653-662.
[5] Crystal D. The Cambridge Encyclopedia of Language[M].London: Cambridge University Press, Cambridge, UK, 1997.
[6] George K. Zipf. Human Behaviour and the Principle of Least-Effort[M]. London: Addison-Wesley, Cambridge MA, 1949.
[7] Jayaram B D, Vidya M N. Zipf’s Law for Indian Languages[J]. Journal of Quantitative Linguistics, 2008, 15(04):293-317.
[8] Tuzzi A, Popescu I-I, Altmann G. Zipf’s Laws in Italian Texts[J]. Journal of Quantitative Linguistics, 2009, 16(04):354-367.
[9] 游榮彥. Zipf 定律與漢字字頻分布[J].中文信息學(xué)報(bào), 2000, 14(03): 60-65.
[10] Wang D, Li M, Di Z. True reason for Zipf’s law in language[J].Physica A,2005,358(02):545-550.
[11] Cancho R F I, Sole R V. The Small World of Human Language[C]//Proceedings of the Royal Society of London Series B-Biological Sciences, 2001, 268(1482): 2261-2265.
[12] Dorogovtsev S N, Mendes J F F. Language as an evolving word web[C]//Proceedings of The Royal Society of London. Series B, Biological Sciences, 2001,268(1485):2603-2606.
[13] 劉海濤. 語言網(wǎng)絡(luò):隱喻,還是利器?[J]. 浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2011,41(02):170-180.
[14] Freeman L C. A Set of Measures of Centrality Based on Betweenness[J].Sociometry,1979(40):35-41.
[15] 陳芯瑩,劉海濤. 漢語句法網(wǎng)絡(luò)的中心節(jié)點(diǎn)研究[J].科學(xué)通報(bào), 2011,56(10):735-740.
[16] Medeiros Soares M, Corso G, Lucena L. The network of syllables in Portuguese[J]. Physica A,2005, 355(02): 678-684.
[17] Peng G, Minett J W, Wang W S Y. The networks of syllables and characters in Chinese[J]. Journal of Quantitative Linguistics. 2008,15(03): 243-255.
[18] Arbesman S, Strogatz S H, Vitevitch M S. The Structure of Phonological Networks Across Multiple Languages[J].International Journal of Bifurcation and Chaos,2010,20(03): 679-685.
[19] Yu S, Liu H, Xu C. Statistical properties of Chinese phonemic networks[J]. Physica A,2011, 390(07): 1370-1380.
[20] Choudhury M, Chatterjee D, Mukherjee A. Global topology of word co-occurrence networks: Beyond the two-regime power-law[C]//Association for Computational Linguistics, Beijing,2010,162-170.
[21] 劉知遠(yuǎn),孫茂松. 漢語詞同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性[J].中文信息學(xué)報(bào),2007,21(06): 52-58.
[22] Zhou S, Hu G, Zhang Z, et al. An empirical study of Chinese language networks[J]. Physica A, 2008, 387(12):3039-3047.
[23] Liang W, Shi Y, Tse C K,et al. Comparison of co-occurrence networks of the Chinese and English languages[J]. Physica A, 2009, 388(23): 4901-4909.
[24] Liang W, Tse C K, Huang Q, et.al. Study on the co-occurrence of character networks in Chinese essays from different periods[J]. Science in China Ser. F, 2011,accepted.
[25] Sheng L, Li C. English and Chinese languages as weighted complex networks[J]. Physica A,2009, 388(12): 2561-2570.
[26] Ke J, Yao Y. Analyzing language development from a network approach[J]. Journal of Quantitative Linguistics, 2008,15(01):70-99.
[27] Cancho R F I, Solé R V, K?hler R. Patterns in Syntactic Dependency Networks[J]. Physical Review E, 2004. 69(05): 051915.
[28] Cancho R F I. The Euclidean distance between syntactically linked words[J], Physical Review E, 2004,70(05): 056135.
[29] 劉知遠(yuǎn),鄭亞斌,孫茂松. 漢語依存句法網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)性質(zhì)[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2008,5(2):37-45.
[30] Liu H T. Dependency Distance as a Metric of Language Comprehension Difficulty[J]. Journal of Cognitive Science,2008, 9(02):159-191.
[31] Liu H T. The complexity of Chinese syntactic dependency networks [J]. Physica A, 2008, 387(12):3048-3058.
[32] 劉海濤. 依依存語法的理論與實(shí)踐[M]. 北京: 科學(xué)出版社, 2009.
[33] 劉海濤. 語言復(fù)雜網(wǎng)絡(luò)的聚類研究[J]. 科學(xué)通報(bào), 2010, 55: 2667-2674.
[34] Cancho R F I, Capocci A, Caldarelli G. Spectral methods cluster words of the same class in a syntactic dependency network[J]. International Journal of Bifurcation and Chaos, 2007, 17(07):2453-2463.
[37] Sigman M, Cecchi G A. Global organization of the Wordnet lexicon[C]//Proceedings of the National Academy of Sciences of the United States of America, 2002. 99(03): 1742-1747
[38] Motter A E, de Moura A P S, Lai Y C, et al.Topology of the conceptual network of language[J]. Physical Review E,2002, 65(06):065102.
[39] Holanda A J, Pisa I T, Kinouchi O, et al. Thesaurus as a complex network[J]. Physica A , 2004,344(03-04):530-536.
[40] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks:statistical analyses and a model of semantic growth[J].Cognitive Science,2005,29(01):41-78.
[41] Tang L, Zhang Y G, Fu X. The Statistic Properties of Chinese Semantic Network in HowNet[C]//Proceedings of NLP-KE’05, 2005,58-61.
[42] Liu H T. Statistical properties of Chinese semantic networks[J]. Chinese Science Bulletin,2009,(16): 2781-2785.
[43] Li J Y, Zhou J. Chinese character structure analysis based on complex networks[J]. Physica A,2007, 380(01):629-638.
[44] Li Y, Wei L, Li Wei, et al. small-world patterns in Chinese phrase networks[J]. Chinese Science Bulletin, 2005, 50(3): 286-288.
[45] 王建偉, 榮莉莉. 基于復(fù)雜網(wǎng)絡(luò)理論的中文字字網(wǎng)絡(luò)的實(shí)證研究[J]. 大連海事大學(xué)學(xué)報(bào), 2008, 34(4): 15-18.
[46] Veronis J. Hyperlex: lexical cartography for information retrieval[J]. Computer Speech & Language, 2004:18(03): 223-252.
[47] Amancio D R, Antiqueira L, Pardo T A S, et al. Complex networks analysis of manual and machine translations[J].International Journal of Modern Physics C,2008, 19 (04):583-598.
[48] Tsatsaronis G, Varlamis I, N?rv?g K. An experimental study on unsupervised graph-based word sense disambiguation[C]//Proceedings of Computational Linguistics and Intelligent Text Processing, 11th International Conference, CICLing2010, Iasi, Romania, March 21-27, 2010: 184-198.
[49] Antiqueira L, Oliveira Jr O N, Costa, et al. A complex network approach to text summarization[J]. Information Sciences,2009,79(05), 584-599.
[50] 趙鵬,蔡慶生,王清毅,等.一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J].模式識(shí)別與人工智能,2007, 20(06):827-831.
[51] 余傳明, 周丹. 情感詞匯共現(xiàn)網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)特性分析[J].情報(bào)學(xué)報(bào),2010,29(05):906-914.
[52] 江鐘立, 林楓, 孟殿懷.復(fù)雜適應(yīng)性系統(tǒng)理論在言語認(rèn)知康復(fù)中的應(yīng)用前景[J].中國康復(fù)醫(yī)學(xué)雜志, 2006, 21(2):183-185.