曹茂元等
摘要:當(dāng)前對(duì)于漢語(yǔ)語(yǔ)義層次的語(yǔ)言網(wǎng)絡(luò)研究方法僅限于靜態(tài)詞典生成以及人工手動(dòng)生成兩種方法,具有很大的局限性。對(duì)此,該文從大規(guī)模語(yǔ)料庫(kù)生成的語(yǔ)義空間出發(fā),結(jié)合語(yǔ)義空間豐富的語(yǔ)義信息和義類詞典資源,提出一種新穎的基于分布語(yǔ)義的語(yǔ)義網(wǎng)絡(luò)構(gòu)建策略,并在此基礎(chǔ)上探究了由不同性質(zhì)的語(yǔ)義空間所構(gòu)建的語(yǔ)義網(wǎng)絡(luò)的統(tǒng)計(jì)特性。相比前人的方法,該文提出的方法優(yōu)勢(shì)在于無(wú)需依賴人工標(biāo)注,支持大規(guī)模動(dòng)態(tài)語(yǔ)料的網(wǎng)絡(luò)自動(dòng)構(gòu)建。實(shí)驗(yàn)結(jié)果表明,語(yǔ)義網(wǎng)絡(luò)具有復(fù)雜網(wǎng)絡(luò)兩個(gè)典型的特性:小世界效應(yīng)和無(wú)標(biāo)度特性。此外,由于語(yǔ)義網(wǎng)絡(luò)描述的是詞之間最為本質(zhì)的語(yǔ)義關(guān)系,與不同文體中的措辭、使用習(xí)慣、風(fēng)格等不存在直接的關(guān)系,因此當(dāng)語(yǔ)義網(wǎng)絡(luò)節(jié)點(diǎn)到達(dá)一定規(guī)模時(shí),語(yǔ)義網(wǎng)絡(luò)的某些統(tǒng)計(jì)特性可能會(huì)趨于一致。
關(guān)鍵詞:語(yǔ)義網(wǎng)絡(luò);語(yǔ)義空間;小世界;無(wú)標(biāo)度
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7703-07
復(fù)雜網(wǎng)絡(luò)研究方法的出現(xiàn)使對(duì)語(yǔ)言網(wǎng)絡(luò)進(jìn)行大規(guī)模實(shí)證性研究成為可能[1]。語(yǔ)義研究是當(dāng)前研究的熱點(diǎn),如何借助復(fù)雜網(wǎng)絡(luò)方法研究語(yǔ)言的語(yǔ)義特性是一個(gè)十分關(guān)鍵的問(wèn)題。唐璐、張永光等[2]在兩個(gè)大型詞典HowNet和WordNet基礎(chǔ)上,利用詞典信息構(gòu)建了兩個(gè)語(yǔ)義網(wǎng)絡(luò)。劉海濤[3]通過(guò)人工語(yǔ)義標(biāo)注的語(yǔ)料,構(gòu)建了一個(gè)小型的語(yǔ)義網(wǎng)絡(luò),借此探究語(yǔ)義網(wǎng)絡(luò)的復(fù)雜特性。Steyvers 和Tnenenbaum[4]利用WordNet、羅杰分類詞典等資源分別構(gòu)建了大規(guī)模英語(yǔ)語(yǔ)義網(wǎng)絡(luò),并對(duì)其進(jìn)行復(fù)雜統(tǒng)計(jì)分析。但現(xiàn)有的工作依賴手工標(biāo)注或者完全借助詞典(如WordNet)的方法來(lái)構(gòu)建語(yǔ)義網(wǎng)絡(luò),這些方法數(shù)據(jù)規(guī)模小,移植拓展性差,無(wú)法很好的說(shuō)明問(wèn)題。而分布語(yǔ)義是語(yǔ)義表示的重要方法,由大規(guī)模語(yǔ)料所構(gòu)建的語(yǔ)義空間里已經(jīng)包含了可以計(jì)算的語(yǔ)義信息。其優(yōu)勢(shì)是不需要依賴人工標(biāo)注,可以從語(yǔ)料中獲得大量語(yǔ)義表示。如果能從大規(guī)模分布語(yǔ)義空間中自動(dòng)構(gòu)建語(yǔ)義網(wǎng)絡(luò)并應(yīng)用復(fù)雜網(wǎng)絡(luò)方法加以探究,則將能很好地推動(dòng)語(yǔ)義網(wǎng)絡(luò)復(fù)雜特性方面的研究。該文將開(kāi)展這方面的工作。該文主要關(guān)注中文的情況,但相關(guān)的方法也可以擴(kuò)展到其他語(yǔ)言。
Harris提出語(yǔ)言學(xué)的分布假設(shè)[8]:兩個(gè)詞之間的相似度可由它們共現(xiàn)詞的分布相似度近似,換而言之,即具有相似上下文的詞具有相似語(yǔ)義。這里,我們對(duì)基于分布假設(shè)理論計(jì)算的相似度給出定義,稱為分布語(yǔ)義相似度:
定義1.1 分布語(yǔ)義相似度,指在分布假設(shè)理論下,通過(guò)借助上下文共現(xiàn)分布的相似性對(duì)兩個(gè)詞相似性進(jìn)行的度量。
從上文可知,分布語(yǔ)義相似度的計(jì)算是根據(jù)兩個(gè)詞語(yǔ)出現(xiàn)的上下文重疊程度計(jì)算它們之間的相似度,換而言之,上下文背景越相似,詞的相似度就越大。目前對(duì)分布語(yǔ)義的表示、比較,采用的是基于向量空間模型的語(yǔ)義空間的方法[9]。由于語(yǔ)義空間內(nèi)蘊(yùn)含著豐富的語(yǔ)義信息,因此在語(yǔ)義空間的基礎(chǔ)上構(gòu)建語(yǔ)義網(wǎng)絡(luò)是具有理論依據(jù)且十分有意義的。
2 語(yǔ)義網(wǎng)絡(luò)構(gòu)建算法
2.2 節(jié)點(diǎn)拓展
利用語(yǔ)義空間自帶的豐富的語(yǔ)義信息可以計(jì)算兩個(gè)詞之間的分布語(yǔ)義相似度,將相似度高于一定閾值的兩個(gè)詞連邊,認(rèn)為二者具有語(yǔ)義關(guān)系,從而將語(yǔ)義空間拓展成對(duì)應(yīng)的語(yǔ)義網(wǎng)絡(luò)。
對(duì)每一個(gè)當(dāng)前進(jìn)行拓展的新節(jié)點(diǎn)(拓展詞)分配集合NewSet保存該節(jié)點(diǎn)拓展信息,集合OldSet保存已拓展詞的歷史信息??紤]到復(fù)雜度以及作為基元(維度)的詞的豐富語(yǔ)義信息,該文采用貪心思想進(jìn)行節(jié)點(diǎn)的拓展來(lái)生成語(yǔ)義網(wǎng)絡(luò),即假定詞w1的語(yǔ)義向量對(duì)應(yīng)某基元的值大于某個(gè)閾值e,則認(rèn)為詞w1與該基元存在語(yǔ)義關(guān)系,則將二者相連,并將拓展到的節(jié)點(diǎn)(基元)加入集合NewSet。在此假定下,繼續(xù)按相同方法拓展基元直至無(wú)可再拓展基元,則認(rèn)為該詞w1拓展結(jié)束。為防止出現(xiàn)不連通圖,即若出現(xiàn)NewSet和OldSet兩集合不相交的情況,則以概率1/size(OldSet)將兩個(gè)集合進(jìn)行連邊,否則計(jì)算拓展詞與OldSet里非基元詞的相似度進(jìn)行連邊。最后將NewSet并入OldSet中。
按本節(jié)所提算法對(duì)語(yǔ)義空間進(jìn)行邊的拓展生成語(yǔ)義網(wǎng)絡(luò),但發(fā)現(xiàn)其與人工標(biāo)注生成的語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)存在較大的差異,主要原因是由于語(yǔ)義分布相似度描述的特性混合了相似性與相關(guān)性,因此產(chǎn)生了多余的、與語(yǔ)義分析相違背的連邊,故需要對(duì)所生成的初始語(yǔ)義網(wǎng)絡(luò)里不合理的邊進(jìn)行過(guò)濾,以生成更接近人工生成的語(yǔ)義網(wǎng)絡(luò)。
2.3 過(guò)濾不合理的連接
本節(jié)首先對(duì)相似性和相關(guān)性給出定義及其度量方法,再據(jù)此提出2條啟發(fā)式的過(guò)濾規(guī)則,實(shí)現(xiàn)對(duì)語(yǔ)義網(wǎng)絡(luò)里不合理的連接進(jìn)行過(guò)濾。
4 總結(jié)及展望
語(yǔ)義網(wǎng)絡(luò)介于句法網(wǎng)絡(luò)和概念網(wǎng)絡(luò)之間,是人類知識(shí)的高級(jí)表示。而當(dāng)前對(duì)語(yǔ)義網(wǎng)絡(luò)的研究?jī)H有人工手動(dòng)生成與使用義類詞典資源兩種方式,對(duì)進(jìn)行大規(guī)模語(yǔ)義網(wǎng)絡(luò)研究有很大的局限性。由于語(yǔ)義空間內(nèi)蘊(yùn)含著大量準(zhǔn)確而豐富的語(yǔ)義信息,因此本文提出了基于語(yǔ)義空間和義類詞典資源結(jié)合的語(yǔ)義網(wǎng)絡(luò)生成算法,能夠?qū)Υ笠?guī)模語(yǔ)料進(jìn)行語(yǔ)義網(wǎng)絡(luò)復(fù)雜特性的探究,網(wǎng)絡(luò)節(jié)點(diǎn)更加豐富,更能體現(xiàn)語(yǔ)言在真實(shí)文本中的動(dòng)態(tài)特性。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):基于語(yǔ)義空間生成的語(yǔ)義網(wǎng)絡(luò)符合小世界和無(wú)標(biāo)度特性;當(dāng)語(yǔ)義網(wǎng)絡(luò)節(jié)點(diǎn)到達(dá)一定規(guī)模時(shí),語(yǔ)義網(wǎng)絡(luò)的某些統(tǒng)計(jì)特性可能會(huì)趨于一致;一定規(guī)模下,不同方式生成的語(yǔ)義空間對(duì)最終生成的語(yǔ)義網(wǎng)絡(luò)的某些統(tǒng)計(jì)特性不會(huì)造成重大的影響。未來(lái)的工作主要有:分布語(yǔ)義受訓(xùn)練文本的影響較大,也僅能表現(xiàn)出現(xiàn)在文本內(nèi)的語(yǔ)義,因此在一個(gè)更大規(guī)模語(yǔ)料上進(jìn)行本文的研究是必要的;當(dāng)前對(duì)語(yǔ)言網(wǎng)絡(luò)的研究還多局限于總體宏觀統(tǒng)計(jì)特性,在未來(lái)的研究工作中應(yīng)該關(guān)注于復(fù)雜網(wǎng)絡(luò)局部所表現(xiàn)出的特性,比如社區(qū)發(fā)現(xiàn)等。
參考文獻(xiàn):
[1] 劉海濤.語(yǔ)言網(wǎng)絡(luò):隱喻,還是利器? [J].浙江大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版,2011,41(2):169-180.
[2] Tang L, Zhang Y G, Fu X. Structures of semantic networks: How do we learn semantic knowledge[J]. Journal of Southeast University (English Edition), 2006, 22(3):413-417.endprint
[3] 劉海濤.漢語(yǔ)語(yǔ)義網(wǎng)絡(luò)的統(tǒng)計(jì)特性[J].科學(xué)通報(bào),2009,54(16):2781-1785.
[4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.
[5] 汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.
[6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.
[7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.
[8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.
[9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.
[10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.
[11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.
[12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.
[13] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集.臺(tái)北,2002,7:59-76.
[14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint
[3] 劉海濤.漢語(yǔ)語(yǔ)義網(wǎng)絡(luò)的統(tǒng)計(jì)特性[J].科學(xué)通報(bào),2009,54(16):2781-1785.
[4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.
[5] 汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.
[6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.
[7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.
[8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.
[9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.
[10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.
[11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.
[12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.
[13] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集.臺(tái)北,2002,7:59-76.
[14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint
[3] 劉海濤.漢語(yǔ)語(yǔ)義網(wǎng)絡(luò)的統(tǒng)計(jì)特性[J].科學(xué)通報(bào),2009,54(16):2781-1785.
[4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.
[5] 汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.
[6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.
[7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.
[8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.
[9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.
[10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.
[11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.
[12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.
[13] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集.臺(tái)北,2002,7:59-76.
[14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint