国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語義增強型全文本共詞網(wǎng)絡(luò)的構(gòu)建與分析

2023-11-21 09:48:48趙一鳴尹嘉穎
情報學(xué)報 2023年10期
關(guān)鍵詞:跨距共詞增強型

趙一鳴,尹嘉穎

(1. 武漢大學(xué)信息資源研究中心,武漢 430072;2. 武漢大學(xué)信息管理學(xué)院,武漢 430072;3. 武漢大學(xué)大數(shù)據(jù)研究院,武漢 430072;4. 武漢大學(xué)圖書情報國家級實驗教學(xué)示范中心,武漢 430072)

0 引 言

共詞分析是圖書情報學(xué)最常用的方法之一,其研究重心已經(jīng)從關(guān)鍵詞共現(xiàn)分析演變?yōu)槊嫦蛉谋镜墓苍~分析。自然語言文本是一種復(fù)雜動態(tài)系統(tǒng),呈現(xiàn)高度的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)[1],構(gòu)造一個可靠的詞匯網(wǎng)絡(luò)是自然語言文本理解與分析的重要環(huán)節(jié)[2]。通過不同的詞匯網(wǎng)絡(luò),可以解決詞義辨析[3]、主題建模與識別[4-5]、作者畫像[6]、關(guān)鍵詞提取[7]等問題。然而,由于語言的復(fù)雜性,單一維度的詞匯網(wǎng)絡(luò)在實際應(yīng)用中存在較多缺陷,如難以揭示詞匯共現(xiàn)的同量不同質(zhì)現(xiàn)象、基于共詞網(wǎng)絡(luò)的下游任務(wù)結(jié)果(如詞匯聚類得到的類團(tuán))缺乏解釋性等。同時,雖然利用詞匯的共現(xiàn)關(guān)系能夠促成許多有價值的研究,但是促成詞匯共同出現(xiàn)的“介質(zhì)”是什么,目前仍未有定論[8]。

傳統(tǒng)的共詞網(wǎng)絡(luò)研究通常把每一次共現(xiàn)都看作無差異的,僅僅是利用其共現(xiàn)的頻次特征開展進(jìn)一步研究。實際上,詞匯共現(xiàn)具有典型的“同量不同質(zhì)”特征,同樣兩個詞在不同場景下的共現(xiàn)具有多維度的差異性。換句話說,一個共現(xiàn)詞對可以擁有除共現(xiàn)頻次特征之外的更豐富的內(nèi)涵,如共現(xiàn)詞之間的多重語義關(guān)系、共現(xiàn)詞在原始文本中的跨距等。這些豐富內(nèi)涵的揭示對于詞匯共現(xiàn)研究、共詞網(wǎng)絡(luò)研究具有重要意義。

本文提出了一種語義增強型的共詞網(wǎng)絡(luò)的構(gòu)造和分析方法,通過拓展共詞網(wǎng)絡(luò)中共現(xiàn)詞匯的語義知識及其本身的共現(xiàn)特征、網(wǎng)絡(luò)特征來構(gòu)建共詞網(wǎng)絡(luò),并結(jié)合語義學(xué)的相關(guān)理論進(jìn)行分析。通過構(gòu)建并分析語義增強型全文本共詞網(wǎng)絡(luò),可以提升詞匯聚類結(jié)果的可解釋性,還可以通過詞匯的結(jié)伴、結(jié)群關(guān)系反映詞匯在語言系統(tǒng)中的作用等。

1 相關(guān)工作

為了探究語言構(gòu)建過程中的詞匯組織,F(xiàn)errer i Cancho 等[9]基于英語國家語料庫(British National Corpus,BNC)構(gòu)建了全文本詞匯共現(xiàn)網(wǎng)絡(luò),并發(fā)現(xiàn)了共詞網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性。之后,共詞網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性也在新聞[10]、軍事[11]、文獻(xiàn)關(guān)鍵詞[12]等語料庫或數(shù)據(jù)集構(gòu)建的共詞網(wǎng)絡(luò)中得到了驗證。

已有的全文本共詞網(wǎng)絡(luò)的構(gòu)造模型主要有n階Markov 同現(xiàn)模型[2]、詞相似模型[13]、詞共現(xiàn)矩陣[14-15]等。其核心思想是以詞作為網(wǎng)絡(luò)的節(jié)點,通過測量兩個詞之間的共現(xiàn)來構(gòu)造節(jié)點的邊。

一些學(xué)者開始突破單純的共現(xiàn)關(guān)系,引入共現(xiàn)強度、TF-IDF(term frequency-inverse document frequency)值、語義相關(guān)度等因素來改進(jìn)共詞網(wǎng)絡(luò)的權(quán)重[16]。此外,有學(xué)者在共詞網(wǎng)絡(luò)上引入了方向、時間等各種維度,從而構(gòu)建有向、加權(quán)、時序等共詞網(wǎng)絡(luò)[17]。隨著復(fù)雜網(wǎng)絡(luò)理論的發(fā)展,共詞網(wǎng)絡(luò)被廣泛應(yīng)用于信息檢索、文本分析、話題與熱點發(fā)現(xiàn)等領(lǐng)域。

語義網(wǎng)絡(luò)及知識圖譜的發(fā)展為詞匯共現(xiàn)研究提供了新的契機(jī)。通過詞典或語料庫等語言資源構(gòu)造的語義網(wǎng)絡(luò),可以反映人類儲存知識的方式和結(jié)構(gòu)[2]。在語義網(wǎng)絡(luò)中,節(jié)點一般是概念或?qū)嵲~,節(jié)點之間的邊表示節(jié)點的語義關(guān)系,如等同關(guān)系、等級關(guān)系以及相關(guān)關(guān)系等?,F(xiàn)有的主流語義知識庫包括Cyc、WordNet、ConceptNet、Freebase、DBpedia、Wikidata、BabelNet、YAGO、NELL (Never-Ending Language Learner)、Zhishi.me 等。這些知識庫為各種自然語言相關(guān)研究提供了廣泛的語義知識資源,如概念間的語義關(guān)系、概念的語義表示、知識推理等。Yang 等[18]為解決基于單詞的主題檢測模型準(zhǔn)確率較低的問題,在詞匯共現(xiàn)的基礎(chǔ)上提出了膠囊語義圖來進(jìn)行新聞主題檢測。

結(jié)合語義網(wǎng)絡(luò)中的語義知識能夠很好地從認(rèn)知角度描述共現(xiàn)詞匯之間的關(guān)系。Shi 等[19]使用預(yù)訓(xùn)練語言模型得到的詞向量結(jié)合文檔中的詞義共現(xiàn),提出了一種新的文本表示方法,從而能夠靈活地進(jìn)行跨平臺和跨內(nèi)容的新聞推薦。趙一鳴等[20]提出了一種融合概念知識圖譜的中文文本語義圖的構(gòu)建方法,解決了傳統(tǒng)文本表示方法中語義缺失的問題。馮佳等[21]基于語義知識構(gòu)建了詞匯間的語義距離,改進(jìn)了共詞矩陣分析方法。王忠義等[22]為解決共現(xiàn)詞對間同量不同質(zhì)的問題,通過關(guān)聯(lián)數(shù)據(jù)對共現(xiàn)詞的統(tǒng)計單元進(jìn)行碎片化處理,利用LDA (latent Dirichlet allocation)主題模型將詞匯的語義信息融入共詞分析中,使基于詞匯共現(xiàn)聚類出的類團(tuán)更具有實際意義。

然而,現(xiàn)有的將語義網(wǎng)絡(luò)應(yīng)用于共詞網(wǎng)絡(luò)方法改進(jìn)的研究主要是對共詞網(wǎng)絡(luò)連邊權(quán)重的數(shù)值改進(jìn),對語義知識庫的利用程度較淺,對共詞網(wǎng)絡(luò)構(gòu)架方法的改進(jìn)程度比較小。因此,本文結(jié)合傳統(tǒng)共詞網(wǎng)絡(luò)的特征與共詞網(wǎng)絡(luò)的語義特征,如語義關(guān)系、語義韻等維度,構(gòu)建語義增強型的全文本共詞網(wǎng)絡(luò)。

2 語義增強型全文本共詞網(wǎng)絡(luò)的構(gòu)建方法

2.1 語義增強型共詞全文本網(wǎng)絡(luò)的定義及特征

語義增強型全文本共詞網(wǎng)絡(luò)是指以文本的全文為對象,加入節(jié)點之間的語義關(guān)系、語義關(guān)系的方向、跨距等語義特征信息的詞匯共現(xiàn)網(wǎng)絡(luò)。與傳統(tǒng)的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)相比,該共詞網(wǎng)絡(luò)可用于海量文本的全文本分析與挖掘。通過特定的特征選取和分析,可以實現(xiàn)更多元的研究目標(biāo)。

語義增強型全文本共詞網(wǎng)絡(luò)中可以進(jìn)行分析的特征如表1 所示,包括共現(xiàn)特征、網(wǎng)絡(luò)特征和語義特征等三大類特征。其中,共現(xiàn)特征主要包括共現(xiàn)頻次、包容指數(shù)、臨近指數(shù)、等價指數(shù)、向心度、密度、Salton 指數(shù)等,這些指標(biāo)的計算方式可以參見文獻(xiàn)[23-24];網(wǎng)絡(luò)特征包括點度中心度、聲望、PageRank 值、中介中心度、接近中心度、平均路徑長度、聚集系數(shù)等,這些指標(biāo)的計算方式可以參見文獻(xiàn)[17,25]等。本文選取研究所需的共現(xiàn)特征和網(wǎng)絡(luò)特征,加入語義關(guān)系和語義關(guān)系方向等新特征,并借助共現(xiàn)特征中的跨距來研究詞匯的語義韻,為共詞網(wǎng)絡(luò)分析引入了新的特征和分析維度。

表1 詞匯共現(xiàn)網(wǎng)絡(luò)的特征指標(biāo)

語義增強型全文本共詞網(wǎng)絡(luò)N可以被表示為語料庫或數(shù)據(jù)集中的所有詞匯w、共現(xiàn)詞對具有的語義關(guān)系r和共現(xiàn)詞對五元組t的集合,即

共現(xiàn)詞對五元組t表示語義增強型全文本共詞網(wǎng)絡(luò)中的一組共現(xiàn)詞對wi和wj具有的語義關(guān)系rx、語義關(guān)系的方向d以及其具有的特征p,即

共現(xiàn)詞對具有的特征p由共現(xiàn)頻次、共現(xiàn)強度、跨距等組成,即

跨距是指兩個詞匯在句子中的間隔距離。在語言學(xué)領(lǐng)域,往往通過短跨距下的固定搭配或意義拓展單元來研究詞匯或詞對。語言學(xué)家Sinclair[26]認(rèn)為詞匯搭配是文本當(dāng)中較短距離下的詞匯共現(xiàn),并給出了一個詞匯跨距為5 的推薦距離。雖然學(xué)界并沒有完全規(guī)定何種距離下的詞匯共現(xiàn)才能被視為搭配,但是搭配距離的研究卻向人們傳達(dá)出一種信息,即共現(xiàn)詞對在句子當(dāng)中的間隔距離伴隨詞匯共現(xiàn)現(xiàn)象所產(chǎn)生的一個重要特征。

語義韻(semantic prosody)是語料庫語言學(xué)的一個重要概念,是指一個詞吸引某類具有相同語義特點的詞,從而形成某種搭配習(xí)慣和語義氛圍的現(xiàn)象。詞匯的語義韻體現(xiàn)在該詞匯與其高頻共現(xiàn)的一組具有某種語義關(guān)系的搭配詞中[27]。進(jìn)一步地,通過分析詞匯共現(xiàn)網(wǎng)絡(luò)中節(jié)點和與其具有特定語義關(guān)系的共現(xiàn)詞集合構(gòu)成的子網(wǎng)絡(luò),可以發(fā)現(xiàn)共現(xiàn)詞之間語義氛圍,從而理解詞匯的語義韻。

2.2 語義增強型全文本共詞網(wǎng)絡(luò)的構(gòu)建流程

語義增強型網(wǎng)絡(luò)的構(gòu)建方法和研究框架如圖1所示。①選定需要研究的數(shù)據(jù)集或語料庫;②通過分詞、詞形還原、刪除停用詞等文本處理得到語料庫中的所有候選詞,并挖掘候選詞之間的共現(xiàn)關(guān)系,組成共現(xiàn)詞對;③將作為網(wǎng)絡(luò)節(jié)點的候選詞映射到語義知識庫的概念或?qū)嶓w中,并標(biāo)注共現(xiàn)詞對之間的語義關(guān)系,從而構(gòu)成網(wǎng)絡(luò)中節(jié)點的邊;④對共現(xiàn)詞對的特征進(jìn)行提取或統(tǒng)計,如共現(xiàn)頻次、Salton 指數(shù)、跨距、語義特征等,其中語義特征包括語義關(guān)系、語義關(guān)系的方向、語義韻,這些特征將被作為邊的屬性;⑤通過網(wǎng)絡(luò)構(gòu)建得到語義增強型的全文本共詞網(wǎng)絡(luò),為后續(xù)的共現(xiàn)網(wǎng)絡(luò)分析提供模型與數(shù)據(jù)支撐。

圖1 語義增強型全文本共詞網(wǎng)絡(luò)的構(gòu)建框架

3 實驗及分析

3.1 基于新聞文本的語義增強型全文本共詞網(wǎng)絡(luò)構(gòu)建

本文使用的語料庫是著名數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺Kaggle 中的“All the News”新聞數(shù)據(jù)集[28]。此數(shù)據(jù)集包含從New York Times、CNN、Fox News 等15 個國際著名新聞平臺上所收集到的14 萬余篇新聞文本數(shù)據(jù)。

對每個語篇進(jìn)行分句、分詞處理,為了避免單詞受單復(fù)數(shù)、時態(tài)等形式的影響,本文對句子中的每個詞語進(jìn)行詞性標(biāo)注及詞形還原,以減少句子語法如時態(tài)、單復(fù)數(shù)、變形的噪音干擾對同一語義詞語的影響。

為了避免一些無意義的介詞、連詞、助詞、冠詞、數(shù)字、感嘆詞等造成干擾,本文使用了Indri 停用詞表刪除了語料庫中的停用詞[29]。統(tǒng)計詞形還原和刪除停用詞后的詞匯出現(xiàn)頻次,并根據(jù)齊普夫第二定律篩選高頻詞匯作為詞匯共現(xiàn)的候選詞。

通過編程抽取候選詞之間的共現(xiàn)關(guān)系,從而得到語料庫中的共現(xiàn)詞對,具體思路:首先,對句子進(jìn)行編號,并統(tǒng)計每個詞語所在的句子編號序列。其次,對兩個不同的高頻詞的所在句子編號序列取交集,若不存在任何句子編號,則這兩個詞語在語料庫的句子窗口沒有發(fā)生共現(xiàn);反之,則存在共現(xiàn)現(xiàn)象,且交集中句子數(shù)量可視為該詞對的共現(xiàn)次數(shù)。

在特征抽取方面,使用基于共現(xiàn)頻次的Salton指數(shù)作為詞對的共現(xiàn)強度,并統(tǒng)計每個共現(xiàn)詞對在所有共現(xiàn)句子中的平均跨距。在共現(xiàn)詞對的語義特征方面,使用ConceptNet 語義知識庫對共現(xiàn)詞對進(jìn)行語義關(guān)系標(biāo)注。ConceptNet 是在由麻省理工大學(xué)發(fā)起的Open Mind Common Sense 眾包項目的基礎(chǔ)上構(gòu)建的開源語義知識庫,包含了維基詞典、專家構(gòu)建的WordNet 和JMDict 等數(shù)據(jù),通過專家標(biāo)注和多重篩選標(biāo)準(zhǔn)的算法來保證數(shù)據(jù)的高質(zhì)量[30]。其利用包含語義關(guān)系等屬性的加權(quán)邊來連接自然語言中的單詞和短語,從而實現(xiàn)對自然語言中涉及的一般知識的理解,被廣泛應(yīng)用于信息檢索、文本分析、機(jī)器翻譯等領(lǐng)域。ConceptNet 中存在超過800 萬個節(jié)點以及2100 萬條邊,核心語義關(guān)系共有34 種。其中,單向關(guān)系27 種,雙向關(guān)系7 種。每兩個節(jié)點間可以存在一種或多種語義關(guān)系。

從ConceptNet 語義知識庫中抽取語義特征的常用方法有兩種。一是通過ConceptNet 的API 接口可以構(gòu)建出特定的查詢式,從而獲取到關(guān)于某個詞匯的三元組知識。調(diào)用ConceptNet 接口的具體方式為構(gòu)建以下形式的URI——http://api.conceptnet.io/query?start=/c/en/keyword。其中,“start=”表示以某一單詞作為三元組中頭部節(jié)點進(jìn)行相應(yīng)信息的查找,若是按照尾部節(jié)點進(jìn)行查找,則對應(yīng)位置設(shè)置為“end=”;“/c/”表示節(jié)點;“/en/”表示所查詢的詞匯為英語單詞;“/keyword”則表示所要進(jìn)行查詢的目標(biāo)詞匯。將所有共現(xiàn)詞對分別作為頭節(jié)點與尾節(jié)點,構(gòu)建查詢式的URL 來標(biāo)注共現(xiàn)詞對的語義關(guān)系及方向。二是通過獲取ConceptNet 的離線版本并導(dǎo)入數(shù)據(jù)庫,通過查詢頭尾節(jié)點來標(biāo)注語義特征,離線版本數(shù)據(jù)中的URL 形式與API 接口返回數(shù)據(jù)的形式一致。以本文使用的數(shù)據(jù)為例,使用ConceptNet的API 接口標(biāo)注1000 個共現(xiàn)詞對之間的多重語義關(guān)系及每個語義關(guān)系方向,用時約1 小時26 分鐘;使用ConceptNet 本地化標(biāo)注80762 個共現(xiàn)詞對之間的多重語義關(guān)系以及每個語義關(guān)系方向,用時約4分鐘。

當(dāng)ConceptNet 中的兩個詞匯節(jié)點之間無法查詢到邊時,表示共現(xiàn)詞匯在ConceptNet 中不存在語義關(guān)系。若能夠查詢得到邊,則需要判斷頭尾節(jié)點的連接邊的數(shù)量及屬性,即詞匯之間存在的一種或多種語義關(guān)系。得到查詢結(jié)果后,可以根據(jù)頭節(jié)點、尾節(jié)點、邊的數(shù)量及屬性來抽取共現(xiàn)詞對具有的單一或多種語義關(guān)系及方向,并構(gòu)成共現(xiàn)詞對五元組。然后,將每個詞匯作為節(jié)點,語義關(guān)系的方向作為邊的方向,匯總共現(xiàn)詞對的共現(xiàn)特征和語義特征作為節(jié)點間的邊的屬性。

整理語義增強型全文本共詞網(wǎng)絡(luò)中的詞匯集合W、共現(xiàn)詞對具有的語義關(guān)系的集合R和共現(xiàn)詞對五元組集合T,將數(shù)據(jù)導(dǎo)入Neo4j 數(shù)據(jù)庫中。通過Neo4j 的查詢語言,可以計算出節(jié)點數(shù)、邊數(shù)等基本統(tǒng)計特征。 同時, 通過Graph Data Science(GDS)庫可以進(jìn)一步計算出節(jié)點中心度、節(jié)點最短路徑、聚集系數(shù)等網(wǎng)絡(luò)特征。GDS 是Neo4j 圖數(shù)據(jù)庫的一個插件庫,提供了在圖數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等任務(wù)的算法,包括中心性度量(點度中心度、中介中心度、接近中心度、PageRank 值等)和社區(qū)檢測(聚集系數(shù)、網(wǎng)絡(luò)傳遞性等)等算法[31],可以更方便地挖掘圖數(shù)據(jù)的結(jié)構(gòu)、模式和關(guān)系,有助于計算和儲存詞匯共現(xiàn)網(wǎng)絡(luò)中的相關(guān)網(wǎng)絡(luò)特征。

綜上所述,先通過Python 進(jìn)行文本處理與共現(xiàn)詞對抽取,計算共現(xiàn)詞對的共現(xiàn)特征。然后,通過ConceptNet 本地化標(biāo)注方式進(jìn)行語義特征的抽取。最后,將數(shù)據(jù)整合導(dǎo)入至Neo4j 圖數(shù)據(jù)庫中,并利用GDS 庫得到網(wǎng)絡(luò)特征,即可實現(xiàn)語義增強型全文本共詞網(wǎng)絡(luò)的構(gòu)建。

3.2 語義增強型全文本共詞網(wǎng)絡(luò)的特征分析

3.2.1 描述性統(tǒng)計

本文構(gòu)建的共詞網(wǎng)絡(luò)基本統(tǒng)計特征如表2所示。

表2 語義增強型全文本共詞網(wǎng)絡(luò)基本特征統(tǒng)計

表2 中匯總了語義增強型全文本共詞網(wǎng)絡(luò)的一些基本特征,基于80762 對具有語義關(guān)系的共現(xiàn)詞對,構(gòu)建得到了由12808 個節(jié)點和約13 萬條邊構(gòu)成的語義增強型共詞網(wǎng)絡(luò)。通過Neo4j 查詢語句和GDS 庫計算可知,網(wǎng)絡(luò)的平均節(jié)點度數(shù)較高,平均每個詞與其他20 個詞連接;節(jié)點平均最短路徑較短,約為3.458,即兩個詞之間的平均可通過另外3個節(jié)點進(jìn)行連接;聚集系數(shù)為0.1151,而隨機(jī)網(wǎng)絡(luò)的聚集系數(shù)約為1.55×10-4[9]。由此可見,網(wǎng)絡(luò)具有較高的聚集性。較短的平均最短路徑和高聚集系數(shù)表明本文構(gòu)造的語義增強型全文本共詞網(wǎng)絡(luò)具有小世界效應(yīng),這與一般語言網(wǎng)絡(luò)的特征相符。

3.2.2 連接共現(xiàn)詞對的語義關(guān)系分布特征

使用ConceptNet 語義知識庫標(biāo)注得到的具有語義關(guān)系的共現(xiàn)詞對共80762 對,這些共現(xiàn)詞對一共呈現(xiàn)30 種語義關(guān)系,每種語義關(guān)系的定義詳見附表1。受篇幅所限,本文僅展示占比前15 位的語義關(guān)系,如圖2 所示。

附表1 ConceptNet語義知識庫中的核心關(guān)系及其定義[30]

圖2 共現(xiàn)詞對語義關(guān)系分布

由圖2 可以看出,RelatedTo 是共現(xiàn)詞對中最主要的語義關(guān)系,占比約為所有語義關(guān)系的一半,其后依次是IsA、HasContext、Synonym、MannerOf、AtLocation 等語義關(guān)系,這6 種語義關(guān)系累計占比超過80%。其中,在ConceptNet 定義的34 種語義關(guān)系中,沒有出現(xiàn)的語義關(guān)系為EtymologicallyRelatedTo、HasProperty、ObstructedBy 和Etymologically-DerivedFrom。

3.2.3 共現(xiàn)詞對在自然句中的跨距分布特征

詞匯在自然句中的跨距特征對于揭示詞匯共現(xiàn)的差異性、從語義韻視角豐富共現(xiàn)詞匯的內(nèi)涵具有重要作用。本文計算了每種語義關(guān)系連接的所有共現(xiàn)詞匯在原始文本中的平均跨距,受篇幅所限,圖3 展示了出現(xiàn)頻次占比前15 位的語義關(guān)系連接的共現(xiàn)詞對的平均跨距及其分布特征。圖3 中的每一格表示某一種語義關(guān)系連接的所有共現(xiàn)詞匯的平均跨距的分布情況。以第一行為例,在CapableOf 連接的所有共現(xiàn)詞對中,49.22%的詞對在原始自然句中的平均跨距為1,即兩個詞在句子序列中的位置差值為1(兩個詞之間沒有間隔其他詞),28.53%的詞對在原始自然句中的平均跨距為2,即兩個詞之間被一個詞隔開,以此類推。

圖3 語義關(guān)系跨距熱力圖(彩圖請見https://qbxb.istic.ac.cn)

如圖3 所示,共現(xiàn)詞對的平均跨距一般較小,但不同語義關(guān)系連接的共現(xiàn)詞對的跨距分布呈現(xiàn)不同的特征。例如,具有CapableOf、HasProperty、PartOf 語義關(guān)系的共現(xiàn)詞對中,40%以上的詞對跨距為1,即往往會以詞組或固定搭配的方式出現(xiàn)。相似地,具有Antonym、IsA、SimilarTo 等語義關(guān)系的占比最大的跨距為2,即中間往往會被另一個詞隔開。同時,HasContext、DerivedFrom、FormOf 的詞語跨距較為平均,即這3 種語義關(guān)系可能并不會給其共現(xiàn)詞對的跨距帶來影響。

從語義的視角出發(fā)可以看出,跨距不超過5 的共現(xiàn)詞對占比普遍較大。同時,若要更細(xì)粒度地研究共現(xiàn)詞對的共現(xiàn)窗口,則可以考慮不同的語義關(guān)系來選取共現(xiàn)窗口的強度。

3.2.4 共現(xiàn)詞對的多重語義關(guān)系

一個特定的詞匯可能表示多種意義,而一種詞語搭配也可能產(chǎn)生不同的含義。因此,一組共現(xiàn)詞對可能出現(xiàn)多重語義的現(xiàn)象,通過研究共現(xiàn)詞對的多重語義關(guān)系,可以在一定程度上反映詞對的共現(xiàn)現(xiàn)象的語義原因。共現(xiàn)詞對的統(tǒng)計結(jié)果如表3所示。

表3 共現(xiàn)詞對具有的語義關(guān)系數(shù)量統(tǒng)計

以表3 中的示例詞對為例:①news 和fox 僅具有RelatedTo(相關(guān))關(guān)系,即這兩個詞有一定的相關(guān)關(guān)系,而組合起來為Fox News(??怂剐侣劊"赿rink 和coffee 具有Antonym 和RelatedTo 兩個語義關(guān)系,可以發(fā)現(xiàn),當(dāng)drink 表示名詞酒時,其與coffee 在某種程度上是相反的;當(dāng)drink 表示動詞飲用時,可表示drink coffee,呈現(xiàn)相關(guān)關(guān)系。③rock 和roll 兩個詞具有Antonym、RelatedTo 和MannerOf 這3種語義關(guān)系,即當(dāng)rock 表示動詞劇烈晃動時,與roll 表示動詞翻轉(zhuǎn)在某種程度上是相反的;當(dāng)rock表示名詞石頭時,rock roll 可以表示石頭會滾落的行為語義關(guān)系;當(dāng)組成rock & roll 這一搭配時,又可以表示搖滾的意義。因此,也具有某種程度上的相關(guān)關(guān)系。④country 可以表示國家、鄉(xiāng)村等含義,國家和城市是不同的,城市位于國家中,鄉(xiāng)村和城市具有不同的內(nèi)涵,且這兩個詞語經(jīng)常一起出現(xiàn),因此,country 和city 還具有相關(guān)關(guān)系。⑤相似地,trash 和garbage 都可以表示名詞垃圾,而garbage 還具有垃圾桶的含義,因此,除了Synonym、Related-To、IsA、SimilarTo 的語義關(guān)系外,還具有AtLocation 的語義關(guān)系。⑥faith 和belief 都有信心、信仰的意思,但是從語義關(guān)系而言,faith 是belief 的一部分,來源于belief,由此也能看出,該組同義詞具有一定的上下位關(guān)系。⑦rest 和sleep 都可以作為名詞或動詞使用,語義關(guān)系更加豐富,不僅具有DistinctFrom、Synonym 等概念性的語義關(guān)系,還具有HasFirstSubevent、HasPrerequisite、MotivatedByGoal等動詞間的語義關(guān)系。

在連接同一個詞對的多重語義關(guān)系之間,也存在著某種共現(xiàn)關(guān)系。此處以表3 第3 行的數(shù)據(jù)為例對語義關(guān)系的共現(xiàn)進(jìn)行分解,即把Antonym、RelatedTo、MannerOf 這3 種語義關(guān)系的共現(xiàn)分解為(Antonym, RelatedTo)、 (RelatedTo, MannerOf) 和(Antonym, MannerOf)的形式進(jìn)行統(tǒng)計,繪制熱力圖,如圖4 所示。其中,由于RelatedTo 語義關(guān)系占比最大,且每一種語義關(guān)系均與RelatedTo 語義關(guān)系共現(xiàn)最多,為了更好地對比與其他語義關(guān)系的占比,在圖4 中剔除了RelatedTo 這一語義關(guān)系。

圖4 語義關(guān)系共現(xiàn)熱力圖

由此,可以從數(shù)據(jù)角度側(cè)面證實語義關(guān)系的非對稱性與傳遞性,為語義關(guān)系的分類與推導(dǎo)提供數(shù)據(jù)驗證。如圖4 所示,每一行表示該語義關(guān)系與其他語義關(guān)系的共現(xiàn)占比??梢园l(fā)現(xiàn),一些定義相似的語義關(guān)系往往一起共現(xiàn),如Synonym 和Similar-To、MannerOf 等,其中SimilarTo 與Synonym 的共現(xiàn)占比最高,達(dá)到了58.70%。

同時可以發(fā)現(xiàn),語義關(guān)系的共現(xiàn)并不一定是對稱的,圖5 統(tǒng)計了5 種語義關(guān)系之間的共現(xiàn)占比。HasA 和AtLocation 兩種語義關(guān)系由于定義相反,往往一起出現(xiàn),且占比均超過90%,證實了語言共現(xiàn)現(xiàn)象的對稱性。在事件的發(fā)生條件的3 種語義關(guān)系中,HasFirstSubevent 常常與HasPrerequisite 一起出現(xiàn),占比達(dá)到了77.78%,且與其他語義關(guān)系出現(xiàn)較少,所以占比較低。結(jié)合語義學(xué)知識可知,這是由于這兩個語義關(guān)系是充分不必要關(guān)系,具有語義關(guān)系的傳遞性與非對稱性。

圖5 語義關(guān)系共現(xiàn)的對稱性

如圖6 所示,relax 與sleep 具有HasPrerequisite語義關(guān)系,sleep 與close eyes 具有HasFirstSubevent語義關(guān)系,因此,后者是前者的充分不必要條件,也可以證實語義關(guān)系的傳遞性與非對稱性。

圖6 HasFirstSubevent和HasPrerequisite語義關(guān)系示意圖

3.3 語義增強型全文本共詞網(wǎng)絡(luò)的應(yīng)用

本節(jié)將通過具體的應(yīng)用案例來證明和驗證語義增強型全文本共詞網(wǎng)絡(luò)構(gòu)建方法的有效性,并凸顯該網(wǎng)絡(luò)在語義消歧和詞義理解方面的應(yīng)用與價值。

3.3.1 語義增強型全文本共詞網(wǎng)絡(luò)在語義消歧方面的應(yīng)用

語義增強型全文本共詞網(wǎng)絡(luò)中的語義韻信息是觀察和描述詞匯的新視角,在同義詞辨析等語義消歧方面具有應(yīng)用前景。在已有研究中,語義韻是基于專家的經(jīng)驗進(jìn)行觀測和判斷的,難以支撐大規(guī)模詞匯網(wǎng)絡(luò)中的語義分析。使用本文構(gòu)建的語義增強型全文本共詞網(wǎng)絡(luò)則可以查詢以詞匯為中心的子網(wǎng)絡(luò),更清晰地展示詞匯與其具有某種語義關(guān)系的共現(xiàn)詞的集合,從而構(gòu)建出語義韻的研究結(jié)構(gòu),有助于揭示詞匯的語義韻特征。

雖然happen、occur 在概念上是絕對的同義詞,但實際上在搭配關(guān)系和語義韻等語言特征中存在差異。通過語料庫中的檢索結(jié)果進(jìn)行精讀分析,可以發(fā)現(xiàn)如happen 往往與“事故”“問題”等具有“消極結(jié)果”語義的詞匯共現(xiàn),但occur 則不具有明顯的消極語義韻傾向性,表明了語義韻的態(tài)度標(biāo)示功能和在同義詞差異辨析中的作用。

以happen 和occur 為例,這兩個詞匯的共現(xiàn)詞對在語義增強型共詞網(wǎng)絡(luò)中的查詢結(jié)果如圖7 所示,兩個詞分別具有18 個和11 個共現(xiàn)詞匯,其中4個為共同的共現(xiàn)詞。由此可以看出,這兩個詞語具有較大的語境差異,且happen 比occur 具有豐富的共現(xiàn)詞匯和語義關(guān)系。其中,與happen 共同出現(xiàn)的詞匯中包括一些讓人感覺到“消極結(jié)果”的語義氛圍,如intervene (干涉)、backfire (適得其反)、transpire (泄露)、force (強迫) 等,由此可見,happen 比occur 具有更消極的語義韻態(tài)度。

圖7 happen和occur詞匯的子網(wǎng)絡(luò)

因此,當(dāng)面臨同義詞選擇問題時,可以將詞匯在共詞網(wǎng)絡(luò)中的共現(xiàn)詞匯和語義關(guān)系構(gòu)建為向量特征,用于衡量詞向量的差異性,通過模型訓(xùn)練進(jìn)行分類或選擇,從而通過共詞網(wǎng)絡(luò)中的詞匯特征改進(jìn)語義消歧方法。

3.3.2 語義增強型全文本共詞網(wǎng)絡(luò)在詞義理解方面的應(yīng)用

幫助使用者確定一些語義模糊詞語在特定語義中的確切意義,是語義增強型全文本共詞網(wǎng)絡(luò)可以帶來的又一好處,可以解決很多行業(yè)問題。

以法律行業(yè)為例,美國法律界對法律條款中關(guān)鍵詞的解釋往往需要通過詞匯的“平義”(plain meaning)來裁定。然而,詞典中枚舉了詞匯的所有釋義,很難辨別詞匯的“平義”,且缺乏詞匯使用的語境,因此,許多法律專家開始通過語料庫來尋找詞匯的平義。其中,知名的案例包括“聯(lián)邦通信委員會訴美國電話電報公司案”(FCC v. AT&T Inc., 562 U.S. 2011)、“美國訴科斯特洛案”(United States v. Costello, 666 F.3d 1040, 2012)、“猶他州訴J.M.S 案”(State of Utah v. J.M.S, 2011 UT 75) 等。Mouritsen[32]統(tǒng)計了20 世紀(jì)60 年代到21 世紀(jì)初的美國最高法院裁決記錄,發(fā)現(xiàn)ambiguity、plain meaning 等詞語頻率急劇增長,說明法律條款的解釋已經(jīng)成為庭審中的難點問題。

本文構(gòu)建的共詞網(wǎng)絡(luò)有助于揭示一個詞語的平義。以“聯(lián)邦通信委員會訴美國電話電報公司案”為例,庭審中的核心糾紛之一為《信息自由法案》條例中的侵犯個人隱私(personal privacy)是否適用于公司(corporation)。在本文構(gòu)建的共詞網(wǎng)絡(luò)中查詢privacy 一詞可以得到該詞匯的共現(xiàn)子網(wǎng),如圖8 所示;與privacy 共同出現(xiàn)的詞匯及其語義關(guān)系和語義強度如表4 所示。

圖8 privacy詞匯的共現(xiàn)子網(wǎng)

表4 privacy詞匯的共現(xiàn)詞

可以看出,privacy 一詞與person 具有較高的共現(xiàn)強度,具有Desires 的語義關(guān)系;而在以privacy為中心的子網(wǎng)絡(luò)中卻不存在corporation 一詞。其共現(xiàn)詞主要包括:①隱私的主體:person;②描述隱私的相關(guān)定義:private、legal、confidentiality、isolation、secrecy;③保護(hù)隱私的方式或條件:fence、curtain、dark、bedroom、wall、cubicle、lock。由此可知,個人隱私不適用于公司這一主體,這也與“聯(lián)邦通信委員會訴美國電話電報公司案”的裁決結(jié)果一致,且該案裁定之后,美國公司的隱私權(quán)不再受《信息自由法案》的保護(hù)。

通過語義增強型全文本共詞網(wǎng)絡(luò)對特定詞匯的子網(wǎng)進(jìn)行來查詢和分析,可以加深對特定詞匯的詞義理解,進(jìn)而分析詞匯的常用語境,辨別詞匯的平義,從而為法律行業(yè)等需要明確厘清詞義的領(lǐng)域提供詞義理解的數(shù)據(jù)驗證方法。同時,通過查詢子網(wǎng)絡(luò),可以避免在語料庫中通過檢索行來總結(jié)和判斷詞匯的詞義的復(fù)雜流程,大大減少詞匯“平義”的語義知識檢索時間,實現(xiàn)更精細(xì)化的詞匯檢索,提高詞義理解在行業(yè)使用中的效率。

4 討論與結(jié)論

本文提出的語義增強型全文本共詞網(wǎng)絡(luò)構(gòu)建方法引入了共現(xiàn)詞對間的多重語義關(guān)系、語義關(guān)系方向、共現(xiàn)詞對在原始文本中的平均跨距等新特征,揭示了共詞網(wǎng)絡(luò)中蘊含的RelatedTo、IsA、HasContext、Synonym、MannerOf、AtLocation 等語義關(guān)系,并發(fā)現(xiàn)共現(xiàn)詞對語義關(guān)系的類型會影響詞匯在句子中的跨距,通過研究實例證明了該網(wǎng)絡(luò)的應(yīng)用價值。

相較于以往的共詞網(wǎng)絡(luò)研究,本文提出的語義增強型全文本共詞網(wǎng)絡(luò)有3 個方面的學(xué)術(shù)貢獻(xiàn)。

第一,引入了詞間語義關(guān)系、跨距等新的語義特征,極大地豐富了共詞網(wǎng)絡(luò)的理論內(nèi)涵。已有關(guān)于共詞網(wǎng)絡(luò)的研究通常是對共現(xiàn)詞對進(jìn)行數(shù)值上的統(tǒng)計分析,把每一次共現(xiàn)都看作無差異的,主要利用共現(xiàn)頻次等統(tǒng)計特征開展應(yīng)用研究,未考慮詞語之間差異化的語義關(guān)系[11,14],沒有解決詞匯共現(xiàn)“同量不同質(zhì)”的問題。本文通過共現(xiàn)詞對詞間語義關(guān)系的揭示,較好地解決了該問題。

第二,揭示了共現(xiàn)詞之間的多重語義關(guān)系,通過實例證明了共現(xiàn)詞之間語義關(guān)系的非對稱性與傳遞性[33],為共現(xiàn)詞對詞間語義關(guān)系的分類與推導(dǎo)提供了理論依據(jù),這一點在已有研究中尚未被清晰地揭示出來。

第三,從語義層面刻畫了同一共現(xiàn)詞對在不同情境下的差異性,提升了共詞分析的精確性。已有研究大多沒有考慮這種差異性,忽略了同一個共現(xiàn)詞對在不同的情境下表達(dá)出的不同含義[14,21]。本文通過共現(xiàn)詞之間多重語義關(guān)系的識別與表示,揭示了這種差異,為精細(xì)化的共詞分析打下良好的基礎(chǔ)。

本文的實踐啟示包括兩點。

第一,提供了同義詞辨析等語義消歧問題的解決思路,通過語義增強型全文本共詞網(wǎng)絡(luò)中詞匯子網(wǎng)絡(luò)的識別,揭示了詞匯的語義韻特征,發(fā)現(xiàn)同義詞的在語義氛圍上的差異性,有利于語義消歧中詞向量的構(gòu)建,提高詞匯語義研究的效率。

第二,有助于抽取出更高質(zhì)量、更有意義的共現(xiàn)詞對,從語義關(guān)系的視角增強詞匯共現(xiàn)現(xiàn)象的可解釋性,從而為詞匯聚類、知識發(fā)現(xiàn)等下游任務(wù)提供全新的思路和視角。

未來研究將基于語義增強型全文本共詞網(wǎng)絡(luò),通過構(gòu)造語義詞向量等方式,推動該方法在詞義理解、語義消歧等領(lǐng)域的應(yīng)用。

猜你喜歡
跨距共詞增強型
“東方紅”四號增強型平臺
核級工藝管道支撐跨距研究
增強型MSTP設(shè)備在高速公路中的應(yīng)用
基于突變檢測與共詞分析的深閱讀新興趨勢分析
基于多FPGA的增強型SPI通信研究
電子測試(2018年4期)2018-05-09 07:28:13
CTC Global發(fā)布超高強度導(dǎo)線 適用大跨距重冰雪輸電項目
設(shè)計時速120 km線路架空剛性懸掛接觸網(wǎng)跨距選擇
美國LWRC公司M6 IC增強型卡賓槍
輕兵器(2015年17期)2015-09-10 07:22:44
基于共詞知識圖譜技術(shù)的國內(nèi)VLC可視化研究
有關(guān)大跨距同軸孔系加工方法的研究
彭山县| 崇左市| 容城县| 玛多县| 独山县| 西峡县| 铁岭县| 右玉县| 新龙县| 同江市| 潞城市| 中江县| 武乡县| 新田县| 精河县| 梅河口市| 丰原市| 黄骅市| 乐亭县| 新沂市| 寿光市| 蒙自县| 西畴县| 石棉县| 扎囊县| 西充县| 新和县| 高清| 会同县| 抚顺县| 荃湾区| 岳阳市| 富裕县| 六枝特区| 武城县| 祁连县| 壶关县| 衡南县| 宣汉县| 商水县| 武陟县|