消歧
- 基于多特征因子融合的中文短文本實(shí)體消歧
,中文短文本實(shí)體消歧成為自然語言處理(Natural Language Processing,NLP)領(lǐng)域中眾多下游任務(wù)的基礎(chǔ)工作,如基于搜索引擎的實(shí)體搜索任務(wù)[1]、基于知識(shí)庫的問答任務(wù)[2]、知識(shí)圖譜構(gòu)建[3]等,并且起到了越來越重要的作用。實(shí)體消歧是指將一段文本中指定的指稱映射到知識(shí)庫中某個(gè)實(shí)體的過程,其難點(diǎn)主要在于知識(shí)庫中一般存在多個(gè)與指稱同名的實(shí)體且每個(gè)實(shí)體又存在多種表示方式。長(zhǎng)文本具有豐富的上下文語境和充足的語義信息,有利于長(zhǎng)文的實(shí)體消歧。然而
計(jì)算機(jī)與現(xiàn)代化 2023年1期2023-03-21
- 融合多特征圖及實(shí)體影響力的領(lǐng)域?qū)嶓w消歧
步的關(guān)鍵便是實(shí)體消歧技術(shù)。實(shí)體消歧指的是識(shí)別文本中的歧義實(shí)體指稱(命名實(shí)體),并為這些實(shí)體指稱在眾多的候選實(shí)體中匹配出最終的目標(biāo)實(shí)體[2],其在智能問答[3]、語義搜索[4]以及推薦系統(tǒng)[5]等諸多領(lǐng)域都有廣泛應(yīng)用。實(shí)體消歧可分為基于無監(jiān)督聚類的實(shí)體消歧[6],其把所有實(shí)體指稱按其指向的目標(biāo)實(shí)體進(jìn)行聚類;以及基于實(shí)體鏈接的實(shí)體消歧[7],此類方法利用知識(shí)庫獲取候選實(shí)體列表,并將實(shí)體指稱鏈接到與之最相似的實(shí)體上。近年來,隨著知識(shí)圖譜的廣泛應(yīng)用,基于實(shí)體鏈接的
計(jì)算機(jī)工程與應(yīng)用 2023年5期2023-03-13
- 基于主題關(guān)系的中文短文本圖模型實(shí)體消歧*
的實(shí)體內(nèi)容。實(shí)體消歧(Named Entity Disambiguation)技術(shù)的出現(xiàn)為解決這一問題提供了有效途徑。近年來中文知識(shí)圖譜的構(gòu)建為人工智能的發(fā)展帶來了新的機(jī)遇,作為命名實(shí)體識(shí)別的后續(xù)任務(wù),實(shí)體鏈接和消歧任務(wù)也是知識(shí)圖譜構(gòu)建和補(bǔ)全的重要一環(huán)。知識(shí)圖譜技術(shù)的發(fā)展對(duì)實(shí)體消歧工作也提出了更高的要求。實(shí)體消歧是指將文檔中識(shí)別出的實(shí)體指稱鏈向特定知識(shí)庫中某個(gè)目標(biāo)實(shí)體的過程,其對(duì)應(yīng)著自然語言中的一詞多義[1],即實(shí)體消歧要解決的是同名實(shí)體存在的一詞多義問題
計(jì)算機(jī)工程與科學(xué) 2023年1期2023-02-08
- 基于多粒度雙向注意力機(jī)制的詞義消歧深度學(xué)習(xí)方法
)0 引 言詞義消歧(Word Sense Disambiguation,WSD)是自然語言處理中的基本任務(wù),也是長(zhǎng)期存在的挑戰(zhàn),有著廣泛的應(yīng)用。目前的詞義消歧方法主要可以分為基于知識(shí)的方法和基于監(jiān)督的方法?;谥R(shí)的方法主要依賴于知識(shí)庫的結(jié)構(gòu)和內(nèi)容,例如,詞義定義和語義網(wǎng)絡(luò),它們提供了兩種詞義之間的關(guān)系和相似性?;诒O(jiān)督的方法通常根據(jù)其使用的特征可分為兩類,使用周圍單詞嵌入、PoS標(biāo)簽嵌入等常規(guī)特征的基于特征的監(jiān)督方法和使用Bi-LSTM等神經(jīng)網(wǎng)絡(luò)編碼器
計(jì)算機(jī)應(yīng)用與軟件 2022年11期2022-12-03
- 融合多特征和由粗到精排序模型的短文本實(shí)體消歧方法
越多[1]。實(shí)體消歧是中文知識(shí)圖譜問答系統(tǒng)(Chinese Knowledge Based Question Answering,CKBQA)中的關(guān)鍵技術(shù),目的是構(gòu)建問句中實(shí)體指稱的候選實(shí)體集合,并將實(shí)體指稱鏈接到正確的實(shí)體上[2-4]?,F(xiàn)有的實(shí)體消歧方法主要有三類:基于分類的方法、基于圖的方法和基于深度學(xué)習(xí)的方法。基于分類的方法將實(shí)體消歧看作二分類問題,利用分類器對(duì)候選實(shí)體分類[5-6],然而在分類過程中可能有多個(gè)候選實(shí)體被標(biāo)記為真,所以還需要其他的方法
- 基于特征編碼和圖嵌入的姓名消歧方法*
的實(shí)體。作者姓名消歧是實(shí)體消歧中的一個(gè)重要應(yīng)用,已知同名作者的所有文章集合,需要通過文章的一些屬性特征對(duì)文章進(jìn)行聚類,使每一個(gè)聚類僅包含一個(gè)作者的文章。作者姓名消歧任務(wù)在作者文獻(xiàn)檢索、學(xué)術(shù)畫像分析中有著重要的價(jià)值。例如,在學(xué)術(shù)檢索時(shí),研究者需要在文獻(xiàn)數(shù)據(jù)庫中尋找名為“Charles”的學(xué)者的文獻(xiàn),但是由于“Charles”在數(shù)據(jù)庫中對(duì)應(yīng)著很多不同的實(shí)體,系統(tǒng)返回了所有名為“Charles”的作者撰寫的文獻(xiàn),這會(huì)大大降低文獻(xiàn)檢索結(jié)果的有效性和準(zhǔn)確性,從而降低
- 基于先精確后召回策略的作者名消歧模型研究
集,即實(shí)現(xiàn)作者名消歧(author name disambiguation,AND) 已成為學(xué)界的迫切需求。鑒于AND 提供的重要數(shù)據(jù)支撐作用,學(xué)界已經(jīng)對(duì)其開展了相當(dāng)豐富的研究,研究成果的概貌可見之于 Smalheiser 等[2]、Elliott[3]、Hussain 等[4]、San‐yal 等[5]學(xué)者的綜述。不過,現(xiàn)有研究與實(shí)踐尚難以支撐后繼應(yīng)用的需要,比如,ORCID、ResearchID等作者身份標(biāo)識(shí)碼存在普及率不高的問題;個(gè)人或研究團(tuán)隊(duì)主頁等
情報(bào)學(xué)報(bào) 2022年4期2022-05-19
- 一種基于樹分解的圖上點(diǎn)區(qū)間編碼方法及應(yīng)用
進(jìn)行一部分的實(shí)體消歧,提高整個(gè)智能問答的效率,對(duì)于在智能問答上的應(yīng)用,本文后面的實(shí)驗(yàn)部分通過實(shí)驗(yàn)驗(yàn)證了本文方法的有效性與實(shí)用性。本文的貢獻(xiàn)可以總結(jié)如下:(1) 本文提出一種基于樹分解的圖上點(diǎn)區(qū)間編碼方法,用來表示圖上節(jié)點(diǎn)的位置特征。(2) 本文提出針對(duì)YAGO數(shù)據(jù)集的問答問題100句,并使用這些問題進(jìn)行了消歧實(shí)驗(yàn),證明了本文提出的區(qū)間編碼在實(shí)際應(yīng)用中的有效性。1 圖上的樹分解1.1 基本定義樹分解是一種將一幅圖映射到一棵樹上的圖上算法,通過這種算法,一些圖
計(jì)算機(jī)應(yīng)用與軟件 2022年3期2022-03-18
- 半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的詞義消歧
50080)詞義消歧 (word sense disambiguation,WSD)是自然語言處理領(lǐng)域的一個(gè)重要研究問題.Michael將歧義詞的上下文內(nèi)容分別與每個(gè)語義類在詞典中的定義進(jìn)行匹配,將匹配覆蓋率最高的語義類視為真實(shí)語義[1].因此,歧義詞上下文與歧義詞之間的相似性可以作為一種有效的判別條件,其中:楊安和Franco等[2-3]提出了一種基于特定領(lǐng)域關(guān)鍵詞信息的消歧方法,將上下文語境詞匯向量化,與不同領(lǐng)域關(guān)鍵詞向量作相似度判別,找到語境詞匯所屬
西南交通大學(xué)學(xué)報(bào) 2022年1期2022-02-11
- 基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
本中的信息。實(shí)體消歧任務(wù)是實(shí)體鏈接中最為重要的一個(gè)階段。因?yàn)閷?shí)體識(shí)別后的結(jié)果很難直接加入到知識(shí)圖譜當(dāng)中。必須要對(duì)實(shí)體識(shí)別的結(jié)果進(jìn)行消歧,才能找到文檔中實(shí)體指稱在知識(shí)圖譜中所對(duì)應(yīng)的實(shí)體。本文對(duì)實(shí)體消歧技術(shù)進(jìn)行研究,提出一種文檔級(jí)的實(shí)體消歧技術(shù)。本文的主要貢獻(xiàn)如下:1)提出一種文檔級(jí)實(shí)體消歧技術(shù),在局部消歧的基礎(chǔ)上,增加了文檔中實(shí)體之間的關(guān)聯(lián)信息。2)局部消歧采用BiLSTM+Attention模型提取文本中實(shí)體指稱的上下文特征向量,利用TransE[1]模型
計(jì)算機(jī)與數(shù)字工程 2021年12期2022-01-15
- 一種基于深度學(xué)習(xí)的實(shí)體消歧技術(shù)
019)命名實(shí)體消歧在自然語言處理領(lǐng)域發(fā)揮著十分重要的作用,其目的是解決文本中實(shí)體歧義問題。一般而言,命名實(shí)體在文本信息傳輸過程中發(fā)揮著關(guān)鍵作用,但命名實(shí)體通常以簡(jiǎn)稱的方式存在,這可能導(dǎo)致多個(gè)實(shí)體指向一個(gè)相同的實(shí)體名稱,也就是所謂的實(shí)體歧義。實(shí)體消歧的任務(wù)就是將文本中的實(shí)體正確地鏈接到實(shí)體語義中。實(shí)體消歧作為自然語言處理領(lǐng)域的基礎(chǔ)性研究,對(duì)后續(xù)的語言處理任務(wù)十分重要,相關(guān)任務(wù)包括:智能問答[1]、信息降噪[2]、人工智能翻譯[3]等。近些年,實(shí)體消歧技術(shù)在
- 基于圖卷積半監(jiān)督學(xué)習(xí)的論文作者同名消歧方法研究
義問題仍然是同名消歧的主要手段,也是國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)之一。常用的作者消歧方法往往將問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的聚類問題或分類問題,如利用SVM[3]、層次聚類[4]、譜聚類[5]等機(jī)器學(xué)習(xí)算法進(jìn)行處理。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多研究人員采用網(wǎng)絡(luò)嵌入方法(Network Embedding)進(jìn)行作者同名消歧[6,7],從論文數(shù)據(jù)中抽取特征以便于聚類或分類任務(wù)。此外,具有表征學(xué)習(xí)能力的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,
電子與信息學(xué)報(bào) 2021年12期2022-01-04
- 基于混合卷積網(wǎng)絡(luò)的短文本實(shí)體消歧
上下文短缺給實(shí)體消歧帶來了巨大的挑戰(zhàn)。實(shí)體消歧的結(jié)果對(duì)信息檢索[1]、智能問答[2]等一系列自然語言處理任務(wù)具有重要意義。因此,如何在面臨上述困難的情況下取得較好實(shí)體消歧結(jié)果備受科研者關(guān)注。實(shí)體消歧(Entity Disambiguation,ED)是將自然語言文本中存在歧義的實(shí)體正確地連接到外部知識(shí)庫的工程。目前的實(shí)體消歧任務(wù)分為兩種類型: 基于聚類的實(shí)體消歧方法和基于實(shí)體鏈接的實(shí)體消歧方法[3]?;诰垲惖姆椒鎸?duì)的是目標(biāo)實(shí)體列表沒有給定的情況,而基于
中文信息學(xué)報(bào) 2021年11期2021-12-27
- 自然語言處理背景下的“PP〈被〉+VP1+VP2”格式消歧問題再探
b式以后的進(jìn)一步消歧及“我被他攔住不讓走”問題和“我被砍頭嚇暈了”問題的思考。三、總結(jié)出該格式的消歧流程圖。四、提出該格式消歧中仍待解決的問題。文章對(duì)上述進(jìn)行了細(xì)化研究,并嘗試提出解決方案,以期能對(duì)自然語言處理中的歧義句問題盡微薄之力。【關(guān)鍵詞】 歧義;消歧;“被”字短語;動(dòng)詞性短語【中圖分類號(hào)】H109? ? ? ? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】A? ? ? ? ? ?【文章編號(hào)】2096-8264(2021)45-0112-03自然語言處理是語言學(xué)與計(jì)算機(jī)科
今古文創(chuàng) 2021年45期2021-11-24
- 基于局部注意力機(jī)制的中文短文本實(shí)體鏈接
為實(shí)體識(shí)別和實(shí)體消歧2 個(gè)部分。在實(shí)體識(shí)別過程中,識(shí)別實(shí)體指稱項(xiàng),是指源于待鏈接文本中的實(shí)體。在實(shí)體消歧過程中,先根據(jù)識(shí)別出的實(shí)體指稱項(xiàng)從知識(shí)庫中選擇待消歧實(shí)體信息,以生成該實(shí)體指稱項(xiàng)的候選實(shí)體集,再以實(shí)體指稱項(xiàng)的上下文信息為依據(jù)對(duì)候選實(shí)體集中的實(shí)體進(jìn)行消歧。傳統(tǒng)的實(shí)體鏈接任務(wù)主要對(duì)長(zhǎng)文本進(jìn)行處理,長(zhǎng)文本中有更多更豐富的上下文信息,因而也更有利于鏈接[2]。相比長(zhǎng)文本,短文本的實(shí)體鏈接則更具挑戰(zhàn)性,加之中文自身的靈活性、表達(dá)會(huì)意性、語法結(jié)構(gòu)多樣性等特點(diǎn),使
計(jì)算機(jī)工程 2021年11期2021-11-18
- 基于SVM和CRF雙層模型的FrameNet框架消歧
構(gòu)進(jìn)行抽取??蚣?span id="syggg00" class="hl">消歧任務(wù)是框架語義分析的一個(gè)子任務(wù),同時(shí)它也是框架語義分析中必不可少的中間環(huán)節(jié),具有非常重要的作用。其主要任務(wù)是在例句中根據(jù)給定目標(biāo)詞的上下文語境,自動(dòng)識(shí)別出該目標(biāo)詞所屬的框架??蚣?span id="syggg00" class="hl">消歧任務(wù)可以解決自然語言當(dāng)中的“一詞多義”現(xiàn)象,在一定程度上為機(jī)器翻譯、信息檢索等領(lǐng)域提供了語義支持。目前的框架消歧研究都是將其看作一個(gè)傳統(tǒng)的單模型分類問題。雖然框架消歧任務(wù)在單個(gè)模型中都取得了較好的結(jié)果,但是仍然存在以下幾方面的問題。首先,其結(jié)果比較依賴統(tǒng)計(jì)模
計(jì)算機(jī)工程與應(yīng)用 2021年18期2021-09-26
- 基于How Net義原和W ord2vec詞向量表示的多特征融合消歧方法
泛應(yīng)用,命名實(shí)體消歧作為自然語言處理的關(guān)鍵環(huán)節(jié),在信息檢索、知識(shí)庫及知識(shí)圖譜構(gòu)建等方面發(fā)揮著越來越重要的作用。命名實(shí)體消歧旨在解決實(shí)體指稱間的歧義性與多樣性,例如“冬蟲夏草”的別名分別有“夏草冬蟲”“蟲草”和“冬蟲草”,把這種表達(dá)相同實(shí)體而有多個(gè)指稱的詞語稱之為指稱多樣性。而“螃蟹甲”一詞,它一方面指代藏藥的名稱,另一方面又指代武漢的一個(gè)地名。像“螃蟹甲”這類詞稱之為多義詞,本文旨在研究多義詞的歧義消除問題。至今,命名實(shí)體消歧主要采用聯(lián)合知識(shí)、機(jī)器學(xué)習(xí)和深
計(jì)算機(jī)應(yīng)用 2021年8期2021-09-09
- 面向特定科研任務(wù)的著者姓名消歧方法
雖然不以著者姓名消歧為主要研究工作,但是著者姓名消歧是其基礎(chǔ)性的重要環(huán)節(jié)。譬如,科學(xué)家流動(dòng)、技術(shù)人才遷移、學(xué)術(shù)評(píng)價(jià)等人文社科類研究課題[1-4]。這類研究大多數(shù)從論文數(shù)據(jù)入手,依賴于準(zhǔn)確的科學(xué)家-出版物對(duì)應(yīng)關(guān)系,然而,姓名歧義問題始終在兩個(gè)方面掣肘著相關(guān)研究的開展:第一,由于特定研究的最終目的不是為了解決姓名歧義問題,因此,在研究數(shù)據(jù)中,關(guān)于人本身的信息可能十分稀疏,甚至在論文數(shù)據(jù)中存在缺失著者機(jī)構(gòu)等關(guān)鍵消歧依據(jù)的現(xiàn)象;第二,特定研究中的姓名消歧相較于一般
情報(bào)學(xué)報(bào) 2021年7期2021-08-23
- 基于多節(jié)點(diǎn)組合特征和模糊聚類的中文詞義消歧方法
存在的現(xiàn)象。詞義消歧的目的是使系統(tǒng)根據(jù)某個(gè)歧義詞所處的上下文語境識(shí)別出該歧義詞的正確義項(xiàng)[1]。詞義消歧不僅在機(jī)器翻譯中有重要應(yīng)用,也在信息檢索、語義分析和話題關(guān)聯(lián)檢測(cè)[2]中有重要意義。詞義消歧方法一般包括基于知識(shí)庫的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[3]?;谥R(shí)庫的方法通常借助WordNet[4]、Hownet[5]、《同義詞詞林》、機(jī)讀詞典等輔助目標(biāo)歧義詞的消歧特征。張春祥等[6]借助《同義詞詞林》,將窗口大小內(nèi)的左右詞單元對(duì)應(yīng)的語義代碼作為消歧特征,
計(jì)算機(jī)應(yīng)用與軟件 2021年2期2021-02-25
- 基于多節(jié)點(diǎn)組合特征和模糊聚類的中文詞義消歧方法
存在的現(xiàn)象。詞義消歧的目的是使系統(tǒng)根據(jù)某個(gè)歧義詞所處的上下文語境識(shí)別出該歧義詞的正確義項(xiàng)[1]。詞義消歧不僅在機(jī)器翻譯中有重要應(yīng)用,也在信息檢索、語義分析和話題關(guān)聯(lián)檢測(cè)[2]中有重要意義。詞義消歧方法一般包括基于知識(shí)庫的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[3]。基于知識(shí)庫的方法通常借助WordNet[4]、Hownet[5]、《同義詞詞林》、機(jī)讀詞典等輔助目標(biāo)歧義詞的消歧特征。張春祥等[6]借助《同義詞詞林》,將窗口大小內(nèi)的左右詞單元對(duì)應(yīng)的語義代碼作為消歧特征,
計(jì)算機(jī)應(yīng)用與軟件 2021年2期2021-02-25
- 融合k均值聚類與LSTM網(wǎng)絡(luò)的半監(jiān)督詞義消歧
080)提高詞義消歧的準(zhǔn)確率是自然語言處理中的一個(gè)重要課題。通常,使用圖來描述詞義消歧問題。利用圖中的結(jié)點(diǎn)來表示詞,使用圖中的邊來表示詞之間的關(guān)聯(lián)關(guān)系。此時(shí),詞義消歧過程將轉(zhuǎn)化為圖的求解問題。文獻(xiàn)[1-4]使用圖的思想,將詞匯單元作為圖中的結(jié)點(diǎn),利用邊來描述上下文語義距離及關(guān)系,達(dá)到詞義消歧的目的。TRIPODI等[5]提出了一種基于進(jìn)化博弈論的詞義消歧模型。利用分布信息來衡量每個(gè)單詞對(duì)其它單詞的影響,利用語義相似性來度量不同選擇之間的兼容性。ERK等[6
西安電子科技大學(xué)學(xué)報(bào) 2021年6期2021-02-21
- 基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
50080)詞義消歧的目的是確定歧義詞匯在特定上下文環(huán)境中的具體含義。詞義消歧對(duì)機(jī)器翻譯、話題關(guān)聯(lián)檢測(cè)、語音識(shí)別、文本分類、信息檢索和主題挖掘等應(yīng)用有很大的影響[1-2]。錢濤等[3]、SONAKSHI等[4]和EDILSON等[5]使用圖來描述詞義消歧問題。ROCCO等[6]根據(jù)分布信息來計(jì)算語義的相似性,提出了一種新的基于進(jìn)化博弈理論的詞義消歧模型。SALLAM等[7]將蜂群優(yōu)化元啟發(fā)式算法應(yīng)用于詞義消歧過程,利用多個(gè)人工蜂代理來協(xié)同處理該問題。SUL
哈爾濱工程大學(xué)學(xué)報(bào) 2020年8期2020-11-13
- 科學(xué)合作網(wǎng)絡(luò)姓名消歧問題研究*
挑戰(zhàn)。為此,姓名消歧成為了近年來國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)之一[1]。當(dāng)前科研文獻(xiàn)數(shù)據(jù)量急速增長(zhǎng),如何有效地消除文獻(xiàn)著者中文姓名歧義尤為重要。2 姓名消歧方案設(shè)計(jì)2.1 消歧方案基本流程文獻(xiàn)著者姓名消歧是將同名作者發(fā)表的文獻(xiàn)對(duì)應(yīng)到相應(yīng)人物實(shí)體的過程,該過程也是一篇文獻(xiàn)被若干個(gè)同名作者認(rèn)領(lǐng)的過程,最終目的是每個(gè)作者認(rèn)領(lǐng)各自的作品,對(duì)于無人認(rèn)領(lǐng)的作品,在數(shù)據(jù)庫中新增該同名作者。從文獻(xiàn)特征消歧順序和語義指紋的認(rèn)領(lǐng)決策兩個(gè)方面進(jìn)行優(yōu)化,設(shè)計(jì)了以下基于語義指紋的姓名消歧方
甘肅科技 2020年16期2020-10-09
- 融合語言知識(shí)的神經(jīng)網(wǎng)絡(luò)中文詞義消歧模型
1)0 引言詞義消歧是自然語言處理中的基礎(chǔ)任務(wù)之一,用于確定目標(biāo)詞在特定上下文語境的詞義[1],是信息抽取、機(jī)器翻譯和閱讀理解等任務(wù)的基礎(chǔ)。詞義消歧主要有3種方法:基于知識(shí)庫的方法、有監(jiān)督方法和無監(jiān)督方法。其中有監(jiān)督詞義消歧通常使用傳統(tǒng)機(jī)器學(xué)習(xí)模型實(shí)現(xiàn),如支持向量機(jī)[2]、最大熵[3]和貝葉斯分類器[4]等,其準(zhǔn)確率高于另外2種方法。目前在有監(jiān)督詞義消歧任務(wù)中大量使用了神經(jīng)網(wǎng)絡(luò)模型[5],并取得了優(yōu)于傳統(tǒng)統(tǒng)計(jì)模型的結(jié)果。例如,文獻(xiàn)[6-7]分別使用雙向長(zhǎng)短
鄭州大學(xué)學(xué)報(bào)(理學(xué)版) 2020年3期2020-08-25
- 基于滑動(dòng)語義串匹配(SMOSS)的漢語詞義消歧
)1 引 言詞義消歧(WSD)是自然語言處理領(lǐng)域中的一個(gè)難點(diǎn)問題[1,2],至今仍沒得到很好解決.現(xiàn)在自然語言處理研究已經(jīng)深入到語義分析層次,因此對(duì)于詞義消歧技術(shù)需求也就更加強(qiáng)烈.隨著詞義消歧研究不斷深入,研究人員提出了很多方法以提高性能,包括采用一些深度學(xué)習(xí)的方法.Dayu Yuan等人[3]采用LSTM模型的詞義消歧取得了較好效果.Alessandro Raganato等人[4]定制了從LSTM到編解碼模型一系列的神經(jīng)結(jié)構(gòu)并在多語種上取得好的效果.楊安
小型微型計(jì)算機(jī)系統(tǒng) 2020年7期2020-07-13
- BSAED:一種基于雙向語義關(guān)聯(lián)的實(shí)體消歧算法
)實(shí)體鏈接是實(shí)體消歧的基本過程[1],目的是將文本中出現(xiàn)的實(shí)體指稱鏈接到維基百科等結(jié)構(gòu)化知識(shí)庫.實(shí)體指稱的歧義性是指同一個(gè)實(shí)體指稱在不同的上下文語境中可能指代不同的實(shí)體對(duì)象. 實(shí)體消歧的本質(zhì)是比較實(shí)體指稱與候選實(shí)體的語義相似性.針對(duì)樣例:“一首《李白》用鄉(xiāng)村搖滾風(fēng)的率性旋律,寫出李榮浩對(duì)隨性生活的向往.”我們依據(jù)“旋律”一詞便能判斷出這里的實(shí)體指稱“李白”與候選實(shí)體“李白(歌曲)”的相似度比候選實(shí)體“李白(唐代詩人)”更高,從而將實(shí)體指稱“李白”鏈接到知識(shí)
- 基于上下文詞向量和主題模型的實(shí)體消歧方法
(歧義性)。實(shí)體消歧是海量文本分析的核心技術(shù)之一,主要解決實(shí)體名的歧義性和多樣性問題,為解決信息過載問題提供了有限的技術(shù)手段。另外,實(shí)體作為知識(shí)圖譜的基本單元,是承載文本信息的重要語言單位,而消除實(shí)體的歧義在知識(shí)圖譜構(gòu)建的過程中發(fā)揮著承上啟下的作用。所以,實(shí)體消歧是知識(shí)圖譜構(gòu)建和補(bǔ)全的關(guān)鍵技術(shù)。1 相關(guān)工作目前已經(jīng)有很多方法被提出用于實(shí)體消歧,根據(jù)模型的差異,實(shí)體消歧方法可以劃分成基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。1.1 基于機(jī)器學(xué)習(xí)的方法在基于機(jī)器
中文信息學(xué)報(bào) 2019年11期2019-11-18
- 融合語言特性的越南語兼類詞消歧
解決越南語兼類詞消歧問題是構(gòu)建高質(zhì)量的越南語詞性語料庫的必要條件。近年來,國(guó)內(nèi)外學(xué)者對(duì)兼類詞消歧方法進(jìn)行了研究,主要有以下3種:(1)基于規(guī)則的方法[5,7-8]。根據(jù)北印度語語法,Gupta等[7]提出基于規(guī)則的方法,對(duì)兼類詞進(jìn)行消歧;Liu等[8]提出基于配置的定量分析現(xiàn)代漢語中動(dòng)詞和名詞兼類的分類方法來解決漢語中動(dòng)-名詞兼類問題,根據(jù)句法和語義特征對(duì)動(dòng)-名詞兼類進(jìn)行研究;Li等[5]針對(duì)中-英專利機(jī)器翻譯中的動(dòng)詞和介詞的兼類,提出基于規(guī)則的識(shí)別方法,
數(shù)據(jù)采集與處理 2019年4期2019-09-06
- 引入詞性標(biāo)記的基于語境相似度的詞義消歧
實(shí)際含義,即詞義消歧,簡(jiǎn)稱WSD,是自然語言處理領(lǐng)域中歷史久遠(yuǎn)的問題,有著廣泛的應(yīng)用。目前可分為有監(jiān)督方法、無監(jiān)督方法和基于知識(shí)的三類方法。雖然已發(fā)表的有監(jiān)督詞義消歧系統(tǒng)在提供特定語義的大規(guī)模訓(xùn)練語料時(shí)有很好的表現(xiàn),但缺乏大規(guī)模標(biāo)注語料是其存在的主要問題。使用預(yù)訓(xùn)練的詞向量可以在一定程度上解決這個(gè)問題。因?yàn)槭褂妙A(yù)先在大規(guī)模語料上訓(xùn)練的詞向量,包含了較多的語義語法信息,用它來訓(xùn)練有監(jiān)督系統(tǒng),會(huì)使性能得到提升。而想要對(duì)句中的詞義做推斷,目標(biāo)詞和目標(biāo)詞的語境都需
中文信息學(xué)報(bào) 2018年8期2018-09-18
- 基于三元糾錯(cuò)輸出編碼的偏標(biāo)記學(xué)習(xí)算法*
問題的基本策略是消歧。消歧思想是消除偏標(biāo)記對(duì)象候選標(biāo)記中偽標(biāo)記引起的歧義性。現(xiàn)有的消歧策略算法主要包括基于辨識(shí)的消歧(disambiguation of identification-based)和基于平均的消歧(disambiguation of averaging-based)?;诒孀R(shí)的消歧將樣本的真實(shí)標(biāo)記當(dāng)作隱變量,通過迭代方式優(yōu)化內(nèi)嵌隱變量來實(shí)現(xiàn)消歧?;谄骄?span id="syggg00" class="hl">消歧對(duì)偏標(biāo)記樣本的各個(gè)候選標(biāo)記賦予相同的權(quán)重,通過綜合學(xué)習(xí)模型在各候選標(biāo)記上的輸出來實(shí)
計(jì)算機(jī)與生活 2018年9期2018-09-12
- 面向科技人才情報(bào)的多策略組合模型同名消歧方法*
同名歧義數(shù)據(jù)不做消歧處理,那么將無法保證搜索結(jié)果的準(zhǔn)確性。當(dāng)前的同名消歧方法主要有以下三種。一是基于向量空間模型的聚類消歧方法,如楊欣欣通過抽取網(wǎng)頁中與人名相關(guān)的特征及命名實(shí)體,利用二階段聚類算法實(shí)現(xiàn)同名消歧[1];辛濤提出利用待消歧人名的組合特征,通過層次凝聚聚類(Hierarchical Agglomerative Clustering,HAC)算法來實(shí)現(xiàn)同名消歧[2]。二是基于社會(huì)網(wǎng)絡(luò)的聚類消歧方法,如郎君利用檢索結(jié)果中共現(xiàn)人名構(gòu)建社會(huì)網(wǎng)絡(luò),并結(jié)合譜
通信技術(shù) 2018年8期2018-09-03
- 基于詞義消歧的短文本情感分類方法研究
尤關(guān)必要了。詞義消歧是自然語言處理中一項(xiàng)重要的工作,同一個(gè)的詞匯在不同的語境之下含義不同的現(xiàn)象在自然語言的語境中普遍存在,所以消除詞匯之間的歧義,在文本情感傾向分析中,有著至關(guān)重要的作用。為了獲取文本內(nèi)容向下文相關(guān)聯(lián)的文本特征信息,Graves[3]提出一種BLSTM模型,該模型采用雙向的LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))對(duì)文本信息和特征進(jìn)行雙向識(shí)別。Zhou[4]介紹了帶注意力機(jī)制的BLSTM模型,該模型能夠在沒有太多干預(yù)的情況下依靠自己來獲取文本特征信息。在2
現(xiàn)代計(jì)算機(jī) 2018年20期2018-08-01
- 漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究
高質(zhì)量的統(tǒng)計(jì)詞義消歧的方法和技術(shù)受到了廣泛關(guān)注。中科院算機(jī)所的魯松、白碩[2]等提出基于向量空間模型中義項(xiàng)詞語的無導(dǎo)詞義消歧方法。楊陟卓、黃河燕等提出了基于詞語距離的網(wǎng)絡(luò)圖詞義消歧方法[3],該方法改進(jìn)了傳統(tǒng)網(wǎng)絡(luò)模型,將距離信息添加入網(wǎng)絡(luò)模型中,取得了較好的效果。北京信息科技大學(xué)的張仰森提出了基于最大熵模型的漢語詞義消歧與標(biāo)注方法[4],該方法從特征類型、窗口大小以及是否考慮位置特征三個(gè)方面設(shè)計(jì)特征模板,依據(jù)特征模板獲取模型參數(shù)文件,進(jìn)而進(jìn)行詞義消歧。電子
計(jì)算機(jī)與數(shù)字工程 2018年1期2018-02-09
- DBpedia Spotlight上的命名實(shí)體識(shí)別優(yōu)化*
于主題向量的二次消歧方法,進(jìn)一步增強(qiáng)了標(biāo)注準(zhǔn)確率。通過在廣泛使用的開源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight上進(jìn)行多種比較實(shí)驗(yàn),驗(yàn)證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。命名實(shí)體識(shí)別;鏈接數(shù)據(jù);DBpedia Spotlight1 引言作為信息提取領(lǐng)域的任務(wù)之一,命名實(shí)體識(shí)別能夠在給定的文本中識(shí)別出所有實(shí)體的命名性指稱,并鏈接到其在知識(shí)庫中的參照,從而搭建起知識(shí)庫與自然語言文本之間的橋梁。隨著維基百科的發(fā)展以及包括DBpedia[1]
計(jì)算機(jī)與生活 2017年7期2017-07-31
- 基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法
度的中文實(shí)體協(xié)同消歧方法線巖團(tuán),余正濤,洪旭東,張 磊,郭劍毅(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)該文針對(duì)中文實(shí)體消歧中的特征項(xiàng)部分匹配和協(xié)同消歧問題,提出基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法。該方法利用實(shí)體指稱上下文中多種特征的加權(quán)重疊度計(jì)算實(shí)體指稱相似度,針對(duì)實(shí)體鏈接與消歧聚類約束,分類定義實(shí)體指稱相似度計(jì)算方法,構(gòu)建待消歧實(shí)體相似度矩陣,采用近鄰傳播聚類算法實(shí)現(xiàn)中文實(shí)體協(xié)同鏈接與消歧?;贑LP-2012評(píng)測(cè)數(shù)據(jù)的實(shí)驗(yàn)
中文信息學(xué)報(bào) 2017年2期2017-06-01
- 基于語義規(guī)則的詞義消歧方法的研究
于語義規(guī)則的詞義消歧方法的研究張婷婷 遼寧錦州渤海大學(xué)信息科學(xué)與技術(shù)學(xué)院本文基于WordNet現(xiàn)存的詞義結(jié)構(gòu)以及詞義對(duì)用的上下文語義關(guān)系,詞義消歧之后通過語義選擇完成消歧工作。本文最后使用Senseval-3中的全英文文段作為該算法的實(shí)驗(yàn)測(cè)試集,詞義消歧算法使得測(cè)試集中的選擇多義詞最佳語義結(jié)果較好,本文的消歧方法經(jīng)過與其他詞義消歧算法進(jìn)行數(shù)據(jù)比對(duì)分析,能夠有效完成全英文文段單詞的詞義消歧任務(wù)。WordNet 語義規(guī)則 多義詞 詞義消歧 Senseval-3
數(shù)碼世界 2017年3期2017-03-28
- 多策略中文微博實(shí)體詞消歧及實(shí)體鏈接
略中文微博實(shí)體詞消歧及實(shí)體鏈接向宇郭云龍徐瀟曾維剛李莉*(西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院重慶 400715)在社交網(wǎng)絡(luò)迅猛發(fā)展的今天,如何對(duì)有歧義的微博實(shí)體進(jìn)行消歧和如何將微博實(shí)體連接到知識(shí)庫已成為當(dāng)今研究熱點(diǎn)。對(duì)實(shí)體消歧和實(shí)體鏈接提出了多種策略方案。首先利用ICTCLAS對(duì)微博文本進(jìn)行分詞處理,利用百度百科、實(shí)體專家?guī)鞂?duì)實(shí)體進(jìn)行規(guī)范化處理。然后利用由爬蟲爬取的百度百科信息、微博數(shù)據(jù)、網(wǎng)絡(luò)詞語構(gòu)建了消歧文本數(shù)據(jù)庫,再結(jié)合TF-IDF算法和Fast-Newma
計(jì)算機(jī)應(yīng)用與軟件 2016年8期2016-09-08
- 地名知識(shí)輔助的中文地名消歧方法
識(shí)輔助的中文地名消歧方法馬 雷 雷1,2,李 宏 偉1,連 世 偉1,梁 汝 鵬1,龔 競(jìng)2(1.信息工程大學(xué)地理空間信息學(xué)院,河南 鄭州 450052;2.四川省應(yīng)急測(cè)繪與防災(zāi)減災(zāi)工程技術(shù)研究中心,四川 成都 610041)地理空間中對(duì)位置的描述可以基于形式化的地理坐標(biāo),也可以利用自然語言文本中的非形式化地名來表達(dá)。文本中的同一地名可能指向很多地理位置,這就引起了地名歧義,地名消歧就是消除概念指稱上的認(rèn)知分歧,為地名分配唯一的地理位置。該文從地名知識(shí)的角
地理與地理信息科學(xué) 2016年4期2016-06-05
- 一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法
型的特定領(lǐng)域?qū)嶓w消歧方法汪沛1,線巖團(tuán)1,2,郭劍毅1,2,文永華1,2,陳瑋1,2,王紅斌1,2(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)摘要:針對(duì)特定領(lǐng)域提出了一種結(jié)合詞向量和圖模型的方法來實(shí)現(xiàn)實(shí)體消歧。以旅游領(lǐng)域?yàn)槔?,首先選取維基百科離線數(shù)據(jù)庫中的旅游分類下的頁面內(nèi)容構(gòu)建領(lǐng)域知識(shí)庫,然后用知識(shí)庫中的文本和從各大旅游網(wǎng)站爬取到的旅游文本,通過詞向量計(jì)算工具W
智能系統(tǒng)學(xué)報(bào) 2016年3期2016-06-02
- 一種基于特征映射的中文專家消歧方法
征映射的中文專家消歧方法潘 霄1,2,余正濤1,2,郭劍毅1,2,毛存禮1,2,楊秀貞1(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)針對(duì)中文專家頁面特點(diǎn),以及用于消歧的基準(zhǔn)專家頁面中信息涵蓋不全的問題,該文提出一種基于特征映射的中文專家消歧方法。首先,采用條件隨機(jī)場(chǎng)模型,從基準(zhǔn)專家頁面和待消歧頁面中提取出所定義的12維人物屬性特征,并利用最大熵分類模型,結(jié)合已有
中文信息學(xué)報(bào) 2016年2期2016-05-04
- 上下文邊界可變的詞義消歧
引 言通常詞義消歧方法可分為基于統(tǒng)計(jì)的方法和基于知識(shí)的方法[1]。傳統(tǒng)的基于知識(shí)的方法[2-4]針對(duì)文本中出現(xiàn)的多義詞,不管是什么詞性,均選取固定上下文來進(jìn)行消歧的,這樣一定會(huì)引入不同程度的噪音,影響消歧效果。歸其原因,該方法從根本上忽略了不同詞性的多義詞制約其含義的上下文語境范圍應(yīng)是不同的。通常,詞語含義的差別一定會(huì)在語言運(yùn)用中得到體現(xiàn),詞的不同含義會(huì)在句法或詞匯搭配層面上表現(xiàn)出不同的組合特征,并且不同詞性詞語的這種彼此獨(dú)立且呈互補(bǔ)分布的特征是不一樣的
計(jì)算機(jī)工程與設(shè)計(jì) 2015年10期2015-12-23
- 國(guó)際場(chǎng)域的建設(shè)性對(duì)話
——聯(lián)合國(guó)消除對(duì)婦女歧視委員會(huì)第59屆會(huì)議觀察記錄
約》(以下簡(jiǎn)稱《消歧公約》)的報(bào)告進(jìn)行了審議。審議期間,被審查各國(guó)的政府代表團(tuán)參加會(huì)議。中國(guó)國(guó)務(wù)院婦女兒童工作委員會(huì)副主任宋秀巖率領(lǐng)包括香港、澳門特別行政區(qū)政府代表在內(nèi)的45人中國(guó)政府代表團(tuán)參加了會(huì)議。中央政府代表來自15個(gè)部門,香港特區(qū)政府代表來自4個(gè)部門,澳門特區(qū)政府代表來自6個(gè)部門。同時(shí),根據(jù)《消歧公約》的審查機(jī)制,大多數(shù)被審查國(guó)家的非政府組織代表也參加了會(huì)議,其中來自中國(guó)大陸和香港的非政府組織有20多個(gè)。本文將從中國(guó)非政府婦女組織的視角,簡(jiǎn)要介紹會(huì)
婦女研究論叢 2015年1期2015-04-17
- 基于知網(wǎng)義原詞向量表示的無監(jiān)督詞義消歧方法
大量多義詞,詞義消歧對(duì)于具有認(rèn)知能力的人類來說并不是一件困難的事情,但是對(duì)計(jì)算機(jī)自動(dòng)識(shí)別構(gòu)成了困難。詞義消歧(word sense disambiguation,WSD)就是指計(jì)算機(jī)根據(jù)多義詞上下文及其他信息進(jìn)行詞義確定的過程。詞義消歧在自然語言處理中是一個(gè)較為基礎(chǔ)且困難的問題,而且會(huì)直接影響到信息檢索、機(jī)器翻譯、文本分類、語音識(shí)別等上層任務(wù)。目前主流詞義消歧的方法有基于知識(shí)庫的方法和基于語料庫的方法?;谥R(shí)庫的方法覆蓋面較大,可以對(duì)知識(shí)庫中所有詞進(jìn)行消
中文信息學(xué)報(bào) 2015年6期2015-04-12
- 中國(guó)科學(xué)技術(shù)信息研究所在“發(fā)明人名稱消歧競(jìng)賽”中取得優(yōu)異成績(jī)
所在“發(fā)明人名稱消歧競(jìng)賽”中取得優(yōu)異成績(jī)【本刊訊】 2015年9月24日,美國(guó)專利與商標(biāo)局(USPTO)首席經(jīng)濟(jì)學(xué)家辦公室在美國(guó)弗吉利亞州USPTO總部舉辦了旨在提高現(xiàn)有專利發(fā)明人名稱數(shù)據(jù)精度的“PatentsView專利發(fā)明人名稱消歧技術(shù)研討會(huì)”。會(huì)議期間,舉行了“專利發(fā)明人名稱消歧競(jìng)賽”。此次競(jìng)賽的目的是通過設(shè)計(jì)專利發(fā)明人名稱消歧算法,對(duì)USPTO收錄的近40年(1976—2014年)的美國(guó)專利發(fā)明人數(shù)據(jù)(約1239萬條記錄)進(jìn)行唯一標(biāo)識(shí),以改進(jìn)現(xiàn)有的
中國(guó)科技資源導(dǎo)刊 2015年5期2015-01-28
- 基于圖排序的詞匯情感消歧研究
判斷。目前在詞義消歧上,國(guó)內(nèi)外已有不少成熟的方法。其中,何徑舟等[3]在分析了特征模板對(duì)消歧結(jié)果影響的基礎(chǔ)上,提出一套基于最大熵分類模型的自動(dòng)特征選擇方法來實(shí)現(xiàn)詞義消歧。張仰森等[4]針對(duì)最大熵原理只能利用上下文中的顯性統(tǒng)計(jì)特征構(gòu)建語言模型的缺點(diǎn),提出了隱最大熵原理構(gòu)建詞義消歧模型;通過構(gòu)建面向詞義消歧的條件隨機(jī)場(chǎng)模型庫,車玲等[5]通過實(shí)驗(yàn)證明,低頻義項(xiàng)可以取得較好的消歧效果。與此同時(shí),Mihalcea[6]提出了基于Wikipedia進(jìn)行詞義消歧的方法
中文信息學(xué)報(bào) 2014年6期2014-02-28
- 基于語言模型的有監(jiān)督詞義消歧模型優(yōu)化研究
1)1 引言詞義消歧是確定多義詞在給定上下文語境中的意義,它是自然語言處理領(lǐng)域中重要的研究課題之一。相關(guān)研究表明,詞義消歧對(duì)機(jī)器翻譯、信息檢索、文本分析、自動(dòng)文摘、知識(shí)挖掘等多方面都具有十分重要的作用。目前,基于語料庫的詞義消歧方法可分為有監(jiān)督和無監(jiān)督方法[1]。無監(jiān)督方法無需訓(xùn)練語料,可以有效克服數(shù)據(jù)稀疏問題,但是該方法的消歧效果卻不盡如人意,很難達(dá)到實(shí)用的目的。有監(jiān)督方法的消歧效果要遠(yuǎn)遠(yuǎn)優(yōu)于無監(jiān)督方法,但是該方法需要大量的高質(zhì)量的訓(xùn)練語料支持,而獲取大
中文信息學(xué)報(bào) 2014年1期2014-02-27
- 基于Word Embedding語義相似度的字母縮略術(shù)語消歧
究字母縮略術(shù)語的消歧具有實(shí)際應(yīng)用價(jià)值。字母縮略術(shù)語的語料資源稀少,義項(xiàng)專業(yè)性強(qiáng),因此本文選擇基于知識(shí)庫的無監(jiān)督方法實(shí)現(xiàn)消歧。在這方面,傳統(tǒng)語義消歧(WSD)方法常選取歧義詞上下文語境作為特征,用向量空間模型(VSM)表示文檔[1]。其實(shí)質(zhì)上是根據(jù)領(lǐng)域特征劃分歧義詞所在的文檔,缺乏對(duì)歧義詞語義信息的挖掘和利用。使用詞義網(wǎng)絡(luò)如WordNet、HowNet中的語義知識(shí)輔助詞義消歧能夠取得較好的效果[2-3]。然而對(duì)于縮略術(shù)語而言,詞義網(wǎng)絡(luò)更新慢、覆蓋度低,無法滿
中文信息學(xué)報(bào) 2014年5期2014-02-27
- 基于動(dòng)態(tài)規(guī)劃的簡(jiǎn)單語義單元詞義消歧
維基的兩階段語義消歧方法;文獻(xiàn)[4]研究了基于詞語距離的網(wǎng)絡(luò)圖的語義消歧;文獻(xiàn)[5]研究了基于知網(wǎng)的中文信息結(jié)構(gòu)消歧研究;文獻(xiàn)[6]研究了基于知網(wǎng)詞匯語義相關(guān)度計(jì)算的消歧方法;文獻(xiàn)[7]研究了基于語義相關(guān)度的語義模型求解;文獻(xiàn)[8]研究了基于Word Net的詞匯語義消岐模型;文獻(xiàn)[9]研究了基于Word Net語義樹的語義消岐方法;文獻(xiàn)[10]研究了基于Word Net語義關(guān)系網(wǎng)的信息處理。這些研究雖然取得很多成果,但并沒有形成一個(gè)比較成熟、有效的計(jì)算方
計(jì)算機(jī)工程與設(shè)計(jì) 2014年4期2014-02-09
- 利用優(yōu)化的DBSCAN算法進(jìn)行文獻(xiàn)著者人名消歧
進(jìn)行文獻(xiàn)著者人名消歧●任景華1,2(1.武漢大學(xué)新聞與傳播學(xué)院,武漢430072;2.昌吉學(xué)院中文系,新疆昌吉831100)人名歧義;人名消歧;DBSCAN;文獻(xiàn)著者通過對(duì)文本聚類算法DBSCAN算法優(yōu)化對(duì)文獻(xiàn)著者人名進(jìn)行消歧,結(jié)果表明,相對(duì)標(biāo)準(zhǔn)文本聚類算法來說,優(yōu)化后的算法能取得更好的人名消歧效果。人名歧義是一種身份不確定的現(xiàn)象,指的是文本中具有相同姓名的字符串指向現(xiàn)實(shí)世界中的不同實(shí)體人物。該現(xiàn)象普遍存在于文獻(xiàn)數(shù)據(jù)庫與網(wǎng)頁中,即不同的用戶擁有同一姓名的現(xiàn)
圖書館理論與實(shí)踐 2014年12期2014-01-16
- 自然語言處理中的語義消歧研究
存關(guān)系分析、語義消歧等等。要真正理解句子的含義,這些最基本的處理是必須的。語義消歧是比分詞、詞性標(biāo)注、句法分析更高級(jí)的自然語言處理技術(shù),但面臨的困難也更大。例如,“我是她的粉絲”,要理解這句話,首先必須對(duì)句子進(jìn)行分詞和詞性標(biāo)注,得到這樣的結(jié)果“我/代詞 是/動(dòng)詞 她/代詞 的/助詞 粉絲/名詞。 /句號(hào)”。其次需要對(duì)這句話做句法分析,也就是說必須讓計(jì)算機(jī)知道,這句話的主要成分是“我是粉絲”,“她的”是用來修飾和限定“粉絲”的。然后從語義的角度上分析,“我”
淮南師范學(xué)院學(xué)報(bào) 2013年5期2013-08-15
- 對(duì)外漢語教學(xué)中歧義與消歧探析
歧義現(xiàn)象很普遍,消歧已成為對(duì)外漢語教學(xué)的重要研究課題。漢語的歧義有存在于口語中的同音歧義、重音歧義,有存在于書面語中的多音歧義、結(jié)構(gòu)歧義和功能歧義等等。針對(duì)不同原因的歧義,其消歧的方法和途徑也各有不同。關(guān)鍵詞:漢語;歧義;消歧;漢外教學(xué)中圖分類號(hào):G42 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1002-2589(2013)08-0233-02所謂歧義是指同一表層結(jié)構(gòu)的語句對(duì)應(yīng)著兩種或兩種以上的深層含義,簡(jiǎn)單地說,就是一種形式對(duì)應(yīng)著兩種或兩種以上的解釋[1]。也就是說,
學(xué)理論·中 2013年3期2013-04-22
- 基于序列標(biāo)注的全詞消歧方法
3)1 引言詞義消歧,即在特定的上下文中確定歧義詞的詞義。根據(jù)詞義消歧的范圍,可將其分為詞樣消歧(Lexical-Sample WSD)和全詞消歧(All-Words WSD)。詞樣消歧對(duì)給定文本中的某些指定詞進(jìn)行消歧,而全詞消歧對(duì)給定文本中的所有開放詞(包括名詞、動(dòng)詞、形容詞和副詞)進(jìn)行消歧。詞樣消歧是一個(gè)典型的分類問題,可使用各種成熟的有監(jiān)督分類算法,如樸素貝葉斯[1]、最大熵算法[2]和支持向量機(jī)[3]等。對(duì)于全詞消歧,目前通常的做法是將其當(dāng)作詞樣消
中文信息學(xué)報(bào) 2012年2期2012-07-09
- 基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
CMS,因此對(duì)其消歧是應(yīng)用的必要前提之一;文獻(xiàn)[5]應(yīng)用了CMS的消歧,但沒有說明如何對(duì)其進(jìn)行消歧;文獻(xiàn)[6]構(gòu)建了基于《知網(wǎng)》的中文信息結(jié)構(gòu)抽取器,但其規(guī)則形式不簡(jiǎn)練且規(guī)則中忽略了動(dòng)態(tài)角色,其次消歧策略不明了;鑒于此,本文首先以《中文信息結(jié)構(gòu)庫》為藍(lán)本形式化了CMS;然后根據(jù)CMS的構(gòu)成形式對(duì)其進(jìn)行優(yōu)先級(jí)劃分,并提出了不同的消歧方法: 如詞性序列消歧法、圖相容匹配消歧法、圖相容度計(jì)算消歧法及基于實(shí)例的語義相似度計(jì)算消歧法;最后描述了信息結(jié)構(gòu)集的消歧流程。
中文信息學(xué)報(bào) 2012年4期2012-06-29
- 基于隱最大熵原理的漢語詞義消歧方法
于漢語詞匯的語義消歧研究一直是中文信息處理領(lǐng)域的研究熱點(diǎn)。詞義消歧從研究方法上講主要有基于規(guī)則的方法、基于詞典知識(shí)的方法、有指導(dǎo)的統(tǒng)計(jì)消歧法、無指導(dǎo)的統(tǒng)計(jì)消歧法[1]。其中有指導(dǎo)的統(tǒng)計(jì)詞義消歧法是目前WSD領(lǐng)域的主流,它將詞義消歧問題作為分類問題來考慮,將機(jī)器學(xué)習(xí)領(lǐng)域里廣泛流行的算法用于詞義消歧,包括決策樹(Decision Tree)方法(Black,1988)[2]、決策表(Decision List)方法(Yarowsky)[3]、Na?ve Bay
中文信息學(xué)報(bào) 2012年3期2012-06-29
- 基于貝葉斯分類器和條件隨機(jī)場(chǎng)模型的詞義消歧對(duì)比研究
10097)詞義消歧就是在某個(gè)特定的上下文中,確定某個(gè)多義詞在該上下文中特定義項(xiàng)的過程[1]。詞義消歧作為一個(gè)中間任務(wù),對(duì)自然語言處理十分重要,很多應(yīng)用都需要經(jīng)過詞義消歧才能更好地發(fā)揮作用,比如機(jī)器翻譯、信息檢索、自然語言內(nèi)容語義分析、語法分析、語音識(shí)別和文語轉(zhuǎn)換等都需要詞義消歧的結(jié)果。詞義消歧是一種自然語言處理技術(shù),它根據(jù)知識(shí)獲取的方法可分為兩種:一是基于詞典的消歧方法,指把機(jī)讀詞典(語文詞典或義類詞典)作為外部知識(shí)源,它本質(zhì)上是一種基于規(guī)則的方法,有時(shí)
文教資料 2011年36期2011-12-31
- 基于社會(huì)網(wǎng)絡(luò)的跨文本同名消歧
。跨文本人名同名消歧是判斷不同文本中的相同人名是否指稱現(xiàn)實(shí)中相同實(shí)體的過程??缥谋救嗣?span id="syggg00" class="hl">消歧是準(zhǔn)確獲取感興趣人物相關(guān)信息的基礎(chǔ),對(duì)多文本摘要(Multi-text summary)、信息融合(Information fusion)等具體應(yīng)用也有重要的作用。但跨文本人名消歧是一項(xiàng)具有挑戰(zhàn)性的任務(wù),主要有以下幾個(gè)方面的原因。其一,重名的人數(shù)具有隨機(jī)性,有的名字的重名人可能成百上千,有些可能沒有重名;其二,不同名字重名不遵循統(tǒng)一的分布;其三,文本中存在與人物實(shí)體無
中文信息學(xué)報(bào) 2011年5期2011-10-15
- 漢語框架自動(dòng)識(shí)別中的歧義消解
框架),這就需要消歧。即,給定一個(gè)句子中的目標(biāo)詞,要求計(jì)算機(jī)能夠根據(jù)上下文環(huán)境,自動(dòng)識(shí)別出該詞所屬的框架,這個(gè)任務(wù)稱為框架識(shí)別。事實(shí)上,框架識(shí)別任務(wù)可以分為三個(gè)子任務(wù)[1],其完整提法如下: 1)詞元檢測(cè): 即判斷句子中給定的詞語是否激起框架。因?yàn)椋械脑~語雖然作為詞元被收錄在框架中,但是,在某些句子中,該詞只作為一個(gè)概念名稱來表達(dá),并不激起框架,如: 聽見并不代表聽懂。其中,詞“聽見”在本句中不激起框架。因此,我們首先要檢測(cè)出能夠激起框架的詞語;2)未知
中文信息學(xué)報(bào) 2011年3期2011-06-14
- 語義指向理論及其在中學(xué)語文教學(xué)中的應(yīng)用
鍵詞】語義指向 消歧 中學(xué)語文教學(xué)20世紀(jì)80年代以來,我國(guó)漢語語法研究中出現(xiàn)了一種新的語義分析方法——語義指向分析。所謂語義指向指的是句中某一成分在語義上跟哪一個(gè)成分直接相關(guān),例如“砍光了”的補(bǔ)語“光”在語義上指向“砍”的受事(雜草砍光了);“砍累了”的補(bǔ)語“累”在語義上指向“砍”的施事(他砍累了);“砍鈍了”的補(bǔ)語“鈍”在語義上指向“砍”的工具(斧頭砍鈍了);“砍慢了”的補(bǔ)語“慢”在語義上指向“砍”這一動(dòng)作本身(他砍慢了,沒能在規(guī)定時(shí)間內(nèi)完成任務(wù));“
中學(xué)語文·大語文論壇 2008年11期2008-12-18