国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合知識(shí)圖譜和ESA方法的網(wǎng)絡(luò)新詞識(shí)別

2019-03-21 11:35劉申凱周霽婷朱永華高洪皓
關(guān)鍵詞:分詞新詞圖譜

劉申凱,周霽婷,朱永華,高洪皓,3

(1.上海大學(xué),上海 200072;2.上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444;3.上海大學(xué) 計(jì)算中心,上海 200444)

0 引 言

在互聯(lián)網(wǎng)的高速發(fā)展下社交網(wǎng)絡(luò)隨之興起,微信、微博等文本形式的使用量日益增多。這類(lèi)文本的大規(guī)模使用對(duì)研究自然語(yǔ)言處理帶來(lái)了新的挑戰(zhàn)。在社交網(wǎng)絡(luò)中,由于這類(lèi)文本的篇幅較小,包含的信息量較少,會(huì)導(dǎo)致語(yǔ)義信息的不完全。另一方面,網(wǎng)絡(luò)文本常會(huì)包含許多新詞,這些網(wǎng)絡(luò)新詞會(huì)直接影響分詞的準(zhǔn)確性,從而對(duì)理解網(wǎng)絡(luò)文本的語(yǔ)義內(nèi)容帶來(lái)了一定的困難。目前針對(duì)這類(lèi)新詞識(shí)別的主要研究方法包括基于規(guī)則、基于統(tǒng)計(jì)以及融合規(guī)則與統(tǒng)計(jì)方法。

基于規(guī)則的方法對(duì)于特定領(lǐng)域有較高的正確率,但是制定規(guī)則需要大量人工成本,存在規(guī)則跨領(lǐng)域性適應(yīng)能力薄弱等問(wèn)題。該方法主要研究中文語(yǔ)法、組詞規(guī)則、詞性特點(diǎn)以及領(lǐng)域本體等方面,總結(jié)新詞的構(gòu)詞規(guī)則和模式特點(diǎn)來(lái)建立規(guī)則庫(kù),進(jìn)而通過(guò)匹配度來(lái)識(shí)別網(wǎng)絡(luò)新詞。例如,鄒綱等[1]針對(duì)網(wǎng)頁(yè)上的中文新詞識(shí)別問(wèn)題,提出一種從網(wǎng)頁(yè)中自動(dòng)檢測(cè)新詞的方法,并根據(jù)構(gòu)詞規(guī)則對(duì)自動(dòng)檢測(cè)的結(jié)果進(jìn)行過(guò)濾,最終抽取新詞語(yǔ)。該方法對(duì)高頻新詞有很好的識(shí)別效果。Ma等[2]針對(duì)網(wǎng)絡(luò)新聞中的未登錄詞,提出一種自下而上的歸并算法,同時(shí)引入一些基本語(yǔ)法規(guī)則,避免了過(guò)多的高頻垃圾串的抽取。

統(tǒng)計(jì)方法有很強(qiáng)的領(lǐng)域適應(yīng)能力和可擴(kuò)展性,但具有需要大規(guī)模語(yǔ)料庫(kù)和數(shù)據(jù)稀疏嚴(yán)重等問(wèn)題。該方法主要運(yùn)用大規(guī)模語(yǔ)料庫(kù),通過(guò)計(jì)算研究新詞的成詞概率,利用詞頻信息、詞內(nèi)部互信息值等統(tǒng)計(jì)特征獲取新詞集。例如,黃軒等[3]通過(guò)統(tǒng)計(jì)博客語(yǔ)料詞頻及二次過(guò)濾,將統(tǒng)計(jì)信息和詞性規(guī)則相結(jié)合進(jìn)行排序,以實(shí)現(xiàn)博客語(yǔ)料的新詞發(fā)現(xiàn),但是人工成本很高且無(wú)法識(shí)別網(wǎng)絡(luò)中最新的流行詞匯。Wang等[4]結(jié)合新詞識(shí)別問(wèn)題與分詞問(wèn)題,在對(duì)文本分詞標(biāo)注和新詞標(biāo)注的基礎(chǔ)上,利用統(tǒng)計(jì)量特征對(duì)改進(jìn)的條件隨機(jī)場(chǎng)(conditional random field,CRF)模型進(jìn)行訓(xùn)練,提高了分詞和新詞識(shí)別的效果,但是需要大規(guī)模語(yǔ)料庫(kù)導(dǎo)致整體計(jì)算效率較低且對(duì)網(wǎng)絡(luò)新詞的識(shí)別率低下。

隨著語(yǔ)義網(wǎng)概念的提出,本體和知識(shí)圖譜成為文本相似度的研究基礎(chǔ),常用的有WordNet、《知網(wǎng)》、《同義詞詞林》等。Gabrilovich等[5]提出顯性語(yǔ)義分析(explicit semantic analysis,ESA)方法,將維基百科派生出高維概念空間并將詞語(yǔ)表示為權(quán)重向量,通過(guò)比較兩個(gè)概念向量的余弦值等方法得到語(yǔ)義相關(guān)度。針對(duì)微博、微信等網(wǎng)絡(luò)單體文本規(guī)模較小、新詞構(gòu)詞復(fù)雜以及詞匯自由度極大等特點(diǎn),文中提出一種融合知識(shí)圖譜和ESA方法的網(wǎng)絡(luò)新詞識(shí)別方法。利用百度提供的知識(shí)圖譜Schema對(duì)原文本進(jìn)行初步的分解,將無(wú)法分解的部分以ESA方法運(yùn)用在百度百科上,最終在百科詞條中提取核心語(yǔ)義信息解釋原文中的網(wǎng)絡(luò)新詞。最后通過(guò)實(shí)驗(yàn)對(duì)該方法進(jìn)行驗(yàn)證。

1 相關(guān)研究

目前已有的詞語(yǔ)識(shí)別方法大致可以分為基于字符串(string-based)的方法、基于語(yǔ)料庫(kù)(corpus-based)的方法以及基于本體(knowledge-based)的方法[6-9]。

基于字符串的文本語(yǔ)義計(jì)算方法是以字符串的重復(fù)度和共現(xiàn)情況為主要衡量標(biāo)準(zhǔn),根據(jù)計(jì)算的粒度進(jìn)行分類(lèi),可以分為基于字符(character-based)的方法和基于詞語(yǔ)(term-based)的方法。基于字符串的方法只是在文字層面上進(jìn)行文本比較,該方法由于原理簡(jiǎn)單容易實(shí)現(xiàn)成為了其他方法的計(jì)算基礎(chǔ),不足之處在于僅僅將單個(gè)字符或者詞語(yǔ)作為計(jì)算的標(biāo)準(zhǔn),并未考慮詞語(yǔ)本身的含義和上下文之間的聯(lián)系。

基于語(yǔ)料庫(kù)的詞語(yǔ)識(shí)別方法可以分為基于詞袋模型(bag of words model,BOW)的方法、基于神經(jīng)網(wǎng)絡(luò)的方法和基于搜索引擎的方法[10-12]。基于語(yǔ)料庫(kù)的文本語(yǔ)義計(jì)算相對(duì)于基于字符串的語(yǔ)義計(jì)算方法擁有更多的語(yǔ)義信息,但是語(yǔ)義信息來(lái)源依賴(lài)于外部數(shù)據(jù)庫(kù)的規(guī)模和健康度,如數(shù)據(jù)庫(kù)更新的速度緩慢會(huì)導(dǎo)致新興詞匯的識(shí)別困難,數(shù)據(jù)庫(kù)的數(shù)據(jù)不全面將直接導(dǎo)致語(yǔ)義信息的丟失,等等。

基于本體的文本語(yǔ)義計(jì)算能正確反映詞語(yǔ)間的內(nèi)在語(yǔ)義聯(lián)系,但是本體更新速度慢、詞匯信息有限導(dǎo)致不適用于新出現(xiàn)的詞匯。基于本體的計(jì)算方法是先從詞語(yǔ)層面計(jì)算后疊加到長(zhǎng)文本相似度上,相比基于語(yǔ)料庫(kù)的計(jì)算方法效率較低。由于本體的領(lǐng)域?qū)I(yè)性極強(qiáng)會(huì)導(dǎo)致不利于跨領(lǐng)域的文本語(yǔ)義計(jì)算。

2 融合知識(shí)圖譜和ESA方法的網(wǎng)絡(luò)新詞識(shí)別

前文介紹的文本語(yǔ)義計(jì)算方法都無(wú)法解決未登錄詞識(shí)別和準(zhǔn)確理解網(wǎng)絡(luò)文本表達(dá)的內(nèi)在涵義等問(wèn)題,本節(jié)通過(guò)利用百度知識(shí)圖譜Schema和ESA提供語(yǔ)義信息來(lái)解決這兩個(gè)短板。

2.1 評(píng)估知識(shí)圖譜提供的信息

百度知識(shí)圖譜Schema能計(jì)算出常見(jiàn)的語(yǔ)義結(jié)果,如知名人士的配偶情況、影視作品的導(dǎo)演信息等客觀公認(rèn)的正確信息。為了驗(yàn)證Schema的計(jì)算結(jié)果是否與文本具有較高的語(yǔ)義相似度從而能夠直接替換原文,引入語(yǔ)義相關(guān)性對(duì)計(jì)算結(jié)果進(jìn)行評(píng)估。

知識(shí)圖譜(knowledge graph)是表示知識(shí)發(fā)展過(guò)程與結(jié)構(gòu)關(guān)聯(lián)的可視化圖形,又被稱(chēng)為知識(shí)領(lǐng)域映射地圖,描述了知識(shí)體系及其載體的關(guān)聯(lián)信息。知識(shí)網(wǎng)絡(luò)在本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)代表實(shí)體名(entity)或者概念名(concept),節(jié)點(diǎn)之間的邊即各種語(yǔ)義關(guān)系。知識(shí)圖譜相對(duì)于傳統(tǒng)的本體和同義詞詞林有著更高的實(shí)體和概念覆蓋度,實(shí)體和概念之間的各種語(yǔ)義關(guān)系也更加復(fù)雜和全面。

知識(shí)圖譜可以準(zhǔn)確地反映出現(xiàn)有實(shí)體和概念的語(yǔ)義相關(guān)性,且更新速度比傳統(tǒng)的本體要快,并且知識(shí)圖譜在跨領(lǐng)域檢索上的表現(xiàn)也比本體更出色。對(duì)于知識(shí)圖譜中的兩個(gè)實(shí)體或者概念x,y,兩者間的語(yǔ)義相關(guān)性(relativity)可以表示為:

rel(x,y)=1-

(1)

其中,lx和ly分別表示實(shí)體/概念x,y擁有的鏈接(link)數(shù)量和;A表示知識(shí)圖譜中所有實(shí)體/概念數(shù)量的集合。

若B意味著知識(shí)圖譜中某一領(lǐng)域?qū)嶓w集合,那么實(shí)體x與實(shí)體集B之間的語(yǔ)義相關(guān)性可以表示為:

(2)

為了保證Schema的語(yǔ)義計(jì)算結(jié)果符合原文情況,通過(guò)引入語(yǔ)義相關(guān)性函數(shù)來(lái)評(píng)估語(yǔ)義計(jì)算結(jié)果的可靠性。語(yǔ)義相關(guān)性函數(shù)是一個(gè)介于[0,1]之間的數(shù)值,數(shù)值越大則說(shuō)明兩個(gè)實(shí)體或者概念的相似度越高。

2.2 顯性語(yǔ)義分析算法的改進(jìn)

利用ESA方法將維基百科的詞語(yǔ)表示為權(quán)重向量,通過(guò)比較兩向量余弦值得到語(yǔ)義相關(guān)度。

其中余弦相似度方法是將文本轉(zhuǎn)換為向量空間中的兩個(gè)向量,然后計(jì)算這兩個(gè)向量夾角的余弦值,余弦值越大說(shuō)明兩向量的夾角越小,那么這兩個(gè)文本越相似。該方法具有較強(qiáng)的解釋性,在網(wǎng)絡(luò)文本中應(yīng)用廣泛但不適用于長(zhǎng)文本。將文本X表示為n維向量X([x1,x2,…,xn]),文本Y表示為n維向量Y([y1,y2,…,yn]),那么這兩個(gè)向量的夾角余弦值可以表示為:

(3)

ESA方法在計(jì)算詞語(yǔ)與文本的關(guān)聯(lián)程度中采用了傳統(tǒng)的詞頻-逆文本頻率(TF-IDF)方法,其計(jì)算方法如下:

rel(x,A)=TFx,A×IDFx=TFx,A×log(N/DFx)

(4)

其中,TFx,A表示詞語(yǔ)x在文本A中出現(xiàn)的次數(shù);N為總文本數(shù);DFx表示x在所有文本中出現(xiàn)的次數(shù)。

傳統(tǒng)的TF-IDF方法僅僅依靠統(tǒng)計(jì)模型處理詞頻信息,沒(méi)有考慮詞語(yǔ)之間的語(yǔ)義信息,在實(shí)際運(yùn)用中往往會(huì)使結(jié)果不準(zhǔn)確。例如,某個(gè)詞語(yǔ)的詞頻很高但與整體的關(guān)聯(lián)度很低,理應(yīng)給予較低的權(quán)重值來(lái)平衡TF-IDF方法的不足。結(jié)合前文的知識(shí)圖譜和搜索引擎方法提供的相關(guān)度信息,將關(guān)系密切的詞歸入一組,分組完成后計(jì)算權(quán)重方法如下:

(5)

其中,A為文本集合;m為文本類(lèi)型的總個(gè)數(shù);n為詞語(yǔ)xi在組內(nèi)的詞頻;p(Aj/xi)為詞語(yǔ)xi在類(lèi)別Aj中出現(xiàn)的概率。

網(wǎng)絡(luò)文本中的已登錄詞在知識(shí)圖譜提供詞語(yǔ)各個(gè)類(lèi)別間的可靠分布情況下,改進(jìn)后的權(quán)重公式將類(lèi)別內(nèi)部的語(yǔ)義關(guān)聯(lián)反映在TF-IDF方法中,解決了傳統(tǒng)方法丟失語(yǔ)義信息的不足。另一方面,對(duì)于網(wǎng)絡(luò)文本中的未登錄詞結(jié)合ESA方法提供核心語(yǔ)義信息,并將結(jié)果歸入上述方法可以解決傳統(tǒng)方法不能識(shí)別網(wǎng)絡(luò)新詞的缺點(diǎn)。

2.3 實(shí)驗(yàn)流程

文中方法流程如圖1所示。

(1)語(yǔ)料數(shù)據(jù)預(yù)處理。

圖1 系統(tǒng)流程

以清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室劉知遠(yuǎn)研究員提供的分詞工具THULAC_PRO_V1.0作為基礎(chǔ)語(yǔ)料庫(kù),以短語(yǔ)的粒度對(duì)網(wǎng)絡(luò)文本進(jìn)行切分并進(jìn)行詞性標(biāo)注。統(tǒng)一將文本字符轉(zhuǎn)換為UTF-8編碼,并過(guò)濾網(wǎng)絡(luò)文本中一些特定格式的特殊字符串,主要有網(wǎng)頁(yè)地址、郵箱地址、話題標(biāo)識(shí)符#以及提到某人標(biāo)識(shí)符@等。

(2)以短語(yǔ)的粒度對(duì)原文進(jìn)行分詞。

將原文本以短語(yǔ)的形式進(jìn)行分割,如:《肖生克的救贖》導(dǎo)演/構(gòu)建了/一個(gè)小鎮(zhèn)/的/社會(huì)生態(tài)/,那么多/人物/,該立體的/立體,該臉譜的/臉譜,那么/錯(cuò)綜復(fù)雜的關(guān)系/,處理/得/井井有條/,真是/扎心了/老鐵。

(3)基于知識(shí)圖譜方法進(jìn)行第一輪語(yǔ)義識(shí)別。

將分詞后的短語(yǔ)在百度知識(shí)圖譜Schema中進(jìn)行匹配計(jì)算,如果得到準(zhǔn)確語(yǔ)義詞匯則用新詞w替換原短語(yǔ)p。例如p=“肖生克的救贖導(dǎo)演”,在知識(shí)圖譜中得知w=“弗蘭克·達(dá)拉邦特”為該電影導(dǎo)演,評(píng)估兩者的語(yǔ)義相關(guān)性rel(p,w)=0.88,表明相關(guān)度很高,則用w代替p,若沒(méi)有準(zhǔn)確結(jié)果或者rel值小于0.6則保留原文。

(4)對(duì)未識(shí)別語(yǔ)料基于改進(jìn)ESA方法進(jìn)行語(yǔ)義識(shí)別。

通過(guò)步驟3的知識(shí)圖譜方法處理后找到無(wú)法識(shí)別的未登錄詞,然后采用改進(jìn)ESA算法得出相似度較高的三個(gè)義項(xiàng)α、β、γ,再將這三個(gè)義項(xiàng)與原文進(jìn)行NGD計(jì)算取相似度最高的一個(gè)義項(xiàng)代替原文。若沒(méi)有結(jié)果將該詞匯標(biāo)記為Un,進(jìn)行人工處理加入詞典。

歸一化谷歌搜索引擎距離(normalized google distance,NGD)是由Cilibrasi等[10]提出的,其基本原理是給定搜索關(guān)鍵詞x,y,搜索引擎返回包含x,y的網(wǎng)頁(yè)數(shù)量f(x)、f(y)和同時(shí)包含x,y的網(wǎng)頁(yè)數(shù)量f(x,y),NGD的計(jì)算公式如下所示。

(6)

例如示例中提到的老鐵的α=“兄弟”,0.81,β=“哥們”,0.88,γ=“鐵哥們”,0.92,其中γ的相似度值最高,用“鐵哥們”代替“老鐵”進(jìn)行語(yǔ)義概括。

(5)后處理整合。

綜合步驟3和步驟4的結(jié)果,并將最后的結(jié)果重新以詞語(yǔ)的細(xì)粒度進(jìn)行詞性標(biāo)注,示例的輸出結(jié)果為:弗蘭克·達(dá)拉邦特/nr 構(gòu)建/v 了/c 一個(gè)/q 小鎮(zhèn)/n 的/c 社會(huì)生態(tài)/n 那么多/q 人物/n 該/c 立體的/ad 立體/n 該/c 臉譜的/ad 臉譜/n 那么/u 錯(cuò)綜復(fù)雜/ad 的/c 關(guān)系/n 處理/v 得/c 井井有條/n 真是/y 扎心了/v 老鐵/n。

3 實(shí)驗(yàn)與分析

實(shí)驗(yàn)采用微博數(shù)據(jù)中心提供的熱門(mén)話題語(yǔ)料庫(kù)作為數(shù)據(jù)集,其中包括20個(gè)類(lèi)別,共167 386條微博。分別為社會(huì)、科技、數(shù)碼、財(cái)經(jīng)、綜藝、電影、汽車(chē)、體育、軍事、健康、歷史、美食、時(shí)尚、法律、藝術(shù)、宗教、旅游、國(guó)際、設(shè)計(jì)和三農(nóng)類(lèi)。使用清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室自主研發(fā)的THULAC_PRO_V1.0分詞系統(tǒng)和情感詞典作為基礎(chǔ)資源,通過(guò)從國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心發(fā)布的2016年中國(guó)媒體新詞庫(kù)以及2017年12月前的部分網(wǎng)絡(luò)新詞中隨機(jī)抽取100個(gè)新詞作為測(cè)試集,通過(guò)實(shí)驗(yàn)對(duì)算法性能進(jìn)行評(píng)價(jià)。

3.1 評(píng)價(jià)方法

通過(guò)準(zhǔn)確率P、召回率R和F值對(duì)新詞發(fā)現(xiàn)實(shí)驗(yàn)的結(jié)果進(jìn)行評(píng)價(jià)。計(jì)算公式如下所示:

(7)

(8)

(9)

準(zhǔn)確率P和召回率R是目前應(yīng)用于信息檢索領(lǐng)域和統(tǒng)計(jì)學(xué)分類(lèi)領(lǐng)域的兩個(gè)主要度量值,反映了檢索系統(tǒng)實(shí)驗(yàn)結(jié)果的質(zhì)量。其中P是指檢索出正確新詞數(shù)與檢索到的詞語(yǔ)總數(shù)的比率,衡量的是新詞查準(zhǔn)率;召回率R是指檢索出的正確新詞數(shù)和文檔庫(kù)中所有的新詞數(shù)的比率,衡量的是新詞查全率;F值則是綜合這二者指標(biāo)的評(píng)估指標(biāo),即為正確率和召回率的調(diào)和平均值,用于綜合反映整體的指標(biāo)。

3.2 微博分詞實(shí)驗(yàn)

為了驗(yàn)證該方法的有效性和準(zhǔn)確度,將不同的新詞識(shí)別方法所得到的新詞集作為詞典,在THULAC_PRO_V1.0分詞工具中進(jìn)行分詞和詞性標(biāo)注實(shí)驗(yàn),結(jié)果如表1所示。

從表1可以看出,通過(guò)加入新詞詞典可以提高原有詞典的分詞準(zhǔn)確度,同時(shí)糾正了針對(duì)新詞的分詞錯(cuò)誤,尤其對(duì)于網(wǎng)絡(luò)新詞效果顯著。相比其他方法,文中構(gòu)建的新詞詞典在分詞結(jié)果中有著最大的F值,驗(yàn)證了該方法在網(wǎng)絡(luò)新詞識(shí)別方面具有較高的查準(zhǔn)率和查全率。

3.3 新詞識(shí)別準(zhǔn)確度實(shí)驗(yàn)

將文中方法與常見(jiàn)的新詞語(yǔ)義識(shí)別方法(選取了基于規(guī)則方法、基于統(tǒng)計(jì)方法以及融合規(guī)則和統(tǒng)計(jì)方法中的代表方法)進(jìn)行新詞的識(shí)別對(duì)比實(shí)驗(yàn),結(jié)果見(jiàn)表2。

實(shí)驗(yàn)結(jié)果分析:

方法1利用點(diǎn)互信息(pointwise mutual information,PMI)的改進(jìn)算法與基本過(guò)濾算法相結(jié)合,從大規(guī)模百度貼吧語(yǔ)料中自動(dòng)識(shí)別網(wǎng)絡(luò)新詞。

方法2使用基于支持向量機(jī)(support vector machine,SVM)和詞特征的方法完成新詞識(shí)別,并加入了少量的簡(jiǎn)單規(guī)則過(guò)濾方法,有效地提高了新詞識(shí)別的效果。

方法3和方法4分別通過(guò)使用有限狀態(tài)的詞法猜測(cè)工具、基于機(jī)器學(xué)習(xí)的預(yù)標(biāo)注工具體系來(lái)進(jìn)行未登錄詞的抽取,實(shí)驗(yàn)證實(shí)了該方法的有效性并已將抽取的未登錄詞集合作為公開(kāi)的開(kāi)放資源。

表1 不同算法的分詞結(jié)果 %

表2 不同算法的新詞識(shí)別結(jié)果 %

這4種方法都有較高的召回率,但是新詞識(shí)別的精準(zhǔn)度較低,如在新詞識(shí)別實(shí)驗(yàn)結(jié)果中出現(xiàn)“驚了個(gè)呆”“太厲害了吧”等識(shí)別結(jié)果,該類(lèi)方法更傾向于規(guī)則的總結(jié)和制定。文中方法充分考慮了規(guī)則方法的識(shí)別缺陷,將規(guī)則的制訂改由百科信息進(jìn)行匹配,提高了網(wǎng)絡(luò)新詞識(shí)別的精準(zhǔn)度。

方法5在傳統(tǒng)基于規(guī)則的識(shí)別方法的基礎(chǔ)上提出改進(jìn)的C/NC-value方法,通過(guò)互信息和鄰接熵提高新詞發(fā)現(xiàn)精度。該方法有效解決了新詞的邊界界定問(wèn)題,例如在經(jīng)過(guò)一輪新詞篩選后,“請(qǐng)/c 多多/q 點(diǎn)/v 贊/v”、“點(diǎn)/v 贊/v 以表/p 支持/v”、“點(diǎn)/v 贊/v”都出現(xiàn)在候選新詞表中,通過(guò)改進(jìn)的C/NC-value方法可以精準(zhǔn)確定新詞的前后邊界,最終只保留新詞“點(diǎn)贊/v”,其余情況將被算法進(jìn)行過(guò)濾。

方法6是在方法5的基礎(chǔ)上結(jié)合SVM分類(lèi)器模型進(jìn)行新詞識(shí)別,依據(jù)候選新詞集對(duì)分詞后的標(biāo)注語(yǔ)料作為訓(xùn)練集,將粗切分的語(yǔ)料作為測(cè)試集。該方法能提高對(duì)低頻新詞的識(shí)別度,例如“hold住/v”、“細(xì)思極恐/v”、“累覺(jué)不愛(ài)/v”等等。

方法7利用知識(shí)圖譜方法進(jìn)行網(wǎng)絡(luò)新詞識(shí)別,在知識(shí)圖譜已有知識(shí)范圍內(nèi)的識(shí)別率很高且十分高效,然而對(duì)于未知信息的識(shí)別率很低。

方法8在網(wǎng)絡(luò)新詞識(shí)別的識(shí)別率很高,但是將調(diào)用大量網(wǎng)絡(luò)資源使得整個(gè)檢索過(guò)程時(shí)間相對(duì)較長(zhǎng)。

文中提出的融合知識(shí)圖譜和ESA的方法對(duì)這兩種算法取長(zhǎng)補(bǔ)短,利用知識(shí)圖譜中的以后知識(shí)快速高效地進(jìn)行初步識(shí)別,將未知信息交由ESA方法進(jìn)行時(shí)間較長(zhǎng)但精度較高的檢索,最終得到一個(gè)系統(tǒng)時(shí)間消耗適中,實(shí)驗(yàn)結(jié)果更精確的網(wǎng)絡(luò)新詞識(shí)別結(jié)果。

實(shí)驗(yàn)結(jié)果表明,基于網(wǎng)絡(luò)知識(shí)的網(wǎng)絡(luò)文本相似度算法結(jié)合了詞語(yǔ)和語(yǔ)義之間的關(guān)系,在挖掘詞語(yǔ)之間的相關(guān)度方面有著更明顯的優(yōu)勢(shì)。文中基于網(wǎng)絡(luò)知識(shí)的網(wǎng)絡(luò)文本相似度算法相比ESA方法能找到更準(zhǔn)確的相關(guān)度結(jié)果,說(shuō)明該算法有效提高了對(duì)網(wǎng)絡(luò)新詞的理解能力。

3.4 網(wǎng)絡(luò)新詞理解實(shí)驗(yàn)

為了驗(yàn)證該方法能解決傳統(tǒng)的語(yǔ)義理解方法對(duì)網(wǎng)絡(luò)新詞理解力不足的缺點(diǎn),實(shí)驗(yàn)采用由國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心發(fā)布的2016年中國(guó)媒體新詞庫(kù)作為測(cè)試集,隨機(jī)選取其中的100個(gè)詞語(yǔ)進(jìn)行相關(guān)度匹配實(shí)驗(yàn)。圖2給出了用ESA方法和文中方法進(jìn)行實(shí)驗(yàn)的結(jié)果。

扎心痛心0.58走心0.78點(diǎn)贊之交稱(chēng)贊0.64點(diǎn)頭之交0.82藍(lán)瘦難受0.88難受0.88躺贏勝利0.54穩(wěn)贏0.67一臉懵逼驚呆0.66目瞪口呆0.81

圖2 網(wǎng)絡(luò)新詞理解結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出,融合知識(shí)圖譜和ESA方法的網(wǎng)絡(luò)新詞識(shí)別方法比已有的ESA方法在語(yǔ)義計(jì)算上更精確。原有的ESA方法更傾向于字面意思進(jìn)行語(yǔ)義識(shí)別,因此實(shí)驗(yàn)結(jié)果往往會(huì)出現(xiàn)新詞中某個(gè)字的近義詞。而文中方法通過(guò)在基于統(tǒng)計(jì)信息的文本相似度匹配過(guò)程中融入語(yǔ)義信息,提高了網(wǎng)絡(luò)新詞與已有詞匯的相關(guān)度。

相對(duì)于常規(guī)的文本相似度算法,文中算法改進(jìn)了傳統(tǒng)的逐詞匹配方式,將短語(yǔ)的語(yǔ)義信息進(jìn)行高度概括后再進(jìn)行詞語(yǔ)的相關(guān)度匹配計(jì)算,優(yōu)化了關(guān)鍵詞的匹配策略,使計(jì)算結(jié)果更加精確和穩(wěn)定。另一方面,文中方法結(jié)合網(wǎng)絡(luò)知識(shí)圖譜,將同義詞和近義詞信息考慮到相似度計(jì)算中,解決了傳統(tǒng)方法對(duì)網(wǎng)絡(luò)新詞相關(guān)度匹配結(jié)果接近于零的缺點(diǎn)。

實(shí)驗(yàn)結(jié)果表明,基于網(wǎng)絡(luò)知識(shí)的網(wǎng)絡(luò)文本相似度算法結(jié)合了詞語(yǔ)和語(yǔ)義之間的關(guān)系,在挖掘詞語(yǔ)之間的相關(guān)度方面有著更明顯的優(yōu)勢(shì)。文中方法相比顯性語(yǔ)義分析能找到更準(zhǔn)確的相關(guān)度結(jié)果,能有效提高對(duì)網(wǎng)絡(luò)新詞的理解能力。

4 結(jié)束語(yǔ)

融合知識(shí)圖譜和ESA方法的網(wǎng)絡(luò)新詞語(yǔ)義識(shí)別與傳統(tǒng)方法相比,在語(yǔ)義識(shí)別和網(wǎng)絡(luò)新詞理解方面表現(xiàn)了其優(yōu)越性。對(duì)網(wǎng)絡(luò)文本進(jìn)行準(zhǔn)確分詞是挖掘社交網(wǎng)絡(luò)文本信息重要的步驟,充分考慮網(wǎng)絡(luò)文本的語(yǔ)義信息是計(jì)算相似度值的關(guān)鍵量尺。文中在現(xiàn)有語(yǔ)義識(shí)別計(jì)算方法的基礎(chǔ)上提出一種改進(jìn)算法,提高了計(jì)算結(jié)果的穩(wěn)定性和準(zhǔn)確性。接下來(lái)將進(jìn)一步加大測(cè)試的數(shù)據(jù)量,并測(cè)試除了微博數(shù)據(jù)外的網(wǎng)絡(luò)文本數(shù)據(jù)集,提高該方法在不同測(cè)試集中的魯棒性。

猜你喜歡
分詞新詞圖譜
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
聲音·數(shù)字·新詞 等
分詞在英語(yǔ)教學(xué)中的妙用
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
圖表
學(xué)詩(shī)偶感
主動(dòng)對(duì)接你思維的知識(shí)圖譜
外教新詞堂
外教新詞堂
明星| 庄浪县| 富阳市| 淮南市| 沽源县| 肃北| 永靖县| 阳朔县| 斗六市| 绥棱县| 宜城市| 营山县| 阿拉尔市| 南阳市| 始兴县| 晴隆县| 革吉县| 博罗县| 武城县| 济宁市| 乐业县| 西充县| 桐梓县| 象州县| 柳河县| 天津市| 海晏县| 凤冈县| 伊春市| 清远市| 西乌| 峡江县| 宜川县| 营口市| 黄平县| 库尔勒市| 东海县| 修武县| 宜阳县| 阜阳市| 绥棱县|