国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義關(guān)系圖的詞義消歧方法

2013-04-29 00:44:03羅俊麗
電腦知識(shí)與技術(shù) 2013年7期
關(guān)鍵詞:本體語義權(quán)重

摘要:針對傳統(tǒng)的詞義消歧方法不能對短小的用戶查詢詞進(jìn)行詞義消歧,提出了一種基于語義關(guān)系圖的詞義消歧方法,利用改進(jìn)的PageRank算法計(jì)算語義關(guān)系圖中的各詞義節(jié)點(diǎn)權(quán)重,選擇權(quán)重較大的詞義作為消歧后的查詢詞詞義。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。

關(guān)鍵詞:詞義消歧;本體;PageRank算法;語義;權(quán)重

中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)07-1548-03

詞匯的多義性在自然語言中普遍存在,詞義消歧是指根據(jù)詞匯所處的語境來確定詞匯的具體含義。詞義消歧在信息檢索、機(jī)器翻譯、文本分類等自然語言處理領(lǐng)域有著重要的理論研究和廣泛的實(shí)踐應(yīng)用。根據(jù)詞義消歧過程中是否利用已標(biāo)注詞義的訓(xùn)練文本集可將詞義消歧方法分為有監(jiān)督詞義消歧和無監(jiān)督詞義消歧兩大類[1]。有監(jiān)督詞義消歧通過對訓(xùn)練語料庫進(jìn)行詞義標(biāo)注,采用機(jī)器學(xué)習(xí)的方法來判定待消歧的新實(shí)例詞義,這種方法具有較高的消歧準(zhǔn)確度,但對訓(xùn)練語料庫的詞匯標(biāo)注量依賴較強(qiáng),且標(biāo)注文本集費(fèi)時(shí)費(fèi)力,不易獲得。無監(jiān)督詞義消歧則直接從原始數(shù)據(jù)集或知識(shí)詞典中判定新實(shí)例的詞義,隨著語義詞典的不斷完善,基于知識(shí)的無監(jiān)督詞義消歧成為近年來的研究熱點(diǎn)[2]。

在信息檢索中,當(dāng)用戶使用較多的查詢詞描述查詢需求或各查詢詞圍繞同一個(gè)主題時(shí),已有的這些方法能夠取得較好的查詢詞義消歧效果,但當(dāng)用戶查詢詞較少或各查詢詞的主題關(guān)聯(lián)性較小時(shí),這些方法并不能很好的獲得查詢詞的詞義,為了解決當(dāng)用戶查詢詞短小時(shí)較為準(zhǔn)確的獲得用戶查詢詞義的問題,該文提出了一種基于語義關(guān)系圖的查詢詞義消歧方法。該方法以待消歧詞及其上下文詞匯在WordNet中的所有詞義為節(jié)點(diǎn),以WordNet中的連接關(guān)系為邊構(gòu)造語義關(guān)系圖,并應(yīng)用改進(jìn)的PageRank算法得到語義關(guān)系圖中各詞義節(jié)點(diǎn)的權(quán)值,則待消歧詞義中權(quán)值最高的節(jié)點(diǎn)詞義即為該消歧詞的詞義。

1 相關(guān)知識(shí)

正文內(nèi)容。WordNet是由普林斯頓大學(xué)設(shè)計(jì)的一個(gè)基于認(rèn)知語言學(xué)的在線英語詞典[3]。WordNet按照單詞的意義將其組成一個(gè)“單詞的網(wǎng)絡(luò)”,具有相同詞義的詞條形成同義詞集。每個(gè)同義詞集代表一個(gè)潛在的概念,同義詞集之間通過各種語義關(guān)系進(jìn)行互聯(lián)。WordNet用詞頻來表示同義詞集所代表的詞義在訓(xùn)練集中出現(xiàn)的頻率。另外,WordNet還將詞性相同的同義詞集按照上下位關(guān)系組織成層次結(jié)構(gòu)的形式,其中名詞部分的層次結(jié)構(gòu)占了大約80%的比重。WordNet是完全免費(fèi)的資源,其數(shù)據(jù)庫及相應(yīng)的軟件工具可以自由下載使用。

PageRank算法[4]是一個(gè)基于圖論的算法,在Google搜索引擎中被采用進(jìn)行頁面重要性的判斷。從頁面A導(dǎo)向頁面B的鏈接被看作是A對B的支持投票,則頁面的PageRank值取決于頁面獲得的投票數(shù)和投票者的重要性值。設(shè)G=(V,E)是一個(gè)具有節(jié)點(diǎn)集V和邊集E的有向圖,E是V×V上的子集,那么節(jié)點(diǎn)Vi的PageRank值定義如下:

(1)

其中,表示指向節(jié)點(diǎn)Vi的鏈接源節(jié)點(diǎn)集,表示由節(jié)點(diǎn)Vj指出的鏈接目標(biāo)節(jié)點(diǎn)集,表示中的節(jié)點(diǎn)數(shù)量,d是一個(gè)制動(dòng)因子,取值范圍為(0,1)。

PageRank算法對于任意分配的圖節(jié)點(diǎn)的初始PageRank值,循環(huán)進(jìn)行節(jié)點(diǎn)PageRank值的計(jì)算,直到圖中節(jié)點(diǎn)的PageRank值全部收斂為止。

2 基于語義關(guān)系圖的詞義消歧方法

消歧算法描述:

輸入:待消歧的多義詞

輸出:歧義詞消歧后的詞義

步驟1:根據(jù)WordNet中的定義,構(gòu)造以待消歧詞詞義和上下文詞匯詞義為節(jié)點(diǎn),以WordNet中的語義關(guān)系為邊的關(guān)系圖G;

步驟2:運(yùn)用改進(jìn)的PageRank算法計(jì)算關(guān)系圖G中的節(jié)點(diǎn)權(quán)重;

步驟3:選取待消歧詞義各節(jié)點(diǎn)中權(quán)值最高的節(jié)點(diǎn)詞義做為消歧后的詞義。

2.1 構(gòu)造語義關(guān)系圖G

對于用戶的查詢請求,文中采用隱式反饋技術(shù)自動(dòng)獲取初次檢索結(jié)果的相關(guān)文檔,提取這些文檔中的實(shí)詞做為查詢詞的消歧上下文。以待消歧詞和上下文詞匯在WordNet中的所有詞義做為關(guān)系圖G的節(jié)點(diǎn),以WordNet中定義的語義關(guān)系做為詞義節(jié)點(diǎn)間的無向連接邊,語義關(guān)系的強(qiáng)度做為連接邊的權(quán)重,根據(jù)語義關(guān)系在WordNet中的強(qiáng)度,文中對G中的連接邊權(quán)重進(jìn)行了重新定義。當(dāng)兩個(gè)詞義節(jié)點(diǎn)間具有超過一種的語義關(guān)系連接邊時(shí),選取這些語義關(guān)系中最大的強(qiáng)度做為兩詞義節(jié)點(diǎn)邊的權(quán)重,由此構(gòu)造出的無向邊加權(quán)圖即為消歧的語義關(guān)系圖G。

2.2 利用改進(jìn)的PageRank算法進(jìn)行詞義消歧

原始的PageRank算法適用于邊權(quán)重相同的有向圖,因此對于構(gòu)造好的語義關(guān)系圖G來說,需要對PageRank算法進(jìn)行適當(dāng)?shù)男薷?。在改進(jìn)的PageRank算法中,當(dāng)節(jié)點(diǎn)N1與節(jié)點(diǎn)N2具有連接邊時(shí),則認(rèn)為N1對N2具有關(guān)聯(lián)投票,根據(jù)投票邊的權(quán)值和與節(jié)點(diǎn)相連接的邊數(shù)來判定節(jié)點(diǎn)的重要性值。此外,投票節(jié)點(diǎn)的重要性越高,則該節(jié)點(diǎn)所投票的節(jié)點(diǎn)就越重要,因此,語義關(guān)系圖G中節(jié)點(diǎn)的重要性值有連接邊數(shù)、連接節(jié)點(diǎn)的重要性值和連接邊的權(quán)值三者來決定。節(jié)點(diǎn)Vi的PageRank值可形式化地表示為:

[Pr(Vi)=(1-d)+d×j∈link(Vi)Pr(Vj)×wjik∈link(Vj)wjk] (2)

其中,表示由節(jié)點(diǎn)Vi到節(jié)點(diǎn)Vj的邊權(quán)重,link(Vi)表示與節(jié)點(diǎn)Vi具有語義關(guān)聯(lián)(連接邊)的節(jié)點(diǎn)集,d是一個(gè)制動(dòng)因子,取值范圍為(0,1)。

初始時(shí)語義關(guān)系圖G中的節(jié)點(diǎn)任意分配一個(gè)PageRank值,利用改進(jìn)的PageRank算法對圖G中的各節(jié)點(diǎn)迭代計(jì)算其PageRank值,直至各節(jié)點(diǎn)的PageRank值收斂。從消歧詞的所有詞義節(jié)點(diǎn)中選取PageRank值最高的詞義節(jié)點(diǎn)作為其消歧后的詞義,即:

[SGT(w,C)={Si|?Sk∈w,Pr(Si)≥Pr(Sk)}] (3)

若消歧詞的最高詞義節(jié)點(diǎn)不止一個(gè)時(shí),可以認(rèn)為這些詞義比較接近,將保留多個(gè)詞義作為消歧詞的詞義。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

采用Senseval-3 Lexical sample task 數(shù)據(jù)集對文中提出的基于語義關(guān)系圖的詞義消歧方法進(jìn)行測試與評估,Senseval-3 Lexical sample task 數(shù)據(jù)集是一個(gè)普遍采用的標(biāo)準(zhǔn)測試集,許多已有的詞義消歧方法都采用此測試數(shù)據(jù)集進(jìn)行評估[5]。該數(shù)據(jù)集是一個(gè)英語詞匯實(shí)例測試集,由57個(gè)多義詞組成,平均每個(gè)多義詞具有6個(gè)詞義,每個(gè)詞義大約有140個(gè)訓(xùn)練實(shí)例和70個(gè)測試實(shí)例。采用消歧率作為實(shí)驗(yàn)的評測標(biāo)準(zhǔn)。

3.2 實(shí)驗(yàn)結(jié)果及分析

采用基于語義關(guān)系圖的消歧方法對Senseval-3 Lexical sample task 數(shù)據(jù)集中的名詞性多義詞進(jìn)行消歧的結(jié)果如表1所示。

從實(shí)驗(yàn)結(jié)果可以看出,大部分詞匯取得了較好的消歧效果。這是因?yàn)榛诓樵冊~及其上下文構(gòu)造的語義關(guān)系圖全面反映了查詢詞的詞義信息,改進(jìn)的PageRank算法有效利用了語義關(guān)系圖的連接結(jié)構(gòu)信息,較為準(zhǔn)確的計(jì)算出了查詢詞各詞義節(jié)點(diǎn)的重要性值,從而取得較好的查詢詞消歧效果。

為了驗(yàn)證本文算法的優(yōu)越性,文中對其它一些基于WordNet詞典進(jìn)行詞義消歧的方法在相同數(shù)據(jù)集上進(jìn)行了重建,主要包括:①Lesk消歧算法:該方法利用歧義詞在WordNet中的定義與歧義詞所在上下文詞匯的重疊度進(jìn)行消歧;②Jiang消歧算法:該方法根據(jù)WordNet中所定義的概念層次結(jié)構(gòu)信息,結(jié)合詞匯路徑和詞匯信息含量進(jìn)行消歧;③Concept Density消歧算法:該算法主要基于WordNet中的概念密度進(jìn)行消歧;④Domvec消歧算法:該算法主要基于WordNet Domains領(lǐng)域擴(kuò)展庫構(gòu)造領(lǐng)域向量進(jìn)行消歧。各算法的實(shí)驗(yàn)對比結(jié)果如表2所示。

從表中的實(shí)驗(yàn)對比結(jié)果可以看出,該文提出的基于語義關(guān)系圖的詞義消歧方法比其它方法具有一定的優(yōu)越性,驗(yàn)證了本文算法的有效性。

4 總結(jié)

本文采用隱式反饋技術(shù)選取相關(guān)文檔中的名詞作為查詢詞的消歧上下文,利用WordNet本體的結(jié)構(gòu)特征構(gòu)造了語義關(guān)系圖作為詞義消歧的基礎(chǔ),基于改進(jìn)的PageRank算法計(jì)算語義關(guān)系圖中各詞義節(jié)點(diǎn)的重要性值,實(shí)驗(yàn)結(jié)果表明,該方法具有較好的消歧效果。但在實(shí)際的信息檢索中,該文的方法能否取得較好的應(yīng)用效果將是我們下一步研究的重點(diǎn)。

參考文獻(xiàn):

[1] 于林林,魏琦,宋麗芳.基于多種方法相融合的詞義消歧方法[J],電腦知識(shí)與技術(shù),2010,6(33):95154-9516.

[2] 王瑞琴,孔繁勝.無監(jiān)督詞義消歧研究[J].軟件學(xué)報(bào),2009,20 (8):2138-2152.

[3] 何文壘,劉功申.基于語義密度的名詞消歧算法[J].計(jì)算機(jī)科學(xué),2012,6(39):194-197.

[4] 李永亮,黃曙光,鮑蕾.一種基于PageRank算法和知網(wǎng)的詞義消歧方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28 (5):213-215.

[5] 羅俊麗,李慧娜,路凱.基于詞義消歧的語義查詢擴(kuò)展研究[J],微電子學(xué)與計(jì)算機(jī),2012,29 (1):71-75.

猜你喜歡
本體語義權(quán)重
Abstracts and Key Words
對姜夔自度曲音樂本體的現(xiàn)代解讀
權(quán)重常思“浮名輕”
語言與語義
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
認(rèn)知范疇模糊與語義模糊
層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
河南科技(2014年15期)2014-02-27 14:12:51
包头市| 保德县| 奇台县| 巴彦淖尔市| 林周县| 大方县| 亚东县| 郑州市| 高清| 祁门县| 新竹市| 章丘市| 崇文区| 平武县| 泽库县| 凌源市| 贵溪市| 汝阳县| 炎陵县| 浪卡子县| 阿克陶县| 定西市| 东丽区| 神池县| 沧州市| 普洱| 剑川县| 栾川县| 长乐市| 四子王旗| 乡宁县| 贵州省| 亳州市| 海安县| 新营市| 临朐县| 浦北县| 饶阳县| 德兴市| 饶平县| 丹棱县|