摘要:針對傳統(tǒng)的詞義消歧方法不能對短小的用戶查詢詞進(jìn)行詞義消歧,提出了一種基于語義關(guān)系圖的詞義消歧方法,利用改進(jìn)的PageRank算法計(jì)算語義關(guān)系圖中的各詞義節(jié)點(diǎn)權(quán)重,選擇權(quán)重較大的詞義作為消歧后的查詢詞詞義。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
關(guān)鍵詞:詞義消歧;本體;PageRank算法;語義;權(quán)重
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)07-1548-03
詞匯的多義性在自然語言中普遍存在,詞義消歧是指根據(jù)詞匯所處的語境來確定詞匯的具體含義。詞義消歧在信息檢索、機(jī)器翻譯、文本分類等自然語言處理領(lǐng)域有著重要的理論研究和廣泛的實(shí)踐應(yīng)用。根據(jù)詞義消歧過程中是否利用已標(biāo)注詞義的訓(xùn)練文本集可將詞義消歧方法分為有監(jiān)督詞義消歧和無監(jiān)督詞義消歧兩大類[1]。有監(jiān)督詞義消歧通過對訓(xùn)練語料庫進(jìn)行詞義標(biāo)注,采用機(jī)器學(xué)習(xí)的方法來判定待消歧的新實(shí)例詞義,這種方法具有較高的消歧準(zhǔn)確度,但對訓(xùn)練語料庫的詞匯標(biāo)注量依賴較強(qiáng),且標(biāo)注文本集費(fèi)時(shí)費(fèi)力,不易獲得。無監(jiān)督詞義消歧則直接從原始數(shù)據(jù)集或知識(shí)詞典中判定新實(shí)例的詞義,隨著語義詞典的不斷完善,基于知識(shí)的無監(jiān)督詞義消歧成為近年來的研究熱點(diǎn)[2]。
在信息檢索中,當(dāng)用戶使用較多的查詢詞描述查詢需求或各查詢詞圍繞同一個(gè)主題時(shí),已有的這些方法能夠取得較好的查詢詞義消歧效果,但當(dāng)用戶查詢詞較少或各查詢詞的主題關(guān)聯(lián)性較小時(shí),這些方法并不能很好的獲得查詢詞的詞義,為了解決當(dāng)用戶查詢詞短小時(shí)較為準(zhǔn)確的獲得用戶查詢詞義的問題,該文提出了一種基于語義關(guān)系圖的查詢詞義消歧方法。該方法以待消歧詞及其上下文詞匯在WordNet中的所有詞義為節(jié)點(diǎn),以WordNet中的連接關(guān)系為邊構(gòu)造語義關(guān)系圖,并應(yīng)用改進(jìn)的PageRank算法得到語義關(guān)系圖中各詞義節(jié)點(diǎn)的權(quán)值,則待消歧詞義中權(quán)值最高的節(jié)點(diǎn)詞義即為該消歧詞的詞義。
1 相關(guān)知識(shí)
正文內(nèi)容。WordNet是由普林斯頓大學(xué)設(shè)計(jì)的一個(gè)基于認(rèn)知語言學(xué)的在線英語詞典[3]。WordNet按照單詞的意義將其組成一個(gè)“單詞的網(wǎng)絡(luò)”,具有相同詞義的詞條形成同義詞集。每個(gè)同義詞集代表一個(gè)潛在的概念,同義詞集之間通過各種語義關(guān)系進(jìn)行互聯(lián)。WordNet用詞頻來表示同義詞集所代表的詞義在訓(xùn)練集中出現(xiàn)的頻率。另外,WordNet還將詞性相同的同義詞集按照上下位關(guān)系組織成層次結(jié)構(gòu)的形式,其中名詞部分的層次結(jié)構(gòu)占了大約80%的比重。WordNet是完全免費(fèi)的資源,其數(shù)據(jù)庫及相應(yīng)的軟件工具可以自由下載使用。
PageRank算法[4]是一個(gè)基于圖論的算法,在Google搜索引擎中被采用進(jìn)行頁面重要性的判斷。從頁面A導(dǎo)向頁面B的鏈接被看作是A對B的支持投票,則頁面的PageRank值取決于頁面獲得的投票數(shù)和投票者的重要性值。設(shè)G=(V,E)是一個(gè)具有節(jié)點(diǎn)集V和邊集E的有向圖,E是V×V上的子集,那么節(jié)點(diǎn)Vi的PageRank值定義如下:
其中,
PageRank算法對于任意分配的圖節(jié)點(diǎn)的初始PageRank值,循環(huán)進(jìn)行節(jié)點(diǎn)PageRank值的計(jì)算,直到圖中節(jié)點(diǎn)的PageRank值全部收斂為止。
2 基于語義關(guān)系圖的詞義消歧方法
消歧算法描述:
輸入:待消歧的多義詞
輸出:歧義詞消歧后的詞義
步驟1:根據(jù)WordNet中的定義,構(gòu)造以待消歧詞詞義和上下文詞匯詞義為節(jié)點(diǎn),以WordNet中的語義關(guān)系為邊的關(guān)系圖G;
步驟2:運(yùn)用改進(jìn)的PageRank算法計(jì)算關(guān)系圖G中的節(jié)點(diǎn)權(quán)重;
步驟3:選取待消歧詞義各節(jié)點(diǎn)中權(quán)值最高的節(jié)點(diǎn)詞義做為消歧后的詞義。
2.1 構(gòu)造語義關(guān)系圖G
對于用戶的查詢請求,文中采用隱式反饋技術(shù)自動(dòng)獲取初次檢索結(jié)果的相關(guān)文檔,提取這些文檔中的實(shí)詞做為查詢詞的消歧上下文。以待消歧詞和上下文詞匯在WordNet中的所有詞義做為關(guān)系圖G的節(jié)點(diǎn),以WordNet中定義的語義關(guān)系做為詞義節(jié)點(diǎn)間的無向連接邊,語義關(guān)系的強(qiáng)度做為連接邊的權(quán)重,根據(jù)語義關(guān)系在WordNet中的強(qiáng)度,文中對G中的連接邊權(quán)重進(jìn)行了重新定義。當(dāng)兩個(gè)詞義節(jié)點(diǎn)間具有超過一種的語義關(guān)系連接邊時(shí),選取這些語義關(guān)系中最大的強(qiáng)度做為兩詞義節(jié)點(diǎn)邊的權(quán)重,由此構(gòu)造出的無向邊加權(quán)圖即為消歧的語義關(guān)系圖G。
2.2 利用改進(jìn)的PageRank算法進(jìn)行詞義消歧
原始的PageRank算法適用于邊權(quán)重相同的有向圖,因此對于構(gòu)造好的語義關(guān)系圖G來說,需要對PageRank算法進(jìn)行適當(dāng)?shù)男薷?。在改進(jìn)的PageRank算法中,當(dāng)節(jié)點(diǎn)N1與節(jié)點(diǎn)N2具有連接邊時(shí),則認(rèn)為N1對N2具有關(guān)聯(lián)投票,根據(jù)投票邊的權(quán)值和與節(jié)點(diǎn)相連接的邊數(shù)來判定節(jié)點(diǎn)的重要性值。此外,投票節(jié)點(diǎn)的重要性越高,則該節(jié)點(diǎn)所投票的節(jié)點(diǎn)就越重要,因此,語義關(guān)系圖G中節(jié)點(diǎn)的重要性值有連接邊數(shù)、連接節(jié)點(diǎn)的重要性值和連接邊的權(quán)值三者來決定。節(jié)點(diǎn)Vi的PageRank值可形式化地表示為:
[Pr(Vi)=(1-d)+d×j∈link(Vi)Pr(Vj)×wjik∈link(Vj)wjk] (2)
其中,
初始時(shí)語義關(guān)系圖G中的節(jié)點(diǎn)任意分配一個(gè)PageRank值,利用改進(jìn)的PageRank算法對圖G中的各節(jié)點(diǎn)迭代計(jì)算其PageRank值,直至各節(jié)點(diǎn)的PageRank值收斂。從消歧詞的所有詞義節(jié)點(diǎn)中選取PageRank值最高的詞義節(jié)點(diǎn)作為其消歧后的詞義,即:
[SGT(w,C)={Si|?Sk∈w,Pr(Si)≥Pr(Sk)}] (3)
若消歧詞的最高詞義節(jié)點(diǎn)不止一個(gè)時(shí),可以認(rèn)為這些詞義比較接近,將保留多個(gè)詞義作為消歧詞的詞義。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
采用Senseval-3 Lexical sample task 數(shù)據(jù)集對文中提出的基于語義關(guān)系圖的詞義消歧方法進(jìn)行測試與評估,Senseval-3 Lexical sample task 數(shù)據(jù)集是一個(gè)普遍采用的標(biāo)準(zhǔn)測試集,許多已有的詞義消歧方法都采用此測試數(shù)據(jù)集進(jìn)行評估[5]。該數(shù)據(jù)集是一個(gè)英語詞匯實(shí)例測試集,由57個(gè)多義詞組成,平均每個(gè)多義詞具有6個(gè)詞義,每個(gè)詞義大約有140個(gè)訓(xùn)練實(shí)例和70個(gè)測試實(shí)例。采用消歧率作為實(shí)驗(yàn)的評測標(biāo)準(zhǔn)。
3.2 實(shí)驗(yàn)結(jié)果及分析
采用基于語義關(guān)系圖的消歧方法對Senseval-3 Lexical sample task 數(shù)據(jù)集中的名詞性多義詞進(jìn)行消歧的結(jié)果如表1所示。
從實(shí)驗(yàn)結(jié)果可以看出,大部分詞匯取得了較好的消歧效果。這是因?yàn)榛诓樵冊~及其上下文構(gòu)造的語義關(guān)系圖全面反映了查詢詞的詞義信息,改進(jìn)的PageRank算法有效利用了語義關(guān)系圖的連接結(jié)構(gòu)信息,較為準(zhǔn)確的計(jì)算出了查詢詞各詞義節(jié)點(diǎn)的重要性值,從而取得較好的查詢詞消歧效果。
為了驗(yàn)證本文算法的優(yōu)越性,文中對其它一些基于WordNet詞典進(jìn)行詞義消歧的方法在相同數(shù)據(jù)集上進(jìn)行了重建,主要包括:①Lesk消歧算法:該方法利用歧義詞在WordNet中的定義與歧義詞所在上下文詞匯的重疊度進(jìn)行消歧;②Jiang消歧算法:該方法根據(jù)WordNet中所定義的概念層次結(jié)構(gòu)信息,結(jié)合詞匯路徑和詞匯信息含量進(jìn)行消歧;③Concept Density消歧算法:該算法主要基于WordNet中的概念密度進(jìn)行消歧;④Domvec消歧算法:該算法主要基于WordNet Domains領(lǐng)域擴(kuò)展庫構(gòu)造領(lǐng)域向量進(jìn)行消歧。各算法的實(shí)驗(yàn)對比結(jié)果如表2所示。
從表中的實(shí)驗(yàn)對比結(jié)果可以看出,該文提出的基于語義關(guān)系圖的詞義消歧方法比其它方法具有一定的優(yōu)越性,驗(yàn)證了本文算法的有效性。
4 總結(jié)
本文采用隱式反饋技術(shù)選取相關(guān)文檔中的名詞作為查詢詞的消歧上下文,利用WordNet本體的結(jié)構(gòu)特征構(gòu)造了語義關(guān)系圖作為詞義消歧的基礎(chǔ),基于改進(jìn)的PageRank算法計(jì)算語義關(guān)系圖中各詞義節(jié)點(diǎn)的重要性值,實(shí)驗(yàn)結(jié)果表明,該方法具有較好的消歧效果。但在實(shí)際的信息檢索中,該文的方法能否取得較好的應(yīng)用效果將是我們下一步研究的重點(diǎn)。
參考文獻(xiàn):
[1] 于林林,魏琦,宋麗芳.基于多種方法相融合的詞義消歧方法[J],電腦知識(shí)與技術(shù),2010,6(33):95154-9516.
[2] 王瑞琴,孔繁勝.無監(jiān)督詞義消歧研究[J].軟件學(xué)報(bào),2009,20 (8):2138-2152.
[3] 何文壘,劉功申.基于語義密度的名詞消歧算法[J].計(jì)算機(jī)科學(xué),2012,6(39):194-197.
[4] 李永亮,黃曙光,鮑蕾.一種基于PageRank算法和知網(wǎng)的詞義消歧方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28 (5):213-215.
[5] 羅俊麗,李慧娜,路凱.基于詞義消歧的語義查詢擴(kuò)展研究[J],微電子學(xué)與計(jì)算機(jī),2012,29 (1):71-75.