哈 斯, 布音其其格
(1. 內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010022;2. 呼和浩特民族學(xué)院 經(jīng)濟(jì)系,內(nèi)蒙古 呼和浩特 010051)
基于蒙古語名詞語義網(wǎng)的同形詞歧義消除研究
哈 斯1, 布音其其格2
(1. 內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010022;2. 呼和浩特民族學(xué)院 經(jīng)濟(jì)系,內(nèi)蒙古 呼和浩特 010051)
蒙古文同形詞歧義消除問題是蒙古文信息處理的難點(diǎn)之一。該文提出了基于蒙古語名詞語義網(wǎng)的同形詞歧義消除方法,設(shè)計(jì)實(shí)現(xiàn)了同形詞歧義消除算法,最后給出了語料庫中同形詞歧義消除實(shí)驗(yàn)的設(shè)計(jì)過程及結(jié)果分析。
蒙古文;名詞語義網(wǎng);同形詞;歧義消除
自然語言中“歧義”是一個普遍存在的現(xiàn)象,又是比較難處理的問題。自然語言歧義問題事實(shí)上是詞義和詞形之間矛盾的問題。同一詞形對應(yīng)于兩個或兩個以上詞義或結(jié)構(gòu)時,就無可避免地產(chǎn)生了歧義,因此我們把歧義又稱“同形歧義”[1-2]。
作為蒙古語語義屬性描述體系的一個重要組成部分,《蒙古文同形詞信息詞典》的建立與應(yīng)用是本研究的一部分。在蒙古語的語義研究中,通過語料庫進(jìn)行研究已經(jīng)成為主要手段。基于語料庫的同形詞研究不僅要統(tǒng)計(jì)同形詞的詞形出現(xiàn)頻率,更重要的是同一詞形分別以不同詞義出現(xiàn)的頻率。這樣才能準(zhǔn)確統(tǒng)計(jì)同形詞按不同詞義出現(xiàn)的概率,為搭配詞庫的應(yīng)用,機(jī)器翻譯等提供概率統(tǒng)計(jì)方面的幫助[4]。
同形詞歧義研究工作中為了更清楚地表示蒙古文同形詞的不同詞義形式,內(nèi)蒙古大學(xué)淑琴博士研究設(shè)計(jì)了《蒙古文同形詞信息詞典》,其中包括“蒙古文詞形”(MONGGOL) 、“拉丁轉(zhuǎn)寫”(GALIG)、“詞類”(UGSAIMAG)、“分類標(biāo)記”(ILGAHV)、 “漢語詞義”(HITAD)等字段。
表1 蒙古文詞形的舉例
蒙古文同形詞歧義問題如果把同形詞的詞形、詞類的基礎(chǔ)上能夠準(zhǔn)確標(biāo)注其分類標(biāo)記(ILGAHV),則歧義自然就能夠消除了。
基于語料庫的同形詞研究中首先要求同形詞歧義消除問題,即上述分類標(biāo)記(ILGAHV)的正確標(biāo)注是關(guān)鍵問題。對于大規(guī)模的語料庫當(dāng)然需要一個能夠自動標(biāo)注分類標(biāo)記(ILGAHV)的功能。
蒙古語名詞語義網(wǎng)[8-9]是一種語言知識庫,其建立的目的就是為自然語言理解與處理服務(wù)[10-14]。蒙古語名詞語義網(wǎng)提供詞匯語義查詢功能以外還有一個特點(diǎn)是解決詞匯歧義問題。通過詞匯概念的形式化描述和概念之間語義關(guān)系的簡明結(jié)構(gòu)使得蒙古語名詞語義網(wǎng)成為詞義消歧的主要詞典資源。特別是名詞繼承體系,其嚴(yán)格的繼承關(guān)系使得在語言分析過程中,句子中的詞匯歧義,只要通過內(nèi)部結(jié)構(gòu)自身就可以利用概念密度的計(jì)算,加以消除[15-18]。
例如,蒙古文的句子:
以上含義分列在不同的語義樹上,其中一棵子樹的部分如圖1所示。
圖1 詞匯(地方)的語義樹
4.1 歧義消除算法
整個歧義消除算法(或者現(xiàn)在已經(jīng)對應(yīng)到分類標(biāo)記自動標(biāo)注算法)是在以句子為單位的語義環(huán)境中的進(jìn)行歧義判斷的。通過同形詞與同句名詞之間的語義關(guān)系計(jì)算最終判斷歧義。因此所考慮的名詞必將是跟同形詞共處一個句子,并且要句法關(guān)系相近的詞匯才行。本文中查找名詞時考慮到了與同形詞間的距離,選擇計(jì)算的是與同形詞距離最近的名詞。
語料庫中進(jìn)行以上同形詞的歧義消除過程的算法如圖2所示。
4.2 實(shí)驗(yàn)設(shè)計(jì)
同形詞歧義消除實(shí)驗(yàn)中共選擇了八個詞形,20個名詞。下面是在26萬詞條(已完成語法信息標(biāo)注)的語料庫中利用語義網(wǎng)進(jìn)行詞義消除情況。
八個詞形,20個名詞的同形詞表的信息如表2所示。
表2 同形詞詞詞匯歧義消除實(shí)驗(yàn)單詞信息表
續(xù)表
IDMONGGOLGALIGUGSAIMAGILGAHVHITAD270ORONe2C跡488AGVRNe2A蒸汽489AGVRNe2B生氣616ANGGINe1A班級617ANGGINe1B階級1455CIHINe1A耳1456CIHINe1B(器皿兩側(cè)的)耳子1457CIHINe1C秧兒2986HELENe1A語言2987HELENe1B舌2669HOTANe1A浩特*2670HOTANe1B城3156HOLOSONe2A工錢3157HOLOSONe2B汗
圖2 基于名詞語義網(wǎng)的語料庫中同形詞歧義消除算法流程圖
4.3 實(shí)驗(yàn)過程
SynsetID標(biāo)注結(jié)果如圖3所示。
圖3 同形詞SynsetID標(biāo)注結(jié)果
(2) 第二步: 語料庫中查找所有上述同形詞,先進(jìn)行人工標(biāo)注(標(biāo)注其義位編號),然后調(diào)用上述算法進(jìn)行自動標(biāo)注完成歧義消除,即確定句子中的同形詞究竟是對應(yīng)到多個義位中的哪一個。進(jìn)行歧義標(biāo)注的語料庫如圖4所示。
圖4 語料庫中同形詞歧義標(biāo)注結(jié)果
4.4 實(shí)驗(yàn)總結(jié)
(1) 第一步: 對所得結(jié)果進(jìn)行統(tǒng)計(jì)。
通過程序運(yùn)行最終共對1 013個單詞進(jìn)行了歧義標(biāo)注,結(jié)果如表3所示。
表3 語料庫中同形詞歧義消除結(jié)果
(2) 第二步: 對統(tǒng)計(jì)結(jié)果進(jìn)行分析
分析結(jié)果后發(fā)現(xiàn),錯誤標(biāo)注的主要原因有以下幾方面。
① 語義網(wǎng)中名詞的同義詞集合ID標(biāo)注有不準(zhǔn)確的情況,如果同義詞集合ID標(biāo)注合理準(zhǔn)確將會提高準(zhǔn)確率;
② 自動標(biāo)注算法運(yùn)行過程中所找到的名詞跟當(dāng)前詞(同形詞)不在同一語義塊中,導(dǎo)致無法計(jì)算距離;
③ 第一個同形詞0I的標(biāo)注結(jié)果準(zhǔn)確率相對較好的原因是語義計(jì)算的名詞大部分都是該詞常用搭配詞,進(jìn)而提高了歧義消除效率。
因此依靠語義網(wǎng)進(jìn)行語義計(jì)算,完成歧義消除時找到語義樹上距離相近的詞匯很關(guān)鍵。隨著蒙古文句法處理技術(shù)的深入,結(jié)合短語標(biāo)注等技術(shù)可以較準(zhǔn)確地判斷與同形詞計(jì)算距離的名詞。這樣不僅提高準(zhǔn)確率,還可以降低算法中查找名詞的時間復(fù)雜度。
詞匯語義網(wǎng)絡(luò)是詞匯語義計(jì)算的非常重要的工具。目前基于WordNet等各類語種詞匯語義網(wǎng)絡(luò)的應(yīng)用比比皆是。蒙古語名詞語義網(wǎng)的研究課題目前剛剛起步,本研究初步嘗試了基于蒙古語名詞語義網(wǎng)的同形詞歧義消除工作。下一步我們將優(yōu)化詞匯語義網(wǎng)的框架結(jié)構(gòu),完善詞匯語義數(shù)據(jù)庫的信息,補(bǔ)充動詞和形容詞等其他詞類信息的同時要提高語義網(wǎng)的應(yīng)用性能。
[1] 哈斯,蒙古語名詞詞匯語義網(wǎng)的構(gòu)建[D],內(nèi)蒙古大學(xué)博士學(xué)位論文,2013:82-86.
[2] 哈斯.基于搭配詞庫的蒙古文同形詞歧義消除[J]. 內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)版).2011.32(2):24-29.
[3] 哈斯、淑琴.同形同音詞詞典中分類標(biāo)志的自動標(biāo)注法[J].中國蒙古學(xué).2009.37(1):17-20.
[4] 那順烏日圖.蒙古文信息處理概述[C]//Proceedings of the second China-Japan Natural Joint Processing Research Promotion Conference,Peking.2002:114-122.
[5] 那順烏日圖.關(guān)于面向信息處理的蒙古語語義研究[J].內(nèi)蒙古大學(xué)學(xué)報(bào).2002.34(5):43-48.
[6] 德·薩日娜、那順烏日圖.蒙古文語義信息詞典的初步構(gòu)建[C].第十屆全國計(jì)算語言學(xué)學(xué)術(shù)會議.中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009).2009:339-344.
[7] 那順烏日圖.蒙古語語言知識庫的建立與應(yīng)用[J].中文信息學(xué)報(bào).2011.25(6):162-165
[8] Hasi、Nasun-urt. The Automatic Construction Method of Mongolian WordNet Noun Sets of Synonyms[C]//Proceedings of the 4th International Conference on Intelligent Networks and Intelligent Systems. Kunming. China. 2011:195-198.
[9] Hasi、Nasun-urt. The Automatic Construction Method of Mongolian Lexical Semantic Network Based on WordNet[C]//Proceedings of the 5th International Conference on Intelligent Networks and IntelligentSyst. Tianjin. China. 2012:220-223.
[10] 朱虹,劉揚(yáng).詞匯語義知識庫的研究現(xiàn)狀與發(fā)展趨勢[J].情報(bào)學(xué)報(bào).2008.27(6):870-877.
[11] 黃居仁,謝舒凱,洪嘉馡等.中文詞匯網(wǎng)絡(luò):跨語言知識處理基礎(chǔ)架構(gòu)的設(shè)計(jì)理念與實(shí)踐[J].中文信息學(xué)報(bào).2010.24(2):14-23.
[12] 王石,曹存根.一種WordNet概念自動翻譯方法[J].中文信息學(xué)報(bào).2009.23(4):63-70.
[13] 趙小兵,邱莉榕,趙鐵軍.多民族語言本體知識庫構(gòu)建技術(shù)[J].中文信息學(xué)報(bào).2011.25(4):71-74.
[14] 李慧.蒙古文語義知識詞典的研究與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué)碩士學(xué)位論文.2012.
[15] Beckwith R,Miller G A ,Tengi R. Design and Implementation of the WordNet Lexical Database and Searching Software[J]. Specification of WordNet. 1993:105-128.
[16] Fellbaum C. WordNet: an Electronic Lexical Database [M]. MIT Press.1999.
[17] George A. Miller. An on-line lexical database[J].International Journal of Lexicography.1990.3(4):235-244.
[18] Kamps J. Visualizing WordNet Structure[C]//Proceedings of the ICGW 2002. India. 2002.
Homonyms Disambiguation Based on Mongolian Nouns Semantic Network
Hasi1,Buyinqiqige2
(1. Computer and Information Engineering College, Inner Mongolia Normal University, Huhhot, Inner Mongolia 010022,China; 2. Department of Economics, Huhhot Nationalities College, Huhhot, Inner Mongolia 010051,China)
Mongolian homographs disambiguation is one of the difficulties of the Mongolian information processing. This paper puts forward a method of homonyms disambiguation based on Mongolian nouns semantic network. Finally, the experimental results of the homograph disambiguation are provided.
Mongolian;nouns semantic network;homonyms;disambiguation
哈斯(1976—),博士,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)槊晒盼男畔⑻幚?語義計(jì)算。E-mail:hasi@lmani.edu.cn布音其其格(1974—),博士研究生,講師,主要研究領(lǐng)域?yàn)樵~匯語義學(xué)。E-mail:buyinqiqige@126.com
1003-0077(2016)06-0230-06
2016-09-27 定稿日期: 2016-10-27
國家自然科學(xué)基金(61363053);內(nèi)蒙古自治區(qū)2014年度蒙古語言文字信息化專項(xiàng)扶持項(xiàng)目《蒙古文MOOC教學(xué)平臺研發(fā)及基礎(chǔ)資源建設(shè)》及內(nèi)蒙古師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院科技創(chuàng)新團(tuán)隊(duì)項(xiàng)目
TP391
A