羊毛卓瑪
青海師范大學民族師范學院,青海海南 813000
藏文詞性自動標注中歧義問題處理方法研究
羊毛卓瑪
青海師范大學民族師范學院,青海海南 813000
藏文詞性自動標注是藏文信息處理技術中的一項基礎性課題,它的研究成果不僅為機器翻譯、搜索引擎、網絡信息安全等諸多領域的研究奠定基礎;也是藏文信息后續(xù)句法分析、語義分析及篇章分析必不可少的前提條件。藏文詞性標注的研究是自然語言理解智能化的一項重要工作。因此,研究和實現藏文詞性自動標注系統(tǒng)具有重要的理論意義和實用價值。
藏文詞性自動標注的重點和難點是詞性歧義問題的處理,即兼類詞的處理問題。所謂兼類詞在理論上指的是有些詞具有兩類或兩類以上詞的句法分布特征,這些詞將屬于不同的詞類,簡稱兼類[1]。兼類詞是影響藏文詞性自動標注的關鍵因素,也是自然語言處理中難以解決的棘手問題及語法界存在爭論的焦點問題。據對藏文中常用的詞典《藏漢大辭典》[2]、《新編藏文詞典》[3]和《藏文動詞詞典》[4]合并去重后精選七萬余詞條完成詞性標注統(tǒng)計,其中兼類詞有23 623個,約占總詞數的32.36%。據對12萬余字的人工標注語料統(tǒng)計,兼類詞出現詞次為60 481個,約占語料總詞數的49.17%。數據表明:在藏文中兼類詞數量較多,且常用詞兼類現象嚴重。這給藏文詞性標注及藏文信息處理后續(xù)的工作帶來了一定的難度。所以藏文詞性標注的關鍵是解決兼類詞問題。該文在基于HMM統(tǒng)計方法[5]的基礎上提出了符合藏文語法規(guī)則實用于藏文詞性標注的詞性排岐處理方法。有效地提高了藏文詞性標注正確率。
在藏文中,詞性的兼類現象普遍存在,尤其是常用詞的兼類現象給藏文詞性標注帶來了很大困難。在12萬余字的標注語料中對藏文兼類詞特點及現象作了具體的分析。比如(例子來源《藏漢大辭典》):
根據對文中使用的詞庫和語料的統(tǒng)計,藏文中兼類詞的分布情況如表1~表3所示。
表1 藏文兼類詞現象統(tǒng)計
表2 藏文兼類詞所占比例
表3 藏文中兼兩類詞示例
從表2數據可知,藏文兼類詞中,兼兩種詞性的兼類詞占多數,所占比例如表3(本文采用的詞性標記集[6])。
通過以上分析可以發(fā)現:藏文本中兼類詞的數量較多,尤其常用詞的兼類現象嚴重,對后續(xù)句法分析造成直接的影響。隨著藏文信息處理的不斷研究,尤其是機器翻譯正在深入研究,兼類詞是一個無法回避的重點和難點問題,詞性是一個詞的最重要的語法信息,如果一個詞的詞性無法確定,句法分析就無法進行,如果一個詞賦予錯誤的詞性,將導致嚴重的句法分析錯誤,所以,兼類詞的處理在自然語言處理中有至關重要的意義。
3.1 詞綴造成的詞性歧義問題
藏文本中后接成分(文獻[7]中有詳細介紹)具有較高出現頻率且組詞能力極強,引用范圍也廣,又不能一一收入詞典。在藏文詞性自動標注處理中出現了“詞綴單切”現象。導致了標注結果的正確率下降。該文結合藏文語法知識特點解決了藏文詞性自動標注中藏文后接成分的處理問題。
圖1 專職詞識別流程圖
圖2 形容詞識別流程圖
3.2 詞的義項功能造成的詞性歧義問題
規(guī)則處理的基本思想是利用上下文框架規(guī)則描述在特定的語境下一個多類詞到底應標上什么詞性標記,這里的語境包括詞語信息、詞類信息甚至還有某個詞語的特征信息[8]。
藏文中虛詞出現的頻率很高且兼類現象嚴重。多數虛詞具有嚴格的語法規(guī)則與上下文關聯(lián),根據此特點,可以設置規(guī)則完成對其排岐處理。
圖3 “”等識別流程圖
具體算法實現如下:
(1)讀取文本,進行分詞;
(3)查兼類詞庫JLDictionary,如果找到轉(4);否則轉(6);
(6)標記為未登錄詞(暫不研究);
(7)賦予兼類詞庫FJLDictionary中相應的詞性;
(8)標注為名詞n;
(9)輸出結果。
本文以藏文文學、民俗、網頁新聞,五省區(qū)中小學藏文教材為取材,整理后精選12萬余字語料完成人工標注,作為統(tǒng)計數據的來源,分析了藏文詞性標注中兼類詞的特點,并提出了解決兼類詞的方法。為了更好地評價藏文詞性自動標注的性能,本文采用詞性標注正確率=(標注結果正確詞數/語料總詞數)×100%進行計算。實驗結果如表4所示。
表4 藏文詞性自動標注算法比較結果
本文提出的算法使藏文詞性標注正確率在原有的基礎上提高了1.83%,證明了本文算法的實用性。
藏文自動詞性標注中詞性歧義問題的解決對藏文詞性自動標注正確率起著重要的作用。本文通過藏文詞綴歸并后標注等規(guī)則結合統(tǒng)計方法處理了藏文中出現頻率高的兼類詞排岐處理,提高了藏文詞性自動標注的正確率,為進一步研究藏文信息處理后續(xù)的句法分析、語義分析、篇章分析奠定了基礎。
[1]黃德根,張麗靜.規(guī)則與統(tǒng)計相結合的兼類詞處理機制[J].小型微型計算機系統(tǒng),2003(7).
[2]張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.
[3]編寫組.新編藏文字典[M].西寧:青海民族出版社,2005.
[4]李永昌.藏文動詞詞典[M].北京:民族出版社,2005.
[5]羊毛卓瑪.藏文詞性自動標注系統(tǒng)的研究與實現[D].拉薩:西藏大學,2012.
[6]扎西加,歐珠,高定國,等.信息處理用藏語詞類標記集規(guī)范[S].拉薩:西藏大學工學院,2007.
[7]羊毛卓瑪,高定國.藏文自動分詞中未登錄詞處理方法研究[J].計算機工程,2012(18).
[8]周強.規(guī)則和統(tǒng)計相結合的漢語詞類標注方法[J].中文信息學報,1995(3).
[9]格桑居冕.實用藏文文法教程[M].成都:四川民族出版社,2004:258-270.
Yangmo Droma
School of National Teachers,Qinghai Normal University,Hainan,Qinghai 813000,China
Tibetan language Part-Of-Speech(POS)tagging is the subsequent parsing of Tibetan language information processing. POS tagging is an essential foundation work for semantic analysis and text analysis.POS ambiguity problem solving is the key to Tibetan POS tagging,is also one of the difficulties in the Tibetan automatic POS tagging.This paper analyzes and studies POS ambiguity problem in the Tibetan POS tagging,and puts forward a method of solving POS ambiguity problem suitable for Tibetan grammar rules.Experiments prove that this method on speech disambiguation in the Tibetan POS tagging has achieved better results and has definitely increased the accuracy of the Tibetan POS tagging.
Tibetan information processing;affix;Part Of Speech(POS);automatic tagging;Part Of Speech disambiguation
藏文詞性自動標注是藏文信息處理后續(xù)句法分析、語義分析及篇章分析必不可少的基礎工作。詞性歧義問題的處理是藏文詞性自動標注的關鍵所在,也是藏文信息處理的難點問題。對藏文詞性標注中詞性歧義問題進行了分析研究,提出了符合藏文語法規(guī)則實用于藏文詞性標注的解決詞性排岐方法。實驗證明:該處理方法在藏文詞性自動標注中對詞性排岐方面有較好的效果,使藏文詞性標注正確率有了一定的提高。
藏文信息處理;詞綴;詞性;自動標注;詞性排岐
A
TP311
10.3778/j.issn.1002-8331.1204-0294
Yangmo Droma.Study on method of solving ambiguity in Tibetan part of speech tagging.Computer Engineering and Applications,2013,49(24):135-137.
國家自然科學基金(No.61063015);教育部“長江學者與創(chuàng)新團隊發(fā)展計劃”藏文信息技術創(chuàng)新團隊項目(No.IRT0975)。
羊毛卓瑪(1978—),女,講師,主要研究方向:藏文信息處理。E-mail:yangmaozhuoma@163.com
2012-04-17
2012-07-25
1002-8331(2013)24-0135-03
CNKI出版日期:2012-08-08http://www.cnki.net/kcms/detail/11.2127.TP.20120808.0938.010.html
◎圖形圖像處理◎