国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏文不自由虛詞的自動識別研究

2014-04-23 22:07卓瑪吉安見才讓
2014年5期
關(guān)鍵詞:自動識別歧義

卓瑪吉 安見才讓

摘要:本文將通過傳統(tǒng)藏文文法的語法規(guī)則,主要研究藏文文本中大量藏文不自由虛詞的識別算法,同時建立了藏文不自由虛詞的消岐規(guī)則庫。使計算機快速地識別并消除藏文句子中不自由虛詞的歧義問題。提高藏文自動分詞的準確率。使句子的生產(chǎn)、句法分析、八格識別和機器翻譯等研究的基礎(chǔ)更扎實。

關(guān)鍵詞:藏文不自由虛詞;自動識別;歧義;規(guī)則庫

1.引言

隨著計算機的普及和網(wǎng)絡(luò)資源的共享,人類已邁進了信息化時代,在信息處理領(lǐng)域,藏文信息處理也以分詞為基礎(chǔ),從最開始的字處理轉(zhuǎn)向了自然語言的研究及處理層面,而詞又分為實詞和虛詞,其中虛詞是依附于實詞或語句,表示語法意義,不能單獨作句法成分,而且它在不同的語境中扮演者不同的角色,因此出現(xiàn)了虛詞的歧義問題。這在藏文信息處理領(lǐng)域中大大降低了藏文自動分詞的準確率。面向機器時,在信息處理領(lǐng)域中虛詞的歧義性對句子的生成、句子及語義的理解中也同樣引起了巨大的負面影響,甚至成為了藏文信息處理中某一部分的研究及實現(xiàn)的障礙。由此可見,研究及處理藏文虛詞的歧義是在信息處理中必須解決的重要內(nèi)容之一,藏語語法研究的重中之重。

2.藏文不自由虛詞的識別算法

藏文虛詞的自動識別是藏文自動分詞技術(shù)中的一部分,也是藏文語法研究中最重要而復(fù)雜的問題之一。如今藏文虛詞的研究在國內(nèi)外都處于剛剛起步的狀態(tài)。據(jù)統(tǒng)計發(fā)現(xiàn)藏文虛詞只有85個,虛詞數(shù)量雖比實詞的數(shù)量少很多,但應(yīng)用范圍和功能都能覆蓋所需的使用范圍。其中,本文重點研究藏文不自由虛詞的識別算法及消岐規(guī)則。

藏語虛詞顧名思義是意義較虛的詞,它沒有實際意義,只有語法意義的“封閉類”的詞。有眾多藏語語法專家從不同的角度給藏文虛詞下了定義,并對它進行各種詮釋,但重點都指虛詞只有語法意義,沒有實際意義并在藏文句子中一般都不做句子的主要成分。 “不自由虛詞是指有不同變體并它的添接法會被前一個音節(jié)的后置字所受限制的一類虛詞。根據(jù)傳統(tǒng)藏文文法“三十頌”,有65個“不自由虛詞”,其不自由虛詞自動識別算法的基本思想:

1) 本課題的研究根據(jù)傳統(tǒng)藏文文法,結(jié)合最大匹配藏文分詞法和藏文樹型分詞法,在藏文自動分詞過程中與自動分詞同時進行虛詞識別。因為在不自由虛詞中除了等四個虛詞外,其余的58個不自由虛詞在分詞過程中都以單字詞的形式出現(xiàn)。

建立藏文虛詞庫xc;在xc庫中分別建立bzyxc和bzyxc2兩個表。在表bzyxc是不自由虛詞中“單字詞”類虛詞表(如:)等等;bzyxc2將是在不自由虛詞中等中間存在藏文分割“·”符的虛詞表。虛詞自動識別算法結(jié)構(gòu)如圖3-5所示:

本課題結(jié)合最大匹配藏文分詞法、藏文樹型分詞法、藏文虛詞的接續(xù)規(guī)則和虛詞跟前后音節(jié)的組合方法,設(shè)計了藏文虛詞自動識別算法。

目前在此算法使用過程中,已能正確識別大量的藏文虛詞和有交際性歧義的部分藏文虛詞,如:等。但有部分不自由虛詞仍然無法判斷。

3. 藏文不自由虛詞消岐規(guī)則庫的建設(shè)

有部分藏文虛詞在藏文句子中以兩種形式出現(xiàn),一是以虛詞的形式。如:(扎巴的書),這句子中只起著該句子意義完整,語序通順的連接的紐帶作用;而另外一種是以實詞的形式。如:不是封閉類的虛詞,而它的詞性(名詞)發(fā)生了變化。從而導(dǎo)致藏文虛詞的歧義問題。又如,藏文詞等在句子中以名詞的形式出現(xiàn),而且該詞與它前一個音節(jié)的后置字的添接方式也符合藏文文法“三十頌”中虛詞的接續(xù)規(guī)則。在此情景下使用本系統(tǒng)識別虛詞,將會把此類詞也都錯標為藏文虛詞的記號。為此,通過語料等資料的研究,已建立了存有以下規(guī)則的藏文虛詞消岐規(guī)則庫。

藏文不自由虛詞中有等14個虛詞存在歧義問題,其建立的消岐規(guī)則如下:

1)歧義虛詞中有等是藏文終結(jié)虛詞。顧名思義,終結(jié)虛詞都用在句末,表示所要表達的意思完結(jié)。因此,在建立消岐規(guī)則時,可用此類虛詞的接續(xù)規(guī)則和虛詞來進行判斷。

例如:,終結(jié)虛詞是在句末,但不符合終結(jié)虛詞的接續(xù)規(guī)則,因此,在虛詞識別過程中可跳過。又如:中的,雖然符合藏文終結(jié)虛詞的接續(xù)規(guī)則,但它出現(xiàn)在句子中間,因此,終結(jié)虛詞在藏文虛詞虛詞識別過程中可用以上兩種條件來判斷及消除歧義。

2)是拉格助詞,在虛詞識別過程中出現(xiàn)以下規(guī)則可跳過。

等等更多的規(guī)則見消岐規(guī)則庫;

注釋:在本課題中建立藏文虛詞消岐規(guī)則庫所使用的詞性標記規(guī)范參考了安見才讓老師的“青海民族大學(xué)藏語語料庫基本加工規(guī)范”。

4.結(jié)束語

本文對藏文信息處理領(lǐng)域的藏文虛詞自動識別技術(shù)進行了較全面的研究及探討,建立了藏文虛詞的消岐規(guī)則庫。最終通過傳統(tǒng)藏文文法中藏文虛詞的接續(xù)規(guī)則和藏文虛詞的消岐規(guī)則庫,實現(xiàn)了具有藏文文法特點的藏文虛詞自動識別系統(tǒng)。根據(jù)實驗結(jié)果統(tǒng)計,本系統(tǒng)中虛詞識別的準確率能達到90%以上,但在藏文文本中難免會出現(xiàn)帶有實意的藏文歧義虛詞,如:幾個)”,在出現(xiàn)了兩次,通過藏文虛詞自動識別算法和傳統(tǒng)藏文文法“三十頌”中虛詞的接續(xù)規(guī)則,很難判斷是否都是虛詞等問題。此類問題本人將會在以后的工作中進一步的研究及處理。(作者單位:青海民族大學(xué)藏文信息與軟件研究所)

參考文獻

[1]Danie L Jurafsky James H.Nartin.馮志偉,孫樂譯.自然語言處理綜論[M].北京:電子工業(yè)出版社,2005.6. 179

[2]才旦夏茸著.藏文文法詳解[M].西寧:青海民族出版社,1954,5: 18—45

[3]俞士汶.計算語言學(xué)概論[M].北京商務(wù)印書館出版社, 2007年2月.

[4]才旦夏茸.藏文文法詳解[M]. 西寧:青海民族出版社,1988.

[5]卓瑪吉,安見才讓. 藏文樹型分詞法的研究及實現(xiàn)[J]. 信息與電腦學(xué)報,2013年7月.

[6]多吉杰布.藏文文法知識[M].西藏人民出版社,2005.7.

猜你喜歡
自動識別歧義
中國自動識別技術(shù)協(xié)會
eUCP條款歧義剖析
船舶自動識別系統(tǒng)對船舶救助的影響
自動識別系統(tǒng)
English Jokes: Homonyms
金屬垃圾自動識別回收箱
基于關(guān)聯(lián)理論的歧義消除研究
基于IEC61850的配網(wǎng)終端自動識別技術(shù)
“那么大”的語義模糊與歧義分析
“v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解