更藏卓瑪,安見才讓
(青海民族大學計算機學院,西寧 810007)
藏文中共有85個虛詞,它比實詞少很多,但藏文虛詞在藏文中的使用及其廣泛,而且它在不同語境中扮演者不同的角色,因此出現(xiàn)了虛詞的歧義問題,而因它的歧義性問題識別起來非常復雜,尤其是非依他關(guān)聯(lián)詞的識別。但對它的研究對藏文詞和句子的處理起著重要性的作用。因此,文章通過藏文虛詞添接規(guī)則和正則表達式對藏文虛詞“”類進行識別研究。
表1 虛詞“”類添接表
表1 虛詞“”類添接表
藏文文本校對過程中校對藏文虛詞的添接是一項很重要的工作,要完成這個工作首先要識別藏文虛詞。
檢測添接規(guī)則,并統(tǒng)計其次數(shù)。如圖1所示。
圖1
其表示匹配字母或數(shù)字或下劃線或藏文字重復零次或者更多次后((匹配除了換行符以外的字符(匹配前面的位置加,例 如不能檢測添接規(guī)則,并統(tǒng)計其次數(shù)。如圖2所示。
圖2
圖3
檢測添接規(guī)則,并統(tǒng)計其次數(shù)。如圖4所示。
圖4
表2 “”等14個詞語料中的數(shù)量統(tǒng)計
表2 “”等14個詞語料中的數(shù)量統(tǒng)計
圖5
表3 虛詞“”類的歧義統(tǒng)計
表3 虛詞“”類的歧義統(tǒng)計
數(shù)量名稱總數(shù) 為虛詞總數(shù) 為虛詞百分比“???”類 9902 3996 40.3%