高定國,扎西加,趙棟材
(1. 西藏大學(xué) 藏文信息技術(shù)研究中心,西藏 拉薩 850000;2. 西藏大學(xué) 工學(xué)院計算機科學(xué)系, 西藏 拉薩 850000)
近年來,隨著藏文信息處理技術(shù)的發(fā)展,藏語的信息處理已經(jīng)在字處理方面取得了很好的成績,現(xiàn)進入到了語句研究的階段,語句處理的前提是對藏語詞的處理。藏語中的實詞由于其意義的實在以及在藏語的語義句法結(jié)構(gòu)中的重要地位,受到了藏文信息處理學(xué)者們的普遍重視,也取得了一定的成績,但面向信息處理的虛詞研究還有待于加強。虛詞自身雖然用法靈活,但虛詞與虛詞、虛詞與實詞的搭配常常構(gòu)成比較穩(wěn)定的語義塊標(biāo)記[1]。因此,從藏語的虛詞入手,根據(jù)虛詞的搭配及其在形成藏語語義塊結(jié)構(gòu)中的標(biāo)記作用來分析藏語語句的句法結(jié)構(gòu),并據(jù)此進行藏語語句的語義塊自動切分等研究,對藏文句子研究有很重要的作用。
藏語虛詞在藏語文檔中出現(xiàn)的頻度很高,虛詞搭配規(guī)則形式化分析的可行性則由藏語虛詞自身的特點決定: 虛詞是封閉集合,其中的各個詞匯是可以一一枚舉的[2];虛詞盡管用法靈活,但它們是語言中性質(zhì)比較穩(wěn)定,不易產(chǎn)生變化的部分;虛詞與其他詞匯構(gòu)成的搭配是確定的,也是可以枚舉的[3]。虛詞搭配的可枚舉性、穩(wěn)定性和確定性等特點,使得虛詞搭配關(guān)系的形式化規(guī)則特別有利于被擅長搜索和匹配的計算機所直接利用,從而對計算機句法分析提供簡單、高效和健壯的句法規(guī)則。
現(xiàn)代藏語虛詞搭配規(guī)則形式化分析研究以及由此派生的藏語語義塊自動切分技術(shù)的研究應(yīng)用于新一代Internet搜索引擎、藏語問答系統(tǒng)、自動抽取、自動語義塊切分、機器翻譯、自然語言理解、人工智能等多個領(lǐng)域。藏文虛詞的研究是藏文信息處理技術(shù)中詞、句及語義研究的基礎(chǔ)和前提,為進一步研究藏語短語、藏語句法分析等提供依據(jù),也為開展藏文文法及語義的研究工作奠定基礎(chǔ),而計算機自動識別藏文虛詞又是藏語虛詞研究的前提。
藏語的詞匯可以分為實詞和虛詞兩大類。實詞是名詞、動詞、形容詞等具有實在意義的詞匯,能夠在藏語語句中充當(dāng)主要成分。虛詞是格助詞、關(guān)聯(lián)詞等沒有實在意義的、不能作為語句的主要成分,不能單獨用來回答問題[4]。與實詞相比,虛詞本身的意義雖然不夠“實在”,但是它能夠配合實詞表達出確切的語義,是將實詞連接起來構(gòu)成藏語語句表達確切語義的“粘合劑”。研究現(xiàn)代藏語語句的計算機句法分析,就不能不對這類具有將實詞組織起來形成一定句法結(jié)構(gòu)的功能性詞匯加以重點研究。藏語語句的構(gòu)成具有其他語言所不具備的特色: 一個藏語語句是由實詞經(jīng)過虛詞的再編碼從而有規(guī)則地進入句法結(jié)構(gòu)而形成的語義塊序列[5]。按照這一思想,藏語語句的構(gòu)成過程可以大致描述如下: 首先由實詞和結(jié)構(gòu)助詞形成語義比較集中的語義塊,再由虛詞將這些語義塊按照一定的順序構(gòu)成語義塊序列。因此,虛詞是藏語語句結(jié)構(gòu)的有機組成部分,并且在藏文句子中藏語虛詞的出現(xiàn)頻率又很高,所以,虛詞對藏語句子的研究很重要。
藏語虛詞的研究,歷來受到語言學(xué)研究者的重視。但是,這些研究的目的主要是幫助人們更好地理解藏語,面向的是人而不是計算機。因此,這些語法書籍常常以將虛詞的用法分門別類舉例說明的方式編排,對于采用計算機的藏語語言處理來說,必須首先將這些語言學(xué)知識進行形式化的處理,才能應(yīng)用于計算機自動句法分析。
顧名思義,自由虛詞的使用就不受前后字符的添接限制。理論上,在使用自由虛詞時,可選擇與格相符的任何一個自由虛詞都可以,但實際使用時,也受語言習(xí)慣等限制。有些格的虛詞中自由與不自由兼而有之,例如,作格、位格、飾集詞等。使用時按照該虛詞本身是自由還是不自由來確定該虛詞的使用情況。
藏文虛詞有兼類性、組合性、黏著變體性、結(jié)合性等特點,這些特點加大了計算機識別藏語虛詞的難度。
1. 虛詞的兼類性。有些虛詞與實詞兼類,它既是虛詞又是實詞。例如,(虛詞后面括號中的中文就是該虛詞作為實詞時的意義)(隊)、(病)、(坡)、(山羊)、(青稞)、(宿命)、(懂)、(臉)、(母)、(吻)、(尸體)、(年)、(齒)、(天)、(人)等; 部分虛詞與虛詞也兼類,例如,等。甚至有些虛詞兼多種類,例如:是實詞“煙”,又是位格的虛詞,還兼疑問代詞“多少”。藏語虛詞的兼類性增加了計算機識別虛詞的難度。
懂藏文的人在閱讀一句話時,主要通過語義來確定虛詞的,但計算機不能像人一樣從語義來判斷,要理解語義的前提還是先分詞。藏文分詞算法基本上采用“規(guī)則+特征”的方法,首先通過虛詞把句子劃分成“塊”,再對“塊”用“最大匹配”算法來切分成詞[8],計算機識別藏文虛詞非常重要,按照藏文虛詞的使用方法和計算機識別藏文虛詞的難點分析,制定了首先排除虛詞的兼類性、再利用不自由虛詞的接續(xù)規(guī)則來判斷虛詞、再識別和還原黏著虛詞、最后結(jié)合中嵌否定詞和指人后綴的方法來識別藏文虛詞。藏文文本中識別虛詞和文本劃“塊”的過程如圖1所示。
圖1 藏文文本中識別虛詞和文本劃“塊”的過程
不自由虛詞的使用受到前后字符的限制,充分利用該特點建立一個虛詞詞典,格式如: {虛詞前導(dǎo)字符后接字符}。在藏文連續(xù)文本中找到這類虛詞時,利用其“前導(dǎo)字符”和“后接字符”,即不自由虛詞的接續(xù)規(guī)則來識別這類虛詞。
按照藏語虛詞的黏著變體性特點,分了三種情況來識別虛詞的黏著性。
if(“整塊與詞典匹配”成功)
該“塊”就是一個詞;
else{
if( “塊”與詞典匹配成功)
else{
if(“新塊”與詞典匹配成功)
分離黏著虛詞;
還原“被黏著”對象;
還原黏著虛詞;
else
“塊”中去掉最后一個藏文音節(jié);
}
else
“塊”中去掉最后一個藏文音節(jié);
}
}
“塊”中被劃出了詞和虛詞以后,剩下的部分又組成新的塊,調(diào)用同樣的算法來進一步劃分詞和識別虛詞。
綜合考慮文獻的年代、類別、體裁、地域、風(fēng)格等,從經(jīng)典作品中選擇了2 525句。根據(jù)以上提到的“藏語虛詞的識別方法”,設(shè)計出了相應(yīng)的藏文虛詞的識別程序,識別藏文虛詞的同時進行了藏文分詞。對結(jié)果進行分析,2 525句藏文句子中有45 685個藏文音節(jié),其中包括10 126個藏文虛詞,程序正確識別了9 830個藏文虛詞,正確率高達97.076 8%,但同時也存在以下缺陷。
藏文虛詞在藏文自然語言處理研究中占有很重要的地位,文本詳細分析了藏文虛詞的兼類性、組合性、黏著變體性和結(jié)合型等現(xiàn)象,提出了首先排除虛詞的兼類性、其次利用不自由虛詞的接續(xù)規(guī)則來判斷虛詞、再識別和還原黏著虛詞、最后結(jié)合中嵌否定詞和指人后綴來識別藏文虛詞的方法。利用該方法識別藏文虛詞的正確率達97.076 8%。
文本還對結(jié)果的錯誤類型進行了分析,指出了其錯誤主要由詞典的不完善和規(guī)則的缺陷導(dǎo)致,以后還需要在大量真實的藏文文本中不斷測試、不斷補充詞典和完善規(guī)則。同時引入統(tǒng)計模型來嘗試是否對識別藏文虛詞有利。
[1] 孫茂松,陳群秀.中國計算語言學(xué)研究前沿進展(2007—2009)[M].清華大學(xué)出版社,2009.
[2] 吉太加.現(xiàn)在藏文語法通論[M].甘肅民族出版社.2000.
[3] Daniel Jurafsky,James H.Martin著,馮志偉、孫樂翻譯.自然語言處理綜論[M].電子工業(yè)出版社,2005.
[4] 色多五世羅桑崔臣嘉措.藏文文法根本頌色多氏大疏[M],民族出版社,2007.
[5] 江荻. 現(xiàn)代藏語動詞的句法語義分類及相關(guān)語法句式[J].中文信息學(xué)報.2006(1):37-43.
[6] 格桑居冕,格桑央京.實用藏文文法教程[M].四川出版集團,四川民族出版社.2008.
[7] 扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學(xué)報,2009,23(4):113-117.
[8] 陳玉忠,李保利,俞士汶,等.藏文自動分詞系統(tǒng)的設(shè)計與實現(xiàn)[J].中文信息學(xué)報,2003,17(3):15-20.
[9] 才智杰藏文自動分詞系統(tǒng)中緊縮詞的識別[J].中文信息學(xué)報,2009,23(1):35-37.
[10] 劉匯丹,諾明花,趙維納,等.SegT: 一個實用的藏文分詞系統(tǒng)[J].中文信息學(xué)報,2003,26(1):97-103.
[11] 宗成慶.統(tǒng)計自然語言處理[M].清華大學(xué)出版社,2008.