扎西拉旦 安見才讓
本文提出了藏文字組合的規(guī)則和藏文字的語法分析相結(jié)合的藏文字自動分解算法和藏文字組成結(jié)構(gòu)用形式化描述,通過研究藏文字的構(gòu)件規(guī)則,得到藏文字的結(jié)構(gòu)特征,而進一步對藏文字的字母組合進行分段處理,簡化藏文字構(gòu)件復(fù)雜度,研究出各分段部分的藏文字的構(gòu)件規(guī)則,并且按照規(guī)則進行藏文字數(shù)的統(tǒng)計。實驗表明,系統(tǒng)對現(xiàn)代藏文字能有效地自動識別分解。
一、引言
在信息時代,信息技術(shù)發(fā)展水平成為衡量一個國家、一個地區(qū)或一個民族科學(xué)技術(shù)發(fā)展水平的重要標志。而文字的信息處理則是信息技術(shù)的重要組成部分,藏文信息處理技術(shù)語言也在進一步發(fā)展。在這幾年狀況下要加速藏文信息處理的發(fā)展,主要是開展藏文信息技術(shù)標準制定、藏文操作系統(tǒng)研究、藏文資源建設(shè)和藏文字自動分解系統(tǒng)的研究。藏文信息處理要以藏字信息處理的實現(xiàn)為基礎(chǔ),要提高藏字信息處理的智能水平,又要借助藏文信息處理的成果。
隨著藏文信息處理的深入,藏文字自動分解問題已經(jīng)引起高度重視,成為藏文信息處理的一個前沿課題。經(jīng)過十幾年的研究,藏文字自動分解技術(shù)也取得了令人矚目的成果,在各個方面得到了長足的發(fā)展,因此產(chǎn)生了積極的社會效應(yīng)。
藏文語音經(jīng)過一千多年演變,而書面語的正字法永遠不變,還有一個就是藏文拼寫變的非常復(fù)雜,拼寫的時候是以不同的輔音字母的“加字”來表示不同的音調(diào),藏文拼寫雖然復(fù)雜,但是拼寫都很有規(guī)則的,藏文字是一種以輔音字母為主要構(gòu)件的特殊拼音文字,藏文文法具有按字性組織的特征,其構(gòu)字、構(gòu)詞都要考慮字的基本構(gòu)件及其屬性。因此,分解藏文字是藏文信息處理研究基礎(chǔ)。藏文字符包括30個基本輔音字母和4個元音符號, 30個輔音字母中有10個可做后加字,后加字中的5個又可做前加字, 2個可做再后加字。
二、藏文字的語法結(jié)構(gòu)特征
輔音和前加字、后加字、再后加字的關(guān)系為Z∈A∈G∈M,如圖1所示。
藏字在結(jié)構(gòu)上由基字、前加字、上加字、下加字、后加字、再后加字及元音以不同結(jié)構(gòu)組成,它不僅具有橫向拼寫性,同時也具有縱向拼寫性,其中前加字、基字、后加字與又后加字橫向拼寫,而在基字所在的豎直方向上還可能有上加字、基字、下加字和元音的縱向拼寫,如圖2所示。
藏文字結(jié)構(gòu)自動識別分解流程圖,如圖3所示。
三、藏文字組成結(jié)構(gòu)形式化描述
六構(gòu)件的藏字結(jié)構(gòu)可以歸納為兩種括號表達式,與兩種括號表達式對應(yīng)的樹形圖,如圖11和圖12。
七構(gòu)件的藏字結(jié)構(gòu)可以歸納為兩種括號表達式,與兩種括號表達式對應(yīng)的樹形圖,如圖13。
四、結(jié)束語
本文從構(gòu)件角度將藏文字的基本形式,前加字、上加字、基字、下加字、元音、后加字、再后加字為分為一構(gòu)件、二構(gòu)件、三構(gòu)件、四構(gòu)件,并通過建立組合構(gòu)件規(guī)則庫,詳細研究了藏文字構(gòu)件的分解算法和形式化描述及統(tǒng)計藏文字數(shù),今后在該研究成果的基礎(chǔ)上進一步研究對藏文字符生成技術(shù)和藏文句型分布,為藏文字符頻率計算、藏文句型結(jié)構(gòu)分布、藏文字符排序、藏語語音合成和藏漢機器翻譯研究提供論依據(jù)和數(shù)據(jù)基礎(chǔ)。