才智杰,才讓卓瑪,2
(1. 青海師范大學(xué) 藏文信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;2. 陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 陜西 西安 710062)
藏文字形結(jié)構(gòu)分布研究
才智杰1,才讓卓瑪1,2
(1. 青海師范大學(xué) 藏文信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;2. 陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 陜西 西安 710062)
字是語言文字的基本組成單位,字形結(jié)構(gòu)統(tǒng)計(jì)研究是自然語言處理的基礎(chǔ),為字屬性分析、輸入法設(shè)計(jì)、排序、語音合成和字符信息熵研究等提供理論依據(jù)。該文通過分析藏文字形結(jié)構(gòu)的特征,對(duì)藏文字的字形結(jié)構(gòu)分成獨(dú)體字和合體字,合體字按其構(gòu)件的結(jié)構(gòu)位和所含構(gòu)件數(shù)進(jìn)行分類。設(shè)計(jì)了藏文字形結(jié)構(gòu)統(tǒng)計(jì)系統(tǒng)模型和算法,從約含8 500萬藏文字的450M語料中對(duì)藏文字形結(jié)構(gòu)進(jìn)行統(tǒng)計(jì),建立了藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)表,并對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行了分析。
中文信息處理;字形結(jié)構(gòu);獨(dú)體字;合體字;頻度統(tǒng)計(jì)
語言是人類重要的交際工具,字是語言文字的基本組成單位,字形結(jié)構(gòu)及分布研究是自然語言處理的基礎(chǔ),為自然語言處理中字屬性分析、輸入法設(shè)計(jì)、排序、語音合成和字符信息熵研究等提供理論依據(jù)[1-2]。不同語言的字屬性分析有不同的側(cè)重點(diǎn),英語重點(diǎn)研究單詞的構(gòu)造[3-5];漢語言文字學(xué)以漢字為研究對(duì)象,研究漢字的起源、創(chuàng)制、發(fā)展、性質(zhì)、造字法、正字法、形體與音義的關(guān)系、文字的改革和演變等?,F(xiàn)代漢字學(xué)以定量、定形、定音、定序這“四定” 為核心研究其屬性,發(fā)表了一系列學(xué)術(shù)論文,出版了一批現(xiàn)代漢字的通論性著作和有關(guān)現(xiàn)代漢字及信息處理方面的論著。蘇培成教授的《現(xiàn)代漢字學(xué)綱要》[6]中詳細(xì)敘述了現(xiàn)代漢字的分布、字量、構(gòu)形法、構(gòu)字法、音、字序、熵和多余度及現(xiàn)代漢字的規(guī)范化等內(nèi)容。表明現(xiàn)代漢字結(jié)構(gòu)、構(gòu)字及分布等屬性研究已取得很多成果[7-9]。藏文字形結(jié)構(gòu)研究是藏語自然語言處理的基礎(chǔ),近年來隨著藏語語料庫規(guī)模的不斷增大和藏語語料庫建設(shè)技術(shù)的發(fā)展,為藏文字形結(jié)構(gòu)研究奠定了基礎(chǔ),也使藏文字形結(jié)構(gòu)研究變?yōu)榭赡?。在藏文字形的結(jié)構(gòu)及分布方面研究最早的報(bào)道見文獻(xiàn)[10],文章通過采集常用詞語30 428條,經(jīng)處理得3 926個(gè)常用藏文字,以此為對(duì)象研究了藏文字的字長(zhǎng)和構(gòu)詞頻度、聲母和韻母結(jié)構(gòu)方式及頻度,同時(shí)對(duì)藏文字的位置字符及結(jié)構(gòu)方式做了簡(jiǎn)要分析;文獻(xiàn)[11]對(duì)《中華大藏經(jīng)·丹珠爾》(藏文)中的藏文字及構(gòu)件頻度進(jìn)行了統(tǒng)計(jì);文獻(xiàn)[12]對(duì)藏文字做了字頻、音節(jié)頻度的統(tǒng)計(jì),簡(jiǎn)單討論了字丁熵值、音節(jié)的相對(duì)熵值和絕對(duì)熵值;文獻(xiàn)[13]統(tǒng)計(jì)了19 380個(gè)藏文字的字長(zhǎng)、字符頻度及結(jié)構(gòu)方式;文獻(xiàn)[14] 通過建立現(xiàn)代藏文字屬性分析字表庫,設(shè)計(jì)了現(xiàn)代藏文字屬性分析系統(tǒng)模型;文獻(xiàn)[15]通過大規(guī)模藏語語料對(duì)藏文基本構(gòu)件分布進(jìn)行了統(tǒng)計(jì)分析;文獻(xiàn)[16] 通過對(duì)藏文詞典的統(tǒng)計(jì),計(jì)算了現(xiàn)代藏文字在藏文中的使用頻度,并對(duì)藏文字部件和字丁進(jìn)行了分析,得出了藏文字構(gòu)字方面的特征,同時(shí)依據(jù)藏文字聲母和韻母的結(jié)構(gòu)方式進(jìn)行了統(tǒng)計(jì)。以上文獻(xiàn)雖然從不同角度研究了藏文字、構(gòu)件的分布,但存在兩點(diǎn)缺憾: 一是對(duì)藏文字形結(jié)構(gòu)及分布沒有深層次研究,只是在藏文字分布統(tǒng)計(jì)時(shí)附帶的討論了字形結(jié)構(gòu),因而沒能很好地反映字形結(jié)構(gòu)分布規(guī)律;二是由于前些年藏語語料規(guī)模較小,分布統(tǒng)計(jì)普遍是靜態(tài)的,動(dòng)態(tài)統(tǒng)計(jì)的文獻(xiàn)中所用語料要么是專用語料,要么規(guī)模很少,不具有一般性。針對(duì)以上缺憾本文借鑒漢語字形結(jié)構(gòu)及分布統(tǒng)計(jì)的研究成果,通過收集整理政治、經(jīng)濟(jì)、文學(xué)、藝術(shù)、宗教、哲學(xué)、史學(xué)、科學(xué)技術(shù)和教材等領(lǐng)域的450M約含 8 500萬藏文字的語料,深入全面地分析了藏文字結(jié)構(gòu)特征,對(duì)藏文字形結(jié)構(gòu)進(jìn)行了分類,進(jìn)而給出了藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)模型及算法,建立了藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)表,并對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行了分析。
2.1 藏文字形結(jié)構(gòu)特征
文字的性質(zhì)是這種文字區(qū)別于其他文字的本質(zhì)特征,是分析研究這種文字的基礎(chǔ)。藏文字作為藏族人民的書面交際工具,自創(chuàng)制至今進(jìn)行了三次較大規(guī)模的厘定,制定了詳實(shí)的現(xiàn)代藏文文法,使藏語言文字步入了規(guī)范化的軌道[17]。符合現(xiàn)代藏文文法的藏文字稱現(xiàn)代藏文字(沒有特殊說明時(shí)本文所提藏文字都指現(xiàn)代藏文字)。字形是指字的形狀、結(jié)構(gòu),藏文字形以一個(gè)輔音字母為核心,其余字母以此為基礎(chǔ)前后附加和上下疊加組合成一個(gè)完整的字表結(jié)構(gòu),是一種由字母組成的拼音文字,如圖1所示。字母包括30個(gè)輔音字母和四個(gè)元音字母,核心輔音字母叫“基字”,加在基字前的字母叫“前加字”,加在基字上面的字母叫“上加字”,加在基字下面的字母叫“下加字”,加在基字后面的字母叫“后加字”,后加字之后的字母叫“又后加字”。由此可見藏文字最少有一個(gè)輔音字母,最多含六個(gè)輔音字母,元音字母則加在基字的上或下,最多有一個(gè)。30個(gè)輔音字母中有十個(gè)可做后加字,后加字中的五個(gè)又可做前加字,兩個(gè)可做又后加字。故藏文字結(jié)構(gòu)上由基字、前加字、上加字、下加字、后加字、又后加字及元音組成,它不僅具有橫向拼寫性,同時(shí)也具有縱向拼寫性,其中前加字、基字、后加字與又后加字橫向拼寫,而在基字所在的豎直方向上還可由上加字、基字、下加字和元音的縱向拼寫[18-19]。
圖1 藏文字結(jié)構(gòu)
圖2 藏文字結(jié)構(gòu)位
藏文字形結(jié)構(gòu)中“前加字”、“上加字”、“基字”、“下加字”、“元音”、“后加字”和“又后加字”的位置稱做結(jié)構(gòu)位,分別用1-7表示(圖2)。藏文文法中對(duì)各個(gè)結(jié)構(gòu)位上能出現(xiàn)的字母及其性質(zhì)與數(shù)量均有一定的限制,相互之間也形成一種約束關(guān)系。結(jié)構(gòu)位上的每個(gè)字母稱為基本構(gòu)件(Basic Component),在基字所在位置由基字和上加字或下加字或元音至少兩個(gè)基本構(gòu)件上下疊加而成的構(gòu)件叫組合構(gòu)件(Combinational Components)。因此,藏文字構(gòu)件有基本構(gòu)件和組合構(gòu)件兩種,其中基本構(gòu)件一定是輔音字母(前加字、上加字、基字、下加字、后加字和又后加字)或元音字母,顯然基本構(gòu)件是原子類型;組合構(gòu)件由上加字、基字、下加字和元音在基字所在位置上下疊加組合而成,可進(jìn)一步分解為基本構(gòu)件,一個(gè)藏文字中至多有一個(gè)組合構(gòu)件。
從以上討論可得藏文字形結(jié)構(gòu)特征: 1)藏文整字是指藏文字中單個(gè)的字,是藏文字的使用單位,字與字間用字分隔符“.”分隔;2)藏文字是具橫向拼寫和縱向拼寫的二維拼音文字;3)整字由構(gòu)件組成;4)藏文字的構(gòu)件包括基本構(gòu)件和組合構(gòu)件;5)藏文字的基本結(jié)構(gòu)單位是基本構(gòu)件,即30個(gè)輔音字母和四個(gè)元音字母。
2.2 藏文字形結(jié)構(gòu)分類
字形結(jié)構(gòu)包括字的內(nèi)部結(jié)構(gòu)和外部結(jié)構(gòu)。內(nèi)部結(jié)構(gòu)研究字的字形、字音和字義三者之間的關(guān)系,是揭示字形和字義之間的聯(lián)系;外部結(jié)構(gòu)單純研究字的外觀結(jié)構(gòu),分析一個(gè)字如何由最小的構(gòu)形單位逐層組合成完整的字,包括組合成分和組合模式,不涉及字音、字義及構(gòu)字的字理。本文從外部結(jié)構(gòu)角度研究藏文字的字形結(jié)構(gòu)及分布。
藏文字的組合成分為構(gòu)件,構(gòu)件組合成整字,整字可分解為構(gòu)件。將藏文字拆分為構(gòu)件的過程叫構(gòu)件分解,構(gòu)件分解分為層次分解法和平面分解法。層次分解法指逐層拆分藏文字的構(gòu)件,最后得到基本構(gòu)件;平面分解法指一次拆分出基本構(gòu)件。一般來說,一個(gè)字只要由三個(gè)以上的構(gòu)件組成,其組合就有層次問題,拆分就要考慮到層次性,平面拆分要以層次拆分為基礎(chǔ)。根據(jù)層次的不同,各個(gè)層級(jí)的構(gòu)件分別叫一級(jí)構(gòu)件、二級(jí)構(gòu)件、三級(jí)構(gòu)件等等,最后一個(gè)層次的構(gòu)件叫末級(jí)構(gòu)件,也就是基本構(gòu)件。藏文構(gòu)件自動(dòng)分解方法見文獻(xiàn)[20],藏文字層次拆分遵循如下規(guī)則。
(1) 分隔溝是構(gòu)件和構(gòu)件分界的顯著標(biāo)志,構(gòu)件間沿著分隔溝進(jìn)行劃分;
(2) 分隔溝有多條時(shí),長(zhǎng)優(yōu)先拆分,分隔溝長(zhǎng)度相等一次多分;
(3) 層次拆分要符合藏文字結(jié)構(gòu)的基本類型,不能破壞基本類型;
(4) 含有多層次部件的整字從大到小拆分,得到的部件叫做一級(jí)構(gòu)件、二級(jí)構(gòu)件、三級(jí)構(gòu)件等,最小的不能再拆分的部件為基本構(gòu)件。
圖3 藏文字拆分示例圖
藏文字按其由單一基本構(gòu)件或多個(gè)基本構(gòu)件組成分為獨(dú)體字和合體字。藏文獨(dú)體字只有30個(gè),即30個(gè)輔音字母都可成獨(dú)體字;合體字中構(gòu)件的組合方式多種多樣,漢字合體字以構(gòu)件位置特征和構(gòu)件個(gè)數(shù)分為第一級(jí)構(gòu)件組合模式和基本構(gòu)件組合模式兩種,按第一級(jí)構(gòu)件組合模式將漢字合體字分成四大類13小類,按基本構(gòu)件組合模式將漢字合體字分為八大類85小類[6]。英語是只有橫向拼寫的拼音文字,不注重字形結(jié)構(gòu)。藏文字具有橫向拼寫性和縱向拼寫性,而且構(gòu)件結(jié)構(gòu)位很明確,因此參照漢字組合模式的方法分析藏文字字形結(jié)構(gòu)合適、可性。
第一級(jí)構(gòu)件組合模式是按字中構(gòu)件的結(jié)構(gòu)位分類,由2.2節(jié)分析可知,藏文字中構(gòu)件的結(jié)構(gòu)位非常分明,只有左右和上下結(jié)合,因此按第一級(jí)構(gòu)件組合模式可將藏文字形分為左右結(jié)構(gòu)和上下結(jié)構(gòu)兩大類。左右橫向結(jié)合時(shí)最多有四個(gè)構(gòu)件,所以左右型可分為左右型、左中右型、左中中右型等三種;上下縱向結(jié)合時(shí)也最多有四個(gè)構(gòu)件,所以上下型又可分為上下型、上中下型、上中中下型等三種。故在第一級(jí)構(gòu)件組合模式下可將藏文字形分為兩大類六小類,見表1。
表1 第一級(jí)構(gòu)件組合模式下藏文字形結(jié)構(gòu)分類表
基本構(gòu)件組合模式是按字所含構(gòu)件數(shù)進(jìn)行分類,按組成藏文字構(gòu)件數(shù)分類時(shí),有兩種情況,一是將組合構(gòu)件不分解而看成一個(gè)整體構(gòu)件,此時(shí)藏文字形結(jié)構(gòu)稱為粗粒度藏文字形結(jié)構(gòu)(Coarse Granularity Structure);二是將所有構(gòu)件都分解為基本構(gòu)件,此時(shí)的藏文字形結(jié)構(gòu)稱為細(xì)粒度藏文字形結(jié)構(gòu)(Fine Granularity Structure)。在粗粒度藏文字形結(jié)構(gòu)中,一個(gè)藏文字最多有前加字、組合構(gòu)件、后加字和又后加字等四種構(gòu)件,因而基本構(gòu)件組合模式下粗粒度藏文字形結(jié)構(gòu)可分為四大類六小類,見表2。在細(xì)粒度藏文字形結(jié)構(gòu)中,藏文字的基本構(gòu)件最少有一個(gè),最多有七個(gè),因而基本構(gòu)件組合模式下細(xì)粒度藏文字形結(jié)構(gòu)可分為七大類48小類,見表6。
表2 基本構(gòu)件組合模式下粗粒度藏文字形結(jié)構(gòu)分類表
3.1 系統(tǒng)模型
藏文字形結(jié)構(gòu)頻度統(tǒng)計(jì)系統(tǒng)包括語料處理模塊、字處理模塊和字形頻度統(tǒng)計(jì)模塊。其中,語料處理模塊是收集、整理、加工藏語語料庫,通過規(guī)范化語料得到機(jī)器直接可讀的文本;字處理模塊的功能是讀取文本,從讀取的文本中識(shí)別每個(gè)藏文字,并對(duì)藏文字進(jìn)行校正、緊縮詞分離使之得到規(guī)范藏文字,最后進(jìn)行藏文字構(gòu)件分解;頻度統(tǒng)計(jì)模塊用于藏文字形頻度統(tǒng)計(jì)、統(tǒng)計(jì)歸類,從而建立不同字形結(jié)構(gòu)的統(tǒng)計(jì)表,得到統(tǒng)計(jì)分析表,系統(tǒng)模型如圖4所示。
圖4 藏文字形結(jié)構(gòu)統(tǒng)計(jì)系統(tǒng)模型
3.2 統(tǒng)計(jì)算法
藏文字字形頻度統(tǒng)計(jì)算法(Character Pattern Frequency Statistics Algorithm, CPFA) While(not eof(File)){ Step0:初始化字形向量 a[1..7]=0; step1:讀入文本 Text=Read (File); step2:識(shí)字 s=WordRecognise(Text); //將規(guī)范藏文字存入s step3:構(gòu)件分解 wordDecompose(s,a);//通過分解字S設(shè)置向量a的值 step4:字形結(jié)構(gòu)頻度統(tǒng)計(jì) if(a[i] isΣ) //根據(jù)向量a的分量確定字形 count (Σ_DB);//相應(yīng)字形結(jié)構(gòu)累加1 Step5:輸出統(tǒng)計(jì)結(jié)果 Output(Σ_DB);} 其中,Σ表示根據(jù)向量a的分量確定字形的規(guī)則,Σ_DB表示相應(yīng)字形頻度統(tǒng)計(jì)庫
字形結(jié)構(gòu)分布由其頻度反映。頻度統(tǒng)計(jì)有動(dòng)態(tài)統(tǒng)計(jì)和靜態(tài)統(tǒng)計(jì)兩種,靜態(tài)統(tǒng)計(jì)以字典、詞典中字為統(tǒng)計(jì)對(duì)象,動(dòng)態(tài)統(tǒng)計(jì)以語料中字為統(tǒng)計(jì)對(duì)象,統(tǒng)計(jì)語料中實(shí)際使用的字在樣本里出現(xiàn)的次數(shù),并且計(jì)算出它在全部樣本字?jǐn)?shù)中所占的比例,如式(1)所示。
(1)
其中,F(xiàn)表示頻度,n表示某字的出現(xiàn)次數(shù),N表示抽樣資料總字?jǐn)?shù)。
本文在450M藏語語料中采用動(dòng)態(tài)統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì),共出現(xiàn)84 584 110個(gè)藏文字,不同的藏文字共出現(xiàn)42 966個(gè)。獨(dú)體字共出現(xiàn)30個(gè)(30個(gè)輔音字母都以獨(dú)體字的形式出現(xiàn)),出現(xiàn)總次數(shù)為5 314 860,占總字?jǐn)?shù)的6.28%;合體字共出現(xiàn)6 290個(gè),出現(xiàn)總次數(shù)為79 269 250,占總字?jǐn)?shù)的93.72%,從而可見藏文字以合體字為主。獨(dú)體字和合體字分布統(tǒng)計(jì)見表3和圖5。
表3 藏文獨(dú)體字和合體字分布統(tǒng)計(jì)表
在第一級(jí)構(gòu)件組合模式下,大類左右結(jié)構(gòu)共出現(xiàn)66 077 106次,占藏文總字?jǐn)?shù)的78.12%,其中小類“左右”型占51.89%,小類“左中右”型占24.04%,
圖5 藏文獨(dú)體字和合體字分布統(tǒng)計(jì)圖
小類“左中中右” 型占2.19%;大類上下結(jié)構(gòu)共出現(xiàn)18 507 004次,占藏文總字?jǐn)?shù)的21.88%,其中小類“上下”型占15.88%, 小類“上中下”型占4.98%,小類“上中中下”型占1.02%。從而可見,“左右”型是第一級(jí)構(gòu)件組合模式下藏文字的主要組成形式,達(dá)到了整個(gè)藏文字?jǐn)?shù)的一半,“左中右”型和“上下”型所占比例基本相同,“左中中右” 型、“上中下”型和“上中中下”型出現(xiàn)的較少。第一級(jí)構(gòu)件組合模式下藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)見表4和圖6。
圖6 第一級(jí)構(gòu)件組合模式下藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)圖
大類頻率/%小類頻率/%大類頻率/%小類頻率/%左右結(jié)構(gòu)78.12“左右”型51.89“左中右”型24.04“左中中右”型2.19上下結(jié)構(gòu)21.88“上下”型15.88“上中下”型4.98“上中中下”型1.02
在基本構(gòu)件組合模式下的粗粒度藏文字形結(jié)構(gòu)中,二構(gòu)件字共出現(xiàn)39 940 617次,占總字?jǐn)?shù)的47.22%,約占到所有藏文字的一半,其中“組+后”型占42.78%,是基本構(gòu)件組合模式下粗粒度藏文字形結(jié)構(gòu)的主要形式;一構(gòu)件字和三構(gòu)件字分別占總字?jǐn)?shù)的28.85%和21.86%,四構(gòu)件字只占2.07%?;緲?gòu)件組合模式下粗粒度藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)表見表5和圖7。
在基本構(gòu)件組合模式下的細(xì)粒度藏文字形結(jié)構(gòu)中,一構(gòu)件字占13.04%,二構(gòu)件字占27.79%,三構(gòu)件字占31.53%,四構(gòu)件字占21.42%, 五構(gòu)件字占5.65%, 六構(gòu)件字占0.53%, 七構(gòu)件字占0.04%。
圖7 粗粒度藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)圖
大類頻率/%小類頻率/%大類頻率/%小類頻率/%一構(gòu)件字28.85二構(gòu)件字47.22“單組合構(gòu)件”型28.85“前+組”型4.44“組+后”型42.78三構(gòu)件字21.86四構(gòu)件字2.07“前+組+后”型15.11“組+后+又后”型6.75“前+組+后+又后”型2.07
可見,二構(gòu)件、三構(gòu)件和四構(gòu)件是基本構(gòu)件組合模式下的細(xì)粒度藏文字形結(jié)構(gòu)的主要形式?;緲?gòu)件組合模式下細(xì)粒度藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)表見表6和圖8。
表6 基本構(gòu)件組合模式下細(xì)粒度藏文字形結(jié)構(gòu)分類及分布統(tǒng)計(jì)圖
續(xù)表
圖8 細(xì)粒度藏文字形結(jié)構(gòu)分類及分布統(tǒng)計(jì)圖
綜上統(tǒng)計(jì)及分析可得藏文字形分布具有四條規(guī)律: 一、從藏文字的構(gòu)成方面看,藏文字以合體字為主,合體字是藏文字的主要構(gòu)成形式;二、從藏文字結(jié)構(gòu)方面看,藏文字以左右結(jié)構(gòu)為主,“左右”型是藏文字的主要結(jié)構(gòu)形式;三、從所含構(gòu)件角度看,在粗粒度度情況下以二構(gòu)件為主,在細(xì)粒度情況下三構(gòu)件為主,整體而言以“基+后”型和“基+元+后”型為主;四、藏文字的使用頻率越高,構(gòu)成字的構(gòu)件數(shù)越少,字的使用頻率越低,構(gòu)成字的構(gòu)件越多,字的使用頻率和字的構(gòu)件數(shù)成反比,使用頻率高的字一般趨向簡(jiǎn)化。
本文借鑒漢字字形結(jié)構(gòu)的研究成果對(duì)藏文字形結(jié)構(gòu)進(jìn)行了深入研究,將藏文字分成獨(dú)體字和合體字,對(duì)合體字按其構(gòu)件結(jié)構(gòu)位(第一構(gòu)件組合模式)和所含構(gòu)件數(shù)(基本構(gòu)件組合模式)依次進(jìn)行了分類。第一構(gòu)件組合模式下藏文字形結(jié)構(gòu)分成了左右型和上下型兩大類六小類;基本構(gòu)件組合模式下藏文字形結(jié)構(gòu)從粗粒度字形結(jié)構(gòu)和細(xì)粒度字形兩個(gè)層面進(jìn)行了分類,粗粒度字形結(jié)構(gòu)下分成了一構(gòu)件字、二構(gòu)件字,三構(gòu)件字和四構(gòu)件字等四大類六小類,細(xì)粒度字形結(jié)構(gòu)下分成了一構(gòu)件、二構(gòu)件、……、七構(gòu)件字等七大類四十八小類。設(shè)計(jì)了藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)系統(tǒng)模型和算法,從450M大型藏語語料中對(duì)藏文字型結(jié)構(gòu)分布進(jìn)行了統(tǒng)計(jì)分析,建立了藏文獨(dú)體字和合體字分布統(tǒng)計(jì)表、第一級(jí)構(gòu)件組合模式下藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)表、基本構(gòu)件組合模式下粗粒度藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)表、基本構(gòu)件組合模式下細(xì)粒度藏文字形結(jié)構(gòu)分類及分布統(tǒng)計(jì)表,并分析出了藏文字形分布特征。今后在該研究成果的基礎(chǔ)上進(jìn)一步研究藏文字符生成技術(shù)和藏文句型分布,為藏文字符信息熵計(jì)算、藏文句型結(jié)構(gòu)分布、藏文字符排序、藏語語音合成和藏漢機(jī)器翻譯研究提供理論依據(jù)和數(shù)據(jù)基礎(chǔ)。
[1] 馮志偉.自然語言處理的形式模式[M].北京:中國(guó)科學(xué)技術(shù)大學(xué)出版社, 2010.
[2] 陳玉忠,俞士汶.藏文信息處理的研究現(xiàn)狀與展望[J].中國(guó)藏學(xué),2003(4):97-107.
[3] 俞敏洪.英語詞匯速記大全[M].北京:世界知識(shí)出版社出版, 2000.
[4] 趙志文.英語語法規(guī)律[M].吉林:延邊大學(xué)出版社, 2002.
[5] 恒星英語[DB/OL]. http://www.hxen.com/word/goucifa/,2013,10.
[6] 蘇培成.現(xiàn)代漢字學(xué)綱要[M]. 北京:北京大學(xué)出版社, 2001.
[7] 中國(guó)語言文字網(wǎng)[DB/OL].http://www.china-language.gov.cn/wenziguifan/index.htm,2013,10.
[8] 李樂強(qiáng),唐常杰,左劼等.基于同現(xiàn)度和自學(xué)習(xí)的中文字符組合發(fā)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2007(z3):268-272.
[9] 李世明,李錚,苑志偉等.基于搜索引擎的模糊字頻統(tǒng)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(2):443-446.
[10] 江荻,董穎紅. 藏文信息處理屬性統(tǒng)計(jì)研究[J].中文信息學(xué)報(bào),1994,2(9):37-44.
[11] 扎西次仁.《中華大藏經(jīng)·丹珠爾》藏文對(duì)勘本字頻統(tǒng)計(jì)分析[J].中國(guó)藏學(xué),1997,(2):122-133.
[12] 王維蘭,陳萬軍.藏文字丁、音節(jié)頻度及基信息熵[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù), 2004(2):27-31.
[13] 高定國(guó),龔育昌.現(xiàn)代藏文字全集的屬性統(tǒng)計(jì)研究[J].中文信息學(xué)報(bào),2005,19(1):71-75.
[14] 才智杰,才讓卓瑪.基于語料庫的藏文字屬性分析系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)工程,2011,37(22): 270-272.
[15] CaiZhijie,CaiRangzhuoma.Statistical Analysis for Frequency of The Corpus-based Modern Tibetan Basic Components[J].The 4th International Conference on Intelligent Networks and Intelligent Systems,2011,11:214-217.
[16] 艾金勇,于洪志,李永宏.藏文字形結(jié)構(gòu)計(jì)量統(tǒng)計(jì)分析[J].計(jì)算機(jī)應(yīng)用,2009,29 (07): 2029-2031.
[17] 百度百科.藏文[EB/OL].http://baike.baidu.com/view/230052.htm,2013,01.
[18] 才智杰.藏文自動(dòng)切分系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009,23(1):35-37.
[19] 才智杰,才讓卓瑪.班智達(dá)藏文標(biāo)注詞典設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24(5):46-49.
[20] 才讓卓瑪,才智杰.現(xiàn)代藏文字構(gòu)件分解方法[J].青海大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,28(4):83-86.
[21] D A Huffman.A Method for the Construction of Minimum Redundancy Codes[C]//Proceedings of IRE.1952,40 (10):1098-1101.
[22] C E Shannon.A mathematical theory of communication[C]//Proceedings of the ACM Sigmobile Mobile Computing and Communications Review.2001.
Research on the Distribution of Tibetan Character Forms
CAI Zhijie1, CAI Rangzhuoma1,2
(1. Key Laboratory of Tibetan information processing, Ministry of Education,Qinghai Normal University, Xining,Qinghai 810008,China;2. College of Computer Science, Shaanxi Normal University, Xi’an, Shanxi 710062, China)
Researching on the distribution of Tibetan character forms is the foundation of Natural languages processing, provides a theoretical basis for word attribute analysis, input design, sorting, speech synthesis and character information entropy studies. This paper classified the Tibetan character forms into single-element character and combined-element character, and further classify the combined-element characer by their artifacts’ structures and numbers. This paper conducts statistical analysis of glyph structure from 85 million Tibetan words in 450M corpus containing, establishes distribution statistics of Tibetan glyph structure.
Chinese information processing; character forms; single-element character; combined-element character; frequency
才智杰(1970-),教授,博士研究生,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)椴匚男畔⑻幚?藏語自然語言處理。E-mail:czjqhsd@163.com才讓卓瑪(1970-),教授,博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,藏文信息處理,計(jì)算智能。E-mail:cr_zhuoma@163.com
1003-0077(2016)04-0098-08
2014-06-09 定稿日期: 2015-04-25
國(guó)家自然科學(xué)基金(61163018, 61262051, 61363055);國(guó)家社科基金(13BYY141);教育部“春暉計(jì)劃”合作科研項(xiàng)目(Z2012093);“長(zhǎng)江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃”創(chuàng)新團(tuán)隊(duì)資助項(xiàng)目(IRT1068);青海省科技廳應(yīng)用基礎(chǔ)研究計(jì)劃基金(2011-Z-755,2011-Z-754);青海師范大學(xué)科研創(chuàng)新計(jì)劃基金資助項(xiàng)目
TP391
A