寧威林,王嘉梅,王 輝,明志遠(yuǎn)
(云南民族大學(xué)電氣信息工程學(xué)院,云南昆明650031)
彝文合體字少,不似漢字采取形聲結(jié)構(gòu)來(lái)多產(chǎn)字[1-6],而是采用字體結(jié)構(gòu)易位、增添筆劃等方法來(lái)多產(chǎn)字.結(jié)構(gòu)易位有上下易位、左右易位;增添筆劃則指在已具獨(dú)立形、音、義的獨(dú)體字不同部位增添不同的筆劃,形成另具形、音、義的字.彝文再一特點(diǎn)是異寫繁多,每字的異寫少則二三個(gè),多則四五十個(gè).目前彝文的輸入法方式大體可分為2類:即根據(jù)讀音來(lái)輸入和根據(jù)字型來(lái)輸入,也就是我們常說(shuō)的音碼與形碼輸入法.
彝文的音碼輸入法是目前使用最多的方法,其缺點(diǎn)也顯而易見(jiàn).使用彝文音碼輸入法,必須是懂彝文的人,局限性很大.然而彝文形碼輸入法的研究在國(guó)內(nèi)外仍舊是空白.綜合分析彝文字型的主要特點(diǎn),分類編碼,極大地?cái)U(kuò)大了適用范圍,無(wú)論使用者懂不懂彝文,都可以根據(jù)文字的形碼規(guī)則進(jìn)行拆分輸入,相比音碼輸入法而言,適用人群更為廣泛,普遍.
本文所研究的彝文輸入法,是一種僅僅使用10個(gè)數(shù)字鍵0到9,最多擊鍵3次便可以輕松輸入彝文的大眾化輸入法.即便在用戶純粹不懂得彝文的情況下,只需根據(jù)字型拆分規(guī)則就能進(jìn)行彝文字符的計(jì)算機(jī)輸入,使用非常方便.它較好地解決了彝文字符輸入過(guò)程中的高效性與實(shí)用性的問(wèn)題.此輸入法可廣泛應(yīng)用于小型設(shè)備,電腦等.
第1位為大體分類,后2位是在此基礎(chǔ)上根據(jù)字形的特點(diǎn)(如:有無(wú)曲線,有無(wú)封閉等)具體細(xì)化分類.其編碼規(guī)則:針對(duì)彝文文字的整體特征,根據(jù)彝文字型是否有曲線,是否有封閉,是否有點(diǎn)進(jìn)行分類.分為8類:用1至8作為代碼,即1代表無(wú)曲線,無(wú)封閉,無(wú)點(diǎn);2代表無(wú)曲線,無(wú)封閉,有點(diǎn);3代表無(wú)曲線,有封閉,無(wú)點(diǎn);4代表無(wú)曲線,有封閉,有點(diǎn);5代表有曲線,無(wú)封閉,無(wú)點(diǎn);6代表有曲線,無(wú)封閉,有點(diǎn);7代表有曲線,有封閉,無(wú)點(diǎn);8代表有曲線,有封閉,有點(diǎn).
第2位編碼規(guī)則:在有無(wú)曲線的基礎(chǔ)上,針對(duì)筆畫特征進(jìn)行分類.無(wú)曲線9種分類,用代碼1至9表示,即1代表僅含橫豎筆畫;2代表橫斜筆畫,橫筆畫數(shù)大于斜筆畫數(shù);3代表僅橫斜,橫筆畫數(shù)小于斜筆畫數(shù);4代表僅橫斜,橫筆畫數(shù)等于斜筆畫數(shù);5代表僅豎斜;6代表橫豎斜,有交叉且僅左斜;7代表有橫豎斜,有交叉且有其它斜;8代表橫豎斜,無(wú)交叉且僅有左斜;9代表橫豎斜,無(wú)交叉且有其它斜.有曲6種分類:即1代表僅有上或下曲有交叉;2代表僅有上或下曲且無(wú)交叉;3代表僅有左或右曲且有交叉;4代表僅有左或右曲且無(wú)交叉;5代表其他的曲且有交叉;6代表其他的曲且無(wú)交叉.
第3位編碼規(guī)則:在有無(wú)封閉的基礎(chǔ)上,針對(duì)封閉的構(gòu)成分類,無(wú)封閉有曲線時(shí),根據(jù)曲線開(kāi)口方向分類,無(wú)封閉無(wú)曲線時(shí),筆畫交叉?zhèn)€數(shù)來(lái)進(jìn)行分類.封閉提供6種分類:即1代表僅曲線構(gòu)成的封閉,封閉內(nèi)無(wú)筆畫;2代表僅曲構(gòu)成封閉,封閉內(nèi)有筆畫;3代表直線加曲構(gòu)成封閉,封閉內(nèi)無(wú)筆畫;4代表直線加曲構(gòu)成封閉,封閉內(nèi)有筆畫;5代表直線構(gòu)成封閉,封閉內(nèi)無(wú)筆畫;6代表直線構(gòu)成封閉,封閉內(nèi)有筆畫.有曲且無(wú)封閉提供4種分類:即1代表僅有左曲;2代表僅有右曲;3代表有左右曲;4代表其它曲線類型.無(wú)曲無(wú)封閉文字的編碼為:用代碼0表示無(wú)交叉,有1處交叉用1表示,依此類推,交叉?zhèn)€數(shù)就是其最后1位代碼.
綜上所述,便得到一種清晰明確的編碼方案,如圖1所示.
另外點(diǎn)不作為筆畫.凡文字上部帶弧線的,編碼先以0開(kāi)頭,去掉上部弧線,之后再編碼2位即可,0代碼表示僅由1種筆畫構(gòu)成的文字,點(diǎn)和曲線除外.
根據(jù)上述編碼方案,輸入1個(gè)彝文字符最多只需輸入3位數(shù)字代碼,每位代碼有明確的歸類.
經(jīng)過(guò)統(tǒng)計(jì),重碼率如表1所示.
從圖1可以看出6.99%的重碼率小于10,即輸入編碼后只需在屏幕上選字即可.另外88.76%的字也只需翻6頁(yè)之內(nèi),其余的4.25%超過(guò)6頁(yè).由此可見(jiàn),此方案是可行的.
表1 重碼統(tǒng)計(jì)表
重碼的范圍是指相同的編碼的文字的統(tǒng)計(jì).比如:1~10指的是,相同的編碼的文字有1~10個(gè)內(nèi)的.重碼的字?jǐn)?shù)是指含有相同編碼文字的個(gè)數(shù).重碼率是指,含有相同編碼的文字在總體中所占的比率.平均擊鍵率如表2所示.
表2 擊鍵統(tǒng)計(jì)表
擊鍵率是指輸入1個(gè)文字敲擊鍵盤的次數(shù)在總體敲擊鍵盤次數(shù)中所占的比率.
字庫(kù)的制作利用計(jì)算機(jī)制作字庫(kù)一般要經(jīng)過(guò)設(shè)計(jì)字稿、掃描輸入、程序擬合、人工修飾、質(zhì)量檢查、組織字庫(kù)、測(cè)試字庫(kù)、安裝使用等幾個(gè)步驟,彝文字庫(kù)也不例外.
采用造字程序擬合的效率很高,但字的質(zhì)量、結(jié)構(gòu),特別是原設(shè)計(jì)字稿中所包含的鮮明的、人格化的韻味是計(jì)算機(jī)程序無(wú)法自動(dòng)表現(xiàn)出來(lái)的[7-9],只有靠人工修飾才能做到.
完成所有字稿上的字以及相應(yīng)修飾工作之后,下一步的就是設(shè)置好字庫(kù)的適用平臺(tái)[8].我們使用的是Unicode 1.0/Unicode 1.1/Unicode 2.0和Unicode3.0語(yǔ)義學(xué).之后,由專門人員負(fù)責(zé)裝庫(kù),配上相應(yīng)的符號(hào)及數(shù)字、外文等,然后根據(jù)需要,組織、轉(zhuǎn)換成GBK編碼的標(biāo)準(zhǔn)Windows TrueType字庫(kù).
彝文字字庫(kù)產(chǎn)品的使用要經(jīng)過(guò)嚴(yán)格測(cè)試.測(cè)試字庫(kù)的工作包括字形、質(zhì)量、編碼、安裝、使用、顯示、輸出以及產(chǎn)品的完整性、適用性、合理性、兼容性、連續(xù)性等各個(gè)方面.
經(jīng)過(guò)上述幾個(gè)環(huán)節(jié)后,制作好的彝文字字庫(kù)就可以安裝到Windows系統(tǒng)中,與我們開(kāi)發(fā)的彝文輸入法共同使用.
在彝文輸入法的實(shí)現(xiàn)上,我們采用基于Windows開(kāi)發(fā)平臺(tái),運(yùn)用imegen.exe輸入法生成器實(shí)現(xiàn)彝文輸入法.彝文字符的編碼段選在Unicode字符集的自定義區(qū),彝文的字體可以兼容宋體.Windows xp/2000下彝文輸入法的使用在Word記事本等文字編輯軟件中測(cè)試通過(guò).如圖2所示.
本文所介紹的彝文形碼分類輸入法,在使用中僅用到0~9數(shù)字鍵,平均擊鍵率低,重碼率適當(dāng),易學(xué),即使不懂彝文的人也可以正常使用.因此本方法有廣泛的應(yīng)用前景和范圍.
[1]陳欽梧,郝元禮.漢字筆劃輸入法研究[J].汕頭大學(xué)學(xué)報(bào):自然科學(xué)版,2007,44(3):23 -29.
[2]武傳坤.信息論、編碼與密碼學(xué)[M].北京:機(jī)械工業(yè)出版社,2004:1 -9.
[3]郭平欣,張淞芝.漢字信息處理技術(shù)[M].北京:國(guó)防工業(yè)出版社,1985.
[4]陳增武,金連甫.漢字信息處理[M].貴州:貴州人民出版社,1988.
[5]王頌平.筆順碼和數(shù)字CKE技術(shù)[J].計(jì)算機(jī)世界,1999(44,C):9 -10.
[6]國(guó)家語(yǔ)言文字工作委員會(huì)標(biāo)準(zhǔn)化委員會(huì).現(xiàn)代漢語(yǔ)通用字筆順規(guī)范[M].北京:語(yǔ)文出版社,1997:12-23.
[7]沙馬拉毅.計(jì)算機(jī)彝文信息處理[M].成都:四川民族出版社,2000.
[8]吳兵,史軍,劉玉萍,等.基于Linux系統(tǒng)的彝文輸入動(dòng)態(tài)掛接[J].西南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2005,16(4):26 -28.
[9]李金發(fā).試論計(jì)算機(jī)彝文字符編碼的轉(zhuǎn)換[J].云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2008,17(1):80 -84.