胡淇研,趙小兵
(1.中央民族大學(xué),北京 100081;2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京 100081)
彝族是我國(guó)歷史悠久的少數(shù)民族之一,其人口眾多,在我國(guó)少數(shù)民族人口中居第六位,主要分布在四川、云南、貴州和廣西一帶。彝族有自己的語(yǔ)言和文字,彝語(yǔ)屬于漢藏語(yǔ)系藏緬語(yǔ)族彝語(yǔ)支語(yǔ)言,分為6 大方言,5 個(gè)次方言和40 多個(gè)土語(yǔ)。彝文主要流傳于北部、東部、南部和東南部方言區(qū),西部方言區(qū)歷史上曾流傳過彝文,現(xiàn)已失傳。中部方言區(qū)尚未發(fā)現(xiàn)使用彝文的史料。[1](P29-36)不同歷史時(shí)期、不同地方的彝文稱謂不同,漢文史志稱彝文為“爨文、韙書、夷文、倮文、羅文、蝌蚪文、畢摩文、倮倮文”等,新中國(guó)成立后統(tǒng)稱為彝文。彝文可分為古彝文和涼山規(guī)范彝文(以下簡(jiǎn)稱“規(guī)范彝文”),古彝文又稱老彝文或傳統(tǒng)彝文,是對(duì)1980 年國(guó)務(wù)院批準(zhǔn)實(shí)行的規(guī)范彝文之前刻畫、手寫彝文的總稱。規(guī)范彝文是表音的音節(jié)文字,以彝語(yǔ)北部方言圣乍話為基礎(chǔ)方言,以喜德語(yǔ)音為標(biāo)準(zhǔn)音,共有1165 個(gè)字符,包括819 個(gè)常用字符,345 個(gè)次高調(diào)字符和1 個(gè)替音符號(hào)“?”。[2]
規(guī)范彝文當(dāng)前已完成編碼字符集構(gòu)建、字型、鍵盤及輸入法開發(fā)等工作,獲得了國(guó)家和國(guó)際編碼標(biāo)準(zhǔn),開發(fā)了比較成熟的輸入法,主要有沙氏彝文輸入法、阿才彝文輸入法、搜狗輸入法、Vista 系統(tǒng)自帶的輸入法及彝文手機(jī)輸入法等。沙氏彝文輸入法包括彝文簡(jiǎn)拼、全拼及筆畫輸入碼。全拼碼以彝文注音符號(hào)為編碼方式,擊鍵次數(shù)多達(dá)5 鍵,無重碼;簡(jiǎn)拼碼以讀音為主,用拼音或拼音代碼為輸入碼,最多4 鍵即可完成輸入;筆畫碼按彝文書寫順序拆分字符筆畫,并將其映射到鍵盤的英文字母或數(shù)字鍵上,以筆畫實(shí)現(xiàn)輸入。[3](P46-48)阿才及Vista 系統(tǒng)自帶的彝文輸入法采用全拼音碼編碼方式,實(shí)現(xiàn)中文、彝文、數(shù)字、符號(hào)自由混合輸入。搜狗彝文輸入法以全拼音碼輸入為主,可實(shí)現(xiàn)彝漢混輸。2016 年,民族語(yǔ)文翻譯局開發(fā)了運(yùn)用到安卓和iOS 系統(tǒng)上的彝文手機(jī)輸入法,實(shí)現(xiàn)了彝文筆畫、簡(jiǎn)拼、全拼輸入。
古彝文輸入法主要有楚雄彝文輸入法、石林彝文輸入法、古彝文正體字形碼輸入法、古彝文筆畫及自由拆分一對(duì)多形碼輸入法等。楚雄彝文輸入法是以彝文中部和東部方言區(qū)常用的9447 字符為基礎(chǔ)開發(fā)的字根形碼輸入法,對(duì)彝文字符進(jìn)行字根拆分,按字符結(jié)構(gòu)編碼,以“形托”方式實(shí)現(xiàn)字根到鍵盤的映射,實(shí)現(xiàn)4 鍵輸入;石林彝文輸入法以《彝漢簡(jiǎn)明詞典》東南部方言撒尼彝語(yǔ)常用字符為基礎(chǔ)設(shè)計(jì)的彝文字根式輸入法,以4 鍵實(shí)現(xiàn)輸入;古彝文正體字形碼輸入法以《彝文字典》《彝文字集》及經(jīng)典文獻(xiàn)中收錄的5363 個(gè)古彝文常用字符為基礎(chǔ)設(shè)計(jì)的形碼輸入法。[4]此外,西南民族大學(xué)民族文字信息處理研究所設(shè)計(jì)了彝文筆畫和拼音輸入法;王成平以《滇川黔桂彝文字典》中2676 個(gè)字符為藍(lán)本設(shè)計(jì)了古彝文筆畫輸入法;云南民族大學(xué)王嘉梅以四川彝文、云南規(guī)范彝文、貴州彝文及滇南彝文字集為基礎(chǔ),設(shè)計(jì)了彝文數(shù)字和自由編碼方案,實(shí)現(xiàn)了“云南規(guī)范彝文數(shù)字鍵筆畫自由拆分、滇南彝文自由拆分一對(duì)多形態(tài)編碼輸入法”。
目前,彝文輸入法研究取得了較大的成績(jī),但由于彝文內(nèi)部情況復(fù)雜,仍存在規(guī)范彝文和古彝文外碼編碼標(biāo)準(zhǔn)不統(tǒng)一、輸入規(guī)則不一致,輸入法不夠通用等問題。用戶輸入時(shí)需要反復(fù)學(xué)習(xí)各地彝文的輸入規(guī)則,多次安裝不同地區(qū)的彝文輸入法,增加了使用難度。鑒于此,筆者在前人研究的基礎(chǔ)上,以規(guī)范彝文為例,提出一種基于字形部件拆分的形碼編碼方案,希望能為彝文輸入法的研究提供一種參考方案。
彝文獨(dú)體字多,常采用字體結(jié)構(gòu)易位、增添筆畫等方法來造字,其構(gòu)字體系包括:筆畫、部首、筆順和書寫結(jié)構(gòu)。[5]彝文文字發(fā)展過程中呈現(xiàn)高度的線條化和抽象化發(fā)展趨勢(shì),部首的表意功能較弱,主要作為字符構(gòu)字的主干筆畫或基礎(chǔ)構(gòu)件。[6]因此可依據(jù)直觀、易學(xué)、易操作的原則,對(duì)彝文進(jìn)行構(gòu)形層面的部件拆分,整理出穩(wěn)定的構(gòu)字部件,并進(jìn)行合理的分類編碼,設(shè)計(jì)適用于古彝文和規(guī)范彝文的一對(duì)多形碼輸入方案。
彝文部件是由筆畫組成的具有組配彝文字形功能的構(gòu)造單位,是字符構(gòu)字的核心,介于整字和筆畫之間。筆畫則是字符書寫時(shí)不間斷地寫成的點(diǎn)和線,是字形結(jié)構(gòu)中的最小單位。[7]彝文部首一般是字符的主筆畫或突出筆畫,常作為字符構(gòu)字的穩(wěn)定部件。規(guī)范彝文分為26 個(gè)部首,包括54 個(gè)基本構(gòu)件。從規(guī)范彝文819 個(gè)常用字符部首統(tǒng)計(jì)發(fā)現(xiàn),?部字符最多,約占8.5%;?部次之,約占8%;∨,∩,?,?,?,△,?,?,?,?,?,?部字符較少。部首?,?,?,?,?,?,?,?,?,?,?,?,?,?能獨(dú)立成字,表示完整的意義,作為穩(wěn)定的構(gòu)字部件。
部件分類時(shí)以已有的彝文部首分類標(biāo)準(zhǔn)為參考,兼顧字符構(gòu)造理?yè)?jù),遵循字符構(gòu)形的整體性及輸入編碼的便捷性原則,對(duì)于可獨(dú)立成字且用于古彝文和規(guī)范彝文中構(gòu)字能力強(qiáng)的部首不拆分;構(gòu)字能力弱的部首進(jìn)行拆分合并,如“?”部,規(guī)范彝文中有17 個(gè)字符,在古彝文中不做構(gòu)字部件,拆分為“?”和“─”;“?”部,規(guī)范彝文中有7 個(gè)字符,古彝文中有類似的部首“”,為方便編碼,拆分為“?”和“?”;部件“,,,,─”在古彝文作為字符構(gòu)件使用頻率高,構(gòu)字能力較強(qiáng),視為獨(dú)立的構(gòu)字部件。依據(jù)該部件分類標(biāo)準(zhǔn),整理出穩(wěn)定的構(gòu)字部件,部件分類如表1 所示。
根據(jù)各部件字符數(shù)量分布的多少及字符構(gòu)形特征,將規(guī)范彝文的基本構(gòu)字部件分為26 個(gè)大類并進(jìn)行編碼。編碼分類時(shí),主要依據(jù)部件與英文大小寫字母的形近性原則進(jìn)行一對(duì)多編碼映射。如部件“?、?、?、?、?、?、?、∨、?”分別與大寫英文字母“I、L、C、W、N、X、S、V、U”外形相似,映射到相應(yīng)的英文字母上;“?、、、、?”與小寫英文字母m 外形相似,映射到M 鍵上。少數(shù)與英文字母外形不具有相似性的部件,可借用漢字筆形讀音映射方式,如部件“匚,?”視為框形,映射到K 鍵上;“、、、”視為漢字“撇、捺”的變形部件,映射到P 鍵上。
編碼時(shí),不區(qū)分基本部件的朝向、大小和方向,將形變、形近及方向倒置類部件放在同一鍵位上。如“?、?、?、?”幾個(gè)部件可視為由同一個(gè)部件變形而來,放在Y 鍵上;部件“?、⌒、?”外形相似,朝向不同,放在C 鍵上;部件“─、、-”朝向一致,大小不同,映射到T 鍵上;部件“?、”不區(qū)分大小,映射到I 鍵上。后期可依據(jù)該分類標(biāo)準(zhǔn)將古彝文的基本構(gòu)字部件依次歸入該編碼分類表中,從而實(shí)現(xiàn)古彝文和規(guī)范彝文編碼的統(tǒng)一分類。部件編碼分類映射表如下:
表1 部件編碼分類映射表
彝文有上下、左右、左中右、上中下、半包圍、全包圍、交叉及單一結(jié)構(gòu)。規(guī)范彝文中上下結(jié)構(gòu)的字符居多,約為50%;左右結(jié)構(gòu)次之,約為24%;交叉結(jié)構(gòu)約為14%;單一結(jié)構(gòu)的字符數(shù)最少,約為1.2%。主要采用先主筆后副筆,先上后下,先左后右,先中間后兩邊,先外后內(nèi)的書寫順序。
字符編碼時(shí)依據(jù)字符的書寫筆順對(duì)字符進(jìn)行全碼編碼,如字符“?”書寫順序?yàn)橄蓉Q后撇捺,編碼為IX;字符“?”書寫筆順是先外后內(nèi),編碼為BI。為簡(jiǎn)化編碼,對(duì)于重復(fù)部件,采用“部件字母+重復(fù)次數(shù)”的方式編碼,如字符“?”編碼為I4。字符“?”編碼為BT4;因次高調(diào)符號(hào)“”與電腦鍵盤主鍵區(qū)數(shù)字符號(hào)鍵6 上的“^”外形相似,編碼時(shí)在規(guī)范字編碼之前加“^”表示,如字符“?”編碼為^S。
輸入法實(shí)現(xiàn)時(shí),可不規(guī)定基本部件的鍵入順序,允許用戶自由組合輸入,實(shí)現(xiàn)一對(duì)多形碼編碼映射,由程序?qū)崿F(xiàn)自動(dòng)匹配。如字符“?”的輸入編碼可為IC 和CI;“?”的輸入編碼可為“CIT,CTI,ICT,ITC,TCI,TIC”6 種;“?”的輸入編碼為“LZT,LTZ,ZTL,ZLT,TLZ,TZL”6 種。
國(guó)家標(biāo)準(zhǔn)將編碼層次和軟件層次視為統(tǒng)一的鍵盤輸入系統(tǒng)進(jìn)行性能考核。GB/T 19246-2003《信息技術(shù)通用鍵盤漢字輸入通用要求》提出了通用鍵盤漢字輸入系統(tǒng)的性能指標(biāo)包括兩個(gè)方面:編碼層次上要求形碼編碼輸入法應(yīng)該遵循漢字部件和筆畫規(guī)范,達(dá)到定性指標(biāo)(易學(xué)性);軟件層次上要求達(dá)到量化指標(biāo)(平均碼長(zhǎng)、重碼字詞鍵選率)。[8]筆者從定性和定量指標(biāo)統(tǒng)計(jì)分析發(fā)現(xiàn),該方案字符部件拆分規(guī)則合理,編碼原則簡(jiǎn)單易學(xué),輸入平均碼長(zhǎng)適中,重碼率低,輸入效率較高。
易學(xué)性,即“字符輸入系統(tǒng)的時(shí)間應(yīng)盡量短,并符合使用者的思維習(xí)慣”[9]。該方案主要依據(jù)彝文的構(gòu)形特點(diǎn),對(duì)字符進(jìn)行部件拆分。部件拆分時(shí)遵循已有的部首分類原則,拆分合理,歸類科學(xué),符合彝文字符部件規(guī)范,能有效減少彝文字符的構(gòu)字單位,便于編碼和學(xué)習(xí);此外,采用一對(duì)多部件編碼方式,不要求使用者熟悉彝文字符讀音,字符輸入時(shí)無須認(rèn)讀,允許用戶按部件自由組合輸入,由程序?qū)崿F(xiàn)自動(dòng)匹配,降低了使用者的記憶難度。普通用戶只需很少的學(xué)習(xí)時(shí)間,即可掌握規(guī)則并進(jìn)行文字輸入,易學(xué)性較強(qiáng)。
該方案對(duì)字符進(jìn)行全碼編碼,平均碼長(zhǎng)可作為輸入效率高低的參考指標(biāo)?!缎畔⒓夹g(shù)通用鍵盤漢字輸入通用要求》(GB/T 19246—2003)規(guī)定:漢語(yǔ)拼音或簡(jiǎn)易筆畫編碼方式輸入漢字常見文本時(shí),平均碼長(zhǎng)應(yīng)<3.2;雙拼、部件編碼或以部件為主的編碼輸入,平均碼長(zhǎng)應(yīng)<2.2。該方案平均碼長(zhǎng)計(jì)算如下:
表2 字符編碼碼長(zhǎng)分布表
從表2 可以看出,該方案平均編碼碼長(zhǎng)約為3.1,碼長(zhǎng)適中。碼長(zhǎng)為3 鍵元和4 鍵元字符的分布率最高。因而字符輸入時(shí),擊鍵次數(shù)較少,輸入速度較快。
重碼率是衡量一個(gè)編碼方案中具有相同編碼的字符多少的指標(biāo),可用作衡量輸入法輸入效率的定量指標(biāo)。[10]測(cè)試發(fā)現(xiàn),該方案的重碼率相對(duì)較低,輸入效果較好。重碼分布表如下:
表3 字符重碼分布表
從表3 可以看出,該編碼方案下,規(guī)范彝文819 個(gè)常用字符中無重復(fù)編碼的字符數(shù)為554 個(gè),占67.6%,即有554 個(gè)字符輸入時(shí)可實(shí)現(xiàn)與目標(biāo)字符的精確匹配;字符編碼最高重復(fù)次數(shù)不超過5 次,即字符輸入時(shí)均不需要翻頁(yè)查找即可實(shí)現(xiàn)與目標(biāo)字符的匹配。因而,該輸入方案對(duì)字符的精確匹性較好,重碼率較低,輸入較為快捷。
本文依據(jù)彝文字符構(gòu)形特征設(shè)計(jì)了一對(duì)多形碼輸入方案,字符輸入時(shí),不受字符讀音的限制,允許用戶按部件自由組合輸入,編碼規(guī)則簡(jiǎn)單易學(xué),能較好地遷移到古彝文及其他象形文字上使用,實(shí)用性強(qiáng),適用范圍廣。
(1)實(shí)用性強(qiáng)。彝文內(nèi)部情況復(fù)雜,字符量大,異體字、生僻字多,字符存在方言區(qū)讀音和形體差異。采用字形編碼輸入,可不受字符讀音的限制,能遷移到古彝文及他少數(shù)民族象形文字上編碼使用;此外,采用一對(duì)多映射的編碼方式,不完全要求按字符書寫順序輸入字符,用戶可按部件自由組合輸入,降低了學(xué)習(xí)難度,即使不熟彝文的用戶也能快速掌握,實(shí)用性較強(qiáng)。
(2)適用性廣。古彝文是超方言的表意文字,字形獨(dú)特,其構(gòu)字部件大多與規(guī)范彝文相同或由其方位倒置或變形而來。字符書寫筆畫多樣,除有規(guī)范彝文中的點(diǎn)、橫、豎、撇、捺、折、圓、弧形、曲形、框形等基本筆形外,還有豐富的連體、繞形、波浪及重疊變形筆畫。字符構(gòu)字筆畫少則1 畫,多則10 畫以上。該方案按部件拆分方式對(duì)字符進(jìn)行分類編碼,能保持彝文字形的全面性和系統(tǒng)性,避免了對(duì)字符進(jìn)行過度拆分,有效地減少了字符的構(gòu)字單位,便于實(shí)現(xiàn)計(jì)算機(jī)字符的編碼和輸入。其次,依據(jù)形碼編碼方式輸入字符,不受彝文方言區(qū)讀音差異的影響,不僅適合規(guī)范彝文字集編碼,也能用于大字符集的古彝文編碼,適用范圍更廣。
彝文內(nèi)部情況復(fù)雜,但有共同的字符結(jié)構(gòu)、部首、筆畫、筆順及穩(wěn)定的部件構(gòu)字體系。本文依據(jù)彝文的字形特點(diǎn),參考已有的部首分類標(biāo)準(zhǔn),遵循直觀、易學(xué)的原則,對(duì)規(guī)范彝文字符進(jìn)行部件拆分。部件拆分時(shí),考慮到彝文字符構(gòu)形的整體性及輸入編碼的便捷性,保留了規(guī)范彝文中的獨(dú)體字及構(gòu)字能力強(qiáng)的部首,拆分合并構(gòu)字能力弱的部首,拆分規(guī)則合理,符合彝文字符的構(gòu)字規(guī)律。在此基礎(chǔ)上,按形似性特征實(shí)現(xiàn)字符的一對(duì)多編碼映射,設(shè)計(jì)一對(duì)多部件形碼輸入方案。從已有的統(tǒng)計(jì)數(shù)據(jù)來看,該方案編碼規(guī)則簡(jiǎn)單易學(xué),平均碼長(zhǎng)適中,重碼率低,輸入效率高,適用范圍較廣,具有較好的實(shí)用性。此外,本文采用部件編碼輸入方式,便于實(shí)現(xiàn)計(jì)算機(jī)字符輸入,有助于推進(jìn)古彝文和規(guī)范彝文編碼的統(tǒng)一,為古彝文信息化發(fā)展提供條件,符合當(dāng)前彝文信息化發(fā)展的要求。