劉 永 許燁婧 武利紅 周文迪
(1.鄭州航空工業(yè)管理學(xué)院;河南 鄭州 450015;2.河南省信息智能處理工程技術(shù)研究中心;河南 鄭州 450015;3.鄭州大學(xué);河南 鄭州 450015)
漢字輸入法主要有自然輸入法和鍵盤(pán)輸入法。自然輸入法是指手寫(xiě)、聽(tīng)、聽(tīng)寫(xiě)、讀聽(tīng)寫(xiě)等方式。目前主要是使用手寫(xiě)筆、語(yǔ)音識(shí)別、手寫(xiě)加語(yǔ)音識(shí)別、手寫(xiě)語(yǔ)音識(shí)別加OCR 掃描閱讀器等。鍵盤(pán)漢字輸入方案是運(yùn)用標(biāo)準(zhǔn)(QWERTY)鍵盤(pán)錄入漢字的各種方法。
對(duì)鍵盤(pán)漢字輸入法的規(guī)范,我國(guó)在1980年至2003年先后頒布4個(gè)國(guó)家標(biāo)準(zhǔn)。
①1980年我國(guó)頒布了第一個(gè)漢字編碼字符集標(biāo)準(zhǔn),即GB 2312-80《信息交換用漢字編碼字符集基本集》。該標(biāo)準(zhǔn)共收了6 763個(gè)漢字及常用符號(hào),奠定了中文信息處理的基礎(chǔ),并應(yīng)用至今[1]。
②1993年國(guó)際標(biāo)準(zhǔn)化組織發(fā)布了ISO/IEC 10646-1-1993《信息技術(shù)通用多八位編碼字符集第一部分體系結(jié)構(gòu)與基本多文種平面》。我國(guó)等同采用此標(biāo)準(zhǔn)制定了GB13000.1-1993。該標(biāo)準(zhǔn)采用了全新的多文種編碼體系,收錄了中、日、韓20902個(gè)漢字,相當(dāng)于是對(duì)GB 2312-80標(biāo)準(zhǔn)中的字集進(jìn)行擴(kuò)充[2]。
③信息產(chǎn)業(yè)部和原國(guó)家質(zhì)量技術(shù)監(jiān)督局于2000年聯(lián)合發(fā)布了GB 18030-2000《信息技術(shù)信息交換用漢字編碼字符集基本集的擴(kuò)充》和GB/T 1803l-2000《信息技術(shù)數(shù)字鍵盤(pán)漢字輸入通用要求》,這兩個(gè)標(biāo)準(zhǔn)是科學(xué)實(shí)用的評(píng)測(cè)標(biāo)準(zhǔn),規(guī)定了輸入法必須達(dá)到的性能指標(biāo),對(duì)如何規(guī)范輸入法起到重要的指導(dǎo)作用。目前,GB18030有兩個(gè)版本:GB18030-2000 和GB18030-2005。GB18030-2000是全文強(qiáng)制性標(biāo)準(zhǔn),市場(chǎng)上銷售的產(chǎn)品必須符合,但它僅規(guī)定了常用非漢字符號(hào)和27 533個(gè)漢字(包括部首、部件等)的編碼。2005年發(fā)布的GB18030-2005 在GB18030-2000 的基礎(chǔ)上增加了42 711個(gè)漢字和我國(guó)多種少數(shù)民族文字的編碼。GB18030-2005的主要特點(diǎn)是在GB18030-2000 基礎(chǔ)上增加了CJK 統(tǒng)一漢字?jǐn)U充B 的漢字。GB18030-2005為部分強(qiáng)制性標(biāo)準(zhǔn),自發(fā)布之日起代替GB18030-2000。
④2003年信息產(chǎn)業(yè)部又頒發(fā)GB/T 19246-2003《信息技術(shù)通用鍵盤(pán)漢字輸入通用要求》,對(duì)原有標(biāo)準(zhǔn)進(jìn)行完善和豐富。
在上述四個(gè)標(biāo)準(zhǔn)中,GB2312-80、GB13000.1-1993和GB18030-2005應(yīng)該說(shuō)是對(duì)基本漢字的范圍進(jìn)行規(guī)范,在對(duì)輸入法的規(guī)范性和評(píng)測(cè)方面GB18031-2000 和GB/T 19246-2003 起著重要作用,如對(duì)輸入法的系統(tǒng)評(píng)測(cè)可以從易學(xué)性、漢字輸入平均碼長(zhǎng)和重碼字詞鍵選率三個(gè)方面進(jìn)行評(píng)測(cè)。GB18031-2000 和GB/T 19246-2003 對(duì)輸入法的規(guī)范作用表現(xiàn)在以下幾個(gè)方面:
1.3.1 對(duì)平均碼長(zhǎng)和重碼字詞鍵選率的界定
GB18031-2000和GB/T 19246-2003都認(rèn)為平均碼長(zhǎng)(average code length)為“在輸入給定的測(cè)試樣本時(shí),測(cè)得的輸入每個(gè)漢字的平均擊鍵次數(shù)”。平均碼長(zhǎng)=輸入測(cè)試樣本的擊鍵次數(shù)/測(cè)試樣本總字?jǐn)?shù)(鍵/字)(其中,上式中的“擊鍵次數(shù)”包含編碼輸入、選字輸入及其他輔助操作的所有擊鍵操作)。認(rèn)為重碼字詞鍵選率(coincident code key selecting rate of Chinese character and word)指“在輸入給定測(cè)試樣本過(guò)程中,通過(guò)重碼選擇鍵確認(rèn)的漢字字?jǐn)?shù)與測(cè)試樣本總字?jǐn)?shù)的百分比。重碼字詞鍵選率=(重碼選擇鍵確認(rèn)的字?jǐn)?shù)/測(cè)試樣本總字?jǐn)?shù))X100%(其中,采用輪換單個(gè)顯示重碼字、詞人工確認(rèn)輸入的漢字計(jì)入“重碼選擇鍵確認(rèn)的字?jǐn)?shù)”)。
1.3.2 對(duì)易學(xué)性的界定
GB18031-2000認(rèn)為易學(xué)性指“學(xué)會(huì)使用漢字?jǐn)?shù)字編碼輸入系統(tǒng)的時(shí)間應(yīng)盡量短,并應(yīng)符合使用漢語(yǔ)作為母語(yǔ)的使用者的思維習(xí)慣,做到上手能用”。GB/T 19246-2003認(rèn)為易學(xué)性主要指“學(xué)會(huì)使用漢字編碼輸入系統(tǒng)的時(shí)間應(yīng)盡量短,并應(yīng)符合使用漢語(yǔ)作為母語(yǔ)的使用者的思維習(xí)慣”。
1.3.3 對(duì)漢字輸入平均碼長(zhǎng)的規(guī)范
GB18031-2000 認(rèn)為“逐字字段輸入平均碼長(zhǎng)應(yīng)小于6 鍵/字。字、詞混合輸入平均碼長(zhǎng)應(yīng)小于4 鍵/字”。GB/T 19246-2003 認(rèn)為“通用鍵盤(pán)漢字輸入系統(tǒng)采用漢語(yǔ)拼音(雙拼除外)或以筆畫(huà)為主的簡(jiǎn)易編碼方式輸入現(xiàn)代漢語(yǔ)常見(jiàn)文本時(shí),平均碼長(zhǎng)應(yīng)小于3.2 鍵/字。通用鍵盤(pán)漢字輸入系統(tǒng)采用漢語(yǔ)雙拼、部件編碼或以部件為主的編碼方式輸入現(xiàn)代漢語(yǔ)常見(jiàn)文本時(shí),平均碼長(zhǎng)應(yīng)小于2.2鍵/字”。
1.3.4 對(duì)重碼字詞鍵選率的規(guī)范
GB18031-2000認(rèn)為“逐字字段筆畫(huà)碼輸入重碼字鍵選率應(yīng)小于8%,字、詞混合筆畫(huà)碼輸入重碼字詞鍵選率應(yīng)小于10%;逐字字段部件碼輸入重碼字鍵選率應(yīng)小于8%,字、詞混合部件碼輸入重碼字詞鍵選率應(yīng)小于10%;逐字字段拼音輸入10 鍵位重碼字鍵選率應(yīng)小于13%,8鍵位重碼字段選率應(yīng)小于15%;字、詞混合拼音輸入10鍵位重碼字鍵選率應(yīng)小于12%,8鍵位重碼字段選率應(yīng)小于14%”。
GB/T 19246-2003 認(rèn)為“通用鍵盤(pán)漢字輸入系統(tǒng)采用漢語(yǔ)拼音(全拼、雙拼)或以筆畫(huà)為主的簡(jiǎn)易編碼方式輸入現(xiàn)代漢語(yǔ)常見(jiàn)文本時(shí),重碼字、詞鍵選率應(yīng)小于6%。通用鍵盤(pán)漢字輸入系統(tǒng)采用以部件為主的形碼、音形碼等方式輸入現(xiàn)代漢語(yǔ)常見(jiàn)文本時(shí),重碼字、詞鍵選率應(yīng)小于1.5%?!?/p>
從上文可以看出,雖然GB2312-80、GB13000.1-1993和GB18030-2005應(yīng)該說(shuō)是對(duì)基本漢字的范圍進(jìn)行規(guī)范,在對(duì)輸入法的規(guī)范性和評(píng)測(cè)方面GB18031-2000 和GB/T 19246-2003 起著重要作用,如對(duì)輸入法的系統(tǒng)評(píng)測(cè)可以從易學(xué)性,漢字輸入平均碼長(zhǎng)和重碼字詞鍵選率三個(gè)方面進(jìn)行評(píng)測(cè)。但是在執(zhí)行這些標(biāo)準(zhǔn)和規(guī)范時(shí)仍存在一定問(wèn)題,缺乏通用的輸入法評(píng)價(jià)體系,漢字編碼設(shè)計(jì)人員缺乏程序化的指導(dǎo),對(duì)漢字進(jìn)行編碼的主觀成分居多,具體可闡述如下:
GB/T 18031 中對(duì)易學(xué)性的第一個(gè)要求是“學(xué)會(huì)使用漢字編碼輸入系統(tǒng)的時(shí)間應(yīng)盡量短”,這是一個(gè)很模糊的說(shuō)法。學(xué)習(xí)的對(duì)象不同,測(cè)試結(jié)果也不一樣,學(xué)習(xí)者的年齡、文化水平、地域不一樣,結(jié)果也將不同。所以對(duì)易學(xué)性的第一個(gè)要求判定性不強(qiáng),感性成分較多。
原有規(guī)范對(duì)平均碼長(zhǎng)和重碼字是量化評(píng)價(jià),但沒(méi)有對(duì)量化標(biāo)準(zhǔn)的評(píng)測(cè)條件做出定義,如字庫(kù)的大小、類型,導(dǎo)致各輸入法在評(píng)測(cè)時(shí)并不規(guī)范。雖然2009年出臺(tái)的GF0013現(xiàn)代常用獨(dú)體字規(guī)范對(duì)不能拆分字作補(bǔ)充,但很多細(xì)節(jié)仍需完善。
原有輸入法評(píng)測(cè)標(biāo)準(zhǔn)與規(guī)則沒(méi)有考慮文字在形碼拆分時(shí)要保留文字本身含義,才導(dǎo)致很多輸入法在拆分時(shí)各自為政的局面,如不加以規(guī)范,我國(guó)的文字財(cái)富的傳承與發(fā)展將會(huì)受到影響。
因此,亟需完善舊標(biāo)準(zhǔn)和增加新標(biāo)準(zhǔn)。從而指導(dǎo)編碼設(shè)計(jì)人員設(shè)計(jì)符合用戶需求、符合國(guó)家需求的優(yōu)秀輸入法,為輸入法系統(tǒng)設(shè)計(jì)人員提供標(biāo)準(zhǔn)和依據(jù),促進(jìn)輸入法市場(chǎng)的健康發(fā)展。
在我國(guó)輸入法標(biāo)準(zhǔn)的發(fā)展中,各個(gè)標(biāo)準(zhǔn)都為其時(shí)代需求發(fā)揮了應(yīng)有的作用,為漢字輸入法的逐步標(biāo)準(zhǔn)和規(guī)范起到了重要作用,因此,在課題組的研究中,一方面要分析各個(gè)標(biāo)準(zhǔn)的時(shí)代特點(diǎn)和貢獻(xiàn),另一方面,要結(jié)合當(dāng)代漢字輸入的發(fā)展需求,擬定新的評(píng)測(cè)標(biāo)準(zhǔn)與規(guī)則。
通過(guò)對(duì)輸入法發(fā)展歷史上有影響的幾種輸入法如微軟拼音輸入法、搜狗拼音輸入法、QQ 拼音輸入法等的分析與測(cè)試,分析原有國(guó)家標(biāo)準(zhǔn)中的部分性能指標(biāo)存在的不合理和不完善之處,尋求更為合理的輸入法評(píng)價(jià)指標(biāo),為修訂現(xiàn)行國(guó)家標(biāo)準(zhǔn)和增加新的國(guó)家標(biāo)準(zhǔn)提供依據(jù)。
由于GB/T 18031 對(duì)易學(xué)性的要求是學(xué)會(huì)使用漢字編碼輸入系統(tǒng)的時(shí)間應(yīng)盡量短,并應(yīng)符合使用漢語(yǔ)作為母語(yǔ)的使用者的思維習(xí)慣,“做到上手能用”。沒(méi)有一個(gè)量化的評(píng)價(jià)指標(biāo),使得在具體執(zhí)行過(guò)程中,形同虛設(shè)。因此,在本項(xiàng)目的研究中,要對(duì)該標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo)量化,制定出一個(gè)可操作的指標(biāo),讓其在具體的評(píng)價(jià)中發(fā)揮應(yīng)有的作用。
首先,對(duì)如何抽樣得到被測(cè)試的人群進(jìn)行選擇,比如,對(duì)被測(cè)人群的年齡、文化程度、地域分布、性別比例等做出具體規(guī)定;其次,被測(cè)人員的學(xué)習(xí)時(shí)間和達(dá)到的水平做出具體規(guī)定,比如,應(yīng)該經(jīng)過(guò)多少時(shí)間的學(xué)習(xí),利用給定測(cè)試樣本對(duì)被測(cè)人員進(jìn)行測(cè)試達(dá)到何種輸入速度或正確率其易學(xué)性達(dá)到國(guó)家標(biāo)準(zhǔn);再次,對(duì)測(cè)試文本給出具體說(shuō)明,比如,是隨機(jī)抽取GB2312/GBK/GB18030 中的多少漢字進(jìn)行測(cè)試,還是隨機(jī)從網(wǎng)上抽取何種類型和大小的文本進(jìn)行測(cè)試。
由于GB/T 18031在對(duì)輸入法評(píng)價(jià)的三個(gè)標(biāo)準(zhǔn):易學(xué)性、漢字輸入平均碼長(zhǎng)和重碼字詞鍵選率方面,對(duì)漢字輸入平均碼長(zhǎng)和重碼字詞鍵選率是兩個(gè)量化的指標(biāo),但是如何測(cè)試這兩個(gè)指標(biāo),在怎樣的測(cè)試條件下進(jìn)行測(cè)試,GBl803l中并未說(shuō)明。
由于測(cè)試文本不同平均碼長(zhǎng)也會(huì)不同,如測(cè)試文章類型不一樣,測(cè)試結(jié)果也會(huì)不一樣。輸入法研究人員在測(cè)試自己輸入法的平均碼長(zhǎng)時(shí),無(wú)據(jù)可依。因此,國(guó)家標(biāo)準(zhǔn)應(yīng)該對(duì)測(cè)試文本的類型、大小具體說(shuō)明,建立如字庫(kù)的大小、類型,字頻、詞頻、分級(jí)詞庫(kù)、專業(yè)詞庫(kù)等國(guó)家標(biāo)準(zhǔn)。
對(duì)輸入法的性能指標(biāo)方面,有關(guān)性能指標(biāo)測(cè)試的方式應(yīng)該具體加以規(guī)定。例如,首先,對(duì)測(cè)試各性能指標(biāo)所采用的字庫(kù)、詞庫(kù)大小明確規(guī)定,不同的字庫(kù)、詞庫(kù)不同的性能指標(biāo);其次,對(duì)測(cè)試樣本,包括測(cè)試樣本的來(lái)源、類型、大小做出具體的規(guī)定;再次,對(duì)輸入系統(tǒng)采用的輸入方式做出明確的規(guī)定。
明確輸入法中應(yīng)具備哪些基本功能、可選哪些功能、標(biāo)點(diǎn)符號(hào)的輸入方式、字母、數(shù)字的輸入方法的規(guī)范和標(biāo)準(zhǔn)等。
目前輸入法發(fā)展的趨勢(shì)是:簡(jiǎn)單易學(xué)變得越來(lái)越重要。為了達(dá)到易學(xué),各形碼輸入法拆分漢字的方式不一,但有些拆分,明顯失去漢字本身意義,與中小學(xué)基礎(chǔ)教育中漢字規(guī)律相違背,不僅造成要重新學(xué)習(xí)輸入法的高成本,更重要的是,在中國(guó)文化傳播的過(guò)程中,會(huì)使我們變得更“忘本”。因此,研究和建立規(guī)范的文字拆分標(biāo)準(zhǔn)勢(shì)在必行。
[1]道客巴巴.信息交換用漢字編碼字符集基本集(EB/OL).http://www.doc88.com/p-6324178319021.html,2015.
[2]道客巴巴.信息技術(shù)通用多八位編碼字符集第一部分體系結(jié)構(gòu)與基本多文種平面(EB/OL).http://www.doc88.com/p-7048386049440.html,2015.