張洪
名片就是logo。除了身份,王子善的名片上還印著他所發(fā)明的輸入法。年復(fù)一年,“一根筋”跟生僻字較勁的王子善解決了一個(gè)世界難題。
找規(guī)律,建字庫(kù)
“Its a long story?。ㄕf來話長(zhǎng))”
言談中夾雜著英文字句,雖然語(yǔ)速飛快,但眼前的王子善顯然是一個(gè)常年“坐得住”的人。有專家說,研究漢字輸入法必須文理兼容。開始學(xué)畫圖,后來學(xué)外語(yǔ),最后又迷上國(guó)畫,這幾個(gè)“知識(shí)點(diǎn)”湊在王子善身上,發(fā)明“對(duì)稱碼”水到渠成。
1990年,在體育雜志做英文編輯的王子善被安排學(xué)習(xí)漢字輸入,因?yàn)槭煜ぎ媹D,他很快就掌握了五筆輸入法,并在單位為大家講課。然而,細(xì)心的王子善發(fā)現(xiàn),無(wú)論是五筆,還是其他漢字輸入法,都存在一個(gè)共同的問題:無(wú)法輸入生僻字,即使計(jì)算機(jī)字庫(kù)里有這些字,也因?yàn)椴恢腊l(fā)音,而無(wú)法找到。
“目前國(guó)內(nèi)外上千種漢字輸入法無(wú)非分為3類編碼,即形碼、音碼、音形碼,這3類編碼都無(wú)法解決復(fù)雜漢字的輸入問題?!睅еЩ?,王子善開始了他的“瞎琢磨”、“瞎找”,泡圖書館,找軟件商,最早的愿望就是“起碼要有一個(gè)字庫(kù)。”
建立字庫(kù)有規(guī)律可循,為了找出漢字規(guī)律,王子善開始抄寫現(xiàn)代漢語(yǔ)詞典第4版,厚厚一本詞典,被他手抄了3遍。
“從早上8點(diǎn)到下午5點(diǎn),中午1小時(shí)吃飯,一天8小時(shí)?!彼浀糜幸淮纬暌徊坑昧苏?4天。
“五筆是把漢字當(dāng)成部件拆解出來的,除此之外,有沒有別的方法呢?”自問之余,王子善把抄好的漢字建起了卡片“小庫(kù)”,總共幾萬(wàn)張,“家里鋪天蓋地到處都是?!?/p>
當(dāng)時(shí),只要是關(guān)于漢字輸入法的書籍都被王子善翻遍,學(xué)歷史的兒子不理解爸爸,勸他“別浪費(fèi)時(shí)間了,因?yàn)檫@是一個(gè)世界性難題!”
給漢字排序確實(shí)是世界性難題?!耙?yàn)闈h字是無(wú)序的文字,不像英文字母有前有后,漢字無(wú)前無(wú)后。”王子善說,為了深入發(fā)現(xiàn)漢字規(guī)律,他買了世界上最好的4部漢字辭典中的3部,《日本大漢和辭典》(5萬(wàn)漢字)、《中華字?!罚?.5萬(wàn)漢字)以及臺(tái)灣出版的《中文辭典》(6萬(wàn)漢字),其它各類小字典,王子善買了上千本,逐一閱讀。
回憶起那段日子,王子善說,他當(dāng)時(shí)徹底迷進(jìn)了為漢字排序的念想中,這個(gè)念頭是如此執(zhí)著,以致每天吃完飯,他跟太太在天壇附近遛彎,走在路上,情不自禁就會(huì)分析墻上和廣告牌上的漢字,“其樂無(wú)窮?!?/p>
在王子善的世界里,沒有電視電影、請(qǐng)客應(yīng)酬,公司成立7年,每年春節(jié),初一到初七,辦公樓里只有王子善一人,電磁爐煮飯,沙發(fā)作床,很多一閃即過的念頭就在這些清冷的日子里被他捕捉住,成了日后發(fā)明對(duì)稱碼的重要線索。
漢字是象形文字,有著自己的對(duì)稱規(guī)律,開始,王子善把漢字分成30多個(gè)種類,后來是16類,最后縮小到10類?!八械臐h字都在這10類中,憑著它可以檢驗(yàn)任何漢字。”
總結(jié)出漢字字形的特點(diǎn),王子善首先提出漢字字形的對(duì)稱性和非對(duì)稱性的理論,經(jīng)過申報(bào),獲得兩項(xiàng)國(guó)家發(fā)明專利。他首次提出《數(shù)字鍵漢字結(jié)構(gòu)編碼規(guī)范》技術(shù)標(biāo)準(zhǔn),于2011年11月獲得了國(guó)家新聞出版總署的正式批準(zhǔn)。
目前,王子善字庫(kù)中的漢字已經(jīng)達(dá)到74854個(gè),其中包括288個(gè)字典詞典沒有收入的漢字,在并不豪華的辦公室里,王子善的自豪溢于言表,“目前世界最大的,最標(biāo)準(zhǔn)的字庫(kù)就在我們這里?!?/p>
生僻字輸入的意義
王子善的辦公桌被各種資料堆滿,其中,很多印有生僻字。穿行在這些生僻字之間,王子善和他的同事把這些生僻字一一尋出,錄入字庫(kù)。
上邊是“未”、“成”,下邊是“人”,此字音“載”,這是古人對(duì)16歲以下未成人的稱呼;左邊“亻”,右邊“西”、“域”、“哲”相疊組成一個(gè)極為復(fù)雜的漢字(音:佛),王子善說就是古代的“佛”字。
這些生僻字,普通人很難得見,在電腦上更是無(wú)法敲出。正是因?yàn)殡y以輸入,這些字所承載的文化內(nèi)涵,正在加速流失。對(duì)于常用漢字,國(guó)內(nèi)外的輸入法已達(dá)數(shù)千種,然而,面對(duì)這些生僻漢字,這些輸入法卻束手無(wú)策。
“唐朝有個(gè)將軍,叫‘shan fu,因?yàn)闈h字不會(huì)寫,關(guān)于他的故事誰(shuí)都不知道?!闭f起這些,王子善一臉的惋惜。
現(xiàn)代人提筆忘字,若沒有注音,如何將生僻字輸入電腦?在接受采訪時(shí),王子善的弟弟、協(xié)助哥哥工作的王子意告訴記者,“關(guān)鍵是把儲(chǔ)存在字庫(kù)里的字如何調(diào)出,比如戶籍、鐵路實(shí)名輸入。很多字不是生僻字,因?yàn)椴怀S枚饾u成了生僻字?!蓖踝右獗硎荆拔覀兘鉀Q的就是如何用最簡(jiǎn)單的方法把所有的漢字輸入電腦?!?/p>
資料顯示,目前中國(guó)13億人口中,僅名字中有生僻字的就超過6000萬(wàn)人。這些人在辦理證件、銀行開戶、醫(yī)院就醫(yī)、民航購(gòu)票、購(gòu)買保險(xiǎn)及辦理其他業(yè)務(wù)時(shí),經(jīng)常會(huì)因?yàn)樽謳?kù)系統(tǒng)打不出生僻字而遭遇尷尬,甚至被迫改名。
王子善透露,“現(xiàn)在中國(guó)有400萬(wàn)個(gè)網(wǎng)站,所有網(wǎng)站的字庫(kù)都是2萬(wàn)多。”生僻字在計(jì)算機(jī)中無(wú)法輸入主要有兩個(gè)原因:一是計(jì)算機(jī)內(nèi)置漢字字庫(kù)中的漢字只有2萬(wàn)多,很多生冷僻字未被納入;二是即使一些計(jì)算機(jī)執(zhí)行了較新的字符集標(biāo)準(zhǔn)(含漢字70195個(gè)),雖然字庫(kù)中納入了生僻字,但由于沒有相匹配的漢字輸入法,同樣不能直接輸入。
迄今為止,在與漢字信息有關(guān)的出版、公安、外交、衛(wèi)生、金融等系統(tǒng)中,都無(wú)法方便、快速、簡(jiǎn)明地對(duì)生冷僻漢字輸入與檢索,嚴(yán)重影響和制約了這些系統(tǒng)的中文信息數(shù)字化的實(shí)施。“對(duì)稱碼漢字輸入法”的問世,有望解決這些難題。
王子善的對(duì)稱碼輸入法,一般人半小時(shí)即能掌握,他示范了如何從字典中找到正確的棒碴粥的“碴”(字庫(kù)缺字,應(yīng)該是“米”加“查”),以及邦邦敲門聲的“邦”字(應(yīng)為“口”加“邦”),這些字在普通的電腦字庫(kù)中無(wú)法找到,使用對(duì)稱法輸入法,一分鐘不到,即悉數(shù)敲出。
“中國(guó)目前的計(jì)算機(jī)基本都停留在209 02字的字庫(kù)水平上,后來加擴(kuò)后,這些字還是沒有錄入?!睂?duì)此,王子善深表遺憾。
除此之外,他還發(fā)現(xiàn),目前有數(shù)百首唐詩(shī)和宋詞,因?yàn)槠渲械纳ё侄荒芡暾虺?,他告訴記者,“唐詩(shī)總共5萬(wàn)多首,中國(guó)400萬(wàn)個(gè)網(wǎng)站,沒有一個(gè)可以把全唐詩(shī)悉數(shù)打出,更不用談經(jīng)史子集了?!?/p>
“對(duì)稱碼”解決了復(fù)雜漢字的輸入問題。不管認(rèn)不認(rèn)識(shí),只要看到字,按著編碼原則,輸入幾個(gè)數(shù)字就可以打出漢字,“于國(guó)家的網(wǎng)絡(luò)安全大有好處?!蓖踝由普f。
他把自己的對(duì)稱碼輸入法定義為“現(xiàn)代輸入法的一種不可或缺的補(bǔ)充”,“不一定用得上,但是要配齊。”
下一步,王子善還打算把字音、字意編入字庫(kù)中,讓人們不但能打出字,還能讀準(zhǔn)音,認(rèn)識(shí)它。