王道平,黃文麗
(1.西華師范大學(xué) 文學(xué)院,四川 南充637002;2.中國地質(zhì)大學(xué) 機械與電子信息學(xué)院,湖北 武漢430074)
國家語言文字工作委員會于1997年發(fā)布了《信息處理用 GB 13000.1字符集漢字部件規(guī)范》[1](以下簡稱《規(guī)范》1),針對 GB 13000.1字符集中的20902個漢字,制訂了包含560個部件的《漢字基礎(chǔ)部件表》,給出了漢字拆分的原則和方法,對引導(dǎo)漢字形碼輸入法向尊重漢字的形和義方向發(fā)展具有重要意義[2],也為后來的眾多形碼輸入法研究提供了寶貴參考,大大縮短了其研究進程。但于實際應(yīng)用中,它在一定程度上使本來混亂的局面更加難以收拾。時隔12年,國家語言文字工作委員會又于2009年發(fā)布了《現(xiàn)代常用字部件及部件名稱規(guī)范》[3](以下簡稱《規(guī)范》2),針對現(xiàn)代漢語3500個常用漢字制訂了一個包含514個部件的《現(xiàn)代常用字部件表》,“糾正”了《規(guī)范》1中的某些錯誤,但又不恰當?shù)乩^承了《規(guī)范》1的“交重不拆”等“失誤”,將《規(guī)范》1的負面影響,從漢字輸入領(lǐng)域進一步擴大到了漢字教育和辭書編纂等領(lǐng)域。本文撇開兩個《規(guī)范》的貢獻不談,重點討論它們在實際應(yīng)用中最突出的問題、產(chǎn)生的原因及其解決方法,旨在同時請教有關(guān)漢字信息處理和漢字教育方面的專家,將漢字信息處理和漢字教育結(jié)合起來,進一步促進《規(guī)范》的完善。
對比《規(guī)范》1的核心部分第3、5部分和《規(guī)范》2的核心部分第3、4部分,即兩者的術(shù)語和拆分方法部分,不難發(fā)現(xiàn)它們略有不同。
在術(shù)語部分,《規(guī)范》2略去“筆形”、“筆順”、“筆數(shù)”、“字形”條目,增加了“單筆部件”和“部首”的概念,這無足輕重,雖然“部首”概念的新增有將漢字部首融入部件、讓部件規(guī)范為漢字教育服務(wù)的意圖。值得注意的是,對“基礎(chǔ)部件”的定義,將“最小的不再拆分的部件”修改成了“最小的、按照規(guī)則不再拆分的部件”。那么滿足什么條件的部件才算“最小的不再拆分的”呢[4]?沒有闡述。為此,給出一個“按照規(guī)則”來進行“澄清”。但又按什么規(guī)則呢?還是沒有闡述。結(jié)果《規(guī)范》2較之《規(guī)范》1更讓人無所適從。
在部件拆分部分,《規(guī)范》1提出,“對多部件的漢字進行拆分時,應(yīng)先依漢字組合層次做有理拆分,直至不能進行有理據(jù)拆分而仍需拆分時,再做無理拆分?!边@里一是要求“層次拆分”,二是允許最后“無理拆分”。漢字拆分最終是要拆分成部件序列,是線性的,拆分正確也就意味著“層次正確”,在這個過程中強調(diào)層次顯然沒有必要,這也恐怕是《規(guī)范》2剔除這一要求的原因?!兑?guī)范》2同樣允許“有理拆分”,但它以“拆開后的各部分均為非成字或均不再構(gòu)成其他漢字的,不拆分”來限定之。只是,我們不禁要問,這“均不再構(gòu)成其他漢字”,一般人是怎么知道的?可見,其操作性存在問題。
另外,《部件》1中所說的部件表中的部件不得組成非成字部件使用也是多此一舉,因為誰會拿著這些部件組成一個連電腦都顯示不出來的非成字部件呢?倒是部件表中的部件不得再行拆分這個規(guī)則比較直截了當而且有用,可惜《部件》2卻默認了。而《規(guī)范》2提出了“因構(gòu)字造成基礎(chǔ)部件相離的,拆分后仍將相離部分合一,保留部件原形”,并指出“裹”拆分為“衣果”,這似乎是在向部首“示好”,有和部首“并軌”的意圖,因為“裹”曾經(jīng)的部首就是“衣”??上?,新的漢字部首歸部規(guī)范已然將其歸入“亠”部了。
總之,兩個《規(guī)范》存在著諸多問題,但最突出的問題是部件數(shù)目過于繁多,以及沒有給出行之有效的拆分規(guī)則。
兩個《規(guī)范》最突出的問題,恰恰就是兩者的相同之處。
兩個《規(guī)范》都在部件拆分部分指出,字形符合理據(jù)的要進行有理據(jù)拆分,無法分析理據(jù)或字形與字理矛盾的依形拆分,并且都“相交不拆”。那么,什么是理據(jù)呢?兩個規(guī)范亦指出,根據(jù)字源或參考字源,從漢字的部件組合中分析出來的造字意圖,就是字理。并舉例說像太陽(日)從地平線(一)升起是“旦”的理據(jù),而從“木”、“加”聲是“架”的理據(jù)。那么,這里有一個問題:“章”是要拆分成“立日十”還是“音十”呢?根據(jù)從“音”從“十”的字理,應(yīng)該拆成后者,但據(jù)兩個《規(guī)范》來看,卻要拆成前者,如何是從呢?原因在于,兩個《規(guī)范》的部件表中都沒有“音”這個部件。但從字理角度看,“音”屬最小義符,“章”拆成“音十”是并非“無法分析理據(jù)”的。加之其構(gòu)字能力強、所構(gòu)成的漢字常見,就更應(yīng)該成為一個部件,而不宜再拆成“立日”。再比如,“元”如何拆分?是要拆成“一?!边€是“二兒”?對一般用戶而言,無論從形還是從理拆分都不太好解釋。另外,“交重不拆”的規(guī)定,直接導(dǎo)致部件過多,使建立在部件基礎(chǔ)上的拆分規(guī)則更加難以執(zhí)行。因此,兩個《規(guī)范》提出的部件拆分規(guī)則,只是比較籠統(tǒng)的原則,不能避免拆分的隨意性,使拆分難以適從,不具有唯一性。
《規(guī)范》1中給出的基礎(chǔ)部件多達560個,要通過ASCII鍵盤上的二三十個鍵位,用500多個部件來為GB 13000.1字符集的20902個漢字編碼雖然并不難,但要用戶準確和熟練地使用由此產(chǎn)生的輸入法,就太難了[5]。作為3500個常用漢字的部件,其數(shù)目竟也達到514個,似乎更讓人難以接受。數(shù)量本身龐大,加之作為部首而非部件的漢字以及非部首的獨體字[6]的干擾,人們很難記住這些部件。另一方面,當字符集擴充至GB 18030-2000乃至更大的字符集時,許多新增的字要拆分,按照“交重不拆”的原則,勢必會產(chǎn)生新的部件。如此一來,部件的數(shù)目就會更加龐大,對用戶而言就會使部件表更無可操作性。實踐表明,那些曾努力符合這一規(guī)范并被全國信息技術(shù)標準化委員會或全國中小學(xué)計算機教學(xué)研究中心向全國推薦使用的表形碼、自然碼、認知碼、表音碼、鄭碼[7],以及后來產(chǎn)生的“千軍萬碼”,幾乎都銷聲匿跡了,反倒是一直不合“規(guī)范”的王碼五筆86版在輸入法市場中還占有一席之地,這雖然在一定程度上歸因于歷史,但近200個字根相對于560個部件,確實有其先天優(yōu)勢。自《規(guī)范》1制定的14年來,無論是國家支持的還是個人自主研制的其他形碼輸入法,在應(yīng)用上都沒能真正超越難學(xué)難用、飽受詬病的王碼五筆字型輸入法,這一事實足以證明《規(guī)范》沒有起到預(yù)期作用。
《規(guī)范》在實際應(yīng)用中出現(xiàn)諸多問題,其直接原因就在于“交重不拆”這個規(guī)則的制定和沿襲。“交重不拆”限制了重疊筆畫的拆分,在一定程度上保障了漢字字形的完整,比如“果”不拆成“田木”、“串”不拆成“中中”,在漢字編碼學(xué)界也引起人們對漢字拆分合理性的廣泛關(guān)注,但在絕對層面上要使?jié)h字拆分達到“最簡單化”,則最終的結(jié)果是導(dǎo)致了部件數(shù)目過于龐大。面對當時混亂的“萬碼奔騰”局面,研制者“因噎廢食”,來個“一刀切”,認為只有漢字絕對地“交重不拆”才能根治“相交亂拆”的混亂,未免過于心切?!敖恢夭徊稹钡闹贫ㄖ皇瞧扔谛蝿輭毫Φ臋?quán)宜之計,并沒有經(jīng)過系統(tǒng)的實踐和論證。追求目的的手段有多種,有的可以達到,有的無法達到,而“交重不拆”恰恰是無法達到目的的手段。14年來的實踐已然證明“交重不拆”不僅沒有制止混亂,反而在某個程度上“亂上添亂”??梢姡渖顚拥脑蚴?,《規(guī)范》的整個系統(tǒng)比較零散,其制定應(yīng)該從更高的角度,至少要立足于漢字輸入、漢字教育、漢字檢索這三者統(tǒng)一的層面來看待部件的制定和部件拆分規(guī)則,更應(yīng)該將部件的制定和拆分規(guī)則緊密地融為一體,從而制定一個可行的拆分步驟,達到漢字拆分的唯一性。從這個意義上講,漢字拆分雖然亂象橫生,但“相交拆分”并非罪魁禍首。
漢字的字形處理,無論是漢字輸入、漢字教育還是漢字檢索,在實際應(yīng)用中幾乎人人都遵循著“客觀存在一個作了定量和取碼歸并處理的部件表圖和一個切實可行的拆分方法——按拆分方法選用部件將漢字拆成部件序列——按部件取碼來編碼漢字”這么一個規(guī)律。那么在部件定形定量和拆分規(guī)則的制定過程中,必須看到它們彼此的內(nèi)在聯(lián)系,將彼此緊密結(jié)合起來而不能割裂開,這是解決問題的關(guān)鍵。漢字拆分涉及拆分對象、拆分方法和拆分所用部件三個方面,它是運用拆分方法并選用部件來拆分漢字的過程。離開部件表中的某些部件,拆分方法就難以始終執(zhí)行下去;離開拆分方法,也無法運用部件表中的部件實現(xiàn)唯一拆分。在漢字拆分過程中,拆分方法應(yīng)該是一定的,而針對具體漢字的部件選取會呈現(xiàn)必然性的變化,這就意味著,部件的制定在一定程度上更依賴于拆分方法的制定。“交重不拆”規(guī)則的制定導(dǎo)致部件數(shù)目過于龐大,便是有力佐證。
“交重不拆”的主觀愿望是好的,是為了使拆分直觀、簡易,但實際上它只是造成了使拆分最簡化的假象,滿足了人們“拆分必須直觀、簡易”的心理需求,而沒有將“直觀、簡易”控制在可操作的范圍內(nèi),致使全面失控,最后既不“直觀”也不“簡易”。過猶不及,因此漢字拆分既要求直觀簡易性,也要求對直觀簡易性必須有一個“度”的把握?!敖恢夭徊稹钡慕Y(jié)果是將諸如“串單電果象豖世事甩禹庸”這些容易被其他部件拆分且拆分結(jié)果一目了然的漢字都納入到部件中來。而一味地進行“交重不拆”,把它們當作部件拿來教學(xué),既不便于漢字教學(xué)[8],也只會僵化初學(xué)漢字之孩童的大腦,無益于其智力開發(fā)。相反,“適當”地“相交拆分”,不僅有利于漢字信息處理,更便于漢字教學(xué),有助于培養(yǎng)青少年的“立體”思維。因此,漢字拆分直觀簡易性的“度”就是要適當?shù)剡M行相交拆分,也即是“相交拆分”要有一個“度”,它是和部件的制定緊密結(jié)合在一起的。它可以具體描述為:①不違背漢字筆畫的形狀和數(shù)量;②盡量不違背漢字筆畫順序;即使違背,其筆順也要一目了然;③拆分后的部件還原成該漢字時要比較簡單直觀;④不為難其他漢字或漢字部分的拆分。
從以往經(jīng)驗看,漢字是平面結(jié)構(gòu)的,很少有人從立體結(jié)構(gòu)的角度來理解或闡釋它。首先可能是因為絕大部分漢字都可以在平面上“交重不拆”地一分為幾,其次可能是以往相交拆分的實踐嚴重地摧殘了漢字,更使人們堅定地認為漢字是平面結(jié)構(gòu)的,惟有“平面”拆分才有利于漢字;再者恐怕是受韓文等的影響。然而,相交拆分并不一定會踐踏漢字。如“秉”,從字源來講就是“禾”和“(又,即“手”)”的組合,無論是依理還是依形都易于拆成“禾”。在部首檢字法中,“粛肅”等字不也是進行“相交拆分”而取“肀”部[9]嗎?立足于漢字信息處理,GB 13000.1字符集漢字的部件既已達到560個,超大字符集[10]是不是還要增加幾百個?如此“龐大”的數(shù)目只會嚴重影響漢字輸入、漢字教學(xué)和漢字檢索等問題的綜合解決。因此,必須從利于漢字健康發(fā)展的角度,有選擇地對相交對象進行相交拆分。
換個角度來看,漢字的筆順和結(jié)構(gòu)也是基本一致的。眾所周知,一筆一畫地書寫漢字,不算是不尊重漢字結(jié)構(gòu)。那么按照筆順將漢字分成幾個有相交關(guān)系的部件,不影響原有筆畫的形狀、數(shù)量和先后順序,從推理來看,也不應(yīng)是不尊重漢字結(jié)構(gòu)。若以平面結(jié)構(gòu)論之,則還是不尊重漢字框架結(jié)構(gòu)。但只要跳出平面結(jié)構(gòu)的框框,把筆畫相交看作是筆畫在垂直于視線的立體空間上的動態(tài)疊交,那么相交拆分也是可以接受的,因為它被視為立體結(jié)構(gòu)而不僅僅是平面結(jié)構(gòu)。漢字能夠發(fā)展出獨一無二的書法藝術(shù),恐怕也是根源于此吧??梢?,相交拆分并非不尊重漢字結(jié)構(gòu)的標志。是否尊重漢字結(jié)構(gòu),取決于對漢字結(jié)構(gòu)的理解,更取決于相交拆分的“度”。
另外,與漢字拆分方法相聯(lián)系的部件表最好能夠和《漢字部首表》[11]結(jié)合起來,包含部首表中的所有部首,這對漢字教育、漢字輸入和漢字檢索都將具有重大意義。對照兩個《規(guī)范》所列出的部件表和2009年發(fā)布的《漢字部首表》不難發(fā)現(xiàn),很多部首并不是部件,而很多部件也不是部首,部件表和部首表形成了“兩張皮”。其危害是,在接觸部件時,必須“忘卻”中小學(xué)學(xué)習(xí)過的部首,否則就會造成干擾。而忘卻部首,就意味著對漢字基礎(chǔ)教育的部分否定。反過來,如果部件包含所有部首,則是完全繼承了部首的優(yōu)勢,同時更利于部件在文字信息處理中的運用。如能實現(xiàn),則基本再無部件和部首之分了。人們只要學(xué)習(xí)了部首或部件,就可以“一勞永逸”用到老,無須顛來倒去地學(xué)了部件再學(xué)部首、學(xué)了部首再學(xué)部件,平白浪費很多人力物力財力。這是社會高效發(fā)展的必然要求。
認識了問題的實質(zhì)后,我們可以循著“客觀存在一個作了定量和取碼歸并處理的部件表圖和一個切實可行的拆分方法——按拆分方法選用部件將漢字拆成部件序列——按部件取碼來編碼漢字”這個規(guī)律,首先吸收《漢字部首表》中所有部首為漢字部件,并適當增加部分不是部首的部件。需要說明的是,所有這些部件都是基礎(chǔ)部件,如《規(guī)范》1所說,不得再行拆分。其次,為了有效控制“相交拆分”的“度”,使?jié)h字的拆分妥貼大眾直觀性拆分心理并具有可操作性,除了少數(shù)漢字或部件的拆出比較直觀且與之相交的筆畫之順序一目了然外,不讓其他筆畫逆序組合和拆分,以利于尊重漢字筆畫,使拆分最大限度地與筆順相吻合。為此,作為參考,我們就能以“面向應(yīng)用,從形出發(fā),力求直觀,兼顧字理和筆畫”為原則,按以下7條規(guī)則對漢字進行拆分。
1)拆分不增減筆畫數(shù),不改變筆畫形狀,不以形似替代。如“果”不拆分為“田木”,“叱”拆分為“口七”而不是“口七”。
2)被筆畫隔開的“口日木”不按筆順而單獨相交拆出。如:“柬”拆分為“木口丷”,“刺”拆分為“木冂刂”,“甴”拆分為“日丨”。
3)常用字“必啄”中的“丿丶”不按筆順而單獨相交拆出。如“啄”拆分為“口豕丶”,“必”拆分為“心丿”。
4)非常用字“幾彧”中的“戈弋”不按筆順而單獨相交拆出。如“幾”拆分為“幺幺戈人”,“彧”拆分為“弋口一彡”。
5)雙掛角、包圍結(jié)構(gòu)的圍框、穿插結(jié)構(gòu)的干架不按筆順拆分。如“輿”拆分為“車一八”,“何”拆分為“亻丁口”,“夾”拆分為“大人人”。
6)看似半包圍結(jié)構(gòu),實則在筆順上被其他筆畫隔開且未包圍分隔它的筆畫,此部分嚴格按筆順拆分。如“爲”拆分為“爫丿乛乛灬”而不為“爫勹乛乛灬”。
7)基于上述6條,依筆順,盡量用部件圖中筆畫數(shù)最多的部件,依次將漢字拆分成漢字部件的序列。如“喜”拆分為“士口丷一口”,“產(chǎn)”拆分為“立丿”,“甫”拆分為“一月丨丶”,“発”拆分為“癶一一兒”,“亀”拆分為“刀日日乛”。但以下情況例外:
① 如產(chǎn)生不止一個單筆畫部件,則按照使部件最少的方式拆分。如“爜”拆分為“火業(yè)丷一十耳又”,“派”拆分為氵廠丿,“卸”拆分為“;一止卩”。
② 如某部分能拆成單筆(特別是“一”)和多筆(特別是“勹”及成字)兩個部件,則按后者拆分。如“主”拆分為“丶王”,“失”拆分為“丿夫”,“権”拆分為“木;一隹”,“卅”拆分為“一川”,“黎”拆分為“禾勹丿人氺”。
③ 除上述兩種情況外,如不相交拆分未產(chǎn)生比相交拆分更多的單筆畫部件,則不相交拆分。如“衡”拆分為“彳田大一丁”。
這樣一來,就可以完成對漢字的唯一拆分,并進行漢字信息處理。比如輸入“繁”,先拆成部件序列“;母攵糸”,取其編碼即可輸入該字。再比如輸入“為”,按照拆分方法,先拆成唯一的部件序列“丶丿乛乛灬”(不因含有“勹”形而拆出“勹”作部件),取其編碼便可輸入該字。比如對“繁”的教學(xué),可先解釋它是由“敏”和“糸”這兩個部分上下結(jié)構(gòu)而成的,其中“敏”由“每”“攵”左右結(jié)構(gòu)而成,“每”又由“;”和“母”上下結(jié)構(gòu)而成。即便是“為”,也能解釋前幾筆畫的書寫順序和方位,然后在“勹形”下書寫一個部件“灬”。由此掌握300左右個部件就能比較輕松地識記幾千個漢字。再比如檢索“繁”,拆分成部件序列“;母攵糸”后,可按編碼在詞典中檢索,也可像部首查字法那樣,先提出部首“糸”來,再按先后順序排列其他部件,構(gòu)成“糸;母攵”,用編碼來檢索。無論哪種方法,都能大大提高檢字平均速度。
由此可見,漢字形碼輸入、漢字教育和漢字字形檢索三者是可以統(tǒng)一于同一部件集和同一拆分方法的,部件也可以做到盡量少,而“相交拆分”也不至于將漢字拆得“一塌糊涂”。
兩個《規(guī)范》為漢字編碼的繼續(xù)探索提供了重要參考,也啟迪著人們從新的角度去思考漢字部件規(guī)范問題。山東大學(xué)科學(xué)社會主義博士生導(dǎo)師王建民說,“學(xué)者們對馬克思某些結(jié)論的批評并不少見,但怯于觸碰他的基本范疇和基礎(chǔ)理論。而要實質(zhì)性地推進馬克思主義研究,就應(yīng)該像馬克思本人那樣不畏艱險?!保?2]既然對指導(dǎo)社會主義取得如此巨大勝利的馬克思主義的研究都要求敢于觸碰其基礎(chǔ)理論,假如“交重不拆”確實行不通,那么破除對“交重不拆”的迷信又有什么不可以的呢?拆分方法永遠只是手段,達到更好的目的才是關(guān)鍵?!安还馨棕埡谪?,會捉老鼠就是好貓”,因此我們有理由尋找更好的解決問題的拆分方法,而不能死抱著“交重不拆”不放。解決漢字信息處理的問題,任重道遠,本文在吸收《規(guī)范》成果的同時,提出一些質(zhì)疑并表達一點思考,難免有失偏頗,但出發(fā)點是善意的,都是為了促進《規(guī)范》在信息處理的應(yīng)用中不斷發(fā)展和完善,因此敬請有關(guān)專家學(xué)者不吝批評指正。
[1]國家語言文字工作委員會.信息處理用GB 13000.1字符集漢字部件規(guī)范[S].北京:國家語委,1997.
[2]何克抗.漢字認知模型與形碼方案設(shè)計[J].中文信息學(xué)報,1995,9(3):11-26.
[3]國家語言文字工作委員會.現(xiàn)代常用字部件及部件名稱規(guī)范[S].北京:國家語委,2009.
[4]張小衡.《信息處理用GB 13000.1字符集漢字部件規(guī)范》在輸入法應(yīng)用中的難點討論[J].中文信息學(xué)報,2004,18(4):60-65.
[5]孫基壽.漢字輸入編碼優(yōu)劣評測方法的探討[J].中文信息學(xué)報,2006,20(5):97-104.
[6]國家語言文字工作委員會.現(xiàn)代常用獨體字規(guī)范[S].北京:國家語委,2009.
[7]王寧,陳一凡.談從理與從形拆分原則——兼論“相離可拆”與“交重不拆”[J].計算機世界,1998(15).
[8]《漢字規(guī)范碼應(yīng)用于基礎(chǔ)教育教學(xué)實踐》成果發(fā)布會在京召開.中文信息學(xué)報,2001,15(1):58.
[9]國家語言文字工作委員會.GB13000.1字符集漢字部首歸部規(guī)范[S].北京:國家語委,2009.
[10]李宇明.搭建中華字符集大平臺[J].中文信息學(xué)報,2003,17(2):1-6,53.
[11]國家語言文字工作委員會.漢字部首表[S].北京:國家語委,2009.
[12]朱又可.社會主義不應(yīng)畫地為牢——一樁停招科學(xué)社會主義博士生的案例[N].南方周末,2011-6-23:D21-22.