楊 城
(遼寧大學(xué) a.文學(xué)院;b.文科綜合實驗中心,遼寧 沈陽 110036)
現(xiàn)代漢字的屬性研究是對現(xiàn)代漢字所負(fù)載的各種信息的具體分析,其中字量研究是所有屬性研究的基礎(chǔ)。進(jìn)行現(xiàn)代漢字的定量研究首先就必須界定現(xiàn)代漢字的范圍,只有先對現(xiàn)代漢字進(jìn)行定性研究才能保證現(xiàn)代漢字定量研究的準(zhǔn)確和科學(xué)?,F(xiàn)代漢字定量研究主要分為字量研究和字頻研究兩個部分。字量研究是以現(xiàn)代漢字在不同情況下的字的使用度和出現(xiàn)概率為條件,具體涉及用字全表、常用字表、通用字表、罕用字表、專業(yè)用字、專門用字等問題。字頻研究是以現(xiàn)代漢字在不同情況下出現(xiàn)頻率為條件,具體涉及各類漢字使用頻度表和頻率詞典等問題。
1.現(xiàn)代漢字字量研究概況
(1)20世紀(jì)四五十年代,艾偉、徐則敏統(tǒng)計過20部中小型通用字典,收字最少的有4 431字,最多的有15 431字,大約是在7 500字左右。
(2)1953年,中國文字改革委員會制定《現(xiàn)代用字統(tǒng)計報告》,共收9 163個字種。
(3)1956年,中國文字改革委員會制定《通用漢字表草案(初稿)》,共收通用漢字5 390個。
(4)1965年,文化部和中國文字改革委員會聯(lián)合發(fā)布的《印刷通用漢字字形表》收6 196字。
(5)1974年,北京新華字模廠制作《字目表》,共收字6 805個,包括一般報刊書籍用字6 310個和添盤字495個。
(6)1974年郵電部編的《標(biāo)準(zhǔn)電碼本》收9 317個字,1983年出版《標(biāo)準(zhǔn)電碼本》(修訂本),共收7 292個字。
(7)1981年國家標(biāo)準(zhǔn)總局發(fā)布的GB23 12—80《信息交換用漢字編碼字符集·基本集》收6 763個字。分為兩級,一級常用字3 755個,二級次常用字3 008個。
(8)1988年,國家語言文字工作委員會研制出《現(xiàn)代漢語通用字表》和《現(xiàn)代漢語常用字表》,常用字表收字3 500個,通用字表收字7 000個。
(9)1980年以來,專門用字研究興起,先后研制出《小學(xué)語文用字研究》(1983),《掃盲用字表》(1993),《漢字應(yīng)用水平等級測試大綱》(2006)。
(10)另外,字量研究已經(jīng)逐漸涉及漢字從古到今的各個方面,如既有《西漢早期簡牘字量研究》《金文字量研究》《傳統(tǒng)蒙學(xué)識字教材與現(xiàn)行識字教材漢字字種研究》等研究古代漢語用字的文章問世,也不乏如《人教版小學(xué)〈語文〉教材收字統(tǒng)計分析》《常用漢字字量、字種研究》《初級漢語教材漢字字序字量的考察——以〈發(fā)展?jié)h語·(初級漢語)上〉為例》《小學(xué)五年級識字量與語文成績的相關(guān)研究》《農(nóng)村小學(xué)生識字量調(diào)查研究——以安徽省廬江縣某鎮(zhèn)小學(xué)生識字量調(diào)查研究為例》等針對現(xiàn)代漢字字量問題的研究成果。
2.現(xiàn)代漢字字量研究計量可視化分析
以“現(xiàn)代漢字字量”為主題檢索詞在中國知網(wǎng)進(jìn)行檢索,共計得到44條搜索結(jié)果,對這44條結(jié)果進(jìn)行計量可視化分析得到總體趨勢分析圖和主題分布圖,如圖1、圖2所示。
圖1現(xiàn)代漢字字量研究總體趨勢分析圖
圖2 現(xiàn)代漢字字量研究主題分布圖
通過計量可視化分析,可以看出現(xiàn)代漢字字量研究的發(fā)文量在2004年、2012年和2015年左右達(dá)到了歷史的較高值和最高值,但是也僅僅只有5~6篇文獻(xiàn),其他年份則均少于5篇文獻(xiàn)。可見,現(xiàn)代漢字字量的研究尚處于起步階段,發(fā)文年代分布不均,但有較為明顯的增長趨勢。同時,現(xiàn)代漢字字量研究的內(nèi)容較為側(cè)重漢字教學(xué),也有關(guān)注字頻統(tǒng)計、識字量、常用漢字、方塊字等的研究??傊F(xiàn)代漢字的字量研究重視應(yīng)用,主要在現(xiàn)代漢字的識字教學(xué)方面,對于其他方面的研究涉及較少,特別是專業(yè)用字方面,尚無規(guī)范的、經(jīng)過國家審查和業(yè)界廣泛討論完成的用字表,研究導(dǎo)向比較分散,尚未形成系統(tǒng)科學(xué)的學(xué)科研究體系。
1.現(xiàn)代漢字字頻研究概況
(1)1928年,陳鶴琴編寫了《語體文應(yīng)用字匯》,“是現(xiàn)代漢字的字頻統(tǒng)計最早的成果”[1]。書中頻率最高的前20位漢字依次是:的不一了是我上他有人全這來小在們說子可道。
(2)1977年,新華印刷廠印制出《漢字頻度表》,分為科學(xué)技術(shù)、文學(xué)藝術(shù)、政治理論、新聞通訊、綜合五個部分,但因為當(dāng)時時代背景的影響,導(dǎo)致個別與社會現(xiàn)實相關(guān)的漢字不正常地增多,且分文體的排列方式不便于檢索。所以,在此基礎(chǔ)上,1980年新華印刷廠編寫完成了《按字音查漢字頻度表》、1988年編寫完成了《漢字頻度統(tǒng)計》。《漢字頻度統(tǒng)計》將現(xiàn)代漢字分為五級用字,分別是最常用字、常用字、次常用字、稀用字、冷僻字,共計5 991個。書中頻率最高的前10位漢字依次是:的一是在了不和有大這。
(3)1986年,北京語言學(xué)院出版社出版《現(xiàn)代漢語頻率詞典》,書中較為科學(xué)地統(tǒng)計出了《漢字頻率表》,共收字4 574個。書中頻率最高的前10位漢字依次是:的一了是不我在有人這。
(4)1992年,國家語言文字工作委員會和國家標(biāo)準(zhǔn)局匯編成《現(xiàn)代漢語字頻統(tǒng)計表》,根據(jù)社會科學(xué)和自然科學(xué)分門別類,統(tǒng)計出13個字頻統(tǒng)計表,共收7 754個字種。
(5)2006年,國家語言文字工作委員會發(fā)布了《中國語言生活狀況報告(2005)》,這份報告中包含《報紙、廣播電視、網(wǎng)絡(luò)用字用詞調(diào)查》和《報紙、廣播電視、網(wǎng)絡(luò)用字總表》,統(tǒng)計共有8 128個字種,書中頻率最高的前10位漢字依次是:的一在是有國了中人不。
(6)另外,字頻研究也從現(xiàn)代漢字研究為主,逐漸向古代漢語用字延伸。例如,《中國古籍用字字頻與分布統(tǒng)計分析》《〈三國演義〉字頻研究》《三國吳簡文字研究》《戰(zhàn)國楚文字用字調(diào)查》《殷商甲骨文字形系統(tǒng)再研究 》《中國傳統(tǒng)蒙學(xué)文獻(xiàn)用字研究》《四大名著字頻研究》《〈甲骨文合集〉第五~八冊文字基礎(chǔ)整理與研究 》等。但這些文獻(xiàn)絕大多數(shù)仍然只是利用現(xiàn)代漢字字頻統(tǒng)計的手段,以古代漢語書面語為研究語料,甚至部分語料直接采用現(xiàn)代漢字的書籍,單純研究古代漢語用字的文獻(xiàn)僅限于幾篇研究古文字的文章而已。
2.現(xiàn)代漢字字頻研究計量可視化分析
以“現(xiàn)代漢字字頻”為主題檢索詞在中國知網(wǎng)進(jìn)行檢索,共計得到71條搜索結(jié)果,對這71條結(jié)果進(jìn)行計量可視化分析得到總體趨勢分析圖和主題分布圖,如圖3、圖4所示。
圖3現(xiàn)代漢字字頻研究總體趨勢分析圖
圖4 現(xiàn)代漢字字頻研究主題分布圖
通過計量可視化分析,可以看出現(xiàn)代漢字字頻研究的發(fā)文量在2011年、2013年左右達(dá)到了歷史的最高值和較高值,但是也僅僅只有9~10篇文獻(xiàn),其他年份則均少于9篇文獻(xiàn)??梢?,現(xiàn)代漢字字頻的研究也尚處于起步階段,初始發(fā)文年代較現(xiàn)代漢字字量研究更晚,直到近年才有比較明顯的增長趨勢?,F(xiàn)代漢字字頻研究的內(nèi)容以字頻統(tǒng)計為主,立足于漢字方塊字的本體屬性,多為漢字教學(xué)方面的研究,這與現(xiàn)代漢字字量研究相同,都更為側(cè)重漢字的應(yīng)用。也有關(guān)于留學(xué)人員的對外漢語教學(xué)用字、漢字識別技術(shù)以及少數(shù)民族用字的統(tǒng)計分析。值得注意的是,與字量研究相比,字頻研究更為依賴計算機(jī)技術(shù),涉及的跨學(xué)科領(lǐng)域也更為廣泛。字頻研究的發(fā)文量較字量研究有了明顯的增長,但研究導(dǎo)向同樣比較分散,也尚未形成系統(tǒng)科學(xué)的學(xué)科研究體系。
“語言文字之學(xué)”是清末章太炎首先提出的,在這之前一直處于經(jīng)學(xué)的附庸地位,而其中的漢字學(xué)是以漢字的發(fā)展和規(guī)律為研究對象的學(xué)問。1952年丁西林發(fā)表《現(xiàn)代漢字及其改革的途徑》,首次提出“現(xiàn)代漢字”的概念,但是還沒有涉及“現(xiàn)代漢字學(xué)”。直到1980年,周有光先生在《語文現(xiàn)代化》叢刊第二輯發(fā)表《現(xiàn)代漢字學(xué)發(fā)凡》一文,明確提出了這個概念,并將漢字學(xué)分為歷史漢字學(xué)、現(xiàn)代漢字學(xué)、外族漢字學(xué)三個部分,“這是漢字學(xué)的重大發(fā)展”[2]。從此,現(xiàn)代漢字學(xué)作為一門獨(dú)立的學(xué)問發(fā)展起來。
周先生提出了現(xiàn)代漢字研究的六個具體問題:“字量、字義、字形、字序、字音和漢字教學(xué)法”[3]。其中字量研究的首要任務(wù)的是給漢字進(jìn)行斷代,確定古今分界,明確現(xiàn)代漢字研究的量的范圍。他將古今通用和現(xiàn)代通用的漢字歸入現(xiàn)代漢字,將文言古代漢語用字而普通話不通行的漢字歸入古代漢語用字。從而完善了漢字古今分野理論,明確了現(xiàn)代漢字的研究范圍。
1.現(xiàn)代漢語用字全表
周先生提出字量研究的首要課題是制定出一份“現(xiàn)代漢語用字全表”[4]2,這是基于對現(xiàn)代漢字界定后在字性審定的基礎(chǔ)上制定出來的,而不是考量現(xiàn)代漢字的出現(xiàn)頻度。所以要將“現(xiàn)代漢語用字全表”和“現(xiàn)代漢語通用字表”“現(xiàn)代漢語常用字表”等區(qū)別開來。整理現(xiàn)代漢字的基本工作就是對現(xiàn)代漢字進(jìn)行摸底,搞清楚書寫現(xiàn)代漢語用字到底需要多少個漢字。
周先生以“造句實踐法”對現(xiàn)代漢字字性進(jìn)行審定工作,通過定性達(dá)到定量。同時,他指出定量工作的程序是波圈擴(kuò)大,以詞書為核心逐步拓展定量工作。而“用字全表”的結(jié)果應(yīng)該是最佳逼近,不可能達(dá)到百分之百的“全”。
2.特種用字
周先生高瞻遠(yuǎn)矚地看到了存在于現(xiàn)代漢字中的一些特殊場合才會出現(xiàn)的漢字,這些特種用字雖然出現(xiàn)頻率極低,卻不可忽視。對于此類現(xiàn)代漢字,周先生做了詳細(xì)的分類,并對其歸屬于“現(xiàn)代漢語用字全表”表內(nèi)還是表外還是交界地帶也分別做了詳細(xì)的說明。這些特種用字主要有以下幾類:科技專用字(如氫、溴、鲅等)、民族宗教專用字(如佤、訇、穌等)、人地名專用字(如廖、邙、鄱等)、行業(yè)專用字(如等)、譯音和象聲專用字(如浬、哎、嘭等)、方言專用字(如冇、靚、垃等)、外族漢字(如辻、椥等)。
3.漢字查頻
周先生在20世紀(jì)80年代就提出要將“五四”以來出版的書刊進(jìn)行分期分類的字頻統(tǒng)計,有全面有抽樣,并且每隔若干年就要重新進(jìn)行一次統(tǒng)計,不斷研究小學(xué)用字和掃盲用字,利用計算機(jī)技術(shù),將字頻統(tǒng)計工作做得又快又好。
1.現(xiàn)代詞書的收字基礎(chǔ)
周先生指出一本現(xiàn)代漢語辭書,必須要告訴讀者書寫現(xiàn)代漢語要用多少個文字符號,而該詞書又收錄了多少文字符號。這兩個工作必須通過現(xiàn)代漢字的定量研究才能完成。
2.教育用字的分級定量
周先生提出教育用字要實行分級定量,只有明確現(xiàn)代漢字量的范圍,才能在此基礎(chǔ)上選字、分級,這依賴于現(xiàn)代漢字字頻的統(tǒng)計,同時不分古今的分級定量是沒有意義的。
3.文字工作的機(jī)械化、自動化和電腦化
周先生提出,實現(xiàn)國家的現(xiàn)代化必須實現(xiàn)漢字的現(xiàn)代化,漢字輸入輸出計算機(jī)的技術(shù)日臻成熟,將哪些漢字進(jìn)行輸入輸出必須建立在現(xiàn)代漢字常用字表、通用字表和用字全表的基礎(chǔ)上進(jìn)行選擇。
4.漢字定量促進(jìn)漢字穩(wěn)定
周先生提出漢字定量是促進(jìn)漢字穩(wěn)定的條件之一,整理漢字要限定漢字的字量,不再起用死字,不再隨意創(chuàng)造新字,再進(jìn)一步研究如何減少漢字總數(shù)。
周先生善于將自己的研究發(fā)現(xiàn)上升到理論高度,建設(shè)新的學(xué)科體系,這種創(chuàng)新思維和開闊眼界在學(xué)術(shù)研究領(lǐng)域十分寶貴,中國的語言理論建設(shè)明顯滯后于國外,導(dǎo)致現(xiàn)在很多最新的語言理論都要學(xué)習(xí)西方。這是每一個語言文字工作者需要終生思考的問題和提升的能力。
周先生早年研究經(jīng)濟(jì)學(xué),在研究語言文字的過程中往往受到跨學(xué)科思維的影響,對于推進(jìn)語言文字與計算機(jī)技術(shù)接軌表現(xiàn)出了濃厚的興趣。另外字頻研究、字量統(tǒng)計都涉及跨學(xué)科的方法,類似于現(xiàn)代漢字定量研究用到的波圈擴(kuò)大法和最佳逼近法也都是明顯的自然科學(xué)的研究方法。國內(nèi)近年興起的通識課程開設(shè),向西方教育制度學(xué)習(xí)其實更有利于激發(fā)研究思維,語言研究本身就處于文理交叉的道路上,因此,語言文字工作者應(yīng)適當(dāng)?shù)貙W(xué)習(xí)一些數(shù)理統(tǒng)計等基本自然科學(xué)的方法,往往對自身研究可以收到事半功倍的效果。
周先生對現(xiàn)代漢字的定量研究明顯地具有國家政策導(dǎo)向,重視語言文字的應(yīng)用和解決應(yīng)用中的實際問題,從而“建設(shè)現(xiàn)代化時期的新語文”[5]。這表明,語言研究不可能脫離社會時代的大背景而處于真空之中,我們畢生研究的更高追求不應(yīng)只局限于書本知識、只促進(jìn)人類認(rèn)知發(fā)展的純理論研究,而更應(yīng)該是有助于國家發(fā)展、社會運(yùn)用和進(jìn)步的。特別是語言研究進(jìn)入“后牛頓時代”,傳統(tǒng)的本體研究愈來愈受到現(xiàn)代科學(xué)的挑戰(zhàn),如何在這樣的大數(shù)據(jù)、云計算的背景下找到傳統(tǒng)語言文字學(xué)研究的立足之地是每一個語言文字工作者需要面對的問題。
周先生在現(xiàn)代漢字定量研究的過程中,分別研究了中國和日本的漢字定量研究,通過對比的方法找到優(yōu)缺點,從而完善自己的理論。這在其比較文字學(xué)的研究上體現(xiàn)得更為明顯。他的《現(xiàn)代漢字學(xué)發(fā)凡》對后期高家鶯、范可育、費(fèi)錦昌、楊潤陸、蘇培成等人的現(xiàn)代漢字學(xué)研究都具有高屋建瓴的指導(dǎo)作用。
周先生對特種用字的分類問題較為龐雜,考慮得過為細(xì)致,如書中提到的行業(yè)專用字“”已成為死字,現(xiàn)在直接采用“扎”字代替。這一點在蘇培成的《現(xiàn)代漢字學(xué)綱要》中重新進(jìn)行了分類,共分為專門用字和專業(yè)用字兩大類,下設(shè)各個小類,分類更為科學(xué)合理。
另外,周先生提出“名字用字是‘無限量’的,可以選用任何漢字,不論字典里有沒有”[4]10,該觀點明顯不適用于當(dāng)今社會。取名采用生僻字會給本人和他人都帶來識讀困難,在辦理相關(guān)證件和手續(xù)時也會遇到各種阻礙,更不用說采用字典字庫里沒有的字,現(xiàn)行的國家法律也明確規(guī)定了姓名用字的問題。
周先生開創(chuàng)了現(xiàn)代漢字學(xué)學(xué)科體系四十年來,很多學(xué)者都在追隨著周老的腳步,共同為中國語文的現(xiàn)代化工作而砥礪前行。周老對于現(xiàn)代漢字學(xué)定量問題的研究無疑是具有開創(chuàng)性的,其研究的思維方法和研究成果也得到了廣泛運(yùn)用。