国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從當前漢字使用情況調(diào)查看《現(xiàn)代漢語常用字表》①

2023-01-12 06:49張艷梅
華文教學與研究 2022年4期
關(guān)鍵詞:常用字用字光明日報

張艷梅,呂 展

(1.武漢工程大學外語學院,湖北,武漢 430205;2.暨南大學華文學院,廣東,廣州 510610)

1.問題的提出

《現(xiàn)代漢語常用字表》是由國家語言文字工作委員會和國家教育委員會1988年1月26日聯(lián)合發(fā)布的,選字范圍從1928年至1986年,根據(jù)漢字在不同學科的分布和使用度,以漢字的使用頻率為主,也考慮了漢字的構(gòu)字能力和構(gòu)詞能力等因素等,最后共收錄了3500個漢字,包括常用字2500個,次常用字1000個。

2001年起,教育部、國家語委啟動了《通用規(guī)范漢字表》研制工作,至2013年正式發(fā)布?!锻ㄓ靡?guī)范漢字表》一級字表列出3500個常用漢字,在功能上替代《現(xiàn)代漢語常用字表》,旨在滿足基礎教育和文化普及層面的用字需要;二級字表,是使用頻度僅次于一級字表,主要滿足出版印刷、辭書編纂和信息處理等方面的一般用字需要;三級字表是對那些與人們?nèi)粘I蠲芮邢嚓P(guān)的專門領域用字的補充。

目前已有的相關(guān)漢字用字調(diào)查,較少從精簡漢字的角度去思考漢字改革中尚待解決的遺留問題。為便于代代新人的學習和漢字更好地走向世界,是否應該把34年前發(fā)布的《現(xiàn)代漢語常用字表》和近10年前發(fā)布的《通用規(guī)范漢字表》的3500個常用字表作一番檢驗?使它更加切合當代漢字的使用現(xiàn)狀,也更加有利于當下語文教育的提高和語文應用的規(guī)范,使語文工作為語文生活和信息處理做出更大的貢獻。

2.研究過程

為了調(diào)查當前最新的漢字使用現(xiàn)狀,本文運用語料庫語言學、計量語言學的方法,采用Python爬取2021年《人民日報》與《光明日報》兩份報紙全年的新聞正文語料,建立語料庫,對其用字情況進行調(diào)查分析,并進一步統(tǒng)計分析2011年至2021年《中國語言生活狀況報告》(綠皮書)10余年《年度媒體用字總表》的漢字使用情況,得出1988年發(fā)布的《現(xiàn)代漢語常用字表》以及2013年發(fā)布的《通用規(guī)范漢字表》一級字表3500常用字數(shù)量需要精簡、字種需要更新、分級需要細化等結(jié)論。在此基礎上,根據(jù)字頻、覆蓋率、共用字等統(tǒng)計分析,建議設置2500常用字數(shù)量并進一步細化分級。

2.1 語料說明

(1)2021年《人民日報》與《光明日報》兩份報紙全年的新聞正文語料,采用Python爬取人民網(wǎng)(http://paper.people.com.cn)和光明數(shù)字報網(wǎng)(https://epaper.gmw.cn)語料,語料的分析不涉及圖文、廣告版塊、作者姓名等信息的用字情況。語料總字符次為67183474,漢字總字次為56037692,漢字字種數(shù)為7102。其中,《人民日報》部分的語料字符次為33046962,漢字總字次為27641211,漢字字種數(shù)為5791?!豆饷魅請蟆凡糠值恼Z料字符次為34136512,漢字總字次為28396481,漢字字種數(shù)為6931。

(2)自2005年教育部國家語委、國家語言資源監(jiān)測中心連續(xù)發(fā)布《中國語言生活狀況報告》(綠皮書)至今已有17年。其中,自2011年起每年都會根據(jù)上一年的媒體用字情況,將所有用字按照使用頻次由高到低排列形成《年度媒體用字總表》,對上一年的年度媒體用字情況進行監(jiān)控與總結(jié)。語料來自于各年度國家語言資源監(jiān)測語料庫,包括平面、有聲、網(wǎng)絡三種媒體。平面媒體來源于《人民日報》《光明日報》等國內(nèi)影響較大的15家報紙的年度全部文本;有聲媒體語料來源于電視臺、廣播電臺及融媒體欄目的節(jié)目轉(zhuǎn)寫文本;網(wǎng)絡媒體語料來自新浪、騰訊的新聞網(wǎng)頁。在此基礎上,我們進行計量分析,統(tǒng)計得出2010年至2020年10余年年度媒體總表的漢字總字次為10940610401,字種數(shù)為17055;各年度所用字種中均有大量頻次低于10的低頻字,即各年度媒體所用字種數(shù)中都有相當大一部分的低頻字、罕見字,即人們實際使用的中、高頻字種數(shù)并不多。

2.2 調(diào)查內(nèi)容

調(diào)查對象為2021年《人民日報》與《光明日報》正文中的漢字,以及2011年至2021年《中國語言生活狀況報告》的10余年《年度媒體用字總表》的漢字。調(diào)查項目有 “字種、字種數(shù)、頻次、頻率、覆蓋率”等。 “字種”指所調(diào)查語料中字形不同的漢字; “字種數(shù)”指所調(diào)查語料中字形不同的漢字個數(shù); “頻次”指調(diào)查對象在調(diào)查語料中出現(xiàn)的次數(shù); “頻率”指調(diào)查對象的頻次與整個語料所含調(diào)查對象總頻次的比值; “覆蓋率”指被調(diào)查語料內(nèi)指定調(diào)查對象占所有調(diào)查對象總量的百分比,其計算方法同 “累加頻率”①參見國家語言資源監(jiān)測與研究中心《中國語言生活狀況報告》(2013)中《語言資源監(jiān)測相關(guān)術(shù)語》,北京:商務印書館。。

2.3 調(diào)查方法

本文通過Python語言構(gòu)建爬蟲系統(tǒng),將所需要的新聞文本語料爬取保存至本地,并建立語料庫。統(tǒng)計工具主要采用教育部語言文字應用研究所計算語言學研究室開發(fā)的字詞頻率統(tǒng)計工具(Corpus Word Frequency),以及暨南大學劉華教授開發(fā)的 “漢語助研”軟件,同時也采用Excel等相關(guān)可視化及批量數(shù)據(jù)統(tǒng)計工具。

2.4 調(diào)查結(jié)果分析

2.4.1 2021年《人民日報》與《光明日報》用字情況調(diào)查結(jié)果

(1)2021年《人民日報》與《光明日報》字種使用情況的調(diào)查分析

1)2021年《人民日報》與《光明日報》每月字種數(shù)使用情況

2021年《人民日報》與《光明日報》全部語料字符次為67183474,漢字總字次為56037692,漢字字種數(shù)為7102,所有用字按照使用頻次由高到低排列形成2021年兩報用字總表。其中,《人民日報》部分的語料字符次為33046962,漢字總字次為27641211,漢字字種數(shù)為5791;《光明日報》部分的語料字符次為34146512,漢字總字次為28396481,漢字字種數(shù)為6931。本文對2021年《人民日報》與《光明日報》中每一個月所用的字種數(shù)進行了分析,如圖1所示。

通過圖1,可以發(fā)現(xiàn)《人民日報》和《光明日報》每月所用的字種數(shù)大體上都比較均勻。尤其是《人民日報》,每月所用字種數(shù)在4222~4481之間波動,波動數(shù)值不大,月均所用字種數(shù)約為4298?!豆饷魅請蟆氛w而言所用字種數(shù)比人民日報要多一些,每月所用字種數(shù)在4553~5012之間波動,波動數(shù)值相對《人民日報》要大一些,月均所用字種數(shù)約為4864。

2)2021年12月《人民日報》與《光明日報》每日字種數(shù)使用情況

以2021年12月《人民日報》與《光明日報》的語料為調(diào)查對象,分析這一個月中兩報每日所用的字種數(shù),來觀察具體每一天的用字情況。

2021年12月《人民日報》的語料中,字符次為2972787,漢字總字次為2510272,漢字字種數(shù)為4268,具體天數(shù)所用字種數(shù)情況如圖2所示。

據(jù)圖2,可以看出2021年12月《人民日報》每天所用的字種數(shù)并不多。例如12月4日,所用字種數(shù)為當月最少,1683個字種;12月22日所用字種數(shù)最多,2651個字種。整體上來看,每日所用的字種數(shù)在1683-2651之間波動,平均數(shù)約為2245,距離《通用規(guī)范漢字表》一級字表中3500常用字的數(shù)值差距較大。

圖1:2021年1月至12月《人民日報》與《光明日報》字種數(shù)使用情況

圖2:2021年12月《人民日報》字種數(shù)使用情況

2021年12月《光明日報》的語料中,字符次為2900088,漢字總字次為2466181,漢字字種數(shù)為4919,具體天數(shù)所用字種數(shù)情況如圖3所示。

圖3:2021年12月《光明日報》字種數(shù)使用情況

據(jù)圖3可以看出2021年12月《光明日報》每天所用的字種數(shù)相對于《人民日報》而言稍多一些,整體上在2074~2765之前波動。但每天所用的字種數(shù)仍不多,大多為2500左右,相對于《通用規(guī)范漢字表》一級字表中3500常用字的數(shù)值仍有一段距離。

其次,對于2021年12月《光明日報》所用字種數(shù)最多的12月31日進行單獨分析,此日所用字種中不同頻次范圍的字種數(shù)如表1所示。

表1:2021年12月31日《光明日報》不同頻次范圍的字種數(shù)

據(jù)表1,12月31日《光明日報》使用頻次為1的字種有568之多,約占當天總字種數(shù)2765的20%;使用頻次在2到10之間的字種數(shù)為1135,約占當天總字種數(shù)的41%;使用頻次在11到50之間的字種數(shù)為649,約占當天總字種數(shù)的23%;使用頻次大于50的字種數(shù)為413,僅占這一天總字種數(shù)2765的15%左右。據(jù)此可以發(fā)現(xiàn),即使是2021年12月《光明日報》中使用字種數(shù)最多的一天,也有大量的字種出現(xiàn)頻率較低,實際上所用頻率較高的字種并不多。

(2)2021年《人民日報》與《光明日報》漢字覆蓋率與字種數(shù)的調(diào)查分析

表2顯示了2021年《人民日報》與《光明日報》語料中漢字覆蓋率與字種數(shù)之間的關(guān)系:238個字種可以覆蓋語料的60%,占總字種數(shù)的3.35%;508個字種可以覆蓋語料的80%,占總字種數(shù)的7.15%;829個字種可以覆蓋語料的90%,占總字種數(shù)的11.67%;2217個字種(占總字種數(shù)的31.20%)可以覆蓋語料的99%,剩下的1%覆蓋率則需要另外4885個字種來覆蓋。由此可見,人們?nèi)粘J褂玫母哳l漢字并不多,少數(shù)的高頻字便可以覆蓋大部分的語料,基本滿足語言文字使用需求,剩下的極小部分語料則需要大量的低頻字來補充。

表2:2021年《人民日報》與《光明日報》漢字覆蓋率-字種數(shù)統(tǒng)計

(3)2021年《人民日報》與《光明日報》各頻次段字種數(shù)的調(diào)查

為了了解2021年《人民日報》與《光明日報》各頻次段用字情況,本文對不同頻次范圍的字種數(shù)進行分析,如表3所示。

表3:2021年《人民日報》與《光明日報》不同頻次范圍的字種數(shù)

據(jù)表3,使用頻次在100以下的字種數(shù)為3415,約占總字種數(shù)7102的48%;使用頻次在100到1000之間的字種數(shù)為1578,約占總字種數(shù)的22%;使用頻次在1001到10000之間的字種數(shù)為1232,約占總字種數(shù)的17%;使用頻次在10000以上的字種數(shù)為877,約占總字種數(shù)的12%。使用頻次在1000以上的字種數(shù)為2109(約占總字種數(shù)的29%),據(jù)表2可知2217個字種可覆蓋語料的99%,因此這2109個字也可以覆蓋大部分語料,進一步說明人們?nèi)粘K璧母哳l字種數(shù)量不多。

(4)2021年《人民日報》與《光明日報》用字與《通用規(guī)范漢字表》一級字表(3500常用字)的比較

通過上文的2021年《人民日報》與《光明日報》用字情況調(diào)查,可以發(fā)現(xiàn)日常所需的高頻常用漢字數(shù)目其實并不多,《現(xiàn)代漢語常用字表》與《通用規(guī)范漢字表》所設置的常用字數(shù)(3500)應該可以精簡。

本文將《通用規(guī)范漢字表》一級字表(3500常用字)與2021年兩報用字總表中使用頻率在前3500的字種進行對比,發(fā)現(xiàn)3500一級字表中有412個字不在2021年兩報用字總表中的使用頻率前3500。也就是說,在當前的報刊媒體語言生活中,從2021年《人民日報》與《光明日報》用字情況看,這412個字使用頻率較低。

2.4.2 2021年兩報用字總表與綠皮書10余年《年度媒體用字總表》的比較

考慮到所選取的2021《人民日報》與《光明日報》語料量盡管已比較大,但可能仍有一定局限性,因此,本文進一步將以上《通用規(guī)范漢字表》一級字表獨用的412個字與教育部國家語委、國家語言資源監(jiān)測中心發(fā)布的《中國語言生活狀況報告》(簡稱 “綠皮書”)10余年《年度媒體用字總表》①按:綠皮書由教育部國家語委、國家語言資源監(jiān)測中心發(fā)布,2011年之后每年附上的都是上一年度《年度媒體用字總表》,對上一年的年度媒體用字情況進行監(jiān)控與總結(jié)。即:《中國語言生活狀況報告2011》中附上的是《2010年度媒體用字總表》,《中國語言生活狀況報告2012》中附上的是《2011年度媒體用字總表》,其余依次類推。對比。將綠皮書10余年《年度媒體用字總表》中每一年使用頻率前4000的字種進行統(tǒng)計排序,共獲得4362個字種以及這些字種在這10余年《年度媒體用字總表》中總的使用頻次和總文本數(shù);在此基礎上,將所有字種按照使用頻次由高到低排列形成10余年媒體用字匯總表。然后,檢索上文提到的412個獨用字在10余年媒體用字匯總表中的的頻位①指某調(diào)查對象在頻次、頻率或頻級中的排位。參見國家語言資源監(jiān)測與研究中心《中國語言生活狀況報告》(2013)中的《語言監(jiān)測相關(guān)術(shù)語》,北京:商務印書館,2013。和出現(xiàn)頻次。結(jié)果證明,其與上文2021年《人民日報》與《光明日報》用字情況調(diào)查的統(tǒng)計結(jié)果是大體相符的,這412個字中約有82.76%的字使用頻率較低,并不位于10余年媒體用字匯總表使用頻率前3500。

(1)十余年綠皮書《年度媒體用字總表》漢字覆蓋率與字種數(shù)匯總分析

在以上基礎上,本文進一步深入統(tǒng)計分析2011年至2021年《中國語言生活狀況報告》(綠皮書)10余年《年度媒體用字總表》的漢字使用情況。這10余年語料字種數(shù)與覆蓋率關(guān)系總表,如表4所示:

表4:2010年至2020年綠皮書《年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

據(jù)表4可知,當覆蓋率達10%至80%時,2010年至2020年年度媒體用字的覆蓋率與字種數(shù)關(guān)系較為穩(wěn)定,各年所用的高頻字種數(shù)相差不大。當覆蓋率為10%時,2010年至2020年所用字種數(shù)在9至12之間波動;當覆蓋率為80%時,2010年至2020年所用字種數(shù)在557至601之間波動。當覆蓋率達90%之后,隨著覆蓋率的增加,各年對應使用的字種數(shù)數(shù)值相差逐漸變大。但總體而言,當覆蓋率為某一特定數(shù)值時,各年所使用的字種數(shù)相差不是很大,尤其是高頻字種數(shù)較為穩(wěn)定。

(2)十余年綠皮書《年度媒體用字總表》覆蓋率達10%至90%、99%時的共用字種分析

本文進而對各年度媒體用字的覆蓋率達10%至90%以及99%時所使用的字種進行了具體分析,發(fā)現(xiàn)存在很多共用字,如表5所示:

據(jù)表5可知,綠皮書10余年《年度媒體用字總表》中的高頻漢字亦非常穩(wěn)定、集中,存在大量的高頻共用字,當覆蓋率為80%時,各年共用字種數(shù)為500;當覆蓋率為90%時,各年共用字種數(shù)為812;當覆蓋率為99%時,各年共用字種數(shù)為2152。這些最常用字效用穩(wěn)定,文本覆蓋率高,是大眾10余年媒體語言生活中所使用的最高頻字。2152的數(shù)量不及一般認為的3500常用字。

表5:2010年至2020年綠皮書《年度媒體用字總表》各覆蓋率段共用字種數(shù)統(tǒng)計

(3)2021年兩報用字總表與綠皮書2019年、2020年《年度媒體用字總表》的漢字覆蓋率和字種數(shù)比較

將2021年兩報用字總表的用字覆蓋率和字種數(shù)情況與綠皮書近兩年的用字覆蓋率與字種數(shù)情況相比較,如表6所示:

表6:2021年兩報用字總表與綠皮書2019年、2020年《年度媒體用字總表》的漢字覆蓋率-字種數(shù)比較

據(jù)表6可知,由于2021年兩報用字總表的語料規(guī)模比綠皮書2019年、2020年《年度媒體用字總表》的語料規(guī)模小,三者在所用字種數(shù)上差別較大,但當覆蓋率為80%時,三者的所用字種數(shù)比例差別較小,分別是5.00%、5.08%、7.15%,標準差為0.99。因此,可以發(fā)現(xiàn)高頻漢字對文本的覆蓋能力十分穩(wěn)定,無論是在小規(guī)模語料還是在大規(guī)模語料中的使用頻率都很高;另一方面,也顯示出本文所得出的2021年兩報用字總表的漢字覆蓋率與字種數(shù)情況比較貼合綠皮書2019年、2020年《年度媒體用字總表》的用字覆蓋率與字種數(shù)情況,符合語言文字使用事實。

表7:周有光先生《現(xiàn)代漢字學發(fā)凡》中總結(jié)的漢字出現(xiàn)頻度不平衡規(guī)律

2.5 漢字效用遞減率與本文的調(diào)查統(tǒng)計結(jié)果比較

1980年周有光先生在《現(xiàn)代漢字學發(fā)凡》一文中總結(jié)出了漢字出現(xiàn)頻度的不平衡規(guī)律,大致如表7所示。

其后,周有光先生多次強調(diào)指出 “漢字的使用效率是很不平衡的。各家的頻率統(tǒng)計互有出入。斟酌于各家之間,得到如下的規(guī)律:最高頻1000字的覆蓋率大約是90%,以后每增加1400字大約提高覆蓋率十分之一。這叫做‘漢字效用遞減率’。”蘇培成先生《現(xiàn)代漢字學綱要》中進一步總結(jié), “根據(jù)‘漢字效用遞減率’,2400個字種覆蓋率為99%,這可以作為常用字和最常用字的字量?!边@和本文當代漢字社會應用的實際情況調(diào)查結(jié)果,即2021年《人民日報》與《光明日報》的用字情況統(tǒng)計分析結(jié)果、《中國語言生活狀況報告》(綠皮書)2011~2021共10余年年度媒體用字匯總表統(tǒng)計分析結(jié)果是相符的。這說明,1988年發(fā)布的《現(xiàn)代漢語常用字表》和2013年發(fā)布的《通用規(guī)范漢字表》一級字表的3500常用字,數(shù)量需要精簡,分級亦需細化。

根據(jù)本文上文的字頻、覆蓋率、共用字等統(tǒng)計分析,或可將現(xiàn)代漢字的常用字限定于2500個之內(nèi)并進一步細化分級。 “最高頻1000字的覆蓋率大約是90%”,2500個字之內(nèi)或許還可切一條線:對于初學者(如小學到初中、外國人學中文),入門的1000字,亦或800-1000字作為其常用字或許就夠了。為更好、更直觀地說明此處 “2500個之內(nèi)”和入門級 “800~1000字左右”,本文將上文2021年《人民日報》與《光明日報》的用字情況統(tǒng)計分析結(jié)果繪制成散點圖如圖4所示:

圖4:2021年兩報用字總表覆蓋率和字種數(shù)調(diào)查的散點圖

表8:《2010年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

圖5:《2010年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

為更深入地討論 “建議把現(xiàn)代漢字的常用字限定于2500個之內(nèi)”和入門級 “800~1000字左右”,本文進一步將上文對《中國語言生活狀況報告》(綠皮書)2011~2021共10余年《年度媒體用字總表》二度統(tǒng)計后的字頻、覆蓋率、共用字等統(tǒng)計數(shù)據(jù)進行列表,并繪制成散點圖如下:

(1)《2010年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表8和圖5。

(2)《2011年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表9和圖6。

(3)《2012年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表10和圖7。

(4)《2013年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表11和圖8。

(5)《2014年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表12和圖9。

(6)《2015年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表13和圖10。

(7)《2016年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表14和圖11。

(8)《2017年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表15和圖12。

(9)《2018年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表16和圖13。

(10)《2019年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表17和圖14。

(11)《2020年度媒體用字總表》中漢字覆蓋率與字種數(shù)之間的關(guān)系:詳見表18和圖15。

3.研究結(jié)論

周有光先生在《21世紀的華語和華文》中指出 “現(xiàn)代通用漢字有7000個,其中半數(shù)3500個是常用字。按照‘漢字效用遞減率’,最高頻1000字的覆蓋率是90%,以后每增加1400字提高覆蓋率十分之一。利用常用字,淘汰罕用字,符合漢字規(guī)律。與其學多而不能用,不如學少而能用。21世紀將出現(xiàn)一種‘千字文’加‘拼音’的‘基礎華語’,作為學習華語的入門教材?!A華語’對外國人學習華語最為有用。在21世紀的后期,講究效率的華人將把一般出版物限制在3500常用字范圍之內(nèi)①按:此處周有光先生提到的 “把一般出版物限制在3500常用字范圍之內(nèi)”與《通用規(guī)范漢字表》一級字表收字3500個常用漢字不是一回事:《通用規(guī)范漢字表》滿足出版印刷等方面的一般用字需要,是一、二級字表的6500字。具體來說,2013年正式發(fā)布的《通用規(guī)范漢字表》收字8105個,分為三級。一級字表即前文所說的3500個常用漢字,在功能上替代《現(xiàn)代漢語常用字表》,旨在滿足基礎教育和文化普及層面的用字需要。二級字表3000字,使用頻度僅次于一級字表,主要滿足出版印刷、辭書編纂和信息處理等方面的一般用字需要;一、二級字表的6500字,其作用相當于原1965年發(fā)布的、收字7000個、基本滿足當時出版印刷要求的《現(xiàn)代漢語通用字表》。三級字表1605字,是姓氏人名、地名、科學技術(shù)術(shù)語和中小學語文教材文言文用字中未進入一、二級字表,但在特定領域中較為通用的字,是對那些與人們?nèi)粘I蠲芮邢嚓P(guān)的專門領域用字的補充。,實行字有定量,輔以拼音?!北疚闹攸c討論的正是周有光先生此處提到的 “字有定量”問題(關(guān)于精簡漢字的方向和 “輔以拼音”的調(diào)查研究,我們將另文撰述)。

本文從當代漢字使用現(xiàn)狀、社會漢字使用情況調(diào)查來思考精簡漢字數(shù)量的問題。結(jié)論如下:

表9:《2011年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

圖6:《2011年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

表10:《2012年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

圖7:《2012年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

3.1 精減常用字表的數(shù)量

根據(jù)2021年《人民日報》與《光明日報》的用字情況調(diào)查,發(fā)現(xiàn)其日常用字的字種數(shù)并不算多,829個字便可覆蓋2021年《人民日報》與《光明日報》90%的語料,2217個字可覆蓋2021年《人民日報》與《光明日報》99%的語料,距離《通用規(guī)范漢字表》一級字表所設置的3500常用字數(shù)量有一定距離。因此,本文主張精簡常用字表的數(shù)量至2500字:兩報分析中,2500字能覆蓋語料的99.34%,能基本滿足人們的語言文字使用需求。

2011年至2021年綠皮書《年度媒體用字總表》反映的情況同樣如此:所使用的高頻字數(shù)量并不多。當覆蓋率為90%時,2010年至2020年所用字種數(shù)在877至972之間波動,共用字種數(shù)為812,即不到1000字的高頻字種可以覆蓋當年媒體用字語料的90%;當覆蓋率為99%時,2010年至2020年所用字種數(shù)在2247至2449之間波動,共用字種數(shù)為2152,數(shù)量遠不及一般認為的3500常用字數(shù)。

表11:《2013年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

圖8:《2013年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

表12:《2014年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

表13:《2015年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

3.2 更新常用字表的字種

隨著時代的發(fā)展,1988年發(fā)布的《現(xiàn)代漢語常用字表》中的某些常用字在人們當前語言生活中使用頻率較低,如今算不上常用字了;《通用規(guī)范漢字表》一級字表(3500常用字)中有412個字位于《2021年兩報用字總表》使用頻率的3500之后。盡管《通用規(guī)范漢字表》一級字表僅對《現(xiàn)代漢語常用字表》更新了103個字,但剩下的3397個字從1988年沿用至今,更新的字種數(shù)量不多,占比不大。將《通用規(guī)范漢字表》一級字表與綠皮書10余年媒體用字總表使用頻次位于前3500的字種比較,亦發(fā)現(xiàn)《通用規(guī)范漢字表》一級字表中341字并不位于10余年媒體用字總表使用頻次的前3500。因此,本文認為仍有一部分字種需要更新,以更好地符合當前語言生活實際。

圖10:《2015年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

表14:《2016年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

圖11:《2016年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

3.3 細化常用字表的分級

根據(jù)2021年兩報用字總表與10余年媒體用字總表的漢字覆蓋率和字種數(shù)情況可以發(fā)現(xiàn),不同頻次漢字的效用不同,漢字效用隨著使用頻率的增加而增大?!冬F(xiàn)代漢語常用字表》對于常用字的分級, “常用”和 “次常用”的二級劃分較籠統(tǒng),各頻次漢字之間的使用頻率差別不明顯。因此,主張進一步劃分現(xiàn)代漢語常用漢字的常用等級,把現(xiàn)代漢字的常用字限定于2500個之內(nèi)并進一步細化分級;同時,對于初學者(如小學到初中、外國人學中文),2500個字之內(nèi),或可再切一條800~1000字的線作為其常用字。

表15:《2017年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

綜上,本文運用語料庫語言學、計量語言學的方法,采用Python爬取語料,統(tǒng)計分析2021年《人民日報》與《光明日報》的用字情況,并和教育部國家語委、國家語言資源監(jiān)測中心發(fā)布的《中國語言生活狀況報告》(綠皮書)2011~2021共10余年《年度媒體用字總表》作比較,用當代漢字社會應用的實際情況說明,1988年發(fā)布的《現(xiàn)代漢語常用字表》和2013年發(fā)布的《通用規(guī)范漢字表》一級字表的3500常用字,數(shù)量需要精簡、字種需要更新、分級需要細化。在此基礎上,根據(jù)字頻、覆蓋率、共用字等統(tǒng)計分析,建議把現(xiàn)代漢字的常用字限定于2500個之內(nèi)并進一步細化分級。

圖12:《2017年度媒體用字總表》覆蓋率與字種數(shù)提升曲線

表16:《2018年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

圖13:《2018年度媒體用字總表》覆蓋率與字種數(shù)提升曲線

圖14:《2019年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

表17:《2019年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

表18:《2020年度媒體用字總表》漢字覆蓋率與字種數(shù)統(tǒng)計

精簡漢字數(shù)量是當前漢字改革的主要矛盾,但至今沒有引起人們足夠的重視。本研究可謂是接過前人的接力棒,積極開展?jié)h字用字調(diào)查和計量分析,所用的調(diào)查方法和得出的相關(guān)結(jié)論,或可為將來《通用規(guī)范漢字表》的修訂、為基礎教育(含中小學語文基礎教育教材和對外漢語教材編寫用字)和文化普及的基本用字修訂等提供一定的參考,為語文生活、語文教育和信息處理貢獻我們微薄的力量。

圖15:《2020年度媒體用字總表》漢字覆蓋率與字種數(shù)提升曲線

猜你喜歡
常用字用字光明日報
容易混淆的詞語
《漢語大字典》“人名用字”考誤舉隅
科技論文表格的編排要求(五):用線和用字
關(guān)于常用字覆蓋率統(tǒng)計算法的研究
深情寄語殷殷祝福
譯經(jīng)用字與譯經(jīng)詞語新釋
《光明日報》和@光明日報2017年全國兩會報道對比分析
談常用字詞的選取及其等級劃分
光明日報《留學》雜志—跨國采訪實戰(zhàn)營
常用字辨正——“己-巳-已”