木合塔爾·沙地克 布合力齊姑麗·瓦斯力
摘 要:學(xué)國(guó)語是每位中國(guó)人的神圣職責(zé)。作為少數(shù)民族,學(xué)國(guó)語的難點(diǎn)莫過于是聲調(diào)。為了掀起學(xué)習(xí)國(guó)語的熱潮、揭開漢字聲調(diào)的神秘面紗,創(chuàng)新理念思路、創(chuàng)新方式方法對(duì)漢字進(jìn)行大數(shù)據(jù)分析并可視化。首先自動(dòng)獲取Unicode漢字字符集中的所有漢字及其拼音,其后進(jìn)行基于聲調(diào)、多音字、同音字等多角度的分析并其可視化。分析發(fā)現(xiàn),漢字中第四聲調(diào)的最多;忽略聲調(diào)有421種發(fā)音,前二十發(fā)音的漢字累計(jì)占比20%;加聲調(diào)有1202種發(fā)音,前二十發(fā)音的漢字累計(jì)占比10%。雖然漢字入門比較難進(jìn),但學(xué)會(huì)常用字后,無需死記硬背海量詞匯。
關(guān)鍵詞:多音字 同音字 聲調(diào) 基本漢字
中圖分類號(hào):TP392 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2018)05-0-02
引言
中華文化歷史悠久,內(nèi)涵豐富。能夠代表中華文化的符號(hào)數(shù)量眾多,其中最具有代表性的,一定非漢字莫屬。這不僅因?yàn)闈h字是中華文化的載體,更是因?yàn)闈h字本身就是中華文化不可或缺的組成部分1。漢字是世界上最古老的文字之一,已有四千多年的歷史。漢字的數(shù)量并沒有準(zhǔn)確數(shù)字,大約將近十萬個(gè),日常所使用的漢字只有幾千個(gè)。
Unicode 是全球文字統(tǒng)一編碼。它把世界上的各種文字的每一個(gè)字符指定唯一編碼,實(shí)現(xiàn)跨語種、跨平臺(tái)的應(yīng)用?;緷h字Unicode編碼范圍為4E00-9FA5,其中:大陸(S)提出的漢字17124個(gè),臺(tái)灣(T)提出的漢字17258個(gè);S與T的并集,即中國(guó)(C)提出的漢字為20158個(gè)。日本(J)提出的漢字為12157個(gè),中國(guó)未提出的690個(gè)(Ja);韓國(guó)(K)提出的漢字為7477個(gè),其中中國(guó)未提出的90個(gè)(Ka);Ja與Ka并集共744字2。
《國(guó)家中長(zhǎng)期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012-2020年)》提出了到2020年,普通話在全國(guó)范圍內(nèi)基本普及,漢字社會(huì)應(yīng)用的規(guī)范化程度進(jìn)一步提高,漢語拼音更好地發(fā)揮作用3。十九大報(bào)告提出“文化是一個(gè)國(guó)家、一個(gè)民族的靈魂。文化興國(guó)運(yùn)興,文化強(qiáng)民族強(qiáng)。沒有高度的文化自信,沒有文化的繁榮興盛,就沒有中華民族偉大復(fù)興” 4。
本文為了推廣和普及國(guó)家通用語言文字、提高國(guó)民語言文字應(yīng)用能力、弘揚(yáng)傳播中華優(yōu)秀文化、掀起學(xué)習(xí)國(guó)語的熱潮、揭開漢字的神秘面紗,創(chuàng)新理念思路、創(chuàng)新方式方法,對(duì)Unicode基本漢字字符集中的20902個(gè)漢字進(jìn)行了統(tǒng)計(jì)分析與可視化。
一、分析與可視化
1.聲調(diào)占比分析(含多音)
在基本漢字字符集的常用發(fā)音(即一字一音)聲調(diào)占比分析5基礎(chǔ)上,對(duì)含多音情況進(jìn)行聲調(diào)占比分析,如表1所示:
表中看到,在基本漢字字符集中,發(fā)音為第一聲調(diào)的有7053個(gè);第二聲調(diào)的有7734個(gè);第三聲調(diào)的有4789個(gè);第四聲調(diào)的最多,即9830個(gè);輕聲或非漢字的有244個(gè)。在此基礎(chǔ)上,進(jìn)行占比分析,如圖1所示:
圖中看到,第一聲調(diào)占比23.79%,第二聲調(diào)占比26.08%,第三聲調(diào)占比16.15%,第四聲調(diào)占比33.15%,輕聲或非漢字發(fā)音占比0.82%。
另外,發(fā)音總數(shù)有明顯增大,即20902個(gè)漢字共有29650中發(fā)音,比常用發(fā)音多出了8748個(gè)音。各聲調(diào)的發(fā)音數(shù)也相應(yīng)的增加,其中第四聲的增幅最大,即增加了3167個(gè),第三聲增加1418個(gè),第二聲增加2098個(gè),第一聲增加1969個(gè),輕聲或非漢字發(fā)音增加96個(gè)。
2.多音字分析
在基本漢字字符集20902個(gè)漢字中,多音字有6164個(gè)(有兩個(gè)及以上發(fā)音),其中發(fā)音最多的前十漢字,如表2所示:
表中看到,有些漢字的發(fā)音包括非漢語拼音,如“欸”、“誒”等。
3.同音字分析
3.1不帶聲調(diào)情況
在基本漢字字符集20902個(gè)漢字中,共有421種不帶聲調(diào)的發(fā)音(即忽略聲調(diào)),其中前十同音字如表3所示(表中每種發(fā)音只取前十漢字):
表中看到,讀音為yi的漢字共有364個(gè),前十同音字中每個(gè)發(fā)音對(duì)應(yīng)的漢字?jǐn)?shù)均超過200。
3.2帶聲調(diào)情況
在基本漢字字符集20902個(gè)漢字中,共有1202種帶聲調(diào)的發(fā)音(不考慮多音字情況),其中前十同音字如表4所示(表中每種發(fā)音只取前十漢字):
表中看到,讀音為yì的漢字共有203個(gè),比不帶聲調(diào)的yi減少了161個(gè),前十帶聲調(diào)同音字中每個(gè)發(fā)音對(duì)應(yīng)的漢字?jǐn)?shù)均超過90。
4.同音字頻率分布
4.1不帶聲調(diào)情況
對(duì)基本漢字字符集中20902個(gè)漢字的421種不帶聲調(diào)發(fā)音進(jìn)行頻率分布分析,如圖2所示:
圖中看到,頻率最高的前二十個(gè)發(fā)音的漢字?jǐn)?shù)占整個(gè)漢字的20%;yi,ji,yu,xi,zhi,li,yan,fu等八個(gè)發(fā)音的漢字占整個(gè)漢字的10%。
4.2帶聲調(diào)情況
對(duì)基本漢字字符集中20902個(gè)漢字的1202種帶聲調(diào)發(fā)音進(jìn)行頻率分布分析,如圖3所示:
圖中看到,頻率最高的前二十個(gè)帶聲調(diào)發(fā)音的漢字?jǐn)?shù)占整個(gè)漢字的10%;yì,lì,xī,yù,zhì,bì,jī,jì,qí,fú等八個(gè)發(fā)音的漢字占整個(gè)漢字的6%。
5.拼音云
5.1不帶聲調(diào)情況
繪制基本漢字字符集中20902個(gè)漢字的421種不帶聲調(diào)發(fā)音的拼音云圖,如圖4所示:
圖中看到,yi,ji,yu,zhi,xi等包含最多同音詞的不帶聲調(diào)發(fā)音以大字顯示。
5.2帶聲調(diào)情況
繪制基本漢字字符集中20902個(gè)漢字的1202種帶聲調(diào)發(fā)音的拼音云圖,如圖5所示:
圖中看到,yì,lì,xī,yù,zhì等包含最多同音詞的帶聲調(diào)發(fā)音以大字顯示。
結(jié)語
漢字的大數(shù)據(jù)非常博淵深?yuàn)W,探淵索珠不易之事。本文只是對(duì)基本字符集中漢字的一知半解(因篇幅原因,除了聲調(diào)占比分析外,其它部分沒考慮一字多音情況)。學(xué)習(xí)漢字學(xué)的意義遠(yuǎn)不止于了解漢字的這些特征,通過漢字的深入研究,可以獲得更多的靈感,學(xué)到更多的研究漢字的方法6。
中國(guó)文化起源于漢字,漢字對(duì)中華文明的傳播起到了不可或缺的作用。它是中華民族和世界的共同財(cái)富,不僅給漢民族帶來了文化的繁榮,也對(duì)我國(guó)其他少數(shù)民族的文化發(fā)展產(chǎn)生了深遠(yuǎn)影響。在幾千年的歷史當(dāng)中,繼續(xù)發(fā)展傳播日本、韓國(guó)、越南、新加坡等國(guó)家,在他們的文字和文化發(fā)展中發(fā)揮了重要作用。
文化認(rèn)同是一種群體文化認(rèn)同的感覺。對(duì)外來文化價(jià)值的認(rèn)同,足以瓦解一國(guó)的政治制度,民族的凝聚力;反之,人民對(duì)本國(guó)自身文化的強(qiáng)烈認(rèn)同,既是該國(guó)自立于世界民族之林的偉大精神力量,又是使民族在激烈的國(guó)際競(jìng)爭(zhēng)中立于不敗之地。
學(xué)國(guó)語是每位中國(guó)人的神圣職責(zé)。作為少數(shù)民族,學(xué)國(guó)語的難點(diǎn)莫過于是聲調(diào)。經(jīng)過分析發(fā)現(xiàn),漢字中第四聲調(diào)的最多,忽略聲調(diào)時(shí)有421種發(fā)音,考慮聲調(diào)有1202種發(fā)音。雖然漢字入門比較難進(jìn),但學(xué)會(huì)常用字后,無需死記硬背海量詞匯。作為中華文化的傳承人,“要以科學(xué)武裝自己、把文化自信作為底氣,發(fā)展中國(guó)特色社會(huì)主義文化”4是我們不可推卸的責(zé)任。
參考文獻(xiàn)
[1]王立.漢字的強(qiáng)大生命力源自哪里?[EB/OL].(2017-11-30)[2017.12.4].光明日?qǐng)?bào)微信平臺(tái): http://mp.weixin.qq.com/s/g3zVyAW0_Kq_VqcB_Kfcsg.
[2]漢典.漢字簡(jiǎn)介. [EB/OL].[2017.12.4].http://www.zdic.net/appendix/f21.htm.
[3]360百科.《國(guó)家中長(zhǎng)期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012-2020年)》. [EB/OL].[2017.12.4]. https://baike.so.com/doc/8706653-9028846.html.
[4]習(xí)近平.中共十九大開幕,習(xí)近平代表十八屆中央委員會(huì)作報(bào)告(直播全文).[EB/OL].(2017-10-18)[2017.12.4].http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm.
[5]木合塔爾·沙地克,布合力齊姑麗·瓦斯力. 用Python數(shù)據(jù)分析方法進(jìn)行漢字聲調(diào)頻率統(tǒng)計(jì)分析[J].電腦知識(shí)與技術(shù), 2017年12月(已錄用).
[6]百度文庫.漢字學(xué).[EB/OL].(2011-01-09)[2017.12.4].https://wenku.baidu.com/view/f3f0e52558fb770bf78a55ba.html