国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢字字料庫淺議

2017-10-13 21:01單志鵬
關(guān)鍵詞:字書語料庫整理

單志鵬

?

漢字字料庫淺議

單志鵬

(渤海大學(xué)文學(xué)院,遼寧錦州 121013)

字料庫是由信息科學(xué)與漢字學(xué)交叉后形成的產(chǎn)物,為漢字學(xué)的研究提供了一個新思路和新方法。建設(shè)基于真實文本的漢字字料庫,對于開展?jié)h字形體的歷時演變研究和共時形體比較研究都具有積極意義。目前已經(jīng)有一些字料庫或類字料庫問世,但對字料庫的建構(gòu)和研究仍然存在二“少”三“低”的不足。

字料庫;漢字整理;意義;現(xiàn)狀;不足

一、字料庫簡介

字料庫是在信息科技高速發(fā)展的大數(shù)據(jù)時代,受語料庫的影響,由信息科學(xué)與漢字學(xué)交叉后形成的產(chǎn)物。李國英、周曉文[1]48認(rèn)為,字料庫是指“以文字的整理和文字學(xué)的研究為目標(biāo),按照語言學(xué)和文字學(xué)的原則,收集實際使用中能夠代表特定文字或文字變體的真實出現(xiàn)過的文字書寫形態(tài),運用計算機(jī)技術(shù)建成的具有一定規(guī)模的大型電子文字資源庫?!边@是當(dāng)前及未來字料庫的建設(shè)與研究具有指導(dǎo)性的一個論斷。漢字是迄今為止仍在廣泛使用的自源性表意文字。在進(jìn)入信息時代后,漢字的主要屬性擴(kuò)展為“形、音、義、用、碼”五大類,“形”是漢字的本體屬性,而“儲存漢字的原始形體,建立超大規(guī)模漢字形體發(fā)展演變關(guān)系庫,滿足漢字研究、漢字整理與規(guī)范、古籍?dāng)?shù)字化等的需求為目標(biāo),探索漢字研究與字形整理的新方法,在信息化時代的今天,具有重要的歷史意義和現(xiàn)實意義?!盵2]漢字字料庫對漢字歷時演變、共時比較、漢字的層積與流變、傳世及出土文獻(xiàn)的整理等方面都能顯示出強(qiáng)大的優(yōu)越性。

現(xiàn)代社會不斷進(jìn)步,科技迅猛發(fā)展,信息網(wǎng)絡(luò)的發(fā)展情況成為國家的現(xiàn)代化水平最重要的衡量標(biāo)準(zhǔn),而信息網(wǎng)絡(luò)的核心即是對語言信息的處理工作,其中對漢語信息的處理中最基礎(chǔ)的工作就是漢字的信息化。現(xiàn)階段,語料庫的研究已然相當(dāng)成熟,然而,對信息化下的漢字整理研究卻沒有得到更好的發(fā)展,其優(yōu)越性還沒有得到學(xué)界的廣泛關(guān)注。在漢字研究方面,傳統(tǒng)漢字學(xué)也需要緊跟時代的步伐,與時俱進(jìn)。在當(dāng)前的漢字學(xué)研究過程中,單純以人工方式整理研究漢字的做法已經(jīng)比較落后,不僅浪費時間,同時也會耗費巨大的人力物力,其效果往往事倍功半。而建設(shè)字料庫,使?jié)h字信息在不同文獻(xiàn)資料中集中呈現(xiàn)出來,有利于對漢字的分類、系聯(lián)和類聚,方便對漢字進(jìn)行橫向的字形對比研究與縱向的漸進(jìn)演變研究,使?jié)h字的研究和整理工作變得更加便捷,而且建設(shè)字料庫對漢字教學(xué)、漢字文化的繼承與發(fā)展等方面也同樣具有重要的作用。

二、字料庫研究現(xiàn)狀分析

自從李國英、周曉文2009年首次提出字料庫的概念之后,學(xué)界對字料庫展開了一系列研討。

李國英、周曉文[1]48認(rèn)為,語言是文字產(chǎn)生的基礎(chǔ),當(dāng)前學(xué)界對語料庫的建設(shè)與研究已經(jīng)取得了很多研究成果,但基于字料庫的文字學(xué)研究還是一片空白。建設(shè)以真實文本基礎(chǔ)上的漢字字形為目的的大型字料庫具有必要性,這將對漢字的整理研究都具有重要的意義。

字頻是漢字使用的重要屬性之一,字頻對漢字研究有著重要意義。在字料庫整理中對漢字字頻統(tǒng)計方面,李國英、周曉文[3]強(qiáng)調(diào),漢字字頻統(tǒng)計是研究漢字實際使用價值的重要領(lǐng)域,要求準(zhǔn)確劃分字的層級單位。漢字的整理要從字樣、字組和字種三個方面進(jìn)行展開。完善字頻歸納的原則和方法,提高漢字字頻統(tǒng)計的科學(xué)性與客觀性,應(yīng)該借助資料庫來進(jìn)行。

字料庫是由語料庫類推出來的一個概念。字料庫概念提出以前,有不少基于語料庫的漢字研究成果。毛承慈[4]對基于語料庫的漢字研究情況進(jìn)行了綜述,并且指出,語料庫的建立是以研究語言為中心的,建立以漢字學(xué)為研究目的的字料庫對漢字的發(fā)展與整理研究都具有重要的意義。

王平[5]強(qiáng)調(diào),基于數(shù)據(jù)庫的漢字學(xué)研究是現(xiàn)代漢字學(xué)研究的重點,字料庫是以漢字研究為目標(biāo)的資料整合數(shù)據(jù)庫,具有標(biāo)注的專業(yè)性、出土文獻(xiàn)資料的保真性和傳世字書的系統(tǒng)性三大特征。

在字料庫后期的整理研究時,朱翠萍、周曉文、陳瑩[6]明確提出了字料庫平臺整理工作的三大任務(wù):字形的采集、字形的識別和屬性填充與關(guān)聯(lián)。在對古籍進(jìn)行數(shù)字化整理研究工作的同時,注意“保真”,而“保真”的核心是文字字形的存真,對字料的整理是字料庫建設(shè)的首要之義。同時,周曉文、李國英、朱翠萍、陳瑩[7]指出,在對漢字的研究中,異體字的整理工作是重中之重,基于字料庫的漢字異體字整理工作,提高了研究的速度與質(zhì)量,具有極高的價值。在浩如煙海的文獻(xiàn)古籍中,對異體字的整理是紛繁復(fù)雜的一項工作,借用現(xiàn)代技術(shù)手段對異體字進(jìn)行多功能、全方位的整理研究,將推動漢字研究的發(fā)展。

柳建鈺發(fā)表了一系列文章,對與漢字字料庫的本體理論和實體建設(shè)相關(guān)的幾個問題進(jìn)行了深入探討。柳建鈺、王曉旭[8]指出,字料庫建設(shè)可以劃分為規(guī)劃階段、需求分析階段、設(shè)計階段、實現(xiàn)階段、字料采集階段、字料標(biāo)注階段、使用及維護(hù)階段七個階段,每個階段的建設(shè)都要以符合規(guī)范為目標(biāo)。在字料庫平臺具體建設(shè)過程中,對字料的標(biāo)注工作是重點。字料標(biāo)注的好壞、標(biāo)注原則適用性的強(qiáng)弱都直接影響字料庫質(zhì)量的高低。柳建鈺[9]特別指出,在字料庫的建設(shè)中,要注意對字料的標(biāo)注,標(biāo)注的原則要科學(xué)化,注意通用性等原則,在字料標(biāo)注中漢字基本屬性標(biāo)注是基礎(chǔ),構(gòu)形信息標(biāo)注是核心,字際關(guān)系標(biāo)注是重點。作者強(qiáng)調(diào),字料庫能夠真實如實地反映漢字信息,客觀、真實、多功能地反映漢字?jǐn)?shù)據(jù)信息。柳建鈺[10]認(rèn)為,漢字字料庫是是漢字研究現(xiàn)代化、信息化的重要基礎(chǔ)。字料庫漢字學(xué)是一門集理論研究與實踐研究于一體的交叉學(xué)科,能為信息時代的漢字整理與漢字學(xué)研究工作提供一個強(qiáng)大的理論指導(dǎo)武器。目前,漢字字料庫的實體建構(gòu)和字料庫漢字學(xué)的系統(tǒng)研究都還處在起步階段,但未來二者一定會取得長足的發(fā)展。

針對漢字字料庫理論的提出背景和主要價值,柳建鈺[11]認(rèn)為,漢字字料庫理論的形成,是在當(dāng)前多學(xué)科交叉綜合研究方法日益受到學(xué)界重視的歷史條件下,在漢字整理研究的實踐過程中,在總結(jié)歷代及當(dāng)前漢字整理研究的經(jīng)驗教訓(xùn)的基礎(chǔ)上,通過借鑒語料庫理論及語料庫語言學(xué)成功發(fā)展的寶貴經(jīng)驗,逐步形成和發(fā)展起來的,同時也是學(xué)者對漢字整理研究工作進(jìn)行長期探索與實踐的必然結(jié)果。漢字字料庫理論豐富了漢字學(xué)理論體系,是對學(xué)科交叉綜合研究方法的一種新嘗試,可以用來指導(dǎo)當(dāng)前的漢字整理研究實踐,在漢字學(xué)研究方法論上也將產(chǎn)生重要的影響。

通過建立字料庫,對真實文本(包括語篇文獻(xiàn)和字書文獻(xiàn))的研究,是當(dāng)前及未來漢字學(xué)研究的一條新道路。北京師范大學(xué)文學(xué)院漢語言文字學(xué)專業(yè)的研究生進(jìn)行了一系列研究,主要成果包括:朱玉華《基于字料庫的20世紀(jì)50年代社會用字調(diào)查及規(guī)范研究》(2011)、侯佳利《基于〈人民日報〉字料庫的20世紀(jì)60年代用字調(diào)查及規(guī)范研究》(2011)、毛承慈《基于字料庫的〈詩經(jīng)〉文字研究》(2012)、王穎《基于字料庫的〈尚書〉文字研究》(2012)、劉凝《基于字料庫的〈春秋左氏傳〉字頻統(tǒng)計與研究》(2012)、馮莉《基于〈孟子〉字料庫的字頻統(tǒng)計與研究》(2012)。以上論文都借用字料庫平臺對語篇文獻(xiàn)中的漢字進(jìn)行詳盡分析,從字形、字音、字義和字頻等角度切入進(jìn)行研究,這對字料庫實體建設(shè)和基于字料庫的漢字學(xué)研究均具有重要的作用。

三、字料庫及類字料庫建設(shè)現(xiàn)狀分析

目前已經(jīng)研發(fā)出的字料庫主要包括北京師范大學(xué)字料庫(BNUZLK)、渤海大學(xué)字書字料庫(CCFD)兩種;類字料庫主要包括華東師范大學(xué)古今文字及歷代字書資源庫、北京時代瀚堂科技有限公司“瀚堂小學(xué)類數(shù)據(jù)庫”、臺灣“異體字字典”、臺灣“中央研究院”“漢字構(gòu)形數(shù)據(jù)庫”及“小學(xué)堂文字學(xué)數(shù)據(jù)庫”等六種。下面予以簡要介紹。

(一)北京師范大學(xué)字料庫(BNUZLK)

BNUZLK系統(tǒng)是建立在真實文本基礎(chǔ)上的超大規(guī)模的漢字?jǐn)?shù)據(jù)庫,對漢字的歷時演變與共時比較都具有重要的意義。該軟件系統(tǒng)由北京中易中標(biāo)電子信息技術(shù)有限公司開發(fā),主要是為了適應(yīng)現(xiàn)階段漢字本體研究與系統(tǒng)整理的迫切需求,同時也可以滿足古籍?dāng)?shù)字化的要求。

圖1 瀚堂小學(xué)類數(shù)據(jù)庫

(二)渤海大學(xué)字書字料庫(CCFD)

圖2 渤海大學(xué)字書字料庫(CCFD)

CCFD字書字料庫[12]由渤海大學(xué)文學(xué)院柳建鈺研制開發(fā),它是建立在歷代字書真實文本上的字書字料庫,借助該字料庫可以對字書中的漢字從構(gòu)形和字際關(guān)系等方面進(jìn)行研究。目前,CCFD字料庫收錄包括《說文》《玉篇》《康熙字典》等在內(nèi)的近20部字書,已經(jīng)標(biāo)注過的字料信息將近52萬條。授權(quán)用戶可以免費試用。

(三)華東師范大學(xué)古今文字及歷代字書資源庫

圖3 華東師范大學(xué)古今文字及歷代字書資源庫

華東師范大學(xué)古今文字及歷代字書資源庫(http://www.wenzi.cn/web/content.aspx?moduleid=22&parentid=20)是由華東師范大學(xué)中國文字研究與應(yīng)用中心承擔(dān)研制,對漢字的屬性、釋義、字形結(jié)構(gòu)等方面都進(jìn)行了比較完善的標(biāo)注。該資源庫大部分內(nèi)容可以免費使用。

(四)瀚堂小學(xué)類數(shù)據(jù)庫

圖4 北京師范大學(xué)字料庫(BNUZLK)

北京時代瀚堂科技有限公司研制的“瀚堂小學(xué)類數(shù)據(jù)庫”(http://www.hytung.cn)下轄多個各具特色的分庫。到目前為止,總共加工完成并入庫管理的圖書品種已達(dá)300種,形成的記錄條目亦近300萬條。該數(shù)據(jù)庫需要購買方可使用。

(五)臺灣《異體字字典》

圖5 臺灣《異體字字典》

《異體字字典》(http://dict.variants.moe.edu.tw/)由臺灣省國語推行委員會編制,在最新的網(wǎng)絡(luò)版(2012年正式六版試用版)中,收錄62種古今字書文獻(xiàn)相應(yīng)的異體字形,共計106230字,其中字正29 892字,異體字76 338字。該字典絕大部分資源可以免費使用。

(六)小學(xué)堂文字學(xué)數(shù)據(jù)庫

圖6 小學(xué)堂文字學(xué)數(shù)據(jù)庫

由臺灣大學(xué)中國文學(xué)系、“中央研究院”歷史語言所、資訊科學(xué)研究所等共同發(fā)開的“漢字構(gòu)形數(shù)據(jù)庫”及“小學(xué)堂文字學(xué)數(shù)據(jù)庫”(http://xiaoxue.iis.sinica.edu.tw/)是一種大形的漢字字形資源庫。內(nèi)含甲骨文、金文、小篆、楷書等字形,該數(shù)據(jù)庫可以免費使用。

四、前期研究和建設(shè)的成績與不足

(一)成績

字料庫的建設(shè)為漢字整理與研究開拓了新的領(lǐng)域。在字料庫出現(xiàn)之前,人們對漢字的整理和研究在很多情況下是片面的、零散的,而字料庫則可以對數(shù)量龐大的真實文本中的漢字進(jìn)行系統(tǒng)分類整理,能夠為漢字整理和漢字學(xué)研究提供海量的直觀而清晰的字料,字形呈現(xiàn)相對集中的特點尤為明顯,從而方便人們進(jìn)行研究。這種將計算機(jī)技術(shù)與漢字學(xué)相結(jié)合而產(chǎn)生的新事物,對全漢字整理和漢字學(xué)研究能夠發(fā)揮不可估量的作用。

就現(xiàn)階段來看,字料庫的建設(shè)和研究正在逐步完善。就實體建構(gòu)來說,北京師范大學(xué)研制的BNUZLK字料庫系統(tǒng)和渤海大學(xué)研制的CCFD字書字料庫系統(tǒng)對漢字學(xué)的研究與字料庫的發(fā)展具有重要的意義。在字料庫研究方面,學(xué)界在字料庫系統(tǒng)建設(shè)、字頻研究、字料標(biāo)注等問題上都取得了比較可觀的研究成果,研究方法逐漸規(guī)范和完善,因漢字字料庫的實體構(gòu)建和在此基礎(chǔ)上漢字整理研究工作所取得的成就,已引起學(xué)界廣泛關(guān)注。

(二)不足

現(xiàn)階段字料庫的建設(shè)和研究也還存在一些不足,可以歸納為二“少”和三“低”兩點。

1. 二“少”。一是專門從事字料庫研究的學(xué)者少。字料庫概念提出近十年,專門從事字料庫研究的學(xué)者依舊很少。二是大型字料庫及類資料庫實體建構(gòu)成果少。目前,具有一定規(guī)模的實體建構(gòu)成果卻為數(shù)不多,例如北京師范大學(xué)字料庫(BNUZLK)、渤海大學(xué)字書字料庫(CCFD)、華東師范大學(xué)古今文字及歷代字書資源庫等,相對豐富完善的字料庫及類資料庫的建設(shè)亟須深入。

2. 三“低”。其一是共享程度低。到目前為止,已建成的字料庫還沒有徹底實現(xiàn)全社會共享。其二是自動化程度低。以渤海大學(xué)字書字料庫(CCFD)為例,現(xiàn)階段在對字料信息輸入時采用的是人工切圖的方式,工作量大。需要不斷完善自動分析版面和自動識別字形的技術(shù),進(jìn)而提高整個字料庫工作系統(tǒng)平臺的工作效率。其三是標(biāo)準(zhǔn)化品質(zhì)水平較低。在字料采集、標(biāo)注等加工過程中,很多問題還沒有深入探討,沒有形成能被學(xué)界廣泛認(rèn)可的標(biāo)準(zhǔn)化模版。

隨著信息時代的發(fā)展和漢字整理研究工作的不斷深入,建立漢字字料庫并展開基于字料庫的漢字學(xué)研究已經(jīng)迫在眉睫。漢字字料庫在漢字學(xué)研究中具有優(yōu)越性,在漢字的歷時與共時的整理研究中都能發(fā)揮重要作用。相信將來漢字字料庫的信息標(biāo)注會更加完善,字料庫系統(tǒng)的漢字信息收錄量會不斷增加,自動化水平會有很大的提升,漢字字料庫將會朝著更加系統(tǒng)化、共享化的方向發(fā)展,為漢字整理和漢字學(xué)研究開辟一條嶄新的道路。

[1] 李國英, 周曉文. 字料庫建設(shè)的必要性與可行性[J]. 北京師范大學(xué)學(xué)報(社會科學(xué)版), 2009(5).

[2] 周曉文, 李國英, 王穎, 等. BNUZLK字料庫系統(tǒng)的建構(gòu)與應(yīng)用[J]. 民俗典籍文字研究, 2014(1): 111.

[3] 李國英,周曉文. 漢字字頻統(tǒng)計方法的改進(jìn)[J]. 北京師范大學(xué)學(xué)報(社會科學(xué)版), 2011(6): 50.

[4] 毛承慈. 基于語料庫的漢字研究綜述[J]. 語文學(xué)刊, 2011(10): 42.

[5] 王平. 數(shù)據(jù)庫漢字學(xué)芻議——以魏晉南北朝石刻用字?jǐn)?shù)據(jù)庫與斷代漢字發(fā)展史研究為例[J]. 中國文字研究, 2013(17): 159.

[6] 朱翠萍, 周曉文, 陳瑩. 基于字料庫平臺的字書整理研究[J]. 中國出版, 2013(12): 56.

[7] 周曉文, 李國英, 朱翠萍, 等. 基于字料庫的開放式異體字整理平臺的設(shè)計與實現(xiàn)[J]. 中國文字學(xué)報, 2015(6): 280.

[8] 柳建鈺, 王曉旭. 試論字料庫系統(tǒng)建設(shè)的七個階段[J]. 渤海大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2015(6): 75.

[9] 柳建鈺. 字書字料庫中字料標(biāo)注若干問題芻議[J]. 語言文字應(yīng)用, 2015(8): 133.

[10] LIU Jian-Yu. Analyzing of Chinese Character Form Database (CCFD) and the Study of CCFD[G]//Jian-min CHEN. Proceedings of 2nd Annual International Conference on Social Science and Contemporary Humanity Development (SSCHD2016). Amsterdam: Atlantis Press, 2016: 137-140.

[11] 柳建鈺. 試論漢字字料庫理論的提出背景及其價值[J]. 渤海大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2017(1): 82.

[12] 柳建鈺. 國內(nèi)首個字書漢字字料庫系統(tǒng)在錦州研發(fā)成功[N]. 錦州日報(綜合新聞), 2015-10-21(A02).

(責(zé)任編校:葉景林)

10.15916/j.issn1674-327x.2017.02.019

H31

A

1674-327X (2017)02-0063-04

2016-11-01

2013年度教育部人文社會科學(xué)研究青年基金項目(13YJCZH117); 2014年度國家社會科學(xué)基金青年項目(14CYY060); 2014年度國家社科基金重大項目(14ZDB099)

單志鵬(1993-),男,遼寧東港人,碩士生。

猜你喜歡
字書語料庫整理
《語料庫翻譯文體學(xué)》評介
大型字書疑難字新考
無字書圖書館(節(jié)選)
高一零碎知識整理
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
雁字書
語篇元功能的語料庫支撐范式介入
祖昌教孫讀“無字書”
整理“房間”
整理房間