国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

古籍?dāng)?shù)字化中的集外字處理問題研究*

2013-02-15 05:28:59
圖書館研究 2013年5期
關(guān)鍵詞:字符集異體字錯誤率

肖 禹

(中國國家圖書館,北京 100034)

經(jīng)過近三十年的發(fā)展, 古籍?dāng)?shù)字化研究與實踐取得了豐碩的成果, 產(chǎn)生了一大批有影響的古籍?dāng)?shù)字化項目。 這些古籍?dāng)?shù)字化項目具有檢索和瀏覽的功能,但在文字處理方面還有所欠缺。古籍中大量的避諱字、異體字、少數(shù)民族文字、草體字(手抄本中的)都在一定程度上限制了古籍?dāng)?shù)字化的轉(zhuǎn)換和檢索[1]。 目前,對古籍?dāng)?shù)字化中的文字處理的研究主要有兩類: 一類是從整體上探討古籍?dāng)?shù)字化中的文字處理; 另一類是從具體項目的角度出發(fā)討論具體處理方法。 現(xiàn)有的研究往往從學(xué)術(shù)角度出發(fā),以異體字處理為研究重點,提出系列異體字處理原則, 或基于某個項目提出異體字的處理方法。 這些研究為古籍?dāng)?shù)字化中的文字處理提供了思路和方法,但也存在一些不足:其一,未能明確定義異體字的處理范圍;其二,未能分別給出集內(nèi)異體字和集外異體字的處理方法;其三,未能給出異體字處理的工程化方法。

本文立足于大規(guī)模古籍?dāng)?shù)字化項目, 從工程和技術(shù)實現(xiàn)的角度探討古籍?dāng)?shù)字化過程中的集外字處理問題。之所以以集外字為研究對象,原因有三:其一,集外字雖然是一個相對概念,但是若字符集固定,集外字的范圍就是固定的;其二,在大規(guī)模古籍?dāng)?shù)字化項目中,集外字大量存在,集外字處理問題無法回避;其三,集外字無法直接輸入、處理和顯示,必須采用其他的技術(shù)和方法,相關(guān)的研究與實踐還存在很多的問題。

1 字符集與集外字

字符集是描述多個文字和符號的集合[2],在古籍?dāng)?shù)字化中最常用的是Unicode 字符集。 Unicode 是一個經(jīng)過字符寬度整合的編碼方式, 它是為文字及符號所建立的國際性編碼, 幾乎覆蓋世界上任何一種語言的字符[3]。目前,Unicode 的最新版本是6.2[4],是符合國際標(biāo)準(zhǔn)(ISO10646)收錄漢字最多的字符集,共收字74 566 個,其中CJK 基本集收字20 902 個, 擴A 集收字6 582 個, 擴B集收字42 711 個,擴C 集收字4 149 個,擴D 集收字222 個。

集外字是指字符集所不包含的文字, 若不采用其他的技術(shù)和方法,集外字無法輸入、處理和顯示。 集外字的數(shù)量與字符集的收字?jǐn)?shù)量直接相關(guān),若數(shù)字化對象的用字總量和文字處理規(guī)則固定,字符集收錄的文字越多,集外字的數(shù)量越少。 以國家圖書館數(shù)字方志項目第一期 (全文數(shù)字化明至民國間的方志744 種,14 682 卷,506485 筒子頁,采用鍵盤手工錄入方式進(jìn)行全文數(shù)字化,使用“中易漢神e”漢字系統(tǒng),支持CJK 基本區(qū)、擴A 區(qū)和擴B 區(qū)的7 0195 個字符)為例,使用CJK 基本區(qū)1 6801 個字 (203 781 248 次),CJK 擴A 區(qū) 的2 959 個字 (274 847 次),CJK 擴B 區(qū)9 117 個 字(732 675 次)。 若使用GBK 字符集 (收錄21 003個字),集外字將多出12 136 個(1 007 522 次),若使用GB18030-2000 字符集(收錄27 533 個字),集外字將多出9 117 個字(732 675 次)。 可見,字符集的選擇對集外字的數(shù)量有很大的影響。

因字符集主要收錄楷書字,收字尚不完備,無法完全滿足古籍?dāng)?shù)字化的需求,集外字大量存在。以數(shù)字方志項目的文字錄入實驗為例, 選取明至民國間刻印的方志100 種(5 0000 余頁),文字總量超過2 000 萬字,完全按字形比對,集內(nèi)字只占38%,除了少量模糊字外(低于0.5%),其余都是集外字。 逐一分析這些集外字,由于書寫變異造成筆畫細(xì)微差異的字占58%,占集外字的絕大多數(shù),這些字完全可以認(rèn)同為集內(nèi)字。 可見,在古籍?dāng)?shù)字化項目中集外字普遍存在, 僅靠擴大字符集收字范圍不能解決集外字處理問題, 還需要一系列的集外字處理方法。

2 集外字處理方法

采用OCR(Optical Character Recognition,光學(xué)字符識別)或鍵盤錄入古籍文字,集外字都無法直接輸入,必須引入集外字處理方法。 常見的集外字處理方法有:

(1)替換法。 替換法是將集外字變換為其他可以輸入的形式,如符號、圖形和集內(nèi)字。 一是符號替換。 在OCR 或文字錄入的過程中,將集外字直接替換為某個特定符號, 這是最簡單的集外字處理方法。 在保存為純文本的古籍全文數(shù)據(jù)建設(shè)中常采用這種方法,但這種方法存在以下幾個問題:其一,集外字統(tǒng)一替換為某個符號,這些符號基本沒有檢索意義;其二,替換符號未能保留集外字的任何信息,當(dāng)字符集變更時,集外字無法管理;其三,常用的替換符號有等,這些符號在古籍中都較為常用, 用戶無法區(qū)別這些符號是古籍中原有的,還是由于數(shù)字化造成的。 二是圖形替換。 將集外字替換為圖形,圖形數(shù)據(jù)保留了集外字的字形特征,但是圖形數(shù)據(jù)不能直接檢索。 圖形數(shù)據(jù)的引入,增強了全文數(shù)據(jù)的顯示效果,同時,為了支持檢索和后續(xù)的管理維護, 圖形數(shù)據(jù)要添加必要的描述信息。 在數(shù)字化項目中將集外字替換為圖形,圖形的采集、處理和存儲都需要加工軟件的支持。 三是集內(nèi)字替換。 相對于特定符號和圖形,將集外字替換為集內(nèi)字是更好的處理方法,但這種替換要滿足兩個基本條件: 數(shù)字化項目對文字字形沒有嚴(yán)格的要求,允許對異體字、避諱字、訛誤字等進(jìn)行規(guī)范;集外字可以替換為集內(nèi)字,這兩個字讀音、含義和用法都相同。 在大規(guī)模數(shù)字化項目中,將集外字替換為集內(nèi)字有一定的難度,對人員素質(zhì)有較高的要求。 在國家圖書館數(shù)字方志項目集外字中, 由于書寫變異造成筆畫微異的異體字占58%, 由于偏旁簡省造成的異寫字和由于隸定造成的異寫字占2%,異構(gòu)字和其他情況(非異體字) 占2%。 異寫字轉(zhuǎn)換的平均錯誤率為0.27‰,異構(gòu)字轉(zhuǎn)換的平均錯誤率為0.52‰,而集內(nèi)字轉(zhuǎn)換的平均錯誤率僅為0.22‰。 可見,將集外字替換為集內(nèi)字會影響數(shù)字化項目的錯誤率,錯誤率與替換的難度成正比, 難度越大, 錯誤率越高。

(2)造字法。 造字法是在字符集的自定義區(qū)為集外字定義編碼, 這些編碼與集外字的字形一一對應(yīng)。 只要有字符集自定義編碼區(qū)的支持,造字的檢索與顯示和集內(nèi)字完全相同。 以《文淵閣四庫全書電子版3.0 版》為例,該項目采用了Unicode5.0字符集,整個項目共造字12 592 個[5]。若使用造字法處理集外字,必須有集外字管理、輸入法管理、造字、字符集自定義區(qū)管理等一系列工具。Unicode字符集允許用戶自定義編碼, 專門設(shè)置了私用區(qū)(Private Use Area),私用區(qū)、增補私用A 區(qū)和增補私用B 區(qū)共有137 468 個碼位。雖然Unicode 字符集有較多的碼位可供造字使用, 但是如果將古籍中出現(xiàn)的所有字形,不做必要的文字規(guī)范,也不區(qū)分字體、 書體, 只要字形與字符集中的字形有差異, 就簡單地做造字處理, 這些碼位也會很快耗盡。 同時,Unicode 對私用區(qū)基本沒有限制,不同的古籍?dāng)?shù)字化項目對私用區(qū)的使用可能完全不同,同一個自定義編碼在不同的項目中表示不同的字形,若同時使用這些古籍?dāng)?shù)字化項目,將發(fā)生私用區(qū)編碼沖突,造成文字編碼錯誤。

(3)描述法。 描述法是將集外字表示為一個字符串,這個字符串描述了集外字的字形。 目前,較為常用的描述方法有 《漢語文古籍機讀目錄格式使用手冊》 中393 字段系統(tǒng)外字附注的外字描述方法[6]、臺灣開發(fā)的漢字構(gòu)形數(shù)據(jù)庫使用的構(gòu)字式描 述 方 法[7]、Unicode 的IDS(Ideographic Description Sequence,表意描述序列)描述方法[8]等。 描述法既可以獨立使用,也可以和替換法一起使用,如香港理工大學(xué)開發(fā)的“中文古籍網(wǎng)上出版平臺”將集外字替換為圖形,并用IDS 進(jìn)行描述。

3 集外字處理方案

3.1 集外字處理方案實例

3.1.1 《文淵閣四庫全書》電子版項目

《文淵閣四庫全書》電子版項目以《景印文淵閣四庫全書》為底本,由上海人民出版社和迪志文化出版有限公司合作出版, 迪志文化出版有限公司、 書同文電腦技術(shù)開發(fā)有限公司承辦全部開發(fā)制作工程, 清華大學(xué)計算機系負(fù)責(zé)OCR 引擎開發(fā),北大方正電子有限公司負(fù)責(zé)建立專用字庫,微軟公司(北京)研究開發(fā)中心在平臺技術(shù)等方面提供技術(shù)援助[9]。 基于當(dāng)時的技術(shù)條件,該項目使用CJK+字庫 (包含符合Unicode 標(biāo)準(zhǔn)的CJK 和CJK擴A 編碼, 自定義編碼4 296 個, 共收字31 780個),使用OCR 方式進(jìn)行全文轉(zhuǎn)換。 該項目的集外字處理方案:(1)參照遵守ISO10646/Unicode 的認(rèn)同規(guī)則對集外字進(jìn)行有控制的異體代換。 微小筆形差異視作異寫, 應(yīng)認(rèn)同之而不加標(biāo)記。 在Unicode 中兩個異體字都有編碼時, 應(yīng)選與書中字跡最接近者。 其他異體代換,必須標(biāo)記相似符號“~”。(2)對原書中的模糊之處(“模糊字”),實在難以辨別者,保留其原圖形作“□”處理,并加以說明。 (3)無法認(rèn)同的集外字保留原圖形并做字形描述,依據(jù)字形描述進(jìn)行字頻統(tǒng)計, 高字頻集外字做造字處理,低字頻集外字替換為構(gòu)字符或“□”。 (4)甲骨文、金文、篆文等字體直接替換為圖形。

3.1.2 數(shù)字方志項目

數(shù)字方志項目始于2002 年,到目前為止已掃描舊志(1949 年以前編輯出版的地方志)6 868 種(3 349 651 筒子頁), 已全文數(shù)字化2 821 種(1 742 176 筒子頁)。 該項目使用支持Unicode5.0 的字庫(CJK、CJK 擴A 和CJK 擴B 編碼,共收字70 195 個),使用人工錄入方式進(jìn)行全文轉(zhuǎn)換。該項目的集外字處理方案:(1)參照《漢語大字典》對集外字中的異寫字進(jìn)行認(rèn)同, 認(rèn)同為本字或字形相近的異體字,不加標(biāo)記。 異構(gòu)字認(rèn)同為本字或字形相近的異體字,并添加文字認(rèn)同標(biāo)記。 (2)模糊字替換為圖形,并添加模糊字標(biāo)記。 若模糊字無法反映任何字形信息,則替換為“□”,并添加模糊字標(biāo)記。 (3)無法認(rèn)同的集外字替換為圖形,并給圖形添加IDS 描述。 若無法進(jìn)行IDS 描述,則添加其他方式的描述。

3.2 集外字處理方案評價

集外字處理是古籍?dāng)?shù)字化的重要環(huán)節(jié)之一,不僅影響全文數(shù)據(jù)的質(zhì)量和使用效果, 而且影響項目成本、管理和維護。 因此,對集外字處理方案評價也要從檢索效果、顯示效果、錯誤率、復(fù)雜度、擴展性等方面來進(jìn)行。

3.2.1 檢索效果

檢索效果是指集外字處理后能否檢索, 以及檢索集外字是否需要附加條件。 古籍全文數(shù)據(jù)庫的核心功能是檢索, 若集外字無法檢索或檢索困難,將大大降低古籍全文數(shù)據(jù)庫的可用性。 在《文淵閣四庫全書》 電子版項目中, 集外字替換為圖形、“□”、構(gòu)字符等,可以顯示(“□”和構(gòu)字符無法顯示集外字字形),但是無法檢索。 在數(shù)字方志項目中,替換為集內(nèi)字的集外字可以檢索,替換為圖形的集外字可以借助IDS 描述實現(xiàn)檢索, 但是需要額外的軟件支持。

3.2.2 顯示效果

顯示效果是指集外字處理后能否正常顯示,以及這種顯示方式是否符合用戶的要求。 若集外字無法正常顯示, 將大大降低古籍全文數(shù)據(jù)庫的可用性。 在《文淵閣四庫全書》電子版項目中,全部集外字都能顯示,但是替換為“□”和構(gòu)字符的集外字顯示意義不大, 而且集外字顯示為構(gòu)字符不符合用戶的閱讀習(xí)慣。 在數(shù)字方志項目中,全部集外字都能顯示,但是替換為“□”的集外字顯示意義不大。

3.2.3 錯誤率

錯誤率是指集外字處理發(fā)生錯誤的比率,以及集外字處理對全文數(shù)據(jù)庫平均錯誤率的影響。平均錯誤率反映了全文數(shù)據(jù)庫的總體質(zhì)量, 錯誤率直接決定了全文數(shù)據(jù)庫的可用性。 《文淵閣四庫全書》 電子版項目沒有相關(guān)的數(shù)據(jù), 無法做出評價。 在數(shù)字方志項目中, 集外字處理的錯誤率為0.278‰,與文字錄入實驗的錯誤率基本一致,符合該項目平均文字錯誤率低于0.3‰的要求。

3.2.4 復(fù)雜度

復(fù)雜度是對集外字處理成本和可實現(xiàn)性的度量,這是數(shù)字化工程管理和工藝設(shè)計的重要指標(biāo)?!段臏Y閣四庫全書》電子版項目和數(shù)字方志項目的集外字處理方案都能滿足項目的要求, 符合項目的時間成本和資金成本要求。

3.2.5 擴展性

擴展性是對集外字?jǐn)?shù)據(jù)遷移、管理、維護能力的度量,尤其是當(dāng)字符集發(fā)生版本變更時,集外字?jǐn)?shù)據(jù)能否自動或半自動遷移到新版本的字符集中。 《文淵閣四庫全書》電子版項目使用了自定義編碼,當(dāng)Unicode 字符集升級到新版本,要將自定編碼的字形與字符集中新納入的文字字形逐一進(jìn)行人工比對,根據(jù)比對的結(jié)果建立編碼映射表,再通過軟件完成映射。 同時,該項目雖然對無法認(rèn)同的集外字部分做了描述, 但是這些描述無法與全文數(shù)據(jù)集成在一起, 也不能和字符集進(jìn)行直接的映射,遷移、管理和維護都很困難。 數(shù)字方志項目未使用自定義編碼, 替換為圖形的集外字絕大部分都有IDS 描述, 當(dāng)Unicode 字符集升級到新版本, 只需將字符集中新納入的文字的IDS 與集外字的IDS 進(jìn)行比對,若兩者相同,則可以直接替換為正式編碼。IDS 也使得日常的集外字管理和維護更為簡便,都可以通過軟件進(jìn)行批量處理。

4 小結(jié)

字符集是一個封閉的系統(tǒng), 雖然中日韓統(tǒng)一漢字(CJK)己達(dá)7 0195 個字符,但是即使將來再加擴展,也只可能是古籍刻寫異體的一個子集,必然有許多字不能重現(xiàn)[10]。 集外字大量存在,集外字處理問題無法回避, 集外字處理直接影響全文數(shù)據(jù)庫的正確率、檢索效果和顯示效果,進(jìn)而影響全文數(shù)據(jù)庫的可用性。 因此,有必要多角度研究集外字處理問題,不斷改進(jìn)和完善集外字處理方案。

[1] 陳力.中文古籍?dāng)?shù)字化的再思考[J].國家圖書館學(xué)刊,2006(2):42-49.

[2] 字符集[EB/OL].[2013-03-30].http://baike.baidu.com/view/51987.htm.

[3] 苗軍.Unicode/XML 在電子出版物中的實現(xiàn)[D].天津:河北工業(yè)大學(xué),2002.

[4] Unicode 6.2.0[EB/OL]].[2013-03-30].http://www.unicode.org/versions/Unicode5.2.0/.

[5] 《文淵閣四庫全書》最新3.0 版(內(nèi)聯(lián)網(wǎng)版/網(wǎng)上版)產(chǎn)品小冊子[EB/OL].[2013-03-30].http://www.sikuquanshu.com/Html/GB/product/download/3.0leaflet_gb.pdf.

[6] 中國國家圖書館館.漢語文古籍機讀目錄格式使用手冊[M].北京:北京圖書館出版社,2001.

[7] 缺字系統(tǒng)整合動態(tài)組字之應(yīng)用 [EB/OL].[2013-03-30].http://itech.ntcu.edu.tw/Tanet%202007/2%5C396.pdf.

[8] Decomposition for ISO/IEC 10646 Ideographic Characters[EB/OL]. [2013 -03 -30].http://acl.ldc.upenn.edu/W/W02/W02-1209.pdf

[9] 中文古籍網(wǎng)上出版平臺系統(tǒng)概要[EB/OL].[2013-03-30].http://e-platform.iso10646hk.net/sysoverview.jsp.

[10] 尉遲治平.電子古籍的異體字處理研究——以電子《廣韻》為例[J].語言研究,2007(3):118-122.

猜你喜歡
字符集異體字錯誤率
限制性隨機試驗中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
異體字字形類似偏旁的互用類型綜合字圖構(gòu)建
偏旁省略異體字研究
MySQL數(shù)據(jù)庫字符集的問題研究
ORACLE字符集問題的分析
常用隸書異體字表(二)
丹青少年(2017年1期)2018-01-31 02:28:30
ORACLE數(shù)據(jù)庫字符集問題及解決方法
正視錯誤,尋求策略
教師·中(2017年3期)2017-04-20 21:49:49
醫(yī)院信息系統(tǒng)Oracle數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)中文亂碼的解決技術(shù)
解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯誤原因
长泰县| 卢氏县| 大埔区| 都昌县| 游戏| 泽库县| 沂南县| 林芝县| 樟树市| 保山市| 武义县| 靖西县| 瑞丽市| 伽师县| 黎城县| 阜宁县| 南皮县| 大同县| 颍上县| 密山市| 图木舒克市| 隆昌县| 越西县| 阳西县| 沅江市| 井研县| 辛集市| 申扎县| 西乌珠穆沁旗| 格尔木市| 都江堰市| 西丰县| 开阳县| 望都县| 上栗县| 宣威市| 承德县| 进贤县| 沂源县| 桓台县| 邳州市|