齊 凌
(浙江圖書館,浙江 杭州 310007)
信息技術(shù)的發(fā)展,改變了圖書館的傳統(tǒng)工作模式。以圖書館內(nèi)部業(yè)務(wù)處理為核心的圖書館自動(dòng)化系統(tǒng)已經(jīng)成為圖書館業(yè)務(wù)發(fā)展的必然選擇。圖書館服務(wù)與圖書館自動(dòng)化系統(tǒng)是密不可分的,圖書館要提供更好的服務(wù)需要有自動(dòng)化系統(tǒng)的支持,而自動(dòng)化系統(tǒng)的研發(fā)則基于圖書館服務(wù)的需求,二者相互促進(jìn),共同發(fā)展?;诜?wù)和發(fā)展的需要,浙江圖書館于 1998年 8月引進(jìn)并開始使用美國 Innovative Interface公司的 INNOPAC圖書管理系統(tǒng)。整個(gè)系統(tǒng)包括流通、采訪、編目、期刊、Webopac等模塊。
在使用 INNOPAC的過程中,我們碰到了部分字符無法顯示的問題。1998年起始我們使用的是字符界面的版本 INNOPAC,當(dāng)時(shí)系統(tǒng)的內(nèi)碼使用的是 CCCII碼,字符集采用的是 GB字符集。由于GB字符集的字符數(shù)量比較少,只有 682個(gè)符號(hào)和6763個(gè)漢字,INNOPAC系統(tǒng)無法接受 GB字符集以外的其他字符,從其他數(shù)據(jù)庫套錄的數(shù)據(jù)也會(huì)因?yàn)檫@個(gè)原因有部分字符無法顯示。再加上老版本采用的是 Telnet的字符界面,操作性和可視性都不太強(qiáng)。因此我們?cè)?2005年升級(jí)系統(tǒng)至 Millennium Silver 1.1,即新世紀(jì)銀版。新世紀(jì)銀版使用了 Unicode碼,采用 UTF-8編碼方式,以 GBK字符集為缺省中文字符集。但新世紀(jì)銀版的 Unicode表和 UTF-8表并沒有完整的收錄 GBK字符集中的所有字符,這就導(dǎo)致了系統(tǒng)升級(jí)到新世紀(jì)銀版后,系統(tǒng)的漢字仍舊存在問題,部分漢字的顯示仍舊出錯(cuò)。之后 Innovative公司陸續(xù)推出升級(jí)版本,2007年又升級(jí)至 Millennium 2006版。這個(gè)版本對(duì)漢字的處理雖然有所改善,但仍有很多問題存在,系統(tǒng)的 Unicode表和 diac.gbk.unicode表仍然沒有能夠收錄全,部分簡(jiǎn)體字和繁體字的對(duì)應(yīng)關(guān)系沒有做好對(duì)應(yīng),仍存在部分漢字無法顯示的問題。特別是系統(tǒng)在 05年從字符模式升級(jí)到圖形界面時(shí),系統(tǒng)內(nèi)碼由 CCCII碼轉(zhuǎn)換到 UNICODE碼時(shí)出錯(cuò)的數(shù)據(jù),仍然大量存在于系統(tǒng)中。在 Millennium工作人員界面和 OPAC界面上檢索,幾乎沒有哪個(gè)頁面是不存在亂碼或內(nèi)碼的問題。
漢字顯示問題不能完全解決,將影響系統(tǒng)各個(gè)業(yè)務(wù)環(huán)節(jié)的正常使用。首先采訪的查重會(huì)有問題,一旦遇到有問題的漢字,查重結(jié)果的準(zhǔn)確性就得不到保證。同樣,問題也出現(xiàn)在編目模塊和流通模塊。再加上編目過程中很多漢字輸入后無法保存,這樣編目信息的準(zhǔn)確性、完整性也得不到保證。流通模塊的讀者信息也同樣存在漢字問題,如果遇到不能顯示的漢字只能用拼音表示,這樣給工作人員和讀者都帶來不便。讀者使用OPAC進(jìn)行相關(guān)檢索功能時(shí),檢索結(jié)果的準(zhǔn)確性會(huì)打折扣。
Millennium系統(tǒng)的漢字顯示問題并不單獨(dú)存在,大陸地區(qū)使用新世紀(jì)銀版的用戶,如清華大學(xué)圖書館、西安電子科技大學(xué)圖書館、華中科技大學(xué)圖書館等多家圖書館都存在類似的問題,各館也都在積極的尋求徹底解決問題的方法。
要解決字符顯示的問題,首先需要搞清楚系統(tǒng)中字符顯示出錯(cuò)有哪些情況。對(duì) Millennium系統(tǒng)字符問題進(jìn)行了分析,字符顯示錯(cuò)誤的情況主要有以下幾種:
(1)漢字顯示為異體字。這種情況漢字在系統(tǒng)中顯示的并非為我們常用的簡(jiǎn)體字,而是對(duì)應(yīng)的繁體字或是異體字。這種情況在系統(tǒng)中出現(xiàn)的頻率很高,而且很多字都是常用字,例如下表:
(2)漢字顯示為 EACC碼。這種情況系統(tǒng)中的漢字顯示為一串帶大括號(hào)的字符串,如:{213538}。出現(xiàn)這種情況的漢字一共有 90個(gè),也有一部分為常用字。工作人員或者讀者在遇到這些字符串的時(shí)候往往無法分辨出對(duì)應(yīng)的漢字,對(duì)系統(tǒng)應(yīng)用帶來了很大不便。
(3)漢字顯示為亂碼。出現(xiàn)這個(gè)問題的漢字?jǐn)?shù)量比較多,大部分都不是常用字,日常使用中很難發(fā)現(xiàn),但帶來的后果是一樣的,工作人員和讀者無法正常檢索到該記錄。
(4)符號(hào)顯示為亂碼。這種情況與上述情況類似,不同點(diǎn)就在標(biāo)點(diǎn)或者一些字符上,對(duì)檢索也會(huì)帶來不便。
(5)部分漢字和符號(hào)無法在 Millennium系統(tǒng)中保存。由于漢字和字符無法在系統(tǒng)中保存,導(dǎo)致讀者根本無法檢索到這些記錄,這對(duì)工作人員查重以及讀者檢索帶來很多問題。
(1)查找并修改系統(tǒng)中的錯(cuò)誤字符。對(duì)比系統(tǒng)中的 diac.gbk.unicode表和標(biāo)準(zhǔn)的 UNICODE表,找出 diac.gbk.unicode表中缺少的字符,一共1734個(gè)漢字,符號(hào) 108個(gè)。把缺少的字符的 UNICODE碼提交給 Innovative公司,要求公司在 diac.gbk.unicode表中補(bǔ)全。
(2)查找出系統(tǒng)中存在的所有 EACC碼共 90個(gè),把這 90個(gè) EACC碼對(duì)應(yīng)的中文字符及 UNICODE碼提交給 Innovative公司,要求公司修改 diac.gbk.unicode表中的 EACC碼為正確的 UNICODE碼。
(3)查找出顯示為異體字的漢字 38個(gè),顯示亂碼的字符 242個(gè)。
(4)修改系統(tǒng)中的錯(cuò)誤字符及方法。公司于2009年 3月底修改完 diac.gbk.unicode表。接著修正 Millennium系統(tǒng)中有問題的數(shù)據(jù),包括讀者數(shù)據(jù)和書目數(shù)據(jù)。具體的修改方法是:通過資料檔抓出錯(cuò)誤的讀者數(shù)據(jù)、書目數(shù)據(jù),每個(gè)資料檔的數(shù)據(jù)不能超過 25000條,再利用全域更新,用正確的字符替代錯(cuò)誤的字符。因?yàn)閷?duì)系統(tǒng)數(shù)據(jù)進(jìn)行全域更新會(huì)影響系統(tǒng)速度,對(duì)流通借還的影響比較大,借還書的速度很慢,借還數(shù)據(jù)不能及時(shí)更新。所以必須避開借還高峰期,利用下班以及周一閉館日進(jìn)行數(shù)據(jù)修改。還有一點(diǎn)在做全域更新時(shí)要關(guān)注系統(tǒng)處理檔(transaction file)的大小,不能超出上限,否則在做全域更新的這個(gè)資料檔的所有數(shù)據(jù)會(huì)全部被鎖住,這些數(shù)據(jù)將不能進(jìn)行任何操作。
從 2009年初開始修改至今,已經(jīng)修改了 360余個(gè)漢字與符號(hào),常用的漢字、符號(hào)基本修改完成。累計(jì)修改數(shù)據(jù) 3268314條(其中修改異體字2581111條,修改 EACC碼 272770條,修改亂碼數(shù)據(jù) 416707條)。目前在 Millennium工作人員界面和 OPAC界面上檢索,基本看不到明顯的亂碼或者異體字。漢字內(nèi)碼問題的解決,提高了查重的準(zhǔn)確性,避免了因漢字問題導(dǎo)致的數(shù)據(jù)無法檢索,提高 OPAC的檢索準(zhǔn)確率。
〔1〕Innovative Guide& Reference Release 2006Rev.1.Innovative Interfaces,Inc.,2007