摘 要:中國大陸近30年的古籍數字化積累了大量的經驗,港臺及國外古籍數字化的實踐經驗亦可作為當前古籍數字化的重要參考。古籍數字化運作的幾個基本問題應重點解決,其最終成果的管理、效用分析是這一重要工程的組成部分。展望未來,數字化古籍在大數據時代,需要與時俱進,明確定位、創(chuàng)新發(fā)展。
關鍵詞:古籍數字化;數字化技術;大數據
古籍數字化是一項地域范圍寬、時間跨度大、涉及行業(yè)廣的工程,近30余年的理論研究和實踐探索,積累了寶貴的經驗,也從中發(fā)現了不少問題,進一步做好古籍保護工作,推進數字化的發(fā)展,需要將古籍數字化視為一項系統(tǒng)性工程,需要將歷史經驗教訓、當前社會發(fā)展需求以及日新月異的科技的有機結合。
1 古籍數字化基礎論
1.1 20世紀80、90年代以來的理論探索、實踐摸索
20世紀90年代末,史睿在《論中國古籍數字化與人文學術研究》中提出,古籍數字化理論問題比技術問題更為重要。此后,更多的研究者關注數字化理論問題。這其中包括概念問題、目標選取問題、管理問題、運作問題等,而尤以概念問題為重。
古籍數字化概念的探索始于21世紀初。2000年,李運富首次在《談古籍電子版的保真原則和整理原則》中提出了古籍數字化概念。此后,一些專家學者在此基礎上不斷補充、修正,如潘德利、彭江岸、喬紅霞、劉琳、毛建軍等專家學者,對古籍數字化概念進行了深入探討,尤其是2009年毛建軍的《古籍數字化的理論與實踐》一書的出版,標志著古籍數字化理論雛形的形成。[1]
綜合各家研究,基本認為古籍數字化是“從利用和保護古籍的目的出發(fā),采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,從而制成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻信息資源的一項系統(tǒng)工作”。[2]隨著大量研究文章的出現,甚至專著成果的推出,概念問題愈發(fā)明晰,成熟。
大陸地區(qū)古籍數字化有多年的實踐經驗。較有代表性的是上海圖書館古籍全文數字化建設。1996年,上海圖書館與長江計算機集團合作,采用引進與開發(fā)并舉的模式,建立了“古籍影像光盤制作檢索系統(tǒng)”,將古籍善本以圖像形式掃描,全文錄入計算機,有些古籍藏書單位,進行了古籍書目數據庫、索引數據庫的嘗試建設,如山東、南京、浙江等省圖書館。
古籍數字化是傳統(tǒng)古籍整理的數字技術延伸,它具有古籍整理學和數字技術相結合的跨學科特征,理論經驗結合社會現實的需要,使之必將成為未來古籍整理的主流和發(fā)展方向。[3]
1.2 日韓、歐美的古籍數字化
1)日韓中文古籍數字化,日本收藏著大量的中文古籍,其古籍數字化起步早,數量可觀。代表性的有國立國會圖書館的書目數據庫,收錄清代以來中文文獻約25萬種;東京大學圖書館的“珍貴漢籍全文數據庫”;東洋文化研究所“漢籍善本全文影像資料庫”;京都大學人文科學研究所全國漢籍協(xié)議會的“全國中文古籍書目數據庫”等。
韓國收藏中文古籍,也較為豐富,其數字化工作注重長遠規(guī)劃、系統(tǒng)開發(fā)。國立漢城大學圖書館“奎章閣古籍掃描全文閱覽系統(tǒng)”,是其數字圖書館建設的重要項目,按四部法對古籍進行數字化系統(tǒng)建設。
2)歐美國家的中文古籍數字化,1978年,美國人運用計算機編制了《朱熹大學章句索引》、《王陽明傳習錄索引》等,成為中文古籍數字化的開端。至1998年,開始實施“國家數字構建儲存計劃”,由此邁向數字化時代。
至2010年美國哈佛大學哈佛學院圖書館與中國國家圖書館啟動“哈佛大學哈佛燕京圖書館藏中文善本特藏資源庫”網站,資源庫為中國國家圖書館在國際合作史上規(guī)模最大且歷時最長的文獻數字化項目。該數據庫資源可按照書名、著者、出版信息、分類等多維度進行檢索和分類瀏覽,書目信息為中英文對照,提供全部書影的閱覽。隨著數字化工作的持續(xù)展開,資源庫將不斷得到更新.
1.3 21世紀初的中國大陸古籍普查工程
全國古籍普查是摸清全國古籍存藏狀況,建立古籍總帳日,開展古籍保護的基礎工作,在“全國古籍普查登記平臺”上建立全國古籍普查基本數據庫,由地方單位編寨出版館藏古籍登記目錄,形成《全國古籍普查登記日錄》,完成普查登記后,普查成果形成《中華古籍總目》分省卷,國家古籍保護中心在些基礎上統(tǒng)編出版《中華古籍總目》。
2007年初,全國古籍保護工作會議召開后,拉開了古籍普查工作的序幕。此次普查,是近百年來對存世古籍的全面清點,不僅包括單位藏書,而且涵蓋了私人藏書機構,同時得到國家的政策和資金支持。通過全國古籍普查登記,建立國家珍貴古籍名錄及“全國古籍重點保護單位”,發(fā)現了不少古籍新品種或新版本。截至2019年11月,全國已有24省完成古籍普查登記工作,全國古籍普查完成總量260余萬部另1.8萬函,2315家收藏單位完成古籍普查登記工作;“全國古籍普查登記基本數據庫”累計發(fā)布217家單位古籍普查數據77萬條7,44萬冊。
基礎工作至關重要,過往的經驗教訓都是寶貴的財富。古籍普查對于摸清家底、進一步保護文化遺產、深入研究傳統(tǒng)文化,具有不可估量的意義。然而,古籍普查過程中的種種問題,尚需規(guī)范職業(yè)秩序、完善普查制度、明晰權責利,確保古籍資產的安全和普查的成效。
2 古籍數字化運作論
2.1 古籍數字化學科建設、標準體系
1)古籍數字化學科體系。數字化技術引入古籍整理領域,是個必然的趨勢,但正是在實踐中發(fā)現了許多問題,迫切地需要深化古籍數字化研究,需要建立相應的學科體系。
隨著古籍數字化技術的成熟,其理論體系相對愈顯薄弱。葛懷東認為,“古籍數字化不能只著眼于數字技術,也不僅僅是市場運作,它更加深刻的內涵在于數字技術所承載的內容,這需要通過學科建設這一途徑來完善相關理論體系”,他撰文對古籍數字化的學科性質、歸屬和研究對象進行了探討。[4]
2)標準規(guī)范體系。當前,古籍數字化缺乏國家專門機構的宏觀調控和管理,各出版單位各自為政,在數字化版本、分類、字庫、檢索、影像等諸多方面缺乏統(tǒng)一規(guī)劃,存在技術參數不統(tǒng)一、古籍資源共享困難、出版質量難以保證等一系列問題。
近30年的古籍數字化實踐,已經形成百余種古籍數據庫,但開發(fā)理念五花八門,質量上參差不齊,標準上各自為政。譬如作為普查、數字化的基礎工作之一,古籍數字化的著錄規(guī)則目前仍存在問題,20世紀80年代頒布、90年代重新修訂的《中國文獻編目規(guī)則·古籍著錄規(guī)則》,在題名、著者、卷冊、文獻形態(tài)等方面提出了規(guī)范,但并不完善,細節(jié)還不到位。因而相關的古籍數字化產品質量良莠不齊,導致數字古籍的權威性、準確性有所欠缺,直接影響了古籍應用的學術效果。
古籍數字化面臨如何選擇和應用標準規(guī)范的問題,文獻單位應與數據廠商加強交流、合作,關注國際數字化標準建設的進展,在國家宏觀指導下,加快推進數字化資源建設的標準進程。
2.2 古籍數字化技術
1)數字化模型。李玉海、宋艷輝提出的古籍數字化模型,從數據描述、傳輸、應用三個層次構建了古籍數字化的過程,[5]這一模型從古籍文獻的特殊性出發(fā),結合行業(yè)規(guī)范,運用現有的技術,基本能解決古籍數字化過程中出現的問題,有一定的借簽意義。
2)數字化技術手段。漢字字符集編碼,漢字的數量約有十萬左右,常用者三五千,余者為生僻字、避諱字、異體字等。古藉數字化字符編碼,通用的有GKB國家規(guī)范,總碼超過150萬,為古籍整理提供了統(tǒng)一的信息平臺。其次是ISO/IEC信息技術——通用多八位編碼學符集,與Unicode在字符編碼上保持一致,字符位置、名字相同,且同步更新。第三個為Unicode,它是一種在計算機上使用的字符編碼,能夠滿足跨語言、跨平臺進行文體轉換、處理的要求。
檢索功能尚需深度開發(fā)。目前的古籍數字化成果,尤其是全文檢索功能單一,只能固定檢索海量數據,卻無法智能檢索和生成新數據。從單一檢索向多元檢索、定向檢索向關聯(lián)檢索、靜態(tài)檢索向動態(tài)檢索的轉變是古籍數字化需要努力的一個方向。檢準率的提高,也有很大的空間。
存儲格式繁多。數字化古籍常見的文件格式,有txt、doc、hind等格式,也有exe、pdf、ebk、peb、pdg、nlc等格式,此外還有位圖形式、多媒體形式的數字化古籍。眾多的存儲格式,形同散沙,不利于古籍數字化規(guī)模化運作,也不利于有效開發(fā)利用古籍。故而,作為古籍普查和保護的發(fā)起人,國家吉籍保護中心有必要聯(lián)合各藏書單位、各出版單位及相關企業(yè)共謀發(fā)展大計,規(guī)范行業(yè)標準。
2.3 古籍數字化開發(fā)模式:國家引導,合作開發(fā)
1)國家引導、自主開發(fā)。早期階段,大陸書籍數字化處于缺乏宏觀管理和調控的狀態(tài),各單位自行選題,獨立運作,阻礙了古籍數字化的進展。至2007年,國務院辦公廳指出“制訂古籍數字化標準,規(guī)范古籍數字化工作,建立古籍數字資源庫”。2008年,全國古籍保護工作會議上提出“要制定古籍數字化標準,加快古籍數字化工作,逐步為公眾提供古籍全文數字化閱莫服務”。21世紀初,十一五文化發(fā)展綱要提出了8項數字出版工程,古籍數字化乃其中之一,由此打破了古籍數字化各自為政、重復建設的混亂局面。
2015年中國古籍保護協(xié)會成立,雖名為民間組織,但依托政府,溝通社會,加強各行各業(yè)交流與合作,必將進一步推進古籍保護事業(yè)的發(fā)展。
2)合作開發(fā)。國內、國際合作開發(fā)中文古籍數字化資源,利用中國豐富的古籍資源優(yōu)勢,利用國外資金和技術支持,從而實現優(yōu)勢互補,共同研發(fā)。
3 古籍數字化成果論
3.1 古籍數字化成果管理
1)成果形式。數字化古籍,從應用服務層面看,按媒介可分為兩大類:光盤版和網絡版;按數字化對象,基本上亦可分為兩大類;書目數字庫、全文數字庫。書目數據庫,具有較高的查全、查準率,便于情報檢索。全文庫包含原文信息,檢索徹底、數據封閉,備有知識庫的全文庫更可推理并理想式檢索。
2)網絡化數字化古籍,是未來古籍數字化成果管理、研發(fā)的發(fā)展方向。目前,各收藏單位的書目數據庫建設進度不一,但均為古籍數字化的基礎性工作。隨著網絡移動終端的井噴式發(fā)展,網絡技術的日新月異,空間距離縮小為零,為古籍數字化成果的網絡化,提供了極大的推動力。
古籍數字化可以嘗試區(qū)域合作,建立地區(qū)聯(lián)合數據庫,條件時機成熟建立全國性數據庫,從而豐富古籍文獻資源,擴大使用范圍。
3.2 古籍數字化成本效益分析
古籍文獻受眾面較窄,緣于其本身的特性;繁體字和文言文讓大部人望而生畏,僅古籍相關研究人員及古籍愛好者使用,數字化古籍以圖書館、科研院所等小眾對象為主,商業(yè)價值小、利益空間受限。同時,古籍數字化的前期投入巨大。古籍數字化難度較大,其文字、圖像不易識別,且需要釋讀、校勘、注解方可普及使用。
建立古籍數字化的成本效益分析機制,成為深化古籍數字化工作的重要手段。不計成本的數字化,尤其是公益性古籍數字化,必將遭到淘汰;而不分析效益的吉籍數字化,也無法反饋其質量,無法實現其初衷。對于公益性古籍數字化工程、項目,適合采用第三方評估方案,全面衡量其總投入、其社會效益和經濟價值,建立并完善相應的衡量指標體系、評估制度。
3.3 古籍數字化成果在大數據時代的革新
信息技術進入新的發(fā)展高峰閉,云計算、移動互聯(lián)、物聯(lián)網、社交網絡的涌現和不斷成熟,一切來的這么突然,卻又讓信息化生態(tài)環(huán)境、人類經濟和社會組織與運作模式悄然發(fā)生著變化。尤其是云計算,這是新型的計算模式和基礎架構管理方法,對商業(yè)環(huán)境和產業(yè)鏈而言,云計算意味著新的商業(yè)機會和商業(yè)模式。
21世紀第二個十年,云計算向“大數據”趨勢發(fā)展。數字化古籍首先數量上規(guī)模大,數十億字的大型數據庫,匯總更豐富的信息,從而資源更多、更全面、更準確;其次,由于更多技術層面的支持可以實現功能更強大,古籍的自動識別、標點、檢索、排版、分析,各種數據的輸入和轉換,適應專門機構的特殊需求和跨學科研究的高級需求。
基于“云計算”、“大數據”背景下的衍生產品開發(fā),有專家提出開發(fā)數字化古籍的“衍生品”:以古籍的數字文本、圖片、視頻等為基礎進行的再開發(fā),由此制成的新產品。其優(yōu)勢在于,擴大了數字化古籍的受眾面,因其可以面向特定閱讀人群,甚至是大眾讀者;其次,這種方式擺脫了古籍資料或稀有文獻獲利的單一模式,利用個性化服務提供附加業(yè)務、增值服務,從而拓展贏利空間,提高商業(yè)價值。
對文獻資源的需求趨勢在云端,未來十年將有大量數字內容落在云縮,建立精于支持多設備、安全且低成本的云計算技術的古籍數字化,有計劃、分階段的整合為“大數據”成“海量數據庫”,提升其內在價值,從更深層次挖掘數字化成果,或將成為古籍數字化新的發(fā)展方向。
參考文獻
[1]周迪,宋登漢.中文古籍數字化開發(fā)研究綜述[J].圖書情報知識,2010(6):45-46.
[2][3]毛建軍.古籍數字化的概念與內涵[J].圖書館理論與實踐,2007,(4):82-83.
[4]葛懷東.古籍數字化的學科建設[J].中國科技信息,2012,(1):156-157.
[5]李玉海,宋艷輝.面向數字圖書館的古籍數字化模型構建[J].圖書館學研究,2008.
作者簡介
王建國(1977-),男,山東郯城人,中國社會科學院圖書館,館員,研究方向:歷史文獻學,方志學,圖書史等。