●龐淑杰(吉林大學圖書館,長春130012)
日本國立國會圖書館大規(guī)模館藏數(shù)字化工程
●龐淑杰(吉林大學圖書館,長春130012)
數(shù)字化;經(jīng)驗;日本國立國會圖書館
日本國立國會圖書館(NDL)在世界性數(shù)字資源的建設中,一直處于行業(yè)領軍地位,而且有自己的特色。在數(shù)字化實際工作中,NDL善于總結,推出新理念,不斷修正過往路徑,形成了一整套成熟經(jīng)驗。本文就NDL數(shù)字化工程的新進展與思路進行了論述,以期為國內同行提供借鑒。
近年來,日本國立國會圖書館(NDL)館藏數(shù)字化工程成績斐然,僅在2009~2010年,數(shù)字化轉化平均累計完成量已經(jīng)達到總館藏的四分之一。截至2013年2月21日,NDL可提供的數(shù)字化資料的總數(shù),已達到223萬種。與此同時,NDL不惜重金,大規(guī)模引入國內外數(shù)據(jù)庫,同時大量收集網(wǎng)上數(shù)字化資源。到2011年年末,源自網(wǎng)上的累積數(shù)據(jù)量已達17.5萬GB。[1]據(jù)NDL公布的最新消息,截至2014年3月12日,解決了著作權問題、可以在網(wǎng)上公開閱覽的數(shù)字化資源已達到48萬種。NDL的數(shù)字化工程,舉世矚目,其成功實踐的主要經(jīng)驗,給我們重要啟示。
2.1 政府大力扶持,營造寬松的法律環(huán)境
進行數(shù)字化建設,政府文化主管部門在預算方面充分給予了保障。首先,在特定年份,或遇到業(yè)界實施重大數(shù)字化項目之際,財政會安排特別撥款。如在2009年年度政府預算中,NDL資料數(shù)字化經(jīng)費獲得127億日元的增加金額,大致相當于歷年平均年撥款的上百倍。在2010年預算修正案里,又增撥10億日元館藏數(shù)字化檔案整理經(jīng)費。以后各年度,此項經(jīng)費也是有充分保障的。其次,在常規(guī)年份,每個財政年度的年末,在國會審議下一財年由政府提交的財政預算報告之際,文部科學省都會就圖書情報事業(yè)經(jīng)費提出適度增加的要求,從而保證用于數(shù)字化建設所需軟硬件方面的開發(fā)經(jīng)費。作為數(shù)字化工程主力的NDL,自然受到資金方面更多的關照。如NDL于2012年上報的預算草案,總額為209億5200萬元,比上一年度增加了4.91%。該預算案獲得批準實施,其中有一筆共計1億1800萬日元的專項撥款,專門用于基于數(shù)字化檔案文獻系統(tǒng)的服務計劃的擴充升級。[2]
此外,文化事業(yè)的大規(guī)模推進也離不開法律法規(guī)的保駕護航。2009年,日本《著作權法》修訂過程中,增設了第31條第2款,規(guī)定“在NDL,為防止館藏資料的滅失、污損,可以將原始資料轉化為電磁記錄,并提供給公眾利用”。這就意味著,為了長期保存館藏資料,可以在不征得著作權人授權的情況下,對原作進行拍攝,制作成數(shù)字化圖像文件。法律層面的認可,掃清了數(shù)字化計劃實施的一些障礙。
2009年,NDL積極參與了ⅠFLA(世圖聯(lián))及相關團體制定《針對圖書館和檔案館的版權免責及限制的公約》活動。該公約(3.0版提案)于2011年8月公布,直指《保障出版物利用的國際條約》存在的不完備之處。2011年,在ⅠFLA年會的全體大會上,該提案成為熱議的焦點。ⅠFLA以該提案為基礎,向WⅠPO(世界知識產(chǎn)權組織)開展工作,以期促成與時俱進的改變,目前已有重要進展。
2010年6月,日本法定存儲系統(tǒng)理事會提交報告,旨在獲取私人出版機構的在線出版物。截至2012年,NDL全力以赴推動后續(xù)立法工作取得重要成果,更多資源匯入了該館的數(shù)字資源池中。[3]
2011年,日本政府的總務省、文部科學省、經(jīng)濟產(chǎn)業(yè)省共同發(fā)起舉辦了題為“充分利用網(wǎng)絡資源及數(shù)字化社會的電子出版物”的座談會。其后根據(jù)會議精神,文化廳召開了題為“方便快捷地實施電子書刊的流通與利用”的研討會,確立了由圖書館無償提供市民使用的原則。
2.2 探索新技術手段,突破關鍵環(huán)節(jié)
媒介轉換新原則的確立,拉開了推進數(shù)字化工程突飛猛進的序幕。NDL最早都是采用縮微技術對館藏劣質化檔案資料加以轉化替代。從2009年開始,數(shù)字化的“數(shù)據(jù)”成為紙質媒介的替代介質,這是日本業(yè)界的方針性轉變。
從2000年起,NDL開始對明治維新時代(1868-1912年)、大正時代(1912-1926年)的圖書進行數(shù)字化,同時處理相關的著作權問題。當時,財政撥付的專項經(jīng)費每年才一兩億元。2009年,來自政府的項目費猛增,數(shù)字化元年開啟,NDL數(shù)字化計劃也隨之做了大幅度調整,入選數(shù)字化計劃的文獻范圍,從明治元年到1968年,涵蓋了百年跨度的90多萬種圖書??涨暗臄?shù)字化工程,在全日本范圍內尚屬首創(chuàng),發(fā)生各種問題與失誤在所難免。NDL相關部門首先對業(yè)界的業(yè)務能力、整體實力、人員素質、所需掃描設備等情況進行了調查,并進行了周密的計劃與研討,在此基礎上才開始將這一宏大工程付諸實踐。具體實施采用外包方式,雖然工程外包給多家專業(yè)公司,但是標準統(tǒng)一。
在具體操作層面,首先對紙本文獻采用系統(tǒng)開銷式掃描儀進行掃描。為防止損壞原件,儀器上自動翻頁功能一律關閉;在某些掃描儀無法滿足原文多樣性時,使用數(shù)碼相機作為輔助工具。所形成的文件格式設定為24bit全彩色,分辨率為400dpit。而將膠片資料數(shù)字化,則先是把原膠片復制一份,再對這個復制件進行掃描,制成圖像文件。原文由左右兩頁組成一頁,制作成圖像文件時則合成為一幅。所形成文件的格式,以8bit灰度級為準,分辨率采取A3紙400dpit。
其次,在完成對紙本與膠片的掃描后,以JPEG2000圖片格式制作成兩種用途(收藏、借閱)的圖像文件。如果只有封面圖像,就另用一種特殊的簡略式圖片格式制作成JPEG文件。原件的文字部分加以文本化,可通過目錄進行檢索,并直達圖像部分。
在工程的整個過程中,有各種意想不到的困境。NDL相關部門不斷和各實施主體以及受委托各方進行協(xié)調,對諸多障礙逐一加以克服,注重細節(jié),穩(wěn)步推進。[4]其中,關鍵技術環(huán)節(jié)是字符識別與文本轉換,這是NDL最關注的。因為與其他語言相比,日文的文字體系極其復雜,除了音節(jié)字符、平假名和片假名,還包括約上萬個漢字、促音和撥音等特殊音節(jié)。這些字符、字母和漢字既可以獨立成詞,也可以相互組合,衍化無窮。由于日語字符的寬度及其語言表達方式的特殊性,使其成為該語種文獻大規(guī)模數(shù)字化面臨的最嚴峻挑戰(zhàn)與難題。
技術瓶頸問題實質性的突破,既受益于長期探索的積累,又得益于某種機遇。2009年,NDL為確保視力殘障者訪問相關數(shù)據(jù)庫的便利性,提高全文本數(shù)據(jù)檢索的準確性,開展了全文本數(shù)字化實證實驗。這項實驗與數(shù)字化工程同時進行,具體內容包括:利用OCR(光符字符識別軟件),將制成的數(shù)字化圖像文件轉化成文本文件,建構文本數(shù)據(jù)校正并結構化的標準原型系統(tǒng);進行試運行與評估作業(yè)。在進行全文本數(shù)字化過程中,不斷根據(jù)這項實驗結果作出調整與修正,加緊與各相關法人團體、機構間協(xié)調,直至計劃完成。而且,攻關團隊在字符識別、文本轉換方面取得了技術突破。他們圍繞OCR識別系統(tǒng)的升級,運用該技術開發(fā)出日趨成熟的各類軟件,極大地提高了一次正確識別率。又根據(jù)數(shù)據(jù)庫的類型建立了不同的字庫,并且根據(jù)ⅠS010646國際標準內碼,進一步開發(fā)構建了日文網(wǎng)絡應用平臺,解決了處理大漢字字符集的需要,還與國際互聯(lián)網(wǎng)連接,可以實現(xiàn)全球瀏覽和檢索。
除此之外,NDL還必須面對數(shù)據(jù)的保存等問題。在掃描紙本和膠片原件時,NDL制作了兩種圖像文件:一種是不可解壓的小容量的供閱覽圖像文件,一種是可解壓的大容量保存用圖像文件。由于后者數(shù)據(jù)量極大,所以使用了同類介質中擁有最大容量的Blu-ray光盤作為儲存媒介。然而,這類圖像文件是用來作為永久保存的,隨著時間推移,數(shù)字化資料將會出現(xiàn)數(shù)據(jù)劣化、滅失等現(xiàn)象,所以每隔一定時期,必須采取數(shù)據(jù)轉存等措施加以防備。由于Blu-ray光盤是后來出現(xiàn)的媒介物,尚處于發(fā)展完善階段,格式還需要完備,長期保存數(shù)據(jù)效應究竟如何,目前尚未知。因此,如何長期保存數(shù)字化文獻資料,是當前也是今后加以探討的課題。
長期不懈的攻關終有回報,作為數(shù)字化工程的一個副產(chǎn)品——《文獻數(shù)字化業(yè)務指南(修訂版)》誕生了。早在2005年,在建設數(shù)字化圖書館之際,NDL就制定了相應的標準與規(guī)范,作為通用的行動指針,同時也成了日本國內甚至國外同行及其他組織進行數(shù)字化工程的重要參考?,F(xiàn)在,隨著大規(guī)模數(shù)字化工程的推進,積累總結了更多的經(jīng)驗教訓,對最初的業(yè)務條例加以修訂,就具備了成熟的條件。2011年,上述修訂版指南已在NDL網(wǎng)站上發(fā)布,為今后的數(shù)字化工程打下了更牢固的基礎。
2.3 立足讀者,以社會需求促進項目進展
數(shù)字化的最終目的在于改善與加強服務。當數(shù)字化館藏初具規(guī)模后,NDL立即果斷推向讀者。早在2000年,NDL就致力于為電子圖書館資源建設而實施數(shù)字化項目。之后建成了近代數(shù)字圖書館和珍稀書籍圖像式文本數(shù)據(jù)庫,盡管其規(guī)模有限,但是NDL通過網(wǎng)站提供給讀者。十多年后,凡是徹底解決了著作權問題的(著作權保護年限到期或已經(jīng)過合法化處理的),NDL都將完成制作的數(shù)字化資料立即提供給讀者。
此外,NDL還將書刊內容轉化形成的數(shù)據(jù),全部組織進近代數(shù)字圖書館和數(shù)據(jù)檔案系統(tǒng)數(shù)據(jù)庫,以不公開的內容在館內閱讀、公開的內容在Web網(wǎng)頁上閱讀的方式推向讀者。目前,NDL在東京總館、關西分館辟有特定閱覽室或專門閱覽室提供電子雜志服務,在這里可以通過電子信息服務終端訪問國立國會圖書館數(shù)字化資料。2011年4月,數(shù)據(jù)檔案系統(tǒng)中公開的部分,以國立國會圖書館數(shù)字化資料的名義,在NDL網(wǎng)站上公開上線。內容包括NDL收集、積累的各種館藏數(shù)字化文獻與網(wǎng)上出版物,涵蓋領域十分廣闊。
2.4 另辟蹊徑,大力擴充資源
就NDL所有館藏資源的整體而言,數(shù)字化的只是一小部分。如何進一步加快文獻資料的數(shù)字化,是今后需面對的重大課題。為此,NDL采取了外向型戰(zhàn)略,尋求外援,加快推進。2012年,NDL引入ⅠBM參與數(shù)字化工作,并提供在線服務,以提高讀者覆蓋率。ⅠBM負責開發(fā)出原型技術,通過更加全面的識別日語字符,迅速將日文文獻全文數(shù)字化。并且吸引用戶參與進來,對數(shù)字化文獻的字母、拼寫和結構進行核查和改正。同時,此項技術的運用也旨在促進今后全球圖書館開展合作并實現(xiàn)標準化。具體實施是通過大眾分包的方式,讓眾多讀者能夠高效巨量地迅速瀏覽全文并作適當修改加工。
NDL在進行資源擴充時,積極主張加速出版業(yè)電子化,由出版社構建電子出版物流通中心,建設功能更加完備的電子圖書館。就是將書籍信息存放到NDL的數(shù)據(jù)庫,由圖書館免費將電子化書籍借給中心,讀者可以通過該中心購買和借閱。此中心原則上為非營利機構,設立數(shù)量不限。2012年2月21日,日本政府推出出版物電子化補貼機制,之后不久,日本出版基礎設施中心發(fā)表聲明,補貼機制正式出臺。財務?。ㄔ蟛厥?,中央財政部門)在2012年度第三次補充預算中列支9.97億日元,專門用于對出版物電子化提供補貼。
NDL是日本唯一法定接受繳送本的圖書館,迄今為止出版社共提供了約400萬冊書的數(shù)據(jù)。NDL于2011年2月至3月已經(jīng)進行了全文文本的檢索試驗,獲得階段性成果。輿論普遍認為,NDL館藏數(shù)量如此巨大,實現(xiàn)數(shù)字化收藏和檢索,使讀者能夠更方便地管理和閱讀書刊,其歷史與現(xiàn)實意義不可估量。
NDL館藏數(shù)字化成功實踐的根本點在于敏銳抓住行業(yè)數(shù)字化轉型的必然趨勢,搶占先機,出手迅速;朝野合作,官民互動,輿論準備得力,理論創(chuàng)新與時俱進,法律與財力保障充分;全力以赴探索創(chuàng)新,占據(jù)相關技術的制高點,力爭成為標準的制定者;緊盯目標,堅持不逾,始終堅守在全球數(shù)字化建設第一梯隊的位置。這些都值得國內同行深入思考。
[1]「インタ一ネット資料收集保存事業(yè)(WARP)」をリニュ一アルしました[EB/OL].[2012-12-16].http://www.ndl.go.jp/jp/new.
[2]大沼太兵衛(wèi).大規(guī)模デジタル化の進步狀況とデジタル化資料の提供について[J].図書館雑誌,2011(6):376-378.
[3]デジタルネットワ-ク社會における出版物の活利用の推進に関する懇談會報告.[EB/OL].[2012-10-11].http://www.soumu.go.jp/main_content/000075191.pdf.
[4]デジタルア-カイブシステム[EB/OL].[2013-01-16].http://www.ndl.go.jp/jp/aboutus/ndl-da.htm l.
G253;G259.313
A
1005-8214(2014)09-0086-03
龐淑杰(1963-),女,吉林大學圖書館副研究館員。
2013-09-22[責任編輯]閻秋娟