(中山大學資訊管理學院 廣東廣州 510006)
大型文獻數(shù)字化項目的理論框架至今未能得到明晰界定,直接影響了大型文獻數(shù)字化項目的建設和數(shù)字資源的共建共享。構(gòu)建大型文獻數(shù)字化項目的理論框架,首先應該界定大型文獻數(shù)字化項目的概念,在此基礎上,對大型文獻數(shù)字化項目的性質(zhì)、類型、意義進行梳理與總結(jié),并且對相關術語進行辨析,從而為大型文獻數(shù)字化項目的建設奠定理論基礎。
國內(nèi)外學者對于“大型文獻數(shù)字化項目”概念的界定,大體可分為“過程”、“技術”、“資源”、“內(nèi)容組織”4個維度。
1.1.1 過程說
很多學者都認為大型文獻數(shù)字化項目是一種生產(chǎn)過程:Karen Coyle認為大型數(shù)字化項目就是以工業(yè)化生產(chǎn)模式對資料進行數(shù)字轉(zhuǎn)換,在這一過程中人工干預被降到最低〔1〕。Paul Conway認為大型文獻數(shù)字化項目是一種超大規(guī)模的轉(zhuǎn)換過程,這種以“生產(chǎn)為導向”的數(shù)字化需要嚴格的生產(chǎn)流程規(guī)劃和適合的外包服務商〔2〕。David R Meincke認為數(shù)字化過程應該是以生產(chǎn)為導向,即需要具備高度自動化,而且必須以海量資源為基礎,具備高速度〔3〕。從中可以總結(jié)出,作為一種生產(chǎn)過程,大型文獻數(shù)字化項目強調(diào)的是高度自動化的工業(yè)化生產(chǎn)模式,能夠?qū)崿F(xiàn)海量資源的數(shù)字化,并且具備較高的生產(chǎn)效率。
1.1.2 技術說
技術因素是大型文獻數(shù)字化項目概念的核心。Karen Coyle認為大型文獻數(shù)字化項目利用光學字符識別(Optical Character Recognition,OCR)技術對掃描圖片進行識別從而形成可檢索文檔而不必再進行修改〔4〕。John A.Kunze認為“所謂大型數(shù)字化,就是在世界主要的圖書館對報紙、圖書、視頻等文獻進行大規(guī)模的掃描”〔5〕。潘德利提出“古籍數(shù)字化就是采用計算機技術對古籍文獻進行加工與處理,制成古籍文獻書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻中蘊涵的極其豐富的信息資源,為古籍開發(fā)利用奠定良好的基礎”〔6〕。李國新強調(diào)“數(shù)字化古籍必須對古籍原典做出具有計算機瀏覽、檢索、利用特點的深度開發(fā)。古籍數(shù)字化應具備4個基本特征,即實現(xiàn)文本字符的數(shù)字化,具有基于超鏈接設計的瀏覽閱讀環(huán)境,具有強大的檢索功能,具有研究支持功能”〔7〕。劉琳、吳洪認為“所謂古籍數(shù)字化,就是將古代典籍中以文字符號記錄的信息輸入計算機,從而實現(xiàn)了整理、存儲、傳輸、檢索等手段的計算機化”〔8〕。毛建軍指出“古籍數(shù)字化就是從利用和保護古籍的角度出發(fā),采用計算機技術,將常見的語言文字或圖形符號轉(zhuǎn)化為能被計算機識別的數(shù)字符號,從而制成古籍文獻書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻信息資源的一項系統(tǒng)工作”〔9〕。從中可以總結(jié)出,大型文獻數(shù)字化項目所需要的關鍵技術有轉(zhuǎn)換技術如掃描、拍照、光學字符識別技術、信息組織和檢索技術以及數(shù)字資源長期保存技術等。
1.1.3 資源說
文獻資源是大型文獻數(shù)字化項目的客體,也是概念界定的主要對象。Karen Coyle認為大型文獻數(shù)字化項目是將整個圖書館館藏不加選擇地轉(zhuǎn)換。大型文獻數(shù)字化項目的目標不是創(chuàng)造館藏而是全部數(shù)字化,即數(shù)字化所有印刷型文獻〔10〕。Paul Conway認為大型文獻數(shù)字化就是數(shù)字化成果的不斷積累,也可以稱之為對海量資源的數(shù)字化〔11〕。David R Meincke針對圖片資源提出大型文獻數(shù)字化項目需具備一定的數(shù)量,而且相對于一些小型的選擇性數(shù)字化項目而言,數(shù)字化應該是不加區(qū)別〔12〕。宋琳琳等結(jié)合大型文獻數(shù)字化項目開展情況的調(diào)研,認為“資源選擇是大型文獻數(shù)字化項目的必要組成部分”〔13〕。綜上而言,大型文獻數(shù)字化項目的資源首先必須以海量資源為基礎,其次是否需要對資源進行選擇,成為分歧的焦點。
1.1.4 內(nèi)容組織說
徐清通過對古籍數(shù)字化概念的分析總結(jié)了研究趨勢,認為“與以往的研究側(cè)重于從存儲介質(zhì)改變的角度、從技術層面來認知所不同的是,近年來的研究者更側(cè)重于從對古籍資源深度開發(fā)的角度來解釋,賦予了古籍數(shù)字化更鮮明的學術特性和文化色彩”〔14〕。Paul Conway認為大型文獻數(shù)字化項目需要對重要的資源進行組織以支持未來使用〔15〕。David R Meincke認為數(shù)字化的數(shù)量和高速度必須以保證高質(zhì)量元數(shù)據(jù)為前提〔16〕。李明杰認為“從本質(zhì)上講,古籍數(shù)字化不是一個單純的技術問題,而是一個文化問題和學術問題。古籍數(shù)字化是以保存與普及傳統(tǒng)文化為基本目的的,以知識發(fā)現(xiàn)的功能服務學術研究為最高目標的,在對傳統(tǒng)紙質(zhì)古籍進行校勘整理的基礎上,利用計算機技術將其轉(zhuǎn)換成可讀、可檢索及實現(xiàn)了語義關聯(lián)和知識重組的數(shù)字化信息的過程”〔17〕。陳力認為“古籍數(shù)字化工作應該是數(shù)字圖書館建設的重要組成部分,古籍的特殊性應在統(tǒng)一標準規(guī)范的框架下進行細化,采用開放式的、分層次的、結(jié)構(gòu)化的數(shù)據(jù)庫來組織和揭示資源,要特別注意在古籍與古籍之間、古籍與現(xiàn)代普通圖書之間建立起有機的聯(lián)系,以為讀者提供一個完整的知識體系”〔18〕。綜上所述,大型文獻數(shù)字化項目應該加強對資源內(nèi)容的組織,建立高質(zhì)量的元數(shù)據(jù)、增強其與其它資源的整合。
綜合上述學者對于大型文獻數(shù)字化項目的概念界定,本文首先從語詞切分的角度,將其劃分為“大型”、“文獻”、“數(shù)字化”、“項目”4個維度,并分別解釋,然后再對其特點進行總結(jié)歸納,從而定義大型文獻數(shù)字化項目的概念。
1.2.1 大型
《現(xiàn)代漢語詞典》對“大型”解釋為“形狀大或規(guī)模大”〔19〕。在本文中,“大型”作為修飾詞,可以從以下幾個方面體現(xiàn):
(1)數(shù)量多
很多大型文獻數(shù)字化項目以數(shù)量多而著稱。Google Book Search于2010年8月發(fā)表聲明“經(jīng)過嚴密的統(tǒng)計,全球的圖書共有129,864,880 冊”〔20〕。Google Book Search 通過和出版商及圖書館的合作協(xié)議,預計數(shù)字化圖書數(shù)量將達到3000萬冊;目前已和G5圖書館合作達成數(shù)字化1500萬冊圖書的合作協(xié)議?!懊绹洃洝?American Memory)已擁有數(shù)字化資源總量接近900萬冊〔21〕;截至2011年10月,美國加州大學圖書館已完成3,143,711冊,1,037,424,630 頁資源的數(shù)字化,其中公共領域的資源達475,200 冊〔22〕。
(2)速度快
除了數(shù)字化資源總量超過百萬冊,其年均數(shù)字化速度也十分可觀,IMLS發(fā)布的《美國博物館與圖書館技術與數(shù)字化環(huán)境掃描》(Status of Technology and Digitization in the Nation's Museums and Libraries)指出,圖書館、博物館和檔案館均開展了數(shù)字化工作,而且數(shù)字化的規(guī)模日益擴大,分別有16.5%的博物館、12.2%的大型公共圖書館、19.3%的大學圖書館和12%的檔案館年均數(shù)字化的數(shù)量超過25,000頁〔23〕。所以,本文所指的海量資源即參照上述項目,限定為在建大型文獻數(shù)字化的生產(chǎn)能力接近2萬頁,已建成的大型數(shù)字化項目的數(shù)字化總量應該接近一百萬冊。
(3)規(guī)模大
這主要是指大型文獻數(shù)字化項目的參與機構(gòu)眾多。大型文獻數(shù)字化項目肩負著保護文化遺產(chǎn)的重要使命,單憑一個機構(gòu)很難實現(xiàn),所以需要相關機構(gòu)合作完成。合作建設大型文獻數(shù)字化項目已成為一種趨勢;以Google Book Search為例,其合作的對象主要是出版社、圖書館和作者,其官方網(wǎng)站顯示,100多個國家或地區(qū)的10,000多個出版商和作者參與了該項目;截至2011年10月,與其簽訂合作協(xié)議的圖書館共有28個,其中包括7個美國以外的圖書館:牛津大學(英國)、馬德里康普魯騰塞大學(西班牙)、加泰羅尼亞國立圖書館(西班牙)、洛桑大學圖書館(瑞士)、根特大學(比利時)和慶應義塾大學(日本)〔24〕。為了實現(xiàn)科羅拉多州歷史、文化、政府和工業(yè)等相關領域資源的保存,科羅拉多州的圖書館、博物館、檔案館和歷史機構(gòu)合作開展科羅拉多數(shù)字化項目(Colorado Digitization Project),不僅有利于文化遺產(chǎn)的保存,同時也支持教育和科研的發(fā)展〔25〕。所以,參與機構(gòu)的數(shù)量及多樣化也是限定大型文獻數(shù)字化項目的一個必要條件。
(4)影響力大
這主要體現(xiàn)為使用量大和獲得充足的經(jīng)費支持。歐洲數(shù)字圖書館開館當天,由于用戶訪問量超過網(wǎng)站設計最高容量500萬人次/小時,最高時段達到設計容量的3倍,導致網(wǎng)站多次癱瘓,于2008年11月22日宣布暫時關閉一段時間,1個月后才重新開放〔26〕。2004年以來,JISC已經(jīng)獲得用于數(shù)字化項目的經(jīng)費高達2400萬英鎊,“美國記憶”自建設以來也獲得了超過7500萬美元的資助〔27〕。
綜上所述,本文將“大型”限定為數(shù)字化資源數(shù)量大,總量接近一百萬冊,年均生產(chǎn)量接近兩萬頁;原則上由多個機構(gòu)合作建設,獲得充足的經(jīng)費支持且數(shù)字化成果使用率高。
1.2.2 文獻
根據(jù)《文獻情報術語國際標準(草案)》(ISO/DIS5127),文獻是指在存貯、檢索、利用或者傳遞記錄信息的過程中,可作為一種單元處理的,在載體內(nèi)、載體上或者依附載體而存貯有信息或數(shù)據(jù)的載體。根據(jù)中國國家標準《文獻著錄總則》(GB/T 3792.1-2009),文獻是指記錄有知識的一切載體〔28〕。本文在認可上述定義的同時,對大型文獻數(shù)字化項目的文獻類型進行如下限定:其載體以印刷型資源為主,主要涵蓋圖書、期刊、報紙等印刷型文檔和地圖、手稿、活動圖像、樂譜、唱片、照片、海報及視頻資源等。
1.2.3 數(shù)字化
目前學術界對于數(shù)字化的界定主要呈現(xiàn)廣義和狹義兩個層面。從廣義上來講,數(shù)字化經(jīng)常作為一個歷史概念出現(xiàn),相對于“前電腦”時代而言,用來描述一種現(xiàn)代化、全球化的基于網(wǎng)絡的社會形態(tài)。從狹義上講,數(shù)字化就是指從印刷型信息資源向數(shù)字資源的轉(zhuǎn)換過程,比如數(shù)字化一本圖書,或是數(shù)字化圖書館館藏。其常被用于圖書館或是其它機構(gòu)開展的數(shù)字化項目中,其目的是為了增加檢索或是方便保存?!秷D書情報學在線詞典》(Online Dictionary for Library and Information Science)認為:“數(shù)字化是將數(shù)據(jù)轉(zhuǎn)換成數(shù)字格式,并用于計算機處理的過程。在信息系統(tǒng)中,數(shù)字化經(jīng)常用來表示通過掃描設備,實現(xiàn)從印刷型文檔或是圖片到二進制信號的轉(zhuǎn)換,以便實現(xiàn)計算機處理和顯示。在電信領域,數(shù)字化通常用來形容從持續(xù)的模擬信號向脈沖數(shù)字信號的轉(zhuǎn)換?!薄?9〕《新編圖書館學情報學辭典》將數(shù)字化定義為“將數(shù)據(jù)轉(zhuǎn)換成數(shù)字的過程。在信息系統(tǒng)中,數(shù)字通常指將印刷文本或圖像(相片、插圖和地圖等)轉(zhuǎn)換為數(shù)字信號,采用某種掃描設備,使結(jié)果可以顯示在屏幕上”〔30〕。很多知名信息組織機構(gòu)也認可該定義,澳大利亞國家圖書館將“數(shù)字化”定義為“一種從圖書館館藏中創(chuàng)建原有館藏數(shù)字化替代品的過程”〔31〕。NISO和IMLS對于數(shù)字化的定義是“為獲得數(shù)字資源而進行的轉(zhuǎn)換、創(chuàng)建和維護資源的過程,以便于資源可以通過電腦瀏覽”〔32〕。在本文中,筆者將“數(shù)字化”界定為相關機構(gòu)開展的將傳統(tǒng)的非數(shù)字型資源通過掃描、拍照等技術轉(zhuǎn)換成計算機可以讀取、識別和利用的數(shù)字資源的過程。
1.2.4 項目
項目是為創(chuàng)造獨特的產(chǎn)品、服務或成果而進行的臨時性工作。項目的“臨時性”是指項目有明確的起點終點,但是項目所創(chuàng)造的產(chǎn)品、服務或成果一般不具有臨時性。項目的“獨特性”是因為其建設過程中的不確定性。項目可以創(chuàng)造以下內(nèi)容:一種產(chǎn)品,既可以是其它產(chǎn)品的組成部分,也可以本身就是終端產(chǎn)品;一種能力,用來提供某種服務;一種成果,例如結(jié)果或文件〔33〕。本文對“項目”限定為以創(chuàng)建數(shù)字信息資源,提供數(shù)字信息服務為目的的臨時性工作,該工作需要以生產(chǎn)、加工為導向,實現(xiàn)一定程度的自動化,并且具備較高的生產(chǎn)效率。
綜合上文分別對“大型”、“文獻”、“數(shù)字化”、“項目”的分析,本文將“大型文獻數(shù)字化項目”的概念定義為:大型機構(gòu)或是多個機構(gòu)合作開展,以創(chuàng)建數(shù)字信息資源、提供數(shù)字信息服務為目的,通過掃描、拍照等轉(zhuǎn)換技術,將傳統(tǒng)的非數(shù)字型資源轉(zhuǎn)換成計算機可以讀取和識別的數(shù)字資源的工作。同時需要具備以下特征:一是數(shù)字化資源數(shù)量大,總量接近一百萬冊,年均生產(chǎn)量接近兩萬頁;二是需要以生產(chǎn)、加工為導向,實現(xiàn)一定程度的自動化,并且具備較高的生產(chǎn)效率;三是獲得充足的經(jīng)費支持且數(shù)字化成果使用率高。
UNESCO頒布的《保存數(shù)字遺產(chǎn)憲章》(Charter on the Preservation of the Digital Heritage)將“原生數(shù)字資源(Digital Original)”定義為除了數(shù)字形式外、別無其它形式的數(shù)字資源〔34〕。數(shù)字保存聯(lián)盟(Digital Preservation Coalition,DPC)認為原生數(shù)字資源一般認為其必須僅以數(shù)字版本的形式存在,如果說該資源是由實體文獻數(shù)字化處理而來,那就不屬于原生數(shù)字資源〔35〕。而大型文獻數(shù)字化項目的信息資源是指通過數(shù)字化加工而產(chǎn)生的原始文獻的數(shù)字化替代品或數(shù)字化復本(Digital Copy/Digital Double),比如一本圖書經(jīng)過數(shù)字化后,既可以以圖片的形式出現(xiàn),也可以經(jīng)過文字識別后以數(shù)字文檔的形式出現(xiàn)。此類信息資源與原生數(shù)字資源相比最大的特點就是存在一個與之相對應的原始文獻。所以,本文將大型文獻數(shù)字化項目的信息資源限定為非原生數(shù)字資源,即實體信息資源通過數(shù)字化轉(zhuǎn)換而生成數(shù)字格式、能夠滿足人類需求的數(shù)字資源。
資源保存就是確保資源在一定環(huán)境中的可用,數(shù)字化是實現(xiàn)資源保存的一種方式,但這并不意味著數(shù)字化就是數(shù)字資源保存。資源保存關注的是資源的穩(wěn)定化處理,而數(shù)字化是一種格式轉(zhuǎn)換方式,格式轉(zhuǎn)換是一種可以接受的資源保存方法。ARL的保存委員會認可了數(shù)字化作為數(shù)字保存的可選模式之一,鼓勵大力推廣〔36〕。數(shù)字化所生成的原始資源的數(shù)字化替代品,常存在穩(wěn)定性、可靠性、永久性等無法保證的問題;但是數(shù)字化在數(shù)字保存方面的作用不可小覷,通過對易損、瀕危和使用價值大的資源的數(shù)字化,不僅可以有效降低對原件的使用,保護信息資源;同時也可以增加信息資源的利用率。所以,要達到資源保存的目的,需要數(shù)字化生成的格式足夠穩(wěn)定,甚至穩(wěn)定性超過原始資源;另外,還要建立一系列標準,規(guī)范數(shù)字化工作,對一些重要的生產(chǎn)記錄通過元數(shù)據(jù)進行長期保存。
基于上文對“大型文獻數(shù)字化項目”概念的界定,我們可以將大型文獻數(shù)字化項目的基本性質(zhì)定位為:大型文獻數(shù)字化項目是對具有重要史料價值和使用價值的文獻進行再現(xiàn)和加工,屬于信息資源建設的范疇,是信息資源加工和組織的一部分,而不僅僅是文獻載體的轉(zhuǎn)換。大型文獻數(shù)字化項目的最終結(jié)果是將數(shù)字化后的文獻資源通過組織加工并保存,進而制成書目數(shù)據(jù)庫、全文數(shù)據(jù)庫、信息門戶或數(shù)字圖書館等,實現(xiàn)信息資源的共建共享,從而達到利用和保護文獻資源的目的。大型文獻數(shù)字化項目不僅涉及信息組織的知識和技能,諸如古籍方面的版本、目錄、???,以及分類法、主題法、本體、主題圖、關聯(lián)數(shù)據(jù)等;而且還涵蓋當代最新的信息技術,如掃描轉(zhuǎn)換技術、文字識別技術、長期保存技術、網(wǎng)絡通信技術、語義網(wǎng)等;需要從項目管理的角度進行規(guī)劃與建設。
根據(jù)大型文獻數(shù)字化項目的建設目的和功能,可以將大型文獻數(shù)字化項目劃分為基于保存、基于發(fā)現(xiàn)、基于傳遞、基于閱讀、基于研究和基于機器處理6種類型。
基于保存的大型文獻數(shù)字化項目是為了實現(xiàn)信息資源的長期保存。通過減少用戶對原件直接利用從而保護那些載體不穩(wěn)定、價值高、利用率高或是需要修復的文獻。此類項目有以下特點:一是項目建設過程必須基于信息資源的長期保存,要有長遠眼光,能預見未來發(fā)展的需要。二是項目的關鍵環(huán)節(jié)是數(shù)字資源格式的選擇。在格式選擇過程中,要盡可能涵蓋所有細節(jié),以便未來的資源重現(xiàn)。理想的格式應該基于開源軟件或是通用標準,而且項目建設過程中,用于長期保存和提供給用戶檢索的格式應該不同,用于長期保存的格式強調(diào)對資源毫無遺漏的全面重現(xiàn)如TIFF格式,而將其用于檢索則會造成傳輸和顯示負擔;提供用戶檢索使用宜采用JPEG等其它格式。JSTOR在數(shù)字化過程中首先將期刊的每頁掃描生成600 dpi的黑白TIFF圖像用于保存,然后再對這些圖片進行OCR識別進而生成PDF格式的數(shù)字文本,提供給用戶檢索使用〔37〕。
基于發(fā)現(xiàn)的大型文獻數(shù)字化項目的主要功能是用于檢索,提高原始文獻的利用率,如能滿足本館主要讀者需求的文獻、轉(zhuǎn)換為數(shù)字拷貝會受到讀者廣泛使用的文獻、具有重要歷史或知識內(nèi)容的國家珍善本、相對而言不太為人了解的館藏文獻、數(shù)字化后可能成為新的館藏的文獻、數(shù)字化后能實現(xiàn)原始文獻信息增值的文獻、數(shù)字化后有利于克服傳統(tǒng)文獻利用障礙的文獻等〔38〕。此類型項目傾向于大規(guī)模的自動化生產(chǎn),首先通過掃描生成相似文檔,然后利用OCR進行識別;OCR通常將一本書或一篇文章分解成最基本的文本,然后經(jīng)過簡單的文本加工組織,創(chuàng)建索引目錄或是展示片段內(nèi)容。此類項目最顯著的特征就是其目的并不是為了方便讀者閱讀和文獻資源的長期保持,僅僅是為了方便檢索而建立。Google Book Search就是最典型的代表。
基于傳遞的大型文獻數(shù)字化項目主要是從用戶的角度出發(fā),針對網(wǎng)絡環(huán)境下用戶不經(jīng)常進圖書館查找資料,而更傾向于通過網(wǎng)絡傳遞獲取資源的新方式而建設的。數(shù)字文檔是一種理想的資源傳遞載體,而且可以針對用戶特定的需求而開展,這種按需數(shù)字化的方式可以有效降低數(shù)字化復本的重復率。為了使用戶通過網(wǎng)絡查找報紙信息,美國數(shù)字報紙項目(National Digital Newspaper Program,NDNP)將美國1880-1910年間的報紙全文進行了數(shù)字化,方便公眾閱讀;并且還提供1690年以來所有的報紙目錄和基本信息〔39〕。
目前用戶閱讀的很多數(shù)字資源都是原生數(shù)字資源,大型文獻數(shù)字化項目正在將印刷型資源進行數(shù)字化以便提供閱讀,而且這種發(fā)展趨勢越演越烈。古登堡計劃最初是為了方便英文經(jīng)典著作的閱讀,國內(nèi)的漢王電紙書也是此領域的成功案例。要實現(xiàn)最終閱讀目的,需要設備、標準和市場幾方面協(xié)同發(fā)展。首先,實現(xiàn)基于閱讀的數(shù)字化設備應該具備以下特征:除了有良好的界面和字體,還必須能提供紙質(zhì)圖書的很多特征,如頁碼、書簽、目錄導航,還要提供各種標記;同時,提供字典鏈接,注釋和標注,應該實現(xiàn)格式兼容。其次還應該建立數(shù)字圖書的開放標準,并減少電子書利潤限制。
基于研究的大型文獻數(shù)字化項目主要包含以下方面:一是對一些參考工具書數(shù)字化,將其變成數(shù)據(jù)庫,從而方便參考工具書的利用和展示。二是對一些方便研究的連續(xù)文本,如研究指南、操作手冊等進行數(shù)字化,此類項目需要一定的持續(xù)性,通過數(shù)量累積提供研究參考。三是實現(xiàn)數(shù)字化內(nèi)容的全文檢索,這需要在OCR的基礎上對數(shù)字資源進行深度挖掘,因為僅憑閱讀和簡單導航無法有效提高科研效率,通過這種方式既可以獲取全文,又能方便準確高效地找到所需要的資源,這也是通過大型文獻數(shù)字化項目實現(xiàn)信息增值的主要體現(xiàn)。南京農(nóng)業(yè)大學建立的民國農(nóng)業(yè)文獻數(shù)據(jù)庫將相關文獻資料以及研究論文都進行了數(shù)字化,并且建立了知識元數(shù)據(jù)庫,利用數(shù)據(jù)挖掘技術從相關數(shù)據(jù)源中抽取各種實詞如人名、地名、書名等,理清此間關系,使用XML進行置標,從而建立語義詞典,輔助科學研究〔40〕。
很多數(shù)據(jù)文檔并不是給用戶閱讀的,但是可以方便用戶檢索,比如人口普查數(shù)據(jù)、調(diào)查統(tǒng)計數(shù)據(jù)、還有用于氣候和生態(tài)學研究的地圖數(shù)據(jù)和衛(wèi)星數(shù)據(jù)。這些數(shù)據(jù)文件可以一定的文件格式,尤其是便于數(shù)據(jù)庫導入的格式保存,通過數(shù)字化技術將其轉(zhuǎn)換成二進制語言,再利用一些應用程序進行處理從而生成新數(shù)據(jù);對于這些數(shù)據(jù)的數(shù)字化也是大型文獻數(shù)字化項目的一個重要內(nèi)容。
大型文獻數(shù)字化項目可以降低原件丟失與損壞的風險、補償原件的作用、使館藏機構(gòu)更有效率地管理資源并提供服務、滿足用戶對資源的多種需求、提高原始資源的利用率、支持新型研究并擴大研究對象,方便有償服務的開展。具體體現(xiàn)為以下3個方面。
非數(shù)字型文獻資源受限于載體,用戶對其發(fā)現(xiàn)獲取取決于信息組織成果的豐富及深入,對其獲取使用則局限于該文獻的復本數(shù)量。而對于那些瀕危的歷史文獻,其利用價值也會顯著降低。通過大型文獻數(shù)字化項目獲取原始文獻的數(shù)字拷貝,可以擴大受眾面,豐富用戶的選擇范圍;通過全文檢索可以豐富數(shù)字資源的發(fā)現(xiàn)途徑,提升特殊館藏的使用率,使館藏機構(gòu)更有效率地管理資源并提供服務。
具有珍貴史料價值、瀕危的歷史文獻是大型文獻數(shù)字化項目的首要加工對象。這些原始文獻的數(shù)字替代品可以有效降低原始文獻丟失和損壞的風險,延長文化遺產(chǎn)的生命周期,而且可以滿足用戶對珍貴文獻的使用需求,將文化遺產(chǎn)的價值發(fā)揚光大。
通過建設數(shù)字資源并對其進行深入組織,大型文獻數(shù)字化項目可以提供并完善知識服務,提供電子書借閱服務,滿足用戶在科研、教學、學習等方面的需求。由于擁有共同的目標,大型文獻數(shù)字化項目可以廣泛發(fā)動社會各方力量參與建設,首先可以實現(xiàn)文化遺產(chǎn)保護機構(gòu)之間的合作,擴大信息資源的擁有量,為信息服務奠定基礎;其次可以實現(xiàn)與商業(yè)機構(gòu)的合作,借助其經(jīng)費和技術支持,開發(fā)數(shù)字出版、學術搜索、電子書服務等新業(yè)務。
綜上所述,大型文獻數(shù)字化項目的內(nèi)涵、性質(zhì)、類型、意義等是大型文獻數(shù)字化項目理論框架的基本元素,對上述元素進行界定和歸納,可以明確大型文獻數(shù)字化項目的研究對象,促進其在理論研究與實踐操作中的發(fā)展。
1.Karen Coyle.Mass Digitization of Books.The Journal of Academic Librarianship,2006,32(6):641 -645
2.Paul Conway.Tec(h)tonics:Reimagining Preservation.College &Research Library News,2008,11(69).〔2011 -10 -06〕.http://www.a(chǎn)la.org/ala/mgrps/divs/acrl/publications/crlnews/2008/nov/techtonics.cfm
3.David R Meincke.Towards an Evaluation of Mass Digitized Photograph Collections.University of North Carolina at Chapel Hill,2010
4.Karen Coyle.Mass Digitization of Books.The Journal of Academic Librarianship,2006,32(6):641 -645
5.John Kunze.Where Preservation Meets Mass Digitization.〔2011 -10-26〕.http://lauc.ucmercedlibrary.info/lauc_mass_dig.ppt
6.潘德利.中國古籍數(shù)字化進程和展望.圖書情報工作,2002(7):117-120
7.李國新.中國古籍資源數(shù)字化的進展與任務.大學圖書館學報2002(1):21 -26,41
8.劉琳,吳洪澤.古籍整理學.成都:四川大學出版社,2003:335
9.毛建軍.古籍數(shù)字化的概念與內(nèi)涵.圖書館理論與實踐,2007(4):82-84
10.Karen Coyle.Mass Digitization of Books.The journal of Academic Librarianship,2006,32(6):641 -645
11.Paul Conway.Tec(h)tonics:Reimagining Preservation.College &Research Library News,2008,11(69).〔2011 -10 -16〕http://www.a(chǎn)la.org/ala/mgrps/divs/acrl/publications/crlnews/2008/nov/techtonics.cfm
12.David R Meincke.Towards an Evaluation of Mass Digitized Photograph Collections.University of North Carolina at Chapel Hill,2010
13.宋琳琳,黃如花.大型數(shù)字化項目的概念限定與術語辨析.圖書情報工作,2009(11):23-28
14.徐清.2001-2005年我國中文古籍數(shù)字化研究綜述.圖書情報工作,2006(8):139-143
15.Paul Conway.Tec(h)tonics:Reimagining Preservation.College &Research Library News,2008,11(69).〔2011 -10 -06〕http://www.a(chǎn)la.org/ala/mgrps/divs/acrl/publications/crlnews/2008/nov/techtonics.cfm
16.David R Meincke.Towards an Evaluation of Mass Digitized Photograph Collections.Chapel Hill:University of North Carolina,2010
17.李明杰.中文古籍數(shù)字化基本理論問題芻議.圖書館論壇,2005(5):97-100
18.陳力.中文古籍數(shù)字化方法之檢討.國家圖書館學刊,2005(5):11-16
19.中國社會科學院.現(xiàn)代漢語詞典.北京:商務印書館,2007:579
20.Google.全球圖書總量統(tǒng)計.〔2011 -10 -15〕.http://booksearch.blogspot.com/2010/08/books-of-world-stand-up-and-be-counted.html
21.American Memory.Resource Statistic .〔2011 -09 -18〕.http://memory.loc.gov/ammem/about/about.html
22.CDL Resource Statistic.〔2011 -10 -15〕.http://www.cdlib.org/services/collections/massdig/
23.IMLS.Status of Technology and Digitization in the Nation's Museums and Libraries .〔2011 -10 -13〕.http://www.imls.gov/resources/Tech-Dig05/Technology%2BDigitization.pdf
24.Google Book Search.Cooporation Libraries.〔2011 -10 -15〕.http://www.google.com/googlebooks/history.html
25.Colorado Digitization Project.Cooporation Institutions .〔2011 -10 -11〕.http://www.bcr.org/dps/cdp/archive/projects/backyard/index.html
26.楊駿.歐洲數(shù)字圖書館的尷尬事.〔2011-10-11〕.http://paper.people.com.cn/rmrbhwb/html/2008 -11/29/content_148355.htm
27.American Memory.Supporting the National Digital Library Program.〔2011 -10 -15〕.http://memory.loc.gov/ammem/about/sponsors.html
28.中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局,中國國家標準管理委員會.文獻著錄總則.北京:中國標準出版社,2010:59
29.Joan M.Reitz.Online Dictionary for Library and Information Science.〔2011 -10 -15〕.http://lu.com/odlis/odlis_d.cfm
30.丘東江.新編圖書館學情報學辭典.北京:科學技術文獻出版社,2006:289
31.NISO.Digitisation.〔2011 -10 -10〕.http://www.nla.gov.a(chǎn)u/policy/digitisation.html
32.NISO Framework Working Group.A Framework of Guidance for Building Good Digital Collections .〔2011 -09 -21〕.http://www.niso.org/publications/rp/framework3.pdf
33.(美)項目管理協(xié)會.項目管理知識體系指南.王勇,張斌譯.北京:電子工業(yè)出版社,2009:6
34.UNESCO.Charter on the Preservation of the Digital Heritage .〔2011-09 - 21〕.http://portal.unesco.org/ci/en/files/13367/106761360511 Charter_ch.pdf/Charter_ch.pdf
35.Digital Preservation Coalition.Introduction - Definitions and Concepts.〔2011 -09 -19〕.http://www.dpconline.org/advice/preservationhandbook/introduction/definitions-and-concepts
36.ARL.ARL Endorses Digitization as an Acceptable Preservation Reformatting Option .〔2011 -09 -27〕.http://www.a(chǎn)rl.org/news/pr/digitization.shtml
37.JSTOR.Digitization Standards& Processes.〔2011 -10 -10〕.http://about.jstor.org/content- collections/journals - archive - collections/digitization-standards-processes
38.劉家真.館藏文獻數(shù)字化的原則與方法.中國圖書館學報,2001(5):42-45
39.NEH.National Digital Newspaper Program.〔2011 - 10 - 10〕.http://www.neh.gov/projects/ndnp.html
40.王雅戈.民國農(nóng)業(yè)文獻數(shù)字化整理及信息組織研究.南京:南京農(nóng)業(yè)大學,2007:90