王 瑩
(鄭州大學(xué)外語(yǔ)學(xué)院,河南 鄭州 450052)
每一個(gè)數(shù)字化項(xiàng)目都有自己的明確目標(biāo),通常情況下,這個(gè)目標(biāo)有兩大范疇:其一是保護(hù)易損載體文獻(xiàn)資源,即數(shù)字保存;其二是將有較高價(jià)值的文獻(xiàn)資源數(shù)字化后通過(guò)因特網(wǎng)面向公共提供瀏覽,以實(shí)現(xiàn)文獻(xiàn)本身的傳播價(jià)值,也即數(shù)字存取。項(xiàng)目目標(biāo)對(duì)數(shù)字化項(xiàng)目生命周期的各個(gè)階段都有直接關(guān)系,因此,確定項(xiàng)目目標(biāo)是整個(gè)項(xiàng)目實(shí)施的關(guān)鍵環(huán)節(jié)。數(shù)字保存不僅意味著保存原始資源載體,而且還意味著數(shù)字資源的長(zhǎng)期保存,以確保用戶的有效訪問(wèn),為此就必須采用數(shù)字遷移或數(shù)字仿真等長(zhǎng)期保存策略對(duì)數(shù)字資源實(shí)施長(zhǎng)期維護(hù)。數(shù)字存取方便用戶對(duì)數(shù)字資源的并發(fā)、實(shí)時(shí)獲取,從而克服對(duì)原始資源存取的時(shí)間、空間和可獲得性等方面的障礙。
信息資源數(shù)字化是一類(lèi)成本高昂的項(xiàng)目,成本分布在其生命周期的各個(gè)階段,主要包括數(shù)字化內(nèi)容選擇、數(shù)字化生產(chǎn)準(zhǔn)備、元數(shù)據(jù)析出、原始文獻(xiàn)的保護(hù)、數(shù)字化生產(chǎn)系統(tǒng)基礎(chǔ)設(shè)施的建設(shè)、數(shù)字轉(zhuǎn)換、文本抓取、數(shù)字主文檔及其各種副本的保存、數(shù)字資源的發(fā)布及其發(fā)布網(wǎng)站的維護(hù)以及整個(gè)項(xiàng)目的質(zhì)量控制等。在項(xiàng)目實(shí)施之前,應(yīng)該基于成本分布來(lái)編制經(jīng)費(fèi)預(yù)算,在項(xiàng)目實(shí)施過(guò)程中,應(yīng)該采取一切可能方法降低其實(shí)施成本,這些方法主要有:一是減少人力成本;二是對(duì)數(shù)字轉(zhuǎn)換各環(huán)節(jié)實(shí)施自動(dòng)控制,以減少人工干預(yù);三是實(shí)施規(guī)模生產(chǎn),減少生產(chǎn)流程中的變量;四是提高整體績(jī)效和產(chǎn)出,確保資金的高效利用;五是嚴(yán)格質(zhì)量管理,改善和優(yōu)化項(xiàng)目生產(chǎn)流程;六是構(gòu)建風(fēng)險(xiǎn)管理預(yù)警體系,降低風(fēng)險(xiǎn)成本;培訓(xùn)員工所需技能,提高生產(chǎn)能力和產(chǎn)品質(zhì)量;七是開(kāi)展項(xiàng)目合作,實(shí)現(xiàn)資金、設(shè)備、人員和技術(shù)的優(yōu)勢(shì)互補(bǔ)。
數(shù)字化項(xiàng)目所涉及的信息資源的產(chǎn)權(quán)狀態(tài)有三種:免產(chǎn)權(quán)許可、產(chǎn)權(quán)歸數(shù)字化實(shí)施機(jī)構(gòu)所有和產(chǎn)權(quán)歸他人所有。對(duì)于第三種情況,數(shù)字轉(zhuǎn)換前必須獲得產(chǎn)權(quán)所有人的許可。調(diào)查顯示,產(chǎn)權(quán)許可是信息資源數(shù)字化項(xiàng)目實(shí)施的主要瓶頸之一,構(gòu)建集體授權(quán)管理機(jī)制和建立完善法定許可制度可提高產(chǎn)權(quán)許可效率,降低產(chǎn)權(quán)許可成本。
實(shí)施方式主要有自己實(shí)施和項(xiàng)目外包,這兩種方式各有優(yōu)劣。項(xiàng)目實(shí)施機(jī)構(gòu)應(yīng)權(quán)衡利弊,方能做出合適選擇。第一種方式對(duì)于不具備數(shù)字化生產(chǎn)基礎(chǔ)設(shè)施的數(shù)字化項(xiàng)目實(shí)施機(jī)構(gòu)具有很強(qiáng)的吸引力,因?yàn)檫@樣可以省去設(shè)備購(gòu)置的高昂成本。對(duì)于一些特殊載體資源和載體過(guò)大資源(如,大幅面建筑圖紙、地圖和海報(bào)等)進(jìn)行數(shù)字化,外包也許是唯一選擇。對(duì)于短期數(shù)字化項(xiàng)目,外包尤其是比較理想的選擇。然而,對(duì)于長(zhǎng)期數(shù)字化項(xiàng)目,完全外包值得商榷,項(xiàng)目實(shí)施機(jī)構(gòu)將整個(gè)項(xiàng)目的實(shí)施依賴于外包商并非是明智決策。外包方式是項(xiàng)目實(shí)施機(jī)構(gòu)的困難選擇,決策前應(yīng)充分咨詢,出發(fā)點(diǎn)是成本效益分析。
2.1.1 Web訪問(wèn)的需要
數(shù)字化的產(chǎn)品是通過(guò)因特網(wǎng)被廣大用戶存取利用,而網(wǎng)絡(luò)用戶組成非常復(fù)雜,一些非法用戶可能會(huì)對(duì)數(shù)字資源以及通過(guò)數(shù)字資源訪問(wèn)的原始資源的安全構(gòu)成威脅。
2.1.2 成本的需要
解決數(shù)字化生產(chǎn)高成本和信息機(jī)構(gòu)經(jīng)費(fèi)有限性之間矛盾。幾乎沒(méi)有信息機(jī)構(gòu)(如圖書(shū)館)有充足的資源來(lái)對(duì)整個(gè)館藏進(jìn)行數(shù)字化,內(nèi)容選擇不可避免。
2.1.3 數(shù)字資源管理的需要
技術(shù)的快速發(fā)展使數(shù)字化項(xiàng)目的產(chǎn)品壽命越來(lái)越短,投入巨資進(jìn)行數(shù)字遷移是延長(zhǎng)數(shù)字資源生命的一個(gè)重要途徑,昂貴的維護(hù)成本就必須考慮數(shù)字化的內(nèi)容選擇。
2.1.4 產(chǎn)權(quán)保護(hù)的需要
信息機(jī)構(gòu)對(duì)絕大數(shù)館藏都缺乏產(chǎn)權(quán)的擁有,只能選擇那些能夠得到產(chǎn)權(quán)許可的館藏進(jìn)行數(shù)字化。
2.1.5 特殊文獻(xiàn)的需要
信息機(jī)構(gòu)大都收藏一些對(duì)文化倫理乃至民族敏感的信息資源,對(duì)這些資源進(jìn)行數(shù)字化就要考慮很多因素。
2.1.6 殘缺文獻(xiàn)處理成本的需要
信息機(jī)構(gòu)館藏文獻(xiàn)中有一部分是殘缺不全的,對(duì)這些文獻(xiàn)進(jìn)行數(shù)字化之前就要進(jìn)行補(bǔ)缺或相應(yīng)的說(shuō)明,其費(fèi)用是非??捎^的。
2.2.1 產(chǎn)權(quán)保證原則
館藏資源的產(chǎn)權(quán)狀態(tài)識(shí)別與數(shù)字化項(xiàng)目實(shí)施和數(shù)字資源發(fā)布所在的國(guó)家地區(qū)有關(guān),每個(gè)國(guó)家都有自己的知識(shí)產(chǎn)權(quán)保護(hù)法律。數(shù)字化項(xiàng)目只能選擇那些不存在產(chǎn)權(quán)保護(hù)的,或者是雖然存在產(chǎn)權(quán)保護(hù)但可以獲得產(chǎn)權(quán)許可的信息資源進(jìn)行數(shù)字化生產(chǎn),除此之外,保護(hù)產(chǎn)權(quán)的方式也要經(jīng)產(chǎn)權(quán)所有者認(rèn)可。
2.2.2 原始文獻(xiàn)知識(shí)價(jià)值原則
文獻(xiàn)知識(shí)價(jià)值的判斷具有很大程度的主觀性,其結(jié)果可能因人而異。但盡管如此,知識(shí)價(jià)值也必須是數(shù)字化內(nèi)容選擇的重要原則之一。影響原始信息資源的知識(shí)價(jià)值因素有很多,但主要包括資源的唯一性、相關(guān)價(jià)值、對(duì)相關(guān)主題領(lǐng)域理解的重要性、對(duì)相關(guān)主題領(lǐng)域覆蓋的廣度和深度、實(shí)用性和準(zhǔn)確度、特定主題領(lǐng)域中其他載體記錄質(zhì)量差的信息內(nèi)容、具有強(qiáng)化項(xiàng)目實(shí)施的歷史價(jià)值以及數(shù)字化產(chǎn)品潛在的長(zhǎng)期價(jià)值等。
2.2.3 用戶保障原則
用戶保障的本質(zhì)就是館藏文獻(xiàn)的利用率,理論上講,信息資源數(shù)字化項(xiàng)目應(yīng)該把有限的資金用在利用率高的資源的數(shù)字化上。
2.2.4 原始文獻(xiàn)物理特性原則
在數(shù)字化內(nèi)容選擇過(guò)程中,需要考慮的與原始文獻(xiàn)物理特征相關(guān)的問(wèn)題主要有:原始文獻(xiàn)的物理狀態(tài)是否有利于數(shù)字化;其內(nèi)容是否能被目前的數(shù)字化技術(shù)完全和充分地抓??;物理材質(zhì)和形狀是否會(huì)對(duì)數(shù)字化過(guò)程構(gòu)成障礙;是否有保存良好的替代品(如縮微膠片)。
2.2.5 數(shù)字保存原則
為了保存的需要,數(shù)字化內(nèi)容選擇的原則之一是安全數(shù)字化,其含義包括:原始信息資源的狀態(tài)允許被完全數(shù)字化;數(shù)字化實(shí)施過(guò)程需要搬運(yùn)原始資源時(shí),其狀態(tài)適合于搬運(yùn);盡可能掃描原始資源的替代品,從而減少對(duì)原始資源的損傷;數(shù)字化的產(chǎn)品必須建檔,并制訂由于時(shí)間和技術(shù)變化等因素導(dǎo)致的長(zhǎng)期維護(hù)策略。
2.2.6 技術(shù)條件限制原則
數(shù)字化內(nèi)容選擇將受到現(xiàn)有技術(shù)條件的限制。與技術(shù)條件有關(guān)的因素有:數(shù)字化技術(shù)生成的文獻(xiàn)數(shù)字版與原始文獻(xiàn)包含信息的相符程度;數(shù)字資源顯示在用戶終端的質(zhì)量;信息機(jī)構(gòu)支持的現(xiàn)行平臺(tái)和網(wǎng)絡(luò)環(huán)境對(duì)數(shù)字資源的存取能力;數(shù)字資源網(wǎng)絡(luò)傳播速度的合理性;對(duì)未來(lái)用戶使用先進(jìn)設(shè)備的預(yù)測(cè),以免日后需重新掃描;搜索引擎對(duì)數(shù)字資源的索引能力等。
信息資源數(shù)字化生產(chǎn)涉及最多的是二維平面介質(zhì)信息資源的數(shù)字掃描 (個(gè)別情況下采用數(shù)字拍照),以及模擬音頻的數(shù)字化轉(zhuǎn)換。
二維平面介質(zhì)信息資源的類(lèi)型包括印刷型文本、手稿、半色調(diào)型信息資源、連續(xù)色調(diào)型信息資源和混合型信息資源等5種類(lèi)型。
目前實(shí)現(xiàn)二維平面介質(zhì)信息資源數(shù)字化生產(chǎn)的主要設(shè)備是數(shù)字掃描設(shè)備和數(shù)碼拍照設(shè)備,并且前者占絕大多數(shù)。所以,一般情況下,數(shù)字化生產(chǎn)模式實(shí)際上是指數(shù)字圖像的掃描模式。掃描模式?jīng)Q定了從原始文獻(xiàn)中捕獲到的顏色信息的數(shù)量,也直接關(guān)系到形成的數(shù)字圖像文件的大小。要達(dá)到較好的掃描質(zhì)量,前提之一是選擇正確的掃描模式。對(duì)某一特定類(lèi)型的文獻(xiàn)選擇比較理想的掃描模式時(shí),主要考慮擬掃描對(duì)象的特性和掃描結(jié)果的用途(如,彩色顯示,黑白顯示,還是準(zhǔn)備使用OCR處理等)。目前,絕大部分?jǐn)?shù)字圖像掃描設(shè)備都提供三種類(lèi)型的掃描模式:黑白模式、灰度模式與彩色模式。
影響二維平面介質(zhì)信息資源數(shù)字轉(zhuǎn)換質(zhì)量的生產(chǎn)因素有:分辨率、位元深度、文件格式、圖像壓縮等。數(shù)字化生產(chǎn)系統(tǒng)包括硬件系統(tǒng)和軟件系統(tǒng),前者主要有數(shù)字掃描設(shè)備、數(shù)字拍照設(shè)備、計(jì)算機(jī)系統(tǒng)及其相關(guān)存儲(chǔ)設(shè)備等,后者主要有圖像掃描軟件、圖像編輯軟件和圖像管理軟件等。數(shù)字化生產(chǎn)的質(zhì)量管理涉及不同類(lèi)型信息資源數(shù)字掃描質(zhì)量調(diào)控,以及數(shù)字轉(zhuǎn)換產(chǎn)品的質(zhì)量檢驗(yàn)
音頻數(shù)字化是將在時(shí)間和幅度上連續(xù)變化的模擬音頻進(jìn)行數(shù)字化處理,轉(zhuǎn)換成在時(shí)間上取樣和幅度上量化的離散的二進(jìn)制數(shù)字信號(hào)的過(guò)程。在這個(gè)轉(zhuǎn)換過(guò)程中,涉及到主要參數(shù)有采樣頻率和采樣數(shù)位(也稱量化級(jí)),二者是決定數(shù)字音頻質(zhì)量的主要因素。采樣是指用每隔一定時(shí)間間隔的信號(hào)樣本值序列代替原來(lái)在時(shí)間上連續(xù)的信號(hào),即在時(shí)間上將模擬信號(hào)離散化,每秒的采樣次數(shù)稱為采樣頻率,以千赫茲(即,每秒幾千個(gè)樣本)來(lái)描述。在采樣結(jié)果中,每個(gè)樣值的幅度仍然是連續(xù)的模擬量,還需對(duì)其進(jìn)行離散化處理,將其轉(zhuǎn)換為有限個(gè)離散值,才能最終用二進(jìn)制編碼來(lái)表示其幅值,采樣位數(shù)是指表示振幅測(cè)量值的二進(jìn)制碼的位數(shù),其單位是比特(bit)。音頻數(shù)字化最常見(jiàn)的模式是脈沖編碼調(diào)制。
數(shù)字資源發(fā)布是信息資源數(shù)字化項(xiàng)目面向最終用戶提供服務(wù)的重要窗口。發(fā)布對(duì)象是數(shù)字化主文檔的網(wǎng)上發(fā)布級(jí)應(yīng)用副本,發(fā)布過(guò)程包括數(shù)據(jù)庫(kù)建立和發(fā)布網(wǎng)站構(gòu)建。發(fā)布數(shù)據(jù)庫(kù)包括數(shù)字對(duì)象數(shù)據(jù)庫(kù)和元數(shù)據(jù)數(shù)據(jù)庫(kù),一般采用現(xiàn)成的商業(yè)化大型數(shù)據(jù)庫(kù)系統(tǒng)。發(fā)布網(wǎng)站則由數(shù)字化項(xiàng)目自己構(gòu)建(或委托專業(yè)公司設(shè)計(jì),但要項(xiàng)目本身提出質(zhì)量要求)。
4.1.1 透明性
指網(wǎng)站能夠清晰地表達(dá)構(gòu)建者的目的,并具有明顯的可識(shí)別特征。透明性體現(xiàn)在網(wǎng)站內(nèi)容表達(dá)的清晰性、網(wǎng)址的可識(shí)別性和網(wǎng)站宗旨陳述的簡(jiǎn)潔性等。
4.1.2 有效性
指對(duì)收藏的文獻(xiàn)資源進(jìn)行選擇,并進(jìn)行數(shù)字加工與發(fā)布,以方便用戶有效利用。該原則的核心在于網(wǎng)站內(nèi)容。高質(zhì)量網(wǎng)站的內(nèi)容必須是經(jīng)過(guò)精心選擇的、與主題相關(guān)的、有效的、正確的、配有合適注解和輔助信息的內(nèi)容。有效性體現(xiàn)在發(fā)布內(nèi)容的準(zhǔn)確性、展現(xiàn)方式的合理性和導(dǎo)航的合理性等。
4.1.3 維護(hù)性
指網(wǎng)站應(yīng)及時(shí)更新,以確保網(wǎng)站內(nèi)容的時(shí)效性。維護(hù)性體現(xiàn)在過(guò)時(shí)信息存檔以及靜態(tài)信息刷新等。
4.1.4 可訪問(wèn)性
指網(wǎng)站必須對(duì)所有用戶都是可訪問(wèn)的,無(wú)論用戶采用什么技術(shù),也不管他們的身體狀況存在有哪些訪問(wèn)障礙??稍L問(wèn)性體現(xiàn)在訪問(wèn)技術(shù)的保障性、網(wǎng)站所有內(nèi)容的可訪問(wèn)性以及支持網(wǎng)站瀏覽技術(shù)的多樣性等。
4.1.5 用戶中心
指網(wǎng)站設(shè)計(jì)與維護(hù)必須考慮用戶需求,并通過(guò)網(wǎng)站評(píng)估和信息反饋等方式收集用戶意見(jiàn)和建議,確保網(wǎng)站的有用性、易用性和對(duì)用戶的吸引性。用戶中心體現(xiàn)在網(wǎng)站的用戶保障、用戶使用效果的反饋以及內(nèi)容的可添加性等。
4.1.6 互操作性
指該網(wǎng)站與其他文化網(wǎng)站之間相互訪問(wèn)的能力?;ゲ僮鞯膶?shí)現(xiàn)將有助于用戶在更廣范圍內(nèi)查找所需信息?;ゲ僮餍泽w現(xiàn)在元數(shù)據(jù)的標(biāo)準(zhǔn)化、網(wǎng)站設(shè)計(jì)技術(shù)的標(biāo)準(zhǔn)化、元數(shù)據(jù)收割以及分布式檢索等。
4.1.7 產(chǎn)權(quán)保護(hù)
指有關(guān)網(wǎng)站使用過(guò)程中涉及的倫理與法律因素,包括網(wǎng)站發(fā)布內(nèi)容的知識(shí)產(chǎn)權(quán)管理和用戶個(gè)人隱私的保護(hù)兩個(gè)方面。產(chǎn)權(quán)保護(hù)體現(xiàn)在發(fā)布內(nèi)容擁有者的產(chǎn)權(quán)保護(hù)、網(wǎng)站構(gòu)建者的產(chǎn)權(quán)保護(hù)、網(wǎng)站擁有者對(duì)發(fā)布內(nèi)容侵權(quán)的防止、用戶個(gè)人隱私的保護(hù)以及網(wǎng)站內(nèi)容下載的合法性等。
數(shù)字資源發(fā)布網(wǎng)站是文化遺產(chǎn)網(wǎng)站的重要組成部分,擔(dān)負(fù)著文化遺產(chǎn)的長(zhǎng)期保存和用戶服務(wù)的重要使命。與一般網(wǎng)站相比,該類(lèi)網(wǎng)站更重視數(shù)字資源的生產(chǎn)、存儲(chǔ)與使用。數(shù)字資源發(fā)布網(wǎng)站的生命周期包括的主要階段有網(wǎng)站規(guī)劃、網(wǎng)站設(shè)計(jì)、Web發(fā)布數(shù)據(jù)庫(kù)的建立、元數(shù)據(jù)數(shù)據(jù)庫(kù)的建立、網(wǎng)站制作、網(wǎng)站發(fā)布、網(wǎng)站的維護(hù)與更新。
[1] NINCH.The Price of Digitization:Resources[EB/OL].[2008-8-8].[2010-10-29].www.ninch.org/forum/price.resources.html.
[2] Carnegie Mellon University Libraries.Survey Results:The Random Sample Feasibility Study[EB/OL].[2007-1-8].[2010-11-10].http://www.library.cmu.edu/sm.html.
[3] Carnegie Mellon University Libraries.The Fine and Rare Book Study [EB/OL].[2009-1-9].[2011-1-01].http://www.library.cmu.edu/sm.html.
[4] The NationalScience Foundation(NSF).The Million Book Project Study[EB/OL].[2006-8-12].[2011-01-20].http://www.nsf.gov/news/index.jsp.
[5] Maxine K.Sitts.Handbook for digital projects:A ManagementToolfor Preservation and Access[EB/OL].[2009-12-19].[2011-02-20].http://www.nedcc.org/digital/dman.pdf.