蘇小波 常 娥
摘 要:文章將現(xiàn)有的數(shù)字資源長期保存成本分析模型分為橫向體系和縱向體系兩種類型,在詳細(xì)分析兩類成本模型的基礎(chǔ)上,指出不同模型間的差異只是源于考量角度的不同,對保存活動中各成本因素不同維度的分解,本質(zhì)上并無差異。但在數(shù)字資源長期保存活動的每一階段,可選擇的變量和情境要素眾多,所以在估算保存成本時,應(yīng)關(guān)注不同的保存策略、保存資源的類型、保存要求、保存主體和質(zhì)量控制標(biāo)準(zhǔn)等因素對總成本的影響。
關(guān)鍵詞: 數(shù)字信息長期保存 成本分析模型 影響因素
中圖分類號: G250.74文獻(xiàn)標(biāo)識碼: A 文章編號: 1003-6938(2011)01-0020-05
The Impact Factors of the Cost in Permanent Digital Resources Preservation
Su Xiaobo (College of Information Management, Wuhan University, Wuhan, Hubei, 430072)
Chang E (Southeast University Library, Nanjing, Jiangsu, 210018)
Abstract: Based on the review of existing cost calculation models of permanent digital resources preservation, the paper pointed out that there is no essential difference among different models. Then, considering that some variations and scenarios, which may have a great impact on the whole cost of digital preservation, will emerge in every stage of the preservation process, some advices were made to calculate the whole cost of this process, including emphasis on the selection of different preservation strategies and organizations, different types of digital objectives and authentic and security requirements, etc.
Key words:permanent digital resources preservation; cost analysis model; impact factor
CLC number:G250.74 Document code: AArticle ID: 1003-6938(2011)01-0020-05
成本分析是數(shù)字資源長期保存活動的重要步驟,有助于保存機(jī)構(gòu)考察在不同的保存策略、保存主體和保存資源類型等情境下的開支,從而根據(jù)自身的保存使命和目標(biāo),結(jié)合現(xiàn)有的人力、物力和財力條件,權(quán)衡取舍,制定合理的保存策略和實(shí)施方案,保證長期保存活動的持久開展。目前國內(nèi)外對數(shù)字資源長期保存成本的研究多集中于具體保存策略的成本比較或具體成本因素的內(nèi)容分析,對已有成本分析模型的比較評價、不同變量因素對總體成本影響的研究尚不多見。鑒于此,本文擬對現(xiàn)有的數(shù)字資源長期保存成本分析模型進(jìn)行詳細(xì)的調(diào)研分析,比較不同成本模型的內(nèi)容要素,同時,針對長期保存活動每一階段中可選擇的變量和情境要素眾多,不同變量或情境要素的組合將極大地影響總體保存成本的現(xiàn)狀,本文將著力于從不同保存策略、保存主體的選擇,不同類型資源的保存、不同的保存要求和資源轉(zhuǎn)換周期等方面,指出在測算具體保存方案的成本時,需注意區(qū)分和考慮的影響因素,以期為各機(jī)構(gòu)在估算長期保存成本、制定保存策略時提供借鑒。
1 橫向成本分析法
橫向成本分析方法以保存過程中的資源處理流程為線索,將屬于同一處理過程或時間上相近的操作予以集中歸類,組合成成本因素,同時將長期保存活動中所需的人力資源成本和軟硬件設(shè)施成本拆解分散到資源保存過程中的各成本因素中。橫向成本分析法的典型代表是“英國圖書館研究和創(chuàng)新中心”制定的以資源保存流程為線索的分析方法和電子文獻(xiàn)生命周期信息(Lifecycle Information for E-literature,LIFE)項目制定的以資源保存生命周期為主線的分析方法。
1.1 資源保存流程分析法
在英國信息系統(tǒng)委員會(JISC)“數(shù)字資源長期保存工作組”的資助下,“英國圖書館研究和創(chuàng)新中心”于1998年發(fā)布了《數(shù)字保存的方法和成本比較》報告,按照數(shù)字資源保存流程的時間序列將保存過程中的成本要素歸類為:
(1)資源創(chuàng)建階段的花費(fèi)。主要由兩部份組成,一是用于制定相關(guān)準(zhǔn)則、指導(dǎo)資源生產(chǎn)者和培訓(xùn)用戶;二是用于更正和清洗數(shù)據(jù)、制定基本標(biāo)準(zhǔn)。
(2)資源評價和選擇的花費(fèi)。
(3)數(shù)據(jù)管理的花費(fèi)。數(shù)據(jù)管理分為數(shù)據(jù)的記錄、生效、結(jié)構(gòu)化和存儲四個部分,相應(yīng)的成本支出也主要用于支付這四個過程中的操作和管理花費(fèi)。其中數(shù)據(jù)的記錄是指標(biāo)識數(shù)字資源,描述資源的結(jié)構(gòu)、內(nèi)容、起源和歷史,并根據(jù)要求編輯和管理記錄;數(shù)據(jù)的生效包括數(shù)據(jù)的完整性、功能性和可讀取性評估,數(shù)據(jù)的復(fù)制和媒介更新,數(shù)據(jù)更新后的檢測;數(shù)據(jù)的結(jié)構(gòu)化是指將數(shù)字資源轉(zhuǎn)化為標(biāo)準(zhǔn)格式以便管理和長期保存,包括如何管理、存儲和調(diào)整資源的格式,資源的壓縮和編碼;數(shù)據(jù)的存儲成本包括計算機(jī)硬件和數(shù)字資源存儲媒介等設(shè)施成本,受資源類型、數(shù)量、保存目標(biāo)等因素的影響。
(4)資源公開與利用的花費(fèi)。將特定資源的信息傳遞給用戶所需的花費(fèi),包括開發(fā)資源發(fā)現(xiàn)工具,建立組織有序的主題網(wǎng)關(guān)和在線目錄。
(5)數(shù)字存儲的花費(fèi)。包含復(fù)制和更新保存比特流、選擇合適的保存策略。
(6)權(quán)利管理花費(fèi)。包括規(guī)定和維護(hù)存儲方和數(shù)據(jù)中心用戶權(quán)益的所有過程,涵蓋著作權(quán)、不動產(chǎn)權(quán)益及數(shù)據(jù)保護(hù)和隱私等法律議題。[1 ]
1.2 LIFE項目的資源保存生命周期分析法
由英國聯(lián)合信息系統(tǒng)委員會(JISC)和研究信息網(wǎng)絡(luò)(RIN)等多家資助,倫敦大學(xué)學(xué)院(UCL)與大英圖書館于2005年合作啟動了LIFE項目,旨在為各類型信息收藏和服務(wù)機(jī)構(gòu)提供有關(guān)數(shù)字資源的采集、整理、保存及提供利用這一資源保存全生命周期范圍內(nèi)的經(jīng)濟(jì)性觀察,并在此基礎(chǔ)上提供實(shí)用的成本測算模型。LIFE項目將數(shù)字對象從創(chuàng)建、存取到保存的整個過程看作資源保存的完整生命周期,將生命周期中相互關(guān)聯(lián)的數(shù)據(jù)操作聚合成不同的階段,處于同一生命周期階段的數(shù)據(jù)處理通常發(fā)生在相同的時間點(diǎn),而后再將每一階段中那些獨(dú)特且重要、能為組織機(jī)構(gòu)的數(shù)字保存規(guī)劃提供有用成本信息的操作提煉為生命周期元素,最后再將每一元素中的關(guān)鍵成分列為生命周期子元素,從而可以根據(jù)生命周期各元素的花費(fèi)估算數(shù)字資源長期保存的總成本。LIFE項目基于生命周期制定的成本分析模型要素包括:
(1)資源的建設(shè)成本。分為自建、購買和捐贈此三種不同資源建設(shè)方式的成本。
(2)資源獲取階段的成本。涉及獲取、存儲和管理數(shù)字資源的操作。包括制定和實(shí)施資源選擇政策、資源存儲方與生產(chǎn)方之間締結(jié)資源提交協(xié)議、獲取資源的保存權(quán)利或許可、資源的訂購和獲取、資源的數(shù)量和外形特征檢測。
(3)資源導(dǎo)入階段的成本。資源導(dǎo)入階段是指評估和分析數(shù)字對象,然后將其導(dǎo)入保存機(jī)構(gòu)的數(shù)字存儲庫過程。包括資源的質(zhì)量評估和確認(rèn)、資源的元數(shù)據(jù)抽取和創(chuàng)建、資源的組織和存儲、已有資源目錄的更新、資源索引和參考鏈接的建立等步驟。
(4)比特流保存的成本。比特流保存是指通過備份、更新和定期檢查,長期存儲和維護(hù)數(shù)字資源,保證其數(shù)據(jù)免受損失。包括存儲庫的安全和備份管理、存儲軟硬件的購買和維護(hù)、資源的定期備份、所存儲資源的自動檢查或手工抽樣檢查。
(5)內(nèi)容保存階段的成本。包括監(jiān)測存儲活動的環(huán)境,為保存規(guī)劃的制定搜集信息,根據(jù)擬保存資源的概況、各類情境性因素和其他規(guī)劃需求,結(jié)合對已有保存方案的評估,制定保存計劃、開展保存行動、遷移和導(dǎo)入數(shù)字資源、評估和移除資源。
(6)提供資源獲取階段的成本。涵蓋提供資源檢索服務(wù)和相關(guān)軟件,按照先前商定的獲取權(quán)利條款、應(yīng)用技術(shù)措施確保將資源提供給合適的用戶,為用戶獲取資源提供咨詢幫助。
(7)非生命周期因素的花費(fèi)。包括財政和人力資源管理、工資開支、相關(guān)設(shè)施和場地(如辦公空間)及通貨膨脹等因素。[2 ]
2 縱向成本分析法
縱向成本分析法以長期保存活動中的軟硬件設(shè)施、人員和資源等要素為線索,將資源保存過程中涉及上述要素的成本元素進(jìn)行縱向聚類。由英國教育部、文化和科技部聯(lián)手資助的Testbed計劃研究了數(shù)字資源長期保存的成本影響因素,設(shè)計了成本分析模型。[3 ]該模型從縱向角度將數(shù)字信息長期保存的成本要素劃分為:
(1)數(shù)字存儲系統(tǒng)的花費(fèi)。包括:①物理空間:服務(wù)器存放空間和辦公空間;②數(shù)字存儲庫硬件:服務(wù)器、光盤、磁帶和其他存儲媒介、備份系統(tǒng)和網(wǎng)絡(luò)連接;③數(shù)字存儲庫軟件:購置操作系統(tǒng)、數(shù)據(jù)庫軟件、安全系統(tǒng)、記錄管理軟件、通訊軟件,開展軟件測試和評估;④軟件保存系統(tǒng):仿真保存已有軟件和新軟件的應(yīng)用環(huán)境、測試和評估軟件保存。
(2)員工花費(fèi)。員工開支也是長期保存活動中重要的成本因素。該成本分析模型通過分析不同類型員工的職責(zé)與義務(wù),監(jiān)測員工的工作量,從而估算人員成本。
①數(shù)字歸檔員工的職責(zé):制定數(shù)字歸檔的要求、選擇存儲數(shù)字資源、負(fù)責(zé)管理數(shù)字存儲庫和數(shù)字資源的質(zhì)量,制定與資源保存操作相關(guān)的標(biāo)準(zhǔn)和手冊。
②存儲系統(tǒng)員工的職責(zé):根據(jù)存儲系統(tǒng)的需求設(shè)計、建設(shè)、管理和維護(hù)數(shù)字存儲庫,制定存儲系統(tǒng)的操作標(biāo)準(zhǔn)和用戶手冊。
③公共服務(wù)員工的職責(zé):負(fù)責(zé)資源的獲取和利用管理以及用戶的教育和培訓(xùn)。
(3)開發(fā)軟件和記錄保存方法的花費(fèi)。包括主要需求分析,設(shè)計、開發(fā)、測試保存軟件和保存方法。
(4)實(shí)施保存行動的花費(fèi)。涵蓋選擇需保存的記錄、建立資源保存管理系統(tǒng)、選取存儲策略和方法、為資源添加元數(shù)據(jù)和修復(fù)記錄、利用所選擇的策略和方法轉(zhuǎn)換記錄、評價資源轉(zhuǎn)換后的完整性這一整個資源保存實(shí)施流程中的花費(fèi)。
(5)其他影響總開銷的因素。用戶利用程度、保存活動的時間間隔、技術(shù)觀察(監(jiān)測現(xiàn)有記錄的硬件、軟件和系統(tǒng),評估和預(yù)測技術(shù)過時的風(fēng)險,并采取相應(yīng)的應(yīng)對措施)、記錄數(shù)量、真實(shí)性和可靠性需求、存儲系統(tǒng)的更新?lián)Q代和保存等因素也會影響總體保存成本。
3 數(shù)字資源保存過程中的成本影響因素
各類指標(biāo)體系看似林林總總,詳簡不一,各式各樣,種類繁多,其實(shí)是萬物同源、殊途同歸,差異只在于從不同維度對成本要素進(jìn)行橫向或縱向的分解與集中。數(shù)字資源長期保存的成本總體上主要由資源保存政策和標(biāo)準(zhǔn)的制定及實(shí)施、資源的保存操作及相關(guān)的人員和軟硬件設(shè)施成本等要素組成。橫向成本分析法是將保存過程中的相同或相近處理予以集中,側(cè)重于對資源本身的處理,將相關(guān)的人力資源成本要素和軟硬件成本要素暗含其中,而縱向成本分析法則分別以保存活動中的數(shù)字資源、人員和設(shè)施等實(shí)體成本要素為主線,將資源保存各階段中涉及同一要素的成本元素進(jìn)行聚類,但在測算實(shí)施保存行動花費(fèi)等成本要素的過程中,又是以資源保存的生命周期或處理時序?yàn)橹骶€展開。資源的長期保存涉及到的要素眾多,處理過程復(fù)雜,前后相繼,在不同處理階段的可選擇性情境因素較多,不同情境要素或變量的組合將極大地影響總體保存成本,因此,在計算保存成本,制定合理的保存策略過程中,應(yīng)特別注意區(qū)分以下變量或情境要素對保存成本的影響。
3.1 不同保存策略的選擇對保存成本的影響
現(xiàn)有的保存策略主要有技術(shù)保存、技術(shù)仿真和數(shù)字信息遷移這三種方式,不同策略的原理不同,適用于不同的資源和保存需求,成本相差也很大。
技術(shù)保存主要保存創(chuàng)建或獲取數(shù)字資源的原始應(yīng)用程序、相應(yīng)的操作系統(tǒng)和硬件平臺?;ㄙM(fèi)主要集中于兩個部分,首先,當(dāng)一個組織改變現(xiàn)有軟硬件環(huán)境的時候,將需花費(fèi)資金在短期內(nèi)保持原有軟硬件環(huán)境的繼續(xù)運(yùn)行,以便遷移轉(zhuǎn)化僅能在舊有環(huán)境下運(yùn)行的有價值的數(shù)字資源;其次,在軟硬件環(huán)境改變、原有環(huán)境移除之后,如若發(fā)現(xiàn)仍有部分資源只能在原有的環(huán)境中運(yùn)行,則需向仍在運(yùn)行原有軟硬件設(shè)備的第三方機(jī)構(gòu)付費(fèi),以便利用數(shù)據(jù)且將數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)格式,從而在新的環(huán)境中保存和遷移。
技術(shù)仿真策略與技術(shù)保存策略有許多共同之處,需要軟件工程師在現(xiàn)有或未來的平臺上設(shè)計和運(yùn)行仿真程序,模仿過去的硬件平臺和特定的操作系統(tǒng)軟件。該策略突出維持資源的原始樣貌和屬性,適用于具有特定內(nèi)容和形式特征的數(shù)字資源。采用技術(shù)仿真策略,存儲管理者需要尋找專業(yè)的第三方機(jī)構(gòu)來仿真硬件和操作系統(tǒng)軟件環(huán)境,因此花費(fèi)主要用于支付使用第三方機(jī)構(gòu)的設(shè)施來模擬所需的軟硬件環(huán)境,以便利用數(shù)據(jù)。
數(shù)字信息遷移策略的中心是數(shù)字信息的轉(zhuǎn)換,分為媒介轉(zhuǎn)換、回溯兼容性、互操作性和標(biāo)準(zhǔn)格式轉(zhuǎn)換四個部分,此策略的成本主要集中于原有數(shù)字資源的格式轉(zhuǎn)換和管理、編寫兼容程序和互操作程序、測試轉(zhuǎn)換資源的完整性和真實(shí)度等方面。[4 ]
不同的保存策略各有優(yōu)劣,對同一資源采用不同保存策略時所需的成本也各異。數(shù)字信息遷移策略能保證資源為最新的軟硬件環(huán)境所使用,提高資源的訪問和處理速度,防止因介質(zhì)退化而導(dǎo)致的資源流失,同時,遷移法還能滿足在新技術(shù)環(huán)境下用戶不斷變換的信息需求,而且不會增加用戶的負(fù)擔(dān),但相比仿真法而言,遷移法需要處理存儲庫中的每一數(shù)字對象,工作量大,費(fèi)時費(fèi)力,且遷移法無法保留被遷移信息的所有“外觀”,增大了資源損失的風(fēng)險,在每一次的轉(zhuǎn)換中都可能產(chǎn)生結(jié)構(gòu)、版式、鏈接和交互信息的損失,長此以往,信息的損失不斷累積將最終導(dǎo)致數(shù)字信息內(nèi)容出現(xiàn)較大偏差,而且,不同類型的資源、不同的保真度要求,需要開發(fā)和采用不同的遷移方法,且數(shù)據(jù)遷移完成后,還要進(jìn)行保真度確認(rèn)測試,這也增加了資源保存的技術(shù)難度和開發(fā)成本,Testbed計劃的測試顯示,在相同的資源轉(zhuǎn)換和保存要求的狀況下,應(yīng)用遷移法的成本是仿真法的四倍左右。[5 ]仿真法將資源及資源創(chuàng)建時的軟硬件環(huán)境一起封裝,能保持資源的原始面貌,減少資源的損失,在采用仿真法的過程中,資源無需改變,且同一仿真器可以用于不同類型的資源,但仿真法面臨著更多的法律問題,需要模仿的軟硬件環(huán)境都存在產(chǎn)權(quán)保護(hù)問題,而且片面追求兼容性將會限制新技術(shù)的發(fā)展和應(yīng)用,花費(fèi)高昂,同時仿真法還要求較高的技術(shù)水平和運(yùn)行支持能力,一般機(jī)構(gòu)往往難以獨(dú)立做到,軟件制造商也可能最終會放棄某些軟件的向下兼容性[6 ]。此外,仿真法還增加了用戶的使用負(fù)擔(dān),用戶需要配置初始運(yùn)行環(huán)境才能利用所保存的資源。所以在制定保存策略時,要根據(jù)需所保存的資源類型、保存要求、保存機(jī)構(gòu)的知識儲備和財力狀況,綜合選擇各種保存策略,控制保存成本。
3.2 資源保存生命周期范圍和成本要素范圍的確定對成本的影響
為了正確評估長期保存活動的成本,必須界定資源長期保存所包含的生命周期范圍,明確資源保存是指包括從資源獲取到保存利用的全過程,還是僅指數(shù)據(jù)保存階段。如果是前者,將引起資源建設(shè)的目的是為了滿足用戶的信息需求,完成機(jī)構(gòu)使命,還是為了長期保存人類記憶的疑惑,但如果將長期保存的目的放在更大的視野中去考慮,保存的最終目的也還是為了借鑒和利用前人已有的成果,滿足用戶對資源的持續(xù)性獲取需求,所以將資源獲取階段包括在長期保存生命周期內(nèi)與資源建設(shè)的使命之間并不沖突。但過大的范圍,過多的要素,將增加成本計算的復(fù)雜度,在具體計算過程中,難以考慮周全,所以應(yīng)抓住每一階段中的關(guān)鍵事件,丹麥文化部資助的“為國家文化保存機(jī)構(gòu)建立數(shù)字存儲的成本模型”項目就采用了關(guān)鍵事件法進(jìn)行成本估算,該項目首先借助于“OAIS參考模型”將數(shù)字遷移活動分為委任監(jiān)視群體、制定保存決策和標(biāo)準(zhǔn)、設(shè)計存儲信息包和制定遷移計劃、建立標(biāo)準(zhǔn)和政策、構(gòu)造管理系統(tǒng)和更新存檔信息這六個步驟,依次找出每個步驟中的主要花費(fèi)項目,進(jìn)而估算整個遷移活動的成本[7 ]。
資源的長期保存是一項系統(tǒng)工程,所以保存活動的成本要素不僅涉及到需保存的資源本身,而且還關(guān)乎人員的培訓(xùn)和部門的調(diào)整,相關(guān)軟硬件設(shè)施和物理空間的配備、維護(hù)和保存。BERMES等就認(rèn)為建立數(shù)字存儲不僅是一個技術(shù)調(diào)整,保存機(jī)構(gòu)還需要建立、開發(fā)和維持相應(yīng)的組織與技能,法國國家圖書館為了迎接數(shù)字保存的挑戰(zhàn),在人員、部門設(shè)置等方面作出了調(diào)整,建立了存儲和保存部門,開設(shè)了元數(shù)據(jù)、數(shù)字圖書館、數(shù)字化、數(shù)字存儲等數(shù)字信息管理培訓(xùn)課程,重新定義了數(shù)字館員的內(nèi)涵。[8 ]所以長期保存活動的成本計算應(yīng)該綜合考慮此項活動所需的人員、設(shè)施和花費(fèi),估算人員的工資、福利和培訓(xùn)費(fèi)用,存儲所需的軟硬件設(shè)施和物理空間的費(fèi)用及現(xiàn)有組織為了迎接數(shù)字存儲的挑戰(zhàn)所需作出的戰(zhàn)略調(diào)整等成本要素。
3.3 不同保存主體的選擇對成本的影響
長期保存活動還是一項社會工程,牽涉到多個行業(yè),保存主體范圍廣泛,包括專業(yè)的數(shù)據(jù)存儲公司,擁有保存人類記憶職責(zé)的各種類型圖書館和檔案館,各機(jī)構(gòu)中為保存本機(jī)構(gòu)信息和科研成果而專門成立的保存部門,由政府科技和文化部門資助的各類數(shù)據(jù)中心,以及有志于此項活動的各類非盈利性機(jī)構(gòu)和社會組織等,各類主體的優(yōu)勢不同,成本也不一樣。專業(yè)的商業(yè)公司經(jīng)過市場競爭優(yōu)勝劣汰的選擇,往往具有較高的商譽(yù)和信任度,而且擁有雄厚的智力資源、先進(jìn)的技術(shù)優(yōu)勢和豐富的存儲經(jīng)驗(yàn),但價格相對昂貴,適合于保存有特殊價值的、復(fù)雜度和安全性要求較高的資源或提供技術(shù)指導(dǎo)咨詢服務(wù)。數(shù)據(jù)存儲中心往往由國家科技和文化部門建立,旨在保存本國的文化、科研成果等數(shù)字資產(chǎn),服務(wù)價格合理或基本免費(fèi),適合于委托保存大批量的資源。對于機(jī)構(gòu)人員日常使用的資源和保密性不強(qiáng)的資源,為了便于利用,節(jié)約保存成本,可以由機(jī)構(gòu)自行保存。在制定保存策略時,應(yīng)該綜合考慮保存任務(wù)、保存資源的要求和需保存資源的數(shù)量等因素,結(jié)合自身的人員知識結(jié)構(gòu)和人力資源的豐裕度、自身的軟硬件設(shè)備數(shù)量和資金實(shí)力,合理選擇保存主體以降低成本。
3.4 不同類型的保存資源和保存要求對成本的影響
(1) 資源質(zhì)量對成本的影響。資源保存活動的成本要素間相互關(guān)聯(lián),前端步驟的質(zhì)量將直接影響后續(xù)步驟的花費(fèi)。若資源按標(biāo)準(zhǔn)要求創(chuàng)建,格式規(guī)范,內(nèi)容顯示正確,元數(shù)據(jù)描述齊全,將極大節(jié)約資源的評價選擇和保存成本,轉(zhuǎn)換格式良好資源的花費(fèi)遠(yuǎn)遠(yuǎn)低于格式欠佳資源的花費(fèi)。在資源創(chuàng)建階段用于提高數(shù)據(jù)質(zhì)量的花費(fèi),將能在資源更新階段節(jié)約約10倍的資金。[9 ]
(2)資源類型對成本的影響。不同類型資源的復(fù)雜度不同,有著不同的日常操作、處理及其他管理活動,耗費(fèi)在為資源添加元數(shù)據(jù)、開發(fā)和測試轉(zhuǎn)換技術(shù)上的工作量也不相同,所需的成本不一,如印刷型資源在保存過程中的資源轉(zhuǎn)換和組織階段,其成本要明顯高于原生數(shù)字資源,復(fù)雜度高的多媒體資源的保存成本要高于相對簡單的文本資源。Testbed計劃的統(tǒng)計表明保存數(shù)據(jù)庫的工作量大概是保存文本文件的六倍,保存電子郵件的工作量是文本文件的兩倍。同時,同一存儲庫中資源類型的多寡對保存成本也有顯著影響,不同類型的資源通常需要分別制定保存策略,保存類型相同和保真度需求一致資源的難度和成本要低于保存不同類型的資源。此外,不同類型的資源,其總成本在生命周期不同階段的分配也存在差異。LIFE項目一期對VDEP(大英圖書館收藏的自愿呈繳的電子出版物資源)、Web Archiving(網(wǎng)頁存檔計劃)和電子期刊三類資源保存的比較顯示,Web文檔由于數(shù)據(jù)量大、類型復(fù)雜,獲取時需要考慮資源的選擇標(biāo)準(zhǔn)、采集許可以及需要開發(fā)網(wǎng)絡(luò)蜘蛛抓取資源,所以大部分的成本耗費(fèi)在資源的獲取、組織和保存階段。電子期刊由數(shù)據(jù)庫公司負(fù)責(zé)加工、整理和存儲,所以其保存成本的98%集中在資源獲取階段,VDEP資源的獲取成本為零,但其保存周期中的導(dǎo)入階段、元數(shù)據(jù)加工階段和存儲階段需要花費(fèi)大量的資金。[10 ]
(3)不同的保存年限對成本的影響。資源保存的期限越長,數(shù)據(jù)的轉(zhuǎn)換過程和軟硬件更新的次數(shù)就越多,其成本也就越大。LIFE項目將其制定的成本分析通用模型在不同保存年限要求下的應(yīng)用測試表明,隨著保存年限的延長,技術(shù)觀察(用于考察技術(shù)的更新和載體的生命周期)成本占總成本的比例將快速提升,直至成為最大的成本因素,保存工具成本的比例則急劇下降,元數(shù)據(jù)保存、資源保存活動和質(zhì)量保證的成本略有增長,但相對平穩(wěn)。[11 ]
(4)不同的保真度和安全性要求對成本的影響。資源保存、轉(zhuǎn)換過程中不可避免地伴有信息失真,Geoffrey Brown和Kam Woods在《原生數(shù)據(jù)的破壞:法律數(shù)字文獻(xiàn)的字體和信息損失》一文中指出成百上千萬法律文獻(xiàn)的正確翻譯有賴于文獻(xiàn)中所含的特殊字體,但是這些信息在數(shù)據(jù)導(dǎo)入過程中沒有被很好地控制。法律文獻(xiàn)資源中有很多的特殊字體,類型在100種至200種之間,而應(yīng)用諸如office之類的軟件創(chuàng)建文獻(xiàn)副本時,這些軟件不能正確表達(dá)文獻(xiàn)字體,可能造成關(guān)鍵信息的損失。[12 ]不同的行業(yè)對資源保真度有著不同的要求,特定資源保存的保真度要求也是關(guān)鍵的花費(fèi)要素。以文本文件為例,如果只保存內(nèi)容,保存任務(wù)將相對簡單,成本也較低。如果要保存文檔每一頁面的特征和文檔中的所有色彩,那么保存成本和保存方法的復(fù)雜度都將提升,所以在計算保存成本時,應(yīng)以一種全面、實(shí)際的態(tài)度確定保真度需求。
對保存資源的不同安全度的需求也將導(dǎo)致保存成本的差異,數(shù)字信息的保存活動可以分為代表第三方機(jī)構(gòu)所進(jìn)行的離線數(shù)據(jù)倉儲,這些數(shù)據(jù)只提供給這些第三方機(jī)構(gòu),以防數(shù)據(jù)遭遇不可恢復(fù)性損失;數(shù)據(jù)離線存儲,僅提供給按照預(yù)設(shè)網(wǎng)絡(luò)傳輸程序請求數(shù)據(jù)的用戶;數(shù)據(jù)在線存儲和發(fā)布等幾種類型,離線存儲數(shù)據(jù)對存儲環(huán)境的可控性和安全性要求較高,需單獨(dú)存儲,與在線存儲數(shù)據(jù)在所需設(shè)備和安全控制上的成本有較大差異。[13 ]
3.5 資源轉(zhuǎn)換周期的確定和轉(zhuǎn)換時機(jī)的選擇對成本的影響
在資源保存過程中,無論選擇何種保存策略都將面臨如何確定資源轉(zhuǎn)換周期的問題。資源轉(zhuǎn)換的成本是資源保存過程中的一個重復(fù)性要素,為了防止介質(zhì)的老化和過時而導(dǎo)致信息損失,需要不斷地轉(zhuǎn)換資源,并測試轉(zhuǎn)換后資源的真實(shí)度和可靠性,Testbed計劃的試驗(yàn)表明資源轉(zhuǎn)換周期的長短與資源轉(zhuǎn)換成本之間呈線性上升的比例關(guān)系,在遷移策略中,數(shù)據(jù)遷移周期為10年的保存活動的花費(fèi)是周期為5年的保存活動的一半,在仿真策略中,軟硬件仿真周期為15年的保存活動與周期為7年的保存活動之間也存在類似的比率關(guān)系。[14 ]但資源的遷移周期與資源保存的重要指標(biāo)---資源的真實(shí)度和保存風(fēng)險之間又是一對矛盾體。頻繁的轉(zhuǎn)換將影響保存成本及資源的完整性和真實(shí)性,且每次轉(zhuǎn)換之后還需要不斷地檢測、確認(rèn)資源的真實(shí)度。但如果轉(zhuǎn)換間隔過長,雖然能在一定程度上節(jié)約成本,但又會增加數(shù)據(jù)保存的風(fēng)險,所以在估算保存成本時,應(yīng)加強(qiáng)對載體生命周期研究,決定合理的轉(zhuǎn)換周期,選擇合適的保存時機(jī),充分估計到重復(fù)轉(zhuǎn)換活動所造成的成本問題。
3.6 質(zhì)量控制要素和著作權(quán)要素對成本的影響
長期保存的最終目的是提供利用,所以質(zhì)量控制問題不可忽視。質(zhì)量控制成本包括創(chuàng)建描述資源內(nèi)外部特征的元數(shù)據(jù)、修復(fù)和清洗數(shù)據(jù)、資源轉(zhuǎn)換后的真實(shí)度和完整性評估、資源不符合預(yù)定要求時的解決措施、資源的病毒檢測、制定質(zhì)量保證政策、設(shè)定質(zhì)量保證參數(shù)和內(nèi)容檢測說明等過程的花費(fèi)。同時,長期保存活動還需重點(diǎn)關(guān)注著作權(quán)成本問題,由于著作權(quán)主體和權(quán)利狀況界定的復(fù)雜性,特別在大規(guī)模的Web資源采集保存中,往往忽視著作權(quán)成本,或希望借助于國家相關(guān)法律(如呈繳法)和政策來規(guī)避此類成本問題,但在常規(guī)資源保存活動中,著作權(quán)成本仍是一個不可忽略的因素。資源的著作權(quán)不僅決定資源能否合法地被第三方機(jī)構(gòu)保存,而且還決定所保存資源的獲取和利用方式。長期保存活動的各生命周期階段中不可避免地牽涉到一系列著作權(quán)問題,需要支付包括資源獲取權(quán)、資源保存過程中的內(nèi)容和格式的修改權(quán)、資源保存權(quán),仿真已有軟硬件的權(quán)利等在內(nèi)的著作權(quán)成本,這些花費(fèi)因素在估算保存成本時也應(yīng)予以考慮。
綜上,數(shù)字資源的長期保存是一項系統(tǒng)工程,其成本因素不僅包括資源本身的獲取、加工、保存和提供利用,而且還包括與資源保存相關(guān)聯(lián)的人員開支和軟硬件設(shè)施的購置等多方面的花費(fèi),現(xiàn)有的成本分析模型本質(zhì)上是一致的,所存在的差異只是源于考察成本要素時橫向和縱向角度選擇的不同。但在資源保存的每一階段,由于資源類型、保存年限、真實(shí)度等要求的不同,可選擇的保存策略和保存主體眾多,所以具體機(jī)構(gòu)在制定長期保存規(guī)劃時,需根據(jù)保存目的和要求、人員和技術(shù)上的可行性,通盤考慮長期保存活動帶來的影響,選擇合適的綜合性策略,評估保存活動的成本,在實(shí)現(xiàn)資源保存目標(biāo)的同時,兼顧保存活動的經(jīng)濟(jì)性。
參考文獻(xiàn):
[1][4][13]Comparison of Methods & Costs of Digital Preservation[EB/OL].[2010-06-19].http://www.ukoln.ac.uk/services/elib/papers/tavistock/hendley/hendley.html.
[2][11]The LIFE2 Final Project Report[EB/OL].[2010-06-19].http://eprints.ucl.ac.uk/14110/1/14110.pdf.
[3][5][9][14]Costs of Digital Preservation[EB/OL]. [2010-06-19].www.digitaleduurzaamheid.nl/bibliotheek/docs/CoDPv1.pdf.
[6]胡星火.基于OAIS的數(shù)字信息長期保存研究[D].南京:南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,2008.
[7]Ulla B gvad Kejser,Cost Model for Digital Preservation: Cost of Digital Migration[EB/OL]. [2010-06-19].http://www.cdlib.org/iPres/presentations/Kejser.pdf.
[8]mmanuelle Bermès,Louise Fauduet.The Human Face of Digital Preservation: Organizational and Staff Challenges and Initiatives at the Bibliothèque nationale de France[EB/OL].[2010-06-19].http://www.cdlib.org/iPres/presentations/Bermes.pdf.
[10]Lifecycle information for e-literature: a summary from the LIFE project[EB/OL]. [2010-06-19].http://eprints.ucl.ac.uk/1855/1/LifeProjSummary.pdf.
[12]Geoffrey Brown, Born Broken.Fonts and Information Loss in Legacy Digital Documents[EB/OL]. [2010-06-19].http://www.cdlib.org/iPres/presentations/Brown.pdf.
作者簡介:蘇小波(1984-),男,武漢大學(xué)信息管理學(xué)院09級博士研究生;常娥(1978-),女,博士,東南大學(xué)圖書館館員。