何露彤 林妍歆 王春蕾
(中國人民大學信息資源管理學院 北京 100872)
網(wǎng)絡信息作為互聯(lián)網(wǎng)技術革命中的衍生產(chǎn)物,是人們進行網(wǎng)絡活動的真實記錄,包含文字、圖像、聲音等多種形式,生動直觀地反映了人們的網(wǎng)絡生活。[1]網(wǎng)絡信息具有憑證價值和記憶價值,是一個國家和組織珍貴的數(shù)字資產(chǎn)和數(shù)字文化遺產(chǎn);同時,網(wǎng)絡信息資源也是一種動態(tài)增長的、易逝的且不可再生的“原生性”網(wǎng)絡文獻,具有易消失、難復原等特性。網(wǎng)絡信息存檔是指在一種“原生性”網(wǎng)絡信息資源的整個生命周期內(nèi)對其進行有目的的評價、選擇、采集、描述、元數(shù)據(jù)表示、存儲、發(fā)布和維護等一系列工作以確保其當前可用和未來價值增值的管理活動。[2]
當前我國關于網(wǎng)絡信息存檔的研究大體上可分為三類:一是案例類研究。即對美國、英國等國家的網(wǎng)絡信息存檔項目進行成果介紹和經(jīng)驗總結,分析網(wǎng)絡信息存檔項目的存檔方式、存檔主體和主要功能等,以周文泓[3]等為代表;二是技術類研究?;趨^(qū)塊鏈理念及相關技術對資源采集、管理、保存和利用的全流程網(wǎng)絡信息存檔進行分析,旨在增強數(shù)據(jù)安全性和提高自動化認證能力,以張煒[4]為代表;三是價值類研究。即從價值的來源、屬性和影響等因素出發(fā),闡述存檔網(wǎng)絡信息價值的概念,以胡吉穎[5]、吳碩娜[6]為代表。以上研究成果皆具有啟發(fā)意義,但這些研究或著眼于個別國家的單個項目,未從全流程視角形成系統(tǒng)分析;或過多地關注技術本身,而缺少整體性的戰(zhàn)略框架。
基于上述背景,本研究著眼國際知其全貌,立足整體窺其要理,采用網(wǎng)絡調(diào)查法展開系統(tǒng)研究,具體來說,項目組于2023 年9 月25 日至9 月30 日開展調(diào)查工作,以維基百科的網(wǎng)絡信息存檔行動列表、國際互聯(lián)網(wǎng)保存聯(lián)盟的成員列表為主要信息來源,并在調(diào)查過程中采用滾雪球法擴大收集范圍,盡可能獲得更為完整、全面的網(wǎng)絡信息存檔項目列表。需要說明的是,由于當前全球網(wǎng)絡信息存檔項目中,存檔對象多為網(wǎng)頁和社交媒體,而社交媒體信息歸檔還尚不成熟和普遍,因此,本文所指的網(wǎng)絡信息歸檔主要指向網(wǎng)頁信息存檔;隨后,于10 月1 日至10 月10 日開展資料收集工作,從機構及項目的官方網(wǎng)站、相關新聞及研究報告中摘取項目相關信息,從項目資料的細粒度和完整性出發(fā),以項目實踐效果為基礎、以社會評價指標為依據(jù)、以項目的代表性為支撐,進行項目的層層篩選和資料的漸次補充,最終形成來自19 個國家的26 篇項目介紹文檔;最后,于10 月11 日至10 月15 日開展項目編碼工作,依據(jù)所獲取的項目文本內(nèi)容形成全球部分代表性網(wǎng)絡信息存檔項目編碼表、網(wǎng)絡信息存檔行動基本要素編碼表以及網(wǎng)絡信息存檔行動關鍵問題編碼表共三張編碼表。以這些編碼信息為主,本研究嘗試對全球網(wǎng)絡信息存檔行動進行全景描繪,從行動的基本要素和關鍵問題兩個層面歸納其基本要素框架,以此為我國網(wǎng)絡信息存檔行動提出建設性意見。
全球網(wǎng)絡信息存檔行動始于1996 年,澳大利亞、瑞典等國家相繼發(fā)起PANDORA、Kulturarw3 等項目,以先驅(qū)性嘗試拉開了網(wǎng)絡信息存檔系列行動的序幕。此后,瑞典、新西蘭、捷克等國紛紛開啟了本國的網(wǎng)絡信息存檔實踐,網(wǎng)絡信息存檔逐漸從區(qū)域性嘗試演變上升為全球共識,行動足跡幾乎遍及各洲。項目組按照項目所屬地區(qū)對選取的代表性網(wǎng)絡信息存檔項目進行了編碼,并按開展時間對其進行了排序,形成了全球部分代表性網(wǎng)絡信息存檔項目編碼表(見表1)。
表1 全球部分代表性網(wǎng)絡信息存檔項目編碼表
俯瞰全球網(wǎng)絡信息存檔行動全景,可以從以下三個維度對其進行解析:
首先,從時間維度來看,1996 年—2002 年為萌芽期,盡管少數(shù)國家在1996 年開啟了網(wǎng)絡信息存檔實踐嘗試,但其后六年間相關項目零星增長,網(wǎng)絡信息存檔并未引起普遍關注。2003 年—2013 年為快速發(fā)展期,2003 年國際互聯(lián)網(wǎng)保存聯(lián)盟的成立成為促使網(wǎng)絡信息存檔行動高速發(fā)展的重要轉(zhuǎn)折點,探索性實踐的經(jīng)驗積累與全球范圍內(nèi)的交流合作使這一時期的網(wǎng)絡信息存檔項目激增,全球網(wǎng)絡信息存檔行動迎來十年發(fā)展高峰。2014 年至今為沉淀發(fā)展期,這一時期全球網(wǎng)絡信息存檔行動的增長勢頭趨于平緩,但新行動的規(guī)劃水平和技術水平均有明顯提升,網(wǎng)絡信息存檔步入智慧存檔新階段。
其次,從地區(qū)維度來看,歐洲、北美洲,如英國、美國、澳大利亞等發(fā)達國家作為先行者走在前列,亞洲國家如韓國、日本、中國緊隨其后,經(jīng)濟水平相對落后的非洲、南美洲國家則缺少探索。這種地區(qū)分布有其合理性,開展國家網(wǎng)絡信息存檔行動不僅需要完善的網(wǎng)絡基礎設施和充足的網(wǎng)絡信息資源,更因龐大的資料數(shù)量要求有強大的資金及技術支持,總體而言對開展國家的網(wǎng)絡發(fā)展狀況、經(jīng)濟實力都有較高的要求。
最后,從主導機構維度來看,全球網(wǎng)絡信息存檔行動的主導機構較為多樣化,涵蓋圖書館、檔案館、政府機構、高校、私人企業(yè)等,但國家級的網(wǎng)絡信息存檔行動一般由圖書館主導,或由圖書館和檔案館共同合作主持,這與二者作為公共文化機構的責任和使命相符。
整體來看,歷經(jīng)數(shù)十年的發(fā)展,網(wǎng)絡信息存檔已形成全球行動態(tài)勢,網(wǎng)絡信息作為記錄時代歷史、構建社會記憶的重要數(shù)字資源已然引起了世界各國圖書館及檔案館的普遍關注。
網(wǎng)絡信息存檔行動包含多個流程要素,對其進行解析有助于把握網(wǎng)絡信息存檔各個環(huán)節(jié)的具體內(nèi)容及特點,同時促進對網(wǎng)絡信息存檔行動的整體性認知。依據(jù)上述所整合的全球部分代表性網(wǎng)絡信息存檔行動的資料,對網(wǎng)絡信息存檔行動的流程要素進行編碼,最終梳理出所選取網(wǎng)絡信息存檔行動的“選、管、存、用”四個流程要素。
3.1.1 內(nèi)容選擇策略
信息選擇是網(wǎng)絡信息存檔的首要環(huán)節(jié),旨在根據(jù)制定的內(nèi)容選擇策略,采用一定的內(nèi)容采集方法,對互聯(lián)網(wǎng)上生成的網(wǎng)絡信息進行選擇并加以捕獲。網(wǎng)絡信息存檔行動主導機構的不同決定了存檔網(wǎng)絡信息內(nèi)容選擇策略的差別。其選擇策略主要有以下幾種,一是根據(jù)網(wǎng)絡信息的類型進行選擇。如英國議會選擇性捕獲、保存和提供在網(wǎng)絡上發(fā)布的英國議會信息,包括2009 年至今的英國議會網(wǎng)站和社交媒體網(wǎng)絡信息。[7]二是立足機構職責范圍進行選擇。如德國網(wǎng)絡服務部門、德國聯(lián)邦議院議會檔案部門根據(jù)其職責范圍存儲、接收和提供來自議會及其行政部門的值得存檔的文件,包括文件、圖像、視頻記錄等。[8]三是立足國家記憶,對國家域名網(wǎng)站進行廣泛爬網(wǎng),還會基于重要事件或主題進行選擇性網(wǎng)絡信息收集。代表性項目如英國網(wǎng)絡檔案館,該項目每年至少進行一次英國網(wǎng)站的自動爬取,同時策展人和其他專家還會收集有關特定事件、主題或感興趣領域的網(wǎng)站。[9]
3.1.2 內(nèi)容采集方法
全球網(wǎng)絡信息存檔項目在內(nèi)容的采集方法上既有共性又各具特色,具體表現(xiàn)在采集工具的選擇和采集頻率的設定兩個方面。一方面,Heritrix、HTTrack、Webrecorder 軟件是幾個通用使用范圍最廣的采集工具。此外還有一些專門軟件也會被用于存檔項目中,如美國圖書館專門開發(fā)的內(nèi)部工作流DigiBoard 軟件,允許員工選擇網(wǎng)站進行存檔、管理和跟蹤所需的權限和通知、執(zhí)行質(zhì)量審查流程以及其他任務[10]。另一方面,采集頻率的確定一般與存檔網(wǎng)絡的更新頻率有關。一般情況下,網(wǎng)絡的采集頻率為每年2—4 次,而對于新聞網(wǎng)絡等更新周期較短的網(wǎng)絡信息,則一般每日或每周采集一次。如日本國立國會圖書館將網(wǎng)絡類型分為國家機關網(wǎng)絡和其他網(wǎng)站網(wǎng)絡,對于前者按月采集,對于后者按季度采集[11]。尤為特殊的是,采集頻率的變更還與存檔網(wǎng)絡的價值評估情況有關,比如美國圖書館會定期對存檔名錄中的網(wǎng)站進行評估,一旦網(wǎng)站的價值被重新評估,其采集頻率也會隨之發(fā)生改變。[12]
信息管理是網(wǎng)絡信息存檔的中間環(huán)節(jié),旨在通過著錄描述、分類整合等管理手段對網(wǎng)絡信息的內(nèi)容特征與物理特征加以描述,以確保存檔網(wǎng)絡信息的質(zhì)量。對存檔網(wǎng)絡信息進行質(zhì)量管控具有兩方面的必要性:一是網(wǎng)絡信息形成于計算機網(wǎng)絡之中,具有物理結構和邏輯結構的復雜性,存檔主體需要采取專門的文件格式以及元數(shù)據(jù)管理工具對其進行質(zhì)量管控;二是網(wǎng)絡信息具有內(nèi)容動態(tài)和更新速度快的特征,其存檔價值的確認和維護存在較大挑戰(zhàn),存檔主體不僅需要在深入理解其語義及內(nèi)涵的基礎上加以分類和組織,還需確保網(wǎng)絡信息的真實性固化和有效性保障,以為信息利用奠定良好的基礎。
3.2.1 著錄描述
著錄描述是對存檔網(wǎng)絡信息的內(nèi)容描述。不同項目采用的元數(shù)據(jù)標準存在差別。一般情況下,多數(shù)項目采用國際通用數(shù)字材料或電子文檔著錄規(guī)則對存檔網(wǎng)絡信息進行手動著錄。如韓國國家圖書館應用了國際標準格式都柏林核心元數(shù)據(jù)(DC)的15 個基本元素,對其資源進行元數(shù)據(jù)著錄[13];日本國立國會圖書館采用NDL 元數(shù)據(jù)標準[14];澳大利亞圖書館采用MARC 機讀目錄標準[15]。這些國際通用元數(shù)據(jù)著錄標準的運用,極大地增強了網(wǎng)絡信息的可檢索性和可理解性,同時也提升了系統(tǒng)中數(shù)據(jù)著錄信息的一致性和共享性。如前所述的描述性元數(shù)據(jù)通常是手動創(chuàng)建的,而技術元數(shù)據(jù)一般是在抓取時自動生成的,如美國End 0f Term Web Archive 就借助Internet Archive 經(jīng)重新配置的內(nèi)部工具,為館藏6,000 多個網(wǎng)站自動生成了元數(shù)據(jù)記錄[16]。
3.2.2 分類整合
分類整合是指根據(jù)內(nèi)容主題將存檔網(wǎng)絡信息劃分為不同類別,以方便資源的管理和開發(fā)利用。總體而言,存檔網(wǎng)絡信息的類型劃分充分體現(xiàn)了不同存檔項目所采集網(wǎng)絡內(nèi)容的豐富性和特色性。比如,英國網(wǎng)絡檔案館將所存檔的網(wǎng)絡信息劃分為藝術與文化、政治與政府、運動與休閑等多個核心主題,在每個核心主題之下又包含若干個子話題[17];澳大利亞網(wǎng)絡圖書館則按照藝術、商業(yè)與經(jīng)濟、教育、政府與法律等主題對信息進行了分類和整合[18];各具特色的分類方式不僅能讓用戶快速把握存檔網(wǎng)絡資源的內(nèi)容和特色,而且有利于對存檔網(wǎng)絡信息的質(zhì)量控制,并根據(jù)網(wǎng)絡的更新變化情況隨時補充新的存檔網(wǎng)絡信息,以更全面地覆蓋主題網(wǎng)絡范圍。
3.3.1 存儲格式
存檔網(wǎng)絡信息的長期保存依賴于統(tǒng)一、標準、完整的存儲格式,因此全球網(wǎng)絡信息存檔項目力爭采用最為理想的存儲格式對資源進行保存。WARC 格式就是目前最為普遍的存儲格式,被廣泛運用于多個網(wǎng)絡信息存檔項目中,包括澳大利亞PANDORA 項目[19]、丹麥網(wǎng)絡檔案Netarkivet 項目[20]、捷克網(wǎng)絡檔案Webarchiv 項目[21]等。此外,還有一些項目也會存儲網(wǎng)絡的原始版本,如美國互聯(lián)網(wǎng)檔案館利用網(wǎng)絡快照對網(wǎng)絡進行存檔保存[22]。
3.3.2 存儲平臺
網(wǎng)絡信息存檔項目普遍基于項目目標和建設條件,或選擇自行開發(fā)網(wǎng)絡信息存檔平臺,或選擇使用合作伙伴、技術公司、國際網(wǎng)絡存檔組織提供的存儲服務,或?qū)⒍哌M行組合使用。自行開發(fā)網(wǎng)絡信息存檔平臺的機構,如瑞典Kulturarw3 項目開發(fā)了學術期刊數(shù)據(jù)庫,專用于網(wǎng)絡信息存檔[23];斯坦福大學圖書館將存檔后的網(wǎng)絡信息存儲于斯坦福大學數(shù)字存儲庫[24]。而借用其他存儲系統(tǒng)進行資源存儲的項目則更為普遍,如英國網(wǎng)絡檔案館將存檔后的網(wǎng)絡信息存儲于由大英圖書館開發(fā)并得到其他英國法定存放圖書館支持的數(shù)字圖書館系統(tǒng)當中[25]。
信息利用是網(wǎng)絡信息存檔的最終環(huán)節(jié),也是網(wǎng)絡信息存檔的最終目標。存檔網(wǎng)絡信息的利用需要更為重視信息利用的倫理與法理風險,在確保信息的合理利用前提下追求信息利用的共享性和便利性。這是由網(wǎng)絡信息生成主體的多元性所決定的。在互聯(lián)網(wǎng)空間中,與信息的生成、管理、處置等過程相關的利益者層層交叉,存在權責不分,利益沖突等情況,加之個人網(wǎng)絡信息的所有權、知識產(chǎn)權、隱私保護等意識的強化,這些都將導致存檔網(wǎng)絡信息的利用更加復雜,存檔主體需要在法律的框架下兼顧網(wǎng)絡信息利用的合法性和合理性,以滿足用戶利用需求為目標豐富信息開發(fā)的成果形式和利用形式。
3.4.1 成果形式
根據(jù)信息展現(xiàn)形式和平臺的不同,存檔網(wǎng)絡信息的開發(fā)利用成果形式主要分為兩種。第一種是面向用戶利用的專門數(shù)據(jù)集,比如美國國會圖書館公開發(fā)布網(wǎng)絡信息存檔衍生數(shù)據(jù)集,向廣大用戶提供利用[26]。第二種是建設通用型檢索平臺,為用戶提供多個檢索途徑和入口,比如美國斯坦福大學圖書館提供斯坦福網(wǎng)絡檔案門戶網(wǎng)站,支持搜索URL 獲取存檔網(wǎng)站信息[27]。不同的成果形式能夠滿足相應的用戶需求,實現(xiàn)存檔網(wǎng)絡信息價值的最大化,將存檔信息轉(zhuǎn)變?yōu)榭晒z索和利用的知識性資源。
3.4.2 利用形式
按照信息開放利用程度的不同,存檔網(wǎng)絡信息的利用形式一共可以分為三類。第一類是開放利用,比如英國議會網(wǎng)絡檔案項目存檔的材料保存在英國議會網(wǎng)絡檔案館 (UKPWA) 中,任何人都可以在線訪問[28]。第二類是提供部分訪問,比如澳大利亞PANDORA項目中一些存檔網(wǎng)絡被禁止公開,如包含隱私信息、有害信息的網(wǎng)絡。用戶對少數(shù)主題的訪問受到限制[29]。第三類是不提供開放利用。比如丹麥網(wǎng)絡檔案無法公開訪問[30]。該檔案僅供已請求并獲得特殊許可,將館藏用于特定研究目的的研究人員訪問。
網(wǎng)絡信息的采集與利用觸及知識產(chǎn)權、隱私權等諸多復雜的法律問題,因此網(wǎng)絡信息存檔項目的順利推進離不開法律的保障與支持。目前各國在解決網(wǎng)絡信息存檔所面臨的法律問題上已經(jīng)探索出了一些可供借鑒的路徑。具體來說,首先在網(wǎng)絡信息的采集上,多數(shù)國家會對相關法律如法定呈繳法、版權法、檔案法進行修改,以將網(wǎng)絡信息納入合法收集范圍。如英國在2003 年通過了《法定繳存圖書館法》,將現(xiàn)有的法定繳存立法擴展到包括網(wǎng)站在內(nèi)的非印刷(電子)出版物[31];美國在2005 年重新修訂了版權法第108 款,將呈繳范圍擴大至在線資源[32]。
其次,在網(wǎng)絡信息的開放利用上,為保護可能包含于網(wǎng)絡信息中的個人或機構隱私信息及版權內(nèi)容,避免侵權行為,多數(shù)存檔機構都對存檔網(wǎng)絡信息的訪問設置了一定限制,其中較為常見的有以下三種。一是對提供信息進行限制,即對存檔網(wǎng)絡信息只提供部分公開訪問,如前文提到的澳大利亞PANDORA項目;二是對訪問場所進行限制,即將對存檔網(wǎng)絡信息的訪問限制于圖書館或檔案館內(nèi),如英國網(wǎng)絡檔案館的存檔網(wǎng)絡信息除非獲得了網(wǎng)站發(fā)布者的額外許可,否則只能在圖書館實地查看[33];三是對使用目的進行限制,即只允許以研究為目的對存檔網(wǎng)絡信息進行利用,如丹麥網(wǎng)絡檔案Netarkivet 僅供已請求并獲得特殊許可將館藏用于特定研究目的的研究人員訪問[34]。而在此方面,澳大利亞PANDORA 項目的做法值得借鑒,其根據(jù)版權的不同對資源的利用設置了嚴格的用戶檢索等級表[35],在版權限制下實現(xiàn)了存檔資源利用價值的最大化。
在確保網(wǎng)絡信息存檔合法合規(guī)的基礎之上,對于網(wǎng)絡信息的開發(fā)利用,存檔機構既需維護信息所有者利益,又需注重公眾獲取信息的基本權利,可以通過檢索等級表此類更為細致、完善的訪問規(guī)定促使網(wǎng)絡信息的價值在法律框架下得到最大程度的發(fā)揮。
技術是貫穿于網(wǎng)絡信息存檔全流程的重要要素之一,作為網(wǎng)絡信息存檔流程順利開展的保障對存檔行動起到根本性支撐作用。目前對于網(wǎng)絡信息存檔行動中的主要技術問題已經(jīng)擁有了成熟度較高的相應技術工具,按具體用途大致可以分為以下三類:第一類用于網(wǎng)絡信息的采集爬取,如Heritrix、HTTrack 等,其中由互聯(lián)網(wǎng)檔案館開發(fā)的Heritrix 是應用最為廣泛的網(wǎng)絡爬蟲,可用于選擇型和完整型資源采集;第二類用于存檔網(wǎng)絡信息的瀏覽重現(xiàn),常用的有OpenWayback、WebRecorder pywb 等,其中WebRecorder pywb 作為國際互聯(lián)網(wǎng)保存聯(lián)盟建議的OpenWayback 替代工具,能夠準確地重現(xiàn)各類存檔網(wǎng)絡,并可用于創(chuàng)建高保真網(wǎng)絡信息檔案;第三類是既可用于資源采集,又可用于信息呈現(xiàn)的集成性技術工具,如開源工具WebRecorder 就集網(wǎng)絡捕獲與網(wǎng)絡重現(xiàn)于一體,為網(wǎng)絡信息存檔實踐提供了極大便利。此外,目前也已出現(xiàn)幫助組織機構解決網(wǎng)絡信息存檔相關技術問題的外部服務供應商,如英國議會網(wǎng)絡檔案的合作公司Mirrorweb,其為存檔機構提供網(wǎng)絡、社交媒體等網(wǎng)絡信息的存檔及訪問服務,幫助減少機構進行網(wǎng)絡信息存檔的時間及精力成本。
網(wǎng)絡信息存檔的相關基礎性技術工具已較為完備,但仍有一些前沿技術問題需要給以持續(xù)關注以在未來予以解決。如在網(wǎng)絡信息的采集上,需提高對動態(tài)內(nèi)容的捕獲能力,解決動態(tài)網(wǎng)絡的捕獲問題;在網(wǎng)絡信息的利用上,需實現(xiàn)對存檔信息的深度處理和分析,解決存檔信息的開發(fā)問題。
網(wǎng)絡存檔政策是圖書館、檔案館等機構對網(wǎng)絡資源進行評估與選擇、采集、存檔范圍界定、存儲和組織、質(zhì)量保證與分析、訪問利用等制定的一系列指導原則、標準規(guī)范與戰(zhàn)略目標等[36]。在網(wǎng)絡信息存檔行動中,重視相關政策的制定能夠為各個流程提供實踐層面的指南,提高存檔工作的科學性和規(guī)范性。一些國家已經(jīng)制定頒布了綜合性或?qū)iT性的網(wǎng)絡信息存檔政策,用以指導網(wǎng)絡信息存檔的某一環(huán)節(jié)或多個環(huán)節(jié),包括內(nèi)容選擇、風險管理以及法律問題等內(nèi)容。比如澳大利亞國家檔案館的政策文本中,分別對宏觀國家級收藏及微觀具體收集資源類別進行了說明;加拿大圖書檔案館的政策文本中制定存檔內(nèi)容選擇與保存方面的內(nèi)容;芬蘭國家圖書館將具有長期研究價值的權威出版物及學術資源網(wǎng)站列入網(wǎng)絡選擇范圍當中。
網(wǎng)絡信息存檔作為一項極具復雜性的系統(tǒng)工程,涉及主體眾多,存檔對象多元,需要借助政策力量給予網(wǎng)絡信息存檔行動指導和保護。具體來說,一是要完善政策覆蓋的全面性,即兼顧存檔內(nèi)容選擇與保存、存檔內(nèi)容管理與利用以及保障政策三個方面的內(nèi)容,并且需重視合作保存、預評估與存檔流程、技術選擇、質(zhì)量管理與評估等方面的政策制定;二是要增強政策內(nèi)容的特色性,針對國家自身社會和民族的特色制定體現(xiàn)本國、本民族特質(zhì)的政策內(nèi)容,在采集范圍與采集方式、采集內(nèi)容優(yōu)先權等方面制定相應規(guī)定;三是要提升政策制定的平衡性,綜合考慮多重利益相關方的訴求,在保護相關組織或個體信息權益的前提下實現(xiàn)國家數(shù)字記憶的長久留存和開發(fā)利用,在權利、法律義務、人力配置、合規(guī)管理等多個方面制定相應規(guī)定。
網(wǎng)絡信息存檔標準作為網(wǎng)絡信息存檔的前端控制環(huán)節(jié),以其規(guī)范化、科學化和流程化的特點,為選擇、管理、保存和利用各個項目環(huán)節(jié)提供了運行依據(jù)和實施要求,目前各國網(wǎng)絡信息存檔項目中通用的信息存儲標準為WARC文件格式標準,其是由ISO國際標準化組織于2009年發(fā)布的網(wǎng)絡信息資源存檔格式標準,是面向網(wǎng)絡信息資源長期保存領域的唯一文件格式標準[37]。首先,在選擇和采集環(huán)節(jié)上,WARC 文件格式標準支持對采集資源進行詳細描述、對資源內(nèi)容進行充分切割、實現(xiàn)外部語義關聯(lián)等,同時也便于對資源進行存檔和壓縮。其次,在著錄與整合環(huán)節(jié)上,WARC 標準基于系統(tǒng)化、科學化的著錄流程,可實現(xiàn)對網(wǎng)絡資源的全方位整合與精準化著錄。如Archive-it 項目采用都柏林核心元數(shù)據(jù)和WARC 標準對網(wǎng)絡信息資源進行規(guī)范化著錄,實現(xiàn)對網(wǎng)絡信息資源文件類型、標題、內(nèi)容、URL、主題及發(fā)布者等方面的全面描述和著錄[38]。最后在保存與共享環(huán)節(jié),WARC 標準是網(wǎng)絡信息資源存檔保存標準封裝格式,用于解決存檔資源格式多樣、關聯(lián)復雜等問題,有助于網(wǎng)絡信息資源的整合共享和永續(xù)保存。目前Archiveit 項目、PANDORA 項目、UKGWA 項目等都應用了WARC 文件格式標準。
雖然WARC 標準能夠?qū)W(wǎng)絡歸檔的前三個環(huán)節(jié)做出科學評估,并提供可供借鑒和應用的歸檔范式,但在訪問和利用環(huán)節(jié)中,WARC 標準的應用范圍仍然較為狹窄,主要是由于在訪問和檢索過程中,國際上并未形成具有針對性和適用性的標準,缺少可供遵循和應用的標準化依據(jù)。此外,目前在實踐過程中WARC 標準因制定時間較為久遠,內(nèi)容上呈現(xiàn)出模擬態(tài)向數(shù)據(jù)態(tài)轉(zhuǎn)化的缺位,操作上面臨領域空白和規(guī)范不清的困境,亟需圍繞各國網(wǎng)絡信息存檔項目實踐開發(fā)和制定更符合時代需求、內(nèi)容更加健全的網(wǎng)絡信息存檔標準。此外,在存檔主體和存檔對象方面,各國檔案部門除了接收和保管各類網(wǎng)絡信息資源,還應該積極制定相關規(guī)章制度和標準指南來規(guī)范和監(jiān)督網(wǎng)絡信息存檔工作。同時,針對存檔對象的不同形態(tài)和類型,要給出相應的存檔標準和規(guī)范,包括一些可視靜態(tài)內(nèi)容,如文本、靜態(tài)圖片等,頁面中的動畫、音視頻等類型的內(nèi)容的存檔格式也需要規(guī)范化[39]。
綜全文所述,網(wǎng)絡信息作為社會知識資源和記憶財富,能夠起到知識賦能和集體認同的作用,為了避免網(wǎng)絡資源的消弭和丟失,開展網(wǎng)絡信息存檔行動,對珍貴網(wǎng)絡資源進行保存、開發(fā)和利用具有重要歷史價值和社會意義。限于篇幅,本文只選取了實施效果較好、社會評價較高的網(wǎng)絡信息存檔項目,并未對全球所有國家的網(wǎng)絡信息存檔項目進行詳細描述,但這并不妨礙我們從代表性案例中歸納出網(wǎng)絡信息存檔的基本要素框架和關鍵性問題。當前,我國網(wǎng)絡信息存檔工作大多處于放任自流或各行其是的狀態(tài),基于網(wǎng)絡資源更新快、易消失、唯一性的本質(zhì)屬性和我國剛剛起步、缺乏經(jīng)驗的網(wǎng)絡信息存檔行動現(xiàn)狀,學習國外先進網(wǎng)絡信息存檔模式,加快網(wǎng)絡信息存檔行動步伐勢在必行。
(致謝:本文作者感謝中國人民大學信息資源管理學院加小雙副教授對本文的指導。)