石華
摘 要:本文介紹了政府網(wǎng)站歸檔的背景,指出網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實現(xiàn)電子政府的唯一真實的方法,網(wǎng)站歸檔應(yīng)該盡量歸檔網(wǎng)站上的所有內(nèi)容。介紹了鄭州市檔案局館對于政府網(wǎng)站歸檔工作進行試點的實踐,包括選擇歸檔范圍、確定歸檔時間,介紹了兩種歸檔技術(shù):直接轉(zhuǎn)移和遠程采集,并介紹了網(wǎng)站存檔格式WARC文件格式。
關(guān)鍵詞:網(wǎng)站歸檔;政府網(wǎng)站;WARC
1 網(wǎng)站歸檔的背景
互聯(lián)網(wǎng)給檔案工作者帶來了許多理論和實踐問題。例如,政府網(wǎng)站本身就是電子文件,還是政府網(wǎng)站包含著電子文件?政府網(wǎng)站只是發(fā)布信息的平臺嗎?換句話說,政府網(wǎng)站本身僅僅是另一種出版物嗎?隨著網(wǎng)絡(luò)、設(shè)備、應(yīng)用的不斷變化,許多政府網(wǎng)站已經(jīng)變成了政府和公眾信息交流的平臺。由此,政府網(wǎng)站已經(jīng)具備了出版物和文件的雙重屬性。
在2014年以前,國內(nèi)很少有檔案部門考慮將網(wǎng)站內(nèi)容納入歸檔范圍。2014年,楊冬權(quán)局長表示要啟動為各級國家政府網(wǎng)站網(wǎng)頁存檔工作,那就對檔案部門提出了一個問題:是將政府網(wǎng)站本身作為一個文件歸檔,還是將其中的某些網(wǎng)頁作為文件歸檔呢?過去檔案人員一般認為網(wǎng)站并不是文件,而是包含有文件。根據(jù)《電子檔案術(shù)語》中對電子文件的定義:“電子文件是國家機構(gòu)、社會組織或個人在履行其法定職責或處理事務(wù)過程中,通過計算機等電子設(shè)備形成、辦理、傳輸和存儲的各種形式的信息記錄。”如果政府部門通過網(wǎng)站處理事務(wù),如果用戶在做決策時參考了它們,或者如果網(wǎng)站有動態(tài)的信息交流,或者如果網(wǎng)站的內(nèi)容、功能和用戶記錄具有文件保存價值,那么,網(wǎng)站就包含著電子文件。
英國國家檔案館對網(wǎng)站文件最初管理方法是運用風險管理方法識別網(wǎng)站中哪些內(nèi)容屬于機構(gòu)文件,然后確定保管方法,制定管理策略及程序。這種方法僅僅保存網(wǎng)站數(shù)據(jù),而不是整個網(wǎng)站,存在信息資源丟失的風險。近年來檔案界開始改變對網(wǎng)站的看法,不再將網(wǎng)站僅僅看做文件保存的地方,而將網(wǎng)站本身看做文件,認為網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實現(xiàn)電子政府的唯一真實方法,網(wǎng)站歸檔應(yīng)該歸檔網(wǎng)站上所有內(nèi)容。
2 鄭州市檔案局館對政府網(wǎng)站歸檔備份工作的實踐
2015年,河南省鄭州市檔案局館決定對政府網(wǎng)站歸檔工作進行試點。
2.1 確定網(wǎng)站歸檔范圍。在決定收集政府網(wǎng)站之后,我們必須弄清要收集哪些網(wǎng)站。和建立紙質(zhì)文件歸檔范圍一樣,鄭州市檔案局館制定了一個收集標準來規(guī)定哪些網(wǎng)站需要永久保存。我們決定歸檔以gov.cn結(jié)尾的鄭州市所有政府部門、機關(guān)單位的網(wǎng)站。許多政府網(wǎng)站更新相對緩慢,對這些網(wǎng)站我們每6個月收集一次,對有些更新較快的網(wǎng)站我們可定為每周收集一次,在網(wǎng)站升級改版的時候必須收集。我們還可根據(jù)公眾要求收集某些網(wǎng)站,根據(jù)重大事件的發(fā)生靈活調(diào)整網(wǎng)站收集范圍。
2.2 網(wǎng)站歸檔保存方案。目前,政府所面臨的大部分問題都涉及多個部門。未來的人們?nèi)绻肓私猬F(xiàn)在的一些事情,僅僅參考某一個政府部門網(wǎng)站是遠遠不夠的,需要利用多個相關(guān)的政府部門、非政府組織和個人的網(wǎng)站資源。顯然,保存網(wǎng)站是一個跨部門的綜合課題,需要集思廣益。方案之一便是互聯(lián)網(wǎng)檔案館(www.archive.org)現(xiàn)在使用的模式,由某一個檔案館負責保存所有的網(wǎng)站。另一種方案是由不同的檔案館分級收集各自管理范圍內(nèi)的網(wǎng)站。最后一種方案就是按需收集。組織一些檔案館就某個專題、某重大事件進行網(wǎng)站收集,如世博會或天津大爆炸事件??傊4婢W(wǎng)站的最終方案也許是上述幾種方案的結(jié)合。
2.3 網(wǎng)站歸檔保存技術(shù)。收集網(wǎng)站所需使用的技術(shù)也是多種多樣的。這些技術(shù)可以粗略地分為兩大類:直接轉(zhuǎn)移和遠程采集。從概念上來講,收集網(wǎng)站資源最簡單的方法就是直接拷貝原數(shù)據(jù)。這種方法需要網(wǎng)站所有者的合作,允許我們直接訪問網(wǎng)站服務(wù)器,從服務(wù)器上拷貝整個網(wǎng)站的所有文件,并將這些文件轉(zhuǎn)移到網(wǎng)站保存機構(gòu)。我們可以使用可移動存儲介質(zhì)轉(zhuǎn)移數(shù)據(jù),也可以在線收集。
這種方法相當于在檔案館網(wǎng)站服務(wù)器上重新搭建并復制了一個網(wǎng)站,只是網(wǎng)站內(nèi)容被定格在某一天。這種方法最大的優(yōu)點是通過精確復制原網(wǎng)站的內(nèi)容保證了對原有網(wǎng)站最真實的拷貝。可這種方法仍然存在潛在的弊端。首先,這種方法非常耗費時間,并且技術(shù)十分復雜,需要再次安裝一個完整的資源管理系統(tǒng),同時還要關(guān)閉某些網(wǎng)站內(nèi)容,如日期顯示和計數(shù)器等。顯然這種方法并不適合大規(guī)模保存網(wǎng)站。其次,還必須保持原有的技術(shù)架構(gòu)來支持網(wǎng)站,而這種技術(shù)架構(gòu)可能已經(jīng)與現(xiàn)在網(wǎng)站的架構(gòu)不同了。我們希望歸檔的目標網(wǎng)站應(yīng)用了各種不同的網(wǎng)站服務(wù)器軟件、搜索引擎、數(shù)據(jù)庫技術(shù)和內(nèi)容管理系統(tǒng),由某一家機構(gòu)來實現(xiàn)這些技術(shù)的整合是行不通的。因此,這種方法適用于收集比較簡單、數(shù)據(jù)性的網(wǎng)站,并且是能夠跨平臺運行的網(wǎng)站。檔案館目前僅針對這類特殊的網(wǎng)站利用這種直接轉(zhuǎn)移的方法進行收集,尤其是對那些生命周期較短的網(wǎng)站進行一次性復制。
當我們要收集大量網(wǎng)站的時候,我們就會使用遠程采集技術(shù)。使用網(wǎng)頁爬蟲軟件來模擬網(wǎng)絡(luò)瀏覽器,從而實現(xiàn)對網(wǎng)站的遠程采集。頁面采集列表向網(wǎng)頁爬蟲傳達采集指令。首先,網(wǎng)頁爬蟲向網(wǎng)站服務(wù)器發(fā)出訪問請求,訪問列表上的第一個頁面并進行復制保存。網(wǎng)頁爬蟲會識別該頁面所有的超鏈接并將這些鏈接加入到采集列表。網(wǎng)頁爬蟲通過循環(huán)記錄每個頁面的超鏈接,實現(xiàn)對整個網(wǎng)站所有頁面的采集。這個采集程序通常是由一些參數(shù)控制的,如網(wǎng)頁爬蟲所跟蹤超鏈接級數(shù),這個參數(shù)可以對采集的范圍進行界定。檔案部門在操作篩選政策時,可以注明要收集哪些網(wǎng)站,以多長時間為周期對網(wǎng)站進行采集。網(wǎng)站回溯器提供了一個便捷且新穎的訪問方式,即重寫目標網(wǎng)站所有的超文本鏈接,而非直接指向原始網(wǎng)站。通過這些重寫的鏈接地址,用戶可以在檔案館的系統(tǒng)中瀏覽當時的網(wǎng)站內(nèi)容。
遠程采集技術(shù)主要優(yōu)勢在于能夠高效率和低成本地采集大量網(wǎng)站,各網(wǎng)站數(shù)據(jù)進入一個總后臺,可以跨網(wǎng)站檢索。但也有一些缺點。該技術(shù)明顯局限在于網(wǎng)頁爬蟲只能采集那些被鏈接內(nèi)容,而數(shù)據(jù)庫深層數(shù)據(jù)和那些只能通過搜索才能訪問的內(nèi)容卻不能被采集。該技術(shù)不能采集微博、微信等需登錄網(wǎng)站,不能采集音、視頻。該技術(shù)不是備份,不能恢復原網(wǎng)站。
2.4 網(wǎng)站歸檔的速度和文件大小。鄭州市檔案局采用遠程采集技術(shù)采集政府網(wǎng)站,數(shù)據(jù)量增長很快。因為網(wǎng)頁鏈接全部重寫,系統(tǒng)很難找到增量的點,所以每次均全部采集,無法使用增量采集。舉例來說,采集鄭州市人民政府、鄭州檔案信息網(wǎng)等7家單位,耗時28小時,采集網(wǎng)頁52萬頁,采集的文件大小共1.5G。鄭州市共約上百家政府網(wǎng)站,都采集下來,其存儲容量是驚人的。鄭州市檔案館存儲共60T左右,就算都存成政府網(wǎng)站,也存不了多長時間??雌饋硎褂迷拼鎯κ潜匦璧姆桨噶?。
3 網(wǎng)站保存文件格式WARC介紹
鄭州市檔案局館保存的網(wǎng)站采用的存檔格式是WARC文件格式,但一般會壓縮成gz文件,分卷壓縮。WARC (Web Archiving File Format) 網(wǎng)絡(luò)存檔文件格式,2009年5月成為正式國際標準,標準號為ISO 28500:2900。此格式是唯一面向網(wǎng)絡(luò)資源長期保存的資源保存格式,WARC 格式具有軟件生態(tài)環(huán)境完善、內(nèi)容豐富、便于管理、易于擴展、支持大容量文件保存等特點,同時適合網(wǎng)絡(luò)資源和數(shù)字資源的長期保存使用[1]。
WARC 文件可以使用的軟件:
(1)抓取軟件:目前最常用的兩種采集軟件是Heritrix 和GNUWget,面向用戶桌面的工具中常用的是WarcCreate 軟件。
(2)文件處理軟件:指以保存、交換等應(yīng)用為目的,對WARC文件進行處理的軟件,包括格式驗證、切割、組合、元數(shù)據(jù)抽取等。
(3)索引、檢索與訪問軟件:可對WARC文件進行索引,用于檢索,并提供檢索界面,響應(yīng)用戶的檢索請求,將檢索結(jié)果在瀏覽器中呈現(xiàn)給用戶。常用Nutchwax、Wayback Machine、Solr 和Momento。
(4)綜合管理軟件:集成了采集、管理、索引和發(fā)布等流程,便于保存機構(gòu)快速開展網(wǎng)絡(luò)存檔活動。其中較知名的是新西蘭和英國圖書館開發(fā)的Web Curator Tools和荷蘭圖書館開發(fā)的NetArchiveSuite。
截至2014 年7 月,英國圖書館互聯(lián)網(wǎng)存檔項目已經(jīng)保存了24TB 的網(wǎng)絡(luò)資源,法國國家圖書館保存了450TB的網(wǎng)絡(luò)資源,澳大利亞圖書館的Pandora項目數(shù)據(jù)量也達到了12. 22TB。這些資源都以WARC格式保存。美國國家檔案館發(fā)布的文件進館格式指南,也將WARC文件格式列為可接受格式[2]。鄭州市檔案局館進行政府網(wǎng)站存檔工作,也采用這一格式,這是符合國際潮流的。
參考文獻:
[1]曲云鵬.網(wǎng)絡(luò)存檔文件格式WARC研究[J].圖書館學研究,2014(24):20~28.
[2]http://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords
(作者單位:鄭州市檔案局 來稿日期:2015-10-20)