曾 薩 黃新榮
(西北大學公共管理學院 西安 710127)
隨著網絡技術的應用發(fā)展,網頁、社交媒體已經成為社會生活中不可或缺的內容,網絡資源不斷豐富。根據社會記憶理論,網絡資源是社會記憶的重要組成部分,具有重要的數據挖掘、數據分析價值。但網頁、社交媒體的特性使得其多變、易失,因此,網頁歸檔、社交媒體歸檔等數字資源保存的研究和實踐逐漸增多,網絡資源的保存格式、保存方式受到重視,WARC格式也逐漸被人所知。
WARC(Web ARChive)是一個將多個數字資源(數據對象)和相關信息一起聚合到一個文件中的一種方法,是一種適用于網絡爬蟲資源的存儲文件格式[1]。為使網絡資源保存格式與國際標準接軌,國家標準局于2017年7月12日發(fā)布了由ISO28500:2009翻譯而成的《GB/T 3394—2017 信息和文獻WARC文件格式》,2018年2月1日正式生效。但是WARC 標準發(fā)布后在國內知曉度不高,沒有引起重視。為解決這一問題,文章從WARC及其標準的概況出發(fā),探討WARC的國外應用廣泛的原因,分析國內應用WARC的困難,并制定相應的推廣策略。
WARC由ARC擴展而來,ARC是由System Enhancement Associates (SEA)在1985年開發(fā)的無損數據的壓縮和歸檔格式[2],該格式后來被ZIP格式所取代。20世紀90年代,Internet Archive(互聯網檔案館 IA)將ARC格式用于網頁資源存檔,將網頁上抓取的內容存儲為內容序列塊并保存在單個文件中。在ARC文件中,包含已經存檔的各種內容(html、ps、jpeg),每個文件之前都有一個單行標題信息,包括:文件格式、文件大小、文件包含的外部鏈接等[3]。每一個ARC文件都有一個相應的DAT文件,只包含標題信息。用戶訪問取決于ARC文件語料庫的大規(guī)模索引或記錄標題的單獨副本(例如Internet Archive DAT文件)。索引DAT文件可以支持用戶通過URL和日期訪問,如同在Wayback Machine中檢索。
2003年在IIPC(國際互聯網保存聯盟)成立后,開始改進ARC格式,將ARC格式擴展為WARC格式。WARC記錄包括一個記錄標題,后跟一個記錄內容塊和兩個換行符,內容塊可包含任何格式的資源,包括嵌入或鏈接到html頁面的二進制圖像或視聽文件[4],一個WARC文檔包含若干WARC記錄。WARC格式兼容ARC格式,以更好地支持歸檔組織的收集、訪問和交換需求。除了ARC記錄的主要內容之外,WARC還可以容納相關的輔助內容,例如分配元數據、縮短重復檢測事件、后期轉換以及資源分段等[5]。WARC的應用范圍更加廣泛,可用于構建收集、管理、訪問、挖掘、交換內容的應用程序,雖然是用于網頁存檔的標準格式,但已經超越了網絡應用范圍,可用于存儲數字資源或數字化材料。
為了統一格式、開放標準,IIPC主持開發(fā)相應工作,2005年5月通過作為工作項目提交的ISO TC46/SC4。自2007年2月開始形成第一版標準草案,草案經過10余次修改完善[6],2008年11月最終確定,2009年5月正式發(fā)布,成為國際標準——ISO28500:2009信息和文獻—WARC文件格式。隨著實踐發(fā)展,在ISO信息技術委員會ISO /TC46(信息和文件)的監(jiān)測下,經過IIPC的不斷修訂,ISO28500:2017在2017年8月正式出臺,取代了前一版本[7]。由法國國家圖書館召集的ISO TC46/SC4/WG12是負責維護的工作組,推動WARC格式的持續(xù)演進。
1.2.1 收割資源描述詳細
WARC文件由一序列的WARC記錄組成,WARC記錄可記錄大量數據信息,記錄的內容或者是一次檢索的直接結果(網頁、內嵌圖片、URL轉向信息、DNS主機名查詢結果、獨立文件等),或者是為存檔內容提供附加信息的綜合資源(如元數據、轉化后的內容)。WARC定義了8種記錄類型:對應不同種類資源的描述,詳見表1。
表1 WARC記錄類型及描述資源
從表1可以看出,WARC對收割資源的描述十分詳細,從資源的原生環(huán)境到采集過程,從資源自身內容到采集產生的附加信息,WARC都有所記錄,可最大程度的記錄數據背景信息。
1.2.2 支持資源內容分割重組
WARC規(guī)定當記錄過大以致超出單個WARC文件所能允許的最大容量時,記錄會被分解成獨立的片段(稱為分段),可使用“continuation”記錄,保持原始記錄邏輯完整。記錄中的“Segment—Origin—ID”字段負責將各內容片段記錄與起始片段記錄關聯起來,“Segment—Number”字段負責對每一內容片段按先后順序進行編號[8]。分割片段的大小可控,同時也適用于其他數字資源的分割。
WARC還支持資源重組,面向同一主題、同一事件需要從不同WARC文件抽取資源時,可以利用“Warcinfo—ID”字段,“WARC—Warcinfo—ID”指示與該記錄的關聯‘warcinfo’記錄,找到資源所在的原始位置,從而保證合并記錄時的關聯真實性。
1.2.3 支持外部語義關聯
WARC并不是一個完全閉合的文件,利用“metadata”記錄可指向另一特定記錄,支持資源間相互關聯,也支持對關聯的語義描述?!癿etadata”記錄存儲著原始收割或轉化的內容,可指向任何記錄類型。網絡資源數量巨大,針對同一事件可產生大量WARC文件,利用“WARC—Concurrent—To”標頭關聯同一抓取事件的其他記錄,利用“WARC-Refers-To”標頭關聯記錄描述的其他資源,方便對收割資源的進一步描述、解釋。
1.2.4 便于存檔和壓縮
WARC的多種記錄類型實現了對資源的多種描述以及關聯外部、拆分重組等功能,WARC自身雖然沒有MIS、JAR、RPM等支持軟件打包和分發(fā)的格式復雜,也不似Boot image、Card image、ROM image等磁盤映像(Disk image)格式,能夠完全復制存儲設備的結構和內容,但是WARC格式十分便于存檔和壓縮,可以打包、壓縮、加密文件,也支持自解壓和自擴展,適合對數據量大、內容復雜、交互性強的網絡資源的存儲。
1.3.1 國外WARC應用實踐
WARC為網頁資源的保存而產生,1996年到WARC出現之前,一些率先開展網頁保存的國家,如:美國、澳大利亞、瑞典、埃及等利用ARC格式存檔網頁資源。在IIPC成員的共同努力下,ARC擴展為WARC,應用范圍逐漸擴大,一些應用ARC的項目,也逐漸將數據格式轉換為WARC,通過梳理應用WARC的網頁存檔、社交媒體文件存檔項目(見表2),可以發(fā)現WARC是國外在網頁存檔、社交媒體文件存檔中應用最普遍的格式。一些國家圖書館也認可WARC格式對保存數字收割資源的可行性,并投入實踐,如:德國、新西蘭、新加坡國家圖書館等。
此外,Archive-it(網頁存檔服務組織)對“WARC文件的本地數字保存活動”進行了年度調查,以50多個合作機構(有網絡歸檔計劃的大型或小型圖書館)為調查對象,發(fā)現WARC已經得到了普遍采用,過半的機構會將WARC下載到本地進行保存,部分機構利用開源或自主研發(fā)數字保存系統本地存儲WARC 文件,部分機構研究適合WARC數據傳輸的API,以促進本地攝取WARC文件,一些機構在進行從WARC提取元數據描述網絡資源的研究[9]。這一調查表明,國外機構對WARC的應用并非停留在網頁歸檔項目層次,也并非止步于僅僅將資源存儲為WARC文件,而是對WARC進行了更深層次的分析,對WARC更廣范圍的、更加細致的利用做出了更多的探索。
表2 WARC國外項目應用列表
1.3.2 國內WARC應用情況
相對于國外的應用而言,我國的WARC應用匱乏。國內大型的網頁歸檔項目有Web信息博物館和WICP(Web Information Collection and Preservation),WICP項目應用WARC作為網絡數字資源的保存格式。WICP是中國國家圖書館在2003年啟動的網絡信息資源采集與保存實驗項目,該項目對靜態(tài)網頁和動態(tài)網頁采取不同的保存策略,在項目的發(fā)展過程中,2010年國家圖書館開發(fā)出網絡資源獲取系統,系統將網頁資源保存為WARC格式[10]。此外,鄭州市檔案局在進行政府網站歸檔時將網頁資源保存為WARC并壓縮保存[11]。
利用百度、搜狐等搜索引擎對WARC的相關信息進行檢索,有關WARC文件格式信息少,多為介紹類;WARC標準僅有少量報道性新聞;WARC相關實踐未有檢索結果,說明WARC在國內沒有被廣泛應用。
回顧WARC與ISO28500的產生和發(fā)展歷程可以發(fā)現,WARC標準之所以被廣泛采納,是因為有深厚的實踐基礎。在ISO28500產生之前,IIPC相關工作組在網頁歸檔的實踐過程中,逐步擴展ARC形成了WARC,這表明WARC在產生之初就已經有了實驗群體、對比對象。在不斷實踐過程中,發(fā)現問題、解決問題,并擴大應用范圍,有更多實踐數據支撐,最終證明WARC最為適合網絡資源存檔。
在標準的準備過程中,IIPC成員間不斷進行討論和論證,在兩年時間內WARC標準草稿經歷10余個版本,確立了ISO28500:2009。在標準正式頒布之后,隨著時間推演、實踐變化,IIPC聯盟中的一些成員提出標準的修訂意見,在2015年、2016年出臺歐洲方面的關于ISO28500改進的建議,最終ISO28500:2017出臺。
以實踐為基礎,進行WARC標準的產生和修訂,WARC的優(yōu)勢和劣勢都有直觀反映,在實踐基礎上的WARC標準,應用風險低,接受范圍更廣。WARC面臨的問題得到有效解決。
根據網頁歸檔生命周期模型[12],WARC存檔格式是存檔環(huán)節(jié)中重要的組成部分,完善的政策標準使得WARC的標準與其他環(huán)節(jié)標準的銜接更為流暢。國外WARC政策標準的完善性表現在:
一是得到網頁存檔相關政策的支持。網絡資源作為重要的數字資源,許多國家已經認識到歸檔保存網絡資源的重要性,制定網絡資源存檔的相關政策,如澳大利亞《2020數字連續(xù)計劃》、英國《政府網頁存檔:重新定義政府部門技術指導》、美國《社交媒體文件捕獲最佳實踐白皮書》等。作為存儲的重要組成部分,在政策文件中存儲載體的安全性、存儲格式的適用性、數據的可遷移性以及存儲的方式和位置都被強調,進而引起對存儲格式的重視。
二是存檔標準體系完善。國外網頁從收集到保存整個生命周期都有具體標準和規(guī)范。在網頁形成之前,具有網頁設計標準,如ISO/IEC40500—Web內容可訪問性指南〈Web Content Accessibility Guidelines (WCAG) 2.0〉、美國網頁設計規(guī)范等。在對網頁資源進行組織時,具有一系列的元數據標準,如:OAIS(開放存檔信息系統)、METS(元數據編碼和傳輸標準)、澳大利亞政府記錄元數據標準(AGRkMS 2.2版本)。在網絡資源存檔時,有網絡存檔元數據集(Web Archiving Metadata Set),網頁信息存檔統計與質量標準ISO/TR 14873,也有存檔介質標準ISO11799與ISO18938。這些標準為WARC標準的推廣和實施起了助推作用。
三是具有詳細的標準實施指南。在2009年ISO28500發(fā)布后,IIPC隨即編寫了WARC Implementation Guidelines—2009(WARC實施指南)[13]。IIPC指出ISO28500是一個說明如何有效編寫WARC文件的規(guī)則,但是對特定情況下WARC文件的編寫方法缺少建議。在此情況下,IIPC編寫了WARC實施指南,提出了對于WARC文件命名、記錄識別、記錄信息處理的建議,詳細闡述了WARC數據捕獲、ARC轉向WARC等數據包裝的具體措施,對載荷識別、WARC文件重新包裝、病毒檢查提出了具體的操作性建議。
國外為了方便WARC文件的收割、存儲和利用,形成了一系列相關的工具和格式,Archive-team將其稱為WARC生態(tài)系統[14]。WARC的支撐工具可分為4類:數據捕獲工具、存儲組織工具、索引工具、分析利用工具。這4類工具都具有相應的程序、軟件或者系統支撐:
捕獲類工具,主要用于從網絡獲取網絡資源,常用的有Heritrix、GNUWget、Grab-site、WarcMiddleware、WARCreate等,如WARCreate是面向個人網頁存檔的谷歌瀏覽器插件,可將用戶瀏覽的網頁保存為WARC文件[15]。
存儲組織類工具,主要用于對收割資源(WARC文件)進行保存、轉換、驗證、切割、元數據抽取等處理,常用的有WARCIO、Jhove2、Megawarc、WARC to ZIP、Java Web Archive Toolkit(JWAT)、Pylibwarc、ArchiveSpark,如Megawarc 可將多個小型WARC文件合并為一個大型WARC文件,并且檢查WARC文件是否可以在將其添加到Megawarc之前解壓縮[16]。
索引類工具,用于對WARC文件的檢索,常用的有cdx_writer、Wayback Machine、Apache Solr、Lucene 等,如cdx_writer通過Python腳本從WARC文件創(chuàng)建CDX索引文件。WARC支持外部索引,ARC/WARC的索引通常稱為CDX文件,CDX文件中包含大量的歸檔信息,利用CDX索引文件可以生成檔案的概要文件[17],CDX格式及CDX文件的出現,極大方便了對存檔WARC文件的利用。
分析利用類工具,主要用于對存檔內容的審查和分析以及瀏覽等,常用的有Pywb-Web Recorder、WARC viewer、Web Archiving Integration Layer (WAIL)等,如WARC viewer用于瀏覽WARC文件。
WARC相關工具包的不斷催生,使WARC標準有了實踐的支撐,也正是因為WARC相關工具和格式的不斷發(fā)展和成熟,又反過來促進WARC標準的推廣和完善,使得WARC格式和標準與時俱進。
WARC與ISO28500的產生和發(fā)展,都離不開IIPC。在IIPC成員的共同開發(fā)下WARC產生并推廣;在IIPC的支持下,成立專門的標準工作組,由法國國家圖書館帶頭編寫草案,最終成為國際標準;標準發(fā)布后, IIPC又成立WARC利用任務工作組(WARC Usage Task Force),負責WARC實施指南的撰寫。此外,為進一步促進主流Web開發(fā)社區(qū)利用WARC格式,IIPC還成立了WARC工具項目,負責開發(fā)WARC相關工具包,此項目目前已經進行到3期,提供了一系列開源的免費的WARC工具,如Libwarc、Openway Back等[18]。IIPC作為最大的國際互聯網保存聯盟,為WARC提供了智力、資金、組織等支持,使得WARC不僅僅是一個文件格式,還是一個保存體系,最終成為一個完整的生態(tài)系統。
推進WARC發(fā)展的團體還有許多其他聯盟組織、志愿團體、財團等,如Archive-it。
距離GB/T 3394-2017發(fā)布已經一年有余,但WARC標準在國內并沒有被廣泛應用。分析發(fā)現由于我國與國外應用WARC的歷史、環(huán)境不同,網絡資源存檔進展不同,使得WARC標準應用困難。
WARC是網頁存檔格式,國內缺乏網頁存檔和社交媒體存檔的實踐,使得WARC無“用武之地”。國內網頁存檔實踐,大型項目只有Web信息博物館、WICP,且產生了一定成果,余下為類似鄭州市檔案館的機構或個人進行的小型網頁歸檔實驗,不具備社會影響力。對于社交媒體文件歸檔,由于隱私權、知識產權等還存在爭議,存檔機構與數據平臺之間還在博弈,我國目前還沒有圖書館、檔案館或者公司等采用爬蟲方式大批量收割保存社交媒體文件的項目。網頁歸檔和社交媒體文件歸檔實踐匱乏,使得WARC格式缺乏實踐機會和情境,對WARC缺乏相應的了解,WARC標準自然也應用困難。
此外,缺乏實踐,WARC會產生“水土不服”現象。相比國外豐富、持久的網頁存檔經驗,我國的網頁歸檔實踐不是很成功,無法提供持久有效的鏈接與回放。國家圖書館在2007年成為IIPC的成員,WICP項目后期很大程度上采用IIPC推薦的框架與流程,包括存檔格式WARC。因此,我國對網頁歸檔的實踐還停留在較為宏觀的“選擇—收割—存儲—利用”流程階段,對網頁歸檔的一些細節(jié),如存檔格式等缺乏持久的實踐研究,WARC及其標準在國內都是真正意義上的舶來品。在國外卻不同,WARC為網頁歸檔而產生,在網頁歸檔實踐中應用,WARC的應用和發(fā)展有實踐基礎,經得起實踐檢驗。
在理論層面,WARC的研究也比較匱乏。筆者在CNKI檢索發(fā)現,有關WARC的研究屈指可數,只有5篇,其中,4篇屬于WARC格式介紹,1篇屬于應用WARC格式的索引系統架構。在4篇介紹論文里,鐘華翻譯了IS028500對WARC的相關介紹[19]。李睿、郭世月的文章在較淺層面對比了WARC格式與主流網絡資源存檔格式標準VERSVEO、LANL MPEG-21、MET的歷史、適用性與可持續(xù)性[8],在另一篇文章里深入介紹了WARC的特征與功能以及部分應用情況[20]。曲云鵬分析了WARC格式的優(yōu)點、WARC格式的結構和內容、介紹WARC的生態(tài)環(huán)境[21]。
推廣WARC及其標準,上述研究數量少且太過淺顯,進一步需要采用實驗論證為什么WARC格式適合中文網絡資源歸檔;也應深度對比WARC格式與其他歸檔格式,如JSON、XML、PiSi、Disk cloning、OFD等,找到WARC應用于保存網絡資源的適用性與優(yōu)勢。在上述研究的基礎上,如果發(fā)現WARC不適合中文網頁或社交媒體歸檔,可以研究如何對源代碼進行改進,設計實驗進行論證。
政策支持上,國家檔案局在《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》[22]中指出,要研究制定重要網頁資源的采集和社交媒體文件的歸檔管理辦法,但截至目前還沒有任何政策出臺。
WARC在國外是整個網頁生命周期的一部分,是網頁歸檔生命周期的一部分,國外做到了全周期管理。在國內則沒有網頁生命周期或網頁歸檔生命周期的概念。在網頁生成階段,網頁設計缺乏規(guī)范;只有電子文件發(fā)布了歸檔元數據方案,缺乏網頁歸檔、社交媒體歸檔的元數據方案。在WARC文件的存儲方面也缺乏相關實踐,沒有完全成功的案例。相關標準的缺乏使得WARC只是一個單獨的個體,而不是作為體系中重要的組成部分。整體的脫節(jié)使得標準推廣困難,標準推廣困難又使得網絡歸檔實踐推進困難,陷入囚徒困境。
在標準支持上,在引進WARC標準后,相關部門缺乏對標準的解讀,相關的長期保存機構未制定實施細則。對于廣大的非計算機專業(yè)的網絡資源保存人員,WARC具有一定的專業(yè)性,并不能深入理解并使用WARC格式。
網頁歸檔整個流程都需要軟件、系統等工具的支持,國外已經圍繞WARC格式形成了生態(tài)系統,我國在開發(fā)和引進網絡資源歸檔軟件方面還處于空白。現在網絡資源存檔通用工具都為國外研發(fā),國內一些研究人員主要做相關介紹工作,部分技術人員通過設計實驗提出利用國外已有的開源軟件對國內社交網絡(微博、微信公眾平臺)信息進行歸檔保存、回溯利用,但是沒有大型項目試驗這些軟件是否可以應用到批量數據的歸檔、是否可持久應用于存檔、在中文環(huán)境下是否存在特殊性等問題。
長期保存網絡數字資源,相當于建立了一個具有歷史價值、憑證價值、信息價值、文化價值的龐大的數據庫,為以后的發(fā)展提供數據集積淀、保留數字記憶。目前,國內一些機構已經逐步試水,廣州市和青島市要求歸檔政府微博、微信公眾平臺信息,部分機構主動采取手工歸檔方式保存單位自己發(fā)布的社交媒體信息。為推進網絡資源存檔進程,需要自動化歸檔的探索,采用WARC格式存檔,推廣WARC標準,可以借鑒國外相關項目的發(fā)展經驗,利用WARC生態(tài)系統的開源工具,和國外進行數據共享資源互換等,這在一定程度上能為網絡資源存檔營造環(huán)境、創(chuàng)造條件。
在已經發(fā)布GB/T 3394-2017的情況下,目前最為迫切的是制定標準使用指南,增進大眾對WARC及其標準的理解。翻譯而來的GB/T 3394-2017,對WARC的字段、類型、以及部分代碼做了介紹。在中國制定的實施細則中,則可以對WARC歷史、WARC與WAT/WET/CDX等格式的關聯和區(qū)別等進行對比介紹,增加用戶對WARC的理性認識,增強認同感;進一步,介紹WARC的生態(tài)環(huán)境,明晰WARC格式的使用依賴于哪些工具、有哪些成熟的開源軟件可以利用,增加用戶對WARC整體性的理解;另外,需要包含WARC實施的若干細節(jié),由于中國WARC的用戶體驗較少,可以借鑒已經應用過WARC的項目經驗,參考WARC Implementation Guidelines—2009,或者自行進行WARC文件捕獲的相關實驗,補充WARC標準實施時一些必要的細節(jié),如:WARC文件捕獲、數據封裝、WARC記錄的加工、WARC文件的命名及修改、WARC文件元數據、網頁數據和非網頁數據的打包等,給用戶提供操作性建議。
實施細則的指導,不僅能給用戶提供全方位的應用向導,也增加了用戶對WARC的認識,使WARC中國化的程度加深,相關歸檔實踐增多,從底層催生網絡資源存檔項目。
要推廣WARC標準,需要形成完善的政策標準體系,同時要和已有的標準相銜接。
在制定新政策方面,應考慮到數字資源保存的長期性和特殊性,應制定資金可控、風險可控、可實施的政策。政策要規(guī)定何種類型的網絡資源應該被優(yōu)先保存、對于不同的資源采取不同的保存策略。對于存儲空間、存儲設備、存儲格式等政策應該加以引導。對于網頁存檔制定政策應注重頂層設計,否則會出現大規(guī)模保存網頁的重復,產生冗余數據。在社交媒體文件歸檔時,由于動態(tài)、交互等特征使得社交媒體存檔更加復雜,政策需要多加考量。在賦予歸檔主體保存權利的時候,應注意平臺、個人等的知識產權和隱私權的保護。在整個歸檔流程中還涉及到目標、資源評估、訪問利用、風險管理等具體政策。
在標準制定方面,與數字資源長期保存相關的有:電子文件元數據標準、電子文件歸檔光盤技術與應用規(guī)范、民國檔案數據采集標準、口述史料采集與管理、照片類/錄音類電子檔案元數據方案等。在制定網絡資源存檔元數據標準時,可參考國內這些標準進行部分銜接,如:音頻、照片的元數據、數據交換格式等??梢砸M部分國外相關標準,如網頁存檔元數據標準、數字資源描述元數據框架、存檔資源數據交換規(guī)范等。由于國情不同,部分標準無法引進,可以重新制定標準,如:網頁設計規(guī)范、捕獲行為規(guī)范、社交媒體存檔系統架構、數據轉換標準等。
WARC標準已經正式實施,國內并沒有開發(fā)專門的軟件,一方面是因為網絡存檔目前還沒有受到政府與社會重視,沒有應用市場;另一方面,認識到存檔重要性的人不懂技術也缺乏資金與志愿者支持。在這種情況下,可引進國外已有的網頁歸檔軟件、網絡資源存檔的框架以及參考社交媒體文件多線程歸檔實現路徑。在引進軟件的基礎上對軟件進行改良,使之成為國內適用的網絡資源存檔工具。
從長遠角度分析,如果只是引用缺乏研發(fā),則會受制于人,失去網絡資源存檔領域的話語權。在初期歸檔實踐開展順利后,可著手開發(fā)適用于我國網絡資源存檔的軟件,將微信公眾號信息、微博評論點贊信息長期保存,還原歸檔信息原生環(huán)境,利用云計算進行網絡資源歸檔存儲,手動歸檔數據轉換等方面,開發(fā)出適用軟件,并推向國際市場。與IIPC其他成員一起共同解決網頁存檔、社交媒體文件歸檔的技術難題,從而在互聯網信息長期保存方面占有話語權,逐步在數據高地上占據一席之地。
WARC標準推廣和實施需要專業(yè)人員的支撐。國內已經有應用WARC格式的先例,可在參與人員中選取關鍵人員成立網絡資源存檔部門,負責參加國外網絡資源存檔項目會議、與國外項目建立長期合作關系,積極借鑒國外存檔相關經驗。在此基礎上,借助自身項目經驗,開展實驗網頁存檔、社交媒體文件存檔項目。如果實驗項目成功,可在全國范圍內培訓,傳播網絡資源存檔的專業(yè)知識,推動網絡資源存檔實踐的開展。由專業(yè)組織的保障和推廣,WARC就能被廣大存檔人員所知、所用。
綜上所述,WARC格式是整個網絡資源歸檔生命周期的重要組成部分,WARC標準的認可度不高、推廣艱難,一定程度上也反映了國內不重視網絡資源長期保存。推行WARC格式,旨在加速數字資源長期保存的進程,要想成功推動WARC標準的實施,必然要網絡資源存檔得到發(fā)展,所以說WARC標準推動不是獨立事件,而是一個系統工程,需要多方配合推進。
(來稿時間:2018年9月)