摘 要 互聯(lián)網(wǎng)存檔技術(shù)可以利用采集軟件從實時網(wǎng)絡(luò)采集,保存和重放有價值的內(nèi)容,并可以對其進(jìn)行獨立管理和保存,以供科研人員研究使用。論文介紹并討論了國家圖書館網(wǎng)絡(luò)存檔計劃和存檔技術(shù)方法,概述了國家圖書館互聯(lián)網(wǎng)存檔現(xiàn)狀和問題,討論了網(wǎng)絡(luò)存檔立法情況、收集策略、程序局限性、真實性、完整性和質(zhì)量保證等關(guān)鍵技術(shù)問題。國家圖書館互聯(lián)網(wǎng)存檔技術(shù)雖然已經(jīng)成熟,但是在存檔立法、長期保存、質(zhì)量保證等方面仍然面臨著許多挑戰(zhàn)。
關(guān)鍵詞 互聯(lián)網(wǎng) 圖書館 互聯(lián)網(wǎng)存檔 互聯(lián)網(wǎng)采集
分類號 G258.1;G253.1
DOI 10.16810/j.cnki.1672-514X.2021.07.011
Research and Enlightenment of the Current State of Web Archiving in the National Library of China
Yang Yunpeng
Abstract Web archiving technology can use collection software to collect, save and replay valuable content from the real-time network, and can independently manage and save it for research and use by scientific researchers. This article introduces and discusses the National Library web archiving plan and archiving technical methods. After that, this article summarizes the current status and problems of Web archiving in the National Library, discusses the legislative situation of online archiving, collection strategies, program limitations, authenticity, integrity and quality assurance and other key technical issues. Although the Web archiving technology of the National Library has matured, it still faces many challenges in archiving legislation, long-term preservation, and quality assurance.
Keywords Internet. Library. Web archive. Web collection.
0 引言
互聯(lián)網(wǎng)作為通過計算機(jī)通信網(wǎng)絡(luò)連接在一起的巨大網(wǎng)絡(luò),經(jīng)過許多年的發(fā)展在其網(wǎng)絡(luò)上廣泛分布和存在的信息是一種獨特的信息資源,其資源在當(dāng)今生產(chǎn)和生活中起到了越來越重要的作用,同時,如今生產(chǎn)和生活中越來越多的資源都在網(wǎng)絡(luò)中發(fā)布?;ヂ?lián)網(wǎng)發(fā)展速度是空前的,截至2019年6月,我國互聯(lián)網(wǎng)網(wǎng)民規(guī)模達(dá)到8.54億,互聯(lián)網(wǎng)普及率達(dá)到61.2%[1]。互聯(lián)網(wǎng)的內(nèi)容也涉及到商務(wù)交易、網(wǎng)絡(luò)金融、網(wǎng)絡(luò)娛樂和公共服務(wù)等各個方面。然而,互聯(lián)網(wǎng)從來不是靜止不動的,網(wǎng)址網(wǎng)頁,包括網(wǎng)上的照片、博客文章、視頻、新聞報道、消息、評論等內(nèi)容都會消失,因此互聯(lián)網(wǎng)的快速發(fā)展也為互聯(lián)網(wǎng)采集和保存帶來了難題。
面對互聯(lián)網(wǎng)存檔問題,世界各地的機(jī)構(gòu),尤其是圖書館相關(guān)機(jī)構(gòu),都對開發(fā)和研究支持解決大規(guī)模存檔的相關(guān)方法進(jìn)行了大量人力和物力的投資。我國圖書館也一直在積極開發(fā)新的互聯(lián)網(wǎng)存檔工具和技術(shù),解決由于網(wǎng)絡(luò)內(nèi)容的短暫性而無法訪問的問題。針對這項工作,本文概述了中國國家圖書館Web歸檔技術(shù)的最新狀況及涉及的主要問題。
1 為什么要存檔互聯(lián)網(wǎng)網(wǎng)站
互聯(lián)網(wǎng)存檔的主要原因之一是網(wǎng)站信息只有相對較短的壽命,在一定時間后內(nèi)容可能或已經(jīng)丟失。網(wǎng)絡(luò)無處不在,但網(wǎng)絡(luò)內(nèi)容是短暫的。與傳統(tǒng)的信息相比,網(wǎng)絡(luò)資源具有數(shù)量多、更新迅速及易逝性的特點,每天都有海量有價值的信息在消亡。通過對網(wǎng)頁的采集使我們了解網(wǎng)頁的平均壽命在1年左右。頁面上的特定內(nèi)容會更頻繁地消失,尤其是在新聞和社交網(wǎng)站上。一些網(wǎng)站會用最新的內(nèi)容覆蓋舊內(nèi)容進(jìn)行更新,導(dǎo)致原內(nèi)容無法訪問。一些網(wǎng)站隔一段時間會進(jìn)行改版,將一部分舊內(nèi)容舍棄或者將內(nèi)容的網(wǎng)址改變,導(dǎo)致無法訪問的情況出現(xiàn)。現(xiàn)今,互聯(lián)網(wǎng)內(nèi)容無法訪問和“404找不到頁面”的錯誤可謂與圖書館丟失圖書文獻(xiàn)資料的性質(zhì)相當(dāng),但是前者更為常見。
互聯(lián)網(wǎng)存檔是出于社會利益,具有歷史價值,其記錄下互聯(lián)網(wǎng)的演變和內(nèi)容并供人們?yōu)g覽。例如,國家圖書館的政府信息公開采集項目能將政府公開的信息集合為政府和個人提供服務(wù)。互聯(lián)網(wǎng)存檔具有學(xué)術(shù)意義,在線和在普通出版物框架之外出版的學(xué)術(shù)作品通常不屬于圖書館的收藏政策,但應(yīng)該保留和使用,作為學(xué)術(shù)研究的一部分。大數(shù)據(jù)時代的到來,讓學(xué)術(shù)研究越來越依靠數(shù)據(jù),網(wǎng)絡(luò)存檔是一段時間內(nèi)的數(shù)據(jù)集合,是學(xué)術(shù)研究必不可少的一部分。
網(wǎng)絡(luò)存檔的用處目前看來只是冰山一角,因此無論是歷史價值還是在發(fā)揮其學(xué)術(shù)意義方面,越早進(jìn)行網(wǎng)站存檔就能夠越好地發(fā)揮其作用。
2 國家圖書館互聯(lián)網(wǎng)存檔計劃
迄今為止,大多數(shù)大型互聯(lián)網(wǎng)存檔工作都是由世界各地國家圖書館和檔案館推動的,Internet Archive(IA)是一個例外。IA是已知最大的互聯(lián)網(wǎng)存檔內(nèi)容集合的所在地,截至現(xiàn)在擁有PB級別的壓縮數(shù)據(jù),保存了3300億個網(wǎng)頁和網(wǎng)頁快照[2]。其成立于1996年,是一個非營利性組織,標(biāo)志網(wǎng)絡(luò)信息資源保存研究的開始。2003年IA提出全球互聯(lián)網(wǎng)存檔解決方案需要全球協(xié)作,其中11家與IA聯(lián)合組成了國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,簡稱IIPC)。國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)成立后,主要的貢獻(xiàn)是標(biāo)準(zhǔn)的開發(fā),例如WARC標(biāo)準(zhǔn),以及圍繞元數(shù)據(jù)使用,保存工作流程,訪問和質(zhì)量保證的研發(fā)工作[3]。
2003年,中國國家圖書館開始開展網(wǎng)絡(luò)信息資源采集與保存試驗項目(Web Information Collection and Preservation,簡稱WICP),實驗性地對中國境內(nèi)的互聯(lián)網(wǎng)資源進(jìn)行采集與保存;2007年正式成為國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,簡稱IIPC)成員單位,并與聯(lián)盟內(nèi)其他成員交流互聯(lián)網(wǎng)存檔經(jīng)驗;2009年成立“國家圖書館互聯(lián)網(wǎng)信息保存保護(hù)中心”,對國內(nèi)外經(jīng)濟(jì)、文化、科學(xué)、技術(shù)、政治等領(lǐng)域主要網(wǎng)站和重大事件進(jìn)行收集存檔,統(tǒng)籌規(guī)劃國內(nèi)互聯(lián)網(wǎng)存檔工作;2012年開通互聯(lián)網(wǎng)存檔網(wǎng)站公共服務(wù),將存檔的互聯(lián)網(wǎng)資源通過國家圖書館局域網(wǎng)進(jìn)行集中展示,供學(xué)者研究使用;2014年依托“網(wǎng)事典藏”項目,聯(lián)合全國公共圖書館共同開展互聯(lián)網(wǎng)資源的保存和服務(wù);2018年研發(fā)并推廣部署“網(wǎng)絡(luò)資源保存與服務(wù)系統(tǒng)”,實現(xiàn)互聯(lián)網(wǎng)資源高效和規(guī)范化的采集、編目、回放、發(fā)布和服務(wù)。截至2018年底,全國各級公共圖書館累計采集網(wǎng)站23 000余個,實現(xiàn)了涵蓋政府公開信息及國內(nèi)外重要網(wǎng)站網(wǎng)頁等互聯(lián)網(wǎng)資源的保存與保護(hù)[4-6]。
3 國家圖書館網(wǎng)絡(luò)歸檔的技術(shù)方法
互聯(lián)網(wǎng)歸檔的技術(shù)方法根據(jù)操作規(guī)模而變化。國家圖書館對于大規(guī)模歸檔,主要有三種技術(shù)方法:客戶端存檔、交互存檔、服務(wù)器端存檔。
客戶端存檔是最常使用的方法,其能根據(jù)需求靈活修改采集參數(shù),操作少,成本低。國家圖書館通過Heritrix作為客戶端(即瀏覽器),直接使用HTTP協(xié)議來收集服務(wù)器傳遞的內(nèi)容。這種方法的關(guān)鍵是盡可能提高資源發(fā)現(xiàn)率并更好地將原始內(nèi)容保存。搜尋器遵循“種子”指令,并將與該種子相關(guān)的所有鏈接搜尋到指定的深度,從而采集所有可用文件的副本。這些都將在開始采集前提前設(shè)置成模板發(fā)送給采集工具進(jìn)行相應(yīng)處理。
交互存檔作為一個特別的采集方法,主要是采集客戶端訪問記錄而不是直接采集服務(wù)器上所有的內(nèi)容。網(wǎng)絡(luò)抓取工具(例如SiteStory)根據(jù)一段時間內(nèi)的實際客戶端/服務(wù)器交互記錄進(jìn)行采集和保存,它支持用戶對網(wǎng)站訪問內(nèi)容的更全面的不斷增長的網(wǎng)絡(luò)存檔。交互方法的存檔會采集瀏覽器正在請求的資源的每個版本,因此可以提供指定日期和時間的內(nèi)容呈現(xiàn)給用戶。交互存檔的實現(xiàn)代碼需要部署在托管內(nèi)容的Web服務(wù)器上,因此主要由內(nèi)容所有者或托管者使用,而不是由外部收集機(jī)構(gòu)使用。
服務(wù)器端存檔需要發(fā)布機(jī)構(gòu)的積極參與,目前國家圖書館與新浪微博達(dá)成了合作協(xié)議,新浪微博將其服務(wù)器上內(nèi)容直接提供給國家圖書館存檔。文件直接從服務(wù)器復(fù)制而無需求助于HTTP協(xié)議,但是內(nèi)容回放時經(jīng)常會遇到問題,特別是內(nèi)容由數(shù)據(jù)庫驅(qū)動或創(chuàng)建與原始實時網(wǎng)站類似的托管環(huán)境時使用的絕對鏈接。但是,這是一種用來收集存檔程序遺漏內(nèi)容的有用方法。
上述三種方法中的每種存檔的內(nèi)容略有不同,并且需要不同等級的技術(shù)要求來訪問原始內(nèi)容。主要采集外部內(nèi)容有關(guān)的網(wǎng)絡(luò)存檔通常會選擇客戶端存檔,因為其提供了最廣泛的支持。服務(wù)器端存檔最常用于無法通過HTTP收集內(nèi)容的地方(如數(shù)據(jù)庫或地圖服務(wù)器)。交互存檔被用于特殊的情況,如在為財務(wù)或商業(yè)交易進(jìn)行存檔時,需要用戶執(zhí)行操作和輸入數(shù)據(jù)。國家圖書館實際存檔主要以客戶端存檔為主,服務(wù)器端存檔為輔,國家圖書館存檔的目的是盡可能地保存所有網(wǎng)站資源,因此交互存檔不符合要求。
4 國家圖書館存檔現(xiàn)狀和問題
4.1 合法存檔
合法性通常是網(wǎng)絡(luò)存檔面臨的最大的非技術(shù)性問題。在所有者沒有明確許可的情況下,是否擁有復(fù)制內(nèi)容和提供獨立于原始網(wǎng)站訪問的合法權(quán)利,還是侵犯了所有者的版權(quán)?一些網(wǎng)站明確地標(biāo)出了版權(quán)許可或版權(quán)授權(quán)信息,例如知識共享或官方版權(quán),可以部分解決網(wǎng)絡(luò)存檔合法性問題。但是,在大多數(shù)情況下很大程度上取決于有關(guān)國家規(guī)定和存檔機(jī)構(gòu)的職權(quán)范圍。
在我國,電子出版物和網(wǎng)站的法定存檔相關(guān)法律尚未實施。這意味著在我國,沒有任何一家存檔機(jī)構(gòu)能夠在不侵犯版權(quán)的情況下,對整個中國的網(wǎng)站進(jìn)行存檔。國家圖書館正在積極準(zhǔn)備互聯(lián)網(wǎng)存檔相關(guān)法律的提案,當(dāng)提案被通過時,國家圖書館將能夠?qū)ヂ?lián)網(wǎng)信息進(jìn)行復(fù)制、編輯、長期保存和公共服務(wù)。在此之前,國家圖書館一直在運(yùn)行選擇性的,基于權(quán)限范圍內(nèi)的互聯(lián)網(wǎng)絡(luò)存檔。盡管如此,仍然會出現(xiàn)問題,因此國家圖書館有明確的刪除侵權(quán)條目政策。
4.2 存檔收集策略
國家圖書館互聯(lián)網(wǎng)存檔的收集策略,主要有兩種類型的收集方法,這兩種類型都有明確的范圍[7-9]。
(1)網(wǎng)站域名收集:以網(wǎng)站的采集和存檔為重點,主要采集反映所在行政區(qū)域的政治、經(jīng)濟(jì)、文化發(fā)展等信息的網(wǎng)站,整站采集。
(2)選擇性專題收集:以專題的采集和存檔為重點,主要采集反映所在行政區(qū)域當(dāng)年政治、社會、文化、科技等領(lǐng)域的熱點專題,例如:省級地方兩會、洽談會、民族節(jié)日等。
互聯(lián)網(wǎng)存檔收集的主要問題是采集施加的人為限制,即使是網(wǎng)站域名收集也是如此?;ヂ?lián)網(wǎng)不受采集主題和網(wǎng)站的限制,這些存檔中的網(wǎng)站將經(jīng)常鏈接到未作為搜集存檔一部分的其他網(wǎng)站,因此將不可避免地會遇到無法訪問的鏈接。
兩種類型的存檔各有優(yōu)缺點。
(1)網(wǎng)站域名存檔是最全面的,但受當(dāng)前網(wǎng)絡(luò)歸檔技術(shù)的限制導(dǎo)致域名集合采集的網(wǎng)站通常不完整:文件沒有被存檔或已經(jīng)被存檔但無法重放,或者未搜尋到網(wǎng)站的所有鏈接。網(wǎng)站越大越復(fù)雜,不完整的可能性就越大。但是,域名集合由于采集范圍固定,因此相比選擇性專題歸檔與其他站點和外部鏈接內(nèi)容的關(guān)系更容易維護(hù)。
(2)選擇性專題存檔的采集重點是尋找認(rèn)為有價值的專題資源,并在一定的收集范圍內(nèi)進(jìn)行采集。這種價值衡量標(biāo)準(zhǔn)雖然有爭議,但通常要求存檔站點的質(zhì)量達(dá)到服務(wù)標(biāo)準(zhǔn)。因此,網(wǎng)頁采集是“完整的”,即所有文件都可以正確顯示和呈現(xiàn),即使指向外部站點的鏈接也能訪問。選擇性專題存檔的另一個潛在弱點是它們有可能或無意導(dǎo)致未經(jīng)確認(rèn)的選擇偏差。專題網(wǎng)址選擇通常是一個手動過程,反映了選擇網(wǎng)址收集的人的特定興趣或知識?;ヂ?lián)網(wǎng)的龐大規(guī)模、網(wǎng)站的數(shù)量及信息發(fā)布的速度,都使得人工選擇者很難及時了解新的來源,尤其是基于事件的存檔。因此,選擇性存檔存在無意中對網(wǎng)絡(luò)存檔問題及其研究價值產(chǎn)生偏見的風(fēng)險約束。保存與選擇者相關(guān)及其感興趣的信息有助于緩解這種偏見造成的問題。
中國國內(nèi)的采集機(jī)構(gòu)主要有國家圖書館、北京大學(xué)、臺灣圖書館和臺灣大學(xué)圖書館。不同的機(jī)構(gòu)雖然采集的策略不同但是還是有重合的地方,會形成對一個站點重復(fù)存檔的問題。這對用戶有什么好處?對網(wǎng)站所有者有什么影響?一個清晰的國家級別存檔策略可以控制這些問題并以一種互利的方式解決它們。
4.3 存檔程序的局限性
國家圖書館互聯(lián)網(wǎng)存檔主要是通過部署互聯(lián)網(wǎng)采集程序來抓取和保存網(wǎng)站內(nèi)容的副本。在過去十幾年中,雖然在采集技術(shù)上取得了長足的進(jìn)步,但是部分采集內(nèi)容仍然存在被限制的情況。例如:(1)數(shù)據(jù)庫/動態(tài)驅(qū)動的內(nèi)容(即響應(yīng)用戶請求時通過數(shù)據(jù)庫生成的網(wǎng)頁);(2)流媒體文件;(3)只能通過本地站點搜索訪問的內(nèi)容——爬蟲程序幾乎無法分析的腳本代碼;(4)受密碼保護(hù)的內(nèi)容——如果提供了密碼,則抓取程序可以采集內(nèi)容,但如果沒有密碼,那么內(nèi)容則無法被采集;(5)一些由Javascript驅(qū)動的內(nèi)容——例如由動態(tài)機(jī)制生成的網(wǎng)址;(6)手機(jī)移動端數(shù)據(jù)內(nèi)容。
其他阻止或阻止采集程序取得進(jìn)展的問題包括:采集大小的操作限制(采集發(fā)現(xiàn)的站點或者網(wǎng)址數(shù)超出了主機(jī)存儲空間范圍)和采集程序陷阱(如具有動態(tài)頁面和沒有固定結(jié)束日期的網(wǎng)頁)。但值得注意的是,操作限制不是對爬網(wǎng)程序的限制,而是限制爬網(wǎng)大小的實際措施。國家圖書館有關(guān)該領(lǐng)域的研究和開發(fā)正在進(jìn)行中,以解決下一代采集程序的這些限制。
4.4 歸檔手機(jī)移動端數(shù)據(jù)
截至2019年6月,我國手機(jī)網(wǎng)民規(guī)模達(dá)8.47億,較2018年底增長2984萬,網(wǎng)民中使用手機(jī)上網(wǎng)的比例由2018年底的98.6%提升至99.1%。越來越多的人通過手機(jī)客戶端來上網(wǎng)獲取信息,同時越來越多的資源也都只是通過手機(jī)App發(fā)布而普通電腦網(wǎng)站上卻沒有。移動客戶端應(yīng)用程序普遍具有封閉性的特征,這導(dǎo)致采集軟件無法快速搜尋到數(shù)據(jù)地址。同樣重要的是,移動端例如微信公眾號和抖音短視頻與傳統(tǒng)網(wǎng)站的更新方式也不同,因此也應(yīng)該以不同的方式進(jìn)行存檔。微信或抖音App的每篇文章或視頻都是對當(dāng)前內(nèi)容的一種補(bǔ)充,舊的內(nèi)容或視頻仍然可用,而不是覆蓋。因此可以適當(dāng)降低爬網(wǎng)頻率,每隔一段時間進(jìn)行一次存檔。國家圖書館研究發(fā)現(xiàn),移動端內(nèi)容的特征是“流動性”,這使得存檔很難確定內(nèi)容已完成的點。
另一個問題是權(quán)限問題。諸如微信、抖音、社交網(wǎng)站和媒體共享客戶端之類的移動App,通常包含大量的多個用戶生成的內(nèi)容。對于基于權(quán)限的集合,存檔任何包含用戶生成內(nèi)容的資源都會帶來挑戰(zhàn),要么要求App所有者提供許可,要么從所有貢獻(xiàn)者那里收集權(quán)限。這是一項耗時且有時幾乎是不可能完成的任務(wù)。
盡管這些問題中有許多尚未解決,但仍然值得嘗試在丟失某些內(nèi)容之前對其進(jìn)行存檔。
4.5 時間連貫性
網(wǎng)絡(luò)存檔具有復(fù)雜的時間維度。存檔所跨的時間段越長,其時間值越大。不幸的是,存檔和其中的站點越大,其時間連貫性破裂的風(fēng)險就越大。時間連貫性被描述為“一組存檔頁面的一個屬性,表明在某個時間點上所有已存檔的網(wǎng)頁都同時存在于網(wǎng)站上”。當(dāng)軟件完成采集所需的時間中網(wǎng)站的部分內(nèi)容已更新導(dǎo)致種子網(wǎng)址頂層(例如首頁)中的內(nèi)容在時間上不再與下層中的內(nèi)容匹配時,就會發(fā)生時間不一致。即使對于中等大小的網(wǎng)站(例如50MB),這也是一個潛在的問題。對于網(wǎng)站域名級別的集合,采集變得更加困難,受域的大小影響,完全爬網(wǎng)可能需要幾天或幾周才能完成。所得的集合不能視為指定日期的網(wǎng)站的代表性副本,而只能視為給定的一段時間的副本。但是,這對于希望了解指定時間點歷史用戶可用的信息的未來研究人員而言至關(guān)重要。盡管確保單個站點時間一致性的工具正在出現(xiàn),但是對于許多用戶和收集機(jī)構(gòu)而言,這仍然是一個概念上和實踐上的挑戰(zhàn)。
4.6 重復(fù)數(shù)據(jù)刪除
“重復(fù)數(shù)據(jù)刪除”是指消除相同內(nèi)容的多個副本,以便保留較少的副本。這既包括技術(shù)上相同的內(nèi)容(即位和字節(jié))的重復(fù)數(shù)據(jù)刪除,也包括內(nèi)容級別上細(xì)微的重復(fù)數(shù)據(jù)刪除。重復(fù)數(shù)據(jù)刪除對于互聯(lián)網(wǎng)存檔來說是一個重要的問題,因為隨著時間的流逝,相同內(nèi)容的多個副本經(jīng)常會在網(wǎng)站的不同采集中收集。
在某些情況下,可以實施重復(fù)數(shù)據(jù)刪除,直到僅保留一個文件副本為止。在其他情況下,部分減少重復(fù)數(shù)據(jù)刪除會帶來一些好處(在存檔中保留一個文件的多個副本,但仍會減少總體上保留的副本數(shù)。)這樣既可以降低存儲成本,又可以在以后出現(xiàn)問題或文件損壞的情況下,用重復(fù)的數(shù)據(jù)恢復(fù)損壞的文件。國家圖書館存檔的WARC存儲格式支持重復(fù)數(shù)據(jù)刪除。
在某些情況下,重復(fù)數(shù)據(jù)刪除與收集機(jī)構(gòu)的保存意圖和業(yè)務(wù)案例相沖突,因此不希望重復(fù)數(shù)據(jù)刪除。例如,用于歸檔法律和政策相關(guān)記錄的Web歸檔應(yīng)避免重復(fù)數(shù)據(jù)刪除,因為站點的每個版本都必須能夠獨立存在,并且所顯示的每個對象都與站點中其余對象一起采集。如果不這樣做將不被承認(rèn),因為法律和政策相關(guān)的文件不能做人為刪減,即要完整記錄,只有完整記錄才能體現(xiàn)其價值。
4.7 真實性、完整性和質(zhì)量保證
網(wǎng)站的真實存檔版本應(yīng)該是什么樣?它是否應(yīng)該在所有方面都與原始“實時網(wǎng)站”相同?國家圖書館在項目成立初期,存檔及呈現(xiàn)的網(wǎng)站與實際網(wǎng)站一致,當(dāng)時的網(wǎng)站更簡單,網(wǎng)站會顯示信息通知用戶他們的網(wǎng)站針對哪個瀏覽器做了優(yōu)化,但是隨著項目的發(fā)展,為了獲得個性化的瀏覽體驗,識別“原始站點”的內(nèi)容及其在存檔中的外觀變得越來越困難。不同的瀏覽器不僅會影響網(wǎng)站的整體外觀,甚至?xí)绊懗尸F(xiàn)給訪問者的內(nèi)容。“原始網(wǎng)站”的概念已變得毫無意義。那么,如何將網(wǎng)站的存檔版本驗證為“真實”呢?“重要屬性”概念是一種驗證保存方法是否成功,確定原始網(wǎng)站與內(nèi)容、上下文、外觀、結(jié)構(gòu)和行為是否相關(guān)的方法。驗證采集的質(zhì)量還必須考慮到采集的網(wǎng)站打算捕捉的是什么“保存意圖”。而進(jìn)行這種評估并不簡單,但是能確保工作人員能夠評估和驗證所捕獲站點的真實性和完整性。
國家圖書館驗證存檔完整和真實性通常在質(zhì)量保證(QA)流程中進(jìn)行。手動QA可由受過訓(xùn)練的專家執(zhí)行,以評估爬蟲收集了什么及存檔的網(wǎng)站如何在標(biāo)準(zhǔn)瀏覽器中呈現(xiàn)。這確保不僅捕獲了目標(biāo)文件,而且確保了目標(biāo)文件根據(jù)國家圖書館建立的保存意圖進(jìn)行了可接受的渲染。人工的視覺質(zhì)量檢查非常耗時,自動化的質(zhì)量檢查工具提供了一種更有效的方法來檢驗非常大規(guī)模的爬網(wǎng)質(zhì)量,盡管它們無法達(dá)到與訓(xùn)練有素的人眼相同的水平。目前,開發(fā)中的工具著眼于一些可能指示爬網(wǎng)問題的關(guān)鍵指標(biāo),例如明顯的爬網(wǎng)錯誤(在爬網(wǎng)日志中已指出),缺少鏈接,數(shù)據(jù)下載大小和未知的MIME類型。
5 結(jié)論和建議
在過去的十幾年中,國家圖書館Web存檔技術(shù)已經(jīng)非常成熟,對所涉及問題的理解也是如此。國家圖書館通過以客戶端存檔為主,服務(wù)器端存檔為輔的方式對互聯(lián)網(wǎng)資源進(jìn)行了大量存檔,同時開發(fā)了許多的工具和服務(wù),使我們能夠存檔和保留在線文化記憶的各個方面,并符合獲取和保存在線記錄的法規(guī)要求。這項工作一直在進(jìn)行中,只要互聯(lián)網(wǎng)繼續(xù)發(fā)展,互聯(lián)網(wǎng)歸檔技術(shù)就必須不斷發(fā)展以跟上步伐。令人鼓舞的是,國內(nèi)外許多研發(fā)項目正在利用現(xiàn)今網(wǎng)絡(luò)技術(shù)開發(fā)出各種的解決方案,尤其是提高和促進(jìn)存檔的采集和使用。
盡管付出了努力,但網(wǎng)絡(luò)檔案仍然面臨著巨大的挑戰(zhàn)。受存檔工具的限制流媒體文件、受密碼保護(hù)需要登錄的網(wǎng)站、移動端App內(nèi)容和動態(tài)交互類的內(nèi)容目前無法通過工具進(jìn)行大量采集,只能采取具體網(wǎng)站具體分析,根據(jù)網(wǎng)站的特性用不同的方法進(jìn)行探索性采集。網(wǎng)絡(luò)存檔還面臨著時間連貫和準(zhǔn)確性的問題,存檔時間的準(zhǔn)確對未來的研究和學(xué)習(xí)具有重要的價值和意義。國家圖書館目前正在通過自身研發(fā)和對外合作的方式逐步解決這些采集和存檔上的問題。
在過去十幾年中,確保網(wǎng)站檔案收集和存檔所有內(nèi)容的質(zhì)量保證是技術(shù)進(jìn)步最小的領(lǐng)域之一。需要將更多的注意力和資金用來開發(fā)提高存檔可靠性方面,讓爬網(wǎng)不僅能捕獲所有必要的文件和內(nèi)容,而且可以完整地呈現(xiàn)它們。更智能的采集工具可以通過提高爬網(wǎng)的可靠性并減少當(dāng)前已知的“風(fēng)險”來解決此問題。沒有這些,我們將面臨收集和存檔網(wǎng)站不完整的風(fēng)險。這將導(dǎo)致存檔資料無法發(fā)揮出真正的價值,學(xué)者們無法從不完整的存檔中得出有關(guān)領(lǐng)域研究的權(quán)威性結(jié)論。
最后,互聯(lián)網(wǎng)存檔絕對不能忽視立法問題。立法仍然是國家圖書館網(wǎng)絡(luò)存檔面臨的最大問題之一,其不僅限制資源的收集而且限制存檔的公共服務(wù)。在解決這些問題之前,網(wǎng)絡(luò)資源將會繼續(xù)消失。由于沒有合法的存檔立法,導(dǎo)致國家所有大型活動事件只有很少的內(nèi)容得到了保存,降低了未來互聯(lián)網(wǎng)存檔的研究價值。執(zhí)行機(jī)構(gòu)和政府是解決這些問題的關(guān)鍵,但必須以該領(lǐng)域機(jī)構(gòu)和專家提出的實際需求和要求為基礎(chǔ)?;ヂ?lián)網(wǎng)資源的采集、存檔和發(fā)布都涉及許多方面的法律問題,為保證互聯(lián)網(wǎng)存檔工作今后的發(fā)展,可以在借鑒國外法律法規(guī)的基礎(chǔ)上,盡快完善有關(guān)互聯(lián)網(wǎng)存檔方面的法律,確定國家圖書館和其他相關(guān)領(lǐng)域機(jī)構(gòu)從事互聯(lián)網(wǎng)存檔的合法權(quán)利?;ヂ?lián)網(wǎng)歸檔的立法不能也不應(yīng)孤立地解決,需要相關(guān)機(jī)構(gòu)、專家和政府多方合作共同解決。
參考文獻(xiàn):
中國互聯(lián)網(wǎng)信息中心.第44次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].[2019-08-30].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201908/t20190830_70800.htm.
Internet Archive[EB/OL].[2020-09-07].https://archive.org/about/.
IIPC[EB/OL].[2020-09-07].https://netpreserve.org/.
國家圖書館將啟動互聯(lián)網(wǎng)信息戰(zhàn)略保存項目[EB/OL].[2019-04-12].http://www.xinhuanet.com/book/2019-04/12/c_1210106680.htm.
張煒,張文靜.中國網(wǎng)絡(luò)信息采集工作研究現(xiàn)狀分析:以國家圖書館為例[J].圖書館建設(shè),2008(7):43-46,51.
劉青,孔凡蓮.中國網(wǎng)絡(luò)信息存檔及其與國外的比較:基于國家圖書館WICP項目的研究[J].圖書情報工作,2013,57(18):80-86,93.
安興茹.歐美國家圖書館網(wǎng)絡(luò)信息保存的收集策略研究及啟示[J].圖書館雜志,2007(9):52-55.
聶云霞.國內(nèi)外數(shù)字遺產(chǎn)長期保存實踐與推進(jìn)策略研究[J].信息資源管理學(xué)報,2013,3(1):38-45.
黃尤精.論圖書館數(shù)字資源采集與保存[J].中國管理信息化,2018,21(7):136-137.
楊云鵬 中國國家圖書館館員。 北京,100083。
(收稿日期:2020-07-26 編校:曹曉文,謝艷秋)