●李 睿,韓 毅,郭世明
(1.中國(guó)科學(xué)院 文獻(xiàn)情報(bào)中心,北京 100080;2.四川大學(xué) 公共管理學(xué)院,成都 610064)
保存網(wǎng)絡(luò)資源不同于保存學(xué)術(shù)電子期刊(基于主題、學(xué)科或引用關(guān)系的高度結(jié)構(gòu)化和有序化數(shù)據(jù)庫(kù)資源),網(wǎng)絡(luò)收割(抓取/爬行)的結(jié)果具有媒體格式版本多樣,規(guī)模大小差異大,資源重復(fù),外部關(guān)聯(lián)復(fù)雜等特征。[1]IA(InternetArchive,由美國(guó)國(guó)會(huì)圖書(shū)館和SmithsonianInstitution共同構(gòu)成,以為后代保存稍縱即逝的、具有歷史性重大意義的“原生”互聯(lián)網(wǎng)資源為目標(biāo))為存檔網(wǎng)絡(luò)爬行器的批量收割結(jié)果制定了ARC(ARChive) 格式,之后,IIPC(International Internet PreservationConsortium,由IA和30多個(gè)國(guó)家圖書(shū)館組成,旨在開(kāi)發(fā)Web Archive通用工具和技術(shù)標(biāo)準(zhǔn))在各成員機(jī)構(gòu)應(yīng)用ARC的經(jīng)驗(yàn)基礎(chǔ)上,改進(jìn)而成了一種標(biāo)準(zhǔn)化的管理和存儲(chǔ)海量網(wǎng)絡(luò)收割結(jié)果的文件格式WARC (WebARChive)。
WARC格式標(biāo)準(zhǔn)于2009年6月被正式批準(zhǔn)成為ISO標(biāo)準(zhǔn)(ISO 28500:2009)。此外,互聯(lián)網(wǎng)工程任務(wù)組 IETF(Internet Engineering Task Force) 已批準(zhǔn)登記WARC格式標(biāo)準(zhǔn)為RFC文件(請(qǐng)求注解文件),登記WARC格式的MIME類型為“application/warc”,國(guó)際互聯(lián)網(wǎng)代理成員管理局IANA(Internet Assigned NumbersAuthority)也即將登記WARC格式的類型為“application/warc”。
WARC將多樣化的網(wǎng)絡(luò)資源收割結(jié)果連同相關(guān)描述信息一并整合到同一存檔文件中。一個(gè)WARC格式的文件(file) 由若干條記錄(record) 連接而成。每條記錄以頭標(biāo)區(qū)(record header) 開(kāi)頭,后跟內(nèi)容塊(record content block)。WARC記錄的基本結(jié)構(gòu)如下圖所示。頭標(biāo)區(qū)使用文本數(shù)據(jù)對(duì)資源進(jìn)行基本描述,內(nèi)容塊可以包含零字節(jié)或任意多字節(jié),其中存儲(chǔ)的記錄類型隨資源內(nèi)容的不同而不同。
圖 WARC格式基本結(jié)構(gòu)示意圖
WARC格式標(biāo)準(zhǔn)定義了8種記錄類型:“warcinfo”“response”“resource”“request”“metadata”“revisit”“conversion”和“continuation”。在創(chuàng)建某一資源的存檔文件的過(guò)程中,可以任意選擇、按任意順序組合各種記錄類型。
WARC格式的字段類型包括:“warc-id”“data-length”“record-type”“subject-uri”“creation-date”“content-type”“record-id”“IP-address”“Segment-O-rigin-ID”“Segment-Number”“Truncated:reason-token”“Related-Record-ID”“Warcinfo-ID”等。用戶可還以自定義添加新的字段類型。
WARC文件中,每條記錄的頭標(biāo)區(qū)負(fù)責(zé)標(biāo)識(shí)該條記錄的基本信息,包括記錄長(zhǎng)度、創(chuàng)建時(shí)間、主題URI等內(nèi)容。
WARC格式對(duì)資源來(lái)源的描述主要通過(guò)“request”和“response”兩種類型的記錄來(lái)實(shí)現(xiàn)。部分描述信息來(lái)源于TCP/IP連接過(guò)程,例如服務(wù)器的IP地址、資源名稱、資源類型、資源語(yǔ)種、響應(yīng)時(shí)間、服務(wù)器類型等,而大部分描述信息來(lái)源于HTTP請(qǐng)求與響應(yīng)過(guò)程,分別被存儲(chǔ)在“request”和“response”兩種類型的記錄中。
“warcinfo”型記錄用于描述其后所跟記錄的收割活動(dòng),描述信息包括:網(wǎng)絡(luò)爬行的目的、深度、時(shí)間間隔、速率等。“warcinfo”型記錄可以出現(xiàn)在WARC文件中的其他任意位置,用于描述其后所跟的記錄,其描述的有效性直到下一條“warcinfo”型記錄出現(xiàn)為止。
“conversion”型記錄中存儲(chǔ)的內(nèi)容是某一記錄內(nèi)容的另一種媒體格式的版本。WARC格式標(biāo)準(zhǔn)規(guī)定:可以為某一資源創(chuàng)建任意數(shù)量的“conversion”型記錄,以盡最大可能維持其在未來(lái)的活性。下文是一條“conversion”型記錄,其中記載了目前資源的類型為images格式為jpg,包含3098比特二進(jìn)制數(shù)據(jù),在未來(lái)jpg格式過(guò)時(shí)后,資源可能被遷移為新格式image/neoimg,新格式版本將被存放在Related-Record-ID中。
原始URI可以提示記錄中資源內(nèi)容的主題。在“warcinfo”型記錄中,“subject-uri”字段的值是人工綜合給定的,并且是文件名的一部分,“subject-uri”字段的值是爬行軟件的檢索目標(biāo)的原始URI。
規(guī)模過(guò)大的資源可能在被節(jié)略后存入WARC文件,在頭標(biāo)區(qū)增加“Truncated”字段可以顯示該條記錄為節(jié)略操作的結(jié)果,“Truncated”字段的值可以是“time”(表明節(jié)略原因是資源超過(guò)時(shí)效限制) 或“l(fā)ength”(表明節(jié)略原因是資源超過(guò)長(zhǎng)度限制)。
“revisit”型記錄用于記載對(duì)已存檔內(nèi)容進(jìn)行重復(fù)訪問(wèn)的情況。下文為一條“revisit”型記錄,其中記載了遠(yuǎn)程主機(jī)的HTTP響應(yīng)未發(fā)生變化,Etag的值與先前的訪問(wèn)記錄相同,說(shuō)明資源內(nèi)容未發(fā)生變化。
WARC格式規(guī)定:對(duì)規(guī)模過(guò)大的資源可將之分割為若干片段然后分別保存在多條“continuation”型記錄中。記錄中的“Segment-Origin-ID”字段負(fù)責(zé)將各內(nèi)容片段記錄與起始片段記錄關(guān)聯(lián)起來(lái),“Segment-Number”字段負(fù)責(zé)對(duì)每一內(nèi)容片段按先后順序進(jìn)行編號(hào)。下文是某資源的第2個(gè)記錄片段的'continuation'型記錄,它與起始記錄uuid:a4b26b6b-f918-4136-af04-f859d75a ebe5關(guān)聯(lián)在一起。
當(dāng)面向不同主題或事件(9.11、悉尼奧運(yùn)、汶川地震)重組資源時(shí),各種記錄會(huì)被從不同的WARC文件中抽取出來(lái),重新組合成新的文件,“Warcinfo-ID”字段則能夠?yàn)橹亟M后分布于不同的獨(dú)立WARC文件中的記錄提供與其原始“Warcinfo”記錄的關(guān)聯(lián),保持資源的原貌。
WARC格式中內(nèi)嵌了“metadata”型記錄,采用RDF或其他以XML為基礎(chǔ)的書(shū)寫(xiě)方式,其內(nèi)容允許復(fù)用其他各種類型記錄的內(nèi)容,支持對(duì)資源間關(guān)聯(lián)的語(yǔ)義描述。下文是一條簡(jiǎn)單的“metadata”型記錄,Related-Record-ID字段中記載了與該資源相關(guān)聯(lián)的其他資源。
WARC文件可以被外部工具索引,IA的ARC文件被存取工具Wayback以URL和收割時(shí)間作為索引點(diǎn)建立了外部索引數(shù)據(jù)庫(kù),[3]美國(guó)國(guó)會(huì)圖書(shū)館的LOC/SDSC項(xiàng)目分布式運(yùn)行了18個(gè)Wayback子項(xiàng)目對(duì)其存檔的ARC文件進(jìn)行索引,1周時(shí)間內(nèi)建成了100 GB 的索引數(shù)據(jù)庫(kù)。[4]
丹麥皇家圖書(shū)館和丹麥國(guó)家與大學(xué)圖書(shū)館聯(lián)合進(jìn)行的Netarkivet項(xiàng)目使用Heritrix進(jìn)行網(wǎng)絡(luò)收割,存儲(chǔ)WARC文件的系統(tǒng)BitArchives不久將達(dá)到20TB容量。[5]
法國(guó)國(guó)家圖書(shū)館Bnf WebArchive項(xiàng)目一年間存檔的25000個(gè)ARC文件,對(duì)應(yīng)于50萬(wàn)個(gè)主機(jī)和大于1億 2 千多萬(wàn)個(gè) URL。[6]
新西蘭國(guó)家圖書(shū)館一年完成的收割任務(wù)中76%以ARC 格式存檔。[7]
新加坡國(guó)家圖書(shū)館每年進(jìn)行2次大規(guī)模網(wǎng)絡(luò)收割,存檔1.6TB ARC格式文件。[8]
芬蘭國(guó)家圖書(shū)館的Annual Web Harvest項(xiàng)目采用Heritrix進(jìn)行網(wǎng)絡(luò)爬行,并且以WARC進(jìn)行收割結(jié)果存檔。[9]
德國(guó)國(guó)家圖書(shū)館總結(jié)了使用METS支持網(wǎng)絡(luò)收割結(jié)果存檔的利與弊,并提出了使用WARC格式的可行性。[10]
荷蘭國(guó)家圖書(shū)館正計(jì)劃將網(wǎng)絡(luò)資源收割的結(jié)果以WARC格式存入 e-Depot中。[11]
美國(guó)國(guó)會(huì)圖書(shū)館的LOC/SDSC項(xiàng)目共存檔了5.2 TBARC文件,平均每個(gè)文件的大小為128MB,平均每個(gè)文件容納1000個(gè)網(wǎng)頁(yè)。[11]
澳大利亞國(guó)家圖書(shū)館的PADORA項(xiàng)目一年存檔的ARC 文件總量為 4.52TB。[12]
加州大學(xué)數(shù)字圖書(shū)館(CDL) 的Web-at-Risk項(xiàng)目?jī)?nèi)置Heritrix作為收割軟件,以ARC格式輸出收割結(jié)果,并通過(guò)NutchWAX存取管理軟件對(duì)存檔的ARC文件建立索引。[13]
康奈爾大學(xué)的WebArchive項(xiàng)目——WebLibrary對(duì)數(shù)字圖像和視頻的收割結(jié)果進(jìn)行了ARC格式保存,其中數(shù)字圖像的ARC文件為14.9TB,相應(yīng)的元數(shù)據(jù)DAT文件為0.84TB;視頻的ARC文件為7.36TB,相應(yīng)的元數(shù)據(jù)DAT文件為1.89TB。[14]
由歐洲若干國(guó)家圖書(shū)館(摩洛哥、捷克)及研究機(jī)構(gòu) (University Hannover、Europe Archive Foundation等) 共同承擔(dān)的LiWA(LivingWebArchives) 項(xiàng)目,將WARC格式擬定為網(wǎng)絡(luò)收割結(jié)果的存檔格式。[15]
受 JISC資助的 JISC-PoWR(Preservation of Web Resources)項(xiàng)目提出了“文檔持續(xù)可訪問(wèn)、兼容元數(shù)據(jù)、符合OAIS模式、支持Web2.0資源”等存檔原則,并著重參考WARC格式。[16]
意大利政府支持能源、環(huán)境、新技術(shù)等關(guān)系國(guó)家競(jìng)爭(zhēng)力和可持續(xù)發(fā)展的代理平臺(tái)——ENEA網(wǎng)格,也使用WARC存檔其網(wǎng)絡(luò)收割的結(jié)果。[17]
盡管WARC格式也還存在諸多不足,例如尚缺乏對(duì)刪除行為、遷移過(guò)程和去重過(guò)程的記載等,但它正處于快速的改良和發(fā)展中:IIPC已制定出管理文件內(nèi)容的綜合、可擴(kuò)展、高速的框架———Libwarc,[18]并于2008年10月推出。WebArchive服務(wù)機(jī)構(gòu)Hanzo開(kāi)發(fā)了使ARC向WARC轉(zhuǎn)換的操作工具,可在第三方軟件上運(yùn)行。[19]英、法、丹麥、瑞典、新西蘭等國(guó)的國(guó)家圖書(shū)館正致力于WARC格式轉(zhuǎn)換及相關(guān)WARC工具的第三階段(PHASE III) 研發(fā)和推廣。[20]
我國(guó)的WebArchive工作還處于起步階段,“網(wǎng)絡(luò)資源采集與保存試驗(yàn)項(xiàng)目”WICP和ODBN選擇了政府網(wǎng)站、電子期刊網(wǎng)站、大學(xué)網(wǎng)站、企業(yè)網(wǎng)站、大眾傳媒網(wǎng)站等各100個(gè)進(jìn)行資源收割,按網(wǎng)站名、版權(quán)所有者、開(kāi)通日期進(jìn)行分類和主題描述,對(duì)收割結(jié)果的描述與組織方式以MARC目錄和DC目錄方式為主,生成的資源目錄被輸出到A1eph500系統(tǒng)中。
根據(jù)WARC格式的應(yīng)用經(jīng)驗(yàn)和發(fā)展趨勢(shì),筆者建議我國(guó)國(guó)家圖書(shū)館將來(lái)應(yīng)采納WARC格式進(jìn)行大規(guī)模的收割結(jié)果存檔工作,以保障存檔資源的可持續(xù)發(fā)展,同時(shí)實(shí)現(xiàn)與國(guó)際同類工作的兼容,支持未來(lái)國(guó)家記憶系統(tǒng)的互操作。
[1]Catherine Lupovici,Den Haag.Archiving the Web:the mass preservation challenge,Tools and Trends:International Conferenceon DigitalPreservation[EB/OL].[2009-07-08].http://www.kb.nl/hrd/congressen/tool strends/presentations/Lupovici.pdf.
[2]WARCFile Format(FinalworkingdraftforISOTC46/SC4,v.018,080618)[EB/OL].[2009-08-13].http://www.scribd.com/doc/4303719/WARC-ISO-28500-final-draft-v018-Zentveld-080618.
[3]Steen S Christensen.The Royal Library Archival Data FormatRequirements[EB/OL].[2009-08-16].http://netarchive.dk/publikationer/Archival_format_requirements-2004.pdf.
[4]David Minor,etc.Archiving,Indexing and Accessing Web Materials:Solutionsforlargeamounts ofdata[EB/OL].[2009-08-02].http://iwaw.europarchive.org/07/IWAW2007_minor.pdf.
[5]Niels H,Christen S.Preserving the bits of the Danish Internet[EB/OL].[2009-08-11].http://netarchive.dk/publikationer/iwaw05-christensen.pdf.
[6]Web Archiving at BnF[EB/OL].[2009-07-15].http://www.bnf.fr/pages/version_anglaise/depotleg/pdf/Bn Fnews200609.pdf.
[7]GordonPaynter,etc.AYearofSelectiveWebArchiving with the Web Curator at the National Library of New Zealand[J/OL].D-LibMagazine,2008(14).
[8]NLB.ParadigmShift:OwnershiptoOutsourcingtoGSPs[EB/OL].[2009-08-04].http://files.ngp.org.sg/GridAsia2009/presentations_slides/5-friday/gsp/1430-RajuBLN(NLB).pdf.
[9]http://www.nationallibrary.fi/publishers/deposit/webharvesting.html.[2009-08-03].
[10]Tobias Steinke.Harvester Results in a Digital PreservationSystem.IPRES2008[EB/OL].[2009-08-01].http://www.bl.uk/news/pdf/abstracts.pdf.
[11]Barbara Sierman,Koninklijke Bibliotheek.Enhancing ourdatamodelwithPremis[EB/OL].[2009-08-07].http://ils.unc.edu/digccurr2007/papers/sierman_paper_4-1.pdf.
[12]http://pandora.nla.gov.au/partners/annual_report06_07.pdf.[2009-08-06].
[13]TracySeneca,Shifra Pride Rael.NDIIPP Web-at-Risk:TheDevelopmentofaWebArchivingServiceattheCalifornia Digital Library[EB/OL].[2009-08-05].http://www.cdlib.org/inside/projects/preservation/webat risk/documents/WebArchivingServiceCollection_Plan_Guidelines.pdf.
[14]DmitriyShtokman.Web Library:DataMovementSpring 2007 Report[EB/OL].[2009-08-08].http://weblab.infosci.cornell.edu/papers/Shtokman2007.pdf.
[15]http://iwaw.europarchive.org/08/IWAW2008-Pop-pres.pdf.[2009-08-04].
[16]PoWR The Preservation of Web Resources Handbook[EB/OL].[2009-08-05].http://www.jisc.ac.uk/publications/documents/powrhandbook.aspx.
[17]S Raia,etc.Web Crawling on ENEA GRID infrastructuretoperformWebArchive[EB/OL].[2009-08-03].http://www.cresco.enea.it/Documenti/web/presentazioni/Poster_PON_Catania_2009_02_10/poster_catania/Poster_WebCrawler_Raia_010209_20-30.pdf.
[18]Libwac[EB/OL].[2009-08-02].http://code.google.com/p/warc-tools/.
[19]Hanzo[EB/OL].[2009-08-10].http://www.hanzoweb.com/.
[20]YounèsHafri.WARCTOOLSPHASEIII[EB/OL].[2009-08-01].http://warc-tools.googlecode.com/files/warc-tools_phase_III_frs_v5.pdf.