国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

WARC格式對(duì)描述與組織網(wǎng)絡(luò)收割結(jié)果的支持

2010-06-14 08:28:04郭世明
圖書(shū)館理論與實(shí)踐 2010年7期
關(guān)鍵詞:國(guó)家圖書(shū)館字段資源

●李 睿,韓 毅,郭世明

(1.中國(guó)科學(xué)院 文獻(xiàn)情報(bào)中心,北京 100080;2.四川大學(xué) 公共管理學(xué)院,成都 610064)

保存網(wǎng)絡(luò)資源不同于保存學(xué)術(shù)電子期刊(基于主題、學(xué)科或引用關(guān)系的高度結(jié)構(gòu)化和有序化數(shù)據(jù)庫(kù)資源),網(wǎng)絡(luò)收割(抓取/爬行)的結(jié)果具有媒體格式版本多樣,規(guī)模大小差異大,資源重復(fù),外部關(guān)聯(lián)復(fù)雜等特征。[1]IA(InternetArchive,由美國(guó)國(guó)會(huì)圖書(shū)館和SmithsonianInstitution共同構(gòu)成,以為后代保存稍縱即逝的、具有歷史性重大意義的“原生”互聯(lián)網(wǎng)資源為目標(biāo))為存檔網(wǎng)絡(luò)爬行器的批量收割結(jié)果制定了ARC(ARChive) 格式,之后,IIPC(International Internet PreservationConsortium,由IA和30多個(gè)國(guó)家圖書(shū)館組成,旨在開(kāi)發(fā)Web Archive通用工具和技術(shù)標(biāo)準(zhǔn))在各成員機(jī)構(gòu)應(yīng)用ARC的經(jīng)驗(yàn)基礎(chǔ)上,改進(jìn)而成了一種標(biāo)準(zhǔn)化的管理和存儲(chǔ)海量網(wǎng)絡(luò)收割結(jié)果的文件格式WARC (WebARChive)。

WARC格式標(biāo)準(zhǔn)于2009年6月被正式批準(zhǔn)成為ISO標(biāo)準(zhǔn)(ISO 28500:2009)。此外,互聯(lián)網(wǎng)工程任務(wù)組 IETF(Internet Engineering Task Force) 已批準(zhǔn)登記WARC格式標(biāo)準(zhǔn)為RFC文件(請(qǐng)求注解文件),登記WARC格式的MIME類型為“application/warc”,國(guó)際互聯(lián)網(wǎng)代理成員管理局IANA(Internet Assigned NumbersAuthority)也即將登記WARC格式的類型為“application/warc”。

1 WARC格式標(biāo)準(zhǔn)的基本規(guī)定[2]

WARC將多樣化的網(wǎng)絡(luò)資源收割結(jié)果連同相關(guān)描述信息一并整合到同一存檔文件中。一個(gè)WARC格式的文件(file) 由若干條記錄(record) 連接而成。每條記錄以頭標(biāo)區(qū)(record header) 開(kāi)頭,后跟內(nèi)容塊(record content block)。WARC記錄的基本結(jié)構(gòu)如下圖所示。頭標(biāo)區(qū)使用文本數(shù)據(jù)對(duì)資源進(jìn)行基本描述,內(nèi)容塊可以包含零字節(jié)或任意多字節(jié),其中存儲(chǔ)的記錄類型隨資源內(nèi)容的不同而不同。

圖 WARC格式基本結(jié)構(gòu)示意圖

WARC格式標(biāo)準(zhǔn)定義了8種記錄類型:“warcinfo”“response”“resource”“request”“metadata”“revisit”“conversion”和“continuation”。在創(chuàng)建某一資源的存檔文件的過(guò)程中,可以任意選擇、按任意順序組合各種記錄類型。

WARC格式的字段類型包括:“warc-id”“data-length”“record-type”“subject-uri”“creation-date”“content-type”“record-id”“IP-address”“Segment-O-rigin-ID”“Segment-Number”“Truncated:reason-token”“Related-Record-ID”“Warcinfo-ID”等。用戶可還以自定義添加新的字段類型。

2 WARC對(duì)網(wǎng)絡(luò)收割結(jié)果的描述

2.1 基本描述

WARC文件中,每條記錄的頭標(biāo)區(qū)負(fù)責(zé)標(biāo)識(shí)該條記錄的基本信息,包括記錄長(zhǎng)度、創(chuàng)建時(shí)間、主題URI等內(nèi)容。

2.2 對(duì)資源來(lái)源的描述

WARC格式對(duì)資源來(lái)源的描述主要通過(guò)“request”和“response”兩種類型的記錄來(lái)實(shí)現(xiàn)。部分描述信息來(lái)源于TCP/IP連接過(guò)程,例如服務(wù)器的IP地址、資源名稱、資源類型、資源語(yǔ)種、響應(yīng)時(shí)間、服務(wù)器類型等,而大部分描述信息來(lái)源于HTTP請(qǐng)求與響應(yīng)過(guò)程,分別被存儲(chǔ)在“request”和“response”兩種類型的記錄中。

2.3 對(duì)收割活動(dòng)的描述

“warcinfo”型記錄用于描述其后所跟記錄的收割活動(dòng),描述信息包括:網(wǎng)絡(luò)爬行的目的、深度、時(shí)間間隔、速率等。“warcinfo”型記錄可以出現(xiàn)在WARC文件中的其他任意位置,用于描述其后所跟的記錄,其描述的有效性直到下一條“warcinfo”型記錄出現(xiàn)為止。

2.4 對(duì)資源格式的描述

“conversion”型記錄中存儲(chǔ)的內(nèi)容是某一記錄內(nèi)容的另一種媒體格式的版本。WARC格式標(biāo)準(zhǔn)規(guī)定:可以為某一資源創(chuàng)建任意數(shù)量的“conversion”型記錄,以盡最大可能維持其在未來(lái)的活性。下文是一條“conversion”型記錄,其中記載了目前資源的類型為images格式為jpg,包含3098比特二進(jìn)制數(shù)據(jù),在未來(lái)jpg格式過(guò)時(shí)后,資源可能被遷移為新格式image/neoimg,新格式版本將被存放在Related-Record-ID中。

2.5 對(duì)資源內(nèi)容的描述

原始URI可以提示記錄中資源內(nèi)容的主題。在“warcinfo”型記錄中,“subject-uri”字段的值是人工綜合給定的,并且是文件名的一部分,“subject-uri”字段的值是爬行軟件的檢索目標(biāo)的原始URI。

2.6 對(duì)節(jié)略資源的描述

規(guī)模過(guò)大的資源可能在被節(jié)略后存入WARC文件,在頭標(biāo)區(qū)增加“Truncated”字段可以顯示該條記錄為節(jié)略操作的結(jié)果,“Truncated”字段的值可以是“time”(表明節(jié)略原因是資源超過(guò)時(shí)效限制) 或“l(fā)ength”(表明節(jié)略原因是資源超過(guò)長(zhǎng)度限制)。

2.7 對(duì)資源重復(fù)訪問(wèn)的描述

“revisit”型記錄用于記載對(duì)已存檔內(nèi)容進(jìn)行重復(fù)訪問(wèn)的情況。下文為一條“revisit”型記錄,其中記載了遠(yuǎn)程主機(jī)的HTTP響應(yīng)未發(fā)生變化,Etag的值與先前的訪問(wèn)記錄相同,說(shuō)明資源內(nèi)容未發(fā)生變化。

3 WARC對(duì)網(wǎng)絡(luò)收割結(jié)果的組織

3.1 WARC對(duì)片段記錄的組織

WARC格式規(guī)定:對(duì)規(guī)模過(guò)大的資源可將之分割為若干片段然后分別保存在多條“continuation”型記錄中。記錄中的“Segment-Origin-ID”字段負(fù)責(zé)將各內(nèi)容片段記錄與起始片段記錄關(guān)聯(lián)起來(lái),“Segment-Number”字段負(fù)責(zé)對(duì)每一內(nèi)容片段按先后順序進(jìn)行編號(hào)。下文是某資源的第2個(gè)記錄片段的'continuation'型記錄,它與起始記錄uuid:a4b26b6b-f918-4136-af04-f859d75a ebe5關(guān)聯(lián)在一起。

3.2 面向不同任務(wù)的WARC記錄重組

當(dāng)面向不同主題或事件(9.11、悉尼奧運(yùn)、汶川地震)重組資源時(shí),各種記錄會(huì)被從不同的WARC文件中抽取出來(lái),重新組合成新的文件,“Warcinfo-ID”字段則能夠?yàn)橹亟M后分布于不同的獨(dú)立WARC文件中的記錄提供與其原始“Warcinfo”記錄的關(guān)聯(lián),保持資源的原貌。

3.3 基于外部關(guān)聯(lián)的資源組織

WARC格式中內(nèi)嵌了“metadata”型記錄,采用RDF或其他以XML為基礎(chǔ)的書(shū)寫(xiě)方式,其內(nèi)容允許復(fù)用其他各種類型記錄的內(nèi)容,支持對(duì)資源間關(guān)聯(lián)的語(yǔ)義描述。下文是一條簡(jiǎn)單的“metadata”型記錄,Related-Record-ID字段中記載了與該資源相關(guān)聯(lián)的其他資源。

3.4 基于外部索引的信息組織

WARC文件可以被外部工具索引,IA的ARC文件被存取工具Wayback以URL和收割時(shí)間作為索引點(diǎn)建立了外部索引數(shù)據(jù)庫(kù),[3]美國(guó)國(guó)會(huì)圖書(shū)館的LOC/SDSC項(xiàng)目分布式運(yùn)行了18個(gè)Wayback子項(xiàng)目對(duì)其存檔的ARC文件進(jìn)行索引,1周時(shí)間內(nèi)建成了100 GB 的索引數(shù)據(jù)庫(kù)。[4]

4 ARC及WARC格式在各國(guó)的應(yīng)用情況

丹麥皇家圖書(shū)館和丹麥國(guó)家與大學(xué)圖書(shū)館聯(lián)合進(jìn)行的Netarkivet項(xiàng)目使用Heritrix進(jìn)行網(wǎng)絡(luò)收割,存儲(chǔ)WARC文件的系統(tǒng)BitArchives不久將達(dá)到20TB容量。[5]

法國(guó)國(guó)家圖書(shū)館Bnf WebArchive項(xiàng)目一年間存檔的25000個(gè)ARC文件,對(duì)應(yīng)于50萬(wàn)個(gè)主機(jī)和大于1億 2 千多萬(wàn)個(gè) URL。[6]

新西蘭國(guó)家圖書(shū)館一年完成的收割任務(wù)中76%以ARC 格式存檔。[7]

新加坡國(guó)家圖書(shū)館每年進(jìn)行2次大規(guī)模網(wǎng)絡(luò)收割,存檔1.6TB ARC格式文件。[8]

芬蘭國(guó)家圖書(shū)館的Annual Web Harvest項(xiàng)目采用Heritrix進(jìn)行網(wǎng)絡(luò)爬行,并且以WARC進(jìn)行收割結(jié)果存檔。[9]

德國(guó)國(guó)家圖書(shū)館總結(jié)了使用METS支持網(wǎng)絡(luò)收割結(jié)果存檔的利與弊,并提出了使用WARC格式的可行性。[10]

荷蘭國(guó)家圖書(shū)館正計(jì)劃將網(wǎng)絡(luò)資源收割的結(jié)果以WARC格式存入 e-Depot中。[11]

美國(guó)國(guó)會(huì)圖書(shū)館的LOC/SDSC項(xiàng)目共存檔了5.2 TBARC文件,平均每個(gè)文件的大小為128MB,平均每個(gè)文件容納1000個(gè)網(wǎng)頁(yè)。[11]

澳大利亞國(guó)家圖書(shū)館的PADORA項(xiàng)目一年存檔的ARC 文件總量為 4.52TB。[12]

加州大學(xué)數(shù)字圖書(shū)館(CDL) 的Web-at-Risk項(xiàng)目?jī)?nèi)置Heritrix作為收割軟件,以ARC格式輸出收割結(jié)果,并通過(guò)NutchWAX存取管理軟件對(duì)存檔的ARC文件建立索引。[13]

康奈爾大學(xué)的WebArchive項(xiàng)目——WebLibrary對(duì)數(shù)字圖像和視頻的收割結(jié)果進(jìn)行了ARC格式保存,其中數(shù)字圖像的ARC文件為14.9TB,相應(yīng)的元數(shù)據(jù)DAT文件為0.84TB;視頻的ARC文件為7.36TB,相應(yīng)的元數(shù)據(jù)DAT文件為1.89TB。[14]

由歐洲若干國(guó)家圖書(shū)館(摩洛哥、捷克)及研究機(jī)構(gòu) (University Hannover、Europe Archive Foundation等) 共同承擔(dān)的LiWA(LivingWebArchives) 項(xiàng)目,將WARC格式擬定為網(wǎng)絡(luò)收割結(jié)果的存檔格式。[15]

受 JISC資助的 JISC-PoWR(Preservation of Web Resources)項(xiàng)目提出了“文檔持續(xù)可訪問(wèn)、兼容元數(shù)據(jù)、符合OAIS模式、支持Web2.0資源”等存檔原則,并著重參考WARC格式。[16]

意大利政府支持能源、環(huán)境、新技術(shù)等關(guān)系國(guó)家競(jìng)爭(zhēng)力和可持續(xù)發(fā)展的代理平臺(tái)——ENEA網(wǎng)格,也使用WARC存檔其網(wǎng)絡(luò)收割的結(jié)果。[17]

5 WARC應(yīng)用于我國(guó)Web Archive工作的建議

盡管WARC格式也還存在諸多不足,例如尚缺乏對(duì)刪除行為、遷移過(guò)程和去重過(guò)程的記載等,但它正處于快速的改良和發(fā)展中:IIPC已制定出管理文件內(nèi)容的綜合、可擴(kuò)展、高速的框架———Libwarc,[18]并于2008年10月推出。WebArchive服務(wù)機(jī)構(gòu)Hanzo開(kāi)發(fā)了使ARC向WARC轉(zhuǎn)換的操作工具,可在第三方軟件上運(yùn)行。[19]英、法、丹麥、瑞典、新西蘭等國(guó)的國(guó)家圖書(shū)館正致力于WARC格式轉(zhuǎn)換及相關(guān)WARC工具的第三階段(PHASE III) 研發(fā)和推廣。[20]

我國(guó)的WebArchive工作還處于起步階段,“網(wǎng)絡(luò)資源采集與保存試驗(yàn)項(xiàng)目”WICP和ODBN選擇了政府網(wǎng)站、電子期刊網(wǎng)站、大學(xué)網(wǎng)站、企業(yè)網(wǎng)站、大眾傳媒網(wǎng)站等各100個(gè)進(jìn)行資源收割,按網(wǎng)站名、版權(quán)所有者、開(kāi)通日期進(jìn)行分類和主題描述,對(duì)收割結(jié)果的描述與組織方式以MARC目錄和DC目錄方式為主,生成的資源目錄被輸出到A1eph500系統(tǒng)中。

根據(jù)WARC格式的應(yīng)用經(jīng)驗(yàn)和發(fā)展趨勢(shì),筆者建議我國(guó)國(guó)家圖書(shū)館將來(lái)應(yīng)采納WARC格式進(jìn)行大規(guī)模的收割結(jié)果存檔工作,以保障存檔資源的可持續(xù)發(fā)展,同時(shí)實(shí)現(xiàn)與國(guó)際同類工作的兼容,支持未來(lái)國(guó)家記憶系統(tǒng)的互操作。

[1]Catherine Lupovici,Den Haag.Archiving the Web:the mass preservation challenge,Tools and Trends:International Conferenceon DigitalPreservation[EB/OL].[2009-07-08].http://www.kb.nl/hrd/congressen/tool strends/presentations/Lupovici.pdf.

[2]WARCFile Format(FinalworkingdraftforISOTC46/SC4,v.018,080618)[EB/OL].[2009-08-13].http://www.scribd.com/doc/4303719/WARC-ISO-28500-final-draft-v018-Zentveld-080618.

[3]Steen S Christensen.The Royal Library Archival Data FormatRequirements[EB/OL].[2009-08-16].http://netarchive.dk/publikationer/Archival_format_requirements-2004.pdf.

[4]David Minor,etc.Archiving,Indexing and Accessing Web Materials:Solutionsforlargeamounts ofdata[EB/OL].[2009-08-02].http://iwaw.europarchive.org/07/IWAW2007_minor.pdf.

[5]Niels H,Christen S.Preserving the bits of the Danish Internet[EB/OL].[2009-08-11].http://netarchive.dk/publikationer/iwaw05-christensen.pdf.

[6]Web Archiving at BnF[EB/OL].[2009-07-15].http://www.bnf.fr/pages/version_anglaise/depotleg/pdf/Bn Fnews200609.pdf.

[7]GordonPaynter,etc.AYearofSelectiveWebArchiving with the Web Curator at the National Library of New Zealand[J/OL].D-LibMagazine,2008(14).

[8]NLB.ParadigmShift:OwnershiptoOutsourcingtoGSPs[EB/OL].[2009-08-04].http://files.ngp.org.sg/GridAsia2009/presentations_slides/5-friday/gsp/1430-RajuBLN(NLB).pdf.

[9]http://www.nationallibrary.fi/publishers/deposit/webharvesting.html.[2009-08-03].

[10]Tobias Steinke.Harvester Results in a Digital PreservationSystem.IPRES2008[EB/OL].[2009-08-01].http://www.bl.uk/news/pdf/abstracts.pdf.

[11]Barbara Sierman,Koninklijke Bibliotheek.Enhancing ourdatamodelwithPremis[EB/OL].[2009-08-07].http://ils.unc.edu/digccurr2007/papers/sierman_paper_4-1.pdf.

[12]http://pandora.nla.gov.au/partners/annual_report06_07.pdf.[2009-08-06].

[13]TracySeneca,Shifra Pride Rael.NDIIPP Web-at-Risk:TheDevelopmentofaWebArchivingServiceattheCalifornia Digital Library[EB/OL].[2009-08-05].http://www.cdlib.org/inside/projects/preservation/webat risk/documents/WebArchivingServiceCollection_Plan_Guidelines.pdf.

[14]DmitriyShtokman.Web Library:DataMovementSpring 2007 Report[EB/OL].[2009-08-08].http://weblab.infosci.cornell.edu/papers/Shtokman2007.pdf.

[15]http://iwaw.europarchive.org/08/IWAW2008-Pop-pres.pdf.[2009-08-04].

[16]PoWR The Preservation of Web Resources Handbook[EB/OL].[2009-08-05].http://www.jisc.ac.uk/publications/documents/powrhandbook.aspx.

[17]S Raia,etc.Web Crawling on ENEA GRID infrastructuretoperformWebArchive[EB/OL].[2009-08-03].http://www.cresco.enea.it/Documenti/web/presentazioni/Poster_PON_Catania_2009_02_10/poster_catania/Poster_WebCrawler_Raia_010209_20-30.pdf.

[18]Libwac[EB/OL].[2009-08-02].http://code.google.com/p/warc-tools/.

[19]Hanzo[EB/OL].[2009-08-10].http://www.hanzoweb.com/.

[20]YounèsHafri.WARCTOOLSPHASEIII[EB/OL].[2009-08-01].http://warc-tools.googlecode.com/files/warc-tools_phase_III_frs_v5.pdf.

猜你喜歡
國(guó)家圖書(shū)館字段資源
圖書(shū)館中文圖書(shū)編目外包數(shù)據(jù)質(zhì)量控制分析
國(guó)家圖書(shū)館出版社重點(diǎn)圖書(shū)
基礎(chǔ)教育資源展示
國(guó)家圖書(shū)館藏四種古籍編目志疑
天一閣文叢(2020年0期)2020-11-05 08:28:36
一樣的資源,不一樣的收獲
資源回收
中國(guó)國(guó)家圖書(shū)館藏西夏文《不空羂索神變真言經(jīng)》考論
西夏學(xué)(2018年2期)2018-05-15 11:26:38
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
國(guó)家圖書(shū)館藏吳奕雜劇二種略考
中華戲曲(2016年2期)2016-01-22 08:19:05
CNMARC304字段和314字段責(zé)任附注方式解析
兰考县| 台中县| 侯马市| 运城市| 太湖县| 乌拉特中旗| 巩留县| 湄潭县| 新野县| 巴林左旗| 临洮县| 全州县| 天津市| 武冈市| 隆尧县| 吴江市| 保靖县| 惠东县| 湘潭县| 济宁市| 江永县| 昆明市| 千阳县| 崇州市| 红安县| 海门市| 应用必备| 翁牛特旗| 张家港市| 余姚市| 盈江县| 麻城市| 宜君县| 凤台县| 左贡县| 河南省| 甘孜县| 本溪市| 开化县| 洛隆县| 西城区|