臧國全 李 哲
(1 鄭州大學信息管理學院 鄭州 450001;2 鄭州大學公共管理學院 鄭州 450001)
人類社會進入了因特網(wǎng)時代,Web資源已成為人們使用信息資源的主體。但是,因特網(wǎng)是一個動態(tài)網(wǎng)絡(luò),通過其發(fā)布和傳播的Web資源隨時可能消失,因此,保存Web資源的歷史完整性和連續(xù)性就成為了因特網(wǎng)時代的一項社會職責。
目前,不少信息機構(gòu)已開始履行這項職責,建立Web保存項目,長期保存這類數(shù)字化知識遺產(chǎn)。保存的前提是收割,保存的目的是供用戶日后訪問使用。收割需要使用Web收割工具,訪問需要使用描述型元數(shù)據(jù)。如果Web收割工具可以自動生成描述型元數(shù)據(jù)以支持被收割內(nèi)容的自動發(fā)現(xiàn),不僅可以顯著提高元數(shù)據(jù)的生產(chǎn)效率,實現(xiàn)元數(shù)據(jù)生產(chǎn)的規(guī)?;?,也可減少Web保存的成本,甚至可提高Web保存信息的描述質(zhì)量,高效地滿足用戶對它的發(fā)現(xiàn)與使用。
因此,我們有必要通過訪問相關(guān)專業(yè)網(wǎng)站,考察Web收割工具描述型元數(shù)據(jù)功能的現(xiàn)狀,評估收割過程對元數(shù)據(jù)功能的支持程度,并在此基礎(chǔ)上,分析Web收割工具描述型元數(shù)據(jù)功能所涉及的一些基本問題,提出解決這些問題的基本思路。
本研究中的Web收割工具選自國際因特網(wǎng)保存聯(lián)盟(IIPC)2017年發(fā)布的《Web收割工具目錄》[1],選擇的主要標準是具有描述型元數(shù)據(jù)功能。
評估項目有兩個:一是工具的基本情況,包括主要作用、收割形成的文件類型、與其他工具之間的關(guān)系;二是工具的元數(shù)據(jù)功能,包括工具采用的描述型元數(shù)據(jù)方案、收割過程中自動抓取的元數(shù)據(jù)元素、用戶可賦值編輯的元數(shù)據(jù)元素、可被輸出應(yīng)用的元數(shù)據(jù)元素。
評估過程分三個階段:首先,訪問網(wǎng)站,瀏覽分析有關(guān)收割工具的介紹;其次,下載安裝或注冊試用這些工具,對描述型元數(shù)據(jù)功能逐一考察;最后,聯(lián)系工具創(chuàng)建者,征求其對考察結(jié)果的意見,核實實驗準確度,完善實驗結(jié)果。
常用Web收割工具的描述型元數(shù)據(jù)功能考察結(jié)果見表1。
表1 常用Web收割工具的描述型元數(shù)據(jù)功能考察結(jié)果
Web Archive Discovery[9]功能:開源工具,主要功能是實施Web收割后,提供Web保存的全文檢索。方法:使用WARC的索引工具分析以WARC和ARC格式保存的Web文件內(nèi)容,將分析結(jié)果傳送至Apache Solr服務(wù)器,生成索引;檢索者通過客戶端工具檢索Solr索引,生成查詢結(jié)果生成文件的類型:WARC和ARC格式與其他工具的關(guān)系:Solr索引,是實現(xiàn)該工具核心功能所需的外部工具采用的元數(shù)據(jù)方案:JSON。該工具將對WARC和ARC文件的解析結(jié)果生成JSON格式文件,用于SOLR檢索可自動賦值的元數(shù)據(jù)元素:描述型有抓取日期、URL、內(nèi)容類型等;管理型有來源文件、服務(wù)器、主機、hash函數(shù)等用戶可賦值編輯的元數(shù)據(jù)元素:無。所有描述型元數(shù)據(jù)元素都可自動生成可輸出被外部使用的元數(shù)據(jù)元素:所有的元數(shù)據(jù)元素都可被導出Web Curator Tool[10]功能:開源Web收割工作流程管理工具,包括收割內(nèi)容的許可和授權(quán)、內(nèi)容選擇和范圍劃定、收割活動實施和質(zhì)量檢查以及存檔保存等生成文件的類型:WARC和ARC格式與其他工具的關(guān)系:使用Heritrix 收割Web內(nèi)容,使用WARC文件為最小保存單元,可結(jié)合使用Wayback Machine和Rosetta DPS采用的元數(shù)據(jù)方案:DC可自動賦值的元數(shù)據(jù)元素:抓取日期并自動計算記錄在dc:date字段中。其他的描述型元數(shù)據(jù)元素需用戶添加用戶可賦值編輯的元數(shù)據(jù)元素:Web資源的名稱、所有者、注釋以及DC中描述字段中的其他基本元素可被外部使用的描述型元數(shù)據(jù)元素:所有元數(shù)據(jù)都添加到WARC和ARC格式的文件中。當這些文件被提交到保存系統(tǒng)中時,這些元數(shù)據(jù)也都將存儲在提交信息包(SIP)中Webrecorder[11]功能:免費的社交媒體收割工具,可抓取用戶的社交過程,包括交互內(nèi)容、交流語境、動態(tài)多媒體、復雜JAVA腳本等;嚴格按照時序收割用戶交流過程中涉及的Web頁面和其他數(shù)字對象,保存用戶的真實使用經(jīng)歷。收割結(jié)果以WARC格式文件保存。網(wǎng)站抓取和保存對象的回放使用同一軟件,稱為對稱Web保存法生成文件的類型:WARC格式與其他工具的關(guān)系:無采用的元數(shù)據(jù)方案:JSON可自動賦值的元數(shù)據(jù)元素:描述型有創(chuàng)建者、標題、抓取日期/時間、存檔文件格式、URL等用戶可賦值編輯的元數(shù)據(jù)元素:無。該工具聲明將開發(fā)這類元素可輸出被外部使用的元數(shù)據(jù)元素:所有生成的內(nèi)嵌于WARC文件中的元數(shù)據(jù)元素都可以被調(diào)用
由表1可知,雖然不同收割工具的元數(shù)據(jù)功能不盡相同,但總體上對描述型元數(shù)據(jù)的支持程度都不高,具體表現(xiàn)在:
其一,大部分收割工具都獲取并存儲了技術(shù)型元數(shù)據(jù),以便準確地重構(gòu)和再現(xiàn)收割的Web信息資源,但獲取描述型元數(shù)據(jù)的不多,因為收割的文件中描述型元數(shù)據(jù)本來就很少。因此,在工具內(nèi)部甚至工具外部由人工創(chuàng)建描述型元數(shù)據(jù)就成為了常見的補充方法。
其二,除非原始網(wǎng)頁的創(chuàng)建者在創(chuàng)建網(wǎng)頁時就習慣性地在相應(yīng)標簽內(nèi)(如HTML格式網(wǎng)頁的meta標簽)嵌入更多描述型元數(shù)據(jù)元素,否則自動生成這類元素比較困難。
其三,幾乎所有收割工具都抓取網(wǎng)站標題和收割日期作為描述型元數(shù)據(jù)元素,但有時自動抓取的元素內(nèi)容是無效的,比如,網(wǎng)站標題“主頁”和“標題”等無實質(zhì)內(nèi)容描述。
其四,并不是所有的工具都以相同的方式定義描述型元數(shù)據(jù),表現(xiàn)在兩個方面:一是采用的描述型元數(shù)據(jù)方案不一樣,有DC、JSON、CDX、WARC等;二是自動生成和人工賦值的元數(shù)據(jù)元素不盡相同。
如何提高Web收割工具的描述型元數(shù)據(jù)功能?筆者認為可從以下兩個方面著手:
其一,針對Web特質(zhì),建立對其進行描述的元數(shù)據(jù)方案。據(jù)OCLC(聯(lián)機計算機圖書館中心)考察,業(yè)已存在的描述型元數(shù)據(jù)方案對Web描述的支持都較差,還沒有出現(xiàn)一個完全適合Web的描述型元數(shù)據(jù)方案。本文對部分收割工具的描述型元數(shù)據(jù)功能進行了考察,并征求收割工具開發(fā)者對考察結(jié)果的意見時,部分開發(fā)者表示要積極尋求用戶反饋,以確定對用戶有價值的元數(shù)據(jù)元素;另一些期望與圖書館、檔案館和博物館等信息機構(gòu)合作研究出一個適合Web描述的元數(shù)據(jù)元素集合;還有一些期望圖書情報學界制定出臺一個用于Web描述的元數(shù)據(jù)方案。實際上,這個元數(shù)據(jù)方案是收割工具提供元數(shù)據(jù)功能的前提,正是因為它的缺失,收割工具無章可循,各行其道,一方面導致混亂,另一方面其針對性和適用性無法得到保證。這是目前Web收割工具的描述型元數(shù)據(jù)功能欠佳的原因之一。
其二,收割工具自動抓取或產(chǎn)生元數(shù)據(jù)元素的描述內(nèi)容,實現(xiàn)自動賦值。這里涉及三個問題:一是收割工具需設(shè)計該項功能,這是工具開發(fā)的技術(shù)問題;二是從Web網(wǎng)站和頁面中自動抽取元數(shù)據(jù)的賦值內(nèi)容,這是自然語言自動理解和多媒體的自動描述問題,也屬于技術(shù)問題;三是Web頁面的腳本標記中包含所需的賦值內(nèi)容,比如Web頁面源代碼標記語言中的元數(shù)據(jù)標記(如HTML的meta)中包含元數(shù)據(jù)元素所需的賦值內(nèi)容,這是規(guī)范使用Web頁面的元數(shù)據(jù)標記問題,需要強化Web管理來規(guī)范Web內(nèi)容創(chuàng)建者的元數(shù)據(jù)構(gòu)建行為,屬于管理問題。目前,上述三個問題的解決方案都不到位,不少收割工具的元數(shù)據(jù)功能設(shè)計欠佳,甚至缺失;自然語言自動理解和多媒體的自動描述技術(shù)仍不成熟,準確度還沒有達到規(guī)?;瘧?yīng)用水平;Web頁面創(chuàng)建雖有技術(shù)規(guī)范,但管理規(guī)范仍然缺失。這是Web收割工具的描述型元數(shù)據(jù)功能欠佳的原因之二。
由上分析可知,Web收割工具描述型元數(shù)據(jù)功能的實現(xiàn)涉及兩個問題:元數(shù)據(jù)方案的建立和元數(shù)據(jù)賦值的自動化。第二個問題的解決更多的不是依賴于圖書情報學,而是依賴于技術(shù)和管理;第一個問題的解決則純粹是圖書情報學的任務(wù)。因此,本部分僅探討第一個問題,即對構(gòu)建適合于Web的描述型元數(shù)據(jù)方案所涉及的一些基本問題進行分析。
雖業(yè)已存在多個描述型元數(shù)據(jù)方案,如DC、MARC等,但均無法完全反映Web站點和專題Web站點集合的獨特性質(zhì),比如URL、站點內(nèi)容的動態(tài)性等。因此,Web描述元數(shù)據(jù)方案宏觀上至少應(yīng)該在以下幾個方面有所體現(xiàn):
形式上,獨立于Web保存機構(gòu)和現(xiàn)有元數(shù)據(jù)方案;但需與相關(guān)元數(shù)據(jù)標準兼容,以備交換元數(shù)據(jù)標引結(jié)果和細化元數(shù)據(jù)元素之需要;目的上,滿足最終用戶和元數(shù)據(jù)實踐者(一般也是保存機構(gòu))對Web保存與檢索的需求;內(nèi)容上,定義了一套簡潔的描述型元數(shù)據(jù)元素,并附使用說明以指導元數(shù)據(jù)標引實踐;方法上,融合圖書管理中的目錄式描述方法和檔案管理中的存檔式描述方法,建立既可進行簡單標引又可在需要之時進行詳細描述的彈性實用的Web描述元數(shù)據(jù)方案;實踐上,可實現(xiàn)大規(guī)模自動標引,這就要求既無需深度描述,也無需隨著時間推移進行大規(guī)模遷移和轉(zhuǎn)換,以滿足標引對象數(shù)量巨大的要求。
不少圖書館和檔案館等信息機構(gòu)同時建有實體(存檔)Web數(shù)據(jù)庫(如Archive-It)和虛擬(在線)Web數(shù)據(jù)庫(如學科導航),既需要描述存檔站點,也需要描述在線站點,因此Web描述元數(shù)據(jù)方案應(yīng)兼顧這兩類站點。但是,我們需在元數(shù)據(jù)設(shè)計時考慮兩類站點的不同之處。
價值上。在線站點提供最新信息,具有現(xiàn)實價值;存檔站點提供歷史信息,具有長期的研究價值。如,收割美國白宮網(wǎng)站的不同內(nèi)容版本并存檔,可以用來研究美國近三屆政府在環(huán)境保護政策方面的不同之處。
訪問鏈接上。在線站點元數(shù)據(jù)描述的是當前版本,隨著站點消失,其訪問URL將導致死鏈。但是,當在線站點被收割存檔后,其訪問鏈接指向存檔版本,既不會消失也不會產(chǎn)生死鏈。
日期記錄上。在線站點元數(shù)據(jù)的記錄日期可能是它被描述時的瀏覽日期,或是首次上線的日期。但存檔站點的抓取日期很重要,應(yīng)在其元數(shù)據(jù)中予以描述。當收割并存檔一個站點的所有不同內(nèi)容版本時,可根據(jù)抓取日期瀏覽該站點的演變歷史。
訪問限制上。絕大部分在線站點均可公共訪問,且無訪問限制。但存檔站點的訪問權(quán)限取決于存檔機構(gòu),在訪問機制建立前,存檔站點一般僅供現(xiàn)場訪問。
因此,同一個站點的在線版本和存檔版本的元數(shù)據(jù)描述不完全一樣。如果一個機構(gòu)期望兩個版本同時被描述從而提供用戶訪問,可設(shè)計一個元數(shù)據(jù)方案,但須兼容兩者的不同之處,比如穩(wěn)定的訪問URL。從成本效益角度來看,這種方案可能是一個比較理想的選擇。
前者主要用于圖書館對館藏數(shù)字資源的著錄,著錄內(nèi)容來自描述項內(nèi)容的抽取,主要元素有標題和主題詞。后者一般是一組來源相關(guān)的未公開發(fā)表信息資源集合存檔的一種描述方法,標題是基于存檔內(nèi)容概括設(shè)計出來的,而不是抽取出來的,且常常使用大量文本型注釋描述存檔內(nèi)容的語境。許多存檔Web資源集合都是專題性Web資源選擇與收割的結(jié)果。
兩種描述方式的一些元素是相同的,尤其是檢索點,比如,主題詞、Web信息資源的類型、人名、組織機構(gòu)名、地理名稱等。
圖書館和檔案館是實施Web保存的主要信息機構(gòu),目前這兩類機構(gòu)的Web存檔實踐是目錄式描述和檔案式描述共存,它們的描述方式由來已久,不易改變。因此,Web描述型元數(shù)據(jù)方案設(shè)計應(yīng)該考慮圖書館和檔案館的實踐慣例,同時滿足目錄式和檔案式描述的需要。
前者的描述對象是單個站點,后者是多個站點的集合,且站點之間一般具有相關(guān)性,比如一個專題的所有站點。
選擇策略。兩種描述方式都可用于Web存檔內(nèi)容,選擇哪種方式取決于Web保存機構(gòu)和可利用的人力資源等。目前,圖書館常采用站點式描述方法建立在線單站點的元數(shù)據(jù)記錄,通過檢索系統(tǒng)提供用戶訪問;相反,檔案館幾乎都采用集合式描述方法將收割的專題性Web站點集合作為一個描述單元構(gòu)建元數(shù)據(jù),供長期保存之用。很明顯,站點式描述對于收割大量站點但人力資源不充足的機構(gòu)是一個沉重負擔,尤其是要求詳細描述的情況。因此,根據(jù)保存目的、Web資源屬性和人力資源情況選擇描述方式是一種常見策略。
集合式描述的優(yōu)勢。按照專題收集Web站點,比如記錄一個重要事件或向已建立專題添加Web站點,這種Web存檔采用集合式描述比站點式描述更具成本效益性。另外,集合式描述可通過記錄集合的范圍、作用和共同的主題特征等提供語境信息,這是站點式描述無法實現(xiàn)的。集合式描述是資源發(fā)現(xiàn)的基礎(chǔ),可輔助于單站點描述,比如,在集合式描述的基礎(chǔ)上,輔助于各個站點的標題和URL,可同時提供宏觀和微觀兩個層級Web存檔的標引。但這種方法的使用要有“度”,比如,當存檔Web集合包含大量站點時,列出一個冗長的URL清單可能作用不大,也容易產(chǎn)生混亂。
鑒于上述分析,Web描述元數(shù)據(jù)方案應(yīng)該既適合于站點式描述也適合于集合式描述,但在一些易產(chǎn)生歧義的元素標引上應(yīng)輔助說明。比如,單個網(wǎng)站的標題常常是站點中重要文本內(nèi)容的轉(zhuǎn)錄,而一個Web集合的標題常由收集機構(gòu)設(shè)計;單個站點的創(chuàng)建者容易被識別,除非有意匿名,而一個聚焦在當前某一事件或主題的Web站點集合很少存在一個整體上的內(nèi)容創(chuàng)建者;針對一個主題的Web資源集合式描述,其日期記錄可以是收割的時間跨度,但一個單獨在線站點的日期記錄只能是被瀏覽且描述的時間或上線時間。
根據(jù)OCLC的調(diào)查[12],Web保存的最終用戶主要集中在各學科的科研人員,且主要需求有:①除了用于Web存檔內(nèi)容發(fā)現(xiàn)所需的描述型元數(shù)據(jù)元素外,還需存檔Web的語境信息,比如:來源信息,選擇收割站點和構(gòu)建Web資源集合的決策信息,Web資源集合的收割完整性和收割站點的內(nèi)容變化歷史軌跡等。②相對于開放的在線Web訪問上的便捷性和普遍性,存檔Web資源的訪問限制(如局限在圖書館內(nèi)部現(xiàn)場瀏覽)是用戶使用的障礙之一。③用戶使用存檔Web資源存在可獲得性障礙,比如:訪問系統(tǒng)復雜性,界面缺乏友好性,缺乏用戶支持服務(wù)項目等。
為此,Web描述元數(shù)據(jù)方案在設(shè)計元素時應(yīng)標引下列內(nèi)容:Web存檔資源的出處、收割的完整性、站點內(nèi)容改變記錄、存檔Web的知識產(chǎn)權(quán)、訪問限制等。
元數(shù)據(jù)實踐者主要有:學者出于研究目的構(gòu)建個人Web資源庫;圖書館使用RDA和MARK,尋求用于描述Web資源的相關(guān)元素;檔案機構(gòu)將其采用DACS和EAD標準描述的檔案映射到結(jié)構(gòu)更加簡單的Web工具(如Archive-It)中;保存系統(tǒng)對Web收割內(nèi)容進行元數(shù)據(jù)標引。
根據(jù)OCLC的調(diào)查[13],元數(shù)據(jù)實踐者的相關(guān)需求主要有:①元數(shù)據(jù)標引應(yīng)該大規(guī)模自動化,因為大多數(shù)機構(gòu)從事這項工作的人力資源非常有限;②與圖書館和檔案館現(xiàn)行的Web存檔描述標準相兼容;③目前,目錄式、檔案式和混合式描述方法同時使用,需要尋到一種解決方案將上述三種方法有效結(jié)合;④目前的Web存檔描述標準及應(yīng)用高度不一致,不僅體現(xiàn)在元數(shù)據(jù)元素上,還表現(xiàn)在元素的內(nèi)容賦值上,故應(yīng)建立統(tǒng)一的Web存檔描述標準;⑤描述存檔Web的元數(shù)據(jù)標引結(jié)果需在多個Web保存系統(tǒng)之間交換甚至共享,應(yīng)制定這類元數(shù)據(jù)的跨系統(tǒng)再利用協(xié)議。
因此,為了滿足元數(shù)據(jù)實踐者的上述需求,Web描述元數(shù)據(jù)方案應(yīng)該遵循以下原則:簡單高效,以實現(xiàn)規(guī)?;詣踊瘶艘?;分析吸收現(xiàn)行的元數(shù)據(jù)方案,以實現(xiàn)元數(shù)據(jù)方案之間的兼容性;具有一定程度的可擴展性,以包容目錄式和檔案式兩種描述方法;標準化,以實現(xiàn)元數(shù)據(jù)元素及其賦值規(guī)則的統(tǒng)一化;協(xié)議化,以實現(xiàn)跨系統(tǒng)的交換和共享。
我們應(yīng)針對Web特質(zhì)選擇元數(shù)據(jù)元素,所選元素均應(yīng)適用于Web描述,包括單站點和專題性的多站點集合兩個層級的描述,且使用說明也應(yīng)完全體現(xiàn)Web描述的特質(zhì)。
元素選擇應(yīng)遵循的原則有:適合于規(guī)模化賦值;既可獨立使用,也可結(jié)合圖書館和檔案館現(xiàn)行標準一起使用,以提供細粒度描述;元素名稱和定義應(yīng)盡可能采用現(xiàn)行元數(shù)據(jù)標準,以增強各標準間的兼容性和描述的一致性;各元素的使用說明應(yīng)為標引者提供幫助,且標引結(jié)果不產(chǎn)生歧義;應(yīng)包含常用元素(如貢獻者、日期、主題詞、標題等),這些元素對所有類型信息資源的識別和發(fā)現(xiàn)至關(guān)重要;其他元素須適用于存檔Web站點的描述,比如產(chǎn)權(quán)和URL等;應(yīng)適用于各層級的描述,如單站點描述、專題性的多站點集合描述等,這種描述應(yīng)遵從存檔標準中(如DACS和EAD)的多層級描述原則。
我們選擇元數(shù)據(jù)元素一般分四個步驟:首先,基于目前廣泛應(yīng)用的數(shù)字資源描述標準DC、EAD、MARC21、MODS和schema.org等,選擇通用元素,如貢獻者(Contributor)、創(chuàng)建者(Creator)、日期(Date)、描述(Description)、語種(Language)、關(guān)系(Relation)、主題詞(Subject)、標題(Title)等;其次,針對Web特質(zhì),設(shè)計其他候選元素,如收割者(Harvester)、范圍(Extent)、類型(Genre/Form)、產(chǎn)權(quán)信息(Rights)、URL等;再次,針對每個候選元素,界定含義、輔助使用說明以及與其他主要描述型元數(shù)據(jù)方案之間的映射;最后,采用德爾菲法,征詢業(yè)內(nèi)專家、Web資源描述實踐者和最終用戶的意見,并進行一定規(guī)模的試標引,完善所建立的Web描述元數(shù)據(jù)方案。
(來稿時間:2018年5月)