梁皆璇
摘要:自2009年起,英國國家檔案館開始對政府網(wǎng)頁以及社交媒體進(jìn)行收集和保存。本文分別從政府網(wǎng)頁以及社交媒體兩個方面對英國國家檔案館的政府網(wǎng)頁檔案項目進(jìn)行分析和研究,以期對我國檔案工作有所啟示。
關(guān)鍵詞:英國國家檔案館政府網(wǎng)頁檔案社交媒體檔案
隨著信息技術(shù)的發(fā)展,各國愈發(fā)意識到網(wǎng)絡(luò)信息資源的重要性,許多國家紛紛開展了與網(wǎng)絡(luò)信息資源歸檔相關(guān)的項目,并取得了一定成效。其中,作為網(wǎng)絡(luò)信息資源重要表現(xiàn)形式之一的政府網(wǎng)頁以及社交媒體更是引起了許多國家的重視。本文對英國政府網(wǎng)頁檔案項目進(jìn)行分析和研究,以期對我國檔案工作有所啟示。
一、英國政府網(wǎng)頁檔案項目概述
進(jìn)入21世紀(jì),英國政府越來越多地在網(wǎng)上發(fā)布政府信息并運(yùn)用一系列數(shù)字媒體與市民、企業(yè)交流互動,這使得數(shù)字形式的公共記錄數(shù)量迅速增長。收集實體形式和數(shù)字形式的公共記錄,以及確保能為子孫后代保存并提供實體形式和數(shù)字形式的公共記錄的利用,便成為英國國家檔案館的主要任務(wù)。在這樣的背景下,英國政府網(wǎng)頁檔案項目應(yīng)運(yùn)而生。
英國政府網(wǎng)頁檔案項目,設(shè)置在英國國家檔案館網(wǎng)站首頁四大板塊“教育服務(wù)”(Education)、“文件檢索與利用”(Records)、“信息管理指導(dǎo)”(Information Man? agement)、“檔案部門”(Archive Sector)中的“文件檢索與利用”(Records)板塊下,該板塊主要為研究提供文獻(xiàn)的支持。網(wǎng)頁檔案項目則提供網(wǎng)絡(luò)資源的支持,它共有5個部分,分別是“查找英國政府網(wǎng)頁檔案”(Search the UK Government Web Archive)、“從A—Z瀏覽館藏”(Browse our A to Z)、“Twitter檔案”(Twitter ar? chive)、“視頻檔案”(Video archive)以及“專題館藏”(Themed collections)。由于“查找英國政府網(wǎng)頁檔案”(Search the UK Government Web Archive)、“從A—Z瀏覽館藏”(Browse our A to Z)與“專題館藏”(Themed collections)這三個部分與英國政府網(wǎng)頁檔案的網(wǎng)頁檢索查詢功能有諸多重合之處,因此該內(nèi)容將在網(wǎng)頁檢索查詢方式中重點(diǎn)介紹,而Twitter檔案(Twitter archive)、視頻檔案(Video archive)更多地體現(xiàn)為社交媒體檔案的功能,因此本文將其統(tǒng)一納入社交媒體檔案內(nèi)進(jìn)行闡述。
(一)英國政府網(wǎng)頁檔案
英國國家檔案館的政府網(wǎng)頁項目于2003年9月開始,初期選擇收集50個所轄范圍內(nèi)的政府網(wǎng)站,并與非營利的專業(yè)網(wǎng)頁歸檔組織Internet Archive合作。隨著該項目的發(fā)展,從2005年起,政府網(wǎng)頁項目與非營利的專業(yè)網(wǎng)頁歸檔組織Internet Memory Foundation合作。政府網(wǎng)頁項目具備信息集成、服務(wù)利用、檢索查詢、資源共享。在其眾多的功能中,檢索查詢功能是英國政府網(wǎng)頁檔案最強(qiáng)大的功能之一。
1.網(wǎng)頁檔案檢索查詢方式
英國政府網(wǎng)頁檔案提供多種檢索方式,能夠使用戶根據(jù)自身的檢索偏好,選擇不同的檢索方式查找到所需內(nèi)容,此外還有多種檢索方式作為補(bǔ)充,從而極大地提高了查全率和查準(zhǔn)率。
(1)主要檢索方式
直接查找。政府網(wǎng)頁檔案的查找方式分為快速檢索和高級檢索??焖贆z索中只需輸入關(guān)鍵詞即可。其關(guān)鍵詞可以是任意詞、詞組或全文,也可以是一個網(wǎng)址。輸入任意詞、詞組或全文的搜索結(jié)果是館藏中所含搜索項的網(wǎng)頁,并清楚地標(biāo)明該搜索項的位置,在每條搜索結(jié)果下詳細(xì)地提供該網(wǎng)頁的摘要、機(jī)構(gòu)信息、原始網(wǎng)址、歸檔的時間以及按日期順序排列的、能夠收集到的該網(wǎng)頁的所有版本。在檢索出的每個網(wǎng)頁檔案頂部均有收集的時間,提醒用戶這是網(wǎng)頁快照,并非即時網(wǎng)頁。輸入網(wǎng)址的搜索結(jié)果則是按時間排列的所有收集到的網(wǎng)址;高級檢索中查找項為所有詞、不包含這些詞、確切詞或短語、分類、文件類型。所有詞的檢索相當(dāng)于快速檢索功能;確切詞或短語搜索的結(jié)果至少包含其中的一個詞或短語。在高級檢索中,用戶還可以選擇所需類目,即將所有收集的政府網(wǎng)站分到一個或者多個類目下,可選擇一個或者至多選擇四個類目進(jìn)行查找,以便于縮小搜索范圍。在這種方式下,將政府網(wǎng)站分為11大類,分別是“商業(yè)、工業(yè)、經(jīng)濟(jì)和金融”、“中央和區(qū)域政府”、“文化和休閑”、“環(huán)境”、“衛(wèi)生、保健與護(hù)理”、“民政、公共秩序、司法與權(quán)利”、“榮譽(yù)、獎勵及委任”、“國際事務(wù)與國防”、“公眾、社區(qū)和住房”、“運(yùn)輸、通信和科技”、“工作、教育和技能”。此外,在每個分類旁均有此分類中歸檔的所有網(wǎng)址以便查看。文件類型可以選擇查找結(jié)果的顯示方式,顯示網(wǎng)頁、PDF格式或者兩者均顯示。
英國政府網(wǎng)頁檔案的查找還支持在Firefox瀏覽器以及Chorme瀏覽器使用“Memento”的插件。裝上“Memento”插件后輸入需要的即時網(wǎng)頁,點(diǎn)擊“Me? mento”工具欄,選定日期和時間后點(diǎn)擊設(shè)置按鈕,在網(wǎng)頁中單擊鼠標(biāo)右鍵則會顯示保存的與選擇日期和時間最相近的網(wǎng)頁檔案,以便用戶進(jìn)行網(wǎng)頁瀏覽。[1]
(2)輔助檢索方式
索引查找。將所有歸檔的網(wǎng)頁按照字母順序由AZ以及數(shù)字的順序排列編成索引,用戶根據(jù)索引查找到需要的網(wǎng)頁,并點(diǎn)擊網(wǎng)頁的鏈接,便可呈現(xiàn)按時間排列的所有該網(wǎng)頁的網(wǎng)頁檔案,并提供即時網(wǎng)頁鏈接。這種查找方式較為簡單,為用戶節(jié)約了大量的時間。
專題查找。目前按專題查找板塊僅有17個專題檔案,精選了公眾關(guān)注度較高的事件以及著名事件,分別展示了這些事件是如何發(fā)生的,并記錄了政府處理情況。17個專題檔案是2006年英國國家安全、2010年4月火山灰危機(jī)、2010年5月英國大選、2010年夏巴基斯坦洪災(zāi)、2011年3月日本地震、2012倫敦奧運(yùn)會與殘奧會、2010~2013年4年間英國政府財政預(yù)算(共計5項)、英國女皇登基六十周年鉆石慶典議會演講、英國區(qū)域發(fā)展機(jī)構(gòu)、英國透明度議程、金融危機(jī)、禽流感、豬流感。endprint
2.標(biāo)準(zhǔn)支持
英國政府網(wǎng)頁檔案之所以具有如此強(qiáng)大的檢索功能,重要原因在于有英國政府網(wǎng)頁檔案的標(biāo)準(zhǔn)支持。相關(guān)的標(biāo)準(zhǔn)支持主要體現(xiàn)為英國內(nèi)閣辦公室于2009年3月發(fā)布了Cabinet Office Web Standard,其中TG105、TG122、TG125均涉及網(wǎng)頁歸檔。Cabinet Office Web Standard TG105主要包括兩部分內(nèi)容,一部分旨在確保英國國家檔案館定期以及精確保存英國中央政府的網(wǎng)頁,另一部分為網(wǎng)頁的設(shè)計以及網(wǎng)頁的維護(hù)提供最佳實踐指導(dǎo)以便于支持網(wǎng)頁歸檔。[2]Cabinet Office Web Standard TG122,主要涉及利用網(wǎng)站地圖使搜索引擎能夠查找到網(wǎng)頁。網(wǎng)站地圖通過一個簡單、開放和便于獲取的格式在網(wǎng)站上列出可利用的內(nèi)容。它可以是簡單的純文本URL列表,包含每個URL合適更新、更新的頻率等。其內(nèi)容包括網(wǎng)頁地圖的重要性、網(wǎng)頁地圖是什么、如何創(chuàng)建網(wǎng)頁地圖、上傳網(wǎng)頁地圖、向搜索引擎提交網(wǎng)絡(luò)地圖、向英國政府網(wǎng)頁檔案提交網(wǎng)頁地圖以及附錄。[3]Cabi? net Office Web Standard TG125涉及管理URL。URL是網(wǎng)頁檔案的生命線,良好的網(wǎng)頁管理將大大減少不可訪問的網(wǎng)頁數(shù)量。TG125正致力于減少網(wǎng)頁的不可訪問率。其內(nèi)容包括域名的維護(hù)、使用永久網(wǎng)址、使用有意義的URL(人們?nèi)菀桌斫獾腢RL)、通過轉(zhuǎn)換管理URL等。[4]
(二)社交媒體檔案
從時間上看,該項目最早歸檔的社交媒體檔案可以追溯到2006年;內(nèi)容涉及近年的重大事件,如2012年倫敦奧林匹克運(yùn)動會等;形式上可分為文字的Twitter(簡稱推特)檔案和視頻檔案;采集方式上,英國國家檔案館采用自動采集工具有效捕獲并提供社交媒體的內(nèi)容。社交媒體檔案的功能也日趨完善。在該項目的試驗階段,主要收集由英國政府部門在線發(fā)布的數(shù)千個視頻和超過6.5萬條Twitter,隨著社交媒體發(fā)展的成熟化,這部分館藏量也將隨著更廣泛的網(wǎng)頁歸檔活動持續(xù)增長。可以說,社交媒體檔案正成為展示政府部門如何使用數(shù)字工具與公眾進(jìn)行溝通的重要工具。以下主要對Twitter檔案和視頻檔案進(jìn)行敘述。
1.Twitter檔案
Twitter是一個廣受歡迎的社交網(wǎng)絡(luò)及微(博)客服務(wù)網(wǎng)站,它允許用戶將自己的最新動態(tài)和想法以移動電話中的短信息形式發(fā)布,英國政府部門普遍都有推特賬號,定期在推特上發(fā)布信息,英國國家檔案館將推特作為公眾記錄的一部分進(jìn)行保存。目前共收集了43個英國政府部門賬號的推特檔案。點(diǎn)擊每個部門的圖標(biāo)都能查看保存的推特并提供即時推特的鏈接。目前僅支持用戶以時間順序?qū)ν铺貦n案進(jìn)行查詢,由于推特檔案是按年度進(jìn)行收集,當(dāng)前保存了2013年9月之前的推特。[5]而哪些類型的推特應(yīng)被保存,哪些類型的推特應(yīng)被舍棄,英國國家檔案館作了詳細(xì)規(guī)定,如將應(yīng)被保存的推特內(nèi)容限制在由英國政府部門賬號和倫敦奧運(yùn)會官方賬號發(fā)出的推特以及這些推特中提到的網(wǎng)頁;被舍棄的推特內(nèi)容主要為政府部門轉(zhuǎn)發(fā)的推特,由政府部門發(fā)布的推特但其中包含非政府部門推特內(nèi)容的,也不在歸檔范圍中的。此外推特內(nèi)容中的鏈接內(nèi)容也不屬于其歸檔活動的范圍。
2.視頻檔案
視頻檔案的收集是與世界上最大的視頻網(wǎng)站You tube合作的,保存自2007年以來43個政府部門開通的Youtube賬號以及2012年倫敦奧運(yùn)會和殘奧會相關(guān)的視頻。視頻和推特一樣也是作為公共記錄的一部分進(jìn)行保存。當(dāng)前視頻檔案板塊為測試版,只能按照形成部門-形成時間-題名的方式進(jìn)行簡單的查找,每一個視頻都會標(biāo)明具體的形成日期、主要內(nèi)容并為其貼上標(biāo)簽,方便用戶的了解。
二、英國政府網(wǎng)頁檔案項目對我國的啟示
(一)檔案部門應(yīng)將政府網(wǎng)頁及其社交媒體列入館藏范圍
從必要性角度來說,互聯(lián)網(wǎng)和社交媒體正成為我國公民行使知情權(quán)、參與權(quán)、表達(dá)權(quán)和監(jiān)督權(quán)的重要渠道。一方面,近年來,越來越多的政府部門通過網(wǎng)絡(luò)開展各項業(yè)務(wù),并產(chǎn)生了大量的政府網(wǎng)絡(luò)信息資源;另一方面,社交媒體(允許人們撰寫、分享、評價、討論、相互溝通的網(wǎng)站和技術(shù))體現(xiàn)在我國即微(博)客,正如火如荼地開展。但互聯(lián)網(wǎng)也有其自身的缺陷,如若沒有相應(yīng)的項目管理,消失的網(wǎng)頁和社交媒體將永遠(yuǎn)從人們的記憶中消失。
從可行性角度來說,檔案部門在政府網(wǎng)頁及其社交媒體信息的收集上有其“先天優(yōu)勢”。政府網(wǎng)頁及其社交媒體的采集是檔案部門收集電子文件所涉范圍。同時,電子文件國家戰(zhàn)略的開展可以進(jìn)一步推進(jìn)網(wǎng)絡(luò)信息資源保存戰(zhàn)略的實施,檔案部門可以借此拓寬領(lǐng)域,將網(wǎng)絡(luò)信息的保存和數(shù)字檔案館結(jié)合起來,進(jìn)行統(tǒng)籌安排。[6]
(二)充分挖掘采集資源
筆者認(rèn)為不論是收集政府網(wǎng)頁還是社交媒體都應(yīng)通過制定元數(shù)據(jù)編目規(guī)則,在網(wǎng)絡(luò)爬蟲(抓取網(wǎng)絡(luò)資源的工具)采集資源之后,根據(jù)元數(shù)據(jù)編目規(guī)則進(jìn)行。經(jīng)過編目之后,形成一系列的專題,并提供時間、地域、關(guān)鍵詞等多檢索途徑,使讀者能夠按照各個分類進(jìn)行瀏覽。此外還應(yīng)支持用戶在頁面上看到采集網(wǎng)站的編目信息,查看對應(yīng)年月日的網(wǎng)頁內(nèi)容,如此一來用戶就能看到過去相應(yīng)時間的網(wǎng)頁內(nèi)容。[7]
此外,在檔案館頁面上每月推薦一個采集的主題網(wǎng)站,發(fā)布每月的采集網(wǎng)站訪問量的排名情況。還可將采集的網(wǎng)頁以及社交媒體進(jìn)行整合,這樣不僅為采集的資源增加了新的價值,還為用戶更充分便捷地利用檔案資源提供了條件。
(三)積極與相關(guān)機(jī)構(gòu)合作
從長期發(fā)展來看,政府網(wǎng)頁及其社交媒體作為重要的網(wǎng)絡(luò)信息資源,僅憑檔案部門的一己之力采集與保存是不夠的,更需要相關(guān)部門間的積極合作。
收集網(wǎng)頁檔案方面,應(yīng)該借鑒英國政府網(wǎng)頁檔案項目,可與國際上類似的專業(yè)網(wǎng)頁歸檔組織合作,也可與我國自有的網(wǎng)頁歸檔機(jī)構(gòu)合作,如Web Infomall——中國Web信息博物館合作,此外,我國檔案館也可以積極加入國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preser? vation Consortium),從而了解以及運(yùn)用最先進(jìn)的技術(shù),更好地對政府網(wǎng)頁檔案進(jìn)行采集、保存和利用。endprint
收集社交媒體檔案方面,我國可以積極與社交媒體平臺合作,并與其達(dá)成協(xié)議。收集屬于檔案部門歸檔范圍的,政府部門社交媒體賬號內(nèi)的信息,并定期移交給檔案館,以便提供網(wǎng)上檢索查詢服務(wù)。
(四)完善相關(guān)法律與標(biāo)準(zhǔn)
在法律方面,政府網(wǎng)頁及社交媒體歸檔保存面臨的法律問題主要有三個,即網(wǎng)絡(luò)信息的收集、保存與利用,這些問題的解決與否直接關(guān)系到政府網(wǎng)頁以及社交媒體的長遠(yuǎn)發(fā)展。目前,筆者認(rèn)為可以有兩種解決方式。一是檔案部門通過對檔案法及其實施辦法或相關(guān)法律進(jìn)行修正,建立合法呈繳制度,從法律上賦予檔案館保存與處理政府網(wǎng)頁資源及其社交媒體資源的權(quán)利。但當(dāng)前我國制定呈繳法的條件還不成熟。因此就現(xiàn)階段而言,可采用第二種方式也就是采取協(xié)商解決的方法,通過與網(wǎng)站所有者協(xié)商獲得版權(quán)所有者的許可。
在標(biāo)準(zhǔn)方面,標(biāo)準(zhǔn)是否統(tǒng)一直接影響政府網(wǎng)頁及其社交媒體的長久保存與利用,因此應(yīng)該建立統(tǒng)一的標(biāo)準(zhǔn),如統(tǒng)一的采集標(biāo)準(zhǔn)、元數(shù)據(jù)、標(biāo)準(zhǔn)數(shù)據(jù)存儲轉(zhuǎn)換格式等,從而避免因保存標(biāo)準(zhǔn)不一致而產(chǎn)生的問題。從這個角度而言,檔案部門有必要對政府網(wǎng)頁及其社交媒體保存中采集、存儲、訪問、索引與檢索階段所涉及的標(biāo)準(zhǔn)規(guī)范不斷予以研究完善,在標(biāo)準(zhǔn)制定的過程中應(yīng)優(yōu)先采用國際標(biāo)準(zhǔn)并做到與其他標(biāo)準(zhǔn)的有機(jī)銜接。
參考文獻(xiàn):
[1][5]Information on web archiving[EB/OL].[2014- 06- 05].http://www.nationalarchives.gov.uk/we? barchive/information.htm.
[2]Archiving websites[EB/OL].[2013- 04- 13].http:// webarchive.nationalarchives.gov.uk/20130413020040/ http://digitalstandards.cabinetoffice.gov.uk/archiving- web? sites/.
[3]Exposing your website to search engines[EB/ OL].[2013- 04- 13].http://webarchive.nationalarchives. gov.uk/20130413020040/http://digitalstandards.cabinetof? fice.gov.uk/exposing-your-website-to-search-engines/.
[4]Managing URLs[EB/OL].[2013-04-13].http:// webarchive.nationalarchives.gov.uk/20130413020040/ http://digitalstandards.cabinetoffice.gov.uk/managing-urls/.
[6]閆曉創(chuàng).國外Web Archive項目對我國的借鑒和啟示——以澳大利亞的PANDORA項目為例[J].檔案學(xué)研究,2012(5):79-83.
[7]陳瑜.日本國立國會圖書館網(wǎng)絡(luò)信息資源采集保存項目介紹研究[J].圖書館雜志,2014(3):91-94.endprint