曾 薩 黃新榮
(西北大學(xué)公共管理學(xué)院 西安 710127)
互聯(lián)網(wǎng)時(shí)代,社交媒體記錄了個(gè)人、組織、社會(huì)方方面面的活動(dòng),是人們社會(huì)生活的重要組成部分。社交媒體文件歸檔,不僅是保存憑證信息,更是構(gòu)建個(gè)人記憶、組織記憶、社會(huì)記憶不可或缺的內(nèi)容。社交媒體作為重要的信息生產(chǎn)平臺(tái),其文件歸檔在美國(guó)、英國(guó)、加拿大、澳大利亞等國(guó)已經(jīng)引起重視,這些國(guó)家均已開展歸檔項(xiàng)目。我國(guó)還未有社交媒體文件歸檔的實(shí)踐,具體如何操作尚處于空白狀態(tài)。相對(duì)來看,國(guó)外90年代就已經(jīng)開始網(wǎng)頁歸檔研究,國(guó)內(nèi)近幾年也開展了網(wǎng)頁歸檔項(xiàng)目,網(wǎng)頁歸檔項(xiàng)目在管理、技術(shù)、方法等方面已經(jīng)比較成熟。網(wǎng)頁歸檔和社交媒體文件歸檔,都是網(wǎng)絡(luò)信息資源長(zhǎng)期保存以及電子文件歸檔的延伸,有一定的相似性。借鑒網(wǎng)頁歸檔的經(jīng)驗(yàn),可為社交媒體文件歸檔提供可操作的方法和建議。
早在1996年,美國(guó)互聯(lián)網(wǎng)檔案館、冰島國(guó)家與大學(xué)圖書館、澳大利亞國(guó)家圖書館、埃及亞歷山大圖書館就已經(jīng)開展網(wǎng)頁歸檔項(xiàng)目,此后瑞典、新西蘭、法國(guó)、挪威等國(guó)家紛紛展開網(wǎng)頁歸檔實(shí)踐。2003年7月,IIPC[1](國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟)在法國(guó)國(guó)家圖書館正式成立。IIPC的任務(wù)是獲取、保存互聯(lián)網(wǎng)上的數(shù)據(jù),使后代可以從項(xiàng)目中獲取知識(shí)和信息,促進(jìn)全球交流與國(guó)際關(guān)系。目前IIPC共有54個(gè)成員,包括一些著名的圖書館、檔案館、聯(lián)盟、大學(xué)、商業(yè)機(jī)構(gòu)等,涵蓋全世界絕大多數(shù)高水平的網(wǎng)頁歸檔項(xiàng)目研究機(jī)構(gòu)。IIPC在網(wǎng)頁歸檔系統(tǒng)結(jié)構(gòu)、標(biāo)準(zhǔn)規(guī)范、元數(shù)據(jù)等方面建立了一系列技術(shù)規(guī)范,并資助成員機(jī)構(gòu)開發(fā)能夠?qū)崿F(xiàn)網(wǎng)絡(luò)資源采集、管理、存儲(chǔ)、利用等功能的高質(zhì)量、具有較高易用性的開源性軟件工具[2]。
中國(guó)國(guó)家圖書館是IIPC的成員機(jī)構(gòu)之一。中國(guó)目前有兩個(gè)網(wǎng)頁歸檔項(xiàng)目:Web信息博物館和網(wǎng)絡(luò)信息資源采集與保存項(xiàng)目(WIPC)。
1.2.1 Web信息博物館概況
“中國(guó)Web信息博物館”[3]是在國(guó)家973和985項(xiàng)目支持下,北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室開發(fā)建設(shè)的中國(guó)網(wǎng)頁歷史信息存儲(chǔ)與展示系統(tǒng),包括歷史網(wǎng)頁存儲(chǔ)系統(tǒng)和回放系統(tǒng)兩個(gè)部分。系統(tǒng)可以收集中國(guó)所有靜態(tài)網(wǎng)頁,并提供歷史網(wǎng)頁的存檔和回放。該系統(tǒng)主要功能有:網(wǎng)頁回放,輸入U(xiǎn)RL, 瀏覽永久保存的歷史網(wǎng)頁;歷史事件專題回放;數(shù)據(jù)分享。該系統(tǒng)以“天網(wǎng)搜索”技術(shù)為基礎(chǔ),項(xiàng)目2011年陷入停滯,首頁可訪問,但無法進(jìn)行網(wǎng)頁回放。
1.2.2 國(guó)家圖書館網(wǎng)絡(luò)信息資源采集與保存項(xiàng)目(WIPC)和網(wǎng)絡(luò)數(shù)據(jù)庫導(dǎo)航項(xiàng)目(ODBN)
中國(guó)國(guó)家圖書館網(wǎng)絡(luò)信息資源采集與保存實(shí)驗(yàn)項(xiàng)目,2003年開始,主要任務(wù)為發(fā)現(xiàn)網(wǎng)頁資源采集、存儲(chǔ)、著錄和開放利用中存在的問題,提出解決方案;確定網(wǎng)頁歸檔采集范圍和資源類型, 根據(jù)其特點(diǎn)確定技術(shù)應(yīng)用和采集策略;實(shí)驗(yàn)性收集、整理、 保存網(wǎng)頁并提供服務(wù)等[4]。WICP和ODBN是國(guó)家圖書館在進(jìn)行網(wǎng)絡(luò)信息的采集和保存時(shí),按照兩類不同網(wǎng)頁,即表層網(wǎng)頁和深層網(wǎng)頁,采取不同的整合策略形成的項(xiàng)目[5]。軟件運(yùn)用IIPC的開源軟件,WICP項(xiàng)目2015年已停止,ODBN也未有結(jié)果展現(xiàn)。
從中國(guó)兩個(gè)項(xiàng)目的情況來看,中國(guó)網(wǎng)頁歸檔項(xiàng)目開展得并不成功,無法持續(xù)提供利用,但是表層網(wǎng)頁、深層網(wǎng)頁不同的采集策略的思想仍然具有前瞻性,也為之后中國(guó)開展網(wǎng)頁歸檔和社交媒體歸檔提供經(jīng)驗(yàn)和教訓(xùn)。
網(wǎng)頁歸檔項(xiàng)目數(shù)量眾多,筆者挑選歐洲、北美洲、澳洲、亞洲等地區(qū),成立時(shí)間早、現(xiàn)在可以提供利用、影響力比較大的網(wǎng)頁歸檔項(xiàng)目,運(yùn)用文獻(xiàn)研究、瀏覽網(wǎng)站等方法,查詢項(xiàng)目的采集策略、采集工具等信息,形成典型網(wǎng)頁歸檔項(xiàng)目表(表1)。采用同樣的方法,查詢社交媒體歸檔項(xiàng)目的具體信息,形成典型社交媒體歸檔項(xiàng)目表(表 2)。
表1 典型網(wǎng)頁歸檔項(xiàng)目表
表2 典型社交媒體文件歸檔項(xiàng)目表
從這些典型的歸檔項(xiàng)目來看,社交媒體文件歸檔項(xiàng)目開始時(shí)間明顯較晚。1996年網(wǎng)頁歸檔項(xiàng)目開展,到2010年網(wǎng)頁歸檔項(xiàng)目已經(jīng)發(fā)展成熟,在采集策略、采集方法、采集標(biāo)準(zhǔn)以及軟件設(shè)計(jì)等方面都已經(jīng)形成規(guī)范,并且能夠延續(xù)至今提供利用。社交媒體文件歸檔從2010年開始陸續(xù)才有國(guó)家開始研究,雖然已經(jīng)有網(wǎng)頁歸檔作為基礎(chǔ),但是社交媒體信息具有時(shí)效性、碎片化、交互性、多媒體性等特征,傳統(tǒng)的網(wǎng)頁歸檔項(xiàng)目經(jīng)驗(yàn)、技術(shù)等不能直接應(yīng)用,現(xiàn)有的項(xiàng)目采集方法、技術(shù)研究等方面還比較稚嫩。
表3 網(wǎng)頁歸檔項(xiàng)目與社交媒體文件歸檔項(xiàng)目的簡(jiǎn)明比較
將網(wǎng)頁歸檔項(xiàng)目與社交媒體項(xiàng)目作一個(gè)簡(jiǎn)明比較(表3),可以發(fā)現(xiàn)社交媒體文件歸檔雖然也是網(wǎng)絡(luò)信息資源長(zhǎng)期保存,但是很多方面都發(fā)生了改變,采集頻率、標(biāo)準(zhǔn)、軟件等不能照搬網(wǎng)頁歸檔的經(jīng)驗(yàn)。造成這些差異的最根本的原因?yàn)樯缃幻襟w是web2.0的集中表現(xiàn),以用戶為主發(fā)布信息,其交互性、實(shí)時(shí)性、碎片化等特點(diǎn)對(duì)社交媒體文檔歸檔提出了更高的要求,因此社交媒體文件歸檔項(xiàng)目的技術(shù)水平和管理方式也與網(wǎng)頁歸檔項(xiàng)目有很大的不同。
3.1.1 制定統(tǒng)一歸檔元數(shù)據(jù)標(biāo)準(zhǔn)
元數(shù)據(jù)是網(wǎng)絡(luò)信息資源描述、組織、管理和檢索的基本解決方案,元數(shù)據(jù)和開放檔案信息系統(tǒng)(OAIS)為數(shù)字資源的長(zhǎng)期保存提供了技術(shù)層面的可行性[15]。 元數(shù)據(jù)在系統(tǒng)互操作和信息聚合方面起關(guān)鍵性作用,規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)不僅利于文件的重新整合,也有助于提供多樣化的檢索方式。國(guó)際互聯(lián)網(wǎng)保存協(xié)會(huì)定義了網(wǎng)絡(luò)存檔元數(shù)據(jù)集(IIPC Web Archiving MetadataSet)作為規(guī)范的元數(shù)據(jù)國(guó)際標(biāo)準(zhǔn)。IA項(xiàng)目沒有制定元數(shù)據(jù)標(biāo)準(zhǔn),不能提供多樣化的檢索方式。除IA 項(xiàng)目外,根據(jù)各國(guó)國(guó)情,各項(xiàng)目都規(guī)定有自己的元數(shù)據(jù)標(biāo)準(zhǔn),如:日本元數(shù)據(jù)對(duì)象描述框架、韓國(guó)都柏林?jǐn)?shù)據(jù)集、澳大利亞RDFS。
已經(jīng)開展的社交媒體歸檔項(xiàng)目元數(shù)據(jù)標(biāo)準(zhǔn)還不清晰,如:Twitter存檔項(xiàng)目,元數(shù)據(jù)只是簡(jiǎn)單的字段規(guī)定,對(duì)其他項(xiàng)目沒有參考價(jià)值;OSMA運(yùn)用的內(nèi)閣辦公室網(wǎng)頁標(biāo)準(zhǔn)是為了支持UKGWA項(xiàng)目而制定,只有部分元數(shù)據(jù)規(guī)范。Twitter、YouTube、Ins等社交媒體全世界通用,對(duì)于國(guó)際性事件或者是影響力較大的事件各國(guó)的社交媒體上都有反映,缺乏統(tǒng)一的國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn),對(duì)國(guó)際性事件的重構(gòu)就較為困難。各項(xiàng)目在參考國(guó)際標(biāo)準(zhǔn)的前提下規(guī)定自己的標(biāo)準(zhǔn),在檢索利用時(shí)借鑒圖書館領(lǐng)域元數(shù)據(jù)收割模式的整合檢索,就可以達(dá)到對(duì)國(guó)際性事件多視角、多方面重構(gòu),完整、全面了解事件的本來面貌、發(fā)展動(dòng)態(tài)。
3.1.2 合作共享
網(wǎng)頁歸檔項(xiàng)目在其發(fā)展過程中,展現(xiàn)出良好的合作意識(shí)。合作方式包括形成聯(lián)盟、共享軟件、分工協(xié)作等。
網(wǎng)頁歸檔項(xiàng)目是一個(gè)由獨(dú)立走向合作,最終形成聯(lián)盟的過程。1996年網(wǎng)頁歸檔項(xiàng)目獨(dú)立開展,2003年IIPC成立,開展網(wǎng)頁歸檔項(xiàng)目的機(jī)構(gòu)幾乎都是IIPC的成員。IIPC也建立了自己的網(wǎng)站[1],網(wǎng)站不僅可以查詢每個(gè)成員有何種項(xiàng)目,也可以查詢項(xiàng)目進(jìn)程;不僅可以了解網(wǎng)頁歸檔項(xiàng)目的概況,也可以了解IIPC最新會(huì)議、決策等,將全世界網(wǎng)頁歸檔項(xiàng)目信息匯集、共享。
網(wǎng)頁歸檔項(xiàng)目實(shí)現(xiàn)了軟件共享。IIPC網(wǎng)站提供網(wǎng)頁歸檔工具的免費(fèi)下載,軟件為開源形式,可以根據(jù)實(shí)情修改軟件源代碼適用本國(guó)需求,我國(guó)WIPC項(xiàng)目、法國(guó)國(guó)家圖書館網(wǎng)頁歸檔項(xiàng)目等都采用IIPC的工具包。軟件共享為各項(xiàng)目提供技術(shù)支持,節(jié)省了人力、物力。IIPC聯(lián)盟也資助成員國(guó)進(jìn)行軟件開發(fā),成員共享。
網(wǎng)頁歸檔項(xiàng)目注重分工協(xié)作。Pandora項(xiàng)目早期由澳大利亞圖書館獨(dú)立開展,后期為分布式合作模式,各州圖書館以及其他文化機(jī)構(gòu)都參與進(jìn)來,負(fù)責(zé)不同類型以及不同地區(qū)網(wǎng)頁的采集。為了更好的分工協(xié)作,澳大利亞、韓國(guó)等也制定了《采集指南》,規(guī)定各采集機(jī)構(gòu)的職責(zé)。此外,在IIPC的推動(dòng)下,網(wǎng)頁歸檔項(xiàng)目也不定期進(jìn)行交流,共同探討網(wǎng)頁歸檔要解決的困難和技術(shù)革新。
社交媒體文件歸檔的合作更為復(fù)雜。社交媒體往往是幾個(gè)大的平臺(tái),如Facebook、Twitter等,國(guó)內(nèi)的如新浪微博、微信等,社交媒體文件歸檔必然要與社交媒體平臺(tái)取得合作。從法律角度看,平臺(tái)授權(quán)資源收割才具有合法性,如2017年9月15日,新浪微博更新了《微博服務(wù)使用協(xié)議》,其中的第1.3條宣稱:“未經(jīng)微博平臺(tái)事先書面許可,用戶不得自行授權(quán)任何第三方使用微博內(nèi)容(微博內(nèi)容即指用戶在微博上已發(fā)布的信息,例如文字、圖片、視頻、音頻等),包括但不限于自行授權(quán)任何第三方發(fā)表、復(fù)制、轉(zhuǎn)載、更改、引用、鏈接、下載、同步或以其他方式使用部分或全部微博內(nèi)容等”[16]。在網(wǎng)絡(luò)上引起了廣泛討論。從保存社會(huì)記憶的角度來說,需要平臺(tái)積極配合,否則就喪失了記憶的重要來源。社交媒體文件歸檔技術(shù)要求更高,需要軟件公司或者科研機(jī)構(gòu)的支持。Twitter存檔項(xiàng)目美國(guó)國(guó)家圖書館將技術(shù)外包,ARCOMEM形成了跨國(guó)多組織信息采集機(jī)制,是合作的典范。隨著社交媒體的不斷發(fā)展,更需要平臺(tái)服務(wù)商、軟件公司、政府、第三方組織之間展開密切合作,保存海量的社交媒體信息,進(jìn)行數(shù)據(jù)挖掘、相關(guān)分析等,用更快、更精準(zhǔn)、更豐富的成果服務(wù)于社會(huì)。
3.2.1 采集方式
除IA項(xiàng)目外,網(wǎng)頁歸檔項(xiàng)目都是選擇性采集,針對(duì)特定的網(wǎng)站進(jìn)行有規(guī)律的捕獲,或者選定專題進(jìn)行定時(shí)采集?;谶x擇性采集策略的項(xiàng)目其原則是根據(jù)網(wǎng)絡(luò)信息資源的歷史價(jià)值、文化價(jià)值、研究?jī)r(jià)值和經(jīng)濟(jì)價(jià)值的不同,有選擇地對(duì) Web 資源進(jìn)行采集,提高了網(wǎng)絡(luò)資源的采集質(zhì)量[17]。 澳大利亞Pandora項(xiàng)目的采集方式具有代表性,只采集對(duì)未來和現(xiàn)在具有研究?jī)r(jià)值的資源,如:采集只有網(wǎng)絡(luò)版的出版物。
社交媒體由于主體多元,產(chǎn)生的信息更為龐雜,采集目標(biāo)更難確定。ARCOMEM項(xiàng)目采用“全民參與”的采集方法,由群眾展開對(duì)信息資源的征集與評(píng)價(jià),與英國(guó)UKWA網(wǎng)頁歸檔項(xiàng)目類似。這種利用者提名所要保存信息資源的方法值得社交媒體歸檔項(xiàng)目借鑒。但群眾容易盲從,采集者應(yīng)該在爭(zhēng)取群眾意見的基礎(chǔ)上,制定采集策略。
社交媒體具有多媒體性、超鏈接性,同一信息內(nèi)容有視頻、聲頻、圖片、文字等多種形式,信息量龐大且格式不統(tǒng)一,我們應(yīng)該對(duì)不同類型信息,采用不同的采集方式,以便后續(xù)的著錄和整理。
3.2.2 去重方法
網(wǎng)頁歸檔在采集過程中不可避免地產(chǎn)生復(fù)本,如不同 URL 指向同一文件內(nèi)容、多次采集的Web 內(nèi)容沒有更新或僅有少量更新[18]。韓國(guó)OASIS網(wǎng)頁歸檔項(xiàng)目針對(duì)網(wǎng)頁復(fù)本去除冗余,采用了循環(huán)冗余校驗(yàn)(CRC32)的方法,即當(dāng)系統(tǒng)采集一份資源后,會(huì)自動(dòng)將CRC32值與已有資源進(jìn)行比對(duì),如遇相同,系統(tǒng)則會(huì)通知管理員處理;日本運(yùn)用的是重復(fù)數(shù)據(jù)刪除技術(shù)(Deduplication),通過反復(fù)制器(Deduplicator)刪除重復(fù)數(shù)據(jù),來提高存儲(chǔ)空間的利用率[19]。
除上述以焙燒方式將鉬精礦轉(zhuǎn)化為高溶氧化鉬工藝技術(shù)外,濕法加壓氧化分解的方式將鉬精礦轉(zhuǎn)化為高溶氧化鉬是鉬冶煉技術(shù)研究的熱點(diǎn)之一。依據(jù)加壓氧化分解加入的物質(zhì)性質(zhì)差別,可以將鉬精礦加壓氧化分解技術(shù)分為加壓酸浸、加壓堿浸兩種類型。
社交媒體具有超鏈接性,針對(duì)一個(gè)事件有許多的轉(zhuǎn)載和評(píng)論,如江歌、劉鑫事件微博有3 000余次轉(zhuǎn)發(fā)、1萬多條評(píng)論,信息大量重復(fù)。社交媒體是否需要保存轉(zhuǎn)載和評(píng)論,每個(gè)項(xiàng)目都要有自己的考量。如果保存轉(zhuǎn)載和評(píng)論,必然會(huì)出現(xiàn)信息冗余,耗費(fèi)大量的時(shí)間、人力、物力;如果不保存轉(zhuǎn)載和評(píng)論,語境信息不完整,會(huì)喪失部分重要的背景信息,網(wǎng)友對(duì)事件的觀點(diǎn)和看法沒有被保存,內(nèi)容信息不完整。在條件匱乏的情況下,點(diǎn)贊數(shù)、轉(zhuǎn)載數(shù)和評(píng)論數(shù)作為重要的背景數(shù)據(jù),反映事件的重要程度。在技術(shù)和資金支持的情況下,評(píng)論可以和信息內(nèi)容一起保存,也可以作為背景數(shù)據(jù)與元數(shù)據(jù)一起封裝保存。轉(zhuǎn)載可以借鑒網(wǎng)頁歸檔的去冗余技術(shù),避免保存重復(fù)消息。
3.2.3 利用方式
IA項(xiàng)目是廣泛采集,并未用元數(shù)據(jù)進(jìn)行著錄,只能通過URL查詢網(wǎng)頁,檢索方式單一。大多數(shù)的網(wǎng)頁歸檔項(xiàng)目在成果開放階段都提供多樣化的檢索方式,有URL檢索、字母檢索、主題檢索、標(biāo)題導(dǎo)航、專題檢索、地域檢索甚至有元數(shù)據(jù)檢索。在可供利用的社交媒體文件歸檔項(xiàng)目中,檢索方式還比較單一。從用戶的角度出發(fā),用最簡(jiǎn)單的方式最快地找到所需要的信息才能更好地滿足用戶需求。為了更好的用戶體驗(yàn),社交媒體歸檔查詢可以在Wayback Machine的基礎(chǔ)上,將關(guān)鍵詞檢索作為主要檢索方式,以多樣化的檢索方式作為補(bǔ)充,努力實(shí)現(xiàn)多媒體檢索、智能檢索、自然語言檢索。
IA項(xiàng)目在利用網(wǎng)站上提供了申訴途徑。采集的信息內(nèi)容不在出版商或者組織對(duì)外公開的范圍,當(dāng)涉及到個(gè)人隱私時(shí),用戶可以在網(wǎng)站提出申訴,項(xiàng)目人員評(píng)估是否對(duì)此網(wǎng)頁繼續(xù)開放。這是一種必要的信息反饋,值得社交媒體文件歸檔借鑒。社交媒體如果采集重大事件,必然會(huì)涉及個(gè)人賬戶,可能會(huì)造成隱私權(quán)的侵犯,需要有一個(gè)申訴的途徑。當(dāng)然社交媒體歸檔可以對(duì)此途徑進(jìn)行優(yōu)化,成為一個(gè)良性互動(dòng)方式,用戶不僅可以申訴、評(píng)價(jià)、提出意見和建議,還可以得到項(xiàng)目的回應(yīng),項(xiàng)目組不單是判斷是否侵權(quán),也能發(fā)現(xiàn)問題,改進(jìn)項(xiàng)目。3.3 技術(shù)上的借鑒
3.3.1 軟件開發(fā)
社交媒體信息也是網(wǎng)絡(luò)資源的一種,社交媒體的軟件要求更為復(fù)雜,雖然不能直接采用網(wǎng)頁歸檔的軟件但是可以借鑒部分成果。如Arcomem Crawler是在Heritrix的基礎(chǔ)上進(jìn)行開發(fā),綜合應(yīng)用最佳信息新鮮度優(yōu)化抓取寬度與深度優(yōu)先搜索、社會(huì)網(wǎng)絡(luò)分析、智能自適應(yīng)決策支持、“語義保護(hù)” 方法等技術(shù),方可實(shí)現(xiàn)智能化的抓取[20-21]。社交媒體文件歸檔的索引和回放軟件除了主要參考Nutchwax和Wayback Machine,也可以借鑒基于Lucene 開發(fā)的開源企業(yè)級(jí)搜索平臺(tái)Apache Solr[22]和谷歌瀏覽器 Chrome 的插件Momento,可以讓用戶在使用瀏覽器進(jìn)行網(wǎng)頁瀏覽時(shí),在 Momento 內(nèi)更方便地找到當(dāng)前訪問頁面過去的版本[23]。社交媒體文件歸檔系統(tǒng)也可以參照WCT與NAS,借鑒任務(wù)管理、分布式部署以及協(xié)同工作等。當(dāng)然社交媒體歸檔的軟件還是以研發(fā)為主、借鑒為輔,需要符合社交媒體平臺(tái)以及信息的特征,需要更高的技術(shù)要求和資金支持。社交媒體相關(guān)軟件如果可以像IIPC一樣實(shí)現(xiàn)技術(shù)共享、合作開發(fā),將對(duì)社交媒體文件歸檔在大范圍內(nèi)開展起推動(dòng)作用。
3.3.2 存儲(chǔ)格式
為保存網(wǎng)頁歸檔的批量信息,IIPC在ARC格式的基礎(chǔ)上開發(fā)出WARC, 2009年成為國(guó)際標(biāo)準(zhǔn)(ISO28500:2009)。WARC 將多樣化的網(wǎng)絡(luò)資源收割結(jié)果連同相關(guān)描述信息一并整合到同一存檔文件中[26], 如詳細(xì)地記錄了HTTP 請(qǐng)求的頭信息和元數(shù)據(jù)信息,可以識(shí)別保存的資源、冗余的資源、遷移的資源和切割的資源塊[23]; WARC支持眾多協(xié)議、打包和壓縮、大容量保存。WARC可以記錄WARC文檔管理信息、資源環(huán)境信息、內(nèi)容信息、結(jié)構(gòu)信息[23]。社交媒體文件歸檔本質(zhì)上是網(wǎng)絡(luò)資源長(zhǎng)期保存,完全可以采用WARC格式,完整記錄背景數(shù)據(jù),滿足社交媒體信息多媒體特征;面向不同任務(wù)實(shí)現(xiàn)記錄重組,符合社交媒體交互性信息保存需求;對(duì)外部資源進(jìn)行組織、支持外部檢索,滿足社交媒體超鏈接性以及由此帶來的檢索需求;支持對(duì)資源的遷移,以實(shí)現(xiàn)社交媒體信息多年后重新提取利用。
社交媒體信息具有動(dòng)態(tài)性、碎片化、交互性、跨平臺(tái)性、多媒體性、即時(shí)性,比網(wǎng)頁歸檔更為復(fù)雜。在進(jìn)行社交媒體歸檔時(shí)需要克服更多困難,才能長(zhǎng)時(shí)間保存資源、提供利用、減少糾紛。
社交媒體文件歸檔需要多方合作以及雄厚的資金支持。如果只是僅僅借鑒網(wǎng)頁歸檔項(xiàng)目的管理方式,還達(dá)不到深度合作以及雄厚的資金支持。社交媒體歸檔要真正得到重視,需要國(guó)家相關(guān)部門牽頭。社交媒體平臺(tái)數(shù)量有限但是規(guī)模大,國(guó)家相關(guān)部門應(yīng)做好頂層設(shè)計(jì)和規(guī)劃,避免項(xiàng)目重復(fù)開展以及資源重復(fù)收集;要加強(qiáng)元數(shù)據(jù)標(biāo)準(zhǔn)的制定,推動(dòng)國(guó)際標(biāo)準(zhǔn)的規(guī)范,方便各國(guó)開展交流,減少信息孤島;要注意協(xié)調(diào)平臺(tái)提供商、第三方組織、軟件公司之間的利益關(guān)系,推動(dòng)分工合作以及責(zé)任落實(shí);主動(dòng)爭(zhēng)取財(cái)政支持,使社交媒體歸檔技術(shù)研發(fā)等無后顧之憂。
社交媒體文件歸檔對(duì)網(wǎng)頁歸檔的反思主要是鑒定方式。舍恩伯格在《刪除》[25]一書中曾說,遺忘是人類的常態(tài),記憶是例外。在數(shù)字領(lǐng)域類模仿人類的遺忘的可能方法之一是把存儲(chǔ)在數(shù)字化記憶中的信息和一個(gè)存儲(chǔ)期限相關(guān)聯(lián),提醒我們面對(duì)信息在時(shí)間上的有限性。把信息設(shè)置存儲(chǔ)期限,就是價(jià)值鑒定。網(wǎng)頁歸檔挑選固定站點(diǎn)進(jìn)行收割,一般為政府網(wǎng)站、學(xué)校網(wǎng)站或者知名網(wǎng)站,這些信息更具長(zhǎng)期保存價(jià)值。社交媒體主體相對(duì)于網(wǎng)頁歸檔價(jià)值鑒定更加復(fù)雜,社交媒體多元參與,一條信息涉及多種主體、多條評(píng)論和轉(zhuǎn)發(fā),難以確定收割對(duì)象及其保存價(jià)值。社交媒體信息十分龐大,如果不進(jìn)行對(duì)象篩選和價(jià)值鑒定,即使是壓縮保存也需要很大的保存空間。如果需要進(jìn)行價(jià)值鑒定,如何判定價(jià)值又成為一個(gè)問題,如針對(duì)江歌、劉鑫案件,企業(yè)微信公眾號(hào)、個(gè)人大V等都有發(fā)聲,哪些應(yīng)該被保存,保存多久,都值得思考。如果要進(jìn)行真實(shí)性鑒定,社交媒體圖片經(jīng)過PS等合成技術(shù)合成的很多,逐一鑒定需要耗費(fèi)巨大的財(cái)力和人力。社交媒體文件歸檔在項(xiàng)目開始前就應(yīng)有規(guī)劃:是否進(jìn)行鑒定、進(jìn)行哪方面的鑒定、如何進(jìn)行鑒定等。
4.3.1 動(dòng)態(tài)網(wǎng)頁捕獲問題
網(wǎng)頁歸檔采集的都是靜態(tài)網(wǎng)頁,并不能采集動(dòng)態(tài)網(wǎng)頁資源。為了更加全面的保存網(wǎng)頁信息,網(wǎng)頁歸檔項(xiàng)目做了一些嘗試:我國(guó)ODBN項(xiàng)目基于鏈接技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫的分類導(dǎo)航,可以實(shí)現(xiàn)5 000個(gè)數(shù)據(jù)庫的檢索,但后期并未呈現(xiàn)成果;法國(guó)國(guó)家圖書館(BnF)挑選網(wǎng)站并與版權(quán)所有者達(dá)成協(xié)議,由版權(quán)所有者資源通過FTP或者是實(shí)體介質(zhì)(CD或DVD)呈繳給BnF,之后工作人員對(duì)這些資源進(jìn)行校驗(yàn)并添加元數(shù)據(jù)[26],但這種人工采集著錄的方式十分低效,后期開發(fā)了DeepArc,將關(guān)系型數(shù)據(jù)庫導(dǎo)出為XML模式; Pandora項(xiàng)目針對(duì)深層網(wǎng)頁研發(fā)出Xinq工具,但也只是將數(shù)據(jù)放到通用接口。
社交媒體需要用戶登陸進(jìn)行身份驗(yàn)證,需要關(guān)注其他賬號(hào)才能獲取信息,是一種簡(jiǎn)單的動(dòng)態(tài)網(wǎng)頁。Twitter存檔項(xiàng)目前期由于平臺(tái)主動(dòng)捐贈(zèng)信息,直接跳過了資源采集階段,無需收割軟件,這種合作機(jī)制一定程度上可以解決動(dòng)態(tài)網(wǎng)頁的問題。ARCOMEMCrawler 采用基于 RESTAPI 的應(yīng)用程序接口技術(shù)獲取來自Twitter、Facebook、Flickr、Google+ 、YouTube 等社交媒體的信息[27],并通過App Key復(fù)用方法與多線程采集方法的結(jié)合使用實(shí)現(xiàn)捕獲的社交媒體信息 URLs的序列管理[28]。ARCOMEM項(xiàng)目實(shí)現(xiàn)了技術(shù)的突破,克服了動(dòng)態(tài)網(wǎng)頁的障礙,通過線上過程、線下過程、交叉采集實(shí)現(xiàn)對(duì)社交媒體信息的采集。社交媒體文件歸檔如果要可持續(xù)進(jìn)行,必然要借鑒這種技術(shù),或者研發(fā)新技術(shù),實(shí)現(xiàn)動(dòng)態(tài)網(wǎng)頁的捕獲,并加快網(wǎng)頁歸檔的進(jìn)程。
4.3.2 新技術(shù)的利用問題
社交媒體歸檔數(shù)據(jù)十分龐大,傳統(tǒng)的光盤和磁介質(zhì)存儲(chǔ)已經(jīng)不能滿足存儲(chǔ)需求,谷歌、亞馬遜、阿里巴巴、騰訊、百度等公司提供云計(jì)算、云存儲(chǔ)服務(wù),社交媒體文件歸檔可以租賃上述公司提供的云服務(wù)。檔案館或者圖書館運(yùn)用云存儲(chǔ)技術(shù)不但可以使海量信息有處可存,也可以避免大量投入資金購買設(shè)備和技術(shù)。
社交媒體文件歸檔需要采集軟件進(jìn)行不間斷的采集,大量的積累性數(shù)據(jù)為數(shù)據(jù)挖掘提供了無限可能。英國(guó)網(wǎng)頁歸檔項(xiàng)目利用數(shù)據(jù)挖掘技術(shù)提供三項(xiàng)可視化服務(wù): 為 Web Archive中的短語或詞生成 N-Gram、標(biāo)簽云和3D 墻[29]。此外,社交媒體信息具有動(dòng)態(tài)性、交互性、碎片化特征,同一社會(huì)事件的多條不同類型的消息及時(shí)匯集才能拼湊出全貌。只有運(yùn)用數(shù)據(jù)挖掘工具對(duì)大量零散數(shù)據(jù)進(jìn)行相關(guān)分析,制定社交媒體事件專題,才能為用戶提供更加便捷的利用,節(jié)約用戶時(shí)間和精力,更好地輔助決策,為社交媒體信息賦予更大的價(jià)值。
國(guó)外網(wǎng)頁歸檔項(xiàng)目都有法律支持,版本法、呈繳法以及圖書館法規(guī)定在線出版物以及網(wǎng)絡(luò)出版物的呈繳問題、規(guī)定圖書館收割公共信息的權(quán)利,而國(guó)內(nèi)網(wǎng)頁信息資源的呈繳缺乏法律支持。社交媒體文件主體多元,如果公共檔案館、圖書館對(duì)本地區(qū)大事件進(jìn)行采集,必然會(huì)涉及政務(wù)微博、企業(yè)微博、知名微信公眾號(hào)、大V等的微博、微信,采集需要取得主體同意。對(duì)政務(wù)微博、政務(wù)微信進(jìn)行采集,評(píng)論也是重要的組成部分,但評(píng)論是個(gè)人信息,需要征求個(gè)人同意。如果逐個(gè)爭(zhēng)取賬號(hào)同意,費(fèi)時(shí)費(fèi)力??梢酝ㄟ^“信息自決權(quán)”的方式,由信息的發(fā)布者決定其發(fā)布在社交媒體的信息是否要保存、公開,存儲(chǔ)期限是多久,來解決版權(quán)和個(gè)人隱私的保護(hù)問題。
社交媒體信息的時(shí)效性、交互性、多媒體性、超鏈接性、多元性、即時(shí)性等特征決定了它雖然與網(wǎng)頁歸檔同是網(wǎng)絡(luò)資源長(zhǎng)期保存,但是卻不同于網(wǎng)頁歸檔。雖然歸檔流程相似,社交媒體歸檔可以借鑒網(wǎng)頁歸檔的相關(guān)管理、技術(shù)經(jīng)驗(yàn),但絕不是復(fù)制經(jīng)驗(yàn)。社交媒體文件歸檔需要更加廣泛以及深入的機(jī)構(gòu)間合作、更加高端的技術(shù)支持、更加完備的法律規(guī)范、更加優(yōu)化的歸檔流程以及更多民眾的配合,才能處理好復(fù)雜的主體關(guān)系、有序采集海量信息、提供便捷高效的利用。
(來稿時(shí)間:2018年1月)