邢變變 孫大東
摘要:網(wǎng)絡(luò)信息歸檔是檔案部門必須要面對的新課題。在組織實(shí)施過程中,網(wǎng)絡(luò)信息的歸檔可借鑒名人檔案和重大活動檔案的理念和方法,根據(jù)網(wǎng)絡(luò)信息的特點(diǎn),采取垂直模式、平行模式或交叉模式確定歸檔網(wǎng)絡(luò)信息的范圍和內(nèi)容。在具體操作過程中,利用網(wǎng)絡(luò)爬蟲搜集和人工采集、選擇相結(jié)合的方式實(shí)現(xiàn)網(wǎng)絡(luò)信息歸檔的目的。
關(guān)鍵詞:網(wǎng)絡(luò)信息歸檔歸檔模式網(wǎng)絡(luò)爬蟲
Abstract: The network information archiving is a new subject which the archives departments need to face. In organization and implementation process, filing the information network can draw lessons from archives of celebrities and major activ? ity profiles of the philosophy and practice, accord? ing to the characteristics of information network, take vertical mode, parallel mode or cross mode de? termine the scope and content of network informa? tion archiving.In the process of concrete operation, the purpose of network information archiving can be realized by using the combination of web crawl? er collection with artificial collection and selection.
Keywords:Archiving of network information; Ar? chive mode; Web crawler
一、研究背景及思路
隨著我國互聯(lián)網(wǎng)的發(fā)展,越來越多的國家機(jī)關(guān)、企事業(yè)單位以及個(gè)人通過網(wǎng)絡(luò)履行職能、開展工作。2014年5月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于加強(qiáng)和改進(jìn)新形勢下檔案工作的意見》,要求加大檔案收集整理力度,并特別強(qiáng)調(diào):“縣級以上各級檔案行政管理部門要加強(qiáng)對檔案收集整理工作的監(jiān)督指導(dǎo),特別是對重點(diǎn)工作、重大活動、重大建設(shè)項(xiàng)目、重大科研項(xiàng)目、重大生態(tài)保護(hù)項(xiàng)目以及新領(lǐng)域、新專業(yè)、新機(jī)構(gòu)、新社會組織等,要監(jiān)督指導(dǎo)有關(guān)方面及時(shí)建立檔案工作制度?!盵1]其中,新領(lǐng)域包括互聯(lián)網(wǎng)等新型媒體。按照要求,網(wǎng)絡(luò)信息的歸檔將成為檔案收集的重要部分。
20世紀(jì)90年代,國外許多國家就對網(wǎng)絡(luò)信息歸檔進(jìn)行過相關(guān)研究,如英國政府網(wǎng)絡(luò)檔案項(xiàng)目、加拿大政府網(wǎng)絡(luò)檔案項(xiàng)目等。從研究內(nèi)容看,國外相關(guān)研究主要集中在對網(wǎng)絡(luò)信息歸檔工作的流程和環(huán)節(jié)、網(wǎng)絡(luò)信息歸檔項(xiàng)目的評價(jià)與保障上。我國網(wǎng)絡(luò)信息歸檔工作于21世紀(jì)初才開始,如中國Web信息博物館項(xiàng)目和中國國家圖書館的中文網(wǎng)絡(luò)資源收集和保存項(xiàng)目。其研究內(nèi)容包括:國內(nèi)外相關(guān)項(xiàng)目的介紹和評價(jià)、網(wǎng)絡(luò)信息保存的責(zé)任主體以及網(wǎng)絡(luò)信息的采集、保存、訪問與使用等。從研究主體看,“在各國開展的網(wǎng)絡(luò)信息資源保存項(xiàng)目中,國家圖書館以及大學(xué)圖書館發(fā)揮了重要的主導(dǎo)作用,成為主要實(shí)施者?!盵2]因此,目前已有的研究成果大多是從信息、情報(bào)等角度展開,即使是研究成果較多的仇壯麗和馮湘君兩位檔案學(xué)者,仍側(cè)重于信息、情報(bào)等角度。從實(shí)踐來看,目前少數(shù)檔案部門正在開展網(wǎng)絡(luò)信息歸檔的試點(diǎn)工作,相關(guān)經(jīng)驗(yàn)并不成熟。鑒于此,本文從網(wǎng)絡(luò)信息收集鑒定的要求和方法出發(fā),考慮到檔案館(室)的實(shí)際工作以相應(yīng)單位、個(gè)人等檔案形成和利用主體為具體對象的特征,結(jié)合網(wǎng)絡(luò)信息的發(fā)布主體以及內(nèi)容等特征,提出借鑒名人檔案和重大活動檔案的理念和方法,據(jù)此確定網(wǎng)絡(luò)信息歸檔范圍和內(nèi)容的工作模式,選擇科學(xué)合理的收集方法。其具體架構(gòu)如圖1所示。
二、網(wǎng)絡(luò)信息歸檔的價(jià)值基礎(chǔ)
網(wǎng)絡(luò)信息歸檔首先要考慮的是價(jià)值選擇問題。對于網(wǎng)絡(luò)信息歸檔來說,相關(guān)主體應(yīng)有選擇性地將具有長期保存價(jià)值的網(wǎng)絡(luò)信息進(jìn)行歸檔保存,以滿足相關(guān)主體的網(wǎng)絡(luò)信息需求。
(一)法規(guī)層面:結(jié)合直接鑒定法和職能鑒定法確定網(wǎng)絡(luò)信息的價(jià)值
1.從歸檔對象的范圍來看,法律對其歸檔對象的范圍是有限制的。因此,可以將直接鑒定法和職能鑒定法相結(jié)合,對其價(jià)值進(jìn)行鑒定后再確定歸檔對象的范圍?!吨腥A人民共和國檔案法》(簡稱《檔案法》)第二條明確規(guī)定:“檔案,是指過去和現(xiàn)在的國家機(jī)構(gòu)、社會組織以及個(gè)人從事政治、軍事、經(jīng)濟(jì)、科學(xué)、技術(shù)、文化、宗教等活動直接形成的對國家和社會有保存價(jià)值的各種文字、圖表、聲像等不同形式的歷史記錄?!盵3]從價(jià)值因素考量,“對國家和社會有保存價(jià)值”的歷史記錄才有可能作為檔案保存下來,相反,對國家和社會沒有保存價(jià)值的歷史記錄則無需歸檔保存。第十條規(guī)定:“國家規(guī)定不得歸檔的材料,禁止擅自歸檔。”[4]可見,法律對歸檔對象的范圍是有限制的,超出范圍限制的歸檔行為是被《檔案法》所禁止的。網(wǎng)絡(luò)信息的歸檔亦如此,“對國家和社會有保存價(jià)值”的網(wǎng)絡(luò)信息應(yīng)歸檔保存,此外的網(wǎng)絡(luò)信息則無需甚至不得歸檔保存。就其方法來說,將直接鑒定法和職能鑒定法相結(jié)合對其價(jià)值鑒定,即按照網(wǎng)絡(luò)信息內(nèi)容的重要程度和單位職能的重要性程度進(jìn)行判斷。
2.確定網(wǎng)絡(luò)信息的價(jià)值后,需按相關(guān)規(guī)定確定開展網(wǎng)絡(luò)信息歸檔的主體及其職責(zé)?!稒n案館工作通則》第六條規(guī)定了檔案館接收檔案的范圍,即“本級各機(jī)關(guān)、團(tuán)體及其所屬單位具有永久保存價(jià)值的檔案,省轄市(州、盟)和縣級檔案館同時(shí)接收長期保存的檔案。”[5]《機(jī)關(guān)檔案工作條例》規(guī)定:“凡機(jī)關(guān)工作活動中形成的具有保存價(jià)值的文件材料(包括黨、政、工、團(tuán)以及人事、保衛(wèi)、財(cái)會等工作中形成的文件材料),均由文書部門或業(yè)務(wù)部門進(jìn)行整理、立卷,并定期向檔案部門歸檔?!盵6]對于網(wǎng)絡(luò)信息的歸檔來說,一方面應(yīng)主要由檔案室對與本單位職能相關(guān)且對本單位具有保存價(jià)值的網(wǎng)絡(luò)信息進(jìn)行歸檔保存,然后按規(guī)定移交各級國家檔案館;另一方面各級國家檔案館也可借助一定技術(shù)手段,收集屬于本館主管范圍之內(nèi)的各單位與其職能相關(guān)且“對國家和社會有保存價(jià)值”的網(wǎng)絡(luò)信息。
(二)工作層面:進(jìn)行收集鑒定
歸檔首先解決的是價(jià)值鑒定問題。與網(wǎng)絡(luò)信息歸檔相關(guān)的是收集鑒定。收集鑒定主要通過判定檔案的保存價(jià)值確定其存毀,即將有保存價(jià)值的作為檔案歸檔保存,沒有保存價(jià)值的則排除在外,同時(shí)為歸檔保存的檔案劃定保管期限。由于收集鑒定直接決定著文件的存毀,決定著檔案的保管期限并最終影響到檔案的生命,因此收集鑒定有嚴(yán)格的制度規(guī)范和嚴(yán)密的程序方法。對檔案館(室)的網(wǎng)絡(luò)信息歸檔而言,首先需制定相應(yīng)的歸檔范圍和保管期限表,制定方法可借鑒“文件歸檔類目及保管期限表”,即“把歸檔范圍和保管期限及分類列成‘三結(jié)合詳表,再附一張‘不歸檔文件范圍和處置辦法。”[7]其次對其進(jìn)行歸檔鑒定。這項(xiàng)工作主要由檔案館(室)的工作人員負(fù)責(zé)。由本單位的其他部門按照歸檔范圍和保管期限表定期向檔案館(室)移交網(wǎng)絡(luò)信息檔案,然后由檔案工作人員就材料的完整性、質(zhì)量和保管期限劃分等進(jìn)行歸檔檢查。最后結(jié)合整理工作進(jìn)行復(fù)查鑒定。網(wǎng)絡(luò)信息歸檔后,檔案館(室)工作人員需按照相應(yīng)制度規(guī)范對其整理。歸檔工作時(shí)間較為集中、工作量較大,因此需要在整理工作中進(jìn)行復(fù)查鑒定,主要包括檢查有無缺漏和有無重復(fù)。
三、網(wǎng)絡(luò)信息歸檔的模式選擇
(一)依據(jù)
網(wǎng)絡(luò)信息數(shù)量大、更新快、生命周期短,使得網(wǎng)絡(luò)信息的歸檔難度較大,因此只有選擇科學(xué)、合理的歸檔模式,才能使網(wǎng)絡(luò)信息歸檔工作更具可操作性。如何選擇科學(xué)、合理的歸檔模式?筆者認(rèn)為可以參考名人檔案和重大活動檔案在歸檔管理上的經(jīng)驗(yàn)。
1.從理論上說,名人檔案和重大活動檔案的歸檔模式可以應(yīng)用到網(wǎng)絡(luò)信息歸檔上。其中,名人檔案以人為基本管理單位,重大活動檔案以事為基本管理單位。名人檔案是指國內(nèi)外各領(lǐng)域的著名人物在其各種社會實(shí)踐活動中形成的檔案的集合。它具有較高的保存利用價(jià)值?!懊藱n案除反映名人生平事跡的歷史外,也在一定程度上反映社會、政治、經(jīng)濟(jì)、文化生活的歷史,是研究名人歷史、撰寫名人傳記、編輯名人文集、舉辦名人事跡展覽等的必要條件和依據(jù),對于研究社會歷史也有重要參考價(jià)值?!盵8]在名人檔案的收集過程中,確定名人的入庫范圍和對象是首要考慮解決的問題。根據(jù)《廣東省名人檔案管理辦法》《云南省名人檔案管理辦法》等規(guī)定,入庫名人的范圍具體確定標(biāo)準(zhǔn)包括職務(wù)級別、名譽(yù)聲望、成就貢獻(xiàn)、社會影響等指標(biāo)。名人檔案的收集內(nèi)容是將名人在各種社會實(shí)踐活動中的相關(guān)資料盡量收集齊全。重大活動檔案是指在重大活動中直接形成的檔案的集合。重大活動在某一單位發(fā)展過程中具有重要地位和影響,這也決定了重大活動檔案的更大價(jià)值?!爸卮蠡顒訖n案是反映一個(gè)地區(qū)、一個(gè)時(shí)期經(jīng)濟(jì)社會發(fā)展重要軌跡的真實(shí)記錄,具有極其重要的現(xiàn)實(shí)和歷史價(jià)值。”[9]重大活動檔案的收集首先需要解決的問題也是入庫范圍的確定。根據(jù)《山東省重大活動檔案管理辦法》《云南省重大活動檔案管理辦法》的相關(guān)規(guī)定,入庫重大活動范圍的確定標(biāo)準(zhǔn)包括活動主辦和承辦單位的行政級別、活動參加人員的職務(wù)級別和社會影響力、活動的規(guī)模和影響、活動內(nèi)容的重要程度等。并且重大活動檔案的收集內(nèi)容也以齊全完整為基本要求。
如前文所述,歸檔本質(zhì)上就是價(jià)值選擇的過程,歸檔的過程就是取舍的過程。對于網(wǎng)絡(luò)信息歸檔來說,特別是對其價(jià)值判定時(shí),會按照網(wǎng)絡(luò)信息內(nèi)容的重要程度和單位職能的重要性程度進(jìn)行判斷,這與名人檔案和重大活動檔案基于“重要程度”的價(jià)值考量是一致的,因此名人檔案和重大活動檔案的歸檔模式可以應(yīng)用到網(wǎng)絡(luò)信息歸檔上。
2.從實(shí)踐上說,名人檔案和重大活動檔案已有的相對成熟的歸檔管理模式,可以借鑒到網(wǎng)絡(luò)信息歸檔上。全國許多省市檔案館都出臺了名人檔案和重大活動檔案的管理辦法,對其歸檔范圍和歸檔內(nèi)容等也有較為詳細(xì)的規(guī)定。如《廣東省名人檔案管理辦法》將入庫名人的范圍細(xì)化為十類,每一類都規(guī)定了相應(yīng)的具體標(biāo)準(zhǔn)。[10]《山東省重大活動檔案管理辦法》將重大活動細(xì)分為九類。[11]因此,在制定《網(wǎng)絡(luò)信息歸檔類目及保管期限表》和《不歸檔網(wǎng)絡(luò)信息范圍和處置辦法》中,檔案工作人員可借鑒名人和重大活動入庫范圍的具體標(biāo)準(zhǔn)確定歸檔網(wǎng)絡(luò)信息的范圍和不歸檔網(wǎng)絡(luò)信息的范圍,甚至可借鑒名人檔案和重大活動檔案的內(nèi)容分類方法制定歸檔網(wǎng)絡(luò)信息的類目表。
(二)具體模式
1.垂直模式是指參照名人檔案的理念與方法,確定歸檔網(wǎng)絡(luò)信息所在的網(wǎng)絡(luò)媒體,然后參照重大活動檔案的理念與方法,確定將要?dú)w檔的、存在于相應(yīng)網(wǎng)絡(luò)媒體中的網(wǎng)絡(luò)信息內(nèi)容。這一模式適用于博客、微博和微信等新媒體。新媒體創(chuàng)辦主體數(shù)量眾多,任何具備一定設(shè)備和技術(shù)條件的個(gè)人或組織機(jī)構(gòu)均可創(chuàng)辦,而且其承載的網(wǎng)絡(luò)信息量巨大,不可能也沒有必要將所有網(wǎng)絡(luò)信息歸檔保存。從創(chuàng)辦主體來看,博客、微博、微信等新媒體均以個(gè)人或組織機(jī)構(gòu)為單位,因此其入庫范圍可借鑒名人檔案的收集方法,選擇具有名人效應(yīng)的個(gè)人或組織機(jī)構(gòu)創(chuàng)辦的博客、微博等作為網(wǎng)絡(luò)信息收集歸檔的主要來源。其次,確定入庫范圍后,需要考慮網(wǎng)絡(luò)信息的歸檔范圍和內(nèi)容。可借鑒重大活動檔案收集的方法,選擇具有重大活動效應(yīng)的相關(guān)信息歸檔保存,其他信息則無需歸檔。需要注意的是,一是創(chuàng)辦者在博客、微博、微信等發(fā)布的信息既有原創(chuàng)信息又有非原創(chuàng)信息,由于檔案是原始記錄性信息,因此在具體的歸檔過程中,應(yīng)以創(chuàng)辦者的原創(chuàng)信息為主,將原創(chuàng)評論納入歸檔范圍。二是名人的博客、微博、微信等內(nèi)容龐雜、信息體量巨大,信息價(jià)值大小不一,需要對網(wǎng)絡(luò)信息進(jìn)行收集鑒定工作。
2.平行模式是指分別參照名人檔案和重大活動檔案的方法,確定歸檔網(wǎng)絡(luò)信息的范圍和內(nèi)容,這種模式主要適用于組織機(jī)構(gòu)主辦的門戶網(wǎng)站。對于某一具體的組織機(jī)構(gòu)而言,與其職能活動相關(guān)的網(wǎng)絡(luò)信息主要通過門戶網(wǎng)站發(fā)布。其中,由組織機(jī)構(gòu)中的個(gè)人參與或與之相關(guān)的網(wǎng)絡(luò)信息可借鑒名人檔案的收集方法確定入庫范圍和歸檔內(nèi)容,由本機(jī)構(gòu)或內(nèi)部各機(jī)構(gòu)主辦、承辦的各種活動或與之相關(guān)的網(wǎng)絡(luò)信息可借鑒重大活動檔案的收集方法確定入庫范圍和歸檔內(nèi)容。
3.交叉模式是指將名人檔案和重大活動檔案的方法相結(jié)合,確定歸檔網(wǎng)絡(luò)信息的歸檔范圍和內(nèi)容,這種模式適用于綜合性網(wǎng)站。對于某一具體的組織機(jī)構(gòu)或個(gè)人而言,與其相關(guān)的信息也可能出現(xiàn)在綜合性網(wǎng)站上。以相應(yīng)的組織機(jī)構(gòu)或個(gè)人為標(biāo)準(zhǔn),綜合性網(wǎng)站與之相關(guān)的網(wǎng)絡(luò)信息可分為兩類:一類是只與該組織機(jī)構(gòu)或個(gè)人有關(guān)的網(wǎng)絡(luò)信息。與組織機(jī)構(gòu)有關(guān)的需按照重大活動檔案收集的方法確定入庫范圍和歸檔內(nèi)容,與個(gè)人有關(guān)的需按照名人檔案收集的方法確定入庫范圍和歸檔內(nèi)容。另一類是該組織機(jī)構(gòu)或個(gè)人作為部分參與相關(guān)活動的網(wǎng)絡(luò)信息。此類信息需分情況考慮:一是某一名人或組織機(jī)構(gòu)只參與了活動的某一階段,則只需重點(diǎn)收集該階段與相應(yīng)人士或組織機(jī)構(gòu)有關(guān)的網(wǎng)絡(luò)信息;二是全程參與,如果參與的是名人則需要全面收集與該項(xiàng)活動相關(guān)的網(wǎng)絡(luò)信息,如果參與的是組織機(jī)構(gòu)則需確定其是否具有重大活動效應(yīng),如果有則全面歸檔,沒有則無需歸檔。
四、網(wǎng)絡(luò)信息歸檔的方法選擇
(一)網(wǎng)絡(luò)爬蟲搜集
網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則、自動抓取互聯(lián)網(wǎng)信息的程序,它分為聚焦爬蟲和通用爬蟲。其中,聚焦爬蟲是一種基于目標(biāo)數(shù)據(jù)模式的搜索引擎,作為自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇地訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲不同的是,聚焦爬蟲并不追求大面積的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源??紤]到網(wǎng)絡(luò)信息歸檔工作會具體細(xì)化到本組織機(jī)構(gòu)的其他單位,檢索目標(biāo)會更細(xì)致、更明確,筆者認(rèn)為,聚焦爬蟲應(yīng)作為網(wǎng)絡(luò)信息歸檔的主要技術(shù)工具。
(二)人工采集和選擇
受自身功能的限制,網(wǎng)絡(luò)爬蟲搜集到的網(wǎng)絡(luò)信息一是不一定完全符合歸檔的要求。例如,聚焦爬蟲所搜集到的網(wǎng)絡(luò)信息可能不符合歸檔要求和范圍,可能會將對國家和社會無保存價(jià)值的信息也收集起來。二是有可能遺漏應(yīng)歸檔的網(wǎng)絡(luò)信息。例如,聚焦爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略,這樣很可能造成符合歸檔要求的、本應(yīng)歸檔的網(wǎng)絡(luò)信息因?yàn)闆]有自動搜索到而遺漏歸檔。為保證檔案的齊全完整,筆者建議采用人工方式補(bǔ)充采集。檔案工作人員需根據(jù)《網(wǎng)絡(luò)信息歸檔類目及保管期限表》《不歸檔網(wǎng)絡(luò)信息范圍和處置辦法》對網(wǎng)絡(luò)爬蟲搜集到的網(wǎng)絡(luò)信息進(jìn)行鑒定,符合歸檔類目的網(wǎng)絡(luò)信息按照保管期限表劃定保管期限歸檔保存,不屬于歸檔網(wǎng)絡(luò)信息范圍的按照相應(yīng)處置辦法處置。同時(shí),檔案工作人員還需對照網(wǎng)絡(luò)信息歸檔類目,補(bǔ)充收集網(wǎng)絡(luò)爬蟲可能遺漏的、屬于歸檔類目范圍的網(wǎng)絡(luò)信息,并為其劃定保管期限。
注釋及參考文獻(xiàn):
[1]中共中央辦公廳、國務(wù)院辦公廳.關(guān)于加強(qiáng)和改進(jìn)新形勢下檔案工作的意見[EB/OL].[2015-05-22]. http://www.zgdazxw.com.cn/news/2014-05/05/con? tent_45061.htm.
[2]趙展春.網(wǎng)絡(luò)信息資源歸檔保存的責(zé)任主體研究[J].檔案,2014(9):20-24.
[3][4]國務(wù)院.中華人民共和國檔案法[EB/OL].[2015- 05- 22].http://tclgb.taicang.gov.cn/art/2011/10/ 27/art_5214_131984.html.
[5]國家檔案局.檔案館工作通則[EB/OL].
[2015- 05- 22].http://www.zjj.gov.cn/govmach/ daj/2011112461803.shtml.
[6]國家檔案局.機(jī)關(guān)檔案工作條例[EB/OL].
[2015-05-22].http://www.gl.gov.cn/Site/dag/Arti? cleShow.aspx?articleid=274182.
[7]葛荷英.檔案鑒定——理論與方法[M].北京:中國檔案出版社,2002:262.
[8]檔案學(xué)編纂委員會.中國大百科全書檔案學(xué)分冊[M].北京:中國大百科全書出版社,1993:231-232.
[9]徐潔.談重大活動檔案資源的共建共享[J].黑龍江檔案,2014(1):72.
[10]廣東省人民政府.廣東省名人檔案管理辦法[EB/OL].
[2015- 05- 22].http://www.law- lib.com/lawhtm/ 1996/28380.htm.
[11]山東省人民政府.山東省重大活動檔案管理辦法[J].山東檔案,2012(1):54-55.
作者單位:1.中國人民大學(xué)信息資源管理學(xué)院
2.鄭州大學(xué)信息管理學(xué)院