趙增和
(天津市靜??h圖書館,天津 301600)
網(wǎng)絡(luò)信息資源是指通過計(jì)算機(jī)網(wǎng)絡(luò)可以利用的各種信息資源的總和,即所有以電子數(shù)據(jù)形式把文字、圖像、聲音、動(dòng)畫等多種形式的信息存儲(chǔ)在光、磁等非紙介質(zhì)的載體中,并通過網(wǎng)絡(luò)通信、計(jì)算機(jī)或終端等方式再現(xiàn)出來的資源。與其他信息資源相比,網(wǎng)絡(luò)信息資源具有以下特點(diǎn):(1)數(shù)量巨大。網(wǎng)絡(luò)信息資源尤其是internet環(huán)境下的信息資源分布廣泛,存在政府、研究結(jié)構(gòu)、大學(xué)、公司、社會(huì)團(tuán)體、個(gè)人等網(wǎng)頁中。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2013年12月,我國域名總數(shù)為1 844萬,網(wǎng)站總數(shù)為320萬個(gè),比2012年同期增長19.4%。 網(wǎng)頁數(shù)量為1 500億個(gè),相比2012年同期增長了22.2%。2013年中國單個(gè)網(wǎng)站的平均網(wǎng)頁數(shù)和單個(gè)網(wǎng)頁的平均字節(jié)數(shù)均維持增長,平均網(wǎng)站的網(wǎng)頁數(shù)達(dá)到4.69萬個(gè),較2012年同期增長2.3%,平均每個(gè)網(wǎng)頁的字節(jié)數(shù)為50 KB,增長19.0%。我國域名總數(shù)、網(wǎng)站數(shù)、網(wǎng)頁數(shù)等呈現(xiàn)明顯的增長態(tài)勢,表明我國網(wǎng)絡(luò)信息的發(fā)展態(tài)勢良好,極大豐富了網(wǎng)絡(luò)信息資源的類型和數(shù)量。(2)信息質(zhì)量的良莠不齊。網(wǎng)絡(luò)信息發(fā)布的隨意性以及缺乏必要的質(zhì)量控制和管理體制,導(dǎo)致網(wǎng)絡(luò)信息質(zhì)量可靠性降低。網(wǎng)絡(luò)中存有學(xué)術(shù)價(jià)值高、內(nèi)容新穎的信息資源,是人們在生產(chǎn)、生活、學(xué)習(xí)、工作中可以參考利用的信息資源。隨著博客、微博、微信的興起,互聯(lián)網(wǎng)已成為全民“織網(wǎng)”的天地,網(wǎng)民不僅是網(wǎng)絡(luò)信息的獲取者,更是網(wǎng)絡(luò)信息的發(fā)布者。一些思想內(nèi)容不健康的垃圾網(wǎng)絡(luò)信息堆積在網(wǎng)絡(luò)環(huán)境中,腐蝕人們的心靈,而大量有價(jià)值的網(wǎng)絡(luò)信息卻因網(wǎng)絡(luò)信息環(huán)境的污染問題而使人們難以找到。(3)存在狀態(tài)無序性和不穩(wěn)定性。網(wǎng)絡(luò)信息資源經(jīng)常變動(dòng)中,很多網(wǎng)頁基本上是每天都有更新,隨著時(shí)間推移很多網(wǎng)頁慢慢被淘汰。另外,網(wǎng)絡(luò)信息的存儲(chǔ)介質(zhì)引受到環(huán)境、磁場、溫度的影響,很容易被損毀,而網(wǎng)絡(luò)黑客的攻擊以及病毒的侵襲,使得網(wǎng)絡(luò)信息資源保存難度加大。
美國著名信息資源管理專家霍頓認(rèn)為,信息生命周期是指信息運(yùn)動(dòng)的自然規(guī)律,它一般由信息需求的確定以及信息資源的生產(chǎn)、采集、傳播、處理、存儲(chǔ)和利用等階段所組成。依據(jù)霍頓的觀點(diǎn),業(yè)界一般把信息生命周期劃分為創(chuàng)建、保護(hù)、訪問、遷移、歸檔、處理6個(gè)階段。網(wǎng)絡(luò)信息生命周期是指網(wǎng)絡(luò)信息從產(chǎn)生到失去效用價(jià)值所經(jīng)歷的各個(gè)階段和整個(gè)過程。網(wǎng)絡(luò)信息增長迅速、不斷更新,其信息生命周期所經(jīng)歷的階段與一般信息生命周期不同。馬費(fèi)成、夏永紅通過實(shí)證研究,將網(wǎng)絡(luò)信息生命周期劃分為成長期、成熟期、衰退期3個(gè)階段。網(wǎng)絡(luò)信息形成之后,很快進(jìn)入成長期,表現(xiàn)為其訪問量迅速上升。接著進(jìn)入成熟期,即網(wǎng)絡(luò)信息的訪問量達(dá)到最大值,這一階段價(jià)值將被充分利用。然后進(jìn)入到衰退期,此時(shí)網(wǎng)絡(luò)信息的訪問量將逐漸降低,趨近于零。馬費(fèi)成等是從用戶的角度來探討網(wǎng)絡(luò)信息生命周期,揭示了一般意義上網(wǎng)絡(luò)信息的生命周期的基本規(guī)律和特性。1997年國際檔案理事會(huì)電子文件委員會(huì)在 《電子文件管理指南》中,將電子文件的生命周期劃分為概念階段、形成階段、維護(hù)階段。概念階段是指電子文件管理信息系統(tǒng)的研制、設(shè)計(jì)和安裝階段,是電子文件形成的軟硬件系統(tǒng),是電子文件管理的基礎(chǔ);形成階段是指電子文件在電子環(huán)境中產(chǎn)生的階段,并作為真正的“文件”保管起來;維護(hù)階段是指文件產(chǎn)生之后直至銷毀或永久保存的整個(gè)過程。
網(wǎng)絡(luò)信息與電子文件有相似之處,即需要依靠軟硬件系統(tǒng)才能產(chǎn)生、利用。結(jié)合上述觀點(diǎn),筆者認(rèn)為,網(wǎng)絡(luò)信息資源生命周期可劃分為概念階段、形成和使用階段、維護(hù)和保存階段、消失階段4個(gè)階段。第一,網(wǎng)絡(luò)信息資源概念階段。概念階段即網(wǎng)絡(luò)信息資源系統(tǒng)的研發(fā)、設(shè)計(jì)和安裝調(diào)試階段。比如網(wǎng)站信息資源是網(wǎng)絡(luò)信息存在的主要形態(tài),建設(shè)網(wǎng)站,通過網(wǎng)站發(fā)布網(wǎng)絡(luò)信息資源,需要建立網(wǎng)站管理系統(tǒng)和配置相應(yīng)的計(jì)算機(jī)設(shè)備。第二,網(wǎng)絡(luò)信息資源形成和使用階段。網(wǎng)絡(luò)信息資源產(chǎn)生后,儲(chǔ)存在網(wǎng)絡(luò)信息系統(tǒng)中,供網(wǎng)絡(luò)用戶檢索利用。通過網(wǎng)絡(luò)資源的使用,其價(jià)值得以彰顯。這一階段是網(wǎng)絡(luò)信息資源成熟期。第三,網(wǎng)絡(luò)信息資源維護(hù)和保存階段。隨著網(wǎng)絡(luò)信息訪問量的增加,網(wǎng)絡(luò)信息超負(fù)荷運(yùn)轉(zhuǎn),加上網(wǎng)絡(luò)信息自身因素、網(wǎng)絡(luò)信息所處的軟硬環(huán)境等,網(wǎng)絡(luò)信息處于不穩(wěn)定狀態(tài),需要對(duì)之進(jìn)行維護(hù)和保存。網(wǎng)絡(luò)信息資源的維護(hù)包括信息資源本身的維護(hù)和運(yùn)行系統(tǒng)的維護(hù)。第四,網(wǎng)絡(luò)信息資源消失階段。這一階段是網(wǎng)絡(luò)信息生命的最后階段,網(wǎng)絡(luò)信息或從系統(tǒng)中被移除,不能再被訪問和利用,或受到網(wǎng)絡(luò)病毒及黑客的攻擊,無法被用戶利用。因網(wǎng)絡(luò)信息的價(jià)值和訪問途徑等原因,并不是每條網(wǎng)絡(luò)信息生命周期都會(huì)經(jīng)歷這四個(gè)階段。有的網(wǎng)絡(luò)信息利用次數(shù)不多,就被刪除。有研究表明,68%的網(wǎng)頁1年內(nèi)將被從網(wǎng)上移除;12.2%的網(wǎng)站和20.5%的網(wǎng)頁6個(gè)月后不能再被訪問到,1年后分別上升到17.7%和31.8%。
網(wǎng)絡(luò)信息異常豐富,取之不盡,用之不竭。尤其在Web2.0時(shí)代,網(wǎng)絡(luò)信息資源數(shù)量呈幾何級(jí)速度增長,在分散、無序及對(duì)浩如煙海的網(wǎng)絡(luò)信息面前,人們要尋找到有價(jià)值、可利用的網(wǎng)絡(luò)信息資源并非易事。網(wǎng)絡(luò)信息資源生命周期長短不一,大量有價(jià)值的網(wǎng)絡(luò)信息資源隨時(shí)產(chǎn)生也隨時(shí)消失,保存網(wǎng)絡(luò)信息資源,成為各國圖書情報(bào)界、檔案界一項(xiàng)重大的歷史任務(wù)。中國國家圖書館于2003年啟動(dòng)了網(wǎng)絡(luò)信息資源的采集與保存試驗(yàn)項(xiàng)目(WICP),對(duì)表層網(wǎng)頁(靜態(tài)網(wǎng)頁)和深層網(wǎng)頁(動(dòng)態(tài)網(wǎng)頁)信息資源進(jìn)行采集和保存。這個(gè)項(xiàng)目在保存網(wǎng)絡(luò)信息資源方面發(fā)揮了積極的作用。但目前,在網(wǎng)絡(luò)信息資源長期保存方面,我國還存在規(guī)模小、保存標(biāo)準(zhǔn)不統(tǒng)一等問題,筆者從網(wǎng)絡(luò)信息資源生命周期的角度,提出以下網(wǎng)絡(luò)信息資源長期保存對(duì)策。
在我國,圖書館與檔案館是保存紙質(zhì)文獻(xiàn)、電子文獻(xiàn),為用戶提供文獻(xiàn)查找的服務(wù)機(jī)構(gòu)。這些機(jī)構(gòu)長期進(jìn)行文獻(xiàn)的收集、保存,具備保存網(wǎng)絡(luò)信息資源的基礎(chǔ)和條件。建立由圖書館、檔案館組成的網(wǎng)絡(luò)信息資源保存協(xié)調(diào)機(jī)構(gòu),統(tǒng)一網(wǎng)絡(luò)信息資源采集標(biāo)準(zhǔn)、范圍,運(yùn)用統(tǒng)一的網(wǎng)絡(luò)信息資源管理系統(tǒng)保存網(wǎng)絡(luò)信息資源,可提高網(wǎng)絡(luò)信息資源保存效率。如可建立由工業(yè)和信息化部直接領(lǐng)導(dǎo)的跨系統(tǒng)、跨地區(qū)、全國性的網(wǎng)絡(luò)信息資源保存協(xié)調(diào)機(jī)構(gòu),明確圖書館、檔案館是網(wǎng)絡(luò)信息資源保存的責(zé)任主體,規(guī)定圖書館、檔案館網(wǎng)絡(luò)信息資源保存的種類。如國家圖書館與國家檔案館聯(lián)合負(fù)責(zé)各個(gè)國家層面的網(wǎng)絡(luò)信息資源保存,各省、市、區(qū)圖書館、檔案館負(fù)責(zé)保存本地區(qū)各級(jí)政府機(jī)構(gòu)網(wǎng)絡(luò)信息資源,高校圖書館負(fù)責(zé)科研院所、高校、各級(jí)學(xué)會(huì)等學(xué)術(shù)性強(qiáng)的網(wǎng)絡(luò)信息資源的保存,行業(yè)圖書館或信息中心負(fù)責(zé)保存行業(yè)網(wǎng)絡(luò)信息資源。在明確分工的基礎(chǔ)上,制定網(wǎng)絡(luò)信息資源元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)存儲(chǔ)轉(zhuǎn)換格式標(biāo)準(zhǔn)、網(wǎng)絡(luò)信息資源長期保存技術(shù)規(guī)范、網(wǎng)絡(luò)信息長期保存操作規(guī)程、網(wǎng)絡(luò)信息資源管理規(guī)范等,以保證各個(gè)責(zé)任主體能在統(tǒng)一的標(biāo)準(zhǔn)框內(nèi)有序進(jìn)行網(wǎng)絡(luò)信息資源保存,避免因標(biāo)準(zhǔn)不統(tǒng)一而導(dǎo)致各保存項(xiàng)目信息無法共享。
圖書館、檔案館等信息資源保存機(jī)構(gòu)要建立相應(yīng)的工作機(jī)構(gòu),配備技術(shù)人員,明確網(wǎng)絡(luò)信息保存的工作責(zé)任,使網(wǎng)絡(luò)信息保存工作有序開展。通過宣傳網(wǎng)絡(luò)信息資源長期保存的重要性,提高全民網(wǎng)絡(luò)信息資源保護(hù)意識(shí),使國家層面的《圖書館法》中能增加保存網(wǎng)絡(luò)信息資源的條款,以保障網(wǎng)絡(luò)信息長期保存經(jīng)費(fèi)的及時(shí)到位。建立網(wǎng)絡(luò)信息資源呈繳制,圖書館、檔案館等信息資源保存機(jī)構(gòu)要積極主動(dòng)與網(wǎng)絡(luò)出版者、技術(shù)公司、商業(yè)機(jī)構(gòu)等合作,及時(shí)接受網(wǎng)絡(luò)信息生產(chǎn)者呈交的大量有參考價(jià)值的網(wǎng)絡(luò)信息資源。同時(shí),構(gòu)建網(wǎng)絡(luò)信息保存的資源開發(fā)與贏利模式,吸引商業(yè)公司的介入,利用商業(yè)化機(jī)制運(yùn)作網(wǎng)絡(luò)信息保存項(xiàng)目等。
網(wǎng)絡(luò)信息資源長期保存技術(shù),是指長久保持網(wǎng)絡(luò)資源信息內(nèi)容和功能形式的可存取性的一系列技術(shù)策略和手段。目前,我國主要采用的長期保存技術(shù)有:更新、數(shù)字遷移、仿真、管理工具和自動(dòng)存儲(chǔ)技術(shù)等。一是更新技術(shù)。更新技術(shù)是指在原來的技術(shù)環(huán)境下實(shí)時(shí)重寫數(shù)據(jù),將數(shù)據(jù)流從舊存儲(chǔ)介質(zhì)轉(zhuǎn)移到新存儲(chǔ)介質(zhì)上,防止由于存儲(chǔ)介質(zhì)理化性能變化而引起的信息丟失。采用更新技術(shù),復(fù)制網(wǎng)絡(luò)信息資源,將舊存儲(chǔ)媒體上的信息轉(zhuǎn)移到新的媒體上。如可將網(wǎng)絡(luò)信息資源拷貝到光盤、磁帶等耐久的載體上,或?qū)?shù)量大的網(wǎng)絡(luò)信息資源用SATA磁盤陣列、DVD-RAM光盤塔、光盤庫和數(shù)據(jù)流磁帶等載體進(jìn)行保存。更新技術(shù)只適合于簡單、獨(dú)立的網(wǎng)頁內(nèi)容信息的長期保存。二是數(shù)字遷移技術(shù)。數(shù)字遷移技術(shù)是根據(jù)軟、硬件的發(fā)展將網(wǎng)絡(luò)資源遷移到不同的軟件或硬件中以便被識(shí)別、使用和檢索。數(shù)字遷移技術(shù)適合對(duì)網(wǎng)頁中與軟件無關(guān)的格式產(chǎn)生的文本文件或簡單、通用的平面文件等信息資源內(nèi)容進(jìn)行長期保存。三是仿真技術(shù)。仿真技術(shù)主要是在新的系統(tǒng)環(huán)境下重新建立一個(gè)兼容原始數(shù)據(jù)、設(shè)備及其相應(yīng)系統(tǒng)的信息利用環(huán)境。仿真技術(shù)的用戶交互、程序和計(jì)算機(jī)平臺(tái)之間的交互等功能就具有優(yōu)勢,適合多媒體資源、數(shù)據(jù)庫以及PDF格式文件的長期保存利用。四是管理工具。針對(duì)網(wǎng)絡(luò)信息資源范圍的難以確定,節(jié)點(diǎn)或鏈接中出現(xiàn)的變化難以控制以及某些重要信息易丟失的問題, MOM spider、Web:Look out等管理工具具有跨越Web網(wǎng)站,并指明已變動(dòng)和修改的信息及鏈接無效的信息維護(hù)功能,能對(duì)信息維護(hù)進(jìn)行有效監(jiān)控。五是自動(dòng)存儲(chǔ)技術(shù)。直接連接存儲(chǔ)(DAS)技術(shù)、網(wǎng)絡(luò)連接存儲(chǔ)(NAS)技術(shù)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)技術(shù)、ISCSI技術(shù)和內(nèi)容尋址存儲(chǔ)(CAS)技術(shù)可以實(shí)現(xiàn)存儲(chǔ)容量的可擴(kuò)展性,能改善網(wǎng)頁數(shù)據(jù)的可用性及網(wǎng)絡(luò)性能,并能對(duì)網(wǎng)絡(luò)中分散的網(wǎng)頁信息進(jìn)行集成和篩選,這樣就有助于改變目前網(wǎng)頁信息保存成本高、可靠性差等缺點(diǎn)。
網(wǎng)絡(luò)信息資源的脆弱性和易逝性決定了對(duì)其保護(hù)的必要性。網(wǎng)絡(luò)信息資源長期保存需要眾多的圖書館、檔案館的參與。建立統(tǒng)一協(xié)調(diào)的全國性網(wǎng)絡(luò)信息資源長期保存機(jī)構(gòu)和完善的合作保存機(jī)制,制定相關(guān)的標(biāo)準(zhǔn)規(guī)范,利用現(xiàn)代信息技術(shù)對(duì)網(wǎng)絡(luò)信息資源進(jìn)行分級(jí)保存,改變目前網(wǎng)絡(luò)信息資源保存無序狀態(tài),尤為迫切。
[1]第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2014-05-14].http://old.comon.cn/listinfo-142721.html.
[2]馬費(fèi)成,夏永紅.網(wǎng)絡(luò)信息的生命周期實(shí)證研究[J].情報(bào)理論與實(shí)踐,2009(6):1-7.
[3]段宇峰.網(wǎng)絡(luò)信息資源老化規(guī)律研究[J].圖書情報(bào)知識(shí),2005(4):28-31.