国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文網(wǎng)絡(luò)資源備份保存的調(diào)查與思考

2010-06-14 08:28:02朱天慧曲阜師范大學(xué)圖書館山東曲阜273165
圖書館理論與實(shí)踐 2010年7期
關(guān)鍵詞:網(wǎng)絡(luò)資源備份網(wǎng)頁

●朱天慧(曲阜師范大學(xué) 圖書館,山東 曲阜 273165)

隨著信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)資源正逐漸成為使用最多最頻繁的信息資源。在這浩瀚的信息海洋中,有95%的Web信息是可以公開獲取的,其容量比美國國會圖書館的館藏量還多出50倍。然而,Web信息的存在又是短暫的,美國數(shù)字信息基礎(chǔ)架構(gòu)和保存項(xiàng)目的報(bào)告中指出網(wǎng)絡(luò)信息的平均壽命為44天。中國互聯(lián)網(wǎng)中心2009年1月的調(diào)查數(shù)據(jù)表明,中文網(wǎng)頁的更新周期在6個(gè)月以內(nèi)者占80%,[1]可見網(wǎng)絡(luò)信息資源更新頻率相當(dāng)高。因此,網(wǎng)絡(luò)信息資源的長期保存已經(jīng)成為一個(gè)刻不容緩的問題。近10年來,國內(nèi)有關(guān)網(wǎng)絡(luò)資源備份保存方面的研究論文呈逐年遞增趨勢,從研究的內(nèi)容看,主要側(cè)重于介紹國外網(wǎng)絡(luò)資源備份保存項(xiàng)目以及元數(shù)據(jù)、技術(shù)、管理策略、法律法規(guī)等方面的研究,但從用戶消費(fèi)利用的角度對網(wǎng)絡(luò)資源備份保存進(jìn)行的研究尚不多見。本文基于國內(nèi)網(wǎng)站被InternetArchive和WebInfomall備份保存的情況進(jìn)行調(diào)查研究,揭示網(wǎng)絡(luò)資源保存面臨的幾個(gè)主要問題,并提出了相關(guān)建議。

1 網(wǎng)絡(luò)資源備份保存概述

1.1 何謂網(wǎng)絡(luò)資源備份保存

網(wǎng)絡(luò)資源備份保存(Web Preservation或Web Archiving)就是將網(wǎng)絡(luò)資源定期存檔備份并整理編目,以供使用者查詢過去的網(wǎng)站或網(wǎng)頁信息。從20世紀(jì)90年代開始,許多國家就開始積極探索網(wǎng)絡(luò)資源的保存問題,并提出了多種解決方案,如澳大利亞國家圖書館啟動(dòng)的PANDORA項(xiàng)目、挪威的Paradigma項(xiàng)目、瑞典的Kulturarw項(xiàng)目、歐洲的NEDLIB計(jì)劃、美國的互聯(lián)網(wǎng)檔案館、美國國會圖書館的NDIIP項(xiàng)目等。[2]進(jìn)入21世紀(jì)后,我國也啟動(dòng)幾個(gè)保存網(wǎng)絡(luò)信息資源的項(xiàng)目,如國家圖書館“網(wǎng)絡(luò)信息資源保存”實(shí)驗(yàn)項(xiàng)目(WICP)和“中國Web信息博物館(Web Infomall),其中后者已經(jīng)初具規(guī)模。

1.2 Internet Archive的功能與特點(diǎn)

互聯(lián)網(wǎng)檔案(Internet Archive)是美國舊金山的一個(gè)非贏利組織,創(chuàng)立于1996年,其創(chuàng)立的目的是為收集所有可以公開檢索到的網(wǎng)絡(luò)信息并構(gòu)建一個(gè)網(wǎng)絡(luò)圖書館。該網(wǎng)站的數(shù)據(jù)來源多由該網(wǎng)站自行搜尋保存,也有來自于其他典藏機(jī)構(gòu)寄存的信息。2003年,InternetArchive將所備份保存的資料全部寄存一份給埃及的亞歷山大圖書館(LibraryofAlexandria),建立了一個(gè)鏡像站點(diǎn)。InternetArchive的搜集備份保存政策是限定edu、gov、org等域名為搜集范圍,并選擇性地收集一些com網(wǎng)站信息,另外該網(wǎng)站還收費(fèi)性地接受個(gè)人網(wǎng)站的備份申請。InternetArchive保存的網(wǎng)絡(luò)資源類型除了網(wǎng)頁檔案外,還包括文字?jǐn)?shù)據(jù)、影音數(shù)據(jù)、動(dòng)畫、軟件等。Internet Archive通過WayBack Machine提供對歷史網(wǎng)頁的記錄存儲,向研究者和普通公眾提供免費(fèi)訪問,允許人們通過網(wǎng)頁地址進(jìn)行查詢,[3]網(wǎng)址是 http://www.archive.org/index.php。

1.3 WebInfomall的功能與特點(diǎn)

中國Web信息博物館是在國家973和985項(xiàng)目支持下,由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室開發(fā)建設(shè)的中國網(wǎng)頁歷史信息存儲與展示系統(tǒng),是目前全國最大、最完整的互聯(lián)網(wǎng)內(nèi)容信息收集與倉儲中心。WebInfomall的基本使命是以一種集中的形式,全面展現(xiàn)中國互聯(lián)網(wǎng)上信息的歷史;為社會提供多種海量網(wǎng)絡(luò)信息產(chǎn)品,供相關(guān)科研人員進(jìn)行研究。作為一項(xiàng)服務(wù)社會的公益事業(yè),可以查找網(wǎng)頁存檔情況以及網(wǎng)頁鏈入和鏈出等信息。借助“天網(wǎng)中英文網(wǎng)頁和文件搜索引擎”,該系統(tǒng)目前已經(jīng)維護(hù)有2002年1月以來30億個(gè)以中文為主的網(wǎng)頁,而且以每天100—200萬網(wǎng)頁的速度不斷增加,并以平均每月4500萬個(gè)網(wǎng)頁的速度擴(kuò)大規(guī)模。這些網(wǎng)頁不僅來源于不同的URL,而且還包含同一個(gè)URL的不同內(nèi)容版本,其中許多內(nèi)容目前在中國互聯(lián)網(wǎng)上已經(jīng)不復(fù)存在。人們通過HisTrace實(shí)驗(yàn)性系統(tǒng)框架從WebInfomall中盡量準(zhǔn)確、完整地提取與重要?dú)v史事件相關(guān)的網(wǎng)絡(luò)新聞報(bào)道,并按照報(bào)道發(fā)生的時(shí)間順序?qū)⑺鼈儾恢貜?fù)地展示出來,[4]其網(wǎng)址是http://www.infomall.cn/。

2 國內(nèi)網(wǎng)站備份保存情況的調(diào)查

為了解國內(nèi)網(wǎng)站的備份保存情況,筆者選擇了104個(gè)國內(nèi)網(wǎng)站(域名為 .edu的有75個(gè)、.gov的有17個(gè)、.org的有7個(gè)以及.com的有5個(gè)),分別在InternetArchive和WebInfomall兩個(gè)系統(tǒng)中檢索了各類網(wǎng)站主頁的保存情況,檢索日期為2008年12月13日—14日),記錄各網(wǎng)頁保存的起止日期,存檔次數(shù)以及網(wǎng)站的自我更新次數(shù),并對結(jié)果進(jìn)行統(tǒng)計(jì)分析,見下表。

表 部分國內(nèi)網(wǎng)站的備份保存情況統(tǒng)計(jì)

由上表可見,104個(gè)國內(nèi)中文網(wǎng)站分別被存檔65947次和24789次,平均每個(gè)網(wǎng)站每個(gè)月的被存檔次數(shù)分別是6.98次和3.32次,顯示出兩個(gè)系統(tǒng)在保存數(shù)量上存在較大的差異。此外,不同域名類型網(wǎng)站被存盤備份的頻率以.com類為最高,其余類型網(wǎng)站則相差不多。

除了在收錄網(wǎng)頁數(shù)量上的差異外,Internet Archive和Web Infomall之間還存在一些明顯的差別,比如兩個(gè)系統(tǒng)分別自不同時(shí)期開始進(jìn)行備份保存,前者備份保存時(shí)間范圍從1996年12月至2008年2月,而后者的時(shí)間范圍為2002年1月到2008年12月。顯示出InternetArchive備份網(wǎng)頁的歷史早于WebInfomall,但在從存盤后到可提供檢索舊網(wǎng)頁之間,至少有10個(gè)月的滯后期;而WebInfomall中沒有顯示出這種滯后性。另外,在InternetArchive的查詢結(jié)果中,可以顯示網(wǎng)頁備份起止日期、起止日期之間的備份存檔次數(shù)及更新次數(shù)等;而在Web Infomall中沒有顯示出更新次數(shù)。

3 結(jié)論與建議

3.1 構(gòu)建分工協(xié)作的保存體系是網(wǎng)絡(luò)資源備份保存的必然要求

網(wǎng)絡(luò)信息資源的保存是一項(xiàng)系統(tǒng)工程,涉及政府、新聞出版、教育、科技、文獻(xiàn)收藏等部門和單位,因此,充分運(yùn)用現(xiàn)代信息技術(shù),采取分工協(xié)作的機(jī)制是構(gòu)建適合我國國情的網(wǎng)絡(luò)資源備份保存體系的必由之路。筆者認(rèn)為,以國家宏觀管理層面為指導(dǎo),構(gòu)建以國家圖書館為核心,聯(lián)合其他組織和機(jī)構(gòu)建立分布式保存體系是目前較理想的選擇。該體系的建立有助于資金的統(tǒng)籌及人員的協(xié)調(diào),有利于全面、經(jīng)濟(jì)、合法、有效地實(shí)施對網(wǎng)絡(luò)資源的長期保存。InternetArchive雖然不是由美國國會圖書館牽頭實(shí)施的,但它與眾多學(xué)術(shù)機(jī)構(gòu)與紀(jì)念館建立了合作關(guān)系,比如,其網(wǎng)絡(luò)檔案主管MicheleKimpton致力于國際互聯(lián)網(wǎng)備份保存協(xié)會籌備,并提出了Internet Archive聯(lián)盟的構(gòu)想,即由國家圖書館負(fù)責(zé)網(wǎng)絡(luò)資源備份保存的選擇標(biāo)準(zhǔn)制定、收集和提供檢索,Internet Archive負(fù)責(zé)技術(shù)上的支持以及研發(fā)新的工具。[5]因此,借鑒其做法,加強(qiáng)與各個(gè)部門之間的分工協(xié)作,也應(yīng)該是今后WebInfomall發(fā)展的主要方向。

3.2 完善基于用戶需求的采集策略是網(wǎng)絡(luò)資源備份保存的前提條件

資源收集與保存的最終目的是為當(dāng)前與未來用戶群體提供服務(wù)。對InternetArchive資源的選擇性評價(jià)結(jié)果表明,網(wǎng)絡(luò)資源保存應(yīng)該以特定用戶群體為中心來進(jìn)行。[6]因此,掌握和了解當(dāng)前用戶的需求,預(yù)測未來用戶的需求與信息行為,是完善網(wǎng)絡(luò)資源備份保存的必要前提。

Web資源的備份保存,除了選擇合適的采集方式外,還要確定合理的采集頻率。由于各個(gè)網(wǎng)頁的更新頻率不同,因此必須基于中文網(wǎng)絡(luò)信息資源的種類與特點(diǎn),探索合適的采集頻率,否則就可能遺漏很多重要信息。采集頻率需要針對不同性質(zhì)的網(wǎng)站、不同內(nèi)容信息的網(wǎng)頁來確定,對于一般穩(wěn)定性的或內(nèi)容積累性的網(wǎng)站,每半年采集一次較為合適,動(dòng)態(tài)性較強(qiáng)的網(wǎng)站則應(yīng)該進(jìn)行跟蹤采集。

3.3 開展國際合作是網(wǎng)絡(luò)資源備份保存的現(xiàn)實(shí)需要

美國InternetArchive于1996年開始對包括我國網(wǎng)絡(luò)信息資源在內(nèi)的全球網(wǎng)絡(luò)信息進(jìn)行批量收集,他們搜集和保存了我國官方網(wǎng)站的大量信息,甚至包含許多我們現(xiàn)在已經(jīng)無法找到和再現(xiàn)的信息。Internet Archive起步早,其備份中文網(wǎng)頁的歷史遠(yuǎn)早于Web Infomall。調(diào)查還顯示:Internet Archive對中文網(wǎng)頁的月均存檔次數(shù)也遠(yuǎn)高于WebInfomall。因此,如果能夠與之建立合作關(guān)系,利用其過去備份保存的國內(nèi)網(wǎng)絡(luò)資源,就可以更完整地建立我國網(wǎng)絡(luò)資源典藏體系。另外,加強(qiáng)與國外同行的合作,充分借鑒其經(jīng)驗(yàn)、管理模式和先進(jìn)的技術(shù),可促進(jìn)我國網(wǎng)絡(luò)學(xué)術(shù)信息保存工作的發(fā)展。

3.4 納入相關(guān)教育體系是網(wǎng)絡(luò)資源備份保存的堅(jiān)強(qiáng)后盾

目前Web資源備份保存面臨著人員和技術(shù)兩大“瓶頸”。就人員方面講,網(wǎng)絡(luò)資源在備份保存后還需要自動(dòng)和/或人工編目,尤其是后期的數(shù)據(jù)檢索和開發(fā)等,這些都需要具有相關(guān)專業(yè)技能的人員廣泛參與,在網(wǎng)絡(luò)時(shí)代,只有具備網(wǎng)絡(luò)信息技術(shù)與信息組織才能的人員,才能圓滿完成這些任務(wù)。美國學(xué)者WilliamY.Arms提出網(wǎng)絡(luò)資源備份保存是圖書館學(xué)與信息科學(xué)之間的新領(lǐng)域(Librarianship in a New Domain)。隨著圖書館事業(yè)的迅速發(fā)展和信息技術(shù)的廣泛應(yīng)用,圖書情報(bào)學(xué)和信息學(xué)教育應(yīng)該與時(shí)俱進(jìn),不斷調(diào)整和改進(jìn)課程設(shè)置,對教學(xué)方式和內(nèi)容進(jìn)行改革,增加新興學(xué)科和現(xiàn)代科技的比重,如將網(wǎng)絡(luò)資源備份保存的策略和技術(shù)等內(nèi)容列入相關(guān)課程之中,為網(wǎng)絡(luò)資源備份保存的實(shí)施提供充分的人力資源后盾。

[1]第23次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2009-12-20].http://www.cnnic.cn/index/0E/00/11/index.htm.

[2]李曉明.Web InfoMall:過去、現(xiàn)在與將來[EB/OL].[2009-12-20].http://www.hainu.edu.cn/sewm2007/20070310SEWM.pdf.

[3]Internet Archive[EB/OL].[2009-12-20].http://www.archive.org/index.php.

[4]中文 Web 信息博物館 [EB/OL].[2009-12-20].http://www.infomall.cn/.

[5]Internet Archive:Bios[EB/OL].[2009-11-02].http://www.archive.org/about/bios.php.

[6]趙俊玲.國外關(guān)于網(wǎng)絡(luò)信息資源保存的研究[J].中國圖書館學(xué)報(bào),2004(5):80-83.

猜你喜歡
網(wǎng)絡(luò)資源備份網(wǎng)頁
“備份”25年:鄧清明圓夢
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
網(wǎng)絡(luò)資源在高中班級管理中的運(yùn)用
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
談網(wǎng)絡(luò)資源在大學(xué)計(jì)算機(jī)教學(xué)中的應(yīng)用
淺析數(shù)據(jù)的備份策略
科技視界(2015年6期)2015-08-15 00:54:11
10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
網(wǎng)絡(luò)資源在語文綜合性學(xué)習(xí)中的運(yùn)用
對等網(wǎng)絡(luò)資源搜索模型研究
金门县| 东山县| 隆林| 定南县| 蓝田县| 得荣县| 阳西县| 定陶县| 肥西县| 汶上县| 漳州市| 迁西县| 修武县| 偏关县| 自治县| 枣强县| 嘉兴市| 襄城县| 江门市| 玉溪市| 临城县| 滨海县| 漳州市| 平原县| 乐平市| 娄烦县| 伽师县| 宕昌县| 革吉县| 宜宾县| 潍坊市| 龙江县| 碌曲县| 十堰市| 体育| 万安县| 广河县| 荆州市| 志丹县| 特克斯县| 兴宁市|