国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校重要網(wǎng)頁信息采集歸檔實(shí)踐探析

2017-01-31 04:27陳建平浙江工商大學(xué)
浙江檔案 2017年9期
關(guān)鍵詞:網(wǎng)頁技術(shù)人員工具

陳建平/浙江工商大學(xué)

高校重要網(wǎng)頁信息指高等院校在網(wǎng)絡(luò)上直接形成的、有保存價(jià)值的數(shù)字化信息資源,這些信息具有原始性、憑證性特點(diǎn),是“高校記憶”的重要組成部分,是數(shù)字時(shí)代高校檔案部門的重要收集內(nèi)容。高校重要網(wǎng)頁是一種不斷變化與更新的動態(tài)資源,保持高速增長的同時(shí)也大批消亡,若不及時(shí)采取措施進(jìn)行收集,其消亡之后再也無法獲取。因此,高校重要網(wǎng)頁信息采集歸檔重要而且緊迫。

1 采集歸檔方式選擇

高校重要網(wǎng)頁信息形式多樣,包括文本、圖像、音頻、視頻等多種表現(xiàn)方式;所屬網(wǎng)址雖不盡相同,但總體上所屬網(wǎng)站、版塊相對集中,較其他類別的重要網(wǎng)頁信息更易采集歸檔。考慮到高校重要網(wǎng)頁信息特點(diǎn)以及采集歸檔所需的人財(cái)物等因素,高校重要網(wǎng)頁信息采集歸檔一般采取網(wǎng)絡(luò)爬蟲收集和人工采集相結(jié)合的方式,以實(shí)現(xiàn)對有價(jià)值的網(wǎng)頁進(jìn)行采集、過濾、提取與批量上載等一體化歸檔工作流程。為此,高校檔案部門應(yīng)該配備相應(yīng)的專業(yè)技術(shù)人員,以及采集工具、計(jì)算機(jī)及存儲設(shè)備等軟硬件設(shè)施。

2 采集歸檔流程分析

首先,確定采集歸檔范圍,明確采集對象。高校檔案部門可以根據(jù)實(shí)際需要確定重要網(wǎng)頁信息歸檔范圍,以及歸檔網(wǎng)頁信息的保存方法。目前一些高校主要針對本校官方網(wǎng)站、各部門(處、室)、各學(xué)院辦公網(wǎng)站發(fā)布的動態(tài)新聞以及各大主流媒體網(wǎng)站中有關(guān)本校的重大事件的報(bào)道進(jìn)行采集歸檔,如浙江大學(xué)以其官網(wǎng)上的浙大簡訊版內(nèi)容塊作為采集歸檔的主要對象之一。關(guān)于歸檔網(wǎng)頁的保存方法,大多數(shù)高校選擇網(wǎng)頁快照。

其次,確定采集歸檔標(biāo)準(zhǔn),設(shè)置采集模式。技術(shù)人員對采集對象的網(wǎng)站及頁面信息結(jié)構(gòu)進(jìn)行分析,在本地安裝采集軟件并設(shè)置采集模式。一般來說,采集軟件經(jīng)過設(shè)置可以自動采集指定網(wǎng)站、所需版塊以及特定頁面,生成網(wǎng)站鏡像或網(wǎng)頁快照等,并獲取著錄所需的字段信息,比如題名、發(fā)布者、發(fā)布時(shí)間、來源網(wǎng)址等;同時(shí)采集軟件支持各種標(biāo)準(zhǔn)格式信息資源的采集,如HTML頁面、文件信息、表格、圖片、聲音、視頻等。借助采集軟件,技術(shù)人員對高校重要網(wǎng)頁與內(nèi)聯(lián)圖片進(jìn)行統(tǒng)一采集;在視頻文件采集過程中對關(guān)鍵幀進(jìn)行提取,生成高質(zhì)量無損壓縮影像;對單篇網(wǎng)頁及網(wǎng)站歷史數(shù)據(jù)進(jìn)行批量采集。

再者,確定組件方式,整理入庫。技術(shù)人員對歸檔網(wǎng)頁信息的著錄性規(guī)范進(jìn)行審核,審核內(nèi)容包括題名命名規(guī)則、檔號自動編制格式、元數(shù)據(jù)采集標(biāo)準(zhǔn)等,在此基礎(chǔ)上將采集的文本內(nèi)容批量上傳到全文數(shù)據(jù)庫中,實(shí)現(xiàn)內(nèi)容發(fā)布與全文檢索等利用服務(wù)。

3 采集歸檔注意事項(xiàng)

3.1 采集工具及標(biāo)準(zhǔn)問題

高校重要網(wǎng)頁采集歸檔是一個(gè)新興的課題,目前還沒有完美的采集工具和歸檔標(biāo)準(zhǔn)。檔案行政管理部門也沒有對采集工具進(jìn)行過測試,沒有推薦采集工具,更沒有出臺相應(yīng)的行業(yè)標(biāo)準(zhǔn)。為此,高校要根據(jù)實(shí)際情況選擇采集工具及標(biāo)準(zhǔn),并要考察工具能否保留網(wǎng)頁內(nèi)容的元數(shù)據(jù)和功能。

3.2 采集鑒定及分類問題

采集工具經(jīng)過設(shè)置能夠自動對相應(yīng)的網(wǎng)頁信息進(jìn)行采集,生成網(wǎng)頁檔案,并進(jìn)行初步分類。在此基礎(chǔ)上技術(shù)人員要對系統(tǒng)自動生成的網(wǎng)頁檔案及其元數(shù)據(jù)信息進(jìn)行審核和完善;必要時(shí)要進(jìn)行全文閱覽,以便制作高質(zhì)量的著錄及標(biāo)引;還要進(jìn)行分類審核及完成入庫工作。

3.3 采集質(zhì)量及數(shù)量問題

在采集歸檔實(shí)踐中,既要保證高校重要網(wǎng)頁信息的質(zhì)量,也要保證數(shù)量。目前的做法是,使用自動過濾系統(tǒng)跟蹤目標(biāo)站點(diǎn),將網(wǎng)頁中的信息(如日期、標(biāo)題、作者、版塊等)提取出來,再對采集工具設(shè)置自動去重功能,實(shí)現(xiàn)信息自動去重。在采集過程中,可以定義一個(gè)或多個(gè)主題詞,對網(wǎng)頁內(nèi)容進(jìn)行過濾,較為精確地獲取與采集主題相關(guān)的網(wǎng)頁內(nèi)容;對于下載的網(wǎng)頁,采集工具自動進(jìn)行信息過濾,剔除廣告及其他無用的信息,智能提取有價(jià)值的信息內(nèi)容,生成網(wǎng)頁快照,用于歸檔保存。

猜你喜歡
網(wǎng)頁技術(shù)人員工具
越南農(nóng)業(yè)管理和技術(shù)人員線上培訓(xùn)
我國首批正高級船舶專業(yè)技術(shù)人員評出
基于HTML5與CSS3的網(wǎng)頁設(shè)計(jì)技術(shù)研究
企業(yè)技術(shù)人員能力評價(jià)的探索
波比的工具
波比的工具
準(zhǔn)備工具:步驟:
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁設(shè)計(jì)
“巧用”工具