岳修志,趙建建
(中原工學(xué)院,鄭州 450007)
基于內(nèi)容管理技術(shù)的檔案網(wǎng)站信息資源整合
岳修志,趙建建
(中原工學(xué)院,鄭州 450007)
基于內(nèi)容管理技術(shù),分析了檔案網(wǎng)站信息資源整合的現(xiàn)狀,總結(jié)出了元數(shù)據(jù)模型信息提取和存儲的方法.
檔案網(wǎng)站;內(nèi)容管理;信息資源整合;元數(shù)據(jù)
隨著信息技術(shù)的發(fā)展,目前大多數(shù)檔案館都實(shí)現(xiàn)了在B/S模式下的網(wǎng)上辦公,通過網(wǎng)絡(luò)環(huán)境將“有形”的紙制檔案轉(zhuǎn)化成網(wǎng)上無紙辦公.檔案網(wǎng)站提供的信息資源越來越多,種類也越來越豐富.縱觀各個檔案館,電子檔案往往只是紙質(zhì)檔案的數(shù)字化,各個檔案館只是一個信息孤島,缺少資源共享.用戶面對眾多分散的網(wǎng)站檔案信息往往無所是從,因此迫切需要整合各個網(wǎng)站的檔案信息,以提高用戶檢索效率.內(nèi)容管理是信息資源管理的核心部分,目前的數(shù)據(jù)庫技術(shù)主要是解決結(jié)構(gòu)化的信息資源的管理,而內(nèi)容管理技術(shù)是解決非結(jié)構(gòu)化信息資源管理的有效方法.對檔案資源整合而言,內(nèi)容管理技術(shù)是提高信息資源管理效率的關(guān)鍵環(huán)節(jié)[1].
內(nèi)容管理(Content M anagement,CM)是指對組織機(jī)構(gòu)內(nèi)部多種格式和媒體類型的信息資源的組織、分類、管理等有序化的過程[2].其基本思想是分離內(nèi)容的管理和設(shè)計(jì),頁面美工的設(shè)計(jì)存儲在模板里,而內(nèi)容存儲在數(shù)據(jù)庫或者獨(dú)立的文件中[3].內(nèi)容管理能夠使網(wǎng)站使用通用的設(shè)計(jì)元素和模板,以確保整個網(wǎng)站的協(xié)調(diào).
一個內(nèi)容管理系統(tǒng)至少要包含以下4個子系統(tǒng)[4]:
(1)內(nèi)容收集系統(tǒng):進(jìn)行內(nèi)容的收集、獲取、分發(fā)、編輯、整合及轉(zhuǎn)換等工作,并可加入元數(shù)據(jù)以支持對內(nèi)容組件的定義及搜尋.
(2)管理系統(tǒng):負(fù)責(zé)組件、內(nèi)容及發(fā)布模板的存取管理,并可記錄內(nèi)容的版本、工作流程的狀態(tài)、權(quán)限的設(shè)定及更新處理等.
(3)發(fā)布系統(tǒng):負(fù)責(zé)將內(nèi)容快速且自動地按照所建立的發(fā)布模板送至瀏覽器端.
(4)工作流系統(tǒng):負(fù)責(zé)整個內(nèi)容的收集、儲存和發(fā)布.
檔案網(wǎng)站內(nèi)容管理系統(tǒng)屬于資源型網(wǎng)站,其結(jié)構(gòu)比較復(fù)雜,主要包含以文章發(fā)布為中心的文檔資源類欄目以及圖片資源、視頻類、光盤類資源的發(fā)布等.
檔案網(wǎng)站信息資源整合是指根據(jù)檔案用戶的利用需求,結(jié)合檔案網(wǎng)站信息資源整合的特點(diǎn),利用先進(jìn)的技術(shù),按照一定的原則、規(guī)范及標(biāo)準(zhǔn),實(shí)現(xiàn)一定范圍內(nèi)的檔案網(wǎng)站信息資源的抓取與優(yōu)化,并組織成一個集關(guān)聯(lián)性、動態(tài)性和實(shí)用性于一體的有機(jī)整體或者統(tǒng)一的利用平臺[5].
目前,我國檔案網(wǎng)站已經(jīng)初具規(guī)模,但隨著檔案網(wǎng)站的增多,檔案網(wǎng)站信息資源的充分整合是目前我們必須要解決的問題.檔案網(wǎng)站在信息資源整合方面主要存在以下不足[6].
(1)整合層次較低.資源建設(shè)主要以館藏為主,從而形成一個個“信息孤島”,用戶面對零落的、離散的資源,不知道如何尋找自己需要的信息.
(2)資源整合缺乏規(guī)范性.網(wǎng)站類目組織的一致性、檢索平臺的統(tǒng)一性需要加以規(guī)范.
(3)重資源建設(shè),輕資源利用.在資源整合技術(shù)的選擇上,只是針對資源的特點(diǎn)來進(jìn)行堆積,片面重視資源數(shù)量,而不是從用戶利用的角度來合理整合資源,缺乏導(dǎo)航服務(wù)和個性化服務(wù)等.
(1)統(tǒng)一了管理標(biāo)準(zhǔn).網(wǎng)站內(nèi)的內(nèi)容格式和處理方式標(biāo)準(zhǔn)化,統(tǒng)一了頁面的現(xiàn)實(shí)風(fēng)格,增強(qiáng)了網(wǎng)站的擴(kuò)展能力.
(2)統(tǒng)一了訪問接口.利用XML技術(shù)能夠描述各種不規(guī)則的數(shù)據(jù),因此可以將文檔等半結(jié)構(gòu)化的數(shù)據(jù)納入到同一個XML文件并傳送到客戶端[7].
(3)相對傳統(tǒng)的Web網(wǎng)站,負(fù)載能力強(qiáng).
(4)內(nèi)容管理系統(tǒng)提供強(qiáng)大的二次開發(fā)平臺,降低了開發(fā)難度.
(5)網(wǎng)頁呈現(xiàn)和內(nèi)核技術(shù)、日常發(fā)布和系統(tǒng)維護(hù)等完全分離,使得日常操作非常簡單,降低了維護(hù)成本[8].
內(nèi)容管理系統(tǒng)主要是支持異構(gòu)平臺上的各種類型信息的管理和訪問,而信息包含結(jié)構(gòu)化形式和非結(jié)構(gòu)化形式的信息,如何管理這些信息成為檔案網(wǎng)站信息資源整合的關(guān)鍵.結(jié)構(gòu)化信息可以直接存儲到關(guān)系數(shù)據(jù)庫中;而對于非結(jié)構(gòu)化信息如何處理,成為檔案網(wǎng)站信息資源整合的關(guān)鍵.
非結(jié)構(gòu)化信息一般采用元數(shù)據(jù)模型進(jìn)行描述.元數(shù)據(jù)是描述一個具體的資源對象,能對這個對象進(jìn)行定位、管理,并有助于資源的發(fā)現(xiàn)與數(shù)據(jù)的獲取,是關(guān)于數(shù)據(jù)的數(shù)據(jù)[9].下面介紹內(nèi)容管理的2個主要方面:元數(shù)據(jù)的提取和元數(shù)據(jù)模型的存儲.
2.3.1 元數(shù)據(jù)的提取
根據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)和國內(nèi)圖書情報領(lǐng)域的相關(guān)成果,依據(jù)都柏林核心元素規(guī)范,總結(jié)出檔案網(wǎng)站元數(shù)據(jù),如表1所示.
表1 檔案網(wǎng)站內(nèi)容管理元數(shù)據(jù)表
Web頁面以 Html形式存在,我們?yōu)榱耸占瘍?nèi)容,必須將Htm l源文件的 Html標(biāo)記和文本區(qū)分開來,從而將文本形成2個Stream:Htm l標(biāo)記Stream和文本Stream.這樣Web網(wǎng)頁內(nèi)容就轉(zhuǎn)換成容易處理的形式.
目前,從Web頁面中提取所需要的元數(shù)據(jù)信息的方法主要有[10]:利用包裝器 W rapper技術(shù),基于層次結(jié)構(gòu)的信息抽取及基于概念模型的多記錄信息提取;以W 3C的文檔對象模型DOM為基礎(chǔ),把提取的信息以DOM層次結(jié)構(gòu)中的路徑表達(dá)式來表示,通過歸納學(xué)習(xí)來獲得所需信息的路徑表達(dá)式,達(dá)到提取信息的目的.利用包裝器W raaper技術(shù)工作量大,而且不便于推廣.本文主要介紹以DOM為基礎(chǔ)的元數(shù)據(jù)提取.其過程描述如下:
(1)利用DOM 提供的API分析文本信息,生成每個頁面對應(yīng)的DOM樹型結(jié)構(gòu);
(2)提供檔案網(wǎng)站內(nèi)容管理元數(shù)據(jù)表;
(3)以元數(shù)據(jù)表和DOM樹為輸入,學(xué)習(xí)生成提取規(guī)則;
(4)使用提取規(guī)則提取數(shù)據(jù),完成信息的提取.
2.3.2 元數(shù)據(jù)模型的存儲
XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)是由W 3C組織于1998年2月發(fā)布的一種標(biāo)準(zhǔn).XML是自描述的、半結(jié)構(gòu)化的和可擴(kuò)展的標(biāo)記語言.由于XML非常適合描述非結(jié)構(gòu)化數(shù)據(jù),一般元數(shù)據(jù)模型的存儲都采用XML技術(shù).
目前,XML數(shù)據(jù)管理的方式主要有文件系統(tǒng)方式、Native XML存儲方式、關(guān)系數(shù)據(jù)庫存儲方式和面向?qū)ο骕ML數(shù)據(jù)存儲方式.在內(nèi)容管理系統(tǒng)應(yīng)用上,上述4種方式各有特點(diǎn),對XML的存儲一般采用關(guān)系數(shù)據(jù)庫存儲方式.
要想將XML文檔存儲到關(guān)系數(shù)據(jù)庫中,需要建立從XML到關(guān)系數(shù)據(jù)庫的映射關(guān)系.目前,映射方法主要有3種:
(1)直接將整個XML文檔數(shù)據(jù)作為關(guān)系數(shù)據(jù)庫表的一個屬性進(jìn)行存儲;
(2)基于XML結(jié)構(gòu)樹,將結(jié)構(gòu)樹中具有相同語義的父子節(jié)點(diǎn)用嚴(yán)格的二元聯(lián)系模式來表示,這樣能充分利用語義的直觀性,確保查詢的效率;
(3)假設(shè)每個XML文檔都有相應(yīng)的DTD與之對應(yīng),然后對D TD進(jìn)行簡化、分解等預(yù)處理,將D TD中的元素、屬性映射成關(guān)系模式.這樣,XML可以最大限度地利用底層RDBM S提供的查詢處理和優(yōu)化技術(shù)[11].
建立映射機(jī)制后,下一步就要完成XML到關(guān)系數(shù)據(jù)庫的存儲.XML標(biāo)準(zhǔn)提供了標(biāo)準(zhǔn)接口DOM、DSO來存取數(shù)據(jù).DOM可以為不同的開發(fā)平臺和開發(fā)語言提供一致的API.XML文檔是按照層次結(jié)構(gòu)組織起來的樹形結(jié)構(gòu),所以DOM可以把XM L文件看成樹形結(jié)構(gòu),文件中的每一部分?jǐn)?shù)據(jù)信息相當(dāng)于樹節(jié)點(diǎn).采用樹形結(jié)構(gòu),方便了 XML文檔的增加、刪除、修改、查詢等操作.DSO技術(shù)可以完成H tm l標(biāo)記同XM L節(jié)點(diǎn)數(shù)據(jù)的綁定,以方便從XML文檔中讀取或者寫入數(shù)據(jù).XML數(shù)據(jù)存取機(jī)制如圖1所示.
圖1 XML數(shù)據(jù)存取機(jī)制
檔案網(wǎng)站信息資源整合的難點(diǎn)是異構(gòu)平臺及非結(jié)構(gòu)化數(shù)據(jù)的整合問題,整合的目的就是將各種不同類型的信息資源,利用內(nèi)容管理技術(shù),通過元數(shù)據(jù)模型或者提供中間件的方式整合成相聯(lián)系的統(tǒng)一平臺,便于用戶檢索,提高檔案網(wǎng)站的交互性,更好地滿足用戶的需求.
[1]王芳,郭英.電子政務(wù)內(nèi)容管理及其應(yīng)用分析[J].理論與探索,2009(6):47-50.
[2]孔佳.內(nèi)容管理系統(tǒng)的產(chǎn)生與發(fā)展[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2008(3):89-92.
[3]宮生文,穆江波.基于ASP.NET 2.0的內(nèi)容管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].科技信息,2009(1):487-488.
[4]徐小靜.基于XML的內(nèi)容管理與內(nèi)容發(fā)布技術(shù)系統(tǒng)的研究[D].武漢:武漢理工大學(xué),2005:22-23.
[5]吳建華,方燕平.檔案網(wǎng)站信息資源及其整合概念的界定——“檔案網(wǎng)站信息資源普查與整合研究”系列論文之一[J].檔案學(xué)通訊,2009(5):52-55.
[6]杭珊,吳建華.檔案網(wǎng)站信息資源整合現(xiàn)狀及分析[J].學(xué)術(shù)園地,2009(9):15-19.
[7]向培素,黃勤珍.內(nèi)容管理系統(tǒng)中統(tǒng)一訪問接口的實(shí)現(xiàn)[J].中國測試技術(shù),2003,9(5):61-63.
[8]陳曉慧.基于內(nèi)容管理的網(wǎng)站自動化生成系統(tǒng)的開發(fā)與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2005,2(32):106-108
[9]姜波.基于XML的企業(yè)內(nèi)容管理系統(tǒng)的研究[D].武漢:武漢理工大學(xué),2009:24-26.
[10]劉政怡.基于DOM和元數(shù)據(jù)的Web信息提取[J].計(jì)算機(jī)與現(xiàn)代化,2003(10):106-108.
[11]崔清華.XML文檔在關(guān)系數(shù)據(jù)庫中的存儲研究[J].微計(jì)算機(jī)信息,2007,4(23):184-186.
Information Resources Integration of ArchivesWeb Site Based on Content Management Technology
YUE Xiu-zhi,ZHAO Jian-jian
(Zhongyuan University of Technology,Zhengzhou 450007,China)
Information resources integration is the core issue of archives Web site information.Based on content management technology,the statusof information resources integration are analyzed,and information extraction and storage methods of metadata model are summed up.
archives Web site;content management;integration of information resources;metadata
G270.7
A
10.3969/j.issn.1671-6906.2011.01.010
1671-6906(2011)01-0039-03
2011-01-08
河南省檔案局科技項(xiàng)目(2010-X-43)
岳修志(1972-),男,河南獲嘉人,副研究館員.