毛莉菊,李恒貝,彭其軍
(南京農(nóng)業(yè)大學(xué) 圖書與信息中心信息應(yīng)用部,江蘇 南京 210095)
基于本體的高校基礎(chǔ)數(shù)據(jù)組織研究
毛莉菊,李恒貝,彭其軍
(南京農(nóng)業(yè)大學(xué) 圖書與信息中心信息應(yīng)用部,江蘇 南京 210095)
本文引入本體論,圍繞人在學(xué)校中的活動進(jìn)行本體構(gòu)建,旨在探索一種系統(tǒng)的的挖掘、組織高?;A(chǔ)數(shù)據(jù)的方法,并在本體構(gòu)建的基礎(chǔ)上構(gòu)建一個統(tǒng)一、規(guī)范的高校基礎(chǔ)數(shù)據(jù)元數(shù)據(jù)集和信息標(biāo)準(zhǔn),確定數(shù)據(jù)表結(jié)構(gòu),為共享數(shù)據(jù)平臺構(gòu)建提供支持。同時還通過本體構(gòu)建,確立高?;A(chǔ)數(shù)據(jù)的管理準(zhǔn)則。
本體;基礎(chǔ)數(shù)據(jù);數(shù)據(jù)組織;本體構(gòu)建
隨著各高校信息化建設(shè)的進(jìn)一步深入,信息化建設(shè)正從應(yīng)用集成向信息集成邁進(jìn),這種信息集成是架構(gòu)在信息資源網(wǎng)的基礎(chǔ)上的。而信息資源網(wǎng)的基礎(chǔ)即數(shù)據(jù),可見如何有效地進(jìn)行信息(數(shù)據(jù))的組織、規(guī)范和管理是整個信息化建設(shè)的最基礎(chǔ)工作。
1.信息量大,類型復(fù)雜多樣
高校類似于一個小型社會,其管理及相關(guān)的實踐活動非常復(fù)雜,產(chǎn)生的信息類別及信息量也就可想而知了。
2.不同職能部門間數(shù)據(jù)的依存關(guān)系復(fù)雜
3.各職能部門間的數(shù)據(jù)相互獨(dú)立
在部門內(nèi)部可能存在統(tǒng)一的數(shù)據(jù)管理基礎(chǔ)標(biāo)準(zhǔn),但在部門間卻是不統(tǒng)一的。
4.基礎(chǔ)數(shù)據(jù)源不明確
即來自不同部門或不同系統(tǒng)的數(shù)據(jù)誰是權(quán)威數(shù)據(jù)不明確。
如何有效地對高校海量的不標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行系統(tǒng)地組織、規(guī)范,實現(xiàn)數(shù)據(jù)的共享與互操作是目前高校信息化建設(shè)面臨的難點(diǎn)之一。有些學(xué)校簡單地從某個職能部門或業(yè)務(wù)系統(tǒng)入手采集、組織相關(guān)信息,沒有從整個學(xué)校全局考慮,造成最后構(gòu)建的數(shù)據(jù)基礎(chǔ)標(biāo)準(zhǔn)不統(tǒng)一,如元數(shù)據(jù)標(biāo)準(zhǔn)、信息標(biāo)準(zhǔn)不統(tǒng)一。清華大學(xué)從劃分職能域、建立業(yè)務(wù)模型入手,利用元數(shù)據(jù)方案進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)制定其研究重點(diǎn)在于數(shù)據(jù)標(biāo)準(zhǔn)的制定。[1-3]本文嘗試引入本體理論,利用本體構(gòu)建方法來挖掘、梳理和組織高校基礎(chǔ)數(shù)據(jù),構(gòu)建一個統(tǒng)一、規(guī)范的高?;A(chǔ)數(shù)據(jù)元數(shù)據(jù)集,制定統(tǒng)一信息標(biāo)準(zhǔn),并為共享數(shù)據(jù)平臺構(gòu)建提供支持。
1.本體的概念
本體的概念最早出現(xiàn)在哲學(xué)領(lǐng)域,從哲學(xué)的范疇來說,本體是客觀存在的一個系統(tǒng)的解釋或說明,關(guān)心的是客觀現(xiàn)實的抽象本質(zhì)[4],在計算機(jī)與信息科學(xué)領(lǐng)域,理論上,本體是指一種“形式化的,對于共享概念體系的明確而又詳細(xì)的說明”[5]?;蛘哒f本體是特定領(lǐng)域中那些存在著的對象類型或概念及其屬性和相互關(guān)系[5]。常見的本體構(gòu)成要素包括:
實例(instances):代表元素,就是對象;
類(classes)或概念(concepts):對象的集合;
關(guān)系(relations):在領(lǐng)域中概念之間的交互作用,如子類關(guān)系;
函數(shù)(functions):特殊的關(guān)系,關(guān)系的前 n-1個元素可以唯一決定第n個元素。如Mother-of就是一個函數(shù),mother-of(x,y)表示y是x的母親;
公理(axioms):表示永真斷言,如概念乙屬于概念甲的范圍;
事件(action):屬性或關(guān)系的變化。
2.基于本體的信息組織方法
當(dāng)前基于本體的信息組織主要有三種方式:單本體方法、多本體方法和混合本體方法。在單本體結(jié)構(gòu)中,一個全局的本體為具體的語義說明提供了一個共享的詞匯表,所有的信息資源都聯(lián)系到這個全局本體上。而在多本體結(jié)構(gòu)中,每個信息資源都有自己的本地本體,它們并不一定使用同樣的詞匯表,且每個本體都可獨(dú)立發(fā)展。混合本體則是建立一個共享詞匯表,而每個信息源則用本地本體描述,其優(yōu)點(diǎn)是新的信息源可很方便地加入到源本體。[5]
大學(xué)的根本是人,從大學(xué)的各項活動(主要是教學(xué)、科研和社會服務(wù))來看,都是圍繞人(學(xué)生、教師)而進(jìn)行的,清華大學(xué)蔣東興老師也提出新一代數(shù)字校園特征之一就是以用戶為核心組織信息與服務(wù)。[6]所以在數(shù)據(jù)的組織上,先根據(jù)人員屬性對人員進(jìn)行分類,再對不同類型人員信息進(jìn)行本體構(gòu)建。由于高校數(shù)據(jù)源呈現(xiàn)多種多樣的環(huán)境,本文采用混合本體結(jié)構(gòu)來探究和構(gòu)建高?;A(chǔ)數(shù)據(jù)。本體構(gòu)建流程如圖1所示。
1.領(lǐng)域本體構(gòu)建
領(lǐng)域本體所建模的是某個特定領(lǐng)域,或者現(xiàn)實世界的一部分。它提供特定領(lǐng)域的概念定義、概念之間的關(guān)系、領(lǐng)域活動等。由于不同類型的人在同一活動中所扮演的角色是不同的,比如在教學(xué)活動中,教師與學(xué)生一個教一個學(xué),兩者所關(guān)注的信息對象是不同的,所以可分別按不同類型人員在學(xué)校的生命周期線上的各種活動來構(gòu)建領(lǐng)域本體。如圖2所示即是以教師為例所構(gòu)建的領(lǐng)域本體。
2.原型本體構(gòu)建
原型本體描述的是某一概念 (類)及其屬性以及關(guān)系、約束條件等。如圖3所示為科研項目原型本體。
3.本體整合與全校域本體綜合分析
依據(jù)圖1的本體構(gòu)建流程,本體整合分原型本體與上層領(lǐng)域本體的整合及原型本體間的整合。通過本體對各項業(yè)務(wù)和全校域本體的綜合分析,梳理各原型本體間的相互關(guān)系,對原先構(gòu)建的一些本體進(jìn)行整合。如通過對教師類本體的整合,發(fā)現(xiàn):(1)職稱評聘這一本體域與教師的教學(xué)、科研域等密切相關(guān),即對教學(xué)、科研域的數(shù)據(jù)有依存關(guān)系。(2)科研項目本體與科研成果本體有關(guān)聯(lián),科研成果數(shù)據(jù)依存于科研項目,所以在各科研成果原型本體構(gòu)建中要增加與項目相關(guān)的屬性。如在論文原型本體構(gòu)建中,增加“資助項目”這一屬性。同時,通過對學(xué)校各項業(yè)務(wù)和全校域本體的綜合分析,梳理各業(yè)務(wù)流間的關(guān)系,明確基礎(chǔ)數(shù)據(jù)的源頭,并制定基礎(chǔ)數(shù)據(jù)管理的準(zhǔn)則,即“誰產(chǎn)生誰負(fù)責(zé),誰需要誰提出”。比如教師的科研項目數(shù)據(jù),是由學(xué)校的科研管理部門對教師提供的數(shù)據(jù)進(jìn)行審核后產(chǎn)生的,那么這一基礎(chǔ)數(shù)據(jù)的元數(shù)據(jù)和信息標(biāo)準(zhǔn)(數(shù)據(jù)字典)由科研部門負(fù)責(zé)制定,整個基礎(chǔ)數(shù)據(jù)的準(zhǔn)確性也由科研部門負(fù)責(zé)。而人事部門在開展教師職稱評審業(yè)務(wù)時,需要科研信息中哪些基礎(chǔ)數(shù)據(jù)和這些基礎(chǔ)數(shù)據(jù)中的哪些元數(shù)據(jù),則應(yīng)由人事部門具體負(fù)責(zé)提出。
構(gòu)建本體的目的是通過本體構(gòu)建挖掘、組織高?;A(chǔ)數(shù)據(jù),構(gòu)建系統(tǒng)規(guī)范的元數(shù)據(jù)集,制定統(tǒng)一信息標(biāo)準(zhǔn),并最終通過關(guān)系數(shù)據(jù)庫的構(gòu)建進(jìn)行數(shù)據(jù)集成,消除數(shù)據(jù)的異構(gòu)性,實現(xiàn)數(shù)據(jù)共享。通過各原型本體的構(gòu)建,可以系統(tǒng)地對高校基礎(chǔ)數(shù)據(jù)中的元數(shù)據(jù)進(jìn)行規(guī)范編碼、明確各元數(shù)據(jù)的定義、約束條件、值范圍等,并制定信息標(biāo)準(zhǔn)。表1為以科研項目本體中的屬性為例構(gòu)建的“項目類別”元數(shù)據(jù)。
表1 項目類別元數(shù)據(jù)
“項目類別代碼”即項目類別的標(biāo)準(zhǔn)。標(biāo)準(zhǔn)的制定要遵循國家、教育部已有的、高校較為通用的標(biāo)準(zhǔn),對于個別元數(shù)據(jù)值空間不好規(guī)范的,制定出校級參考代碼,即校級標(biāo)準(zhǔn)。而原型本體與關(guān)系數(shù)據(jù)庫的轉(zhuǎn)換策略可以如下:
(1)原型本體里定義的一個類(概念)對應(yīng)一個數(shù)據(jù)表。
(2)原型本體里定義的類的屬性即為數(shù)據(jù)表中的字段。類的屬性里,有objecttype類型,有datatype類型,對于objecttype類型的屬性,須規(guī)定其domain和range值來指定與其有關(guān)聯(lián)的表。
如以圖3的科研項目原型本體可構(gòu)建四個數(shù)據(jù)表:科研項目、項目負(fù)責(zé)人、項目參加人、項目經(jīng)費(fèi)。如表2和表3分別為科研項目和項目參加人數(shù)據(jù)表。
表2 科研項目數(shù)據(jù)表
表3 項目參加人員數(shù)據(jù)表
其中在表2中,objecttype類型屬性字段有:項目負(fù)責(zé)人和項目參加人,其對應(yīng)domain是“人事基本信息”,其需要的range為:姓名、工號、所在單位、聯(lián)系電話、聯(lián)系郵箱。而datatype類型中的“項目大類”、“項目類別”、“項目來源”的值空間是需統(tǒng)一規(guī)范的,即制定信息標(biāo)準(zhǔn)。通過全校域綜合分析,可以對同類原型本體在構(gòu)建數(shù)據(jù)表時進(jìn)行歸類整合。如研究生也參加了導(dǎo)師項目研究工作,其科研項目原型本體與教師的科研項目原型本體是相類同的,可構(gòu)建同一個科研項目數(shù)據(jù)表,然后在項目參加人員數(shù)據(jù)表中增加“人員類別”字段來區(qū)分項目參加人員的身份即可。
本文引入本體理論,運(yùn)用本體構(gòu)建方法對高?;A(chǔ)數(shù)據(jù)進(jìn)行系統(tǒng)地梳理和組織,構(gòu)建了一個統(tǒng)一的、規(guī)范高?;A(chǔ)數(shù)據(jù)的元數(shù)據(jù)集和信息標(biāo)準(zhǔn),為共享數(shù)據(jù)平臺構(gòu)建提供了支持。
[1]王映雪,蔣東興,羅念龍等.信息資源規(guī)劃的方法與實踐[A].奮斗的歷程,豐碩的成果(三).計算機(jī)與信息管理中心成立三十五周年論文集[C].北京:清華大學(xué)計算機(jī)與信息管理中心,2011:65-71.
[2]蔣東興,佟秋利,蔣磊宏等.高等學(xué)校管理信息標(biāo)準(zhǔn)體系研究[A].奮斗的歷程,豐碩的成果(三).計算機(jī)與信息管理中心成立三十五周年論文集[C].北京:清華大學(xué)計算機(jī)與信息管理中心,2011:82-88.
[3]高校信息標(biāo)準(zhǔn)呼之欲出-《Celts-33高等學(xué)校管理信息標(biāo)準(zhǔn)》全接觸[A].奮斗的歷程,豐碩的成果(三).計算機(jī)與信息管理中心成立三十五周年論文集[C].北京:清華大學(xué)計算機(jī)與信息管理中心,2011:76-81.
[4]王淼洋.東西方哲學(xué)比較研究[M].上海:上海教育出版社,1994:97-104.
[5]維基百科[EO/OL.[2011-7-20]http://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6).
[6]蔣東興,金勤獻(xiàn),管志遠(yuǎn)等.大學(xué)資源計劃管理思想探討[A].奮斗的歷程,豐碩的成果(三).計算機(jī)與信息管理中心成立三十五周年論文集[C].北京:清華大學(xué)計算機(jī)與信息管理中心,2011:21-28.
G203
A
1673-8454(2012)05-0015-03
(編輯:楊馥紅)