黃鳳愛(ài) 蔣永平 文艷華
〔摘 要〕本文針對(duì)當(dāng)前教學(xué)資源建設(shè)面臨的兩大困境——資源的可重用性低和利用不足,將語(yǔ)義Web的思想和本體技術(shù),引入到專業(yè)資源庫(kù)模型構(gòu)建中,提出了基于本體的專業(yè)資源庫(kù)語(yǔ)義模型。以搭建《測(cè)控技術(shù)與儀器專業(yè)資源庫(kù)》為例,探討該系統(tǒng)語(yǔ)義模型的可行性,并討論了本體模型的建立和概念查詢的實(shí)現(xiàn)。
〔關(guān)鍵詞〕本體;語(yǔ)義模型;專業(yè)資源庫(kù);概念查詢
〔中圖分類號(hào)〕TP399 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)05-0052-04
Research on Semantic Model of Ontology-based Resources LibrariesHuang Fengai1,2 Jiang Yongping1 Wen Yanhua1
(1.Information Engineering College,Guangdong University of Technology,Guangzhou 510006,China;
2.Library,Guangdong University of Technology,Guangzhou 510006,China)
〔Abstract〕According to the requirements of being used repeatedly and effectively on the educational resource,this paper presented a semantic model of ontology-based resources libraries.The ideas and technologies of semantic web were introduced.With measurement & control technology resources libraries,the feasibility of the model was illustrated.And besides,the foundation of ontology and the realization of concept retrieval were discussed.
〔Keywords〕ontology;semantic model;resources libraries;concept retrieval
隨著現(xiàn)代教育的發(fā)展,網(wǎng)絡(luò)學(xué)習(xí)(E-Learning)打破了教師授課的傳統(tǒng)模式,把獲取信息的途徑擴(kuò)展到因特網(wǎng)所能覆蓋的任何場(chǎng)所。網(wǎng)絡(luò)學(xué)習(xí)的有效開(kāi)展依靠的是數(shù)字化教學(xué)資源的廣泛共享和有效利用。
在目前的教學(xué)資源建設(shè)中,大多只是在資源上增加語(yǔ)法級(jí)元數(shù)據(jù)和結(jié)構(gòu)元數(shù)據(jù)的標(biāo)注信息來(lái)實(shí)現(xiàn)資源的組織和共享[1],這樣,網(wǎng)絡(luò)和計(jì)算機(jī)只是作為一種簡(jiǎn)單的載體和輔助工具來(lái)支持網(wǎng)絡(luò)學(xué)習(xí),不能提供智能服務(wù)和知識(shí)層面的發(fā)現(xiàn)和重用。增加語(yǔ)法級(jí)元數(shù)據(jù)的方法即利用XML(eXtensible Markup Language,可擴(kuò)展置標(biāo)語(yǔ)言)描述資源來(lái)實(shí)現(xiàn)共享[2]。XML的語(yǔ)義要靠人既有知識(shí)去理解,所以對(duì)于計(jì)算機(jī)來(lái)說(shuō),并不具有語(yǔ)義,也就達(dá)不到語(yǔ)義層面的重用。增加結(jié)構(gòu)元數(shù)據(jù)標(biāo)注就是使用LOM(Learning Object Metadata,學(xué)習(xí)對(duì)象元數(shù)據(jù))和DC(Dublin Core,都柏林核心集)等元數(shù)據(jù)標(biāo)準(zhǔn)組織資源。各種元數(shù)據(jù)標(biāo)準(zhǔn)雖然能夠在一定程度上揭示教學(xué)資源的內(nèi)容,但是現(xiàn)有元數(shù)據(jù)的簡(jiǎn)單結(jié)構(gòu),對(duì)于復(fù)雜事物的建模能力有限,不能揭示資源的內(nèi)在含義和聯(lián)系,加上多個(gè)數(shù)據(jù)之間采用的術(shù)語(yǔ)不一致,所以智能推理及用戶檢索結(jié)果的查全率和查準(zhǔn)率依然得不到提高,資源利用效率低下。
本體作為一種能在語(yǔ)義和知識(shí)層次上描述信息的概念模型,自被提出以來(lái)就引起了國(guó)內(nèi)外眾多科研人員的關(guān)注。在教育資源建設(shè)方面,Marvin Tan和Angela Goh應(yīng)用領(lǐng)域本體,實(shí)現(xiàn)了基于語(yǔ)義的教學(xué)資源的分類,瀏覽和查找[3]。但是,在國(guó)內(nèi)還少有這方面成熟的研究成果。
將語(yǔ)義Web的思想和本體技術(shù),引入到專業(yè)資源庫(kù)模型的構(gòu)建中,并以《測(cè)控技術(shù)與儀器專業(yè)資源庫(kù)》為例,給現(xiàn)有數(shù)字化教學(xué)資源增加語(yǔ)義描述信息,針對(duì)資源的可重用性和利用效率,采用基于語(yǔ)義的機(jī)制對(duì)資源進(jìn)行組織和管理,并探討了該模型的可行性。
1 系統(tǒng)模型
基于語(yǔ)義Web的思想和本體技術(shù),本課題組設(shè)計(jì)了如圖1所示的專業(yè)資源庫(kù)系統(tǒng)模型。
元素材資源層的原始數(shù)據(jù)按照素材類型分別存放,由媒體素材庫(kù)、試題庫(kù)、試卷庫(kù)、課件庫(kù)、案例庫(kù)、文獻(xiàn)資料庫(kù)、網(wǎng)絡(luò)課程庫(kù)、常見(jiàn)問(wèn)題解答庫(kù)和資源目錄索引庫(kù)組成。
資源描述層以XML作為語(yǔ)法層,RDF(Resource Description Framework,資源描述框架)作為資源描述模型,本體庫(kù)定義的概念作為語(yǔ)義元數(shù)據(jù),對(duì)元素材資源進(jìn)行標(biāo)注,生成相應(yīng)的標(biāo)注文件。
本體模型層的專業(yè)資源庫(kù)本體由9個(gè)分別對(duì)應(yīng)上述不同素材類型的子本體和1個(gè)《測(cè)控技術(shù)與儀器》領(lǐng)域子本體組成,為資源庫(kù)提供語(yǔ)義元數(shù)據(jù)的共享含義,包括在資源結(jié)構(gòu)、上下文層次和內(nèi)容分類上的理解。
邏輯推理層由本體模型層和資源描述層共同生成一個(gè)教學(xué)資源語(yǔ)義模型,推理引擎基于專業(yè)資源庫(kù)本體,查詢引擎基于資源標(biāo)注文件。
交互層和用戶界面層是在資源庫(kù)語(yǔ)義模型上的各種應(yīng)用,包括為用戶提供基于語(yǔ)義的搜索、知識(shí)重用、個(gè)性化學(xué)習(xí)服務(wù)以及內(nèi)容推送等。
下面就系統(tǒng)模型的核心部分進(jìn)行研究,重點(diǎn)討論本體模型的建立和概念查詢的實(shí)現(xiàn)。
2 本體模型層
本體模型層是整個(gè)系統(tǒng)模型的支撐,是資源庫(kù)實(shí)現(xiàn)知識(shí)重用和語(yǔ)義共享的基礎(chǔ)。
2.1 本體建模
本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模型上給出這些詞匯(術(shù)語(yǔ))和詞匯間相互關(guān)系的明確定義[4]。因此,在設(shè)計(jì)本體之前,首先要對(duì)其進(jìn)行建模,即用形式化方法定義本體的語(yǔ)義。目前還沒(méi)有一種一致的形式化本體定義標(biāo)準(zhǔn),不同研究者根據(jù)他們不同的研究與應(yīng)用背景,給出了不同的形式化定義。如四元組定義[5-6],五元組定義[7-8],六元組定義[9-10]。
本體的建模元語(yǔ)包括:類(Classes)或概念(Concepts)、關(guān)系(Relations)、函數(shù)(Functions),公理(Axioms)和實(shí)例(Instances)。從語(yǔ)義上分析,實(shí)例表示對(duì)象,概念則是對(duì)象的集合,關(guān)系代表領(lǐng)域中概念之間的交互作用,形式上定義為n維笛卡兒積的子集:R:C1×C2×…×Cn,函數(shù)是一類特殊的關(guān)系,公理代表永真斷言。本體是以關(guān)系為中心的,概念之間的關(guān)系體現(xiàn)的是本體模型的語(yǔ)義聯(lián)系。
根據(jù)實(shí)際需要,對(duì)資源庫(kù)本體結(jié)構(gòu)進(jìn)行研究,得到其形式化定義如下:
定義1 資源庫(kù)本體是一個(gè)六元組:
O={C,A,R,H,I,X}
其中,C是概念的集合;A是屬性的集合;R是關(guān)系的集合;H是概念層次;I是實(shí)例的集合;X是本體公理的集合。
定義2 資源庫(kù)本體中概念C是一個(gè)三元組:
Ci={Namei,Commenti,Syni}
其中,Namei是概念i的概念名,是惟一的;Commenti是對(duì)概念i的自然語(yǔ)言解釋;Syni是概念i的同義詞,可以為空,也可以有多個(gè)。
定義3 定義相似詞匯關(guān)系:Syni(A,B),當(dāng)且僅當(dāng)A是本體中的概念名,B是A在語(yǔ)義上相似的詞匯。相似詞匯關(guān)系是對(duì)稱的。
定義4 根據(jù)需要,我們考慮R的3種基本語(yǔ)義關(guān)系:
R={Is-a,Instance-of,Part-of}
其中,Is-a為上位關(guān)系,表示概念之間的種屬關(guān)系,是一個(gè)二元關(guān)系C1×C2,若C1=is-a(C2),則C1是C2的上位概念,比C2更具一般化;Instance-of關(guān)系表示實(shí)例與概念之間的從屬關(guān)系;Part-of關(guān)系表示概念之間部分與整體的關(guān)系。
為了實(shí)現(xiàn)語(yǔ)義上相關(guān)知識(shí)的推理,定義:
公理1 種屬概念關(guān)系是傳遞的。
2.2 領(lǐng)域本體構(gòu)建
研究基于語(yǔ)義的教學(xué)資源組織模型,其基本思想是利用領(lǐng)域本體和語(yǔ)義鏈網(wǎng)絡(luò)明確指示資源之間的語(yǔ)義結(jié)構(gòu),所以下面舉例討論《測(cè)控技術(shù)與儀器》領(lǐng)域本體的構(gòu)建。
學(xué)科分類以及學(xué)科各知識(shí)點(diǎn)的分類,是一種典型的概念分類體系。因此在領(lǐng)域分析和領(lǐng)域?qū)<覅⑴c的基礎(chǔ)上,參照《中國(guó)分類主題詞表》,根據(jù)2.1本體建模定義的關(guān)系,構(gòu)建《測(cè)控技術(shù)與儀器》領(lǐng)域本體?!稖y(cè)控技術(shù)與儀器》專業(yè)中的所有概念,形成了一個(gè)分類層次結(jié)構(gòu),如圖2所示。
本課題組選用斯坦福大學(xué)的protégé,建立了《測(cè)控技術(shù)與儀器》領(lǐng)域本體,核心類層次圖如圖3所示。
資源庫(kù)本體以文件的形式儲(chǔ)存,采用W3C(World Wide Web Consortium,萬(wàn)維網(wǎng)聯(lián)盟)2004年發(fā)布的本體描述語(yǔ)言O(shè)WL(Web Ontology Language,Web本體語(yǔ)言),生成領(lǐng)域本體文件。
3 資源描述層
資源描述層以本體模型為基礎(chǔ),為概念查詢中語(yǔ)義模型的建立提供支持,目標(biāo)是把教學(xué)資源按照本體模型的層次結(jié)構(gòu)進(jìn)行組織。
資源描述模型選用RDF框架,以增強(qiáng)數(shù)據(jù)模型在應(yīng)用程序間交換的語(yǔ)義表達(dá)能力。RDF模型采用主體(Subject)、謂詞(Predicate)、客體(Object)三元組模式,屬性邊有著明確的語(yǔ)義,而非XML單純的語(yǔ)法結(jié)構(gòu)上的包含關(guān)系,因此RDF模型能夠?qū)崿F(xiàn)資源語(yǔ)義元數(shù)據(jù)的標(biāo)注。
資源自動(dòng)標(biāo)注的實(shí)現(xiàn)思路是從本體模型中抽取語(yǔ)義元數(shù)據(jù),利用Jena提供的API,以語(yǔ)義元數(shù)據(jù)為屬性創(chuàng)建教學(xué)資源的RDF模型,形成標(biāo)注文件,存放于資源標(biāo)注庫(kù)。這樣,將資源的語(yǔ)義結(jié)構(gòu)明確定義并與原始資源分離,通過(guò)對(duì)標(biāo)注文件的操作來(lái)訪問(wèn)資源,能夠更有效地定位、查詢和管理數(shù)據(jù)資源,同時(shí)能夠更好地支持異構(gòu)數(shù)據(jù)源之間的互操作。
如圖4所示為某元素材資源的RDF模型。ex是媒體素材本體的名稱空間前綴,為了進(jìn)一步增加系統(tǒng)模型的互操作性,重用了Dublin Core的5個(gè)屬性:title,creator,subject,type,date。
4 邏輯推理層
邏輯推理層從本體模型層和資源描述層中提取數(shù)據(jù),形成一個(gè)描述教學(xué)資源的語(yǔ)義模型,通過(guò)推理引擎和查詢引擎為系統(tǒng)模型上層基于語(yǔ)義的應(yīng)用,特別是概念查詢的實(shí)現(xiàn)提供支持。
4.1 推理引擎
推理引擎以資源庫(kù)本體模型為依據(jù)進(jìn)行語(yǔ)義推理和擴(kuò)展,這種推理建立在邏輯的基礎(chǔ)上,因此邏輯推理算法和技術(shù)的發(fā)展可以應(yīng)用于本系統(tǒng)模型中,以提高系統(tǒng)語(yǔ)義推理和查詢的能力。
邏輯可分為命題邏輯(Propositional Logic)、一階邏輯(First Order Logic)、描述邏輯(Description Logic)和框架邏輯(Frame Logic)。描述邏輯研究概念知識(shí)的表示問(wèn)題,由4個(gè)部分組成:表示概念和關(guān)系的構(gòu)造集、術(shù)語(yǔ)公理集合Tbox、實(shí)例斷言集合Abox以及Tbox和Abox上的推理機(jī)制。描述邏輯基于概念和角色,概念解釋為對(duì)象集,角色解釋為對(duì)象之間的二元關(guān)系。
本系統(tǒng)選擇的本體描述語(yǔ)言O(shè)WL基于描述邏輯,可以看作與其等價(jià)的知識(shí)表示語(yǔ)言。在邏輯推理層,領(lǐng)域本體的概念形成事實(shí)庫(kù),相當(dāng)于Abox,本體模型的規(guī)則組成規(guī)則庫(kù),相當(dāng)于Tbox,事實(shí)庫(kù)和規(guī)則庫(kù)共同構(gòu)成推理引擎。如由本體模型的Syn關(guān)系,求得相似詞匯;借助Is-a關(guān)系和傳遞公理,對(duì)查詢進(jìn)行擴(kuò)展,是實(shí)現(xiàn)概念查詢的第一步。
4.2 查詢引擎
查詢引擎采用W3C2007年發(fā)布的語(yǔ)義查詢語(yǔ)言標(biāo)準(zhǔn)SPARQL(Simple Protocol and RDF Query Language,簡(jiǎn)單協(xié)議和RDF查詢語(yǔ)言),對(duì)查詢模型進(jìn)行基于RDF三元組的概念匹配,這是一種區(qū)別于傳統(tǒng)關(guān)鍵字匹配的檢索機(jī)制。針對(duì)如圖3所示的元素材資源的 一個(gè)SPARQL查詢?nèi)缦拢?/p>
PREFIX dc:<http://purl.org/dc/elements/1.1/>
SELECT? v
FROM<media.rdf>
WHERE{?v dc:subject“溫度傳感器”@zh}
PREFIX定義的是dc的前綴;SELECT指定查詢返回的內(nèi)容是一個(gè)資源節(jié)點(diǎn);FROM為可選項(xiàng),提供查詢操作使用數(shù)據(jù)集的URI,此處為一本地文件;WHERE子句由一組三元模式組成,用基于Turtle的語(yǔ)法表示。這些三元模式共同構(gòu)成了所謂的圖形模式。這個(gè)查詢實(shí)現(xiàn)的原理是把圖形模式的三元模式和資源的RDF模型進(jìn)行匹配。將每個(gè)圖形模式變量的綁定與模型節(jié)點(diǎn)進(jìn)行匹配,而SELECT子句中指定的變量值則成為查詢結(jié)果的一部分。因?yàn)樵赗DF模型(Subject-Predicate-Object)三元組陳述中,以URI(Uniform Resource Identifier,統(tǒng)一資源定位器)標(biāo)識(shí)資源,所以該查詢得到subject為“溫度傳感器”的資源的URI引用,這是實(shí)現(xiàn)概念查詢的第二步。
概念查詢實(shí)現(xiàn)的關(guān)鍵在于推理引擎合理的語(yǔ)義擴(kuò)展和查詢引擎正確的概念匹配。本課題組選擇描述邏輯和SPARQL,保證了推理的可判性和RDF概念匹配的效率。
5 結(jié) 語(yǔ)
針對(duì)網(wǎng)絡(luò)教學(xué)資源在互操作和利用率上的不足,提出了基于本體的專業(yè)資源庫(kù)語(yǔ)義模型,初步實(shí)現(xiàn)了資源帶語(yǔ)義的組織、管理和檢索利用。該語(yǔ)義模型的核心是本體模型的建立和概念查詢的實(shí)現(xiàn):本體模型的建立把教學(xué)資源的內(nèi)容和內(nèi)在聯(lián)系用知識(shí)表示語(yǔ)言統(tǒng)一定義,實(shí)現(xiàn)了資源語(yǔ)義能夠被機(jī)器所理解的目標(biāo),資源在不同數(shù)據(jù)源之間的重用性得以提高;概念查詢的實(shí)現(xiàn)使得用戶查詢建立在描述邏輯推理和RDF概念匹配上,查詢結(jié)果更全面和準(zhǔn)確,資源利用效率得到了提高。
參考文獻(xiàn)
[1]Brase J,Nejdl W.Ontologies and metadata for E-Learning[M].Berlin:Springer Verlag,2003:579-598.
[2]黃鳳愛(ài).基于XML的圖書(shū)信息管理系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2008,28(1):114-116.
[3]Tan M,Goh A.The use of ontologies in Web-based Learning:Proceedings of the 8th IEEE Int[A].Symposium on Wearable Computers[C].American,2004.
[4]鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2002,38(5):730-738.
[5]王洪偉,吳家春,蔣馥.基于描述邏輯的本體模型研究[J].系統(tǒng)工程,2003,(1):101-106.
[6]何麗,嚴(yán)冬梅.電子學(xué)習(xí)系統(tǒng)中的知識(shí)表示與知識(shí)發(fā)現(xiàn)模型研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(34):233-235,242.
[7]胡艷麗,白亮,張維明,等.知識(shí)網(wǎng)格中基于領(lǐng)域本體的智能檢索[J].計(jì)算機(jī)科學(xué),2007,34(8):202-207.
[8]王曉東,郭雷,方俊.本體驅(qū)動(dòng)的文本虛擬樣本構(gòu)造方法研究[J].計(jì)算機(jī)科學(xué),2008,35(3):142-145.
[9]趙波,馮潔.本體中繼承關(guān)系的形式化表示及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,(1):154-156.
[10]蔣維,郝文寧,楊曉恝.軍事訓(xùn)練領(lǐng)域核心本體的構(gòu)建[J].計(jì)算機(jī)工程,2008,34(5):191-192,212.