劉振峰
【摘要】本體是信息領(lǐng)域近年來受到普遍關(guān)注的一個研究方向。針對教育資源管理現(xiàn)狀,本文闡述了本體的基本理論,提出了一種本體構(gòu)建模型和檢索模型。
【關(guān)鍵詞】本體 教育領(lǐng)域 本體構(gòu)建 本體檢索
【課題項目】本文為山東省高等學(xué)??萍加媱濏椖俊盎诒倔w的教育資源表示與集成研究”的成果之一,項目編號:J13LN03。
【中圖分類號】G64 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2016)31-0002-02
隨信息技術(shù)的不斷發(fā)展,教育信息資源數(shù)量隨各教育部門信息化建設(shè)的進(jìn)程不斷增加,層出不窮的學(xué)習(xí)資源在給學(xué)習(xí)者提供便利的同時,也讓學(xué)習(xí)者面臨難于選擇合適資源、資源內(nèi)容不符合自身要求等問題。近年來本體(Ontology)在信息領(lǐng)域引起大家的重視。作為一種有效表示知識層次和語義的概念模型,本體論已被廣泛應(yīng)用于圖書情報處理、知識管理、網(wǎng)絡(luò)搜索、數(shù)據(jù)集成、語義Web服務(wù)等領(lǐng)域之中。
一、本體理論
在哲學(xué)概念中,本體是指對事物自身的抽象,描述的是事物的性質(zhì)或其根源。在計算機(jī)界,普遍認(rèn)為“Ontology是共享概念模型的明確的形式化規(guī)范說明”[1]。這個定義主要包括四個主要方面:概念模型(conceptualization)、明確(explicit)、形式化(formal)、共享(share)。
本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出了這些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義[2]。構(gòu)造本體對實現(xiàn)知識共享和重用、提高系統(tǒng)通訊和互操作、提高系統(tǒng)可靠性都有重要意義。
在計算機(jī)領(lǐng)域,本體論包含類(class)、關(guān)系(relations)、函數(shù)(functions)、公理(axioms) 和實例(instances)5個基本的建模元素。
本體的實現(xiàn)要通過本體語言進(jìn)行。本體語言種類繁多,既有專用的本體語言,也用基于某種標(biāo)準(zhǔn)的本體語言。在網(wǎng)絡(luò)資源處理中,OWL(Web Ontology Language)是W3C組織推出的標(biāo)準(zhǔn)網(wǎng)絡(luò)本體語言。
二、本體的構(gòu)建原則
本體的構(gòu)建是一個復(fù)雜的系統(tǒng)化過程,目前沒有一個標(biāo)準(zhǔn)的本體構(gòu)建方法。本體構(gòu)建原則最有影響的是Gruber(Toward Principles for the Design of Ontologies Used for Knowledge Sharing)在1995年提出的5條規(guī)則[3]。
1.清晰(Clarity)
本體必須明確的定義相關(guān)術(shù)語的含義。該定義必須是客觀的,與其周邊因素相互獨立。
2.一致(Coherence)
本體所定義的公理及使用自然語言進(jìn)行描述的文檔應(yīng)當(dāng)一致,并支持延展的、與定義相一致的推理。
3.可拓展性(Extendibility)
本體應(yīng)是可拓展的,以已有的定義為概念基礎(chǔ),可以不需對已有定義進(jìn)行修改就對拓展出的新術(shù)語進(jìn)行定義。
4.編碼偏好程度最?。∕inimal encoding bias)
構(gòu)建本體時,對概念的描述盡可能采用通用的方法,不要依賴某一種特殊方法。
5.本體約定最小(Minimal ontological Commitment)
本體構(gòu)建時只需考慮最基本的共享知識即可,這樣可以盡可能的減少約束。
這5條規(guī)則對本體的構(gòu)建提出了基本的原則和思路,但并沒有提供明確的易于操作的手段。在本體的構(gòu)建中,我們要根據(jù)實際應(yīng)用的需求,靈活使用這些規(guī)則,構(gòu)建出高質(zhì)量的符合我們要求的本體。
三、教育領(lǐng)域本體構(gòu)建
本體的建設(shè)應(yīng)當(dāng)面向用戶的需求,根據(jù)教育資源信息處理的特點,教育領(lǐng)域本體應(yīng)該能夠清晰地表示教育領(lǐng)域主要的概念術(shù)語、屬性以及相互關(guān)系,對教育領(lǐng)域活動所具有的屬性規(guī)律進(jìn)行形式化的描述[4]。用戶的學(xué)習(xí)程度、知識的更新、技術(shù)的發(fā)展等,都是本體構(gòu)建時需考慮的因素。
本文結(jié)合教育資源建設(shè)中的課程資源建設(shè),提出一種本體構(gòu)建方法,流程圖如下(圖1)。
1.需求分析
該階段的任務(wù)是明確整項工作的目標(biāo)、用途、知識范圍。主要包括:本體構(gòu)建的目的是什么,要針對何種應(yīng)用、達(dá)到何種目標(biāo)?本體針對什么樣的目標(biāo)人群,構(gòu)建過程中涉及哪些知識領(lǐng)域?本體構(gòu)建要采用哪種本體語言?對于課程資源建設(shè)來講,就需考慮課程建設(shè)的最終目標(biāo)、針對的學(xué)習(xí)者情況、涉及的知識點及其衍生的知識點等。
2.確立目標(biāo)任務(wù)
該階段對本體構(gòu)建的過程進(jìn)行詳細(xì)規(guī)劃。要根據(jù)本體構(gòu)建的最終目標(biāo),結(jié)合具體的需求和資源情況,制訂出詳細(xì)的實施計劃。需明確的內(nèi)容包括本體構(gòu)建的方法、參加任務(wù)的人員情況、人員的分工、任務(wù)的時間節(jié)點、各階段需達(dá)到的目標(biāo)等。
3.本體信息采集
該階段需對領(lǐng)域相關(guān)信息進(jìn)行充分的分析,相關(guān)的專業(yè)文獻(xiàn)、書籍、網(wǎng)絡(luò)信息、其它的本體等,都是該階段需關(guān)注的內(nèi)容。中國圖書館分類法編委會教育專業(yè)分類表編輯組編輯的《教育主題詞表》是信息采集中一個重要的參考和依據(jù)。對于課程資源,需要采集各知識點,明確知識點所針對的資源及知識點的前導(dǎo)后繼、相互關(guān)系等。
4.確定重點概念,形成概念體系
在信息采集的基礎(chǔ)上,通過對知識的分析和征集專家的意見,確定該領(lǐng)域中的重點概念,并用精準(zhǔn)的術(shù)語進(jìn)行描述。對于課程資源中的重點知識,應(yīng)按照一定的規(guī)則對它們進(jìn)行劃分,形成不同的知識范圍,在同一范圍內(nèi),在考慮前導(dǎo)后繼、整體和部分的基礎(chǔ)上,去除重復(fù)的和不相關(guān)的知識。
5.利用本體語言和工具,進(jìn)行可視化編碼
選擇合適的本體語言工具,進(jìn)行可視化編碼,建立可實現(xiàn)檢索和擴(kuò)展的本體庫。本體的表示語言很多,其中OWL(Web ontology Language)是語義表達(dá)能力最強(qiáng)的描述語言。[5]
6.本體確認(rèn)與評價
對本體進(jìn)行編碼描述后,還需通過測試進(jìn)行本體確認(rèn)和評價,包括是否滿足本體構(gòu)建需求、本體描述是否清晰、關(guān)系的完整性等。
7.存儲
按照本體存儲介質(zhì)的不同,本體的存儲方法大致分為基于內(nèi)存的存儲方式、純文本存儲方式、基于數(shù)據(jù)庫的存儲方式和專門的管理工具方式四種,其中研究最多、應(yīng)用最廣的就是基于數(shù)據(jù)庫的存儲方式。[6]課程資源建設(shè)一般采用以數(shù)據(jù)庫存儲為主,其它手段為輔的存儲方式。
本體構(gòu)建完成后,還應(yīng)按照構(gòu)建需求和學(xué)科的發(fā)展,對資源庫進(jìn)行進(jìn)一步的優(yōu)化完善和后續(xù)建設(shè)。
四、教育領(lǐng)域本體檢索
傳統(tǒng)的信息檢索模式是使用搜索引擎,利用關(guān)鍵詞進(jìn)行查詢,檢索結(jié)果的準(zhǔn)確性不是太高。利用本體技術(shù)檢索能加強(qiáng)用戶與資源之間的語義溝通,大幅提高檢索結(jié)果的準(zhǔn)確性。
在教育資源本體構(gòu)建模型的基礎(chǔ)上,建立教育領(lǐng)域本體語義信息檢索模型,如圖2所示。
該模型包括用戶接口、語義處理模塊、數(shù)據(jù)存儲模塊等幾項內(nèi)容。
用戶接口負(fù)責(zé)實現(xiàn)同用戶的交流,主要包括用戶界面、語義查詢接口、語義標(biāo)注接口、服務(wù)調(diào)用接口、資源采集接口等,負(fù)責(zé)將用戶的輸入轉(zhuǎn)換成本體相應(yīng)格式,并調(diào)用語義處理模塊進(jìn)行處理。
語義處理模塊主要包括資源預(yù)處理、概念提取、索引、查詢等,負(fù)責(zé)完成信息的收集與檢索功能。該部分的效率決定了整個系統(tǒng)的效率。
數(shù)據(jù)存儲模塊包括教育領(lǐng)域本體庫、索引數(shù)據(jù)庫、資源庫,分別完成對領(lǐng)域知識、資源元數(shù)據(jù)和資源的存儲。
五、總結(jié)
針對目前教育信息化建設(shè)中存在的問題,本文研究了利用本體在教育資源集成中的應(yīng)用,提出了構(gòu)建教育資源本體庫和本體檢索的模型。本體的構(gòu)建是一個長期復(fù)雜的過程,不可能一蹴而就。本體技術(shù)及相關(guān)研究正在快速發(fā)展,相信隨著相關(guān)技術(shù)的進(jìn)步和成熟,各種基于本體的教育資源管理平臺會大量出現(xiàn),推動我國教育事業(yè)進(jìn)一步發(fā)展。
參考文獻(xiàn):
[1]Paolo Ciancarini,A bibliograpghy on coordination.1997.
[2]廖軍. 基于領(lǐng)域本體的信息檢索研究[D].長沙:中南大學(xué),2007.
[3]Gruber T. Towards Principles for the Design of Ontologies Used for Knowledge Sharing. International Journal of Human?鄄Computer Studies,1995;43(5~6).
[4]馬捷.教育領(lǐng)域本體構(gòu)建研究[J].情報理論與實踐,2012(7):104-108.
[5]Muller H M,Kenny E E,Sternberg P W.Textpresso:An ontology?鄄based information retrieval and extraction.
[6]傅柱.本體存儲技術(shù)研究綜述[J].情報理論與實踐,2013(9):118-123.