殷美
摘要:介紹了國(guó)外一些著名的領(lǐng)域本體構(gòu)建方法及本體構(gòu)建中存在的問(wèn)題;介紹了軟件工程中螺旋開(kāi)發(fā)模型。通過(guò)借鑒其它領(lǐng)域本體的構(gòu)建方法及螺旋開(kāi)發(fā)模型,提出了一種新的工程化的領(lǐng)域本體構(gòu)建方法并通過(guò)構(gòu)建高校教務(wù)管理領(lǐng)域本體檢驗(yàn)其有效性。
關(guān)鍵詞:本體;構(gòu)建方法;螺旋模型
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)24-5913-04
Research on Domain Ontology Building Method
YIN Mei
( Institute of Information Engineering, Lianyungang Technical College, Lianyungang 222000, China)
Abstract: This paper introduces the basic concept of the domain ontology, domain ontology construction method and some problems in Constructing Ontology; introduced the software engineering spiral development model. Through drawing lessons from the other domain ontology construction method and a spiral development model, put forward a kind of new project of domain ontology construction meth od.
Key words: ontology; construction method; spiral model
1本體構(gòu)建方法
本體原本是哲學(xué)上的一個(gè)概念,主要探討現(xiàn)實(shí)世界的基本特征。近年來(lái),人工智能、語(yǔ)義web相關(guān)領(lǐng)域的學(xué)者也開(kāi)始將本體論的觀念用在知識(shí)表達(dá)上,使其成為一種能在語(yǔ)義和知識(shí)層次上描述信息系統(tǒng)的概念模型的建模工具。目前Ontology已經(jīng)被廣泛應(yīng)用到包括計(jì)算機(jī)科學(xué)、電子商務(wù)、數(shù)據(jù)挖掘、智能檢索等在內(nèi)的諸多領(lǐng)域。特別是做為語(yǔ)義Web的關(guān)鍵技術(shù)之一,本體及其相關(guān)技術(shù)已成為研究熱點(diǎn)。領(lǐng)域本體描述的是特定領(lǐng)域(醫(yī)學(xué)、地理、生物等)中的概念及概念之間的關(guān)系。
本體的構(gòu)建主要有三種模式:一是人工模式,由領(lǐng)域?qū)<医柚ぞ咄瓿杀倔w構(gòu)建;二是半自動(dòng)模式,基于大量領(lǐng)域數(shù)據(jù),在領(lǐng)域?qū)<业膮f(xié)助下完成本體構(gòu)建;三是自動(dòng)模式,運(yùn)用數(shù)據(jù)挖掘、人工智能等方法,基于大量的領(lǐng)域數(shù)據(jù)完成本體構(gòu)建。上述三種模式各有優(yōu)劣,人工模式代價(jià)較大,所構(gòu)建的本體靈活性不足;自動(dòng)模式構(gòu)建的本體實(shí)施難度較大、準(zhǔn)確性不高;而半自動(dòng)模式可行性較好,已有不少專家提出不同的構(gòu)建方法。目前業(yè)界公認(rèn)的,為大家所熟知的本體構(gòu)建方法[1]有:
1)IDEF-5方法
1980年美國(guó)空軍公布ICAM工程中首次使用IDEF名稱,是在結(jié)構(gòu)化分析和設(shè)計(jì)方法為基礎(chǔ)上發(fā)展的一套系統(tǒng)分析和設(shè)計(jì)方法。IDEF-5是其中一個(gè)版本,它通過(guò)圖表語(yǔ)言和細(xì)化說(shuō)明語(yǔ)言兩種語(yǔ)言形式來(lái)獲取某個(gè)領(lǐng)域的本體,通過(guò)過(guò)程流圖和對(duì)象狀態(tài)移動(dòng)網(wǎng)圖兩種圖表來(lái)獲取、管理和顯示過(guò)程[2]。基本流程如下:組織并確定范圍;數(shù)據(jù)收集;數(shù)據(jù)分析;初始化本體建立;本體的精煉與確認(rèn)。
2)Skeletal Methodolody骨架法(Uschold方法)
Mike Uschold & Micheal Gruninger的骨架法(Skeletal Methodology),專門(mén)用來(lái)創(chuàng)建企業(yè)本體,是相關(guān)商業(yè)企業(yè)間術(shù)語(yǔ)和定義的集合?;玖鞒倘缦拢捍_定本體應(yīng)用目的和范圍;建設(shè)本體;評(píng)價(jià);文檔化。
3)Methontology方法
Methontology方法是Mariano Fernandez & GOMEZ-PEREZ等的人在開(kāi)發(fā)馬德里大學(xué)人工智能圖書(shū)館時(shí)提出的一種更為通用的本體建設(shè)方法。它結(jié)合了骨架法和GOMEZ-PEREZ方法,更接近軟件工程開(kāi)發(fā)方法。基本流程如下:規(guī)格說(shuō)明書(shū);知識(shí)獲??;概念化;集成;實(shí)現(xiàn);評(píng)價(jià);文檔化。
4)循環(huán)獲取法
Alexander Maedche等的循環(huán)獲取法是一種類(lèi)似環(huán)狀的結(jié)構(gòu)?;玖鞒倘缦拢嘿Y源選??;概念學(xué)習(xí);領(lǐng)域集中;關(guān)系學(xué)習(xí);評(píng)價(jià);如此循環(huán)。
5)七步法
該方法由斯坦福大學(xué)醫(yī)學(xué)院開(kāi)發(fā)的主要用于領(lǐng)域本體的構(gòu)建。基本流程(七個(gè)步驟)如下:確定本體的專業(yè)領(lǐng)域和范疇;是否可以復(fù)用現(xiàn)有本體;列出本體中的重要術(shù)語(yǔ);定義類(lèi)和類(lèi)的等級(jí)關(guān)系;定義類(lèi)的屬性;定義屬性的分面;創(chuàng)建實(shí)例[3]。
不管是哪種構(gòu)建方法,領(lǐng)域?qū)<以跇?gòu)建本體時(shí)都應(yīng)遵循以下原則[4]:術(shù)語(yǔ)清晰、推理一致、可擴(kuò)展性、最小編碼、本體約定最小。
2目前本體構(gòu)建中存在的問(wèn)題
目前的領(lǐng)域本體構(gòu)建還處于探索性研究階段,在這個(gè)過(guò)程中還存在許多問(wèn)題,主要問(wèn)題有:
1)手工構(gòu)建,自動(dòng)化程度不高。
目前本體的構(gòu)建方法主要依賴領(lǐng)域?qū)<遗c本體研究小組的手工構(gòu)建,多數(shù)起源于某一具體的開(kāi)發(fā)項(xiàng)目,如Methontology方法、七步法等。開(kāi)發(fā)代價(jià)較大,所構(gòu)建本體只適用于特定項(xiàng)目范圍,靈活性及自動(dòng)化程度不高。
2)無(wú)統(tǒng)一構(gòu)建標(biāo)準(zhǔn),本體難以重用和共享。
目前每個(gè)本體開(kāi)發(fā)團(tuán)隊(duì)都有自己的本體建模標(biāo)準(zhǔn)、開(kāi)發(fā)指導(dǎo)原則、設(shè)計(jì)標(biāo)準(zhǔn),難以實(shí)現(xiàn)本體的共享和重用。知識(shí)工程界定義統(tǒng)一本體構(gòu)建標(biāo)準(zhǔn),已成為研究重點(diǎn)。
3)無(wú)統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn)。
目前尚無(wú)統(tǒng)一的評(píng)價(jià)方法和工具,國(guó)內(nèi)外專門(mén)對(duì)于本體評(píng)價(jià)的理論研究也相當(dāng)少。而在本體構(gòu)建的每個(gè)生命周期都應(yīng)進(jìn)行合理的評(píng)價(jià),有助于本體在下一周期的進(jìn)化。
3螺旋開(kāi)發(fā)模型
螺旋模型[5]是一種演化軟件開(kāi)發(fā)過(guò)程模型,它兼顧了快速原型的迭代的特征以及瀑布模型的系統(tǒng)化與嚴(yán)格監(jiān)控。它的每一個(gè)周期都包括需求定義、風(fēng)險(xiǎn)分析、工程實(shí)現(xiàn)和評(píng)審4個(gè)階段,由這4個(gè)階段進(jìn)行迭代。軟件開(kāi)發(fā)過(guò)程每迭代一次,軟件開(kāi)發(fā)又前進(jìn)一個(gè)層次。采用螺旋模型的軟件過(guò)程如圖1所示。
圖1采用螺旋模型的軟件過(guò)程
螺旋模型沿著螺線進(jìn)行若干次迭代,圖中的四個(gè)象限代表了以下活動(dòng):
1)制定計(jì)劃:確定軟件目標(biāo),選定實(shí)施方案,弄清項(xiàng)目開(kāi)發(fā)的限制條件;
2)風(fēng)險(xiǎn)分析:分析評(píng)估所選方案,考慮如何識(shí)別和消除風(fēng)險(xiǎn);
3)實(shí)施工程:實(shí)施軟件開(kāi)發(fā)和驗(yàn)證;
4)客戶評(píng)估:評(píng)價(jià)開(kāi)發(fā)工作,提出修正建議,制定下一步計(jì)劃。
螺旋模型支持用戶需求的動(dòng)態(tài)變化,為用戶參與軟件開(kāi)發(fā)的所有關(guān)鍵決策提供了方便,有助于提高目標(biāo)軟件的適應(yīng)能力。其生命周期的不斷進(jìn)化和本體的構(gòu)建過(guò)程是非常相似的。
4工程化的領(lǐng)域本體構(gòu)建方法
我們?cè)敿?xì)研究了上述幾種本體構(gòu)建方法,發(fā)現(xiàn)骨架法主要提供了本體開(kāi)發(fā)的指導(dǎo)思想,對(duì)細(xì)節(jié)描述較少,七步法更多描述的是怎樣形式化表示知識(shí),對(duì)前期知識(shí)的收集、分析以及開(kāi)發(fā)人員與領(lǐng)域?qū)<以鯓雍献鞅硎霾粔蛟敿?xì)[6]。而在實(shí)際工作中,如果得不到領(lǐng)域?qū)<业闹笇?dǎo),開(kāi)發(fā)人員往往不能按計(jì)劃完成任務(wù)。因此該文結(jié)合上述本體構(gòu)建方法及參照軟件工程的螺旋開(kāi)發(fā)模型的迭代特點(diǎn),得出適合工程化的領(lǐng)域本體的構(gòu)建方法所圖2所示,在得不到領(lǐng)域?qū)<业闹笇?dǎo)的情況下,由開(kāi)發(fā)人員先快速開(kāi)發(fā)出原型本體,在通過(guò)后續(xù)的進(jìn)化工作進(jìn)化本體,同時(shí)在構(gòu)建的過(guò)程中考慮該領(lǐng)域本體庫(kù)中是否有現(xiàn)有本體可以共享和重用[7]。我們以構(gòu)建高校教務(wù)管理領(lǐng)域本體為例,通過(guò)它來(lái)具體實(shí)現(xiàn)工程化的領(lǐng)域本體構(gòu)建方法。
圖2本體開(kāi)發(fā)過(guò)程
第一步本體領(lǐng)域設(shè)定。主要包括確定本體將覆蓋的專業(yè)領(lǐng)域、應(yīng)用目標(biāo)、作用范圍、系統(tǒng)維護(hù)者與應(yīng)用對(duì)象。在此過(guò)程中要注意把握領(lǐng)域范圍的大小,一味擴(kuò)大本體范圍會(huì)增加開(kāi)發(fā)成本及工程開(kāi)發(fā)難度;本體范圍太小無(wú)法滿足實(shí)際需求,所以應(yīng)盡量使本體在較小范圍內(nèi)最大滿足實(shí)際需求。高校教務(wù)管理領(lǐng)域本體主要是把現(xiàn)實(shí)世界中有關(guān)教務(wù)管理的活動(dòng)(課程、學(xué)生、教師、教學(xué)資源等之間的關(guān)系)抽象為一組概念及概念之間的關(guān)系。構(gòu)建該本體的作用是方便教務(wù)管理者統(tǒng)一、合理的分配教學(xué)資源并為優(yōu)化教學(xué)資源提供決策。本體的系統(tǒng)維護(hù)者是教務(wù)處的工作人員,應(yīng)用對(duì)象是最終用戶,即廣大教職工和在校學(xué)生。
第二步確定概念、關(guān)系等。這一步主要包括列出本體中的重要術(shù)語(yǔ)、概念;定義領(lǐng)域中概念及概念之間的關(guān)系;定義類(lèi)的屬性;定義本體的層次結(jié)構(gòu)。在此過(guò)程中重點(diǎn)是確定領(lǐng)域本體的核心概念,要保證核心概念及其關(guān)系一定是該領(lǐng)域相關(guān)的并且可以用精確的術(shù)語(yǔ)表達(dá)出來(lái)。下面列出教務(wù)管理領(lǐng)域本體的重要術(shù)語(yǔ)、概念、概念之間的關(guān)系、類(lèi)的屬性、層次結(jié)構(gòu)。
1)重要術(shù)語(yǔ)、概念。概念所代表的客觀事物可以是具體的,也可以是抽象的。在教務(wù)管理領(lǐng)域本體中包括的重要術(shù)語(yǔ)、概念有:課程;教師;學(xué)生;所選課程;成績(jī);教學(xué)日歷;教學(xué)考核;教師培訓(xùn);教學(xué)設(shè)備;教材等。
2)概念及概念之間的關(guān)系。概念及概念之間的關(guān)系主要有四種:part-of;kind-of;instance-of;attribute-of。我們通過(guò)分析,在教務(wù)管理領(lǐng)域概念及概念之間的關(guān)系主要有:
<1>part-of:表達(dá)概念之間部分與整體的關(guān)系。例如:教學(xué)資源是整體概念,教學(xué)設(shè)備,教材,教室是教學(xué)資源的一部分。
<2>kind-of:表達(dá)概念之間的繼承關(guān)系。例如:教學(xué)日歷與教學(xué)材料是繼承關(guān)系;教學(xué)考核,教師培訓(xùn)與教務(wù)過(guò)程是繼承關(guān)系。
<3>instance-of:表達(dá)概念的實(shí)例與概念之間的關(guān)系。例如:20020206019是學(xué)號(hào)的一個(gè)實(shí)例;陳芳是教師姓名的一個(gè)實(shí)例。
<4>attribute-of:表達(dá)某個(gè)概念是另一個(gè)概念的屬性。例如:課程代號(hào)是課程的一個(gè)屬性;教工號(hào)是教師的一個(gè)屬性。
3)類(lèi)的屬性。類(lèi)的屬性主要有數(shù)據(jù)屬性和對(duì)象屬性。數(shù)據(jù)屬性主要描述類(lèi)實(shí)例與RDF文字或XMLschema[7]數(shù)據(jù)類(lèi)型間的關(guān)系;對(duì)象屬性描述兩個(gè)類(lèi)的實(shí)例間的關(guān)系。例如:學(xué)號(hào),姓名是學(xué)生的數(shù)據(jù)屬性;教室,教材是教學(xué)資源的對(duì)象屬性。
4)類(lèi)的層次結(jié)構(gòu)。通過(guò)層次結(jié)構(gòu),形成了一個(gè)領(lǐng)域知識(shí)的框架體系。類(lèi)是本體中最主要的知識(shí)單元,用以對(duì)概念明確的、格式化描述[8]。類(lèi)具有繼承性并有一定的層次結(jié)構(gòu)。層次結(jié)構(gòu)的設(shè)計(jì)一般有自頂向下法、自底向上法或綜合法三種方法。我們采用的是自頂向下的方法。先定義頂級(jí)類(lèi),而后通過(guò)添加子類(lèi)將這些概念細(xì)化。
第三步建立本體模型,這一步主要包括選擇合適的構(gòu)建本體的開(kāi)發(fā)工具。目前開(kāi)體開(kāi)發(fā)工具有數(shù)十種,其中較著名的有:Protégé、Ontolingua、OilEd等。該文選用的是Protégé工具(Protégé3.4.4版本),構(gòu)建的本體模型(部分)[9]如圖3所示。
第四步對(duì)領(lǐng)域本體進(jìn)行編碼、形式化。通過(guò)適當(dāng)?shù)谋倔w描述語(yǔ)言對(duì)領(lǐng)域本體進(jìn)行形式化編碼。這是非常重要的一環(huán),為了讓機(jī)器可理解,需要用形式化定義的方式對(duì)本體的術(shù)語(yǔ)進(jìn)行編碼。編碼的方法主要有:OWL、RDF、XML等等。在這一步中,要檢查是否符合形式化、便于機(jī)器處理的要求。在建模過(guò)程中,如果出現(xiàn)類(lèi)缺失、矛盾等情況,使其不能明確的表示,無(wú)法組成嚴(yán)格的邏輯關(guān)系,需要返回上一步,重新定義概念或進(jìn)行求證。
第五步進(jìn)行本體的測(cè)試和評(píng)價(jià)。在很多本體的構(gòu)建方法中,經(jīng)過(guò)上面幾個(gè)步驟,已經(jīng)意味著本體構(gòu)建的完成。事實(shí)上在成熟的軟件工程的開(kāi)發(fā)方法中,系統(tǒng)測(cè)試是非常重要的一步,因此本體也需要測(cè)試和評(píng)價(jià)。本體測(cè)試的內(nèi)容主要包括:是否滿足用戶的需求;是否遵守本體的構(gòu)建原則;是否清晰地定義了本體中的概念或術(shù)語(yǔ);概念是否全面,概念之間的關(guān)系是否完整等。
第六步本體建立。建立的本體原型在使用的過(guò)程中不斷進(jìn)化,可以通過(guò)集成新的本體、由專家定義新的概念和關(guān)系、通過(guò)機(jī)器學(xué)習(xí)等方法進(jìn)化。
共享和重用是本體的一個(gè)主要特點(diǎn),進(jìn)化的本體也可以存入本體庫(kù),加以重用。重用已建好的本體時(shí),重點(diǎn)是選擇和自己概念模型中語(yǔ)義和實(shí)現(xiàn)一致的術(shù)語(yǔ)定義。
5結(jié)束語(yǔ)
目前領(lǐng)域本體構(gòu)建尚無(wú)一個(gè)統(tǒng)一、完善的標(biāo)準(zhǔn),該文通過(guò)對(duì)當(dāng)前幾種常用的本體構(gòu)建技術(shù)的分析比較,結(jié)合螺旋開(kāi)發(fā)模型,初步提出一種在無(wú)領(lǐng)域?qū)<覅⑴c情況下的工程化的本體構(gòu)建方法,并通過(guò)構(gòu)建簡(jiǎn)單的教務(wù)管理領(lǐng)域本體模型(部分)對(duì)其進(jìn)行有效性檢驗(yàn)。
參考文獻(xiàn):
[1]張囡囡.面向語(yǔ)義網(wǎng)的領(lǐng)域本體半自動(dòng)構(gòu)建方法的研究[D].大連:大連海事大學(xué),2008.
[2]鞠可一.基于本體的企業(yè)狀態(tài)數(shù)據(jù)模型研究[D].鎮(zhèn)江:江蘇科技大學(xué),2007.
[3] Uschold M,Gruninger M.Ontologies:Principles,Methods and Applications[J]. Knowledge Engineering Review,1996,11(2):93-155.
[4] Suryanto H.Discovery of Ontologies from knowledge bases[C].British Columbia:Proceedings of the 1st Internationl Conference on Knowl? edge Capture,2001:171-178.
[5]維基百科[EB/OL].http://zh.wikipedia.org.
[6]韓韌,黃永忠,劉振林,等.OWL本體構(gòu)建方法的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(6):1397-1399
[7]李勇,張志剛.領(lǐng)域本體構(gòu)建方法研究[J].計(jì)算機(jī)工程與科學(xué),2008,30(5):129-131.
[8]官冰,黨德鵬.財(cái)務(wù)管理領(lǐng)域本體的構(gòu)建[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(2):10-13
[9]朱紅霞.本體技術(shù)決策樹(shù)算法的研究及在高校教務(wù)管理中的應(yīng)用[D].天津:天津師范大學(xué),2010.