国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

領域本體的構建方法研究

2011-02-14 02:50張文秀朱慶華
圖書與情報 2011年1期
關鍵詞:本體

張文秀 朱慶華

摘 要:領域本體構建是一項復雜的系統(tǒng)工程。從國內(nèi)外本體和領域本體研究出發(fā),比較分析了典型的領域本體構建方法,提出循環(huán)式領域本體構建法,并使用該方法構建軟件缺陷領域本體。

關鍵詞:本體 領域本體 本體構建 軟件缺陷

中圖分類號: B016文獻標識碼: A 文章編號: 1003-6938(2011)01-0016-04

Research on Construction Methods of Domain Ontology

Zhang Wenxiu (Department of Audit, Nanjing Audit University, Nanjing, Jiangsu, 211815)

Zhu Qinghua (National Center for Information Resource Management, Nanjing University, Nanjing, Jiangsu, 210093)

Abstract: The construction of domain ontology is a complicated system project. On the basis of researches on ontology and domain ontology at home and abroad, it compares the typical ontology construction methods. And, it proposes a comprehensive ontology construction method. Moreover, it uses the method and constructs software defect domain ontology.

Key words:ontology;domain ontology; construction method; software defect

CLC number: B016Document code: AArticle ID: 1003-6938(2011)01-0016-04

1 引言

本體(Ontology)起源于哲學,是對世界上客觀存在物的系統(tǒng)描述。近年來,人們將本體的概念引入人工智能、知識工程和圖書情報領域,用以解決信息提取、知識概念表示和知識組織體系方面的有關問題。利用本體思想從不同角度對信息集合進行標引,表示信息內(nèi)容與知識組織體系之間的鏈接關系,可以將本體與信息系統(tǒng)進行鏈接,從而使用戶在使用信息的過程中更加便捷地瀏覽和理解相關概念和資源,還可以利用本體中的語義關系及推理規(guī)則集合進行推理,從而實現(xiàn)基于本體的智能分析和知識組織,并通過智能分析來預測知識增長點。同時,由于本體描述信息的語義,并采用一定的編碼語言讓計算機可以讀懂,更加有利于實現(xiàn)智能檢索和查詢??梢哉f,本體是機器自動推理和智能化高級信息服務的基礎。[1 ]

本體構建是一項復雜的系統(tǒng)工程,需要領域專家和知識工作人員以及系統(tǒng)分析人員等各方人員按照一定的方法、采用適當?shù)墓ぞ邊f(xié)作完成。由于目前本體構建大都針對某一特定問題域,因此,領域本體的構建也代表了本體構建的思想和方法。

2 本體與領域本體研究現(xiàn)狀

由于應用領域的不同,對本體研究的側重點也有所不同。涉及特定學科領域的本體,被稱為領域本體(Domain Ontology)。領域本體的目標是捕獲相關的領域知識,提供對該領域知識的共同理解,確定該領域內(nèi)共同認可的概念,并從不同層次的形式化模型上給出這些概念和概念之間相互關系的明確定義,提供該領域中發(fā)生的活動以及該領域的主要理論和基本原理等。

近兩年來,在語義網(wǎng)描述語義的觸動下,越來越多的描述各種各樣領域的本體產(chǎn)生了。例如,Plinius ontology是關于陶瓷物質化學成分的本體,而Chemical-Elements(化學元素)是關于化學元素周期表的本體。[2 ]國外著名的知識本體還有WordNet、SENSUS、CYC、SUMO等。我國近幾年也出現(xiàn)了如知網(wǎng)、國共合作歷史領域本體等。對特定領域的本體研究和開發(fā)目前已涉及的領域包括企業(yè)本體、醫(yī)學概念本體、經(jīng)濟學本體、花卉學本體、酶催化生物學本體、陶瓷材料機械屬性本體等。

隨著領域本體漸漸成為研究熱點,構建和進化領域本體已經(jīng)成為研究的核心和關鍵。從構建方式上看,現(xiàn)在的本體構建大多是手工構造的。目前,大量的個人和學術團體正專注于本體自動構建工具的研究。本體工具主要有本體的編輯管理工具、本體解析工具和推理機。[3 ]最常見的兩個本體編輯工具是Protégé和KAON,本體解析工具是Jena,推理機是Racer。盡管手工構造也有一些規(guī)范的方法和可用的工具,[4 ]然而,構建本體的工作還基本停留在人工或半人工階段,國內(nèi)外為數(shù)不少的本體構建工具和方法體系還沒有一個完全成熟的,因此仍難以進行大范圍的本體構建。而且,已有的領域本體研究主要是對本體的編制與構建進行嘗試與實驗,較少研究相應的編制規(guī)范與標準。目前,需要領域專家參與是本體構建方法中的瓶頸,如何通過知識挖掘手段自動獲取本體是當前,也是今后一段時期的重要研究領域。

領域本體的應用研究也有廣泛的內(nèi)容。如:中國科學院致力于研究形式化本體在領域知識的復用和共享中的基礎和作用、基于專業(yè)領域知識復用的虛擬領域本體的構建。[5 ]此外,由于本體明確地表達概念及其之間的關系,并且具有推理能力,因此,利用本體可以實現(xiàn)自動推理和智能化高級信息服務。在情報學領域,梁戰(zhàn)平提出在本體信息環(huán)境下進行信息獲取和智能分析的情報學研究模式。[6 ]基于本體的信息研究與分析將成為一個新方向。

從整體來看,本體研究目前仍處于理論研究日趨成熟、應用研究相對滯后的階段。單純從技術角度描述本體的較多,理論聯(lián)系實踐并在實際系統(tǒng)中應用的領域本體則比較少。[7 ]

3 領域本體構建方法

本體的構建是對概念本身以及概念與概念之間的關系進行形式化描述,多是面向特定領域。出于對不同學科領域和具體工程的不同考慮,領域本體構建的過程各不相同?,F(xiàn)行的本體構建方法都不是經(jīng)權威標準化機構認證的方法。

比較成功的本體構建項目大多借鑒軟件工程方法,產(chǎn)生了一系列諸如面向對象思想(基于UML)、原型化思想等的本體構建方法,并從系統(tǒng)需求分析出發(fā),明確需求、規(guī)范文檔、實時評價等方面規(guī)范領域本體的構建,[8 ]再根據(jù)項目自身的特點和專家經(jīng)驗進行。

3.1 本體構建方法的比較

當前典型的本體構建方法都是從具體的本體構建項目中總結獲得的,最早的本體構建方法總結出現(xiàn)在1995年,是根據(jù)企業(yè)本體(Enterprise Ontology)以及TOVE項目本體的實際開發(fā)過程獲得的經(jīng)驗總結。此后,陸續(xù)出現(xiàn)了一些新的本體構建方法,如METHONTOLOGY、骨架法、KACTUS工程法、SENSUS法、IDEF-5方法、七步法等。這些方法都由一個總體流程和各步的操作規(guī)則構成。

本研究通過文獻調查法分析七種本體構建方法的基本步驟(見表1),選取生命周期、所采用的相關技術、方法的細節(jié)、方法的特點以及本體的應用領域這幾個方面進行比較(見表2)。[9 ]

通過表1、表2的比較分析可以看出,七種本體構建方法中比較完整、成熟的是七步法和METHONTOLOGY法,而IDEF5法、SENSUS法、TOVE法、骨架法和KACTUS法則一般。盡管如此,每種方法體系都有它的特點和與適用的領域,即使是不成熟的方法也有它的優(yōu)點。

除了上述七種典型的本體構建方法外,還有很多本體研究學者在本體實際開發(fā)中提出了適合本專業(yè)領域需求的本體構建方法,例如Staab等提出的On-To-Knowledge法。[10 ]此外,我國學者(如李景[11 ]、董慧[12 ]、劉柏嵩[13 ]等)在借鑒國外本體構建方法的基礎上,根據(jù)中文本體構建的實際情況,也提出了一些有影響的本體構建方法。

總的來說,由于不同領域的概念具有不同特點,本體構建的理論和方法目前尚無統(tǒng)一的標準,因而難以在不同領域本體的構建中保持一致。對于任何專業(yè)領域,都不存在某一種唯一適合的途徑或模式,可能存在好幾種方法都可行。最佳的辦法依賴于領域本體的構建者所采用的應用軟件以及可以預見的擴展功能。

3.2 領域本體構建方法的創(chuàng)新

在選擇本體構建方法時應根據(jù)實際情況采用最適當?shù)姆椒?,或者綜合多種方法的優(yōu)點,對現(xiàn)有構建方法進行提升和優(yōu)化,從而提出更適合特定領域的構建方法或者更具有廣泛適用性的構建方法。本研究沒有簡單地選用某一種方法,而是基于以上對七種典型本體構建方法的比較研究,選擇以斯坦福大學醫(yī)學院所提出的成熟度較高的“七步法”的思路為基礎,同時綜合Methontology法、IDEF5法具有評價與優(yōu)化的優(yōu)點。具體說來,本研究對“七步法”進行了如下修改:

(1)將第五步——定義類的屬性和第六步定義屬性的分面(Facets)合并。因為一個屬性可能由多個“分面”組成,一個屬性的“分面”,就是屬性取值的類型(Value Type)、容許的取值(Allowed Values)、取值個數(shù)(Cardinality,集的勢、基數(shù))和有關屬性取值的其他特征。在定義類的屬性時也需要定義屬性的分面,只有把屬性的各個分面都定義了才能認為屬性定義好了。

(2)將第七步——創(chuàng)建實例在領域本構建過程中省略。實例體現(xiàn)在特定領域的具體應用中,在領域本體的一般構建過程中可省略創(chuàng)建實例這一步驟,而是將創(chuàng)建實例放到領域本體的實際應用中,使本體的構建方法更具一般性。

(3)本體構建過程中應該對所初步構建起來的本體及時進行總結與評價,發(fā)現(xiàn)不足,進行改進。因此,借鑒了Methontology法和IDEF5法等具有的本體評價這一步驟。而且,考慮到本體構建及完善應該是一個不斷循環(huán)往復、螺旋式上升的過程,因而,提出了由六大步驟組成一個循環(huán)的領域本體構建方法,可稱之為“循環(huán)法”(見圖1)。

4 軟件缺陷領域本體構建

本研究采用圖1所示的循環(huán)法領域本體構建流程構建軟件缺陷信息管理領域本體,以驗證該方法的可行性和科學性。具體步驟如下:

4.1 本體的需求分析

正如同七步法中第一步的要求,本體構建首先必須確定構建目標、范圍和場景等。

本研究所面向的領域是軟件缺陷信息管理,其領域本體的構建目標是建立面向應用的領域本體,使缺陷信息更趨結構化,以便于獲取知識,更便于進行多種多樣的信息分析以實施管理。

構建的范圍是軟件缺陷信息管理中涉及到的缺陷信息及缺陷管理流程。

場景有兩個:①軟件組織中測試工程師、質量工程師、軟件工程師和項目經(jīng)理共同參與的軟件缺陷管理過程;②軟件組織的中高層管理者為了管理和決策而希望得到經(jīng)過分析處理的缺陷信息。也就是說,本研究是針對軟件缺陷信息管理中所涉及到的缺陷信息以及軟件缺陷管理流程,提取出一套核心概念集及其屬性,并確定它們之間的相互關系,建立可以應用的本體,再進行基于本體的軟件缺陷信息分析。

4.2 考查可復用本體

本體最大的特點之一是共享和重用,考查復用現(xiàn)有本體的可能性是保證本體的這一特性得以實現(xiàn)的一個重要方式,通過復用現(xiàn)有本體也可以提高本體構建的效率。本體同時還具有開放性,可以隨時更新,也是復用現(xiàn)有本體的體系結構基礎。

國內(nèi)外對本體的研究還處于實驗階段,比較缺乏成熟、實用的領域本體。現(xiàn)有的領域本體主要是企業(yè)本體、 醫(yī)學概念本體、經(jīng)濟學本體等,而對于軟件缺陷信息管理這個領域目前還沒有發(fā)現(xiàn)與之相似、可以重用的本體。

4.3 建立領域核心概念集

這一步是要確定軟件缺陷信息管理領域本體所涉及的概念,這就要列出所有領域內(nèi)的重要術語,收集所有有用的和潛在有用的領域概念、語義、屬性、實例等,再經(jīng)過整理、提煉,從而建立概念匯總表。建立領域核心概念集之前,應首先通過收集領域信息充分了解領域知識,信息來源可以包括領域專家、專業(yè)書籍、網(wǎng)絡等。在建立領域核心概念集時,可以借鑒已有本體的結構和體系,從軟件缺陷管理領域中分解、提取、去重、歸并所涉及到的主要概念,并力求概念集的完整性,從而建立概念匯總表。

4.4 建立概念分層結構

知識工作者和領域專家協(xié)同工作,梳理概念匯總表中的每個概念,主要采用自底向上的方法,從一個個底層概念的定義開始,一一明確每個概念的含義。分析概念之間可能存在的種種關系,這些關系包括顯性關系和隱性關系。最后,采用綜合法進行歸納和演繹,確定領域概念之間的關系,并用明確的方式記錄出來。

軟件缺陷信息管理領域中核心概念集是在IBM的軟件缺陷分類[14 ]基礎上建立起來的,軟件缺陷分類已經(jīng)體現(xiàn)了概念的分層結構(見圖2)。

隨著本體構建的推進和發(fā)展,還可能會對所建立的概念集中的概念及其關系進行修改、添加和刪減。

4.5 定義類和創(chuàng)建屬性

概念匯總表經(jīng)過分層確定其從屬結構,定義了類,剩余的概念將會是類的屬性。每個屬性都有它的屬性名,都確定它所描述的類。這一定義類和創(chuàng)建屬性的過程就是本體的表示,即采用建模工具和語言定義類和創(chuàng)建屬性來建立本體。在眾多本體建模工具和語言中選擇適當?shù)谋倔w建模工具和語言來表示本體內(nèi)部概念關系的工具,將已得到的領域概念集和概念之間的相互關系形式化地表現(xiàn)出來。本研究選取Protégé為本體建模工具,采用W3C推薦的OWL作為本體描述語言,所構建的類和屬性如圖3所示。

4.6 本體的評價與進化

目前還沒有一致認可的本體確認和評價的標準,對本體的評估涉及是否滿足需求分析階段所設定的目標,涉及如何正確構建本體,涉及本體及其定義內(nèi)容的清晰性、一致性、完整性、可擴展性以及靈活性。本體初步構建起來以后,可以據(jù)此進行評價和改進。領域本體也是具有生命周期的,在本體初步構建好之后將是長期的本體操作階段、維護階段,其間還要持續(xù)地進行本體的完善工作,這是因為本體的構建不是一蹴而就的,而是需要不斷的改進。

以上是本研究所采用的本體構建流程的六個步驟,其中,作為起始的本體構建初始步驟包括分析本體構建需求與考查可復用本體,建立領域核心概念集、建立概念分層結構、定義類和創(chuàng)建屬性是整個流程中的核心步驟,最后是對所構建本體的評價和改進,實現(xiàn)了本體創(chuàng)建和提升的循環(huán)過程。

5 結語

領域包含大量的概念和對象,要迅速建立一個全面的領域本體是不現(xiàn)實的??尚械淖龇ㄊ穷I域專家和知識工作者根據(jù)軟件工程的原型化方法建立一個原型化的領域本體,然后在使用的過程中逐漸迭代,采用螺旋上升的方式逐步完善已有的本體模型。以上只是領域本體構建的六個主要步驟,之后還有長期的本體完善與操作階段,其中有大量工作如本體自動優(yōu)化等有待研究和實踐。

參考文獻:

[1]張玉峰等.基于Semantic Web的個性化網(wǎng)絡導航機制[J].情報學報,2005,(24):438-444.

[2]M.F. López, etal. Building a Chemical Ontology Using Methonotology and the Ontology Design Environment[J]. IEEE Intelligent System. Jan./ Feb.1999,(1): 37-46.

[3]陳谷川,陳豫.語義網(wǎng)知識組織系統(tǒng)的研究與構架[J].現(xiàn)代圖書情報技術,2006,135(4):24-28.

[4]Y. Ding, S. Foo. Ontology research and development: part1-a review of ontology generation [J]. Information Science, 2002, 28(2): 234-260.

[5]陳剛等.基于領域知識重用的虛擬領域本體構造[J].軟件學報,2003(3):350-355.

[6]粱戰(zhàn)平.開創(chuàng)情報學的未來——爭論的焦點問題研究[J].情報學報,2007,26(1):14-19.

[7]杜小勇等.學科領域本體的構建與進化——以經(jīng)濟學領域本體為例[J].現(xiàn)代圖書情報技術,2007,(3):7-12.

[8]袁媛.領域本體建設的方法論和工具研究[D].北京:中國人民大學碩士學位論文,2004.

[9]李景.本體理論在文獻檢索系統(tǒng)中的應用研究[M].北京:北京圖書館出版社,2005:111.

[10]S. Staab, etc. Knowledge processes and ontologies[J]. IEEE Intelligent Systems, Special Issue on Knowledge Management, 2001, 16(1): 26-34.

[11]李景等.構建領域本體的方法[J].計算機與農(nóng)業(yè),2003,(7):7-10.

[12]董慧等.基于本體的數(shù)字圖書館檢索模型研究(III)——歷史領域資源本體構建[J].情報學報,2006,25(5):564-574.

[13]劉柏嵩.面向數(shù)字圖書館的本體學習研究[J].大學圖書館學報,2006,(6):30-34,38.

[14]IBM Research Center for Software Engineering. Orthogonal Defect Classification[EB/OL].[2007-04-12]http://www.research.ibm.com/softeng/ODC/ODC.HTM.

[15]李景,孟連生.構建知識本體方法體系的比較研究[J].現(xiàn)代圖書情報技術,2004,(7):17-22.

作者簡介:張文秀(1975-),女,博士,南京審計學院審計系講師,研究方向:信息系統(tǒng)審計;朱慶華(1963-),男,博士,南京大學國家信息資源管理研究基地教授,研究方向:信息資源管理。

猜你喜歡
本體
水果連連看
眼睛是“本體”
土豆“縮水”
一種采暖散熱器的散熱管安裝改進結構
一種陶瓷質環(huán)保生態(tài)透水磚
一種新型水平移動式折疊手術床
一種便于搭砌的擋土墻砌塊
論GFO的基本框架及頂層本體比較研究
Care about the virtue moral education
ontology科技譯名