李慧琳,劉 寧,李冠宇
(大連海事大學 信息科學技術(shù)學院,遼寧 大連116026)
本體是共享概念模型的明確的形式化規(guī)范說明,表示的是精確性概念及其之間的確定性關(guān)系[1]。模糊本體(Fuzzy Ontology)是對通常意義本體的擴展,表示的是模糊概念及其之間的模糊關(guān)系[2]。針對現(xiàn)實世界中的不確定性,模糊本體是有效處理和表示不確定信息和知識的基礎(chǔ)性工具。因此,如何構(gòu)建模糊本體成為亟待解決的問題。
關(guān)于模糊本體的構(gòu)建,目前在國內(nèi)外已有一些方法。模糊本體是模糊集理論 (L.A.Zadeh,1965)[3]和本體理論(T.Gruber,1993)[4]相結(jié)合的產(chǎn)物。除了最基本的手工構(gòu)造模糊本體的方法外,其構(gòu)建思路可總結(jié)為以下兩種[2]:基于模糊集理論和基于現(xiàn)有本體的構(gòu)建方法。本文在現(xiàn)有本體構(gòu)建方法的基礎(chǔ)上,結(jié)合模糊集理論,提出模糊本體構(gòu)建的概念距離聚類生成方法,其中心思想是:首先應(yīng)用模糊集理論從實際領(lǐng)域的信息源中抽取模糊概念及模糊關(guān)系以構(gòu)建出一個模糊概念格,然后在其上應(yīng)用概念距離聚類方法得到模糊概念層次,最終將模糊概念層次映射得到模糊本體。通過具體的構(gòu)建實例,驗證了該構(gòu)建方法的可用性和有效性。
本體是共享概念模型的明確的形式化說明。本體可用三元組O= (C,P,R)表示之。其中,C為概念集,P為屬性集,R為概念之間的關(guān)系[5]。
模糊本體是用于描述和表示不確定信息的一類本體,由模糊概念和模糊關(guān)系組成。模糊本體也可用三元組表示O= (Cf,P,Rf)表示,其中Cf為模糊概念集,P為屬性集,Rf為模糊概念集與屬性集之間的笛卡爾積[6]。
模糊概念[7]可表示為Cf= (o1d1,o2d2,…,ondn),其中oi是對象,di是oi隸屬于Cf的隸屬度。那么,對象oi屬于概念Cf的隸屬度為di。
模糊關(guān)系R是模糊元組的有窮集合,它是集合叉集P(A1)×P(A2)×…×P(Am)的一個子集。其中,Ai是屬性域,P(Ai)表示Ai-的冪集。
目前對模糊本體的構(gòu)建方法研究雖多但均不成熟,其構(gòu)建方法可以歸結(jié)為兩大類:基于模糊集理論和基于現(xiàn)有的本體構(gòu)建方法。前者主要有基于模糊概念模型、基于語言變量、基于屬性隸屬度和基于MDA的構(gòu)建方法等;而后者主要有5種類型:Uschold和King方法;Gruninger和Fox方法;Berneras方法;METHONTOLOGY方法;基于SENSUS方法[8]。
模糊本體的構(gòu)建是以不精確信息為數(shù)據(jù)源且需要在領(lǐng)域?qū)<业膮⑴c下進行的,構(gòu)建得到的模糊本體往往呈現(xiàn)多樣性。而由模糊概念和模糊關(guān)系構(gòu)成的模糊概念格具有結(jié)構(gòu)惟一性的特點[9],因此,本文以模糊概念格為基礎(chǔ)構(gòu)建模糊本體,又由于模糊概念外延的模糊性,導致模糊概念格中生成了大量的模糊概念節(jié)點,因此需對模糊概念格進行約簡處理,考慮概念格的構(gòu)成特點,對其運用概念距離聚類方法進行約簡較為方便和直接,且減少了生成的模糊本體的多樣性。
綜上,本文在模糊概念格的基礎(chǔ)上,運用概念距離聚類方法對其進行處理,進而生成模糊本體。
概念聚類是基于模型的聚類,能夠?qū)ι傻木垲惔_定其屬性特征,且對新生成的聚類給予一定的概念解釋[10]。
概念距離聚類方法是一種基于帶有模糊參數(shù)的模糊概念格的概念聚類。該聚類方法不僅能夠產(chǎn)生樹狀結(jié)構(gòu)的聚類層次,還可以對概念間有多重繼承關(guān)系的模糊概念格上的模糊概念進行聚類[11]。
定義1(模糊參數(shù)E) 對于對象集合O,屬性集合D=f(O),d∈D,參數(shù)E定義如下
式中:|O|——集合O的元素個數(shù);
式中:|D|——集合D的元素個數(shù)。
定義2(模糊參數(shù)δ) 對于對象集合O和屬性集合D=f(O),d∈D,參數(shù)δ定義如下
式中:|O|——集合O的元素個數(shù);|D|——集合D的元素個數(shù)。
參數(shù)E描述的是對象的平均隸屬度,參數(shù)δ描述的是對象隸屬度相對于參數(shù)E的偏離程度[6]。
定義3(概念距離) 模糊概念 (O1,D1)和其子概念 (O2,D2)的距離定義如下
式中:——概念C1= (O1,D1)的參數(shù);——概念C2= (O2,D2)的參數(shù)。
概念距離聚類方法的步驟是:計算出模糊概念格的模糊參數(shù)E和δ;根據(jù)概念距離公式計算出有效概念間的距離DS;根據(jù)實驗,選取合適的概念距離閾值,合并概念節(jié)點,生成模糊概念聚類。圖1為概念距離聚類的示例。
圖1 概念距離聚類示例
模糊本體構(gòu)建的概念距離聚類方法的核心思想是:從現(xiàn)實世界的不確定信息中抽取出模糊形式背景,構(gòu)建模糊概念格,利用聚類技術(shù)將模糊概念格轉(zhuǎn)化生成模糊概念層次,最后映射得到模糊本體。
模糊概念格是描述概念的內(nèi)涵 (intension)與外延(extension)具有模糊關(guān)系的不精確性概念的一種方法[12]。
定義4(模糊概念格) 若二元組C= (O’,D’)滿足O’=g(D’)且D’=f(O’),則稱C為一個模糊形式概念。K= (O,D,I)為一個形式背景,通過偏序關(guān)系將K中的所有模糊形式概念建立起來的完全格,叫做K所對應(yīng)的模糊概念格[13]。
概念格的漸進式構(gòu)建算法可以將概念節(jié)點和節(jié)點間的連接關(guān)系同時產(chǎn)生,因此它非常適合于處理動態(tài)數(shù)據(jù)庫。所以可把這種方法應(yīng)用到模糊概念格的構(gòu)建中。
構(gòu)建模糊概念格的過程,實際上是尋找新節(jié)點的直接前驅(qū)和直接后繼的過程。模糊概念格的漸進式構(gòu)建算法分為6個步驟:
(1)初始化模糊概念格L。從形式背景中生成初始的模糊概念格節(jié)點集,設(shè)每個節(jié)點為一個模糊形式概念C(o,f(o)),并初始化為空。
(2)生成新概念節(jié)點。從形式背景中取出一個對象x,形成節(jié)點X(x,f(x)),若格L中任意節(jié)點C(extension(C),intension (C)),使得f(x)intension (C),則將節(jié)點X(x,f(x))作為新節(jié)點加入L中。
(3)更新L中的概念節(jié)點。掃描L中所有節(jié)點,看是否存在節(jié)點C(extension(C),intension(C))的內(nèi)涵小于等于新生成節(jié)點X(x,f(x))的內(nèi)涵,若存在,則節(jié)點C為更新節(jié)點。將每個更新節(jié)點更新為 (extension(C)∪x,intension(C)),邊不更新。轉(zhuǎn) (5)
(4)產(chǎn)生子概念節(jié)點。掃描模糊概念格L,將節(jié)點C與新生成節(jié)點X進行交運算,若內(nèi)涵交集不等于L中任意節(jié)點的內(nèi)涵,則產(chǎn)生子概念節(jié)點C’(extension(C)∪x,intension(C)∩f(x))。查找L中是否存在節(jié)點C’的更新節(jié)點,若存在,則更新新生成節(jié)點C’;否則,節(jié)點C’加入到L中,并連接新生成節(jié)點相應(yīng)的邊。
(5)直到形式背景中的所有對象加入到L中。轉(zhuǎn) (2)
(6)構(gòu)建根節(jié)點和末梢節(jié)點。搜索L中所有沒有子節(jié)點的節(jié)點,如果這樣的節(jié)點多于一個,則生成末梢節(jié)點,并增加末梢節(jié)點到這些節(jié)點的邊。同理,生成根節(jié)點。
從模糊概念格到模糊概念層次的過程,實際上是用具體地聚類算法在格上進行概念聚類的過程,由此得到的模糊概念的層次結(jié)構(gòu),可以對其運用映射規(guī)則得到相應(yīng)的模糊本體的概念框架。
結(jié)合上述模糊概念格的生成過程,在模糊概念格上進行概念聚類,本文采用基于距離的概念聚類方法。把概念間概念距離小于距離閾值的概念聚為一類,基于此法可以得到模糊概念層次。具體操作如下:
(1)計算模糊參數(shù)E和δ的值。根據(jù)初始形式背景,計算出模糊概念格中有效節(jié)點的參數(shù)值。(2)計算有效概念間的距離DS。(3)模糊概念聚類。
1)將格中模糊概念的節(jié)點集C、邊集C1C2、概念間的距離DS,作為一個集合U= {C,C1C2,DS};
2)選取距離閾值T;
3)查找U中符合條件DS<T的邊CaCb,并聚類Ca、Cb;
4)子節(jié)點吸收父節(jié)點的內(nèi)涵,并更新子節(jié)點為新節(jié)點C’(extension (Cb),intension (Ca)∪intension (Cb));
5)遞歸3)、4)步驟,直到集合U中不存在DS<T的邊;
(4)生成模糊概念層次。刪除底節(jié)點,循環(huán)查找聚類后的概念格中的概念節(jié)點,若聚類生成新節(jié)點C’,則原來連接到父節(jié)點Ca和子節(jié)點Cb的邊更新為連接到新節(jié)點C’,其余邊不變。
基于上述方法導出的模糊概念層次,可以用來構(gòu)造模糊本體。根據(jù)模糊概念層次和模糊本體中元素的對應(yīng)關(guān)系,在模糊概念層次上運用特定的映射規(guī)則,映射得到模糊本體原型。兩者的映射規(guī)則如圖2所示。
圖2 模糊概念層次與模糊本體的映射規(guī)則
根據(jù)上述映射規(guī)則得到模糊本體原型,再為其添加屬性、公理、實例等來擴充和完善模糊本體,通過該方法生成的模糊本體具有一致性,因而不再需要進行一致性檢查。模糊本體是基于有模糊性的不確定信息構(gòu)建生成的,用模糊值表示屬性值的模糊本體體現(xiàn)了現(xiàn)實性。對現(xiàn)實世界中存在的大量非分類的不確定信息的描述[14],就需專家參與,才可得到比較完整的模糊本體。
以生活中常見的天氣問題為例,表1中以連續(xù)5天的天氣為對象,氣溫高低、紫外線強弱,風級大小,有無雨為屬性,抽取得到標準模糊形式背景。設(shè)定閾值為0.5,對標準模糊形式背景進行處理,得到模糊化后的形式背景,如表1所示。
表1 模糊形式背景
根據(jù)模糊形式背景表1,用漸進式算法進一步構(gòu)造模糊概念格,如圖3所示。
圖3 模糊概念格
模糊概念格中共有7個模糊形式概念,各有效模糊形式概念的模糊參數(shù)值及構(gòu)成如表2所示。
表2 模糊形式概念構(gòu)成及參數(shù)值
利用3.2節(jié)的概念距離聚類方法,對上述已構(gòu)造出的模糊概念格進行聚類。首先計算出概念間的距離,如下:
為本實例設(shè)定距離閾值為0.5,則運用概念距離聚類方法得到的模糊概念層次,如圖4所示。
圖4 模糊概念層次
以圖4舉例說明模糊本體的生成。依據(jù)3.3節(jié)的規(guī)則來映射本體,1號根節(jié)點映射得到無效的模糊概念,因此,可得到3個類分別用A、B、C表示,以及類間的關(guān)系。
表3 模糊本體類間關(guān)系
根據(jù)表3中的3個類及其所含模糊概念之間的關(guān)系,就構(gòu)成了一個模糊本體,如圖5所示。
以類A為例,屬性為氣溫高 (0.6)、紫外線強 (0.6)和風力大于5級 (0.7);實例為1,2,3,預測出未來連續(xù)3天的天氣情況。模糊本體的這種構(gòu)建方法簡單易行,根據(jù)特定領(lǐng)域的不確定信息構(gòu)建出的模糊本體,可以直觀的反映現(xiàn)實世界。
圖5 模糊概念體示例
本文研究了模糊本體構(gòu)建的概念距離聚類方法,與手工構(gòu)建模糊本體相比,該方法提高了模糊本體構(gòu)建的效率;與其他構(gòu)建方法相比,該方法構(gòu)建出的模糊本體具有更好的一致性和靈活性。首先利用漸進式算法構(gòu)建模糊概念格,結(jié)合模糊集理論和概念距離聚類方法,再聚類生成模糊概念層次,最后映射得到模糊本體,并以實際問題為例驗證了該構(gòu)建方法的有效性。然而目前的研究尚存在著不足,例如沒有對聚類結(jié)果進行有效性評價等。下一步將與模糊本體的其他生成算法做對比研究。
[1]ZHANG Nannan.Research on the method of semi-automatic domain ontology building for the semantic web [D].Dalian:Dalian Maritime University,2008 (in Chinese). [張囡囡.面向語義網(wǎng)的領(lǐng)域本體半自動構(gòu)建方法的研究 [D].大連:大連海事大學,2008.]
[2]CAI Yi,LEUNG Hofung.A formal model of fuzzy ontology with property hierarchy and object membership [G].LNCS 5231:Conceptual Modeling.Berlin Heidelberg:Springer-Verlag,2008:69-82.
[3]WANG Biao,DUAN Chanlun,WU Hao,et al.The research and application of rough sets and fuzzy sets [M].Beijing:Electronic Industrial University Press,2008 (in Chinese).[王彪,段禪倫,吳昊,等.粗糙集與模糊集的研究及應(yīng)用 [M].北京:電子工業(yè)出版社,2008.]
[4]XU Hongsheng.Building、merging and presenting of ontology based on formal concept analysis. [D]Kaifeng:Henan University,2007(in Chinese).[徐紅升.基于形式概念分析的本體構(gòu)建、合并與展現(xiàn) [D].開封:河南大學,2007.]
[5]WU Zhengchao.Research of domain ontology automatic construction method based on relational database [D].Dalian:Dalian university of Technology,2007 (in Chinese).[吳正超.基于關(guān)系數(shù)據(jù)庫的領(lǐng)域本體自動構(gòu)建方法研究 [D].大連:大連理工大學,2007.]
[6]Giuseppe Fenza,Vincenzo Loia,Sabrina Senatore.Concept mining of semantic web services by means of extended fuzzy formal concept analysis(FFCA) [C].IEEE International Conference on Systems Man and Cybernetics,2008:240-245.
[7]Quan Thanh Tho,Siu Cheung Hui.Automatic fuzzy ontology generation for semantic web [J].IEEE Transactions Knowledge and Data Engineering,2006,6 (18):842-856.
[8]WANG Xiaoying,WANG Xiaoxuan,LIU Peng.Research on Chinese ontology construction and visualization [J].Computer Technology and Development,2010,20 (2):121-124 (in Chinese).[王曉盈,王曉璇,劉鵬.中文本體構(gòu)建及可視化研究 [J].計算機技術(shù)與發(fā)展,2010,20 (2):121-124.]
[9]QIANG Yu.Research on fuzzy concept lattice model and its application [D].Shanghai:Shanghai University,2005 (in Chinese).[強宇.模糊概念格模型及其應(yīng)用研究 [D].上海:上海大學,2005.]
[10]HUANG Jianbin,JI Hongbing.A web search results clustering algorithm based on fuzzy concept lattices [J].Xi’an University of Electronic Science and Technology Journal(Natural Science Edition),2005,32 (6):856-860 (in Chinese).[黃健斌,姬紅兵.基于模糊概念格的Web搜索結(jié)果聚類算法[J].西安電子科技大學學報 (自然科學版),2005,32 (6):856-860.]
[11]XU Jiaqing.The process cluster and evolution analysis based on the fuzzy formal concept analysis [D].Shanghai:Fudan University,2009(in Chinese). [許佳卿.基于模糊形式概念分析的程序聚類及演化分析 [D].上海:復旦大學,2009.]
[12]LIU Ruixin,SUN Shibao,QIN Keyun.Research on implementation algorithm of fuzzy concept lattices based on different implication operator [J].Computer Engineering and Applications,2007,43 (17):179-181(in Chinese). [劉瑞新,孫士保,秦克云.基于不同蘊涵算子的模糊概念格建格算法研究 [J].計算機工程與應(yīng)用,2007,43 (17):179-181.]
[13]WU Hongyi.Method and system of constructing fuzzy concept lattice [D].Dalian:Dalian Maritime University Maritime University,2010 (in Chinese).[烏弘毅.模糊概念格的構(gòu)建方法與構(gòu)建系統(tǒng) [D].大連:大連海事大學,2010.]
[14]WANG Suihua,ZHAO Ailing,MA Weiwei.Approach to extracting on-taxonomic relationships for Chinese ontology from web [J].Computer Engineering and Design,2010,31 (2):451-454(in Chinese). [王歲花,趙愛玲,馬巍巍.從 Web中提取中文本體非分類關(guān)系的方法 [J].計算機工程與設(shè)計,2010,31 (2):451-454.]