卓月明
(吉首大學(xué)軟件服務(wù)外包學(xué)院,湖南 張家界 427000)
基于FCA算法及中文特性的本體論構(gòu)建*
卓月明
(吉首大學(xué)軟件服務(wù)外包學(xué)院,湖南 張家界 427000)
本體論(Ontology)是語義網(wǎng)最重要的基礎(chǔ),可以用來描述特定領(lǐng)域(Domain)下的知識.提出一個以形式概念分析FCA(Formal Concept Analysis)加上中文特性的半自動化構(gòu)建本體論方法,該方法能快速地建構(gòu)出本體論的概念層及實例層,以達(dá)到知識的整合與分享,根據(jù)效率評估結(jié)果可知,本系統(tǒng)解決了網(wǎng)頁數(shù)據(jù)種類繁多、文字前處理不易等問題.
本體論;語義網(wǎng);形式概念分析;中文特性
隨著網(wǎng)絡(luò)的興起,網(wǎng)絡(luò)信息已成為人們獲得信息的主要來源之一.然而,網(wǎng)絡(luò)的信息過于繁雜,語義網(wǎng)的出現(xiàn)正是為了解決這個問題.對于語義網(wǎng),本體論(Ontology)是語義網(wǎng)最重要的基礎(chǔ),可以用來描述特定領(lǐng)域(Domain)下的知識.通過本體論使得存在于全球信息網(wǎng)上的資源能夠明確地被定義,因此不只是人們可以藉由本體論了解并獲得網(wǎng)絡(luò)上的資源,機(jī)器也可以通過本體論的描述,自動地存取或整合網(wǎng)絡(luò)上的相關(guān)資源.但語義網(wǎng)的推行成功與否,依賴著本體論是否能快速地被構(gòu)建及更新.大多數(shù)的自動、半自動構(gòu)建方式只適合使用在英文語系的國家,在中文語系的本體論構(gòu)建方法仍有許多不足之處尚待探討.筆者基于上述考慮,提出了一個半自動構(gòu)建中文本體論的方法,以達(dá)到信息分享及利用的目的.
1.1本體論基本定義及描述語言
本體論(Ontology),也稱為實體論.在信息科技領(lǐng)域中,對本體論有許多不同的定義,最常被引用的定義如下:“An ontology is specification of a conceptualization.”[1]此定義表示本體論是某一概念的詳細(xì)說明.當(dāng)要使用本體論來描述一特定領(lǐng)域下的知識時,本體論是由概念(Class 或Concept)、屬性(Slot、Property或Attribute)、實例(Instance)與關(guān)系(Relation)等元素組合而成的.
目前已有許多的本體論描述語言(Ontology language)被提出,這些本體論描述語言皆以XML語法為基礎(chǔ)而發(fā)展出來,例如XOL(XML-based ontology-exchange language),OML(Ontology Markup Language),SHOE(Simple HTML Ontology Extensions),RDF/RDFS(Resource Description Framework Schema)及在RDF/RDFS的上層所發(fā)展出來的DAML+OIL(DARPA Agent Markup Language + Ontology Inference Language),它改進(jìn)了RDF/RDFS功能上的不足.
1.2本體論構(gòu)建的相關(guān)技術(shù)
1.2.1 本體論構(gòu)建方法 目前已有編輯本體論的工具被開發(fā)來幫助本體論的構(gòu)建,但是手動的構(gòu)建本體論仍有不少困難.除了通過工具幫助構(gòu)建本體論外,本體論的建構(gòu)方式很多,在本體論學(xué)習(xí)(Ontology Learning)的領(lǐng)域中有許多方式可以幫助自動構(gòu)建本體論,如信息檢索(Information Retrieval)、機(jī)器學(xué)習(xí)(Machine Learning)、數(shù)據(jù)挖掘(Data mining)、語言學(xué)(Linguistics)等.
文獻(xiàn)[2]提出一種本體論學(xué)習(xí)方法,其步驟如下:抽取(Extract)→修剪(Prune)→精煉(Refine)→重復(fù)使用(Import/Reuse).
研究中發(fā)現(xiàn),目前構(gòu)建本體論的方法大致可分為下面幾類:以文字聚類[3]為主、以字典[4]為主、以知識庫為主、以關(guān)系型法則[5]為主、以概要關(guān)系(Relational schemata)[6]為主.
1.2.2 形式概念分析 1982年Rudolf Wille 提出形式概念分析(Formal Concept Analysis,F(xiàn)CA)[7],該分析法是一種從數(shù)據(jù)中取得概念結(jié)構(gòu)(Conceptual Structures)的方法,并且將這些取得的概念結(jié)構(gòu)以圖形化的方式表現(xiàn)出來,如概念階層圖,以探索資料的相依性.FCA常常應(yīng)用在概念的聚類(Conceptual Clustering)、數(shù)據(jù)分析、信息的檢索(Information Retrieval)、知識探索和本體論工程上.除此之外,F(xiàn)CA 也常常使用在文件分類系統(tǒng)的輔助上.
在FCA中,概念(Concept)主要是由2個部分所組成:(1)“Extension”,該部分是概念的所有對象(Object)集合;(2)“Intension”,該部分是這些對象所包括的所有特性(Attributes).這可以從獲得的內(nèi)容(Data Table)中的所有概念了解并且介紹一個假設(shè)的階層.
圖1 中文特性說明示意圖
1.2.3 中文特性 中文特性中,開頭和結(jié)尾字一樣時,這些字具有強(qiáng)烈的語義相似度(Semantic Similarity).但在研究中發(fā)現(xiàn)開頭字相同時語義相似度不如結(jié)尾相同時相似度高,例如張家界國際大酒店、張家界茶葉,同樣是張家界開始的文字,但卻不屬于同一個概念(Concept),一個是住宿概念中酒店的Instance,一個則是茶葉的一個Instance,兩者并沒有相同的特性.因此,只考慮以名詞為結(jié)尾且字相同時的狀況及動詞相同的情況.以瘦西湖溫泉度假村和天頤溫泉度假村為例,它們的組合是瘦西湖、溫泉、度假村及天頤、溫泉、度假村,兩者皆以度假村為結(jié)尾,明顯可知2個都是屬于度假村而且都是溫泉度假村的一種,它的度假村名稱分別為“瘦西湖”和“天頤”,因此可以清楚地知道這2個有相同的特性.再者,可以看出一個字的結(jié)尾通常是這個字的概念層,而由結(jié)尾字往前進(jìn)行文字的組合,是概念層的子概念(溫泉度假村是度假村的一種),整個字則是這個概念的實例(Instance)層,如圖1所示.
圖2 系統(tǒng)架構(gòu)
半自動化構(gòu)建本體論系統(tǒng)架構(gòu)如圖2所示,整個系統(tǒng)主要由3大模塊構(gòu)成.
(1)數(shù)據(jù)格式轉(zhuǎn)換模塊.
由于網(wǎng)頁的資料格式目前沒有固定的格式,在處理上較為不易,因此先將網(wǎng)頁上之格式去除,只取得文字部份,并將其轉(zhuǎn)換成XML格式檔案以提供領(lǐng)域詞匯處理模塊進(jìn)行處理.
(2)領(lǐng)域詞匯處理模塊.
此模塊將文字?jǐn)?shù)據(jù)經(jīng)由詞法分析(Lexical Analysis)、名詞與動詞的抽取等處理并配合其他函式庫,得到具有代表性的詞匯(Lexical).共有下面幾個階段:詞匯分析、關(guān)鍵詞抽取、同義辭典、關(guān)系抽取與特性抽取.
(3)本體論建構(gòu)模塊.
將本體數(shù)據(jù)網(wǎng)頁處理成詞匯庫后,本體論建構(gòu)模塊將詞匯庫利用建構(gòu)算法產(chǎn)生本體論.筆者構(gòu)建的旅游領(lǐng)域的本體論如圖3所示(旅游一般包含住宿、交通、美食、景點等).整個構(gòu)建的算法過程如圖4所示.
圖3 本體論架構(gòu)
圖4 本體論建構(gòu)
KF-IDF計算公式為
其中docs(w,cat)表示文字w在特定目錄(Category)中有幾份文件出現(xiàn)w,cats(word)表示word在幾個目錄中出現(xiàn)過.
筆者提出了基于FCA及中文特性的半自動化的本體論算法,可以節(jié)省人力和物力,解決了網(wǎng)頁數(shù)據(jù)種類繁多,文字前處理不易等問題.在數(shù)據(jù)內(nèi)容不易取的特征值的情況下,使用FCA加上中文特性來構(gòu)建本體論,并使用KF-IDF替代TF-IDF來取得特定領(lǐng)域下的專有字詞,供本體論構(gòu)建的數(shù)據(jù)使用,輔助從網(wǎng)頁信息中半自動構(gòu)建出本體論.
[1] GRUBER T R.A Translation Approach to Portable Ontology Specications[J].Knowledge Acquisition,1993,5(2):199-220.
[2] ALEXANDER MAEDCHE,JOERG UWE KIETZ,RAPHAEL VOLZ.A Method for Semi-Automatic Ontology Acquisition from a Corporate Intranet[EB/OL].[2014-04-12].http://www.ece.uc.edu/~mazlack/ECE.716.Sp2010/Semantic.Web.Ontology.Papers/kietz00method.pdf.
[3] ALEXANDER MAEDCHE,STEFFEN STAAB,ANDREAS HOTHO.Ontology-Based Text Clustering[EB/OL].[2014-04-12].http://www.cs.cmu.edu/~mccallum/textbeyond/papers/hotho.pdf.
[4] JORG UWE KIETZ,RAPHAEL VOLZ,ALEXANDER MAEDCHE.Extracting a Domain-Specific Ontology Learning from a Corporate Intranet[EB/OL].[2014-04-12].http://www.aclweb.org/anthology/W/W00/W00-0738.pdf.
[5] ALEXANDER MAEDCHE,STEFFEN STAAB.Discovering Conceptual Relations from Text[EB/OL].[2014-04-12].http://www.ece.uc.edu/~mazlack/ECE.716.w08/Semantic.Web.Ontology.Papers/maedche00discovering.pdf.
[6] PAOLA VELARDI,MICHELS MISSIKOFF,ROBERTO BASILI.Identification of Relevant Terms to Support the Construction of Domain Ontologies[EB/OL].[2014-04-12].http://dl.acm.org/citation.cfm?id=1118225.
[7] AUAN THANH THO,SIU CHEUNG HUI,TRU HOANG CAO.Automatic Fuzzy Ontology Generation for Semantic Web[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(6):842-856.
(責(zé)任編輯 陳炳權(quán))
OntologyConstructionBasedonFCAandFeaturesofChinese
ZHUO Yueming
(Software & Outsourcing Institute,Jishou University,Zhangjiajie 427000,Hunan China)
Ontology,the most important foundation of the semantic web,is used to describe the knowledge of a specific domain.In this study a methodology to construct ontology semi-automatically is proposed.By using the Formal Concept Analysis (FCA) algorithm and the specific features of Chinese language,the methodology builds both concept and instance layers of ontology quickly.Experiments have shown promising potential for the methodology in knowledge integrating and sharing.
ontology;semantic Web;FCA;features of Chinese
1007-2985(2014)06-0035-03
2014-05-26
卓月明(1970—),男,湖南慈利人,吉首大學(xué)軟件服務(wù)外包學(xué)院副教授,碩士,主要從事數(shù)據(jù)庫和智能計算研究.
TP391.1
A
10.3969/j.issn.1007-2985.2014.06.009