吳正洋,湯 庸
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州510631)
本體[1]和本體論工程[2]作為目前智能 web 的研究熱點(diǎn),已經(jīng)應(yīng)用于語義Web、信息搜索、數(shù)據(jù)挖掘、社會計(jì)算[3]等領(lǐng)域.本體構(gòu)建涉及到本體描述語言、本體的構(gòu)建方法和構(gòu)建工具3方面的問題[4].本體構(gòu)建方法包括骨架法、企業(yè)建模法、循環(huán)獲取法、METHONTOLOGY、IDEF-5、Berneras等方法、基于領(lǐng)域知識重用的虛擬領(lǐng)域本體構(gòu)建方法[5]、以及基于形式概念分析的本體構(gòu)建方法[6].
本文以“Science teachev”為例,主要研究從特定的文檔(綜合評價指標(biāo)體系)中自動提取知識,并對知識進(jìn)行加工處理后生成本體的方法.領(lǐng)域的綜合評價體系是由相關(guān)領(lǐng)域的專家定義形成的,具有較高的權(quán)威性和科學(xué)性,能夠避免本體構(gòu)建過程中,對屬性及其關(guān)系定義的隨意性,并且減少重復(fù)定義工作的繁瑣.
綜合評價指標(biāo)體系的構(gòu)建是一項(xiàng)復(fù)雜的系統(tǒng)工程.通常采用Delphi專家咨詢法選取評價的各項(xiàng)指標(biāo),使用ISM(解釋結(jié)構(gòu)模型)來確定指標(biāo)體系的層次結(jié)構(gòu),再使用AHP(層次分析法)來確定指標(biāo)權(quán)重,其構(gòu)建的思路是探索對象的屬性及理順屬性之間邏輯關(guān)系的過程.
在綜合評價體系中,評價指標(biāo)是對象的一系列屬性,也是其評價對象的一種語義描述.指標(biāo)是按層級進(jìn)行劃分的,指標(biāo)之間具有邏輯關(guān)系.通常用樹狀結(jié)構(gòu)形式表現(xiàn).
圖1 對“Science teacher”進(jìn)行評價的指標(biāo)體系結(jié)構(gòu)Figure 1 The evaluation indicators system of“Science teacher”
“Science teacher”的評價指標(biāo)體系如圖1所示.由高到低存在一定的邏輯關(guān)系.第1層評價指標(biāo)“Teach”、“Research”、“Social service”、“Moral”表現(xiàn)了“Science teacher”的行為屬性,如果在第1層評價指標(biāo)與“Science teacher”之間增加1個“Work”的屬性,則第一層評價指標(biāo)與它之間是“Part-of”的關(guān)系.第2層評價指標(biāo)與第1層評價指標(biāo)之間,如“Project”、“Thesis”2 個指標(biāo),與“Research”之間則是“Subclass-of”的關(guān)系.這種在評價體系中已有的語義描述是本體構(gòu)建的知識素材.
通過半自動方式從結(jié)構(gòu)化的數(shù)據(jù)或文本中抽取或?qū)W習(xí)知識,是本體構(gòu)建的研究熱點(diǎn).本文是將領(lǐng)域已有的評價指標(biāo)體系作為構(gòu)建本體概念的獲取源,生成基礎(chǔ)本體,并對基礎(chǔ)本體的概念描述進(jìn)行完善,最終構(gòu)建領(lǐng)域本體.
對于對象的全面評價指標(biāo)而言,其詞性可能具有多樣性.即使在同一級別的評價指標(biāo)群,也可能由多種詞性的指標(biāo)構(gòu)成.例如,評價“Science teacher”這個對象時,二級指標(biāo)中有“Teach undergraduate”、“Professional ethics”等不同詞性的單詞或詞組.在構(gòu)建領(lǐng)域本體時,需考慮屬性的選取以及屬性之間邏輯關(guān)系的確定,如果將評價指標(biāo)作為選取屬性的參考,則需要先調(diào)整指標(biāo)詞性,使其能夠充分體現(xiàn)屬性間的邏輯關(guān)系,因此,需要先對評價體系進(jìn)行指標(biāo)詞性識別和轉(zhuǎn)換的預(yù)處理.
2.1.1 指標(biāo)詞性識別與轉(zhuǎn)換
定義1 設(shè)元組E=(I,L,Re)表示一個綜合評價指標(biāo)體系,I是指標(biāo)內(nèi)容的集合,L表示指標(biāo)所屬層級,LN.Re是自然語言描述下指標(biāo)與其上級指標(biāo)間的基本關(guān)系集合,Re={“Subclass-of”,“Partof”, “Compased-of”, “A-Member-of”, “Have”,“Is”,…}.eE,表示綜合評價指標(biāo)體系中的一個實(shí)例.
為描述方便,本文以“Science teacher”的3層評價指標(biāo)體系為例.針對這個評價體系,其指標(biāo)詞性的轉(zhuǎn)換是按3級進(jìn)行的.一級指標(biāo)轉(zhuǎn)換為動詞,二級指標(biāo)轉(zhuǎn)換為名詞,三級指標(biāo)轉(zhuǎn)換為量詞或形容詞.
定義2 設(shè) D(x)是指標(biāo)詞性判定函數(shù);設(shè)T(x,y)是詞性轉(zhuǎn)換函數(shù),x為指標(biāo)變量,y為擬轉(zhuǎn)換的詞性,y{verb,noun,adjective,quantifier}.對 3層評價指標(biāo)體系而言,先做如下處理:(e.l=1)∩(D(e)≠verb)→T(e,verb)(e.l=2)∩(D(e)≠noun)→T(e,noun)(e.l=3)∩(D(e)≠adjective)and(D(e)≠quantifier)→T(e,adjective)∪T(e,quantifier)
上述形式化描述的含義:如果x是一級指標(biāo),則轉(zhuǎn)換為動詞;如果x是二級指標(biāo),則轉(zhuǎn)換為名詞;如果x是三級指標(biāo),則轉(zhuǎn)換為量詞或形容詞.
2.1.2 根據(jù)詞性篩選指標(biāo) 在評價體系指標(biāo)所構(gòu)成的樹形結(jié)構(gòu)中,通常終端節(jié)點(diǎn)直接反映評價的分值或等次.例中的三級指標(biāo)反映了評價的分值或等次.在評價體系的指標(biāo)詞性轉(zhuǎn)換完成后,第3級指標(biāo)的詞性包含了形容詞和量詞.例如,在表現(xiàn)“The time of class teaching”、“The score of teaching effect”、“The number of papers”時需用到量詞,如180 hours,90 points,10papers 等,而表現(xiàn)“Moral standards”時則通常使用形容詞,如“good”、“bad”、“normal”等.對評價系統(tǒng)的二級指標(biāo)而言,如果其下屬三級指標(biāo)為量詞時,該二級指標(biāo)能較高辨識度地表現(xiàn)評價對象的特有基本屬性;而下屬三級指標(biāo)如果為形容詞時,則該二級指標(biāo)不是評價對象的特有基本屬性.如“Teach for graduate”是“Science teacher”的特有基本屬性,區(qū)別于其他的“Teacher”,其下屬的三級指標(biāo)為量詞;如“Academic morality”就不一定是“Science teacher”的特有基本屬性,可從其父類“Teacher”繼承得到.
在例中,進(jìn)行本體構(gòu)建之前,先對二級指標(biāo)進(jìn)行篩選.其策略是:三級指標(biāo)為量詞的二級指標(biāo)作為構(gòu)建本體的屬性進(jìn)行保留;而三級指標(biāo)全為形容詞的二級指標(biāo)不作為構(gòu)建本體的屬性.其形式化表示如下:
(D(e.ki)=adjective)∩(e.l=2)→Delete(e)Delete(e)為e指標(biāo)刪除函數(shù).
使用預(yù)處理后的評價指標(biāo)構(gòu)建領(lǐng)域本體大致要經(jīng)過3個步驟:(1)獲取評價體系所表達(dá)的概念,生成基礎(chǔ)本體;(2)使用Wordnet進(jìn)一步完善和規(guī)范化概念描述,生成概念格;(3)由概念格映射生成領(lǐng)域本體[7-8].
2.2.1 獲取概念,構(gòu)建基礎(chǔ)本體 評價體系所表達(dá)的概念包括2個方面的內(nèi)容:(1)指標(biāo)所表示的屬性;(2)屬性之間的關(guān)系.對于能綜合評價某對象的評價體系而言,其所包含的指標(biāo)應(yīng)該是能反映評價對象所在的同一類型事物的大部分或共同特點(diǎn),這樣才能體現(xiàn)出可比性.評價體系在構(gòu)建過程中已經(jīng)過層次化處理,在之前的預(yù)處理過程中,已經(jīng)將指標(biāo)的詞性進(jìn)行了識別,并轉(zhuǎn)換成了本體的概念.
定義3 設(shè)元組O={C,is_a,R,Q}表示1個本體[9].C表示概念集合,is_a表示C集合中的概念是偏序關(guān)系,R是概念間的關(guān)系集合,rI,Q 是一個函數(shù),分配給每個關(guān)系不同的元數(shù)(函數(shù)中可變參數(shù)的個數(shù)).
根據(jù)預(yù)處理后的評價體系,先構(gòu)建基礎(chǔ)本體Oc.設(shè)元組 Oc={Cc,is_a,Rc,Q},其中:Cc=I;Rc=Re.
以“Science teacher”為例構(gòu)建基本本體(圖2).
圖2 根據(jù)評價指標(biāo)體系構(gòu)造的“Science teacher”基礎(chǔ)本體Figure 2 The basic ontology of“Science teacher”constructed by it’s evaluation indicators system
2.2.2 完善并規(guī)范概念描述,生成概念格 由于指標(biāo)主要用于對象評價,如果直接用于描述對象可能不夠完全.除了評價指標(biāo)所反映的屬性外,還需在詞性轉(zhuǎn)換之后進(jìn)一步豐富.如“Science teacher”是“Teacher”類下的1 個子類,此外,“Science teacher”還應(yīng)具備“Research disciplines”的屬性.
利用 Wordnet[10]對基礎(chǔ)本體進(jìn)一步完善.Wordnet中有關(guān)“Science teacher”的概念描述片段如圖3所示.其描述有了進(jìn)一步補(bǔ)充,基礎(chǔ)本體可與之合并,從而生成更完善的領(lǐng)域本體.利用Wordnet對領(lǐng)域本體進(jìn)行完善可參考CHEN等[11]提出的方法.其基本思想是:首先將基礎(chǔ)本體轉(zhuǎn)換為概念格1,再提取Wordnet中關(guān)于“Science teacher”的概念描述,形成Wordnet描述的概念格2,將二者合并成新概念格3.
圖3 Wordnet中有關(guān)“Science teacher”的概念描述片段Figure 3 The concept description clips of“Science teacher”in the Wordnet
2.2.3 基于概念格生成領(lǐng)域本體 目前基于FCA(Formal Concept Analysis,形式概念分析)構(gòu)建領(lǐng)域本體的方法和工具,包括CIMIANO的方法[8]和GU的方法[12]等.本文參考CIMIANO方法中由概念格映射領(lǐng)域本體的步驟,并做一些調(diào)整以適合實(shí)際應(yīng)用.其思想是:通過直接刪除概念格最底層元素,將其轉(zhuǎn)換成偏序關(guān)系,再將生成的形式概念作為本體的概念(以其內(nèi)涵命名),從而構(gòu)成領(lǐng)域本體.由于評價體系的層次結(jié)構(gòu)已較清晰,生成的概念格基本上是一個偏序關(guān)系,所以在處理過程中,要保留來源于評價指標(biāo)的概念,具體過程如下:
(1)引入本體,標(biāo)識每個本體節(jié)點(diǎn)的概念源頭;
(2)如果概念節(jié)點(diǎn)的最底元素非來源于評價指標(biāo),則直接刪除;
(3)為移走最底元素的概念節(jié)點(diǎn)添加子節(jié)點(diǎn).
根據(jù)綜合評價描述的語義,提出本體構(gòu)建的組成屬性.對綜合評價文檔的處理是實(shí)現(xiàn)的關(guān)鍵.具體算法流程如圖4所示.
圖4 算法流程Figure 4 Algorithm overflow
以“Science teacher”為實(shí)驗(yàn)對象,采用綜合評價指標(biāo)是來自于高校的教學(xué)科研人員考核評價體系.評價的對象可細(xì)分為Arts teachers、Science and engi-neering teachers、Teaching-oriented teachers、Researchbased teachers,得到的屬性有:Classroom teaching、Thesiswriting、Research and development projects、Discipline construction、Guide the experiment.生成形式背景Hasse圖(圖5),其概念格可根據(jù)2.2.3中的方法轉(zhuǎn)化為領(lǐng)域本體.
圖5 “science teacher”的 Hasse圖Figure 5 The Hasse diagram of“science teacher”
隨著近年來各類人才項(xiàng)目的頒布和實(shí)施,特別是面向協(xié)同創(chuàng)新人才團(tuán)隊(duì)的“2011計(jì)劃”的實(shí)施,利用互聯(lián)網(wǎng)進(jìn)行學(xué)術(shù)團(tuán)隊(duì)組建、科研人才推薦等需求越來越多,因此,對于這些類似于各類協(xié)作團(tuán)隊(duì)、創(chuàng)新人才等學(xué)術(shù)人才工程中的“新生事物”,都有了構(gòu)建語義本體,從而更好地滿足互聯(lián)網(wǎng)的智能應(yīng)用的需求.而這些“新生事物”的申報(bào)評審需要構(gòu)建評價指標(biāo)體系,并經(jīng)過了系統(tǒng)的分析和研究.通過本文的研究,利用現(xiàn)有的評價指標(biāo)體系,構(gòu)建對應(yīng)的領(lǐng)域本體,從而使該本體更加科學(xué)并且能夠隨政策同步更新.
[1]FENSEL D.Ontologies:A silver bullet for Knowledge Management and Electronic-Commerce[M].Berlin:Springer,2001.
[2]馮志勇,李文杰,李曉紅.本體論工程及其應(yīng)用[M].北京:清華大學(xué)出版社,2007.
[3]WANG FY,CARLEY K M,ZENG D,etal.Social computing:From social informatics to social intelligence[J].IEEE Intell Syst,2007,22(2):79-83.
[4]韓婕,向陽.本體構(gòu)建研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2007,24(9):21-23.
[5]陳剛,陸汝鈐,金芝.基于領(lǐng)域知識重用的虛擬領(lǐng)域本體構(gòu)造[J].軟件學(xué)報(bào),2003,14(3):350-355.
[6]黃美麗,劉宗田.基于形式概念分析的領(lǐng)域本體構(gòu)建方法研究[J].計(jì)算機(jī)科學(xué),2006,33(1):210-212.
[7]CIMIANO P,STUMME G,HOTHO A,et al.Conceptual knowledge processing with formal concept analysis and ontologies[C]//The Second Int’l.Conf.on Formal Concept Analysis(ICFCA 04),Springer,2004:189-207.
[8]CIMIANO P,STAAB S,TANE J.Automatic acquisition of taxonomies from text:FCA meets NLP[C]//The Int’l.Workshop on Adaptive Text Extraction and Mining,2003:10-17.
[9]STUMME G,MAEDCHE A.FCA-Merge:Bottom-up merging of ontologies[C]∥International joint conference on artificial intelligence.Lawrence Erlbaum Associates Ltd,2001,17(1):225-234.
[10]Wordnet 3.1[DB/OL].http://wordnetweb.princeton.edu/perl/webwn.
[11]CHEN R C,BAU C T,YEH C J.Merging domain ontologies based on the Wordnet system and Fuzzy Formal Concept Analysis techniques[J].Appl Soft Comput,2011,11(2):1908-1923.
[12]GU T.Using formal concept analysis for ontology structuring and building[C]∥ICIS,Nanyang Technological University,2003.