彭煒明,宋繼華
(北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京100875)
自“萬(wàn)維網(wǎng)之父”Tim Berners-Lee提出的語(yǔ)義網(wǎng)的概念以來(lái),本體(Ontology)就逐漸成為計(jì)算機(jī)界的一個(gè)研究熱點(diǎn),被廣泛應(yīng)用于知識(shí)工程、數(shù)字圖書(shū)館和信息檢索等領(lǐng)域。其中,領(lǐng)域本體的構(gòu)建是各種應(yīng)用得以實(shí)現(xiàn)的前提。然而,從目前問(wèn)世的大量本體來(lái)看,仍存在諸多問(wèn)題。一方面,構(gòu)建領(lǐng)域本體是一項(xiàng)浩大的工程,需要大量領(lǐng)域?qū)<业膮⑴c,建設(shè)周期長(zhǎng),面對(duì)大量的領(lǐng)域知識(shí),僅依靠領(lǐng)域?qū)<沂止?gòu)建顯然是不現(xiàn)實(shí)的。因此,自然語(yǔ)言處理、文本挖掘等手段的介入以實(shí)現(xiàn)本體構(gòu)建的自動(dòng)化或半自動(dòng)化是必要的。另一方面,許多半自動(dòng)化構(gòu)建起來(lái)的本體由于缺乏有效的領(lǐng)域分析和良好的結(jié)構(gòu)設(shè)計(jì),質(zhì)量不高,應(yīng)用十分有限。
作者認(rèn)為,選擇一個(gè)相對(duì)穩(wěn)定和清晰的領(lǐng)域并作深入的領(lǐng)域分析對(duì)本體構(gòu)建工作來(lái)說(shuō)是極為重要的。中華五千年文明為我們積淀了大量的歷史典籍,文化是傳承的,因此其中記載的悠悠歷史必然是一張經(jīng)緯交錯(cuò)的知識(shí)網(wǎng)。如果能將這些深藏在文字里的知識(shí)從文本中挖掘出來(lái),并按歷史本來(lái)的面目和結(jié)構(gòu)組織起來(lái),那么對(duì)于我們把握歷史脈絡(luò)、傳承中華文化具有重要意義。作為當(dāng)前廣泛應(yīng)用的共享語(yǔ)義模型,本體非常適合用來(lái)構(gòu)建這個(gè)國(guó)史網(wǎng)。
目前得到最廣泛認(rèn)同的是Studer在1998年提出的定義:本體是共享概念模型的明確的形式化規(guī)范說(shuō)明[1]。在這個(gè)文字描述的定義之上,學(xué)者們提出了很多形式化定義,有五元組定義也有七元組定義,如O=(C,AC,R,AR,H,I,X),其中,C是概念的集合;AC是概念屬性的集合;R是關(guān)系的集合;AR是關(guān)系屬性的集合;H表示層次的集合;I是實(shí)例的集合;X是公理的集合[2]。
這里面比較有爭(zhēng)議的是實(shí)例。有些研究者認(rèn)為,實(shí)例相對(duì)本體其他組成成分來(lái)說(shuō)是動(dòng)態(tài)的,一方面現(xiàn)實(shí)世界中的實(shí)例無(wú)法窮盡,另一方面新的實(shí)例會(huì)不斷產(chǎn)生而原有實(shí)例也會(huì)不斷消亡,因此本體的構(gòu)建一般不考慮實(shí)例部分,在常見(jiàn)的五元組本體定義中就沒(méi)有包含I。還有人認(rèn)為,本體的建?;顒?dòng)中一般不考慮實(shí)例或只考慮少數(shù)重要的實(shí)例,當(dāng)本體和應(yīng)用相結(jié)合的時(shí)候再將領(lǐng)域內(nèi)的個(gè)體作為實(shí)例添加進(jìn)來(lái)[3]。
作者認(rèn)為,實(shí)例是否應(yīng)該作為本體的組成成分應(yīng)當(dāng)從知識(shí)共享的角度來(lái)看。對(duì)于那些以問(wèn)題求解為目標(biāo)的任務(wù)本體來(lái)說(shuō),實(shí)例確實(shí)是動(dòng)態(tài)、無(wú)法窮盡的,因此,這類(lèi)本體的構(gòu)建盡量少或者不考慮實(shí)例。但對(duì)于以知識(shí)表示為目標(biāo)的領(lǐng)域本體來(lái)說(shuō),共享知識(shí)中大部分應(yīng)當(dāng)是實(shí)例。比如目前所見(jiàn)到的許多課程領(lǐng)域本體,由于受五元組定義的束縛,構(gòu)建者將大量本該當(dāng)作實(shí)例的課程領(lǐng)域術(shù)語(yǔ)設(shè)為本體中的概念(或類(lèi)),比如,“計(jì)算機(jī)科學(xué)技術(shù)→計(jì)算機(jī)軟件→軟件理論”這樣一個(gè)“類(lèi)”層次。這種將實(shí)例誤作類(lèi)的設(shè)計(jì)其實(shí)是違反了Studer本體定義中的“明確”性,體現(xiàn)在以下幾個(gè)方面:
(1)概念的內(nèi)涵不明確。像“計(jì)算機(jī)科學(xué)技術(shù)”這樣的“類(lèi)”似乎很難找什么具體的屬性,要給出明確的形式化的說(shuō)明更是不現(xiàn)實(shí)。
(2)概念的外延不明確。因?yàn)榘驯驹撟鳛閷?shí)例的術(shù)語(yǔ)都設(shè)為類(lèi)了,因此這些“類(lèi)”下面只有子“類(lèi)”,而無(wú)法找出額外的實(shí)例來(lái)了。
(3)層次關(guān)系和非層次關(guān)系的混亂。很明顯,“軟件理論”和“計(jì)算機(jī)軟件”之間的關(guān)系不是類(lèi)一級(jí)的“is-a”層次關(guān)系,它們之間只存在實(shí)例一級(jí)的“學(xué)科子范疇”非層次關(guān)系。
可見(jiàn),上例中的三個(gè)學(xué)科術(shù)語(yǔ)其實(shí)都應(yīng)該是該課程本體中的實(shí)例。而這些實(shí)例在計(jì)算機(jī)學(xué)科領(lǐng)域中的地位是基本穩(wěn)定的,可共享的,因此,這些實(shí)例必須納入領(lǐng)域本體構(gòu)建體系中。而且作者認(rèn)為,在學(xué)科領(lǐng)域這類(lèi)以知識(shí)表示為目的的領(lǐng)域本體建設(shè)中,最終應(yīng)用其實(shí)是作用在實(shí)例層面的,實(shí)例在本體共享知識(shí)中占絕大部分,其地位的重要性是不容忽視的。在本體的構(gòu)建過(guò)程中,實(shí)例絕不應(yīng)該是在類(lèi)、層次、屬性等本體要素構(gòu)建完成后的應(yīng)用時(shí)再考慮添加的,而應(yīng)該貫穿于本體的整個(gè)生命周期,從領(lǐng)域分析開(kāi)始就有對(duì)實(shí)例的思考。
這其實(shí)也符合人類(lèi)認(rèn)識(shí)的一般過(guò)程,本體構(gòu)建本質(zhì)上是人對(duì)世界的建模,領(lǐng)域本體是對(duì)領(lǐng)域的建模,領(lǐng)域中大量存在的對(duì)象(實(shí)例),由于某些具有共同屬性,便抽象出它們的概念(類(lèi))。因此,實(shí)例屬于存在的范疇,是第一位的;類(lèi)屬于認(rèn)識(shí)的范疇,是第二位的。因此,在本體構(gòu)建時(shí),特別是領(lǐng)域分析時(shí),一定要分析清楚領(lǐng)域內(nèi)的實(shí)例是什么,這是基礎(chǔ)的一步。因?yàn)橹挥袑?shí)例明確了,構(gòu)建在其上的類(lèi)、屬性等才可能準(zhǔn)確反映本領(lǐng)域,也才能談得上知識(shí)的共享和推理。上例就是因?yàn)閷?shí)例不明確,從而導(dǎo)致領(lǐng)域發(fā)生了偏離:從“計(jì)算機(jī)學(xué)科領(lǐng)域”到“計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域”。
當(dāng)然,這里所說(shuō)的“先明確實(shí)例”是針對(duì)本體設(shè)計(jì)的思維過(guò)程而言,實(shí)際構(gòu)建過(guò)程不一定就從實(shí)例到類(lèi)的自底向上的獲取,因?yàn)閷?shí)例可能不定(不可窮盡或動(dòng)態(tài)變化),如某些任務(wù)本體。但需注意的是“不定”不等于“不明確”,具體說(shuō)來(lái),“明確”是指,特定某個(gè)實(shí)例,可以明確地形式化描述,即實(shí)例的各屬性取值也許目前尚未知,但必然客觀(guān)存在。
隨著本體應(yīng)用的日益深入,領(lǐng)域本體的開(kāi)發(fā)不能再簡(jiǎn)單視為項(xiàng)目開(kāi)發(fā),而應(yīng)看成是工程開(kāi)發(fā)[5],這已經(jīng)成為學(xué)界共識(shí)。然而目前尚無(wú)一種標(biāo)準(zhǔn)的本體構(gòu)建方法,較有代表性的有骨架法、企業(yè)建模法、IDEF-5、METHNOTOLOGY和循環(huán)獲取法等。國(guó)內(nèi)學(xué)者亦提出許多面向中文文本的領(lǐng)域本體學(xué)習(xí)方法[5-8],并用這些方法構(gòu)建出多個(gè)領(lǐng)域本體,為中文本體的構(gòu)建積累了大量的經(jīng)驗(yàn),但也存在不少問(wèn)題,比如(1)實(shí)例不明確;(2)關(guān)系的獲取多集中在分類(lèi)關(guān)系上,而缺乏有效的非分類(lèi)關(guān)系獲取方法;(3)缺乏有效的評(píng)價(jià)方法。
選擇一個(gè)合適的領(lǐng)域是本體工程的第一步。如前所述,中國(guó)有著悠久的歷史和浩瀚的史書(shū),歷史領(lǐng)域是本體技術(shù)應(yīng)用的一個(gè)絕佳平臺(tái)。作為我國(guó)第一部編年體通史,《資治通鑒》具有極高的史學(xué)價(jià)值。《資治通鑒》的內(nèi)容以政治、軍事和民族關(guān)系為主,兼及經(jīng)濟(jì)、文化和歷史人物評(píng)價(jià),通過(guò)對(duì)事關(guān)國(guó)家盛衰、民族興亡的統(tǒng)治階級(jí)政策的描述,以警示后人。也就是說(shuō),《資治通鑒》編著的思想是從大量的歷史事實(shí)中總結(jié)歷史規(guī)律和經(jīng)驗(yàn)教訓(xùn),這與本體“從世界對(duì)象中抽象類(lèi)和關(guān)系”的思想是吻合的。因此,《資治通鑒》歷史領(lǐng)域本體工程的開(kāi)發(fā)是現(xiàn)實(shí)可行的。
考慮到時(shí)間限制,本研究暫將《資治通鑒》歷史領(lǐng)域本體工程的開(kāi)發(fā)范圍限定在先秦部分(第1~5卷),即先秦史本體。采用模式驅(qū)動(dòng)的方法,自底向上構(gòu)建。構(gòu)建流程如圖所示:
圖1 領(lǐng)域本體構(gòu)建流程圖
在本體工程初期,做好充分的需求分析。首先,明確領(lǐng)域本體構(gòu)建的目的、范圍、使用者。為此,本體開(kāi)發(fā)者需要了解本領(lǐng)域的基本知識(shí),包括領(lǐng)域特點(diǎn)、規(guī)則以及技術(shù)方法,并盡可能與領(lǐng)域?qū)<易魃钊氲慕涣?。其?分析系統(tǒng)可共享的知識(shí),明確實(shí)例。如前所述,實(shí)例其實(shí)是決定一個(gè)領(lǐng)域的第一位因素,在領(lǐng)域分析階段,就應(yīng)考慮清楚哪些是實(shí)例,哪些是類(lèi)?實(shí)例是否是可共享知識(shí)?如果是可共享知識(shí),那么該實(shí)例就會(huì)進(jìn)入本體庫(kù)中。
在《資治通鑒》歷史領(lǐng)域本體工程的實(shí)踐中,作者通過(guò)學(xué)習(xí)相關(guān)歷史領(lǐng)域的知識(shí),可以總結(jié)出以下幾點(diǎn)領(lǐng)域特點(diǎn):
(1)《資治通鑒》是北宋司馬光所主編的一本長(zhǎng)篇編年體史書(shū),共294卷,耗時(shí)19年。共記載 16個(gè)朝代的歷史,計(jì)1 363年。其中先秦史分布在前5卷,共148年。由于是編年史,《資治通鑒》中記事的時(shí)間年信息獲取比較方便(當(dāng)然,也有一些例外,如為介紹某事緣起而引出的事件,在文中常以“先,……”的形式出現(xiàn))。
(2)史書(shū)的編寫(xiě)遵循一定的體例,這其實(shí)就是我們后面要大量獲取的模式。
(3)歷史本體是以知識(shí)表示為目的的,本體中大部分實(shí)例都是可共享知識(shí),因此本體構(gòu)建的很大一部分工作將在實(shí)例獲取上。
(4)歷史是發(fā)展的,各個(gè)歷史時(shí)期都有其明顯的時(shí)代特征,某些概念在一個(gè)朝代適用而在另一個(gè)朝代也許就不再適用,對(duì)這部分概念需謹(jǐn)慎處理。
(5)有大量的歷史文獻(xiàn)可供參考,如歷史年表、人物表等歷史工具書(shū),以及相關(guān)歷史的其他史書(shū)。這些資料既可用于本體的構(gòu)建的開(kāi)發(fā)過(guò)程,也可用于之后的本體評(píng)價(jià)和應(yīng)用。
這一階段的工作包括收集并整理領(lǐng)域內(nèi)可資利用的原始資料,對(duì)文本進(jìn)行一定的預(yù)處理,如格式轉(zhuǎn)換。
為了利用目前中文信息處理(主要是現(xiàn)代漢語(yǔ))在句法、語(yǔ)義方面的技術(shù)成果,本研究采用的《資治通鑒》電子版是網(wǎng)上通行的《資治通鑒》(柏楊白話(huà)版),其文本格式如下所示:
圖2 《資治通鑒》原始文本格式
每卷中年份單獨(dú)成行,并附有干支和公歷紀(jì)年,頂格。年下紀(jì)事,依事分段,古文今文對(duì)照并排。本文中稱(chēng)每一段為一“條目”,可以將原始文本按條目導(dǎo)入到關(guān)系數(shù)據(jù)庫(kù)中。
初始框架主要包括領(lǐng)域內(nèi)最基本的核心概念、屬性、層次關(guān)系以及比較確定的部分實(shí)例,它們通常都是較明顯的,可由領(lǐng)域?qū)<沂止?gòu)建,或者借鑒領(lǐng)域內(nèi)的術(shù)語(yǔ)表,或者采用各種本體學(xué)習(xí)算法自動(dòng)提取,如基于統(tǒng)計(jì)的方法[10]、形式概念分析[11-12]和聚類(lèi)[13]等方法。采用自動(dòng)提取方法得到的結(jié)果最后都必須經(jīng)由專(zhuān)家篩選確認(rèn)。這一階段不強(qiáng)求獲取領(lǐng)域中全面的概念,但要求每個(gè)概念準(zhǔn)確,可形式化。
本研究歷史本體的初始框架是在領(lǐng)域?qū)<业闹笇?dǎo)下,結(jié)合相關(guān)歷史工具書(shū)手工構(gòu)建。其結(jié)構(gòu)如下:
圖3 本體初始框架
其中有些類(lèi)的實(shí)例是特定可窮舉的,如諸侯國(guó)(趙 、魏 、楚 、燕 、韓 、齊 、鄭 、周 、宋 、秦 、魯 、中山 、晉 、蜀、衛(wèi)、義渠、胡、越、狄、吳、蔡),可根據(jù)專(zhuān)家知識(shí)手工建立。而其他一些類(lèi)在文本中有明顯的模式可尋。
根據(jù)前一階段獲得的概念和模式,利用如正則表達(dá)式之類(lèi)的工具從文本中自動(dòng)獲取實(shí)例。這一階段可能會(huì)根據(jù)具體情況,修正和完善模式。
《資治通鑒》中可挖掘的模式很多,有些可能直觀(guān)就可看出,有些可能需要做一定的語(yǔ)義標(biāo)注后方可發(fā)現(xiàn)。前者可直接用正則表達(dá)匹配,后者就有待于下面的迭代過(guò)程了。初始時(shí)可直接用正則表達(dá)式匹配到實(shí)例的類(lèi)有(括號(hào)中數(shù)字是匹配到的實(shí)例數(shù)):時(shí)間年(134)、地點(diǎn)(281)、國(guó)君(73)、彗星(2)、日食(5)。舉“時(shí)間_年”為例,其模式如下:
相應(yīng)的Perl正則表達(dá)式獲取語(yǔ)句為:
圖4 “時(shí)間_年”模式示意
($年號(hào),$年數(shù),$天干,$地支,$公歷年)=
/(?:周(.{2,4}王))?(.{2,6})年((..)(..),公元前(d+)年)/;
利用中文信息處理技術(shù)對(duì)文本進(jìn)行詞法和句法分析,并用上一階段獲取的實(shí)例結(jié)果作語(yǔ)義標(biāo)注。
本研究采用的句法分析模塊來(lái)自于哈爾濱工業(yè)大學(xué)信息檢索研究室語(yǔ)言技術(shù)平臺(tái)共享包(LTP)中的依存句法模塊。下面是對(duì)“齊國(guó)攻打燕國(guó),奪取桑丘?!?齊伐燕,取桑丘。)進(jìn)行句法分析和本體語(yǔ)義標(biāo)注后的數(shù)據(jù):
圖5 語(yǔ)義標(biāo)注
其中
隨著文本語(yǔ)義標(biāo)注的深入,新模式就會(huì)越明朗。比如,可根據(jù)句子中心詞的語(yǔ)義相似度,對(duì)句子進(jìn)行聚類(lèi)。
本研究采用的中心詞語(yǔ)義相似度包含兩部分信息:詞匯語(yǔ)義和本體語(yǔ)義。以“攻伐”類(lèi)為例分析,以下是該類(lèi)的幾個(gè)實(shí)例:
·齊國(guó)攻打燕國(guó),奪取桑丘。
·魏、韓、趙三國(guó)攻打齊國(guó),兵至桑丘。
·趙國(guó)入侵齊國(guó),占領(lǐng)長(zhǎng)城。
·趙國(guó)襲擊衛(wèi)國(guó),未能攻克。
“攻打”、“入侵”、“襲擊”三個(gè)主動(dòng)詞本身的詞匯語(yǔ)義是相近的,另外它們所處的本體語(yǔ)義模式也有利于這些樣本點(diǎn)聚類(lèi)到一個(gè)簇下面。而分析這個(gè)簇可以很容易得出新的模式:
圖 6 “攻伐”模式示意
從這個(gè)新模式中,我們可以提取新的類(lèi)和屬性:
圖 7 “攻伐”類(lèi)圖
將階段3.4至3.6作為一個(gè)周期進(jìn)行迭代,這樣就形成了一個(gè)以模式為驅(qū)動(dòng),自底向上的領(lǐng)域本體構(gòu)建方法。
通過(guò)《資治通鑒》先秦史本體的具體實(shí)踐,共得到類(lèi)62個(gè),對(duì)象屬性54個(gè),數(shù)據(jù)類(lèi)型屬性22個(gè),實(shí)例1 793個(gè)。表1為部分模式抽取實(shí)例效率統(tǒng)計(jì)和最終的本體結(jié)構(gòu)圖片段,抽取結(jié)果的主要錯(cuò)誤是某些實(shí)例的屬性取值,很容易人工糾正。
表1 部分模式抽取結(jié)果
續(xù)表
目前對(duì)本體的評(píng)價(jià)還沒(méi)有形成一個(gè)統(tǒng)一的標(biāo)準(zhǔn),常用的評(píng)價(jià)方法有以下兩種[14]:
(1)在同一個(gè)領(lǐng)域使用交叉評(píng)價(jià)的方法比較兩個(gè)或多個(gè)本體。
(2)基于應(yīng)用的評(píng)價(jià),即通過(guò)應(yīng)用來(lái)評(píng)價(jià)領(lǐng)域本體本身。
對(duì)于先秦史本體,這里采用基于應(yīng)用的評(píng)價(jià),主要從本體的搜索和可視化兩個(gè)方面展開(kāi)?;诒倔w的搜索表明,計(jì)算機(jī)對(duì)《資治通鑒》先秦史知識(shí)已經(jīng)有了初步的語(yǔ)義理解;而本體可視化技術(shù)直觀(guān)地將原來(lái)深藏在文本字符串中的線(xiàn)性信息以知識(shí)網(wǎng)的形式關(guān)聯(lián)起來(lái),可以很好服務(wù)于歷史領(lǐng)域的研究。
SPARQL[4]作為W 3C的候選推薦標(biāo)準(zhǔn)正被越來(lái)越多的研究者所采用,其語(yǔ)法簡(jiǎn)明,可以像SQL語(yǔ)句一樣方便的查詢(xún)。比如用SPARQL檢索趙武靈王參與的歷史事件,可生成一份簡(jiǎn)單的“趙武靈王年表”,見(jiàn)表2。
表2 趙武靈王年表
TouchG raph是一個(gè)基于java實(shí)現(xiàn)的關(guān)聯(lián)可視化開(kāi)源組件,Protégé中 TGViztab插件就是基于TouchG raph組件的一個(gè)應(yīng)用,在Protege_3.4_beta版中TGViztab存在兩個(gè)bug:一是關(guān)聯(lián)邊上的中文顯示出現(xiàn)亂碼,二是節(jié)點(diǎn)到自身的邊尚不完善,沒(méi)有以環(huán)的形式顯示。經(jīng)過(guò)修復(fù)后的TGViztab很好地展示了本體類(lèi)、實(shí)例等相關(guān)關(guān)系。圖8顯示公元前305年發(fā)生的相關(guān)歷史事件。
圖 8 以“公元前305年”節(jié)點(diǎn)為中心的可視化顯示
本研究提出了一項(xiàng)《資治通鑒》歷史領(lǐng)域本體工程和與之相適應(yīng)的領(lǐng)域本體構(gòu)建方法,并在工程實(shí)踐中實(shí)現(xiàn)了先秦史本體。該方法采用模式驅(qū)動(dòng),綜合應(yīng)用了自然語(yǔ)言處理和數(shù)據(jù)挖掘等技術(shù),并且特別強(qiáng)調(diào)實(shí)例在領(lǐng)域本體構(gòu)建中的基礎(chǔ)地位。雖然方法的提出是基于歷史領(lǐng)域的本體構(gòu)建背景,但對(duì)于其他相關(guān)領(lǐng)域,只要本體共享知識(shí)具備大量實(shí)例并有模式可尋,都應(yīng)該適用。
感謝 本研究中使用了哈爾濱工業(yè)大學(xué)信息檢索研究室語(yǔ)言技術(shù)平臺(tái)共享包(LTP),特此感謝。
[1] R.Studer,V.R.Ben jam ins,D.Fensel.Know ledge Engineering:Principles and Methods[J].Data and Know ledge Engineering.1998,25(1-2):161-197.
[2] 苗壯,張亞非,陸建江.從多個(gè)RDFS本體中抽取子本體[J].情報(bào)學(xué)報(bào),2007,26(1):71-76.
[3] 陸建江等.語(yǔ)義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.67-67.
[4] Eric Prud'hommeaux,Andy Seaborne.SPARQL Query Language for RDF[EB/OL].http://www.w 3.org/TR/rdf-sparq l-query/,2008.
[5] 李勇,張志剛.領(lǐng)域本體構(gòu)建方法研究[J].計(jì)算機(jī)工程與科學(xué),2008,30(5):129-131.
[6] 郁書(shū)好.基于本體的教學(xué)知識(shí)庫(kù)研究[D].南京:河海大學(xué),2006.
[7] 何燕,穗志方,段慧明,等.基于專(zhuān)業(yè)術(shù)語(yǔ)詞典的自動(dòng)領(lǐng)域本體構(gòu)造[J].情報(bào)學(xué)報(bào),2007,13(8):35-38.
[8] 徐力斌,等.基于W ordNet和自然語(yǔ)言處理技術(shù)的半自動(dòng)領(lǐng)域本體構(gòu)建[J].計(jì)算機(jī)科學(xué),2007,34(6):219-222.
[9] 韓韌,等.OWL本體構(gòu)建方法的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(6):1397-1400.
[10] 魏順平,何克抗.基于文本挖掘的領(lǐng)域本體半自動(dòng)構(gòu)建方法研究[J].開(kāi)放教育研究,2008,14(5):95-101.
[11] 黃偉,金遠(yuǎn)平.形式概念分析在本體構(gòu)建中的應(yīng)用[J].微機(jī)發(fā)展,2005,15(2):28-31.
[12] Cimiano P,Hotho A,Staab S.Learning concept hierarchies from text corpora using formal conceptanalysis[J].Journal o f A rtificial Intelligence Research,2005,24:305-339.
[13] Bisson G,Nedellec C,Canamero D.Designing clustering methods for ontology building[C]//Proceedings of the ECA I2000W orkshop on Ontology Learning,2000.
[14] 賈秀玲,文敦偉.面向文本的本體學(xué)習(xí)研究概述[J].計(jì)算機(jī)科學(xué),2007,34(2):181-185.