一種文本分類模式下的本體構(gòu)建方法

2015-01-20 11:43:09赫宜

電腦知識(shí)與技術(shù) 2014年36期

摘要：本體在知識(shí)管理和語(yǔ)義網(wǎng)中扮演著越來(lái)越重要的角色，但本體的構(gòu)建是一項(xiàng)費(fèi)力又費(fèi)時(shí)的工作，為此本文提出一種基于文本分類模式下的本體自動(dòng)構(gòu)建方法。該方法以形式化概念理論分析作為基礎(chǔ)，計(jì)算出概念之間的相關(guān)度，以概念間的相關(guān)度和它們?cè)谖臋n中出現(xiàn)的頻率矩陣構(gòu)建本體概念圖。實(shí)驗(yàn)結(jié)果表明，在文檔分類模式下自動(dòng)構(gòu)建本體支持目前的信息分類系統(tǒng)，形成的本體有利于更好地共享和重用，促進(jìn)語(yǔ)義Web的本體的升級(jí)。

關(guān)鍵詞：語(yǔ)義網(wǎng)；本體構(gòu)建；信息分類；形式化概念分析

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）36-8750-04

根據(jù)Berners-Lee的觀點(diǎn)，語(yǔ)義網(wǎng)并非是全新的Web，而是對(duì)現(xiàn)有的Web進(jìn)行擴(kuò)展。簡(jiǎn)而言之，語(yǔ)義網(wǎng)是一個(gè)整合了眾多元數(shù)據(jù)的網(wǎng)絡(luò)，信息的含義在語(yǔ)義網(wǎng)環(huán)境下能夠很好地加以定義[1]，并使得計(jì)算機(jī)能夠自動(dòng)檢索、處理、共享、重用和交換信息。

作為語(yǔ)義網(wǎng)基礎(chǔ)的本體（Ontology），是通過(guò)對(duì)概念、術(shù)語(yǔ)及其相互關(guān)系的規(guī)范化描述，勾畫出某一領(lǐng)域的基本知識(shí)體系，它可以很好地解決知識(shí)表示、知識(shí)組織以及知識(shí)共享等問(wèn)題[2]。語(yǔ)義網(wǎng)的快速發(fā)展和成功很大程度上依賴于本體如何快速高效的建立，而本體構(gòu)建一般是手工建立，不僅費(fèi)時(shí)費(fèi)力而且還需要領(lǐng)域?qū)＜业膮⑴c。因此，本體的自動(dòng)化構(gòu)建成為科研工作者越來(lái)越關(guān)心的熱點(diǎn)研究領(lǐng)域。該文提出一種基于文本分類框架[3]下本體的自動(dòng)構(gòu)建方法。

1 常用的本體構(gòu)建方法

本體的構(gòu)建是本體應(yīng)用的基礎(chǔ)，是實(shí)現(xiàn)信息交換、共享，解決語(yǔ)義沖突的基礎(chǔ)，通過(guò)構(gòu)建統(tǒng)一的術(shù)語(yǔ)和概念，實(shí)現(xiàn)知識(shí)共享，為異構(gòu)系統(tǒng)間的通訊提供交流平臺(tái)，便于他們之間的互操作和集成。雖然許多領(lǐng)域本體已經(jīng)存在，但是大部分領(lǐng)域本體都是為特定的領(lǐng)域和目的構(gòu)建的，統(tǒng)一通用的本體構(gòu)建的方法還沒(méi)有形成，而其他領(lǐng)域比如語(yǔ)言學(xué)、信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和軟件工程等方面的研究和相關(guān)技術(shù)可為本體構(gòu)建提供借鑒。Maedche等人[4]提出本體構(gòu)建可分為四部分，分別為：抽取、修剪、精煉、導(dǎo)入或重用。該文主要以抽取方法為基礎(chǔ)，相應(yīng)的本體的構(gòu)建方法分別是：基于字典、文本聚類、關(guān)聯(lián)規(guī)則、知識(shí)庫(kù)的學(xué)習(xí)方法和形式概念分析。

1.1 基于詞典的本體學(xué)習(xí)法

基于詞典的本體學(xué)習(xí)法根據(jù)一些現(xiàn)有的詞匯在詞典中定義的同義詞、近義詞、反義詞、根詞、詞源等知識(shí)來(lái)獲取概念間的關(guān)系[5-7 ]?；谠~典的本體構(gòu)建方法有它自己的局限性，在與另外一種方法配對(duì)才能發(fā)揮它的有效作用，為此它不能獨(dú)立使用。

1.2 基于文本聚類的本體學(xué)習(xí)法

聚類的含義是使用屬于同一類別的個(gè)體之間距離盡可能的小，而不同類別的個(gè)體之間的距離盡可能的大。采用文本聚類方法來(lái)計(jì)算概念層次，根據(jù)其同義詞分組，不同的搜索策略指導(dǎo)聚集過(guò)程。每一聚集由某一特定的使用頻率高的詞或術(shù)語(yǔ)表示，由此重復(fù)該步驟能夠獲取術(shù)語(yǔ)的層次體系。該方法目前仍存在一些問(wèn)題，影響其可用性[8]。

1.3 基于關(guān)聯(lián)規(guī)則的本體學(xué)習(xí)法

基于關(guān)聯(lián)規(guī)則的本體學(xué)習(xí)法利用概念間的非分類關(guān)系來(lái)構(gòu)建本體。基本思想是如果兩個(gè)領(lǐng)域概念經(jīng)常出現(xiàn)在同一個(gè)語(yǔ)法單元，即出現(xiàn)在同一句子、同一段落或同一文檔中，則這兩個(gè)概念之間必定存在著一定關(guān)系。而它們之間聯(lián)系的緊密程度和它們所在的語(yǔ)法單元有關(guān)。兩個(gè)概念在一個(gè)語(yǔ)法單元內(nèi)，則語(yǔ)義聚合度就高，那么這兩個(gè)概念之間的緊密程度越高[9]。Maedche等人[4]于2000年最先提出并評(píng)價(jià)了將關(guān)聯(lián)規(guī)則并應(yīng)用于本體學(xué)習(xí)的方法，于2001年又提出使用已有的概念層次作為背景知識(shí)，然后利用關(guān)聯(lián)規(guī)則來(lái)發(fā)現(xiàn)概念間的非分類關(guān)系的方法[10]。

1.4 基于知識(shí)庫(kù)的本體學(xué)習(xí)法

基于知識(shí)庫(kù)的本體學(xué)習(xí)法，首先需要在相關(guān)領(lǐng)域建立知識(shí)庫(kù)，知識(shí)庫(kù)必須包含基礎(chǔ)的規(guī)則和簡(jiǎn)單的實(shí)例，當(dāng)用戶輸入關(guān)鍵詞檢索時(shí)，相關(guān)的實(shí)例以對(duì)應(yīng)的方式顯示出來(lái)。當(dāng)所需的規(guī)則被挑選出來(lái)時(shí)，知識(shí)庫(kù)里的規(guī)則用來(lái)建立相關(guān)本體。這種方法不同于上面提到的三種方法，知識(shí)庫(kù)里的規(guī)則可以用來(lái)作為本體的一種表現(xiàn)形式，知識(shí)庫(kù)里的規(guī)則往往被用來(lái)組合相關(guān)的本體[11]。

1.5 形式概念分析法

形式概念分析（Formal concept analysis， FCA）是運(yùn)用形式概念分析的方法，去發(fā)現(xiàn)、構(gòu)造和展示由屬性和對(duì)象構(gòu)成的概念及其之間的關(guān)系，它最具特色的性質(zhì)就是能從任何給出的數(shù)據(jù)集中產(chǎn)生可視化圖形，因此FCA在計(jì)算機(jī)科學(xué)中得到廣泛的應(yīng)用[5]。目前，F(xiàn)CA的方法，已經(jīng)大量運(yùn)用在概念聚類、數(shù)據(jù)分析、信息檢索、知識(shí)發(fā)現(xiàn)、本體工程的應(yīng)用之中。

2 基于信息分類模式下本體的構(gòu)建方法

本文的目的是利用本體學(xué)習(xí)方法構(gòu)建文本概念圖，以實(shí)現(xiàn)的高效的信息檢索，信息檢索的模式如圖1所示。這樣的檢索系統(tǒng)可分為三個(gè)主要的子系統(tǒng)和相關(guān)模塊。這些子系統(tǒng)說(shuō)明如下：

圖1 系統(tǒng)結(jié)構(gòu)圖

2.1術(shù)語(yǔ)解析子系統(tǒng)

為了滿足后面處理的要求，輸入各種數(shù)據(jù)文本時(shí)必須經(jīng)過(guò)不同的方法進(jìn)行處理。在此階段中有的5個(gè)步驟分別是：

1）消除文檔格式：各種數(shù)據(jù)文檔有不同的格式，因此，第一步是忽略所有不相關(guān)信息，如：排版格式，注釋和其它的附加信息。這個(gè)階段的輸出的是字符數(shù)據(jù)流。

2）詞法分析：詞法分析是把字符數(shù)據(jù)流轉(zhuǎn)化成術(shù)語(yǔ)數(shù)據(jù)流[6]。英語(yǔ)詞法分析利用空格或標(biāo)點(diǎn)標(biāo)記把數(shù)據(jù)流轉(zhuǎn)化成一個(gè)術(shù)語(yǔ)集。

3）消除停止符：在詞法分析的第二個(gè)階段，我們注意到最頻繁使用的術(shù)語(yǔ)通常不具有區(qū)分和識(shí)別的屬性。事實(shí)上，一個(gè)文檔中，超過(guò)80%的術(shù)語(yǔ)是無(wú)意義的，并經(jīng)常在分析過(guò)程過(guò)濾掉。這兒提及的術(shù)語(yǔ)通常是指：冠詞、介詞、連詞和其他不構(gòu)成文檔主題思想或主要概念的詞匯，例如：a， as， and， etc。消除這些術(shù)語(yǔ)不僅節(jié)約存儲(chǔ)空間而且降低計(jì)算的復(fù)雜性。

4）消除衍生詞：由于不同的作者有不同的寫作風(fēng)格，在不同的語(yǔ)境中特定術(shù)語(yǔ)有細(xì)微的變化是不可避免的?；驹~匯通過(guò)復(fù)數(shù)、動(dòng)名詞和時(shí)態(tài)變化等形式出現(xiàn)，利用詞匯的標(biāo)準(zhǔn)形式或詞根代替它的變形格式。例如“connect”這個(gè)詞的變化形式有connecting，connection，connections等。利用詞根代替它的變形可以節(jié)約存儲(chǔ)空間，減少計(jì)算的復(fù)雜性。

5）近義詞：不同的詞匯具有相同的意思，因此近義詞作為多余的詞匯被忽略了[6]。

2.2本體構(gòu)建子系統(tǒng)

由于文檔內(nèi)容已經(jīng)轉(zhuǎn)變成一個(gè)術(shù)語(yǔ)集合，本體構(gòu)建子系統(tǒng)利用本體構(gòu)建技術(shù)生成文檔概念圖。

2.2.1建立概念關(guān)系集和術(shù)語(yǔ)之間的層次結(jié)構(gòu)

在這里，我們利用概念分析的思想[7，8]建立概念的集合和層次關(guān)系結(jié)構(gòu)。一般而言，概念之間存在三種關(guān)系，分別是：獨(dú)立、交叉和繼承。為建立概念間的聯(lián)系和不同術(shù)語(yǔ)間的層次關(guān)系，執(zhí)行以下五步：

第一步：文檔和術(shù)語(yǔ)間產(chǎn)生二元關(guān)系矩陣

在每一個(gè)文檔中，最能表達(dá)文檔主題的術(shù)語(yǔ)必須添加到術(shù)語(yǔ)檢索子系統(tǒng)中，為此，產(chǎn)生文檔集和術(shù)語(yǔ)集。如果一個(gè)術(shù)語(yǔ)在一個(gè)文檔中出現(xiàn)，矩陣中相應(yīng)的值標(biāo)記為“X”，以此生成文檔和術(shù)語(yǔ)之間二元關(guān)系矩陣。利用FCA建立相應(yīng)的三元組：O=（D， T， R），本體用O表示，本體的相關(guān)文檔集用D表示，本體的相關(guān)術(shù)語(yǔ)集用T表示，用R來(lái)表示D和T的二元關(guān)系：R?D×T。

第二步：產(chǎn)生概念集C

如果X是D的一個(gè)子集，Y是T的一個(gè)子集，那即X?D，Y?T，映射如下：

[σ（X）=t∈T|?d∈X：（t，d）∈R]

[τ（Y）=d∈D|?t∈Y：（t，d）∈R]，

根據(jù)以上定義，對(duì)任意一對(duì)文檔集術(shù)語(yǔ)集（X，Y）有Y=s（X）和X=t（Y）。因而，包含公共術(shù)語(yǔ)最多的文檔集是由具有關(guān)系R的二維數(shù)組成的最全矩陣。所有的概念的集合c就可以用概念集C來(lái)表示。

第三步：計(jì)算概念的層次關(guān)系

所有給定的概念集是完整的偏序序列。定義概念（X0，Y0）是另一個(gè)概念（X1，Y1）子集，記為：（X0，Y0） ? （X1，Y1）。假設(shè)，具有術(shù)語(yǔ)集Y1的文檔集X1包含在擁有術(shù)語(yǔ)集Y2的文檔集X2，記為X1?X2，（X1， Y1）成為（X2， Y2）的子集，記為（X1， Y1） ? （X2， Y2）。對(duì)于概念集C，那么C1（X1， Y1）成為C2（X2， Y2）的子概念。

第四步：生成概念的層次結(jié)構(gòu)

由于概念C可能具有多個(gè)父概念而成為子概念，所以獲得全部概念層次結(jié)構(gòu)必須計(jì)算不同概念的各種層次關(guān)系。每層的一個(gè)節(jié)點(diǎn)代表一個(gè)概念，在概念層次結(jié)構(gòu)上給出兩個(gè)元素（D1，T1）和（D2，T2），他們的上確界或者結(jié)合點(diǎn)定義為[7]：

[（D1，T1）?（D2，T2）=（τ（T1?T1），T1?T1）]

C1（X1， Y1）和C2（X2， Y2）是兩個(gè)概念，為了在概念層次上為了確定他們各自位置，應(yīng)計(jì)算兩個(gè)概念的上確界。

第五步：產(chǎn)生概念之間的相互關(guān)系

在構(gòu)建概念之間的層次關(guān)系之后，可定義概念之間的相互關(guān)系。C1（X1， Y1）和C2（X2， Y2）是兩個(gè)概念，如果Y1?Y2且Y2?Y1，那么這兩個(gè)概念部分的相互包含，這樣就可以定義C1和C2之間的關(guān)系。

2.2.2概念之間的相關(guān)度計(jì)算

在建立概念間的聯(lián)系之后，我們可以開(kāi)始計(jì)算不能直接繼承的概念之間的相關(guān)度。利用Kang等人[9]提出計(jì)算概念間相關(guān)性的方法來(lái)計(jì)算概念的相關(guān)度，公式如下：

[fjk=relevancy（Tj，Tk）=i=1ndijki=1ndij×WeightingFactor（Tk）] （1）

[dijk=tfijk×log10（Ndfjk×wj）] （1.1）

[dij=tfij×log10（Ndfj×wj）] （1.2）

[WeightingFactor（Tk）=log10Ndfklog10N] （1.3）

公式（1）描述了兩個(gè)概念之間的相關(guān)度。每個(gè)相關(guān)度都對(duì)應(yīng)一個(gè)的方向，所以不同術(shù)語(yǔ)作為中心點(diǎn)計(jì)算出的關(guān)聯(lián)度的值是不同的。公式（1）可以分解成另外三個(gè)等式，如公式（1.1），公式（1.2），公式（1.3）。我們注意到公式（1.1）和（1.2）是應(yīng)用TF-IDF（term frequency—inverse document frequency）概念[6]。在公式（1.1）中，dijk由術(shù)語(yǔ)Tk和Tj同時(shí)出現(xiàn)的頻率以及逆文檔頻率來(lái)決定的。tfijk表示術(shù)語(yǔ)Tj和Tk同時(shí)出現(xiàn)在文檔i中的頻率。公式（1.2） djk表示同時(shí)出現(xiàn)Tj和Tk全部文檔的數(shù)目。當(dāng)兩個(gè)術(shù)語(yǔ)有較高的相關(guān)性，Tk和Tj出現(xiàn)在同一文檔中的次數(shù)就多，并且集中出現(xiàn)在一些特殊的文檔中。公式（1.3）中WeightingFactor（Tk）反應(yīng)了術(shù)語(yǔ)Tk對(duì)應(yīng)的文檔的屬性，術(shù)語(yǔ)Tk越普通，WeightingFactor（Tk）的值就在越低。在公式（1）中的變量描述示如表1。

表1 公式（1）中的變量描述

[變量＼&描述＼&N＼&關(guān)鍵術(shù)語(yǔ)總數(shù)＼&dijk＼&在文檔i中同時(shí)出現(xiàn)術(shù)語(yǔ)j，k的次數(shù)＼&wj＼&逆文檔頻率的比重＼&tfij＼&術(shù)語(yǔ)j在文檔i中出現(xiàn)的次數(shù)＼&dfj＼&包好術(shù)語(yǔ)j的文檔數(shù)量＼&dfjk＼&包含術(shù)語(yǔ)j，k的文檔數(shù)量＼&]

表2表示不同術(shù)語(yǔ)在每一個(gè)文檔中出現(xiàn)的頻率。公式（1）計(jì)算的相關(guān)度和通過(guò)形式化概念分析（FCA）構(gòu)建概念層次關(guān)系生成本體概念圖，如圖2。在圖中，實(shí)線箭頭用于表示概念間的繼承關(guān)系，虛線表示兩個(gè)概念間的相互關(guān)系。概念A(yù)對(duì)于概念B相關(guān)度與概念B對(duì)于概念A(yù)相關(guān)度是不同的，虛線上有兩個(gè)數(shù)字表示以各自為中心相關(guān)度。endprint

表2 術(shù)語(yǔ)在文件中出現(xiàn)的頻率矩陣

[＼&D1＼&D2＼&D3＼&D4＼&D5＼&D6＼&D7＼&D8＼&D9＼&D10＼&Mathematics＼&5＼&3＼&4＼&5＼&5＼&9＼&＼&＼&＼&＼&Data＼&＼&＼&＼&＼&＼&＼&6＼&9＼&10＼&8＼&O S＼&3＼&7＼&＼&＼&6＼&9＼&＼&＼&＼&＼&Ontology＼&＼&＼&8＼&3＼&＼&＼&5＼&7＼&8＼&3＼&A I＼&＼&6＼&7＼&6＼&4＼&＼&3＼&5＼&4＼&＼&Compliers＼&＼&＼&＼&＼&＼&14＼&＼&＼&＼&＼&Algorithms＼&7＼&＼&＼&＼&＼&＼&＼&＼&＼&14＼&Multimedia＼&＼&＼&＼&2＼&＼&＼&＼&＼&＼&＼&Logics＼&＼&＼&＼&＼&＼&＼&＼&＼&＼&3＼&Database＼&＼&7＼&＼&＼&4＼&＼&1＼&2＼&＼&＼&C5.0＼&＼&＼&＼&＼&＼&6＼&＼&＼&＼&＼&Programming＼&2＼&＼&4＼&＼&＼&＼&＼&＼&＼&＼&Network＼&＼&＼&＼&＼&＼&＼&＼&＼&2＼&＼&]

圖2 從表2得到的本體概念圖

2.3本體管理子系統(tǒng)

本體管理子系統(tǒng)有兩個(gè)主要的部分。第一部分，建立概念間準(zhǔn)確的層次關(guān)系。對(duì)于構(gòu)建者來(lái)說(shuō)最重要的是確保本體正確性。從用戶的角度來(lái)說(shuō)，層次結(jié)構(gòu)上的錯(cuò)誤將導(dǎo)致用戶對(duì)概念產(chǎn)生誤解。第二部分，語(yǔ)義網(wǎng)為用戶提供一個(gè)有效檢索接口，提高搜索效果。關(guān)于子系統(tǒng)第二部分就是用戶可以在圖2（概念圖）中選擇一個(gè)概念，找不到相關(guān)的概念的文檔，或者能同時(shí)選擇幾個(gè)具有關(guān)聯(lián)的概念文檔。

3 方法驗(yàn)證

本研究的主要目的是提升現(xiàn)有互聯(lián)網(wǎng)的應(yīng)用。實(shí)驗(yàn)中的數(shù)據(jù)均來(lái)自互聯(lián)網(wǎng)的資源。研究中提出的系統(tǒng)是在互聯(lián)網(wǎng)上執(zhí)行的。另外，如圖1中的系統(tǒng)結(jié)構(gòu)需要使用一些函數(shù)庫(kù)，因此這項(xiàng)研究選擇Java語(yǔ)言作為實(shí)現(xiàn)語(yǔ)言。

3.1 實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)

研究本體構(gòu)建技術(shù)的最終目標(biāo)就是建立相關(guān)本體概念的映射圖，來(lái)幫助用戶查找他們所需信息?；诋?dāng)前的本體構(gòu)建技術(shù)，無(wú)論用基于字典、文本類聚、關(guān)聯(lián)規(guī)則和知識(shí)庫(kù)的技術(shù)方法在建立層次關(guān)系時(shí)難免的產(chǎn)生一些錯(cuò)誤。因此我們利用層次關(guān)系來(lái)對(duì)照概念節(jié)點(diǎn)得到整個(gè)本體的準(zhǔn)確率。在測(cè)量構(gòu)建方法的效率時(shí)，利用準(zhǔn)確率和召回率進(jìn)行評(píng)估[10]，公式如下：

[Precision=|ReleventRetrieved|Retrieved] （2）

[Recall=|ReleventRetrieved|Relevent] （3）

在測(cè)量本體概念層次時(shí)，精確度是指能自動(dòng)構(gòu)建概念層次程度，而召回率是指應(yīng)產(chǎn)生的概念層次的程度。如圖3顯示了概念層次結(jié)構(gòu)圖。在圖中層次共有8個(gè)概念節(jié)點(diǎn)和8個(gè)概念聯(lián)系。其中一個(gè)不準(zhǔn)確的概念聯(lián)系用粗實(shí)線表示。另外，虛線表示存在但不能自動(dòng)建立的概念聯(lián)系。利用公式（2）和（3）計(jì)算概念層次得到準(zhǔn)確率（8-1）/8=87.5%和召回率7/（8-1+1）=87.5%。

3.2 實(shí)驗(yàn)驗(yàn)證

實(shí)驗(yàn)中為了測(cè)試構(gòu)建方法的效率和準(zhǔn)確性，涉及的內(nèi)容越相近，實(shí)驗(yàn)素材的使用范圍就越小。我們所用的實(shí)驗(yàn)素材是 “學(xué)術(shù)學(xué)位論文和的摘要” 里包含術(shù)語(yǔ)“ontology”的論文（http：//www.sciencedirect.com/）。總共收集了200個(gè)文件。

Wu等人[11]指出，主題詞和關(guān)鍵詞等術(shù)語(yǔ)通常由名詞—?jiǎng)釉~和名詞—名詞組成。通過(guò)句法形式、形態(tài)結(jié)構(gòu)和語(yǔ)料庫(kù)可以過(guò)濾掉大部分不相關(guān)的術(shù)語(yǔ)。由于有兩個(gè)或更多的術(shù)語(yǔ)可以表示同一個(gè)事物，具有多種含義或者具有多種翻譯的外國(guó)的專有名詞，可能產(chǎn)生混淆。因此很有必要建立一個(gè)同義詞詞典來(lái)促進(jìn)術(shù)語(yǔ)翻譯的準(zhǔn)確率。通過(guò)語(yǔ)言特性和同義詞可以收集到大部分基于名詞的術(shù)語(yǔ)，但它們的含義還是有區(qū)別的，因此為了提高效率很有必要過(guò)濾停止詞。

表3顯示了從實(shí)驗(yàn)所收集的原始術(shù)語(yǔ)集，這個(gè)術(shù)語(yǔ)集是使用語(yǔ)言特性、同義詞和停止詞過(guò)濾之后形成的最終術(shù)語(yǔ)的和術(shù)語(yǔ)集的過(guò)濾率。如果再仔細(xì)觀察一下這張表，我們將會(huì)注意到集合使用語(yǔ)言特性過(guò)濾率最高，這是因?yàn)槲覀冞^(guò)濾有關(guān)概念的名詞和動(dòng)詞，這也說(shuō)明描述性術(shù)語(yǔ)和句子在任何給定的文檔中數(shù)量最多。雖然同義詞和停止詞表現(xiàn)出較低過(guò)濾率，但它對(duì)整體效率的提高是不容忽視的。最終的術(shù)語(yǔ)集合只有15%的初始術(shù)語(yǔ)。

表3 不同情況術(shù)語(yǔ)集的數(shù)目

[＼&原始

術(shù)語(yǔ)＼&使用語(yǔ)言特性過(guò)濾之后的集合＼&使用同義詞過(guò)濾之后的集合＼&使用停止詞過(guò)濾之后的集合＼&最終的術(shù)語(yǔ)集合＼&術(shù)語(yǔ)數(shù)＼&4468＼&865＼&764＼&676＼&676＼&過(guò)濾率（%）＼&100＼&19＼&17＼&15＼&15＼&]

過(guò)濾的術(shù)語(yǔ)數(shù)量決定了本體表達(dá)信息的能力。概念節(jié)點(diǎn)太多會(huì)產(chǎn)生噪音，概念節(jié)點(diǎn)太少會(huì)不夠充分。該文利用本體概念層次結(jié)構(gòu)來(lái)表示數(shù)據(jù)的分布。假如單個(gè)概念節(jié)點(diǎn)的下面沒(méi)有其他節(jié)點(diǎn)則該節(jié)點(diǎn)歸入根節(jié)點(diǎn)，如果我們認(rèn)為這個(gè)節(jié)點(diǎn)比其他的節(jié)點(diǎn)有低的相關(guān)度，它將不再被認(rèn)為是概念層次結(jié)構(gòu)的一部分。在圖4中節(jié)點(diǎn)Z（充滿斜線）通常被認(rèn)為是一個(gè)獨(dú)立節(jié)點(diǎn)。因此我們對(duì)層次率的定義如下：

[Hierarchy ratio=1- number of independent nodestotal number of nodes] （4）

在獲得等級(jí)比例之后，我們得出最佳的術(shù)語(yǔ)集的數(shù)量是107。因此，我們利用FCA算法組合術(shù)語(yǔ)集生成完整本體框架。表4顯示了從實(shí)驗(yàn)得到本體的實(shí)驗(yàn)結(jié)果。經(jīng)過(guò)術(shù)語(yǔ)集過(guò)濾在這個(gè)實(shí)驗(yàn)中文檔的數(shù)量從187減少到184。另一方面，層次的深度和廣度顯示了本體所包含的內(nèi)容的范圍。本體層次廣度越寬，多元化的和通常的概念就越多；深度越深，內(nèi)容就越詳細(xì)。層次關(guān)系的數(shù)量表明了節(jié)點(diǎn)的復(fù)雜度的等級(jí)。實(shí)驗(yàn)中共有107個(gè)節(jié)點(diǎn)而只產(chǎn)生了132個(gè)層次關(guān)系，表明節(jié)點(diǎn)之間的關(guān)系并不復(fù)雜。經(jīng)過(guò)實(shí)驗(yàn)本體的準(zhǔn)確率和召回率分別為84.1%和81.1%，如表4所示。

表4 實(shí)驗(yàn)產(chǎn)生的本體

4 結(jié)論

在本體領(lǐng)域內(nèi)，通常是手工或者半自動(dòng)的方式構(gòu)建本體，并且需要專業(yè)開(kāi)發(fā)人員和專家的參與，這嚴(yán)重阻礙了網(wǎng)絡(luò)的發(fā)展，限制了知識(shí)共享的進(jìn)程。因此，該文采用形式化概念分析算法研究自動(dòng)構(gòu)建本體來(lái)滿足這樣的需求。該文所用的實(shí)驗(yàn)素材是學(xué)術(shù)論文，計(jì)算了由不同數(shù)據(jù)生成的本體的準(zhǔn)確率和召回率。分析實(shí)驗(yàn)結(jié)果，發(fā)現(xiàn)實(shí)驗(yàn)中的方法在較小的數(shù)據(jù)范圍和更多相同內(nèi)容的數(shù)據(jù)上能獲得較高的準(zhǔn)確率和召回率。通常普通的數(shù)據(jù)具有較淺的概念層次和更寬的廣度。這是因?yàn)橐话愕臄?shù)據(jù)內(nèi)容較分散，易于產(chǎn)生較為扁平的概念結(jié)構(gòu)，而特殊的數(shù)據(jù)內(nèi)容易產(chǎn)生較完整的本體概念的層次結(jié)構(gòu)。該文中采用的方法更適合小范圍的數(shù)據(jù)。

本文的主要貢獻(xiàn)是：現(xiàn)有的分類關(guān)系通常不能表達(dá)同一類別概念的優(yōu)先級(jí)，這將導(dǎo)致搜索一個(gè)概念時(shí)很容易忽略重要的信息。該文提出的方法能夠構(gòu)建各種概念和類之間的重要程度，能幫助用戶提高他們搜索信息的準(zhǔn)確率，減少搜索花費(fèi)的時(shí)間。根據(jù)實(shí)驗(yàn)的結(jié)果所示，本方法在數(shù)據(jù)較小范圍內(nèi)可以實(shí)現(xiàn)更好的結(jié)果。

參考文獻(xiàn)：

[1] 陸建江，張亞非.語(yǔ)義網(wǎng)原理與技術(shù)[M].北京：科學(xué)出版社，2007.

[2] 梁健，王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐，2007（1）：112-115.

[3] 張大鵬.基于本體的文本分類關(guān)鍵技術(shù)研究[D].長(zhǎng)春：東北師范大學(xué)，2012.

[4] Maedche A， Staab S.Ontology learning for the semantic web[J].IEEE Intelligent systems，2001，16（2）：72-79.

[5] Stumme G.Formal concept analysis on its way from mathematics to computer science[M]//Conceptual Structures： Integration and Interfaces.Springer Berlin Heidelberg，2002：2-19.

[6] Chowdhury G.Introduction to modern information retrieval[M].Facet publishing，2010.

[7] Buchli F.Detecting software patterns using formal concept analysis[J].inder Philosophisch-naturwissenschaftlichen Fakult： University of Bern，2003：10-15.

[8] Ganter B，Stumme G， Wille R. Formal Concept Analysis： foundations and applications[M].Springer，2005.

[9] Kang S H， Huh W， Lee S， et al. Automatic classification of WWW documents using a neural network[C]//2000， Proceedings of international conference on production research，Bangkok.

[10] Han J，Kamber M， Pei J.Data mining： concepts and techniques[M].Morgan kaufmann，2006.

[11] Wu S H，Day M Y， Tsai T H， et al. FAQ-centered organizational memory[M]//Knowledge Management and Organizational Memories. Springer US，2002：103-112.