国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種文本分類模式下的本體構(gòu)建方法

2015-01-20 11:43:09赫宜
電腦知識(shí)與技術(shù) 2014年36期

摘要:本體在知識(shí)管理和語(yǔ)義網(wǎng)中扮演著越來(lái)越重要的角色,但本體的構(gòu)建是一項(xiàng)費(fèi)力又費(fèi)時(shí)的工作,為此本文提出一種基于文本分類模式下的本體自動(dòng)構(gòu)建方法。該方法以形式化概念理論分析作為基礎(chǔ),計(jì)算出概念之間的相關(guān)度,以概念間的相關(guān)度和它們?cè)谖臋n中出現(xiàn)的頻率矩陣構(gòu)建本體概念圖。實(shí)驗(yàn)結(jié)果表明,在文檔分類模式下自動(dòng)構(gòu)建本體支持目前的信息分類系統(tǒng),形成的本體有利于更好地共享和重用,促進(jìn)語(yǔ)義Web的本體的升級(jí)。

關(guān)鍵詞:語(yǔ)義網(wǎng);本體構(gòu)建;信息分類;形式化概念分析

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8750-04

根據(jù)Berners-Lee的觀點(diǎn),語(yǔ)義網(wǎng)并非是全新的Web,而是對(duì)現(xiàn)有的Web進(jìn)行擴(kuò)展。簡(jiǎn)而言之,語(yǔ)義網(wǎng)是一個(gè)整合了眾多元數(shù)據(jù)的網(wǎng)絡(luò),信息的含義在語(yǔ)義網(wǎng)環(huán)境下能夠很好地加以定義[1],并使得計(jì)算機(jī)能夠自動(dòng)檢索、處理、共享、重用和交換信息。

作為語(yǔ)義網(wǎng)基礎(chǔ)的本體(Ontology),是通過(guò)對(duì)概念、術(shù)語(yǔ)及其相互關(guān)系的規(guī)范化描述,勾畫出某一領(lǐng)域的基本知識(shí)體系,它可以很好地解決知識(shí)表示、知識(shí)組織以及知識(shí)共享等問(wèn)題[2]。語(yǔ)義網(wǎng)的快速發(fā)展和成功很大程度上依賴于本體如何快速高效的建立,而本體構(gòu)建一般是手工建立,不僅費(fèi)時(shí)費(fèi)力而且還需要領(lǐng)域?qū)<业膮⑴c。因此,本體的自動(dòng)化構(gòu)建成為科研工作者越來(lái)越關(guān)心的熱點(diǎn)研究領(lǐng)域。該文提出一種基于文本分類框架[3]下本體的自動(dòng)構(gòu)建方法。

1 常用的本體構(gòu)建方法

本體的構(gòu)建是本體應(yīng)用的基礎(chǔ),是實(shí)現(xiàn)信息交換、共享,解決語(yǔ)義沖突的基礎(chǔ),通過(guò)構(gòu)建統(tǒng)一的術(shù)語(yǔ)和概念,實(shí)現(xiàn)知識(shí)共享,為異構(gòu)系統(tǒng)間的通訊提供交流平臺(tái),便于他們之間的互操作和集成。雖然許多領(lǐng)域本體已經(jīng)存在,但是大部分領(lǐng)域本體都是為特定的領(lǐng)域和目的構(gòu)建的,統(tǒng)一通用的本體構(gòu)建的方法還沒(méi)有形成,而其他領(lǐng)域比如語(yǔ)言學(xué)、信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和軟件工程等方面的研究和相關(guān)技術(shù)可為本體構(gòu)建提供借鑒。Maedche等人[4]提出本體構(gòu)建可分為四部分,分別為:抽取、修剪、精煉、導(dǎo)入或重用。該文主要以抽取方法為基礎(chǔ),相應(yīng)的本體的構(gòu)建方法分別是:基于字典、文本聚類、關(guān)聯(lián)規(guī)則、知識(shí)庫(kù)的學(xué)習(xí)方法和形式概念分析。

1.1 基于詞典的本體學(xué)習(xí)法

基于詞典的本體學(xué)習(xí)法根據(jù)一些現(xiàn)有的詞匯在詞典中定義的同義詞、近義詞、反義詞、根詞、詞源等知識(shí)來(lái)獲取概念間的關(guān)系[5-7 ]?;谠~典的本體構(gòu)建方法有它自己的局限性,在與另外一種方法配對(duì)才能發(fā)揮它的有效作用,為此它不能獨(dú)立使用。

1.2 基于文本聚類的本體學(xué)習(xí)法

聚類的含義是使用屬于同一類別的個(gè)體之間距離盡可能的小,而不同類別的個(gè)體之間的距離盡可能的大。采用文本聚類方法來(lái)計(jì)算概念層次,根據(jù)其同義詞分組,不同的搜索策略指導(dǎo)聚集過(guò)程。每一聚集由某一特定的使用頻率高的詞或術(shù)語(yǔ)表示,由此重復(fù)該步驟能夠獲取術(shù)語(yǔ)的層次體系。該方法目前仍存在一些問(wèn)題,影響其可用性[8]。

1.3 基于關(guān)聯(lián)規(guī)則的本體學(xué)習(xí)法

基于關(guān)聯(lián)規(guī)則的本體學(xué)習(xí)法利用概念間的非分類關(guān)系來(lái)構(gòu)建本體。基本思想是如果兩個(gè)領(lǐng)域概念經(jīng)常出現(xiàn)在同一個(gè)語(yǔ)法單元,即出現(xiàn)在同一句子、同一段落或同一文檔中,則這兩個(gè)概念之間必定存在著一定關(guān)系。而它們之間聯(lián)系的緊密程度和它們所在的語(yǔ)法單元有關(guān)。兩個(gè)概念在一個(gè)語(yǔ)法單元內(nèi),則語(yǔ)義聚合度就高,那么這兩個(gè)概念之間的緊密程度越高[9]。Maedche等人[4]于2000年最先提出并評(píng)價(jià)了將關(guān)聯(lián)規(guī)則并應(yīng)用于本體學(xué)習(xí)的方法,于2001年又提出使用已有的概念層次作為背景知識(shí),然后利用關(guān)聯(lián)規(guī)則來(lái)發(fā)現(xiàn)概念間的非分類關(guān)系的方法[10]。

1.4 基于知識(shí)庫(kù)的本體學(xué)習(xí)法

基于知識(shí)庫(kù)的本體學(xué)習(xí)法,首先需要在相關(guān)領(lǐng)域建立知識(shí)庫(kù),知識(shí)庫(kù)必須包含基礎(chǔ)的規(guī)則和簡(jiǎn)單的實(shí)例,當(dāng)用戶輸入關(guān)鍵詞檢索時(shí),相關(guān)的實(shí)例以對(duì)應(yīng)的方式顯示出來(lái)。當(dāng)所需的規(guī)則被挑選出來(lái)時(shí),知識(shí)庫(kù)里的規(guī)則用來(lái)建立相關(guān)本體。這種方法不同于上面提到的三種方法,知識(shí)庫(kù)里的規(guī)則可以用來(lái)作為本體的一種表現(xiàn)形式,知識(shí)庫(kù)里的規(guī)則往往被用來(lái)組合相關(guān)的本體[11]。

1.5 形式概念分析法

形式概念分析(Formal concept analysis, FCA) 是運(yùn)用形式概念分析的方法,去發(fā)現(xiàn)、構(gòu)造和展示由屬性和對(duì)象構(gòu)成的概念及其之間的關(guān)系,它最具特色的性質(zhì)就是能從任何給出的數(shù)據(jù)集中產(chǎn)生可視化圖形,因此FCA在計(jì)算機(jī)科學(xué)中得到廣泛的應(yīng)用[5]。目前,F(xiàn)CA的方法,已經(jīng)大量運(yùn)用在概念聚類、數(shù)據(jù)分析、信息檢索、知識(shí)發(fā)現(xiàn)、本體工程的應(yīng)用之中。

2 基于信息分類模式下本體的構(gòu)建方法

本文的目的是利用本體學(xué)習(xí)方法構(gòu)建文本概念圖,以實(shí)現(xiàn)的高效的信息檢索,信息檢索的模式如圖1所示。這樣的檢索系統(tǒng)可分為三個(gè)主要的子系統(tǒng)和相關(guān)模塊。這些子系統(tǒng)說(shuō)明如下:

圖1 系統(tǒng)結(jié)構(gòu)圖

2.1術(shù)語(yǔ)解析子系統(tǒng)

為了滿足后面處理的要求,輸入各種數(shù)據(jù)文本時(shí)必須經(jīng)過(guò)不同的方法進(jìn)行處理。在此階段中有的5個(gè)步驟分別是:

1)消除文檔格式:各種數(shù)據(jù)文檔有不同的格式,因此,第一步是忽略所有不相關(guān)信息,如:排版格式,注釋和其它的附加信息。這個(gè)階段的輸出的是字符數(shù)據(jù)流。

2)詞法分析:詞法分析是把字符數(shù)據(jù)流轉(zhuǎn)化成術(shù)語(yǔ)數(shù)據(jù)流[6]。英語(yǔ)詞法分析利用空格或標(biāo)點(diǎn)標(biāo)記把數(shù)據(jù)流轉(zhuǎn)化成一個(gè)術(shù)語(yǔ)集。

3)消除停止符:在詞法分析的第二個(gè)階段,我們注意到最頻繁使用的術(shù)語(yǔ)通常不具有區(qū)分和識(shí)別的屬性。事實(shí)上,一個(gè)文檔中,超過(guò)80%的術(shù)語(yǔ)是無(wú)意義的,并經(jīng)常在分析過(guò)程過(guò)濾掉。這兒提及的術(shù)語(yǔ)通常是指:冠詞、介詞、連詞和其他不構(gòu)成文檔主題思想或主要概念的詞匯,例如:a, as, and, etc。消除這些術(shù)語(yǔ)不僅節(jié)約存儲(chǔ)空間而且降低計(jì)算的復(fù)雜性。

4)消除衍生詞:由于不同的作者有不同的寫作風(fēng)格,在不同的語(yǔ)境中特定術(shù)語(yǔ)有細(xì)微的變化是不可避免的?;驹~匯通過(guò)復(fù)數(shù)、動(dòng)名詞和時(shí)態(tài)變化等形式出現(xiàn),利用詞匯的標(biāo)準(zhǔn)形式或詞根代替它的變形格式。例如“connect”這個(gè)詞的變化形式有connecting,connection,connections等。利用詞根代替它的變形可以節(jié)約存儲(chǔ)空間,減少計(jì)算的復(fù)雜性。

5) 近義詞:不同的詞匯具有相同的意思,因此近義詞作為多余的詞匯被忽略了[6]。

2.2本體構(gòu)建子系統(tǒng)

由于文檔內(nèi)容已經(jīng)轉(zhuǎn)變成一個(gè)術(shù)語(yǔ)集合,本體構(gòu)建子系統(tǒng)利用本體構(gòu)建技術(shù)生成文檔概念圖。

2.2.1建立概念關(guān)系集和術(shù)語(yǔ)之間的層次結(jié)構(gòu)

在這里,我們利用概念分析的思想[7,8]建立概念的集合和層次關(guān)系結(jié)構(gòu)。一般而言,概念之間存在三種關(guān)系,分別是:獨(dú)立、交叉和繼承。為建立概念間的聯(lián)系和不同術(shù)語(yǔ)間的層次關(guān)系,執(zhí)行以下五步:

第一步:文檔和術(shù)語(yǔ)間產(chǎn)生二元關(guān)系矩陣

在每一個(gè)文檔中,最能表達(dá)文檔主題的術(shù)語(yǔ)必須添加到術(shù)語(yǔ)檢索子系統(tǒng)中,為此,產(chǎn)生文檔集和術(shù)語(yǔ)集。如果一個(gè)術(shù)語(yǔ)在一個(gè)文檔中出現(xiàn),矩陣中相應(yīng)的值標(biāo)記為“X”,以此生成文檔和術(shù)語(yǔ)之間二元關(guān)系矩陣。利用FCA建立相應(yīng)的三元組:O=(D, T, R),本體用O表示,本體的相關(guān)文檔集用D表示,本體的相關(guān)術(shù)語(yǔ)集用T表示,用R來(lái)表示D和T的二元關(guān)系:R?D×T。

第二步:產(chǎn)生概念集C

如果X是D的一個(gè)子集,Y是T的一個(gè)子集,那即X?D,Y?T,映射如下:

[σ(X)=t∈T|?d∈X:(t,d)∈R]

[τ(Y)=d∈D|?t∈Y:(t,d)∈R],

根據(jù)以上定義,對(duì)任意一對(duì)文檔集術(shù)語(yǔ)集(X,Y)有Y=s(X)和X=t(Y)。因而,包含公共術(shù)語(yǔ)最多的文檔集是由具有關(guān)系R的二維數(shù)組成的最全矩陣。所有的概念的集合c就可以用概念集C來(lái)表示。

第三步:計(jì)算概念的層次關(guān)系

所有給定的概念集是完整的偏序序列。定義概念(X0,Y0)是另一個(gè)概念(X1,Y1)子集,記為:(X0,Y0) ? (X1,Y1)。假設(shè),具有術(shù)語(yǔ)集Y1的文檔集X1包含在擁有術(shù)語(yǔ)集Y2的文檔集X2,記為X1?X2,(X1, Y1)成為(X2, Y2)的子集,記為(X1, Y1) ? (X2, Y2)。對(duì)于概念集C,那么C1(X1, Y1)成為C2(X2, Y2)的子概念。

第四步:生成概念的層次結(jié)構(gòu)

由于概念C可能具有多個(gè)父概念而成為子概念,所以獲得全部概念層次結(jié)構(gòu)必須計(jì)算不同概念的各種層次關(guān)系。每層的一個(gè)節(jié)點(diǎn)代表一個(gè)概念,在概念層次結(jié)構(gòu)上給出兩個(gè)元素(D1,T1)和(D2,T2),他們的上確界或者結(jié)合點(diǎn)定義為[7]:

[(D1,T1)?(D2,T2)=(τ(T1?T1),T1?T1)]

C1(X1, Y1)和C2(X2, Y2)是兩個(gè)概念,為了在概念層次上為了確定他們各自位置,應(yīng)計(jì)算兩個(gè)概念的上確界。

第五步:產(chǎn)生概念之間的相互關(guān)系

在構(gòu)建概念之間的層次關(guān)系之后,可定義概念之間的相互關(guān)系。C1(X1, Y1)和C2(X2, Y2)是兩個(gè)概念,如果Y1?Y2且Y2?Y1,那么這兩個(gè)概念部分的相互包含,這樣就可以定義C1和C2之間的關(guān)系。

2.2.2概念之間的相關(guān)度計(jì)算

在建立概念間的聯(lián)系之后,我們可以開(kāi)始計(jì)算不能直接繼承的概念之間的相關(guān)度。利用Kang等人[9]提出計(jì)算概念間相關(guān)性的方法來(lái)計(jì)算概念的相關(guān)度,公式如下:

[fjk=relevancy(Tj,Tk)=i=1ndijki=1ndij×WeightingFactor(Tk)] (1)

[dijk=tfijk×log10(Ndfjk×wj)] (1.1)

[dij=tfij×log10(Ndfj×wj)] (1.2)

[WeightingFactor(Tk)=log10Ndfklog10N] (1.3)

公式(1)描述了兩個(gè)概念之間的相關(guān)度。每個(gè)相關(guān)度都對(duì)應(yīng)一個(gè)的方向,所以不同術(shù)語(yǔ)作為中心點(diǎn)計(jì)算出的關(guān)聯(lián)度的值是不同的。公式(1)可以分解成另外三個(gè)等式,如公式(1.1),公式(1.2),公式(1.3)。我們注意到公式 (1.1)和(1.2)是應(yīng)用TF-IDF(term frequency—inverse document frequency)概念[6]。在公式(1.1) 中,dijk由術(shù)語(yǔ)Tk和Tj同時(shí)出現(xiàn)的頻率以及逆文檔頻率來(lái)決定的。tfijk表示術(shù)語(yǔ)Tj和Tk同時(shí)出現(xiàn)在文檔i中的頻率。公式(1.2) djk表示同時(shí)出現(xiàn)Tj和Tk全部文檔的數(shù)目。當(dāng)兩個(gè)術(shù)語(yǔ)有較高的相關(guān)性,Tk和Tj出現(xiàn)在同一文檔中的次數(shù)就多,并且集中出現(xiàn)在一些特殊的文檔中。公式(1.3) 中WeightingFactor(Tk)反應(yīng)了術(shù)語(yǔ)Tk對(duì)應(yīng)的文檔的屬性,術(shù)語(yǔ)Tk越普通,WeightingFactor(Tk)的值就在越低。在公式(1) 中的變量描述示如表1。

表1 公式(1) 中的變量描述

[變量\&描述\&N\&關(guān)鍵術(shù)語(yǔ)總數(shù)\&dijk\&在文檔i中同時(shí)出現(xiàn)術(shù)語(yǔ)j,k的次數(shù)\&wj\&逆文檔頻率的比重\&tfij\&術(shù)語(yǔ)j在文檔i中出現(xiàn)的次數(shù)\&dfj\&包好術(shù)語(yǔ)j的文檔數(shù)量\&dfjk\&包含術(shù)語(yǔ)j,k的文檔數(shù)量\&]

表2表示不同術(shù)語(yǔ)在每一個(gè)文檔中出現(xiàn)的頻率。公式(1)計(jì)算的相關(guān)度和通過(guò)形式化概念分析(FCA)構(gòu)建概念層次關(guān)系生成本體概念圖,如圖2。在圖中,實(shí)線箭頭用于表示概念間的繼承關(guān)系,虛線表示兩個(gè)概念間的相互關(guān)系。概念A(yù)對(duì)于概念B相關(guān)度與概念B對(duì)于概念A(yù)相關(guān)度是不同的,虛線上有兩個(gè)數(shù)字表示以各自為中心相關(guān)度。endprint

表2 術(shù)語(yǔ)在文件中出現(xiàn)的頻率矩陣

[\&D1\&D2\&D3\&D4\&D5\&D6\&D7\&D8\&D9\&D10\&Mathematics\&5\&3\&4\&5\&5\&9\&\&\&\&\&Data\&\&\&\&\&\&\&6\&9\&10\&8\&O S\&3\&7\&\&\&6\&9\&\&\&\&\&Ontology\&\&\&8\&3\&\&\&5\&7\&8\&3\&A I\&\&6\&7\&6\&4\&\&3\&5\&4\&\&Compliers\&\&\&\&\&\&14\&\&\&\&\&Algorithms\&7\&\&\&\&\&\&\&\&\&14\&Multimedia\&\&\&\&2\&\&\&\&\&\&\&Logics\&\&\&\&\&\&\&\&\&\&3\&Database\&\&7\&\&\&4\&\&1\&2\&\&\&C5.0\&\&\&\&\&\&6\&\&\&\&\&Programming\&2\&\&4\&\&\&\&\&\&\&\&Network\&\&\&\&\&\&\&\&\&2\&\&]

圖2 從表2得到的本體概念圖

2.3本體管理子系統(tǒng)

本體管理子系統(tǒng)有兩個(gè)主要的部分。第一部分,建立概念間準(zhǔn)確的層次關(guān)系。對(duì)于構(gòu)建者來(lái)說(shuō)最重要的是確保本體正確性。從用戶的角度來(lái)說(shuō),層次結(jié)構(gòu)上的錯(cuò)誤將導(dǎo)致用戶對(duì)概念產(chǎn)生誤解。第二部分,語(yǔ)義網(wǎng)為用戶提供一個(gè)有效檢索接口,提高搜索效果。關(guān)于子系統(tǒng)第二部分就是用戶可以在圖2(概念圖)中選擇一個(gè)概念,找不到相關(guān)的概念的文檔,或者能同時(shí)選擇幾個(gè)具有關(guān)聯(lián)的概念文檔。

3 方法驗(yàn)證

本研究的主要目的是提升現(xiàn)有互聯(lián)網(wǎng)的應(yīng)用。實(shí)驗(yàn)中的數(shù)據(jù)均來(lái)自互聯(lián)網(wǎng)的資源。研究中提出的系統(tǒng)是在互聯(lián)網(wǎng)上執(zhí)行的。另外,如圖1中的系統(tǒng)結(jié)構(gòu)需要使用一些函數(shù)庫(kù),因此這項(xiàng)研究選擇Java語(yǔ)言作為實(shí)現(xiàn)語(yǔ)言。

3.1 實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)

研究本體構(gòu)建技術(shù)的最終目標(biāo)就是建立相關(guān)本體概念的映射圖,來(lái)幫助用戶查找他們所需信息?;诋?dāng)前的本體構(gòu)建技術(shù),無(wú)論用基于字典、文本類聚、關(guān)聯(lián)規(guī)則和知識(shí)庫(kù)的技術(shù)方法在建立層次關(guān)系時(shí)難免的產(chǎn)生一些錯(cuò)誤。因此我們利用層次關(guān)系來(lái)對(duì)照概念節(jié)點(diǎn)得到整個(gè)本體的準(zhǔn)確率。在測(cè)量構(gòu)建方法的效率時(shí),利用準(zhǔn)確率和召回率進(jìn)行評(píng)估[10],公式如下:

[Precision=|ReleventRetrieved|Retrieved] (2)

[Recall=|ReleventRetrieved|Relevent] (3)

在測(cè)量本體概念層次時(shí),精確度是指能自動(dòng)構(gòu)建概念層次程度,而召回率是指應(yīng)產(chǎn)生的概念層次的程度。如圖3顯示了概念層次結(jié)構(gòu)圖。在圖中層次共有8個(gè)概念節(jié)點(diǎn)和8個(gè)概念聯(lián)系。其中一個(gè)不準(zhǔn)確的概念聯(lián)系用粗實(shí)線表示。另外,虛線表示存在但不能自動(dòng)建立的概念聯(lián)系。利用公式(2) 和(3) 計(jì)算概念層次得到準(zhǔn)確率(8-1)/8=87.5%和召回率7/(8-1+1)=87.5%。

3.2 實(shí)驗(yàn)驗(yàn)證

實(shí)驗(yàn)中為了測(cè)試構(gòu)建方法的效率和準(zhǔn)確性,涉及的內(nèi)容越相近,實(shí)驗(yàn)素材的使用范圍就越小。我們所用的實(shí)驗(yàn)素材是 “學(xué)術(shù)學(xué)位論文和的摘要” 里包含術(shù)語(yǔ)“ontology”的論文(http://www.sciencedirect.com/)。 總共收集了200個(gè)文件。

Wu等人[11]指出,主題詞和關(guān)鍵詞等術(shù)語(yǔ)通常由名詞—?jiǎng)釉~和名詞—名詞組成。通過(guò)句法形式、形態(tài)結(jié)構(gòu)和語(yǔ)料庫(kù)可以過(guò)濾掉大部分不相關(guān)的術(shù)語(yǔ)。由于有兩個(gè)或更多的術(shù)語(yǔ)可以表示同一個(gè)事物,具有多種含義或者具有多種翻譯的外國(guó)的專有名詞,可能產(chǎn)生混淆。因此很有必要建立一個(gè)同義詞詞典來(lái)促進(jìn)術(shù)語(yǔ)翻譯的準(zhǔn)確率。通過(guò)語(yǔ)言特性和同義詞可以收集到大部分基于名詞的術(shù)語(yǔ),但它們的含義還是有區(qū)別的,因此為了提高效率很有必要過(guò)濾停止詞。

表3顯示了從實(shí)驗(yàn)所收集的原始術(shù)語(yǔ)集,這個(gè)術(shù)語(yǔ)集是使用語(yǔ)言特性、同義詞和停止詞過(guò)濾之后形成的最終術(shù)語(yǔ)的和術(shù)語(yǔ)集的過(guò)濾率。如果再仔細(xì)觀察一下這張表,我們將會(huì)注意到集合使用語(yǔ)言特性過(guò)濾率最高,這是因?yàn)槲覀冞^(guò)濾有關(guān)概念的名詞和動(dòng)詞,這也說(shuō)明描述性術(shù)語(yǔ)和句子在任何給定的文檔中數(shù)量最多。雖然同義詞和停止詞表現(xiàn)出較低過(guò)濾率,但它對(duì)整體效率的提高是不容忽視的。最終的術(shù)語(yǔ)集合只有15%的初始術(shù)語(yǔ)。

表3 不同情況術(shù)語(yǔ)集的數(shù)目

[\&原始

術(shù)語(yǔ)\&使用語(yǔ)言特性過(guò)濾之后的集合\&使用同義詞過(guò)濾之后的集合\&使用停止詞過(guò)濾之后的集合\&最終的術(shù)語(yǔ)集合\&術(shù)語(yǔ)數(shù)\&4468\&865\&764\&676\&676\&過(guò)濾率(%)\&100\&19\&17\&15\&15\&]

過(guò)濾的術(shù)語(yǔ)數(shù)量決定了本體表達(dá)信息的能力。概念節(jié)點(diǎn)太多會(huì)產(chǎn)生噪音,概念節(jié)點(diǎn)太少會(huì)不夠充分。該文利用本體概念層次結(jié)構(gòu)來(lái)表示數(shù)據(jù)的分布。假如單個(gè)概念節(jié)點(diǎn)的下面沒(méi)有其他節(jié)點(diǎn)則該節(jié)點(diǎn)歸入根節(jié)點(diǎn),如果我們認(rèn)為這個(gè)節(jié)點(diǎn)比其他的節(jié)點(diǎn)有低的相關(guān)度,它將不再被認(rèn)為是概念層次結(jié)構(gòu)的一部分。在圖4中節(jié)點(diǎn)Z(充滿斜線)通常被認(rèn)為是一個(gè)獨(dú)立節(jié)點(diǎn)。因此我們對(duì)層次率的定義如下:

[Hierarchy ratio=1- number of independent nodestotal number of nodes] (4)

在獲得等級(jí)比例之后,我們得出最佳的術(shù)語(yǔ)集的數(shù)量是107。因此,我們利用FCA算法組合術(shù)語(yǔ)集生成完整本體框架。表4顯示了從實(shí)驗(yàn)得到本體的實(shí)驗(yàn)結(jié)果。經(jīng)過(guò)術(shù)語(yǔ)集過(guò)濾在這個(gè)實(shí)驗(yàn)中文檔的數(shù)量從187減少到184。另一方面,層次的深度和廣度顯示了本體所包含的內(nèi)容的范圍。本體層次廣度越寬,多元化的和通常的概念就越多;深度越深,內(nèi)容就越詳細(xì)。層次關(guān)系的數(shù)量表明了節(jié)點(diǎn)的復(fù)雜度的等級(jí)。實(shí)驗(yàn)中共有107個(gè)節(jié)點(diǎn)而只產(chǎn)生了132個(gè)層次關(guān)系,表明節(jié)點(diǎn)之間的關(guān)系并不復(fù)雜。經(jīng)過(guò)實(shí)驗(yàn)本體的準(zhǔn)確率和召回率分別為84.1%和81.1%,如表4所示。

表4 實(shí)驗(yàn)產(chǎn)生的本體

4 結(jié)論

在本體領(lǐng)域內(nèi),通常是手工或者半自動(dòng)的方式構(gòu)建本體,并且需要專業(yè)開(kāi)發(fā)人員和專家的參與,這嚴(yán)重阻礙了網(wǎng)絡(luò)的發(fā)展,限制了知識(shí)共享的進(jìn)程。因此,該文采用形式化概念分析算法研究自動(dòng)構(gòu)建本體來(lái)滿足這樣的需求。該文所用的實(shí)驗(yàn)素材是學(xué)術(shù)論文,計(jì)算了由不同數(shù)據(jù)生成的本體的準(zhǔn)確率和召回率。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)實(shí)驗(yàn)中的方法在較小的數(shù)據(jù)范圍和更多相同內(nèi)容的數(shù)據(jù)上能獲得較高的準(zhǔn)確率和召回率。通常普通的數(shù)據(jù)具有較淺的概念層次和更寬的廣度。這是因?yàn)橐话愕臄?shù)據(jù)內(nèi)容較分散,易于產(chǎn)生較為扁平的概念結(jié)構(gòu),而特殊的數(shù)據(jù)內(nèi)容易產(chǎn)生較完整的本體概念的層次結(jié)構(gòu)。該文中采用的方法更適合小范圍的數(shù)據(jù)。

本文的主要貢獻(xiàn)是:現(xiàn)有的分類關(guān)系通常不能表達(dá)同一類別概念的優(yōu)先級(jí),這將導(dǎo)致搜索一個(gè)概念時(shí)很容易忽略重要的信息。該文提出的方法能夠構(gòu)建各種概念和類之間的重要程度,能幫助用戶提高他們搜索信息的準(zhǔn)確率,減少搜索花費(fèi)的時(shí)間。根據(jù)實(shí)驗(yàn)的結(jié)果所示,本方法在數(shù)據(jù)較小范圍內(nèi)可以實(shí)現(xiàn)更好的結(jié)果。

參考文獻(xiàn):

[1] 陸建江,張亞非.語(yǔ)義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.

[2] 梁健,王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐,2007(1):112-115.

[3] 張大鵬.基于本體的文本分類關(guān)鍵技術(shù)研究[D].長(zhǎng)春:東北師范大學(xué),2012.

[4] Maedche A, Staab S.Ontology learning for the semantic web[J].IEEE Intelligent systems,2001,16(2):72-79.

[5] Stumme G.Formal concept analysis on its way from mathematics to computer science[M]//Conceptual Structures: Integration and Interfaces.Springer Berlin Heidelberg,2002:2-19.

[6] Chowdhury G.Introduction to modern information retrieval[M].Facet publishing,2010.

[7] Buchli F.Detecting software patterns using formal concept analysis[J].inder Philosophisch-naturwissenschaftlichen Fakult: University of Bern,2003:10-15.

[8] Ganter B,Stumme G, Wille R. Formal Concept Analysis: foundations and applications[M].Springer,2005.

[9] Kang S H, Huh W, Lee S, et al. Automatic classification of WWW documents using a neural network[C]//2000, Proceedings of international conference on production research,Bangkok.

[10] Han J,Kamber M, Pei J.Data mining: concepts and techniques[M].Morgan kaufmann,2006.

[11] Wu S H,Day M Y, Tsai T H, et al. FAQ-centered organizational memory[M]//Knowledge Management and Organizational Memories. Springer US,2002:103-112.

表4 實(shí)驗(yàn)產(chǎn)生的本體

4 結(jié)論

在本體領(lǐng)域內(nèi),通常是手工或者半自動(dòng)的方式構(gòu)建本體,并且需要專業(yè)開(kāi)發(fā)人員和專家的參與,這嚴(yán)重阻礙了網(wǎng)絡(luò)的發(fā)展,限制了知識(shí)共享的進(jìn)程。因此,該文采用形式化概念分析算法研究自動(dòng)構(gòu)建本體來(lái)滿足這樣的需求。該文所用的實(shí)驗(yàn)素材是學(xué)術(shù)論文,計(jì)算了由不同數(shù)據(jù)生成的本體的準(zhǔn)確率和召回率。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)實(shí)驗(yàn)中的方法在較小的數(shù)據(jù)范圍和更多相同內(nèi)容的數(shù)據(jù)上能獲得較高的準(zhǔn)確率和召回率。通常普通的數(shù)據(jù)具有較淺的概念層次和更寬的廣度。這是因?yàn)橐话愕臄?shù)據(jù)內(nèi)容較分散,易于產(chǎn)生較為扁平的概念結(jié)構(gòu),而特殊的數(shù)據(jù)內(nèi)容易產(chǎn)生較完整的本體概念的層次結(jié)構(gòu)。該文中采用的方法更適合小范圍的數(shù)據(jù)。

本文的主要貢獻(xiàn)是:現(xiàn)有的分類關(guān)系通常不能表達(dá)同一類別概念的優(yōu)先級(jí),這將導(dǎo)致搜索一個(gè)概念時(shí)很容易忽略重要的信息。該文提出的方法能夠構(gòu)建各種概念和類之間的重要程度,能幫助用戶提高他們搜索信息的準(zhǔn)確率,減少搜索花費(fèi)的時(shí)間。根據(jù)實(shí)驗(yàn)的結(jié)果所示,本方法在數(shù)據(jù)較小范圍內(nèi)可以實(shí)現(xiàn)更好的結(jié)果。

參考文獻(xiàn):

[1] 陸建江,張亞非.語(yǔ)義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.

[2] 梁健,王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐,2007(1):112-115.

[3] 張大鵬.基于本體的文本分類關(guān)鍵技術(shù)研究[D].長(zhǎng)春:東北師范大學(xué),2012.

[4] Maedche A, Staab S.Ontology learning for the semantic web[J].IEEE Intelligent systems,2001,16(2):72-79.

[5] Stumme G.Formal concept analysis on its way from mathematics to computer science[M]//Conceptual Structures: Integration and Interfaces.Springer Berlin Heidelberg,2002:2-19.

[6] Chowdhury G.Introduction to modern information retrieval[M].Facet publishing,2010.

[7] Buchli F.Detecting software patterns using formal concept analysis[J].inder Philosophisch-naturwissenschaftlichen Fakult: University of Bern,2003:10-15.

[8] Ganter B,Stumme G, Wille R. Formal Concept Analysis: foundations and applications[M].Springer,2005.

[9] Kang S H, Huh W, Lee S, et al. Automatic classification of WWW documents using a neural network[C]//2000, Proceedings of international conference on production research,Bangkok.

[10] Han J,Kamber M, Pei J.Data mining: concepts and techniques[M].Morgan kaufmann,2006.

[11] Wu S H,Day M Y, Tsai T H, et al. FAQ-centered organizational memory[M]//Knowledge Management and Organizational Memories. Springer US,2002:103-112.

表4 實(shí)驗(yàn)產(chǎn)生的本體

4 結(jié)論

在本體領(lǐng)域內(nèi),通常是手工或者半自動(dòng)的方式構(gòu)建本體,并且需要專業(yè)開(kāi)發(fā)人員和專家的參與,這嚴(yán)重阻礙了網(wǎng)絡(luò)的發(fā)展,限制了知識(shí)共享的進(jìn)程。因此,該文采用形式化概念分析算法研究自動(dòng)構(gòu)建本體來(lái)滿足這樣的需求。該文所用的實(shí)驗(yàn)素材是學(xué)術(shù)論文,計(jì)算了由不同數(shù)據(jù)生成的本體的準(zhǔn)確率和召回率。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)實(shí)驗(yàn)中的方法在較小的數(shù)據(jù)范圍和更多相同內(nèi)容的數(shù)據(jù)上能獲得較高的準(zhǔn)確率和召回率。通常普通的數(shù)據(jù)具有較淺的概念層次和更寬的廣度。這是因?yàn)橐话愕臄?shù)據(jù)內(nèi)容較分散,易于產(chǎn)生較為扁平的概念結(jié)構(gòu),而特殊的數(shù)據(jù)內(nèi)容易產(chǎn)生較完整的本體概念的層次結(jié)構(gòu)。該文中采用的方法更適合小范圍的數(shù)據(jù)。

本文的主要貢獻(xiàn)是:現(xiàn)有的分類關(guān)系通常不能表達(dá)同一類別概念的優(yōu)先級(jí),這將導(dǎo)致搜索一個(gè)概念時(shí)很容易忽略重要的信息。該文提出的方法能夠構(gòu)建各種概念和類之間的重要程度,能幫助用戶提高他們搜索信息的準(zhǔn)確率,減少搜索花費(fèi)的時(shí)間。根據(jù)實(shí)驗(yàn)的結(jié)果所示,本方法在數(shù)據(jù)較小范圍內(nèi)可以實(shí)現(xiàn)更好的結(jié)果。

參考文獻(xiàn):

[1] 陸建江,張亞非.語(yǔ)義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.

[2] 梁健,王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐,2007(1):112-115.

[3] 張大鵬.基于本體的文本分類關(guān)鍵技術(shù)研究[D].長(zhǎng)春:東北師范大學(xué),2012.

[4] Maedche A, Staab S.Ontology learning for the semantic web[J].IEEE Intelligent systems,2001,16(2):72-79.

[5] Stumme G.Formal concept analysis on its way from mathematics to computer science[M]//Conceptual Structures: Integration and Interfaces.Springer Berlin Heidelberg,2002:2-19.

[6] Chowdhury G.Introduction to modern information retrieval[M].Facet publishing,2010.

[7] Buchli F.Detecting software patterns using formal concept analysis[J].inder Philosophisch-naturwissenschaftlichen Fakult: University of Bern,2003:10-15.

[8] Ganter B,Stumme G, Wille R. Formal Concept Analysis: foundations and applications[M].Springer,2005.

[9] Kang S H, Huh W, Lee S, et al. Automatic classification of WWW documents using a neural network[C]//2000, Proceedings of international conference on production research,Bangkok.

[10] Han J,Kamber M, Pei J.Data mining: concepts and techniques[M].Morgan kaufmann,2006.

[11] Wu S H,Day M Y, Tsai T H, et al. FAQ-centered organizational memory[M]//Knowledge Management and Organizational Memories. Springer US,2002:103-112.

芜湖市| 昆山市| 乌拉特中旗| 垦利县| 四川省| 图木舒克市| 南乐县| 若尔盖县| 陆川县| 桐庐县| 广州市| 囊谦县| 平谷区| 徐汇区| 商南县| 准格尔旗| 哈尔滨市| 池州市| 绥中县| 正定县| 西乌| 岑巩县| 资溪县| 古交市| 永宁县| 濮阳市| 汝州市| 阜南县| 元阳县| 蓬莱市| 理塘县| 陇南市| 常熟市| 新蔡县| 英吉沙县| 鄂州市| 江城| 宝清县| 诸城市| 林甸县| 本溪|