国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向知識與信息管理的領(lǐng)域本體自動構(gòu)建算法的探究

2015-07-18 11:24:39
新技術(shù)新工藝 2015年6期
關(guān)鍵詞:查準(zhǔn)率概念圖權(quán)值

張 騫

(陜西職業(yè)技術(shù)學(xué)院,陜西 西安 710100)

面向知識與信息管理的領(lǐng)域本體自動構(gòu)建算法的探究

張 騫

(陜西職業(yè)技術(shù)學(xué)院,陜西 西安 710100)

本體作為一種描述信息系統(tǒng)概念模型的建模方法,被廣泛應(yīng)用于信息管理、圖書館信息化建設(shè)、自然語言處理和知識工程等諸多領(lǐng)域。結(jié)合知識和信息管理,研究在該領(lǐng)域內(nèi)如何構(gòu)建領(lǐng)域本體及其相關(guān)算法。

領(lǐng)域本體;知識工程;信息管理;構(gòu)建算法

有關(guān)本體的概念最早來源于哲學(xué),亞里士多德通過對哲學(xué)的研究,提出存在論的觀點(diǎn),這就是本體論的前身。本體就是對世界上客觀存在物體的一種哲學(xué)描述,牛津詞典的解釋是ontology是現(xiàn)實(shí)存在的科學(xué)或者研究,Webster中解釋ontology意為本體是一種形而上學(xué)的觀點(diǎn),與存在論相關(guān)聯(lián)[1]。許多學(xué)者對本體論提出了不同的定義和概念,可以使用本體的復(fù)數(shù)形式,代表所有本體的集合。信息系統(tǒng)和知識工程的本體研究同哲學(xué)本體論是相互聯(lián)系的,本體論雖是哲學(xué)理論中的概念,也適合于信息系統(tǒng)的推理和建模。學(xué)者利用本體來描述世界的知識,用于表示特定知識領(lǐng)域的形式化語言,并廣泛應(yīng)用在人工智能、信息系統(tǒng)和知識工程等領(lǐng)域。Neches認(rèn)為本體是對特定領(lǐng)域詞匯的術(shù)語和關(guān)系規(guī)則的定義。Gruber認(rèn)為本體論是概念模型的具體化實(shí)現(xiàn)過程。D. Fensel認(rèn)為本體是重要概念的形式化表述,主要包括4個方面:從客觀事物中抽象出概念模型,精確定義領(lǐng)域本體聯(lián)系,數(shù)據(jù)化概念模型和確認(rèn)領(lǐng)域本體知識是被認(rèn)可的。

1 領(lǐng)域本體理論和構(gòu)建方法

1.1 領(lǐng)域本體理論

Guarino對領(lǐng)域本體理論做了大量研究,分析了概念、概念特性和概念之間的鄰接關(guān)系,從元特性出發(fā),提出了一整套本體理論概念[2]。概念間的差別除了定義外,還有概念的相關(guān)特性,這些最突出的特征被歸納為元特性,利用數(shù)學(xué)方法將元特性表達(dá)出來。

通過統(tǒng)計(jì)學(xué)的相關(guān)分析,提煉出了領(lǐng)域本體的7個特點(diǎn):1)持久性,在知識和信息系統(tǒng)管理中,一些實(shí)例會永遠(yuǎn)屬于該概念,例如一些實(shí)意詞匯;2)非持久性,一些實(shí)例不會屬于某些概念,例如非實(shí)意詞匯會在領(lǐng)域本體構(gòu)建中剔除出去;3)反持久性,隸屬于某個概念的所有實(shí)例都不屬于該概念;4)半持久性,半持久性是差集表示,即求出某個概念中不屬于該概念的某些詞匯單元;5)概念差別,即概念之間的差別性;6)標(biāo)識性,隸屬于某個概念的實(shí)例可以相互區(qū)別[3];7)概念之間的相互依賴關(guān)系。

本體可以根據(jù)使用的語言、表示方法和描述形式等劃分成完全非形式化和半非形式化等,形式化程度決定著計(jì)算機(jī)自動處理的難度,一般包含實(shí)例的特征表達(dá),例如知識工程中,要包含某些詞匯和詞性表示,用概念定義來表示整個文檔,利用文檔概念圖等結(jié)構(gòu)表達(dá)文檔。按照應(yīng)用領(lǐng)域的不同,本體又可以分為概念之間的通信操作、本體格式的互操作和系統(tǒng)工程建設(shè)等。本體還可以分為元級本體、通用本體、領(lǐng)域本體和應(yīng)用本體[4]。其中,元級本體描述的是知識語言所用的互聯(lián)本體,例如OKBC本體;通用本體描述的是一些特定的概念,例如自然語言詞匯和時(shí)間等對象,這些本體的開發(fā)案例有機(jī)器可讀詞典等;領(lǐng)域本體是高級本體建構(gòu)方法,用于描述一些普通工作相關(guān)的詞匯,專門用于信息管理和知識工程的相關(guān)本體開發(fā)[5]。

1.2 領(lǐng)域本體創(chuàng)建流程

本體創(chuàng)建流程示意圖如圖1所示。本體創(chuàng)建流程應(yīng)先確定應(yīng)用范圍,然后再進(jìn)行本體分析、本體表示和本體的檢驗(yàn),一切都合格后才能建立適合的本體。文中主要研究知識和信息管理領(lǐng)域,因此主要對象是中英文參考文獻(xiàn),領(lǐng)域本體對象規(guī)模不是很大,但是要求比較高的準(zhǔn)確率。本體分析過程中,主要弄清楚領(lǐng)域構(gòu)建的要素,信息管理的特征要素是詞匯,包括關(guān)鍵詞和詞性等內(nèi)容,需要充分提取重要關(guān)鍵詞作為領(lǐng)域本體描述的參數(shù)[6]。而語義模型采用概念圖模型,更有利于表達(dá)文檔中特征詞匯的重要性。本體評價(jià)模型可以通過一些標(biāo)準(zhǔn)評價(jià)算法評價(jià),例如相似度和距離函數(shù)等。文中利用查全率和查準(zhǔn)率構(gòu)建的綜合評價(jià)指標(biāo)評價(jià)所構(gòu)建模型的準(zhǔn)確性,以免單一評價(jià)函數(shù)帶來錯誤的評價(jià)結(jié)果,具體方法為:

(1)

式中,recall為查全率,recall=(檢索出的相關(guān)信息量/系統(tǒng)中的相關(guān)信息總量)×100%;precision為查準(zhǔn)率,precision=(檢索出的相關(guān)信息量/檢索出的信息總量)×100%。FM指標(biāo)會綜合地評價(jià)領(lǐng)域本體建模構(gòu)建算法的準(zhǔn)確性,可以手動調(diào)節(jié)λ,使其盡量<0.5,以加大查準(zhǔn)率的比例。

圖1 本體創(chuàng)建流程示意圖

2 基于知識與信息管理的領(lǐng)域本體構(gòu)建算法分析

2.1 文檔前置處理

構(gòu)建面向知識與信息管理的領(lǐng)域本體需要將領(lǐng)域本體文檔映射成概念圖,利用概念圖的特點(diǎn)構(gòu)建領(lǐng)域本體。首先要進(jìn)行文檔前置處理,即初步對語料庫提取文檔信息,包括中文和英文的領(lǐng)域文檔,處理過程如下:首先,語音識別所有中英文文獻(xiàn),移除沒有實(shí)際意義的詞匯,將英文單詞整理成詞根形式,方便統(tǒng)計(jì)和查詢;然后,要標(biāo)記單詞的詞性,例如副詞、形容詞和代詞等,并統(tǒng)計(jì)詞組和單詞出現(xiàn)的頻率和詞匯鄰接信息。頻率信息和鄰接信息將作為概念圖的初始值,頻率信息會初始化概念圖頂點(diǎn)值,鄰接信息會初始化概念圖邊值[7]。

2.2 文檔概念圖的生成

概念圖是由節(jié)點(diǎn)和邊組成的代表概念,連線表示概念之間的關(guān)系,利用概念圖表示詞匯或者詞組的頻率信息,映射出文檔的整體結(jié)構(gòu)。概念圖由頂點(diǎn)、連接頂點(diǎn)的邊、頂點(diǎn)間的標(biāo)記映射和邊間的標(biāo)記映射組成[8],反應(yīng)出詞匯組之間的鄰接關(guān)系。頂點(diǎn)即為詞匯,文檔中同樣的詞匯只能表示為1個頂點(diǎn),邊即為詞匯間的組合,代表了文檔中2個詞匯的相鄰關(guān)系。頂點(diǎn)和邊初始化為詞匯間的頻率值和鄰接值,頂點(diǎn)值表示某個詞匯出現(xiàn)的次數(shù),邊值表示2個詞匯連接在一起的次數(shù)。這種方法將文檔表示為1組詞匯和詞匯組的連接次數(shù),數(shù)據(jù)化文檔內(nèi)容以利于建立領(lǐng)域本體。頂點(diǎn)的權(quán)值是其在所有權(quán)值中的比重,邊權(quán)值也采用同種計(jì)算方式,標(biāo)準(zhǔn)化所有的輸入數(shù)據(jù)。

2.3 概念提取

概念提取主要任務(wù)是分類所有類型詞匯,從重要性評價(jià)詞匯,將頂點(diǎn)加權(quán)之后,利用馬爾科夫聚類算法對定點(diǎn)簇進(jìn)行聚類,其中的關(guān)鍵算法就是馬爾科夫聚類算法。該算法是由馬爾科夫提出,將權(quán)值圖轉(zhuǎn)化成概率矩陣,將每個節(jié)點(diǎn)為0的數(shù)值都加1,避免奇異矩陣的產(chǎn)生,通過修正隨機(jī)過程增加類之間的距離。馬爾科夫鏈更容易出現(xiàn)在頂點(diǎn)密集的區(qū)域,類中邊權(quán)值會更高,類間的邊權(quán)值更低,列權(quán)值的分布和類的分布有一一對應(yīng)關(guān)系,因此馬爾科夫聚類更適應(yīng)于圖模型。馬爾科夫聚類算法會讓權(quán)值大的頂點(diǎn)更大,權(quán)值小的頂點(diǎn)地位更低,權(quán)值采用下式計(jì)算:

MCL算法輸入值是一個無向圖,利用權(quán)值和擴(kuò)展參數(shù)建立關(guān)系矩陣,給每個節(jié)點(diǎn)加入自循環(huán),標(biāo)準(zhǔn)化矩陣,采用指數(shù)擴(kuò)展矩陣,再用擴(kuò)展參數(shù)進(jìn)一步放大矩陣,不斷重復(fù)這個過程直到不再變化為止。最終將具有相似性的詞匯聚成一類,消除了語義之間的歧義性。每個類都會產(chǎn)生一個特征概念,馬爾科夫算法在概念圖中隨機(jī)游走(Random Walks),不斷重復(fù)放大,最終形成一個穩(wěn)定的頂點(diǎn)值,頂點(diǎn)權(quán)值就代表了特征詞匯在文檔中的地位。

2.4 關(guān)系提取

在提取文檔概念圖的關(guān)系算法中,TF-IWF算法的主要作用是提取多次出現(xiàn)的關(guān)鍵詞匯作為候選關(guān)鍵詞,其是一種簡單、快捷的文本提取算法。該算法利用TF權(quán)值最大值作為關(guān)鍵詞,由于概念結(jié)構(gòu)無法反應(yīng)詞匯的重要程度和代表詞匯的分布和鄰接關(guān)系,也不具備權(quán)值調(diào)整功能,因此該算法精度較低?;诮y(tǒng)計(jì)詞匯的方法需要詞長和詞性等先驗(yàn)信息,利用領(lǐng)域本體詞典提高關(guān)鍵詞提取準(zhǔn)確度,該算法的時(shí)間復(fù)雜度是O(n),提取精準(zhǔn)度高于TF-IWF算法。SKE算法加入語義部分,其根本方法還是利用詞頻的統(tǒng)計(jì)特征。該算法提取的關(guān)鍵詞匯能夠體現(xiàn)整個文檔的特征。利用樸素貝葉斯方法的算法通過先驗(yàn)信息的訓(xùn)練獲取初始化參數(shù),然后再提取關(guān)鍵詞,該算法只能用于小規(guī)模文檔,高維聚類技術(shù)具有更高的提取效率,更加穩(wěn)定,且適用于大規(guī)模文檔的關(guān)鍵詞提取。除了這些算法之外,還可以使用頻繁子圖挖掘算法,該算法流程如下:讀取生成的概念圖數(shù)據(jù),按照頂點(diǎn)權(quán)值和邊權(quán)值進(jìn)行排序,剔除不符合最小支持度閾值的頂點(diǎn)和邊集合,將剩下的邊和頂點(diǎn)重新排序,將符合頻繁一邊的保存在G1集合中,按照標(biāo)準(zhǔn)詞典順序,對G1集合重新排序,將排序之后的集合保存在G集合中,遍歷G1中的所有邊集,用初始邊權(quán)值初始化所有集合的圖,再次使用子圖挖掘算法,在所有圖集合中刪除初始邊權(quán)值,如果圖的個數(shù)少于最小子圖數(shù)目,則停止算法,如果不滿足條件則繼續(xù)運(yùn)行。

2.5 本體評價(jià)

本體評價(jià)方法主要通過測試文檔進(jìn)行檢驗(yàn),分析領(lǐng)域本體是否能夠完成新文檔的檢測,如果沒有利用領(lǐng)域本體的文檔和使用領(lǐng)域本體的文檔相同,則說明所建立的領(lǐng)域本體是合格的;如果不同,則說明本體需要重新修改參數(shù)和重構(gòu),對于其中不一樣的地方要做重點(diǎn)改進(jìn),在原文檔中增加測試語料庫,直到檢測沒有錯誤產(chǎn)生為止。文中采用的是FM評價(jià)指標(biāo),F(xiàn)M評價(jià)指標(biāo)由查全率(recall)和查準(zhǔn)率(precision)構(gòu)成,計(jì)算公式為:

式中,P+是檢索出的相關(guān)信息量;N是系統(tǒng)中的相關(guān)信息總量;P是檢索出的信息總量。

查準(zhǔn)率是表示文獻(xiàn)中關(guān)鍵詞或關(guān)系提取成功的占全部文獻(xiàn)的百分比,而查全率即為檢測出的文檔與源文檔的百分比。查準(zhǔn)率與文檔數(shù)量沒有直接的相關(guān)關(guān)系,隨著文檔數(shù)量的增加或者減少,查準(zhǔn)率可能會減少、增大或者不變。而查全率會因?yàn)槲臋n數(shù)量的增加而增大;因此,單一函數(shù)無法評價(jià)本體領(lǐng)域建模的準(zhǔn)確性,可以采用權(quán)值分配,調(diào)節(jié)查準(zhǔn)率和查全率的關(guān)系。相關(guān)研究表明,隨著文檔數(shù)目的增加,查準(zhǔn)率和查全率在多數(shù)評價(jià)過程中表現(xiàn)相反的作用,查全率要依賴于查準(zhǔn)率;因此,提高查準(zhǔn)率在整個評價(jià)函數(shù)中的權(quán)重,有利于提高本體領(lǐng)域構(gòu)建算法的準(zhǔn)確性。

3 結(jié)語

領(lǐng)域本體已經(jīng)廣泛應(yīng)用在知識工程和人工智能等諸多領(lǐng)域,并深受學(xué)者關(guān)注。本文分析了本體和領(lǐng)域本體的發(fā)展現(xiàn)狀和相關(guān)方法,從文檔前置處理、概念圖生成、概念提取、關(guān)系提取和本體評價(jià)5個方面,論述了面向知識和信息管理領(lǐng)域的領(lǐng)域本體自動構(gòu)建方法。

[1] 李曼,王大治,杜小勇,等. 基于領(lǐng)域本體的Web服務(wù)動態(tài)組合[J]. 計(jì)算機(jī)學(xué)報(bào), 2005, 28(4): 644-650.

[2] 陳剛,陸汝鈐,金芝,等. 基于領(lǐng)域知識重用的虛擬領(lǐng)域本體構(gòu)造[J]. 軟件學(xué)報(bào), 2003, 14(3): 350-355.

[3] 劉紫玉,黃磊. 基于領(lǐng)域本體模型的概念語義相似度計(jì)算研究[J]. 鐵道學(xué)報(bào), 2011, 33(1): 52-57.

[4] 張維明,宋峻峰. 面向語義Web的領(lǐng)域本體表示、推理與集成研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2006, 43(1): 101-108.

[5] 王海濤,曹存根,高穎,等. 基于領(lǐng)域本體的半結(jié)構(gòu)化文本知識自動獲取方法的設(shè)計(jì)和實(shí)現(xiàn)[J]. 計(jì)算機(jī)學(xué)報(bào), 2005, 28(12): 2010-2018.

[6] 韓春華,易思蓉,呂???等. 基于GIS的鐵路選線智能環(huán)境及領(lǐng)域本體建模方法[J]. 中國鐵道科學(xué), 2006, 27(6): 84-90.

[7] 王超,李書琴,肖紅,等. 基于文獻(xiàn)的農(nóng)業(yè)領(lǐng)域本體自動構(gòu)建方法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(8): 71-74.

[8] 滕廣青,畢強(qiáng). 領(lǐng)域本體與社群分類法結(jié)構(gòu)中心性的比較研究[J]. 情報(bào)學(xué)報(bào), 2013, 32(10): 1037-1045.

責(zé)任編輯鄭練

AutomaticConstructionofDomainOntologyOrientedtoKnowledgeandInformationManagement

ZHANG Qian

(Shaanxi Vocational & Technical College, Xi′an 710100, China)

Domain ontology is a modeling method to describe the concept model of information system, which is widely used in the area knowledge and information management, NLP, knowledge engineering and so on. This paper mentions how to construct domain ontology and related algorithms in the field of knowledge and information management.

domain ontology, knowledge engineering, information management, algorithm

TP 182

:A

張騫(1984-),男,碩士,研究生,主要從事情報(bào)學(xué)和信息管理等方面的研究。

2015-01-21

猜你喜歡
查準(zhǔn)率概念圖權(quán)值
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
CONTENTS
概念圖在小學(xué)高年級寫作教學(xué)中的應(yīng)用研究
基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
概念圖教學(xué)功能初探
概念圖構(gòu)建中概念關(guān)系提取方法
中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
张家川| 北安市| 涪陵区| 页游| 兴业县| 石家庄市| 土默特右旗| 呼伦贝尔市| 宁强县| 中方县| 吐鲁番市| 遂川县| 宽甸| 东乡县| 信阳市| 临潭县| 大丰市| 桐柏县| 富宁县| 乾安县| 江西省| 全椒县| 绥滨县| 沙洋县| 准格尔旗| 五莲县| 连城县| 平潭县| 大余县| 观塘区| 临桂县| 仁寿县| 嘉荫县| 牟定县| 宜兰市| 吉林省| 弋阳县| 永安市| 崇明县| 成安县| 秦皇岛市|