国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MFI4OR標(biāo)準(zhǔn)的本體融合模型研究

2021-10-26 03:48:26滿,靜,
關(guān)鍵詞:本體原子語義

袁 滿, 楊 靜, 陳 萍

(東北石油大學(xué) a. 計算機(jī)與信息技術(shù)學(xué)院; b. 經(jīng)濟(jì)管理學(xué)院, 黑龍江 大慶 163318)

0 引 言

隨著本體技術(shù)的發(fā)展, 除了通用領(lǐng)域的頂層本體外, 各個領(lǐng)域內(nèi)出現(xiàn)了許多滿足該領(lǐng)域需求的領(lǐng)域本體, 而這些本體之間由于本體構(gòu)建的方式、語言或結(jié)構(gòu)的不同, 導(dǎo)致了本體之間的異構(gòu), 降低了領(lǐng)域內(nèi)甚至領(lǐng)域間不同本體的互操作性, 加大了領(lǐng)域之間公用知識共享的難度, 本體間的互操作成為一個亟待解決的問題。

本體融合可以把不同來源, 不同角度建立的知識本體結(jié)合在一起, 形成一個統(tǒng)一的公用的知識本體庫, 解決本體異構(gòu)問題, 但目前缺乏一個標(biāo)準(zhǔn)的本體信息管理模式以及映射模式。2007年國際標(biāo)準(zhǔn)組織ISO/IEC(International Organization for Standardization/International Electro technical Commission)正式發(fā)布了本體互操作元模型MFI(Metamodel Framework for Interoperability)的第3部分----本體注冊元模型(MFI4OR)。該標(biāo)準(zhǔn)定義了本體注冊信息且提供了一個統(tǒng)一注冊模型, 使本體信息管理規(guī)范化。筆者在此基礎(chǔ)上, 將MFI4OR模型應(yīng)用于本體融合中, 在標(biāo)準(zhǔn)框架的基礎(chǔ)上為融合的本體信息提供了劃分標(biāo)準(zhǔn), 并提供了一個標(biāo)準(zhǔn)的本體信息管理模式, 在確定本體構(gòu)件也就是類相似的基礎(chǔ)上進(jìn)行與之相關(guān)的屬性以及關(guān)系的融合, 可減少相似度計算次數(shù), 提高融合效率。

1 研究現(xiàn)狀

本體融合強(qiáng)調(diào)兩個或多個本體資源通過映射合并成為一個統(tǒng)一的本體資源。隨著本體技術(shù)發(fā)展, 目前國內(nèi)外對本體融合的研究越來越多, 也有許多成熟的本體融合系統(tǒng), 如PROMPT、GLUE、OntoMap等。此外, 近幾年的OAEI(Ontology Alignment Evaluation Initiative)比賽中的映射方法也很引人注目。Faria等[1-2]在OAEI中參賽的AML本體映射系統(tǒng)是基于本體概念的映射系統(tǒng), 在對用不同語言創(chuàng)建的本體進(jìn)行翻譯和對輸入本體之間進(jìn)行匹配操作時, 運用了背景知識作為知識庫輔助本體的翻譯和匹配。而中國東南大學(xué)的Lily本體映射系統(tǒng)[3-5]在OAEI競賽中表現(xiàn)亮眼, 在競賽給出的測試集中, 獲得了97%準(zhǔn)確率, 召回率也達(dá)到了83%, F1值為90%。

無論是對本體融合系統(tǒng)還是對本體融合方法的研究, 歸根結(jié)底都是對本體映射過程中的語義相似度計算的研究。而目前這些融合方法都向混合式的相似度算法結(jié)合的方向發(fā)展。Li等[6]提出的RiMOM是一個動態(tài)多策略本體映射模型系統(tǒng), 同時運用了編輯距離、 WordNet詞典、 向量距離和相似性傳播等相似度算法, 并在此基礎(chǔ)上提出了風(fēng)險概率最小化模型, 以此提高融合效率。He等[7]提出的WNPntoSim是一種混合型本體映射方法, 其使用了WordNet詞典和原子概念標(biāo)志計算本體概念元素的結(jié)構(gòu)語義相似度。混合式的本體映射方法代表了本體映射系統(tǒng)的發(fā)展趨勢, 雖然這種混合式方法可提高本體融合的準(zhǔn)確性, 但在相似度計算過程中難免會進(jìn)行繁瑣重復(fù)的詞匯計算。樓雯等[8]提出了一種基于二值相似度的融合方法, 為簡化融合過程中繁瑣的相似度計算, 該方法提出在原始本體構(gòu)建的過程中即進(jìn)行語義相似度計算, 并在融合時只考慮概念和關(guān)系的二值匹配, 同時還能進(jìn)一步簡化融合過程中的再次相似度計算。近幾年, 許多學(xué)者將機(jī)器學(xué)習(xí)以及統(tǒng)計學(xué)的思想運用于相似度計算中。徐飛翔等[9]提出一種基于SA-BP(Simulated Annealing Back Propagation)算法的本體概念語義相似度綜合計算模型, 通過模擬退火算法改進(jìn)BP(Back Propagation)神經(jīng)網(wǎng)絡(luò), 提高相似度計算的精確度。Zhang等[10]提出的MSBN(Multi-Strategy and Bayesian Network)通過編輯距離對概念名稱進(jìn)行詞匯相似度計算, 并在此基礎(chǔ)上進(jìn)一步應(yīng)用了概念的描述信息以及實例特征, 以多策略的貝葉斯網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行本體映射。

綜上所述, 無論目前流行的基于機(jī)器學(xué)習(xí)方法還是基于統(tǒng)計學(xué)方法, 都要經(jīng)過大量的數(shù)據(jù)計算, 從某種程度上降低了融合效率, 并且這些方法都缺少統(tǒng)一融合模型。基于此, 筆者提出通過對本體信息的標(biāo)準(zhǔn)劃分, 以減少后續(xù)融合過程中不必要的重復(fù)計算, 以提高融合效率。除此之外, 筆者從國際標(biāo)準(zhǔn)的角度, 對本體注冊的信息進(jìn)行本體融合。眾所周知, 標(biāo)準(zhǔn)化才是知識共享的前提, 標(biāo)準(zhǔn)化的融合模型適用于各領(lǐng)域本體融合。

2 基于MFI4OR的本體融合模型

2.1 MFI4OR標(biāo)準(zhǔn)體系研究

MFI4OR標(biāo)準(zhǔn)為本體的結(jié)構(gòu)和語義信息提供了一個注冊機(jī)制, 以便于管理和進(jìn)行系統(tǒng)間互操作。其為本體的分類注冊提供了一個基本的3層架構(gòu), 用于促進(jìn)本體和基于本體的系統(tǒng)之間的語義互操作[11]。MFI4OR在元級對本體信息進(jìn)行注冊和管理, 這就在元級上屏蔽了本體異構(gòu)問題, 進(jìn)而解決了本體之間的互操作問題[12]。

從兩個基于本體的信息系統(tǒng)的角度看, 本體在系統(tǒng)中起到承上啟下的中間層作用[13], 兩個系統(tǒng)若要進(jìn)行互操作, 就需要這兩個系統(tǒng)的本體滿足互相理解的要求, 也就是說需要存在相同的描述以及建立相應(yīng)的映射關(guān)系。但是, 由于不同的信息系統(tǒng)存在不同的需求, 構(gòu)建時使用的建模語言也會有所區(qū)別, 應(yīng)用的本體必然存在異構(gòu)性, 這在很大程度上造成了信息共享障礙。因此, 有必要為本體提供一個科學(xué)合理的管理機(jī)制, 對本體元級的信息進(jìn)行注冊管理, 這就是MFI4OR本體注冊元模型所研究的范圍[11]。MFI4OR本體注冊元模型在元級上考慮了本體的異構(gòu)性, 并致力于本體之間的互操作(見圖1)。

圖1 本體注冊元模型Fig.1 Ontology registration meta model

從橫向看, MFI4OR提供了兩種類型的本體模型, 分別為參考本體(Reference-Ontology)和本地本體(Local-Ontology)。參考本體是由標(biāo)準(zhǔn)組織或領(lǐng)域?qū)<叶x的領(lǐng)域內(nèi)的標(biāo)準(zhǔn)本體, 該本體的特點是具有穩(wěn)定性。本地本體是在具體的信息系統(tǒng)需求的基礎(chǔ)上, 根據(jù)參考本體修改得到。由于本地本體對參考本體進(jìn)行了復(fù)用, 故其含有參考本體的部分內(nèi)容, 此外還包含系統(tǒng)需求的內(nèi)容。2008年, 曾誠等[14]提出了一種基于MFI4OR的語義互操作Web服務(wù)注冊模型, 運用標(biāo)準(zhǔn)中本地本體的演化規(guī)則解決Web服務(wù)注冊庫中的語義互操作問題。在本文中應(yīng)用到了參考本體的概念, 并將其作為融合過程中融合本體的基準(zhǔn), 并將該本體中的構(gòu)件視為標(biāo)準(zhǔn)構(gòu)件。

從縱向看, MFI4OR提供了一種3層模型對本體信息進(jìn)行記錄和管理, 該模型的基礎(chǔ)為“本體(Ontology)-本體構(gòu)件(Ontology-Component)-本體原子構(gòu)件(Ontology-Atomic-Construct)”。在標(biāo)準(zhǔn)3層模型中, 本體是一個元類, 表示一個本體并包含關(guān)聯(lián)的管理信息; 本體構(gòu)件是一個抽象的元類, 表示包含在本體中的句子并包含相關(guān)的管理信息, 沒有指定句子的粒度, 但其是一個用戶的選擇; 本體原子構(gòu)件表示非邏輯符號的抽象元類, 用于句子中并且包含相關(guān)的管理信息。本體原子構(gòu)件組成了本體構(gòu)件, 本體構(gòu)件組成了本體, 其中本體原子構(gòu)件是本體最基本的單位, 即最小組成單位[12]。MFI4OR的3層注冊模型關(guān)注本體元級的結(jié)構(gòu)組成信息, 即本體中的句子以及非邏輯符號的模型元素, 其中包括類、 屬性和關(guān)系等。

MFI4OR將本體元模型作為理論基礎(chǔ), 提供了一個公共的元模型框架, 用于處理本體注冊和本體之間互操作的問題, 便于異構(gòu)本體的語義信息的注冊、 共享和管理。而本體融合涉及到了本體之間的互操作, 以及在本體信息之間的概念相似度計算和實體對齊等技術(shù), 因此MFI4OR可以為本體融合提供一個統(tǒng)一的融合模型, 并可在此基礎(chǔ)上進(jìn)行本體信息的融合。

2.2 融合映射模型

在MFI4OR中縱向定義了一種3層結(jié)構(gòu)記錄本體的結(jié)構(gòu)信息, 基于此對融合中的本體信息粒度進(jìn)行劃分(見圖2)。圖2左側(cè)虛線框內(nèi)為語法層, 在標(biāo)準(zhǔn)中規(guī)定“本體構(gòu)件”對應(yīng)了本體中的“句子”, 但“句子”劃分的粒度由用戶決定, “本體原子構(gòu)件”對應(yīng)了本體中的“非邏輯符號”, 即從本體文件里可以提取出“句子”注冊成為“本體構(gòu)件”, 而“句子”粒度的劃分由用戶決定, 然后從句子中提取“非邏輯符號”注冊成為“本體原子構(gòu)件”。圖2中間的虛線框是標(biāo)準(zhǔn)中定義的3層“本體-本體構(gòu)件-本體原子構(gòu)件”模型, 從本體中可以提取若干本體構(gòu)件, 本體構(gòu)件中可以提取若干本體原子構(gòu)件。圖2最右側(cè)的虛線框表示融合層, 將標(biāo)準(zhǔn)中需注冊的管理信息對應(yīng)到融合過程中的需要融合本體的信息元素, “本體構(gòu)件”對應(yīng)本體模式層的元素“類”, “本體原子構(gòu)件”對應(yīng)與類相關(guān)的屬性, 例如對象屬性和數(shù)據(jù)屬性, 融合類和融合屬性為融合對象。

圖2 基于MFI4OR的本體融合模型Fig.2 Ontology fusion model based on MFI4OR

3 融合過程與算法

3.1 融合過程

對模式層, 本體中概念的相似度達(dá)到某個特定的較高值時, 即可認(rèn)定兩個概念的語義是相同的, 這就給予了融合的最基本條件[15]。基于MFI4OR的本體融合模型, 提出如下的本體融合過程。圖3描述了輸入、 輸出和融合過程中的6個主要步驟, 即輸入兩個領(lǐng)域內(nèi)或不同領(lǐng)域的相似的兩個本體, 經(jīng)過融合后, 輸出一個融合了兩個本體基本元素的完整本體。

圖3 基于MFI4OR的融合過程Fig.3 Fusion process based on MFI4OR

步驟1 三元組提取。

首先準(zhǔn)備需要融合的本體, 規(guī)定其中一個為參考本體(ClassOnto), 另外一個本體則為融合本體(FuseOnto)。然后將輸入的本體通過rdflib技術(shù)和pandas技術(shù)提取出兩個本體中所有的三元組,并通過三元組描述的兩實體的關(guān)系抽取本體中所有的類、 實體、 對象屬性和數(shù)據(jù)屬性等。

步驟2 構(gòu)件提取。

將抽取的三元組中的類、 對象屬性、 數(shù)據(jù)屬性等根據(jù)基于MFI4OR的映射模型, 將“本體-本體構(gòu)件-本體原子構(gòu)件”與“本體-類-屬性”相互映射, 存儲到相應(yīng)的關(guān)系表或CSV文件中進(jìn)行結(jié)構(gòu)化處理。

步驟3 相似度計算。

筆者利用基于編輯距離的相似度算法對已經(jīng)劃分的本體構(gòu)件即兩個本體中的類進(jìn)行相似度計算, 并輸出一個相似度值, 該值的取值在0~1之間(包括0和1)。在此規(guī)定閾值U為0.7, 當(dāng)相似度值大于或等于0.7, 認(rèn)定兩個本體構(gòu)件相似, 即可進(jìn)行融合。當(dāng)相似度小于0.7, 利用外部資源WordNet判斷的兩個本體構(gòu)件是否存在近義詞的關(guān)系, 若存在則融合。外部資源主要判斷兩個詞匯的語義相似度, 減少因詞匯相似度低而語義相同的信息不能融合的情況。根據(jù)信息論中的信息傳遞損失理論, 在融合中用語義相似度算法計算后所得結(jié)構(gòu), 必然造成知識在一定程度上的損失[15]。

步驟4 融合。

在步驟2中, 得出相似的本體構(gòu)件即相似的類, 將它們進(jìn)行融合。若兩個本體構(gòu)件相似, 融合時, 保留參考本體中的本體構(gòu)件, 并去除融合本體中的相似本體構(gòu)件, 但需要保留融合本體中的原子構(gòu)件, 將其添加到參考本體的本體構(gòu)件中。

步驟5 原子構(gòu)件匹配。

將本體構(gòu)件融合后, 合并原兩個本體構(gòu)件中的原子構(gòu)件, 并對其進(jìn)行匹配查重, 若有重復(fù)的原子構(gòu)件則將其去除。這一步的主要目的是保證合并后的本體構(gòu)件中不存在重復(fù)的本體原子構(gòu)件, 避免融合后的本體存在冗余。原子構(gòu)件的匹配與步驟4相同, 保留參考本體中的原子構(gòu)件, 去除融合本體中的原子構(gòu)件。

步驟6 迭代。

反復(fù)執(zhí)行步驟3~步驟5, 直到融合徹底結(jié)束。

3.2 融合算法描述

根據(jù)MFI4OR本體融合映射模型, 對本體的基本元素進(jìn)行標(biāo)準(zhǔn)化注冊, 再利用Edit Distance算法和基于WordNet詞典的Edit Distance-WordNet相似度算法進(jìn)行相似度計算, 簡稱E-W算法, 如下所示。由于本體原子構(gòu)件融合與本體構(gòu)件融合算法相似, 故不再贅述。

E-W算法:

1)U←0.7∥設(shè)置閾值U=0.7, 判讀是否符合融合標(biāo)準(zhǔn)

2) import BasicOnto, FuseOnto∥導(dǎo)入?yún)⒖急倔w和待融合本體

3) 提取兩本體的本體構(gòu)件

4) for each triples in BasicOnto and FuseOnto do∥提取三元組

5) for each BasicClass and FuseClass in triples do∥提取本體構(gòu)件

6) fori←0 to BasicClass do∥遍歷本體構(gòu)件

7) forj←0 to FuseClass do

8) 通過Levenshtein Distance算法進(jìn)行相似度分析

9) Pairs[i]←compareTwoClass(BasicClass, FuseClass)

10) Pairs[i]_K←sim(BasicClass, FuseClass)

11) if Pairs[i]_K

12) 通過WordNet進(jìn)行語義相似度判斷

13) if Pairs [i] in WordNet do

14) FusionClass←BasicClass∥進(jìn)行本體構(gòu)件融合

15) else

16) return Pairs [i] to NextCompare

17) end if

18) else

19) FusionClass←BasicClass

20) end if

21) end for

22) end for

23) end for

24) end for

4 實驗結(jié)果與分析

實驗是以黑龍江省哲學(xué)社會科學(xué)研究規(guī)劃項目“黑龍江省高等教育教學(xué)改革基金資助項目”(項目編號: SJGY20200107)中的學(xué)習(xí)者模型構(gòu)建需求為背景。項目采用FOAF與RELATIONSHIP進(jìn)行學(xué)習(xí)者模型構(gòu)建, 利用提出的融合模型實現(xiàn)將兩個本體的融合。FOAF本體是一種提供管理社區(qū)內(nèi)信息的詞匯表, 其定義了關(guān)于用戶個人信息、 用戶與用戶之間關(guān)系[16]。而RELATIONSHIP[17]本體是描述人與人之間各種關(guān)系的標(biāo)準(zhǔn)詞匯表, 例如親屬關(guān)系、 工作關(guān)系、 婚姻及居住關(guān)系等, 涵蓋了幾乎所有的人與人之間的關(guān)系模型。這兩個頂層本體都是描述人物基本信息及人物間關(guān)系的標(biāo)準(zhǔn)本體, 因此在該項目系統(tǒng)架構(gòu)的學(xué)習(xí)者模型構(gòu)建模塊中, 筆者基于MFI4OR標(biāo)準(zhǔn)的本體融合模型融合FOAF本體和RELATIONSHIP本體, 為學(xué)習(xí)者模型提供一個更精確更全面的關(guān)系表示。

實驗采用Win10系統(tǒng)環(huán)境, 并用Python語言進(jìn)行本體的解析和融合。經(jīng)過實驗, 結(jié)合基于MFI4OR的融合模型得到融合后的FOAF-RELATIONSHIP本體, 稱之為F-R本體(見圖4)。該本體不但具有FOAF本體的相關(guān)信息, 如knows和account;而且還有RALATIONSHIP本體中的相關(guān)信息, 如worksWith(見圖5)。

圖4 F-R本體 圖5 F-R本體局部圖 Fig.4 F-R ontology Fig.5 Partial diagram of F-R ontology

融合后的F-R本體中既包含參考本體FOAF中的信息, 又包括了融合本體RELATIONSHIP中的相關(guān)信息, 實現(xiàn)了兩個本體的融合, 并形成一個基于FOAF本體的包含RELATIONSHIP本體中所有人際關(guān)系的統(tǒng)一本體。

計算并獲得融合本體的4個融合分析項, 即準(zhǔn)確率(Accuracy)、 精確率(Precision)、 召回率(Recall)和F1值。筆者分別計算了類(Class)、 對象屬性(ObjectProperty)、 數(shù)據(jù)屬性(DatatypeProperty)以及融合(Fusion)的分析項, 得到結(jié)果如表1所示。

表1 融合結(jié)果

實驗結(jié)果顯示, 無論是類、 對象屬性還是數(shù)據(jù)屬性, 基于該模型的融合實驗的準(zhǔn)確率都達(dá)到了80%以上, 除了對象屬性的召回率在68.5%以外, 其余概率都在70%以上。總體的融合可達(dá)87.6%的準(zhǔn)確率, 查準(zhǔn)率在79.8%, 召回率和F1值也都保持在80%以上。

5 結(jié) 語

筆者針對目前本體融合的研究中本體映射缺乏統(tǒng)一的標(biāo)準(zhǔn)融合模型的問題, 提出了基于國際標(biāo)準(zhǔn)MFI4OR的本體融合模型, 并進(jìn)行了實驗。在MFI4OR的融合模型基礎(chǔ)上, 利用編輯距離的相似度算法, 能精確地計算出兩個概念的詞匯相似度。為避免出現(xiàn)異形同義, 筆者考慮了基于詞典WordNet的方法, 查找詞匯近義詞進(jìn)行語義相似度的比較, 在確保詞匯相似度的基礎(chǔ)上考慮了異形同義的情況, 這在很大程度上增加了融合的準(zhǔn)確性。實驗表明, 基于MFI4OR的本體融合模型適用于本體融合過程, 可融合兩個相似本體且具有較高的適用性。該模型為本體融合信息提供一個標(biāo)準(zhǔn)的本體信息管理模式, 并根據(jù)注冊標(biāo)準(zhǔn)提出一個本體元級的標(biāo)準(zhǔn)劃分, 減少了相似度計算的次數(shù), 簡化了繁瑣的計算過程。以教育領(lǐng)域?qū)W習(xí)者模型的構(gòu)建為背景, 將該方法應(yīng)用于教育領(lǐng)域的學(xué)習(xí)者模型中, 很好地解決了學(xué)習(xí)者模型構(gòu)建中的融合問題。

猜你喜歡
本體原子語義
Abstracts and Key Words
原子究竟有多???
原子可以結(jié)合嗎?
帶你認(rèn)識原子
對姜夔自度曲音樂本體的現(xiàn)代解讀
語言與語義
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
認(rèn)知范疇模糊與語義模糊
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
自贡市| 河北区| 随州市| 东兰县| 余江县| 酉阳| 沙田区| 康马县| 方城县| 西畴县| 禹城市| 平罗县| 聊城市| 醴陵市| 崇州市| 潞城市| 哈尔滨市| 清丰县| 荔浦县| 梓潼县| 长汀县| 凌源市| 星子县| 永济市| 延川县| 临颍县| 苏州市| 油尖旺区| 稻城县| 昌图县| 平安县| 上栗县| 会宁县| 饶平县| 桓仁| 土默特左旗| 青河县| 安丘市| 武隆县| 沙河市| 安义县|