国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于石油領(lǐng)域本體的概念相似度級聯(lián)模型①

2018-07-18 06:07:06趙國梁宮法明
關(guān)鍵詞:相似性度量本體

趙國梁, 宮法明

(中國石油大學(xué)(華東) 計算機(jī)與通信工程學(xué)院, 青島 266580)

1 概述

概念的語義相似度計算已經(jīng)成為數(shù)據(jù)挖掘和信息檢索領(lǐng)域的基本問題, 而且是自然語言處理的核心問題[1]. 例如, 語義相似性度量已應(yīng)用于詞義消歧[2]、信息提取[3]、文本相似度計算[4]以及文本聚類[5].

目前, 語義相似度的計算方法大致可分為兩類:(1)依賴于分類中術(shù)語間的層次關(guān)系的基于路徑的度量; (2)根據(jù)概念的特異性分類, 基于語料庫信息內(nèi)容(IC)的測度. 許多相似度計算是建立在本體的內(nèi)在結(jié)構(gòu)上, 在本文中, 我們首先考慮在查詢概念對在本體中的路徑信息, 然后我們不僅考慮了相關(guān)概念的父類集合, 并考慮了子代集合. 這種方法可以獲取進(jìn)行相似性度量的概念對間更多、更具體的信息. 事實上, 不同的度量方法從不同的角度刻畫了兩個對象的相似性或相異性, 這可能有助于整合各種相似性度量以獲得更好的結(jié)果.

我們引入了一個新的級聯(lián)模型進(jìn)行高效的概念相似度排名. 與以前的方法不同, 級聯(lián)模型能夠逐步修剪本體和細(xì)化排名順序. 通過級聯(lián), 可以產(chǎn)生更高質(zhì)量的結(jié)果和更快的查詢執(zhí)行時間. (1)在粗計算階段, 我們的方法是針對整個本體使用基于路徑的訓(xùn)練措施獲來計算過兩個概念間的相似度得分; (2)精確計算及擴(kuò)展階段, 我們使用不同的IC算法從不同的方面來計算每一個概念的相似度得分. 為了充分考慮概念中的可用信息, 將目標(biāo)概念使用其子代和父代概念集進(jìn)行擴(kuò)展,然后用于下一個階段的訓(xùn)練; (3)利用權(quán)重來平衡粗計算和精確計算的相似度得分; (4)最后通過訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)得到概念的相似性排名. 我們在石油本體模型和Babel-net上對本文的模型進(jìn)行了測試, 實驗結(jié)果表明我們的方法提高了相似度計算的準(zhǔn)確度.

圖1 概念相似度計算的模型體系結(jié)構(gòu)

2 相關(guān)工作

語義相似度估計是自然語言處理(NLP)的一個重要組成部分, 在許多NLP應(yīng)用中得到了成功的應(yīng)用.基于路徑的方法主要考慮概念在本體中的路徑距離來確定它們的語義相似度[6]. 基于IC的方法主要比較所涉及的概念及其父代或子代的屬性[7]. 與基于路徑的方法相比, 基于IC的度量對可變語義距離的問題不敏感[8].此外, 基于IC的方法強(qiáng)調(diào)了本體的同一層次上的術(shù)語并不總是等價的思想, 因為它們在本體中的重要性或特異性是由它們的信息量來衡量的[9]. Alexopoulou[10]提出了“Closest Sense”的方法, 該方法計算了可能的概念語義類型與目標(biāo)詞周圍的語義類型之間的平均最短距離. Garla[11]使用 Patwardhan[12]提出的語義關(guān)系算法對基于路徑和基于分類的相似性度量進(jìn)行評價.Resnik[8]和Jiang[13]提出的語義相似度算法被廣泛的使用. Rada[14]提出了一種基于兩個目標(biāo)詞間最短路徑的相似度計算方法. Wu[9]定義一個相似性度量由三部分組成: 概念在本體中的公共子集, 概念間的公共屬性以及它們的最近公共父代距離.

最近, Dang[15]提出了一種新的兩階段學(xué)習(xí)模型.Dang使用一組有限的特征集合, 包括加權(quán)詞語、相鄰性和擴(kuò)展項來訓(xùn)練整個檢索的排名函數(shù). Wang[16]提出了一種級聯(lián)模型, 通過逐步細(xì)化和精煉候選文檔集來盡可能減少檢索中的不利因素, 提高檢索的質(zhì)量. 朱新華等[17]提出了一種綜合的詞語語義相似度計算方法,算法通過特殊的單調(diào)遞減曲線的邊權(quán)重策略, 并且采用以詞語距離為主要因素、分支節(jié)點數(shù)和分支間隔為微調(diào)節(jié)參數(shù)的方法, 改進(jìn)了現(xiàn)有的詞林詞語相似度算法. 李陽等[18]提出一種通用的實體相似度計算方法, 通過清洗噪聲數(shù)據(jù), 對數(shù)值、列表以及文本等不同數(shù)據(jù)類型進(jìn)行預(yù)處理, 使用SVM、隨機(jī)森林等集成學(xué)習(xí)模型以及排序?qū)W習(xí)模型進(jìn)行建模. Pesquita[19]考慮了影響相似度的內(nèi)在和外在問題, 以及如何處理這些問題, 強(qiáng)調(diào)了不同環(huán)境下的最佳措施, 并比較了不同的實施策略及其使用效果.

3 模型

在這部分, 我們介紹計算概念相似度的級聯(lián)模型的具體細(xì)節(jié). 模型的體系結(jié)構(gòu)如圖1所示.

3.1 粗計算階段: 基于路徑的相似度算法

粗計算階段是模型的第一階段, 我們使用基于路徑的相似計算方法來計算概念間的相似度得分, 然后將該得分以及路徑集合作為后續(xù)階段輸入數(shù)據(jù), 以生成最終的查詢結(jié)果.

Leacock[20]最先提出了一種基于路徑的本體相似度計算方法, 并且被廣泛的使用. 假設(shè)c1和c2是兩個概念, 他們考慮了概念的最大深度, 定義了公式(1):

本文考慮到不同本體領(lǐng)域存在許多差異性, 采用Batet[21]提出的特定領(lǐng)域的相似性度量模型, 它充分考慮了本體的特性以及多重繼承的關(guān)系, 與石油領(lǐng)域本體基本相似, 如公式(2)所示:

本文使用公式(1)對公式(2)進(jìn)行了改進(jìn), 如公式(3)所示:

3.2 精確計算階段: 基于IC相似度計算

在精確計算階段, 本文使用基于IC的相似度算法去計算從擴(kuò)建階段獲得的所有結(jié)果集中每個概念的得分. 每個概念的得分將被作為構(gòu)建成特征向量. 本階段將采用5種目前使用最為廣泛的基于IC的相似度算法作為精確計算階段的方法, 先使用這5種去獲取概念在本體上部(概念與其父代集合)的相似度得分, 并且通過擴(kuò)展階段重新定義公式, 來獲取概念在本體下部(概念與其子代集合)的相似度得分. 以下五種算法都是基于概念在本體上部的相似度計算方法.

Resnik首先把概念信息量(IC)應(yīng)用到相似度計算中. 在Resnik的模型中, 相似度通過兩個概念的最小公共集合的IC進(jìn)行計算, 公式定義如下:

Lin[22]在Resnik相似度算法的基礎(chǔ)上, 額外考慮了概念和概念的IC信息量值. 模型(Lin)定義如下:

Jiang和Conrath提出的模型根據(jù)公式(6)進(jìn)行量化:

Sánchez和Batet提出了一種新的語義相似度度量方法, 定義如公式(7)所示:

通過考慮到本體中概念對之間的語義距離以及概念在本體中的深度, Wu提出的相似度計算模型定義如公式(8):

3.3 擴(kuò)展階段

為了能夠獲取概念的更多屬性, 以便獲得更好的數(shù)據(jù)進(jìn)行訓(xùn)練, 使最終計算結(jié)果的準(zhǔn)確性更高、更具潛力. 因此, 我們擴(kuò)展本體概念集合以獲得更多信息.

Zhang[23]發(fā)現(xiàn)兩個概念的共同子集同樣影響相似性得分. 本文中, 我們認(rèn)為兩個概念的下一代子集影響兩個概念間的相似度得分, 如圖2所示.

圖2 概念子集圖

這意味著兩個概念的子代集合也可以用來描述它們的相似性度量. 我們在下面的公式中重新定義子代公共部分的IC值:

最終, Resnik提出的相似的計算模型就被重新定義為如下:

其余四種相似度算法以同樣的方式重新定義.

3.4 相似度特征

本文把兩個概念之間的相似度得分作為是每一對概念的特征值, 通過構(gòu)造基于本體的不同相似度模型獲取相似性得分值來進(jìn)一步構(gòu)造特征向量來表示概念對, 相似度特征表示為公式(11):

3.5 得分權(quán)重

基于路徑的相似度算法只考慮到概念對在本體中的路徑長度, 忽略了每個概念的信息量. 相反, 基于IC的相似度算法只考慮到每個概念的信息量, 忽略了每個概念對在本體中的路徑長度. 為了充分利用這兩種信息, 本文通過使用得分門網(wǎng)絡(luò)來實現(xiàn)的, 該網(wǎng)絡(luò)為每個概念生成聚合權(quán)重, 控制兩種相似度算法計算的的相似度得分對最終相似度得分的貢獻(xiàn). 綜合特征向量被改寫為公式(14).

3.6 BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)是誤差反向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò), 是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一.BP網(wǎng)絡(luò)可以學(xué)習(xí)和存儲大量的輸入輸出映射關(guān)系, 而不需要揭示描述映射關(guān)系的數(shù)學(xué)方程. BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)由輸入層、隱層和輸出層, 在神經(jīng)元的連接權(quán)值和閾值, 輸入層和輸出層只有一個, 它的單位數(shù)量與實際輸入輸出參數(shù)一致; 隱層可以是一個或多個神經(jīng)元參與, 數(shù)字必須重復(fù)計算. 由于三層神經(jīng)網(wǎng)絡(luò)具有很好的函數(shù)逼近功能, 結(jié)構(gòu)設(shè)計簡單, 運算能力強(qiáng). 在本文中, 我們是用三層BP神經(jīng)網(wǎng)絡(luò), 如圖3所示.

隱藏層節(jié)點的數(shù)目由公式(15)確定:

圖3 三層 BP 神經(jīng)網(wǎng)絡(luò)

訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)時, 我們將最終的相似度特征向量作為BP神經(jīng)網(wǎng)絡(luò)的輸入, 將兩個概念對應(yīng)的相似度分類作為輸出.

對于輸出結(jié)果, 我們期望BP神經(jīng)網(wǎng)絡(luò)將兩個概念的相似性分?jǐn)?shù)劃分為10個類別, 0個代表不相似, 9個代表極其相似 (相同), 值越高, 相似度越高.

4 實驗評估

4.1 數(shù)據(jù)集

在本文中, 石油本體和BabelNet[24]用來作為數(shù)據(jù)集測試本文的方法. 我們收集了石油領(lǐng)域的數(shù)據(jù), 建立了自己的石油領(lǐng)域本體. BabelNet 是一個多語言語義網(wǎng)絡(luò), 其概念和關(guān)系是利用自動映射算法從英語中最大的有效語義詞典WordNet[25]和最大的覆蓋面的百科全書Wikipedia中獲得的.

4.2 評判基準(zhǔn)

為了得到一個比較基準(zhǔn), 我們的實驗標(biāo)準(zhǔn)類似于Miller和Charlest提出的基準(zhǔn), 給予五十名受試者(四十名石油工程學(xué)生和十名石油領(lǐng)域教授)相同的330個名詞對(30個名詞對與Miller和Charles相同,300個名詞對是關(guān)于石油的). 這些操作和Miller和Charles的用法完全一樣. 一半的受試者以隨機(jī)順序收到單詞對的列表, 另一半接受固定順序的列表. 對于同一概念對, Miller和Charles基準(zhǔn)的平均評分和本文中評價基準(zhǔn)的平均評分之間的相關(guān)程度為95%, 說明我們的基準(zhǔn)是有效的.

4.3 實驗結(jié)果

為了驗證所提出方法的有效性, 本研究采用十倍交叉驗證, 并以精確度作為驗證指標(biāo). 在十次交叉驗證中, 數(shù)據(jù)集被隨機(jī)劃分為十個相等的子集, 驗證過程重復(fù)十次. 每次保留其中一個子集作為驗證數(shù)據(jù), 其余四個子集作為訓(xùn)練數(shù)據(jù). 交叉驗證的十個結(jié)果的平均值產(chǎn)生一個總體估計. 使用公式(17)表示的準(zhǔn)確率和召回率來判斷實驗結(jié)果,

表1和表2列出了實驗的預(yù)測結(jié)果特點, 在石油本體和babelnet上采用了不同的相似性度量策略. 從表格中, 我們可以看出, 采用基于路徑、基于概念父代、子代擴(kuò)展集合的信息量相似度計算方法相結(jié)合的特征通常比只采用其中一種策略對應(yīng)的綜合特征具有更高的精度.

表1 不同相似性算法在石油本體中的精度得分

表2 不同相似性算法在 BabelNet中的精度得分

從表2中的結(jié)果可以得出幾個結(jié)論. 本文中的相似度計算方法在石油本體和BabelNet獲得最高的精確度得分, 分別為90.44%和92.33%. 這表明我們從本體中獲得的信息越多, 分類器的預(yù)測能力就越好. 本文中的算法在不同的本體上表現(xiàn)出良好的性能.

5 結(jié)論

在本文的研究中, 我們提出了一種基于石油本體的概念對語義相似性的計算方法. 將不同相似性測度得到的信息作為BP神經(jīng)網(wǎng)絡(luò)的輸入. 我們相信, 基于路徑的、基于IC和擴(kuò)展的基于IC的測度的更多信息可以提高預(yù)測性能, 我們的方法的缺點是計算量大, 預(yù)測性能會受到BP神經(jīng)網(wǎng)絡(luò)的影響. 將來, 我們計劃采用一種更全面的方法來預(yù)測兩個概念的相似性.

猜你喜歡
相似性度量本體
有趣的度量
Abstracts and Key Words
一類上三角算子矩陣的相似性與酉相似性
模糊度量空間的強(qiáng)嵌入
對姜夔自度曲音樂本體的現(xiàn)代解讀
淺析當(dāng)代中西方繪畫的相似性
河北畫報(2020年8期)2020-10-27 02:54:20
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
低滲透黏土中氯離子彌散作用離心模擬相似性
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
迭部县| 上杭县| 方城县| 炉霍县| 浦城县| 乌审旗| 肇庆市| 曲周县| 方城县| 南岸区| 泰来县| 廉江市| 靖边县| 和顺县| 永吉县| 淳安县| 阿鲁科尔沁旗| 松潘县| 毕节市| 八宿县| 永川市| 荆州市| 泰安市| 当涂县| 伊宁市| 海口市| 吉林省| 岱山县| 富平县| 乐业县| 开江县| 河北区| 应城市| 绥德县| 蛟河市| 铅山县| 铜川市| 西乌珠穆沁旗| 威海市| 林甸县| 兴安盟|