王 凱
(蚌埠醫(yī)學(xué)院 信息技術(shù)教研室,安徽 蚌埠 233030)
在臨床醫(yī)學(xué)的研究與探索的過程中,知識(shí)總量正日益呈現(xiàn)出爆炸式增長,基于信息系統(tǒng)的領(lǐng)域知識(shí)由于自身所存在的異構(gòu)等特征,限制了領(lǐng)域知識(shí)的共享與復(fù)用,相互間無法進(jìn)行知識(shí)交互??陀^上迫切地需要一種新的包含各種醫(yī)療診斷以及治療信息的概念術(shù)語集,繼而滿足基于用戶的智能化、自動(dòng)化以及結(jié)構(gòu)化的診斷需求。
本文首先介紹了基于二元關(guān)系的數(shù)據(jù)分析理論,并在此基礎(chǔ)上通過分析概念節(jié)點(diǎn)的屬性信息、層次結(jié)構(gòu)信息以及對(duì)偶信息等維度,分別引入與之相關(guān)的變量因子,對(duì)概念對(duì)的語義距離通過上述變量因子進(jìn)行語義加權(quán),最終獲取具有該概念對(duì)特征屬性集的語義相似度矩陣。
概念格[1](又稱 Galois格)是由 Wille于 1982年初次提出,是將概念節(jié)點(diǎn)劃分為基于對(duì)象和屬性的形式概念層次結(jié)構(gòu),在知識(shí)管理、信息檢索和規(guī)則提取等方面有著廣泛的應(yīng)用。概念格內(nèi)的所有概念均是基于相同背景下的形式概念集合,概念的計(jì)算效率依賴于某些特定算法[2],概念節(jié)點(diǎn)間的關(guān)系能夠清楚地反映出概念間的層次結(jié)構(gòu)以及相互之間泛化與特化的關(guān)系。
概念節(jié)點(diǎn)通常將概念所包含的對(duì)象和屬性轉(zhuǎn)化成相應(yīng)的外延特征(extent)與內(nèi)涵特征(intent)。由于概念節(jié)點(diǎn)的形成依賴于一個(gè)概念背景,該背景需要包含外延集與內(nèi)涵集,以及二者之間的某種二元關(guān)系,其中外延集為對(duì)象集合,內(nèi)涵集為屬性集合,此二元關(guān)系需要嚴(yán)格滿足有且僅有一個(gè)對(duì)應(yīng)偏序集,且此偏序集滿足自反性、對(duì)偶性和傳遞性[3]。
形式背景可由如表1所示的二維數(shù)表來表示,G={1,2,3,4,5}表示屬性,M={A,B,C,D}表示對(duì)象,交叉數(shù)值表示該對(duì)象具有此屬性特征,反之則表示該對(duì)象與屬性沒有直接關(guān)聯(lián)性?;谠撔问奖尘翱缮膳c之相對(duì)應(yīng)的形式概念如表2所示。由概念間的繼承關(guān)系可得如圖1所示的Hasse圖。
表1 概念格的形式背景示例Tab.1 Example for formal context of Galois
表2 概念格所生成的概念實(shí)例Tab.2 Concept example produced by Galois
圖1 與表2相對(duì)的Hasse圖Fig.1 Hasse map based on table 2
傳統(tǒng)意義上的語義概念包含的信息量取決于該概念節(jié)點(diǎn)所包含的實(shí)例對(duì)象的數(shù)量(或是其所占權(quán)重的大小)以及該節(jié)點(diǎn)的直接子類節(jié)點(diǎn)數(shù)量。根據(jù)概念格基本理論,子類概念的形成過程本質(zhì)上是對(duì)其祖先概念特征的細(xì)化過程,必然包含了其祖先的所有特征信息[4]。
定義1 將概念節(jié)點(diǎn)所包含的實(shí)例對(duì)象的出現(xiàn)概率表示為F(c)=log(fc),而將概念外延節(jié)點(diǎn)所包含的直接子類節(jié)點(diǎn)數(shù)量記作o(c),
其中,d(anc12)是概念節(jié)點(diǎn)1、2子節(jié)點(diǎn)數(shù)量;d(fc)表示該形式背景所生成的概念格結(jié)構(gòu)中各節(jié)點(diǎn)度的最大數(shù)值;表示兩概念最近相同祖先所包含的語義實(shí)例信息量。
不同語義實(shí)體間關(guān)系的遠(yuǎn)近不僅取決于其自身所具有的共享內(nèi)涵集的大小,還與差異化內(nèi)涵集的最小蘊(yùn)含集范圍有關(guān)。其中,共享內(nèi)涵集愈大,差異化內(nèi)涵集愈小,概念間的語義關(guān)系就愈近,相似度就愈高。概念格內(nèi)的節(jié)點(diǎn)之間,滿足與本體內(nèi)父子概念間的分類與繼承關(guān)系,即子概念無條件地繼承來自父類節(jié)點(diǎn)的特征集合,包含其眾多祖先節(jié)點(diǎn)屬性集合的交集[5]。對(duì)于一個(gè)格結(jié)構(gòu)嚴(yán)格滿足二元關(guān)系的形式背景而言,相鄰節(jié)點(diǎn)間可用一個(gè)有向邊表示分類與非分類關(guān)系集。
通常情況下,鄰近節(jié)點(diǎn)之間的有向邊長度取決于位于邊的兩端概念節(jié)點(diǎn)屬性量的范圍,即滿足有向邊的長度與節(jié)點(diǎn)屬性量的正相關(guān)性。下面給出概念有向邊的標(biāo)注方法:若設(shè)c為本體概念,A(c)是概念節(jié)點(diǎn)所包含的屬性量,F(xiàn)(c)是該概念可能存在于某概念集合中的概率,N(c)是反映概念出現(xiàn)的統(tǒng)計(jì)量,L(a→b)表示概念a到b的有向邊長度?;诮y(tǒng)計(jì)概率理論,則概念有向邊的標(biāo)注與格內(nèi)節(jié)點(diǎn)之間的路徑長度呈現(xiàn)正相關(guān)性,同時(shí)該相關(guān)性與其到最近最短相同祖先的長度有關(guān)。
為了更清晰地理解概念有向邊的標(biāo)注方法,將包含上述概念屬性的語義變量關(guān)系表示為
式中的分子部分表示該有向邊的長度與邊節(jié)點(diǎn)的屬性量差值有關(guān),分母則表示了該路徑中,任意兩概念節(jié)點(diǎn)之間的最近最短相同祖先路徑的取值。一般情況下,概念節(jié)點(diǎn)之間的有向邊標(biāo)注需要考慮節(jié)點(diǎn)間的語義距離,故為增加該標(biāo)注的準(zhǔn)確性,引入調(diào)節(jié)參數(shù)α、λ,對(duì)(2)式加以修正。
概念節(jié)點(diǎn)層次主要利用概念格整體結(jié)構(gòu)中所蘊(yùn)含的領(lǐng)域形式背景知識(shí),細(xì)化偏序集的概念層次二元關(guān)系?;谏锓诸悓W(xué)的基本知識(shí)可知,在概念有向邊距離相等的前提下,加權(quán)Hasse圖中,概念節(jié)點(diǎn)位置愈靠近底層,表明概念的細(xì)化特征愈明顯,語義相似度就愈大,即概念節(jié)點(diǎn)對(duì)的深度差愈小,概念內(nèi)涵就愈具體。同時(shí)處于相同背景下的領(lǐng)域概念必存在相同或相近的語義特征,祖先節(jié)點(diǎn)間必存在交點(diǎn),由此給出概念節(jié)點(diǎn)層次的語義標(biāo)注。
定義2 在任意概念節(jié)點(diǎn)間語義距離相等時(shí),概念對(duì)的節(jié)點(diǎn)深度和(差)越大(小),概念間的語義相似度就越大(?。?。概念節(jié)點(diǎn)層次的語義標(biāo)注為
其中,Depth(C)是概念節(jié)點(diǎn)層次的求解函數(shù),η為用于調(diào)節(jié)節(jié)點(diǎn)深度差的數(shù)值。
概念格結(jié)構(gòu)內(nèi)各節(jié)點(diǎn)層次求解方程可以近似地用帶參數(shù)的指數(shù)函數(shù)表示為
定義3 領(lǐng)域概念之間的語義距離一般可使用相似求解函數(shù)Sim來求解,若某概念對(duì)(A,B)滿足條件Sim(A,B)=Sim(B,A),稱在求解函數(shù)Sim的約束下,具有完全對(duì)偶性。
醫(yī)學(xué)診斷知識(shí)庫中,知識(shí)間往往存在某種程度的非對(duì)偶性,利用文獻(xiàn)[6-7]提出的計(jì)算模型分別從不同角度計(jì)算該數(shù)據(jù)庫中的任意概念,發(fā)現(xiàn)概念節(jié)點(diǎn)間的語義匹配具有方向性[8]。一般條件下,概念A(yù)與其父類節(jié)點(diǎn)B的相似度值大于其祖先B與其子節(jié)點(diǎn)A的值,即Sim(A,B)要小于Sim(B,A)。因此本文為使算法更具一般性,將概念節(jié)點(diǎn)間的非對(duì)偶性定義為
上述神話表明文字作為人類文明的劃時(shí)代標(biāo)志,它是文明與野蠻的區(qū)別。從空間上看,不同人群是否掌握了文字和書寫能力,成為統(tǒng)治與被統(tǒng)治的一個(gè)工具,無文字的族群被貼上“野蠻人”或“落后”的標(biāo)簽。奇怪的事,神話敘事的主體是無文字民族,這似乎表明他們接受了無文字帶來的后果,自責(zé)及接受“神授”安排的無奈。
因此可以將互為對(duì)偶的概念節(jié)點(diǎn)對(duì)之間的關(guān)系表示為
概念語義度量是將概念之間的有向邊賦予相應(yīng)的權(quán)值,同時(shí)利用節(jié)點(diǎn)的層次信息,將節(jié)點(diǎn)深度對(duì)于相似度的影響量化,最后引入節(jié)點(diǎn)概念對(duì)的非對(duì)偶性特征,提高模型的使用范圍。因此,利用概念屬性的加權(quán)特征,將概念對(duì)的語義相似度表示為
其中的ε為權(quán)重因子,用以修正相似度結(jié)果大于1的情況。上述模型的結(jié)果是0到1范圍內(nèi)的數(shù)值,相似度越大,表明概念所蘊(yùn)含的內(nèi)在屬性愈具有一致性。利用概念語義度量模型可以得出如下結(jié)論:相同概念的語義相似度為1;Hasse圖結(jié)構(gòu)中的屬性共享范圍越大,語義相似度也愈越大;節(jié)點(diǎn)位置越深,即屬性特征愈細(xì)化,語義相似度也愈接近。
本實(shí)例所包含的形式背景來源于高血壓臨床診斷知識(shí)庫,對(duì)象集和屬性集分別為基于臨床診斷概念本體的基本概念。針對(duì)本文方法,分別設(shè)計(jì)并計(jì)算兩組對(duì)比試驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析比較。使用Protégé 3.4 beta本體構(gòu)建工具描述本體所包含的概念及其關(guān)系(見圖2,3)。
圖2 實(shí)驗(yàn)本體1Fig.2 Test noumenon 1
圖3 實(shí)驗(yàn)本體2Fig.3 Test noumenon 2
表4 相似度度量結(jié)果Tab.4 Results of similarity measurement
本文提出了一種合理的領(lǐng)域本體概念相似度計(jì)算方法,并使用概念節(jié)點(diǎn)的深度、對(duì)偶性等信息量加權(quán)了概念實(shí)體的相似度度量結(jié)果,不僅在計(jì)算結(jié)果上更加趨近于真實(shí)的分類效果,而且綜合考慮對(duì)象與其所包含的屬性間的分類與非分類關(guān)系,使得不相關(guān)概念對(duì)的發(fā)生率出現(xiàn)顯著降低。改進(jìn)后的模型的概念,對(duì)為零的矩陣值相比于基于信息距離的模型,在樣本抽樣實(shí)驗(yàn)中降低了無關(guān)概念對(duì)的產(chǎn)生,提高了概念間相似度度量準(zhǔn)確度。
(References)
[1]穆斌.語義Web中的語義度量與本體映射[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2006,29(3):300-304.
[2]顧進(jìn)廣,黃屹,周毅.Mediator模式下基于語義映射的多本體融合機(jī)制研究[J].武漢大學(xué)學(xué)報(bào):自然科學(xué)版,2006,52(1):81-86.
[3]強(qiáng)宇,劉宗田,林煒,等.模糊概念格在知識(shí)發(fā)現(xiàn)的應(yīng)用及一種構(gòu)造算法[J].電子學(xué)報(bào),2005,33(2):350-353.
[4]CHO M,CHOI C.Comparing ontologies using entropy[C]//Washington DC Proc of International Conference on Convergence Information Technology.USA:IEEE Computer Society,2007.
[5]TVERSKY G.An approach based on hierarchies of concept[C]//Rival I Ordered Sets.Dordrecht: Reidel,1982.
[6]毛華,竇林立.基于矩陣列秩屬性優(yōu)先的概念格算法[J].河北大學(xué)學(xué)報(bào):自然科學(xué)版 ,2009,29(2):130-132.
[7]呂剛,鄭誠.改進(jìn)的基于概念相似度的文本檢索[J].計(jì)算機(jī)工程 ,2010,36(12):55-57.
[8]DOAN A H,MADHAVAN J,DOMINGOS P.Learning to map between ontologism on the semantic Web[C]//Proceedings of the 11th Intemational Conferenceon on World Wide Web.New York:ACM Press,2002.
[9]賴院根,王娜.概念語義相似度計(jì)算與參數(shù)估計(jì)[J].情報(bào)雜志,2009,28(8):148-152.
[10]夏天.漢語詞語語義相似度計(jì)算研究[J].計(jì)算機(jī)工程,2007,33(6):191-193.