国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

健康領(lǐng)域異構(gòu)數(shù)據(jù)模式集成研究與實(shí)現(xiàn)

2018-11-19 10:59:00田燚林
軟件導(dǎo)刊 2018年11期
關(guān)鍵詞:嵌套數(shù)據(jù)源全局

田燚林,王 勇

(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

0 引言

健康數(shù)據(jù)呈現(xiàn)出很強(qiáng)的異構(gòu)性,其由很多結(jié)構(gòu)化數(shù)據(jù)與文檔數(shù)據(jù)組成。異構(gòu)數(shù)據(jù)模式集成是解決大規(guī)模數(shù)據(jù)共享問(wèn)題的一個(gè)較好方案,通過(guò)數(shù)據(jù)源集成平臺(tái)將結(jié)構(gòu)化數(shù)據(jù)、文檔數(shù)據(jù)等整合起來(lái),并提供統(tǒng)一的透明全局?jǐn)?shù)據(jù)集成視圖,使其像在單系統(tǒng)中一樣進(jìn)行實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)處理與信息交換,從而很好地解決了健康領(lǐng)域數(shù)據(jù)的“信息孤島”問(wèn)題,同時(shí)完成健康領(lǐng)域數(shù)據(jù)的統(tǒng)一查詢[1]。

模式集成一直以來(lái)都是研究的熱點(diǎn)與難點(diǎn),傳統(tǒng)研究工作主要集中在模式集成理論與關(guān)系模式集成方面。但是隨著越來(lái)越多非結(jié)構(gòu)化數(shù)據(jù)的不斷出現(xiàn),研究重點(diǎn)則轉(zhuǎn)移到異構(gòu)XML數(shù)據(jù)源的模式集成與沖突解決上。PORSCHE是一種混合模式集成算法[2],其可以用于集成XML模式樹(shù)。它采用模式增長(zhǎng)的方式解決多個(gè)數(shù)據(jù)源模式的集成工作,最終產(chǎn)生一個(gè)匯聚局部數(shù)據(jù)源所有概念的全局模式樹(shù)。當(dāng)局部數(shù)據(jù)源模式較為相似時(shí),PORSCHE可以產(chǎn)生很好的集成效果,但其不能較好地支持結(jié)構(gòu)沖突的解決,在生成的全局模式樹(shù)中存在著很多冗余關(guān)系。本文的模式集成算法很好地定義與檢測(cè)了XML模式集成中的關(guān)系嵌套沖突、關(guān)系方向沖突及實(shí)體屬性沖突,減輕了模式集成后的冗余,具有更好的模式集成質(zhì)量。

1 模式集成概述

在異構(gòu)數(shù)據(jù)源集成系統(tǒng)中,各局部數(shù)據(jù)源的數(shù)據(jù)模式是由不同用戶、基于不同應(yīng)用目的與數(shù)據(jù)結(jié)構(gòu)原型設(shè)計(jì)的,它們之間存在著各種差異及沖突。為了實(shí)現(xiàn)對(duì)集成系統(tǒng)透明的統(tǒng)一訪問(wèn),需要研究一種方法屏蔽或解決局部數(shù)據(jù)源模式的差異及沖突。集成系統(tǒng)是在保證各局部數(shù)據(jù)源自治性的基礎(chǔ)上,集成各局部數(shù)據(jù)源,提供統(tǒng)一訪問(wèn)接口,通常采用的辦法是在異構(gòu)數(shù)據(jù)源集成系統(tǒng)中構(gòu)造一個(gè)全局模式[3]。

全局模式的生成是一個(gè)模式集成過(guò)程。異構(gòu)數(shù)據(jù)源的局部模式之間存在著語(yǔ)義差異、結(jié)構(gòu)差異、表達(dá)格式差異、定義規(guī)范不一致等問(wèn)題。模式集成的首要任務(wù)即消除各局部模式間的差異,生成全局模式供全局查詢使用,同時(shí)建立信息映射機(jī)制,并建立模式映射相關(guān)文檔,以便統(tǒng)一查詢時(shí)的查詢分解[4]。

構(gòu)造全局模式的關(guān)鍵步驟是為異構(gòu)數(shù)據(jù)源建立統(tǒng)一的數(shù)據(jù)模式,通過(guò)模式轉(zhuǎn)換算法將異構(gòu)數(shù)據(jù)源模式統(tǒng)一到全局的公共數(shù)據(jù)模式上[5]。本文采用XML Schema作為全局模式的描述。因此,健康領(lǐng)域異構(gòu)數(shù)據(jù)的模式集成工作可以轉(zhuǎn)化為XML Schema的模式集成方法。

2 XML Schema模式集成問(wèn)題描述與研究現(xiàn)狀

語(yǔ)義與結(jié)構(gòu)沖突是模式集成領(lǐng)域的兩大挑戰(zhàn)[6]。當(dāng)不同數(shù)據(jù)源用不同元素名稱描述相同概念時(shí),或者當(dāng)不同數(shù)據(jù)源使用相同元素名稱描述不同概念時(shí),則會(huì)發(fā)生語(yǔ)義沖突。如圖1所示,模式樹(shù)(a)表示醫(yī)院信息管理系統(tǒng)(HIS)中的病人信息結(jié)構(gòu),模式樹(shù)(b)表示健康檔案管理系統(tǒng)中的病人信息結(jié)構(gòu)。同樣表示病人地址信息,在a模式中使用address名稱表示,在b模式中則使用location名稱表示。

圖1 病人信息兩種模式

當(dāng)不同數(shù)據(jù)源使用不同結(jié)構(gòu)表達(dá)相同關(guān)系時(shí),則會(huì)發(fā)生結(jié)構(gòu)沖突。常見(jiàn)的結(jié)構(gòu)沖突有如下3種形式:①圖2(a)表示關(guān)系嵌套沖突,是指相似概念間關(guān)系被直接表達(dá)與間接表達(dá)的沖突。當(dāng)相似概念之間表達(dá)相同關(guān)系,只是嵌套層次有所差異時(shí),則會(huì)發(fā)生這種沖突,體現(xiàn)在XML節(jié)點(diǎn)樹(shù)中即是路徑長(zhǎng)度差異;②圖2(b)表示關(guān)系方向沖突,是指相似概念之間關(guān)系在XML節(jié)點(diǎn)樹(shù)中的方向相反,但它們代表同一種關(guān)系;③圖2(c)表示實(shí)體屬性沖突[7],這種沖突是最常見(jiàn)的沖突,在不同數(shù)據(jù)源模式中,表示同一概念的設(shè)計(jì)方法不同,有的用屬性表達(dá),而有的用實(shí)體表達(dá)。

圖2 結(jié)構(gòu)沖突形式

3 XML Schema模式集成關(guān)鍵問(wèn)題解決

XML Schema模式集成分為3步,首先計(jì)算源模式之間的語(yǔ)義相似度與結(jié)構(gòu)相似度,解決語(yǔ)義沖突,產(chǎn)生候選匹配映射,其次檢測(cè)與解決候選匹配映射集中的結(jié)構(gòu)沖突,最后將未產(chǎn)生沖突的概念進(jìn)行集成,生成全局模式。

3.1 模式集成中的語(yǔ)義沖突解決

3.1.1 語(yǔ)義相似度計(jì)算

語(yǔ)義分析作為自然語(yǔ)言處理技術(shù)的一個(gè)重要方面,其所依賴的語(yǔ)言知識(shí)表示中最重要的初始環(huán)節(jié)即是語(yǔ)義詞典。美國(guó)Princeton大學(xué)的WordNet[8]是語(yǔ)義詞典一個(gè)非常好的范例。目前,WordNet已成為一個(gè)事實(shí)上的國(guó)際標(biāo)準(zhǔn),其框架的合理性已被詞匯語(yǔ)義學(xué)界與計(jì)算詞典學(xué)界所公認(rèn)。

WordNet 是一個(gè)在線詞匯參照系統(tǒng),其獨(dú)特之處在于其是依據(jù)詞義而不是詞形組織詞匯信息。WordNet使用同義詞集合(Synset)代表概念(Concept),詞匯關(guān)系在詞語(yǔ)之間體現(xiàn),語(yǔ)義關(guān)系在概念之間體現(xiàn)。WordNet 構(gòu)造的核心是如何表示詞匯概念節(jié)點(diǎn),以及在這些概念節(jié)點(diǎn)之間建立各種語(yǔ)義關(guān)系。WordNet 將英語(yǔ)詞匯組織為一個(gè)同義詞集合(Synset),每個(gè)集合表明一個(gè)詞匯概念,同時(shí)力圖在概念間建立不同指針,表達(dá)上下位、同義反義等不同語(yǔ)義關(guān)系。

用以下公式計(jì)算語(yǔ)義相似度:

(1)

首先將屬性標(biāo)簽進(jìn)行分詞,通過(guò)WordNet獲得各個(gè)分詞含義[9]。其中|Ci|表示概念Ci通過(guò)WordNet獲得的含義數(shù),SimSen(S1i,S2j)表示概念C1第i個(gè)含義與C2第j個(gè)含義之間的相似度。WordNet語(yǔ)義詞典將所有詞組織在樹(shù)狀的層次結(jié)構(gòu)中。在一棵樹(shù)形圖中,任何兩個(gè)節(jié)點(diǎn)之間有且只有一條路徑。這條路徑的長(zhǎng)度即可作為兩個(gè)概念語(yǔ)義距離的一種度量,可以利用 WordNet中詞節(jié)點(diǎn)之間上下位關(guān)系構(gòu)成的最短路徑計(jì)算詞語(yǔ)之間的相似度,距離越小,相似度越大。計(jì)算公式如下:

(2)

其中,PathLength代表將S1與S2聯(lián)系起來(lái)的路徑長(zhǎng)度。

3.1.2 結(jié)構(gòu)相似度計(jì)算

針對(duì)語(yǔ)義沖突中不同數(shù)據(jù)源用不同元素名稱描述相同概念的問(wèn)題,計(jì)算節(jié)點(diǎn)之間的語(yǔ)義相似度產(chǎn)生語(yǔ)義相似度矩陣,因而可以被很好地檢測(cè)出來(lái)。但是針對(duì)不同數(shù)據(jù)源使用相同元素名稱描述不同概念的問(wèn)題,則需要綜合考慮元素節(jié)點(diǎn)的結(jié)構(gòu)信息。

元素節(jié)點(diǎn)的結(jié)構(gòu)信息主要包括兩部分內(nèi)容:一是元素節(jié)點(diǎn)的屬性信息,表示為元素節(jié)點(diǎn)的葉子節(jié)點(diǎn);另一部分是元素節(jié)點(diǎn)的父節(jié)點(diǎn)或子節(jié)點(diǎn)信息[10],統(tǒng)稱為元素節(jié)點(diǎn)的上下文信息。假設(shè)A1代表源模式1中的一個(gè)元素節(jié)點(diǎn),A2代表源模式2中的一個(gè)元素節(jié)點(diǎn),則計(jì)算A1節(jié)點(diǎn)與A2節(jié)點(diǎn)之間的結(jié)構(gòu)相似度即可轉(zhuǎn)換為計(jì)算A1節(jié)點(diǎn)與A2節(jié)點(diǎn)的葉節(jié)點(diǎn)相似度及上下文節(jié)點(diǎn)相似度。

設(shè)A1節(jié)點(diǎn)的葉子節(jié)點(diǎn)集合為|leaves(A1)|,A2節(jié)點(diǎn)的葉子節(jié)點(diǎn)集合為|leaves(A2)|,以A1節(jié)點(diǎn)作為基準(zhǔn),計(jì)算A1節(jié)點(diǎn)與A2節(jié)點(diǎn)之間的葉節(jié)點(diǎn)相似度公式如下[11]:

(3)

|leaves(A1)|代表A1節(jié)點(diǎn)的葉子節(jié)點(diǎn)個(gè)數(shù),分子代表A1節(jié)點(diǎn)的葉子節(jié)點(diǎn)中與A2節(jié)點(diǎn)的葉子節(jié)點(diǎn)中語(yǔ)義相似度超過(guò)設(shè)定閾值的個(gè)數(shù)。取A1節(jié)點(diǎn)中的一個(gè)葉子節(jié)點(diǎn),對(duì)A2節(jié)點(diǎn)的葉子節(jié)點(diǎn)進(jìn)行遍歷,如果A2節(jié)點(diǎn)的葉子節(jié)點(diǎn)中存在與A1節(jié)點(diǎn)中該葉子節(jié)點(diǎn)的語(yǔ)義相似度大于設(shè)定閾值的情況,則保留該節(jié)點(diǎn)作為分子。

A1節(jié)點(diǎn)與A2節(jié)點(diǎn)之間的上下文節(jié)點(diǎn)相似度使用以下公式進(jìn)行計(jì)算:

(4)

與葉節(jié)點(diǎn)的相似度計(jì)算類似,|ContextA1|代表A1節(jié)點(diǎn)的父節(jié)點(diǎn)與子節(jié)點(diǎn)個(gè)數(shù),|{A1i|A1i∈ContextA1^?A2j∈ContextA2,lingSim(A1i,A2,i)≥threshold}|代表A1與A2節(jié)點(diǎn)上下文節(jié)點(diǎn)集合中語(yǔ)義相似度超過(guò)設(shè)定閾值的個(gè)數(shù)。

在語(yǔ)義相似度計(jì)算得出映射的基礎(chǔ)上,再進(jìn)行計(jì)算得出映射的節(jié)點(diǎn)結(jié)構(gòu)相似度。如果結(jié)構(gòu)相似度也大于閾值,則宣布兩個(gè)節(jié)點(diǎn)之間存在映射關(guān)系。

3.2 模式集成中的結(jié)構(gòu)沖突解決

上述部分描述了模式集成中存在的3種結(jié)構(gòu)沖突,針對(duì)不同結(jié)構(gòu)沖突設(shè)計(jì)了不同檢測(cè)方法,結(jié)構(gòu)沖突的檢測(cè)基于上文生成的候選匹配集。

3.2.1 關(guān)系嵌套沖突

在XML模式轉(zhuǎn)換成的樹(shù)結(jié)構(gòu)中,當(dāng)相似概念之間的關(guān)系采用不同路徑長(zhǎng)度或不同嵌套結(jié)構(gòu)進(jìn)行表達(dá)時(shí),它們之間則會(huì)存在結(jié)構(gòu)嵌套沖突[12]。如圖2(a)所示,medical_record//doctor和medical_record//department//doctor都表示病歷與醫(yī)生之間的關(guān)系,只是路徑長(zhǎng)度不同。因此,結(jié)構(gòu)嵌套沖突可以采用如下數(shù)學(xué)公式進(jìn)行檢測(cè):

len(x1//y1)≤maxlen

len(x2//y2)≤maxlen

|len(x1//y1)-len(x2//y2)|≤maxdis

(5)

x1、y1代表數(shù)據(jù)源1中的兩個(gè)節(jié)點(diǎn),x2、y2代表數(shù)據(jù)源2中的兩個(gè)節(jié)點(diǎn)。(x1,x2)(y1,y2)是上文生成的候選匹配映射。len(x1//y1)代表x1節(jié)點(diǎn)到y(tǒng)1節(jié)點(diǎn)的路徑長(zhǎng)度,由于關(guān)系型數(shù)據(jù)庫(kù)中的1∶1和1∶n關(guān)系都為直接關(guān)聯(lián),而m∶n關(guān)系一般會(huì)用1∶n與m∶1進(jìn)行描述。關(guān)系模式轉(zhuǎn)換到XML模式后,會(huì)以嵌套結(jié)構(gòu)表示關(guān)系。因此,關(guān)系嵌套沖突只考慮嵌套層次相差一層的情況,即路徑長(zhǎng)度相差不超過(guò)1。因此,maxlen取值為2,maxdis取值為1。針對(duì)關(guān)系嵌套沖突,在合并為全局模式時(shí),只取路徑長(zhǎng)度大的關(guān)系即可。

3.2.2 關(guān)系方向沖突

當(dāng)相似概念之間的關(guān)系在XML模式樹(shù)中展示為不同路徑方向時(shí),它們之間則存在關(guān)系方向沖突。如圖2(b)所示,medical_record//doctor和doctor//medical_record都代表病歷與醫(yī)生之間的關(guān)系,只是路徑方向不同。關(guān)系方向沖突可以采用以下數(shù)學(xué)公式進(jìn)行檢測(cè):

len(x1//y1)≤maxlen

len(y2//x2)≤maxlen

|len(x1//y1)-len(y2//x2)|≤maxdis

(6)

x1、y1代表數(shù)據(jù)源1中的兩個(gè)節(jié)點(diǎn),x2、y2代表數(shù)據(jù)源2中的兩個(gè)節(jié)點(diǎn)。(x1,x2)(y1,y2)是上文生成的候選匹配映射。len(x1//y1)代表x1節(jié)點(diǎn)到y(tǒng)1節(jié)點(diǎn)的路徑長(zhǎng)度。與結(jié)構(gòu)嵌套沖突類似,maxlen取值為2,maxdis取值為1。針對(duì)關(guān)系方向沖突,在合并全局模式時(shí),任取一個(gè)關(guān)系并入即可。

3.2.3 實(shí)體屬性沖突

當(dāng)相同概念在一個(gè)數(shù)據(jù)源中被表示為屬性,在另一個(gè)數(shù)據(jù)源中被表示為實(shí)體jf ,則會(huì)存在實(shí)體屬性沖突[13]。如圖2(c)所示,location與adress都表示地址信息。針對(duì)實(shí)體屬性沖突的檢測(cè)規(guī)則如下:(x1,x2)為候選匹配映射,x1為葉子節(jié)點(diǎn),x2為非葉子節(jié)點(diǎn),同時(shí)x2節(jié)點(diǎn)到x2葉子節(jié)點(diǎn)的長(zhǎng)度為1。針對(duì)實(shí)體屬性沖突,在生成全局模式時(shí),將x1節(jié)點(diǎn)并入x2節(jié)點(diǎn)即可。

3.3 模式集成算法描述

(1)將各個(gè)局部數(shù)據(jù)源模式進(jìn)行模式抽取與轉(zhuǎn)換,生成各個(gè)局部的XML Schema文件。

(2)對(duì)各局部的XML Schema文件進(jìn)行模式編碼,轉(zhuǎn)換成模式樹(shù)結(jié)構(gòu)。

(3)對(duì)各個(gè)局部的XML Schema模式樹(shù)進(jìn)行語(yǔ)義相似度與結(jié)構(gòu)相似度計(jì)算,生成節(jié)點(diǎn)之間的候選匹配映射。

(4)針對(duì)生成的候選匹配映射集進(jìn)行結(jié)構(gòu)沖突檢測(cè),并解決結(jié)構(gòu)沖突。

(5)將不產(chǎn)生沖突的節(jié)點(diǎn)并入全局模式樹(shù)中,生成全局XML Schema文件。

模式集成流程如圖3所示。

圖3 模式集成流程

4 實(shí)驗(yàn)結(jié)果

4.1 評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于全局模式集成的有效性評(píng)估中,分別使用準(zhǔn)確率 (Precision)、 召回率 (Recall) 與 F 值 (F-measure) 表示模式集成算法的正確程度、完善程度與權(quán)衡結(jié)果[14],計(jì)算公式如下:

準(zhǔn)確率:表示在模式集成中自動(dòng)匹配的正確匹配占總自動(dòng)匹配結(jié)果的比例。

(7)

召回率:表示在模式集成中自動(dòng)匹配的正確匹配占應(yīng)有正確匹配的比例。

(8)

F值:表示模式集成結(jié)果中錯(cuò)誤匹配與丟失正確匹配的比值,可較為客觀、全面地評(píng)價(jià)最后的匹配質(zhì)量。

(9)

4.2 實(shí)驗(yàn)結(jié)果與分析

本文算法主要針對(duì)健康領(lǐng)域異構(gòu)數(shù)據(jù)的模式集成,因此選取HL7官方提供的5個(gè)健康領(lǐng)域的XML Schemal作為實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行模式集成,實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 模式集成匹配質(zhì)量

由圖4可以看出,當(dāng)語(yǔ)義相似度閾值設(shè)為0.9時(shí),本算法具有較高的準(zhǔn)確率、召回率與F值。因?yàn)榻】殿I(lǐng)域數(shù)據(jù)具有較高相似度,因此相似度閾值設(shè)定得越高,算法集成質(zhì)量越高。

取閾值為0.9時(shí),比較本文算法與PORSCHE算法結(jié)果如圖5所示。

圖5 模式集成算法比較

從上述實(shí)驗(yàn)結(jié)果可以看出,對(duì)于健康領(lǐng)域的異構(gòu)數(shù)據(jù),將本算法與PORSCHE算法進(jìn)行模式集成都有著較高質(zhì)量,但是PORSCHE算法無(wú)法解決關(guān)系方向型的結(jié)構(gòu)沖突,因此生成的集成模式較為冗余。本文算法對(duì)模式集成中的結(jié)構(gòu)沖突重新作了檢測(cè),能較好地解決關(guān)系方向沖突問(wèn)題,對(duì)于集成后的全局視圖,可以減少冗余。

5 結(jié)語(yǔ)

本文研究了XML模式集成中的相關(guān)理論與算法,借鑒PORSCHE算法的模式集成思路,設(shè)計(jì)了新的結(jié)構(gòu)沖突檢測(cè)及解決方法,重點(diǎn)解決了PORSCHE算法沒(méi)有解決的關(guān)系反向型結(jié)構(gòu)沖突。經(jīng)過(guò)試驗(yàn)證明,本算法完成的XML模式集成能夠很好地解決結(jié)構(gòu)沖突問(wèn)題,減少了全局模式中的冗余關(guān)系,精簡(jiǎn)了全局模式,同時(shí)利用WordNet計(jì)算語(yǔ)義相似度,從而提升了模式集成后自動(dòng)生成的匹配準(zhǔn)確度,為健康領(lǐng)域數(shù)據(jù)的統(tǒng)一查詢工作打下了良好基礎(chǔ)。

猜你喜歡
嵌套數(shù)據(jù)源全局
例析“立幾”與“解幾”的嵌套問(wèn)題
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
基于嵌套Logit模型的競(jìng)爭(zhēng)性選址問(wèn)題研究
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
新思路:牽一發(fā)動(dòng)全局
一種基于區(qū)分服務(wù)的嵌套隊(duì)列調(diào)度算法
温州市| 建湖县| 闵行区| 余干县| 福州市| 吉安县| 东城区| 宣恩县| 沙雅县| 定边县| 眉山市| 句容市| 青海省| 江门市| 石林| 黑河市| 阳山县| 宣汉县| 大关县| 梁河县| 米易县| 海晏县| 石柱| 灵武市| 西安市| 来宾市| 望奎县| 仲巴县| 蕉岭县| 民丰县| 景德镇市| 金寨县| 九龙县| 根河市| 清新县| 阿瓦提县| 灌阳县| 曲水县| 泸州市| 徐闻县| 石台县|