国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用實(shí)例的異構(gòu)網(wǎng)絡(luò)服務(wù)模式匹配方法

2015-03-22 00:53:22王新云郭藝歌
關(guān)鍵詞:子樹模式匹配查全率

何 杰, 王新云, 郭藝歌

(1.寧夏大學(xué) 資源環(huán)境學(xué)院, 銀川 750021; 2.寧夏大學(xué) 西北土地退化與生態(tài)恢復(fù)教育部重點(diǎn)實(shí)驗(yàn)室, 銀川 750021)

?

何 杰1*, 王新云2, 郭藝歌2

(1.寧夏大學(xué) 資源環(huán)境學(xué)院, 銀川 750021; 2.寧夏大學(xué) 西北土地退化與生態(tài)恢復(fù)教育部重點(diǎn)實(shí)驗(yàn)室, 銀川 750021)

提出了一種利用實(shí)例的模式匹配方法,在對(duì)網(wǎng)絡(luò)服務(wù)模式元素標(biāo)簽及模式結(jié)構(gòu)匹配基礎(chǔ)上,通過對(duì)網(wǎng)絡(luò)服務(wù)實(shí)例數(shù)據(jù)的精確匹配來(lái)確定模式元素間對(duì)應(yīng)關(guān)系,解決了多版本異構(gòu)網(wǎng)絡(luò)服務(wù)模式間由于結(jié)構(gòu)和語(yǔ)義差異造成的映射丟失問題.最后,以Geoserver不同版本網(wǎng)絡(luò)要素服務(wù)(WFS)和網(wǎng)絡(luò)覆蓋服務(wù)(WCS)匹配試驗(yàn)驗(yàn)證了方法的有效性.

模式匹配; 實(shí)例; 多版本; 網(wǎng)絡(luò)要素服務(wù); 網(wǎng)絡(luò)覆蓋服務(wù)

模式匹配[1-5]是異構(gòu)的網(wǎng)絡(luò)服務(wù)集成的一個(gè)關(guān)鍵步驟.當(dāng)前,不管是語(yǔ)法模式匹配方法還是語(yǔ)義(本體)匹配方法,大致可以分為基于元數(shù)據(jù)、基于實(shí)例及基于元數(shù)據(jù)和實(shí)例混合的形式.基于元數(shù)據(jù)的模式匹配算法[2-4,6-7]通常從概念名稱、概念的描述或定義及結(jié)構(gòu)上作匹配,但多版本異構(gòu)的網(wǎng)絡(luò)服務(wù)模式,如多版本網(wǎng)絡(luò)要素服務(wù)(WFS)[8]、網(wǎng)絡(luò)覆蓋服務(wù)(WCS)[9]、傳感器觀測(cè)服務(wù)(SOS)[10]模式等,由于基于的信息模型的差異造成了模式結(jié)構(gòu)和元素語(yǔ)義上的差異,同時(shí)由于不同領(lǐng)域的概念定義和組織不同,往往很難確定來(lái)自不同領(lǐng)域不同描述的概念間關(guān)系,如,SOS中的ObservationOfferings與WFS中的FeatureMembers間的語(yǔ)義關(guān)系就很難確定.基于實(shí)例的模式匹配方法主要通過元素的實(shí)例值間的匹配來(lái)確定元素間關(guān)聯(lián)關(guān)系,如Wang Jiying等[11]人提出的基于實(shí)例的模式匹配方法來(lái)解決網(wǎng)絡(luò)數(shù)據(jù)庫(kù)站點(diǎn)內(nèi)及站點(diǎn)間的數(shù)據(jù)模式匹配問題,且利用交叉驗(yàn)證技術(shù)來(lái)提高匹配精度,該方法不足之處在于樣本實(shí)例的選擇對(duì)匹配性能影響大.為了確定主、客GIS數(shù)據(jù)庫(kù)中的共同體,王育紅、陳軍提出了一種改進(jìn)的基于實(shí)例的層次式模式匹配方法[5]來(lái)實(shí)現(xiàn)實(shí)體對(duì)應(yīng)關(guān)系的自動(dòng)建立和要素類相似值計(jì)算.但文獻(xiàn)[5]針對(duì)的是GIS數(shù)據(jù)庫(kù)實(shí)例,其結(jié)構(gòu)和組織與本文的網(wǎng)絡(luò)服務(wù)實(shí)例不同.在AnHai Doan等[12]提出的一種基于機(jī)器學(xué)習(xí)的本體匹配方法應(yīng)用分類的實(shí)例來(lái)計(jì)算概念的聯(lián)合概率分布,再通過相似函數(shù)把概率分布轉(zhuǎn)化為概念相似值.該方法要求實(shí)例在語(yǔ)法上相同,否則匹配質(zhì)量差,此外,如果缺少實(shí)例則很難確定概念間的映射關(guān)系.A.Bilke等[13]設(shè)計(jì)了一種高效的基于實(shí)例的模式匹配方法,該方法的突出特點(diǎn)是不依賴于任何模式的屬性名字,能識(shí)別出語(yǔ)義上不同語(yǔ)法上相似的屬性,但該方法匹配結(jié)果依賴實(shí)例數(shù)據(jù)中的副本數(shù),如果沒有副本則算法無(wú)法工作.

為了克服異構(gòu)網(wǎng)絡(luò)服務(wù)模式結(jié)構(gòu)和元素語(yǔ)義差異造成的映射丟失問題,本文提出一種以元數(shù)據(jù)匹配器為主導(dǎo),以實(shí)例匹配器為輔助的模式匹配方法.首先通過對(duì)異構(gòu)網(wǎng)絡(luò)服務(wù)模式利用元數(shù)據(jù)匹配器生成初步匹配結(jié)果,然后,在初次匹配結(jié)果基礎(chǔ)上應(yīng)用實(shí)例匹配器計(jì)算出元素間的實(shí)例相似值來(lái)精煉初次匹配結(jié)果,從而最大限度發(fā)現(xiàn)映射,改善匹配精度.

1 系統(tǒng)體系結(jié)構(gòu)

異質(zhì)的網(wǎng)絡(luò)服務(wù)模式,如,WFS、WCS、SOS,基于的信息模型不同,模式無(wú)論從結(jié)構(gòu)和內(nèi)容比較都有很大差異,這些差異主要表現(xiàn)在如下幾個(gè)方面:①結(jié)構(gòu)差異.包括類級(jí)別差異和屬性級(jí)別差異.類級(jí)別差異表現(xiàn)為模式新增某類或刪除某類,或者類本身的命名發(fā)生了變化、類的屬性變化、類的繼承變化等.屬性級(jí)差異主要表現(xiàn)為命名變化、修改、引用變化、約束條件發(fā)生改變等.②內(nèi)容差異.結(jié)構(gòu)上的差異帶來(lái)了內(nèi)容上的巨大變化,如類或?qū)傩缘脑?、刪、改帶來(lái)的相應(yīng)實(shí)例值的變化.③實(shí)例值差異.主要表現(xiàn)在:i)空間實(shí)例數(shù)據(jù)的時(shí)間差異,如WCS服務(wù)實(shí)例中,同空間范圍不同時(shí)段的地物覆蓋可能不同;ii)空間實(shí)例數(shù)據(jù)的屬性差異,如相同幾何形狀的空間實(shí)例可能由于屬性差異表達(dá)的是不同地物類;iii)空間參考差異.數(shù)據(jù)值相等的空間屬性值,由于其采用的參考系不同導(dǎo)致實(shí)例值不同.

圖1 系統(tǒng)體系結(jié)構(gòu)Fig.1 Architecture of the schema matching system

針對(duì)異構(gòu)網(wǎng)絡(luò)服務(wù)模式這些差異,設(shè)計(jì)的模式匹配算法既要能解決結(jié)構(gòu)與內(nèi)容差異引起的映射丟失,同時(shí)能顧及實(shí)例值本身差異,為此,設(shè)計(jì)了一種的元數(shù)據(jù)與實(shí)例組合的模式匹配方法,系統(tǒng)充分利用現(xiàn)有的元數(shù)據(jù)匹配器-COMA[14]的匹配能力,同時(shí)設(shè)計(jì)適合空間領(lǐng)域特征的實(shí)例匹配器來(lái)輔助提高匹配質(zhì)量.圖1是系統(tǒng)總體結(jié)構(gòu)圖.系統(tǒng)包括4個(gè)核心的部件,即模式解析、模式分割、匹配執(zhí)行及相似值組合部件.模式解析部件主要實(shí)現(xiàn)對(duì)輸入的網(wǎng)絡(luò)服務(wù)模式進(jìn)行解析,并表示成匹配要求的模式樹結(jié)構(gòu)形式,同時(shí)提取模式樹中對(duì)應(yīng)元素的實(shí)例值.模式分割部件則為了提高模式匹配性能及減少誤匹配率,把匹配的模式樹進(jìn)行合理分割,并找出其中候選相似子樹.匹配執(zhí)行部件則根據(jù)從匹配器庫(kù)中選擇的匹配器執(zhí)行匹配工作,生成對(duì)應(yīng)的相似值矩陣.相似值組合部件對(duì)相似矩陣中的相似值按照一種組合方法形成對(duì)應(yīng)元素的組合相似值,最后映射選擇器根據(jù)設(shè)定的相似值閾值或者根據(jù)信息管理庫(kù)中的參考映射生成候選映射,候選映射經(jīng)過驗(yàn)證器驗(yàn)證后輸出最終匹配結(jié)果.相似值組合的結(jié)果如果不能滿足用戶要求則繼續(xù)返回到匹配執(zhí)行階段執(zhí)行新的匹配迭代過程,同時(shí)在匹配執(zhí)行時(shí)靈活選擇不同匹配器組合,并把最優(yōu)匹配組合保存到信息管理庫(kù)中.模型管理器主要管理不同輸入格式(XML,XSD,OWL等)的網(wǎng)絡(luò)服務(wù)模式在匹配系統(tǒng)中的表示方式(樹/圖),實(shí)現(xiàn)對(duì)模型的更新和選擇功能.信息管理庫(kù)是系統(tǒng)不可缺少的輔助部件,主要用來(lái)保存匹配系統(tǒng)各階段的中間結(jié)果,同時(shí)為匹配各階段提供有用的參考信息,如以前的匹配結(jié)果,參考相似片段,參考映射信息,不同匹配器組合信息等.

2 系統(tǒng)實(shí)現(xiàn)

2.1 模式解析

圖2 WCS部分XML實(shí)例在系統(tǒng)內(nèi)部統(tǒng)一表示Fig.2 The internal schema representation of WCS XML instance

模式解析主要目的是用一種內(nèi)部模式表示方法對(duì)輸入的模式文件進(jìn)行表示.對(duì)每個(gè)讀取的實(shí)例數(shù)據(jù),用一個(gè)五元組表示,即Element=(ID,Name,Type,Instance,Patterns),ID表示元素在模式樹中的位置,用3位數(shù)字表示,第1位數(shù)字表示節(jié)點(diǎn)的父親節(jié)點(diǎn)在樹中層數(shù),根節(jié)點(diǎn)的父親節(jié)點(diǎn)層數(shù)為0;第2位表示元素父親節(jié)點(diǎn)在該層的編號(hào),對(duì)于根節(jié)點(diǎn),其值為0;第3位數(shù)字表示元素在子樹中的編號(hào),根節(jié)點(diǎn)為1,如ID=”114”,表示是第1層第1個(gè)節(jié)點(diǎn)的第4個(gè)子節(jié)點(diǎn).Name為實(shí)例數(shù)據(jù)對(duì)應(yīng)的屬性元素的標(biāo)簽.Type表示實(shí)例數(shù)據(jù)類型.Instance為屬性元素對(duì)應(yīng)的實(shí)例數(shù)據(jù)值.Patterns為實(shí)例值的規(guī)則表達(dá)式.為了實(shí)例值識(shí)別比較方便,為不同實(shí)例值設(shè)計(jì)不同規(guī)則表達(dá)式,如字符串實(shí)例中的郵箱規(guī)則表達(dá)式用*@*.*,網(wǎng)址用http://*.*,日期值表示為[d-]{4}-[d-]{2}-[d-]{2},時(shí)間表示為 [d-]{2}[d-]{2}:[d-]{2}.對(duì)于一般的數(shù)字值,用[d-]{n}.[d-]{m}表示,即由n個(gè)整數(shù)數(shù)字及小數(shù)點(diǎn)后的m個(gè)數(shù)字組成.對(duì)于一般字符串,表達(dá)式A.*表示字符A開頭的任意字符或數(shù)字,A[w-]{n}表示A開頭的n個(gè)字符或數(shù)字,其中,”*”、w表示任意字符或數(shù)字,”d”表示任何數(shù)字.圖2顯示的是WCS模式實(shí)例部分片段實(shí)例元素表示圖.

2.2 模式分割

模式分割基于模式表示圖(模式樹)進(jìn)行,分割步驟包括:模式樹分割和相似子樹識(shí)別.

2.2.1模式樹分割 根據(jù)樹節(jié)點(diǎn)的度的大小來(lái)對(duì)樹進(jìn)行分割,分割步驟為:首先按照廣度優(yōu)先方法對(duì)樹進(jìn)行遍歷,并計(jì)算每個(gè)節(jié)點(diǎn)的出度和入度,入度為0節(jié)點(diǎn)為根節(jié)點(diǎn),出度為0節(jié)點(diǎn)為葉子節(jié)點(diǎn),出入度都為0節(jié)點(diǎn)為孤節(jié)點(diǎn);然后對(duì)樹進(jìn)行分割,即從根節(jié)點(diǎn)開始,把根節(jié)點(diǎn)出度置0,根節(jié)點(diǎn)所有直接子節(jié)點(diǎn)的入度減1;最后確定分割后子樹,即統(tǒng)計(jì)所有入度為0節(jié)點(diǎn),每個(gè)入度為0節(jié)點(diǎn)及其子節(jié)點(diǎn)組成一棵新的子樹.圖3顯示的是圖2模式樹一次分割后結(jié)果.圖中每個(gè)節(jié)點(diǎn)用其ID號(hào)表示,節(jié)點(diǎn)旁標(biāo)注的是節(jié)點(diǎn)度的大小,左邊表示入度值,右邊為出度值.

圖3 圖2模式樹一次分割結(jié)果Fig.3 Results of the first partition on schema tree in Fig.2

2.2.2相似子樹識(shí)別 只有相似子樹中的對(duì)應(yīng)元素將可能是匹配的候選映射,所以匹配執(zhí)行前,先識(shí)別所有相似子樹,再對(duì)這些子樹進(jìn)行匹配.當(dāng)前子樹識(shí)別方法大多都是根據(jù)子樹節(jié)點(diǎn)命名和結(jié)構(gòu)的綜合相似值來(lái)判斷[15],由于在文獻(xiàn)[15]中的名稱相似值算法使用的是基于編輯距離的語(yǔ)法方法,考慮到命名的語(yǔ)義異質(zhì)性,如同名異義,對(duì)這些具有相同名稱不同意義的標(biāo)簽,如果使用語(yǔ)法方法將會(huì)得到錯(cuò)誤的匹配結(jié)果,所以,名稱相似值采用利用語(yǔ)義的匹配方法[16].子樹相似值計(jì)算公式定義如下:

sim(s,t)=α×simnss(s,t)+ (1-α)×simst(s,t),

其中,sim(s,t)為源子樹s和目的子樹t的組合相似值.simnss(s,t)為兩個(gè)子樹的根節(jié)點(diǎn)語(yǔ)義相似值,simst(s,t)為兩個(gè)子樹的結(jié)構(gòu)相似值,α為權(quán)重,0<α<1,同時(shí)α值大小可根據(jù)實(shí)際匹配任務(wù)進(jìn)行調(diào)節(jié).通常名稱相似值權(quán)重比結(jié)構(gòu)相似值權(quán)重高,本文中,α取值0.6.

2.3 匹配執(zhí)行

模式匹配的執(zhí)行基于所有相似子樹對(duì).對(duì)于所有的相似子樹,們運(yùn)用兩種匹配系統(tǒng)進(jìn)行組合匹配,即首先應(yīng)用元數(shù)據(jù)匹配方法來(lái)計(jì)算模式樹節(jié)點(diǎn)間的節(jié)點(diǎn)語(yǔ)義相似值,接著應(yīng)用本文設(shè)計(jì)的實(shí)例匹配器來(lái)計(jì)算節(jié)點(diǎn)間的實(shí)例數(shù)據(jù)相似值,最后對(duì)兩種相似值取平均值作為節(jié)點(diǎn)間的最終組合相似值,而對(duì)于沒有實(shí)例值的節(jié)點(diǎn),其實(shí)例相似值為0,所以節(jié)點(diǎn)語(yǔ)義相似值即為其組合相似值.下面將詳細(xì)介紹實(shí)例匹配器實(shí)現(xiàn).

2.3.1 實(shí)例相似值定義 空間信息網(wǎng)絡(luò)服務(wù)實(shí)例數(shù)據(jù)分為3種類型:字符型,數(shù)值型及混合型.字符型實(shí)例值可分為單字串符和多字串符,單字符串值如元素名稱(Name=”groveMontain”)值,標(biāo)識(shí)(ID=”001”)值等,多字符串值如元素屬性描述(description=”NOAA15AdvancedMicrowaveSoundingUnit-AFootprintData”)值等.字符型實(shí)例相似值計(jì)算定義如下.

定義1(字符實(shí)例相似值)設(shè)有源字符串Α=(α1,α2,α3,…,αn),目的字符串B=(β1,β2,β3,…,βm),其中α1,α2,α3,…,αn,β1,β2,β3,…,βm為字符串Α、B的原子字符串(原字符串根據(jù)其中的停止詞,如空格、分號(hào)等分成的子字符串,同時(shí)去掉其中冠詞、介詞等),則字符串Α、B的內(nèi)積為:

(1)

其中,simedit(αi,βj)表示任意兩個(gè)單字符串根據(jù)編輯距離計(jì)算的相似值.有了內(nèi)積,們就能導(dǎo)出字符串的范數(shù)和原始字符串相似值定義.

定義2(字符串范數(shù)和相似值)設(shè)有字符串Α,其范數(shù)定義如下:

(2)

則兩個(gè)原始字符串Α、B間的相似值定義如下:

(3)

數(shù)值型實(shí)例也分為單數(shù)值和多數(shù)值型.單數(shù)值型就一個(gè)實(shí)例數(shù)值,如觀測(cè)數(shù)據(jù)分辨率值(Resolution=”0.0001”),多數(shù)值型如觀測(cè)數(shù)據(jù)的范圍值(lowerCorner=”-90.0-180.0”).對(duì)于單數(shù)值實(shí)例相似值們直接用一個(gè)數(shù)值比較函數(shù)計(jì)算,如公式(4)所示.當(dāng)兩個(gè)數(shù)值相等時(shí)相似值為1,其它情況為0.

(4)

空間信息領(lǐng)域數(shù)值型比較必須是同屬性數(shù)據(jù),且具有相同的坐標(biāo)參考、相同尺度及單位相同.所以對(duì)數(shù)值型數(shù)據(jù)比較前先判斷數(shù)據(jù)是否滿足上述條件,否則要進(jìn)行相應(yīng)轉(zhuǎn)換,如坐標(biāo)系統(tǒng)轉(zhuǎn)換等,對(duì)于屬性不同數(shù)據(jù)則不能用上述公式計(jì)算.對(duì)于多值型實(shí)例比較時(shí),首先確定每個(gè)單值代表的屬性及其在數(shù)值集中位置,然后確定其要比較的目的數(shù)值,為了計(jì)算方便,同時(shí)保證目的數(shù)值在數(shù)值集中位置與源單值相同,具體計(jì)算定義如下.

(5)

最終相似值取所有單值相似值和的平均值.

混合型實(shí)例中則既有字符又有數(shù)值,如天氣觀測(cè)數(shù)據(jù)中的觀測(cè)值中既有時(shí)間字符值又包含有溫度、壓力、風(fēng)速及風(fēng)向等數(shù)值,如圖4所示.此時(shí),在計(jì)算實(shí)例相似值時(shí),則首先根據(jù)實(shí)例元素的文本塊(TextBlock)模式來(lái)確定每個(gè)子實(shí)例,根據(jù)元素類型字段確定每個(gè)子實(shí)例結(jié)構(gòu)組成.從圖4中文本塊模式知道每個(gè)子實(shí)例數(shù)據(jù)都是由空格分割,從DataRecord的字段值知道每個(gè)實(shí)例值都是由時(shí)間(time)、溫度(temperature)、壓強(qiáng)(pressure)、風(fēng)速(windSpeed)及風(fēng)向(windDirection)組成.接著根據(jù)分割符(tokenSeparator=”,”)可以取得每個(gè)子實(shí)例對(duì)應(yīng)的屬性字段值,即組成天氣觀測(cè)的5個(gè)值.知道這些實(shí)例值及類型后,就可以用公式(3)、(5)對(duì)不同類型實(shí)例相似值進(jìn)行計(jì)算,然后把這些子實(shí)例值的平均值作為混合型實(shí)例值的最終相似值,公式定義如下.

定義4(混合型實(shí)例相似值)設(shè)有混合型實(shí)例值H=(Hstr,Hdig),F=(Fstr,Fdig),其中,Hstr,Fstr,Hdig,Fdig分別為混合實(shí)例值的字符值部分及數(shù)字值部分,則實(shí)例H、F的相似值為:

sim(Hdig,Fdig)).

(6)

圖4 部分實(shí)例片段Fig.4 Parts of instance fragment

2.3.2 實(shí)例匹配 實(shí)例匹配前先對(duì)實(shí)例進(jìn)行預(yù)匹配.預(yù)匹配主要是計(jì)算兩個(gè)候選實(shí)例對(duì)相似值,即兩個(gè)元素標(biāo)簽的語(yǔ)義相似值與實(shí)例正則表達(dá)式相似值的組合值,當(dāng)組合值大于設(shè)計(jì)的門限值(本文設(shè)定為0.6)即認(rèn)為兩個(gè)元素實(shí)例相似.計(jì)算公式定義如下.

定義5(候選實(shí)例相似值)設(shè)有源實(shí)例元素Es=(id1,label1,ss1,exp1,flag1),目的實(shí)例元素Et=(id2,label2,ss2,exp2,flag2),其候選實(shí)例相似值定義為:

sim(Es,Et)=α×sim(label1,label2)+ (1-α)×sim(exp1,exp2),

(7)

其中,sim(label1,label2)表示兩個(gè)實(shí)例元素節(jié)點(diǎn)語(yǔ)義相似值.sim(exp1,exp2)表示的是實(shí)例正則表達(dá)式相似值.在計(jì)算正則表達(dá)式值時(shí),先判斷元素的實(shí)例類型是否相同,即判斷Flag值是否相同,如不同,則表達(dá)式相似值為0,否則根據(jù)公式計(jì)算表達(dá)式相似值.由于表示不同語(yǔ)義的標(biāo)簽,實(shí)例值可能相同,所以在選擇候選實(shí)例相似對(duì)時(shí),把兩個(gè)元素標(biāo)簽在語(yǔ)義上的相似性作為關(guān)鍵因素,所以公式(7)中的α取值為0.7.如,WFS兩種版本服務(wù)實(shí)例元素Es=(“104”,FeatureCollection.featureMember.states.fid”,”states.3”,”s[w-]{8}”,1),Et=(“204”,” FeatureCollection.featureMembers.states.id”,”states.3”,”s[w-]{8}”,1),節(jié)點(diǎn)的語(yǔ)義相似值為0.67,通過編輯距離計(jì)算得到正則表達(dá)式相似值為1.0,所以根據(jù)公式(7)得到候選實(shí)例相似值sim(Es,Et)=0.7*0.67+1.0*0.3=0.79.超過門限值0.6,所以Es,Et為候選實(shí)例對(duì).

確定候選實(shí)例對(duì),就可以對(duì)實(shí)例對(duì)進(jìn)行實(shí)例匹配了.圖5是候選實(shí)例對(duì)匹配流程,匹配器輸入的候選實(shí)例對(duì),輸出的是候選實(shí)例對(duì)的相似值.對(duì)每個(gè)輸出實(shí)例相似值,用一個(gè)三元組表示,即Mapping=(id1,id2,siminstance),其中id1,id2為對(duì)應(yīng)實(shí)例的標(biāo)簽ID號(hào),siminstance則是兩個(gè)實(shí)例間相似值(大小在0到1之間).具體算法描述如下.

560 Comparison of efficacy and safety between wearing orthokeratology contact lens and frame glasses in control of child myopia

圖5 候選實(shí)例對(duì)匹配流程圖Fig.5 Process of the candidate instance pairs matching

算法:實(shí)例匹配算法.

輸入:相似候選實(shí)例對(duì)(Es,Et).

輸出:實(shí)例間映射Mappings.

instanceMatching(Es,Et).

Step 1: 從模式管理器中選擇未匹配實(shí)例對(duì)(esi,etj);

Step2: 判斷實(shí)例類型,如果是字符類型,使用公式(3)計(jì)算實(shí)例間的字符相似值;如果是數(shù)值型,則使用公式(5)計(jì)算實(shí)例間的數(shù)值相似值;如果是混合類型,則首先根據(jù)實(shí)例元素的文本塊(TextBlock)模式及模式的字段類型來(lái)確定實(shí)例數(shù)據(jù)集中每個(gè)實(shí)例值的結(jié)構(gòu)組成,然后分離出其中的字符實(shí)例及數(shù)值實(shí)例,再利用公式(6)計(jì)算混合型實(shí)例相似值;

Step3: 匹配中間結(jié)果處理.即把匹配的中間結(jié)果保存到信息管理庫(kù),同時(shí)對(duì)庫(kù)中以前的中間匹配結(jié)果進(jìn)行更新,如使用平均值或最大值法對(duì)多個(gè)不同相似值的相同實(shí)例對(duì)進(jìn)行合并;

Step4: 如果實(shí)例對(duì)匹配完,轉(zhuǎn)步驟Step5,否則返回到步驟Step1,重新執(zhí)行上述步驟;

Step5: 輸出實(shí)例匹配結(jié)果,算法結(jié)束.

3 實(shí)驗(yàn)及討論

本文試驗(yàn)使用的計(jì)算機(jī)配置為:MicrosoftwindowsXPProfessional操作系統(tǒng), 2.5GHzIntelCore2Quad處理器,2.0GBRAM,且機(jī)器上安裝的SunJava1.6.0庫(kù).實(shí)驗(yàn)數(shù)據(jù)以開源的WebGIS實(shí)現(xiàn)—Geoserver(http://geoserver.org/display/GEOS/Welcome)提供的兩種不同版本的WFS、WCS網(wǎng)絡(luò)服務(wù)實(shí)例為例,分別選擇了wfsGetCapabilities、describeFeatureType、getFeature,wcsGetCapabilities,describeCoverage、getCoverage1.0.0與1.1.1兩種版本的XML模式文件進(jìn)行匹配.在模式實(shí)例的文件解析時(shí),同時(shí)對(duì)模式實(shí)例的元素及其實(shí)例類型進(jìn)行了自動(dòng)化統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表1、表2所示.

表1 WFS服務(wù)實(shí)例元素統(tǒng)計(jì)

表2 WCS服務(wù)實(shí)例元素統(tǒng)計(jì)

應(yīng)用①iMatch;②COMA;③iMatch+COMA分別進(jìn)行匹配試驗(yàn),其中iMatch使用的是本文設(shè)計(jì)的幾種實(shí)例匹配算法;COMA則使用其自帶上下文匹配器,匹配器相似值聚合方法使用的是平均值法,匹配結(jié)果使用雙向定向法,相似值組合方法取平均值法,候選者選擇方法取最大值法.同時(shí),用傳統(tǒng)的查全率(Recall),精度(Precision)來(lái)評(píng)估匹配結(jié)果,試驗(yàn)結(jié)果如圖6、圖7所示.從圖6、圖7看出,對(duì)于getCapabilities操作的兩種不同版本響應(yīng)文件,實(shí)例元素較多,通過自動(dòng)預(yù)處理和人為確認(rèn),兩個(gè)版本所有元素間,有319對(duì)候選元素,其中候選實(shí)例元素有248對(duì),實(shí)例匹配發(fā)現(xiàn),所有248對(duì)實(shí)例元素間相似值都為1,同時(shí),應(yīng)用COMA進(jìn)行元素標(biāo)簽和結(jié)構(gòu)匹配,確定了305對(duì)映射關(guān)系,由于有100多元素沒有實(shí)例,導(dǎo)致實(shí)例匹配不起作用,以致實(shí)例匹配查全率和精度都低于COMA,只有80%左右.同樣,對(duì)于getFeature操作的兩種響應(yīng)文件,有31對(duì)候選元素,其中實(shí)例元素有25對(duì),實(shí)例匹配確定了全部25對(duì)實(shí)例映射,COMA匹配發(fā)現(xiàn)了31對(duì)候選映射中的29對(duì),由于實(shí)例的不完全,在查全率和精度上還是COMA領(lǐng)先.對(duì)于describeFeatureType操作的響應(yīng)文件,由于沒有實(shí)例元素,所以iMatch匹配的查全率和精度均為0,而26對(duì)非實(shí)例元素對(duì)使用COMA匹配時(shí),查全率和精度都達(dá)到理想的100%.對(duì)于WCS的wcsGetCapabilities兩種不同版本響應(yīng)文件,由于近一半元素沒有實(shí)例數(shù)據(jù),導(dǎo)致了iMatch查全率只有60%左右;對(duì)于describ-eCoverage,非實(shí)例元素相對(duì)較少,對(duì)于34個(gè)實(shí)例元素,iMatch發(fā)現(xiàn)了其中25對(duì),查全率近75%,而由于describeCoverage元素語(yǔ)義差異性,導(dǎo)致COMA匹配查全率不高,大約65%;對(duì)于getCoverage,XML實(shí)例文件元素很少(10個(gè)左右),11個(gè)實(shí)例數(shù)據(jù),iMatch發(fā)現(xiàn)了其中7個(gè)映射,查全率67%,不同版本getCoverage結(jié)構(gòu)與元素語(yǔ)義差異大,所以僅僅通過COMA匹配,查全率和精度都較低,查全率只有56%,精度也只有60%左右.可見,COMA對(duì)于非實(shí)例元素匹配效果好,而iMatch對(duì)于實(shí)例元素匹配又非常理想,例如getFeature實(shí)例模式中元素對(duì)posList?coordinates, 利用COMA不能確定它們間映射關(guān)系,但通過實(shí)例匹配卻完全可以,所以基于實(shí)例和基于元數(shù)據(jù)匹配器組合匹配能達(dá)到理想效果,如圖6、圖7中,iMatch+COMA匹配器組合,對(duì)于所有模式及實(shí)例,匹配查全率和精度都是最好的,部分匹配查全率達(dá)到100%,精度高達(dá)98%.

圖6 匹配查全率比較Fig.6 The recall of 3 match methods

圖7 匹配精度比較Fig.7 The precision of 3 match methods

基于實(shí)例匹配方法中字符型和混合型實(shí)例都描述了某種屬性和特征,相同實(shí)例一般都描述的是類似元素特征,但對(duì)于數(shù)值型實(shí)例則不同,由于僅僅只是代表數(shù)字多少,且在一個(gè)模式實(shí)例中同數(shù)值的實(shí)例可能很多,匹配時(shí)如果沒有元素標(biāo)簽語(yǔ)義輔助很容易造成錯(cuò)誤映射產(chǎn)生.為了測(cè)試系統(tǒng)對(duì)于數(shù)值型實(shí)例匹配的健壯性,以getCapabilities操作的響應(yīng)文件為例,手工增加了30對(duì)錯(cuò)誤候選映射元素,其中15對(duì)為數(shù)值型映射,匹配器選擇iMatch+COMA,實(shí)驗(yàn)結(jié)果如圖8所示.從圖8可以看出,隨著錯(cuò)誤候選映射的增加,特別是數(shù)值型候選實(shí)例的增加,匹配查全率和精度也隨著快速降低.當(dāng)錯(cuò)誤候選映射從8增加到28時(shí),精度從98%下降到65左右,所以對(duì)數(shù)值型實(shí)例匹配時(shí),一定要在匹配預(yù)處理時(shí)確定好可能的正確映射,否則容易影響匹配質(zhì)量.

圖8 加入30個(gè)錯(cuò)誤映射后的匹配健壯性Fig.8 Robustness of schema match with 30 false candidate mappings

4 結(jié)論與展望

針對(duì)當(dāng)前空間信息網(wǎng)絡(luò)服務(wù)模式匹配中存在的由于語(yǔ)義異質(zhì)性問題導(dǎo)致的映射丟失問題,本文在綜合分析現(xiàn)有元數(shù)據(jù)和實(shí)例匹配器基礎(chǔ)上提出了以元數(shù)據(jù)匹配器為基礎(chǔ),實(shí)例匹配器為輔助的組合模式匹配方法,并重點(diǎn)闡述了實(shí)例數(shù)據(jù)提取及匹配算法.WFS、WCS服務(wù)實(shí)例匹配驗(yàn)證結(jié)果表明,文中提出的方法有效提高了匹配的查全率和精度.異質(zhì)的空間信息網(wǎng)絡(luò)服務(wù),特別是異質(zhì)的傳感器觀測(cè)服務(wù)(SOS)匹配問題將是下一步研究重點(diǎn).由于不同的觀測(cè)服務(wù)實(shí)例數(shù)據(jù)格式、表示和語(yǔ)義差異巨大,因此,未來(lái),我們將利用大量SOS服務(wù)實(shí)例來(lái)試驗(yàn)本文提出的方法,同時(shí)針對(duì)匹配中遇到復(fù)雜實(shí)例,如結(jié)構(gòu)復(fù)雜、大數(shù)據(jù)匹配問題,設(shè)計(jì)更優(yōu)的算法來(lái)提高匹配質(zhì)量.

[1]SHVAIKOP,EUZENATJ.Asurveyofschema-basedmatchingapproaches[J].JournalonDataSemanticsIV, 2005, 4:146-171.

[2]GIUNCHIGLIAF,SHVAIKOP.Semanticmatching[J].KERJournal, 2003, 18(3):265-280.

[3]GIUNCHIGLIAF,SHVAIKOP,YATSKEVICHM.S-Match:AnalgorithmandanimplementationofSemanticMatching[C]//In:ProceedingsoftheEuropeanSemanticWebSymposium(ESWS),Springer,Heidelberg, 2004:61-75.

[4]GIUNCHIGLIAF,YATSKEVICHM,GIUNCHIGLIAE.Efficientsemanticmatching[C]//InProceedingsofESWC,Heraklion,Greece, 2005:272-289.

[5] 王育紅, 陳 軍. 基于實(shí)例的GIS數(shù)據(jù)庫(kù)模式匹配方法[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2008, 33(1):46-50.

[6]AUMüLLERD,DOH,MAβMANNS,etal.SchemaandontologymatchingwithCOMA++[C]//Procofthe2005ACMSIGMODInt.ConferenceonManagementofData.ACMPress,NewYork,NY,USA, 2005:906-908.

[7]NOYN,MUSENM.ThePROMPTsuite:interactivetoolsforontologymergingandmapping[J].InternationalJournalofHuman-ComputerStudies, 2003, 59(6):983-1024.

[8]VRETANOSPA.OGCTMWebFeatureserviceimplementationspecification[S]In:OpenGeospatialConsortium(OGC),DocumentNumber:02-058,Wayland,MA,USA, 2002:105.

[9]WHITESIDEA,EVANSJD.OGCTMWebCoverageserviceimplementationspecification[S].In:OpenGeospatialConsortium(OGC),DocumentNumber:07-067,Wayland,MA,USA, 2007:133.

[10]NAA,PRIESTM.OGCTMSensorObservationserviceimplementationspecification[S].In:OpenGeospatialConsortium(OGC),DocumentNumber:06-009,Wayland,MA,USA, 2006:187.

[11]WANGJ,WENJ,LOCHOVSKYFH,etalInstance-basedschemamatchingforwebdatabasesbydomain-specificqueryprobing[C]//Proceedingsof30thIntlConferenceonVeryLargeDatabases,Toronto,Canada, 2004:408-419.

[12]DOANA,MADHAVANJ,DOMINGOSP,etal.Ontologymatching:Amachinelearningapproach[C]//StaabS,StuderR(eds).HandbookonontologiesininformationSystems.Springer,BerlinHeidelbergNewYork, 2004:397-416.

[13]BILKEA,NAUMBNNF.Schemamatchingusingduplicates[C]//Procofthe21stIntlConferenceonDataEngineering(ICDE),Tokyo,Japan, 2005:69-80.

[14]DOHH,RAHME.COMA-Asystemforflexiblecombinationofmatchalgorithms[C]//Proceedingsofthe28thInternationalConferenceonVeryLargeDataBases,HongKong,China, 2002.

[15]CHENN,HEJ,WANGW,etal.ExtendedFRAG-BASEschemamatchingformulti-versionopenGISservicesretrieval[J].InternationalJournalofGeographicalInformationScience, 2011, 25(7):1045-1068.

[16] 何 杰, 陳能成, 鄭 重, 等. 利用語(yǔ)義的多版本網(wǎng)絡(luò)覆蓋服務(wù)模式匹配方法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2012, 37(2):210-214.

An instance-based web services schema matching method

HE Jie1, WANG Xinyun2, GUO Yige2

(1.School of Resource and Environment, Ningxia University, Yinchuan 750021;2.Ministry of Education Key Laboratory for Restoration and Reconstruction of Degraded Ecosystem in Northwest China, Ningxia University, Yinchuan 750021)

To solve the problems of mapping lost on schema matching among heterogeneous web service schemas caused by difference in structure and semantics, this paper presents a schema matching method with instance applied. Firstly, a metadata matcher is used to do matching on element tags and schema structure. Then, an instance matching algorithm is designed for exact matching on element instance data to determine the correspondence between schema elements. Finally, schema matching tests are carried on different versions of the Web Feature Service (WFS) and Web Coverage Service (WCS), demonstrating that the method is feasible.

schema matching; instance; multi-version; web feature service; web coverage service

2015-04-12.

國(guó)家自然科學(xué)基金項(xiàng)目(41201393);寧夏自然科學(xué)基金項(xiàng)目(NZ12110);武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室開放基金項(xiàng)目(14I03).

1000-1190(2015)06-0843-08

TP393;P208

A

*E-mail: whujiejie@163.com.

猜你喜歡
子樹模式匹配查全率
黑莓子樹與烏鶇鳥
一種新的快速挖掘頻繁子樹算法
基于模式匹配的計(jì)算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
電子制作(2019年13期)2020-01-14 03:15:32
書本圖的BC-子樹計(jì)數(shù)及漸進(jìn)密度特性分析?
具有間隙約束的模式匹配的研究進(jìn)展
OIP-IOS運(yùn)作與定價(jià)模式匹配的因素、機(jī)理、機(jī)制問題
海量圖書館檔案信息的快速檢索方法
基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
基于覆蓋模式的頻繁子樹挖掘方法
基于散列函數(shù)的模式匹配算法
青铜峡市| 黑水县| 化州市| 孟州市| 雷山县| 宜都市| 大冶市| 罗源县| 遂昌县| 武强县| 顺昌县| 务川| 巩义市| 灵丘县| 胶南市| 石河子市| 正蓝旗| 新密市| 南溪县| 额敏县| 滁州市| 安义县| 铅山县| 望江县| 保亭| 襄垣县| 大英县| 将乐县| 吴忠市| 巫溪县| 定远县| 和静县| 金寨县| 英超| 枝江市| 广南县| 汤原县| 夏邑县| 达州市| 淳化县| 高平市|