国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于本體的數(shù)據(jù)共享服務(wù)模型

2019-12-12 06:05牟宇超劉瑞
軟件導(dǎo)刊 2019年11期
關(guān)鍵詞:共享服務(wù)數(shù)據(jù)共享

牟宇超 劉瑞

摘 要:數(shù)據(jù)共享服務(wù)在信息化時代作用凸顯,它可以將彼此孤立的信息進行整合并實現(xiàn)其應(yīng)有價值。對數(shù)據(jù)共享服務(wù)進行研究,提出一種本體模型及其應(yīng)用架構(gòu)。詳細闡述了模型中的幾種對象及其相互轉(zhuǎn)換方式,以及如何利用語義關(guān)系組織數(shù)據(jù);將PageRank算法與CF算法思想移植到數(shù)據(jù)服務(wù)中,提出一種新的算法用于篩選最優(yōu)數(shù)據(jù);創(chuàng)建一種相對完備的本體體系,將數(shù)據(jù)共享過程分層細化,可應(yīng)用于海量數(shù)據(jù)共享服務(wù)。

關(guān)鍵詞:數(shù)據(jù)共享;本體模型;數(shù)據(jù)對象價值;共享服務(wù)

0 引言

隨著信息化建設(shè)的不斷推進,各行各業(yè)對信息交流服務(wù)的需求也與日俱增,人類社會正逐漸步入數(shù)據(jù)時代。世界著名咨詢公司麥肯錫曾提到,“當今世界的數(shù)據(jù)量已呈現(xiàn)爆炸式增長態(tài)勢”[1]。在面對如此大量的多樣數(shù)據(jù)時,如何對數(shù)據(jù)進行有效處理,提高數(shù)據(jù)的價值與可用性尤為關(guān)鍵。

目前,多數(shù)數(shù)據(jù)以“信息孤島”的形式存在,如果對這些數(shù)據(jù)進行有效融合,那么這些海量的碎片信息將變得更加具有利用價值。數(shù)據(jù)共享可以使人類對客觀世界產(chǎn)生更深層次的認識[2],本文著重對數(shù)據(jù)共享方法進行探究,以解決當前信息不能充分共享的問題。

1 研究綜述

1.1 關(guān)于本體

“本體”一詞起源于哲學(xué)領(lǐng)域,該詞由德國哲學(xué)家Goclenius[3]首先提出,許多其他學(xué)者也曾給出過“本體”這一概念的詳細定義。1991年,Neches[4]最先給出了本體的定義:本體是構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成詞匯外延的規(guī)則;1993年,Gruber[5]給出了本體的定義:本體是概念模型的明確的規(guī)范說明;1997年,Borst[6]給出了本體的定義:本體是共享概念模型的形式化規(guī)范說明;1998年,Studer[7]將前人思想進行融合,又重新提出了本體的定義:本體是共享概念模型的明確的形式化規(guī)范說明。如今,Studer提出的這一概念被廣泛認同。

1.2 關(guān)于數(shù)據(jù)共享

國外數(shù)據(jù)共享相關(guān)研究中,部分學(xué)者提出具體算法用于解決數(shù)據(jù)沖突等各類問題,也有許多可用于數(shù)據(jù)共享的數(shù)據(jù)交換平臺。哈佛大學(xué)和麻省理工學(xué)院共同研發(fā)的Dataverse可以發(fā)布、引用、存儲和在線分析研究數(shù)據(jù);麻省理工學(xué)院與惠普公司合作的DSpace可以實現(xiàn)數(shù)字資源的收集、保存、發(fā)布等;斯坦福大學(xué)的SDR同樣可以實現(xiàn)數(shù)據(jù)的保存、引用、訪問、管理和共享等功能[8]。比較流行的還有康奈爾大學(xué)與維吉尼亞大學(xué)合作開發(fā)的Fedora[9],挪威社會科學(xué)數(shù)據(jù)服務(wù)中心的Nesstar等[10]。

Brouwer等[11]提出了一種新的基于多矩陣分解方法的貝葉斯混合矩陣分解模型,該模型可融合多種類型的數(shù)據(jù)集;Tosin等[12]提出了一種方法,通過對Web應(yīng)用程序中的信息進行推斷和關(guān)聯(lián)實現(xiàn)數(shù)據(jù)融合;Gubanov[13]認為傳統(tǒng)的數(shù)據(jù)融合方法難以處理大規(guī)模數(shù)據(jù),由此提出了一種大規(guī)模數(shù)據(jù)集成系統(tǒng)并闡述了其體系結(jié)構(gòu)。

國內(nèi)關(guān)于數(shù)據(jù)共享的研究也有一定進展,但并不多見。北京航空航天大學(xué)的張義等[14]提出了一種名為MICROS的多模式互聯(lián)生長模型,較為詳細地闡述了整個體系如何將多源異構(gòu)的海量數(shù)據(jù)融合起來;復(fù)旦大學(xué)[15]研發(fā)了一款科學(xué)數(shù)據(jù)共享平臺,該平臺主要包含數(shù)據(jù)管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)交換、數(shù)據(jù)監(jiān)護等功能,旨在為研究人員提供一個便于相互交流的環(huán)境;北京航空航天大學(xué)的陳真勇等[16]提出了一種名為SCLDF的智慧城市數(shù)據(jù)融合與共享框架,給出了該框架的四層架構(gòu)設(shè)計,并指出該框架可以結(jié)合具體的數(shù)據(jù)信息提供相應(yīng)的智慧服務(wù);諶裕勇[17]提出了一種基于關(guān)聯(lián)規(guī)則挖掘的云存儲中心多源文本主題融合模型,該模型可以對多源文本主題進行信息融合;劉錚等[18]提出了一種基于多源數(shù)據(jù)的多特征融合方法,主要解決弱小目標關(guān)聯(lián)難題;路輝等[19]提出了一種基于HTTP協(xié)議的網(wǎng)頁數(shù)據(jù)融合方法,旨在實現(xiàn)業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)集成與數(shù)據(jù)共享;梁玉英[20]提出了一種基于概率猶豫模糊Frank加權(quán)平均算子的信息集成方法,并將其運用于數(shù)據(jù)產(chǎn)品選擇。在國內(nèi)外相關(guān)研究中,雖然數(shù)據(jù)共享方法多種多樣,但基于本體模型實現(xiàn)數(shù)據(jù)融合與數(shù)據(jù)共享過程的研究十分罕見,并且也很少有研究論述如何利用語義關(guān)系完成數(shù)據(jù)的組織與推送。對此,本文提出一種數(shù)據(jù)服務(wù)的本體模型。

2 面向主題的數(shù)據(jù)共享本體模型

2.1 數(shù)據(jù)共享服務(wù)流程

在提供完整數(shù)據(jù)服務(wù)的平臺體系中,需要完成數(shù)據(jù)的轉(zhuǎn)換、清洗與融合等工作。對于異構(gòu)數(shù)據(jù),需要實現(xiàn)數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)變;對于錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù),要及時完成清理;對于缺失數(shù)據(jù),需要采取合適方法進行補全。在面對大量多源異構(gòu)數(shù)據(jù)時,僅僅進行簡單的轉(zhuǎn)換只能滿足最基本的數(shù)據(jù)交換功能,無法提供真正意義上的數(shù)據(jù)共享服務(wù)。因此,還需要根據(jù)主題領(lǐng)域內(nèi)的知識對這些離散的數(shù)據(jù)進行融合,并在數(shù)據(jù)之間建立相應(yīng)的語義關(guān)系形成主題數(shù)據(jù)庫。在主題數(shù)據(jù)庫中提取數(shù)據(jù)時,平臺可以自動地為數(shù)據(jù)需求者提供更多有價值的信息,使他們不必浪費時間親自尋找所有數(shù)據(jù),為使用者帶來十分便捷的數(shù)據(jù)服務(wù)。

圖1展示了數(shù)據(jù)服務(wù)的完整流程。從數(shù)據(jù)源中獲取原始數(shù)據(jù)后,首先要對其進行預(yù)處理,完成數(shù)據(jù)清洗工作。清洗過程除了過濾掉錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)外,有時可能還需要一些簡單的轉(zhuǎn)換工作,保證數(shù)據(jù)全部轉(zhuǎn)變?yōu)榻y(tǒng)一的可用于后續(xù)處理的格式。數(shù)據(jù)源中的原始數(shù)據(jù)經(jīng)過預(yù)處理后得到松散數(shù)據(jù)集,此時的數(shù)據(jù)集只經(jīng)過初步加工,并不一定具備完整的結(jié)構(gòu)。為實現(xiàn)最后的數(shù)據(jù)共享服務(wù),需要對初步處理過的數(shù)據(jù)集進行再次加工,即融合過程。數(shù)據(jù)融合過程需要專家參與,在確定數(shù)據(jù)服務(wù)所要面向的主題領(lǐng)域后,該領(lǐng)域相關(guān)專家制定相應(yīng)的融合策略,用以指導(dǎo)數(shù)據(jù)融合過程。松散數(shù)據(jù)集經(jīng)過融合過程后形成面向主題的數(shù)據(jù)集,面向主題的數(shù)據(jù)具有特定的結(jié)構(gòu),便于提供數(shù)據(jù)服務(wù)。為形成所需的主題數(shù)據(jù)庫,還需要定義數(shù)據(jù)間的語義關(guān)系,用語義關(guān)系將各類數(shù)據(jù)相互關(guān)聯(lián)起來,即關(guān)聯(lián)過程。關(guān)聯(lián)過程同樣需要領(lǐng)域?qū)<覅⑴c,專家要確定各數(shù)據(jù)類型間的語義關(guān)系,形成新的數(shù)據(jù)網(wǎng)絡(luò),使各類數(shù)據(jù)不再孤立。

在形成主題數(shù)據(jù)庫后,可向數(shù)據(jù)需求者提供全部數(shù)據(jù)服務(wù)。當數(shù)據(jù)需求者發(fā)出查詢請求后,數(shù)據(jù)服務(wù)平臺在主題庫中查找相應(yīng)信息,提供盡可能準確的數(shù)據(jù)信息。數(shù)據(jù)服務(wù)平臺除提供數(shù)據(jù)共享服務(wù)外,還提供數(shù)據(jù)遷移服務(wù)與數(shù)據(jù)交換服務(wù)。數(shù)據(jù)遷移服務(wù)是指將一個庫中的數(shù)據(jù)信息遷移到另一個庫中,該項服務(wù)不對數(shù)據(jù)進行加工,要求保留數(shù)據(jù)的完整信息,但可能有一些簡單的轉(zhuǎn)換。數(shù)據(jù)交換服務(wù)是指從松散數(shù)據(jù)集中抽取數(shù)據(jù)提供給數(shù)據(jù)需求者,這些數(shù)據(jù)只經(jīng)過初步加工,并不具備完整的語義,但去除了無用信息,除清洗過程外還可能需要一些簡單的合并與轉(zhuǎn)換。

2.2 本體模型中的對象及相互關(guān)系

為實現(xiàn)上述功能,本文提出了一種基于本體的數(shù)據(jù)服務(wù)模型,模型中總共含有3類對象,分別為原始對象(Original Object)、原型對象(Prototype Object)和語義對象(Semantic Object)。其中,原始對象指平臺系統(tǒng)外的數(shù)據(jù)集。原始對象又可以進一步劃分為源原始對象與目標原始對象:源原始對象指平臺系統(tǒng)的數(shù)據(jù)源,即數(shù)據(jù)提供方;目標原始對象指平臺系統(tǒng)的數(shù)據(jù)輸出端,即數(shù)據(jù)需求方。源原始對象與目標原始對象均繼承自原始對象。原型對象指平臺系統(tǒng)中經(jīng)過初步加工后的數(shù)據(jù)對象,這類對象已經(jīng)可以被利用,但還不具備特定的結(jié)構(gòu),也不具備語義關(guān)系。語義對象指具有完整語義關(guān)系的數(shù)據(jù)對象,所有語義對象在一起共同形成主題數(shù)據(jù)庫,平臺系統(tǒng)依靠主題數(shù)據(jù)庫提供完整的數(shù)據(jù)服務(wù)。

圖2詳細表述了3種對象間的相互關(guān)系。系統(tǒng)運作時,源原始對象中的數(shù)據(jù)經(jīng)過抽取和轉(zhuǎn)換過程形成新的原型對象中的數(shù)據(jù)。若只完成簡單交換,則原型對象中的數(shù)據(jù)經(jīng)過轉(zhuǎn)換后直接被推送給目標原始對象;若需要進行更多的數(shù)據(jù)分析,則原型對象中的數(shù)據(jù)經(jīng)過融合過程轉(zhuǎn)變?yōu)樾碌恼Z義對象中的數(shù)據(jù)。不同的語義對象之間需要相互關(guān)聯(lián),建立一定的語義關(guān)系,語義對象中的數(shù)據(jù)在經(jīng)過轉(zhuǎn)換后最終被推送給目標原始對象。

其中,任意兩個語義對象之間都可以存在關(guān)聯(lián)聯(lián)系,這種關(guān)系是有向的,并且具有特定的語義。對于任意兩個語義對象A和語義對象B,用A→B表示A對象關(guān)聯(lián)到B對象的語義關(guān)系,A對象與B對象之間既可以是A→B,也可以是B→A,還可以是A→B與B→A同時存在,要求A→B與B→A語義不相同。

這種關(guān)聯(lián)關(guān)系本質(zhì)上描述了兩個對象在語義層面的聯(lián)系,有了這種關(guān)系網(wǎng)絡(luò)后,數(shù)據(jù)共享階段將獲得更為完整的數(shù)據(jù)信息。在數(shù)據(jù)共享服務(wù)過程中,當任何一個語義對象將要被提取時,其指向的語義對象也有可能成為反饋信息中的一部分被推送出去,關(guān)聯(lián)的語義對象被推送時,應(yīng)采用合適的方法。

語義對象還可以擁有主子結(jié)構(gòu),但只有結(jié)構(gòu)的主部分具備全局性的唯一標識。此外,內(nèi)部語義對象(子語義對象)將被定義為非公開的,即對數(shù)據(jù)利用環(huán)節(jié)不可見。因此,對主子結(jié)構(gòu)語義對象的訪問需逐層進行。

2.3 本體模型應(yīng)用架構(gòu)

本體模型的應(yīng)用架構(gòu)可分為3層:交換層、融合層、共享層。圖3展示了該架構(gòu)的層次,其中交換層為最底層,融合層為中間層,共享層為最頂層。這3層的功能分別為:①交換層負責完成數(shù)據(jù)適配工作,對數(shù)據(jù)源中的數(shù)據(jù)進行抽取、轉(zhuǎn)換,將處理好的數(shù)據(jù)存放在原型對象中;②融合層負責完成數(shù)據(jù)重構(gòu)工作,將原型對象中的數(shù)據(jù)進行融合后存放在相應(yīng)的語義對象中,構(gòu)建好所有語義對象;③共享層負責完成數(shù)據(jù)組織工作,將所有的語義對象進行關(guān)聯(lián),組織好所有語義對象間的語義關(guān)系。

3 原始對象提煉

本文所定義的本體模型中,原始對象即是對數(shù)據(jù)服務(wù)平臺外部的數(shù)據(jù)源中數(shù)據(jù)的一種抽象。原始對象有一個基本類型,將其命名為OriginalObject,原始對象中所有的類均繼承自O(shè)riginalObject。從數(shù)據(jù)源中抽取數(shù)據(jù)時,需要定義一些新的類,它們都是基本類型OriginalObject的衍生類(子類)。這些類可以被實例化,而每一個實例則是對相應(yīng)數(shù)據(jù)的一種映射。

事實上,原始對象的創(chuàng)建主要是為了解決實際工作中數(shù)據(jù)源的異構(gòu)問題。每從一種類型的數(shù)據(jù)源中抽取數(shù)據(jù)時,都要定義一種新的類。由于在提供數(shù)據(jù)服務(wù)的過程中,要處理的數(shù)據(jù)可能是結(jié)構(gòu)化的,也可能是非結(jié)構(gòu)化的,或是半結(jié)構(gòu)化的,因此需要將它們轉(zhuǎn)變?yōu)榻y(tǒng)一的可處理的形式。類中所具有的各種屬性即是相應(yīng)數(shù)據(jù)源中數(shù)據(jù)結(jié)構(gòu)的一種呈現(xiàn),例如對于XML文件,類中的屬性可能映射為其中的子節(jié)點。對于平臺外部的數(shù)據(jù)源,需要進行處理的不只有二維表形式的數(shù)據(jù),還可能有HTML格式的網(wǎng)頁,以及其它格式的各類文件與圖片等。

理論上,原始對象中應(yīng)該保留數(shù)據(jù)源中的全部數(shù)據(jù)信息,其存在的意義主要是方便在后續(xù)工作中對抽取到的數(shù)據(jù)進行處理。也可以將原始對象看作是數(shù)據(jù)源中的數(shù)據(jù),其本質(zhì)就是將數(shù)據(jù)源中的數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)服務(wù)平臺中,以便對其進行操作。

4 本體對象間的轉(zhuǎn)變方式

在原始對象向原型對象轉(zhuǎn)變的過程中,有抽取和轉(zhuǎn)換兩個關(guān)鍵步驟。抽取可以是將原始對象中的數(shù)據(jù)信息直接復(fù)制,也可以是經(jīng)過清洗后保存一部分數(shù)據(jù)信息,而轉(zhuǎn)換則是將數(shù)據(jù)轉(zhuǎn)變?yōu)榻y(tǒng)一的可用于后續(xù)處理的格式。在原型對象向語義對象轉(zhuǎn)變的過程中,需要對原型對象進行融合。

圖4為無過濾的平行擴展方式。在這種方式中,原始對象中的數(shù)據(jù)信息均完好無損地存入新的原型對象中,原型對象中的數(shù)據(jù)信息在被合并后存入新的語義對象中。原始對象[O1]與原始對象[O2]經(jīng)過抽取、轉(zhuǎn)換過程生成原型對象[P1]與原型對象[P2],所有屬性全部被保留,原型對象[P1]與原型對象[P2]經(jīng)過融合過程生成語義對象[S1],依然保留了全部屬性。

圖5為有過濾的平行擴展方式。在這種方式中,原始對象中的數(shù)據(jù)信息可能被清洗后存入新的原型對象中,原型對象中的數(shù)據(jù)信息在被合并后存入新的語義對象中。原始對象[O1]與原始對象[O2]經(jīng)過抽取、轉(zhuǎn)換過程生成原型對象[P1]與原型對象[P2],其中部分屬性被去掉,原型對象[P1]與原型對象[P2]經(jīng)過融合過程生成語義對象[S1],但也只保留了部分屬性。

圖6為主子結(jié)構(gòu)擴展方式。在這種方式中,原始對象中的數(shù)據(jù)在抽取過程中同樣有可能被清洗后存入新的原型對象中,或是不經(jīng)過清洗全部被保留,此處不再全部列舉,而原型對象在經(jīng)過融合過程后形成新的具有主子結(jié)構(gòu)的語義對象。原型對象[P1]與原型對象[P2]經(jīng)過融合后生成新的語義對象[S1],語義對象[S1]除保留原型對象[P1]中的信息外,還新增了屬性[g],該屬性用來指向一個內(nèi)部語義對象[I1],語義對象[I1]即是語義對象[S1]的子語義對象,該對象中存儲了原型對象[P2]中的信息。

5 語義關(guān)系構(gòu)建

在語義對象之間要建立語義關(guān)系。語義關(guān)系采用四元組表示,如語義對象A到語義對象B的語義關(guān)系記為(A, relationship, B, weight)。每一個四元組都用來記錄一個語義關(guān)系,該四元組表示了語義關(guān)系的方向為從A指向B,四元組中第二個元素relationship用來記錄語義關(guān)系的名稱,最后一個元素weight表示語義對象B對語義對象A的影響程度。

語義對象有一個基本類型,這里將其命名為SemanticObject,本文語義對象的所有其它類都是該類的衍生類(子類),它們均繼承自SemanticObject。假設(shè)現(xiàn)在有兩個語義對象類ClassA與ClassB均繼承自SemanticObject基類,如果定義了一種語義關(guān)系(ClassA, r1,ClassB,w1),那么每個ClassA類型的實例都可能會具有一個指向ClassB類型實例的語義關(guān)系。當然,并不一定所有ClassA類型的實例都會發(fā)出這種語義關(guān)系,可能有些ClassA類型的實例還沒有找到與自身對應(yīng)的ClassB類型的實例。

在定義兩個類間的語義關(guān)系時,并未建立具體實例間的語義關(guān)系。語義對象實例間的語義關(guān)系,可以通過兩種途徑建立。第一種方法即是在創(chuàng)建某個具體實例時,也直接生成從該實例對象發(fā)出的語義關(guān)系,在這種方式中,語義關(guān)系伴隨著兩個實例對象的出現(xiàn)也直接出現(xiàn)。第二種方法需要建立語義關(guān)系的生成規(guī)則,這個規(guī)則很重要,它用于生成第一種方法中未能創(chuàng)建的那些語義關(guān)系。在創(chuàng)建主題數(shù)據(jù)庫時,需要在初始化過程中將全部語義關(guān)系生成規(guī)則加載一遍,然后對庫中的所有實例對象進行掃描,根據(jù)已有規(guī)則為所有滿足條件的語義對象創(chuàng)建語義關(guān)系。當然,在使用第二種方法后,可能依然存在一些對象實例沒有創(chuàng)建完對應(yīng)的語義關(guān)系,因為它們并不滿足生成規(guī)則中的條件。

利用生成規(guī)則建立語義關(guān)系的方法可用一個簡單示例說明。假設(shè)有若干個庫房與若干個機器人,現(xiàn)在主題數(shù)據(jù)庫中并未記錄每個機器人服務(wù)于哪個庫房,為確定各庫房與各機器人之間的關(guān)系,可定義一個語義關(guān)系生成規(guī)則。

6 共享服務(wù)中最優(yōu)數(shù)據(jù)篩選

隨著可利用的數(shù)據(jù)源逐漸增多,在主題庫中形成的數(shù)據(jù)網(wǎng)絡(luò)體系也會越來越龐大。尤其是當數(shù)據(jù)服務(wù)平臺應(yīng)用于智慧城市建設(shè)時,主題庫內(nèi)部需存儲海量數(shù)據(jù)。有時,數(shù)據(jù)需求者可能并不知道現(xiàn)實中還存在一些數(shù)據(jù)同樣是他們想要的,此時數(shù)據(jù)服務(wù)平臺應(yīng)能夠為其提供這些有價值的數(shù)據(jù)。在面對紛繁雜亂的數(shù)據(jù)網(wǎng)絡(luò)時,如何篩選出相對準確的數(shù)據(jù)信息推送給數(shù)據(jù)需求者尤為關(guān)鍵。

關(guān)于如何在數(shù)據(jù)共享服務(wù)中合理推送數(shù)據(jù)的問題,本文借鑒了PageRank算法與推薦系統(tǒng)中CF算法思想。PageRank算法堪稱十分天才的算法,它只利用了很簡單的數(shù)學(xué)原理但效果非常顯著。該算法是曾經(jīng)就讀于美國斯坦福大學(xué)的Larry Page和Sergey Brin在參考了學(xué)術(shù)界評判論文的方法后共同提出的。此二人亦是Google公司的創(chuàng)始人,憑借發(fā)明的PageRank專利創(chuàng)造了全球最大的搜索引擎——Google。CF算法全稱為協(xié)同過濾算法(Collaborative Filtering),本文主要采用基于物品的CF算法(Item-based Collaborative Filtering),該算法由Amazon公司的工程師提出,同樣是一種簡單易用的算法。Amazon是推薦系統(tǒng)領(lǐng)域最為著名的公司,在業(yè)界更是享有“推薦系統(tǒng)之王”的稱號。

6.1 語義對象價值計算

在數(shù)據(jù)共享服務(wù)中,當用戶提取數(shù)據(jù)時,有時很難鑒別哪些數(shù)據(jù)對用戶將是有價值的,只憑借查詢條件或許很難篩選。然而,數(shù)據(jù)推送原理很簡單:任何數(shù)據(jù)如果被提取得十分頻繁,那么其價值一定是相對較高的。一般地,可以認為數(shù)據(jù)被提取的次數(shù)越多,其價值就越高。因此,本文假設(shè)每條數(shù)據(jù)的價值與其被提取次數(shù)成正相關(guān)。

但在主題數(shù)據(jù)庫中,各語義對象間相互關(guān)聯(lián),在訪問一個數(shù)據(jù)對象時也會訪問其關(guān)聯(lián)的數(shù)據(jù)對象。于是,有些數(shù)據(jù)對象在被數(shù)據(jù)需求方提取時,很有可能是因為其關(guān)聯(lián)了價值很高的其它數(shù)據(jù)對象,在這種情況下,該數(shù)據(jù)對象能被利用要部分歸功于它所關(guān)聯(lián)到的數(shù)據(jù)對象。因此,每個數(shù)據(jù)對象的價值還與關(guān)聯(lián)到該對象的其它數(shù)據(jù)對象有關(guān)。

6.2 語義對象相似度計算

在提供數(shù)據(jù)共享服務(wù)過程中,除計算數(shù)據(jù)價值外,還需要利用基于物品的協(xié)同過濾算法。采用該算法的目的是找出所有與被提取對象相似的其它語義對象。

利用每個語義對象被所有用戶提取的次數(shù),可以計算出任何兩個語義對象間的相似度。當用戶提取某個數(shù)據(jù)對象時,可以將與其相似度最高的幾個對象一并推送給用戶。在計算兩個語義對象間的相似度時,需要用一個二維矩陣記錄每一個語義對象被所有用戶提取的次數(shù)。

如圖8所示,雖然不能直接判斷出哪些語義對象是真正意義上的相似,但依據(jù)所有數(shù)據(jù)需求者的提取行為可以看出,語義對象[S1]與語義對象[S3]很可能是相似的。于是,采用這種方法可以近似求出最相關(guān)的一類對象。

由于這種方法找出的相似語義對象并不一定真的對用戶十分有價值,因此在最終進行推送時,需要完成兩個步驟:①找出與被提取數(shù)據(jù)對象最相似的一部分語義對象;②在這些語義對象中,按[V]值排序篩選出價值最高的一些對象推送給數(shù)據(jù)需求者。

關(guān)于步驟①中篩選相似語義對象的策略,可以有兩種方案:一是預(yù)先指定一個具體的數(shù)量,以限制要提取相似語義對象的多少;二是預(yù)先指定一個閾值,相似度在閾值范圍內(nèi)的語義對象將被提取出來。

6.3 冷啟動問題

上述方案雖然能夠找出與用戶需求相適應(yīng)的數(shù)據(jù)對象,但依然無法解決冷啟動(Cold Start)問題,那些新加入主題數(shù)據(jù)庫而價值又很高的數(shù)據(jù),并不能得到其應(yīng)有的[V]值,該算法對于這類語義對象并不十分友好。

為解決數(shù)據(jù)服務(wù)中的冷啟動問題,可以考慮利用元數(shù)據(jù)對每個數(shù)據(jù)對象進行分析。元數(shù)據(jù)即為描述數(shù)據(jù)的數(shù)據(jù),在創(chuàng)建語義對象時,也應(yīng)為每個對象添加相應(yīng)的元數(shù)據(jù),這相當于為所有對象打上了“標簽”。當兩個語義對象元數(shù)據(jù)中的信息相似時,可以認為這兩個語義對象在領(lǐng)域內(nèi)是相似的。

此外,還可以讓領(lǐng)域?qū)<覟樾乱胫黝}數(shù)據(jù)庫中的語義對象定義臨時價值[Vtemp],在一定時間[t]內(nèi),將[Vtemp]作為其價值使用,這就避免了有些語義對象價值很高但其[V]值為[0]的問題。等到時間[t]結(jié)束時,再按照上述方法重新計算該語義對象應(yīng)有的[V]值,[Vtemp]將不再起任何作用。

7 結(jié)語

本文構(gòu)建了一個相對完整的本體體系,即先將各類數(shù)據(jù)抽象成為3種對象,然后利用構(gòu)建好的模型,定義各類術(shù)語及其相互關(guān)系。在構(gòu)建好的本體體系下,各類數(shù)據(jù)對象間的關(guān)系將變得更加直觀,各層所要執(zhí)行的任務(wù)將變得更加明確,這有利于對海量的多源異構(gòu)數(shù)據(jù)進行后續(xù)處理與分析。

此外,本文還提出了一種新的算法計算數(shù)據(jù)對象的價值,同時計算數(shù)據(jù)對象間的相似度。在推送數(shù)據(jù)的過程中可以更加容易地判斷哪些數(shù)據(jù)應(yīng)該優(yōu)先被選取,這使得在共享數(shù)據(jù)時不再只是簡單地提供原始數(shù)據(jù),而是提供主題數(shù)據(jù)庫中更加豐富的數(shù)據(jù)。

本文基于本體的模型為數(shù)據(jù)共享服務(wù)提供了新的思路,在構(gòu)建任何一種數(shù)據(jù)服務(wù)平臺,尤其是處理海量數(shù)據(jù)時,可以將該模型作為框架進行各模塊的搭建。

參考文獻:

[1] NATURE.Big data[EB/OL]. [2013-06-17]. http://www.nature.com/news/specials/bigdata/index.html.

[2] 孟小峰,杜治娟. 大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J]. 計算機研究與發(fā)展,2016,53(2):231-246.

[3] 高建波. 本體模型及其在信息安全評估領(lǐng)域的應(yīng)用研究[D]. 上海:上海交通大學(xué),2015.

[4] NECHES R. Enabling technology for knowledge sharing[J]. AI Magazing,1991,12(3):36-56.

[5] GRUBER T R. A translation approach to portable ontology specification[J].? knowledge Acquisition,1993,5(2):199-220.

[6] BORST W N. Construction of engineering ontologies for knowledge sharing and reuse[J]. Universiteit Twente,1997,18(1):44-57.

[7] STUDER R,BENJAMINS V R,F(xiàn)ENSEL D. Knowledge engineering: principles and methods[J]. Data & Knowledge Engineering,1998,25(1-2):161-197.

[8] Collections in the SDR [EB/OL]. [2016-12-26]. https://lib.stanford.edu/sdr/aboutsdr.

[9] Fedora commons proposal to the gordon and betty moore foundation[EB/OL]. [2016-12-07]. https://duraspace.org/fedora/about/.

[10] 張閃閃,王錚. 海外基于開源軟件的典型科研數(shù)據(jù)共享服務(wù)平臺案例研究[J]. 圖書情報工作,2017,61(6):79-86.

[11] BROUWER T,LIó,PIETRO. Bayesian Hybrid Matrix Factorisation for Data Integration[C]. AISTATS,2017.

[12] TOSIN T, RIGO S J, BARBOSA J L V, et al. A model for data integration in open and linked databases with the use of ontologies[C].? Chile:2016 35th International Conference of the Chilean Computer Science Society(SCCC),2016.

[13] GUBANOV M. PolyFuse:a large-scale hybrid data fusion system[C]. San Diego:2017 IEEE 33rd International Conference on Data Engineering (ICDE),2017.

[14] 張義,陳虞君,杜博文,等. 智慧城市多模式數(shù)據(jù)融合模型[J]. 北京航空航天大學(xué)學(xué)報,2016,42(12):2683-2690.

[15] 張計龍,殷沈琴,張用,等. 社會科學(xué)數(shù)據(jù)的共享與服務(wù)——以復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)共享平臺為例[J]. 大學(xué)圖書館學(xué)報,2015,33(1):74-79.

[16] 陳真勇,徐州川,李清廣,等. 一種新的智慧城市數(shù)據(jù)共享和融合框架——SCLDF[J]. 計算機研究與發(fā)展,2014,51(2):290-301.

[17] 諶裕勇. 云存儲中心多源文本主題融合模型研究[J]. 智能計算機與應(yīng)用,2019,9(2):148-151.

[18] 劉錚,毛宏霞,戴聰明,等. 基于多源數(shù)據(jù)多特征融合的弱小目標關(guān)聯(lián)研究[J]. 紅外與激光工程,2019(2):1-7.

[19] 路輝,高尚飛,李少龍. 基于HTTP協(xié)議的業(yè)務(wù)系統(tǒng)網(wǎng)頁數(shù)據(jù)采集應(yīng)用集成[J]. 電子技術(shù)與軟件工程,2019(2):1-3.

[20] 梁玉英. 基于概率猶豫模糊信息集成算法的數(shù)據(jù)產(chǎn)品選擇[J]. 計算機工程與應(yīng)用,2019(3):219-224.

(責任編輯:孫 娟)

猜你喜歡
共享服務(wù)數(shù)據(jù)共享
基于共享服務(wù)視角的醫(yī)藥企業(yè)財務(wù)管理信息化研究
浦东新区| 秦皇岛市| 苏州市| 郁南县| 土默特右旗| 诏安县| 清水县| 夏邑县| 陇川县| 汪清县| 武冈市| 吴堡县| 莫力| 子洲县| 黄大仙区| 台北县| 墨竹工卡县| 满城县| 呼图壁县| 会泽县| 海南省| 大田县| 西青区| 宜君县| 长丰县| 台东市| 平邑县| 张北县| 龙山县| 平定县| 阳山县| 积石山| 双鸭山市| 三台县| 通州区| 扶余县| 高青县| 开江县| 桃源县| 锡林郭勒盟| 灯塔市|