余肖生,田智星,余 梅,2
(1.三峽大學(xué)計(jì)算機(jī)與信息學(xué)院,湖北宜昌 443002;2.武漢大學(xué)信息管理學(xué)院,武漢 430072)
目前,全球信息量以每年30%的速度增長,且這個(gè)速度還將上升[1]。大數(shù)據(jù)已成為各行業(yè)發(fā)展面臨的“新常態(tài)”[2]。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的互聯(lián)網(wǎng)或企業(yè)內(nèi)部網(wǎng)的可用數(shù)據(jù)源通過網(wǎng)絡(luò)連接,通過一個(gè)一致的接口訪問這些信息源的所有需求已成為信息融合領(lǐng)域研究的背后推動(dòng)力量[3],而信息源中的數(shù)據(jù)呈現(xiàn)出異構(gòu)性、分布性、自治性等特點(diǎn)[1]。在大數(shù)據(jù)環(huán)境下,如何高效地進(jìn)行信息融合已成為信息資源有效利用的主要瓶頸。國內(nèi)外學(xué)者在信息資源融合方面進(jìn)行了有效的探索,并取得了一定的研究進(jìn)展。本文從信息融合架構(gòu)、信息融合模型、信息融合方法、信息融合技術(shù)、信息融合層次等5個(gè)方面對信息融合領(lǐng)域進(jìn)行總結(jié)和分析,指出該領(lǐng)域研究的主要特點(diǎn)和趨勢,以期對信息融合領(lǐng)域的研究發(fā)展提供一些借鑒和啟示。
信息融合是為綜合信息系統(tǒng)的用戶提供多個(gè)數(shù)據(jù)源的統(tǒng)一視圖的過程[4]。從數(shù)據(jù)的來源看,既有來自傳感器的流媒體數(shù)據(jù),也有來自互聯(lián)網(wǎng)的半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),還有來自各類數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)。本文主要針對結(jié)構(gòu)化數(shù)據(jù)的融合架構(gòu)、模型、方法、技術(shù)等進(jìn)行綜述。
目前的信息融合基本架構(gòu)主要有2種,即虛擬化架構(gòu)和物化架構(gòu)。在虛擬化架構(gòu)中,一個(gè)數(shù)據(jù)融合系統(tǒng)可以形式化地定義為一個(gè)三元組〈G,S,M〉,其中G是全局或中介模式,S是異構(gòu)源模式集合,M是源和全局模式之間查詢的映射[5-6]。在虛擬化環(huán)境中,數(shù)據(jù)存在于單獨(dú)的數(shù)據(jù)源中。虛擬層是一個(gè)屬于所有數(shù)據(jù)來源的虛擬模式。當(dāng)系統(tǒng)收到虛擬層定義的用戶查詢時(shí),先判定將被查詢的相關(guān)數(shù)據(jù)源,然后根據(jù)不同的數(shù)據(jù)源將查詢分解成不同的子查詢。子查詢由合適的數(shù)據(jù)源執(zhí)行,再將各數(shù)據(jù)源響應(yīng)的結(jié)果進(jìn)行適當(dāng)?shù)慕Y(jié)合后返回用戶[7]。這種架構(gòu)的優(yōu)點(diǎn)在于返回給用戶的數(shù)據(jù)總是當(dāng)前最新數(shù)據(jù)。然而,最大的挑戰(zhàn)是如何定義每個(gè)數(shù)據(jù)源和虛擬層之間的映射[8]。虛擬化架構(gòu)的設(shè)計(jì)和實(shí)現(xiàn)有2個(gè)主要策略,即全局視圖(GAV)和本地視圖(LAV)。GAV是將各本地?cái)?shù)據(jù)源的局部視圖映射到全局視圖,即全局模式被描述為源模式上的一組視圖,如圖1所示[9-10]。用戶查詢直接作用于定義在數(shù)據(jù)源模式上的全局視圖。GAV的優(yōu)點(diǎn)是查詢效率較高,缺點(diǎn)是用這種方法構(gòu)建出來的映射關(guān)系的可擴(kuò)展性較差,不適合數(shù)據(jù)源存在動(dòng)態(tài)變化的情況。LAV是將全局視圖映射到各數(shù)據(jù)源上的本地局部視圖,即各數(shù)據(jù)源模式被描述為全局模式上的視圖,如圖2所示。當(dāng)用戶提交某個(gè)查詢時(shí),中介系統(tǒng)通過整合不同的數(shù)據(jù)源視圖決定如何應(yīng)答查詢。這種方法可看作利用視圖回答查詢。該方法的優(yōu)點(diǎn)是映射關(guān)系的可擴(kuò)展性好,適合于信息源變化比較大的情況,缺點(diǎn)是可能會(huì)造成“信息遺失”、信息查詢效率低。考慮到LAV和GAV固有的局限,很多研究者試圖創(chuàng)造一種包含兩者優(yōu)勢、同時(shí)可克服兩者劣勢的“混合”方法,即GLAV[11]。
在物化架構(gòu)中,將數(shù)據(jù)在全局層面進(jìn)行實(shí)體化通常應(yīng)用于數(shù)據(jù)倉庫,且沒有任何非結(jié)構(gòu)化信息。該架構(gòu)面臨的挑戰(zhàn)是一系列實(shí)體化視角的選定,另一問題是增量視圖的維護(hù)。當(dāng)?shù)讓訑?shù)據(jù)源發(fā)生改變時(shí),需要一個(gè)有效的方式維持實(shí)體化視圖。數(shù)據(jù)倉庫方法合并來自多個(gè)源數(shù)據(jù)的數(shù)據(jù)庫,數(shù)據(jù)必須經(jīng)過抽取、轉(zhuǎn)換、加載(ETL)才能進(jìn)入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫在解決數(shù)據(jù)融合問題的同時(shí),也存在自身的問題。數(shù)據(jù)倉庫的主要難點(diǎn)是維護(hù)數(shù)據(jù)倉庫和底層數(shù)據(jù)源之間的同步。一般地,有2種主要方法用于解決該問題:①周期性地重建整個(gè)數(shù)據(jù)倉庫;②檢測來源的變化,然后相應(yīng)地更新[7]。
圖1 GAV
圖2 LAV
Kangchan Lee等[12-13]根據(jù)互聯(lián)網(wǎng)信息資源融合需求,提出了基于XML的中介框架(XMF)模型。它采用中介器-封裝器體系結(jié)構(gòu),使用XML描述信息資源和映射規(guī)則,為最終用戶提供一個(gè)融合的基礎(chǔ)信息來源;王寧[14]以E-R-P信息管理模型為基礎(chǔ),提出了以實(shí)體管理、關(guān)系管理、問題管理以及元數(shù)據(jù)管理為核心組件的信息資源整合平臺(tái);黃萃[15]以電子政務(wù)信息流程為基礎(chǔ),構(gòu)建了基于門戶網(wǎng)站的電子政務(wù)信息資源整合機(jī)制模型;Ananthanarayanan等[16]為跨多個(gè)非結(jié)構(gòu)化的數(shù)據(jù)源提供了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的相似性發(fā)現(xiàn)方法,以便被發(fā)現(xiàn)的信息能與現(xiàn)有結(jié)構(gòu)化信息的模式融合,從而允許同時(shí)在結(jié)構(gòu)化和文本數(shù)據(jù)上查詢;文獻(xiàn)[17]提出了基于本體的信息融合模型[17];Brzykcy[18]在 SIXP2P 系統(tǒng)中提出了基于XML數(shù)據(jù)的語義融合模型;Kim等[19]提出了模型驅(qū)動(dòng)的數(shù)據(jù)融合(MDDI)模型,通過分離數(shù)據(jù)和元數(shù)據(jù)降低了數(shù)據(jù)融合的復(fù)雜性,從而有效地解決了數(shù)據(jù)整合的問題;張玉濤等[20]提出了基于主題圖的電子政務(wù)信息資源整合模型,并對模型在Metamorphosis主題圖環(huán)境中的處理流程和實(shí)際實(shí)施進(jìn)行了初步的探討;羅賢春等[21]提出了基于共享目錄的電子政務(wù)信息資源整合模型。
基于中介器的方法[22]:該方法是被許多融合框架采用的最著名的方法之一。它提出了中介器的使用,一個(gè)系統(tǒng)負(fù)責(zé)把一個(gè)單一模式上形成的用戶查詢重新表述成底層數(shù)據(jù)源在本地模式上的查詢。這些數(shù)據(jù)源包含實(shí)際的數(shù)據(jù),而全局模式提供了底層數(shù)據(jù)源的一個(gè)協(xié)調(diào)、融合、虛擬的視圖。映射可以通過采用GAV或LAV來完成。當(dāng)融合的數(shù)據(jù)源是已知和穩(wěn)定時(shí),宜采用GAV;而融合的數(shù)據(jù)源是大規(guī)模和臨時(shí)時(shí),宜采用LAV。
基于本體的方法[23-25]:語義(數(shù)據(jù)融合的一個(gè)重要組件)的普及為基于本體的方法做了鋪墊。協(xié)調(diào)跨多個(gè)概念的異構(gòu)模式中本體的使用已經(jīng)被語義網(wǎng)研究社區(qū)廣泛關(guān)注。該方法以數(shù)據(jù)對象為基本元素,利用數(shù)據(jù)對象和領(lǐng)域本體之間的映射關(guān)系來表達(dá)數(shù)據(jù)對象的語義,使用嵌套關(guān)系模型來表達(dá)數(shù)據(jù)對象的模式信息,通過把一個(gè)網(wǎng)格節(jié)點(diǎn)中集成的所有數(shù)據(jù)對象作為下一個(gè)節(jié)點(diǎn)的數(shù)據(jù)對象來實(shí)現(xiàn)數(shù)據(jù)資源由粗到細(xì)的融合。
基于導(dǎo)航的方法:也被稱為基于鏈接的方法[26]。它基于這樣一個(gè)事實(shí):網(wǎng)絡(luò)上越來越多的數(shù)據(jù)源要求用戶手動(dòng)瀏覽一些網(wǎng)頁,以獲取所需的信息。純導(dǎo)航融合消除了數(shù)據(jù)的關(guān)系建模,在這個(gè)模型中,數(shù)據(jù)源被定義為網(wǎng)頁、它們之間的聯(lián)系和具體入口點(diǎn)的集合。另外,還包括一些附加信息,如內(nèi)容、路徑約束和強(qiáng)制輸入?yún)?shù)。在深網(wǎng)絡(luò)的信息融合中,這種方法被認(rèn)為是至關(guān)重要的[27],它需要抽取隱藏在 Web查詢接口后的數(shù)據(jù)。然而,維持以一定速度變化的網(wǎng)絡(luò)資源之間的關(guān)系是一項(xiàng)艱巨的任務(wù),在當(dāng)前網(wǎng)絡(luò)環(huán)境下,這種方法被認(rèn)為不可行。
聯(lián)邦數(shù)據(jù)庫方法[28]:開發(fā)的前提是回答查詢所需的信息直接來自數(shù)據(jù)源。因此,查詢結(jié)果發(fā)布時(shí),其總是關(guān)于數(shù)據(jù)源的最新的內(nèi)容。更重要的是,數(shù)據(jù)庫聯(lián)邦方法更易適應(yīng)應(yīng)用程序要求用戶能夠強(qiáng)加自己的本體到分布式自治信息源的數(shù)據(jù)上的情形。當(dāng)數(shù)據(jù)源是自治的,并需要支持多個(gè)本體時(shí),聯(lián)邦方法是首選。然而,當(dāng)查詢頻率遠(yuǎn)高于底層數(shù)據(jù)源的變化頻率時(shí),這種方法是失敗的。
基于數(shù)據(jù)倉庫的方法[29]:該方法的基礎(chǔ)是傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)。來自異構(gòu)的分布式信息源的數(shù)據(jù)映射到一個(gè)共同的結(jié)構(gòu)并存儲(chǔ)在一個(gè)集中的位置。為了確保數(shù)據(jù)倉庫中的信息能反映單個(gè)數(shù)據(jù)源的當(dāng)前內(nèi)容,有必要定期更新數(shù)據(jù)倉庫。
信息融合主要涉及沖突解決、數(shù)據(jù)合并等技術(shù)。數(shù)據(jù)沖突主要有2種類型:不確定性和矛盾。不確定性是所有用來描述現(xiàn)實(shí)世界實(shí)體的相同屬性的一個(gè)非空值和一個(gè)或多個(gè)空值之間的沖突。不確定性由于缺少信息(例如在一個(gè)數(shù)據(jù)源中的空值或數(shù)據(jù)源中完全缺失的屬性)而引起。矛盾用來描述相同實(shí)體的同一屬性的兩個(gè)或兩個(gè)以上的不同的非空值之間的沖突。矛盾是現(xiàn)實(shí)世界實(shí)體的相同屬性由不同數(shù)據(jù)源提供了不同的值而引起的。解決數(shù)據(jù)沖突的策略主要有沖突忽略策略、沖突避免策略、沖突解決策略[3]。數(shù)據(jù)合并技術(shù)主要有連接、并等關(guān)系運(yùn)算符。然而,它們不能很好地處理數(shù)據(jù)合并。因此,產(chǎn)生了為完成數(shù)據(jù)融合而特別設(shè)計(jì)的操作符,例如匹配連接(match join)[30]、完全析取(full disjunction)[31-32]。另外,還有模式匹配和模式映射等相關(guān)技術(shù)。
信息融合是在幾個(gè)層次上完成對多源信息的處理過程,其中每一層次都表示不同級(jí)別的信息抽象。信息融合的結(jié)果包括較低層次上的狀態(tài)和身份估計(jì),以及較高層次上的整個(gè)戰(zhàn)術(shù)態(tài)勢估計(jì)[33]。曹建君[34]將信息融合劃分為原始數(shù)據(jù)融合或像元級(jí)融合(pixel based)、目標(biāo)級(jí)或特征級(jí)融合(feature based)以及決策級(jí)融合(decision leve1)3個(gè)層次。Hu Jiaqi[35]把信息融合劃分為數(shù)據(jù)層融合、特征層融合、相似度層融合和決策層融合4個(gè)層次。
從研究現(xiàn)狀看,信息融合的架構(gòu)主要有虛擬化和物化2種。物理化已成為互聯(lián)網(wǎng)發(fā)展的新趨勢[36]?;跀?shù)據(jù)倉庫的信息融合方法根據(jù)決策需求抽取來自不同數(shù)據(jù)源中的相關(guān)數(shù)據(jù),將其轉(zhuǎn)換成數(shù)據(jù)倉庫中數(shù)據(jù)的統(tǒng)一格式,并儲(chǔ)存在一個(gè)集中的位置。大數(shù)據(jù)環(huán)境下,這一信息融合的物理化方法已經(jīng)逐步成為信息融合的主流方法。
目前,中國移動(dòng)互聯(lián)網(wǎng)用戶數(shù)已經(jīng)超過5億,流量幾乎每年翻番。大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)和應(yīng)用從概念上的討論變成了現(xiàn)實(shí)[37]。為了準(zhǔn)確獲取用戶行為習(xí)慣,需要從這些大數(shù)據(jù)中融合與用戶行為相關(guān)的數(shù)據(jù),并加以處理、分析。大數(shù)據(jù)已成為信息資源融合的新常態(tài)。
現(xiàn)有信息融合的步驟較多,且通常非常復(fù)雜,整個(gè)融合過程的每一步都需要大量的人工干預(yù)。同時(shí),信息融合過程非常脆弱,如果融合對象中的某一個(gè)數(shù)據(jù)源的結(jié)構(gòu)發(fā)生變化,則整個(gè)融合過程需要重新設(shè)計(jì)。因此,現(xiàn)有方法效率較低,錯(cuò)誤也不可避免。實(shí)現(xiàn)人工可控、系統(tǒng)自主的全自動(dòng)化的信息融合已經(jīng)成為用戶的新期待,也是信息融合領(lǐng)域發(fā)展的新挑戰(zhàn)。
[1]XIN LUNA DONG,F(xiàn)ELI NAUMANN.Data fusion-resolving data conflicts for integration[C]//VLDB 2009.France:[s.n.],2009,1654-1655.
[2]JORGE A.LOPEZ.Data Integration:2013’s Top 3 Trends[EB/OL].[2015-02-12].http://tdwi.org/Articles/2013/01/08/Data-Integration-2013-Top-Trends.aspx?Page=2.
[3]BLEIHOLDER J,NAUMANN F.Data fusion[J].ACM CSUR,2008(1):1-41.
[4]BLEIHOLDER J,SZOTT S,HERSCHEL M.Subsumption and Complementation as Data Fusion Operators[C]//EDBT 2010.Switzerland:[s.n.],2010:513-524.
[5]LENZERINI M.Data integration:a theoretical perspective[C]//PODS 2002.USA:[s.n.],2002:233-246.
[6]XU L,EMBLEY D W.Combining the Best Globa-as-View and Local-as-View for Data Integration[C]//ISTA 2004.[S.L.]:[s.n.],2004:123-135.
[7]BENNETT T A,BAYRAK C.Bridging The Data Integration Gap:From Theory to Implementation[J].ACM SIGSOFT Software Engineering Notes,2011(3):1-8.
[8]MOHANIA M,BHIDE M.New Trends in Information Integration[C]//ICUIMC2008.Korea:[s.n.],2008:74-81.
[9]AMIT P S,JAMES A L.Federated Database Systems for Managing Distributed,Heterogeneous,and Autonomous Databases[J].ACM Computing Surveys,1990(3):183-236.
[10]ALON Y H,RAJARAMAN A,JOANN J O.Data Integration:The Teenage Years[J].VLDB,2006:9-16.
[11]XU L,EMBLEY D W.Combining the Best Globa-as-View and Local-as-View for Data Integration[C]//ISTA 2004.[S.L.]:[s.n.],2004:123-135.
[12]KANGCHAN L,JAE HONG M,KISHIK P,et al.A Design and Implementation of XML-Based Mediation Framework(XMF)for Integration of Internet Information Resources[C]//HICSS 2002.USA:[s.n.],2002:202.
[13]SEONG-JOON Y,KANGCHAN L,KYUCHUL L.An XML-Based Mediation Framework for Seamless Access to Heterogeneous Internet Resources[C]//ICOIN 2003.Korea:[s.n.],2003:396-405.
[14]王寧.電子政務(wù)中信息資源整合的建模方法與應(yīng)用研究[D].大連:大連理工大學(xué),2005.
[15]黃萃.基于門戶網(wǎng)站的電子政務(wù)信息資源整合機(jī)制研究[D].武漢:武漢大學(xué),2005.
[16]ANANTHANARAYANAN R,BALAKRISHNAN S.Unstructured information integration through data-driven similarity discovery[C]//IJCAI 2009.USA:[s.n.],2009:1-6.
[17]馬小軍,李廣建.基于本體的數(shù)字資源整合方法與技術(shù)[J].情報(bào)科學(xué),2010(10):1541-1546.
[18]BRZYKCY G.Data Integration in a System with Agents’Models[C]//KES-AMSTA 2008.Korea:[s.n.],2008:162-171.
[19]KIM H,YING ZHANG,SAMIA OUSSENA,et al.A Case Study on Model Driven Data Integration for Data Centric Software Development[C]//DSMM2009.USA:[s.n.],2009:1-5.
[20]張玉濤,夏立新.基于主題圖的電子政務(wù)信息資源整合模型研究[J].情報(bào)雜志,2009(7):161-165.
[21]羅賢春,文庭孝,張新宇.電子政務(wù)信息資源共享與社會(huì)化服務(wù)研究[M].北京:人民出版社,2012.
[22]LIU L,PU C,LEE Y.An Adaptive Approach to Query Mediation AcrossHeterogeneousInformation Sources[C]//CoopIS 1996.Belgium:[s.n.],1996:144-156.
[23]NOY N F.Semantic Integration:A Survey Of Ontology-Based Approaches[J].SIGMOD Record,2004(4):65-70.
[24]DOERR M,HUNTER J,LAGOZE C.Towards a Core Ontology for Information Integration[J].Journal of Digital Information,2003(1):1-22.
[25]劉波,齊德昱,林偉偉,等.基于本體的語義數(shù)據(jù)融合方法[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2009(1):96-101.
[26]FRIEDMAN M,LEVY A Y,MILLSTEIN T D.Navigational Plans For Data Integration[C]//AAAI/IAAI 1999.USA:[s.n.],1999:67-73.
[27]HE B,PATEL M,CHANG C C,et al.Accessing the Deep Web:A Survey[J].Communications of The ACMCACM,2007(5):94-101.
[28]SHETH A P,LARSON J A.Federated Database Systems for Managing Distributed,Heterogeneous,and Autonomous Databases[J].ACM Computing Survey,1990(3):183-236.
[29]FLORESCU D,LEVY A,MENDELZON A.Database techniques for the world-wide web:A survey[J].SIGMOD Record,1998(3):59-74.
[30]YAN L L,?ZSU M T.Conflict tolerant queries in AURORA[J].IEEE Computer Society,1999(1):279.
[31]COHEN S,F(xiàn)ADIDA I,KANZA Y,et al.Full disjunctions:Polynomial-delay iterators in action[C]//VLDB2006.Korea:[s.n.],2006:739-750.
[32]COHEN S,SAGIV Y.An incremental algorithm for computing ranked full disjunctions[C]//PODS 2005.USA:[s.n.],2005:98-107.
[33]化柏林.多源信息融合方法研究[J].多源信息融合方法研究,2013(11):16-19.
[34]曹建君,李景相,蔡喜琴,等.基于信息融合理論的省情信息融合研究[J].遙感技術(shù)與應(yīng)用,2006(4):368-371.
[35]HU Jiaqi.DATA FUSION:A FIRST STEP IN DECISION FORMATICS[D].Troy:Rensselaer Polytechnic Institute,2008.
[36]張亞勤.互聯(lián)網(wǎng)物理化已經(jīng)成為新趨勢[N].人民日報(bào),2015-01-08(19).
[37]鄔賀銓.移動(dòng)互聯(lián)網(wǎng)已進(jìn)入“大智移云”時(shí)代[N].人民日報(bào),2015-01-23(20).