王江海,武林仙,吳揚(yáng)揚(yáng)
(華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建廈門361021)
基于刻面的數(shù)據(jù)空間數(shù)據(jù)源管理子系統(tǒng)
王江海,武林仙,吳揚(yáng)揚(yáng)
(華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建廈門361021)
提出一種基于刻面描述的數(shù)據(jù)空間數(shù)據(jù)源描述模型(FADSM),實(shí)現(xiàn)數(shù)據(jù)空間對(duì)數(shù)據(jù)源“先有數(shù)據(jù),后在模式”的即插即用的管理模式.在數(shù)據(jù)空間原型系統(tǒng)架構(gòu)下,以FADSM模型為基礎(chǔ)構(gòu)建一個(gè)數(shù)據(jù)空間數(shù)據(jù)源管理子系統(tǒng).原型系統(tǒng)實(shí)現(xiàn)對(duì)數(shù)據(jù)空間中異構(gòu)異質(zhì)數(shù)據(jù)源內(nèi)部及外部屬性的提取,以Pay-As-You-Go的管理模式實(shí)現(xiàn)統(tǒng)一管理,并提供對(duì)數(shù)據(jù)源添加、刪除和瀏覽等基本管理功能.
數(shù)據(jù)空間;刻面;數(shù)據(jù)源管理;異構(gòu)異質(zhì)數(shù)據(jù)
信息技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展,在實(shí)現(xiàn)數(shù)據(jù)共享的同時(shí),也使用戶不得不面對(duì)大量的不斷快速增長的數(shù)據(jù).數(shù)據(jù)的海量、共享性及其多樣性使得傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理模式面臨著嚴(yán)峻的挑戰(zhàn).數(shù)據(jù)空間(dataspace)就是針對(duì)異構(gòu)異質(zhì)數(shù)據(jù)數(shù)據(jù)管理難的問題提出來的.與關(guān)系型數(shù)據(jù)庫區(qū)別的是,將數(shù)據(jù)加入到數(shù)據(jù)空間之前,無需像關(guān)系數(shù)據(jù)庫事先為其定義關(guān)系模式,而直接將數(shù)據(jù)源加入數(shù)據(jù)空間,并以Pay-As-You-Go模式實(shí)現(xiàn)數(shù)據(jù)的管理[1-3],使其更能適應(yīng)未來各種異構(gòu)異質(zhì)數(shù)據(jù)的管理需求.iDM(imemex data model)[4]是通過資源視力來描述數(shù)據(jù)源,但基于iQL查詢可能會(huì)很復(fù)雜;UDM(unified data model)[5]主要是關(guān)注桌面搜索的無法提供關(guān)系數(shù)據(jù)查詢;Triple Model[6]是基于RDF的,提供了強(qiáng)大的查詢能力,但不支持屬性查詢和不確定查詢,普通用戶使用比較困難;Probabilitstic Sematic Model[7]是基于概率的,能夠處理不確定數(shù)據(jù)源,但其擴(kuò)展性受到使用的集成方法的限制.基于任務(wù)的數(shù)據(jù)空間模型[8]只是從用戶任務(wù)方面考慮的,弱化了數(shù)據(jù)源內(nèi)容;PAD和CKP模型[9]使用了本體的概念,但其本體本身的建構(gòu)需要領(lǐng)域?qū)<业膮⑴c;RSM(refined standard model)[10]將數(shù)據(jù)空間看作是若干個(gè)資源的空間的集合,各個(gè)資源空間中有相同屬性的數(shù)據(jù)聚類,但卻忽略了不同類數(shù)據(jù)間的內(nèi)容間關(guān)聯(lián)性;LGDM(layered graph data model)[11]也是基于圖的模型,以對(duì)象的概念作為數(shù)據(jù)最小單元.若干屬性對(duì)數(shù)據(jù)源描述可以是對(duì)數(shù)據(jù)源的某方面特征的描述,而以上介紹的數(shù)據(jù)空間模型在描述數(shù)據(jù)源時(shí)多是將數(shù)據(jù)源看作簡單的屬性集合,忽略了屬性間的關(guān)系.為描述數(shù)據(jù)空間中的數(shù)據(jù),本文提出一種基于刻面描述的數(shù)據(jù)空間模型(FADSM模型),并在此模型上構(gòu)建了一個(gè)數(shù)據(jù)源管理子系統(tǒng).
在軟件構(gòu)件庫的分類模式中,刻面分類將對(duì)構(gòu)件描述的關(guān)鍵詞置于不同的語境,從而可以從多個(gè)視角來觀察構(gòu)件,以此來精確分類構(gòu)件.通常對(duì)數(shù)據(jù)源的描述是基于屬性集合的,即通過屬性名和屬性值元組的集合來完成.這種表達(dá)方式只是將數(shù)據(jù)源看做簡單的屬性集合,并沒有進(jìn)一步挖掘出屬性間的關(guān)系.文中對(duì)這些屬性進(jìn)行了進(jìn)一步的抽象,提取屬性之間的關(guān)系,將各個(gè)屬性劃入不同的刻面.
在基于刻面的概念下,通過數(shù)據(jù)源、刻面和屬性來描述數(shù)據(jù)源.數(shù)據(jù)源并非單獨(dú)存在的,它同時(shí)與其它數(shù)據(jù)存在著各種各樣的關(guān)聯(lián),如引用、具有相同的刻面等.因此,在對(duì)數(shù)據(jù)源描述時(shí)不能僅描述數(shù)據(jù)源內(nèi)部屬性的關(guān)系,還需要引入一個(gè)關(guān)系集來描述各種不同數(shù)據(jù)源之間的關(guān)系.即通過刻面、屬性和關(guān)系來描述數(shù)據(jù)空間中的數(shù)據(jù)源.
定義如圖1所示的數(shù)據(jù)空間的FADSM模型為Dsource=(ID,F(xiàn)S,A-VS).其中:ID是數(shù)據(jù)源的標(biāo)識(shí)符,表示數(shù)據(jù)的類別和存儲(chǔ)位置,類似于URL的表示方式;FS是數(shù)據(jù)源的刻面集合;A-VS是刻面所包含的內(nèi)容集合,包括了描述這個(gè)數(shù)據(jù)源的所有屬性及關(guān)系等.
圖1 FADSM模型示意圖Fig.1 Diagram of FADSM model
在FADSM模型中,屬性用來描述數(shù)據(jù)源對(duì)象的特性,如郵件用來描述文件的大小、位置、時(shí)間等,數(shù)據(jù)庫的表、列等,網(wǎng)頁的URL,Title等.對(duì)于用戶對(duì)數(shù)據(jù)源的自定義屬性,也用來作為對(duì)數(shù)據(jù)源的描述加以使用.刻面是指用戶觀察數(shù)據(jù)源的視角,如一張新聞網(wǎng)頁,從文件的角度看,它有網(wǎng)頁大小、網(wǎng)頁存放位置、網(wǎng)頁創(chuàng)建時(shí)間等屬性;從內(nèi)容的角度看,有新聞標(biāo)題、新聞?dòng)浾摺l(fā)生時(shí)間等屬性;而從網(wǎng)頁的角度看,則有URL地址,Title,相關(guān)頁等屬性.本模型可以為用戶提供從不同的角度瀏覽和查詢數(shù)據(jù).
在研制的數(shù)據(jù)源管理子系統(tǒng)中,對(duì)于常見的數(shù)據(jù)源,設(shè)置了兩個(gè)初始的刻面集及其屬性集,用戶可根據(jù)需要增加或修改.初始的刻面包括Basic基礎(chǔ)刻面和Content內(nèi)容刻面.表1是一些常見數(shù)據(jù)源的初始刻面集和屬性集.
表1 常見數(shù)據(jù)源初始刻面及屬性集Tab.1 Initial facets and attributes for common data sources
圖2 數(shù)據(jù)空間數(shù)據(jù)源管理子系統(tǒng)架構(gòu)圖Fig.2 Architecture of data management subsystem for dataspace
數(shù)據(jù)源管理子系統(tǒng)對(duì)加入數(shù)據(jù)空間的數(shù)據(jù)源自動(dòng)抽取其各個(gè)刻面的屬性,并建立其多刻面地描述模式.用戶不需要定義數(shù)據(jù)模式,就能對(duì)異構(gòu)異質(zhì)數(shù)據(jù)源的管理,實(shí)現(xiàn)數(shù)據(jù)源的瀏覽、查詢和檢索.
基于上述FADSM模型,構(gòu)建一個(gè)數(shù)據(jù)空間數(shù)據(jù)源管理子系統(tǒng),如圖2所示.系統(tǒng)通過對(duì)數(shù)據(jù)空間中異構(gòu)、異質(zhì)數(shù)據(jù)源內(nèi)部及外部屬性的自動(dòng)提取,以Pay-As-You-Go的管理模式實(shí)現(xiàn)數(shù)據(jù)源的統(tǒng)一管理,并提供了對(duì)數(shù)據(jù)源添加、刪除和瀏覽等基本管理功能,為將來數(shù)據(jù)空間索引及空間演化提供了基礎(chǔ).該系統(tǒng)主要由5個(gè)模塊組成,包括顯示模塊、數(shù)據(jù)源管理模塊、屬性存儲(chǔ)模塊、數(shù)據(jù)源自動(dòng)抽取模塊和數(shù)據(jù)源包裝模塊.
1)數(shù)據(jù)源包裝模塊.主要定義了文件、數(shù)據(jù)庫、郵件和xml等數(shù)據(jù)源的刻面描述信息的訪問方法.模塊向上提供對(duì)異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)信息及內(nèi)容的訪問接口,實(shí)現(xiàn)對(duì)數(shù)據(jù)源的統(tǒng)一訪問,在后續(xù)的新數(shù)據(jù)源中只需要實(shí)現(xiàn)元數(shù)據(jù)訪問接口就可以保證對(duì)新數(shù)據(jù)源的訪問.
2)數(shù)據(jù)源管理模塊.數(shù)據(jù)源管理模塊提供數(shù)據(jù)空間中數(shù)據(jù)源管理的主要功能,完成包括添加數(shù)據(jù)源、刪除數(shù)據(jù)源和瀏覽數(shù)據(jù)源3個(gè)主要業(yè)務(wù)邏輯.模塊實(shí)現(xiàn)了數(shù)據(jù)源加入到數(shù)據(jù)空間、利用屬性提取模塊抽取數(shù)據(jù)源屬性,以及向顯示模塊提供數(shù)據(jù)源刻面描述信息的查詢及內(nèi)部數(shù)據(jù)的瀏覽方法.
3)自動(dòng)提取模塊.包括對(duì)數(shù)據(jù)源外部信息和內(nèi)容信息的刻面描述的自動(dòng)抽取及數(shù)據(jù)源內(nèi)容的索引.模塊根據(jù)提供的數(shù)據(jù)源訪問信息判斷數(shù)據(jù)源類型,調(diào)用數(shù)據(jù)源包裝模塊提供的數(shù)據(jù)源訪問API,獲取數(shù)據(jù)源的刻面描述信息并存儲(chǔ).外部屬性的提取主要是針對(duì)數(shù)據(jù)源各種外部描述元數(shù)據(jù)的提取;對(duì)于內(nèi)部內(nèi)容信息的抽取,通過基于加權(quán)重規(guī)則統(tǒng)計(jì)、貝葉斯分類模型和支持向量機(jī)模型結(jié)合的機(jī)器學(xué)習(xí)方法,對(duì)標(biāo)題、作者、關(guān)鍵字、主題和語言等數(shù)據(jù)信息進(jìn)行提取,同時(shí)通過Lucene工具對(duì)數(shù)據(jù)源內(nèi)容進(jìn)行索引,方便查詢.
4)存儲(chǔ)模塊.使用刻面描述模型對(duì)數(shù)據(jù)源以數(shù)據(jù)源、刻面、屬性3個(gè)層次來描述并存儲(chǔ),并提供對(duì)這些信息的查詢方法.這種存儲(chǔ)方式與數(shù)據(jù)源本身的異構(gòu)性無關(guān),具有良好的擴(kuò)展性能,對(duì)數(shù)據(jù)源信息的變更不影響存儲(chǔ)的本身結(jié)構(gòu).同時(shí),屬性的存儲(chǔ)的訪問接口提供了對(duì)插入數(shù)據(jù)源屬性到屬性存儲(chǔ)的訪問方法,保證了屬性自動(dòng)提取模塊的相對(duì)存儲(chǔ)的獨(dú)立性.
5)顯示模塊.提供用戶將數(shù)據(jù)空間外部的數(shù)據(jù)源加入到管理子系統(tǒng)中、數(shù)據(jù)空間內(nèi)部數(shù)據(jù)源移除據(jù)空間管理等操作的用戶界面,并提供對(duì)數(shù)據(jù)源刻面描述信息的瀏覽(數(shù)據(jù)源的刻面名、刻面集合等)及數(shù)據(jù)源內(nèi)容查看的界面.
數(shù)據(jù)空間數(shù)據(jù)源管理子系統(tǒng)的系統(tǒng)界面共分為4部分.最上層是系統(tǒng)的菜單欄和工具欄,提供數(shù)據(jù)空間原型系統(tǒng)的基本功能的入口,包括數(shù)據(jù)源添加和刪除、數(shù)據(jù)源索引、數(shù)據(jù)空間配置等功能入口;左邊樹型結(jié)構(gòu)區(qū)域是數(shù)據(jù)空間中數(shù)據(jù)源樹型瀏覽區(qū),提供數(shù)據(jù)空間中所有數(shù)據(jù)源的瀏覽入口;右邊窗口上部是數(shù)據(jù)空間的查詢?nèi)肟冢峁?shù)據(jù)源空間的關(guān)鍵字查詢;右下部是內(nèi)容顯示區(qū),提供數(shù)據(jù)源內(nèi)容、關(guān)鍵字查詢、基于用戶活動(dòng)的查詢結(jié)果等內(nèi)容的顯示.
在實(shí)驗(yàn)中,將236個(gè)普通文件(74.5 Mb)、262封郵件(20.4 Mb)、8個(gè)數(shù)據(jù)庫(435.4 Mb)和78個(gè)xml數(shù)據(jù)文件(52.2 Mb)共4類異構(gòu)異質(zhì)數(shù)據(jù)源加入到數(shù)據(jù)空間中進(jìn)行管理.用戶通過菜單欄中的數(shù)據(jù)源菜單下的添加數(shù)據(jù)源菜單,進(jìn)入數(shù)據(jù)源添加窗口;窗口提供了多種異構(gòu)數(shù)據(jù)源的添加功能,用戶只需要選擇相應(yīng)的數(shù)據(jù)源,并提供訪問時(shí)所需要的連接信息;點(diǎn)擊確定后,系統(tǒng)將在后臺(tái)自動(dòng)抽取數(shù)據(jù)源刻面信息,并對(duì)數(shù)據(jù)源內(nèi)容進(jìn)行索引.數(shù)據(jù)源加入數(shù)據(jù)空間后,用戶瀏覽系統(tǒng)抽取的數(shù)據(jù)源的刻面描述信息,如圖3所示.對(duì)于加入到數(shù)據(jù)空間數(shù)據(jù)源管理子系統(tǒng)的數(shù)據(jù)源,用戶可以通過上面的查詢框中,輸入刻面信息的關(guān)鍵字來查詢相關(guān)的數(shù)據(jù)源.
圖3 數(shù)據(jù)空間數(shù)據(jù)源刻面瀏覽Fig.3 Data resource facet browse for dataspace
提出了一種基于刻面描述的數(shù)據(jù)空間數(shù)據(jù)源描述模型(FADSM),并在此基礎(chǔ)上利用Java語言的優(yōu)勢(shì)構(gòu)建了一個(gè)數(shù)據(jù)源管理子系統(tǒng),實(shí)現(xiàn)了對(duì)數(shù)據(jù)空間中異構(gòu)異質(zhì)數(shù)據(jù)的統(tǒng)一管理.雖然系統(tǒng)未實(shí)現(xiàn)對(duì)空間中數(shù)據(jù)源變化的監(jiān)控及空間的進(jìn)化,但統(tǒng)一的管理方法及數(shù)據(jù)源的存儲(chǔ)方法為將來數(shù)據(jù)空間索引及空間演化提供了基礎(chǔ).
實(shí)驗(yàn)結(jié)果表明:FADSM模型滿足了數(shù)據(jù)空間對(duì)異構(gòu)異質(zhì)數(shù)據(jù)源的統(tǒng)一管理的要求.數(shù)據(jù)源管理子系統(tǒng)通過預(yù)先對(duì)數(shù)據(jù)源的基礎(chǔ)刻面的抽取提供數(shù)據(jù)源的基本管理功能.下一步的工作,將是完成對(duì)數(shù)據(jù)源的監(jiān)控和挖掘的數(shù)據(jù)源間關(guān)系,以實(shí)現(xiàn)數(shù)據(jù)空間的演化,為用戶提供更強(qiáng)大的服務(wù).
[1] FRANKLIN M,HALEVY A,MAIER D.From databases to dataspaces:A new abstraction for information management[J].ACM SIGMOD Record,2005,34(4):27-33.
[2] HALEVY A,F(xiàn)RANKLIN M,MAIER D.Principles of dataspace systems[C]∥25th International Conference on Management of Data Principles of Database Systems.Chicago:ACM SIGMOD,2006:1-9.
[3] HALEVY A,F(xiàn)RANKLIN M,MAIER D.Dataspaces:A new abstraction for information management[C]∥25th International Conference on Management of Data Principles of Database Systems.Chicago:ACM SIGMOD,2006:1-2.
[4] DITTRICH J P,SALLES M A V.iDM:A unified and versatile data model for personal dataspace management[C]∥Proceedings of the 32nd International Conference on Very Large Data Bases.Seoul:[s.n.],2006:367-378.
[5] PRADHAN S.Towards a novel desktop search technique[C]∥Proceedings of 18th International Conference on Database and Expert Systems Applications.Regensburg:[s.n.],2007:192-201.
[6] ZHONG Ming,LIU Meng-chi,CHEN Qian.Modeling heterogeneous data in dataspace[C]∥IEEE International Conference on Information Reuse and Integration.Las Vegas:[s.n.],2008:404-409.
[7] SARMA A D,DONG X L,HALEVY A Y.Data modeling in dataspace support platforms[J].Conceptual Modeling:Foundations and Applications,2009,5600:122-138.
[8] 寇玉波,李玉坤,孟小峰,等.個(gè)人數(shù)據(jù)空間管理中的任務(wù)挖掘策略[J].計(jì)算機(jī)研究與發(fā)展,2009,46(增刊2):446-452.
[9] 董彥磊,申德榮,寇月,等.數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關(guān)聯(lián)關(guān)系發(fā)現(xiàn)模型的研究[J].計(jì)算機(jī)研究與發(fā)展,2009,46(增刊2):191-199.
[10] JIANG Xiao-rui,SUN Xiao-ping,ZHUGE Hai.A Resource space model for dataspace[C]∥Sixth International Conference on Semantics,Knowledge and Grids.Washington D C:IEEE Computer Society,2010:33-41.
[11] YANG Dan,SHEN De-rong,NIE Tie-zheng,et al.Layered graph data model for data management of dataspace support platform[J].Web-Age Information Management,2011,6897:353-365.
A Data sources Management Subsystem for Dataspace Based on Facets
WANG Jiang-h(huán)ai,WU Lin-xian,WU Yang-yang
(College of Computer Science and Technology,Huaqiao University,Xiamen 361021,China)
A facet-based attributes dataspace model(FADSM)is proposed in this article,which implements data-first management model.In the architecture of dataspace prototype,we design a subsystem for data sources management in dataspace based on FADSM.Our system achieves to extract the internal and external attributes of heterogeneous data in dataspace and manage data in Pay-As-You-Go style.It also implements the basic functions to add,delete and browse data sources in dataspace,which provides a basis for data indexing and evolution in dataspace.
dataspace;facets;data source management;heterogeneous data
TP 311.13
A
(責(zé)任編輯:陳志賢 英文審校:吳逢鐵)
1000-5013(2012)05-0509-04
2012-03-24
吳揚(yáng)揚(yáng)(1957-),女,教授,主要從事數(shù)據(jù)庫和數(shù)據(jù)挖掘的研究.E-mail:wuyy@hqu.edu.cn.
福建省科技計(jì)劃重大項(xiàng)目(2011H6016,2011H0028)