国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

概率XM L數(shù)據(jù)模型的綜述

2011-06-09 10:14:42殷麗鳳
電子設(shè)計(jì)工程 2011年23期
關(guān)鍵詞:數(shù)據(jù)模型數(shù)據(jù)管理實(shí)例

殷麗鳳,金 花,田 宏

(大連交通大學(xué) 軟件學(xué)院,遼寧 大連 116028)

在許多應(yīng)用中,如傳感器網(wǎng)絡(luò)[1]、無線射頻識(shí)別技術(shù)[2]、數(shù)據(jù)集成[3]、基于位置的服務(wù)[4]等領(lǐng)域都涉及不確定數(shù)據(jù)。不確定數(shù)據(jù)普遍存在,傳統(tǒng)的數(shù)據(jù)管理技術(shù)無法有效管理不確定性數(shù)據(jù),不確定數(shù)據(jù)的管理技術(shù)成為新的研究領(lǐng)域。針對(duì)不確定數(shù)據(jù)的研究工作已有幾十年的歷史,自二十世紀(jì)八十年代末開始,針對(duì)概率數(shù)據(jù)庫的研究工作從未間斷,研究者把概率信息引入關(guān)系數(shù)據(jù)模型中(稱為概率關(guān)系數(shù)據(jù)庫),對(duì)其概率關(guān)系數(shù)據(jù)模型、概率關(guān)系代數(shù)、查詢技術(shù)、查詢優(yōu)化、集成技術(shù)等領(lǐng)域進(jìn)行了研究[5-10],如今該類數(shù)據(jù)庫的管理技術(shù)取得了很大進(jìn)展。

隨著網(wǎng)絡(luò)應(yīng)用的快速發(fā)展,可擴(kuò)展標(biāo)識(shí)語言XML(eXtensible Markup Language)已成為Internet上信息表示和數(shù)據(jù)交換的標(biāo)準(zhǔn),在網(wǎng)絡(luò)服務(wù)、電子商務(wù)、電子數(shù)據(jù)交換、科學(xué)數(shù)據(jù)表示、數(shù)據(jù)建模與分析、智能體和搜索引擎等領(lǐng)域得到了廣泛的應(yīng)用,XML技術(shù)也日益受到更廣泛的關(guān)注,XML數(shù)據(jù)庫的管理技術(shù)也不斷得到成熟和完善。由于不確定數(shù)據(jù)的普遍存在性,通常不確定信息以概率信息的形式在XML中表示,因此,研究表示和處理概率XML數(shù)據(jù)成為一個(gè)新的研究領(lǐng)域。XML的半結(jié)構(gòu)化、自描述性好及可擴(kuò)展性高等優(yōu)點(diǎn)使其在概率數(shù)據(jù)表示上比概率關(guān)系模型占優(yōu)勢(shì)。因此,近些年概率XML數(shù)據(jù)管理技術(shù)成為研究熱點(diǎn)。文中綜述了概率XML數(shù)據(jù)、概率XML數(shù)據(jù)模型以及不同模型之間的轉(zhuǎn)換關(guān)系等方面的工作,討論目前存在的主要問題和進(jìn)一步的研究方向。

1 概率XM L數(shù)據(jù)

XML數(shù)據(jù)通??梢杂梦臋n樹來描述,概率XML數(shù)據(jù)是把概率信息加入到文檔樹中,稱為概率XML文檔樹。在概率XML文檔樹中,包含兩種類型的節(jié)點(diǎn),一種為普通節(jié)點(diǎn),描述實(shí)際的數(shù)據(jù);一種為分布節(jié)點(diǎn),描述概率數(shù)據(jù)。為了描述不同離散類型和連續(xù)類型的概率分布,分布節(jié)點(diǎn)分為以下6種類型。

1)獨(dú)立類型節(jié)點(diǎn)ind[11-12],ind節(jié)點(diǎn)的孩子節(jié)點(diǎn)在概率XML文檔樹中的出現(xiàn)是獨(dú)立的,不受其他節(jié)點(diǎn)影響。若ind節(jié)點(diǎn)v選擇孩子w的概率為p(w),則v選擇孩子的子集C的概率為,表示v的孩子不在C中的節(jié)點(diǎn)集合。

2)互斥類型節(jié)點(diǎn)mux[11-12],mux節(jié)點(diǎn)的孩子節(jié)點(diǎn)只能出現(xiàn)一個(gè),或者全不出現(xiàn)。若mux節(jié)點(diǎn)v的孩子w1,…,wn的概率分別為 p(w1),…,p(wn),滿足(wi)≤1。 節(jié)點(diǎn) v 的孩子全不出現(xiàn)的概率為1-(wi)。

3)事件驅(qū)動(dòng)類型節(jié)點(diǎn)cie[13-14],cie節(jié)點(diǎn)的存在是由獨(dú)立的外部事件變量e1,…,em決定的,外部事件變量e1,…,em的發(fā)生與否決定cie節(jié)點(diǎn)的存在性。

4)組合類型節(jié)點(diǎn)exp[15-16],exp節(jié)點(diǎn)有多個(gè)孩子節(jié)點(diǎn),可以選擇不同的孩子節(jié)點(diǎn)組成exp的孩子節(jié)點(diǎn)的集合,若exp的孩子節(jié)點(diǎn)的不同子集 c1,c2,…,cn的概率分別為 p(c1),p(c2),…,p(cn),要求

5)確定類型節(jié)點(diǎn)det,det節(jié)點(diǎn)的孩子節(jié)點(diǎn)必須全部出現(xiàn)。它是上面4種類型節(jié)點(diǎn)的特例。

6)連續(xù)概率分布節(jié)點(diǎn)cont[17],cont節(jié)點(diǎn)描述了此節(jié)點(diǎn)服從的連續(xù)概率分布,如二項(xiàng)分布,泊松分布,高斯分布,正態(tài)分布等。

以上前5種類型節(jié)點(diǎn)描述了離散類型的不同概率分布,第6種類型節(jié)點(diǎn)描述了連續(xù)概率分布。根據(jù)解決問題的實(shí)際需要,研究者采用這6種類型節(jié)點(diǎn)進(jìn)行組合,提出了不同的概率XML數(shù)據(jù)模型。

2 概率XM L數(shù)據(jù)模型

為了解決不同問題的實(shí)際需要,研究者提出包含不同類型分布節(jié)點(diǎn)的概率 XML 數(shù)據(jù)模型,我們用 PrXML{type1,type2,…}表示此通用模型,type1,type2分別表示上面六種分布節(jié)點(diǎn)類型中的任一種類型。例如PrXML{ind,mux}表示只包含獨(dú)立節(jié)點(diǎn)和分布節(jié)點(diǎn)的概率XML數(shù)據(jù)模型。

在概率XML數(shù)據(jù)模型PrXML{ind,mux}[11-12]中,各節(jié)點(diǎn)的概率依賴于其父親節(jié)點(diǎn)的概率,節(jié)點(diǎn)之間的關(guān)系可以是互斥關(guān)系(mux)或相互獨(dú)立(ind)關(guān)系。圖1描述了該模型的一個(gè)例子。有5個(gè)普通節(jié)點(diǎn),2個(gè)分布節(jié)點(diǎn),節(jié)點(diǎn)B、C之間相互獨(dú)立,概率值分別為0.7和0.8,節(jié)點(diǎn)D、E之間相互互斥,概率值分別為 0.6 和 0.3。 此時(shí)僅包含 A、C、D 的子樹概率為(1-0.7)×0.8×0.3=0.072;任意子樹均不能同時(shí)包含D和E兩個(gè)節(jié)點(diǎn)。

在概率XML數(shù)據(jù)模型PrXML{cie}[13-14]中,它并不在各個(gè)節(jié)點(diǎn)或邊上附加概率值來描述不確定性,而是在各個(gè)節(jié)點(diǎn)上附加一系列事件變量,節(jié)點(diǎn)的存在性由外部事件是否發(fā)生來決定。圖2描述了一個(gè)PrXML{cie}的例子,共有2個(gè)外部事件w1和w2,其發(fā)生的概率分別為0.8和0.7。節(jié)點(diǎn)C出現(xiàn)的前提條件是w2發(fā)生,而節(jié)點(diǎn)D出現(xiàn)的前提條件是w1發(fā)生而w2不發(fā)生。節(jié)點(diǎn)C和D的存在條件為互斥,從而不存在同時(shí)包含C和D的子樹。包含A、B、D 3個(gè)節(jié)點(diǎn)的子樹的概率為:0.8×(1-0.7)=0.24。 可以看出 PrXML{cie}的表達(dá)能力比 PrXML{ind,mux}強(qiáng)。

圖1 PrXML{ind, mux}模型Fig.1 Model of PrXML{ind,mux}

圖2 PrXML{cie}模型Fig.2 Model of PrXML{cie}

圖3 PrXML{exp}模型Fig.3 Model of PrXML{exp}

在概率XML數(shù)據(jù)模型PrXML{exp}[15-16]中,每個(gè)節(jié)點(diǎn)可以選擇孩子節(jié)點(diǎn)的任意組合。文中對(duì)文獻(xiàn)[15]、[16]中的圖約束為樹,把區(qū)間概率變?yōu)辄c(diǎn)概率,給出圖3描述概率XML數(shù)據(jù)模型PrXML{exp}的一個(gè)例子。此圖共有6個(gè)節(jié)點(diǎn),節(jié)點(diǎn)A和B1屬于組合類型節(jié)點(diǎn),節(jié)點(diǎn)A可以選擇孩子節(jié)點(diǎn)B1、B2、B3的組合中{(B1,B2)(B2,B3)、(B1,B3)、(B1,B2,B3)}中的任意一個(gè)組合,節(jié)點(diǎn) B1可以選擇孩子節(jié)點(diǎn) C1、C2的組合中{(C1)、(C2)、(C1,C2)}中的任意一個(gè)組合。若節(jié)點(diǎn)A選擇孩子節(jié)點(diǎn)組合(B1,B3)而節(jié)點(diǎn)B1孩子節(jié)點(diǎn)組合(C2)構(gòu)成的子樹概率為0.1×0.6=0.06。

B Kimelfeld等人[18]提出了包含cie、exp節(jié)點(diǎn)的概率XML數(shù)據(jù)模型 PrXML{cie,exp}。 E Kharlamov 和 S Abiteboul等人[17]對(duì)前面介紹的概率XML數(shù)據(jù)模型進(jìn)行了擴(kuò)展,允許葉子節(jié)點(diǎn)為cont節(jié)點(diǎn),表示連續(xù)概率分布,如二項(xiàng)分布,泊松分布,高斯分布,正態(tài)分布等。這樣此模型具有很強(qiáng)的通用性。

3 概率XM L數(shù)據(jù)模型的轉(zhuǎn)換

可能世界模型是不確定數(shù)據(jù)庫應(yīng)用的最廣泛的模型,上面介紹的概率XML數(shù)據(jù)模型PrXML{type1,type2,…}構(gòu)成了概率XML數(shù)據(jù)庫的可能世界[19]。在該模型中,通過下面兩個(gè)步驟可得到一個(gè)可能世界的實(shí)例,實(shí)例的概率值可以通過分布節(jié)點(diǎn)固有的特征計(jì)算得到。

1)隨機(jī)選擇每個(gè)分布節(jié)點(diǎn)的合法孩子節(jié)點(diǎn),刪除沒有選擇的所有孩子節(jié)點(diǎn)及其后裔。

2)刪除所有的分布節(jié)點(diǎn)。如果普通節(jié)點(diǎn)v沒有父親節(jié)點(diǎn),選擇離v最近、合適的普通祖先節(jié)點(diǎn)為新的父親節(jié)點(diǎn)。

通過反復(fù)使用上面兩個(gè)步驟可以得到可能世界的所有可能世界實(shí)例,且滿足所有可能世界實(shí)例的概率總和為1。一般情況下,可能世界實(shí)例的數(shù)量遠(yuǎn)遠(yuǎn)高于概率XML數(shù)據(jù)庫的規(guī)模,甚至是后者的指數(shù)倍,這也是概率XML數(shù)據(jù)庫管理技術(shù)所面臨的最大難點(diǎn)。

根據(jù)解決實(shí)際問題的需要,根據(jù)上面前五種不同類型分布節(jié)點(diǎn)的不同組合,可以提出不同的概率XML數(shù)據(jù)模型,Benny Kimelfeld等人[20]根據(jù)這些模型表達(dá)力研究了這些模型之間的相互轉(zhuǎn)換關(guān)系,如圖4所示。

圖4 PrXML模型轉(zhuǎn)換的有效圖Fig.4 PrXML effective model transformation diagram

從圖4可以看出,模型PrXML{ind}與PrXML{mux}之間不能相互轉(zhuǎn)換,模型PrXML{exp}與PrXML{cie}之間也不能相互轉(zhuǎn)換,但其它所有模型都可以轉(zhuǎn)換為 PrXML{exp,cie},從而 PrXML{exp,cie}的表達(dá)力最強(qiáng),而PrXML{ind}、PrXML{mux}的表達(dá)力最弱。針對(duì)前面介紹的六種分布節(jié)點(diǎn)類型,我們可以把cont類型節(jié)點(diǎn)加入到概率 XML 數(shù)據(jù)模型 PrXML{type1,type2,…}中,對(duì)概率 XML 數(shù)據(jù)模型之間的轉(zhuǎn)換關(guān)系進(jìn)行擴(kuò)展,如圖5所示,從而進(jìn)一步增強(qiáng)表達(dá)能力。

圖5 擴(kuò)展的PrXML模型轉(zhuǎn)換有效圖Fig.5 Extended PrXML effective model transformation diagram

4 結(jié)束語

人類認(rèn)知存在的局限性、度量的誤差、數(shù)據(jù)的動(dòng)態(tài)變化以及信息描述的差異等情況,往往會(huì)產(chǎn)生許多不確定的數(shù)據(jù)。不確定數(shù)據(jù)在諸如軍事、經(jīng)濟(jì)、物流、電信、金融等領(lǐng)域的具體應(yīng)用中也普遍存在。針對(duì)不確定數(shù)據(jù)管理技術(shù)的研究已有40年的歷史,概率關(guān)系數(shù)據(jù)庫管理技術(shù)取得了很大的進(jìn)展。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,XML成為Internet上信息表示和交換的標(biāo)準(zhǔn)。XML的半結(jié)構(gòu)化、自描述性好及可擴(kuò)展性高等優(yōu)點(diǎn),使其在概率數(shù)據(jù)表示上與概率關(guān)系模型相比較占優(yōu)勢(shì)。因此,近些年概率XML數(shù)據(jù)管理技術(shù)成為研究熱點(diǎn)。概率XML數(shù)據(jù)管理技術(shù)與確定性的XML數(shù)據(jù)管理技術(shù)截然不同,這使得前者面臨如下挑戰(zhàn):

1)龐大的可能世界實(shí)例集合。與概率關(guān)系數(shù)據(jù)庫相同,概率XML數(shù)據(jù)管理所面臨的直接挑戰(zhàn)就是其相當(dāng)于XML數(shù)據(jù)庫規(guī)模呈指數(shù)倍的可能世界實(shí)例的數(shù)量。因此,在查詢時(shí)需要考慮刪除概率值太小的實(shí)例后查詢還是直接在所有可能世界實(shí)例上查詢之間進(jìn)行權(quán)衡。

2)概率信息。概率信息在概率XML數(shù)據(jù)管理中具有多重角色。在查詢時(shí),輸入的文檔有概率信息,描述文檔中有不確定信息;輸出的文檔有概率信息,描述查詢結(jié)果的發(fā)生概率;查詢定義可以有概率信息,用于約束查詢結(jié)果。因此,概率信息的出現(xiàn)極大地改變了確定XML數(shù)據(jù)的處理方式,迫切新技術(shù)進(jìn)行處理。

在概率XML數(shù)據(jù)庫管理領(lǐng)域仍有很多工作有待完成。

1)許多確定性XML數(shù)據(jù)管理領(lǐng)域所遇到的問題在概率XML數(shù)據(jù)管理領(lǐng)域也非常重要,需要為之尋求相應(yīng)的解決方案。

2)由于概率信息的存在,概率XML數(shù)據(jù)管理領(lǐng)域存在一些特有的查詢問題,需要找出這些查詢并給出相應(yīng)的解決方案。

3)概率 XML數(shù)據(jù)的約束[20]、集成、挖掘也有待進(jìn)一步研究。

[1]Deshpande A,Guestrin C,Madden S,et al.Model-driven data acquisition in sensor networks[C]//Proceedings of the 30th international conference on Very large data bases,2004:588-599.

[2]許嘉,于戈,谷峪,等.RFID不確定數(shù)據(jù)管理技術(shù)[J].計(jì)算機(jī)科學(xué)與探索,2009, 3(6):561-576.XU Jia,YU Ge,Gu YU,et al.Uncertain data management technologies in RFID[J].Journal of Frontiers of Computer Science and Technology,2009,3(6):561-576.

[3]Madhavan J,Cohen S,Xin D,et al.Web-scale data integration:you can afford to pay as you go[C]//Roceedings of the 3rd biennial conference on innovative data systems research,2007:342-350.

[4]LIU Ling.From data privacy to location privacy:models and algorithms (tutorial)[C]//Proceedings of the 33rd international conference on very large data bases,2007:1429-1430.

[5]Cavallo R,Pittarelli M.The theory of probabilistic databases[C]//Proceedings of the 13th International Conference on Very Large Data Bases,1987:71-81.

[6]Barbara D,Garcia-Molina H,Porter D.The management of probabilistic data[J].IEEE Transactions on Knowledge and Data Engineering,1992, 4(5):487-502.

[7]Fuhr N,Rolleke T.A probabilistic relational algebra for the integration of information retrieval and database systems[J].ACM Transactions on Information Systems,1997,15(1):32-66.

[8]Zimanyi E.Query evaluation in probabilistic databases[J].Theoretical Computer Science,1997,171(1-2):179-219.

[9]Dalvi N,Suciu D.Management of probabilistic data foundations and challenges[C]//Proceedings of the 26th ACM SIGMODSIGACT-SIGART symposium on principles of database systems.2007:1-12.

[10]Pei J, Hua M, Tao Y F, Lin X M.Query answering techniques on uncertain and probabilistic data:tutorial summary[C]//Proceedings of 2008 ACM SIGMOD international conference on management of data.2008:1357-1364.

[11]Nierman A,Jagadish H V.ProTDB:Probabilistic data in XML[R].Hong Kong:In Proc of the 28th VLDB conference,2002.

[12]LI Te,SHAO Qi-hong,CHEN Yi.PEPX:A query-friendly probabilistic XML database[C]//Proceeding of the 15th ACM international conference on information and knowledge management.ACM Press,2006:848-849.

[13]Abiteboul S,Senellart P.Querying and updating probabilistic information in XML[C]//Proceedings of the 9th international conference on Extending database technology:Advances in database technology.2006:1059-1068.

[14]Senellart P,Abiteboul S.On the complexity of managing probabilistic XML data[C]//Proceedings of the 26th ACM SIGMOD-SIGACT-SIGART symposium on principles of database systems,2007:283-292.

[15]Hung E,Getoor L,Subrahmanian V S.PXML:a probabilistic semistructured data model and algebra[C]//Proceedings of the 19th IEEE international conference on data engineering.bangalore,2003:467-478.

[16]Hung E,Getoor L,Subrahmanian V S.Probabilistic interval XML[J].ACM Transactions on Computational Logic, 2007,8(4):24.

[17]Abiteboul S,Chan T-H H,Kharlamov E.Aggregate queries for discrete and continuous probabilistic XML[C]//Proceedings of the 13th international conference on database theory,2010:50-61.

[18]Kimelfeld B, Kosharovsky Y,Sagiv Y.Query evaluation over probabilistic XML[J].VLDB Journal, 2009,18(5):164-170.

[19]CHANG L J,YU J X,QIN L.Query ranking in probabilistic XML data[C]//In Proc of the 12th EDBT Confer-ence,Saint-Petersburg,Russia,2009:156-167.

[20]Kimelfeld B, Kosharovsky Y,Sagiv Y.Query efficiency in probabilistic XML models[C]//In SIGMOD conference,2008:710-714.

[21]Cochen S,Kimelfeld B,Sagiv Y.Running tree automata on Probabilistic XML[C]//In proc.PODS,RI,2009:227-236.

猜你喜歡
數(shù)據(jù)模型數(shù)據(jù)管理實(shí)例
企業(yè)級(jí)BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
面板數(shù)據(jù)模型截面相關(guān)檢驗(yàn)方法綜述
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
電子測試(2017年12期)2017-12-18 06:35:36
完形填空Ⅱ
完形填空Ⅰ
面向集成管理的出版原圖數(shù)據(jù)模型
一種顧及級(jí)聯(lián)時(shí)空變化描述的土地利用變更數(shù)據(jù)模型
怀来县| 通许县| 鄢陵县| 峨眉山市| 建始县| 泰兴市| 蒲城县| 兴和县| 武城县| 玉溪市| 马公市| 鄱阳县| 恩平市| 普宁市| 合江县| 温宿县| 金昌市| 绿春县| 平凉市| 临泽县| 都匀市| 大新县| 武冈市| 宁德市| 宁陕县| 玉环县| 泸定县| 龙江县| 中山市| 岗巴县| 阿拉善左旗| 温泉县| 隆安县| 滁州市| 双江| 高邮市| 昂仁县| 申扎县| 西安市| 安塞县| 萨迦县|