国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于XML Schema的XML文檔到關系數(shù)據(jù)庫的映射方法

2013-12-06 06:49
大眾科技 2013年2期
關鍵詞:子樹關系數(shù)據(jù)庫字段

賈 穎

(山東工商學院 計算機基礎教學部,山東 煙臺 264005)

XML是W3C組織推出的一種半結構化的、自描述的數(shù)據(jù)描述語言,目前已成為Web上數(shù)據(jù)表示的標準,并為各種跨平臺、用不同編程語言編寫的應用程序提供了數(shù)據(jù)交流與分享的工具,同時還成為各種異構數(shù)據(jù)(關系數(shù)據(jù)庫、Excel數(shù)據(jù)表、文本文件)進行數(shù)據(jù)交換的中間橋梁??梢哉f,XML技術已經得到了非常廣泛的應用和支持。

隨著XML技術的廣泛應用,XML文檔大量涌現(xiàn)出來。然而,XML文檔本身不是一個數(shù)據(jù)庫[1],缺乏成熟數(shù)據(jù)庫技術中關于并發(fā)訪問、完整性約束、安全控制等關鍵技術。并且以文檔方式存儲的XML數(shù)據(jù)支持的關鍵字查詢,查詢方式簡單,查詢能力低,不能滿足復雜條件查詢的需要[2]。所以,XML文檔在存儲和查詢機制上都缺乏系統(tǒng)支持。而關系數(shù)據(jù)庫仍是目前為止最成熟的數(shù)據(jù)管理技術。所以,已經有很多學者對XML文檔的關系數(shù)據(jù)庫存儲做出了研究,提出了結構映射和模式映射兩種主要的方法。由于結構映射保留了 XML文檔的結構和語義信息,成為了XML文檔在關系數(shù)據(jù)庫存儲的主流技術。結構映射要分析XML文檔的模式信息(DTD或XML Schema)。目前,基于XML Schema的結構映射方法中最具代表性的是Bohannon[3]的提出的P_Schema(Physical XML schema)。P_Schema是從XML Schema變化而來,將原始的XML Schema中的多值元素(元素屬性maxOccurs為unbounded的元素)提取出來,生成同名的新類型,同時,在該元素的父元素中保留對該元素的引用。P_Schema可以直接轉換為關系模式。然而,P_Schma僅進行了對多值元素的提取,沒有考慮其它形式復雜元素的提取,如遞歸嵌套結構、被不同父元素重復引用的元素、可選元素的映射問題,本文將進一步探討對這些類型元素的映射。

1 P-schema的改進

改進的P_Schema模式將XML文檔存儲到關系數(shù)據(jù)庫的步驟分為三步:第一步,將XML模式轉換為改進過的P_Schema++模式;第二步,將P-Schema++模式用DOM樹表示;第三步,將DOM樹映射為關系數(shù)據(jù)庫。

1.1 生成P_schema++模式

本文的實例文檔為The Purchase Order ,po.xml[4],對應的XML Schema為po.xsd。[4]數(shù)據(jù)來源于www.w3.org。表 1給出了 po.xsd的類型標識模式(即 XML Query Algebra ),這種模式因其準確指定了元素和屬性類型,非常有利于XML數(shù)據(jù)的存儲,將之稱為原始模式。P_schema++模式是基于此模式,進行改進和擴充得到。

從原始的XML Schema類型定義到P_Schema++類型定義的轉換遵循以下幾個原則:

(1)提取用<ComplexType>…</ ComplexType >標識定義的復雜類型為新類型(如PurchaseOrder);

(2)提取元素屬性maxoccurs=unbounded的多值元素為新類型(如items);

(3)提取被多個父元素重復引用的元素為新類型(如USAdress和 comment);

(4)提取用<choice>…</choice>標識的可選元素為新類型(本實例不涉及)。

表1

1.2 DOM樹表示

DOM(Document Object Model)全稱文檔對象模型,是一種與平臺和語言無關的編程接口。[5]一個 XML文檔使用XML分析器分析之后,其中的信息就會被轉化成一棵對象節(jié)點樹。在這棵樹中,有且只有一個根節(jié)點,其它所有節(jié)點都是根節(jié)點的后代節(jié)點。節(jié)點樹生成之后,就可以通過DOM接口訪問、修改、添加、刪除和創(chuàng)建樹中的節(jié)點和內容。將P_Schema++轉換為DOM樹表示。在DOM樹中,用符號○表示簡單類型元素的節(jié)點,用符號◎表示復雜類型元素的節(jié)點,用符號△表示屬性節(jié)點。Po.xsd的 P_Schema++轉換為 DOM樹如圖1所示:

圖1 P_Schema++ DOM樹

得到DOM樹后,尋找DOM樹中子樹的根節(jié)點,又叫分級節(jié)點[3]。一個節(jié)點成為分級節(jié)點,必須滿足以下幾個條件之一:①不能由其他節(jié)點到達;②復雜類型的節(jié)點;③節(jié)點的入度>1。根據(jù)以上規(guī)則,PurchaseOder,items,comment,USAdress為分級節(jié)點,要單獨映射為關系。其中Comment節(jié)點是簡單類型元素節(jié)點,可以分成兩個節(jié)點,分別內聯(lián)到PurchaseOrder子樹和items子樹中。但考慮到在po.xsd中,PurchaseOrder和Items中對comment的定義都是minoccurs=0,如果將comment作為PurchaseOrder表和items表中的屬性列,應允許NULL值。而comment元素中的數(shù)據(jù)內容一般比較多,需要為comment列設置較大的字符串長度,而如果有大量的空值,就會造成很大的存儲浪費。所以,本文將comment元素單獨建表,并建立Pid字段作為外鍵,指向父節(jié)點。

1.3 映射為關系數(shù)據(jù)庫

將DOM樹中分級節(jié)點映射為關系數(shù)據(jù)庫中的表,映射的方法為:

(1)為每一棵子樹T創(chuàng)建關系R,把滿足以下條件的節(jié)點Y作為R的屬性:Y是T可達到,從T到Y的路徑中不包含任何生成獨立關系的分級節(jié)點。

(2)為每個關系R創(chuàng)建Id字段作為主鍵。若T與其他分級節(jié)點存在父子關系,則在關系R中添加Pid 字段作為外鍵,記錄其父節(jié)點的Id。

根據(jù)上面的方法,把DOM樹轉換為4張表:

表2 PurchaseOrde r

表3 comment

表4 items

表5 USAdress

另外,在PurchaseOrder表中,Bill to_id和ship to_id字段分別指向其孩子節(jié)點,與USAdress表中Id字段相對應。

2 實驗驗證

為了驗證P_Schema++的有效性和可行性,采用 Microsoft Visual Studio2003和C#語言在Windows內部組件之一的.NET Framework代碼庫中進行XML文檔到SQL Server 2003關系數(shù)據(jù)庫的轉化。對其存儲代價和查詢代價進行評估,結果發(fā)現(xiàn),該算法生成的關系數(shù)據(jù)表數(shù)目相對較少,表的規(guī)模合理,查詢時連接運算少,查詢效率較高。

[1] Bourrent R. XML Data Binging[EB/OL].http://www.rpborrent.com/xml/XMLDataBingding.htm,2010-12-21.

[2] 曾慶玲.基于模式的復雜 XML文檔到關系數(shù)據(jù)庫存儲的研究[D].桂林:廣西師范大學,2011

[3] Bohannon P, Freire J, Roy P et al.,From XML schema to relations: a cost based approach to XML storage[C].Proc of the18th International Conference on Data Engineering.2002:64 75.

[4] The Purchase Order[EB/OL] .http://www.w3.org/TR/2004/REC-xmlschema-0-20041028/.

[5] 岳歡.XML文檔在數(shù)據(jù)庫中存儲方案的研究[D].重慶:重慶大學,2003.

猜你喜歡
子樹關系數(shù)據(jù)庫字段
關系數(shù)據(jù)庫在高爐數(shù)據(jù)采集系統(tǒng)中的應用
一種新的快速挖掘頻繁子樹算法
圖書館中文圖書編目外包數(shù)據(jù)質量控制分析
廣義書本圖的BC-子樹計數(shù)及漸近密度特性分析*
書本圖的BC-子樹計數(shù)及漸進密度特性分析?
基于覆蓋模式的頻繁子樹挖掘方法
基于索引結構的關系數(shù)據(jù)庫關鍵詞檢索
CNMARC304字段和314字段責任附注方式解析
無正題名文獻著錄方法評述
關于CNMARC的3--字段改革的必要性與可行性研究
咸宁市| 金寨县| 大足县| 桃园县| 明光市| 宝应县| 正安县| 弥勒县| 新蔡县| 永仁县| 怀仁县| 丹江口市| 凤翔县| 三明市| 浙江省| 合川市| 会同县| 铅山县| 芦溪县| 石城县| 安义县| 仁寿县| 凌云县| 武清区| 新丰县| 三河市| 吴江市| 濮阳市| 阳东县| 五原县| 山东| 孝昌县| 定远县| 江川县| 建宁县| 栾川县| 娄烦县| 桂林市| 黔西县| 吴桥县| 满洲里市|