国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

運(yùn)用XML實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換

2013-04-29 00:44:03牛世章
電腦知識(shí)與技術(shù) 2013年8期

牛世章

摘要:數(shù)據(jù)源是數(shù)據(jù)挖掘應(yīng)用的關(guān)鍵,目前數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展使得在建立數(shù)據(jù)源時(shí)必須面對(duì)異構(gòu)數(shù)據(jù)庫(kù)問題。該文主要對(duì)如何在異構(gòu)數(shù)據(jù)庫(kù)中建立數(shù)據(jù)源進(jìn)行研究,并利用XML技術(shù)在異構(gòu)數(shù)據(jù)庫(kù)中建立數(shù)據(jù)源模型,且提出了提出了數(shù)據(jù)轉(zhuǎn)換和預(yù)處理技術(shù),利用這兩個(gè)技術(shù)解決在數(shù)據(jù)庫(kù)中異構(gòu)數(shù)據(jù)如何建立數(shù)據(jù)源的問題。

關(guān)鍵詞:異構(gòu)數(shù)據(jù)庫(kù);數(shù)據(jù)轉(zhuǎn)換;XML

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)08-1733-03

1 異構(gòu)數(shù)據(jù)庫(kù)

現(xiàn)如今,大多數(shù)的工作行業(yè)和領(lǐng)域都采取了利用計(jì)算機(jī)來進(jìn)行信息的存儲(chǔ)、處理、通信等,在處理數(shù)據(jù)的過程中計(jì)算機(jī)可以起到一個(gè)很關(guān)鍵的作用,一般利用計(jì)算機(jī)來管理、處理數(shù)據(jù)時(shí)都必須利用數(shù)據(jù)庫(kù)來實(shí)現(xiàn)。在單獨(dú)的企業(yè)事業(yè)單位內(nèi)部也經(jīng)常是使用數(shù)據(jù)庫(kù)管理系統(tǒng)來實(shí)現(xiàn)管理目的的,利用這種方式的主要原因有:一,單位內(nèi)部人事的變動(dòng)和時(shí)間的不斷推移;二,現(xiàn)代科技不斷發(fā)展,數(shù)據(jù)庫(kù)也在不斷更新發(fā)展,所以數(shù)據(jù)庫(kù)經(jīng)常發(fā)生變化;三,企業(yè)事業(yè)單位內(nèi)部各個(gè)部門和科室沒有統(tǒng)一的施行數(shù)據(jù)管理系統(tǒng);四,經(jīng)濟(jì)和人為因素。這些差異構(gòu)成了企業(yè)的異構(gòu)數(shù)據(jù)源,即形成了異構(gòu)數(shù)據(jù)庫(kù),它包括企業(yè)采用計(jì)算機(jī)進(jìn)行數(shù)據(jù)存儲(chǔ)與管理過程中的簡(jiǎn)單位文件數(shù)據(jù)庫(kù)和復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。

2 異構(gòu)數(shù)據(jù)庫(kù)的異構(gòu)性

異構(gòu)數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)數(shù)據(jù)共享,存在于異構(gòu)數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)庫(kù)本身就是實(shí)際存在的,所以其數(shù)據(jù)庫(kù)本身及其各不部分就具有相應(yīng)的自治性。存在于異構(gòu)數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)庫(kù)還是具備自己本身的完整性、安全性、應(yīng)用性等。異構(gòu)數(shù)據(jù)庫(kù)的主要表現(xiàn)有三個(gè)方面:DBMS本身的異構(gòu)、計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)異構(gòu)、計(jì)算機(jī)基礎(chǔ)操作系統(tǒng)的異構(gòu)。

3 異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換目標(biāo)

異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換目標(biāo)就是指將再現(xiàn)數(shù)據(jù)庫(kù)中的信息轉(zhuǎn)換到目標(biāo)數(shù)據(jù)庫(kù)里,其所要轉(zhuǎn)移的再現(xiàn)數(shù)據(jù)庫(kù)中的信息主要是指信息的內(nèi)容和結(jié)構(gòu)。信息的內(nèi)容是構(gòu)成信息的基本單位,其主要包括兩個(gè)方面:信息對(duì)象的屬性、信息關(guān)系表結(jié)構(gòu)中的字段;信息的結(jié)構(gòu)是指信息的構(gòu)成,完整的信息都必須具有信息的內(nèi)容和結(jié)構(gòu)。在進(jìn)行再現(xiàn)數(shù)據(jù)庫(kù)到目標(biāo)數(shù)據(jù)庫(kù)的信息轉(zhuǎn)換時(shí),只有將信息的內(nèi)容和結(jié)構(gòu)全部完整的進(jìn)行轉(zhuǎn)換才是真正的實(shí)現(xiàn)了轉(zhuǎn)換的目的。如果要實(shí)現(xiàn)信息轉(zhuǎn)移過程中信息的“高保真”性,必須在轉(zhuǎn)移過程中將信息內(nèi)容的數(shù)據(jù)類型和當(dāng)前值一并轉(zhuǎn)移,只有這樣才能保證轉(zhuǎn)移數(shù)據(jù)的完整性和安全性。

4 異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換

隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,數(shù)據(jù)庫(kù)產(chǎn)品也隨之日新月異,然而不同的廠家提供的數(shù)據(jù)庫(kù)產(chǎn)品具有不同的異構(gòu)性,這就導(dǎo)致了實(shí)際中使用的不方便。要想解決這種不便性就必須不斷的開發(fā)新產(chǎn)品和創(chuàng)造新的方法,解決不同產(chǎn)品之間的兼容問題。

異構(gòu)數(shù)據(jù)的轉(zhuǎn)換主要包括兩種類型:1)異構(gòu)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)的轉(zhuǎn)換;2)異構(gòu)數(shù)據(jù)庫(kù)之間的結(jié)構(gòu)的轉(zhuǎn)換。異構(gòu)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)轉(zhuǎn)換是指在保證數(shù)據(jù)庫(kù)的結(jié)構(gòu)不發(fā)生改變的前提之下,實(shí)現(xiàn)一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)向另一個(gè)不同的數(shù)據(jù)庫(kù)轉(zhuǎn)換的功能。目前的數(shù)據(jù)庫(kù)開發(fā)平臺(tái)只是實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)中所有數(shù)據(jù)的轉(zhuǎn)換,而不是根據(jù)相應(yīng)的條件進(jìn)行數(shù)據(jù)的篩選轉(zhuǎn)換。

5 XML

XML可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language),同時(shí)也是標(biāo)準(zhǔn)的通用標(biāo)記語(yǔ)言(Standard Generic Markup Language,SGML)的一個(gè)部分。在各種不同的數(shù)據(jù)交換領(lǐng)域中,經(jīng)常將XML作為元語(yǔ)言標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)格式描述。異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)中,系統(tǒng)間的數(shù)據(jù)交換大多基于XML的數(shù)據(jù)格式,將內(nèi)部的數(shù)據(jù)轉(zhuǎn)換成行業(yè)標(biāo)準(zhǔn)。

XML是能夠進(jìn)行自解釋的語(yǔ)言,不需要預(yù)先定義XML的標(biāo)志,標(biāo)志由使用者根據(jù)需要自定義。XML顯示這些數(shù)據(jù)通過使用DTD實(shí)現(xiàn),文檔如何顯示的機(jī)制使用XSL來描述,XSL是XML的樣式表述語(yǔ)言。XSL的使用時(shí)間要早于CSS。XSL主要包括兩個(gè)方面:一,XML文檔的轉(zhuǎn)換方法;二, XML文檔的格式化方法[3]。

6 XML的主要特點(diǎn)

XML屬于一種標(biāo)記性的語(yǔ)言,具有如下的幾個(gè)特點(diǎn):

1) 具有較強(qiáng)的描述數(shù)據(jù)的能力,可以將復(fù)雜的數(shù)據(jù)簡(jiǎn)便化的描述出來。

2) 具有自我擴(kuò)展的能力,可以將數(shù)據(jù)的約束進(jìn)行最小化處理。

3) 具有數(shù)據(jù)自我描述的功能,利用其他文檔中的標(biāo)簽來推測(cè)應(yīng)用系統(tǒng)中轉(zhuǎn)換的XML的含義。

4) 具有數(shù)據(jù)與表達(dá)相分離的功能,可以采用多種處理方式處理XML數(shù)據(jù)。處理數(shù)據(jù)時(shí)不同于Word、Excel,數(shù)據(jù)的表達(dá)不受制約。行業(yè)領(lǐng)域內(nèi)都遵循早已制定好的共同遵循的標(biāo)記詞匯集,一些特定的行業(yè)也有屬于本行業(yè)的特殊標(biāo)記語(yǔ)言。

5) 具有數(shù)據(jù)結(jié)構(gòu)化的功能,可以準(zhǔn)確的尋找到所需的信息以及自我描述附加信息,靈活的處理XML文檔,然后利用XML的文檔結(jié)構(gòu)來操作。XML的文檔結(jié)構(gòu)相對(duì)應(yīng)于實(shí)際的業(yè)務(wù)對(duì)象,特定行業(yè)應(yīng)用系統(tǒng)的業(yè)務(wù)對(duì)象同樣也能便捷的實(shí)現(xiàn)XML的轉(zhuǎn)換。

6) 具有應(yīng)用上的健壯性和提供平臺(tái)的無(wú)關(guān)聯(lián)性。XML文檔都是經(jīng)過仔細(xì)的檢測(cè),排除了垃圾信息的干擾,加強(qiáng)了應(yīng)用上的健壯性。并且XML和提供此產(chǎn)品的企業(yè)平臺(tái)毫無(wú)關(guān)聯(lián),其表達(dá)的數(shù)據(jù)可以再任意的軟件或者硬件中進(jìn)行使用,具有很強(qiáng)的通用性。

7 運(yùn)用XML實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換

1)建立數(shù)據(jù)類型映射表,將不同類型的數(shù)據(jù)庫(kù)和XML的數(shù)據(jù)類型進(jìn)行映射。

2)導(dǎo)出數(shù)據(jù)之后,先讀出被導(dǎo)出的各個(gè)字段的名字和數(shù)據(jù)的類型。

3)根據(jù)映射表來建立XML Schema模型。

4)利用XML Schema來確定保存中間數(shù)據(jù)的XML的數(shù)據(jù)類型和文件的結(jié)構(gòu)。

8 數(shù)據(jù)預(yù)處理技術(shù)

10 結(jié)束語(yǔ)

XML作為一種可擴(kuò)展的標(biāo)記性語(yǔ)言,具有開放性和自述性等特征,在數(shù)據(jù)結(jié)構(gòu)沒有進(jìn)行預(yù)先定義的前提下可以進(jìn)行不同應(yīng)用系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換。XML主要優(yōu)勢(shì)是描述數(shù)據(jù)和傳送數(shù)據(jù)的能力。利用XML可以很方便的實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換的目的,并且同時(shí)為挖掘數(shù)據(jù)時(shí)建立數(shù)據(jù)源的問題提出了新型的方法。

參考文獻(xiàn):

[1] 鄔偉峰,朱建.基于Lotus Domino/Notes的網(wǎng)上辦公系統(tǒng)開發(fā)技術(shù)[J].中國(guó)金融電腦,2002.

[2] 范春梅.XML基礎(chǔ)教程[M].人民郵電出版社,2009.

[3] 孟小峰.XML數(shù)據(jù)管理概念與技術(shù)[M].清華大學(xué)出版社,2010.

[4] 萬(wàn)常選,劉喜平.XML數(shù)據(jù)庫(kù)技術(shù)[M].2008.

[5] 段曉娟.XSLT的研究與應(yīng)用[J].長(zhǎng)沙大學(xué),2003.

惠东县| 白银市| 三明市| 凉城县| 城固县| 项城市| 湘西| 洪雅县| 扬州市| 信阳市| 马山县| 长白| 齐河县| 邵东县| 宁明县| 儋州市| 高陵县| 留坝县| 江油市| 新兴县| 宁明县| 松溪县| 河北区| 加查县| 桐城市| 九龙城区| 定边县| 四子王旗| 嘉义县| 海南省| 定兴县| 安顺市| 六安市| 崇信县| 蒙阴县| 古蔺县| 阿勒泰市| 淳安县| 汾西县| 包头市| 乐亭县|