牛世章
摘要:數(shù)據(jù)源是數(shù)據(jù)挖掘應(yīng)用的關(guān)鍵,目前數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展使得在建立數(shù)據(jù)源時(shí)必須面對(duì)異構(gòu)數(shù)據(jù)庫(kù)問題。該文主要對(duì)如何在異構(gòu)數(shù)據(jù)庫(kù)中建立數(shù)據(jù)源進(jìn)行研究,并利用XML技術(shù)在異構(gòu)數(shù)據(jù)庫(kù)中建立數(shù)據(jù)源模型,且提出了提出了數(shù)據(jù)轉(zhuǎn)換和預(yù)處理技術(shù),利用這兩個(gè)技術(shù)解決在數(shù)據(jù)庫(kù)中異構(gòu)數(shù)據(jù)如何建立數(shù)據(jù)源的問題。
關(guān)鍵詞:異構(gòu)數(shù)據(jù)庫(kù);數(shù)據(jù)轉(zhuǎn)換;XML
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)08-1733-03
1 異構(gòu)數(shù)據(jù)庫(kù)
現(xiàn)如今,大多數(shù)的工作行業(yè)和領(lǐng)域都采取了利用計(jì)算機(jī)來進(jìn)行信息的存儲(chǔ)、處理、通信等,在處理數(shù)據(jù)的過程中計(jì)算機(jī)可以起到一個(gè)很關(guān)鍵的作用,一般利用計(jì)算機(jī)來管理、處理數(shù)據(jù)時(shí)都必須利用數(shù)據(jù)庫(kù)來實(shí)現(xiàn)。在單獨(dú)的企業(yè)事業(yè)單位內(nèi)部也經(jīng)常是使用數(shù)據(jù)庫(kù)管理系統(tǒng)來實(shí)現(xiàn)管理目的的,利用這種方式的主要原因有:一,單位內(nèi)部人事的變動(dòng)和時(shí)間的不斷推移;二,現(xiàn)代科技不斷發(fā)展,數(shù)據(jù)庫(kù)也在不斷更新發(fā)展,所以數(shù)據(jù)庫(kù)經(jīng)常發(fā)生變化;三,企業(yè)事業(yè)單位內(nèi)部各個(gè)部門和科室沒有統(tǒng)一的施行數(shù)據(jù)管理系統(tǒng);四,經(jīng)濟(jì)和人為因素。這些差異構(gòu)成了企業(yè)的異構(gòu)數(shù)據(jù)源,即形成了異構(gòu)數(shù)據(jù)庫(kù),它包括企業(yè)采用計(jì)算機(jī)進(jìn)行數(shù)據(jù)存儲(chǔ)與管理過程中的簡(jiǎn)單位文件數(shù)據(jù)庫(kù)和復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。
2 異構(gòu)數(shù)據(jù)庫(kù)的異構(gòu)性
異構(gòu)數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)數(shù)據(jù)共享,存在于異構(gòu)數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)庫(kù)本身就是實(shí)際存在的,所以其數(shù)據(jù)庫(kù)本身及其各不部分就具有相應(yīng)的自治性。存在于異構(gòu)數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)庫(kù)還是具備自己本身的完整性、安全性、應(yīng)用性等。異構(gòu)數(shù)據(jù)庫(kù)的主要表現(xiàn)有三個(gè)方面:DBMS本身的異構(gòu)、計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)異構(gòu)、計(jì)算機(jī)基礎(chǔ)操作系統(tǒng)的異構(gòu)。
3 異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換目標(biāo)
異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換目標(biāo)就是指將再現(xiàn)數(shù)據(jù)庫(kù)中的信息轉(zhuǎn)換到目標(biāo)數(shù)據(jù)庫(kù)里,其所要轉(zhuǎn)移的再現(xiàn)數(shù)據(jù)庫(kù)中的信息主要是指信息的內(nèi)容和結(jié)構(gòu)。信息的內(nèi)容是構(gòu)成信息的基本單位,其主要包括兩個(gè)方面:信息對(duì)象的屬性、信息關(guān)系表結(jié)構(gòu)中的字段;信息的結(jié)構(gòu)是指信息的構(gòu)成,完整的信息都必須具有信息的內(nèi)容和結(jié)構(gòu)。在進(jìn)行再現(xiàn)數(shù)據(jù)庫(kù)到目標(biāo)數(shù)據(jù)庫(kù)的信息轉(zhuǎn)換時(shí),只有將信息的內(nèi)容和結(jié)構(gòu)全部完整的進(jìn)行轉(zhuǎn)換才是真正的實(shí)現(xiàn)了轉(zhuǎn)換的目的。如果要實(shí)現(xiàn)信息轉(zhuǎn)移過程中信息的“高保真”性,必須在轉(zhuǎn)移過程中將信息內(nèi)容的數(shù)據(jù)類型和當(dāng)前值一并轉(zhuǎn)移,只有這樣才能保證轉(zhuǎn)移數(shù)據(jù)的完整性和安全性。
4 異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,數(shù)據(jù)庫(kù)產(chǎn)品也隨之日新月異,然而不同的廠家提供的數(shù)據(jù)庫(kù)產(chǎn)品具有不同的異構(gòu)性,這就導(dǎo)致了實(shí)際中使用的不方便。要想解決這種不便性就必須不斷的開發(fā)新產(chǎn)品和創(chuàng)造新的方法,解決不同產(chǎn)品之間的兼容問題。
異構(gòu)數(shù)據(jù)的轉(zhuǎn)換主要包括兩種類型:1)異構(gòu)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)的轉(zhuǎn)換;2)異構(gòu)數(shù)據(jù)庫(kù)之間的結(jié)構(gòu)的轉(zhuǎn)換。異構(gòu)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)轉(zhuǎn)換是指在保證數(shù)據(jù)庫(kù)的結(jié)構(gòu)不發(fā)生改變的前提之下,實(shí)現(xiàn)一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)向另一個(gè)不同的數(shù)據(jù)庫(kù)轉(zhuǎn)換的功能。目前的數(shù)據(jù)庫(kù)開發(fā)平臺(tái)只是實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)中所有數(shù)據(jù)的轉(zhuǎn)換,而不是根據(jù)相應(yīng)的條件進(jìn)行數(shù)據(jù)的篩選轉(zhuǎn)換。
5 XML
XML可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language),同時(shí)也是標(biāo)準(zhǔn)的通用標(biāo)記語(yǔ)言(Standard Generic Markup Language,SGML)的一個(gè)部分。在各種不同的數(shù)據(jù)交換領(lǐng)域中,經(jīng)常將XML作為元語(yǔ)言標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)格式描述。異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)中,系統(tǒng)間的數(shù)據(jù)交換大多基于XML的數(shù)據(jù)格式,將內(nèi)部的數(shù)據(jù)轉(zhuǎn)換成行業(yè)標(biāo)準(zhǔn)。
XML是能夠進(jìn)行自解釋的語(yǔ)言,不需要預(yù)先定義XML的標(biāo)志,標(biāo)志由使用者根據(jù)需要自定義。XML顯示這些數(shù)據(jù)通過使用DTD實(shí)現(xiàn),文檔如何顯示的機(jī)制使用XSL來描述,XSL是XML的樣式表述語(yǔ)言。XSL的使用時(shí)間要早于CSS。XSL主要包括兩個(gè)方面:一,XML文檔的轉(zhuǎn)換方法;二, XML文檔的格式化方法[3]。
6 XML的主要特點(diǎn)
XML屬于一種標(biāo)記性的語(yǔ)言,具有如下的幾個(gè)特點(diǎn):
1) 具有較強(qiáng)的描述數(shù)據(jù)的能力,可以將復(fù)雜的數(shù)據(jù)簡(jiǎn)便化的描述出來。
2) 具有自我擴(kuò)展的能力,可以將數(shù)據(jù)的約束進(jìn)行最小化處理。
3) 具有數(shù)據(jù)自我描述的功能,利用其他文檔中的標(biāo)簽來推測(cè)應(yīng)用系統(tǒng)中轉(zhuǎn)換的XML的含義。
4) 具有數(shù)據(jù)與表達(dá)相分離的功能,可以采用多種處理方式處理XML數(shù)據(jù)。處理數(shù)據(jù)時(shí)不同于Word、Excel,數(shù)據(jù)的表達(dá)不受制約。行業(yè)領(lǐng)域內(nèi)都遵循早已制定好的共同遵循的標(biāo)記詞匯集,一些特定的行業(yè)也有屬于本行業(yè)的特殊標(biāo)記語(yǔ)言。
5) 具有數(shù)據(jù)結(jié)構(gòu)化的功能,可以準(zhǔn)確的尋找到所需的信息以及自我描述附加信息,靈活的處理XML文檔,然后利用XML的文檔結(jié)構(gòu)來操作。XML的文檔結(jié)構(gòu)相對(duì)應(yīng)于實(shí)際的業(yè)務(wù)對(duì)象,特定行業(yè)應(yīng)用系統(tǒng)的業(yè)務(wù)對(duì)象同樣也能便捷的實(shí)現(xiàn)XML的轉(zhuǎn)換。
6) 具有應(yīng)用上的健壯性和提供平臺(tái)的無(wú)關(guān)聯(lián)性。XML文檔都是經(jīng)過仔細(xì)的檢測(cè),排除了垃圾信息的干擾,加強(qiáng)了應(yīng)用上的健壯性。并且XML和提供此產(chǎn)品的企業(yè)平臺(tái)毫無(wú)關(guān)聯(lián),其表達(dá)的數(shù)據(jù)可以再任意的軟件或者硬件中進(jìn)行使用,具有很強(qiáng)的通用性。
7 運(yùn)用XML實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換
1)建立數(shù)據(jù)類型映射表,將不同類型的數(shù)據(jù)庫(kù)和XML的數(shù)據(jù)類型進(jìn)行映射。
2)導(dǎo)出數(shù)據(jù)之后,先讀出被導(dǎo)出的各個(gè)字段的名字和數(shù)據(jù)的類型。
3)根據(jù)映射表來建立XML Schema模型。
4)利用XML Schema來確定保存中間數(shù)據(jù)的XML的數(shù)據(jù)類型和文件的結(jié)構(gòu)。
8 數(shù)據(jù)預(yù)處理技術(shù)
10 結(jié)束語(yǔ)
XML作為一種可擴(kuò)展的標(biāo)記性語(yǔ)言,具有開放性和自述性等特征,在數(shù)據(jù)結(jié)構(gòu)沒有進(jìn)行預(yù)先定義的前提下可以進(jìn)行不同應(yīng)用系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換。XML主要優(yōu)勢(shì)是描述數(shù)據(jù)和傳送數(shù)據(jù)的能力。利用XML可以很方便的實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換的目的,并且同時(shí)為挖掘數(shù)據(jù)時(shí)建立數(shù)據(jù)源的問題提出了新型的方法。
參考文獻(xiàn):
[1] 鄔偉峰,朱建.基于Lotus Domino/Notes的網(wǎng)上辦公系統(tǒng)開發(fā)技術(shù)[J].中國(guó)金融電腦,2002.
[2] 范春梅.XML基礎(chǔ)教程[M].人民郵電出版社,2009.
[3] 孟小峰.XML數(shù)據(jù)管理概念與技術(shù)[M].清華大學(xué)出版社,2010.
[4] 萬(wàn)常選,劉喜平.XML數(shù)據(jù)庫(kù)技術(shù)[M].2008.
[5] 段曉娟.XSLT的研究與應(yīng)用[J].長(zhǎng)沙大學(xué),2003.