国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談數(shù)據(jù)集成相關(guān)技術(shù)

2015-07-02 18:55陳飛楊秋紅
科技資訊 2015年8期
關(guān)鍵詞:數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)

陳飛+楊秋紅

(1.中國(guó)電子科技集團(tuán)公司第四十一研究所 安徽蚌埠 233006;2.裝甲兵學(xué)院 安徽蚌埠 233000)

摘 要:隨著信息化的普及、推廣及建設(shè),更多的信息系統(tǒng)投入使用,一方面提高了工作效率、帶來(lái)了經(jīng)濟(jì)社會(huì)效益,但另一方面因?yàn)樾畔⑾到y(tǒng)獨(dú)立、數(shù)據(jù)源分布異構(gòu)等原因形成了越來(lái)越多的“信息孤島”現(xiàn)象,為了解決“信息孤島”問(wèn)題,數(shù)據(jù)集成成為一種重要的解決方法。數(shù)據(jù)集成技術(shù)目前已成為社會(huì)研究和討論的熱點(diǎn)領(lǐng)域,數(shù)據(jù)集成的好與壞直接影響信息化建設(shè)速度。該文首先闡述了數(shù)據(jù)集成的產(chǎn)生及作用,其次介紹了一種通用的數(shù)據(jù)集成模型框架,基于此模型框架從數(shù)據(jù)質(zhì)量的角度對(duì)ETL(Extraction數(shù)據(jù)抽取、Transformation數(shù)據(jù)轉(zhuǎn)換、Loading數(shù)據(jù)加載)及數(shù)據(jù)清洗等關(guān)鍵技術(shù)進(jìn)行了研究和介紹,對(duì)數(shù)據(jù)集成的普及和推廣有指導(dǎo)意義。

關(guān)鍵詞:數(shù)據(jù)集成 數(shù)據(jù)倉(cāng)庫(kù) ETL 數(shù)據(jù)清洗

中圖分類(lèi)號(hào):C931 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)03(b)-0030-01

隨著信息化技術(shù)的飛速發(fā)展,從一開(kāi)始的手工流程電子化到人工流程自動(dòng)化,再到現(xiàn)在的企業(yè)管理信息化,越來(lái)越多的獨(dú)立信息系統(tǒng)造成了“信息孤島”現(xiàn)象?!靶畔⒐聧u”束縛了企業(yè)的發(fā)展,制約了企業(yè)信息化需求,因此數(shù)據(jù)集成技術(shù)應(yīng)運(yùn)而生。

數(shù)據(jù)集成技術(shù)是解決“信息孤島”問(wèn)題的重要方法。數(shù)據(jù)集成就是將多個(gè)分布的異構(gòu)數(shù)據(jù)源,按照一定的規(guī)則邏輯或物理地集成到統(tǒng)一的數(shù)據(jù)集合中,對(duì)應(yīng)用系統(tǒng)提供查詢(xún)接口,用戶(hù)可以直接查詢(xún)利用所需的分布異構(gòu)數(shù)據(jù),而不必去關(guān)心底層異構(gòu)數(shù)據(jù)的差異。數(shù)據(jù)集成的好與壞就是看用戶(hù)能否以最小的代價(jià),高效地利用這些分布異構(gòu)數(shù)據(jù),滿(mǎn)足企業(yè)需求。

1 數(shù)據(jù)集成模型

該文以一種通用的數(shù)據(jù)集成模型為基礎(chǔ)進(jìn)行闡述,該模型展示了從分布異構(gòu)數(shù)據(jù)源中抽取、轉(zhuǎn)換、清洗、加載數(shù)據(jù)和建立數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)支撐整個(gè)數(shù)據(jù)集成過(guò)程,如圖1所示。

該模型框架中主要包括三個(gè)部分:數(shù)據(jù)源、數(shù)據(jù)集成、數(shù)據(jù)利用。

(1)數(shù)據(jù)源:數(shù)據(jù)源可以是分布的、異構(gòu)的數(shù)據(jù)庫(kù),如Access、XML、SQL Server、Oracle等,它們提供各種信息數(shù)據(jù)資源供集成利用,是數(shù)據(jù)集成模型的基礎(chǔ)。

(2)數(shù)據(jù)集成:該部分是數(shù)據(jù)集成模型的核心,通過(guò)ETL進(jìn)行數(shù)據(jù)集成,通過(guò)數(shù)據(jù)清洗保證數(shù)據(jù)質(zhì)量,進(jìn)而建立數(shù)據(jù)倉(cāng)庫(kù),為各種應(yīng)用系統(tǒng)提供數(shù)據(jù)支撐。

(3)數(shù)據(jù)利用:數(shù)據(jù)的價(jià)值就是為用戶(hù)提供利用,該部分就是通過(guò)應(yīng)用系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)集成過(guò)程產(chǎn)生的數(shù)據(jù)的價(jià)值。

2 關(guān)鍵技術(shù)

如圖1所示,數(shù)據(jù)集成部分是數(shù)據(jù)集成模型是否可以發(fā)揮作用的關(guān)鍵,也是對(duì)數(shù)據(jù)集成質(zhì)量的重要保證,它包含了數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗和數(shù)據(jù)加載等關(guān)鍵技術(shù)。下面對(duì)這些技術(shù)展開(kāi)重點(diǎn)闡述。

(1)數(shù)據(jù)抽取。

數(shù)據(jù)抽取就是將數(shù)據(jù)倉(cāng)庫(kù)所需的數(shù)據(jù)從分布的異構(gòu)數(shù)據(jù)源中抽取出來(lái)。由于各個(gè)數(shù)據(jù)源內(nèi)的數(shù)據(jù)的結(jié)構(gòu)、標(biāo)識(shí)、及時(shí)性、準(zhǔn)確性和可靠性等都可能不同,因此針對(duì)每個(gè)數(shù)據(jù)源都需要建立數(shù)據(jù)抽取流程。抽取流程一般包含抽取分析和抽取規(guī)則兩部分。抽取分析需明確抽取數(shù)據(jù)內(nèi)容、數(shù)據(jù)信息、數(shù)據(jù)格式等;抽取規(guī)則需確定抽取數(shù)據(jù)的順序、方式和時(shí)間等。

(2)數(shù)據(jù)轉(zhuǎn)換。

數(shù)據(jù)轉(zhuǎn)換是ETL中最關(guān)鍵的環(huán)節(jié),較為復(fù)雜。同一類(lèi)型業(yè)務(wù)數(shù)據(jù)會(huì)以不同的存儲(chǔ)格式、存儲(chǔ)內(nèi)容在不同的“信息孤島”中存在,直接抽取的數(shù)據(jù)在大多數(shù)情況下是不能夠滿(mǎn)足數(shù)據(jù)倉(cāng)庫(kù)的要求,必須對(duì)抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的依據(jù)是數(shù)據(jù)集成模型定義的數(shù)據(jù)源和數(shù)據(jù)倉(cāng)庫(kù)的映射關(guān)系,目前采用語(yǔ)義分析和本體領(lǐng)域等技術(shù)使得這些映射關(guān)系具有智能化和很強(qiáng)的適應(yīng)性,根據(jù)這些映射關(guān)系對(duì)抽取數(shù)據(jù)進(jìn)行合并、拆分及計(jì)算等轉(zhuǎn)換,使抽取數(shù)據(jù)能夠滿(mǎn)足數(shù)據(jù)倉(cāng)庫(kù)要求。

(3)數(shù)據(jù)清洗。

數(shù)據(jù)清洗的目標(biāo)就是提高集成數(shù)據(jù)質(zhì)量,主要是通過(guò)檢測(cè)和消除錯(cuò)誤數(shù)據(jù)和不一致數(shù)據(jù)兩個(gè)方面來(lái)實(shí)現(xiàn),高質(zhì)量的數(shù)據(jù)才能提供優(yōu)質(zhì)可信的數(shù)據(jù)支撐,可見(jiàn)數(shù)據(jù)清洗是非常必要和必須的。數(shù)據(jù)清洗的對(duì)象是數(shù)據(jù)實(shí)例,目前數(shù)據(jù)清洗的方法主要有設(shè)計(jì)數(shù)據(jù)清洗框架和模型、重復(fù)記錄的檢測(cè)消除算法以及利用專(zhuān)家系統(tǒng)、數(shù)據(jù)挖掘、本體等相關(guān)領(lǐng)域技術(shù)等。

3 結(jié)語(yǔ)

當(dāng)前信息化建設(shè)已經(jīng)從數(shù)據(jù)采集發(fā)展到數(shù)據(jù)管理利用的階段,社會(huì)對(duì)“信息孤島”進(jìn)行數(shù)據(jù)集成、建立數(shù)據(jù)倉(cāng)庫(kù)提供決策支撐的需求越來(lái)越強(qiáng)烈,數(shù)據(jù)集成已經(jīng)成為信息化發(fā)展的一個(gè)必然選擇。該文根據(jù)當(dāng)前信息化的發(fā)展現(xiàn)狀和趨勢(shì),介紹了數(shù)據(jù)集成的必然性和重要性,在數(shù)據(jù)集成模型的基礎(chǔ)上重點(diǎn)闡述了數(shù)據(jù)集成中ETL和數(shù)據(jù)清洗等關(guān)鍵技術(shù),對(duì)數(shù)據(jù)集成的普遍應(yīng)用和推廣存在指導(dǎo)意義。

參考文獻(xiàn)

[1] 陳玉東,姚青.基于商務(wù)智能的流程評(píng)估系統(tǒng)中ETL的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(8):2752-2756.

[2] 郭志愗,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報(bào),2002,13(11):2076-2082.

[3] 周濤,陸惠玲.數(shù)據(jù)挖掘中聚類(lèi)算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(12):100-111.

[4] Jiawei Han,Micheline Kamber,Jian Pei.Data Mining Concepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2012.

猜你喜歡
數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)傾斜解決方案研究
七大云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
成本與制造數(shù)據(jù)集成分析
基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
XML數(shù)據(jù)交換技術(shù)在中醫(yī)智能化診斷數(shù)據(jù)集成中的應(yīng)用
高校一表通系統(tǒng)建設(shè)探究
基于數(shù)據(jù)集成的水上項(xiàng)目國(guó)家隊(duì)數(shù)據(jù)庫(kù)網(wǎng)絡(luò)管理平臺(tái)的設(shè)計(jì)與開(kāi)發(fā)
數(shù)據(jù)復(fù)用在存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)中的運(yùn)用
承德市| 福安市| 汉寿县| 郑州市| 河东区| 乐至县| 依兰县| 水富县| 琼中| 宝丰县| 西乌| 赤峰市| 桑植县| 南木林县| 聊城市| 新津县| 田东县| 哈密市| 合阳县| 泸西县| 崇左市| 韶关市| 金寨县| 凌源市| 南京市| 筠连县| 敦化市| 通辽市| 永川市| 喀喇| 定陶县| 建水县| 宣武区| 厦门市| 安远县| 武鸣县| 内丘县| 扎鲁特旗| 如皋市| 奉贤区| 梨树县|