国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL研究與設(shè)計(jì)

2018-01-17 09:09:38翁業(yè)林周泓侯兵
軟件工程 2018年12期
關(guān)鍵詞:大數(shù)據(jù)信息技術(shù)

翁業(yè)林 周泓 侯兵

摘 要:隨著信息技術(shù)的不斷發(fā)展與成熟,數(shù)據(jù)中心建設(shè)是值得我們探討的課題。本文從大數(shù)據(jù)時(shí)代ETL所面臨的挑戰(zhàn)進(jìn)行分析,提出解決問題的思路和措施,研究和設(shè)計(jì)了企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL方案,并就ETL關(guān)鍵技術(shù)、Data Vault混合數(shù)據(jù)建模、異常處理及保障進(jìn)行了探討。

關(guān)鍵詞:信息技術(shù);大數(shù)據(jù);ETL;Data Vault

中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)識(shí)碼:A

Abstract:With the continuous development and maturity of information technology,data center construction is one of the topics worth discussing.This paper analyses the challenges faced by ETL in the era of big data,puts forward the ideas and measures to solve these problems,studies and designs the distributed ETL scheme of enterprise data center,and discusses the key technologies of ETL,data Vault mixed data modeling,exception handling and guarantees.

Keywords:information technology;big data;ETL;Data Vault

1 引言(Introduction)

企業(yè)在信息化的過程中積累了大量的數(shù)據(jù)[1],這些數(shù)據(jù)已成為了企業(yè)的財(cái)富,也是企業(yè)的一種重要戰(zhàn)略資源。隨著企業(yè)對(duì)數(shù)據(jù)的價(jià)值越來越敏感和重視,“洞察”數(shù)據(jù),分析數(shù)據(jù)背后的“內(nèi)涵”將有效地幫助企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)環(huán)境中占據(jù)優(yōu)勢(shì)。然而由于歷史、現(xiàn)實(shí)等種種原因,企業(yè)的數(shù)據(jù)通常是分布在若干個(gè)獨(dú)立的信息系統(tǒng)中,數(shù)據(jù)的類型繁多,且缺少統(tǒng)一的接口,數(shù)據(jù)結(jié)構(gòu)存在巨大差異。合理地集成這些相互關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源,無視不同管理系統(tǒng)中的數(shù)據(jù)差異,以透明的方式訪問這些數(shù)據(jù),從而充分挖掘大數(shù)據(jù)價(jià)值,是各個(gè)企業(yè)急需解決的問題。為此人們提出了ETL的概念。ETL是數(shù)據(jù)抽取、轉(zhuǎn)換和裝載(Extract、Transformation、Loading)的英文簡(jiǎn)稱,是數(shù)據(jù)倉庫獲取高質(zhì)量數(shù)據(jù)的關(guān)鍵環(huán)節(jié)。通過ETL技術(shù)實(shí)現(xiàn)對(duì)分布在各業(yè)務(wù)系統(tǒng)的不同種類和形式數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和加載[2],以供后續(xù)的分析處理環(huán)節(jié)使用。企業(yè)級(jí)數(shù)據(jù)中心每天創(chuàng)建的數(shù)據(jù)量呈現(xiàn)爆炸性的增長(zhǎng),如此龐大數(shù)據(jù)量的采集、存儲(chǔ)、管理、數(shù)據(jù)分析與挖掘是面臨的非常嚴(yán)峻的問題[3]。數(shù)據(jù)中心管理人員為實(shí)現(xiàn)數(shù)據(jù)中心高效性一直在探索提高資源的利用率的方法;硬件的更新速度是大數(shù)據(jù)發(fā)展的基石,但效果往往不甚理想;傳統(tǒng)ETL面臨復(fù)雜數(shù)據(jù)、海量數(shù)據(jù)、實(shí)時(shí)性、混搭架構(gòu)等方面的挑戰(zhàn)[4]。本文基于大規(guī)模并行處理(Massively Parallel Processing,簡(jiǎn)稱MPP)、分布式系統(tǒng)基礎(chǔ)架構(gòu)HADOOP,提出了面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL的設(shè)計(jì),從而滿足企業(yè)級(jí)數(shù)據(jù)中心數(shù)據(jù)處理實(shí)時(shí)性要求,建立統(tǒng)一、可視化管控的數(shù)據(jù)處理平臺(tái);搭建數(shù)據(jù)處理與交換、實(shí)時(shí)性的服務(wù)環(huán)境;實(shí)現(xiàn)了統(tǒng)一任務(wù)調(diào)度機(jī)制,加強(qiáng)海量數(shù)據(jù)處理及交換能力。

2 分布式ETL技術(shù)分析(Analysis of distributed

ETL technology)

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL的設(shè)計(jì)主要基于MPP、HADOOP等。

2.1 MPP與Hadoop

大規(guī)模并行處理(Massively Parallel Processing,簡(jiǎn)稱MPP) 適合替代現(xiàn)有關(guān)系數(shù)據(jù)機(jī)構(gòu)下的大數(shù)據(jù)處理,具有較高的效率;在非共享數(shù)據(jù)庫集群系統(tǒng)中,集群中的各個(gè)節(jié)點(diǎn)分別具有相互獨(dú)立的內(nèi)存系統(tǒng)和外存儲(chǔ)系統(tǒng),根據(jù)數(shù)據(jù)庫模型和應(yīng)用特點(diǎn)將業(yè)務(wù)數(shù)據(jù)劃分到不同的節(jié)點(diǎn)上,數(shù)據(jù)節(jié)點(diǎn)間通過商業(yè)通用網(wǎng)絡(luò)或?qū)S镁W(wǎng)絡(luò)互相連接,彼此協(xié)同計(jì)算,形成一個(gè)整體為用戶提供數(shù)據(jù)庫服務(wù)。非共享數(shù)據(jù)庫集群系統(tǒng)具有完備的可伸縮性、高可用、高性能、性價(jià)比高、資源共享等優(yōu)勢(shì)[5]。MPP是將任務(wù)分散到多個(gè)服務(wù)器和節(jié)點(diǎn)上并行執(zhí)行,集群中各個(gè)節(jié)點(diǎn)在計(jì)算完成后,主節(jié)點(diǎn)將各節(jié)點(diǎn)負(fù)責(zé)部分的結(jié)果匯總形成最終的結(jié)果。MPP還適合多維度數(shù)據(jù)自助分析、數(shù)據(jù)集市等。

Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop最核心的設(shè)計(jì)是分布式文件系統(tǒng)(Hadoop Distributed File System,簡(jiǎn)稱HDFS)和編程模型MapReduce;其中HDFS為存儲(chǔ)PB級(jí)以上的數(shù)據(jù)提供了基礎(chǔ),MapReduce為大數(shù)據(jù)的處理提供了方法。在處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)上Hadoop具備獨(dú)特的優(yōu)勢(shì),尤其適合PB級(jí)以上數(shù)據(jù)的批處理等,如大數(shù)據(jù)的存儲(chǔ)查詢、批量數(shù)據(jù)ETL、日志、文本等非機(jī)構(gòu)化的數(shù)據(jù)分析等。

本文的研究使用MPPDB+Hadoop,滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的高效處理需求;用MPP處理海量的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),同時(shí)為應(yīng)用提供豐富的SQL和事務(wù)支持能力;半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理則由Hadoop實(shí)現(xiàn)。

2.2 ETL關(guān)鍵技術(shù)

本文設(shè)計(jì)的面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL平臺(tái)如圖1所示,主要包括一個(gè)主節(jié)點(diǎn)和多個(gè)子節(jié)點(diǎn)。主節(jié)點(diǎn)接收提交的ETL任務(wù)并進(jìn)行任務(wù)調(diào)度分配到各個(gè)子節(jié)點(diǎn),監(jiān)控各個(gè)子節(jié)點(diǎn)中的任務(wù)執(zhí)行狀態(tài)反饋給用戶;子節(jié)點(diǎn)執(zhí)行從主節(jié)點(diǎn)接收到ETL任務(wù),從不同的數(shù)據(jù)源中開始抽取數(shù)據(jù)并傳輸?shù)狡脚_(tái)中,在平臺(tái)中經(jīng)過清洗、轉(zhuǎn)換后傳輸并裝載到數(shù)據(jù)倉庫。

數(shù)據(jù)抽取一般有全量抽取、增量抽取兩種方式。全量抽取就是將數(shù)據(jù)源中的數(shù)據(jù)原封不動(dòng)地從數(shù)據(jù)庫中抽取出來加載到數(shù)據(jù)倉庫中,類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制;而增量抽取只抽取自上次抽取以來數(shù)據(jù)庫中要抽取的表中新增或修改的數(shù)據(jù)[6]。建立數(shù)據(jù)倉庫前期一般采用全量抽取方式將來自不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)抽取至數(shù)據(jù)倉庫。全量抽取完成后,采用增量抽取方式抽取每天產(chǎn)生或變化的數(shù)據(jù)。增量抽取捕獲變化數(shù)據(jù)主要有觸發(fā)器、時(shí)間戳、全表對(duì)比、日志表等方式[7]。此外,企業(yè)的多個(gè)業(yè)務(wù)系統(tǒng)采用的數(shù)據(jù)庫可能來自不同廠商,這需要將這多個(gè)數(shù)據(jù)庫集成起來,以滿足能從不同數(shù)據(jù)庫中抽取數(shù)據(jù)的需求。因此,數(shù)據(jù)集成主要面臨數(shù)據(jù)源異構(gòu)問題,所以在設(shè)計(jì)ETL處理平臺(tái)時(shí)要考慮數(shù)據(jù)源的通用性和擴(kuò)展性,本文在實(shí)現(xiàn)ETL處理平臺(tái)中盡可能地支持常用的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)文件。

企業(yè)在構(gòu)建數(shù)據(jù)倉庫的過程中需要建立元數(shù)據(jù),所謂元數(shù)據(jù)是指管理數(shù)據(jù)的數(shù)據(jù),具有解釋數(shù)據(jù)意思的目的[8]。數(shù)據(jù)沒有統(tǒng)一的規(guī)范,以至于企業(yè)無從匯總數(shù)據(jù)。在企業(yè)建立了元數(shù)據(jù)之后,需要對(duì)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取,并將其轉(zhuǎn)換成標(biāo)準(zhǔn)的規(guī)劃化數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換就是用來解決如何將非規(guī)范化的數(shù)據(jù)轉(zhuǎn)換成規(guī)范化的數(shù)據(jù)的問題[9]。

數(shù)據(jù)加載的任務(wù)主要往數(shù)據(jù)倉庫中添加數(shù)據(jù),完成數(shù)據(jù)倉庫的數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)加載添加的數(shù)據(jù)來自于前一個(gè)過程數(shù)據(jù)轉(zhuǎn)換。

2.3 利用Data Vault混合數(shù)據(jù)建模

Data Vault(簡(jiǎn)稱DV)是一組有連接關(guān)系的規(guī)范化的表的集合,DV模型主要用于企業(yè)級(jí)的數(shù)據(jù)倉庫建模,具備面向細(xì)節(jié)、可溯源等特征,DV模型架構(gòu)如圖2所示。Data Vault建模是一種數(shù)據(jù)庫建模技術(shù),可提供源自多個(gè)源的數(shù)據(jù)的長(zhǎng)期歷史存儲(chǔ)。一個(gè)DV存儲(chǔ)事實(shí)或“所有數(shù)據(jù)、所有時(shí)間”的單個(gè)版本。其靈活、可擴(kuò)展、一致且適應(yīng)性強(qiáng)的設(shè)計(jì)涵蓋了第三范式(3NF)和星型模型(star schema)的最佳方面。

通過DV中的業(yè)務(wù)主鍵和描述性屬性之間的業(yè)務(wù)主鍵關(guān)聯(lián),DV可以解決環(huán)境變化的問題。將這些主鍵設(shè)置為數(shù)據(jù)倉庫的結(jié)構(gòu)主干,所有關(guān)聯(lián)的數(shù)據(jù)都可以圍繞它們進(jìn)行組織。這些樞紐表(業(yè)務(wù)鍵)、連接表(關(guān)聯(lián))和SAT(描述性屬性)產(chǎn)生適應(yīng)性很強(qiáng)的數(shù)據(jù)結(jié)構(gòu),同時(shí)保持強(qiáng)大的數(shù)據(jù)完整性。特定的鏈接就像突觸(向相反方向的向量),只要業(yè)務(wù)關(guān)系能夠根據(jù)需要轉(zhuǎn)換數(shù)據(jù)模型而自動(dòng)進(jìn)行更改而不影響現(xiàn)有的數(shù)據(jù)結(jié)構(gòu),就可以創(chuàng)建或刪除它們。

Data Vault模型構(gòu)建后,就可以通過ETL構(gòu)建數(shù)據(jù)集成過程(即從源系統(tǒng)將數(shù)據(jù)填充到目標(biāo)系統(tǒng)中)。構(gòu)建面向全行業(yè)、標(biāo)準(zhǔn)化數(shù)據(jù)處理中心,為用戶提供快速、安全的企業(yè)級(jí)別的大數(shù)據(jù)處理解決方案,為各企業(yè)用戶在更短時(shí)間內(nèi)收集、處理和發(fā)送更多精準(zhǔn)的數(shù)據(jù),而且所需要的資源和成本更低。

3 面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL架構(gòu) (Distributed ETL architecture for enterprise data center)

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL解決的具體措施即建立數(shù)據(jù)處理和交換平臺(tái)。集中建設(shè)數(shù)據(jù)處理與交換平臺(tái),并制定各系統(tǒng)采集的接口標(biāo)準(zhǔn);加強(qiáng)實(shí)時(shí)流處理能力,形成海量數(shù)據(jù)批處理與實(shí)時(shí)處理、分析并存的能力;建立數(shù)據(jù)中心統(tǒng)一調(diào)度機(jī)制,覆蓋ETL及數(shù)據(jù)分發(fā)企業(yè)級(jí)應(yīng)用;提供流程及任務(wù)調(diào)度可視化操作及監(jiān)控界面。面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL架構(gòu)如圖3所示。

3.1 統(tǒng)一采集

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL架構(gòu)對(duì)數(shù)據(jù)同意采集,提供多接口、多源采集方式,實(shí)現(xiàn)多域數(shù)據(jù)的融合,為適應(yīng)企業(yè)級(jí)數(shù)據(jù)中心多類型數(shù)據(jù)源采集的需要,平臺(tái)需支持多種類型的數(shù)據(jù)采集方式,包括:API接口、JDBC/ODBC接口、消息隊(duì)列(MQ)接口、FTP/SFTP接口、第三方工具集成等。

3.2 統(tǒng)一作業(yè)

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL架構(gòu)統(tǒng)一作業(yè),提供豐富的圖形化、定制化開放能力。統(tǒng)一作業(yè)流程如圖4所示。支持各種復(fù)雜作業(yè)關(guān)系配置,系統(tǒng)通過圖形化界面配置從前端快速簡(jiǎn)明的配置作業(yè)任務(wù),提供對(duì)外開放能力,支持不同廠商開發(fā)人員的開發(fā)定制能力,提供作業(yè)執(zhí)行流程監(jiān)控。支持定時(shí)、常駐任務(wù),靈活的定義時(shí)間格式;支持?jǐn)?shù)據(jù)觸發(fā),作業(yè)關(guān)系管理;方便華為、思特奇等多廠商開發(fā)人員的使用。

采用“內(nèi)存不落地方式”任意數(shù)據(jù)交換,對(duì)源數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫進(jìn)行靈活的配置,使得一個(gè)相同的源數(shù)據(jù)可以交換至多個(gè)異構(gòu)數(shù)據(jù)庫。交換中心對(duì)數(shù)據(jù)的處理采用不落地分布方式,通過多進(jìn)程管道實(shí)現(xiàn)數(shù)據(jù)的并行讀取,這樣數(shù)據(jù)的通用轉(zhuǎn)換過程在內(nèi)存中就可以完成,同時(shí)還支持轉(zhuǎn)碼、加密等操作。經(jīng)過分發(fā)路由轉(zhuǎn)換成適應(yīng)各種類型數(shù)據(jù)庫的多路數(shù)據(jù),且分發(fā)轉(zhuǎn)換支持多種數(shù)據(jù)格式轉(zhuǎn)換,最后并行加載到不同的目標(biāo)數(shù)據(jù)庫或者寫入文件。

3.3 統(tǒng)一調(diào)度

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL架構(gòu)實(shí)現(xiàn)跨平臺(tái)間的統(tǒng)一調(diào)度,實(shí)現(xiàn)了多系統(tǒng)、多用戶協(xié)同調(diào)度。完成多個(gè)平臺(tái)獨(dú)立調(diào)度,以及多個(gè)平臺(tái)間依賴調(diào)度。提供獨(dú)立工作區(qū)和用戶,各平臺(tái)可自行管理調(diào)度和ETL作業(yè)。權(quán)限管理,操作人員可設(shè)置ETL作業(yè)和調(diào)度,監(jiān)控人員只提供查詢權(quán)限。

建立多觸發(fā)方式的跨平臺(tái)靈活調(diào)度機(jī)制,滿足不同的應(yīng)用場(chǎng)景。時(shí)間觸發(fā):一次性觸發(fā)、定時(shí)觸發(fā)、頻次觸發(fā);循環(huán)觸發(fā):循環(huán)操作,直至job達(dá)到失效時(shí)間;條件觸發(fā):幾個(gè)前置的job流程的完成進(jìn)行觸發(fā);事件觸發(fā):外部數(shù)據(jù)插入事件觸發(fā)表,后臺(tái)根據(jù)參數(shù)在指定時(shí)間將流程調(diào)度起來;組合觸發(fā):提供同時(shí)設(shè)置多個(gè)觸發(fā)規(guī)則,觸發(fā)規(guī)則間提供與或關(guān)系。

3.4 統(tǒng)一管控

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL架構(gòu)具備跨平臺(tái)統(tǒng)一監(jiān)控及管理功能。集群監(jiān)控及分析:提供統(tǒng)一運(yùn)維界面,支持對(duì)集群、平臺(tái)程序的監(jiān)控和維護(hù),主要包括主備管理、任務(wù)分配、負(fù)載均衡等功能;資源監(jiān)控:提供節(jié)點(diǎn)資源監(jiān)控功能,對(duì)各節(jié)點(diǎn)的CPU、IO、內(nèi)存、內(nèi)核處理速度進(jìn)行監(jiān)控、報(bào)警。

應(yīng)用執(zhí)行監(jiān)控:提供對(duì)后臺(tái)多種應(yīng)用的執(zhí)行情況監(jiān)控、應(yīng)用執(zhí)行效率分析功能,支持多種告警方式與錯(cuò)誤反饋,并可對(duì)應(yīng)用的重新運(yùn)行、繼續(xù)運(yùn)行等操作。

3.5 異常處理及保障

異常處理是數(shù)據(jù)處理中心平臺(tái)重要的安全機(jī)制,通過建立多種異常校驗(yàn)處理機(jī)制,保障數(shù)據(jù)處理與交換的可靠性。

(1)一致性校驗(yàn)異常:數(shù)據(jù)源總記錄數(shù)與加載目標(biāo)庫總記錄數(shù)進(jìn)行校驗(yàn),校驗(yàn)結(jié)果在指定范圍內(nèi)則兩者數(shù)據(jù)一致,否則一致性校驗(yàn)失敗,任務(wù)重新執(zhí)行。

(2)準(zhǔn)確性校驗(yàn)異常:數(shù)據(jù)讀入內(nèi)存中進(jìn)行數(shù)據(jù)準(zhǔn)確性校驗(yàn),校驗(yàn)不通過的記錄寫入錯(cuò)誤文件(最大寫入記錄數(shù)),并通知運(yùn)維人員處理,同時(shí)將正確的記錄正常加載到目標(biāo)庫。

(3)網(wǎng)絡(luò)中斷等外部原因造成的異常:平臺(tái)設(shè)定自動(dòng)處理時(shí)間和次數(shù),超限后,發(fā)送預(yù)警信息由外部人員手工干預(yù)。

4 結(jié)論(Conclusion)

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL系統(tǒng)通過Data Vault將大數(shù)據(jù)技術(shù)和建模、方法、架構(gòu)和實(shí)踐融合在一起。隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)可以很容易地融入到data vault數(shù)據(jù)模型中,消除星型模式設(shè)計(jì)的清潔規(guī)范,data vault通過減少耗盡和維持影響大數(shù)據(jù)系統(tǒng)潛力的相關(guān)插入,從而在巨大的數(shù)據(jù)集上展現(xiàn)優(yōu)勢(shì)。

通過集中建設(shè)數(shù)據(jù)處理與交換平臺(tái),在可用性、擴(kuò)展性、實(shí)時(shí)性、兼容性、可視性上有很大提升。高可用集群與負(fù)載均衡能力,硬件線性擴(kuò)展及功能橫向擴(kuò)展能力,借助流式計(jì)算、流式處理能力,通過內(nèi)存管道流技術(shù),充分提高數(shù)據(jù)處理與分析實(shí)時(shí)性能;工具采用采用插件式開發(fā),同時(shí)將對(duì)外服務(wù)、集成功能封裝成API供其他軟件調(diào)用。也可以方便集成符合API接口的第三方軟件;可視化操作統(tǒng)一監(jiān)控能力,提供了圖形化界面,方便集成商使用和維護(hù)。

面向企業(yè)級(jí)數(shù)據(jù)中心的分布式ETL系統(tǒng)通過部署集中數(shù)據(jù)處理平臺(tái),采用管道技術(shù),對(duì)不同數(shù)據(jù)庫采用并行抽取,并且對(duì)抽取內(nèi)容做內(nèi)存壓縮,從而為數(shù)據(jù)處理提速,數(shù)據(jù)生成時(shí)間縮小,性能提升明顯,效果顯著。新技術(shù)的運(yùn)用幫助企業(yè)減少了投資,提升了數(shù)據(jù)處理性能和效率。

參考文獻(xiàn)(References)

[1] Meng X,Bradley J,Yavuz B,et al.Mllib:Machine learning in apache Spark.The Journal of Machine Learning Research,2016,17(1):1235-1241.

[2] Kumar Hota CPP,Ramu Y,Subba Rao DBV.A relative study on traditional ETL and ETL with apache hadoop.NCRTIT2K16.Andhra Pradesh,India,2016,20(2):74-78.

[3] WU X,ZHU X,WU G,et al.Data Mining with Big Data[J].IEEE Transancations on Knowledge & Data Engineering 2016,26(1):97-102.

[4] 韓文彪,李暉,陳梅,等.PBS:一種面向集群環(huán)境的ETL調(diào)度算法[J].計(jì)算機(jī)與數(shù)字工程,2017,45(5):793-796.

[5] 徐立新.基于異構(gòu)數(shù)據(jù)資源整合的方法和系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(12):173-179.

[6] 楊杉,蘇飛,程新洲,等.面向運(yùn)營商大數(shù)據(jù)的分布式ETL研究與設(shè)計(jì)[J].郵電設(shè)計(jì)技術(shù),2016,8(1):50-52.

[7] 施霖,楊愛民.一種基于時(shí)間戳和日志的增量數(shù)據(jù)捕獲和抽取方法[P].CN,CN 102915336 A,2013.

[8] 王春陽,趙書良,王長(zhǎng)賓.粒子群算法在分布式ETL任務(wù)調(diào)度中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(9):150-155.

[9] Kakish K,Kraft T A.ETL evolution for real-time data;warehousing[C].Proceedings of the Conference on Information Systems Applied Research ISSN,2012:2167-1508.

[10] 孟維一.基于數(shù)據(jù)倉庫的保險(xiǎn)商業(yè)智能系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2016.

作者簡(jiǎn)介:

翁業(yè)林(1981-),男,碩士,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò)技術(shù).

周 泓(1981-),女,博士,副教授.研究領(lǐng)域:計(jì)算機(jī)軟件.

侯 兵(1980-),男,碩士,高級(jí)工程師.研究領(lǐng)域:大數(shù)據(jù)開發(fā).

猜你喜歡
大數(shù)據(jù)信息技術(shù)
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
信息技術(shù)在幼兒教育中的有效應(yīng)用
甘肅教育(2020年2期)2020-09-11 08:00:44
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
固原市| 手机| 永丰县| 科尔| 金堂县| 靖远县| 洪雅县| 大港区| 汝南县| 玉屏| 东海县| 永城市| 丰台区| 顺昌县| 崇左市| 行唐县| 延寿县| 闽清县| 鸡东县| 永新县| 铁力市| 册亨县| 措勤县| 罗田县| 九龙城区| 鲁甸县| 浦北县| 阳信县| 庆元县| 盐山县| 鹤壁市| 北安市| 冕宁县| 南乐县| 高台县| 江阴市| 永城市| 三门峡市| 广宁县| 南昌市| 永定县|