李遠(yuǎn)寧,劉森,張?jiān)娷姡愗S,王志英
(中國(guó)南方電網(wǎng)有限責(zé)任公司信息部,廣東 廣州 510623)
分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)在電力企業(yè)的實(shí)踐和應(yīng)用
李遠(yuǎn)寧,劉森,張?jiān)娷姡愗S,王志英
(中國(guó)南方電網(wǎng)有限責(zé)任公司信息部,廣東 廣州 510623)
隨著企業(yè)信息化水平和企業(yè)精細(xì)化管理要求的不斷提高,企業(yè)對(duì)數(shù)據(jù)管理的需求也隨之增強(qiáng),如何提高企業(yè)數(shù)據(jù)質(zhì)量更是需要重點(diǎn)解決的問(wèn)題。 針對(duì)電力企業(yè)數(shù)據(jù)質(zhì)量管理面臨的挑戰(zhàn),創(chuàng)新提出了分布式數(shù)據(jù)質(zhì)量管理解決方案。 針對(duì)集中式數(shù)據(jù)質(zhì)量系統(tǒng)的性能瓶頸,在研究數(shù)據(jù)質(zhì)量系統(tǒng)特點(diǎn)并借鑒國(guó)內(nèi)外對(duì)大數(shù)據(jù)的解決方案后,提出了基于 Hadoop 分布式處理框架的解決方案。 利用 Hadoop 集群,可以把缺陷數(shù)據(jù)從 Oracle中抽離,分散存儲(chǔ)在集群里多臺(tái)服務(wù)器上,以有效提高磁盤(pán) I/O 性能和數(shù)據(jù)分析性能。
數(shù)據(jù)質(zhì)量管理;分布式;Hadoop
隨著企業(yè)信息化水平和精細(xì)化管理要求的不斷提高,數(shù)據(jù)已成為企業(yè)的重要資源和核心資產(chǎn),深刻影響企業(yè)的業(yè)務(wù)管理模式。企業(yè)數(shù)據(jù)質(zhì)量水平,將關(guān)系到企業(yè)數(shù)據(jù)化管理、決策的效率和成效。
為促進(jìn)數(shù)據(jù)質(zhì)量水平的提升,電力行業(yè)開(kāi)展了數(shù)據(jù)質(zhì)量管理工作,并完成了數(shù)據(jù)質(zhì)量管理系統(tǒng)的建設(shè)與推廣,生產(chǎn)、營(yíng)銷(xiāo)、財(cái)務(wù)、人力資源等業(yè)務(wù)域的數(shù)據(jù)質(zhì)量得到了顯著提升,但也面臨如下一些挑戰(zhàn):
· 涉及范圍廣,涉及各分省公司的營(yíng)銷(xiāo)、生產(chǎn)、人力資源、財(cái)務(wù)等業(yè)務(wù)領(lǐng)域;
· 校驗(yàn)規(guī)則繁多,各業(yè)務(wù)域都有相應(yīng)的數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則,涵蓋非空、長(zhǎng)度、格式、一致性、準(zhǔn)確性等類(lèi)型的 規(guī) 則 ,共 計(jì) 4 000 多 條 ;
· 數(shù)據(jù)量大,經(jīng)統(tǒng)計(jì),全網(wǎng)月增量數(shù)據(jù)為 8 億筆,問(wèn) 題數(shù) 據(jù) 為 3 000 萬(wàn) 筆 ;
· 數(shù)據(jù)校驗(yàn)耗時(shí)長(zhǎng),以營(yíng)銷(xiāo)域?yàn)槔?,?dāng)校驗(yàn)數(shù)據(jù)量達(dá)到 10億筆或以上規(guī)模時(shí),原基于集中式數(shù)據(jù)存儲(chǔ)和計(jì)算架構(gòu)的數(shù)據(jù)質(zhì)量管理系統(tǒng)由于數(shù)據(jù)讀寫(xiě)和數(shù)據(jù)統(tǒng)計(jì)操作瓶頸,完成數(shù)據(jù)質(zhì)量校驗(yàn)和問(wèn)題分析需 耗 費(fèi) 70 h 以 上 的 系 統(tǒng) 運(yùn) 行 時(shí) 間 ;
· 需要在短時(shí)間內(nèi)執(zhí)行大量的校驗(yàn)規(guī)則,對(duì)磁盤(pán)讀寫(xiě)性能、CPU 和內(nèi)存性能要求較高。
傳統(tǒng)集中式數(shù)據(jù)質(zhì)量管理系統(tǒng)可以規(guī)范化管理校驗(yàn)規(guī)則、調(diào)度規(guī)則的執(zhí)行時(shí)間、統(tǒng)一管理數(shù)據(jù)質(zhì)量報(bào)告,大大提高了數(shù)據(jù)質(zhì)量校驗(yàn)的效率,并規(guī)范了數(shù)據(jù)質(zhì)量的管理。數(shù)據(jù)量在千萬(wàn)級(jí)以?xún)?nèi)時(shí),可以穩(wěn)定高效地完成數(shù)據(jù)質(zhì)量校驗(yàn)。
集中式數(shù)據(jù)質(zhì)量管理系統(tǒng) (以下簡(jiǎn)稱(chēng)集中式系統(tǒng))主要包括兩大模塊,如圖 1所示。
圖1 集中式數(shù)據(jù)質(zhì)量管理系統(tǒng)架構(gòu)
(1)系統(tǒng)配置層
用于配置校驗(yàn)規(guī)則、執(zhí)行策略、元數(shù)據(jù)等信息,查看數(shù)據(jù)質(zhì)量分析結(jié)果。
(2)系統(tǒng)執(zhí)行層
負(fù)責(zé)規(guī)則的執(zhí)行和問(wèn)題數(shù)據(jù)的存儲(chǔ)。質(zhì)量校驗(yàn)引擎采用 Oracle 存 儲(chǔ) 過(guò) 程 實(shí) 現(xiàn) ,通 過(guò) database link(DBlink)鏈 接 到“被校驗(yàn)庫(kù)”執(zhí)行預(yù)先配置好的校驗(yàn)規(guī)則,統(tǒng)計(jì)并抽取查詢(xún)出來(lái)的問(wèn)題數(shù)據(jù)。問(wèn)題數(shù)據(jù)存儲(chǔ)在集中式系統(tǒng)數(shù)據(jù)庫(kù)里進(jìn)行進(jìn)一步的過(guò)濾、合并和分析,最終生成數(shù)據(jù)質(zhì)量報(bào)告。
集中式系統(tǒng)使用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)和分析數(shù)據(jù),當(dāng)面對(duì)海量數(shù)據(jù)時(shí)數(shù)據(jù)庫(kù)服務(wù)器的性能往往會(huì)成為瓶頸。只 能 通 過(guò) 提 高 CPU 處 理 速 度 和 磁 盤(pán) I/O 速 度 來(lái) 提 高 數(shù)據(jù)庫(kù)性能,但這意味著系統(tǒng)成本的增加,并且隨著數(shù)據(jù)的不斷增長(zhǎng),數(shù)據(jù)庫(kù)服務(wù)器很快又會(huì)成為性能瓶頸。圖 2展示了不使用索引和使用索引時(shí),SQL 執(zhí)行時(shí)間隨著數(shù)據(jù) 量 增 長(zhǎng) 的 變 化 情 況 ???以 看 出 ,數(shù) 據(jù) 量 在 500 GB 時(shí) 已出現(xiàn)瓶頸。
圖2 SQL 查詢(xún)性能
由此可見(jiàn),傳統(tǒng)的集中式系統(tǒng)仍存在不足,需要引入新的解決方案,以提升企業(yè)在數(shù)據(jù)質(zhì)量管理方面的能力。
3.1 設(shè)計(jì)思路
針對(duì)集中式數(shù)據(jù)質(zhì)量系統(tǒng)的性能瓶頸,本文在研究數(shù)據(jù)質(zhì)量系統(tǒng)特點(diǎn)并借鑒國(guó)內(nèi)外對(duì)大數(shù)據(jù)的解決方案后,提出 了 基 于 Hadoop 分 布 式 處 理 框 架 的 解 決 方 案 。 利 用Hadoop 集 群 ,可 以 把 缺 陷 數(shù) 據(jù) 從 Oracle 中 抽 離 ,分 散 存 儲(chǔ)在 集 群 里 的 多 臺(tái) 服 務(wù) 器 上 ,從 而 可 以 有 效 提 高 磁 盤(pán) I/O 性能和數(shù)據(jù)分析性能。該方案具有以下優(yōu)點(diǎn):
· 基于 x86 服務(wù)器,可使用較廉價(jià)的服務(wù)器組建集群;
· 具有良好的可擴(kuò)展性,當(dāng)業(yè)務(wù)增長(zhǎng),需要處理更多的數(shù)據(jù)時(shí),可以水平擴(kuò)展和增加更多的節(jié)點(diǎn);
· 集群的每個(gè)節(jié)點(diǎn)都可用于計(jì)算和存儲(chǔ)數(shù)據(jù),可應(yīng)對(duì)PB級(jí)別數(shù)據(jù)的存儲(chǔ)和分析。
3.2 分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)
分布式數(shù)據(jù)質(zhì)量系統(tǒng)采用 J2EE 架構(gòu)開(kāi)發(fā) ,可邏輯劃分為用戶(hù)交互層、數(shù)據(jù)處理層和數(shù)據(jù)存儲(chǔ)層,如圖 3 所示。
3.2.1 用戶(hù)交互層
用戶(hù)交互層即用戶(hù)界面,通過(guò)界面可以進(jìn)行系統(tǒng)配置、規(guī)則管理、報(bào)告導(dǎo)出等操作。主要功能包括以下幾方面。
· 元數(shù)據(jù)管理:管理被校驗(yàn)庫(kù)的元數(shù)據(jù),包括表名、字段名、字段類(lèi)型等信息。
· 模型管理:管理被校驗(yàn)庫(kù)表之間的關(guān)聯(lián)關(guān)系。
· 規(guī)則配置:管理質(zhì)量校驗(yàn)規(guī)則,包括規(guī)則名稱(chēng)、規(guī)則描述以及校驗(yàn)?zāi)_本。
· 策略管理:管理校驗(yàn)規(guī)則的執(zhí)行時(shí)間和執(zhí)行參數(shù)。
· 報(bào)表管理:管理數(shù)據(jù)質(zhì)量報(bào)告,包括生成、上報(bào)、查看等功能。
· 平臺(tái)管理:管理組織機(jī)構(gòu)、用戶(hù)信息、系統(tǒng)日志等。
用戶(hù)交互層是用戶(hù)與系統(tǒng)交互的界面,在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí)充分考慮了界面的可用性和 便 利性,結(jié)合 AJAX 技術(shù)降低系統(tǒng)的響應(yīng)時(shí)間,提升了用戶(hù)使用體驗(yàn);為簡(jiǎn)化校驗(yàn)規(guī)則的配置工作,系統(tǒng)可根據(jù)元數(shù)據(jù)自動(dòng)生成校驗(yàn)規(guī)則的功 能 ,并 采 用 AJAX 技術(shù) 預(yù) 加 載 元 數(shù) 據(jù) ,提 高 用 戶(hù) 操 作 流暢度,大大提高規(guī)則配置的效率;還提供規(guī)則參數(shù)的功能。利用該功能可以把規(guī)則中相似的部分抽取出來(lái),配置成若干個(gè)規(guī)則參數(shù),因此可以減少規(guī)則的數(shù)量,降低規(guī)則變更的響應(yīng)時(shí)間。
3.2.2 數(shù)據(jù)處理層
數(shù)據(jù)處理層是整個(gè)系統(tǒng)的核心,負(fù)責(zé)規(guī)則執(zhí)行、缺陷數(shù)據(jù)查詢(xún)分析等任務(wù),主要功能包括以下幾方面。
·執(zhí)行策略任務(wù)調(diào)度:負(fù)責(zé)控制執(zhí)行策略的任務(wù)調(diào)度,按周期定時(shí)啟動(dòng)執(zhí)行策略。
· 缺陷數(shù)據(jù)分析:負(fù)責(zé)缺陷明細(xì)的分析,并生成數(shù)據(jù)質(zhì)量報(bào)告。
· 規(guī)則執(zhí)行引擎:負(fù)責(zé)執(zhí)行規(guī)則腳本,記錄執(zhí)行日志。
·缺陷明細(xì)查詢(xún)和導(dǎo)出:為用戶(hù)交互層提供從Hadoop 集群里查詢(xún)數(shù)據(jù)的接口。
圖3 分布式數(shù)據(jù)質(zhì)量技術(shù)架構(gòu)
作為數(shù)據(jù)處理層的兩大核心組件之一,規(guī)則執(zhí)行引擎是數(shù)據(jù)質(zhì)量管理系統(tǒng)的關(guān)鍵所在,直接影響了校驗(yàn)的效率。在設(shè)計(jì)規(guī)則執(zhí)行引擎時(shí)主要考慮以下幾點(diǎn)因素。
性能是首先要考慮的問(wèn)題。本系統(tǒng)的規(guī)則執(zhí)行引擎采用 開(kāi) 源 ETL 工 具 Kettle 作 為 缺 陷 數(shù) 據(jù) 抽 取 引 擎 ,Kettle 可以把一個(gè)表的數(shù)據(jù)“切片”進(jìn)行多線程分段抽取,因此可以比較高效地把問(wèn)題數(shù)據(jù)抽取到質(zhì)量管理系統(tǒng)里。另外,執(zhí)行引擎還采用緩存機(jī)制,執(zhí)行規(guī)則時(shí)會(huì)優(yōu)先從緩存中獲取結(jié)果以提高執(zhí)行效率。
其次,穩(wěn)定性是另一個(gè)重要因素。在數(shù)據(jù)質(zhì)量管理系統(tǒng)里面,執(zhí)行引擎里包含了大量的容錯(cuò)處理機(jī)制。例如,在規(guī)則執(zhí)行失敗后,執(zhí)行引擎可以判斷失敗的原因并決定是否需要重試,如果遇到不可恢復(fù)的異常,則直接把規(guī)則標(biāo)記為失敗并繼續(xù)執(zhí)行下一條規(guī)則。
最后,還要考慮對(duì)數(shù)據(jù)源的適應(yīng)性。為了擴(kuò)大數(shù)據(jù)質(zhì)量管理系統(tǒng)的使用范圍,執(zhí)行引擎需要兼容多種主流的數(shù)據(jù) 庫(kù) 。目 前 已 兼 容 MySQL、SQL Server 和 Oracle,日 后 會(huì) 兼容更多類(lèi)型的數(shù)據(jù)庫(kù)。
缺陷數(shù)據(jù)分析引擎是數(shù)據(jù)處理層的另一個(gè)核心組件。缺陷明細(xì)數(shù)據(jù)采集到 Hadoop 后 ,該引擎 對(duì)數(shù)據(jù)進(jìn)行分析,生成并匯總結(jié)果,最終生成數(shù)據(jù)質(zhì)量報(bào)告。為了加快數(shù)據(jù)分析的效率,系統(tǒng)把分析任務(wù)細(xì)分成多個(gè)更小規(guī)模的任務(wù),當(dāng)所有任務(wù)完成后再匯總生成最終的結(jié)果。
3.2.3 數(shù)據(jù)存儲(chǔ)層
數(shù)據(jù)存儲(chǔ)層由統(tǒng)一數(shù)據(jù)訪問(wèn)接口以及數(shù)據(jù)存儲(chǔ)(含系統(tǒng)數(shù)據(jù)和缺陷明細(xì)數(shù)據(jù))組成。其中,系統(tǒng)數(shù)據(jù)庫(kù)采用傳統(tǒng)的 關(guān) 系 型 數(shù) 據(jù) 庫(kù) Oracle,用 于 存 放 系 統(tǒng) 配 置 、執(zhí) 行 日 志 、規(guī)則信息和缺陷數(shù)據(jù)分析結(jié)果;而缺陷數(shù)據(jù)明細(xì)存儲(chǔ)采用Hadoop 分布式處理框架。
(1)統(tǒng)一數(shù)據(jù)訪問(wèn)接口
系統(tǒng)使用 Hadoop 集群存儲(chǔ)缺陷 明細(xì)數(shù)據(jù) ,為了能 更簡(jiǎn) 單 、快 捷 地 分 析 數(shù) 據(jù) ,基 于 Impala 框 架 封 裝 了 通 用 數(shù) 據(jù)訪 問(wèn) 接 口 ,兼 容 Oracle 和 分 布 式 架 構(gòu) 下 的 數(shù) 據(jù) 訪 問(wèn) ,能 在Hadoop 集 群 上 運(yùn) 行 本 地 SQL, 可 以 為 存 儲(chǔ) 在 HDFS 或HBase 中 的 Hadoop 數(shù) 據(jù) 提 供 快 速 、交 互 式 的 SQL 查 詢(xún) ,查詢(xún) 效 率 比 基 于 MapReduce 的 Hive 有 數(shù) 量 級(jí) 的 提 升 。
(2)資源監(jiān)控
由于集群用到多臺(tái)服務(wù)器,因此如何便捷、直觀地監(jiān)控每臺(tái)服務(wù)器當(dāng)前的狀態(tài),成為系統(tǒng)實(shí)施與維護(hù)首先要考慮 的 問(wèn) 題 。數(shù) 據(jù) 質(zhì) 量 管 理 系 統(tǒng) 使 用 Cloudera Manager(免 費(fèi)版)作為 Hadoop 集群管理和監(jiān)控的工具 ,并進(jìn)行了適當(dāng)優(yōu)化 ,提 供 了 一 個(gè) B/S 結(jié) 構(gòu) 的 管 理 界面 ,用戶(hù) 可 以 實(shí) 時(shí) 查 看到集群里每一臺(tái)服務(wù)器的健康狀況、資源使用率、任務(wù)執(zhí)行情況等信息。
3.3 主要?jiǎng)?chuàng)新點(diǎn)
(1)利用分布式技術(shù)解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的性能瓶頸
數(shù)據(jù)質(zhì)量管理系統(tǒng)具有數(shù)據(jù)量大、數(shù)據(jù)增長(zhǎng)快以及分析任務(wù)繁重等特點(diǎn)。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在應(yīng)對(duì)這樣的大數(shù)據(jù)量場(chǎng)景時(shí),數(shù)據(jù)分析性能迅速下降,已難以滿足實(shí)際的應(yīng)用需求。本研究提出使用 Hadoop 分布式架構(gòu)重構(gòu)系統(tǒng)中數(shù)據(jù)量較大的模塊,關(guān)系型數(shù)據(jù)庫(kù)只用于存儲(chǔ)分析結(jié)果。本系統(tǒng)采用了基于 Impala 框架封裝的數(shù)據(jù)分析引擎,開(kāi)發(fā)人 員可以使 用熟悉的 SQL 語(yǔ)言進(jìn)行數(shù) 據(jù)分 析 ,以降低 Hadoop集群的應(yīng)用門(mén)檻。利用 Hadoop 集群可以輕易實(shí)現(xiàn)數(shù)據(jù)的水平分布,從而大大提高系統(tǒng)的可用性和數(shù)據(jù)分析性能。
(2)使用多線程并行技術(shù)提高數(shù)據(jù)質(zhì)量校驗(yàn)引擎的性能
為了能最大限度地利用分布式系統(tǒng)的硬件資源,提出了基于多線程的校驗(yàn)規(guī)則執(zhí)行引擎。執(zhí)行引擎能根據(jù)規(guī)則數(shù)量和當(dāng)前系統(tǒng)負(fù)載情況動(dòng)態(tài)創(chuàng)建線程池,其中包括問(wèn)題數(shù)據(jù)查找和問(wèn)題數(shù)據(jù)寫(xiě)入兩種。在進(jìn)行數(shù)據(jù)質(zhì)量校驗(yàn)的過(guò)程中,系統(tǒng)根據(jù)問(wèn)題數(shù)據(jù)寫(xiě)入和問(wèn)題數(shù)據(jù)查找的情況自動(dòng)創(chuàng)建或銷(xiāo)毀線程,同時(shí)應(yīng)用“數(shù)據(jù)切片”技術(shù)把數(shù)據(jù)按照線程的數(shù)量平均切分,配送到不同的線程以提升數(shù)據(jù)處理效率。利用多線程技術(shù)可以充分利用服務(wù)器的硬件資源,極大地提升性能。
(3)基于元數(shù)據(jù)自動(dòng)生成數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則
數(shù)據(jù)質(zhì)量管理系統(tǒng)需要管理成千上萬(wàn)的校驗(yàn)規(guī)則,在提高校驗(yàn)性能的同時(shí)也需要提高校驗(yàn)規(guī)則配置的效率。元數(shù)據(jù)描述了數(shù)據(jù)庫(kù)表關(guān)系以及數(shù)據(jù)表字段的詳細(xì)信息,如字段類(lèi)型、長(zhǎng)度、數(shù)據(jù)來(lái)源、加密等級(jí)、數(shù)據(jù)質(zhì)量要求等。本文創(chuàng)新提出了基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則自動(dòng)生成功能,用戶(hù)只需在界面選擇需要進(jìn)行校驗(yàn)的表和字段,系統(tǒng)即可根據(jù)元數(shù)據(jù)中的數(shù)據(jù)質(zhì)量要求自動(dòng)生成校驗(yàn)規(guī)則,提高了規(guī)則配置的準(zhǔn)確性,并且大大節(jié)省了人工成本,提高了規(guī)則配置效率。目前,營(yíng)銷(xiāo)、生產(chǎn)、財(cái)務(wù)、人力資源等業(yè)務(wù)領(lǐng)域約 3 255 條 校 驗(yàn) 規(guī) 則 均 通 過(guò) 此 方 法 生 成 。
4.1 性能對(duì)比測(cè)試
實(shí)際測(cè)試表明,分布式系統(tǒng)具有優(yōu)秀的水平擴(kuò)展性,隨著 數(shù)據(jù)量 的增長(zhǎng),Hadoop 集群的執(zhí) 行時(shí)間 幾 乎 呈 線 性增 長(zhǎng) 。 應(yīng) 用 集 中 式 架 構(gòu) 的 平 均 數(shù) 據(jù) 讀 取 速 度 為 150 MB/s,讀 取 1 TB 的 數(shù) 據(jù) 需 要 約 2 h;Oracle 的 處 理 時(shí) 間 則 呈 指 數(shù)級(jí)增加,如 圖 4 所 示 。可 以 看 出 ,當(dāng)數(shù)據(jù)量達(dá)到 500 GB 時(shí) ,在 Oracle 上執(zhí)行 SQL 已出現(xiàn)性能瓶頸。
圖4 關(guān) 系型數(shù)據(jù)庫(kù)與 Hadoop 集群執(zhí)行時(shí)間對(duì)比
4.2 應(yīng)用情況
目前分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)已完成開(kāi)發(fā),并在廣西電網(wǎng)公司、廣東電網(wǎng)公司試運(yùn)行,根據(jù)現(xiàn)場(chǎng)收集的運(yùn)行數(shù)據(jù),應(yīng)用分布式數(shù)據(jù)質(zhì)量管理系統(tǒng),最高可實(shí)現(xiàn)數(shù)據(jù)質(zhì)量校驗(yàn)效率比原集中式系統(tǒng)提升 15倍左右。
服務(wù)器配置信息見(jiàn)表 1。
表1 服務(wù)器配置信息
數(shù)據(jù)質(zhì)量校驗(yàn)情況見(jiàn)表 2。
表2 數(shù)據(jù)質(zhì)量校驗(yàn)性能對(duì)比
從表 2可以看出,分布式系統(tǒng)的性能比集中式系統(tǒng)有數(shù)量級(jí)的提升。 由于客觀因素的限制,廣東電網(wǎng)公司的被校驗(yàn)庫(kù)和 Hadoop 集群部署在 不同的子網(wǎng)絡(luò),受到網(wǎng)絡(luò)和防火墻的影響,校驗(yàn)時(shí)間要長(zhǎng)于廣西電網(wǎng)公司。
本文針對(duì)電力企業(yè)數(shù)據(jù)質(zhì)量管理工作的現(xiàn)狀和難點(diǎn),提出了分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)解決方案,通過(guò)開(kāi)展分布式存儲(chǔ)和計(jì)算關(guān)鍵技術(shù)研究,初步搭建大數(shù)據(jù)存儲(chǔ)及計(jì)算平臺(tái),并針對(duì)數(shù)據(jù)質(zhì)量管理子系統(tǒng)進(jìn)行了技術(shù)架構(gòu)升級(jí)和試 點(diǎn) 應(yīng) 用 ,原 需 45 h 的 數(shù) 據(jù) 質(zhì) 量 校 驗(yàn) 工 作 時(shí) 間 縮 短 至 3 h以?xún)?nèi),有效提升了系統(tǒng)處理和分析效率,同時(shí)為中國(guó)南方電網(wǎng)公司數(shù)據(jù)中心架構(gòu)升級(jí)工作儲(chǔ)備了技術(shù)基礎(chǔ)。
[1] 田 秀 霞 , 周 耀 軍. 基 于 Hadoop 架 構(gòu) 的 分 布 式 計(jì) 算 和 存 儲(chǔ) 技 術(shù)及其應(yīng)用[J]. 上海電力學(xué)院學(xué)報(bào),2011,27(1):70-75. TIAN X X,ZHOU Y J.The technology and application of distributed computing and storage based on Hadoop architecture[J]. Journal of Shanghai University of Electric Power,2011,27 (1):70-75.
[2] BIRMAN K P,GANESH L,RENESSE R.Running smart grid control software on cloud computing architectures[C]/Workshop on Computational Needs for the Next Generation Electric Grid,April 19-20,2011,Cornell University,Ithaca.[S.l.:s.n.],2011:1-28.
[3] 劉 鵬. 云 計(jì) 算 [M]. 北 京 :電 子 工 業(yè) 出 版 社 ,2010. LIU P.Cloud computing [M ].Beijing:Publishing House of Electronics Industry,2010.
[4] REESE G.Cloud application architectures:building applications and infrastructure in the cloud [M].New York:OˊReilly Media,2009.
[5] 辛 軍 ,陳 康 ,鄭 緯 民. 虛 擬 化 集 群 管 理 技 術(shù) 研 究 [J]. 計(jì) 算 機(jī) 科學(xué)與探索,2010(4):325-327. XIN J,CHEN K,ZHENG W M.Studies on virtualization of cluster resource management technology[J].Journal of Frontiers of Computer Science and Technology,2010(4):325-327.
[6] HDFS scalability with multiple NameSpaces [EB/OL].[2015-09-20].http:/issues.apache.org/jira/browse/HDFS-1052.
[7] WHITE T.Hadoop:the definitive gide[M].New York:OˊReilly Media,2009.
[8] Hadoop apache project [EB/OL]. [2015-09-20].http:/hadoop. apache.org.
[9] GHEMAWAT S,GOBIOFF H,LEUNG S T.The Google file system [C]/SOSP,October 19-22,2003,Bolton Landing,New York,USA.New York:ACM Press,2003.
[10]陳 遠(yuǎn) ,羅 琳. 信 息 系 統(tǒng) 中 的 數(shù) 據(jù) 質(zhì) 量 問(wèn) 題 研 究 [J]. 中 國(guó) 圖 書(shū)館學(xué)報(bào),2004(1):48-50. CHEN Y,LUO L.Research on data quality in information system[J].Journal of Library Science in China,2004(1):48-50.
[11]胡 金林,梅士 員. 基 于 元 數(shù) 據(jù) 擴(kuò) 展 的 空 間 數(shù) 據(jù) 質(zhì) 量 管 理 方 法[J]. 現(xiàn) 代 測(cè) 繪 ,2004,27(3):21-24. HU J L,MEI S Y.The extended metadata method of spatial data quality management [J].Modern Surveying and Mapping,2004,27(3):21-24.
Practice and application of distributed data quality management system in power enterprise
LI Yuanning,LIU Sen,ZHANG Shijun,CHEN Feng,WANG Zhiying
Information Department of China Southern Power Grid Co.,Ltd.,Guangzhou 510623,China
As the improvement of the enterprise’s informationalization level and the increasing management requirement of enterprise refinement,the demand of data management of enterprise is becoming greater and greater,how to improve the data quality of the enterprise is the key problem needed to be solved.Aiming at the challenges of data quality management that the power enterprise faces,some solutions for distributed data quality management were proposed.After researching the system features of data quality,some foreign and domestic cases of big data were analyzed as reference,and a solution based on Hadoop distributed processing framework was given to solve the performance bottleneck of centralized data quality system.Hadoop clustering could dissociate defect data from Oracle and the data would be stored separately on multiple servers of the clustering,which could improve the I/O performance and data analysis performance of the magnetic disk effectively.
data quality management,distributed,Hadoop
TP391
:A
10.11959/j.issn.1000-0801.2016104
李遠(yuǎn)寧(1981-),男,博士,中國(guó)南方電網(wǎng)有限責(zé)任公司信息部高級(jí)工程師,主要從事大數(shù)據(jù)分析及應(yīng)用工作。
張?jiān)娷姡?973-),男,中國(guó)南方電網(wǎng)有限責(zé)任公司信息部高級(jí)工程師,主要從事數(shù)據(jù)管理、管理信息化工作。
陳豐(1973-),男,中國(guó)南方電網(wǎng)有限責(zé)任公司信息部工程師,主要從事管理信息化、架構(gòu)設(shè)計(jì)工作。
劉森(1983-),男,博士,中國(guó)南方電網(wǎng)有限責(zé)任公司信息部工程師,主要從事大數(shù)據(jù)分析及應(yīng)用工作。
王志英(1962-),男,中國(guó)南方電網(wǎng)有限責(zé)任公司信息部教授級(jí)高級(jí)工程師,主要從事管理信息化、架構(gòu)設(shè)計(jì)工作。
2015-09-20;
2016-03-11