摘要:該文主要通過研究社保系統(tǒng)數(shù)據(jù)集成中使用的ETL方法,并結合嶗山區(qū)社會保險管理系統(tǒng)的現(xiàn)狀,提出了采用數(shù)據(jù)倉庫法實現(xiàn)嶗山區(qū)社保系統(tǒng)的數(shù)據(jù)集成。重點介紹了社保系統(tǒng)數(shù)據(jù)集成中ETL的開發(fā)。經(jīng)過驗證能夠建立統(tǒng)一的、完整的、高質量的社保系統(tǒng)數(shù)據(jù)倉庫。
關鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)集成;ETL;社會保險
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)03-0506-02
數(shù)據(jù)倉庫技術是將來自于異地的數(shù)據(jù)源的數(shù)據(jù)加工(ETL)后在數(shù)據(jù)倉庫中存儲、提取和維護,以支持高級決策[1]。
社會保險行業(yè)經(jīng)過多年的信息化發(fā)展,凌亂、重復、歧義的數(shù)據(jù)接踵而至,數(shù)據(jù)集成需求日漸迫切。現(xiàn)有的青島嶗山區(qū)社會保險管理系統(tǒng)由于有不同的數(shù)據(jù)項命名規(guī)則、不同的代碼標準、不完全相同的關鍵碼,使得各處理系統(tǒng),如關系密切的社保、就業(yè)和勞動合同備案間公共數(shù)據(jù)信息冗余度很高,難以集成和共享,給統(tǒng)計和決策分析工作造成很大的障礙。
根據(jù)嶗山社保存在的問題,本文擬構建跨平臺的ETL工具,以解決異構數(shù)據(jù)源數(shù)據(jù)集成問題,實現(xiàn)嶗山區(qū)社保數(shù)據(jù)庫、就業(yè)數(shù)據(jù)庫和勞動合同備案數(shù)據(jù)庫的數(shù)據(jù)集成,形成有效的數(shù)據(jù)倉庫,供以后進行數(shù)據(jù)挖掘和OLAP分析做準備。
1 ETL研究與設計
1.1 ETL相關技術
ETL是英文Extract、Transform、Load的縮寫,是指從各種異構應用系統(tǒng)中抽取數(shù)據(jù),并對抽到的數(shù)據(jù)進行加工轉換處理,最后加載到數(shù)據(jù)倉庫DW(DataWarehouse)的過程。它是保證數(shù)據(jù)倉庫數(shù)據(jù)正確性和有效性重要過程,也是決策支持項目實施成敗的關鍵因素[2]。
1.2 ETL模型建立[3]
1.2.1系統(tǒng)簡介
本模型主要完成社保數(shù)據(jù)倉庫的建立,用到了web services技術和XML技術,此兩項技術主要完成數(shù)據(jù)的抽取和清理轉換,清理數(shù)據(jù)集中的不一致性、冗余和多余字段,最終建立嶗山區(qū)社保系統(tǒng)數(shù)據(jù)倉庫。系統(tǒng)框架圖如下圖所示。
圖1 1.2.2核心的WEB服務介紹
底層的數(shù)據(jù)源各自有不同的數(shù)據(jù)結構,要有效地把不同數(shù)據(jù)結構的數(shù)據(jù)結合起來,就要為每個數(shù)據(jù)源設計相應的核心Web服務。核心的web服務主要完成的任務是提供訪問后臺異構數(shù)據(jù)庫的接口和封裝結果集等