国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非結構化數據的ETL設計方法探討

2014-04-29 08:27劉大滏趙盛
科技創(chuàng)新與應用 2014年14期

劉大滏 趙盛

摘 要:現代信息技術在行業(yè)中的應用日益深入,而各系統(tǒng)在開發(fā)過程中因其自身的獨立性,在處理相關業(yè)務或實現數據管理時,多需要從異構環(huán)境下來進行整合。文章結合當前流行的公共倉庫元模型以及ETL技術特點,針對非結構化數據的差異性,探討屬性提取和數據打包的有效方法,為實現非結構化數據的ETL設計奠定基礎。

關鍵詞:非結構化數據;CWM元模型;ETL設計

計算機技術、網絡通信技術在行業(yè)應用的不斷深入,諸如各類ERP系統(tǒng)、CRM系統(tǒng)、SCM系統(tǒng)及其他商業(yè)應用系統(tǒng)的開發(fā),由于各系統(tǒng)在開發(fā)過程中因其獨立性特點,在優(yōu)化系統(tǒng)應用、改善業(yè)務流程等過程中,不得不考慮在異構環(huán)境下的數據資源共享問題。異構環(huán)境下的數據格式及定義是不一致的,而對于相對封閉的應用系統(tǒng)數據資源來說,如何更有效的提升數據資源的應用效力,提高數據資源的共享水平,結合行業(yè)應用差異和不同部門對數據的實際需求,從數據的整合需求上,建立起不同系統(tǒng)下數據倉庫的數據轉換技術即ETL技術,就顯得尤為迫切。

1 ETL技術概述

ETL(Extract-Transform-Load )技術是數據抽取(Extract)、轉換(Transform)、裝載(Load)的過程。從其技術概述來看,Extract是對數據的抽取過程,其作用是從原始數據系統(tǒng)中讀取所需要的數據,是實現數據轉換工作的前提;Transform是按照預先設計規(guī)則進行相應轉換的過程,其作用是基于異構的數據資源實現對數據格式及定義的統(tǒng)一;Load是對數據倉庫進行裝載的過程,其作用是對轉換后的數據重新導入到數據倉庫中,以實現對數據資源的有效整合。從國內外ETL技術的發(fā)展與應用來看,主要有IBM Data Stag、Informatics Power Center、Oracle 2 ODI,以及國內開發(fā)的Bee Load等產品。在中高端應用上以Data Stage和Power Center居多。ETL技術能夠實現對異構數據庫中相關數據的挖掘和統(tǒng)計,并結合數學模型來實現對未來發(fā)展進行可靠的預測分析,為行業(yè)決策支持系統(tǒng)提供有效的數據服務功能。

2 ETL技術模型分析

從主流的ETL技術應用來看,多以元數據為基礎,也就是說滿足CWM元數據標準的數據模式。CWM是Common Warehouse Meta-model的簡稱,由國際對象管理組織OMG制定的元數據模型標準,其作用主要是為了能夠對異構環(huán)境下各數據倉庫中的元數據進行交換和共享。其邏輯結構圖如下所示:

圖1 ETL技術邏輯示意圖

在ETL系統(tǒng)中,借助于元數據采集工具來實現對源數據庫、主題數據庫,及相關數據抽取、轉換、裝載等操作,并依據CWM元模型標準,存儲于元數據庫。其執(zhí)行過程是通過系統(tǒng)調度模塊來實現對相應元數據的抽取與整合,其元數據主要包括三類:一是技術元數據,如ETL技術對各類源數據庫中的數據類型、數據格式、數據序列名等進行描述,并準確獲得源數據庫與主題數庫之間的變化信息;二是操作元數據,主要包括對業(yè)務用戶和數據操作有價值的元數據,如數據質量、更新計劃、訪問模式等;三是業(yè)務元數據,主要包括對各業(yè)務用戶有用的信息,如數據的所有權及各類業(yè)務規(guī)則,數據裝載計劃等,其作用能夠為用戶與數據倉庫提供訪問的橋梁。

3 ETL數據分析及設計

從CWM元數據模型對ETL系統(tǒng)的邏輯關系來看,這些元數據具有明確的格式特點、屬性及數據關系,可以通過使用二維表來進行邏輯表達。而對于異構環(huán)境下無法用二維邏輯表進行表達的非結構化數據來說,其相對零散的數據堆積,不僅存在大量數據冗余和無效信息,還難以用簡單的結構化描述語言進行準確表達。也就是說,對于非結構化數據,如視頻數據、圖像數據、音頻數據等信息進行管理和提取時,迫切需要從ETL技術設計上來進行優(yōu)化。在對CWM元數據結構進行分析后,ETL系統(tǒng)設計主要是對存儲在源數據庫中的結構化數據進行抽取、轉換和加載,而對于非結構化數據來說,其元數據屬于技術元數據,只要處理好技術元數據中的非結構化數據的轉換,使其便于使用CWM元數據驅動ETL系統(tǒng)即可。因此,對于非結構化數據系統(tǒng)中的操作元數據和業(yè)務元數據,依據常規(guī)的數據控制轉換模塊即可完成對源數據庫到主題數據庫的裝載。

對于結構化數據可以根據數據的屬性來建立元數據,而對于非結構化數據,則需要從各種數據的隱藏屬性進行分析,并使其能夠顯現出來。我們從非結構化數據的自有屬性進行觀察,主要有時間屬性、空間屬性、內容屬性、格式屬性、來源屬性、獲取手段屬性及使用屬性等,通過對原有非結構化數據文件進行重新命名分類,如結合某應用需要來建立新的文件名,即單位_科室_總類_分類_具體類型_日期.pdf,就可以很清晰的反映出某數據文件的來源、分類及時間等信息。Adobe公司的PDF數據壓縮包能夠實現對數據壓縮和轉換的功能,既可以節(jié)省存儲空間,還能夠實現對數據結構的轉換。其組織結構如下圖2所示:

圖2 Adobe PDF 數據包組織結構

利用Adobe PDF數據包來實現對非結構化數據庫的轉換,可以依照樹形結構來進行顯示,也可以對不同類型的數據文件進行設計,使其滿足對某一非結構化數據進行單獨壓縮,也可以對多個非結構化數據進行全面壓縮,其摘要信息可以存放在info.xml文件。利用非結構化數據的轉換方法,可以從其相關屬性中來判定數據的摘要及內容,還可以利用工具軟件編制數據索引,便于日后對相關數據的快速檢索,從而實現了對非結構化數據的CWM的ETL處理,滿足了非結構化數據的整合和管理目標。

4 結束語

文章通過對非結構化數據源的PDF轉換壓縮的分析,為更好的挖掘非結構化數據的隱藏屬性,提高對非結構化數據源的準確定位,并實現了對非結構化數據的整合和管理,為滿足行業(yè)應用提供了有效的解決方案。

參考文獻

[1]萬里鵬.非結構化到結構化數據轉換的研究與實現[D].西南交通大學,2013.

[2]周茂偉,鄧蘇,黃宏斌.基于元數據的ETL工具設計與實現[J].科學技術與工程,2006(21).

[3]馬曉東.地理信息元數據的管理探討[J].測繪技術裝備,2009(02).

[4]梁大鵬,李紅.基于數據倉庫技術的決策支持系統(tǒng)研究設計[J].商場現代化,2011(04).

作者簡介:劉大滏(1976,12-),男,重慶,高級工程師。

趙盛(1978,5-),男,陜西工程師。

禄丰县| 偃师市| 鄂温| 中阳县| 纳雍县| 栖霞市| 泉州市| 灵寿县| 通许县| 邯郸县| 龙南县| 修文县| 普陀区| 甘谷县| 肇源县| 长泰县| 平顶山市| 固安县| 故城县| 平谷区| 南皮县| 邹平县| 惠安县| 元江| 日照市| 滦平县| 小金县| 全南县| 内丘县| 工布江达县| 佛坪县| 信阳市| 磐安县| 楚雄市| 通河县| 江北区| 阳泉市| 昌邑市| 梅州市| 区。| 阆中市|