国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于質(zhì)量分級(jí)的數(shù)據(jù)質(zhì)量控制研究

2013-08-15 00:48:29劉雙紅余建國(guó)
河南科技 2013年18期
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源分級(jí)

劉雙紅 余建國(guó)

(鄭州航空工業(yè)管理學(xué)院,河南 鄭州 450005)

1 引言

數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在電信、金融、零售等多個(gè)行業(yè)都得到了廣泛應(yīng)用,在優(yōu)化企業(yè)資源配置、提升企業(yè)的協(xié)同和資源共享,提高企業(yè)的核心競(jìng)爭(zhēng)力和創(chuàng)新力等諸多方面發(fā)揮了重要作用。 但是由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自于多種異質(zhì)業(yè)務(wù)數(shù)據(jù)源及Web 數(shù)據(jù),因而這些數(shù)據(jù)源可能分布在不同的網(wǎng)絡(luò)中,以不同的方式存在不同的數(shù)據(jù)庫(kù)中, 使用不同的硬件平臺(tái)及不同的操作系統(tǒng)。 所以對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行嚴(yán)格地質(zhì)量控制已成為系統(tǒng)面臨的一個(gè)關(guān)鍵問(wèn)題,否則基于劣質(zhì)數(shù)據(jù)進(jìn)行的分析非但不能達(dá)到預(yù)期的效果還會(huì)給企業(yè)帶來(lái)?yè)p失。

2 數(shù)據(jù)倉(cāng)庫(kù)特征及數(shù)據(jù)質(zhì)量的度量因素

由于數(shù)據(jù)倉(cāng)庫(kù)中的特殊作用,它不同于一般的數(shù)據(jù)庫(kù)。 存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)具有面向主題性,數(shù)據(jù)集成,數(shù)據(jù)的歷史性,來(lái)源廣泛、變化和支持決策的特征。

2.1.1 面向主題

主題是一個(gè)抽象的概念,是數(shù)據(jù)分類標(biāo)準(zhǔn)更高的水平。 每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀分析,是用戶關(guān)心的對(duì)企業(yè)決策最重要的方面。 一個(gè)主題通常與操作型信息系統(tǒng)的多種數(shù)據(jù)類型關(guān)聯(lián)。 數(shù)據(jù)倉(cāng)庫(kù)中的所有數(shù)據(jù)都是以主題的形式組織,數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建、使用,都圍繞主題實(shí)現(xiàn)。 例如,企業(yè)將有幾個(gè)特殊的數(shù)據(jù)庫(kù),如定價(jià)數(shù)據(jù)庫(kù),財(cái)務(wù)數(shù)據(jù)庫(kù),客戶數(shù)據(jù)庫(kù),市場(chǎng)信息數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)庫(kù)等按主題來(lái)組織,如客戶服務(wù)數(shù)據(jù)庫(kù)記錄客戶的咨詢和投訴情況,財(cái)務(wù)數(shù)據(jù)庫(kù)記錄客戶的支出。

2.1.2 大量集成、隨時(shí)間變化的數(shù)據(jù)

集成是指數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前必須通過(guò)數(shù)據(jù)處理和集成的,這是創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的最重要的和復(fù)雜的步驟。 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不是直接來(lái)自源數(shù)據(jù)庫(kù)系統(tǒng)。 原有的數(shù)據(jù)庫(kù)系統(tǒng)每天記錄每個(gè)業(yè)務(wù)處理,這些數(shù)據(jù)不適合分析,所以進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)前的數(shù)據(jù)必須經(jīng)過(guò)統(tǒng)一,綜合計(jì)算和處理,及對(duì)有用的數(shù)據(jù)項(xiàng)的處理分析,并且不需要全面的數(shù)據(jù)清除,并可能添加一些涉及到的外部數(shù)據(jù),以有利于更好的決策分析。

2.1.3 來(lái)源廣泛

數(shù)據(jù)倉(cāng)庫(kù)中和每個(gè)主題相對(duì)的數(shù)據(jù)來(lái)自與多個(gè)分散、不同的數(shù)據(jù)庫(kù)系統(tǒng),因此會(huì)有很多重復(fù)的和一致的,這些數(shù)據(jù)必須轉(zhuǎn)換為統(tǒng)一的定義和標(biāo)準(zhǔn),以消除重復(fù),誤差,確保數(shù)據(jù)的質(zhì)量,以獲得更可靠的結(jié)果數(shù)據(jù)分析。 企業(yè)的決策并不取決于企業(yè)內(nèi)部的環(huán)境, 還需要決策者考慮企業(yè)外部環(huán)境的多種因素。因此,除了企業(yè)內(nèi)部數(shù)據(jù),一個(gè)企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)中還包含了許多外部數(shù)據(jù)。

2.1.4 用于企業(yè)的決策

采用傳統(tǒng)的數(shù)據(jù)庫(kù)實(shí)現(xiàn)數(shù)據(jù)的分析和處理是困難的,因?yàn)閭鹘y(tǒng)數(shù)據(jù)庫(kù)是為企業(yè)日常事務(wù)處理設(shè)計(jì)的。 數(shù)據(jù)倉(cāng)庫(kù)不僅通過(guò)聯(lián)機(jī)分析處理手段分析數(shù)據(jù), 而且提供通用的數(shù)據(jù)視圖,支持高層次的決策分析。 數(shù)據(jù)倉(cāng)庫(kù)能從龐大的信息量中為用戶獲取戰(zhàn)略信息的解決方案。 它是基于大規(guī)模數(shù)據(jù)庫(kù)的決策支持系統(tǒng)環(huán)境的核心,彌補(bǔ)了傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的缺點(diǎn)。

2.2 數(shù)據(jù)質(zhì)量度量因素

數(shù)據(jù)是組織最具價(jià)值的資產(chǎn)之一, 高質(zhì)量的數(shù)據(jù)可以使企業(yè)保持競(jìng)爭(zhēng)力并在經(jīng)濟(jì)動(dòng)蕩時(shí)期立于不敗之地。 根據(jù)全面質(zhì)量管理(TQM),客觀的度量機(jī)制必須要附加在主觀的方法和建議之上來(lái)保證最終產(chǎn)品的質(zhì)量。 下面給出TQM 中衡量數(shù)據(jù)質(zhì)量重要的幾個(gè)公共參數(shù)[1]:

有效性(Validity):指單個(gè)屬性的值是否符合客觀邏輯和業(yè)務(wù)邏輯。 如:客戶資料中的地址郵編、電話區(qū)號(hào)、年齡、收入情況等是否在有效的取值范圍之內(nèi)。

準(zhǔn)確性(Accuracy):是指數(shù)據(jù)是否真實(shí)客觀。在信息有效性的基礎(chǔ)上獲得真實(shí)的數(shù)據(jù)。 例如,由于客戶在個(gè)人隱私方面的自我保護(hù),往往有意地提供不符合實(shí)際的信息,如謊報(bào)地址、收入、工作單位等等。

一致性(Consistency):指不同系統(tǒng)、不同業(yè)務(wù)之間關(guān)聯(lián)的數(shù)據(jù)是否一致,包括源系統(tǒng)之間同一數(shù)據(jù)是否一致,源數(shù)據(jù)與抽取的數(shù)據(jù)是否一致,數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部各處理環(huán)節(jié)數(shù)據(jù)是否一致。

完整性(Completeness):指所有信息、屬性是否按照業(yè)務(wù)規(guī)則完整填寫(xiě),包括數(shù)據(jù)源是否完整、維度取值是否完整等。

惟一性(Uniqueness):數(shù)據(jù)值被約束成一組獨(dú)特的條目,每個(gè)值只有惟一的類型(如主鍵值、索引等),與惟一性沖突的記錄的比率(重復(fù)的主鍵值)。

3 數(shù)據(jù)質(zhì)量問(wèn)題分析

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)質(zhì)量與數(shù)據(jù)源、 數(shù)據(jù)處理和應(yīng)用都有關(guān)系。 數(shù)據(jù)倉(cāng)庫(kù)裝載數(shù)據(jù)流程包括:ETL 是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過(guò)程。 用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)。 在這個(gè)過(guò)程中,任何一個(gè)環(huán)節(jié)都會(huì)影響數(shù)據(jù)質(zhì)量[2]。

3.1 數(shù)據(jù)源

數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ)。通常包括企業(yè)內(nèi)部信息和外部信息。 內(nèi)部信息包括原有操作型系統(tǒng)中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息。所以數(shù)據(jù)倉(cāng)庫(kù)會(huì)集成多個(gè)數(shù)據(jù)源的數(shù)據(jù),有來(lái)自關(guān)系數(shù)據(jù)庫(kù)的,有來(lái)自ERP 數(shù)據(jù)庫(kù)的,有來(lái)自普通文件的。

在一個(gè)單獨(dú)的數(shù)據(jù)集可能會(huì)出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題, 如那些發(fā)生在一個(gè)文件或數(shù)據(jù)庫(kù)。 這些問(wèn)題包括數(shù)據(jù)遺漏,數(shù)據(jù)異常,數(shù)據(jù)重復(fù)等等。 數(shù)據(jù)的遺漏意味著有一些記錄的屬性沒(méi)有數(shù)據(jù)。 一般來(lái)說(shuō),這個(gè)問(wèn)題是因?yàn)闆](méi)有答案,或在市場(chǎng)調(diào)查的誤操作,或一些在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)被破壞。 數(shù)據(jù)異常是指數(shù)據(jù)庫(kù)中的孤立點(diǎn)。 這些孤立的點(diǎn)不符合通用數(shù)據(jù)模型,它們與不同或相同的數(shù)據(jù)集的其他數(shù)據(jù)不一致。 例如,如果記錄一個(gè)人的年齡150 歲,這個(gè)錯(cuò)誤可能會(huì)在數(shù)據(jù)輸入過(guò)程中產(chǎn)生的。 此外,孤立點(diǎn)可能是事情的真實(shí)反映,如一個(gè)公司總裁的薪水高于普通職工的收入時(shí)產(chǎn)生的孤立點(diǎn)。 數(shù)據(jù)重復(fù)性指的是在許多記錄是一樣的現(xiàn)象。

多數(shù)據(jù)源集成后數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)質(zhì)量的發(fā)生尤為突出。 每個(gè)數(shù)據(jù)源都是為特定的目設(shè)計(jì),部署和維護(hù)的。 換句話說(shuō),數(shù)據(jù)源的設(shè)計(jì)與開(kāi)發(fā)是獨(dú)立的。 結(jié)果是,數(shù)據(jù)源的數(shù)據(jù)庫(kù)管理系統(tǒng)方面,如數(shù)據(jù)模型,模式的設(shè)計(jì)和公式有很大的不同。 模式相關(guān)的多個(gè)數(shù)據(jù)源的問(wèn)題主要包括名稱和結(jié)構(gòu)沖突。 名稱沖突的事實(shí),一個(gè)相同的名字,代表不同的對(duì)象或不同的名字代表同一個(gè)對(duì)象;結(jié)構(gòu)沖突的現(xiàn)象,同一對(duì)象采用不同的表示方法在不同來(lái)源的系統(tǒng)顯示。 例如,在屬性不同數(shù)據(jù)源的表,同一個(gè)對(duì)象可以在不同的組件結(jié)構(gòu)的分析,數(shù)據(jù)模型和完整性約束。

3.2 ETL 過(guò)程

ETL 是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán), 用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去,這一過(guò)程非常復(fù)雜。 在ETL過(guò)程中,也會(huì)產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題。

數(shù)據(jù)抽?。簭脑聪到y(tǒng)中抽取數(shù)據(jù),一般要編制代碼或者借助一些工具配置進(jìn)行數(shù)據(jù)抽取,若編寫(xiě)的代碼錯(cuò)誤或工具配置不當(dāng),都會(huì)導(dǎo)致原始數(shù)據(jù)正確而抽取出來(lái)的數(shù)據(jù)不正確。

數(shù)據(jù)清洗、轉(zhuǎn)換:數(shù)據(jù)清洗的任務(wù)是過(guò)濾那些不符合要求的數(shù)據(jù),不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三大類。 數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要是進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換和一些商務(wù)規(guī)則的計(jì)算。 在數(shù)據(jù)清洗和轉(zhuǎn)換的過(guò)程中,少有疏漏就會(huì)產(chǎn)生劣質(zhì)數(shù)據(jù),對(duì)數(shù)據(jù)質(zhì)量造成影響。

數(shù)據(jù)加載:數(shù)據(jù)轉(zhuǎn)換完成之后要進(jìn)行數(shù)據(jù)加載,在系統(tǒng)運(yùn)作時(shí)可能會(huì)出現(xiàn)重復(fù)加載或者加載失敗的情況,會(huì)導(dǎo)致數(shù)據(jù)量異常。

4 數(shù)據(jù)質(zhì)量分級(jí)體系

這里試圖建立一種質(zhì)量分級(jí), 并基于一套質(zhì)量指標(biāo)和質(zhì)量驗(yàn)證架構(gòu)來(lái)實(shí)現(xiàn)。 保持原貌,準(zhǔn)確地進(jìn)行前端展示是數(shù)據(jù)從數(shù)據(jù)源裝載到數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中的要求, 為了滿足這樣的需求,在系統(tǒng)將數(shù)據(jù)展現(xiàn)給最終用戶之前需要對(duì)每次數(shù)據(jù)裝載進(jìn)行質(zhì)量評(píng)級(jí)。

4.1 分級(jí)原則

具體可分為三級(jí):第一級(jí),數(shù)據(jù)準(zhǔn)確,在預(yù)料的范圍內(nèi)產(chǎn)生可以接受的誤差,可以提交前端展現(xiàn),交付使用;第二級(jí),數(shù)據(jù)可疑,需要進(jìn)一步分離異常數(shù)據(jù),定位可疑原因,查明原因確認(rèn)后,可以提交;第三級(jí):數(shù)據(jù)錯(cuò)誤,需定位具體原因,重新裝載,直至達(dá)到第二級(jí)以上質(zhì)量標(biāo)準(zhǔn)以后方可提交[3]。 要實(shí)現(xiàn)質(zhì)量分級(jí)需要有一個(gè)足夠的質(zhì)量驗(yàn)證架構(gòu)能夠準(zhǔn)確地表達(dá)這些級(jí)別,保證數(shù)據(jù)質(zhì)量逐漸從第三級(jí)通往第二、一級(jí)。

4.2 數(shù)據(jù)表象

建立滿足質(zhì)量分級(jí)的一套架構(gòu),不光要有一套技術(shù)架構(gòu),還需要再定義一套質(zhì)量指標(biāo),基于這些指標(biāo)才能進(jìn)行某種規(guī)則的運(yùn)算然后再進(jìn)行質(zhì)量分級(jí)。

一般情況下,數(shù)據(jù)的數(shù)值變化不能有異常的波動(dòng),出現(xiàn)零值或是特別大的值,這些一般都被懷疑是有問(wèn)題的。 質(zhì)量驗(yàn)證架構(gòu)就要解決上面提到的三種情況,數(shù)值波動(dòng)、偏離標(biāo)準(zhǔn)和違背邏輯,稱其為“數(shù)據(jù)表象”,它的具體表現(xiàn)就是一系列指標(biāo),例如數(shù)值增長(zhǎng)率、誤差率等。 如果已經(jīng)有一個(gè)指標(biāo)標(biāo)準(zhǔn),例如生產(chǎn)系統(tǒng)的報(bào)表,那么它就成為標(biāo)準(zhǔn),如果發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中統(tǒng)計(jì)的指標(biāo)和標(biāo)準(zhǔn)值不一致,在不能說(shuō)明標(biāo)準(zhǔn)存在問(wèn)題并排除外部原因的情況下,應(yīng)查找數(shù)據(jù)處理是否存在問(wèn)題,數(shù)據(jù)處理的規(guī)則是否正確、ETL 流程是否順暢、實(shí)現(xiàn)方法是否錯(cuò)誤等。

4.3 數(shù)據(jù)稽核

數(shù)據(jù)稽核是數(shù)據(jù)質(zhì)量管控的一個(gè)核心內(nèi)容, 重點(diǎn)就是實(shí)現(xiàn)數(shù)據(jù)的完整性和一致性檢查,提升數(shù)據(jù)質(zhì)量。 在數(shù)據(jù)處理過(guò)程中,為ETL 過(guò)程的每一步留下操作、稽核記錄,以作為數(shù)據(jù)表象和質(zhì)量分級(jí)的底層支持,這一步我們可以稱為“數(shù)據(jù)稽核”。

“稽核”根據(jù)預(yù)定義的數(shù)據(jù)稽核和校驗(yàn)規(guī)則,對(duì)數(shù)據(jù)進(jìn)行差異分析和異常分析,一般分為總量、分量和標(biāo)準(zhǔn)量稽核。 總量稽核,在兩個(gè)相鄰環(huán)節(jié)中,對(duì)數(shù)據(jù)的總量進(jìn)行驗(yàn)證。 總量指標(biāo)包括:總記錄數(shù),所有度量指標(biāo)的總值、均值等。 總量正確說(shuō)明數(shù)據(jù)沒(méi)有被丟棄,沒(méi)有不符合裝載邏輯規(guī)則的臟數(shù)據(jù)存在。 總量不正確, 則需要檢查本環(huán)節(jié)裝載日志中是否有被拋棄的記錄,如果沒(méi)有數(shù)據(jù)丟失,則需要檢查數(shù)據(jù)運(yùn)算邏輯規(guī)則。 分量稽核是指對(duì)相鄰的兩個(gè)環(huán)節(jié)中,在總量正確的前提下,對(duì)數(shù)據(jù)分布情況的稽核,在這個(gè)過(guò)程中,需要對(duì)每個(gè)維度上分布的度量進(jìn)行查詢,如果數(shù)據(jù)在每個(gè)維上的分布都正確,則在組合維查詢時(shí)數(shù)據(jù)也正確,可以保證多維分析的正確性。 標(biāo)準(zhǔn)量稽核,則是用一組數(shù)據(jù)的統(tǒng)計(jì)值和標(biāo)準(zhǔn)值對(duì)比[4]。

稽核應(yīng)該在每個(gè)ETL 環(huán)節(jié)運(yùn)行完之后及時(shí)進(jìn)行, 保證每個(gè)環(huán)節(jié)都得到驗(yàn)證,輸出數(shù)據(jù)稽核報(bào)告,如果發(fā)現(xiàn)數(shù)據(jù)不一致,并產(chǎn)生警告信息發(fā)送給系統(tǒng)管理員,避免下一環(huán)節(jié)使用錯(cuò)誤數(shù)據(jù)繼續(xù)裝載。

4.4 ETL 單元

ETL 單元是不能細(xì)分的ETL 過(guò)程, 從數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)展現(xiàn),通過(guò)若干個(gè)ETL 處理完成。例如可以將抽取、轉(zhuǎn)換放在一個(gè)ETL 單元中,抽取和轉(zhuǎn)換只能同時(shí)運(yùn)行,而如果將他們分作兩個(gè)單元,可以分別運(yùn)行,這有利于錯(cuò)誤恢復(fù)操作。 ETL單元的細(xì)分程度應(yīng)該依據(jù)具體應(yīng)用。 ETL 單元在質(zhì)量架構(gòu)中,是數(shù)據(jù)稽核的最小單位。通過(guò)控制每個(gè)ETL 單元的入口、出口,稽核流入和流出的數(shù)據(jù)。

4.5 數(shù)據(jù)質(zhì)量分級(jí)框架

面對(duì)海量數(shù)據(jù), 人工發(fā)現(xiàn)其中的潛在的錯(cuò)誤, 是不現(xiàn)實(shí)的,非自動(dòng)化的行為根本無(wú)法保證數(shù)據(jù)質(zhì)量檢查可以成為例行的工作,也就無(wú)法保證質(zhì)量。 這需要一個(gè)自動(dòng)化系統(tǒng)來(lái)幫助實(shí)現(xiàn),功能框架包括如下功能:

(1)定義管理:定義ETL 單元、元數(shù)據(jù);定義數(shù)據(jù)的度量、度量腳本以及表象指標(biāo)。 定義ETL 單元遵循先小后大,循序漸進(jìn)的原則。大的ETL 單元容易忽略內(nèi)部的過(guò)程。因此,通常先將一個(gè)表的裝載或中間數(shù)據(jù)生成定義成一個(gè)小的ETL 單元。當(dāng)系統(tǒng)運(yùn)行穩(wěn)定,數(shù)據(jù)質(zhì)量逐漸改善以后,再去掉一些小ETL 單元,提高效率。

(2)配置管理:配置稽核流程、數(shù)據(jù)稽核規(guī)則,對(duì)數(shù)據(jù)質(zhì)量檢查規(guī)則、數(shù)據(jù)質(zhì)量任務(wù)、考核規(guī)則進(jìn)行維護(hù)配置。

(3)執(zhí)行管理:數(shù)據(jù)質(zhì)量任務(wù)的分派、處理、審核、同步、監(jiān)控。

(4)報(bào)表管理:提供數(shù)據(jù)質(zhì)量相關(guān)報(bào)表以及對(duì)于考核結(jié)果的展示和查詢。

(5)分級(jí)管理:根據(jù)稽核報(bào)告及分級(jí)原則,形成數(shù)據(jù)質(zhì)量分級(jí)結(jié)果。

5 結(jié)束語(yǔ)

討論了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量管理的問(wèn)題, 結(jié)合數(shù)據(jù)源及ETL 過(guò)程對(duì)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行分析, 建立了數(shù)據(jù)質(zhì)量分級(jí)體系,并給出了具體的功能架構(gòu),為數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量的控制提供了一種有效、可行的方法。 今后將以該質(zhì)量分級(jí)體系為基礎(chǔ),進(jìn)一步優(yōu)化設(shè)計(jì)該體系結(jié)構(gòu)并實(shí)現(xiàn)其分級(jí)功能。

[1]袁滿,張雪.一種基于規(guī)則的數(shù)據(jù)質(zhì)量評(píng)價(jià)模型[J].西安:計(jì)算機(jī)技術(shù)與發(fā)展,2013,3(23):81-84

[2]劉雙紅.數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量問(wèn)題研究[J].鄭州:光盤(pán)技術(shù),2008,(12):16-17

[3]dwdmstudio. 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)稽核方法.http://www.itpub.net/thread-378952-1-1.html,2013.6.20

[4]happysboy. 談?wù)剶?shù)據(jù)質(zhì)量.http://dwdmstudio.bokee.com/167070.html,2013.5.26

猜你喜歡
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源分級(jí)
基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
分級(jí)診療路難行?
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
分級(jí)診療的“分”與“整”
分級(jí)診療的強(qiáng)、引、合
“水到渠成”的分級(jí)診療
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
廉江市| 尤溪县| 罗田县| 秭归县| 涿鹿县| 旺苍县| 怀宁县| 小金县| 如东县| 佛山市| 九寨沟县| 嘉荫县| 金川县| 海口市| 镇雄县| 历史| 吉木乃县| 台中市| 黄平县| 陆河县| 兰考县| 巨野县| 中山市| 五常市| 奉贤区| 英德市| 扎赉特旗| 公主岭市| 泾川县| 庐江县| 札达县| 宜城市| 定日县| 张北县| 青田县| 临武县| 涪陵区| 社会| 台东县| 蒙自县| 桐柏县|