国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

通用數(shù)據(jù)質(zhì)量管理系統(tǒng)研究與設(shè)計(jì)

2018-09-14 10:27吳鵬連禮泉
電腦知識(shí)與技術(shù) 2018年16期
關(guān)鍵詞:數(shù)據(jù)質(zhì)量聚類

吳鵬 連禮泉

摘要:針對(duì)大型基層數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)錯(cuò)誤和數(shù)據(jù)重復(fù)的典型現(xiàn)實(shí)問(wèn)題,研究了數(shù)據(jù)校驗(yàn)通用模型和基于聚類與數(shù)據(jù)質(zhì)量的自動(dòng)去重方法,設(shè)計(jì)了一個(gè)通用數(shù)據(jù)質(zhì)量管理系統(tǒng),適用于類似采集系統(tǒng)的普遍數(shù)據(jù)質(zhì)量問(wèn)題。

關(guān)鍵詞:數(shù)據(jù)質(zhì)量;校驗(yàn)?zāi)P?;聚類;自?dòng)去重

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)16-0010-03

大數(shù)據(jù)時(shí)代,一個(gè)國(guó)家掌握和運(yùn)用大數(shù)據(jù)的能力,成為塑造國(guó)家競(jìng)爭(zhēng)力的戰(zhàn)略制高點(diǎn)之一[1]。國(guó)家大數(shù)據(jù)戰(zhàn)略背景下,在國(guó)家安全、社會(huì)治理和經(jīng)濟(jì)發(fā)展各領(lǐng)域形成戰(zhàn)略性數(shù)據(jù)資源庫(kù),是奠定國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的基礎(chǔ)。例如在社會(huì)治理領(lǐng)域,以大數(shù)據(jù)思維匯聚最小社會(huì)治理單元(鄉(xiāng)村、社區(qū))的相關(guān)數(shù)據(jù),既幫助基層減免層層采集、匯總、統(tǒng)計(jì)、上報(bào)的耗費(fèi)和失真,又輔助決策層宏觀掌握整體態(tài)勢(shì)和微觀洞悉基層具體問(wèn)題,保障了政府決策科學(xué)化、社會(huì)治理精準(zhǔn)化和公共服務(wù)高效化?;鶎訑?shù)據(jù)的全面、完整、詳實(shí)是基礎(chǔ),其質(zhì)量問(wèn)題會(huì)在大數(shù)據(jù)環(huán)境下被不斷放大,但在基層卻往往容易被忽視。本文以大型基層數(shù)據(jù)采集系統(tǒng)現(xiàn)實(shí)數(shù)據(jù)質(zhì)量問(wèn)題為出發(fā)點(diǎn)研究共性解決方案,旨在設(shè)計(jì)一套通用數(shù)據(jù)質(zhì)量管理系統(tǒng),適用于類似采集系統(tǒng)的普遍數(shù)據(jù)質(zhì)量問(wèn)題。

1 需求分析

某在建大型數(shù)據(jù)采集系統(tǒng),采集信息五大類共計(jì)300余項(xiàng),主要為結(jié)構(gòu)化數(shù)據(jù),運(yùn)行一年以來(lái),基層采集用戶數(shù)超20萬(wàn),單表數(shù)據(jù)量千萬(wàn)級(jí),系統(tǒng)總數(shù)據(jù)量過(guò)億。系統(tǒng)當(dāng)前存在一定程度的數(shù)據(jù)質(zhì)量問(wèn)題,主要體現(xiàn)在數(shù)據(jù)錯(cuò)誤和數(shù)據(jù)重復(fù)兩個(gè)方面,數(shù)據(jù)重復(fù)量約占數(shù)據(jù)總量的30%,數(shù)據(jù)錯(cuò)誤量尚無(wú)法估算。該系統(tǒng)數(shù)據(jù)作為社會(huì)立體感知與防控大數(shù)據(jù)的重要數(shù)據(jù)源之一,數(shù)據(jù)的質(zhì)量必然會(huì)影響大數(shù)據(jù)分析的效果。

分析發(fā)現(xiàn),數(shù)據(jù)錯(cuò)誤問(wèn)題除了在數(shù)據(jù)流轉(zhuǎn)過(guò)程產(chǎn)生外,主要由于該系統(tǒng)作為單獨(dú)系統(tǒng)運(yùn)行時(shí)只需要進(jìn)行最基本的弱校驗(yàn)即可滿足要求,而將其納入大數(shù)據(jù)體系時(shí)對(duì)數(shù)據(jù)的要求更豐富嚴(yán)格,數(shù)據(jù)錯(cuò)誤問(wèn)題才逐漸體現(xiàn);數(shù)據(jù)重復(fù)問(wèn)題主要由于系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)及應(yīng)用模式限制了采集前端與后臺(tái)數(shù)據(jù)實(shí)時(shí)同步導(dǎo)致,本質(zhì)為多數(shù)據(jù)源重復(fù)數(shù)據(jù)造成的數(shù)據(jù)不一致問(wèn)題。兩問(wèn)題均不適合在采集端追加解決方案,只能在平臺(tái)側(cè)進(jìn)行處理。

針對(duì)數(shù)據(jù)錯(cuò)誤問(wèn)題,可根據(jù)實(shí)際需要對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行強(qiáng)校驗(yàn),檢測(cè)出問(wèn)題數(shù)據(jù)并推送至采集前端修改完善;數(shù)據(jù)重復(fù)問(wèn)題比較復(fù)雜,純?nèi)斯ぬ幚砉ぷ髁窟^(guò)大,全自動(dòng)智能處理復(fù)雜度太高,全部按時(shí)間先后舍棄歷史數(shù)據(jù)等方法雖然簡(jiǎn)單但容易丟失有價(jià)值的數(shù)據(jù),需設(shè)計(jì)一個(gè)自動(dòng)去重輔助人工核驗(yàn)的處理方式,平衡效率和難度。

考慮數(shù)據(jù)質(zhì)量指標(biāo)可能隨需求不斷變化,且數(shù)據(jù)錯(cuò)誤和重復(fù)問(wèn)題在類似基層數(shù)據(jù)采集系統(tǒng)中普遍存在,需將數(shù)據(jù)校驗(yàn)規(guī)則模型化,支持按需配置和動(dòng)態(tài)擴(kuò)展,形成通用解決方案,滿足本系統(tǒng)可變要求的同時(shí)可適用于其他類似采集系統(tǒng)。同時(shí),為了便于有效監(jiān)督管理,對(duì)數(shù)據(jù)處理建立日志機(jī)制并提供相應(yīng)的統(tǒng)計(jì)分析展示。

1 系統(tǒng)設(shè)計(jì)

1.1 系統(tǒng)功能

根據(jù)需求分析設(shè)計(jì)系統(tǒng)功能為7個(gè)子系統(tǒng),分別為數(shù)據(jù)源管理、模型管理、作業(yè)管理、執(zhí)行引擎、推送核查、監(jiān)督管理和系統(tǒng)管理。系統(tǒng)功能如圖1所示。

1.1.1 數(shù)據(jù)源管理

實(shí)現(xiàn)對(duì)需要質(zhì)量管理的數(shù)據(jù)源的維護(hù)管理。對(duì)數(shù)據(jù)源的維護(hù)包括數(shù)據(jù)庫(kù)的驅(qū)動(dòng)類、url、用戶名、密碼、最大連接數(shù)等參數(shù),并支持實(shí)時(shí)連通性檢驗(yàn)。支持主流的結(jié)構(gòu)化數(shù)據(jù)庫(kù)軟件,包括oracle、sql server、db2、mysql等。

1.1.2 模型管理

包括模型管理和模型引擎兩部分。模型管理實(shí)現(xiàn)對(duì)數(shù)據(jù)校驗(yàn)?zāi)P偷墓芾怼9芾淼臄?shù)據(jù)校驗(yàn)?zāi)P头譃橥ㄓ煤蛯S脙深悺Mㄓ媚P椭饕ǜ骰緮?shù)據(jù)類型的校驗(yàn)?zāi)P?,可直接被?fù)用,通用模型的管理分為標(biāo)準(zhǔn)和專業(yè)兩種模式,在標(biāo)準(zhǔn)模式下,由頁(yè)面輸入數(shù)據(jù)類型、校驗(yàn)類別、校驗(yàn)內(nèi)容等參數(shù)定義模型;專業(yè)模式下,允許用戶直接書寫校驗(yàn)語(yǔ)句來(lái)定義模型。因標(biāo)準(zhǔn)通用模型一次只能定義一項(xiàng)校驗(yàn),故還支持組合模型,即可將多個(gè)數(shù)據(jù)類型一致的標(biāo)準(zhǔn)通用模型組合為一個(gè)新的校驗(yàn)?zāi)P汀S媚P歪槍?duì)較為復(fù)雜的數(shù)據(jù)校驗(yàn),僅對(duì)特定問(wèn)題具備通用性,由管理人員上傳模型算法包維護(hù),或由系統(tǒng)版本更新時(shí)直接內(nèi)置,內(nèi)置模型不可刪除,針對(duì)數(shù)據(jù)去重問(wèn)題的計(jì)算機(jī)輔助去重模型屬于此類。模型引擎主要負(fù)責(zé)對(duì)模型的解釋和調(diào)用執(zhí)行。

1.1.3 作業(yè)管理

實(shí)現(xiàn)對(duì)數(shù)據(jù)校驗(yàn)或去重等任務(wù)的維護(hù)管理。建立任務(wù)支持可視化拖拽配置,包括三部分內(nèi)容:

1) 對(duì)象配置。首先從數(shù)據(jù)源管理中選取對(duì)象數(shù)據(jù)源,然后讀取該數(shù)據(jù)源內(nèi)的所有數(shù)據(jù)表,再選定需要建立數(shù)據(jù)校驗(yàn)任務(wù)的數(shù)據(jù)表,選擇該表全部屬性或某個(gè)子集對(duì)為校驗(yàn)對(duì)象。

2) 模型配置。為第一步選定的屬性添加校驗(yàn)?zāi)P?,支持為多個(gè)屬性批量添加校驗(yàn)?zāi)P汀?/p>

3) 執(zhí)行參數(shù)配置。設(shè)置任務(wù)的執(zhí)行時(shí)間或頻率,以及任務(wù)執(zhí)行后的處理規(guī)則,是僅做記錄還是推送核驗(yàn)。

1.1.4 作業(yè)引擎

實(shí)現(xiàn)對(duì)作業(yè)任務(wù)的解釋和調(diào)用執(zhí)行。包括定時(shí)器、執(zhí)行邏輯和日志記錄三部分內(nèi)容。定時(shí)器根據(jù)任務(wù)的執(zhí)行參數(shù)配置按時(shí)啟動(dòng)任務(wù)執(zhí)行邏輯。執(zhí)行邏輯根據(jù)任務(wù)對(duì)象及其模型配置執(zhí)行數(shù)據(jù)校驗(yàn)或去重任務(wù)。日志記錄執(zhí)行結(jié)果、處理參數(shù)等日志,以備后續(xù)跟蹤處理和統(tǒng)計(jì)分析。

1.1.5 推送核查

實(shí)現(xiàn)任務(wù)執(zhí)行結(jié)果向目標(biāo)系統(tǒng)的推送。支持主動(dòng)推送和被動(dòng)推送兩種方式。主動(dòng)推送建立向目標(biāo)系統(tǒng)的數(shù)據(jù)推送接口,主動(dòng)將執(zhí)行結(jié)果推送至目標(biāo)系統(tǒng);被動(dòng)推送向目標(biāo)系統(tǒng)開放任務(wù)視圖,視圖中核查結(jié)果信息按作業(yè)任務(wù)和產(chǎn)生時(shí)間等排序,由目標(biāo)系統(tǒng)決定數(shù)據(jù)抽取時(shí)機(jī)。

1.1.6 監(jiān)督管理

提供綜合查詢和統(tǒng)計(jì)分析功能,包括對(duì)各類系統(tǒng)日志的管理和對(duì)系統(tǒng)監(jiān)管數(shù)據(jù)資源的準(zhǔn)確性、完整性、一致性和時(shí)效性度量,便于掌握系統(tǒng)作業(yè)任務(wù)執(zhí)行情況和數(shù)據(jù)資源質(zhì)量整體態(tài)勢(shì)。

1.1.7 系統(tǒng)管理

包括用戶管理、權(quán)限管理、系統(tǒng)配置管理、字典管理等功能。

2 系統(tǒng)應(yīng)用流程

首先配置數(shù)據(jù)源;然后在模型管理中配置各校驗(yàn)?zāi)P?;其后在作業(yè)管理中對(duì)作業(yè)對(duì)象和模型進(jìn)行裝配,并設(shè)定作業(yè)執(zhí)行參數(shù);作業(yè)配置完成后,系統(tǒng)定期執(zhí)行作業(yè),并記錄日志和生成相關(guān)統(tǒng)計(jì)報(bào)表。系統(tǒng)應(yīng)用流程如圖2所示。

2.1 系統(tǒng)設(shè)計(jì)關(guān)鍵技術(shù)

2.1.1 數(shù)據(jù)質(zhì)量管理體系

國(guó)內(nèi)外關(guān)于數(shù)據(jù)質(zhì)量的研究由來(lái)已久,對(duì)數(shù)據(jù)質(zhì)量的評(píng)估包括眾多維度[2-4],本系統(tǒng)結(jié)合問(wèn)題實(shí)際,從準(zhǔn)確性、完整性、一致性和時(shí)效性四個(gè)方面管理數(shù)據(jù)質(zhì)量。準(zhǔn)確性評(píng)估依托數(shù)據(jù)校驗(yàn)?zāi)P停赡P凸芾砉δ芄芾?,采用的通用?shù)據(jù)校驗(yàn)?zāi)P腿绫?所示。四項(xiàng)指標(biāo)的度量主要由監(jiān)督管理功能管理,數(shù)據(jù)質(zhì)量管理指標(biāo)體系如表2所示。

2.1.2 基于聚類與數(shù)據(jù)質(zhì)量的數(shù)據(jù)自動(dòng)去重

聚類算法是機(jī)器學(xué)習(xí)和模式識(shí)別的研究熱點(diǎn),其中,K-medoids算法以對(duì)象而非均值作為類簇的中心點(diǎn),相較于K-means算法更適合處理離散數(shù)據(jù)且對(duì)噪聲敏感性較低,但也存在無(wú)法事先確定合適的k值等缺陷[5]。對(duì)于數(shù)據(jù)不一致問(wèn)題,一般具備自動(dòng)去重合并可能的數(shù)據(jù)記錄總是存在部分一致性,即重復(fù)數(shù)據(jù)集中大部分屬性值一致,少部分存在不一致,不一致的屬性值往往也存在一定的相似性。以Levenshtein距離[6](文本最小編輯距離)作為對(duì)象間距離函數(shù)時(shí),K-modoids算法適合處理這種文本不一致問(wèn)題。對(duì)于k值,若數(shù)據(jù)可以聚類成1個(gè)類簇,那么該類簇的中心點(diǎn)即可作為去重合并的優(yōu)選值;若聚類成多個(gè)類簇,那么說(shuō)明樣本間差異較大,此時(shí)若沒(méi)有領(lǐng)域知識(shí)干預(yù),只能由人工介入處理?;诒鞠到y(tǒng)的設(shè)計(jì),可以在人工干預(yù)前先使用數(shù)據(jù)質(zhì)量輔助去重合并,即當(dāng)聚類無(wú)法給出唯一中心點(diǎn)時(shí),以數(shù)據(jù)質(zhì)量最高的數(shù)據(jù)記錄作為合并參考值,數(shù)據(jù)質(zhì)量可以用準(zhǔn)確性、完整性和時(shí)效性指標(biāo)線性加權(quán)計(jì)算。

自動(dòng)去重的過(guò)程如下:

1) 定義判斷重復(fù)記錄的屬性集或?qū)傩裕?/p>

2) 根據(jù)1)將所有重復(fù)數(shù)據(jù)劃分為多個(gè)重復(fù)數(shù)據(jù)集;

3) 對(duì)每個(gè)重復(fù)數(shù)據(jù)集,依次檢查其判重屬性集以外的每一個(gè)屬性,找出存在數(shù)據(jù)不一致的屬性集;

①對(duì)每個(gè)數(shù)據(jù)不一致屬性,假設(shè)其重復(fù)記錄數(shù)為n,計(jì)算其兩兩屬性值之間的距離并排序,取距離最小的前[C2n2]個(gè)距離;

②根據(jù)這些距離的端點(diǎn)關(guān)聯(lián),若其能關(guān)聯(lián)成一個(gè)屬性集,則根據(jù)K-medoids算法思想計(jì)算中心點(diǎn),以中心點(diǎn)的值作為去重合并值;

③若距離端點(diǎn)關(guān)聯(lián)成多個(gè)屬性集劃分,表示樣本差異大,此時(shí)可以數(shù)據(jù)質(zhì)量最高的記錄的屬性值作為去重合并值;

4) 每個(gè)重復(fù)數(shù)據(jù)集處理完成后,記錄合并方案,并保存歷史數(shù)據(jù)備案以待人工核查。

3 結(jié)語(yǔ)

大數(shù)據(jù)時(shí)代,數(shù)據(jù)成為重要的價(jià)值資產(chǎn)?;鶎訑?shù)據(jù)采集系統(tǒng)單獨(dú)運(yùn)行時(shí)因其自身局限,數(shù)據(jù)質(zhì)量問(wèn)題會(huì)被有意無(wú)意忽視,進(jìn)入大數(shù)據(jù)環(huán)境后,常常陷入“數(shù)據(jù)豐富、信息貧乏”的尷尬境地。本文基于大型基層數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)質(zhì)量現(xiàn)實(shí)問(wèn)題,研究了數(shù)據(jù)校驗(yàn)通用模型和基于聚類與數(shù)據(jù)質(zhì)量的自動(dòng)去重方法,設(shè)計(jì)了一個(gè)通用數(shù)據(jù)質(zhì)量管理系統(tǒng),適用于類似采集系統(tǒng)的普遍數(shù)據(jù)質(zhì)量問(wèn)題。

參考文獻(xiàn):

[1] 習(xí)近平:實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國(guó)(萬(wàn)字長(zhǎng)文解讀)[EB/OL].[2017-12-12].http://www.thebigdata.cn/YeJieDongTai/35064.html.

[2] Aebi D, Perrochon L. Towards Improving Data Quality[C]//CiSMOD.1993:273-281.

[3] Fan W, Geerts F. Foundations of data quality management[J]. Synthesis Lectures on Data Management,2012,4(5):1-217.

[4] 郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報(bào),2002,13(11):2076-2082.

[5] 潘楚,張?zhí)煳椋_可.兩種新搜索策略對(duì)K-medoids聚類算法建模[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(7):1453-1457.

[6] Levenshtein V. Binary codes capable of correcting deletions, insertions and reversals[J]. Doklady 1965, 163(4):845-848.

猜你喜歡
數(shù)據(jù)質(zhì)量聚類
基于DBSACN聚類算法的XML文檔聚類
強(qiáng)化統(tǒng)計(jì)執(zhí)法提高數(shù)據(jù)質(zhì)量
淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
條紋顏色分離與聚類
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例