国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談醫(yī)學數(shù)據(jù)常見質(zhì)量問題及其清洗方法

2016-05-14 12:57武瑞仙周紅
科技資訊 2016年6期
關(guān)鍵詞:數(shù)據(jù)質(zhì)量

武瑞仙 周紅

【摘要】隨著社會經(jīng)濟的發(fā)展和大數(shù)據(jù)時代的到來,各行業(yè)的數(shù)據(jù)量越來越大,醫(yī)療衛(wèi)生領(lǐng)域尤為明顯。數(shù)據(jù)數(shù)量的增長同時,數(shù)據(jù)質(zhì)量的控制也給廣大研究人員帶來一定的困擾。本文在充分文獻分析的基礎(chǔ)上,探討了常見的數(shù)據(jù)質(zhì)量問題及其清洗方法,總結(jié)了數(shù)據(jù)清洗六個步驟,旨在為衛(wèi)生研究人員提供參考。

【關(guān)鍵詞】醫(yī)學數(shù)據(jù);數(shù)據(jù)質(zhì)量;數(shù)據(jù)清洗

中圖分類號: R197.3 文獻標識碼:A 文章編號:1672-3791(2016)02(c)-0000-00

一、醫(yī)學研究數(shù)據(jù)

醫(yī)學研究數(shù)據(jù)指的是在醫(yī)學研究中觀測個體的某種特征或?qū)傩缘挠^測值。更準確地講,是醫(yī)學研究中所有觀測個體的觀測值的集合。醫(yī)學研究數(shù)據(jù)作為醫(yī)學研究的核心對象,和整個研究的目的、設(shè)計和收集整理都密切相關(guān),是醫(yī)學研究最重要的組成部分之一,醫(yī)學研究數(shù)據(jù)的質(zhì)量也在很大程度上決定了醫(yī)學研究的質(zhì)量。在實際研究中,搜集到的數(shù)據(jù)質(zhì)量往往和預期目標存在較大差距,這些問題來源于醫(yī)學數(shù)據(jù)的整個產(chǎn)生過程。

二、常見質(zhì)量問題

醫(yī)學測量過程包含三個核心要素:測量對象、測量規(guī)則和測量值。醫(yī)學研究數(shù)據(jù)質(zhì)量問題多來源于兩個方面:一是測量錯誤,產(chǎn)生的原因一般是醫(yī)學測量過程中測量規(guī)則不當或是測量人員失誤。測量規(guī)則不當導致的誤差的大小和方向往往恒定不變或遵循著一定的規(guī)律變化,即通常屬于系統(tǒng)誤差。

二是輸入錯誤,是由數(shù)據(jù)錄入人員疏忽而造成的。在錄入流程不健全的情況下,尤其容易產(chǎn)生輸入錯誤。輸入錯誤導致的常見醫(yī)學數(shù)據(jù)質(zhì)量問題有:

(1) 不完整數(shù)據(jù):一些應該有的信息缺失,如機構(gòu)名稱、區(qū)域信息缺失等。

(2) 錯誤數(shù)據(jù):即錄入數(shù)據(jù)與原始測量數(shù)據(jù)存在不一致。

(3) 重復數(shù)據(jù):即“相似重復記錄”,指同一個研究對象在原始數(shù)據(jù)集中用多條不完全相同的記錄來表示,由于它們在格式、拼寫上的差異,導致數(shù)據(jù)庫管理系統(tǒng)不能正確識別。

可以看出,醫(yī)學數(shù)據(jù)質(zhì)量問題來源于整個醫(yī)學研究過程,而隨著醫(yī)學研究的規(guī)模日益擴大,研究設(shè)計和實施的復雜性逐漸提高,醫(yī)學數(shù)據(jù)的質(zhì)量也往往難以保證。而對于醫(yī)學數(shù)據(jù)中一些常見的質(zhì)量問題,可以通過醫(yī)學數(shù)據(jù)清理對重復數(shù)據(jù)進行探測和判定;對缺失數(shù)據(jù)進行填補;采用分箱、聚類、回歸等多種手段對異常記錄處理,消除異常值,最終提高醫(yī)學數(shù)據(jù)質(zhì)量,滿足研究分析需求,更好地達到研究目的。

三、數(shù)據(jù)清洗的基本內(nèi)容

數(shù)據(jù)清洗的對象主要有重復的數(shù)據(jù)、不完整的數(shù)據(jù)和錯誤的數(shù)據(jù),在衛(wèi)生領(lǐng)域中,這三類“臟數(shù)據(jù)”的處理是數(shù)據(jù)清洗的重要組成部分:相似重復記錄清洗是保證數(shù)據(jù)可用性的重要內(nèi)容,在衛(wèi)生領(lǐng)域,經(jīng)常出現(xiàn)同一個病人有多個檢查表或病歷信息,對于冗余信息剔除及可用信息的合并是重復記錄數(shù)據(jù)清洗的核心;缺失數(shù)據(jù)清洗則有助于醫(yī)務工作者了解數(shù)據(jù)收集的完整性,及時對必填信息和關(guān)鍵信息的收集過程加以控制,提高數(shù)據(jù)可用性;而異常數(shù)據(jù)的探測和清理則是判別和控制數(shù)據(jù)邏輯錯誤的重要手段。

四、數(shù)據(jù)清洗的基本流程

1.數(shù)據(jù)分析:數(shù)據(jù)分析是數(shù)據(jù)清洗的前提與基礎(chǔ),通過詳盡的數(shù)據(jù)分析確定數(shù)據(jù)檢測算法、清洗策略等,還可以使用分析程序來獲得關(guān)于數(shù)據(jù)屬性的元數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)集中存在的質(zhì)量問題。

2.定義數(shù)據(jù)清洗規(guī)則與工作流:根據(jù)上一步數(shù)據(jù)分析得到的結(jié)果來定義數(shù)據(jù)清洗規(guī)則和工作流等,其中包據(jù)確定數(shù)據(jù)源的個數(shù),存在質(zhì)量問題的醫(yī)學研究數(shù)據(jù)的多少程度,選擇合適的檢測算法、清洗策略、評估方法,需要執(zhí)行的數(shù)據(jù)轉(zhuǎn)換和清洗步驟。

3.數(shù)據(jù)檢測:根據(jù)確定的檢測算法檢測數(shù)據(jù)庫中的重復記錄和異常記錄。

4.數(shù)據(jù)清洗:執(zhí)行預先定義好的并且己經(jīng)得到驗證的清洗策略、轉(zhuǎn)換規(guī)則和工作流等。數(shù)據(jù)清洗一般的類型轉(zhuǎn)換主要包括:

4.1對自由格式的屬性字段進行屬性分解,自由格式的屬性字段一般包含著很多的信息,而這些信息有時候需要進一步分解成多個屬性字段。

4.2處理輸入和拼寫錯誤,并盡可能地使其自動化,基于字典查詢的拼寫檢查對于發(fā)現(xiàn)拼寫錯誤有很大幫助。

4.3標準化:為了使實例匹配和合并變得更方便,應該把屬性值轉(zhuǎn)換成一致的和統(tǒng)一的格式。

5.數(shù)據(jù)清理流程評估:對定義的檢測算法、清洗轉(zhuǎn)換規(guī)則和工作流的正確性和效率進行驗證和評估??梢栽跀?shù)據(jù)源的數(shù)據(jù)樣本上進行清洗驗證,當不滿足清洗要求時,要對檢測算法、轉(zhuǎn)換規(guī)則、工作流或系統(tǒng)參數(shù)進行調(diào)整和改進。

6.干凈數(shù)據(jù)回流:當數(shù)據(jù)被清洗后,干凈的數(shù)據(jù)應該替換數(shù)據(jù)源中原來存在質(zhì)量問題的醫(yī)學數(shù)據(jù),這樣不僅可以提高數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量,還可避免將來再次抽取數(shù)據(jù)后進行重復的清洗工作。

五、結(jié)束語

本文簡要的就醫(yī)學研究中數(shù)據(jù)常見質(zhì)量問題、數(shù)據(jù)清洗內(nèi)容及基本流程等幾個方面介紹了醫(yī)學數(shù)據(jù)常見質(zhì)量問題的處理方式,揭示了數(shù)據(jù)質(zhì)量問題的本質(zhì)和標準化的清理流程,可操作性強。醫(yī)學領(lǐng)域數(shù)據(jù)事關(guān)人民的生命健康安全,其統(tǒng)計分析結(jié)果往往作為制定醫(yī)療措施的重要依據(jù),因此,確保數(shù)據(jù)的真實可信十分必要。

參考文獻

[1]周奕辛.數(shù)據(jù)清洗算法的研究與應用[D].青島大學碩士畢業(yè)論文.2005.

[2]李鎰沖,姜勇,張梅,等.SAS軟件在中國慢性病及其危險因素監(jiān)測數(shù)據(jù)清理中的應用.現(xiàn)代預防醫(yī)學[J].3835-3842.

[3]葉鷗璟,李俊懷. 中文數(shù)據(jù)清洗研究綜述.計算機工程與應用[J].2012.48(14):121-129.

猜你喜歡
數(shù)據(jù)質(zhì)量
電子商務平臺數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
基于大數(shù)據(jù)背景下提高供電局數(shù)據(jù)質(zhì)量對策分析
強化統(tǒng)計執(zhí)法提高數(shù)據(jù)質(zhì)量
淺析統(tǒng)計數(shù)據(jù)質(zhì)量
金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
企業(yè)統(tǒng)計工作之我見
統(tǒng)計信用與統(tǒng)計數(shù)據(jù)質(zhì)量研究
屏东市| 霍山县| 石嘴山市| 杭锦后旗| 新竹县| 常宁市| 徐水县| 玉林市| 侯马市| 理塘县| 军事| 萍乡市| 彭州市| 山阳县| 岗巴县| 托里县| 娱乐| 彩票| 延安市| 定安县| 拉萨市| 贞丰县| 册亨县| 信宜市| 桐柏县| 玉林市| 通化市| 通江县| 阜宁县| 那曲县| 永泰县| 达孜县| 南京市| 云浮市| 莫力| 西贡区| 盘锦市| 桂阳县| 通山县| 鄂州市| 饶河县|