国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于EpiData與SAS系統(tǒng)的紙版問卷數(shù)據(jù)錄入質(zhì)量控制技巧*

2012-03-11 14:01孫玉環(huán)
中國衛(wèi)生統(tǒng)計 2012年4期
關(guān)鍵詞:對話框核查標(biāo)簽

孫玉環(huán)

傳統(tǒng)的紙版問卷調(diào)查與CATI、CAPI等計算機輔助調(diào)查手段相比較,具有簡單方便、成本低廉的優(yōu)點,目前仍是應(yīng)用最為普遍的一種調(diào)查手段。由于紙版問卷是由訪問員手工填寫,錄入員依照問卷的填寫內(nèi)容直接錄入,參與人員任何形式的理解偏誤或疏忽,都有可能會產(chǎn)生登記性錯誤或跳轉(zhuǎn)錯誤。因此,在數(shù)據(jù)錄入階段,采取恰當(dāng)有效的措施,及時防止、發(fā)現(xiàn)和糾正數(shù)據(jù)采集和數(shù)據(jù)錄入環(huán)節(jié)產(chǎn)生的錯誤,是提高紙版問卷調(diào)查數(shù)據(jù)質(zhì)量的重要保證。而EpiData Association開發(fā)的EpiData作為一個免費的專業(yè)數(shù)據(jù)錄入和數(shù)據(jù)管理軟件,具有界面友好、簡單實用、錄入效率高、錄入質(zhì)量好等優(yōu)點〔1〕,SAS系統(tǒng)也因具有完備的數(shù)據(jù)存取、數(shù)據(jù)管理、數(shù)據(jù)分析和展現(xiàn)功能以及高效、靈活的處理海量數(shù)據(jù)的能力〔2〕,在調(diào)研領(lǐng)域有著廣泛的應(yīng)用。筆者在調(diào)查實踐中處理紙版問卷數(shù)據(jù)的一般做法是,先利用EpiData程序錄入數(shù)據(jù),然后導(dǎo)出為SAS格式數(shù)據(jù)集,再基于SAS系統(tǒng)進行數(shù)據(jù)清理和數(shù)據(jù)庫的規(guī)范整理。

本文將基于EpiData 3.02與SAS 9.2系統(tǒng),具體探討紙版問卷數(shù)據(jù)錄入中常用的一些質(zhì)量控制過程和技巧。具體可以分為數(shù)據(jù)錄入前的準(zhǔn)備、數(shù)據(jù)錄入過程中的質(zhì)量核查和數(shù)據(jù)錄入后的整理三個環(huán)節(jié)。

數(shù)據(jù)錄入前的準(zhǔn)備工作

1.問卷數(shù)據(jù)的完備性及初級邏輯性審核

在數(shù)據(jù)錄入工作開始之前,首先需要對每一份所回收問卷數(shù)據(jù)的完備性進行核查,如果發(fā)現(xiàn)問卷中存在必填項空缺、字跡模糊、潦草難以辨認(rèn)、邏輯錯誤等問題,就需要聯(lián)系相關(guān)督導(dǎo)或訪員加以確認(rèn),盡可能消除調(diào)查環(huán)節(jié)中的錯填和漏填現(xiàn)象,保證所回收調(diào)查問卷填寫內(nèi)容的規(guī)范、完整和準(zhǔn)確,為下一步的數(shù)據(jù)核查和錄入工作做好準(zhǔn)備。

2.程序準(zhǔn)備

EpiData程序的設(shè)計思路是,首先通過簡單的文本來定義數(shù)據(jù)庫結(jié)構(gòu),然后將其轉(zhuǎn)化為錄入文件,最后通過設(shè)置錄入條件來進行質(zhì)量控制〔3〕。在EpiData中設(shè)計數(shù)據(jù)錄入條件時,可以運用以下幾個方面的技巧:

(1)基本核對命令的設(shè)置 EpiData程序為用戶提供了一個基本的“添加核對命令”對話框(后綴為chk),可以直接輸入最常用的核查和限定條件。以某調(diào)查項目的數(shù)據(jù)錄入程序為例,為變量HHNO(問卷編碼)添加核對命令的對話框如圖1所示。其中,Range,Legal對話框用于為變量定義一組允許錄入的數(shù)值,Jumps對話框用于定義邏輯跳轉(zhuǎn)關(guān)系,Must enter對話框用于設(shè)定當(dāng)前變量是否必須錄入。

圖1 “添加核對命令”對話框

雖然EpiData程序為用戶提供了添加基本核對命令的對話窗口,但為了實現(xiàn)某些特殊要求,有時還需要打開編輯窗口,直接編寫相應(yīng)的限定錄入條件。

(2)問卷編碼的唯一性保證 問卷編碼的唯一性,是避免問卷重復(fù)錄入以及進行后續(xù)數(shù)據(jù)處理和分析的必要保證。在打開的“對該字段編輯核對項”的窗口中,為變量 HHNO(問卷編碼)增加“KEY UNIQUE 1”限定條件,即可將其設(shè)置為關(guān)鍵變量,并根據(jù)它為每一條記錄創(chuàng)建唯一的索引,確保一份問卷只錄入一次(如圖2所示)。

(3)特殊變量值的設(shè)定 由于問卷調(diào)查的復(fù)雜性,不可避免地會存在受訪者表示不知道、拒絕回答、不適用以及漏填等情況,為了在數(shù)據(jù)錄入時能夠靈活應(yīng)對各種特殊情況,可以對這些特殊變量值做統(tǒng)一規(guī)定,用“-1”表示不知道、“-2”表示拒絕回答、“-8”表示不適用、“-9”表示未填答。另外,除開放問題外,字符型變量最好事先轉(zhuǎn)化為離散型數(shù)值變量,以數(shù)值的形式錄入,在數(shù)據(jù)整理階段再輔之以值標(biāo)簽的形式表示,這樣可以大大提高數(shù)據(jù)錄入的速度。

圖2 保證問卷編碼唯一性的編輯核對項對話框

(4)規(guī)范填充兩個跳轉(zhuǎn)變量之間的變量值JUMPS命令的作用是設(shè)置有條件的跳轉(zhuǎn),在JUMPS和END之間,用戶通過指定一個合法值,實現(xiàn)在該特定值下跳轉(zhuǎn)到相應(yīng)的目標(biāo)字段。一般情況下,兩個跳轉(zhuǎn)變量之間的變量值會被自動設(shè)定為空或缺失值,此種情況的缺失應(yīng)為“不適用”情況,但如果事先不做設(shè)定,就會與訪員漏填、錄入員漏錄等原因造成的缺失相混淆,給后期的數(shù)據(jù)清理工作帶來麻煩。這時,可以利用“JUMPS RESET-8”命令,把兩個跳轉(zhuǎn)變量之間的全部變量值自動填充為“-8”(即不適用)。

數(shù)據(jù)錄入過程中的質(zhì)量核查

數(shù)據(jù)錄入過程中的質(zhì)量核查,主要包括對雙人錄入結(jié)果的核查與更正以及變量間的邏輯一致性核查與更正。

1.雙錄入結(jié)果的核查

經(jīng)驗表明,一份包含300個左右選項、難易程度中等的紙版調(diào)查問卷,單次錄入的錯誤率約為1%。為了保證數(shù)據(jù)錄入質(zhì)量,在經(jīng)費允許的條件下,最好實行雙人錄入,然后再對雙錄入結(jié)果進行比對。對發(fā)現(xiàn)的雙錄入結(jié)果不一致的信息,組織核查員查找原始紙版問卷,依據(jù)問卷實際填答情況,更正錄入錯誤的信息。進行雙錄入核對的前提條件是兩個數(shù)據(jù)庫所用關(guān)鍵變量必須唯一,只要其中一個數(shù)據(jù)庫中的關(guān)鍵變量有重復(fù)值,就不能進行數(shù)據(jù)比較〔4〕。雙錄入結(jié)果的核查過程,既可以在EpiData程序中實現(xiàn),也可以利用SAS程序中的compare過程實現(xiàn)。

(1)基于EpiData程序的雙錄入結(jié)果核查過程的實現(xiàn)。在準(zhǔn)備雙錄入時,利用菜單中的“工具”→“復(fù)制數(shù)據(jù)文件結(jié)構(gòu)”,將已經(jīng)建立好的數(shù)據(jù)庫的結(jié)構(gòu)拷貝、另存為一個新的數(shù)據(jù)庫,而其中已經(jīng)錄入的數(shù)據(jù)并不會被拷貝到新的數(shù)據(jù)庫中。雙錄入完畢后,再進入菜單“其他功能”→“對兩個相同數(shù)據(jù)文件進行有效性檢驗”,選擇要進行比較的兩個數(shù)據(jù)庫的文件名,然后設(shè)置核查過程中的一些參數(shù)。

(2)基于SAS程序的雙錄入結(jié)果核查過程的實現(xiàn)。下面這段SAS程序代碼實現(xiàn)的是兩次錄入結(jié)果(one和two兩個數(shù)據(jù)集)基于關(guān)鍵變量hhno的匹配核對過程。運行程序后所查找出來的不一致信息,通過SAS的ODS系統(tǒng)〔5〕,被存儲在名為“雙錄入不一致信息匯總”的excel數(shù)據(jù)集中。

ods listing exclude all;ods html file=“d:雙錄入不一致信息匯總.xls”;

data one;set sunny.one;proc sort;by hhno;run;data two;set sunny.two;proc sort;by hhno;run;

proc compare base=one compare=two listall outdif transpose out=clean maxprint=(32700,32700);

id hhno;run;

ods html close;ods listing exclude none;

2.邏輯一致性核查

EpiData程序中所建立的chk核查文件,主要是在數(shù)據(jù)錄入過程中交互式地影響數(shù)據(jù)的錄入,在一定程度上保證了錄入數(shù)據(jù)的合理性和正確性。而邏輯一致性核查,則是在數(shù)據(jù)錄入完畢后,依據(jù)問卷各條記錄的邏輯關(guān)系,通過一次性設(shè)置一批核查命令(條件語句),檢查數(shù)據(jù)庫中數(shù)據(jù)的邏輯一致性。邏輯一致性核查既可以在EpiData程序中實現(xiàn),也可以利用SAS程序?qū)崿F(xiàn)。對核查程序發(fā)現(xiàn)的所有不符合一致性要求的記錄,需要通過查找原始問卷、聯(lián)系訪問員或受訪者進行確認(rèn),如果為錄入錯誤就給予糾正。

數(shù)據(jù)錄入后的整理工作

為方便數(shù)據(jù)使用者,對已經(jīng)錄入完畢并通過質(zhì)量核查的問卷數(shù)據(jù),還需要進行補充和替換變量值、核查野碼、添加變量標(biāo)簽和變量值標(biāo)簽等數(shù)據(jù)清理和規(guī)范整理工作。該過程基于SAS系統(tǒng)完成的效率和質(zhì)量要遠(yuǎn)高于EpiData系統(tǒng)和其他統(tǒng)計分析軟件。

1.變量值的補充和替換

依據(jù)紙版問卷錄入數(shù)據(jù),即使對“不知道”、“拒絕回答”、“不適用”、“未填答”等情況,都要求訪員和錄入員分別相應(yīng)填寫“-1”、“-2”、“-8”和“-9”等特殊值,但由于疏忽等種種原因,有時某些數(shù)據(jù)點依然會顯示為缺失(數(shù)值變量為“.”,字符變量為空格)。數(shù)據(jù)清理時,需要針對缺失值產(chǎn)生的不同原因,逐一或逐類進行補充和更正。對能夠判斷為不適用的情況,可以利用SAS程序統(tǒng)一賦值為-8(不適用);對能夠判斷為應(yīng)填未填的情況,可以利用SAS程序統(tǒng)一賦值為-9(缺失值)。如果在數(shù)據(jù)錄入時,事先并沒有在EpiData程序中把兩個跳轉(zhuǎn)變量之間的全部變量值自動填充為“-8”,那么選項跳轉(zhuǎn)涉及到的變量值也會顯示為缺失,這時也需要統(tǒng)一將其賦值為-8。

2.核查野碼

由于調(diào)查執(zhí)行過程的復(fù)雜性,對匯總后的調(diào)查數(shù)據(jù),還需要通過查看所有變量的頻數(shù)分布和描述性分析結(jié)果,查找并更正各變量可能存在的野碼以及過大或過小的奇異值,比如父親的性別為女、住房面積超過1000平方米等,這種錯誤基本上是由于訪問員的填寫錯誤造成的。

3.添加變量標(biāo)簽和變量值標(biāo)簽

由于從EpiData程序中導(dǎo)出的數(shù)據(jù)只存儲了變量的簡單描述,為方便數(shù)據(jù)使用者,可以為全部變量添加完整的標(biāo)簽進行說明,標(biāo)簽的一般設(shè)定格式為“變量名+問題完整描述”;對于離散型數(shù)值變量,還應(yīng)為變量添加值標(biāo)簽。

1.胡靜.EpiData軟件的特點及使用簡介,疾病監(jiān)測,2006,21(5),273-275.

2.姚志勇編著.SAS編程與數(shù)據(jù)挖掘商業(yè)案例.北京:機械工業(yè)出版社,2010,1-2.

3.郭海濤,張澤,解宏偉.EpiData軟件與Stata軟件數(shù)據(jù)文件的轉(zhuǎn)接,軟件導(dǎo)刊,2010,9(3),15-16.

4.鄭文新,汪文新.EpiData軟件在流行病學(xué)調(diào)查中建立數(shù)據(jù)庫的應(yīng)用,數(shù)理醫(yī)藥學(xué)雜志,2005,18(5):486-497.

5.修良昌,丁元林.SAS中網(wǎng)頁格式輸出的實現(xiàn),中國衛(wèi)生統(tǒng)計,2009,26(2):210-211.

猜你喜歡
對話框核查標(biāo)簽
關(guān)于設(shè)計保證系統(tǒng)適航獨立核查的思考
基于無人機影像的營造林核查應(yīng)用研究
正?;謴?fù)虛擬機
Bootlace Worms’Secret etc.
What Is Beauty?
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
自動化事實核查的前景及局限性
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
淺談VB的通用對話框《CommonDialog》控件的使用
讓衣柜擺脫“雜亂無章”的標(biāo)簽