文/周艷會 張磊 尹黨輝
普查是為特定目的而專門組織的全面調(diào)查,是系統(tǒng)、全面、準(zhǔn)確掌握某特定領(lǐng)域情況的有效手段。但普查內(nèi)容的設(shè)定、普查信息的收集方式、普查數(shù)據(jù)的有效性校驗(yàn)和匯總,以及對普查結(jié)果的統(tǒng)計(jì)分析,則是得到有用普查結(jié)果的關(guān)鍵。下面以某行業(yè)體系內(nèi)信息系統(tǒng)普查為例,介紹一種有效實(shí)用的普查方式及普查信息匯總統(tǒng)計(jì)的軟件設(shè)計(jì)方法,在實(shí)踐中,本普查方法和據(jù)此設(shè)計(jì)研制出的普查數(shù)據(jù)處理系統(tǒng),為該專項(xiàng)信息普查作出了重要貢獻(xiàn)。
普查具有時效性,應(yīng)事先規(guī)定所查信息是哪個時間點(diǎn)之前的數(shù)據(jù),且應(yīng)規(guī)定普查數(shù)據(jù)多長時間內(nèi)收集完成,否則普查數(shù)據(jù)可能會不準(zhǔn)確;普查范圍包括被普查的單位范圍和信息填報原則,確定普查范圍和信息填報原則很重要,能從源頭上避免更多的重復(fù)信息收集,同時減少工作量。例如,只要求各級綜合部門填報數(shù)據(jù),每級單位只填寫本級產(chǎn)生的數(shù)據(jù),不可填寫下級上報和上級下發(fā)的內(nèi)容。
普查內(nèi)容和主要普查指標(biāo),決定了整個普查的方向和方法。本示例中,普查內(nèi)容是本行業(yè)體系內(nèi),在用在研的信息系統(tǒng)的基本情況和數(shù)據(jù)項(xiàng),包括:
(1)信息系統(tǒng)部署應(yīng)用情況,主要包括系統(tǒng)名稱、主要功能、開發(fā)單位、部署應(yīng)用范圍、使用部門和崗位。
(2)信息系統(tǒng)功能模塊組成情況,主要包括系統(tǒng)功能層次、功能模塊名稱、功能說明、輸入輸出數(shù)據(jù)表。
(3)信息系統(tǒng)基本數(shù)據(jù)項(xiàng)情況,主要包括系統(tǒng)基本數(shù)據(jù)表(不包括生成的統(tǒng)計(jì)表和過程表)所含全部數(shù)據(jù)項(xiàng)的名稱、含義、數(shù)據(jù)類型、取值范圍、數(shù)據(jù)流向。
(4)系統(tǒng)技術(shù)文檔電子版(需求分析報告、概要設(shè)計(jì)文檔、詳細(xì)設(shè)計(jì)文檔、數(shù)據(jù)庫設(shè)計(jì)文檔、用戶手冊)、系統(tǒng)安裝盤留存情況。
本次普查的重要指標(biāo)是本行業(yè)信息系統(tǒng)的數(shù)量和分布情況,各類數(shù)據(jù)項(xiàng)的內(nèi)容和數(shù)量等。本示例在研究信息系統(tǒng)數(shù)量和數(shù)據(jù)時,采用業(yè)務(wù)主題的方式分類,主要分為人員類、物資類、經(jīng)費(fèi)類、設(shè)施類等,所以,在研究信息系統(tǒng)和數(shù)據(jù)項(xiàng)時,可根據(jù)單位和業(yè)務(wù)主題進(jìn)行分析;數(shù)據(jù)庫類型根據(jù)實(shí)際常用的數(shù)據(jù)庫來設(shè),包 括Access、Sql Server、mysql、Οracle等;使用范圍列出從大到小的規(guī)范用詞,可復(fù)選。
因?yàn)楸黄詹閱挝槐椴既珖鞯?,?nèi)部網(wǎng)絡(luò)聯(lián)通性不一定很理想,需要填寫的普查信息也不適合在公共網(wǎng)絡(luò)上傳輸,所以制定Excel格式模板,便于靈活填寫和匯集。制定模板的原則,一是簡潔易填,二是要反映核心問題。普查模板的主要設(shè)計(jì)要求是:
(1)明確區(qū)分?jǐn)?shù)據(jù)來源。以每一單位的名稱(代碼)、位置(代碼)作為本單位上報普查信息的首頁。每一信息系統(tǒng)設(shè)定必填的關(guān)鍵項(xiàng),并把必填項(xiàng)規(guī)范為數(shù)據(jù)字典,信息系統(tǒng)類別便是必填項(xiàng)之一。
(2)充分使用Excel的數(shù)據(jù)有效性校驗(yàn)和提示功能,將普查模板所有需填寫的信息進(jìn)行規(guī)范,便于匯總和統(tǒng)計(jì)。例如:將可能的、規(guī)范的或輸入復(fù)雜的填寫內(nèi)容,利用數(shù)據(jù)有效性的序列功能,作為預(yù)置選項(xiàng);遇到填寫一定類型或范圍內(nèi)的數(shù)值時,如整數(shù)范圍、小數(shù)范圍、文本長度等,利用數(shù)據(jù)有效性校驗(yàn),在對應(yīng)單元格加入對數(shù)據(jù)類型和長度的規(guī)定,并設(shè)置信息提示;實(shí)在無法內(nèi)置選項(xiàng)但又容易填錯的,應(yīng)在模板中設(shè)定數(shù)據(jù)類型,并提示填寫格式,如日期、時間的填寫內(nèi)容。
數(shù)據(jù)結(jié)構(gòu)應(yīng)與普查模板相對應(yīng),比如要設(shè)計(jì)單位表、信息系統(tǒng)基本情況表,數(shù)據(jù)項(xiàng)基本情況表等相關(guān)聯(lián)的表結(jié)構(gòu)。
本普查系統(tǒng)是個小的獨(dú)立系統(tǒng),可網(wǎng)上部署,異地多用戶使用。根據(jù)需求,數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)如圖1所示。
(1)系統(tǒng)數(shù)據(jù)。用來進(jìn)行系統(tǒng)運(yùn)行維護(hù)和管理的數(shù)據(jù)。包括系統(tǒng)用戶、用戶權(quán)限、日志等。
圖1:數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)圖
圖2:普查過程、系統(tǒng)功能及使用流程圖
(2)基準(zhǔn)數(shù)據(jù)。是本系統(tǒng)的基礎(chǔ)標(biāo)準(zhǔn)數(shù)據(jù),主要包括單位基礎(chǔ)信息、信息系統(tǒng)分類、操作系統(tǒng)類型、數(shù)據(jù)庫類型等基礎(chǔ)標(biāo)準(zhǔn)和字典信息。
(3)普查數(shù)據(jù)。普查結(jié)果數(shù)據(jù),主要包括通過普查模板填寫的信息系統(tǒng)基本情況數(shù)據(jù),數(shù)據(jù)項(xiàng)信息等。
(4)統(tǒng)計(jì)數(shù)據(jù)。主要存儲用來進(jìn)行統(tǒng)計(jì)分析的數(shù)據(jù)模型和統(tǒng)計(jì)分析計(jì)算的結(jié)果數(shù)據(jù)。
本示例的普查過程、系統(tǒng)功能及使用流程如圖2。
即對普查收集上來的數(shù)據(jù)進(jìn)行合格性檢查和初步規(guī)范。通過網(wǎng)絡(luò)、郵件或光盤等渠道報來的電子版原始數(shù)據(jù),按單位順序備份到專用文件夾中,然后進(jìn)行數(shù)據(jù)檢查和初步規(guī)范。
首先要讀取數(shù)據(jù),從第一行數(shù)據(jù)的第一列開始,逐項(xiàng)數(shù)據(jù)讀取,檢查收集到的普查數(shù)據(jù),并判斷是否符合填寫要求,符合要求,則移到下一列,一行檢查完后,移到下一行繼續(xù)檢查,直至文件尾,如果不符合要求,則提示出錯的當(dāng)前行、列及錯誤信息內(nèi)容。必要時需要打開原文件,進(jìn)行修改。
最常見的問題包括:數(shù)據(jù)項(xiàng)的數(shù)據(jù)類型、長度不符合要求、日期時間和數(shù)值的填寫錯誤導(dǎo)致無法轉(zhuǎn)換成相應(yīng)格式等。一般進(jìn)行系統(tǒng)功能檢查前,先進(jìn)行人工檢視,人工檢視是根據(jù)普查模板和普查要求,通篇瀏覽全部數(shù)據(jù),若有較明確的數(shù)據(jù)問題,則立即修正。
通過數(shù)據(jù)檢查的普查數(shù)據(jù),經(jīng)過數(shù)據(jù)格式轉(zhuǎn)換、內(nèi)容轉(zhuǎn)換等操作,將Excel格式的非結(jié)構(gòu)化數(shù)據(jù)存入Οracle格式的結(jié)構(gòu)化數(shù)據(jù)表中,在此過程中若有問題導(dǎo)致讀入導(dǎo)常,應(yīng)編制詳細(xì)的提示信息,將錯誤所在位置和問題顯示出來,便于修改。
規(guī)范數(shù)據(jù)主要有兩項(xiàng)任務(wù):一是去重,一般普查數(shù)據(jù)重復(fù)率較高,信息系統(tǒng)應(yīng)通過關(guān)鍵項(xiàng)判別去重,例如可用報送單位名稱+信息系統(tǒng)類別+研制單位+研制時間等,判別并刪除重復(fù)信息;數(shù)據(jù)項(xiàng)去重的工作量較大,可以用模糊查詢列出全部相關(guān)或類似的數(shù)據(jù)項(xiàng),然后人工辨別,刪除重復(fù)項(xiàng)或照著類似項(xiàng)。二是規(guī)范代碼,因部分收集來的信息會有誤,可以按照一定的規(guī)則,進(jìn)行統(tǒng)一修改,規(guī)范存入數(shù)據(jù)庫的數(shù)據(jù)。
根據(jù)統(tǒng)計(jì)方式,本示例的統(tǒng)計(jì)方法分為模型統(tǒng)計(jì)與條件統(tǒng)計(jì)。
(1)模型統(tǒng)計(jì)。模型統(tǒng)計(jì)要求先設(shè)定統(tǒng)計(jì)模型,然后根據(jù)預(yù)設(shè)的模型進(jìn)行一次統(tǒng)計(jì)、多次展現(xiàn)。這類統(tǒng)計(jì)一般較復(fù)雜,統(tǒng)計(jì)模式相對固定。常用在一些統(tǒng)計(jì)數(shù)據(jù)較多的復(fù)雜統(tǒng)計(jì)綜合表中,每一表格與不同的統(tǒng)計(jì)模型、統(tǒng)計(jì)結(jié)果數(shù)據(jù)對應(yīng),每次重新統(tǒng)計(jì),對應(yīng)更新統(tǒng)計(jì)結(jié)果數(shù)據(jù)。
(2)條件統(tǒng)計(jì)。條件統(tǒng)計(jì)一般與查詢相結(jié)合,設(shè)置單項(xiàng)或組合條件后,可以查詢得出條件范圍內(nèi)的結(jié)果數(shù)據(jù)列表,也可以在此基礎(chǔ)上進(jìn)行統(tǒng)計(jì),得出統(tǒng)計(jì)數(shù)據(jù)。
Excel的接口,主要用于普查數(shù)據(jù)表輸入、數(shù)據(jù)字典表導(dǎo)入。
查詢結(jié)果輸出、統(tǒng)計(jì)分析結(jié)果輸出等。查詢結(jié)果一般以列表形式輸出,統(tǒng)計(jì)分析結(jié)果包括統(tǒng)計(jì)圖形和統(tǒng)計(jì)表。統(tǒng)計(jì)圖輸出可以是柱形圖、折線圖、餅圖、雷達(dá)圖、圓環(huán)圖等,統(tǒng)計(jì)表應(yīng)根據(jù)需求,輸出對應(yīng)統(tǒng)計(jì)結(jié)果表,如按單位統(tǒng)計(jì)的信息系統(tǒng)分布表、按業(yè)務(wù)主題統(tǒng)計(jì)的數(shù)據(jù)項(xiàng)表等。
系統(tǒng)部署可采用網(wǎng)上集中部署,分散授權(quán)使用的方式,簡化工作流程,便于信息收集和處理。