陳向麗
一、問題的提出
統(tǒng)計(jì)分析的工作對(duì)象是各種統(tǒng)計(jì)數(shù)據(jù)。對(duì)其進(jìn)行有效的管理是統(tǒng)計(jì)分析工作的前提和保障。在較大規(guī)模的統(tǒng)計(jì)分析工作過程中,一般涉及的統(tǒng)計(jì)指標(biāo)的數(shù)量較多,并且隨著時(shí)間推移,統(tǒng)計(jì)數(shù)據(jù)的規(guī)模不斷積累擴(kuò)大;同時(shí),統(tǒng)計(jì)指標(biāo)體系一般會(huì)由于統(tǒng)計(jì)口徑的經(jīng)常性變動(dòng)而變得比較復(fù)雜。這些都給統(tǒng)計(jì)分析的實(shí)際工作帶來了許多困難,主要表現(xiàn)為:
1.數(shù)據(jù)組織困難
在進(jìn)行一般的統(tǒng)計(jì)分析時(shí),由于涉及的統(tǒng)計(jì)指標(biāo)個(gè)數(shù)比較少,一般的做法是:首先采用手工錄入數(shù)據(jù)的辦法,將數(shù)據(jù)錄入到統(tǒng)計(jì)分析軟件中,并以數(shù)據(jù)文件的形式存儲(chǔ)在磁盤上,然后再對(duì)它們進(jìn)行分析。分析任務(wù)完成,就將它們放置到一邊存檔。
2.數(shù)據(jù)查詢效率低
在實(shí)際統(tǒng)計(jì)分析工程中,往往需要從不同角度和不同層次對(duì)分析數(shù)據(jù)進(jìn)行全面深入的分析研究,這就需要對(duì)所收集的統(tǒng)計(jì)指標(biāo)在各個(gè)層面、各個(gè)角度上進(jìn)行查詢。如果統(tǒng)計(jì)指標(biāo)的數(shù)量極為龐大就必然要花費(fèi)相當(dāng)大的精力對(duì)已經(jīng)存儲(chǔ)好的數(shù)據(jù)進(jìn)行重新整理、組織甚至重新錄入,否則就無法滿足統(tǒng)計(jì)分析需要。
3.數(shù)據(jù)含義混亂
在統(tǒng)計(jì)分析工作中,一方面,要求統(tǒng)計(jì)指標(biāo)盡可能理想,具有全面性、準(zhǔn)確性;但同時(shí)另一方面,客觀實(shí)際情況是,隨著時(shí)間的推移,由于各種原因會(huì)造成統(tǒng)計(jì)指標(biāo)本身缺乏全面性、準(zhǔn)確性。統(tǒng)計(jì)指標(biāo)之間缺乏可比性。這個(gè)矛盾是經(jīng)常存在的。
二、數(shù)據(jù)文件的組織方式和存在的問題
統(tǒng)計(jì)分析過程中經(jīng)常用到統(tǒng)計(jì)分析軟件,它們?cè)诮y(tǒng)計(jì)分析方法和模型方面具有強(qiáng)大的優(yōu)勢(shì)和功能。但統(tǒng)計(jì)分析軟件是以計(jì)算機(jī)數(shù)據(jù)文件的方式來組織統(tǒng)計(jì)數(shù)據(jù)的。這種方式能夠滿足統(tǒng)計(jì)分析模型對(duì)數(shù)據(jù)格式的要求,但在數(shù)據(jù)的組織和管理方面功能相對(duì)較差。在統(tǒng)計(jì)分析中,僅采用數(shù)據(jù)文件的形式存儲(chǔ)統(tǒng)計(jì)指標(biāo)必然會(huì)出現(xiàn)很多問題。
1.數(shù)據(jù)文件只是存儲(chǔ)統(tǒng)計(jì)數(shù)據(jù)的指標(biāo)值,不存儲(chǔ)指標(biāo)名
統(tǒng)計(jì)分析軟件一般以電子表格的形式存儲(chǔ)統(tǒng)計(jì)數(shù)據(jù),統(tǒng)計(jì)數(shù)據(jù)的數(shù)值以變量的形式存放,指標(biāo)名稱或者作為各列變量的變量名存儲(chǔ),或者以標(biāo)簽的形式出現(xiàn),或者根本就不存儲(chǔ),而被統(tǒng)計(jì)分析人員記在心里。
2.數(shù)據(jù)的組織方式不能支持統(tǒng)計(jì)分析中對(duì)統(tǒng)計(jì)數(shù)據(jù)的任意提取
在進(jìn)行不同層次,不同角度的統(tǒng)計(jì)分析中,需要經(jīng)常地對(duì)已經(jīng)存儲(chǔ)好的數(shù)據(jù)進(jìn)行任意提取。但是,正是一般統(tǒng)計(jì)分析軟件中數(shù)據(jù)文件的組織方式?jīng)]有完整地存儲(chǔ)統(tǒng)計(jì)數(shù)據(jù),致使它無法自動(dòng)地支持對(duì)統(tǒng)計(jì)數(shù)據(jù)的任意查詢和提取,更無法談及查詢優(yōu)化,而只能靠人工完成。在數(shù)據(jù)量龐大的情況下,人工操作是極其困難、甚至是無法實(shí)現(xiàn)的。雖然ARIMA系統(tǒng)在實(shí)現(xiàn)數(shù)據(jù)檢索方面有其一定的優(yōu)勢(shì),但操作過程十分復(fù)雜,并且要在創(chuàng)建數(shù)據(jù)集時(shí)就要對(duì)檢索條件進(jìn)行確定。
3.數(shù)據(jù)組織方式的隨意性不支持統(tǒng)計(jì)分析的長遠(yuǎn)要求
利用一般的統(tǒng)計(jì)分析軟件組織統(tǒng)計(jì)數(shù)據(jù),數(shù)據(jù)究竟按照哪種表格形式存儲(chǔ)完全取決于統(tǒng)計(jì)分析人員的習(xí)慣和當(dāng)時(shí)分析的需要。因此,具有很大的隨意性和不規(guī)范性。這造成:當(dāng)新一期數(shù)據(jù)產(chǎn)生時(shí),可能無法有效地支持增加新指標(biāo);當(dāng)分析研究的層次、角度改變時(shí),可能無法滿足靈活多變的統(tǒng)計(jì)分析模型對(duì)數(shù)據(jù)格式的要求。
4.數(shù)據(jù)的組織方式不能反映統(tǒng)計(jì)指標(biāo)間的相互關(guān)系
由于一般的統(tǒng)計(jì)分析軟件僅存指標(biāo)值,不存指標(biāo)名。因而無法反應(yīng)統(tǒng)計(jì)指標(biāo)在結(jié)構(gòu)上的相互關(guān)系,也無法反應(yīng)統(tǒng)計(jì)指標(biāo)的體系變化。
綜上所述,統(tǒng)計(jì)分析軟件中的按數(shù)據(jù)文件方式組織數(shù)據(jù)的方法較難滿足實(shí)際統(tǒng)計(jì)分析工作的需要。因此,選擇一種全新的、科學(xué)的、符合統(tǒng)計(jì)分析工作實(shí)際要求的數(shù)據(jù)組織方式來管理統(tǒng)計(jì)指標(biāo)成為必然,統(tǒng)計(jì)數(shù)據(jù)庫系統(tǒng)無疑是一種理想的選擇。
三、統(tǒng)計(jì)數(shù)據(jù)資料的特點(diǎn)
統(tǒng)計(jì)數(shù)據(jù)一般具有以下幾個(gè)特點(diǎn):
1.統(tǒng)計(jì)數(shù)據(jù)具有系統(tǒng)性
統(tǒng)計(jì)數(shù)據(jù)是說明自然和社會(huì)總體現(xiàn)象數(shù)量特征的科學(xué)概念。一個(gè)完整的統(tǒng)計(jì)數(shù)據(jù)包括六個(gè)部分,即時(shí)間范圍、空間范圍、指標(biāo)名稱、指標(biāo)數(shù)值、計(jì)量單位和計(jì)算方法。所謂系統(tǒng)性是指構(gòu)成統(tǒng)計(jì)數(shù)據(jù)的各要素是不可分隔、缺一不可的。否則,便會(huì)出現(xiàn)不知所云的現(xiàn)象。
2.統(tǒng)計(jì)數(shù)據(jù)具有歷史性
統(tǒng)計(jì)數(shù)據(jù)是歷史發(fā)展的積累,隨著時(shí)間的推移,以往的歷史數(shù)據(jù)不會(huì)失去存在的意義、而是進(jìn)行統(tǒng)計(jì)分析、統(tǒng)計(jì)預(yù)測(cè)的基礎(chǔ)。
3.統(tǒng)計(jì)數(shù)據(jù)具有廣泛性
統(tǒng)計(jì)數(shù)據(jù)所記錄的對(duì)象可能橫向涉及到各行各業(yè)的各種事物,而且隨著統(tǒng)計(jì)手段的加強(qiáng)和統(tǒng)計(jì)能力提高,統(tǒng)計(jì)的范圍在不斷拓展。
4.統(tǒng)計(jì)數(shù)據(jù)具有大量性
統(tǒng)計(jì)數(shù)據(jù)的縱向歷史性和橫向廣泛性造成統(tǒng)計(jì)數(shù)據(jù)的大量性。
5.統(tǒng)計(jì)數(shù)據(jù)具有多維性和層次性
分析單個(gè)統(tǒng)計(jì)數(shù)據(jù),可以看出它具有結(jié)構(gòu)多維性。即:完整的統(tǒng)計(jì)指標(biāo)是由六個(gè)基本要素構(gòu)成的。
6.統(tǒng)計(jì)數(shù)據(jù)具有變化性和不規(guī)范性
歷史性必然造成統(tǒng)計(jì)數(shù)據(jù)的變化性和不規(guī)范性。隨著時(shí)間的推移和人們對(duì)分析問題認(rèn)識(shí)的不斷深入,統(tǒng)計(jì)數(shù)據(jù)的核算單位、統(tǒng)計(jì)口徑等必然會(huì)發(fā)生變化,導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)不具有可比性。
研究統(tǒng)計(jì)數(shù)據(jù)的自身特點(diǎn)是解決統(tǒng)計(jì)數(shù)據(jù)資料管理的基本思路。
四、數(shù)據(jù)管理解決方案
解決統(tǒng)計(jì)數(shù)據(jù)管理的方法很多,其中統(tǒng)計(jì)數(shù)據(jù)庫是一個(gè)較為可行的方案,統(tǒng)計(jì)數(shù)據(jù)庫系統(tǒng)的研制是近年來統(tǒng)計(jì)學(xué)界和計(jì)算機(jī)界都十分關(guān)注的課題。它是存儲(chǔ)、管理、分析統(tǒng)計(jì)數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),是數(shù)據(jù)采集和數(shù)據(jù)傳送的解決方案,是數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理根本手段,是提供數(shù)據(jù)分析和數(shù)據(jù)服務(wù)基礎(chǔ)。
由于統(tǒng)計(jì)分析所處理的對(duì)象是統(tǒng)計(jì)數(shù)據(jù),因此,一切工作都應(yīng)圍繞如何合理地存儲(chǔ)統(tǒng)計(jì)數(shù)據(jù),如何方便統(tǒng)計(jì)分析人員查詢提取統(tǒng)計(jì)數(shù)據(jù)等問題展開。在此基礎(chǔ)上,結(jié)合統(tǒng)計(jì)數(shù)據(jù)的自身特點(diǎn),建立統(tǒng)計(jì)數(shù)據(jù)庫可以從以下幾個(gè)方面考慮:
1.以統(tǒng)計(jì)數(shù)據(jù)為基本存貯單位,放棄以統(tǒng)計(jì)表為基本存儲(chǔ)單位的設(shè)計(jì)思想。
2.統(tǒng)計(jì)數(shù)據(jù)的指標(biāo)名稱和指標(biāo)數(shù)值分別處理,實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)的完整存儲(chǔ),在這個(gè)前提之下,尋求更合理的數(shù)據(jù)組織方式。
3.通過劃分統(tǒng)計(jì)數(shù)據(jù)的基本信息實(shí)現(xiàn)指標(biāo)名的存儲(chǔ)。
這種統(tǒng)計(jì)數(shù)據(jù)的組織方案能夠較好地克服上面提到的諸多問題。它實(shí)現(xiàn)了統(tǒng)計(jì)數(shù)據(jù)的完整存儲(chǔ);能夠使用戶直觀地、方便地了解各指標(biāo)之間的復(fù)雜關(guān)系,有利于統(tǒng)計(jì)指標(biāo)口徑的自動(dòng)調(diào)整;以統(tǒng)計(jì)數(shù)據(jù)為存儲(chǔ)基本單位,極大地提高了數(shù)據(jù)的存儲(chǔ)效率和查詢效率;能夠方便地增加新數(shù)據(jù);能夠方便快捷地滿足統(tǒng)計(jì)分析人員對(duì)統(tǒng)計(jì)數(shù)據(jù)的各種層次和角度提取需求?!?/p>