祝君儀
[摘要]闡述了大數(shù)據(jù)時代的統(tǒng)計數(shù)據(jù)特征和質(zhì)量準(zhǔn)確性需求,分析了包括邏輯規(guī)則檢驗、核算數(shù)據(jù)重估、計量模型分析、統(tǒng)計分布驗證、調(diào)查偏差評估、多維評估延伸六種評估方法的概念特征以及適用性。為了適應(yīng)大數(shù)據(jù)時代的發(fā)展需求,需要加強(qiáng)對統(tǒng)計數(shù)據(jù)質(zhì)量評估方法的研究力度,進(jìn)一步完善評估體系,實現(xiàn)中國統(tǒng)計研究的新變革。
[關(guān)鍵詞]大數(shù)據(jù);統(tǒng)計數(shù)據(jù);準(zhǔn)確性;評估方法;適用性
[DOI]1013939/jcnkizgsc201529041
1大數(shù)據(jù)的出現(xiàn)與應(yīng)對
1.1大數(shù)據(jù)的概念特征
大數(shù)據(jù)的概念從字面上可以理解為龐大的數(shù)據(jù)集合,當(dāng)然,如今的數(shù)據(jù)早已不局限于單一的數(shù)值變化,而是在數(shù)字網(wǎng)絡(luò)概念中彼此交疊冪次增長的非結(jié)構(gòu)化信息統(tǒng)籌。根據(jù)IDC報告,我們可知全球數(shù)據(jù)量的驚人變化,2009年80萬PB,2010年增幅達(dá)50%,達(dá)到了120萬PB,至2011年躍至190萬PB,激增的數(shù)據(jù)量印證著大數(shù)據(jù)時代的到來,見下圖。
2009—2011年的數(shù)據(jù)量變化柱狀圖
雖然對于大數(shù)據(jù)還沒有約定熟成的理論定義,但是在本文中我們不妨直觀地將其理解為涵蓋數(shù)值數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并對其進(jìn)行分析整合的海量數(shù)據(jù)集。
大數(shù)據(jù)的幾項具有辨識度的特征,首先是數(shù)據(jù)集在體量上應(yīng)超越TB數(shù)量級,其次是數(shù)據(jù)信息應(yīng)多樣化,有數(shù)值數(shù)據(jù),也有像是圖片、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù),再次是數(shù)據(jù)的產(chǎn)生、采集和處理應(yīng)快速及時,最后是數(shù)據(jù)集整合的數(shù)據(jù)信息應(yīng)具有全面性和有效性。
1.2大數(shù)據(jù)對統(tǒng)計研究的挑戰(zhàn)
大數(shù)據(jù)的龐大數(shù)據(jù)體量,快速增長處理需求,多樣化全面性數(shù)據(jù)整合等現(xiàn)實情況都讓統(tǒng)計研究面臨著巨大挑戰(zhàn)。傳統(tǒng)的單一維度的樣本抽查的研究分析模式已經(jīng)不足以保證統(tǒng)計數(shù)據(jù)的準(zhǔn)確性。因此,我們不僅要擴(kuò)大研究分析的樣本量保證統(tǒng)計結(jié)果的客觀性和真實性,還要通過增加反饋信息的呈現(xiàn)路徑,激發(fā)目標(biāo)群體的新型互動模式,將文字、圖片、視頻、音頻等都納入數(shù)據(jù)庫,從而增加數(shù)據(jù)維度,獲取高品質(zhì)海量數(shù)據(jù),實現(xiàn)統(tǒng)計研究新變革。
2大數(shù)據(jù)時代背景下統(tǒng)計數(shù)據(jù)質(zhì)量的界定
2.1統(tǒng)計數(shù)據(jù)質(zhì)量的含義
統(tǒng)計數(shù)據(jù)質(zhì)量的核心在于其準(zhǔn)確性,在大數(shù)據(jù)時代背景下,統(tǒng)計數(shù)據(jù)質(zhì)量還需考量統(tǒng)計目的,即滿足統(tǒng)計目的的具有準(zhǔn)確性的統(tǒng)計數(shù)據(jù)呈現(xiàn)。
2.2統(tǒng)計數(shù)據(jù)質(zhì)量的特征
根據(jù)上述統(tǒng)計數(shù)據(jù)質(zhì)量的含義,我們可以提煉出有關(guān)大數(shù)據(jù)時代背景下統(tǒng)計數(shù)據(jù)質(zhì)量的兩點(diǎn)特征。第一,是針對數(shù)據(jù)內(nèi)容,應(yīng)在客戶接受范圍內(nèi)控制誤差,保證數(shù)據(jù)采集處理的快速及時,并符合統(tǒng)計目的。第二,是針對數(shù)據(jù)呈現(xiàn),要有規(guī)范性的闡述,保證統(tǒng)計數(shù)據(jù)的口徑計算等采用相對一致的方式,表達(dá)完整,直觀易懂,盡量避免歧義冗長。
3各類統(tǒng)計數(shù)據(jù)質(zhì)量的評估方法及適用性分析
3.1邏輯規(guī)則檢驗
邏輯規(guī)則檢驗法,是宏觀的針對總量數(shù)據(jù)的一種評估方法,即根據(jù)統(tǒng)計數(shù)據(jù)中各個指標(biāo)之間相互作用,彼此粘連的內(nèi)在邏輯關(guān)系,來衡量測試數(shù)據(jù)的真實性和可信度。
由于這種邏輯規(guī)則檢驗法是基于傳統(tǒng)的統(tǒng)計理論,且可操作性強(qiáng),易被客戶理解接受,所以在實際統(tǒng)計數(shù)據(jù)評估中應(yīng)用廣泛,常被用于政府統(tǒng)計部門的統(tǒng)計工作。但是,這種方法存在明顯漏洞,因為其檢驗規(guī)則過于單一,只要不出現(xiàn)重大邏輯沖突則推論出數(shù)據(jù)可信,加上即使出現(xiàn)了邏輯矛盾,僅通過比較無法獲知問題所在,無法確定問題數(shù)據(jù)的準(zhǔn)確范圍無法規(guī)避結(jié)果的多重性,使得結(jié)果相對粗略草率。
根據(jù)以上分析判斷邏輯規(guī)則檢驗法的適用性,我們可以將其作為初步評估統(tǒng)計數(shù)據(jù)的方法,在宏觀經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)中以它為基礎(chǔ),結(jié)合其他方法,進(jìn)行復(fù)式檢驗,能夠更好地得出統(tǒng)計結(jié)論,獲得民眾理解和認(rèn)可。
3.2核算數(shù)據(jù)重估
核算數(shù)據(jù)重估法,是一種對于邏輯規(guī)則檢驗法延伸拓展的評估方法,即基于待評估數(shù)據(jù)的核算體系重新設(shè)定的統(tǒng)計指標(biāo),從而重新估算統(tǒng)計數(shù)據(jù),然后對比現(xiàn)實數(shù)據(jù),實現(xiàn)對統(tǒng)計數(shù)據(jù)質(zhì)量的評估。這種評估方法的基本思路是一種在重新計量中的重復(fù)調(diào)查,擴(kuò)充針對性的資料,將理想數(shù)據(jù)與實際數(shù)據(jù)對比分析,找出問題所在。
這種重估統(tǒng)計指標(biāo)的評估方法與邏輯規(guī)則檢驗一樣是在假設(shè)基礎(chǔ)核算構(gòu)成準(zhǔn)確性的前提下進(jìn)行的,而重設(shè)的統(tǒng)計指標(biāo)與現(xiàn)實統(tǒng)計的指標(biāo)方式仍具有差異性,因此其對比評估的結(jié)果只能作為一種參考性依據(jù),能找到問題數(shù)據(jù)的大致方向但無法呈現(xiàn)具體錯誤情況。它尤其適用于判斷GDP的增速準(zhǔn)確性。
3.3計量模型分析
計量模型分析法,也是一種針對總量數(shù)據(jù)的評估方法,即在難以確定統(tǒng)計數(shù)據(jù)確切邏輯關(guān)系的情況下,建立模型評估,檢查是否出現(xiàn)差異情況。這種方法的關(guān)鍵是建立模型,尋找異常點(diǎn),在操作過程中需要先根據(jù)統(tǒng)計理論和統(tǒng)計目的建立相應(yīng)的計量模型,再將樣本數(shù)據(jù)進(jìn)行相應(yīng)估算檢查,反復(fù)調(diào)整,多次代入評估,最終得出結(jié)論。
3.4統(tǒng)計分布驗證
統(tǒng)計分布驗證法,是針對分類數(shù)據(jù)的一種評估方法,即在掌握了個體數(shù)據(jù)和分類匯總數(shù)據(jù)之后,基于已知的分布特性,驗證理論性分布情況與實際統(tǒng)計數(shù)據(jù)分布情況是否相悖,進(jìn)而得出評估結(jié)果。
這種評估方法的檢驗過程首先是通過理論分析和調(diào)查研究確定統(tǒng)計分布的特性,找到個體數(shù)據(jù)與匯總數(shù)據(jù)的分布形態(tài),然后對比理論數(shù)據(jù)與待評估數(shù)據(jù)的分布是否一致,若是發(fā)現(xiàn)異常點(diǎn)則需要進(jìn)一步驗證分析其具體誤差值情況,從而判斷統(tǒng)計數(shù)據(jù)質(zhì)量。這種評估方法的缺陷在于確定統(tǒng)計數(shù)據(jù)的分布特性,這是評估的前提,但也是在實際操作中最難攻克的關(guān)鍵。
3.5調(diào)查偏差評估
調(diào)查偏差評估法,是一種事后調(diào)查分析的方法,即通過對統(tǒng)計數(shù)據(jù)中調(diào)查偏差的評估,約束調(diào)查條件進(jìn)行重復(fù)調(diào)查,以期獲得最真實的統(tǒng)計數(shù)據(jù)。這種方法的開展是在預(yù)設(shè)存在可得的真實統(tǒng)計數(shù)據(jù)前提下,那么這個關(guān)鍵點(diǎn)就成為了該評估方法最大的痛點(diǎn)和爭議點(diǎn),因為是否存在理想調(diào)查條件下可得的真實統(tǒng)計數(shù)據(jù)是未知的,換言之就是假想的,沒有科學(xué)依據(jù)的。加之在實際操作中,要進(jìn)行有效的調(diào)查條件控制涉及誤差參數(shù)的確定,計量模型的構(gòu)建,同時在區(qū)域范圍內(nèi)實現(xiàn)多次重復(fù)調(diào)查的難度也很大,因此,調(diào)查偏差評估的實際應(yīng)用有限,當(dāng)下僅適用于像人口普查這類的地區(qū)性普查統(tǒng)計數(shù)據(jù)的分析。
3.6多維評估延伸
由于大數(shù)據(jù)時代統(tǒng)計數(shù)據(jù)內(nèi)容的多樣性,多維化,評估方法的多維延伸也成為必然。所謂多維評估法目前涉及四種的評估路徑,即多級量度、指標(biāo)檢測、用戶需求,以及統(tǒng)籌綜合。雖然由于長期以來對數(shù)值統(tǒng)計分析的側(cè)重,多維評估還在發(fā)展階段,尚不成熟,但是隨著統(tǒng)計數(shù)據(jù)的非結(jié)構(gòu)化特性日益彰顯和人們對于統(tǒng)計數(shù)據(jù)質(zhì)量要求的日益提升,多維化評估將逐漸受到重視,得到完善應(yīng)用。
4結(jié)論
本文分析了包括邏輯規(guī)則檢驗、核算數(shù)據(jù)重估、計量模型分析、統(tǒng)計分布驗證、調(diào)查偏差評估、多維評估延伸在內(nèi)的六種評估方法的概念特征,以及適用性。其中前三種都是針對統(tǒng)計總量的評估方式,而后幾種則是針對分類數(shù)據(jù)的評估方法,涉及充分的信息采集,分布特性的確定,初始調(diào)查條件的確定,以及多維度的延伸。這些假定的前提與實際數(shù)據(jù)始終存在偏差,因此在獲得真實數(shù)據(jù)上還是屬于理想化推測,始終存在爭議點(diǎn),而且在實際操作中具有執(zhí)行困難。
通過分析,我們不難發(fā)現(xiàn)目前各個對于統(tǒng)計數(shù)據(jù)質(zhì)量的評估方法仍存在較大的缺陷,這直接影響到我國統(tǒng)計事業(yè)的發(fā)展和與之密切相關(guān)的經(jīng)濟(jì)社會的總體發(fā)展。因此,我們需要加強(qiáng)對統(tǒng)計數(shù)據(jù)質(zhì)量評估方法的研究力度,進(jìn)一步完善評估體系,適應(yīng)大數(shù)據(jù)時代的發(fā)展需求,用多維度復(fù)合型的研究成果保證統(tǒng)計結(jié)果的客觀性和真實性,還要通過增加反饋信息的呈現(xiàn)路徑,激發(fā)目標(biāo)群體的新型互動模式,實現(xiàn)中國統(tǒng)計研究的新變革。
參考文獻(xiàn):
[1]王華,金勇進(jìn)統(tǒng)計數(shù)據(jù)準(zhǔn)確性評估:方法分類及適用性分析[J].統(tǒng)計研究,2009(1)
[2]許滌龍,葉少波統(tǒng)計數(shù)據(jù)質(zhì)量評估方法研究述評[J].統(tǒng)計與信息論壇,2011(7)
[3]程開明,莊燕杰大數(shù)據(jù)背景下的統(tǒng)計[J].統(tǒng)計研究,2014(11)
[4]崔路云基于大數(shù)據(jù)時代背景對統(tǒng)計學(xué)教育的幾點(diǎn)思考[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2013.
[5]劉春燕論大數(shù)據(jù)時代的統(tǒng)計制度與方法改革[J].蕪湖職業(yè)技術(shù)學(xué)院學(xué)報,2013(11)
[6]鄧麗華淺析統(tǒng)計數(shù)據(jù)質(zhì)量評估方法[J].中國市場,2013(10)
[7]于云飛我國統(tǒng)計數(shù)據(jù)質(zhì)量問題研究[J].中國市場,2012(10)