潘厲
摘要:“本文是浙江調(diào)查總隊(duì)聯(lián)合課題《大數(shù)據(jù)時(shí)代政府統(tǒng)計(jì)體制改革研究》”階段性成果。闡述了大數(shù)據(jù)的相關(guān)概念、原則,特別是大數(shù)據(jù)對(duì)政府統(tǒng)計(jì)發(fā)展帶來(lái)的機(jī)遇和挑戰(zhàn)以及有關(guān)方面所做的理論探索和有益嘗試。通過(guò)綜述,深刻認(rèn)識(shí)和把握大數(shù)據(jù)時(shí)代這一發(fā)展契機(jī)并提出政府統(tǒng)計(jì)改革路徑,為推進(jìn)統(tǒng)計(jì)大數(shù)據(jù)化的進(jìn)一步研究打下基礎(chǔ)
在當(dāng)前大數(shù)據(jù)背景下,數(shù)據(jù)已經(jīng)成為最重要的一種資源,成為各個(gè)社會(huì)主體乃至國(guó)家競(jìng)爭(zhēng)的前沿和創(chuàng)新的載體。根據(jù)“CNKI中國(guó)知網(wǎng)”,檢索途徑為“篇名”,來(lái)源類(lèi)別為“期刊”,檢索2008年以來(lái)(至2014年12月30日),檢索詞為“大數(shù)據(jù)”的文獻(xiàn)有4453篇。其中,來(lái)自核心期刊有892篇。另外,增加檢索詞為“政府統(tǒng)計(jì)”的文獻(xiàn)分別有23篇。本文重點(diǎn)對(duì)近5年來(lái)大數(shù)據(jù)背景下我國(guó)政府統(tǒng)計(jì)調(diào)查體系改革的代表性研究成果進(jìn)行綜述,并進(jìn)行簡(jiǎn)要評(píng)述,從中得出有價(jià)值的結(jié)論,以推動(dòng)政府統(tǒng)計(jì)制度改革的進(jìn)一步深化。
一、大數(shù)據(jù)時(shí)代政府統(tǒng)計(jì)面臨的挑戰(zhàn)
(一)、大數(shù)據(jù)核心特征的挑戰(zhàn)
當(dāng)前,對(duì)大數(shù)據(jù)的表述雖有不同,但一個(gè)普遍的觀(guān)點(diǎn)是,大數(shù)據(jù)與“海量數(shù)據(jù)”和“大規(guī)模數(shù)據(jù)”的概念一脈相承。如John Rauser提出“大數(shù)據(jù)指任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)”;Merv Adrian認(rèn)為大數(shù)據(jù)超出了常用硬件環(huán)境和軟件工具在可接受的時(shí)間內(nèi)為其用戶(hù)收集管理和處理數(shù)據(jù)的能力;Grobelink.M歸納出大數(shù)據(jù)的3V特征:多樣性(Variety) 、大量性(Volume)、高速性(Veloctity);Brian Hopkins在Grobelink.M的基礎(chǔ)上加上“易變性(Variability)”的特征,即4V特征;劉念真則認(rèn)為大數(shù)據(jù)除了3V特征外,還包括真實(shí)性(Veracity)和價(jià)值性(Value)在內(nèi)的5V 特征。姜澍在劉念真的5V特征上再增加了靈活性(Vender),將大數(shù)據(jù)特征拓展為“6V”。
大數(shù)據(jù)的這些新特征,使大數(shù)據(jù)區(qū)別于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,但大數(shù)據(jù)基于數(shù)據(jù)關(guān)系的內(nèi)在本質(zhì)卻又決定了其與統(tǒng)計(jì)學(xué)的內(nèi)在必然聯(lián)系,專(zhuān)家學(xué)者們普遍認(rèn)為政府統(tǒng)計(jì)的大數(shù)據(jù)化不可避免,但同時(shí)也面臨著不小的挑戰(zhàn)。一是大量。游士兵等認(rèn)為現(xiàn)行統(tǒng)計(jì)制度以“>30”為大樣本標(biāo)準(zhǔn),面對(duì)存在多源異構(gòu)、高噪聲等特征的大數(shù)據(jù)資源,不足以篩除干擾信息的影響,更新大樣本標(biāo)準(zhǔn)勢(shì)在必行。二是多樣。程開(kāi)明認(rèn)為傳統(tǒng)統(tǒng)計(jì)學(xué)依賴(lài)于結(jié)構(gòu)化數(shù)據(jù),難以處理文本、圖片、XML、HTML、各類(lèi)報(bào)表、圖像和音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。三是高速。大數(shù)據(jù)的增長(zhǎng)速度極快,尤其是電子商務(wù)實(shí)時(shí)交互數(shù)據(jù)、傳感器實(shí)時(shí)采集數(shù)據(jù)鋪天蓋地,大量的實(shí)時(shí)數(shù)據(jù)需要快速處理。傳統(tǒng)的統(tǒng)計(jì)調(diào)查是自上而下層層布置、自下而上逐級(jí)上報(bào),這種調(diào)查方式效率低時(shí)效差,難以適應(yīng)市場(chǎng)經(jīng)濟(jì)條件下快速多變的特點(diǎn)。四是價(jià)值。許筱靜指出:在大數(shù)據(jù)時(shí)代,需要政府統(tǒng)計(jì)部門(mén)刪除冗余數(shù)據(jù),篩選出對(duì)公眾有用的,具備相關(guān)性的數(shù)據(jù),以形成精準(zhǔn)的報(bào)告公諸于眾。
(二)、統(tǒng)計(jì)外部環(huán)境改變的挑戰(zhàn)
隨著信息技術(shù)的快速發(fā)展,特別是新興商業(yè)模式的創(chuàng)新,大數(shù)據(jù)的商業(yè)化應(yīng)用不斷擴(kuò)展,不但電信、金融等傳統(tǒng)行業(yè)進(jìn)入“數(shù)據(jù)就是業(yè)務(wù)本身”的發(fā)展階段,而且國(guó)內(nèi)不少商務(wù)企業(yè)已經(jīng)在開(kāi)發(fā)、挖掘和利用這些數(shù)據(jù)資源,為用戶(hù)提供信息咨詢(xún)服務(wù),例如,2011年沃爾瑪以3億美元高價(jià)收購(gòu)了一家專(zhuān)長(zhǎng)分類(lèi)社群網(wǎng)站Kosmix。Kosmix不僅能收集、分析網(wǎng)絡(luò)上的大數(shù)據(jù)給企業(yè),還能將這些資訊個(gè)人化,提供采購(gòu)建議給終端消費(fèi)者。而另一方面,近年來(lái)統(tǒng)計(jì)數(shù)據(jù)真實(shí)性和代表性頻頻受到社會(huì)公眾的質(zhì)疑。例如,有國(guó)際組織質(zhì)疑我國(guó)2009年首季GDP增速與電力需求不吻合,網(wǎng)友熱議CPI、房?jī)r(jià)、工資增速與公眾感受背離,地方GDP加和總量增速遠(yuǎn)超國(guó)家數(shù)……隨著物聯(lián)網(wǎng)等網(wǎng)絡(luò)經(jīng)濟(jì)的發(fā)展,使得工業(yè)生產(chǎn)、 運(yùn)輸物流、 最終消費(fèi)、 服務(wù)等各種交易生成直接可用的數(shù)據(jù)。例如外貿(mào)景氣指數(shù)、上證深證指數(shù)、期貨指數(shù)、1號(hào)店指數(shù)等數(shù)據(jù),在相當(dāng)程度上不必再經(jīng)過(guò)統(tǒng)計(jì)機(jī)構(gòu)專(zhuān)門(mén)采集處理,就已能夠滿(mǎn)足宏觀(guān)分析、行業(yè)研究、微觀(guān)決策的需要,相比之下政府統(tǒng)計(jì)的權(quán)威性受到了巨大沖擊。
二、大數(shù)據(jù)時(shí)代的政府統(tǒng)計(jì)改革的理論探索
(一)、統(tǒng)計(jì)思維變革
米子川認(rèn)為大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)首先要適應(yīng)三個(gè)重大的思維轉(zhuǎn)變,分析抽樣數(shù)據(jù)向分析對(duì)象總體轉(zhuǎn)變,追求精確數(shù)據(jù)向接受紛繁數(shù)據(jù)轉(zhuǎn)變,探求事物因果聯(lián)系向關(guān)注事物相關(guān)關(guān)系轉(zhuǎn)變。彭小年基于多年的基層統(tǒng)計(jì)實(shí)踐,提出“管理- 采集”型的統(tǒng)計(jì)管理理念,強(qiáng)化整合共享意識(shí),改變統(tǒng)計(jì)機(jī)構(gòu)過(guò)去“單打獨(dú)斗”的封閉性思維。
(二)、統(tǒng)計(jì)業(yè)務(wù)流程再造
許小樂(lè)嘗試改良傳統(tǒng)統(tǒng)計(jì)業(yè)務(wù)流程,提出制度設(shè)計(jì)多樣化、數(shù)據(jù)采集職能化、統(tǒng)計(jì)分析專(zhuān)業(yè)化、統(tǒng)計(jì)發(fā)布透明化,推行“聯(lián)網(wǎng)直報(bào)”等四大工程,對(duì)接工商、質(zhì)檢等部門(mén)的行政記錄以及企業(yè)數(shù)據(jù)跟蹤體系,實(shí)現(xiàn)統(tǒng)計(jì)業(yè)務(wù)數(shù)據(jù)化,以適應(yīng)數(shù)據(jù)時(shí)代要求。胡雪梅選取 Hedonic法對(duì)CPI指數(shù)數(shù)據(jù)質(zhì)量變化偏差進(jìn)行調(diào)整,提出運(yùn)用掃描數(shù)據(jù)進(jìn)行 Hedonic 質(zhì)量調(diào)整的途徑。朱建平等認(rèn)為大數(shù)據(jù)具有流動(dòng)性,會(huì)隨著時(shí)間的日積月累而不斷“壯大”,為了更全面、深入地了解研究對(duì)象,往往需要對(duì)數(shù)據(jù)進(jìn)行整合。曾鴻等認(rèn)為在大數(shù)據(jù)時(shí)代,需要將各種多媒體數(shù)據(jù)降維后利用上下文關(guān)聯(lián)進(jìn)行語(yǔ)義分析,從大量動(dòng)態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導(dǎo)出可理解的內(nèi)容。楊少浪以GDP核算方法改革為例,通過(guò)圖形、圖像、地圖、動(dòng)畫(huà)等更為生動(dòng)易懂的方式來(lái)展現(xiàn)數(shù)據(jù)的大小,詮釋數(shù)據(jù)之間的關(guān)系和發(fā)展趨勢(shì),為人們提供易于理解、便于使用的結(jié)果。
(三)、統(tǒng)計(jì)信息化建設(shè)
專(zhuān)家學(xué)者對(duì)統(tǒng)計(jì)信息化建設(shè)的研究主要集中三大領(lǐng)域:數(shù)據(jù)采集技術(shù)創(chuàng)新,統(tǒng)計(jì)云計(jì)算和應(yīng)用,數(shù)據(jù)挖掘算法。一是數(shù)據(jù)采集技術(shù)創(chuàng)新方面:劉震東強(qiáng)調(diào)對(duì)感知式統(tǒng)計(jì)工具的研發(fā),通過(guò)制造多功能多用途的帶有統(tǒng)計(jì)處理采集功能的傳感器,并將之廣泛地布置于社會(huì)的各個(gè)角落,社會(huì)進(jìn)行統(tǒng)計(jì)監(jiān)測(cè),如視頻監(jiān)測(cè)、視覺(jué)識(shí)別、無(wú)人機(jī)、移動(dòng)統(tǒng)計(jì)數(shù)據(jù)采集遙感車(chē)等。二是統(tǒng)計(jì)云計(jì)算和應(yīng)用方面:潘蕾提出了統(tǒng)計(jì)工作中應(yīng)用云技術(shù)的核心思想,即采用虛擬化的技術(shù)實(shí)現(xiàn)服務(wù)器整合,在滿(mǎn)足現(xiàn)有應(yīng)用橫向擴(kuò)展的同時(shí),依托核心業(yè)務(wù)系統(tǒng),打造適應(yīng)未來(lái)信息化發(fā)展的“統(tǒng)計(jì)云”。辛金國(guó)等構(gòu)建了基于云計(jì)算的網(wǎng)絡(luò)直報(bào)系統(tǒng)模型,將整個(gè)系統(tǒng)分為數(shù)據(jù)分割、并行查詢(xún)、數(shù)據(jù)建模、前臺(tái)展現(xiàn)四大功能模塊。三是數(shù)據(jù)挖掘算法方面:劉玲認(rèn)為數(shù)據(jù)挖掘不但可以處理統(tǒng)計(jì)學(xué)中主要研究的結(jié)構(gòu)型數(shù)據(jù),還可以處理文本型、聲音型、圖像型,從根本上緩解大數(shù)據(jù)“大量性”、“多樣化”、“低價(jià)值密度”等特征帶來(lái)的數(shù)據(jù)處理壓力。
三、大數(shù)據(jù)時(shí)代的政府統(tǒng)計(jì)改革的有益實(shí)踐
(一)、國(guó)家層面:主動(dòng)擁抱“大數(shù)據(jù)時(shí)代”
2006年,國(guó)家 863 計(jì)劃“國(guó)家統(tǒng)計(jì)遙感業(yè)務(wù)系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用”面向政府統(tǒng)計(jì)在農(nóng)業(yè)、人口、經(jīng)濟(jì)、投資等業(yè)務(wù)的重大需求,開(kāi)展了基于以“遙感”為代表的空間信息技術(shù)在統(tǒng)計(jì)中應(yīng)用的關(guān)鍵技術(shù)研究。2010年,全國(guó)統(tǒng)計(jì)工作會(huì)議上,國(guó)家統(tǒng)計(jì)局提出了四大工程建設(shè)目標(biāo)。即建設(shè)一個(gè)真實(shí)完整、及時(shí)更新的統(tǒng)一的單位名錄庫(kù),建立統(tǒng)一規(guī)范、方便企業(yè)填報(bào)的企業(yè)統(tǒng)計(jì)報(bào)表制度,建設(shè)功能完善、統(tǒng)一兼容的統(tǒng)一數(shù)據(jù)采集處理軟件系統(tǒng),建立統(tǒng)一高效的統(tǒng)計(jì)聯(lián)網(wǎng)直報(bào)系統(tǒng)。2011年,國(guó)家統(tǒng)計(jì)局在部分地區(qū)試點(diǎn)智能手機(jī)中預(yù)裝CPI數(shù)據(jù)采集系統(tǒng),實(shí)現(xiàn)了CPI數(shù)據(jù)現(xiàn)場(chǎng)錄入、審核以及上報(bào),推動(dòng)統(tǒng)計(jì)大數(shù)據(jù)化再上新臺(tái)階。2012年,在舉行的全國(guó)統(tǒng)計(jì)工作會(huì)議上,國(guó)家統(tǒng)計(jì)局局長(zhǎng)馬建堂首次對(duì)“大數(shù)據(jù)時(shí)代”進(jìn)行解讀,并就政府統(tǒng)計(jì)部門(mén)如何應(yīng)對(duì)“大數(shù)據(jù)時(shí)代”的機(jī)遇和挑戰(zhàn)提出明確的要求。2013年,國(guó)家統(tǒng)計(jì)局針對(duì)大數(shù)據(jù)的探索與應(yīng)用,又邁出了里程碑式的堅(jiān)實(shí)一步。與阿里、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議,共同在分享、開(kāi)發(fā)、利用大數(shù)據(jù)方面進(jìn)行合作。2014年,“三經(jīng)普”首次全面推廣PDA采集數(shù)據(jù),采用手持電子終端設(shè)備和電子地圖,實(shí)現(xiàn)普查數(shù)據(jù)的采集、報(bào)送、處理等手段的自動(dòng)化、電子化。
(二)、地方層面:因地制宜開(kāi)展嘗試性實(shí)踐
劉震東在研究總結(jié)先行地區(qū)實(shí)踐經(jīng)驗(yàn)的基礎(chǔ)上,提出地方統(tǒng)計(jì)大數(shù)據(jù)化的三個(gè)典型特點(diǎn):適應(yīng)性服務(wù)、小平臺(tái)戰(zhàn)略和自由組合。
南通市統(tǒng)計(jì)局于2012年就以全市綜合數(shù)據(jù)管理平臺(tái)建設(shè)為突破口,依托政府的強(qiáng)力支持,集中財(cái)政、國(guó)稅、地稅等部門(mén)的業(yè)務(wù)優(yōu)勢(shì),協(xié)調(diào)了48家成員單位規(guī)范項(xiàng)目操作,嚴(yán)格項(xiàng)目管理,探索出“以數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ),以信息共享為目標(biāo),以挖掘應(yīng)用為導(dǎo)向”的部門(mén)信息歸集運(yùn)用新模式。廈門(mén)市統(tǒng)計(jì)局于2013年為解決目前“企業(yè)一套表”制度配套系統(tǒng)存在的復(fù)用程度不高、共享難度較大等問(wèn)題,結(jié)合多維數(shù)據(jù)庫(kù)的設(shè)計(jì)理念,提出元數(shù)據(jù)驅(qū)動(dòng)的面向服務(wù)架構(gòu)(SOA)“企業(yè)一套表”。溫州市統(tǒng)計(jì)局于2013年建立了GDP聯(lián)席會(huì)議制度,運(yùn)用“大數(shù)據(jù)”檢驗(yàn)地方政府統(tǒng)計(jì)數(shù)據(jù)及統(tǒng)計(jì)對(duì)象的源頭數(shù)據(jù),按季度召集30多個(gè)部門(mén)進(jìn)行分析論證部門(mén)數(shù)據(jù)與GDP數(shù)據(jù)之間的關(guān)系。上海市統(tǒng)計(jì)局于2014年依托本地大數(shù)據(jù)資源,積極對(duì)接1號(hào)店、上海鋼聯(lián)等企業(yè),正式對(duì)社會(huì)發(fā)布“1號(hào)店快速消費(fèi)品價(jià)格指數(shù)”(簡(jiǎn)稱(chēng)“1號(hào)店指數(shù)”)。
四、總結(jié)與思考:探索大數(shù)據(jù)背景下政府統(tǒng)計(jì)改革路徑
本文從大數(shù)據(jù)背景下政府統(tǒng)計(jì)面臨的挑戰(zhàn)、理論探索和現(xiàn)實(shí)實(shí)踐三個(gè)方面回顧了近六年來(lái)我國(guó)政府統(tǒng)計(jì)大數(shù)據(jù)化改革研究的代表性文獻(xiàn),梳理出一個(gè)基本清晰的脈絡(luò):“大數(shù)據(jù)”是一把“雙刃劍”,盡管對(duì)傳統(tǒng)政府統(tǒng)計(jì)沖擊巨大,但對(duì)于統(tǒng)計(jì)業(yè)務(wù)的再造、信息化建設(shè)的推進(jìn)以及統(tǒng)計(jì)權(quán)威性的提高都有幫助。但是,對(duì)于大數(shù)據(jù)的開(kāi)發(fā)運(yùn)用絕非易事,開(kāi)發(fā)大數(shù)據(jù)不只是政府統(tǒng)計(jì)部門(mén)的事情,需要國(guó)家把大數(shù)據(jù)開(kāi)發(fā)挖掘問(wèn)題上升為國(guó)家戰(zhàn)略的層面,進(jìn)行統(tǒng)一規(guī)劃、制定統(tǒng)一標(biāo)準(zhǔn)、協(xié)調(diào)有關(guān)企業(yè)和部門(mén)通力合作、創(chuàng)造適宜的氛圍,才能有條不紊地深入推進(jìn)。
參考文獻(xiàn):
[1].Mckinsey Global Institute.Big Data:The next frontier for innovation,Competition and productivity. .2011
[2]Grobelink M.Big-data computing:Creating revolutionary breakthroughs in commerce,science and society[N/OL]. . 2012
[3]Agrawal D,Bernstein P,Bertino E,et al.Challenges and Opportunities with Big Data-A community white paper developed by leading researchers across the United States[R/OL]. . 2012
[4] Hopkins Brian,Evelson Boris.Expand Your Digital Horizon With Big Data. . 2011
[5]韋博成. 漫談統(tǒng)計(jì)學(xué)的應(yīng)用與發(fā)展(1)[J]. 數(shù)理統(tǒng)計(jì)與管理. 2011(01)
[6]姜澍. 大數(shù)據(jù)時(shí)代下的政府統(tǒng)計(jì)[J]. 調(diào)研世界,2014,04:62-64.
[7]游士兵,張佩,姚雪梅. 大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇[J]. 珞珈管理評(píng)論,2013,02:165-171.
[8]程開(kāi)明,莊燕杰. 大數(shù)據(jù)背景下的統(tǒng)計(jì)——第十七次全國(guó)統(tǒng)計(jì)科學(xué)討論會(huì)綜述[J]. 統(tǒng)計(jì)研究,2014,01:106-112.
[9]許筱靜. “大數(shù)據(jù)”現(xiàn)象對(duì)政府統(tǒng)計(jì)工作影響分析[J]. 統(tǒng)計(jì)科學(xué)與實(shí)踐,2013,12:54-55.
[10]米子川,趙麗琴. 函數(shù)型數(shù)據(jù)分析的研究進(jìn)展和技術(shù)框架[J]. 統(tǒng)計(jì)與信息論壇,2012,06:13-20.
[11]彭小年,倪進(jìn). “大數(shù)據(jù)和政府統(tǒng)計(jì)”研討會(huì)論文觀(guān)點(diǎn)綜述[J]. 統(tǒng)計(jì)科學(xué)與實(shí)踐,2014,02:4-6.
[12]許小樂(lè). “大數(shù)據(jù)”與政府統(tǒng)計(jì)改革[J]. 調(diào)研世界,2013,05:42-45.
[13]胡雪梅. 掃描數(shù)據(jù)在CPI編制中的應(yīng)用研究[D].東北財(cái)經(jīng)大學(xué),2012.
[14]楊少浪. “大數(shù)據(jù)”背景下的GDP[J]. 中國(guó)統(tǒng)計(jì),2013,10:27-28.
[15]朱建平,章貴軍,劉曉葳. 大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J]. 統(tǒng)計(jì)研究,2014,02:10-19.
[16]曾鴻,豐敏軒. 大數(shù)據(jù)與統(tǒng)計(jì)變革[J]. 中國(guó)統(tǒng)計(jì),2013,09:49-50.
[17]潘蕾,徐汀榮. 基于Web服務(wù)的SQL數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)中間件的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)與現(xiàn)代化,2006,03:67-69.
[18]辛金國(guó),龔愷. 基于云計(jì)算技術(shù)的政府統(tǒng)計(jì)平臺(tái)設(shè)計(jì)的研究[J]. 統(tǒng)計(jì)科學(xué)與實(shí)踐,2014,01:23-25.
[19]劉玲,肖嶸. 連續(xù)屬性離散化算法SHD及其改進(jìn)[J]. 計(jì)算機(jī)工程與應(yīng)用,2001,09:97-99+116.