張明康、張超
(無錫市統(tǒng)計局,江蘇 無錫 214131)
大數(shù)據(jù)時代來臨對政府統(tǒng)計影響探析
張明康、張超
(無錫市統(tǒng)計局,江蘇 無錫 214131)
隨著信息技術(shù)的發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)不僅僅表示海量的數(shù)據(jù),也涵蓋了海量數(shù)據(jù)處理技術(shù)。大數(shù)據(jù)之于政府統(tǒng)計不僅是一項嚴(yán)峻的挑戰(zhàn),也是政府部門進一步改革發(fā)展的良機。怎樣應(yīng)對大數(shù)據(jù)、運用大數(shù)據(jù),是值得政府統(tǒng)計部門仔細(xì)考慮的一個問題。
大數(shù)據(jù);機遇;挑戰(zhàn);改革
國家統(tǒng)計局局長馬建堂在會見阿根廷統(tǒng)計與普查局局長時指出,大數(shù)據(jù)是統(tǒng)計系統(tǒng)以外以電子形態(tài)存在的海量數(shù)據(jù),大數(shù)據(jù)對于統(tǒng)計工作既是挑戰(zhàn)也是機遇,并表示國家統(tǒng)計局正組織力量研究如何在統(tǒng)計工作中利用大數(shù)據(jù)。作為專業(yè)從事數(shù)據(jù)統(tǒng)計工作的政府統(tǒng)計部門,在大數(shù)據(jù)時代來臨時,應(yīng)該如何應(yīng)對,是所有統(tǒng)計系統(tǒng)人員都應(yīng)該認(rèn)真考慮的問題。
維基百科對大數(shù)據(jù)的定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)具有4V特征:Volume、Velocity、Variety、Veracity,即體量大、多樣性、價值密度低、速度快。
大數(shù)據(jù)是一個體積特別大,數(shù)據(jù)類別特別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理;大數(shù)據(jù)中數(shù)據(jù)的種類和格式?jīng)_破了以往所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),包括文字、圖片、視頻和二維碼等;大數(shù)據(jù)的真實性也非常高,因為這些數(shù)據(jù)來自于真實的社交、商業(yè)交易與設(shè)備應(yīng)用等新數(shù)據(jù)源;正由于大數(shù)據(jù)數(shù)量巨大,有價值數(shù)據(jù)的密度就會顯得較低,最常用的例子就是監(jiān)控視頻,長串視頻信息中有價值數(shù)據(jù)占比很小。
目前大數(shù)據(jù)主要是由三項技術(shù)匯聚組成:一是海量數(shù)據(jù)收集技術(shù),主要負(fù)責(zé)收集產(chǎn)生于個人網(wǎng)頁、購物網(wǎng)站和各種設(shè)備傳感器上的信息數(shù)據(jù);二是海量數(shù)據(jù)存儲技術(shù),主要負(fù)責(zé)存儲收集來的結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù);三是海量數(shù)據(jù)處理技術(shù),這是大數(shù)據(jù)技術(shù)中最關(guān)鍵的一環(huán),主要利用一些計算模型,從海量數(shù)據(jù)中挖掘出具有價值的信息。
相對應(yīng)的,大數(shù)據(jù)處理的整個流程可以概括為三步,分別是數(shù)據(jù)采集、數(shù)據(jù)分析和數(shù)據(jù)挖掘。先是利用大型存儲平臺收集數(shù)據(jù),并進行粗加工;再利用分布式數(shù)據(jù)庫對平臺上的數(shù)據(jù)進行簡單分析和分類匯總;最后對數(shù)據(jù)進行高級別的挖掘分析,得出有價值的趨勢信息或個體偏好,滿足不同數(shù)據(jù)分析的需求。
數(shù)據(jù)資源已成為國家競爭的前沿,是企業(yè)創(chuàng)新的來源。作為一直以來站在數(shù)據(jù)收集與統(tǒng)計分析第一線的統(tǒng)計系統(tǒng),更應(yīng)該第一時間擁抱大數(shù)據(jù)時代的到來。大數(shù)據(jù)對于統(tǒng)計系統(tǒng)來講,可以說是如虎添翼,再加上現(xiàn)在正快速發(fā)展的物聯(lián)網(wǎng)和云計算技術(shù)平臺,統(tǒng)計系統(tǒng)將會迎來一個無比燦爛的明天。
開展一項統(tǒng)計調(diào)查,從方案制定到方案實施,每一個環(huán)節(jié)都需要投入大量的人力物力,不僅耗時耗力,最后獲取的數(shù)據(jù)還可能存在一定的偏差。但是在大數(shù)據(jù)時代下,政府統(tǒng)計可以直接獲取企業(yè)的行政記錄和商業(yè)交易信息,并把這些數(shù)據(jù)作為統(tǒng)計調(diào)查的對象,不但能夠減少人力物力的投入,還能保證獲取數(shù)據(jù)的準(zhǔn)確性。比如統(tǒng)計系統(tǒng)現(xiàn)在進行消費品價格調(diào)查時,是讓采價員手持PDA終端到商場實地調(diào)查,這種調(diào)查方式不僅需要大量的采價員人力投入,還需要花費大量的時間。但如果能在商場的收銀終端處安裝采價裝置,商場直接向統(tǒng)計部門共享價格信息,那么統(tǒng)計部門就可以直接獲取市場全面的消費價格情況,而不需派駐大量采價員,節(jié)省了統(tǒng)計開支,降低了數(shù)據(jù)獲取成本。
隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的發(fā)展,人們獲取信息的便捷度越來越高,同時獲取信息的種類也更加多元。在互聯(lián)網(wǎng)和各種各樣的傳感器覆蓋的信息化時代,高達ZB級別的數(shù)據(jù),基本上涵蓋了社會生產(chǎn)生活的各個方面。作為收集整理社會宏觀經(jīng)濟信息以供政府管理部門進行政策制定的統(tǒng)計部門,利用大數(shù)據(jù)不僅能獲取簡單的社會生產(chǎn)生活宏觀信息,也能獲取微觀個體的動態(tài)情況,克服了傳統(tǒng)統(tǒng)計抽樣調(diào)查的以偏概全弊端,以全部數(shù)據(jù)為總樣本的模式進行統(tǒng)計調(diào)查,進而得出最準(zhǔn)確的結(jié)論,更好的為決策者服務(wù)。
目前統(tǒng)計系統(tǒng)進行統(tǒng)計調(diào)查的方法是抽樣調(diào)查、重點調(diào)查、典型調(diào)查和普查的方式,在定期內(nèi)進行統(tǒng)計,進而獲得反映整個社會經(jīng)濟運行狀況的基本數(shù)據(jù),包括GDP、人口、財政、金融、貿(mào)易和工業(yè)等數(shù)據(jù)。由于經(jīng)費與人員投入限制,傳統(tǒng)統(tǒng)計方法收集到的數(shù)據(jù)精確度和覆蓋范圍有限,不一定能真實反映實際情況。而大數(shù)據(jù)時代獲取信息的自動化進程大大降低了數(shù)據(jù)出錯的概率,保證了數(shù)據(jù)的真實性和準(zhǔn)確性。大數(shù)據(jù)還將打破政府、企業(yè)與民眾之間的信息孤島狀況,能夠?qū)崿F(xiàn)跨系統(tǒng)、跨部門的數(shù)據(jù)共享,使得社會各部門之間數(shù)據(jù)流能順暢協(xié)同,數(shù)據(jù)獲取、處理和分析的時間大幅降低,提高了工作效率。再者大數(shù)據(jù)統(tǒng)計利用全體數(shù)據(jù)作為統(tǒng)計樣本進行分析,超越了傳統(tǒng)的數(shù)據(jù)分析方法,這樣極大的提高了政府統(tǒng)計產(chǎn)品的質(zhì)量,增強了統(tǒng)計產(chǎn)品的科學(xué)性、精準(zhǔn)性和預(yù)測性,對政府管理者進行決策能有更好的幫助作用。
目前統(tǒng)計的宏觀數(shù)據(jù)仍是以歷史數(shù)據(jù)為主,比如說GDP反映的是過去一段時間的生產(chǎn)總值,CPI反映的是過去一段時間的物價變動情況。這些指標(biāo)和數(shù)據(jù)主要反映了社會經(jīng)濟運行狀況的歷史信息,無法描繪社會生產(chǎn)當(dāng)前正在進行的變化情況。這是因為傳統(tǒng)政府統(tǒng)計的數(shù)據(jù)來自于基層的層層上報,具有數(shù)據(jù)上報不及時、中間流程多和數(shù)據(jù)效用低的弊端。利用大數(shù)據(jù)能很好的改變這一現(xiàn)狀,物聯(lián)網(wǎng)技術(shù)實時記錄和傳遞信息,通過存儲云端的快速計算,使得數(shù)據(jù)實時產(chǎn)生、實時分析、實時發(fā)布,大大提高了數(shù)據(jù)信息的實時性。例如,百度搜索引擎可以自動記錄并分析用戶鍵入的搜索內(nèi)容,經(jīng)過處理分析得出每天的搜索關(guān)注指數(shù),并且能根據(jù)每個用戶的瀏覽習(xí)慣進行精準(zhǔn)的廣告內(nèi)容推送。這種實時收集數(shù)據(jù)、實時分析并實時推送廣告的模式是傳統(tǒng)統(tǒng)計分析方法所無法比擬的。
在云計算和物聯(lián)網(wǎng)技術(shù)越來越成熟的情況下,越來越多的數(shù)據(jù)已經(jīng)可以掌握和分析,這對擁有大量數(shù)據(jù)的政府統(tǒng)計來講不僅是好的發(fā)展良機,也是一項嚴(yán)峻的考驗。
在大數(shù)據(jù)時代,各種傳感器和網(wǎng)絡(luò)設(shè)施遍布社會的各個角落,人們獲取信息極其便捷,不管是社會宏觀數(shù)據(jù)還是個體的微觀數(shù)據(jù),已經(jīng)不需要投入大量的人力物力進行收集,數(shù)據(jù)獲取變得非常容易,那么人們就會去追求更具有價值的數(shù)據(jù)信息分析,進而從數(shù)據(jù)中挖掘個體的偏好性情況,挖掘社會生產(chǎn)生活個體的實時動態(tài)信息。因此,大數(shù)據(jù)與傳統(tǒng)統(tǒng)計在理念上具有一定的差異,電子科技大學(xué)教授周濤就指出大數(shù)據(jù)對于傳統(tǒng)統(tǒng)計理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。傳統(tǒng)統(tǒng)計要宏觀、重統(tǒng)計,大數(shù)據(jù)要微觀、重分析;傳統(tǒng)統(tǒng)計是帶著目的去抽樣調(diào)查數(shù)據(jù),大數(shù)據(jù)是從全體數(shù)據(jù)中挖掘有價值信息。這些理念的相悖,對統(tǒng)計系統(tǒng)的角色定位和功能轉(zhuǎn)型是個極大的挑戰(zhàn)。
政府統(tǒng)計的目的與一般企業(yè)統(tǒng)計和學(xué)術(shù)統(tǒng)計不同,政府統(tǒng)計主要是通過收集社會宏觀經(jīng)濟數(shù)據(jù),進行國民經(jīng)濟核算,以各種指標(biāo)來反映社會生產(chǎn)狀況,政府管理者則通過統(tǒng)計數(shù)據(jù)知道社會的總產(chǎn)出和總需求,進而制定指導(dǎo)經(jīng)濟發(fā)展的政策。但是隨著市場化的進一步深入,市場的自發(fā)調(diào)節(jié)越來越多的代替了政府政策的直接干預(yù),市場會通過價格的變化進行供求關(guān)系的調(diào)劑。在這種趨勢下,統(tǒng)計系統(tǒng)也將要做出相應(yīng)的變革,例如:隨著物聯(lián)網(wǎng)的快速推進,將來工業(yè)生產(chǎn)、社會消費、物流運輸這些都可以直接從物聯(lián)網(wǎng)中讀取出來,再通過云計算手段對所得數(shù)據(jù)進行分析挖掘,不僅可以得到宏觀經(jīng)濟情況,還可以得出微觀個體的偏好狀態(tài)。這將是對傳統(tǒng)政府統(tǒng)計的一個很大的革新,也是對政府統(tǒng)計職能設(shè)計的一大挑戰(zhàn)。
目前以電子商務(wù)、網(wǎng)絡(luò)社交、網(wǎng)絡(luò)游戲和在線搜索為主體的互聯(lián)網(wǎng)經(jīng)濟發(fā)展飛躍,政府統(tǒng)計部門已經(jīng)不再是海量數(shù)據(jù)的唯一擁有者,很多企業(yè)和部門都擁有大量的數(shù)據(jù),并且也在進行對數(shù)據(jù)的挖掘分析,甚至與政府統(tǒng)計的某些指標(biāo)相重合。例如淘寶網(wǎng)就推出了自己的物價指數(shù)“淘寶CPI”,它采用淘寶小類目商品的平均價格,以支付寶成交金額的比例為權(quán)重,旨在反映網(wǎng)絡(luò)購物市場整體狀況。很顯然,淘寶CPI與政府統(tǒng)計系統(tǒng)發(fā)布的“居民消費價格指數(shù)”指標(biāo)相類似,雖然標(biāo)的不盡相同,但功能卻在一定程度上有所重合。以后在大數(shù)據(jù)時代,這種情況將會越來越多,也會有更多的數(shù)據(jù)擁有者依據(jù)自己的算法和分析發(fā)布指標(biāo),由于信息采集渠道來源不一致,公布的數(shù)據(jù)也有差別,將使得數(shù)據(jù)公信力降低,實用性變差。面對這種情況,怎樣維護政府統(tǒng)計的權(quán)威性,是政府統(tǒng)計部門不得不考慮的一個問題。
大數(shù)據(jù)時代通過物聯(lián)網(wǎng)采集到的海量數(shù)據(jù),對統(tǒng)計部門的數(shù)據(jù)分析能力也是一個很大的挑戰(zhàn)。目前的統(tǒng)計分析主要是統(tǒng)計部門根據(jù)統(tǒng)計指標(biāo)需要針對性的去收集信息,然后對數(shù)據(jù)進行簡單的匯總分析,難度和門檻相對來說不是很高。但是在大數(shù)據(jù)時代,面對海量數(shù)據(jù),統(tǒng)計系統(tǒng)除需要從海量數(shù)據(jù)中得出常規(guī)信息外,還需要從中進行深度挖掘以期得到更有價值的數(shù)據(jù)和指標(biāo),進而更好的為領(lǐng)導(dǎo)決策服務(wù),為社會生產(chǎn)服務(wù),但目前的數(shù)據(jù)分析技術(shù)和分析能力,恐怕無法滿足數(shù)據(jù)分析的需要。這需要更加專業(yè)化、細(xì)分化和精確化的數(shù)據(jù)分析技能,需要有更高能力、更高知識素養(yǎng)的專業(yè)統(tǒng)計分析人員來進行數(shù)據(jù)分析挖掘工作。
目前政府統(tǒng)計的產(chǎn)品相對來說較少,主要包括社會生產(chǎn)總值,工業(yè)生產(chǎn)、旅游、商貿(mào)、人口、物價和土地等宏觀數(shù)據(jù),對微觀數(shù)據(jù)統(tǒng)計較少。政府統(tǒng)計的偏重性在于宏觀數(shù)據(jù)的把握,只要收集整個社會整體運行的宏觀數(shù)量,不需要每個個體的運行狀態(tài),更不會注重微觀個體的偏向性。因此其統(tǒng)計的流程就是基層上報、然后統(tǒng)計部門匯總數(shù)據(jù),最后統(tǒng)計部門把匯總的數(shù)據(jù)作為整個社會的運行狀況進行分析,以供領(lǐng)導(dǎo)決策參考。這種流程產(chǎn)生的統(tǒng)計產(chǎn)品具有較強的滯后性和低頻性,利用這些數(shù)據(jù)進行宏觀經(jīng)濟預(yù)測,有時候可能會存在較大的誤差。而大數(shù)據(jù)時代,利用發(fā)達的信息技術(shù),數(shù)據(jù)能夠?qū)崟r獲取,實時分析,產(chǎn)品也能實時發(fā)布,使得數(shù)據(jù)使用者能實時了解社會生產(chǎn)生活動態(tài),這種快捷性、針對性的優(yōu)勢,是目前傳統(tǒng)統(tǒng)計所無法達到的。
大數(shù)據(jù)既是挑戰(zhàn),也是機遇,在信息化進程日益加快的情況下,政府統(tǒng)計系統(tǒng)能否在這次信息時代的變革中繼續(xù)占據(jù)優(yōu)勢地位,很大程度上取決于統(tǒng)計系統(tǒng)自身改進的力度。
大數(shù)據(jù)對政府統(tǒng)計部門提出了更高的要求。統(tǒng)計部門要依照大數(shù)據(jù)的收集、分析和挖掘這幾個步驟,進行相應(yīng)的機構(gòu)設(shè)置,數(shù)據(jù)收集部門負(fù)責(zé)從物聯(lián)網(wǎng)或者其他數(shù)據(jù)庫中收集數(shù)據(jù)信息,并對數(shù)據(jù)進行初步清潔處理,確保數(shù)據(jù)真實有效。然后由專門的數(shù)據(jù)分析部門利用數(shù)據(jù)分析工具對數(shù)據(jù)進行挖掘,得出有價值的數(shù)據(jù)產(chǎn)品。最后再由數(shù)據(jù)發(fā)布部門向社會公眾發(fā)布數(shù)據(jù),供領(lǐng)導(dǎo)參考和社會機構(gòu)研究。除此之外,還要加大吸引人才的力度,引進一些具有數(shù)據(jù)分析高級技能的專業(yè)人才加入統(tǒng)計系統(tǒng)中來,充實統(tǒng)計隊伍,提高統(tǒng)計系統(tǒng)的專業(yè)能力水平。
雖然目前互聯(lián)網(wǎng)上已存有海量的數(shù)據(jù),但卻是隔離在不同的企業(yè)和部門當(dāng)中,相互之間完全隔閡,就連政府各部門之間,也遠(yuǎn)未實現(xiàn)全部行政信息的共享。大數(shù)據(jù)時代必須要打破數(shù)據(jù)孤島現(xiàn)象,政府應(yīng)該修建足夠大的數(shù)據(jù)存儲服務(wù)器以容納海量行政信息,并將歷史和現(xiàn)有的數(shù)據(jù)通過云計算技術(shù)的輔助整理歸類,并構(gòu)建出官方的數(shù)據(jù)統(tǒng)計平臺,不僅統(tǒng)計部門使用,其他諸如商務(wù)、財政、交通、甚至是某些企業(yè)都可以共同在此平臺上存儲、利用數(shù)據(jù)。美國的政府網(wǎng)站data.gov就是美國政府構(gòu)建的一個公開數(shù)據(jù)平臺,政府的各個部門都在這個數(shù)據(jù)平臺上上存儲更新信息,做到了信息的有效共享,增加了數(shù)據(jù)的效用性。
目前統(tǒng)計系統(tǒng)正在使用的行政記錄和商品交易信息,主要是結(jié)構(gòu)化的數(shù)據(jù),對這些數(shù)據(jù)的處理和挖掘已經(jīng)有了比較成熟的模型和算法。但產(chǎn)生于互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的海量數(shù)據(jù),不僅包涵了結(jié)構(gòu)化數(shù)據(jù),還包括了大量的圖片、視頻、二維碼等多種形式的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),對于這些數(shù)據(jù)的處理,就需要統(tǒng)計系統(tǒng)提高數(shù)據(jù)分析挖掘的能力,以從這些海量數(shù)據(jù)中提取隱含的關(guān)系、模式和趨勢等信息。統(tǒng)計系統(tǒng)應(yīng)該針對大數(shù)據(jù)的特點,加強對數(shù)據(jù)的預(yù)處理,提高數(shù)據(jù)處理的智能化程度,并通過實時分析、關(guān)聯(lián)分析和可視化分析,提高統(tǒng)計分析的時效性、趨勢性和直觀性,最終提升數(shù)據(jù)統(tǒng)計的分析水平和預(yù)警水平,進而為經(jīng)濟發(fā)展貢獻更多力量。
政府統(tǒng)計要在激烈的競爭中取得統(tǒng)計的優(yōu)勢地位,就必須要完善統(tǒng)計產(chǎn)品的發(fā)布模式。這可以從兩個方面著手:一是完善統(tǒng)計產(chǎn)品的種類,提高產(chǎn)品的針對性。大數(shù)據(jù)時代,統(tǒng)計部門就可以根據(jù)用戶的需要而進行針對性的數(shù)據(jù)統(tǒng)計,以滿足不同對象的統(tǒng)計產(chǎn)品需求。再一個就是豐富統(tǒng)計產(chǎn)品的發(fā)布形式。統(tǒng)計部門可以加強對數(shù)據(jù)的解讀分析,增加統(tǒng)計數(shù)據(jù)發(fā)布的內(nèi)容,豐富數(shù)據(jù)發(fā)布的形式,提高數(shù)據(jù)發(fā)布的頻率和時效性,以期更好地滿足社會各界對統(tǒng)計數(shù)據(jù)的多樣化需求。
在大數(shù)據(jù)時代,政府統(tǒng)計應(yīng)該重新對自己的工作職能進行新的定位,從被動的等待收集數(shù)據(jù)到主動的記錄數(shù)據(jù),再到實時的分析利用數(shù)據(jù)。不僅對各個部門的行政信息進行整合采集,還要由簡單的數(shù)據(jù)收集者轉(zhuǎn)變成專業(yè)的數(shù)據(jù)研究和發(fā)布機構(gòu)。政府統(tǒng)計作為政府權(quán)力和強制統(tǒng)計的代表,還要發(fā)揮統(tǒng)計管理職能,對數(shù)據(jù)源頭和民間統(tǒng)計加強管理,并制定相應(yīng)的行業(yè)標(biāo)準(zhǔn),以確保統(tǒng)計系統(tǒng)在大數(shù)據(jù)行業(yè)的主體地位。再者要廣開數(shù)據(jù)采集渠道,靈活運用各種數(shù)據(jù)分析工具,剝離單一從事數(shù)據(jù)統(tǒng)計收集的職能,轉(zhuǎn)向數(shù)據(jù)分析、挖掘,成為社會經(jīng)濟發(fā)展?fàn)顩r的全面數(shù)據(jù)提供者。統(tǒng)計系統(tǒng)要進一步利用及分析數(shù)據(jù),推出更多的數(shù)據(jù)產(chǎn)品,努力向馬建堂局長所提出的現(xiàn)代統(tǒng)計、服務(wù)統(tǒng)計轉(zhuǎn)變。
10.3969/j.issn.1674-8905.2014.03.018
高萍萍)