劉興遠
(江蘇省統(tǒng)計局,江蘇 南京 210013)
美國有諺云:除了上帝,任何人都必須用數(shù)據(jù)說話。對肩負著向社會發(fā)布和傳播數(shù)據(jù)使命的政府統(tǒng)計部門而言,數(shù)據(jù)就是重要資源和“說話”的資本。面對滾滾而來的大數(shù)據(jù)浪潮,正視大數(shù)據(jù)帶來的挑戰(zhàn)和沖擊,利用大數(shù)據(jù)所提供的全新理念和思考方式,挖掘價值堪比黃金、石油和貨幣的龐大數(shù)據(jù)資源,藉以改進和完善既有官方數(shù)據(jù)發(fā)布模式,對提升統(tǒng)計工作價值無疑具有重大意義。
隨著大數(shù)據(jù)時代的到來,無處不在的信息感知和采集終端為我們積累了海量數(shù)據(jù),一個更加開放、便捷的社會正在形成。在大數(shù)據(jù)改變人們生活和思維方式的同時,政府統(tǒng)計數(shù)據(jù)發(fā)布所處的環(huán)境也正悄然發(fā)生歷史性變化。
1.社會公眾獲取數(shù)據(jù)信息的來源呈現(xiàn)多樣化。大數(shù)據(jù)時代,互聯(lián)網文本和文件、搜索、移動電話、微博、微信和電商每天都產生海量的數(shù)據(jù)。美國互聯(lián)網數(shù)據(jù)中心指出,互聯(lián)網上的數(shù)據(jù)每年將增長50%,每兩年翻一番。IDC和EMC估計,到2020年的數(shù)字世界將擁有40ZB的容量,是全世界所有海灘全部沙粒數(shù)的57倍。有資料表明,1秒鐘內,互聯(lián)網產生的數(shù)據(jù)量比20年前整個互聯(lián)網儲存的數(shù)據(jù)還多;1分鐘內,微博、Twitter上新發(fā)布的數(shù)據(jù)量超過10萬,社交網站Facebook的瀏覽量超過600萬;1天內,百度要處理幾十PB數(shù)據(jù)??梢哉f,大數(shù)據(jù)的應用已經滲透到人們的日常生活和工作中。如阿里研究中心基于淘寶和天貓銷售平臺匯聚和即時產生的海量網絡零售價格信息,采用鏈式加權指數(shù)法計算的網絡零售價格指數(shù)(ISPI),2010年以來的數(shù)據(jù)走勢與官方CPI環(huán)比指數(shù)呈現(xiàn)出聯(lián)動關系。這表明,一方面在大數(shù)據(jù)時代政府統(tǒng)計部門不再是唯一的數(shù)據(jù)擁有者,也不是唯一的發(fā)布者和傳播者;另一方面,人們獲取公共信息的渠道可以并能夠越來越多樣化,不必再過分依賴政府部門發(fā)布的統(tǒng)計數(shù)據(jù)信息,從而對政府統(tǒng)計數(shù)據(jù)發(fā)布形成“擠出效應”。
2.人們的主觀感受與官方統(tǒng)計之間存在差異化。大數(shù)據(jù)時代,是一個人們在不知不覺間被數(shù)據(jù)裹挾和深陷其中的時代。每個人都是數(shù)據(jù)的創(chuàng)造者和傳播者,每個人也是數(shù)據(jù)的接收者和分享者。IDC指出,個人在日常生活中的“數(shù)字足跡”大大刺激了數(shù)字宇宙的快速增長。通過手機、電腦、數(shù)字電視、智能電視、傳感器、衛(wèi)星定位系統(tǒng)等終端設備,每個人的日常生活都在被數(shù)字化,海量數(shù)據(jù)由此源源不斷地產生。數(shù)據(jù)增長催生了新的數(shù)據(jù)處理技術和應用,繼而又產生了新數(shù)據(jù)的積累和存儲,如此周而復始迭代發(fā)展,形成了令人嘆為觀止的大數(shù)據(jù)浪潮。但正如《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格所說,大數(shù)據(jù)往往是凌亂和質量參差不齊的。數(shù)據(jù)價值密度的高低與數(shù)據(jù)總量的大小往往成反比。例如,一部數(shù)小時連續(xù)不間斷的視頻監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有數(shù)秒。而一般的數(shù)據(jù)使用者,不可能通過采用強大的機器算法來迅速地完成數(shù)據(jù)的價值“提純”,無法辨別出數(shù)據(jù)的“噪音”,同時自身也不斷制造著數(shù)據(jù)的碎片化、歧義化。近年來,社會上對官方數(shù)據(jù)的質疑,諸如收入“被增長”、CPI“被下降”等,主要就緣于老百姓的主觀感受與官方統(tǒng)計數(shù)據(jù)之間的差異,這一差異再在大數(shù)據(jù)環(huán)境下被不斷放大、拉伸,客觀上影響了政府統(tǒng)計數(shù)據(jù)發(fā)布的權威性。
3.民眾要求政府公開數(shù)據(jù)信息的訴求日趨復雜化。大數(shù)據(jù)時代,各類數(shù)據(jù)載體為公眾參與開辟了新路徑,民眾要求政府公開信息的訴求也愈發(fā)強烈,并且隨著利益主體多元化格局的形成,不同社會階層與利益群體對官方統(tǒng)計數(shù)據(jù)發(fā)布的形式、內容、數(shù)量等各有不同。這種新變化,要求政府部門必須打造大數(shù)據(jù)的公共平臺,掌握群眾心理、熟悉群眾語言,在采集分析數(shù)據(jù)后及時、有針對性的公開數(shù)據(jù),讓公民可以看到并共享,以保障公民行使自己的知情權、監(jiān)督權。2009年1月17日,新任美國總統(tǒng)奧巴馬主持內閣的宣誓儀式并發(fā)表講話:“為了引領一個開放政府的新時代,面對信息,政府機關的第一反應必須是公開。這意味著我們必須堅定地公開信息,而不是等待公眾查詢。所有的政府機關都應該利用最新的技術推進信息公開,這種公開,應該是及時的”。同一天,奧巴馬用標志性的左手姿勢伏案簽署了首份總統(tǒng)備忘案《透明和開放的政府》。120天后,一個數(shù)據(jù)開放的門戶網站Data.gov正式上線發(fā)布,旨在全面開放美國政府擁有的數(shù)據(jù)。歐盟和歐洲各國的立法也在向這個方向推進,如荷蘭,除了涉及國家安全和個人隱私的公共信息外,大部分信息都已經實現(xiàn)了公開?!按髷?shù)據(jù)”成為政府信息公開的動力源,也對官方數(shù)據(jù)發(fā)布構成現(xiàn)實挑戰(zhàn)。
大數(shù)據(jù)環(huán)境下,官方統(tǒng)計數(shù)據(jù)發(fā)布面臨著用戶的新需求劇增、現(xiàn)行統(tǒng)計發(fā)布體系不夠完善、統(tǒng)計數(shù)據(jù)發(fā)布的效用度有待提高等諸多挑戰(zhàn)。具體而言,“大數(shù)據(jù)”對官方統(tǒng)計數(shù)據(jù)發(fā)布方式、內容和頻率及時效都形成強力沖擊。
現(xiàn)行的官方統(tǒng)計數(shù)據(jù)發(fā)布形式主要有三種:一是對于能夠集中統(tǒng)一公布的統(tǒng)計數(shù)據(jù)一般通過新聞發(fā)布會在第一時間公布;二是對于未納入新聞發(fā)布會的進度統(tǒng)計數(shù)據(jù),按照統(tǒng)計數(shù)據(jù)發(fā)布日程表在官方網站上發(fā)布;三是相對全面和完整的統(tǒng)計數(shù)據(jù),一般通過統(tǒng)計公報、統(tǒng)計年鑒公布。發(fā)布手段主要借助文字和數(shù)據(jù)表格進行。這些相對固定的數(shù)據(jù)發(fā)布形式和手段既必要也有效,但放在大數(shù)據(jù)環(huán)境下觀察,這種發(fā)布方式和手段就顯得相對刻板單調,可讀性、可視性、交互性和生動性較差。大數(shù)據(jù)時代,人們制造、獲取和復制的所有1和0組成了數(shù)字世界,引致數(shù)字世界急劇膨脹。與此相適應,在揚棄傳統(tǒng)的發(fā)布方式基礎上,利用現(xiàn)代信息技術改進數(shù)據(jù)發(fā)布方式和手段,用更加自然、可變的方式發(fā)布信息,就顯得十分緊迫。荷蘭統(tǒng)計局利用Google Map、Google Earth等手段,以地圖的形式進行地理數(shù)據(jù)的網絡發(fā)布,可以直觀地看到荷蘭的地理情況。國家統(tǒng)計局充分意識到現(xiàn)代信息技術在數(shù)據(jù)發(fā)布中的重要性,近年來通過打造和擴展國家數(shù)據(jù)庫、開發(fā)數(shù)據(jù)查詢客戶端、建立統(tǒng)計官方微信平臺、創(chuàng)建網絡溝通交流平臺等舉措,正在更快捷、更方便地向用戶提供各類統(tǒng)計信息。
大數(shù)據(jù)環(huán)境下,人們會更加關注有獨特視角的官方數(shù)據(jù)新聞,以及對數(shù)據(jù)內容的全面精準的解讀。一是人們對微觀數(shù)據(jù)的關注度將高于宏觀數(shù)據(jù)。不斷產生的海量數(shù)據(jù)越來越影響企業(yè)生產、居民生活的各個方面,企業(yè)正確利用大數(shù)據(jù),洞察出大數(shù)據(jù)蘊藏的商業(yè)價值,能夠改善其業(yè)務計劃,更好地開發(fā)新產品、服務和業(yè)務模式;居民家庭正確利用大數(shù)據(jù),能夠更好地進行理性消費,改善其投資方向。因此,政府統(tǒng)計部門發(fā)布的GDP、規(guī)上工業(yè)增加值、投資、消費、CPI等宏觀上的數(shù)據(jù)就可能滿足不了公眾的需求,受眾的興趣度就可能會降低。二是人們對個性化數(shù)據(jù)的關注度將高于總體數(shù)據(jù)。大數(shù)據(jù)時代和以前工業(yè)革命不同的是,其特征是個性化的。目前,官方發(fā)布的統(tǒng)計數(shù)據(jù)以總體數(shù)據(jù)和基礎性分類數(shù)據(jù)為主,個性化、細化詳盡的數(shù)據(jù)偏少。三是人們既關注結構化數(shù)據(jù)也關注非結構化數(shù)據(jù)。大數(shù)據(jù)既包括結構化數(shù)據(jù),也包括非結構化數(shù)據(jù),并且目前95%以上的數(shù)字信息都是非結構性數(shù)據(jù)。如何超越傳統(tǒng)的數(shù)據(jù)分析方法,對文字、圖表、圖片、視頻等半結構化或非結構化數(shù)據(jù)進行深度挖掘,生產出高質量的統(tǒng)計數(shù)據(jù)產品為公眾服務,成為政府統(tǒng)計部門必須研究解決的新課題。
大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)最顯著的特征之一,就是數(shù)據(jù)存入系統(tǒng)、進行處理的速度非常之快。由于數(shù)據(jù)源增加,數(shù)據(jù)通訊的吞吐量提高,數(shù)據(jù)設備的計算能力增強,使得大數(shù)據(jù)生成的規(guī)模和速度異常驚人。大數(shù)據(jù)的即時性特點,對傳統(tǒng)統(tǒng)計發(fā)布數(shù)據(jù)的時效性和頻率提出了挑戰(zhàn),官方發(fā)布的權威性、公允性等功能將被削弱甚至替代。新媒體的誕生帶來了“時空壓縮”現(xiàn)象,人們對于數(shù)據(jù)事件的關注不再以年月日計算,而是開始以時分秒計算,同時空間概念上的阻隔也被破除,數(shù)據(jù)傳播的無界性凸顯,“事后發(fā)布”模式顯然不能適應大數(shù)據(jù)時代的要求。而政府統(tǒng)計充分利用大數(shù)據(jù)挖掘技術,從大量結構化和非結構化數(shù)據(jù)中獲取有價值的信息,并努力發(fā)現(xiàn)數(shù)據(jù)中所隱含的現(xiàn)象和規(guī)律,則能夠有效提高統(tǒng)計數(shù)據(jù)發(fā)布的時效性。提高官方數(shù)據(jù)發(fā)布的時效性還在于信息技術的進步讓現(xiàn)代社會輿論的形成機制、傳播機制發(fā)生了深刻變化,社會開始進入“傳媒聚光燈和大眾麥克風”時代,越來越多元化的新媒體為人們提供了更多、更便利的發(fā)聲管道,各種真假莫測、虛實難辨、泥沙俱下的信息快速自由流動,這也對官方統(tǒng)計的輿論引導能力提出了新的挑戰(zhàn)。
“得數(shù)據(jù)者得天下”。毋庸置疑,大數(shù)據(jù)時代在給官方統(tǒng)計數(shù)據(jù)發(fā)布帶來挑戰(zhàn)的同時也帶來了契機。在大數(shù)據(jù)生態(tài)系統(tǒng)中,政府統(tǒng)計既是數(shù)據(jù)采集者、匯總者,也是使用者、消費者,積極利用大數(shù)據(jù)杠桿撬動統(tǒng)計發(fā)展新支點,將成為提升統(tǒng)計價值的利器。這是政府統(tǒng)計在擁抱大數(shù)據(jù)、與大數(shù)據(jù)共舞中,樹立大數(shù)據(jù)的理念、思維和意識,改進和完善官方統(tǒng)計數(shù)據(jù)發(fā)布的邏輯起點與基本要求。
數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化的數(shù)據(jù)集合,是數(shù)據(jù)挖掘技術的關鍵,也是改進數(shù)據(jù)發(fā)布的重要前提。政府統(tǒng)計部門生產的數(shù)據(jù)是典型的大數(shù)據(jù),它不僅表現(xiàn)在數(shù)量上的“大”,而且同樣具有大數(shù)據(jù)意義上的“4V”特性。建設統(tǒng)計數(shù)據(jù)倉庫,以現(xiàn)有統(tǒng)計業(yè)務系統(tǒng)和大量業(yè)務數(shù)據(jù)的積累為基礎,整合來自于不同部門的數(shù)據(jù)源、各種結構化和非結構化數(shù)據(jù),有利于支持統(tǒng)計決策分析處理,探索數(shù)據(jù)背后潛在的價值。同時,把這些數(shù)據(jù)加以整理歸納、重組和使用,有針對性地開發(fā)各類公共服務產品(如黨政領導數(shù)據(jù)查詢系統(tǒng)),并及時提供給有特定需求的統(tǒng)計用戶,有助于改善政府決策和企業(yè)業(yè)務經營。整個統(tǒng)計數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)源(包括統(tǒng)計系統(tǒng)內部數(shù)據(jù)信息和外部數(shù)據(jù)信息)、數(shù)據(jù)的存儲與管理、服務器、前端工具等四個層次的體系組成。建設數(shù)據(jù)倉庫,由傳統(tǒng)的簡單計算和查詢轉變?yōu)閷Υ罅繌碗s、非結構化數(shù)據(jù)的挖掘,將大大提升政府統(tǒng)計部門的數(shù)據(jù)分析和發(fā)布能力。
現(xiàn)代的數(shù)據(jù)可視化技術是指運用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。簡而言之,數(shù)據(jù)可視化就是將數(shù)據(jù)用可視化的方式展現(xiàn)出來。大數(shù)據(jù)時代,數(shù)據(jù)量變得非常大和繁雜,根據(jù)IDC(國際數(shù)據(jù)公司)資料,僅在2011年,全球被創(chuàng)建和被復制的數(shù)據(jù)總量就達1.8ZB(1.8萬億GB),到2020年將增長到35ZB。要想探索和理解這些大型的數(shù)據(jù)集,單純用文字分析或表格是很難洞悉的,可視化則為行之有效的途徑之一。通過數(shù)據(jù)可視化技術,根據(jù)數(shù)據(jù)的時間和空間信息等特性,利用圖表、圖、地圖等方式,就能將數(shù)據(jù)直觀的展現(xiàn)出來,并找出其中隱含的規(guī)律和知識。《鮮活的數(shù)據(jù):數(shù)據(jù)可視化指南》中有一個例子,是講2009年美國的失業(yè)率攀升至9.8%,但這個平均數(shù)字只概括了美國失業(yè)率的總體狀況。有哪些地區(qū)的失業(yè)率高于其他地區(qū)?又有哪些地區(qū)未受到很大波及?用一系列美國地圖就能完整地說明情況,只需略掃一眼即可獲得答案。政府數(shù)據(jù)發(fā)布借助豐富的具有互動性的可視化手段,對GDP、居民收入、物價、房價等一系列老百姓關心的指標進行可視化發(fā)布,可以挖掘和展示數(shù)據(jù)背后的關聯(lián)與模式,更好地幫助公眾理解數(shù)據(jù)的涵義以及這些數(shù)據(jù)對人們生活的影響。
大數(shù)據(jù)生產主體正日趨呈現(xiàn)多元化的特點,互聯(lián)網商品交易信息、企業(yè)電子化經營記錄、電子化部門行政記錄等大數(shù)據(jù),為政府統(tǒng)計數(shù)據(jù)采集和發(fā)布提供了海量原始資料。政府統(tǒng)計作為經濟社會信息的搜集、加工和利用中樞,應整合各類數(shù)據(jù)源,匯聚與對接不同大數(shù)據(jù)平臺與通道的大數(shù)據(jù),實現(xiàn)大數(shù)據(jù)的大統(tǒng)一格局。大數(shù)據(jù)利用的關鍵在于分享。應打破政府、企業(yè)與社會組織間的信息壁壘,特別是要改變政府部門之間數(shù)據(jù)割裂的“信息孤島”現(xiàn)象,打造大數(shù)據(jù)公共平臺,實現(xiàn)數(shù)據(jù)共享,使數(shù)據(jù)在政府內部流暢協(xié)同,大幅縮短數(shù)據(jù)獲取、處理及分析響應時間,深度挖掘數(shù)據(jù)的經濟價值。據(jù)麥肯錫估計,歐洲發(fā)達經濟體政府利用大數(shù)據(jù)可以節(jié)省超過1000億歐元的政府開支。就政府統(tǒng)計發(fā)布來講,對大數(shù)據(jù)的整合與融合,能夠極大拓展統(tǒng)計數(shù)據(jù)發(fā)布內容,增加數(shù)據(jù)發(fā)布頻率,更加有效地對數(shù)據(jù)間的關聯(lián)性、匹配性進行解讀,提高數(shù)據(jù)發(fā)布的客觀性、及時性和權威性,提升官方統(tǒng)計數(shù)據(jù)的公信力。
以互聯(lián)網、社交網站、微博、微信等為代表的新媒體正深刻地改變著輿論生成方式。日益龐大的受眾群體,實時更新的海量信息,及時交流的互動功能,使受眾接受信息的反饋行為更加及時,提升了虛擬空間與現(xiàn)實世界的互動性。新媒體時代,政府統(tǒng)計不是旁觀者,必須善借新媒體之力,與新媒體實現(xiàn)高度融合,增強輿論引導力和數(shù)據(jù)傳播力。一是拓寬數(shù)據(jù)信息傳播渠道。利用已開通的統(tǒng)計政務微博,提高微博運營效率,并逐步深化統(tǒng)計官方微博的集群功能,形成統(tǒng)計官方微博群,在開展重大統(tǒng)計宣傳活動、重大統(tǒng)計輿論引導等方面發(fā)聲發(fā)力,形成強大合力,凝聚正能量。與主流門戶網站合作,建立網絡統(tǒng)計專題,通過網絡公開數(shù)據(jù)生產過程和統(tǒng)計工作情況,并與網友交流互動,讓更多公眾參與到統(tǒng)計開放過程中。不斷拓展微信、博客等其他新興傳播渠道,實現(xiàn)傳播效果的疊加,使數(shù)據(jù)信息一次生成、多次傳播。二是打造大數(shù)據(jù)領域的民意主導者。在對新媒體輿論的引導方面,要改變“大而全”、遍地開花的策略,著力打造大數(shù)據(jù)領域的民意主導者,利用其權威和專業(yè)知識,發(fā)揮其意見領袖功能,解疑釋惑,澄清事實。三是健全統(tǒng)計輿情監(jiān)測與預警常態(tài)工作機制。深入分析新媒體時代輿論危機的特點及傳播路徑,建立由政府統(tǒng)計并涵蓋其他大數(shù)據(jù)生產者的綜合輿情監(jiān)測體系,更有針對性地對統(tǒng)計輿情實施監(jiān)測,提高統(tǒng)計輿情的科學應對能力。