廖云輝,陳 華
(中國石油大學(xué)(華東),山東 青島 266580)
大數(shù)據(jù)技術(shù)應(yīng)用正在滲透到不同的領(lǐng)域,未來的數(shù)據(jù)將像石油一樣成為幫助和發(fā)展社會(huì)的重要基礎(chǔ)。統(tǒng)計(jì)數(shù)據(jù)的最基本特性是可靠、準(zhǔn)確和及時(shí),這樣的數(shù)據(jù)統(tǒng)計(jì)才可以幫助決策者找出依據(jù)。這就是為什么在當(dāng)前的大數(shù)據(jù)時(shí)代,要特別注重保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,這是極其關(guān)鍵也是極其重要的。大數(shù)據(jù)漸漸擁有著很多特點(diǎn):海量、非結(jié)構(gòu)化、及時(shí)、電子處理、多變量,這使得數(shù)據(jù)處理變得更加困難。一些微妙的數(shù)據(jù)質(zhì)量問題將被大量數(shù)據(jù)樣本所強(qiáng)化,這種情況是大數(shù)據(jù)背景下,目前最需要解決的問題。
大數(shù)據(jù)的數(shù)據(jù)處理、傳輸?shù)?,只有在一定時(shí)間內(nèi)完成具體程序,才能收集統(tǒng)計(jì)數(shù)據(jù),整理、分析相關(guān)部門的經(jīng)濟(jì)社會(huì)發(fā)展?fàn)顩r,支持決策和經(jīng)濟(jì)發(fā)展的重要信息。大數(shù)據(jù)背景下,大數(shù)據(jù)技術(shù)不斷升級(jí),國家統(tǒng)計(jì)四大工程深入并且推進(jìn),企業(yè)網(wǎng)絡(luò)直報(bào)等應(yīng)用不斷深入,統(tǒng)計(jì)質(zhì)量也被推動(dòng)著不斷提高。
在大數(shù)據(jù)背景下,對(duì)政府統(tǒng)計(jì)工作提出了新的要求。第一,傳統(tǒng)的統(tǒng)計(jì)概念遠(yuǎn)遠(yuǎn)不足以實(shí)現(xiàn)現(xiàn)代化發(fā)展,來自統(tǒng)計(jì)的大數(shù)據(jù)時(shí)代變得更加方便,政府也需要根據(jù)時(shí)代的改變,在數(shù)據(jù)整理工作方面進(jìn)行細(xì)化和調(diào)整統(tǒng)計(jì)策略,而后調(diào)整指標(biāo),并且對(duì)事物的分析要改進(jìn),改善不同事物之間的關(guān)系,提煉出相關(guān)信息,并將工作有序開展。第二,傳統(tǒng)統(tǒng)計(jì)主要采用結(jié)構(gòu)化統(tǒng)計(jì)和分析,但大數(shù)據(jù)背景下統(tǒng)計(jì)信息和呈現(xiàn)方式不斷變化,政府需要不斷調(diào)整和改革,此外,對(duì)所有類型的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行更多的標(biāo)準(zhǔn)化,可以處理所有類型的轉(zhuǎn)換數(shù)據(jù)。還應(yīng)更加重視不同類型的企業(yè),特別是新興部門的企業(yè),并應(yīng)建立良好的監(jiān)測(cè)機(jī)制,以提高統(tǒng)計(jì)覆蓋率。因此,需要進(jìn)一步完善統(tǒng)計(jì)系統(tǒng),以便不斷改進(jìn)數(shù)據(jù)的使用、分析和管理。大規(guī)模數(shù)據(jù)技術(shù)的出現(xiàn),進(jìn)一步刺激了數(shù)據(jù)的不斷發(fā)展,有效地推動(dòng)了數(shù)據(jù)的加速利用,對(duì)社會(huì)各階層的發(fā)展都具有重要意義。在統(tǒng)計(jì)質(zhì)量?jī)?nèi)涵上,既要保證統(tǒng)計(jì)數(shù)據(jù)的完整性、準(zhǔn)確性,又要保證統(tǒng)計(jì)數(shù)據(jù)的系統(tǒng)性、科學(xué)性和連續(xù)性,使各行業(yè)目前率先擁有準(zhǔn)確可靠的數(shù)據(jù),率先掌握信息的人就能掌握主動(dòng)優(yōu)勢(shì)。統(tǒng)計(jì)只有通過使用大數(shù)據(jù)技術(shù)和方法來提高處理效率和質(zhì)量,才可以減少錯(cuò)誤。
大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)質(zhì)量也提出了新的要求。第一,統(tǒng)計(jì)的核心不斷向“以客戶為導(dǎo)向”轉(zhuǎn)變,以便更好地滿足客戶的需求并顯示使用價(jià)值。第二,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的重要性不斷擴(kuò)大。統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量必須在多元化的層面上加以解釋,以應(yīng)對(duì)挑戰(zhàn)。目前普遍的情況是,數(shù)據(jù)質(zhì)量需要在技術(shù)、過程和管理三個(gè)方面加以改進(jìn)。鑒于當(dāng)前大數(shù)據(jù)的發(fā)展,統(tǒng)計(jì)工作面臨的最大挑戰(zhàn)是大數(shù)據(jù)采集和處理的巨大數(shù)量和多樣性,大數(shù)據(jù)的質(zhì)量這樣被決定了。如何解決這一問題,專家們建議從技術(shù)、過程和管理三個(gè)方面考慮問題,并從多層面調(diào)查的角度評(píng)估統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。在這方面,國家和國際科學(xué)家對(duì)統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量達(dá)成一致。人為因素和環(huán)境因素是影響非技術(shù)因素的兩大主要因素,非技術(shù)因素更值得重視統(tǒng)計(jì)質(zhì)量。在數(shù)據(jù)量大的情況下,統(tǒng)計(jì)數(shù)據(jù)的特點(diǎn)使得統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量問題極其復(fù)雜。為了確保統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,應(yīng)及時(shí)識(shí)別各種因素,并通過科學(xué)方法將影響降至最低。
隨著云計(jì)算技術(shù)概念的提出和逐步發(fā)展,社會(huì)經(jīng)濟(jì)進(jìn)入大數(shù)據(jù)應(yīng)用時(shí)代。在大數(shù)據(jù)的情況下,統(tǒng)計(jì)工作應(yīng)著重于用戶的需求,提高統(tǒng)計(jì)質(zhì)量,更好地利用其價(jià)值。大數(shù)據(jù)背景下影響統(tǒng)計(jì)的因素可歸納為三個(gè)層面:技術(shù)、流程和管理。
在技術(shù)方面,隨著統(tǒng)計(jì)數(shù)據(jù)的增多,傳統(tǒng)方法數(shù)據(jù)已不能滿足新時(shí)期的統(tǒng)計(jì)要求,企業(yè)必須配置更高的數(shù)據(jù)庫技術(shù),加強(qiáng)技術(shù)更新,提高統(tǒng)計(jì)水平,同時(shí)確保統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。隨著數(shù)據(jù)分析難度的增加,改進(jìn)數(shù)據(jù)可持續(xù)分析和挖掘算法研究也成為一個(gè)重要的焦點(diǎn)。對(duì)于過程方面,它主要基于統(tǒng)計(jì)數(shù)據(jù)的形成和使用來體現(xiàn)。在數(shù)據(jù)收集階段,影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的因素包括收集數(shù)據(jù)的方式、統(tǒng)計(jì)執(zhí)行中使用的具體標(biāo)準(zhǔn)等。統(tǒng)計(jì)數(shù)據(jù)不斷變化,需要改變收集統(tǒng)計(jì)數(shù)據(jù)的傳統(tǒng)方式,并統(tǒng)一標(biāo)準(zhǔn),以便快速整合數(shù)據(jù),確保完成既定的統(tǒng)計(jì)任務(wù)。在統(tǒng)計(jì)存儲(chǔ)的發(fā)展階段,需要新的統(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)軟件來更好地存儲(chǔ)數(shù)據(jù),否則統(tǒng)計(jì)數(shù)據(jù)將無法有效轉(zhuǎn)換,或影響數(shù)據(jù)的準(zhǔn)確性和完整性。特別是,統(tǒng)計(jì)數(shù)據(jù)越來越多地以不同的方式呈現(xiàn),不僅是文字,還包括照片、視頻、聲音等。同時(shí),不安全的存儲(chǔ)將影響數(shù)據(jù)的質(zhì)量。在數(shù)據(jù)使用階段,無法及時(shí)共享數(shù)據(jù),也無法展示統(tǒng)計(jì)數(shù)據(jù)的價(jià)值。在管理層,主要有以下因素:管理層沒有充分意識(shí)到統(tǒng)計(jì)工作的重要性,統(tǒng)計(jì)專家和技術(shù)人員的素質(zhì)和能力不能適應(yīng)新時(shí)期統(tǒng)計(jì)工作的新要求,工作人員對(duì)數(shù)據(jù)的重視程度不夠。再就是,該制度本身受到以下事實(shí)的約束:沒有統(tǒng)一的標(biāo)準(zhǔn)化制度和良好統(tǒng)計(jì)標(biāo)準(zhǔn),而且很難改進(jìn)該制度,無法提高總體統(tǒng)計(jì)質(zhì)量。
從這個(gè)維度分析數(shù)據(jù),主要從數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)使用三個(gè)階段執(zhí)行,這是數(shù)據(jù)整個(gè)生命周期的處理功能。
2.1.1 收集層面
在數(shù)據(jù)收集方式和統(tǒng)計(jì)標(biāo)準(zhǔn)方面,通過智能設(shè)備、傳感器和社會(huì)合作技術(shù)的應(yīng)用和傳播以及提供發(fā)生了巨大變化。網(wǎng)站、搜索引擎、社交網(wǎng)絡(luò)以及主動(dòng)和被動(dòng)傳感器系統(tǒng)代表了這些主要數(shù)據(jù)源,這就是被人們叫作海量數(shù)據(jù)的現(xiàn)象,以統(tǒng)計(jì)的寬度無限接近“總體”,統(tǒng)計(jì)數(shù)據(jù)的擴(kuò)大性增加了統(tǒng)計(jì)的準(zhǔn)確性,這是許多問題的根源。再就是說,數(shù)據(jù)的及時(shí)性比以前短得多,有效收集數(shù)據(jù)以保證統(tǒng)計(jì)質(zhì)量,這也是一項(xiàng)新的挑戰(zhàn)。
2.1.2 存儲(chǔ)層面
傳統(tǒng)的數(shù)據(jù)存儲(chǔ)已經(jīng)不能滿足大數(shù)據(jù)的需求。高容量和可擴(kuò)展性、高可用性、高質(zhì)量和訪問接口可以改變?nèi)司鶖?shù)據(jù)存儲(chǔ)結(jié)構(gòu)。當(dāng)前數(shù)據(jù)由大量未安裝的數(shù)據(jù)組成,如視頻、圖像等。訪問前一個(gè)存儲(chǔ)系統(tǒng)需要一個(gè)復(fù)雜的傳輸過程來將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),此過程不可避免地導(dǎo)致錯(cuò)誤生成的跟蹤,從而直接改變數(shù)據(jù)的完整性和準(zhǔn)確性。為了最大限度地發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì),這些非結(jié)構(gòu)化數(shù)據(jù)被合并到結(jié)構(gòu)化數(shù)據(jù)中,以創(chuàng)建一個(gè)新的數(shù)據(jù)庫。
2.1.3 使用層面
大數(shù)據(jù)時(shí)代提倡共享資源,數(shù)據(jù)的收集和更新越來越頻繁,任何錯(cuò)誤都會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量的惡化。信息社會(huì)的發(fā)展加速了數(shù)據(jù)的生成和傳播。所以需要及時(shí)分析數(shù)據(jù),以確保這些數(shù)據(jù)的價(jià)值不低于預(yù)期,并確保決策者做出正確的決策。
大數(shù)據(jù)技術(shù)包括數(shù)據(jù)庫技術(shù)、數(shù)據(jù)質(zhì)量檢測(cè)識(shí)別和數(shù)據(jù)分析。它是準(zhǔn)確預(yù)測(cè)未來的保證,數(shù)據(jù)分析的真正價(jià)值在這三者身上體現(xiàn)。
2.2.1 數(shù)據(jù)庫技術(shù)
大數(shù)據(jù)時(shí)代,企業(yè)數(shù)據(jù)最顯著的特點(diǎn)是數(shù)據(jù)量以曾經(jīng)無法想象的速度呈指數(shù)級(jí)增長(zhǎng)。增長(zhǎng)意味著越來越多的信息和數(shù)據(jù)結(jié)構(gòu),使得統(tǒng)計(jì)數(shù)據(jù)變得越來越復(fù)雜。傳統(tǒng)的數(shù)據(jù)識(shí)別技術(shù)有助于檢測(cè)數(shù)據(jù)的結(jié)構(gòu),但非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)使得傳統(tǒng)技術(shù)難以處理。如果出現(xiàn)不正確或延遲的數(shù)據(jù),檢查的費(fèi)用會(huì)更高。同樣重要的是,相關(guān)公司應(yīng)使用更大的檢測(cè)設(shè)備,并為大數(shù)據(jù)處理和數(shù)據(jù)質(zhì)量引進(jìn)或開發(fā)新技術(shù)。
2.2.2 數(shù)據(jù)質(zhì)量的檢測(cè)和識(shí)別技術(shù)
基于人類判斷的數(shù)據(jù)質(zhì)量、適用性和及時(shí)性測(cè)試的準(zhǔn)確性會(huì)變得越來越困難。引入有效的數(shù)據(jù)測(cè)試應(yīng)該表明數(shù)據(jù)能夠及時(shí)發(fā)現(xiàn)缺陷,但同時(shí)在實(shí)踐中改進(jìn)質(zhì)量控制技術(shù),以滿足大數(shù)據(jù)時(shí)代的要求。
2.2.3 大數(shù)據(jù)分析技術(shù)
收集數(shù)據(jù)后,應(yīng)進(jìn)行分析以確定數(shù)據(jù)值。可視化技術(shù)正在成為現(xiàn)代大數(shù)據(jù)技術(shù)的主流,這些技術(shù)可以有效地處理其他類型和格式的數(shù)據(jù),從而改進(jìn)傳統(tǒng)的數(shù)據(jù)分析。
數(shù)據(jù)管理作為數(shù)據(jù)質(zhì)量保證的重要環(huán)節(jié),對(duì)人們起著至關(guān)重要的作用。在這方面,專業(yè)數(shù)據(jù)庫的知識(shí)和管理人員可用性、政府統(tǒng)計(jì)系統(tǒng)和統(tǒng)計(jì)標(biāo)準(zhǔn)是影響數(shù)據(jù)質(zhì)量的重要因素。
2.3.1 管理者的意識(shí)
首先,必須認(rèn)識(shí)到數(shù)據(jù)管理的重要性。業(yè)務(wù)經(jīng)理意識(shí)到大數(shù)據(jù)對(duì)于業(yè)務(wù)開發(fā)的重要性,支持并重視大數(shù)據(jù)的建設(shè),以便大數(shù)據(jù)的應(yīng)用能夠在公司的工作中得到有效實(shí)施。
2.3.2 數(shù)據(jù)庫工作人員可用性
管理大數(shù)據(jù)的困難在于其復(fù)雜性。數(shù)據(jù)管理是業(yè)務(wù)發(fā)展的一個(gè)重要領(lǐng)域,不應(yīng)忽視,并且有專門的人員負(fù)責(zé)管理和維護(hù)數(shù)據(jù)庫,才能夠保證大數(shù)據(jù)的質(zhì)量。而這類人才的選拔,要解決技術(shù)問題,又要熟悉公司業(yè)務(wù)。
2.3.3 建立統(tǒng)計(jì)制度和標(biāo)準(zhǔn)
政府部門必須繼續(xù)通過積極開發(fā)相關(guān)統(tǒng)計(jì)系統(tǒng)、開發(fā)和進(jìn)一步保護(hù)統(tǒng)計(jì)系統(tǒng)和標(biāo)準(zhǔn),充分解決推動(dòng)社會(huì)經(jīng)濟(jì)增長(zhǎng)的大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展問題,畢竟大數(shù)據(jù)對(duì)應(yīng)著國際發(fā)展。
首先,政府部門必須更加重視統(tǒng)計(jì)工作,建立健全和改進(jìn)監(jiān)測(cè)和管理統(tǒng)計(jì)質(zhì)量的制度,加快建立統(tǒng)計(jì)信息系統(tǒng)平臺(tái),為數(shù)據(jù)收集和收集方法、要求、指標(biāo)和分工建立一個(gè)相對(duì)一致的平臺(tái),采用現(xiàn)代信息技術(shù)改善基本服務(wù)的適當(dāng)平臺(tái),可以更好地建立統(tǒng)計(jì)工作基礎(chǔ)。其次,有必要根據(jù)用戶的需要不斷創(chuàng)新,進(jìn)行深入研究,并找到更有效的統(tǒng)計(jì)技術(shù)和方法來改進(jìn)數(shù)據(jù)收集。政府部門應(yīng)進(jìn)一步提高大數(shù)據(jù)管理意識(shí),發(fā)展自己的監(jiān)測(cè)和評(píng)估數(shù)據(jù)質(zhì)量機(jī)制,發(fā)展有效和改進(jìn)的統(tǒng)計(jì)產(chǎn)品管理系統(tǒng),并發(fā)展更可持續(xù)的機(jī)制,以確保統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。再就是,鑒于數(shù)據(jù)質(zhì)量和統(tǒng)計(jì)收集過程所遇到的干擾,新的綜合統(tǒng)計(jì)平臺(tái)必須致力于使這一過程更加規(guī)范和透明,提高及時(shí)性,減少統(tǒng)計(jì)干擾。創(chuàng)建允許存儲(chǔ)不同類型數(shù)據(jù)的集成數(shù)據(jù)存儲(chǔ)庫,提高數(shù)據(jù)集成和進(jìn)一步數(shù)據(jù)分析的效率。
首先,深入挖掘數(shù)據(jù)和統(tǒng)計(jì)之間密切的聯(lián)系,關(guān)于計(jì)算機(jī)技術(shù)的互聯(lián)網(wǎng)技術(shù),如技術(shù),加速集成,統(tǒng)計(jì)優(yōu)化,這是數(shù)據(jù)統(tǒng)計(jì)技術(shù)和分析的新途徑。其次,經(jīng)驗(yàn)評(píng)估,加快提高統(tǒng)計(jì)數(shù)據(jù)的技術(shù)安全,不斷提高質(zhì)量,保持較好的權(quán)威體系。在技術(shù)引進(jìn)方面,云存儲(chǔ)專注于為用戶提供基于互聯(lián)網(wǎng)的在線存儲(chǔ)服務(wù),高效、經(jīng)濟(jì)的數(shù)據(jù)存儲(chǔ)。當(dāng)用戶要求存儲(chǔ)數(shù)據(jù)時(shí),更容易實(shí)現(xiàn)。為了確保統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量驗(yàn)證技術(shù)必須貫穿整個(gè)數(shù)據(jù)周期。
要實(shí)現(xiàn)這一目標(biāo),可在統(tǒng)計(jì)局內(nèi)部開展更快、更有效的培訓(xùn),提高培訓(xùn)工作的質(zhì)量和效率,并加強(qiáng)對(duì)能夠操作統(tǒng)計(jì)專家的統(tǒng)計(jì)專業(yè)人員的培訓(xùn),不斷提高法律道德問題和服務(wù)意識(shí),并確定更多更好的實(shí)用方法來提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。如果存在高度不穩(wěn)定的數(shù)據(jù),以快速生成統(tǒng)計(jì)數(shù)據(jù)、進(jìn)行預(yù)測(cè)、發(fā)現(xiàn)問題,不斷優(yōu)化數(shù)據(jù)安全性,改進(jìn)監(jiān)控方式,增加與其他部門的相關(guān)性,實(shí)現(xiàn)聯(lián)合監(jiān)控的效果,這將大大提高統(tǒng)計(jì)數(shù)據(jù)的控制水平。
大數(shù)據(jù)的特點(diǎn)決定了它的復(fù)雜性,使管理變得更加困難。在這種情況下,需要處理技術(shù)問題以及整合公司數(shù)據(jù)的員工來管理大數(shù)據(jù)的質(zhì)量。數(shù)據(jù)管理的延遲是提高數(shù)據(jù)質(zhì)量和使用大數(shù)據(jù)的重要障礙。在大數(shù)據(jù)時(shí)代,需要受過良好教育的高層管理人員來設(shè)計(jì)數(shù)據(jù)庫和維護(hù),以更好地保證大數(shù)據(jù)的質(zhì)量,并更深入地挖掘這些數(shù)據(jù)的潛在價(jià)值。
通過培訓(xùn)試驗(yàn),改進(jìn)該領(lǐng)域的質(zhì)量和技術(shù)。讓他們采取積極主動(dòng)的心態(tài)去工作,引導(dǎo)他們分析數(shù)據(jù)的相關(guān)性,探索創(chuàng)新的統(tǒng)計(jì)特定方法,探索更先進(jìn)的思維方式,堅(jiān)持使用現(xiàn)代科學(xué)技術(shù),提高工作質(zhì)量,以便不斷分析并使市場(chǎng)研究具有相關(guān)性。加強(qiáng)統(tǒng)計(jì)人員的職業(yè)道德,確保數(shù)據(jù)的可靠性,并確保統(tǒng)計(jì)工作能夠獨(dú)立開展。在技術(shù)培訓(xùn)、基層隊(duì)伍建設(shè)方面應(yīng)著重加強(qiáng),統(tǒng)計(jì)質(zhì)量才會(huì)不斷提高。
總的來說,當(dāng)前和今后深入統(tǒng)計(jì)工作的主要目標(biāo)是有效利用大數(shù)據(jù)技術(shù),不斷擴(kuò)大平臺(tái)的使用范圍,提高程序效率。并通過提高數(shù)據(jù)質(zhì)量,采取多項(xiàng)措施提高數(shù)據(jù)質(zhì)量。實(shí)際上,只有改進(jìn)制度和加強(qiáng)監(jiān)督制度,統(tǒng)計(jì)的價(jià)值和質(zhì)量才能真正提高。