吳華斌
大數(shù)據(jù)的統(tǒng)計(jì)分析淺議
吳華斌
被確定為“十二五”國家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃之一的新一代信息技術(shù),在其重大行動(dòng)方面,關(guān)鍵技術(shù)開發(fā)和產(chǎn)業(yè)化包括“實(shí)施物聯(lián)網(wǎng)與云計(jì)算創(chuàng)新發(fā)展工程”;海量數(shù)據(jù)處理軟件等為代表的云計(jì)算軟件等關(guān)鍵軟件的開發(fā),推動(dòng)大型信息資源庫建設(shè),積極培育云計(jì)算服務(wù)等新興服務(wù)業(yè)態(tài)。當(dāng)SNA2008、綠色GDP、包容性財(cái)富成為熱詞之際,大數(shù)據(jù)概念得到具體的實(shí)施。文章認(rèn)為:在大數(shù)據(jù)時(shí)代,重視自動(dòng)化和智能化運(yùn)用前景,應(yīng)突出數(shù)據(jù)挖掘的在線分析處理(OLAP)和可視化編程的特點(diǎn),創(chuàng)造性應(yīng)用統(tǒng)計(jì)理論開展統(tǒng)計(jì)工作,才能提高信息化社會(huì)知識(shí)經(jīng)濟(jì)時(shí)代的統(tǒng)計(jì)工作質(zhì)量,才能推動(dòng)大統(tǒng)計(jì)發(fā)展,才能提高信息分析重要組成部分的統(tǒng)計(jì)分析的質(zhì)量。
統(tǒng)計(jì)分析 知識(shí)經(jīng)濟(jì) 核算 信息 質(zhì)量
如果說IBM的主機(jī)拉開了信息化革命的大幕,那么‘大數(shù)據(jù)’才是第三次浪潮的華彩樂章1。2014 6月19日,我國發(fā)布了首個(gè)大數(shù)據(jù)交易行業(yè)規(guī)范——《中關(guān)村數(shù)海大數(shù)據(jù)交易平臺(tái)規(guī)則》(征求意見稿),數(shù)據(jù)交易產(chǎn)業(yè)發(fā)展,希望加盟企業(yè)能盤活數(shù)據(jù)資產(chǎn),提高自身的創(chuàng)新效率,實(shí)現(xiàn)更好的轉(zhuǎn)型升級(jí)。樂觀的估計(jì)是,預(yù)計(jì)到2016年,中關(guān)村大數(shù)據(jù)對(duì)產(chǎn)業(yè)的帶動(dòng)規(guī)模將超過1萬億元2。這是我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展與世界同步的一個(gè)顯著成果。
《統(tǒng)計(jì)法》第二條規(guī)定:統(tǒng)計(jì)的基本任務(wù)是對(duì)經(jīng)濟(jì)社會(huì)發(fā)展情況進(jìn)行統(tǒng)計(jì)調(diào)查、統(tǒng)計(jì)分析,提供統(tǒng)計(jì)資料和統(tǒng)計(jì)咨詢意見,實(shí)行統(tǒng)計(jì)監(jiān)督。筆者認(rèn)為:IT技術(shù)的發(fā)展,尤其是計(jì)算機(jī)、互聯(lián)網(wǎng)、云計(jì)算技術(shù)的發(fā)展,使大數(shù)據(jù)的產(chǎn)生、交換、應(yīng)用十分便捷,國家政策為大數(shù)據(jù)產(chǎn)業(yè)化應(yīng)用提供了制度保障,在大數(shù)據(jù)時(shí)代,體現(xiàn)統(tǒng)計(jì)服務(wù)和統(tǒng)計(jì)監(jiān)督,重視自動(dòng)化和智能化運(yùn)用前景,應(yīng)突出數(shù)據(jù)挖掘的在線分析處理(OLAP)和可視化編程的特點(diǎn),創(chuàng)造性應(yīng)用統(tǒng)計(jì)理論開展統(tǒng)計(jì)工作,才能提高信息化社會(huì)知識(shí)經(jīng)濟(jì)時(shí)代的統(tǒng)計(jì)工作質(zhì)量,才能推動(dòng)大數(shù)據(jù)時(shí)代的大統(tǒng)計(jì)健康發(fā)展。
1.計(jì)算機(jī)技術(shù)的發(fā)展。計(jì)算機(jī)系統(tǒng),主要是滿足經(jīng)濟(jì)、科技、國防等領(lǐng)域存在一系列復(fù)雜、大型的問題對(duì)科學(xué)計(jì)算方面的需求。1946年,世界上第一臺(tái)程序控制的電子計(jì)算機(jī)(1945年,被數(shù)字計(jì)算機(jī)之父,約翰.馮.諾依曼稱之為“電子離散變量自動(dòng)計(jì)算機(jī)”)研制成功,應(yīng)用于科學(xué)計(jì)算。2013年,由國防科大自主研發(fā)的“天河二號(hào)”,再登全球超級(jí)(運(yùn)算能力超強(qiáng))500強(qiáng)榜首,而且我國在全球超級(jí)500強(qiáng)的占比為12.6%,是世界上第二大高性能計(jì)算機(jī)使用者3。表明我國的計(jì)算機(jī)技術(shù)處于國際領(lǐng)先水平。
通過計(jì)算機(jī)(包括智能家電等)進(jìn)行事務(wù)處理,需要需要編寫相應(yīng)的計(jì)算機(jī)程序,達(dá)到可視化要求,才能方便人機(jī)對(duì)話,產(chǎn)生數(shù)據(jù)結(jié)果。IT技術(shù),包括電子信息處理技術(shù)、通信技術(shù)、計(jì)算機(jī)技術(shù)、電子科學(xué)與技術(shù),迅猛發(fā)展,為我國大數(shù)據(jù)時(shí)代的大統(tǒng)計(jì)發(fā)展,奠定了全球領(lǐng)先的技術(shù)基礎(chǔ)。
2.商業(yè)互聯(lián)網(wǎng)的發(fā)展。1969年,美國國防部研究計(jì)劃管理局開始建立一個(gè)命名為ARPANET的網(wǎng)絡(luò),普遍認(rèn)為這就是Internet的雛形。1990年代初,商業(yè)機(jī)構(gòu)開始進(jìn)入Internet,開始了商業(yè)化的新進(jìn)程,成為Internet大發(fā)展的強(qiáng)大推動(dòng)力。
1994年4月,中國開通了國際INTERNET的64KBPs專線連接,設(shè)置了中國最高域名(CN)服務(wù)器,使中國真正加入了國際MTERNET行列。1995年5月,開始商業(yè)應(yīng)用階段,原國家郵電部開通了中國公用INTERNET網(wǎng)即CH INANET。
1995年8月24日,向全球發(fā)行的W indow s 95,在市場上絕對(duì)是成功的,在它發(fā)行的一兩年內(nèi),成為有史以來最成功的操作系統(tǒng)。后來的W indows 95版本附帶了Internet Explorer 3,被集成到操作系統(tǒng),被用來給系統(tǒng)的桌面提供HTM L支持,使國際互聯(lián)網(wǎng)的運(yùn)用得到廣泛普及。
也就是說,上世紀(jì)90年代初,國際上商業(yè)機(jī)構(gòu)開始進(jìn)入Internet;1995年,國家原郵電部開通了中國公用INTERNET網(wǎng);以及W indow s 95操作系統(tǒng)(包括集成的Internet Exp lorer)的廣泛運(yùn)用,使得1997年,中國網(wǎng)民超過62萬人,1997年也被稱為我國商業(yè)互聯(lián)網(wǎng)元年,或者說,中國的數(shù)字化生存4元年。
當(dāng)初的萬“維”網(wǎng),就是為了增加人們提高認(rèn)識(shí)的角度(維度)。例如,谷歌和百度搜索引引擎的未來發(fā)展,就提出移動(dòng)時(shí)代的搜索需求開始變得多元化,圖片和基于自然語義理解的多種搜索形態(tài)并存,對(duì)搜索技術(shù)提出了更高的要求5?!罢Z義網(wǎng)(Semantic Web)”,也稱為下一代互聯(lián)網(wǎng),實(shí)際上就是“數(shù)據(jù)網(wǎng)”(Web o Data),是一個(gè)全球的數(shù)據(jù)庫網(wǎng),在這個(gè)數(shù)據(jù)庫網(wǎng)中,計(jì)算機(jī)可自動(dòng)為用戶搜尋、檢索和集成網(wǎng)上的信息,而不再需要搜索引擎。大數(shù)據(jù)時(shí)代正在催生的這個(gè)最大的技術(shù)變革,就是要重新構(gòu)造互聯(lián)網(wǎng),打造出下一代互聯(lián)網(wǎng)。
3.從電子商務(wù)到云時(shí)代。1995年,IBM提出“電子商務(wù)(e-business)”戰(zhàn)略理念。2002年,IBM又適時(shí)地推出“電子商務(wù)隨需應(yīng)變(e-businesson demand)”戰(zhàn)略理念。2008年,正式提出“智慧地球”(SmartPlanet)戰(zhàn)略理念。2009年1月,“智慧地球”成為美國國家戰(zhàn)略的一部分。
2008年11月2日,微軟(中國)有限公司宣布,由蘇州工業(yè)園區(qū)、微軟公司、江蘇風(fēng)云網(wǎng)絡(luò)服務(wù)有限公司三方打造的SaaS(軟件即服務(wù))服務(wù)平臺(tái)——風(fēng)云在線正式啟動(dòng),只要通過SaaS服務(wù),就可以通過互聯(lián)網(wǎng)購買和使用軟件服務(wù);同時(shí),微軟推出的云計(jì)算服務(wù)W indows Azure,允許各種類型的企業(yè)租用微軟的數(shù)據(jù)中心來進(jìn)行數(shù)據(jù)處理和軟件運(yùn)行。表明“云計(jì)算”已經(jīng)逐步走出概念階段,走入初期使用階段。大數(shù)據(jù)的概念,迅速得到IT界的熱捧。
2013年5月22日,微軟宣布與世紀(jì)互聯(lián)合作,成為第一個(gè)落地中國的國際云計(jì)算企業(yè)。2013年7月31日,IBM宣布與首都在線合作落地,將IBM頂級(jí)的云計(jì)算基礎(chǔ)架構(gòu)服務(wù)SCE+(SmartCloud Enterprise+)正式引入中國,開啟中國企業(yè)享用高價(jià)值托管私有云服務(wù)。2013年12月18日,亞馬遜公有云服務(wù)AWS宣布,其中國區(qū)域云計(jì)算平臺(tái)服務(wù)開始有限預(yù)覽。通過與產(chǎn)業(yè)鏈上的廣泛合作,全球最大的云服務(wù)提供商——亞馬遜的公有云服務(wù),正式落地中國。鑒于谷歌暫時(shí)難以重返中國市場,標(biāo)志著中國外資公有云市場亞馬遜、IBM、微軟三足鼎立的格局基本形成6。
對(duì)此,IBM大中華區(qū)云計(jì)算總經(jīng)理陳國豪(2014)認(rèn)為7:擁抱云時(shí)代——云計(jì)算驅(qū)動(dòng)業(yè)務(wù)前行;傳統(tǒng)產(chǎn)業(yè)模式正在發(fā)生一場革命,新的業(yè)務(wù)價(jià)值驅(qū)動(dòng)了云計(jì)算的使用。
所以,云時(shí)代,企業(yè)信息化、電子商務(wù)的實(shí)現(xiàn),需要企業(yè)、云服務(wù)商、產(chǎn)業(yè)行業(yè)、社區(qū)政務(wù)、國際化等整個(gè)社會(huì)、整個(gè)生態(tài)鏈共同來實(shí)現(xiàn),才能實(shí)現(xiàn)生產(chǎn)性服務(wù)業(yè)的創(chuàng)新發(fā)展,改進(jìn)人們的生活方式。
4.大數(shù)據(jù)時(shí)代。2010年,被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”的維克托·邁爾-舍恩博格在《經(jīng)濟(jì)學(xué)人》上發(fā)布了對(duì)大數(shù)據(jù)應(yīng)用的前瞻性研究。尤其是在大數(shù)據(jù)變革方面,他表達(dá)了大數(shù)據(jù)帶來的三大主要思維變化:不是隨機(jī)樣本,而是全體數(shù)據(jù);不是精確性,而是混雜性;不是因果關(guān)系,而是相關(guān)關(guān)系8。
2011年5月,麥肯錫全球研究院發(fā)布了名為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿》的研究報(bào)告,報(bào)告中指出大數(shù)據(jù)將成為企業(yè)的核心資產(chǎn),對(duì)大數(shù)據(jù)的分析將成為競爭的關(guān)鍵,并會(huì)引發(fā)新一輪生產(chǎn)力的增長與創(chuàng)新,對(duì)海量數(shù)據(jù)的有效利用將成為企業(yè)在競爭中取勝的最有利武器。通過對(duì)大數(shù)據(jù)的合理使用可以使零售業(yè)的經(jīng)營利潤提高60%以上。麥肯錫的報(bào)告發(fā)出后,大數(shù)據(jù)的概念迅速得到各國政府、國際產(chǎn)業(yè)界的高度關(guān)注。
2012年3月,美國奧巴馬政府發(fā)起了《大數(shù)據(jù)研究和發(fā)展倡議》,將大數(shù)據(jù)定義為“未來的新石油”,稱將斥資2億美元用于大數(shù)據(jù)研究,以應(yīng)對(duì)大數(shù)據(jù)革命正在帶來的大機(jī)遇。據(jù)美國咨詢機(jī)構(gòu)Gartner預(yù)測,從現(xiàn)在起到2015年,大數(shù)據(jù)將會(huì)在世界范圍內(nèi)創(chuàng)造440萬個(gè)工作崗位。6個(gè)聯(lián)邦部門和機(jī)構(gòu)將新投入超過2億美金推動(dòng)大數(shù)據(jù)提取、存儲(chǔ)、分析、發(fā)現(xiàn)等領(lǐng)域技術(shù)與工具的發(fā)展。同時(shí)奧巴馬政府號(hào)召面臨挑戰(zhàn)的行業(yè)、科研院所與非盈利機(jī)構(gòu)和政府?dāng)y手,共同迎接大數(shù)據(jù)所創(chuàng)造的機(jī)會(huì)。
2012年,以ERP應(yīng)用軟件系統(tǒng)為基礎(chǔ),向云管理轉(zhuǎn)型,是金蝶公司清晰的戰(zhàn)略方向——利用社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)、云計(jì)算這三項(xiàng)新興技術(shù),幫助客戶進(jìn)行云管理轉(zhuǎn)型。另一巨頭用友軟件,也在5月宣布基于新型的云計(jì)算及移動(dòng)互聯(lián)網(wǎng)模式進(jìn)行業(yè)務(wù)轉(zhuǎn)型9。
預(yù)計(jì)2013年至2025年,互聯(lián)網(wǎng)將有可能在中國GDP增長總量中貢獻(xiàn)7%到22%。傳統(tǒng)企業(yè)轉(zhuǎn)型為數(shù)字化企業(yè)可能是一個(gè)顛覆性的過程,這將改變從企業(yè)文化到戰(zhàn)略、流程、組織乃至外部合作等諸多方面10。截至2014年上半年,網(wǎng)民上網(wǎng)設(shè)備中,手機(jī)使用率達(dá)83.4%,首次超越傳統(tǒng)PC整體80.9%的使用率,手機(jī)作為第一大上網(wǎng)終端的地位更加鞏固11。IMT-2020(5G)推進(jìn)組認(rèn)為:移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)是未來移動(dòng)通信發(fā)展的兩大主要驅(qū)動(dòng)力,將為5G提供廣闊的前景12。
被譽(yù)為下一個(gè)社會(huì)發(fā)展階段的‘石油’和‘金礦’的大數(shù)據(jù)(big data),將掀起精細(xì)化的管理革命和競爭,充分利用數(shù)據(jù)分析技術(shù)將是企業(yè)制勝的關(guān)鍵13。大數(shù)據(jù)成為新經(jīng)濟(jì)的生產(chǎn)要素和資產(chǎn),GDP核算,它的資產(chǎn),它的投資都會(huì)把軟件和數(shù)據(jù)利用起來14。
如果說,“買不如租”是云計(jì)算發(fā)展的基本理念,通過互聯(lián)網(wǎng)接入,租用云計(jì)算平臺(tái)的計(jì)算能力和存儲(chǔ)空間,促進(jìn)了生產(chǎn)性現(xiàn)代服務(wù)業(yè)的發(fā)展;大數(shù)據(jù)分析技術(shù)的使用,則需要使用者更高水平的對(duì)技術(shù)方法的選擇。因此,信息化社會(huì)知識(shí)經(jīng)濟(jì)時(shí)代的統(tǒng)計(jì)數(shù)據(jù)分析技術(shù),將得到普遍的重視;重視大數(shù)據(jù)運(yùn)用,提高統(tǒng)計(jì)工作質(zhì)量,將推動(dòng)大數(shù)據(jù)時(shí)代的大統(tǒng)計(jì)發(fā)展。例如:大熱門產(chǎn)品的總利潤,同冷門產(chǎn)品—長尾產(chǎn)品—的利潤總和相等15?;ヂ?lián)網(wǎng)上無窮大的貨架空間,使得“長尾”式多樣化的產(chǎn)品銷售成為可能。這正是知識(shí)經(jīng)濟(jì)不同于工業(yè)經(jīng)濟(jì)的特點(diǎn),80%的利潤由20%的實(shí)物產(chǎn)品創(chuàng)造,是視稀缺為常態(tài)的反面,知識(shí)經(jīng)濟(jì)的最大特點(diǎn)在于要素的邊際投入成本遞減趨零,可以更好地滿足不同的需求并且開發(fā)出潛在的需求。
5.中國式去IOE16。所謂去“IOE”,是對(duì)去IBM、O racle、EMC的簡稱,三者均為海外IT巨頭,其中IBM代表硬件以及整體解決方案服務(wù)商,O racle代表數(shù)據(jù)庫,EMC代表數(shù)據(jù)存儲(chǔ)。
去“IOE”策略更廣泛的理解是對(duì)一些核心領(lǐng)域,要求其IT系統(tǒng)及設(shè)備做到自主可控,比如金融、電信、能源等領(lǐng)域。
去“IOE”,起源于2010年,阿里巴巴集團(tuán)實(shí)施技術(shù)架構(gòu)調(diào)整,歷時(shí)3年,經(jīng)過1.7萬名內(nèi)部技術(shù)人員的努力,原來只需要上百臺(tái)小型機(jī)的系統(tǒng),被替換成1.5萬臺(tái)x86服務(wù)器,以開放式的內(nèi)部數(shù)據(jù)管理系統(tǒng)來取代IBM小型機(jī)、O racle數(shù)據(jù)庫與EMC存儲(chǔ)設(shè)備的封閉式管理。由技術(shù)轉(zhuǎn)換、商業(yè)變遷和信息安全擔(dān)憂共同驅(qū)動(dòng)的大裂變正在發(fā)生,2014年5月27日,中國氣象局與阿里云達(dá)成戰(zhàn)略合作,共同挖掘氣象大數(shù)據(jù)的深層價(jià)值;海量氣象數(shù)據(jù)將通過阿里云計(jì)算平臺(tái),變成可實(shí)時(shí)分析應(yīng)用的“活數(shù)據(jù)”。這是中國國家部委首次采用民營科技公司提供的云計(jì)算和大數(shù)據(jù)服務(wù)17。
(1)技術(shù)轉(zhuǎn)換。例如阿里巴巴集團(tuán),將采用POWER 7+芯片的IBM的Power系列“小型機(jī)”UN IX服務(wù)器,更換為使用英特爾的“至強(qiáng)”系列芯片的國內(nèi)曙光、浪潮的“PC服務(wù)器”。提高了IT設(shè)備的國產(chǎn)化程度。生產(chǎn)“至強(qiáng)”系列芯片的是英特爾,英特爾繼續(xù)保持世界超級(jí)計(jì)算機(jī)TOP500中提供處理器的最大份額,占了其中的82.4%3。
2013年,英特爾公司提出了“重構(gòu)數(shù)據(jù)中心”的口號(hào)。按照軟件定義的數(shù)據(jù)中心的理念重構(gòu)數(shù)據(jù)中心,使計(jì)算和網(wǎng)絡(luò)很明顯地將從封閉走向開放和標(biāo)準(zhǔn)化,服務(wù)器更多地采用IA架構(gòu),而軟件定義網(wǎng)絡(luò)的一個(gè)基本思想就是,在IA架構(gòu)服務(wù)器上通過軟件實(shí)現(xiàn)網(wǎng)絡(luò)的功能。在存儲(chǔ)新技術(shù)方面,除了閃存以外,英特爾也會(huì)持續(xù)關(guān)注數(shù)據(jù)加密、數(shù)據(jù)壓縮、重復(fù)數(shù)據(jù)刪除等18。
(2)商業(yè)變遷。云計(jì)算技術(shù),是大數(shù)據(jù)應(yīng)用的支撐。出于安全方面的考慮,開放、分布,更適合于“改購為租”的云計(jì)算平臺(tái)營運(yùn)的特點(diǎn)。
(3)產(chǎn)業(yè)化和信息化。上世紀(jì)60年代中期,英特爾創(chuàng)始人之一戈登·摩爾提出來的“摩爾定律”,揭示了信息技術(shù)進(jìn)步的速度,對(duì)信息化社會(huì)進(jìn)程產(chǎn)生了巨大影響。上世紀(jì)90年代中期,微軟創(chuàng)始人比爾·蓋茨預(yù)言:商業(yè)銀行將成為21世紀(jì)的恐龍。
2011年10月19日,國家商務(wù)部新聞發(fā)言人沈丹陽表示19,淘寶商城事件的根本原因在于,目前我國網(wǎng)絡(luò)管理的法律基礎(chǔ)薄弱,網(wǎng)絡(luò)零售領(lǐng)域法律缺失以及監(jiān)管體系的不完善。
互聯(lián)網(wǎng)金融是以互聯(lián)網(wǎng)為資源平臺(tái),以大數(shù)據(jù)和云計(jì)算為基礎(chǔ)的新金融模式20。在國家層面的頂層設(shè)計(jì)一脈相承的是,將互聯(lián)網(wǎng)金融定位為“傳統(tǒng)金融的補(bǔ)充”21。
發(fā)展表明,把自身的運(yùn)作與發(fā)展植根于互聯(lián)網(wǎng)之上,才使得中國商業(yè)銀行進(jìn)入21世紀(jì)以后,不僅沒有成為恐龍,而且還普遍迎來了繁榮發(fā)展的黃金時(shí)期22。據(jù)金融信息提供商SNL Financial報(bào)道23,中國擁有數(shù)量最多的大銀行,全球100強(qiáng)中有14家總部設(shè)在中國。接下來是美國,擁有十家在全球排名前100的大銀行。顯然,將非核心業(yè)務(wù),外包給可以提供相應(yīng)非生產(chǎn)性現(xiàn)代服務(wù)業(yè)的企業(yè),專注提高企業(yè)自身的核心業(yè)務(wù)競爭能力,可以提高企業(yè)的專業(yè)化經(jīng)營水平和規(guī)模。
1.大數(shù)據(jù)的定義。所謂大數(shù)據(jù)(big data),它是指大量以文字、圖片、視頻等形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化,下載到關(guān)系型數(shù)據(jù)庫中無法透過傳統(tǒng)架構(gòu)的信息系統(tǒng)工具挖掘的資訊數(shù)據(jù)24。
完整的商業(yè)智能流程:從各種來源的關(guān)系型數(shù)據(jù)庫出發(fā),提取、轉(zhuǎn)換和整合,將數(shù)據(jù)輸入數(shù)據(jù)倉庫;鎖定目標(biāo)數(shù)據(jù),得到目標(biāo)分析數(shù)據(jù);構(gòu)造聯(lián)機(jī)分析,形成多維立方體;挖掘數(shù)據(jù),發(fā)現(xiàn)的模式和規(guī)律;進(jìn)行評(píng)價(jià)、檢驗(yàn),得到知識(shí)(經(jīng)驗(yàn)提煉);進(jìn)行可視化設(shè)計(jì),得到可視化圖表。
對(duì)于結(jié)構(gòu)化的數(shù)據(jù),有統(tǒng)一結(jié)構(gòu)和格式,便于分析和處理;對(duì)于非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),還涉及到自動(dòng)化出處理問題,將各類數(shù)據(jù)“錄入”存儲(chǔ)設(shè)備的數(shù)據(jù)庫中,例如,ORACLE WEB DEVELOPER SUITE,基于LAN的數(shù)據(jù)庫具有WEB能力。
2.統(tǒng)計(jì)分析方法的應(yīng)用。結(jié)合可視化圖標(biāo)的最終目標(biāo),在量化時(shí),首先將“最終目標(biāo)“所涉及概念操作化,將每一個(gè)概念的范疇、亞概念,具體化為變量、解釋變量和虛擬變量。
采用文獻(xiàn)法中的內(nèi)容分析法25,將文字的、非定量的文獻(xiàn)某種程度地轉(zhuǎn)化為定量數(shù)據(jù)。采用測量層次分類法,確定不同的測量尺度,則某些性質(zhì)的內(nèi)容就變成可測量和可進(jìn)行數(shù)學(xué)運(yùn)算,提高分析結(jié)果的客觀性。
對(duì)變量之間的相關(guān)關(guān)系、因果關(guān)系、虛無關(guān)系進(jìn)行判斷。對(duì)“不是因果關(guān)系,而是相關(guān)關(guān)系”8進(jìn)行定量的評(píng)價(jià)。形成有限多變量的數(shù)據(jù)。
多維度分析,主要基于“分組標(biāo)志”的統(tǒng)計(jì)分組和分布數(shù)列整理,得到分組數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu),展開相關(guān)性分析,采取消元降維技術(shù),在相關(guān)性分析的基礎(chǔ)上進(jìn)行(多元)回歸分析和時(shí)間數(shù)列的預(yù)測分析。對(duì)非線性變化進(jìn)行判斷,數(shù)據(jù)擬合,進(jìn)行擬合優(yōu)良的數(shù)理趨勢(shì)模型選擇。
確定效標(biāo),評(píng)價(jià)效度和信度。對(duì)已轉(zhuǎn)化為數(shù)據(jù)庫中的數(shù)據(jù),可以采用特殊相對(duì)數(shù)形式,指數(shù)化,進(jìn)行因素分析;可以進(jìn)行統(tǒng)計(jì)檢驗(yàn),進(jìn)行顯著性分析。
采用統(tǒng)計(jì)學(xué)圖表學(xué)派的觀點(diǎn),用幾何圖形來顯示結(jié)果,甚至可以達(dá)到3D效果。
3.數(shù)據(jù)庫挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘,大數(shù)據(jù)的管理,OLAP在線分析處理,是一種允許用戶從數(shù)據(jù)庫中提取數(shù)據(jù),并將信息轉(zhuǎn)換為商業(yè)決策中可以使用的信息的方法。從海量數(shù)據(jù)中挖掘不為人知、無法直觀得出的結(jié)論。注重?cái)?shù)據(jù)內(nèi)在聯(lián)系,數(shù)據(jù)倉庫組建,分析系統(tǒng)開發(fā),挖掘算法設(shè)計(jì),甚至很多時(shí)候要處理原始數(shù)據(jù)。可以采用的使用工具,包括海量數(shù)據(jù)庫如O racle、分布式計(jì)算Hadoop、編程語言C++,Java等,也有可能會(huì)用到第三方挖掘工具,如國內(nèi)外股票(期貨)型基金公司使用的各種類量化分析軟件。
4.統(tǒng)計(jì)軟件的應(yīng)用。由于可視化過程屬于不確定型決策分析26,變量發(fā)生的概率,遵循等概率準(zhǔn)則(拉普拉斯準(zhǔn)則)進(jìn)行,為分析過程提供可靠模型和結(jié)果檢驗(yàn),進(jìn)行估計(jì)預(yù)測時(shí),重視穩(wěn)健性分析。比如說兩個(gè)獨(dú)立樣本等方差的t檢驗(yàn)對(duì)等方差的假定是穩(wěn)健的,就是說當(dāng)方差是相同時(shí),檢驗(yàn)統(tǒng)計(jì)量服從精確的t分布;大樣本方法也稱為“漸近方法”或“近似方法”,因?yàn)樗腔诮y(tǒng)計(jì)量的漸近分布,有關(guān)的統(tǒng)計(jì)特性只是近似而非精確的。穩(wěn)健統(tǒng)計(jì)本質(zhì)上屬于參數(shù)統(tǒng)計(jì)的范疇。
數(shù)據(jù)統(tǒng)計(jì),專注于建模及統(tǒng)計(jì)分析,通過概率、統(tǒng)計(jì)、離散化等數(shù)學(xué)知識(shí)建立合理模型,充分發(fā)掘數(shù)據(jù)內(nèi)容。常用工具如:SAS,SPSS、馬克威。OLAP,是一個(gè)建立數(shù)據(jù)系統(tǒng)的方法,作為BI的延伸,對(duì)決策提供有力支撐。核心思想就是建立多維度的數(shù)據(jù)立方體,以維度(Dimension)和度量(Measure)為基本概念,輔以元數(shù)據(jù),實(shí)現(xiàn)可以鉆取、切片、切塊、旋轉(zhuǎn)等靈活、系統(tǒng)、直觀的數(shù)據(jù)展現(xiàn)。這種思想可以被數(shù)據(jù)分析、數(shù)據(jù)挖掘多個(gè)環(huán)節(jié)采用,但需要采用科學(xué)計(jì)算理論論證后進(jìn)行實(shí)踐。
5.在全面質(zhì)量管理中的應(yīng)用。在質(zhì)量管理發(fā)展史上,經(jīng)歷過統(tǒng)計(jì)質(zhì)量控制階段,而且在全面質(zhì)量管理27的新發(fā)展過程中,也大量采用了數(shù)理統(tǒng)計(jì)方法。例如:六西格瑪質(zhì)量水平代表3.4PPM(百萬分之3.4)的缺陷率?!胺€(wěn)健統(tǒng)計(jì)”和“馬爾可夫過程概率模型”,就在六西格瑪質(zhì)量管理中有重要作用。基于數(shù)據(jù)和事實(shí)驅(qū)動(dòng)的管理方法中,六西格瑪管理一開始就澄清什么是衡量企業(yè)業(yè)績的尺度,然后應(yīng)用統(tǒng)計(jì)數(shù)據(jù)和分析方法來建立對(duì)關(guān)鍵變量的理解和獲得優(yōu)化結(jié)果。在測量階段,需要采用大量的因果圖(石川圖,特征要因圖或魚刺圖),用于揭示過程輸出缺陷與問題或與其潛在原因關(guān)系的圖,采用因果矩陣或者層次分析法(AHP),是一種有效的分析工具。在改進(jìn)階段,穩(wěn)健參數(shù)設(shè)計(jì)(也稱健壯設(shè)計(jì)、魯棒設(shè)計(jì)),是工程實(shí)際問題中很有價(jià)值的統(tǒng)計(jì)方法。
6.“企業(yè)一套表”為核心的統(tǒng)計(jì)四大工程建設(shè)是重大統(tǒng)計(jì)革命。2002年4月5日,在依照SNA1993國際標(biāo)準(zhǔn)制定的《中國國民經(jīng)濟(jì)核算體系(2002)》開始逐步實(shí)施之前,中國政府加入了國際貨幣基金組織(IM F)的“數(shù)據(jù)公布通用系統(tǒng)”(GDDS),使得中國的統(tǒng)計(jì)透明度進(jìn)一步提高,被稱為“統(tǒng)計(jì)入世”。
自2011年年報(bào)和2012年定報(bào)起,率先對(duì)全國所有“三上”企業(yè)和房地產(chǎn)開發(fā)經(jīng)營企業(yè)的相關(guān)統(tǒng)計(jì)實(shí)施一套表制度;力爭在“十二五”時(shí)期,對(duì)包括企業(yè)、事業(yè)、行政單位在內(nèi)的所有統(tǒng)計(jì)單位全面實(shí)施一套表制度28。以“企業(yè)一套表”為核心的統(tǒng)計(jì)四大工程建設(shè)是重大統(tǒng)計(jì)革命,目的是為了進(jìn)一步提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。四大工程,就是統(tǒng)一的基本單位名錄庫中的法定調(diào)查單位,按照“企業(yè)一套表”規(guī)范的調(diào)查內(nèi)容,采用統(tǒng)一的處理軟件,將原始數(shù)據(jù)通過互聯(lián)網(wǎng)報(bào)送全國統(tǒng)一的數(shù)據(jù)中心,實(shí)現(xiàn)各級(jí)統(tǒng)計(jì)機(jī)構(gòu)同步可以接收數(shù)據(jù),審核、共享原始數(shù)據(jù),確保數(shù)據(jù)的真實(shí)、準(zhǔn)確、完整和及時(shí)。
7.SNA2008、綠色GDP、包容性財(cái)富核算,必須通過大數(shù)據(jù)分析才能提高統(tǒng)計(jì)核算質(zhì)量。當(dāng)SNA2008推出后,2013年11月18日,國家統(tǒng)計(jì)局官方宣布29,已經(jīng)制定了修訂《中國國民經(jīng)濟(jì)核算體系(2014)》的初步計(jì)劃和初步框架。大數(shù)據(jù)的應(yīng)用,將會(huì)提高SNA2008、綠色GDP、包容性財(cái)富相關(guān)指標(biāo)的數(shù)據(jù)采集質(zhì)量。
2009年2月,聯(lián)合國統(tǒng)計(jì)委員會(huì)第四十次會(huì)議決定將SNA2008作為國民經(jīng)濟(jì)核算的國際統(tǒng)計(jì)標(biāo)準(zhǔn),并鼓勵(lì)所有國家盡可能以此為標(biāo)準(zhǔn)來編輯并報(bào)告其國民經(jīng)濟(jì)賬戶情況。受聯(lián)合國統(tǒng)計(jì)委員會(huì)委托,聯(lián)合國、歐盟、經(jīng)濟(jì)合作與發(fā)展組織、國際貨幣基金組織、世界銀行等五大國際組織發(fā)布了《國民經(jīng)濟(jì)核算體系2008》(SNA2008)。
1993年聯(lián)合國統(tǒng)計(jì)機(jī)構(gòu)出版了《環(huán)境與經(jīng)濟(jì)綜合核算手冊(cè)》(SEEA),提出提出了生態(tài)國內(nèi)產(chǎn)出(EDP)的概念,即綠色GDP。1995年,世界銀行出版了《環(huán)境進(jìn)展的監(jiān)測》,正式提出了綠色GDP國民經(jīng)濟(jì)核算體系的概念,并首次公布了用“擴(kuò)展的財(cái)富”指標(biāo)作為衡量全球或區(qū)域發(fā)展的新指標(biāo)。
2012年6月,里約+20地球峰會(huì),聯(lián)合國環(huán)境規(guī)劃署(UNEP)聯(lián)合其他機(jī)構(gòu)(UNU,IHDP),在本次峰會(huì)上推出第一份全球《包容性財(cái)富報(bào)告2012》(InclusiveW ealthReport2012),其中的“包容性財(cái)富”(InclusiveW ealth)是度量經(jīng)濟(jì)可持續(xù)發(fā)展的新指標(biāo)。導(dǎo),社會(huì)介入,重視大數(shù)據(jù)的應(yīng)用開發(fā),將為SNA2008、綠色GDP核算、包容性指標(biāo)核算質(zhì)量提高奠定基礎(chǔ)。從法律的角度分析,被調(diào)查對(duì)象有義務(wù)配合政府統(tǒng)計(jì)工作開展,也有權(quán)利享有政府提供的公共服務(wù)產(chǎn)品——統(tǒng)計(jì)數(shù)據(jù)發(fā)布服務(wù)的有效供給。政府統(tǒng)計(jì)公告和發(fā)布,是被調(diào)查對(duì)象經(jīng)營決策的重大宏觀數(shù)據(jù)來源之一。
2.重視作為行政管理組成部分的官方統(tǒng)計(jì)數(shù)據(jù)的統(tǒng)計(jì)質(zhì)量提高的同時(shí),也要重視規(guī)范民間統(tǒng)計(jì)、涉外統(tǒng)計(jì)活動(dòng)對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的影響,嚴(yán)格統(tǒng)計(jì)執(zhí)法,規(guī)范信息管理,及時(shí)發(fā)布適應(yīng)社會(huì)發(fā)展的統(tǒng)計(jì)標(biāo)準(zhǔn),應(yīng)引起足夠的重視。
3.在統(tǒng)計(jì)學(xué)的技術(shù)和方法方面,一方面,要求精確化,重視邏輯演繹,運(yùn)用高超的測量技術(shù),例如生化實(shí)驗(yàn)數(shù)據(jù),再結(jié)合數(shù)學(xué)知識(shí),重視數(shù)據(jù)挖掘,驗(yàn)證結(jié)論,例如藥物的臨床實(shí)驗(yàn);另一方面,要求普遍性,重視邏輯歸納,應(yīng)用全面的量化測算數(shù)據(jù),實(shí)踐從定性分析到定量統(tǒng)計(jì)的經(jīng)驗(yàn)數(shù)據(jù)歸納,重視數(shù)據(jù)分析,使用分析結(jié)果指導(dǎo)進(jìn)一步的實(shí)踐,例如皮爾遜經(jīng)驗(yàn)公式和索羅公式。因此,應(yīng)重視以IT技術(shù)發(fā)展為基礎(chǔ),實(shí)現(xiàn)統(tǒng)計(jì)具體功能信息、咨詢和監(jiān)督功能的統(tǒng)一協(xié)調(diào)和產(chǎn)業(yè)化發(fā)展,才能提高統(tǒng)計(jì)的整體服務(wù)能力。
4.通過研究作為統(tǒng)計(jì)數(shù)據(jù)采集的源頭(統(tǒng)計(jì)元)之一的大數(shù)據(jù),使統(tǒng)計(jì)描述更為全面,統(tǒng)計(jì)推斷更加準(zhǔn)確,統(tǒng)計(jì)決策的自動(dòng)化、智能化程度得到提高,將改善國民經(jīng)濟(jì)核算數(shù)據(jù)質(zhì)量,推動(dòng)科學(xué)發(fā)展觀的實(shí)踐。
因此,在全球低碳化掀起的第四次浪潮正在加速來臨之際,技術(shù)進(jìn)步、商業(yè)新業(yè)態(tài),是高碳中國進(jìn)行創(chuàng)新轉(zhuǎn)型的難得機(jī)遇,大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新發(fā)展,應(yīng)該引起足夠的重視,包括理論重視、政策支持、法律明確、統(tǒng)計(jì)標(biāo)準(zhǔn)實(shí)施等,迎接大數(shù)據(jù)時(shí)代的發(fā)展。
1.加入GDDS,是公正透明統(tǒng)計(jì)發(fā)展的必然結(jié)果,有利于國際交流。政府主
注釋:
1阿爾文·托夫勒著,黃明堅(jiān)譯.第三次浪潮[M].北京:中信出版社,2006
2韓琮林.我國首個(gè)大數(shù)據(jù)交易行業(yè)規(guī)范出臺(tái)[N].北京:北京商報(bào),2014.6.23
3楊輝,劉時(shí)良.“天河二號(hào)”再登全球超算500強(qiáng)榜首[N].廣州:羊城晚報(bào),2013.11.21
4[美]尼葛洛·龐帝著,胡泳等譯.數(shù)字化生存[M].北京:中信出版社,1997
5小智搜索.巨頭財(cái)報(bào)背后看分歧:百度向左谷歌向右[EB.青島:IT之家網(wǎng)站,2014.7.28
6張霖云.計(jì)算中國爭奪戰(zhàn):IBM亞馬遜決戰(zhàn)紫禁城[EB].北京:IT經(jīng)理網(wǎng),20131223
7陳國豪.IBM大中華區(qū)云計(jì)算總經(jīng)理陳國豪:擁抱云時(shí)代——云計(jì)算驅(qū)動(dòng)業(yè)務(wù)前行[EB].CSDN網(wǎng)站,2014.5.22
8維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.盛楊燕,周濤譯.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M]杭州:浙江人民出版社,2013
9黃遠(yuǎn).軟件業(yè)陷虧損潮,金蝶用友借“云”轉(zhuǎn)型[N].上海:第一財(cái)經(jīng)日?qǐng)?bào),2012.1.18
10張家僡.麥肯錫:互聯(lián)網(wǎng)將在中國GDP增長總量中貢獻(xiàn)7%到22%[EB].北京:財(cái)經(jīng)網(wǎng),2014.7.28
11魏博.第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(全文)[R].北京:中國發(fā)展門戶網(wǎng),2014.7.23
12OFweek通信網(wǎng).5G愿景與需求白皮書:挑戰(zhàn)不容忽視[R].深圳:通信網(wǎng),2014.6
13涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,一技它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學(xué)出版社,2012
14樊明太.中國社會(huì)科學(xué)院樊明太:大數(shù)據(jù)與新經(jīng)濟(jì)的結(jié)合及趨勢(shì)[R].香港:鳳凰網(wǎng)站商業(yè),2013.12.18
15克里斯·安德森著,喬江濤譯.長尾理論[M].北京:中信出版社,2006
16封面文章.中國式去IOE[J].北京,2014(23)
17黃遠(yuǎn).氣象局與阿里云合作:國家部委首向民企采購云計(jì)算[N].上海:第一財(cái)經(jīng)日?qǐng)?bào),2014.5.28
18郭濤.應(yīng)用驅(qū)動(dòng)數(shù)據(jù)中心變革.中國計(jì)算機(jī)報(bào)[N],2014(3)
19沈丹陽.商務(wù)部:淘寶事件源于監(jiān)管體系薄弱[N].北京:新京報(bào),2011.10.20
20中國互聯(lián)網(wǎng)金融發(fā)展報(bào)告(2013)[R].北京:中國網(wǎng)站,2014.2.7
21李德尚玉.解碼互聯(lián)網(wǎng)金融監(jiān)管路線圖[N].上海:第一財(cái)經(jīng)日?qǐng)?bào),2014-07-30
22樊志剛,黃旭,胡婕.互聯(lián)網(wǎng)挑戰(zhàn)銀行——誰是21世紀(jì)的恐龍[M].北京:中國金融出版社,2014
23Halah Touryalai著,陳瑋譯.全球銀行100強(qiáng):工行第一,美資銀行無緣前五[R].上海:福布斯中文網(wǎng),2014.3.12
24夏南新.繼續(xù)教育專業(yè)科目課程講義[G].廣州:中山大學(xué)嶺南(大學(xué))學(xué)院,2014
25張彥.社會(huì)研究方法[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2011
26徐國祥.管理統(tǒng)計(jì)學(xué)[M].上海:上海財(cái)經(jīng)大學(xué)出版社,1995
27馬林.六西格瑪管理[M].北京:中國人民大學(xué)出版社,2004
28國家統(tǒng)計(jì)局.關(guān)于實(shí)施企業(yè)一套表統(tǒng)計(jì)改革的通知(國統(tǒng)字〔2011〕95號(hào))
29新華網(wǎng).國家統(tǒng)計(jì)局將對(duì)現(xiàn)行國民經(jīng)濟(jì)核算體系進(jìn)行修訂[EB],新華網(wǎng)站,20131118
30國家統(tǒng)計(jì)局網(wǎng)站
(作者單位:東莞理工學(xué)院繼續(xù)教育學(xué)院 廣東東莞 523808)
(責(zé)編:若佳)
F275.5
A
1004-4914(2014)10-277-04