国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)的前世、今生和未來(lái)

2014-06-28 01:00薛一波
中興通訊技術(shù) 2014年3期
關(guān)鍵詞:關(guān)聯(lián)分析大數(shù)據(jù)

薛一波

摘要: 分析了大數(shù)據(jù)產(chǎn)生的原因,闡述了大數(shù)據(jù)的作用、價(jià)值以及所面臨的問(wèn)題。認(rèn)為大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型,其科學(xué)價(jià)值和社會(huì)價(jià)值主要體現(xiàn)在兩個(gè)方面:一方面,大數(shù)據(jù)不僅可以發(fā)現(xiàn)事物的顯式規(guī)律,而且可以挖掘事物的隱式規(guī)律和潛在價(jià)值;另一方面,大數(shù)據(jù)可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的源泉,撼動(dòng)世界的各個(gè)方面。

關(guān)鍵詞: 大數(shù)據(jù);關(guān)聯(lián)分析;數(shù)據(jù)科學(xué)

Abstract: This paper analyzes the reasons that big data is generated. It then describes big data in terms of effects, value, and issues. Now, big data is opening a new era of development and presents good opportunities. The science and social values of big data focus on two aspects. On the one hand, big data can discover explicit laws and also dig up implicit laws and potential value. On the other hand, big data can be changed into the fountain of economic value and shake all aspects of the world.

Key words: big data; correlation analysis; data science

1 大數(shù)據(jù)的前世

大數(shù)據(jù)沒(méi)有“前世”,只有“今生”和“未來(lái)”。

2 大數(shù)據(jù)的今生

Google每個(gè)月要處理900億次的Web搜索,數(shù)據(jù)量高達(dá)600 PB;百度擁有數(shù)千億的網(wǎng)頁(yè),同時(shí)數(shù)據(jù)總量接近1 000 PB;Facebook是全球最大的在線社交網(wǎng)絡(luò),用戶人數(shù)達(dá)12.3億,日活躍人數(shù)達(dá)7.57億,日均消息量達(dá)10億條;Twitter用戶數(shù)突破5億,日活躍人數(shù)2.4億,日均消息量2.3億條;騰訊QQ目前擁有8億互聯(lián)網(wǎng)用戶、4億移動(dòng)用戶,數(shù)據(jù)量經(jīng)壓縮處理后約100 PB,并且這一數(shù)據(jù)還在以日新增200 TB到300 TB、月增加10%的數(shù)據(jù)量不斷增長(zhǎng)。

2013年中國(guó)產(chǎn)生的數(shù)據(jù)總量超過(guò)0.8 ZB,是2012年中國(guó)產(chǎn)生的數(shù)據(jù)總量的2倍,相當(dāng)于2009年全球的數(shù)據(jù)總量。預(yù)計(jì)到2020年,中國(guó)產(chǎn)生的數(shù)據(jù)總量將是2013年的10倍,超過(guò)8.5 ZB[1]。

2.1大數(shù)據(jù)的起因

(1)數(shù)字化。由于計(jì)算機(jī)的出現(xiàn),使得人類可以用數(shù)字化的“眼睛”來(lái)觀測(cè)和處理整個(gè)世界,數(shù)字化意味著可以從大千世界的一切事物中汲取信息。數(shù)字化是大數(shù)據(jù)的手段。

(2)移動(dòng)化。隨著智能手機(jī)、移動(dòng)終端、便攜設(shè)備的快速普及,推動(dòng)了移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,使得人們可以快速、實(shí)時(shí)、便捷地產(chǎn)生、分享和獲取數(shù)據(jù)。移動(dòng)化是大數(shù)據(jù)產(chǎn)生的原因之一,主要是人在產(chǎn)生數(shù)據(jù)。

(3)物聯(lián)化。隨著物聯(lián)網(wǎng)的快速發(fā)展,世上萬(wàn)物皆有生命,既能被感知(傳感網(wǎng)),又能感知“它”(物聯(lián)網(wǎng)),還能共分享(網(wǎng)絡(luò)化);隨著物聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展,感知的廣度和深度都將會(huì)逐步地加大,不可避免地會(huì)產(chǎn)生數(shù)據(jù)的“海洋”。物聯(lián)網(wǎng)是大數(shù)據(jù)產(chǎn)生的原因之二,主要是物在產(chǎn)生數(shù)據(jù)。

(4)社會(huì)化。好奇、求知和交流是人類永恒的渴求,社會(huì)網(wǎng)絡(luò)的出現(xiàn)滿足了人們實(shí)時(shí)交流、分享信息、抒發(fā)情感、尋求朋友的愿望,因而得到了迅猛的發(fā)展,社會(huì)網(wǎng)絡(luò)每時(shí)、每刻、每地產(chǎn)生數(shù)據(jù)。社會(huì)化是大數(shù)據(jù)產(chǎn)生的原因之三,主要是人和人、人和物的交流在產(chǎn)生數(shù)據(jù)。

(5)網(wǎng)絡(luò)化。隨著網(wǎng)絡(luò)用戶的增加、帶寬的增大以及新應(yīng)用的不斷出現(xiàn),信息的產(chǎn)生和傳播更快、更廣、更深。網(wǎng)絡(luò)化是大數(shù)據(jù)產(chǎn)生的原因之四,主要是傳播在產(chǎn)生數(shù)據(jù)。

當(dāng)然產(chǎn)生大數(shù)據(jù)的原因還有很多,如精度的提升可能使數(shù)據(jù)量指數(shù)不斷增長(zhǎng),原來(lái)一張照片的數(shù)據(jù)量不到1 MB,現(xiàn)在可能超過(guò)10 MB;再如視頻監(jiān)控的普及、多媒體應(yīng)用的增多,都產(chǎn)生了大數(shù)據(jù)。

總之,大數(shù)據(jù)是一種“現(xiàn)象”,是眾多新技術(shù)和新應(yīng)用產(chǎn)生的結(jié)果。

2.2 大數(shù)據(jù)的特點(diǎn)

大數(shù)據(jù)不僅是指其數(shù)據(jù)量大,而且還有很多特點(diǎn),目前公認(rèn)的至少有4個(gè)特點(diǎn):體量大、形式多、時(shí)效強(qiáng)、價(jià)值大 [2]。

·體量大主要指范圍廣、規(guī)模大、容量大,通??梢赃_(dá)到PB級(jí),甚至達(dá)到EB、ZB級(jí),其中以非結(jié)構(gòu)化數(shù)據(jù)居多,占總數(shù)據(jù)量的80%~90%,其增長(zhǎng)的速度比結(jié)構(gòu)化數(shù)據(jù)還要快10~50倍。

·形式多主要指數(shù)據(jù)類型,具有異構(gòu)性和多樣性,很多不同形式(文本、音頻、圖像、視頻)的數(shù)據(jù)共存,數(shù)據(jù)沒(méi)有特征模式或者特征模式不明顯,缺乏語(yǔ)法和語(yǔ)義,具有很強(qiáng)的混雜性和模糊性。

·時(shí)效強(qiáng)主要指時(shí)效性強(qiáng),要求實(shí)時(shí)分析,希望立竿見影而非事后見效,因此需要強(qiáng)大的計(jì)算處理能力和及時(shí)的數(shù)據(jù)服務(wù)。

·價(jià)值大主要指知識(shí)的聚合、產(chǎn)生的價(jià)值大,大數(shù)據(jù)具有大量的不相關(guān)信息,價(jià)值密度相對(duì)較低,需要復(fù)雜的統(tǒng)計(jì)、關(guān)聯(lián)、挖掘和深度分析,來(lái)對(duì)顯式規(guī)律、隱式規(guī)律、未知規(guī)律、發(fā)展趨勢(shì)等進(jìn)行分析和預(yù)測(cè)。

2.3大數(shù)據(jù)的作用

對(duì)于大數(shù)據(jù),你信與不信,它已存在;你喜不喜歡,它迅猛而來(lái)。

對(duì)于大數(shù)據(jù),你用它就會(huì)有用,就會(huì)產(chǎn)生價(jià)值;你不用它就是垃圾,而且不只是垃圾。

(1)大數(shù)據(jù)的負(fù)面影響

任何事物都有兩面性,大數(shù)據(jù)亦如此!

·信息垃圾。大數(shù)據(jù)的規(guī)模大、冗余多、類型復(fù)雜,如果不能加以利用,它就是信息垃圾。另外還需要大量的存儲(chǔ)資源、計(jì)算資源和人力資源來(lái)維護(hù)和處理,需要消耗大量的能源,不利于可持續(xù)發(fā)展。因此我們需要倡導(dǎo)健康的信息觀念,不要隨意產(chǎn)生和傳播信息垃圾。

·隱私威脅?;ヂ?lián)網(wǎng)已經(jīng)對(duì)用戶的隱私產(chǎn)生很大的影響,在大數(shù)據(jù)時(shí)代隱私威脅會(huì)更加嚴(yán)重。通過(guò)大數(shù)據(jù)可以獲得一個(gè)用戶更多的信息,并且通過(guò)關(guān)聯(lián)分析,可以獲取其行為軌跡、興趣愛好、社會(huì)關(guān)系、買賣信息等,對(duì)用戶的隱私安全造成了極大的威脅。

·數(shù)據(jù)濫用。大數(shù)據(jù)的價(jià)值不再單純來(lái)源于它的基本用途,而更多源于它的二次或多次利用,會(huì)產(chǎn)生許多不可預(yù)見的影響,這些影響會(huì)有意或無(wú)意地威脅到用戶的切身利益和隱私安全。如果被用于惡意濫用,甚至?xí)?yán)重侵犯用戶的人身和財(cái)產(chǎn)等安全。

(2)大數(shù)據(jù)的正面作用

垃圾也可變廢為寶,大數(shù)據(jù)亦是如此!

·發(fā)現(xiàn)規(guī)律。以前人類只能“以一斑而窺全局”,經(jīng)常是“瞎子摸象”,只知其一不知其二。有了大數(shù)據(jù),我們就有了感知世界和認(rèn)識(shí)世界的能力和手段,不僅通過(guò)簡(jiǎn)單的統(tǒng)計(jì)分析就可以發(fā)現(xiàn)事物的顯式規(guī)律,而且通過(guò)深入的挖掘可以發(fā)現(xiàn)事物的隱式規(guī)律,可以做到全面、實(shí)時(shí)、準(zhǔn)確地認(rèn)識(shí)世界和感知世界。

·關(guān)聯(lián)分析。一個(gè)數(shù)據(jù)可能沒(méi)有意義或價(jià)值,但數(shù)據(jù)多了,不僅可以探測(cè)數(shù)據(jù)之間的因果關(guān)系(縱向,解決事出有因的問(wèn)題),而且可以分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系(橫向,解決相互作用的問(wèn)題),通過(guò)幾個(gè)維度可以更加清晰和準(zhǔn)確地分析一個(gè)事物的全貌。

當(dāng)數(shù)據(jù)以數(shù)量級(jí)方式增長(zhǎng)的時(shí)候,可以觀察到許多似是而非的關(guān)聯(lián)關(guān)系,通過(guò)大數(shù)據(jù)的關(guān)聯(lián)性分析可以更準(zhǔn)確、更快捷地獲得全貌信息和潛在價(jià)值,并且不受偏見的影響。關(guān)聯(lián)性分析通過(guò)探求“是什么”,而不是“為什么”,可以更好地了解世界,掌握以前無(wú)法理解的復(fù)雜技術(shù)和社會(huì)動(dòng)態(tài)。

·輔助決策。通過(guò)大數(shù)據(jù)的分析,可以建立和刻畫事物的行為軌跡和生命周期,繼而可以輔助用戶做出決策。例如,商業(yè)追蹤和交易分析等報(bào)告形式的輔助決策;故障分析、異常檢測(cè)等診斷形式的輔助決策;產(chǎn)品評(píng)測(cè)、廣告投放等評(píng)估形式的輔助決策等。大數(shù)據(jù)有價(jià)值的一個(gè)很重要原因就是它能夠幫助我們做出決策。

·趨勢(shì)預(yù)測(cè)。通過(guò)大數(shù)據(jù),不僅可以分析和掌握事物的發(fā)展規(guī)律,而且可以預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),進(jìn)行態(tài)勢(shì)感知,做到未雨綢繆。大數(shù)據(jù)是人們獲得新認(rèn)知、創(chuàng)造新價(jià)值的源泉。

大數(shù)據(jù)正如火如荼地在業(yè)界展開應(yīng)用,典型的代表就是互聯(lián)網(wǎng)巨頭:Google、Amazon、Facebook等。隨著大數(shù)據(jù)的演進(jìn),不僅越來(lái)越多的互聯(lián)網(wǎng)企業(yè)會(huì)進(jìn)入大數(shù)據(jù)的產(chǎn)業(yè),而且更多的傳統(tǒng)企業(yè)也會(huì)進(jìn)軍大數(shù)據(jù)。

3 大數(shù)據(jù)的未來(lái)

大數(shù)據(jù)即將引發(fā)第3次科技浪潮和技術(shù)變革,既是我們的機(jī)遇,也是面臨的挑戰(zhàn)。

(1)“數(shù)據(jù)科學(xué)”的出現(xiàn)。任何事物都會(huì)由量變引發(fā)質(zhì)變,大數(shù)據(jù)也是如此!大數(shù)據(jù)不斷的快速膨脹,可能很快就會(huì)超出我們的認(rèn)知和處理能力,需要新的科學(xué)理論,去引發(fā)新的學(xué)科——數(shù)據(jù)科學(xué);需要新的數(shù)學(xué)理論、計(jì)算模型和處理方法,去引發(fā)多元?jiǎng)?chuàng)新。

(2)思維理念的轉(zhuǎn)變。大數(shù)據(jù)不是一個(gè)概念,而是一個(gè)思維理念,需要對(duì)傳統(tǒng)的思維理念進(jìn)行5個(gè)方面的轉(zhuǎn)變。第1個(gè)轉(zhuǎn)變是:在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),甚至是某個(gè)事物的全集數(shù)據(jù),并且“樣本”可以等于“總體”,因此我們可以洞察全局、整體和所有,而不是需要隨機(jī)抽樣和多級(jí)抽樣;第2個(gè)轉(zhuǎn)變是:在大數(shù)據(jù)時(shí)代,因?yàn)閿?shù)據(jù)量非常龐大,我們可以不再熱衷于追求精確性,而是可以適當(dāng)忽略微觀層面的精確性而專注于宏觀層面的洞察力,偏重于用概率說(shuō)話,接受混亂和不精確性,我們可能會(huì)因此打開一扇新的窗戶,寬容錯(cuò)誤可能會(huì)帶來(lái)更多價(jià)值;第3個(gè)轉(zhuǎn)變是:在大數(shù)據(jù)時(shí)代,尋找因果關(guān)系不再是長(zhǎng)久以來(lái)的習(xí)慣,我們將更側(cè)重于尋找事物之間的關(guān)聯(lián)關(guān)系,這會(huì)讓我們發(fā)現(xiàn)新的潛在價(jià)值,這正是大數(shù)據(jù)的關(guān)鍵;第4個(gè)轉(zhuǎn)變是:大數(shù)據(jù)時(shí)代的簡(jiǎn)單算法比小數(shù)據(jù)時(shí)代的復(fù)雜算法更有效,所以我們要尋找更為有效的簡(jiǎn)單算法;第5個(gè)轉(zhuǎn)變是:數(shù)據(jù)的價(jià)值從基本用途轉(zhuǎn)變?yōu)闈撛谟猛?,?shù)據(jù)的價(jià)值不會(huì)隨著它的使用而減少,而是可以不斷地被處理和利用,并不斷地產(chǎn)生價(jià)值,即數(shù)據(jù)可以被無(wú)限利用,而不是一次性消費(fèi)[3]。

(3)全面數(shù)據(jù)的掌握。大數(shù)據(jù)的核心是數(shù)據(jù),誰(shuí)擁有數(shù)據(jù),誰(shuí)就有話語(yǔ)權(quán),誰(shuí)就能搶占制高點(diǎn)。因此,一是要花大氣力全面、實(shí)時(shí)、準(zhǔn)確地獲取數(shù)據(jù),這是“本”;二是要對(duì)大數(shù)據(jù)進(jìn)行科學(xué)的分析、規(guī)范、整理,洞察數(shù)據(jù)的豐富特性,這對(duì)數(shù)據(jù)的分析和利用可以起到事半功倍的效果!

(4)潛在價(jià)值的挖掘。有了大數(shù)據(jù),掌握了多個(gè)數(shù)據(jù)源,就可以從多個(gè)角度把握事物。更為重要的是,大數(shù)據(jù)之間存在著相互聯(lián)系,通過(guò)關(guān)聯(lián)性分析可以獲得潛在價(jià)值,可以創(chuàng)造新的發(fā)現(xiàn),并預(yù)測(cè)未來(lái)。大數(shù)據(jù)的精髓就是挖掘出龐大數(shù)據(jù)中一些獨(dú)有的價(jià)值!

(5)核心技術(shù)的研發(fā)。有了數(shù)據(jù),有了需求,就要研究和提出合適的統(tǒng)計(jì)、分析、挖掘、關(guān)聯(lián)和預(yù)測(cè)模型,設(shè)計(jì)高效的處理方法和手段,構(gòu)建精細(xì)的處理流程,設(shè)計(jì)精美的可視化界面和工具,做出一個(gè)好的大數(shù)據(jù)分析系統(tǒng)和產(chǎn)品,從而發(fā)現(xiàn)規(guī)律、產(chǎn)生價(jià)值,為客戶乃至世界帶來(lái)新的價(jià)值增長(zhǎng)。

4 結(jié)束語(yǔ)

大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型,大數(shù)據(jù)的科學(xué)價(jià)值和社會(huì)價(jià)值主要體現(xiàn)在兩個(gè)方面:一方面大數(shù)據(jù)可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的源泉;另一方面,大數(shù)據(jù)已經(jīng)開始撼動(dòng)世界的各個(gè)方面。

大數(shù)據(jù)蘊(yùn)藏著巨大的寶藏,就像傳統(tǒng)的石油、天然氣、金礦等一樣,就看你是否有能力挖到?能挖到多少?大數(shù)據(jù)的時(shí)代洶涌而來(lái),我們要迎頭而上,避免錯(cuò)失良機(jī)!

參考文獻(xiàn)

[1] 大數(shù)據(jù)史記2013:盤點(diǎn)中國(guó)2013行業(yè)數(shù)據(jù)量[EB/OL]. http://www.36dsj.com/archives/6285

[2] 城田真琴.大數(shù)據(jù)的沖擊[M].周自恒,譯.北京:人民郵電出版社, 2013.

[3] 維克托.邁爾-舍恩伯格, 肯尼恩.庫(kù)克, 大數(shù)據(jù)時(shí)代-生活、工作與思維的大變革[M].盛楊燕、周濤,譯. 杭州: 浙江人民出版社, 2013.

猜你喜歡
關(guān)聯(lián)分析大數(shù)據(jù)
玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
關(guān)聯(lián)分析技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
不同的數(shù)據(jù)挖掘方法分類對(duì)比研究