陳陵
(重慶工貿(mào)職業(yè)技術(shù)學(xué)院)
【摘要】本文對(duì)大數(shù)據(jù)從定義、到分析方法及應(yīng)用作了較詳細(xì)的講解,希望對(duì)想了解大數(shù)據(jù)的人有所幫助。
【關(guān)鍵詞】大數(shù)據(jù) 分析 應(yīng)用
“大數(shù)據(jù)”是目前最流行的詞匯,其實(shí)它就是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
大約從2009年開始,“大數(shù)據(jù)”才流行于互聯(lián)網(wǎng)信息技術(shù)行業(yè)的。美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓⒎环?,而目前世界?0%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無(wú)數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。
大數(shù)據(jù)時(shí)代的超大數(shù)據(jù)體量和占相當(dāng)比例的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)庫(kù)的管理能力,大數(shù)據(jù)技術(shù)將是IT領(lǐng)域新一代的技術(shù)與架構(gòu),它將幫助人們存儲(chǔ)管理好大數(shù)據(jù)并從大體量、高復(fù)雜的數(shù)據(jù)中提取價(jià)值,相關(guān)的技術(shù)、產(chǎn)品將不斷涌現(xiàn),將有可能給IT行業(yè)開拓一個(gè)新的黃金時(shí)代。
大數(shù)據(jù)本質(zhì)也是數(shù)據(jù),其關(guān)鍵的技術(shù)依然逃不脫:大數(shù)據(jù)存儲(chǔ)和管理;大數(shù)據(jù)檢索使用(包括數(shù)據(jù)挖掘和智能分析)。圍繞大數(shù)據(jù),一批新興的數(shù)據(jù)挖掘、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析技術(shù)將不斷涌現(xiàn),讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為企業(yè)業(yè)務(wù)經(jīng)營(yíng)的好助手,甚至可以改變?cè)S多行業(yè)的經(jīng)營(yíng)方式。
大數(shù)據(jù)處理數(shù)據(jù)時(shí)代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實(shí)有很多,但是根據(jù)長(zhǎng)時(shí)間的實(shí)踐,筆者總結(jié)了一個(gè)基本的大數(shù)據(jù)處理流程,并且這個(gè)流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,以及挖掘。
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫(kù)來進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果??梢暬墙o人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。
真正的革命并不在于分析數(shù)據(jù)的機(jī)器,而在于數(shù)據(jù)本身和我們?nèi)绾芜\(yùn)用數(shù)據(jù)。一旦把統(tǒng)計(jì)學(xué)和現(xiàn)在大規(guī)模的數(shù)據(jù)融合在一起,將會(huì)顛覆很多我們?cè)瓉淼乃季S。所以現(xiàn)在能夠變成數(shù)據(jù)的東西越來越多,計(jì)算和處理數(shù)據(jù)的能力越來越強(qiáng),所以大家突然發(fā)現(xiàn)這個(gè)東西很有意思。所以,大數(shù)據(jù)能干啥?能干很多很有意思的事情。大數(shù)據(jù)的核心就是預(yù)測(cè),大數(shù)據(jù)能夠預(yù)測(cè)體現(xiàn)在很多方面。大數(shù)據(jù)不是要教機(jī)器像人一樣思考,相反,它是把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測(cè)事情發(fā)生的可能性。正因?yàn)樵诖髷?shù)據(jù)規(guī)律面前,每個(gè)人的行為都跟別人一樣,沒有本質(zhì)變化,所以商家會(huì)比消費(fèi)者更了消費(fèi)者的行為。
在2008年次貸危機(jī)渡過之后,華爾街并未終止這次危機(jī)的風(fēng)險(xiǎn)根源——信貸業(yè)務(wù)。相反,各大銀行將個(gè)人、組織儲(chǔ)蓄、支付、信貸記錄數(shù)據(jù)連通、分享并進(jìn)行外包分析,利用數(shù)據(jù)類別的交叉關(guān)聯(lián)建立風(fēng)險(xiǎn)模型,提前分析預(yù)測(cè)出不良信貸的可能性,從而避免金融信用產(chǎn)品的濫發(fā),增強(qiáng)預(yù)監(jiān)管。在我國(guó),阿里、騰訊、京東等大型電商,均已引入了基于瀏覽與購(gòu)買記錄的消費(fèi)傾向分析系統(tǒng),對(duì)商家的推廣策略、供應(yīng)鏈管理等方面起到了重大促進(jìn)作用。
美國(guó)有一家創(chuàng)新企業(yè)Decide.com,它可以幫助人們做購(gòu)買決策,告訴消費(fèi)者什么時(shí)候買什么產(chǎn)品,什么時(shí)候買最便宜,預(yù)測(cè)產(chǎn)品的價(jià)格趨勢(shì),這家公司背后的驅(qū)動(dòng)力就是大數(shù)據(jù)。他們?cè)谌蚋鞔缶W(wǎng)站上搜集數(shù)以十億計(jì)的數(shù)據(jù),然后幫助數(shù)以十萬(wàn)計(jì)的用戶省錢,為他們的采購(gòu)找到最好的時(shí)間,降低交易成本,為終端的消費(fèi)者帶去更多價(jià)值。
美國(guó)教育部門對(duì)大數(shù)據(jù)的運(yùn)用主要是創(chuàng)造了“學(xué)習(xí)分析系統(tǒng)”——一個(gè)數(shù)據(jù)挖掘、模化和案例運(yùn)用的聯(lián)合框架。這些“學(xué)習(xí)分析系統(tǒng)”旨在向教育工作者提供了解學(xué)生到底是在“怎樣”學(xué)習(xí)的更多、更好、更精確的信息。舉例來說,一個(gè)學(xué)生成績(jī)不好是由于他因?yàn)橹車h(huán)境而分心了嗎?期末考試不及格是否意味著該學(xué)生并沒有完全掌握這一學(xué)期的學(xué)習(xí)內(nèi)容,還是因?yàn)樗?qǐng)了很多病假的緣故?利用大數(shù)據(jù)的學(xué)習(xí)分析能夠向教育工作者提供有用的信息,從而幫助其回答這些不太好回答的現(xiàn)實(shí)問題。
所有,我們應(yīng)好好學(xué)習(xí)大數(shù)據(jù)、研究大數(shù)據(jù)、用好大數(shù)據(jù)。
參考文獻(xiàn):[1]伊恩·艾瑞斯,主編 大數(shù)據(jù)思維與決策 人民郵電出版社
[2]楊光霞,主編,SPSS數(shù)據(jù)統(tǒng)計(jì)與分析 清華大學(xué)出版社