陳強(qiáng)
摘要:當(dāng)下我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,大數(shù)據(jù)與我們的日常生活息息相關(guān)。本文介紹了常見的大數(shù)據(jù)分析方法,大數(shù)據(jù)如何收集處理數(shù)據(jù),以及大數(shù)據(jù)以直觀有價(jià)值的信息呈現(xiàn)的可視化,最后本文分析了大數(shù)據(jù)發(fā)展過程中的機(jī)遇與挑戰(zhàn)
關(guān)鍵詞:大數(shù)據(jù)、數(shù)據(jù)可視化、大數(shù)據(jù)分析算法
一、大數(shù)據(jù)的介紹
隨著社會(huì)的發(fā)展,如今我們已經(jīng)進(jìn)入了互聯(lián)網(wǎng)時(shí)代,[1]圖靈獎(jiǎng)的獲得者杰姆·格雷(Jim Gray)提出了著名的摩爾定律即每十八個(gè)月全球新增的信息量時(shí)有史以來所有信息的總和,我們?cè)谶M(jìn)入互聯(lián)網(wǎng)時(shí)代的同時(shí)也進(jìn)入了大數(shù)據(jù)時(shí)代。在傳統(tǒng)的生產(chǎn)方式下,數(shù)據(jù)的記錄是通過人工記錄下來的。人們進(jìn)入信息時(shí)代后,數(shù)據(jù)的產(chǎn)生是自動(dòng)化的。[2]大數(shù)據(jù)的產(chǎn)生伴隨著4V+1C地特征。(1)數(shù)據(jù)量大(Volume):存儲(chǔ)數(shù)據(jù)的特別巨大,在大數(shù)據(jù)時(shí)代數(shù)據(jù)的數(shù)量級(jí)PB級(jí)是常態(tài)。(2)多樣(Variety):大數(shù)據(jù)時(shí)代數(shù)據(jù)來源不同于傳統(tǒng)的數(shù)據(jù)收集,數(shù)據(jù)的來源多種多樣數(shù)據(jù)的格式也非常多,除了傳統(tǒng)地結(jié)構(gòu)化數(shù)據(jù)之外,還有半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),此外,隨著人類活動(dòng)的擴(kuò)展和科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)的格式將會(huì)更加多樣(3)快速(Velocity):當(dāng)下的數(shù)據(jù)增長速度非???,并且越新的數(shù)據(jù)價(jià)值越大(4)價(jià)值密度低(Value):大數(shù)據(jù)環(huán)境下收集的信息多種多樣,有實(shí)際價(jià)值的數(shù)據(jù)比例較低,需要對(duì)收集的數(shù)據(jù)進(jìn)行處理,通過數(shù)據(jù)分析處理挖掘數(shù)據(jù)中的價(jià)值,因此,在大數(shù)據(jù)環(huán)境下需要一種成本可接受的條件下,在通過分析和發(fā)現(xiàn),從大量的數(shù)據(jù)中提取數(shù)據(jù)價(jià)值。
二、大數(shù)據(jù)的分析方法
在當(dāng)下流行的大數(shù)據(jù)應(yīng)用中,關(guān)鍵的問題在于如何使用統(tǒng)一的數(shù)學(xué)模型去表示數(shù)據(jù)以便進(jìn)行數(shù)據(jù)挖掘和分析任務(wù),對(duì)于不同的表示格式,處理起來十分繁瑣,所以需要對(duì)大數(shù)據(jù)的可行性與實(shí)用性進(jìn)行分析。
2.1統(tǒng)計(jì)分析
在大數(shù)據(jù)的時(shí)代,快速進(jìn)步的大型數(shù)據(jù)倉庫與算法,數(shù)據(jù)挖掘的也越來越重要,對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘會(huì)使分析結(jié)果比傳統(tǒng)的抽樣統(tǒng)計(jì)更加可靠。在傳統(tǒng)的統(tǒng)計(jì)學(xué)領(lǐng)域也更新觀念,學(xué)習(xí)大數(shù)據(jù)時(shí)代下的統(tǒng)計(jì)學(xué),創(chuàng)造出適合大數(shù)據(jù)環(huán)境下的統(tǒng)計(jì)方法。大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué)特點(diǎn)對(duì)抽樣分析的方法提出了巨大挑戰(zhàn),對(duì)抽樣分析得到的結(jié)果是否具有代表性是否具有可靠性提出質(zhì)疑。
在如今的大數(shù)據(jù)時(shí)代下,傳統(tǒng)的統(tǒng)計(jì)分析應(yīng)該轉(zhuǎn)換方法,統(tǒng)計(jì)方法應(yīng)該與時(shí)俱進(jìn)。當(dāng)下的科學(xué)技術(shù)飛速發(fā)展,如何使用統(tǒng)計(jì)學(xué)原理對(duì)已經(jīng)儲(chǔ)備的大量數(shù)據(jù)進(jìn)行全樣本的分析,應(yīng)該作為大數(shù)據(jù)時(shí)代統(tǒng)計(jì)分析的切入點(diǎn)。
使用大數(shù)據(jù)分析當(dāng)下各個(gè)產(chǎn)業(yè)的經(jīng)濟(jì)價(jià)值,已經(jīng)開始涉及到社會(huì)的許多方面了。同時(shí),大數(shù)據(jù)的快速發(fā)展也對(duì)包括統(tǒng)計(jì)學(xué)在內(nèi)的諸多傳統(tǒng)領(lǐng)域發(fā)出了挑戰(zhàn),傳統(tǒng)的醫(yī)學(xué)領(lǐng)域也要迎來大數(shù)據(jù)與人工智能的結(jié)合對(duì)疾病診斷預(yù)測的挑戰(zhàn)。
2.2數(shù)據(jù)挖掘
近些年來互聯(lián)網(wǎng)爆炸式發(fā)展,移動(dòng)互聯(lián)網(wǎng)更是深入千家萬戶,在大數(shù)據(jù)的時(shí)代下,數(shù)據(jù)存儲(chǔ)PB級(jí)別是常態(tài),摩爾定律顯示每年的數(shù)據(jù)以百分之七十的速度增長。如何從現(xiàn)有的數(shù)據(jù)中挖掘出數(shù)據(jù)的潛在價(jià)值是人們當(dāng)下面對(duì)的一個(gè)巨大挑戰(zhàn)。
2.21數(shù)據(jù)挖掘的定義
[3]數(shù)據(jù)挖掘是對(duì)現(xiàn)有的數(shù)據(jù)庫已經(jīng)收集的數(shù)據(jù)信息分析處理提取隱含的有價(jià)值信息,并在處理后將其轉(zhuǎn)換為其他系統(tǒng)方便使用的結(jié)構(gòu)。其主要的特點(diǎn)是收集的數(shù)據(jù)庫數(shù)據(jù)進(jìn)行抽取、處理、分析得到的結(jié)果最后再進(jìn)行模型化處理,對(duì)得到的模型輔助商業(yè)決策。數(shù)據(jù)挖掘?qū)Ω鱾€(gè)鄰域都可以提取潛在對(duì)社會(huì)發(fā)展有意義的信息。
2.3數(shù)據(jù)可視化
在大數(shù)據(jù)時(shí)代到來之前在各個(gè)鄰域就已經(jīng)有了相應(yīng)的數(shù)據(jù)可視化過程,但是如果將傳統(tǒng)的數(shù)據(jù)可視化技術(shù)應(yīng)用于大數(shù)據(jù),在有效性與效率方面面臨巨大問題,如何將傳統(tǒng)的數(shù)據(jù)可視化技術(shù)與現(xiàn)在大數(shù)據(jù)環(huán)境結(jié)合是一個(gè)非常值得深入研究的方向。
2.3.1分布式并行可視化算法
在大數(shù)據(jù)時(shí)代之前,各個(gè)領(lǐng)域?qū)⒖梢暬惴☉?yīng)用在較小規(guī)模地計(jì)算機(jī)集群中,其規(guī)模一般在幾百個(gè)計(jì)算節(jié)點(diǎn),但是在大數(shù)據(jù)環(huán)境下實(shí)際需要的節(jié)點(diǎn)應(yīng)該在數(shù)千個(gè)以上乃至上萬個(gè)計(jì)算節(jié)點(diǎn),才能滿足大數(shù)據(jù)的規(guī)模
2.3.2可視化的分析算法
大數(shù)據(jù)的可視化首先要考慮的就是龐大的數(shù)據(jù)規(guī)模,其次高效的算法可以減少許多運(yùn)算量從而減少大量計(jì)算時(shí)間。再得到結(jié)果后也需要將結(jié)果以新穎、有價(jià)值的方式傳遞給用戶。用戶的需求以及偏好各不相同需要將自動(dòng)學(xué)習(xí)算法合理使用,這樣可視化并且滿足用戶需求的輸出具有高度的適應(yīng)性。[4]可視化算法具有大量的控制參數(shù)搜索空間,可以減少探索以及數(shù)據(jù)分析的成本并且降低這個(gè)過程的難度。
三、大數(shù)據(jù)處理流程
3.1數(shù)據(jù)采集
傳統(tǒng)的數(shù)據(jù)收集不能滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)量,大數(shù)據(jù)的收集需要借助傳感器或者專業(yè)的軟件采集和處理收集到的數(shù)據(jù),從而把收集到的數(shù)據(jù)轉(zhuǎn)換為有價(jià)值的數(shù)據(jù),再通過數(shù)據(jù)挖掘變?yōu)橹庇^的有價(jià)值的信息呈現(xiàn)到用戶眼前。
3.2數(shù)據(jù)分析與挖掘
大數(shù)據(jù)存儲(chǔ)的數(shù)量級(jí)巨大,處理大數(shù)據(jù)的系統(tǒng)需要強(qiáng)大的存儲(chǔ)、傳輸數(shù)據(jù)、處理數(shù)據(jù)的能力。傳統(tǒng)的硬件設(shè)施價(jià)格十分昂貴,云計(jì)算平臺(tái)將實(shí)體的計(jì)算機(jī)資源和計(jì)算資源虛擬化,用戶按需請(qǐng)求分配,大大降低了大數(shù)據(jù)處理的商業(yè)化成本。
四、大數(shù)據(jù)面臨的挑戰(zhàn)
現(xiàn)在我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,大數(shù)據(jù)經(jīng)歷了預(yù)期膨脹階段、資本炒作階段現(xiàn)如今正在轉(zhuǎn)入理性發(fā)展和大數(shù)據(jù)落地應(yīng)用的時(shí)期,社會(huì)也對(duì)大數(shù)據(jù)有了初步的理性認(rèn)知。未來大數(shù)據(jù)還面臨以下諸多挑戰(zhàn)。各個(gè)企業(yè)政府部分之間收集各自的數(shù)據(jù),相互之間數(shù)據(jù)不連通,導(dǎo)致企業(yè)內(nèi)部數(shù)據(jù)孤島,大數(shù)據(jù)的價(jià)值不能充分利用;各個(gè)行業(yè)對(duì)本行業(yè)數(shù)據(jù)收集沒有統(tǒng)一規(guī)范,數(shù)據(jù)可用性低,數(shù)據(jù)質(zhì)量低,數(shù)據(jù)處理分析十分復(fù)雜;數(shù)據(jù)安全意識(shí)低下,數(shù)據(jù)泄露風(fēng)險(xiǎn)高;用戶的個(gè)人隱私與大數(shù)據(jù)有沖突相關(guān)法律法規(guī)不完善.
參考文獻(xiàn):
[1] 王萬森. 人工智能原理及其應(yīng)用[ M] . 北京: 電子工業(yè)出版社, 2002.
[2] 陳良臣.大數(shù)據(jù)可視分析的若干關(guān)鍵技術(shù)研究[J].數(shù)字技術(shù)
與應(yīng)用,2015(11):98.
[3] 楊杰,胡英,全勇. 結(jié)合數(shù)據(jù)融合和數(shù)據(jù)挖掘技術(shù)的信息智能處理平臺(tái)[ J] .高技術(shù)通信.2003.(1)
[4] 吉根林,帥克, 孔志揮. 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用 [ J] .南京師大 學(xué)報(bào)(自然科學(xué)版).2000.(2).
[5] Alexandros Labrinidis,H.V.Jagadish.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.