喬明中
摘 要:大數(shù)據(jù)是物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)之后的又一大技術(shù)變革,大數(shù)據(jù)蘊(yùn)含著豐富的信息,往往具有巨大的經(jīng)濟(jì)和社會價值,有助于為人們更深入地認(rèn)識事物和做出判斷,已成為信息社會的寶貴財富。文章通過對大數(shù)據(jù)的研究和特點,分析了大數(shù)據(jù)的應(yīng)用和挑戰(zhàn)。
關(guān)鍵詞:大數(shù)據(jù);價值;應(yīng)用;挑戰(zhàn)
前言
近年來,隨著博客、微博、云計算、網(wǎng)絡(luò)等通信手段的應(yīng)用與發(fā)展,以及視頻監(jiān)控、智能終端迅速普及,加上遍布各處的傳感器,引發(fā)數(shù)據(jù)的爆炸性增長模,用GB、TB或PB(1PB=1024TB),EB(1EB=1024PB)作數(shù)據(jù)量單位已不適合,需要用ZB(1ZB=1024EB)、YB(1YB=1024ZB)等為計量單位。大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)管理方法給人們的生活帶來了巨大的挑戰(zhàn),但也有很多方便。
1 大數(shù)據(jù)的概念
1.1 概念
大數(shù)據(jù)是一個比較抽象的概念,從字面上看,它代表了一個巨大的數(shù)據(jù)量。大數(shù)據(jù)是使用常用的軟件工具來捕獲、管理和處理數(shù)據(jù),所耗時間超過一個可容忍時間的數(shù)據(jù)集合。大數(shù)據(jù)把大量的數(shù)據(jù),通過快速收集、篩選、整合、處理與分析,獲得一個非常有價值的結(jié)論,以支持預(yù)期和服務(wù)決策。
1.2 特征
與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)具有獨特的特征,也被稱為“4V”特征。
1.2.1 大量化(Volume):在大數(shù)據(jù)時代,數(shù)據(jù)量以PB,EB,ZB等為存儲單位,數(shù)據(jù)存儲量大,計算量也很大。
1.2.2 多樣化(Variable):數(shù)據(jù)類型的種類繁多,不僅包含數(shù)據(jù)表一類的結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化的數(shù)據(jù)如文本、網(wǎng)頁、圖像、視頻等信息,各種數(shù)據(jù)之間交互十分頻繁和普遍。
1.2.3 快速化(Velocity):數(shù)據(jù)生成,存儲和變化速度極快。
1.2.4 價值化(Value):數(shù)據(jù)正在成為一種新型的資產(chǎn),是形成和提高競爭力的基礎(chǔ),通過分析和大計算,它可以產(chǎn)生更多的價值。
1.3 區(qū)分?jǐn)?shù)據(jù)庫和大數(shù)據(jù)
數(shù)據(jù)庫同大數(shù)據(jù)本質(zhì)上是不同的。兩者在數(shù)據(jù)來源、數(shù)據(jù)處理與數(shù)據(jù)思維等方面有根本性區(qū)別:數(shù)據(jù)庫比較小,處理對象的基本單位以MB為多,而大數(shù)據(jù)的基本單位是GB、TB、PB等;數(shù)據(jù)庫通常只有少數(shù)簡單數(shù)據(jù),大數(shù)據(jù)往往包含各種結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);大數(shù)據(jù)的模式會不斷演變且在數(shù)據(jù)出現(xiàn)后才能確定,傳統(tǒng)數(shù)據(jù)庫只有確定模式之后才會有數(shù)據(jù)。
2 大數(shù)據(jù)應(yīng)用
美國把大數(shù)據(jù)作為事關(guān)國家戰(zhàn)略和國家核心競爭力的問題,在2012年3月,奧巴馬政府推出了《大數(shù)據(jù)研究與發(fā)展倡議》,政府出資約2億美元啟動該方案。據(jù)美國咨詢公司ganner預(yù)測,2015年在全球創(chuàng)建了440萬個大數(shù)據(jù)工作崗位。
2.1 大數(shù)據(jù)來源
有三種:豐富的WEB數(shù)據(jù)庫資源配置;物理信息系統(tǒng),如智能電網(wǎng),智能城市;科學(xué)實驗和觀測數(shù)據(jù),如生物數(shù)據(jù),高能物理實驗數(shù)據(jù)和空間觀測數(shù)據(jù)等。
2.2 大數(shù)據(jù)處理的處理流程和處理模式
處理大數(shù)據(jù)是基于適當(dāng)工具,根據(jù)一定的標(biāo)準(zhǔn)將對異構(gòu)數(shù)據(jù)源提取和集成,再使用適當(dāng)?shù)臄?shù)據(jù)分析技術(shù),分析存儲數(shù)據(jù)和提取有用的知識,并把最終結(jié)果傳遞給最終端用戶。主要處理模式包括批處理和流處理兩種類型,流處理是直接處理,而批處理為先存儲再處理。
2.3 大數(shù)據(jù)在各行業(yè)中的應(yīng)用
大數(shù)據(jù)的研究數(shù)據(jù)已被廣泛應(yīng)用于推薦系統(tǒng)、商業(yè)智能、決策支持等許多領(lǐng)域。
2.3.1 對大數(shù)據(jù)深度分析,挖掘消費偏好和用戶行為,進(jìn)而實現(xiàn)網(wǎng)絡(luò)優(yōu)化和精準(zhǔn)營銷。
2.3.2 進(jìn)行大數(shù)據(jù)的分類、存儲、挖掘及決策支持,維持單位和部門日常的管理,抽調(diào)競爭優(yōu)勢和促進(jìn)可持續(xù)發(fā)展。
2.3.3 利用大數(shù)據(jù)分析與挖掘,發(fā)現(xiàn)隱藏的威脅,促進(jìn)信息安全部門找到應(yīng)對新的安全威脅的方法。
2.3.4 使用大數(shù)據(jù)來做出決策。在大數(shù)據(jù)時代,發(fā)揮計算機(jī)系統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘功能,可在很多領(lǐng)域做出科學(xué)的決策。
3 大數(shù)據(jù)面臨的挑戰(zhàn)
大數(shù)據(jù)為人們的生活和工作帶來便利,同時也面臨著嚴(yán)峻的挑戰(zhàn)。
3.1 數(shù)據(jù)預(yù)處理挑戰(zhàn)
數(shù)據(jù)數(shù)量的增加未必意味著數(shù)據(jù)價值同樣增加,因為往往會包含大量無用的數(shù)據(jù)。所以,數(shù)據(jù)的預(yù)處理是數(shù)據(jù)分析前要完成的工作。數(shù)據(jù)清洗過程既要過濾掉無效的信息,又不能濾掉有用的信息。
3.2 大數(shù)據(jù)時代的算法要做調(diào)整
大數(shù)據(jù)往往是實時的,需要調(diào)整算法來適應(yīng)云計算的框架要求。
3.3 數(shù)據(jù)安全問題
數(shù)據(jù)安全威脅在大數(shù)據(jù)時代隨時可發(fā)生。大數(shù)據(jù)提供了一種新的網(wǎng)絡(luò)支持資源,通過網(wǎng)絡(luò),恐怖分子可以入侵到生活的各個方面作,對社會安全構(gòu)成潛在威脅。目前,我國對大數(shù)據(jù)的保護(hù)很有限,惡意使用數(shù)據(jù)的情況時有發(fā)生。
3.4 異質(zhì)性問題
大數(shù)據(jù)時代,數(shù)據(jù)異構(gòu)性要求數(shù)據(jù)集成中進(jìn)行數(shù)據(jù)轉(zhuǎn)換,這是一個難以管理而又復(fù)雜的程。
3.5 大數(shù)據(jù)的存儲和處理能力的挑戰(zhàn)
大數(shù)據(jù)的數(shù)據(jù)量增長迅猛,存儲技術(shù)面臨新的挑戰(zhàn)。
3.6 大數(shù)據(jù)人才挑戰(zhàn)
大數(shù)據(jù)的質(zhì)量將嚴(yán)重影響系統(tǒng),并影響最終決策的準(zhǔn)確性。麥肯錫的一項研究顯示,每年美國大約有14到19萬名數(shù)據(jù)科學(xué)家缺口。目前,我國能進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘的大數(shù)據(jù)人才更為奇缺。
4 結(jié)束語
大數(shù)據(jù)時代的到來,改變了我們對數(shù)據(jù)的理解和看法。如何在海量數(shù)據(jù)中提取和利用信息,提高其個人及部門決策能力,是擺在人們面前的重大課題。借鑒發(fā)達(dá)國家的先進(jìn)經(jīng)驗,培養(yǎng)大數(shù)據(jù)人才,構(gòu)建大數(shù)據(jù)平臺,充分挖掘大數(shù)據(jù)的全面價值。這是我們面對的一項重要任務(wù)。
參考文獻(xiàn)
[1]林衛(wèi)民.大數(shù)據(jù)促進(jìn)教學(xué)的有效性[J].中國教師,2014.
[2]劉建偉,周楓.基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)模式研究[J].云南檔案,2014.
[3]曹 遐,董亮.大數(shù)據(jù)商業(yè)世界新藍(lán)海[J].上海信息化,2013.
[4]許曄.大數(shù)據(jù)時代來襲 中國宜加緊布局[J].創(chuàng)新科技,2014.
[5]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013(1).