摘?要:近幾年來,開發(fā)大數(shù)據(jù)應(yīng)用程序變得越來越重要,事實(shí)上,來自不同部門的眾多組織越來越依賴從大量數(shù)據(jù)中提取的資料及信息,然而,在大數(shù)據(jù)環(huán)境下,傳統(tǒng)的數(shù)據(jù)技術(shù)和平臺(tái)效率較低。它們的響應(yīng)速度慢,缺乏可伸縮性、性能和準(zhǔn)確性,面對(duì)復(fù)雜的大數(shù)據(jù)挑戰(zhàn),人們做了大量的工作,因此,開發(fā)了各種類型的分布和技術(shù)。本文綜述了近年來為大數(shù)據(jù)開發(fā)的新技術(shù)。它的目的是根據(jù)不同的大數(shù)據(jù)技術(shù)的技術(shù)需求和具體應(yīng)用的要求,選擇和采用不同的大數(shù)據(jù)技術(shù)的正確組合。本文將首先簡要介紹大數(shù)據(jù)在人們生活中的應(yīng)用,然后再重點(diǎn)分析大數(shù)據(jù)現(xiàn)在所面臨的巨大挑戰(zhàn)。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)分布;大數(shù)據(jù)應(yīng)用;大數(shù)據(jù)挑戰(zhàn)
前言:
如今,來自不同來源(如政府、社會(huì)網(wǎng)絡(luò)、醫(yī)療衛(wèi)生、營銷、金融、旅游業(yè))的大量數(shù)據(jù)每天以前所未有的速度生成。這是由于許多技術(shù)趨勢,包括物聯(lián)網(wǎng)、云計(jì)算的擴(kuò)散以及智能設(shè)備的普及。在幕后,強(qiáng)大的系統(tǒng)和分布式應(yīng)用支持這樣的多連接系統(tǒng)(例如:智能電網(wǎng)系統(tǒng)、醫(yī)療保健系統(tǒng)、零售系統(tǒng)、政府系統(tǒng)等)。
1.大數(shù)據(jù)研究背景
由于可以從大數(shù)據(jù)中提取出有趣的價(jià)值,不同國家的許多參與者都啟動(dòng)了重要的項(xiàng)目。美國是抓住大數(shù)據(jù)機(jī)遇的領(lǐng)導(dǎo)者之一,2012年3月,奧巴馬政府啟動(dòng)了大數(shù)據(jù)研發(fā)計(jì)劃,預(yù)算為2億美元。在日本,2012年7月,大數(shù)據(jù)開發(fā)成為國家技術(shù)戰(zhàn)略的一個(gè)重要斧頭。聯(lián)合國發(fā)表了一份題為“大數(shù)據(jù)促進(jìn)發(fā)展:機(jī)遇與挑戰(zhàn)”的報(bào)告。它旨在概述大數(shù)據(jù)挑戰(zhàn)的主要關(guān)切,并促進(jìn)關(guān)于大數(shù)據(jù)如何為國際發(fā)展服務(wù)的對(duì)話。
2.大數(shù)據(jù)應(yīng)用案例分析
2.1 智能電網(wǎng)案例
對(duì)全國電子用電量進(jìn)行實(shí)時(shí)管理,對(duì)智能電網(wǎng)的運(yùn)行進(jìn)行監(jiān)控至關(guān)重要,這是通過智能儀表、傳感器、控制中心和其他基礎(chǔ)設(shè)施之間的多重連接來實(shí)現(xiàn)的。大數(shù)據(jù)分析有助于識(shí)別有風(fēng)險(xiǎn)的變壓器,并檢測連接設(shè)備的異常行為,因此,網(wǎng)格實(shí)用程序可以選擇最佳的處理或操作,對(duì)生成的大數(shù)據(jù)的實(shí)時(shí)分析允許對(duì)事件場景進(jìn)行建模,這使得制定戰(zhàn)略預(yù)防計(jì)劃以降低糾正成本。此外,能源預(yù)測分析有助于更好地管理電力需求負(fù)荷,規(guī)劃資源,從而使保護(hù)最大化。
2.2 電子健康
互聯(lián)健康平臺(tái)已經(jīng)用于個(gè)性化醫(yī)療服務(wù)(例如,思科)。大數(shù)據(jù)來自不同的異構(gòu)來源(例如,實(shí)驗(yàn)室和臨床數(shù)據(jù)、從遠(yuǎn)程傳感器上傳的患者癥狀、醫(yī)院運(yùn)營、藥物數(shù)據(jù))。醫(yī)學(xué)數(shù)據(jù)集的高級(jí)分析有許多有益的應(yīng)用,它可以使醫(yī)療服務(wù)個(gè)性化(例如,醫(yī)生可以在線監(jiān)測患者癥狀以調(diào)整處方),根據(jù)人群癥狀、疾病演變和其他因素調(diào)整公共衛(wèi)生計(jì)劃參數(shù)。
3.研究大數(shù)據(jù)面臨的挑戰(zhàn)
大數(shù)據(jù)的挖掘提供了許多誘人的機(jī)會(huì),然而,研究人員和專業(yè)人員在探索大數(shù)據(jù)集以及從這些信息礦中提取價(jià)值和知識(shí)時(shí)面臨著幾個(gè)挑戰(zhàn),其難點(diǎn)主要體現(xiàn)在:數(shù)據(jù)采集、存儲(chǔ)、檢索、共享、分析、管理和可視化等方面。此外,還存在安全和隱私問題,特別是在分布式數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序中。通常,信息和分布式流的泛濫超出了我們的控制能力。在本文中,我們將更詳細(xì)地討論一些仍有待研究的技術(shù)問題(即大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)挖掘、大數(shù)據(jù)聚集、大數(shù)據(jù)處理或大數(shù)據(jù)清理等等),下面將簡要介紹幾點(diǎn)。
3.1 大數(shù)據(jù)管理挑戰(zhàn)
數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時(shí)面臨許多挑戰(zhàn),一個(gè)挑戰(zhàn)是大數(shù)據(jù)管理,有效地管理大數(shù)據(jù)對(duì)于促進(jìn)可靠見解的提取和優(yōu)化開支至關(guān)重要。事實(shí)上,良好的數(shù)據(jù)管理是大數(shù)據(jù)分析的基礎(chǔ),大數(shù)據(jù)管理意味著清理數(shù)據(jù)以提高可靠性,聚合來自不同來源的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行編碼以確保安全和隱私,這也意味著要確保高效的大數(shù)據(jù)存儲(chǔ)和對(duì)多個(gè)分布式端點(diǎn)的基于角色的訪問。
3.2 大數(shù)據(jù)清理挑戰(zhàn)
這五個(gè)步驟(清理、聚合、編碼、存儲(chǔ)和訪問)并不新鮮,在傳統(tǒng)的數(shù)據(jù)管理中是已知的。大數(shù)據(jù)面臨的挑戰(zhàn)是如何管理大數(shù)據(jù)性質(zhì)(速度、容量和多樣性)的復(fù)雜性,并在混合應(yīng)用程序的分布式環(huán)境中進(jìn)行處理。事實(shí)上,為了獲得可靠的分析結(jié)果,在使用資源之前,必須驗(yàn)證數(shù)據(jù)源的可靠性和數(shù)據(jù)質(zhì)量。但是,數(shù)據(jù)源可能包含噪音、錯(cuò)誤或不完整的數(shù)據(jù)。挑戰(zhàn)在于如何清理如此龐大的數(shù)據(jù)集,以及如何確定哪些數(shù)據(jù)是可靠的,哪些數(shù)據(jù)是有用的。
3.3 大數(shù)據(jù)聚合挑戰(zhàn)
另一個(gè)挑戰(zhàn)是將外部數(shù)據(jù)源和分布式大數(shù)據(jù)平臺(tái)(包括應(yīng)用程序、存儲(chǔ)庫、傳感器、網(wǎng)絡(luò)等)與組織的內(nèi)部基礎(chǔ)設(shè)施同步,多數(shù)時(shí)候,分析組織內(nèi)部產(chǎn)生的數(shù)據(jù)是不夠的。為了獲取有價(jià)值的見解和知識(shí),必須更進(jìn)一步,并用外部數(shù)據(jù)源聚合內(nèi)部數(shù)據(jù),外部數(shù)據(jù)可能包括第三方來源、市場波動(dòng)信息、天氣預(yù)報(bào)和交通狀況、社交網(wǎng)絡(luò)數(shù)據(jù)、客戶評(píng)論和市民反饋,例如,這有助于最大限度地提高用于分析的預(yù)測模型的強(qiáng)度。
3.4 大數(shù)據(jù)分析挑戰(zhàn)
高級(jí)數(shù)據(jù)分析需要理解特征之間的關(guān)系和探索數(shù)據(jù),例如,數(shù)據(jù)分析使組織能夠提取有價(jià)值的見解,并監(jiān)控可能對(duì)業(yè)務(wù)產(chǎn)生積極或消極影響的模式,其他數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用也需要實(shí)時(shí)分析,如導(dǎo)航、社交網(wǎng)絡(luò)、金融、生物醫(yī)學(xué)、天文學(xué)、智能交通系統(tǒng)。因此,需要先進(jìn)的算法和有效的數(shù)據(jù)挖掘方法來獲得準(zhǔn)確的結(jié)果,監(jiān)測各個(gè)領(lǐng)域的變化,并預(yù)測未來的觀測結(jié)果。因此面對(duì)大數(shù)據(jù)挑戰(zhàn)和流式處理,我們?nèi)匀恍枰治錾系倪M(jìn)步,用于指導(dǎo)大數(shù)據(jù)如何進(jìn)一步發(fā)展。
3.5 與計(jì)算機(jī)發(fā)展不匹配
大數(shù)據(jù)發(fā)展一個(gè)重要的問題與計(jì)算機(jī)的結(jié)構(gòu)和容量有關(guān),事實(shí)上,根據(jù)摩爾定律,CPU性能每18個(gè)月翻一番,磁盤驅(qū)動(dòng)器的性能也以同樣的速度翻倍。但是,I/O操作不遵循相同的性能模式,(例如,隨機(jī)i/O速度適度提高,而順序i/O速度隨著密度緩慢增加)。因此,這種不平衡的系統(tǒng)容量可能會(huì)降低數(shù)據(jù)訪問速度,并影響大數(shù)據(jù)應(yīng)用程序的性能和可擴(kuò)展性,因此這可能會(huì)降低整個(gè)大數(shù)據(jù)分析系統(tǒng)的性能。
結(jié)束語:
在本文中,本文重點(diǎn)分析了大數(shù)據(jù)發(fā)展的特點(diǎn),深入探討了大數(shù)據(jù)計(jì)算系統(tǒng)所帶來的挑戰(zhàn),除此之外,我們還解釋了大數(shù)據(jù)挖掘在多個(gè)領(lǐng)域的價(jià)值,我們試圖從不同的角度來看待這個(gè)問題,簡要介紹了大數(shù)據(jù)發(fā)展目前所遇到的種種問題,從一個(gè)客觀的角度來對(duì)其進(jìn)行了分析。
參考文獻(xiàn)
[1]?Pattern recognition Mach. Learn.,128(2006),pp.1-58
[2]?Big data(lost)in the cloud Int. J. Big Data Intell.,1(2014),pp.3-17
[3]?Streaming analytics Disruptive Analytics,Springer(2016),pp.117-144
[4]?Beyond the hype:big data concepts,methods,and analytics Int. J. Inf. Manage.,35(2015),pp.137-144
[5]?王建鋒.大數(shù)據(jù)時(shí)代計(jì)算機(jī)遠(yuǎn)程網(wǎng)絡(luò)通信技術(shù)變革初探[J].中小企業(yè)管理與科技,2019(30):168-169.
作者簡介:李詩雨,女(2000.03.27),漢族,西南科技大學(xué)城市學(xué)院鼎利學(xué)院學(xué)生,研究方向:大數(shù)據(jù)分析與應(yīng)用。