国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)及其發(fā)展趨勢(shì)研究

2013-04-29 10:03:40李斌
廣西教育·C版 2013年9期
關(guān)鍵詞:云計(jì)算物聯(lián)網(wǎng)大數(shù)據(jù)

李斌

【摘 要】介紹大數(shù)據(jù)產(chǎn)生背景,詳細(xì)剖析大數(shù)據(jù)的基本概念及其特征,同時(shí)提煉了大數(shù)據(jù)的五種關(guān)鍵技術(shù),指出大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)和數(shù)據(jù)空間相結(jié)合的發(fā)展趨勢(shì),以揭示需要研究的關(guān)鍵內(nèi)容,為大數(shù)據(jù)的相關(guān)研究者提供參考。

【關(guān)鍵詞】大數(shù)據(jù) 云計(jì)算 物聯(lián)網(wǎng)

數(shù)據(jù)空間

【中圖分類號(hào)】G【文獻(xiàn)標(biāo)識(shí)碼】A

【文章編號(hào)】0450-9889(2013)09C-

0190-03

隨著社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)、電子商務(wù)、互聯(lián)網(wǎng)和云計(jì)算的興起,音頻、視頻、圖像、日志等數(shù)據(jù)正在以指數(shù)級(jí)增長(zhǎng),互聯(lián)網(wǎng)的邊界和應(yīng)用范圍不斷被擴(kuò)展。據(jù)麥肯錫的預(yù)測(cè),2010年全球范圍內(nèi)硬盤存儲(chǔ)的新數(shù)據(jù)超過7EB(1EB=10億GB),而到2020年,全球數(shù)據(jù)總量將達(dá)到約35ZB(1ZB=10億TB),大數(shù)據(jù)正以其多源、海量、異構(gòu)的特性沖擊著社會(huì)的各個(gè)領(lǐng)域,為傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)在存儲(chǔ)、訪問和管理大數(shù)據(jù)方面帶來嚴(yán)峻的考驗(yàn),無論是在學(xué)術(shù)界還是工業(yè)界,都引起人們高度的關(guān)注。

2008年,國(guó)際頂級(jí)學(xué)術(shù)期刊Nature以“Big Data”為???,討論了大數(shù)據(jù)給各個(gè)領(lǐng)域帶來的沖擊和挑戰(zhàn);2011年,國(guó)際頂級(jí)學(xué)術(shù)期刊《Science》推出“Dealing with data”???,重點(diǎn)探討了對(duì)大數(shù)據(jù)的處理技術(shù);2011年5月,全球著名咨詢機(jī)構(gòu)麥肯錫公司發(fā)布題為“大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿”的報(bào)告,明確提出應(yīng)對(duì)大數(shù)據(jù)快速發(fā)展的策略,是第一份系統(tǒng)闡述大數(shù)據(jù)的專題研究成果;2011、2012年,中國(guó)舉辦了第一屆、第二屆“大數(shù)據(jù)世界論壇”,邀請(qǐng)了微軟、甲骨文、因特爾等國(guó)際資深專家,覆蓋金融、電信、能源等各個(gè)領(lǐng)域,共同探討大數(shù)據(jù)前沿技術(shù)與發(fā)展態(tài)勢(shì),以應(yīng)對(duì)持續(xù)增長(zhǎng)的海量數(shù)據(jù);2012年1月達(dá)沃斯世界經(jīng)濟(jì)論壇把大數(shù)據(jù)作為主題之一,探討如何挖掘大數(shù)據(jù)的商業(yè)價(jià)值,為企業(yè)帶來更好的社會(huì)效益;2012年3月,美國(guó)奧巴馬政府耗資2億美元研究“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,引導(dǎo)工業(yè)界、學(xué)術(shù)界和非營(yíng)利機(jī)構(gòu)改進(jìn)和提高訪問、收集、組織大數(shù)據(jù)的技術(shù)和方法。

大數(shù)據(jù)已經(jīng)成為一種戰(zhàn)略資源,具有廣闊的應(yīng)用前景。為了有效地管理大型復(fù)雜的數(shù)據(jù)和高效提取有價(jià)值的知識(shí),還需要進(jìn)一步把握大數(shù)據(jù)特性,選擇合理的處理方式。

一、大數(shù)據(jù)的基本概念和特征

(一)大數(shù)據(jù)的基本概念。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)后的又一全球熱點(diǎn)問題,因其潛在的巨大價(jià)值而受到各界的廣泛關(guān)注。大數(shù)據(jù)從2009年開始流行于互聯(lián)網(wǎng),專家們從不同角度定義了大數(shù)據(jù),由于大數(shù)據(jù)本身具有較強(qiáng)的抽象性,目前還沒有一個(gè)統(tǒng)一公認(rèn)的定義。

在早期,著名的Apache的開源項(xiàng)目Nutch用大數(shù)據(jù)描述用于批處理或分析的大規(guī)模數(shù)據(jù)集。大數(shù)據(jù)研究機(jī)構(gòu)Gartner將大數(shù)據(jù)定義為一種具大規(guī)模、多樣性和高增長(zhǎng)特性的信息資產(chǎn),其結(jié)構(gòu)與現(xiàn)有的數(shù)據(jù)庫(kù)處理系統(tǒng)不兼容,需新的并行數(shù)據(jù)處理平臺(tái)或技術(shù)從大數(shù)據(jù)中提取潛在有價(jià)值的決策、優(yōu)化信息?!吨婆_(tái)》團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)是各種機(jī)構(gòu)或組織在生成或交互過程中產(chǎn)生的大規(guī)模半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),需要比關(guān)系型數(shù)據(jù)庫(kù)有更強(qiáng)的數(shù)據(jù)存儲(chǔ)和計(jì)算能力。全球排名第一的企業(yè)數(shù)據(jù)集成軟件商Informatica認(rèn)為大數(shù)據(jù)包括海量數(shù)據(jù)和復(fù)雜數(shù)據(jù)類型,其規(guī)模超過傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行管理和處理的能力。著名的存儲(chǔ)解決方案公司NetApp定義大數(shù)據(jù)包含分析、帶寬和內(nèi)容三要素,側(cè)重于大數(shù)據(jù)的實(shí)時(shí)分析、高速處理和高可擴(kuò)展性。維基百科則認(rèn)為大數(shù)據(jù)是超過當(dāng)前現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)或數(shù)據(jù)庫(kù)管理工具處理能力,處理時(shí)間超過客戶能容忍時(shí)間的大規(guī)模復(fù)雜數(shù)據(jù)集。

大數(shù)據(jù)概念上雖然與“海量數(shù)據(jù)”和“大規(guī)模數(shù)據(jù)”相似,但仍存在重要的差別。在內(nèi)涵方面,它不僅包含了“海量數(shù)據(jù)”和“大規(guī)模數(shù)據(jù)”,而且還包括了更為復(fù)雜的數(shù)據(jù)類型;在數(shù)據(jù)處理方面,數(shù)據(jù)處理的響應(yīng)速度由傳統(tǒng)的周、天、小時(shí)降為分、秒的時(shí)間處理周期,需要借助云計(jì)算、物聯(lián)網(wǎng)技術(shù)降低成本,提高處理大數(shù)據(jù)的效率。

(二)大數(shù)據(jù)的基本特征。大數(shù)據(jù)通常是指數(shù)據(jù)規(guī)模大于10TB以上的數(shù)據(jù)集。其特征是具有典型的“4V”(Volume、Variety、Velocity、Value),即規(guī)模性、多樣性、高速性和價(jià)值性。

1.規(guī)模性。隨著信息化技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長(zhǎng)。社交網(wǎng)絡(luò)(微博、Twitter、Facebook)、移動(dòng)網(wǎng)絡(luò)、各種智能終端等,都成為數(shù)據(jù)的來源。淘寶網(wǎng)近4億的會(huì)員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;Facebook約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB;Google每天通過云計(jì)算平臺(tái)處理的數(shù)據(jù)超13.4PB。迫切需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺(tái)和新的數(shù)據(jù)處理技術(shù),來統(tǒng)計(jì)、分析、預(yù)測(cè)和實(shí)時(shí)處理如此大規(guī)模的數(shù)據(jù)。

2.多樣性。由于數(shù)據(jù)來源于不同的應(yīng)用系統(tǒng)和不同的設(shè)備,決定了大數(shù)據(jù)形式的多樣性。大體可以分為三類:一是結(jié)構(gòu)化數(shù)據(jù),如財(cái)務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點(diǎn)是數(shù)據(jù)間因果關(guān)系強(qiáng);二是非結(jié)構(gòu)化的數(shù)據(jù),如視頻、圖片、音頻等,其特點(diǎn)是數(shù)據(jù)間沒有因果關(guān)系;三是半結(jié)構(gòu)化數(shù)據(jù),如HTML文檔、郵件、網(wǎng)頁(yè)等,其特點(diǎn)是數(shù)據(jù)間的因果關(guān)系弱。

3.高速性。大數(shù)據(jù)與海量數(shù)據(jù)的重要區(qū)別在兩方面:一方面,大數(shù)據(jù)的數(shù)據(jù)規(guī)模更大;另一方面,大數(shù)據(jù)對(duì)處理數(shù)據(jù)的響應(yīng)速度有更嚴(yán)格的要求。實(shí)時(shí)分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見效,幾乎無延遲。數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。

4.價(jià)值性。大數(shù)據(jù)中有價(jià)值的數(shù)據(jù)所占比例很小,大數(shù)據(jù)的價(jià)值性體現(xiàn)在從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對(duì)未來趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù),并通過機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,運(yùn)用于農(nóng)業(yè)、金融、醫(yī)療等各個(gè)領(lǐng)域,以創(chuàng)造更大的價(jià)值。

二、大數(shù)據(jù)的關(guān)鍵技術(shù)

(一)存儲(chǔ)技術(shù)。隨著Internet技術(shù)的迅猛發(fā)展,各個(gè)領(lǐng)域數(shù)據(jù)急劇增加,目前已達(dá)到PB級(jí)海量數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)已經(jīng)不適應(yīng)存儲(chǔ)數(shù)量巨大、形式多樣的數(shù)據(jù),迫切需要新的技術(shù)應(yīng)對(duì)規(guī)模急速增長(zhǎng)、結(jié)構(gòu)復(fù)雜多樣的數(shù)據(jù)存儲(chǔ)。為滿足大容量存儲(chǔ),需構(gòu)建分布式存儲(chǔ)系統(tǒng),如當(dāng)前流行的hadoop海量分布式平臺(tái),當(dāng)數(shù)據(jù)量增加時(shí),通過增加存儲(chǔ)節(jié)點(diǎn)來保持?jǐn)?shù)據(jù)分布的平衡,保持系統(tǒng)的易擴(kuò)展性;為存儲(chǔ)結(jié)構(gòu)復(fù)雜多樣的數(shù)據(jù),應(yīng)摒棄當(dāng)前只針對(duì)結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方案,根據(jù)不同格式數(shù)據(jù)選取不同的存儲(chǔ)策略。對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)可依次采用類似shared-nothing分布式并行數(shù)據(jù)庫(kù)系統(tǒng)、面向文檔的分布式存儲(chǔ)系統(tǒng)、面向文件的分布式存儲(chǔ)系統(tǒng),以兼具多種數(shù)據(jù)格式,快速應(yīng)對(duì)海量數(shù)據(jù)統(tǒng)計(jì)、查詢和更新操作。

(二)機(jī)器學(xué)習(xí)技術(shù)。從數(shù)量巨大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)中挖掘出有用的知識(shí)和規(guī)律,人工操作已無能為力,必須利用機(jī)器學(xué)習(xí)技術(shù),更深層次智能分析數(shù)據(jù),更高效獲取數(shù)據(jù)中隱藏的有效知識(shí)。隨著大數(shù)據(jù)時(shí)代的到來,文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)等不斷涌現(xiàn),用于處理大數(shù)據(jù)的機(jī)器學(xué)習(xí)新技術(shù)被提出并受到廣泛關(guān)注。傳統(tǒng)的機(jī)器學(xué)習(xí)方法如支持向量機(jī)、決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)等,因泛化能力有限,已經(jīng)不適應(yīng)大規(guī)模網(wǎng)絡(luò)的快速分析。能同時(shí)利用有標(biāo)記樣本和無標(biāo)記樣本的半監(jiān)督學(xué)習(xí)技術(shù)、整合多個(gè)具有差異性學(xué)習(xí)器的集成學(xué)習(xí)技術(shù)、充分積累歷史學(xué)習(xí)結(jié)果的增量學(xué)習(xí)技術(shù),憑借其對(duì)高維采集、查詢和存儲(chǔ)方面的優(yōu)勢(shì),已被引入到處理大數(shù)據(jù)的并行技術(shù)中,為大數(shù)據(jù)的研究提供了新的思路。

(三)高性能計(jì)算技術(shù)。大數(shù)據(jù)的出現(xiàn)對(duì)計(jì)算能力的要求越來越高,大容量數(shù)據(jù)中心維護(hù),并發(fā)任務(wù)的訪問,高速的傳輸率和各設(shè)備間的負(fù)載均衡都需要高性能技術(shù)的支持,具體來說,在計(jì)算成本方面,需采用價(jià)格低廉的分布式計(jì)算節(jié)點(diǎn),通過大量廉價(jià)節(jié)點(diǎn)進(jìn)行并行計(jì)算,降低傳統(tǒng)計(jì)算方式的成本;在計(jì)算實(shí)時(shí)性方面,引入各種高效機(jī)器學(xué)習(xí)算法,同時(shí)借助軟硬件協(xié)同的優(yōu)勢(shì),根據(jù)客戶的計(jì)算任務(wù),快速創(chuàng)建數(shù)據(jù)、分析數(shù)據(jù)、計(jì)算數(shù)據(jù),并給用戶提供毫秒級(jí)的體驗(yàn);在數(shù)據(jù)格式方面,對(duì)各種不同的數(shù)據(jù)要采用不同的格式處理方法,計(jì)算難度和開銷增大,各種數(shù)據(jù)平臺(tái)的兼容和軟硬件平臺(tái)的協(xié)同是提高高性能技術(shù)的關(guān)鍵之一。

(四)統(tǒng)一描述技術(shù)。由于大數(shù)據(jù)的數(shù)據(jù)源異構(gòu)、地理位置分散、表現(xiàn)形式多樣,這使得數(shù)據(jù)間存在不一致性問題。對(duì)大數(shù)據(jù)進(jìn)行處理的第一步是對(duì)不同格式的數(shù)據(jù)進(jìn)行統(tǒng)一描述,數(shù)據(jù)的統(tǒng)一描述有兩方面的優(yōu)勢(shì):一是提供統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),簡(jiǎn)化系統(tǒng)的處理復(fù)雜度;二是減少系統(tǒng)上層應(yīng)用程序處理數(shù)據(jù)的開銷。RDF(Resource Description Framework)即資源描述框架在描述資源的一致性方面具有通用性、智能性等特點(diǎn),但其建模語言不豐富,邏輯推理能力有限,還需要一個(gè)具體的語法體系對(duì)其進(jìn)行擴(kuò)展。為應(yīng)對(duì)大數(shù)據(jù),基于本體的數(shù)據(jù)描述成為研究熱點(diǎn),主要集中在對(duì)數(shù)據(jù)描述的模型一致性、邏輯一致性和關(guān)系一致性方面。目前的研究只是在小規(guī)模的數(shù)據(jù)集上得到驗(yàn)證,還未有成功統(tǒng)一描述PB級(jí)及以上數(shù)據(jù)的案例。因此,研究基于RDF的數(shù)據(jù)描述框架,構(gòu)建本體元數(shù)據(jù)模型,并對(duì)其進(jìn)行有效地分層描述,解決格式各異的數(shù)據(jù)的統(tǒng)一描述問題,對(duì)大數(shù)據(jù)的預(yù)處理十分關(guān)鍵。

(五)可視化技術(shù)。數(shù)據(jù)可視化是把數(shù)據(jù)轉(zhuǎn)換圖形的過程。通過可視化技術(shù),大數(shù)據(jù)可以以圖形圖像、曲線甚至動(dòng)畫的方式直觀展現(xiàn),使研究者觀察和分析傳統(tǒng)方法難以總結(jié)的規(guī)律。可視化技術(shù)主要可以分為圖形技術(shù)、幾何技術(shù)、圖標(biāo)技術(shù)、分層技術(shù)等。無論哪種可視化技術(shù),都需與扭曲和交互技術(shù)相協(xié)同。針對(duì)海量、異構(gòu)的大數(shù)據(jù),目前數(shù)據(jù)可視化研究的熱點(diǎn)包括:其一,層次可視化。Inxight公司成功將Hyperbolic tree層次數(shù)據(jù)處理技術(shù)用于解決focus+context平滑過渡難題,并廣泛運(yùn)用于圖書分類和目錄結(jié)構(gòu)的應(yīng)用。其二,多維可視化。研究中心Xcrox Palo Alto提出多維可視化結(jié)構(gòu)table lens,由于其對(duì)大型數(shù)據(jù)有很好的適應(yīng)能力,已使用到相關(guān)的產(chǎn)品中。其三,文檔可視化。面對(duì)紛繁復(fù)雜的文檔、電子郵件等數(shù)據(jù),西太平洋國(guó)家實(shí)驗(yàn)室提出SPIRE可視化技術(shù),能高效地確定大型文檔中文件間的關(guān)系,對(duì)數(shù)據(jù)挖掘有極大的推動(dòng)作用。其四,web可視化。隨著Internet的發(fā)展,web數(shù)據(jù)持續(xù)膨脹,Chi等人成功地把7000多個(gè)節(jié)點(diǎn)連接成一棵樹形,運(yùn)用網(wǎng)站可視化變換技術(shù),實(shí)時(shí)展現(xiàn)網(wǎng)站內(nèi)容和訪問量的變化情況。可視化技術(shù)的研究和發(fā)展,是實(shí)現(xiàn)大數(shù)據(jù)可視化的關(guān)鍵。

三、大數(shù)據(jù)的發(fā)展趨勢(shì)

(一)大數(shù)據(jù)與云計(jì)算。為解決互聯(lián)網(wǎng)應(yīng)用對(duì)大規(guī)模計(jì)算能力、數(shù)據(jù)存儲(chǔ)能力的迫切需求,云計(jì)算的概念被提出。云計(jì)算是一種分布式計(jì)算平臺(tái),通過虛擬技術(shù)將海量的硬件資源和虛擬資源虛擬成虛擬資源池,并根據(jù)需求任務(wù)的大小,向虛擬資源池獲取相應(yīng)的計(jì)算和存儲(chǔ)資源。在大數(shù)據(jù)處理的需求下,出現(xiàn)了許多優(yōu)秀的云計(jì)算平臺(tái),例如Apache開源的Hadoop、 Google的MapReduce、微軟的Dryad等。在處理格式多樣的大數(shù)據(jù)時(shí),云計(jì)算能協(xié)調(diào)組織眾節(jié)點(diǎn),提供廉價(jià)的資源和服務(wù),具有較可靠的可擴(kuò)展性和容錯(cuò)性。然而,對(duì)于大規(guī)模復(fù)雜的應(yīng)用系統(tǒng)來說,云計(jì)算還有諸多的技術(shù)問題有待深入研究。為應(yīng)對(duì)數(shù)據(jù)密集型服務(wù),云計(jì)算提供分布式并行編程技術(shù)、分布式并行數(shù)據(jù)庫(kù)技術(shù),可通過開源的編程接口和工具來調(diào)用服務(wù),其優(yōu)勢(shì)是能高效處理結(jié)構(gòu)簡(jiǎn)單的大數(shù)據(jù),但對(duì)關(guān)系復(fù)雜的大數(shù)據(jù)的處理,在效率和準(zhǔn)確率方面還不能令人滿意。

大數(shù)據(jù)技術(shù)的目標(biāo)是解決應(yīng)用中多源、異構(gòu)、海量數(shù)據(jù)的管理和使用問題,但其本身不具備處理大規(guī)模數(shù)據(jù)的存儲(chǔ)資源和計(jì)算資源的能力,因此必須在已有成熟的技術(shù)基礎(chǔ)上,引入新的與之相對(duì)應(yīng)的大數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)。云計(jì)算以數(shù)據(jù)為中心,對(duì)大數(shù)據(jù)集進(jìn)行處理,并向用戶返回高效服務(wù),具有并行化、虛擬化、按需服務(wù)等特點(diǎn)。從數(shù)據(jù)管理角度來說,大數(shù)據(jù)技術(shù)是對(duì)數(shù)據(jù)組織結(jié)構(gòu)的描述,研究重點(diǎn)是數(shù)據(jù)的查詢、更新、索引等操作技術(shù);而云計(jì)算則是一種分而治之,按需索取的大數(shù)據(jù)分布式服務(wù)模式。這兩個(gè)概念提出的背景都是為滿足海量異構(gòu)數(shù)據(jù)的組織和管理要求。從相互之間的影響來看,前者為后者提供了廣闊的應(yīng)用背景,后者為前者數(shù)據(jù)管理提供了存儲(chǔ)和計(jì)算資源,兩者相互促進(jìn),相互依存。

(二)大數(shù)據(jù)與物聯(lián)網(wǎng)。隨著智能交通、智能家居、智能物流、智慧景區(qū)等應(yīng)用的興起,物聯(lián)網(wǎng)已成為未來經(jīng)濟(jì)的新增長(zhǎng)點(diǎn)。美國(guó)、德國(guó)、英國(guó)、意大利和丹麥等國(guó)家爭(zhēng)先推出物聯(lián)網(wǎng)相關(guān)發(fā)展策略,使物聯(lián)網(wǎng)規(guī)模不斷擴(kuò)大?;ヂ?lián)網(wǎng)到物聯(lián)網(wǎng)的跨越,極大地推動(dòng)了大數(shù)據(jù)的發(fā)展。物聯(lián)網(wǎng)是指把所有物品通過信息傳感設(shè)備與互聯(lián)網(wǎng)連接起來,實(shí)現(xiàn)智能化識(shí)別和管理。它從結(jié)構(gòu)上分為四層,即實(shí)體層、感知層、網(wǎng)絡(luò)層和應(yīng)用層。其每層都與數(shù)據(jù)的產(chǎn)生或者處理息息相關(guān)。大數(shù)據(jù)與物聯(lián)網(wǎng)的結(jié)合是機(jī)遇與挑戰(zhàn)并存。

首先,產(chǎn)生數(shù)據(jù)的平臺(tái)多樣化。從原來的個(gè)人電腦擴(kuò)展為傳感器、智能手機(jī)、各種業(yè)務(wù)系統(tǒng)、平板電腦、監(jiān)控錄像等,這使得感知層需要感知的數(shù)據(jù)呈現(xiàn)多樣化。目前主流的感知技術(shù)有視頻文字采集技術(shù)、紅外線技術(shù)、傳感器技術(shù)和藍(lán)牙技術(shù)等,但隨著感知的數(shù)據(jù)數(shù)量級(jí)的不斷增加,相應(yīng)的感知技術(shù)也要不斷地改進(jìn)和完善。其次,物聯(lián)網(wǎng)技術(shù)的局限性。事物的發(fā)展需要一個(gè)過程,處于發(fā)展初始階段的物聯(lián)網(wǎng)還受到一些技術(shù)的約束。在大數(shù)據(jù)的傳輸和處理方面,物聯(lián)網(wǎng)技術(shù)還存在通信距離短、外部環(huán)境適應(yīng)力不強(qiáng)、異構(gòu)網(wǎng)絡(luò)兼容性差等問題。傳感器鏈接的距離范圍是100米到1000米,不適合長(zhǎng)距離的通信;當(dāng)外部的環(huán)境發(fā)生變化,傳感器的穩(wěn)定性能大幅度下降,對(duì)具有高性能計(jì)算存儲(chǔ)系統(tǒng)的安全帶來風(fēng)險(xiǎn);物聯(lián)網(wǎng)的標(biāo)準(zhǔn)是建立在廣電網(wǎng)、通信網(wǎng)和互聯(lián)網(wǎng)等異構(gòu)網(wǎng)的基礎(chǔ)之上,還沒有統(tǒng)一完善的標(biāo)準(zhǔn)體系。

(三)大數(shù)據(jù)與數(shù)據(jù)空間。大數(shù)據(jù)來自不同組織,它的跨域、分布、異構(gòu)性以及海量的特點(diǎn)給傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)帶來巨大挑戰(zhàn),目前,管理著世界上最大數(shù)據(jù)的谷歌、雅虎和微軟等公司,都不使用傳統(tǒng)的數(shù)據(jù)管理系統(tǒng),而是另辟蹊徑去尋找可以滿足大數(shù)據(jù)管理需要的技術(shù)。M.Franklin等人提出了數(shù)據(jù)空間的概念。數(shù)據(jù)空間是M.Franklin等人為應(yīng)對(duì)信息量不斷增長(zhǎng)以及數(shù)據(jù)信息管理需求而引入的一種信息管理新概念。

目前關(guān)于數(shù)據(jù)空間技術(shù)的研究主要集中在個(gè)人數(shù)據(jù)空間方面,并取得了一定成果。國(guó)外的研究工作主要以iMeMex和SEMEx兩個(gè)個(gè)人數(shù)據(jù)管理系統(tǒng)為代表。iMeMex由瑞士聯(lián)邦理工學(xué)院開發(fā),它推動(dòng)了信息抽取和查詢技術(shù)的進(jìn)步,但缺點(diǎn)是不支持語義查詢;SEMEx由華盛頓大學(xué)開發(fā),成功把語義關(guān)聯(lián)應(yīng)用到實(shí)例中來高效提取信息。同時(shí),麻省理工學(xué)院計(jì)算機(jī)科學(xué)系的David R.Karger等人研發(fā)了個(gè)人數(shù)據(jù)管理系統(tǒng)Haystaek,該系統(tǒng)采用了URF(Uniform Resource Identifier)半結(jié)構(gòu)化數(shù)據(jù)模型統(tǒng)一表示用戶數(shù)據(jù),體現(xiàn)了數(shù)據(jù)空間“pay as you go”的數(shù)據(jù)集成思想。美國(guó)華盛頓大學(xué)數(shù)據(jù)庫(kù)研究組的sharedviews項(xiàng)目實(shí)現(xiàn)了名為Homeview的原型系統(tǒng),該系統(tǒng)能夠支持個(gè)人動(dòng)態(tài)數(shù)據(jù)的共享,但數(shù)據(jù)的類型和共享方式有限。

在國(guó)內(nèi),數(shù)據(jù)空間技術(shù)已經(jīng)開始受到廣泛關(guān)注。中國(guó)人民大學(xué)孟小峰教授等人對(duì)數(shù)據(jù)空間的概念、實(shí)現(xiàn)數(shù)據(jù)空間支撐平臺(tái)所需的關(guān)鍵技術(shù)進(jìn)行了詳細(xì)的闡述與分析,并帶領(lǐng)中國(guó)人民大學(xué)網(wǎng)絡(luò)與移動(dòng)數(shù)據(jù)管理實(shí)驗(yàn)室研究團(tuán)隊(duì)研發(fā)了具代表性的個(gè)人數(shù)據(jù)空間原型系統(tǒng)orientsPac。在綜合考慮數(shù)據(jù)的模型、組織形式和分類方法基礎(chǔ)上,提出了與數(shù)據(jù)相關(guān)的eorespaee模型和與任務(wù)相關(guān)的TaskSPace模型,但該系統(tǒng)的不足之處是用戶不能自己定義關(guān)聯(lián)。

綜上所述,以物聯(lián)網(wǎng)、云計(jì)算技術(shù)作為數(shù)據(jù)收集、數(shù)據(jù)管理手段,用數(shù)據(jù)空間技術(shù)來組織大數(shù)據(jù),實(shí)現(xiàn)多層次、多粒度的大數(shù)據(jù)挖掘,是處理大規(guī)模數(shù)據(jù)行之有效的途徑,也符合大數(shù)據(jù)管理和服務(wù)的需求。

【參考文獻(xiàn)】

[1]孟小峰,慈祥.大數(shù)據(jù)的管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(1)

[2]王濤,余順爭(zhēng).基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類研究進(jìn)展[J].小型微型計(jì)算機(jī)系統(tǒng),2012(5)

[3]袁平鵬,劉譜,張文婭,等.高可擴(kuò)展的RDF數(shù)據(jù)存儲(chǔ)系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012(10)

[4]孫揚(yáng),封孝生,唐九陽.多維可視化技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2008(11)

[5]王鵬.走進(jìn)云計(jì)算[M].北京:人民郵電出版社,2009.

[6]寧煥生,徐群玉.全球物聯(lián)網(wǎng)發(fā)展及中國(guó)物聯(lián)網(wǎng)建設(shè)若干思考[J].電子學(xué)報(bào),2010(11)

[7]A.Halevy,M.Franklin,and .Maier.Principles of Dataspace System. The Twenty-Fifth ACM SIGACT- SIGMOD-SIGART Symposium on Principles of Database Systems, Illinois,ACM,2006:1-9

[8]JP. Dittrich. A Platform for Personal Dataspace Management. SIGIR PIM Workshop.Personal Informat ion Management - A SIGIR 2006 Workshop.Seattle, CM.2006:40-43

[9]L.Blunschi.JP. Dittrich,OR. Guard. The iMeMex personal data space management system. Third Biennial Conference on Innovative Data Systems Research. Asilomar, ACM.2007:114-119

[10]Karger DR,Bakshi K,Huynh D,et al. A customizable general- purpose information management tool for end users of semistructured data. 2nd Biennial Conference on Innovative Data Systems Research. Asilomar ,ACM.2005:13-27

[11] Roxana G, Magdalena B, et al. Home views: peer-to-peer middle ware for personal data sharing applications.26th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. Beijing,ACM. 2007:235-246

[12] OrientSpace[EB/OL].(2013-03-05)[2013-03-05].http://idke.ruc.edu.cn/

OrientSpace

(責(zé)編 黎 原)

猜你喜歡
云計(jì)算物聯(lián)網(wǎng)大數(shù)據(jù)
基于物聯(lián)網(wǎng)的煤礦智能倉(cāng)儲(chǔ)與物流運(yùn)輸管理系統(tǒng)設(shè)計(jì)與應(yīng)用
基于高職院校物聯(lián)網(wǎng)技術(shù)應(yīng)用人才培養(yǎng)的思考分析
基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
科技視界(2016年20期)2016-09-29 13:34:06
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
中國(guó)或成“物聯(lián)網(wǎng)”領(lǐng)軍者
岑溪市| 花莲市| 莲花县| 天长市| 将乐县| 东莞市| 改则县| 威远县| 庄河市| 兴山县| 永善县| 无极县| 台中市| 延川县| 深州市| 辽阳县| 崇义县| 禹城市| 五常市| 莱阳市| 砀山县| 朝阳县| 文水县| 四川省| 阿拉善右旗| 淮南市| 临潭县| 松滋市| 和平区| 赫章县| 沛县| 潼南县| 云南省| 泾源县| 饶平县| 高雄县| 金华市| 聂荣县| 昭觉县| 龙口市| 宿州市|