肖鈺麟 田新
摘要:大數(shù)據(jù)時(shí)代,通過(guò)分析獲得大數(shù)據(jù)的衍生價(jià)值和潛在價(jià)值,對(duì)企業(yè)在各個(gè)領(lǐng)域獲取競(jìng)爭(zhēng)優(yōu)勢(shì)、引領(lǐng)行業(yè)發(fā)展十分重要。大數(shù)據(jù)的異構(gòu)性、規(guī)模性、及時(shí)性、復(fù)雜性以及隱私問(wèn)題成為數(shù)據(jù)創(chuàng)造價(jià)值進(jìn)展過(guò)程中的阻力。文章討論了物聯(lián)網(wǎng)數(shù)據(jù)的問(wèn)題和挑戰(zhàn),提供了物聯(lián)網(wǎng)數(shù)據(jù)處理的計(jì)算基礎(chǔ)架構(gòu),重點(diǎn)關(guān)注大規(guī)模數(shù)據(jù)處理面臨的挑戰(zhàn)。通過(guò)討論新興計(jì)算技術(shù),為改善大規(guī)模數(shù)據(jù)管理提供幫助。
關(guān)鍵詞:大數(shù)據(jù);云計(jì)算;可擴(kuò)展性;異構(gòu)計(jì)算;海量數(shù)據(jù)處理技術(shù)
網(wǎng)絡(luò)技術(shù)已經(jīng)滲透到人們社會(huì)生活的方方面面,甚至是不可或缺。移動(dòng)手機(jī)和其他移動(dòng)通信設(shè)備,如筆記本電腦、平板電腦、電子書閱讀器如Kindle*HNook、GPS車載信息系統(tǒng)等,幾乎所有的社交媒體都在廣泛使用網(wǎng)絡(luò),移動(dòng)互聯(lián)的便利越來(lái)越多地被用戶接受。未來(lái)“物聯(lián)網(wǎng)”生態(tài)系統(tǒng)將主宰世界,每一個(gè)有形實(shí)體都有一個(gè)身份,和用戶對(duì)話交互,通過(guò)觸摸掌上電腦PDA或單擊鼠標(biāo)鍵你就可以控制所有的物品。
每一件日常用品都可以通過(guò)互聯(lián)網(wǎng)尋址和控制。人們獲取信息和交流的方式發(fā)生根本性的改變??梢灶A(yù)計(jì),在不久的將來(lái),幾乎所有物品和每個(gè)人都能夠?qū)崿F(xiàn)實(shí)時(shí)無(wú)線互聯(lián)。在未來(lái),移動(dòng)手機(jī)將作為中心或遠(yuǎn)程控制器,聯(lián)系人們周圍的一切,這是所謂的物聯(lián)網(wǎng)。
物聯(lián)網(wǎng)的概念于1999年提出,物聯(lián)網(wǎng)是一個(gè)動(dòng)態(tài)、具有配置功能的全球網(wǎng)絡(luò)基礎(chǔ)設(shè)施,基于國(guó)際標(biāo)準(zhǔn)、能夠共同操作的通信協(xié)議,是將所有物品通過(guò)各種信息傳感設(shè)備,如射頻識(shí)別裝置、紅外感應(yīng)器、3s技術(shù)(即遙感技術(shù)+地理信息系統(tǒng)+全球定位系統(tǒng))、激光掃描器等各類裝置與互聯(lián)網(wǎng)結(jié)合起來(lái),實(shí)現(xiàn)數(shù)據(jù)采集、融合、處理,并通過(guò)操作終端,實(shí)現(xiàn)智能化識(shí)別和管理u。。在此定義的“物品”具有物理身份和虛擬身份2個(gè)身份,物理屬性和虛擬身份使用智能接口無(wú)縫地集成到信息網(wǎng)絡(luò),這是未來(lái)互聯(lián)網(wǎng)的一個(gè)集成部分。據(jù)研究估計(jì),到2020年,連接物品對(duì)象的數(shù)量將達(dá)到500億。物聯(lián)網(wǎng)承諾人類生活在一個(gè)智能的、高度網(wǎng)絡(luò)化的世界,在這個(gè)世界里,它允許廣泛地與環(huán)境交互。無(wú)論你去哪里,都可以運(yùn)用對(duì)象超鏈接。手機(jī)終端是驗(yàn)證這些連接的,并保持連接的關(guān)鍵設(shè)備。對(duì)象超鏈接又稱硬鏈接,是一個(gè)新詞,通常指互聯(lián)網(wǎng)延伸到現(xiàn)實(shí)世界中的對(duì)象和地點(diǎn)。
對(duì)象超鏈接通過(guò)URLs(地址)對(duì)現(xiàn)實(shí)世界的對(duì)象進(jìn)行標(biāo)記,有形的物體或位置就成為元對(duì)象,目標(biāo)是實(shí)現(xiàn)網(wǎng)絡(luò)到現(xiàn)實(shí)世界的擴(kuò)展。大多數(shù)物體的某些特性被標(biāo)記集成或附加到對(duì)象。這些標(biāo)記可以使用不同種類的無(wú)線近場(chǎng)通信進(jìn)行分析,例如使用RFID標(biāo)簽或藍(lán)牙設(shè)備,其他視覺(jué)標(biāo)記可以使用相機(jī)掃描進(jìn)行分析,例如標(biāo)準(zhǔn)的一維條形碼或現(xiàn)代流行二維條碼。這些對(duì)象標(biāo)簽可以被無(wú)線移動(dòng)設(shè)備讀取,對(duì)象和位置相關(guān)的信息就會(huì)被檢索并顯示。使用RFID標(biāo)簽,每一個(gè)實(shí)際物體在模擬計(jì)算機(jī)世界里可能有一個(gè)唯一的識(shí)別號(hào)碼,像一個(gè)IP地址一樣。
1.物聯(lián)網(wǎng)數(shù)據(jù)處理
在大數(shù)據(jù)時(shí)代,通過(guò)分析獲得大數(shù)據(jù)的衍生價(jià)值和潛在價(jià)值,對(duì)企業(yè)在各個(gè)領(lǐng)域獲取競(jìng)爭(zhēng)優(yōu)勢(shì)、引領(lǐng)行業(yè)發(fā)展十分重要。物聯(lián)網(wǎng)的興起,導(dǎo)致產(chǎn)品的數(shù)量數(shù)據(jù)和產(chǎn)品類型數(shù)據(jù)以前所未有的速度增長(zhǎng)。大數(shù)據(jù)的異構(gòu)性、規(guī)模性、及時(shí)性、復(fù)雜性以及隱私問(wèn)題成為數(shù)據(jù)創(chuàng)造價(jià)值進(jìn)展過(guò)程中的阻力。在物聯(lián)網(wǎng)中,傳感器、執(zhí)行器、RFID標(biāo)簽是物理對(duì)象的表現(xiàn),從公路到心臟起搏器,它們通過(guò)供應(yīng)鏈被放置在不同種類產(chǎn)品中,通過(guò)有線和無(wú)線網(wǎng)絡(luò)連接,對(duì)庫(kù)存商品監(jiān)控、住院病人管理、停車場(chǎng)和互聯(lián)網(wǎng)汽車上使用一系列的傳感器進(jìn)行管理,方便了各種不同數(shù)據(jù)的采集。
專業(yè)人士積極利用大數(shù)據(jù)可挖掘出有價(jià)值的信息,這要求計(jì)算機(jī)具備巨大的存儲(chǔ)和計(jì)算資源,加上先進(jìn)的軟件系統(tǒng),能保證分析各種圖形的運(yùn)算、生成和顯示。物聯(lián)網(wǎng)導(dǎo)致產(chǎn)品的數(shù)量和類型方面的數(shù)據(jù)以前所未有的速度激增。公司運(yùn)用這些數(shù)據(jù)進(jìn)行分析,進(jìn)而改進(jìn)業(yè)務(wù)流程,預(yù)測(cè)趨勢(shì)和損失。這些數(shù)據(jù)也可以為產(chǎn)品開(kāi)發(fā)、客戶支持、生產(chǎn)經(jīng)營(yíng)和團(tuán)隊(duì)營(yíng)銷提供決策信息,利用這些信息來(lái)改善產(chǎn)品的性能、增加收入、降低成本等。
2.物聯(lián)網(wǎng)數(shù)據(jù)的特征
(1)物聯(lián)網(wǎng)生成大量的數(shù)據(jù)信息。物聯(lián)網(wǎng)信息生成的速度遠(yuǎn)遠(yuǎn)超過(guò)了傳統(tǒng)系統(tǒng),并且產(chǎn)生各種不同的類型的監(jiān)測(cè)信息。新興數(shù)據(jù)形式的多樣性表明現(xiàn)實(shí)社會(huì)存在許多有趣的企業(yè)。例如,國(guó)外的Twitter、Facebook和國(guó)內(nèi)的微博、微信等社交媒體已經(jīng)成為大數(shù)據(jù)的主要來(lái)源之一。2015年8月,美國(guó)的Facebook首次突破在一天內(nèi)達(dá)到10億人在線,而國(guó)內(nèi)騰訊QQ目前歷史最高實(shí)時(shí)在線人數(shù)已達(dá)2.28億。由于傳感器與世界互動(dòng),“物聯(lián)網(wǎng)”產(chǎn)生的數(shù)據(jù)量是相當(dāng)可觀的,數(shù)字處理需求成為可行。
(2)物聯(lián)網(wǎng)數(shù)據(jù)的多樣性。與傳統(tǒng)的事務(wù)處理不同,“物聯(lián)網(wǎng)”爆炸式數(shù)據(jù)量來(lái)自傳感器,數(shù)據(jù)可以不斷采集,且速度快?!拔锫?lián)網(wǎng)”數(shù)據(jù)的多樣性取決于傳感器的類型和不斷擴(kuò)大的數(shù)據(jù)源。處理大量復(fù)雜數(shù)據(jù)和信息的方式也多種多樣,這取決于數(shù)據(jù)背后的語(yǔ)義模型。因此,數(shù)據(jù)收集形式也不同,因?yàn)橛薪Y(jié)構(gòu)化的數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)以及混合型數(shù)據(jù)。數(shù)據(jù)的多樣性對(duì)數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)庫(kù)設(shè)計(jì)催生新的需求,比如要求數(shù)據(jù)庫(kù)動(dòng)態(tài)適應(yīng)數(shù)據(jù)格式等。
(3)物聯(lián)網(wǎng)數(shù)據(jù)的真實(shí)性。數(shù)據(jù)的真實(shí)性可以確保使用的數(shù)據(jù)是可信的、真實(shí)的和受保護(hù)的,以免受未經(jīng)授權(quán)的訪問(wèn)和修改,保證數(shù)據(jù)在整個(gè)生命周期的安全性。從可信任的來(lái)源收集數(shù)據(jù),在可信任的計(jì)算設(shè)施上處理數(shù)據(jù),在可信任的存儲(chǔ)設(shè)施上存儲(chǔ)數(shù)據(jù)。隨著時(shí)間的推移,“物聯(lián)網(wǎng)”數(shù)據(jù)的真實(shí)性也可以改善傳感器和其他數(shù)據(jù)的質(zhì)量。例如,使用RFID生成比10年前更可靠的信息。數(shù)據(jù)生成量大,加上越來(lái)越快的生成速度以及日益增加的數(shù)據(jù)樣式,大量的原始數(shù)據(jù)需要分析處理來(lái)創(chuàng)造新的價(jià)值。
3.物聯(lián)網(wǎng)數(shù)據(jù)處理的變化與挑戰(zhàn)
通過(guò)物聯(lián)網(wǎng)傳感器產(chǎn)生的數(shù)據(jù)以指數(shù)級(jí)速度增加。數(shù)據(jù)的異構(gòu)性、規(guī)模性、及時(shí)性、復(fù)雜性和數(shù)據(jù)隱私問(wèn)題阻礙了數(shù)據(jù)從采集到創(chuàng)造價(jià)值各個(gè)進(jìn)展的所有階段。加上數(shù)據(jù)正日益變得更加多樣化、復(fù)雜化和去結(jié)構(gòu)化,對(duì)數(shù)據(jù)的迅速處理己勢(shì)在必行。滿足這樣的需求對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)構(gòu)成了巨大的挑戰(zhàn)。它需要鞏固電子基礎(chǔ)設(shè)施平臺(tái),以確保研究連續(xù)性和跨學(xué)科協(xié)作、提供持續(xù)的服務(wù),與之適應(yīng)的治理模式,還有升級(jí)所需的架構(gòu)滿足這些需求。這種大數(shù)據(jù)根本上的需求需要大規(guī)模分布式架構(gòu)和大規(guī)模并行處理管理和分析數(shù)據(jù)。endprint
巨大的物聯(lián)網(wǎng)數(shù)據(jù)被3個(gè)主要數(shù)據(jù)庫(kù)管理:收集數(shù)據(jù)庫(kù)、查詢數(shù)據(jù)庫(kù)和管理數(shù)據(jù)庫(kù)。所有這些主要的挑戰(zhàn)是數(shù)據(jù)通信。通信成本遠(yuǎn)遠(yuǎn)高于處理成本,通信成本最小化,同時(shí)滿足額外的存儲(chǔ)和數(shù)據(jù)需求。網(wǎng)絡(luò)帶寬和延遲是網(wǎng)絡(luò)2個(gè)主要的性能,網(wǎng)絡(luò)性能將影響客戶端和數(shù)據(jù)服務(wù)器間的通信。
4.大數(shù)據(jù)管理相關(guān)技術(shù)
相關(guān)研究人員在大規(guī)模數(shù)據(jù)管理方面已作了大量的工作。岡薩雷斯提出RFID-Cuboids模型,存儲(chǔ)大規(guī)模RFID數(shù)據(jù)。也有許多作者提出一對(duì)一的模型和多對(duì)多模型存儲(chǔ)的WSN(無(wú)線傳感器網(wǎng)絡(luò))數(shù)據(jù)。為管理從不同設(shè)備提取的異構(gòu)數(shù)據(jù),楊斌提出了基于SOA(面向服務(wù)的體系結(jié)構(gòu))的物聯(lián)網(wǎng)數(shù)據(jù)管理解決方案,但是,SOA架構(gòu)應(yīng)用程序的效率可能會(huì)降低。此外,上述解決方案的主要缺點(diǎn)是,它們只對(duì)特定的數(shù)據(jù)格式,缺乏系統(tǒng)性。針對(duì)大規(guī)模物聯(lián)網(wǎng)數(shù)據(jù)處理的挑戰(zhàn),楊斌工作組集中關(guān)注其系統(tǒng)性方面,提出基于SOA物聯(lián)網(wǎng)數(shù)據(jù)的框架來(lái)支持大規(guī)模物聯(lián)網(wǎng)數(shù)據(jù)管理。但是丁治明解決方案的核心是RDBMS(關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)),盡管聯(lián)合運(yùn)算避免所有的數(shù)據(jù)存儲(chǔ)在一個(gè)表中,但不支持并發(fā)控制,因?yàn)镽DBMS采用了加鎖機(jī)制。
Tingli Li提出了基于NoSQL的物聯(lián)網(wǎng)存儲(chǔ)管理架構(gòu),被稱為IOTMDB,滿足了物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)的需求。IOTMDB不僅關(guān)注如何合理和有效地存儲(chǔ)大量的物聯(lián)網(wǎng)數(shù)據(jù),而且還關(guān)注到數(shù)據(jù)共享和協(xié)作。結(jié)合RNS物聯(lián)網(wǎng)公共服務(wù)平臺(tái)和基于本體的數(shù)據(jù)抽象,能夠輕松地搜索和定位數(shù)據(jù),最終實(shí)現(xiàn)不同的物聯(lián)網(wǎng)應(yīng)用程序之間的數(shù)據(jù)共享。物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)策略包括預(yù)處理機(jī)制和數(shù)據(jù)分布策略,以滿足通用需求、特定需求和統(tǒng)一數(shù)據(jù)表達(dá)的需求。這些策略有利于提高數(shù)據(jù)聚集和存儲(chǔ)的有效性。
目前占主導(dǎo)地位的大數(shù)據(jù)技術(shù)商業(yè)化代表是Apache的Hadoop和NoSOL。NoSQL數(shù)據(jù)庫(kù)(Not Only SOL意為“不僅僅是SQL”)通常被認(rèn)為是一項(xiàng)全新的非關(guān)系型的數(shù)據(jù)庫(kù),可以為大數(shù)據(jù)建立快速、可擴(kuò)展的存儲(chǔ)庫(kù),具有實(shí)時(shí)事件檢測(cè)過(guò)程;也可以被看作是數(shù)據(jù)分析功能的促成技術(shù),如上下文搜索應(yīng)用程序。因?yàn)镹oSQL模型具有靈活性,該模型可以根據(jù)數(shù)據(jù)的范圍和格式,自動(dòng)識(shí)別查詢的維度,而不是由開(kāi)發(fā)人員預(yù)先確定。這對(duì)數(shù)據(jù)科學(xué)家和業(yè)務(wù)數(shù)據(jù)分析師來(lái)講尤其重要,他們通常在數(shù)據(jù)分析的初期使用這種敏捷的方法進(jìn)行推測(cè),以免使用的常規(guī)的方法信息被掩蓋或受限制。
Hadoop是數(shù)據(jù)密集型的分布式應(yīng)用程序軟件框架,根據(jù)大量公開(kāi)發(fā)表的學(xué)術(shù)論文,由谷歌公司研究并行處理領(lǐng)域的科研人員開(kāi)發(fā)。Hadoop有2個(gè)主要組件:一個(gè)是Hadoop文件系統(tǒng)(HDFS)。一個(gè)高度可擴(kuò)展的、便攜式文件系統(tǒng)來(lái)存儲(chǔ)數(shù)據(jù);另外一個(gè)是Map-Reduce(映射一歸約)模式。使用并行編程模型來(lái)處理數(shù)據(jù)。使用Map-Reduce模式框架允許分析數(shù)據(jù)分布式和高度可擴(kuò)展性,并且Hadoop生態(tài)系統(tǒng)包括一系列工具來(lái)簡(jiǎn)化分析或管理更大規(guī)模的數(shù)據(jù)。這些工具創(chuàng)建Map-Reduce模式程序然后在HDFs系統(tǒng)中執(zhí)行。分析工具主要包括:(1)Apache Hive接口工具。Apache Hive是數(shù)據(jù)倉(cāng)庫(kù)工具,提供一個(gè)簡(jiǎn)單的類似SQL的接口,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的SQL查詢功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduee任務(wù)進(jìn)行運(yùn)行。(2)Apache Pig高級(jí)過(guò)程語(yǔ)言。該語(yǔ)言適用于Hadoop和MapReduee平臺(tái)來(lái)查詢大型半結(jié)構(gòu)化數(shù)據(jù)集。通過(guò)允許對(duì)分布式數(shù)據(jù)集進(jìn)行類似SQL的查詢,Pig可以簡(jiǎn)化Hadoop的使用。(3)Apache Mahout數(shù)據(jù)挖掘。通過(guò)靈活的機(jī)器學(xué)習(xí)來(lái)構(gòu)建智能應(yīng)用程序,進(jìn)行數(shù)據(jù)分析。
Hadoop是專為大規(guī)模數(shù)據(jù)設(shè)計(jì)開(kāi)發(fā)的軟件,面向批處理,一個(gè)簡(jiǎn)單的查詢可能僅需要幾分鐘就可返回結(jié)果。在典型的面向大數(shù)據(jù)分析環(huán)境中,數(shù)據(jù)專家使用這一系列工具,首先會(huì)選擇通過(guò)一些小的數(shù)據(jù)集,把它以某種方式進(jìn)行轉(zhuǎn)換,然后與數(shù)據(jù)倉(cāng)庫(kù)中關(guān)系數(shù)據(jù)進(jìn)行組合,進(jìn)行數(shù)據(jù)分析。大數(shù)據(jù)分析通常具有探索性和迭代性特征,與傳統(tǒng)信息管理案例相比可能需要更多的自由。
Hadoop提供了使用Map-Reduce模式框架這種基本功能分析數(shù)據(jù),以及其他一系列的分析工具,同時(shí),在每個(gè)分析過(guò)程中Hadoop還需要一個(gè)預(yù)備步驟。另外,Hadoop低成本的數(shù)據(jù)存儲(chǔ)模型有助于提供一個(gè)數(shù)據(jù)池,這些數(shù)據(jù)池的每一項(xiàng)價(jià)值對(duì)組織來(lái)講可能是有限的,但對(duì)于任何給定的業(yè)務(wù)問(wèn)題可能每一項(xiàng)都是不可或缺的環(huán)節(jié)。數(shù)據(jù)可能被選中、轉(zhuǎn)換和加強(qiáng),然后轉(zhuǎn)移到另外一個(gè)相關(guān)設(shè)備,與企業(yè)傳統(tǒng)數(shù)據(jù)進(jìn)行組合,執(zhí)行更多的互動(dòng)分析。Hadoop面向批處理,為了支持實(shí)時(shí)交互,要求其他技術(shù)也要同時(shí)具備。當(dāng)前,這一領(lǐng)域最常見(jiàn)的技術(shù)是復(fù)雜事件處理(CEP)、內(nèi)存分布式數(shù)據(jù)網(wǎng)格、內(nèi)存數(shù)據(jù)庫(kù)和傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)。NoSQL數(shù)據(jù)庫(kù)等相關(guān)技術(shù)也支持這些新技術(shù),要么用于Hadoop集群的頂層使用,要么在特定的數(shù)據(jù)存儲(chǔ)層使用。
5.結(jié)論
在海量數(shù)據(jù)的推動(dòng)下,人們正進(jìn)入一個(gè)研究異構(gòu)計(jì)算驅(qū)動(dòng)的新紀(jì)元。大數(shù)據(jù)的異構(gòu)性、規(guī)模性、及時(shí)性、復(fù)雜性以及隱私問(wèn)題成為數(shù)據(jù)創(chuàng)造價(jià)值進(jìn)展過(guò)程中的阻力。設(shè)計(jì)一個(gè)可擴(kuò)展的系統(tǒng),在靈活并行性、靈活分區(qū)和靈活可擴(kuò)展性方面進(jìn)行開(kāi)創(chuàng)性研究,以實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界數(shù)據(jù)集的分析、處理和挖掘,這種大規(guī)模的數(shù)據(jù)技術(shù)時(shí)代將創(chuàng)造出很多令人激動(dòng)的研究機(jī)會(huì)和挑戰(zhàn)。endprint