国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析大數(shù)據(jù)

2014-09-01 16:54張維蘇秀芝
關鍵詞:并行計算物聯(lián)網(wǎng)大數(shù)據(jù)

張維+蘇秀芝

摘要:“大數(shù)據(jù)”是一個數(shù)量特別多,數(shù)據(jù)類別特別大的數(shù)據(jù)集。大數(shù)據(jù)技術是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術并將其應用到相關領域,通過解決巨量數(shù)據(jù)處理問題促進其突破性發(fā)展。在本文中,我們將介紹大數(shù)據(jù)產(chǎn)生的背景,以及跟大數(shù)據(jù)相關的技術,如并行計算、物聯(lián)網(wǎng)、數(shù)據(jù)中心和Hadoop。討論大數(shù)據(jù)的幾種有代表性的應用,包括在百貨公司、彩票行業(yè)、超市、零售業(yè)等方面的典型應用。討論這些目的是給讀者提供一個全面的概述。

關鍵詞:大數(shù)據(jù) 并行計算 物聯(lián)網(wǎng)

1 背景

進入2012年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。

數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然現(xiàn)在企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。大數(shù)據(jù)[1]時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。

哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!?/p>

最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”“大數(shù)據(jù)”在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關注。

隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關注。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

2 相關技術

2.1 大數(shù)據(jù)與并行計算

對于大數(shù)據(jù),串行的處理方式難以滿足計算要求,需要采取并行處理的方式,現(xiàn)在有兩種并行處理的方式:細粒度并行計算和粗粒度并行計算。細粒度主要是指指令或進程級別,由于GPU比CPU擁有更強的并行處理能力,可以將一些任務交給GPU并行處理,一些GPU制造商也推出了方便程序員使用的編程模型,如NVIDIA推出的CUDA等,粗粒度主要是指任務級別,將工作分布到不同機器中執(zhí)行,最近流行的網(wǎng)格計算、分布式計算[2]都屬于粗粒度級別。

由于大數(shù)據(jù)都分別在集群中,因此對數(shù)據(jù)的處理和分析需要在集群中進行,但是在多臺機器上對分布式數(shù)據(jù)進行分析會產(chǎn)生巨大的性能開銷,即使采用千兆比特或萬兆比特帶寬的網(wǎng)絡,隨機讀取速度和連續(xù)讀取速度都會比內(nèi)存慢幾個數(shù)量級。但是,現(xiàn)在高速局域網(wǎng)技術使得網(wǎng)絡讀取速度比硬盤讀取速度要快,因此,將數(shù)據(jù)存儲在其他節(jié)點上比存儲在硬盤上性能要好,而且還可以在多個節(jié)點上并行處理數(shù)據(jù)集。

對大數(shù)據(jù)分布處理也會帶來一些問題,首先就是節(jié)點間通信對并行處理的代價,一些操作如搜索、計數(shù)、部分聚集、聯(lián)合等可以在每個節(jié)點上獨立執(zhí)行。單個節(jié)點處理后的結果需要合并,因此節(jié)點間的通信是不可以避免的。

2.2 大數(shù)據(jù)與物聯(lián)網(wǎng)

物聯(lián)網(wǎng)的發(fā)展離不開大數(shù)據(jù)[3],依靠大數(shù)據(jù)可以提供足夠有利的資源;同時,大數(shù)據(jù)也推動了物聯(lián)網(wǎng)的發(fā)展。新時代的發(fā)展提出更高的要求,這是一種智慧化的新形態(tài),其外在表現(xiàn)就是物聯(lián)網(wǎng),而其內(nèi)涵就表現(xiàn)為大數(shù)據(jù)。簡單來說,物聯(lián)網(wǎng)的應用,其內(nèi)在本質就利用了大數(shù)據(jù)。大數(shù)據(jù)是物聯(lián)網(wǎng)的血液。

眾所周知,物聯(lián)網(wǎng)時代所創(chuàng)造的數(shù)據(jù)將不會是互聯(lián)網(wǎng)時代數(shù)據(jù)所能比擬的,物聯(lián)網(wǎng)時代一輛汽車甚至一個冰箱都有一個獨立的IP地址,都能依照自己系數(shù)的改變生成數(shù)據(jù)。那么這么多的數(shù)據(jù)存在,我們又如何保護它的安全和個人隱私呢?或許這個問題永遠沒有答案,這里借用愛因斯坦的著名理論來解釋就是:“只有相對的自由,沒有絕對的隱私”。物聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)與一般的大數(shù)據(jù)有不同的特點。物聯(lián)網(wǎng)的數(shù)據(jù)是異構的、多樣性的、非結構和有噪聲的,更大的不同是它的高增長率。物聯(lián)網(wǎng)的數(shù)據(jù)有明顯的顆粒性,其數(shù)據(jù)通常帶有時間、位置、環(huán)境和行為等信息。物聯(lián)網(wǎng)數(shù)據(jù)可以說也是社交數(shù)據(jù),但不是人與人的交往信息,而是物與物,物與人的社會合作信息。大數(shù)據(jù)助力物聯(lián)網(wǎng),不僅僅是收集傳感性的數(shù)據(jù),實物跟虛擬物要結合起來。今天北京交通堵塞,但是并不知道堵塞原因,如果政府發(fā)布消息和市民微博發(fā)布消息結合起來就知道發(fā)生什么事,物聯(lián)網(wǎng)要過濾,過濾要有一定模式。

2.3 數(shù)據(jù)中心

在大數(shù)據(jù)模式下,數(shù)據(jù)中心不僅是以一個平臺的形式進行數(shù)據(jù)的集中存儲,而且還承擔更多的責任,如采集數(shù)據(jù),管理數(shù)據(jù),整理數(shù)據(jù),并利用數(shù)據(jù)的價值和功能。數(shù)據(jù)中心主要關注“數(shù)據(jù)”而不是“中心”,它有大量的數(shù)據(jù),并根據(jù)它的目標展示一定的規(guī)律,這樣比擁有一個網(wǎng)站和資源更加有價值,大數(shù)據(jù)的出現(xiàn)帶來了良好的發(fā)展機遇和巨大的挑戰(zhàn)。大數(shù)據(jù)是一個新興的模式,這將促進基礎設施和相關數(shù)據(jù)中心爆炸式增長。

2.4 大數(shù)據(jù)與Hadoop

Hadoop是一種用于大數(shù)據(jù)[4]的應用程序,因為它是建立在MapReduce基礎上的,所以引起了極大的關注。(MapReduce是一種用于超級計算的普通方法,之后經(jīng)過了主要由Google資助的一個項目的優(yōu)化,因此被簡化并變得考究了。) Hadoop是幾個緊密關聯(lián)的Apache項目組成的混合體的主要安裝啟用程序,其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫。endprint

為了充分利用Hadoop和類似的先進技術,軟件開發(fā)商們絞盡腦汁研發(fā)出了各種各樣的技術,其中很多都是在開源社區(qū)里開發(fā)出來的。

Olofson說“他們已經(jīng)開發(fā)出了大量的所謂noSQL數(shù)據(jù)庫,種類之多讓人眼花繚亂,其中大部分都是鍵值配對數(shù)據(jù)庫,能利用多種技術對性能或種類或容量進行優(yōu)化?!?/p>

開源技術還沒有得到商業(yè)支持。“所以在這方面還需要經(jīng)過一段時間的發(fā)展完善,這一過程可能需要幾年?;谶@個原因,大數(shù)據(jù)可能需要一些時日才能在市場上走向成熟”他補充道。

3 大數(shù)據(jù)的典型應用

下面這些大數(shù)據(jù)的典型應用可以幫助我們更清晰的理解大數(shù)據(jù)時代的來臨。例如梅西百貨的實時定價機制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調價;Tipp24 AG針對歐洲博彩業(yè)構建的下注和預測平臺。該公司用KXEN軟件來分析數(shù)十億計的交易以及客戶的特性,然后通過預測模型對特定用戶進行動態(tài)的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN沃爾瑪?shù)乃阉?。這家零售業(yè)寡頭為其網(wǎng)站W(wǎng)almart.com自行設計了最新的搜索引擎Polaris,利用語義數(shù)據(jù)進行文本分析、機器學習和同義詞挖掘等。根據(jù)沃爾瑪?shù)恼f法,語義搜索技術的運用使得在線購物的完成率提升了10%到15%。對沃爾瑪來說,這就意味著數(shù)十億美元的收入??觳蜆I(yè)通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內(nèi)容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。

4 結論

在本文中,首先介紹了大數(shù)據(jù)產(chǎn)生的背景;其次討論了跟大數(shù)據(jù)相關的幾種技術,包括并行計算、物聯(lián)網(wǎng)、數(shù)據(jù)中心、Hadoop;最后根據(jù)實際情況列舉了跟大數(shù)據(jù)相關的幾種實際應用。大數(shù)據(jù)已經(jīng)通過各種形式滲透進人們的日常生活,同時也給我們的科學研究帶來了新的挑戰(zhàn)。

參考文獻:

[1]陳一鳴.美國:以國家戰(zhàn)略應對大數(shù)據(jù)時代[N].人民日報,2013-1-17.

[2]計算機行業(yè)-大數(shù)據(jù)(Big Data)專題報告[R].上海:光大證券股份有限公司研究所,2011.

[3]大數(shù)據(jù)分析技術的發(fā)展[EB/OL].2012-05-16.http://iech.

ccidnet.com/art/32963/20120516/3859799_1.html.

[4]李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊,2012(9):8-15.

[5]王珊,王會舉等.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011(10):1741-1753.endprint

猜你喜歡
并行計算物聯(lián)網(wǎng)大數(shù)據(jù)
云計算中MapReduce分布式并行處理框架的研究與搭建
矩陣向量相乘的并行算法分析
基于高職院校物聯(lián)網(wǎng)技術應用人才培養(yǎng)的思考分析
并行硬件簡介
基于大數(shù)據(jù)背景下的智慧城市建設研究
中國或成“物聯(lián)網(wǎng)”領軍者
基于Matlab的遙感圖像IHS小波融合算法的并行化設計
桐城市| 依兰县| 西华县| 揭西县| 全椒县| 淳化县| 正镶白旗| 都兰县| 石狮市| 白玉县| 普洱| 井陉县| 龙岩市| 来凤县| 孝昌县| 社会| 临洮县| 宜兰县| 闽清县| 普兰店市| 铁岭县| 皮山县| 行唐县| 六枝特区| 丘北县| 汤阴县| 临城县| 儋州市| 张家港市| 阿坝| 滨州市| 旅游| 海林市| 林州市| 富源县| 南投市| 吉林省| 鄂托克旗| 土默特左旗| 宁安市| 太原市|