李懷國+姚曉樂
【摘要】 文章首先簡要闡述了大數(shù)據(jù)與云計(jì)算平臺,在此基礎(chǔ)上對大數(shù)據(jù)和云計(jì)算平臺的應(yīng)用進(jìn)行論述。期望通過本文的研究能夠?qū)Υ髷?shù)據(jù)與云計(jì)算平臺在相關(guān)領(lǐng)域中的推廣應(yīng)用有所幫助。
【關(guān)鍵詞】 大數(shù)據(jù) 云計(jì)算平臺 應(yīng)用
一、大數(shù)據(jù)與云計(jì)算平臺概述
1、大數(shù)據(jù)的特征。大數(shù)據(jù)又被IT業(yè)稱之為巨量數(shù)據(jù)集合,具體是指無法在某個(gè)特定時(shí)間范圍內(nèi)用常規(guī)的軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是一種海量、多樣化、高增長率的信息資產(chǎn)。大數(shù)據(jù)的特征主要體現(xiàn)在如下幾個(gè)方面:超大的容量、繁多的種類、獲取數(shù)據(jù)的高速、數(shù)據(jù)質(zhì)量真實(shí)可靠、數(shù)據(jù)來源渠道復(fù)雜等等。信息時(shí)代到來的今天,數(shù)據(jù)信息在生產(chǎn)生活中的重要性日益凸顯,大數(shù)據(jù)的發(fā)展速度也變得越來越快,對信息處理提出了更高的要求,即需要在短時(shí)間內(nèi)對數(shù)據(jù)庫進(jìn)行有關(guān)的操作與處理,為滿足這一需求,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。
2、云計(jì)算平臺的優(yōu)勢。云計(jì)算是以網(wǎng)絡(luò)為平臺,利用遠(yuǎn)程連接的計(jì)算機(jī)獲取所需計(jì)算服務(wù),該計(jì)算機(jī)可供給彈性伸縮的計(jì)算資源,可提高資源利用效率,節(jié)省因重復(fù)配置資源增加的成本。云計(jì)算的優(yōu)點(diǎn):1.計(jì)算能力強(qiáng)。云計(jì)算可對計(jì)算機(jī)集群中的CPU進(jìn)行遠(yuǎn)程調(diào)用,使其具備強(qiáng)大的計(jì)算能力,每秒高達(dá)10萬億次運(yùn)算。2.可靠性高。云計(jì)算使用數(shù)據(jù)容錯(cuò)技術(shù)和計(jì)算節(jié)點(diǎn)同構(gòu)可互換措施,能夠保證云計(jì)算服務(wù)的可靠性。3.使用成本低。云計(jì)算采用自動化集中式管理,按需分配使用硬件資源,無需支付數(shù)據(jù)管理成本。
3、大數(shù)據(jù)與云計(jì)算平臺的關(guān)系。大數(shù)據(jù)與云計(jì)算的聯(lián)系緊密,兩者均能夠?yàn)閿?shù)據(jù)資源提供存儲、訪問和計(jì)算的平臺。對于云計(jì)算而言,其核心技術(shù)為數(shù)據(jù)處理技術(shù),最終目的是為國家、企業(yè)和個(gè)人提供便捷服務(wù),這與大數(shù)據(jù)的發(fā)展目的一致。大數(shù)據(jù)擁有豐富的數(shù)據(jù)資源,能夠與云計(jì)算平臺共同一個(gè)平臺,進(jìn)行大數(shù)據(jù)分析與計(jì)算,兩者的相似度極高。
二、大數(shù)據(jù)和云計(jì)算平臺的應(yīng)用
大數(shù)據(jù)和云計(jì)算平臺的應(yīng)用現(xiàn)已遍及多個(gè)領(lǐng)域,其在各個(gè)領(lǐng)域中均具有其它技術(shù)不可替代的作用。下面本文重點(diǎn)對其中的關(guān)鍵技術(shù)及具體應(yīng)用進(jìn)行分析。
2.1 Hadoop技術(shù)及其應(yīng)用
1、Hadoop技術(shù)。這是一個(gè)開源軟件框架,具有海量數(shù)據(jù)分布式處理的能力,其支持PB級海量數(shù)據(jù),并且可擴(kuò)展性極強(qiáng)。該技術(shù)的高效性、可擴(kuò)展性、可靠性、開源特性,使其獲得了快速發(fā)展,并在很多平臺中得到了應(yīng)用。
2、具體應(yīng)用。①在百度中的應(yīng)用。百度是提供數(shù)據(jù)搜索服務(wù)的重要平臺,在海量數(shù)據(jù)中百度能夠通過語義分析精準(zhǔn)搜索到關(guān)鍵字以及用戶想要的結(jié)果。百度的海量數(shù)據(jù)處理平臺基于Hadoop而建立,每天處理的數(shù)據(jù)量十分龐大,約為20PB,處理的任務(wù)數(shù)超過120000個(gè)。百度數(shù)據(jù)處理平臺主要應(yīng)用于以下方面:分析挖掘商業(yè)數(shù)據(jù),如展示與點(diǎn)擊廣告;存儲、分析、搜索日志;分析、爬取網(wǎng)頁;用戶行為挖掘,如用戶關(guān)聯(lián)與推薦。②在騰訊中的應(yīng)用。騰訊是我國互聯(lián)網(wǎng)行業(yè)先進(jìn)技術(shù)與平臺的代表,涵蓋電子商務(wù)、社交網(wǎng)絡(luò)、新聞門戶、網(wǎng)絡(luò)游戲、搜索等服務(wù)項(xiàng)目,其擁有自主研發(fā)的云計(jì)算平臺,即臺風(fēng)(Typhoon),能夠大批量處理在線數(shù)據(jù)與離線數(shù)據(jù)。此外,騰訊基于Hadoop建立了海量數(shù)據(jù)處理平臺,用以解決數(shù)據(jù)挖掘、網(wǎng)頁分析等特殊問題。騰訊進(jìn)一步擴(kuò)展了Hyphoon平臺,使其能夠支持Hadoop程序運(yùn)行,既發(fā)揮了Hadoop的優(yōu)勢,又提高了資源利用率。
2.2 Spark技術(shù)及其應(yīng)用
1、Spark技術(shù)。這是一款基于內(nèi)存計(jì)算的分布式計(jì)算系統(tǒng),通過它可對大數(shù)據(jù)進(jìn)行快速地分析處理。由于該技術(shù)是基于內(nèi)存計(jì)算實(shí)現(xiàn),從而使得數(shù)據(jù)的分析處理速度獲得了大幅度提升,對于實(shí)時(shí)性要求較高的數(shù)據(jù)分析處理,該技術(shù)非常適用。不僅如此,Spark對Hadoop還具有高度的兼容性。
2、具體應(yīng)用。①在雅虎中的應(yīng)用。雅虎對Spark技術(shù)的應(yīng)用主要體現(xiàn)在利用該技術(shù)實(shí)現(xiàn)Audience Expansion 算法,這是一種在廣告中尋找目標(biāo)用戶的算法,借助Spark集群,可以實(shí)現(xiàn)對目標(biāo)用戶的快速尋找及交互式查詢?,F(xiàn)階段,在雅虎上部署的Spark集群有112臺節(jié)點(diǎn),內(nèi)存為9.2TB。②在優(yōu)酷土豆中的應(yīng)用。優(yōu)酷土豆原本使用的是Hadoop集群,在使用中存發(fā)現(xiàn)以下幾個(gè)方面的問題:一是在BI方面,分析師提交相關(guān)任務(wù)之后,需要較長時(shí)間才能收到分析結(jié)果;二是在大數(shù)據(jù)量的計(jì)算方面效率不高;三是迭代運(yùn)算耗費(fèi)的資源過多且速度較慢。通過Spark技術(shù)的應(yīng)用,可以使上述問題獲得有效解決。Spark技術(shù)的交互查詢響應(yīng)速度快,其性能要高出Hadoop數(shù)倍,在模擬廣告投放的計(jì)算上,效率更高、延遲更小,迭代計(jì)算基本不會占用過多的資源,大幅度提升了計(jì)算性能。正因如此,使Spark技術(shù)在優(yōu)酷土豆的視頻推薦及廣告業(yè)務(wù)中獲得了廣泛應(yīng)用。
結(jié)論:綜上所述,大數(shù)據(jù)與云計(jì)算平臺以自身所具備的諸多優(yōu)越性,在多個(gè)重要領(lǐng)域中獲得越來越廣泛的應(yīng)用,這對于促進(jìn)各個(gè)領(lǐng)域的發(fā)展具有重要的現(xiàn)實(shí)意義。在未來一段時(shí)期,應(yīng)當(dāng)進(jìn)一步加大對其的研究力度,在現(xiàn)有的基礎(chǔ)上使大數(shù)據(jù)與云計(jì)算平臺更加完善,為大范圍推廣應(yīng)用奠定基礎(chǔ)。
參 考 文 獻(xiàn)
[1]畢建新,陳雅,鄭建明.面向科學(xué)大數(shù)據(jù)的云計(jì)算平臺構(gòu)建研究——以東南大學(xué)為例[J].現(xiàn)代教育技術(shù),2013(10):103-104.
[2]馬學(xué)梅.大數(shù)據(jù)和云計(jì)算平臺應(yīng)用探究[J].信息化建設(shè),2016(7):46-47.