国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MapReduce:亞馬遜云服務(wù)再添新援

2009-04-15 09:30劉琦
關(guān)鍵詞:分布式計(jì)算實(shí)例頁面

劉琦

如果你有一個(gè)大型分布式處理問題需要解決,同時(shí)又預(yù)算吃緊,就很有必要了解一下Hadoop,然后考慮Amazon的Elastic MapReduce來解決問題。Amazon Web Services(AWS)日前發(fā)布了Amazon Elastic MapReduce的公共測(cè)試版,這是一項(xiàng)可以讓商務(wù)人士、研究學(xué)者、數(shù)據(jù)分析員和開發(fā)者處理數(shù)據(jù)的網(wǎng)絡(luò)服務(wù)。

它采用了托管的Hadoop框架,運(yùn)行在AmazonEC2和AmazonS3的網(wǎng)絡(luò)架構(gòu)下。Amazon Elastic MapReduce大幅縮短了時(shí)間、降低了復(fù)雜度以及執(zhí)行數(shù)據(jù)密集型任務(wù)所需的成本。同其他AWS提供的服務(wù)一樣,Amazon Elastic MapReduce的用戶只需為他們使用的部分付費(fèi)。

Hadoop一覽

Hadoop是一個(gè)開源的分布式計(jì)算平臺(tái),它主要由MapReduce的算法執(zhí)行(即map/reduce函數(shù))和一個(gè)分布式的文件系統(tǒng)(即S3)等兩部分組成。去年起Hadoop就已經(jīng)可以在Amazon EC2上運(yùn)行了。這將使開發(fā)者可以快速搭建起他們自己的服務(wù)器集群。

Hadoop框架中最核心的設(shè)計(jì)是MapReduce和HDFS。簡(jiǎn)單用一句話解釋MapReduce就是“任務(wù)的分解與結(jié)果的匯總”。HDFS是Hadoop分布式文件系統(tǒng)的縮寫,為分布式計(jì)算存儲(chǔ)提供了底層支持。Hadoop的內(nèi)部架構(gòu)基于MapReduce框架。MapReduce的運(yùn)行機(jī)制在J.Dean和S.Ghemawat合著的文檔中有著很清晰的描述,正因如此,本文換了一個(gè)角度,將重點(diǎn)放在實(shí)例的說明上。

Amazon Elastic MapReduce自動(dòng)地在Amazon EC2實(shí)例上驅(qū)動(dòng)一個(gè)MapReduce框架的Hadoop實(shí)現(xiàn)。它會(huì)按照客戶的需求自動(dòng)啟動(dòng)并配置一定數(shù)量的AmazonEC2實(shí)例,然后產(chǎn)生一個(gè)根據(jù)MapReduce編程模型的Hadoop任務(wù),通過它從AmazonS3中讀取大量的用戶輸入數(shù)據(jù),將任務(wù)流中的數(shù)據(jù)分解為更小的塊分?jǐn)偨o生成的AmazonEC2實(shí)例去進(jìn)行并行處理,并最終將處理后的數(shù)據(jù)重新組合在一起成為最后結(jié)果。數(shù)據(jù)處理完成后,它會(huì)將數(shù)據(jù)重新組合并簡(jiǎn)化為一個(gè)最終結(jié)果,并將該結(jié)果返回給AmazonS3。Amazon S3作為被分析的數(shù)據(jù)源,也作為最終結(jié)果輸出的目的地。

云中的MapReduce

用戶訪問Amazon Elastic MapReduce 的第一站是AWS的登錄頁,用戶必須在該頁面注冊(cè)Elastic MapReduce服務(wù),然后進(jìn)入AWS管理控制臺(tái)并且登錄。AWS控制臺(tái)是一個(gè)專門為Amazon EC2提供的控制面板,顯示新增的Amazon Elastic MapReduce選項(xiàng)卡。單擊該選項(xiàng)卡后,用戶將進(jìn)入工作流頁面,在這里就可以監(jiān)控當(dāng)前工作流的實(shí)時(shí)狀況了,同時(shí)也可以檢查之前的工作流細(xì)節(jié)。

如果用戶想要定義一個(gè)新的工作流,系統(tǒng)會(huì)提示用戶在文本框中確定輸入數(shù)據(jù)的路徑、輸出數(shù)據(jù)的路徑以及map和reduce函數(shù)的路徑。

Amazon Elastic MapReduce接受兩種類型的工作流:“自定義jar”以及“流(streaming)”?!弊远xjar”類型的工作流需要map和reduce函數(shù)位于編譯過的Java類中,并且以Java Jar形式儲(chǔ)存。Hadoop框架是基于Java的,因此一個(gè)自定義工作流會(huì)提供更好的性能。與之相對(duì),“流”類型的工作流可以讓用戶通過非Java語言方式自行編寫map和reduce函數(shù)?!傲鳌鳖愋偷墓ぷ髁骱瘮?shù)從標(biāo)準(zhǔn)輸入流中讀取輸入數(shù)據(jù),并將輸出發(fā)送到標(biāo)準(zhǔn)輸入流。因此,數(shù)據(jù)流以字符串方式輸入或輸出。

一旦用戶指定工作流組成部分的路徑,也就確定了執(zhí)行作業(yè)的EC2實(shí)例的個(gè)數(shù)及處理能力,用戶可以選擇多達(dá)20個(gè)EC2實(shí)例,如果超出20個(gè),則必須填寫一份特定的申請(qǐng)表格。用戶對(duì)計(jì)算實(shí)例的選擇范圍可以從小型到大型高速CPU,并可以通過查看Amazon文檔獲得完整CPU實(shí)例的功能描述。接下來的步驟就是處理了。一旦確定了所做的配置,任務(wù)就啟動(dòng)了,之后將返回到工作流頁面,在該頁面中監(jiān)控任務(wù)進(jìn)程。當(dāng)工作完成后,用戶的輸出數(shù)據(jù)就被儲(chǔ)存到指定的S3桶中了。

猜你喜歡
分布式計(jì)算實(shí)例頁面
刷新生活的頁面
云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
面向異構(gòu)分布式計(jì)算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
完形填空Ⅱ
完形填空Ⅰ
網(wǎng)站結(jié)構(gòu)在SEO中的研究與應(yīng)用
淺析ASP.NET頁面導(dǎo)航技術(shù)
金昌市| 平凉市| 丹凤县| 左权县| 依兰县| 五莲县| 公安县| 襄垣县| 攀枝花市| 秭归县| 腾冲县| 三河市| 北宁市| 砀山县| 邹平县| 崇阳县| 莱芜市| 婺源县| 淄博市| 临澧县| 全南县| 辉南县| 沾益县| 甘泉县| 射阳县| 康马县| 全南县| 通州区| 封开县| 介休市| 新化县| 乌什县| 新乡县| 噶尔县| 涞水县| 郓城县| 贞丰县| 威远县| 汉源县| 宁乡县| 大同市|