国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析Hadoop平臺(tái)下的作業(yè)調(diào)度算法的研究

2017-12-19 15:46:52朱立
科學(xué)與財(cái)富 2017年33期
關(guān)鍵詞:集群

朱立

摘要:在互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)快速發(fā)展的背景下,云計(jì)算在數(shù)據(jù)挖掘等海量數(shù)據(jù)處理中起著重要作用。Hadoop是一個(gè)開(kāi)源云計(jì)算平臺(tái),其核心是作業(yè)調(diào)度算法,通過(guò)作業(yè)調(diào)度算法的研究,可以提升大規(guī)模數(shù)據(jù)的處理能力。文章闡述了Hadoop平臺(tái)和其作業(yè)調(diào)度算法,然后進(jìn)行實(shí)驗(yàn)環(huán)境搭建,進(jìn)而對(duì)Hadoop平臺(tái)下作業(yè)調(diào)度算法進(jìn)行研究。

關(guān)鍵詞:Hadoop;作業(yè)調(diào)度;集群

前言

隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,其面臨的問(wèn)題也日益突顯,主要問(wèn)題是用戶的飛速增長(zhǎng),使得大規(guī)模數(shù)據(jù)處理成為難題。因此,需要借助Hadoop這個(gè)大數(shù)據(jù)處理工具。但是,在實(shí)際應(yīng)用中,需要通過(guò)作業(yè)調(diào)度算法對(duì)Hadoop平臺(tái)性能改進(jìn),減少資源的浪費(fèi),同時(shí)提升數(shù)據(jù)的處理能力。

一、Hadoop平臺(tái)概述

云計(jì)算是由網(wǎng)格計(jì)算、分布式計(jì)算等發(fā)展而成的一種全新的商業(yè)計(jì)算模型。云計(jì)算技術(shù)由上至下可以劃分為軟件即服務(wù)、平臺(tái)即服務(wù)、基礎(chǔ)設(shè)施即服務(wù)三層[1]。而文章所研究的Hadoop屬于平臺(tái)即服務(wù)層,即云計(jì)算開(kāi)源組織的分布式計(jì)算框架。Hadoop平臺(tái)為應(yīng)用程序提供了可靠的接口,節(jié)約了用戶數(shù)據(jù)處理的成本,具有良好的可靠性、擴(kuò)展性等優(yōu)點(diǎn)。且在云環(huán)境下較為容易的搭建數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)分析平臺(tái),同時(shí)也助力了云環(huán)境數(shù)據(jù)處理技術(shù)的發(fā)展。

二、作業(yè)調(diào)度算法

作業(yè)調(diào)度目標(biāo)是以滿足用戶作業(yè)需求為前提,提高系統(tǒng)的吞吐量,保障系統(tǒng)的負(fù)載均衡。目前,Hadoop平臺(tái)主要的作業(yè)調(diào)度算法有FIFO調(diào)度算法、公平調(diào)度算法、計(jì)算能力調(diào)度算法三種,下面對(duì)這三種算法進(jìn)行介紹。

(1)FIFO算法

FIFO(First In First Out,先進(jìn)先出)調(diào)度算法是Hadoop平臺(tái)中默認(rèn)的算法[2]。FIFO調(diào)度算法在集群中,將接收到的用戶作業(yè)提交到一個(gè)隊(duì)列中,提交操作是按照作業(yè)優(yōu)先級(jí)順序或者是提交時(shí)間順序進(jìn)行。將數(shù)據(jù)初始化后,由TaskTracker為每一個(gè)節(jié)點(diǎn)進(jìn)行任務(wù)的分配操作,分配的順序一般是按照提交時(shí)間來(lái)進(jìn)行的。節(jié)點(diǎn)任務(wù)在執(zhí)行的過(guò)程中,任務(wù)是不能被剝奪的。FIFO算法的實(shí)現(xiàn)是JobQueueTask Scheduler,位于org.apache.mapred文件夾中。

該算法的主要優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單、運(yùn)行穩(wěn)定,因?yàn)樵撍惴ㄡ槍?duì)的是單用戶、單類型的作業(yè)調(diào)度。而在調(diào)度處理多用戶多類型過(guò)程中,出現(xiàn)性能不穩(wěn)、隊(duì)列尾端作業(yè)餓死、資源浪費(fèi)等問(wèn)題。

(2)公平調(diào)度算法

公平調(diào)度算法是針對(duì)多用戶多類型的作業(yè)進(jìn)行調(diào)度的算法。公平調(diào)度算法中,在作業(yè)優(yōu)先級(jí)一致的條件下,幾乎均勻的將資源分配給各個(gè)作業(yè)節(jié)點(diǎn)。如果集群中僅有一個(gè)作業(yè)運(yùn)行的情況下,該作業(yè)獨(dú)自享有這個(gè)集群。當(dāng)新的作業(yè)進(jìn)入時(shí),需要按照作業(yè)的優(yōu)先級(jí)進(jìn)行集群分享。簡(jiǎn)而言之,作業(yè)權(quán)重相同,作業(yè)分配的集群資源是相同的。

該算法的主要優(yōu)點(diǎn)是實(shí)現(xiàn)多用戶的資源平均共享,提交時(shí)間較晚的作業(yè)不會(huì)餓死。但是該算法忽視了作業(yè)調(diào)度優(yōu)先級(jí)問(wèn)題。

(3)計(jì)算調(diào)度算法

計(jì)算調(diào)度算法功能與公平調(diào)度算法類似,但是在調(diào)度設(shè)計(jì)與實(shí)現(xiàn)中存在差異。該算法針對(duì)的是多用戶作業(yè)隊(duì)列,每個(gè)隊(duì)列按照配置獲取節(jié)點(diǎn)執(zhí)行任務(wù)TaskTrack,然后按照配置的不同,對(duì)集群資源的百分比進(jìn)行分配,這種算法能夠?qū)γ總€(gè)隊(duì)列的資源予以限制。每個(gè)隊(duì)列采用的是FIFO調(diào)度算法,隊(duì)列內(nèi)的調(diào)度是按照作業(yè)優(yōu)先級(jí)進(jìn)行的,而任務(wù)提交是系統(tǒng)隨機(jī)進(jìn)行分配的。

該算法的設(shè)計(jì)思想是能夠合理的分配計(jì)算資源在用戶之間、隊(duì)列之間的比例。但是,該調(diào)度算法簡(jiǎn)愛(ài)那個(gè)數(shù)據(jù)處理放置到最后進(jìn)行考慮,就導(dǎo)致了作業(yè)的執(zhí)行效率降低。

三、實(shí)驗(yàn)及結(jié)果分析

文章通過(guò)實(shí)驗(yàn)平臺(tái)的搭建,對(duì)上述三種調(diào)度算法在執(zhí)行中的不同進(jìn)行對(duì)比。針對(duì)多個(gè)測(cè)試隊(duì)列、多類型作業(yè)在不同作業(yè)調(diào)度算法下的性能,得出實(shí)驗(yàn)數(shù)據(jù)。

1、實(shí)驗(yàn)環(huán)境搭建

Hadoop實(shí)驗(yàn)環(huán)境的搭建,采用的是三臺(tái)普通的服務(wù)器進(jìn)行測(cè)試,三臺(tái)服務(wù)器的主機(jī)名分別為f1、f2、f3,其IP地址分別為178.178.1.31、178.178.1.32、178.178.1.33。

集群節(jié)點(diǎn)的硬件配置是,CPU 是4核,內(nèi)存4GB,硬盤(pán)是320GB,;軟件環(huán)境是Ubuntu-desktop操作系統(tǒng),安裝javajdkl和Hadoop軟件,適用的開(kāi)發(fā)工具是eclipse。其中,Hadoop軟件安裝的分別是1.0.4版本和2.2.0版本。

2、實(shí)驗(yàn)實(shí)施

實(shí)驗(yàn)的思路是,通過(guò)兩個(gè)量級(jí)規(guī)模較小且相近的作業(yè),和一個(gè)量級(jí)較大的作業(yè)進(jìn)行比較,比較的是調(diào)度算法的運(yùn)行時(shí)間和響應(yīng)的情況。

實(shí)驗(yàn)中測(cè)試文件是英文小說(shuō)。在/Lerasort路徑下生成三組作業(yè)原始數(shù)據(jù),分別時(shí)10MB、15MB、1G。然后在Hadoop平臺(tái)中運(yùn)行,Teragen生成行大小是100B的數(shù)據(jù)。運(yùn)行命令中參數(shù)的設(shè)置是根據(jù)生成數(shù)據(jù)的總量計(jì)算得出的。接下來(lái)在三臺(tái)PC機(jī)中提交作業(yè),且不同調(diào)度算法中的提交順序相同。

實(shí)驗(yàn)選擇WordCount測(cè)試方式對(duì)作業(yè)執(zhí)行,該方式主要是對(duì)文件中單詞出現(xiàn)的次數(shù)進(jìn)行獲取。將參試文件轉(zhuǎn)到HDFS中,然后進(jìn)行調(diào)度算法的測(cè)試。

3、結(jié)果分析

使用FIFO調(diào)度算法對(duì)作業(yè)調(diào)度情況進(jìn)行測(cè)試,按照順序提交作業(yè),作業(yè)運(yùn)行的情況如表1所示。

使用公平調(diào)度算法運(yùn)行作業(yè),運(yùn)行的情況如表2所示。

使用計(jì)算能力調(diào)度算法對(duì)每個(gè)作業(yè)運(yùn)行,運(yùn)行信息如表3所示。

通過(guò)實(shí)驗(yàn)結(jié)果可以看出,公平調(diào)度算法的執(zhí)行更為有效,因?yàn)槠湓谔峤蛔鳂I(yè)時(shí),就對(duì)資源進(jìn)行分配。

總結(jié):

為了對(duì)Hadoop平臺(tái)下的作業(yè)調(diào)度算法進(jìn)行研究,文章建立了小型的Hadoop集群,通過(guò)三種不同規(guī)模的作業(yè),對(duì)三種調(diào)度算法進(jìn)行了解。實(shí)驗(yàn)結(jié)果表明,公平調(diào)度算法較其他兩種算法具有靈活、高效的優(yōu)勢(shì)。這一研究提高Hadoop平臺(tái)的性能和資源利用效率都具有十分重要的實(shí)際意義。

參考文獻(xiàn):

[1]戴小平,張宜力.Hadoop平臺(tái)下計(jì)算能力調(diào)度算法的改進(jìn)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(19):61-65.

[2]李千目,張晟驍,陸路,等.一種Hadoop平臺(tái)下的調(diào)度算法及混合調(diào)度策略[J].計(jì)算機(jī)研究與發(fā)展,2013,50(s1):361-368.

猜你喜歡
集群
集群式AUV可控分群控制算法
海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:40
Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
勤快又呆萌的集群機(jī)器人
對(duì)構(gòu)建智慧產(chǎn)業(yè)集群的幾點(diǎn)思考
石首市| 金湖县| 西林县| 饶阳县| 达州市| 大宁县| 芜湖县| 顺昌县| 罗甸县| 嘉兴市| 凉山| 彭州市| 东方市| 婺源县| 海伦市| 庄河市| 承德县| 盐边县| 金湖县| 特克斯县| 南溪县| 大连市| 盐亭县| 安图县| 龙里县| 淮安市| 揭西县| 镇巴县| 陆丰市| 天津市| 东方市| 云林县| 高密市| 普洱| 宁化县| 固原市| 沈丘县| 玛曲县| 克拉玛依市| 灵璧县| 明光市|