基于Hadoop的云平臺(tái)參數(shù)優(yōu)化

2017-06-07 08:04:53張巖,王研

沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2017年2期

張巖, 王研

(1. 沈陽師范大學(xué) 計(jì)算機(jī)與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽 110034; 2. 沈陽師范大學(xué) 教育技術(shù)學(xué)院, 沈陽 110034; 3. 中國(guó)醫(yī)科大學(xué) 生物醫(yī)學(xué)工程系, 沈陽 110013)

張巖1, 王研2,3

作為中間件的軟件框架,Hadoop可以對(duì)大量數(shù)據(jù)進(jìn)行分布式處理?；贖adoop的云平臺(tái)參數(shù)的優(yōu)化可以提高系統(tǒng)的處理性能。使用VMware虛擬機(jī)技術(shù)在單機(jī)上配置多個(gè)虛擬計(jì)算機(jī)節(jié)點(diǎn),實(shí)現(xiàn)滿足實(shí)驗(yàn)環(huán)境的Hadoop完全分布式平臺(tái),并且進(jìn)行集群測(cè)試。對(duì)Hadoop平臺(tái)的相關(guān)參數(shù)進(jìn)行優(yōu)化配置,利用TeraSort程序?qū)?shù)優(yōu)化前后進(jìn)行了對(duì)比測(cè)試,分析了測(cè)試結(jié)果。實(shí)驗(yàn)表明,參數(shù)優(yōu)化對(duì)Hadoop平臺(tái)性能具有較大的影響。在實(shí)際工程的全局部署之前,可利用或借鑒本方法,以應(yīng)用環(huán)境為基礎(chǔ),充分考慮硬件配置情況、集群數(shù)量和數(shù)據(jù)大小等因素,進(jìn)行樣本的調(diào)優(yōu)實(shí)驗(yàn),獲得最優(yōu)的云平臺(tái)組合參數(shù)。

Hadoop; MapReduce; 參數(shù)優(yōu)化; 虛擬機(jī)

0 引言

參數(shù)優(yōu)化是對(duì)Hadoop平臺(tái)進(jìn)行性能優(yōu)化的重要策略之一。Hadoop在各個(gè)配置文件中的參數(shù)都有其默認(rèn)值,默認(rèn)值是hadoop根據(jù)一般情況給出的一個(gè)參考值,并不是具體問題的最優(yōu)解,要根據(jù)實(shí)際情況(軟硬件配置,網(wǎng)絡(luò)條件,集群數(shù)量,處理的job大小等)來調(diào)整最優(yōu)值,而每一個(gè)實(shí)際的具體問題所面臨的情況是不同的,因此只能由Hadoop的運(yùn)維人員進(jìn)行手工參數(shù)調(diào)整,使Hadoop平臺(tái)達(dá)到一個(gè)最佳的效能。參數(shù)優(yōu)化面臨的問題:1)Hadoop總共有190多個(gè)可以配置的參數(shù),每一個(gè)參數(shù)都有可能對(duì)集群的性能產(chǎn)生一定的影響,完全優(yōu)化就要考慮到所有的參數(shù);2)參數(shù)和參數(shù)之間是有相關(guān)性的,當(dāng)相關(guān)的參數(shù)都達(dá)到最優(yōu)解的時(shí)候,它們組合到一起對(duì)于集群的優(yōu)化不一定是最優(yōu)的,要對(duì)相關(guān)參數(shù)進(jìn)行排列組合進(jìn)行優(yōu)化;3)一個(gè)集群的參數(shù)優(yōu)化達(dá)到最佳,將參數(shù)全部移植到另一個(gè)集群,不一定會(huì)得到最佳的效果,即使在同一個(gè)集群上,執(zhí)行不同的任務(wù)其參數(shù)的最佳解也是不同的。所以參數(shù)優(yōu)化意味著巨大的工作量,實(shí)現(xiàn)完全優(yōu)化具有相當(dāng)大的難度。

1 參數(shù)優(yōu)化的實(shí)驗(yàn)環(huán)境

1.1 參數(shù)調(diào)優(yōu)涉及的主要文件

Hadoop參數(shù)調(diào)優(yōu)主要涉及core-site.xml,hadoop-env.sh,hdfs-site.xml,mapred-site.xml四個(gè)文件。core-site.xml為Hadoop的核心屬性文件,參數(shù)影響決定著Hadoop的核心功能,文件獨(dú)立于HDFS與MapReduce。hadoop-env.sh為Hadoop的參數(shù)文件。主要是完成各個(gè)進(jìn)程的內(nèi)存劃分以及部分環(huán)境設(shè)置。hdfs-site.xml為Hadoop的參數(shù)文件。主要是完成HDFS的端口、目錄以及HDFS和namenode之間的通信設(shè)置。mapred-site.xml為Hadoop的參數(shù)文件。主要完成map、reduce和JobTracker的設(shè)置[1]。

1.2 參數(shù)調(diào)優(yōu)涉及的主要參數(shù)

Hadoop框架可以設(shè)置的參數(shù)很多,如果不針對(duì)特定場(chǎng)景的應(yīng)用,可以考慮以下參數(shù)的優(yōu)化,來滿足一般應(yīng)用情景的性能調(diào)優(yōu)。具體包括:

HDFS,dfs.block.siz,Mapredur,io.file.buffer.siz,io.sort.m,io.sort.spill.percent,mapred.local.dir,mapred.map.tasks & mapred.tasktracker.map.tasks.maximum,mapred.reduce.tasks & mapred.tasktracker.reduce.tasks.maximum,mapred.reduce.max.attempts,mapred.reduce.parallel.copies,mapreduce.reduce.shuffle.maxfetchfailures,mapred.child.java.opts,mapred.reduce.tasks.speculative.execution,mapred.compress.map.output & mapred.map.output.compression.codec,mapred.reduce.slowstart.completed.maps[2]。

本實(shí)驗(yàn)選取io.file.buffer.size,dfs.block.size,mapred.map.task,mapred.reduce.tasks,mapred.tasktracker.map.tasks.maximum進(jìn)行實(shí)驗(yàn)[3]。在相對(duì)應(yīng)的實(shí)驗(yàn)部分將對(duì)選取原因進(jìn)行說明。

1.3 實(shí)驗(yàn)軟硬件配置

實(shí)驗(yàn)機(jī)使用2臺(tái)電腦,一臺(tái)作為系統(tǒng)宿主機(jī),一臺(tái)作為遠(yuǎn)程控制終端機(jī)。宿主機(jī)配置為CPU core i3,4核,8 G內(nèi)存,終端機(jī)配置CPU Pentium4,2核,4 G內(nèi)存。Hadoop平臺(tái)宿主機(jī)安裝windows7,VMware10.0.2虛擬機(jī),ubuntu12.04 server,Hadoop1.2.1,java-JDK JDK-7u45-linux-i586 。遠(yuǎn)程控制終端安裝windows7,Xmanager.Enterprise.5.0.0517[4]。

所有優(yōu)化測(cè)試均用TeraSort程序測(cè)試2 GB數(shù)據(jù)完成。具體硬軟件見表1[5]。

表1 實(shí)驗(yàn)平臺(tái)軟硬件配置

2 參數(shù)優(yōu)化的方法和過程

2.1 io.file.buffer.size參數(shù)優(yōu)化

在core-site.xml中,io.file.buffer.size參數(shù)表示流文件緩沖區(qū)大小,緩沖區(qū)用于臨時(shí)存儲(chǔ)hadoop讀取的hdfs文件和寫入到hdfs的文件,以及map的輸出。這個(gè)參數(shù)要設(shè)置為系統(tǒng)頁面大小的倍數(shù),以byte為單位,默認(rèn)值是4 KB。通過增大緩沖區(qū)的大小能夠減少I/O次數(shù),進(jìn)而提高系統(tǒng)性能。雖然較大的緩存可以提供更高的數(shù)據(jù)傳輸速度,但這也就意味著更大的內(nèi)存消耗和延遲[6]。在進(jìn)行具體參數(shù)優(yōu)化時(shí),采用以下方法:

1) 添加如下xml代碼:

2) 分別將參數(shù)值設(shè)置為4～256 KB,優(yōu)化測(cè)試結(jié)果如表2所示。

表2 io.file.buffer.size優(yōu)化測(cè)試結(jié)果

從表2中的測(cè)試結(jié)果來看,io.file.buffer.size參數(shù)對(duì)集群的性能影響較大,取8 K的時(shí)候所用的測(cè)試時(shí)間最短。限于實(shí)驗(yàn)用集群較小,資源有限,所以當(dāng)該參數(shù)配置增大時(shí),造成了內(nèi)存消耗過大而使集群的性能降低,導(dǎo)致測(cè)試時(shí)間增長(zhǎng)?？傮w觀察整個(gè)表可見,CPU耗時(shí)折線趨于穩(wěn)定,說明io.file.buffer.size參數(shù)對(duì)于CPU的耗時(shí)影響不大,對(duì)集群的整體負(fù)載、網(wǎng)絡(luò)間通訊耗時(shí)有一定的影響。

2.2 dfs.block.size參數(shù)優(yōu)化

dfs.block.size是hdfs-site.xml中的一個(gè)重要參數(shù),該參數(shù)指定一個(gè)數(shù)據(jù)塊的上限,默認(rèn)大小為64 M。fs.block.size參數(shù)對(duì)于MapReduce的執(zhí)行效果有直接的影響,在分布式文件系統(tǒng)的性能調(diào)優(yōu)中非常關(guān)鍵,具有實(shí)際的性能調(diào)優(yōu)意義。從Hadoop的框架運(yùn)行原理來看,map是并行式處理任務(wù)的,如果block的大小不一樣,那么較小的先執(zhí)行完畢后,要等待較大的執(zhí)行完才能繼續(xù)進(jìn)行后續(xù)的任務(wù),導(dǎo)致更多的時(shí)間消耗。所以,怎樣配置該參數(shù)使block數(shù)據(jù)塊的大小一致,從而使所有的map任務(wù)同時(shí)完成成為該參數(shù)調(diào)優(yōu)的關(guān)鍵[7]。

參數(shù)調(diào)優(yōu)的具體方法是,根據(jù)被處理數(shù)據(jù)塊大小選擇一個(gè)能將其整除的數(shù)作為分片block的大小,以保證數(shù)據(jù)快大小一致,map并行同時(shí)完成?？紤]TeraSort程序測(cè)試2 GB的數(shù)據(jù)可以分割成2個(gè)大小為1 G的文件。若選擇fs.block.size為96 M上限,每個(gè)文件將會(huì)分割為10個(gè)96 M的數(shù)據(jù)塊和一個(gè)64 M的數(shù)據(jù)塊,2個(gè)文件即為20個(gè)96 M數(shù)據(jù)塊和2個(gè)64 M數(shù)據(jù)塊。Hadoop框架的運(yùn)行機(jī)制是根據(jù)數(shù)據(jù)塊數(shù)產(chǎn)生執(zhí)行函數(shù)map的個(gè)數(shù),則將產(chǎn)生22個(gè)map,其中執(zhí)行2個(gè)64 M數(shù)據(jù)塊的map先執(zhí)行完畢,然后進(jìn)入等待其余20個(gè)執(zhí)行96 M數(shù)據(jù)塊的map完成,增多了map資源,延長(zhǎng)了處理時(shí)間。若選擇fs.block.size為128 M,則將產(chǎn)生16個(gè)map函數(shù),各個(gè)函數(shù)可以同時(shí)完成,不會(huì)造成資源和時(shí)間的浪費(fèi)。

1) 在hdfs-site.xml中添加如下配置內(nèi)容:

2)分別將block大小設(shè)置為32 M、64 M、96 M、128 M、256 M,對(duì)Hadoop的性能進(jìn)行調(diào)優(yōu)測(cè),測(cè)試結(jié)果如表3所示。

表3 dfs.block.size優(yōu)化測(cè)試結(jié)果表

從表3中的測(cè)試結(jié)果來看,對(duì)于2 G的被處理數(shù)據(jù),當(dāng)dfs.block.size選擇為64 M和128 M時(shí),可以分割相同大小的數(shù)據(jù)塊,所以性能較好,效率也比較接近;當(dāng)dfs.block.size選擇為96 M時(shí),處理時(shí)間變長(zhǎng);當(dāng)dfs.block.size選擇為32 M時(shí),由于產(chǎn)生的map數(shù)過多,形成了大量合并計(jì)算,浪費(fèi)了內(nèi)存以及CPU資源,增加了網(wǎng)絡(luò)傳輸?shù)南?導(dǎo)致運(yùn)行不成功;當(dāng)dfs.block.size選擇為256 M時(shí),由于產(chǎn)生的并發(fā)map數(shù)過小,執(zhí)行效率比較低,性能較差。

2.3 mapred.map.task參數(shù)優(yōu)化

參數(shù)mapred.map.task包含在mapred-site.xml文件中。該參數(shù)是用來配置集群中map task數(shù)量的。它和mapred.reduce.task兩個(gè)參數(shù)對(duì)于提升集群的運(yùn)轉(zhuǎn)速度有重要的作用。mapred.map.task的默認(rèn)值是輸入文件的總體大小與HDFS文件塊大小的比值[8]。如果增加task的數(shù)量,則有利于負(fù)載平衡,減少任務(wù)失敗的代價(jià),同時(shí)也會(huì)增大系統(tǒng)的開銷。

Hadoop默認(rèn)情況下mapred.map.tasks參數(shù)為total_size/block_size,通常默認(rèn)值為理論上map task數(shù)的最小值,所以設(shè)置值必須大于默認(rèn)值[9]。

對(duì)于本實(shí)驗(yàn)2 G的數(shù)據(jù),前面的實(shí)驗(yàn)已經(jīng)證實(shí)塊大小為64 M和128 M,系統(tǒng)性能效果較好,太大或太小都影響效率。因此map task應(yīng)設(shè)置為2 048 M/128 M=16塊或者2 048 M/64 M=32塊。即map數(shù)在16到32之間預(yù)期效果較好。所以實(shí)驗(yàn)采用16、20、24、28、32五個(gè)map數(shù)進(jìn)行測(cè)試。

1) 在mapred-site.xml中添加如下配置內(nèi)容:

2) 分別將tasks設(shè)置為16、20、24、28、32,對(duì)Hadoop的性能進(jìn)行調(diào)優(yōu)測(cè),測(cè)試結(jié)果如表4和圖1所示。

表4 mapred.map.tasks優(yōu)化測(cè)試結(jié)果表

圖1 2 GB文件TeraSort測(cè)試mapred.map.tasks優(yōu)化Fig.1 2 GB TeraSort test mapred.map.tasks optimization

從測(cè)試結(jié)果圖1來看,Map Task 數(shù)量對(duì)系統(tǒng)性能有很大影響。當(dāng)mapred.map.tasks為24時(shí),速度相對(duì)最快,而在最大32和最小16時(shí),速度相對(duì)較慢,實(shí)驗(yàn)證實(shí)了之前的預(yù)期結(jié)果。

2.4 mapred.reduce.tasks參數(shù)優(yōu)化

mapred.reduce.task參數(shù)是mapred-site.xml中用來配置集群中運(yùn)行的reduce task數(shù)量的,Hadoop為它配置的默認(rèn)值為1,適當(dāng)?shù)奶岣咴搮?shù)的數(shù)值有利于提升集群的效率[10]。考慮到本實(shí)驗(yàn)環(huán)境中的集群資源有限,根據(jù)上一個(gè)參數(shù)優(yōu)化的結(jié)果,即mapred.map.task為24時(shí),適當(dāng)增大mapred.reduce.task參數(shù)的大小,分別取reduce task數(shù)量為1、2、3、4、5、6進(jìn)行測(cè)試。

1) 在mapred-site.xml中添加如下配置內(nèi)容:

2) 分別將tasks設(shè)置為1、2、3、4、5,對(duì)Hadoop的執(zhí)行時(shí)間性能進(jìn)行調(diào)優(yōu)測(cè)試,測(cè)試結(jié)果如圖2所示。

圖2 2 GB文件TeraSort測(cè)試mapred.reduce.tasks優(yōu)化Fig.2 2 GB TeraSort test mapred. reduce. tasks optimization

從測(cè)試結(jié)果圖2來看,可以得出如下分析結(jié)論:

1) 由于map與reduce進(jìn)程之間在運(yùn)行時(shí)執(zhí)行時(shí)間有重合,因此map時(shí)間與reduce時(shí)間之和大于總時(shí)間。

2) 當(dāng) reduce task 的值小于節(jié)點(diǎn)數(shù)3時(shí),總時(shí)間與map時(shí)間變化并不大,當(dāng)超過3以后,時(shí)間隨reduce task的值增大而顯著增大。

3) 當(dāng)reduce task的值在3以內(nèi)時(shí),reduce執(zhí)行時(shí)間隨reduce task的值增大而減少,這是由于增加了reduce的并行度,當(dāng)reduce task的值超過節(jié)點(diǎn)數(shù)3時(shí),reduce執(zhí)行時(shí)間就會(huì)顯著增加。

4) reduce task 的數(shù)量應(yīng)該設(shè)置為接近 slave 節(jié)點(diǎn)數(shù)量,或者適當(dāng)大于節(jié)點(diǎn)數(shù),不宜設(shè)置為比節(jié)點(diǎn)數(shù)量大太多。

2.5 mapred.tasktracker.map.tasks.maximum參數(shù)優(yōu)化

mapred.tasktracker.map.tasks.maximum參數(shù)是mapred-site.xml文件中用來配置一個(gè)Tasktracker最多可以同時(shí)運(yùn)行的map任務(wù)數(shù)量的,其默認(rèn)值為2,也就是一個(gè)節(jié)點(diǎn)最多同時(shí)只能執(zhí)行2個(gè)map,則3個(gè)datanode同時(shí)能夠執(zhí)行6個(gè)map,本實(shí)驗(yàn)運(yùn)行時(shí)集群情況如圖3所示。

圖3 2 GB文件TeraSort測(cè)試mapred.tasktracker.map.tasks.maximum優(yōu)化(a)

mapred.tasktracker.map.tasks.maximum參數(shù)應(yīng)該根據(jù)CPU的性能來調(diào)整,具體策略是mapred.tasktracker.map.tasks.maximum設(shè)置為節(jié)點(diǎn)的CPU的cores數(shù)目或者cores數(shù)目減1比較合適,此時(shí)的運(yùn)行效率最高[11]。根據(jù)本實(shí)驗(yàn)實(shí)際情況測(cè)試,每個(gè)虛擬節(jié)點(diǎn)的虛擬CPU內(nèi)核數(shù)為2時(shí),系統(tǒng)運(yùn)行效率相對(duì)較好。按照mapred.tasktracker.map.tasks.maximum設(shè)置為CPU核數(shù)或者CPU核數(shù)減1時(shí)的運(yùn)行效率最高策略，可以將mapred.tasktracker.map.tasks.maximum設(shè)置為2。根據(jù)圖3數(shù)據(jù)所示,Nodes的值為3,即圖3中的Map Task Capacity的值為6時(shí),可以獲得較好的運(yùn)行性能。

在mapred-site.xml中添加如下配置內(nèi)容:

當(dāng)然mapred.tasktracker.map.tasks.maximum參數(shù)值并不是越大越好,參數(shù)過大系統(tǒng)運(yùn)行效率并不能提高[12]。下面是mapred.tasktracker.map.tasks.maximum參數(shù)值設(shè)置值過大,系統(tǒng)運(yùn)行的測(cè)試狀況。本實(shí)驗(yàn)設(shè)置一個(gè)節(jié)點(diǎn)可以同時(shí)執(zhí)行最多12個(gè)map,3個(gè)節(jié)點(diǎn)一共可以同時(shí)執(zhí)行36個(gè)map。由于mapred.map.tasks設(shè)為16,因此現(xiàn)在同時(shí)執(zhí)行的map是最大值16個(gè)。實(shí)驗(yàn)運(yùn)行時(shí)集群情況如圖4所示。

從測(cè)試結(jié)果圖3和圖4來看,map過程的時(shí)間大到已經(jīng)失去實(shí)際意義,因此將參數(shù)設(shè)置為2較為合適。觀察圖4中的運(yùn)行狀態(tài)數(shù)據(jù),Running Map Tasks的值是16,Avg.Tasks/Node的值是14,數(shù)據(jù)明顯反映出,集群的節(jié)點(diǎn)負(fù)荷不合理,系統(tǒng)的運(yùn)行性能下降。分析造成運(yùn)行時(shí)間增長(zhǎng)的原因,圖4中Map Task Capacity的值是36,Occupied Map Slots的值是16,即mapred.tasktracker.map.tasks.maximum設(shè)置為12,mapred.map.task設(shè)置為16的具體表現(xiàn),可以計(jì)算出,在集群實(shí)際運(yùn)行時(shí),Map Task Capacity的占用率僅為16/36≈44.4%。所以,不合適的參數(shù)配置降低了資源的利用率,對(duì)系統(tǒng)的運(yùn)行性能產(chǎn)生了負(fù)影響。

圖4 2 GB文件TeraSort測(cè)試mapred.tasktracker.map.tasks.maximum優(yōu)化(b)

3 結(jié) 論

本實(shí)驗(yàn)?zāi)康氖峭ㄟ^對(duì)廣泛使用的Hadoop云平臺(tái)進(jìn)行參數(shù)調(diào)優(yōu),測(cè)試參數(shù)對(duì)平臺(tái)效率的影響程度,并且找到參數(shù)優(yōu)化的方法。本實(shí)驗(yàn)所有測(cè)試均使用2 GB文件的TeraSort程序測(cè)試,對(duì)io.file.buffer.size,dfs.block.size,mapred.map.task,mapred.reduce.tasks,mapred.tasktracker.map.tasks.maximum等主要參數(shù)進(jìn)行優(yōu)化。實(shí)驗(yàn)表明,將涉及到的所有參數(shù)全部調(diào)優(yōu),測(cè)試2 GB文件的排序,運(yùn)行時(shí)間結(jié)果602秒,對(duì)比參數(shù)全部采用默認(rèn)值進(jìn)行實(shí)驗(yàn),運(yùn)行時(shí)間結(jié)果639 s,優(yōu)化后的運(yùn)行效率提高了6%。調(diào)優(yōu)的方法是對(duì)參數(shù)默認(rèn)值進(jìn)行測(cè)試,要慎重采用;充分考慮硬件配置情況,特別是CPU core的數(shù)量;將集群數(shù)量和數(shù)據(jù)大小等進(jìn)行綜合考慮;對(duì)有相關(guān)性的參數(shù)協(xié)調(diào)優(yōu)化,尋找參數(shù)的最佳組合方案。

[ 1 ]WHITE T. Hadoop權(quán)威指南[M]. 3版. 北京:清華大學(xué)出版社, 2014.

[ 2 ]MURTHY A C,VAVILAPALLI V K,EADLINE D,et al. Hadoop YARN權(quán)威指南[M]. 北京:機(jī)械工業(yè)出版社, 2015.

[ 3 ]HOLMES A. Hadoop硬實(shí)戰(zhàn)[M]. 北京:電子工業(yè)出版社, 2015.

[ 4 ]張巖,郭松,趙國(guó)海. 基于Hadoop的云計(jì)算試驗(yàn)平臺(tái)搭建研究[J]. 沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,31(1):85-89.

[ 5 ]王研,張巖. 基于Hadoop的云平臺(tái)的實(shí)現(xiàn)與基準(zhǔn)測(cè)試[J]. 沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016,34(2):240-245.

[ 6 ]TANNIRHAS K. Hadoop MapReduce性能優(yōu)化[M]. 北京:人民郵電出版社, 2015.

[ 7 ]GUNARATHNE T. Hapdoop MapReduce v2 Cookbook[M]. 2nd ed. 南京:東南大學(xué)出版社, 2016.

[ 8 ]翟周偉. Hadoop核心技術(shù)[M]. 北京:機(jī)械工業(yè)出版社, 2015.

[ 9 ]董新華,李瑞軒,周灣灣,等. Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2013,50(Suppl.):1-15.

[10]李懌銘. 基于MapReduce性能優(yōu)化的研究[D]. 上海:上海師范大學(xué), 2015.

[11]康佳. Hadoop平臺(tái)下的作業(yè)調(diào)度算法及應(yīng)用[D].合肥:安徽理工大學(xué), 2015.

[12]李張永. 基于Hadoop的MapReduce計(jì)算模型優(yōu)化與應(yīng)用研究[D]. 武漢:武漢科技大學(xué), 2015.

Parameter optimization of cloud platform based on Hadoop

ZHANG Yan1, WANG Yan2,3

(1. Computer and Basic Mathematics Education Department, Shenyang Normal University, Shenyang 110034, China; 2. School of Educational Technology, Shenyang Normal University, Shenyang 110034, China; 3. Department of Biomedical Engineering, China Medical University, Shenyang 110013, China)

As a middleware software framework, the large amounts of data can be distributed processing by Hadoop. Based on the Hadoop cloud platform with parameters optimization techniqued, which ation can improve the processing performance of the system. The complete Hadoop distributed platform was configrated by using VMware virtual machine technology in the single node with can configurate multiple virtual machines,Implement the Hadoop distributed platform completely to meet experimental environment, and execute cluster tests. Optimization of the related parameters in the Hadoop platform configuration, and comparison test before and after the parameter optimization were tested by using TeraSort procedure, test results are analyzed. The experiments show that parameter optimization has greatly influence to the performance of Hadoop platform. Using this method can get full consideration about the hardware configuration, the cluster number and data size and other factors based on the application environment before the actual project of global deployment, and make the sample tuning experiments into obtaining the optimal combination parameters of cloud platform.

Hadoop; MapReduce; parameter optimization; Virtual machine

1673-5862(2017)02-0234-06

2016-10-13。

遼寧省科技廳自然科學(xué)基金資助項(xiàng)目(2015020055)。

張巖(1968-),女,遼寧沈陽人,沈陽師范大學(xué)教授,碩士。

TP311

10.3969/ j.issn.1673-5862.2017.02.021

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Hadoop的云平臺(tái)參數(shù)優(yōu)化

0 引 言

1 參數(shù)優(yōu)化的實(shí)驗(yàn)環(huán)境

2 參數(shù)優(yōu)化的方法和過程

3 結(jié) 論

0 引言