基于Spark的遙感數(shù)據(jù)分析方法

2015-07-26 02:29:50陳峰科孫眾毅池明旻

微型電腦應(yīng)用 2015年8期

陳峰科，孫眾毅，池明旻

陳峰科，孫眾毅，池明旻

隨著遙感技術(shù)的快速發(fā)展，遙感數(shù)據(jù)呈爆炸式增長，給遙感數(shù)據(jù)計(jì)算帶來巨大的挑戰(zhàn)。采用基于內(nèi)存計(jì)算的Spark分布式計(jì)算框架以克服該問題，并選擇YARN作為資源調(diào)度系統(tǒng)和采用HDFS為分布式存儲系統(tǒng)。Spark是一個(gè)開源的分布式計(jì)算框架，基于彈性分布式數(shù)據(jù)集（RDD）概念，采用先進(jìn)的有向無環(huán)圖執(zhí)行機(jī)制以支持循環(huán)數(shù)據(jù)流操作，通過一次數(shù)據(jù)導(dǎo)入內(nèi)存就可以完成多次迭代運(yùn)算。因而，特別適合基于多次迭代的大數(shù)據(jù)計(jì)算分析方法，相較于每輪迭代需把數(shù)據(jù)導(dǎo)入內(nèi)存的MapReduce有更大的優(yōu)勢。將該計(jì)算框架應(yīng)用于海量遙感數(shù)據(jù)分析，驗(yàn)證需要多次迭代的奇異值分解（SVD）算法在該數(shù)據(jù)分析中的有效性。實(shí)驗(yàn)表明，隨著迭代次數(shù)增加，基于Spark的SVD運(yùn)算效率相對于MapReduce有明顯提高，通?？商岣咭粋€(gè)數(shù)量級。

大數(shù)據(jù)計(jì)算;遙感數(shù)據(jù);Hadoop;Spark;MapReduce

0 引言

目前，世界上有超過1000個(gè)正在工作的衛(wèi)星實(shí)現(xiàn)對地觀測的任務(wù)[1]。其中，大量的衛(wèi)星用于民用工程，數(shù)據(jù)全球可共享，為科學(xué)研究提供有力的數(shù)據(jù)保障。隨著遙感技術(shù)的飛速發(fā)展，遙感圖像的空間和光譜分辨率也越來越高，可以獲取的遙感數(shù)據(jù)量也迅猛增長。通常，機(jī)器學(xué)習(xí)、模式識別和數(shù)據(jù)挖掘方法用來分析和理解遙感圖像。其中，大量的算法需要大量迭代運(yùn)算，比如用于分類的邏輯回歸方法、用于特征提取的SVD（Singular Value Decomposition）等。而遙感數(shù)據(jù)爆炸性增長給這類方法帶來巨大的計(jì)算挑戰(zhàn)。為了解決該問題，目前常用的方法有基于GPU加速的高性能計(jì)算系統(tǒng)和基于Hadoop的分布式集群。

CUDA[2]和OpenCL[3]是基于圖形處理器（GPU）的并行計(jì)算編程模型，適合需要大量計(jì)算的應(yīng)用，以此為基礎(chǔ)的傳統(tǒng)高性能計(jì)算系統(tǒng)被廣泛用于研究領(lǐng)域。GPUs在浮點(diǎn)運(yùn)算和并行計(jì)算方面相對于 CPUs有著巨大的優(yōu)勢，使得使用GPU可以大幅提高計(jì)算速度。深度學(xué)習(xí)是一種需要大量計(jì)算的多次迭代算法，英偉達(dá)在[4]中提出了基于CUDA的深度神經(jīng)網(wǎng)絡(luò)包CUDNN（CUDA Deep Neural Network library），實(shí)驗(yàn)結(jié)果顯示深度學(xué)習(xí)框架利用cuDNN加速后獲得了36%的速度提升。但是，雖然GPU加速能提高計(jì)算速度，卻對于數(shù)據(jù)密集型計(jì)算效率不高，而且代碼編寫調(diào)試復(fù)雜。

Hadoop[5,6]的核心分為兩部分：HDFS分布式文件系統(tǒng)[4]和MapReduce計(jì)算框架[5]。在處理大量文件時(shí)，相對于傳統(tǒng)的本地文件系統(tǒng)，HDFS在吞吐率和穩(wěn)定性方面有很大的優(yōu)勢。除此之外，[7-8]中工作證明，基于 MapReduce實(shí)現(xiàn)的分布式算法能夠在批量處理數(shù)據(jù)的任務(wù)中相對于單機(jī)實(shí)現(xiàn)的算法有極大的性能優(yōu)勢。然而，在許多迭代進(jìn)行的計(jì)算任務(wù)中因?yàn)樵诿恳惠喌^程中，中間數(shù)據(jù)集都需要從硬盤中加載，如此的 IO操作會(huì)消耗大量的時(shí)間，限制了基于MapReduce在如機(jī)器學(xué)習(xí)等多次迭代算法上的速度性能優(yōu)勢。Hadoop和 GPU加速技術(shù)的結(jié)合（CUDA+Hadoop[9], OpenCL + Hadoop[10]），在一定程度上能夠提高計(jì)算速度，但在涉及多次迭代機(jī)器學(xué)習(xí)算法時(shí)候，依然受 MapReduce每輪中間數(shù)據(jù)集讀寫時(shí)間的掣肘。Mahout是基于MapReduce的機(jī)器學(xué)習(xí)包，2014年4月份Mahout社區(qū)宣布，Mahout不再接受基于MapReduce實(shí)現(xiàn)的算法，轉(zhuǎn)向Spark[11]。Spark是一個(gè)基于內(nèi)存計(jì)算的開源分布式計(jì)算框架，其是一個(gè)快速且易于使用的計(jì)算框架，核心數(shù)據(jù)結(jié)構(gòu)為彈性分布式數(shù)據(jù)集（RDD），擁有先進(jìn)的有向無環(huán)圖（DAG，Directed Acyclic Graph）執(zhí)行引擎，能夠有效處理循環(huán)數(shù)據(jù)流。當(dāng)集群內(nèi)存充足時(shí)，基于Spark的多次迭代機(jī)器學(xué)習(xí)算法只需要在第一次迭代時(shí)將數(shù)據(jù)從硬盤中導(dǎo)入內(nèi)存，相對于基于MapReduce的多次迭代算法來說，節(jié)省了中間數(shù)據(jù)集硬盤讀寫的時(shí)間。這些特有的性質(zhì)，使得Spark特別適用于機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法，基于Spark的多次迭代算法能夠在保持高可靠性和容錯(cuò)性的情況下相對于基于MapReduce算法擁有更強(qiáng)的速度性能優(yōu)勢。在許多實(shí)際任務(wù)中，基于Spark的多次迭代算法比基于MapReduce實(shí)現(xiàn)的算法在時(shí)間上可以快10倍以上。

本文提出了一個(gè)基于Spark的遙感數(shù)據(jù)處理平臺，能夠有效應(yīng)對遙感數(shù)據(jù)日益增長對于相關(guān)算法處理數(shù)據(jù)帶來的挑戰(zhàn)。該平臺由兩部分組成：分布式存儲系統(tǒng)和分布式計(jì)算框架。在該平臺中，選擇了Hadoop的分布式文件系統(tǒng)（HDFS）作為分布式存儲。分布式計(jì)算框架由傳統(tǒng)的MapReduce和基于內(nèi)存的Spark組成，其中Spark由于其能高效實(shí)現(xiàn)機(jī)器學(xué)習(xí)等多輪迭代算法而被選為平臺核心框架。基于MapReduce實(shí)現(xiàn)的機(jī)器學(xué)習(xí)包Mahout和基于Spark實(shí)現(xiàn)的機(jī)器學(xué)習(xí)包MLlib在該平臺上都可以使用，里面包含了大部分主流的機(jī)器學(xué)習(xí)算法，可以為遙感大數(shù)據(jù)的處理提供支撐。為驗(yàn)證平臺的有效性，并評估不同計(jì)算框架的性能，本文在構(gòu)建的平臺上對于兩個(gè)公開數(shù)據(jù)集，分別基于 Spark和MapReduce實(shí)現(xiàn)了奇異值分解（SVD）。SVD是一種多次迭代算法，是許多遙感數(shù)據(jù)處理算法的重要組成部分。實(shí)驗(yàn)結(jié)果顯示，隨著迭代次數(shù)的增加，Mahout中基于MapReduce實(shí)現(xiàn)的SVD和MLlib中基于Spark實(shí)現(xiàn)的SVD運(yùn)行速度上的差距逐漸增大。當(dāng)?shù)啍?shù)到達(dá)一定數(shù)量之后，基于Spark實(shí)現(xiàn)的SVD比基于MapReduce實(shí)現(xiàn)的SVD有十倍以上的性能優(yōu)勢。

1 數(shù)據(jù)處理平臺介紹

隨著可利用的遙感數(shù)據(jù)量日益增長，即使是使用GPUs加速，單機(jī)也越來越難滿足需要。開發(fā)能夠快速有效處理遙感數(shù)據(jù)的分布式平臺顯得愈發(fā)緊迫與重要。數(shù)據(jù)處理平臺通常分為兩個(gè)部分：分布式存儲系統(tǒng)和分布式計(jì)算框架。以HDFS、Hbase為代表的分布式存儲系統(tǒng)已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域的大數(shù)據(jù)存儲系統(tǒng)之中。MapReduce因其在數(shù)據(jù)密集型計(jì)算方面的巨大優(yōu)勢，是目前大部分應(yīng)用中分布式平臺的最主要選擇。在本文提出的平臺中，分布式存儲系統(tǒng)采用了以GFS[12]為基礎(chǔ)的HDFS分布式文件系統(tǒng)。在使用平臺對數(shù)據(jù)進(jìn)行處理之前，遙感數(shù)據(jù)需要首先導(dǎo)入到HDFS中。基于內(nèi)存計(jì)算的Spark，被選擇作為主要的分布式計(jì)算框架。平臺同時(shí)整合了Hadoop的MapReduce計(jì)算框架。Apache YARN被選擇作為平臺的任務(wù)調(diào)度系統(tǒng)，YARN位于HDFS和分布式計(jì)算框架之間，為多個(gè)運(yùn)行中的應(yīng)用分配資源。YARN能夠支持Spark和MapReduce等多種計(jì)算框架，使得在平臺上，基于Spark的機(jī)器學(xué)習(xí)包MLlib和基MapReduce的機(jī)器學(xué)習(xí)包Mahout里面的算法皆可使用。本文提出的平臺，在滿足一般分布式平臺具有的存儲和批量處理遙感數(shù)據(jù)功能之外，還能實(shí)現(xiàn)迭代運(yùn)算對數(shù)據(jù)的快速處理。在這一章剩下的部分，我們將對我們工作中涉及到的分布式技術(shù)做進(jìn)一步的介紹。

1.1 Hadoop

Hadoop包含一系列分布式存儲和處理數(shù)據(jù)技術(shù)，是一個(gè)由Apache基金會(huì)支持的開源項(xiàng)目，同時(shí)滿足容錯(cuò)、可伸縮，并且易于擴(kuò)展，易于學(xué)習(xí)。Hadoop的核心分為兩部分：分布式文件系統(tǒng) HDFS和分布式計(jì)算框架 MapReduce。Hadoop的完善與普及，使得原本需要昂貴的超級計(jì)算機(jī)才能解決的數(shù)據(jù)任務(wù)在使用一般的服務(wù)器組成的集群中就能得到高效解決。通常情況下，隨著集群規(guī)模變大，硬件損壞頻率會(huì)越來越高，Hadoop容錯(cuò)機(jī)制都能夠保證任務(wù)在一般硬件損壞情況下成功執(zhí)行。如今，Hadoop已經(jīng)能夠管理數(shù)千臺機(jī)器，對PB級別的數(shù)據(jù)進(jìn)行存儲和處理。

1.2 Mahout

ApacheMahout是一個(gè)可擴(kuò)展機(jī)器學(xué)習(xí)包，在ApacheHadoop項(xiàng)目的基礎(chǔ)上，基于MapReduce編程模型實(shí)現(xiàn)的。Mahout能從多個(gè)數(shù)據(jù)源中讀取數(shù)據(jù)，利用數(shù)據(jù)科學(xué)的工具分析挖掘數(shù)據(jù)。Mahout的目的在于使得算法處理過程速度更快，數(shù)據(jù)規(guī)模更加容易擴(kuò)展。到目前為止，Mahout支持四種數(shù)據(jù)處理應(yīng)用：協(xié)同過濾，聚類，分類和頻繁項(xiàng)集挖掘。大部分經(jīng)典的機(jī)器學(xué)習(xí)算法在Mahout中都有實(shí)現(xiàn)。

1.3 Spark

ApacheSpark是一個(gè)Scala語言實(shí)現(xiàn)的基于內(nèi)存計(jì)算用于處理大規(guī)模數(shù)據(jù)的快速通用引擎。雖然MapReduce模型在分布式批量處理任務(wù)的現(xiàn)實(shí)應(yīng)用中取得巨大的成功，但卻不能滿足涉及到循環(huán)數(shù)據(jù)流應(yīng)用的需要，而這種應(yīng)用在機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法中是十分常見的。Spark技術(shù)的提出正因?yàn)榇?，在保證與MapReduce可以媲美的可擴(kuò)展性和容錯(cuò)性的基礎(chǔ)上，滿足循環(huán)數(shù)據(jù)流應(yīng)用的需要。Spark基于其創(chuàng)造性的彈性分布式數(shù)據(jù)集（RDD）概念，使用先進(jìn)的有向無環(huán)圖（DAG）執(zhí)行機(jī)制，能夠支持循環(huán)數(shù)據(jù)流的應(yīng)用和內(nèi)存計(jì)算。在許多機(jī)器學(xué)習(xí)任務(wù)中，Spark能夠在執(zhí)行速度上遠(yuǎn)遠(yuǎn)超越MapReduce。Spark被設(shè)計(jì)為可以獨(dú)立地運(yùn)行，其也能夠與其它主流分布式存儲系統(tǒng)與任務(wù)調(diào)度系統(tǒng)合作工作。在本文提出的平臺之中，Spark被作為一種計(jì)算框架置于YARN之上，與MapReduce同時(shí)運(yùn)行于集群之上。

1.4 Spark vsMapReduce

Spark與MapReduce相比，其有如下優(yōu)勢：

基于內(nèi)存計(jì)算。中間數(shù)據(jù)集保存于內(nèi)存之中，無需反復(fù)讀取硬盤，適合于迭代計(jì)算任務(wù)。

DAG 執(zhí)行引擎。Spark執(zhí)行過程中沒有嚴(yán)格的Map/Reduce階段，通過其獨(dú)有的血緣機(jī)制，在保證容錯(cuò)性下進(jìn)一步減少硬盤讀寫操作。

容易編程。Spark是由函數(shù)式語言Scala實(shí)現(xiàn)的，可以通過Scala編寫創(chuàng)建任務(wù)，代碼編寫更加靈活。

Spark相比MapReduce更加適合于如機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘等迭代計(jì)算任務(wù)，而MapReduce在數(shù)據(jù)密集型計(jì)算中仍然保持了強(qiáng)大的競爭力。兩者互補(bǔ)已經(jīng)成為當(dāng)今主流分布式平臺構(gòu)建時(shí)的共識。

2 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

隨著遙感技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，可以獲取的遙感數(shù)據(jù)來源逐漸增多，越來越多的高光譜與高分辨率數(shù)據(jù)被應(yīng)用于各類科學(xué)研究中。如何快速有效地處理遙感數(shù)據(jù)從未像現(xiàn)在一般迫切和重要。在本章的剩余部分，我們簡單我們實(shí)驗(yàn)中涉及到的遙感數(shù)據(jù)集，并對實(shí)驗(yàn)設(shè)定做一個(gè)詳細(xì)的描述。

2.1 實(shí)驗(yàn)數(shù)據(jù)集

（1）Indian_pines：1992年AVARIS傳感器在IndianPine上空拍攝的高光譜遙感圖像。圖像大小為145*145像素，每個(gè)像素點(diǎn)有220個(gè)波長，分布在0.36到2.5μm之間的波段中。

（2）Pavia：由ROSIS-03衛(wèi)星在Pavia上空獲取的高光譜高分辨率（1.3m）圖像，每個(gè)像素點(diǎn)有103個(gè)波長在0.43到0.86μm之間的波段。分為Pavia和PaviaU兩張圖像，圖像覆蓋地點(diǎn)分別為Pavia市區(qū)和Pavia大學(xué)。

2.2 集群配置

本文提出的平臺在實(shí)驗(yàn)集群上實(shí)現(xiàn)。實(shí)驗(yàn)集群由5臺服務(wù)器組成，每臺服務(wù)器內(nèi)存為24GB，擁有四核處理器。服務(wù)器操作系統(tǒng)皆使用CentOS6.5，集群使用的分布式系統(tǒng)版本為Hadoop 2.5與Spark 1.0.1。

2驗(yàn)設(shè)置

實(shí)驗(yàn)在兩個(gè)公開遙感數(shù)據(jù)集上對于 Spark實(shí)現(xiàn)的 SVD和基于MapReduce實(shí)現(xiàn)的SVD算法進(jìn)行運(yùn)行時(shí)間比較，以證明本文提出的平臺在性能上對于遙感數(shù)據(jù)的處理與傳統(tǒng)分布式平臺有極大提升。SVD是許多遙感數(shù)據(jù)相關(guān)操作的重要組成部分，對于SVD操作的快速計(jì)算可以大幅提高有關(guān)算法的性能。由于在實(shí)際情況下，SVD實(shí)驗(yàn)運(yùn)行時(shí)間與集群狀態(tài)擁有關(guān)聯(lián)性，集群內(nèi)存或者集群網(wǎng)絡(luò)的占用都會(huì)影響到任務(wù)執(zhí)行時(shí)間，單次實(shí)驗(yàn)結(jié)果有一定隨機(jī)性。為保證實(shí)驗(yàn)結(jié)果的科學(xué)與嚴(yán)謹(jǐn)，每次SVD實(shí)驗(yàn)都重復(fù)10次，并取平均計(jì)算時(shí)間作為最終結(jié)果值。

3 實(shí)驗(yàn)結(jié)果及分析

顯示了基于Spark實(shí)現(xiàn)的SVD和基于MapReduce實(shí)現(xiàn)的SVD在IndianPine和 Pavia數(shù)據(jù)集上面隨著奇異值的增大運(yùn)算時(shí)間的變化情況。如圖1、圖2所示：

圖1 ：Indian_pines遙感數(shù)據(jù)集上的SVD計(jì)算時(shí)間

圖2 ：Pavia遙感數(shù)據(jù)集上的SVD計(jì)算時(shí)間

在SVD的分布式實(shí)現(xiàn)中，當(dāng)奇異值的個(gè)數(shù)小于總的特征數(shù)量的一半時(shí)，算法的迭代次數(shù)隨著奇異值數(shù)量的增大而提升。實(shí)驗(yàn)中使用數(shù)據(jù)集的數(shù)據(jù)規(guī)模（樣本數(shù)量和每個(gè)樣本的特征個(gè)數(shù)）如表1所示：

表格1：數(shù)據(jù)集規(guī)模

從圖1、圖2的計(jì)算時(shí)間結(jié)果中可以看出，當(dāng)奇異值為1時(shí)，Spark的SVD比MapReduce的SVD并沒有優(yōu)勢。但是，從所有的數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中我們可以看到，隨著奇異值數(shù)量的增大，算法的迭代次數(shù)增多，MapReduce的SVD運(yùn)行時(shí)間迅速增加。相對而言，Spark的SVD的運(yùn)行時(shí)間卻沒有隨著迭代次數(shù)的增加有快速提升。在相同數(shù)據(jù)集上，當(dāng)奇異值超過30時(shí)，MapReduce SVD消耗的時(shí)間是Spark SVD消耗的時(shí)間的10倍以上。

無論基于何種計(jì)算框架，實(shí)驗(yàn)數(shù)據(jù)皆需要在第一次迭代之前從硬盤中導(dǎo)入至內(nèi)存中，基于 MapReduce的算法在每一輪迭代中都需要進(jìn)行如第一輪中的硬盤讀寫操作。而對于基于內(nèi)存計(jì)算的Spark框架而言，迭代計(jì)算的中間數(shù)據(jù)集可以存儲于內(nèi)存中，無需進(jìn)行反復(fù)的硬盤讀寫。這使得由Spark實(shí)現(xiàn)的算法中，后面的迭代相比第一次迭代消耗的時(shí)間要短許多。內(nèi)存計(jì)算的特性為基于Spark的許多算法提供了無與倫比的性能優(yōu)勢。

在SVD算法實(shí)際的運(yùn)行過程中，無論是MapReduce還是Spark，每一次計(jì)算的時(shí)間都遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)導(dǎo)入內(nèi)存的時(shí)間，數(shù)據(jù)導(dǎo)入時(shí)間對于總體運(yùn)行時(shí)間起到了決定性因素然而數(shù)據(jù)導(dǎo)入內(nèi)存的時(shí)間因集群狀況，比如內(nèi)存使用和CPU占用等影響很大，這使得數(shù)據(jù)導(dǎo)入時(shí)間在一定程度上有很大的隨機(jī)性，甚至可能會(huì)出現(xiàn)導(dǎo)入相同的數(shù)據(jù)消耗的時(shí)間相差10倍以上的情況。在實(shí)驗(yàn)結(jié)果中，即使是使用10次實(shí)驗(yàn)的平均計(jì)算時(shí)間作比較，也出現(xiàn)了隨著迭代次數(shù)的增加，計(jì)算時(shí)間反而出現(xiàn)了減少的情況。但是這并沒有影響基于Spark的SVD算法對于基于MapReduce算法的巨大性能優(yōu)勢。

4 總結(jié)

本文提出基于Spark的分布式數(shù)據(jù)處理平臺。在該平臺中，HDFS作為分布式文件系統(tǒng)，YARN作為資源調(diào)度框架，Spark作為主要分布是計(jì)算框架。為了驗(yàn)證該平臺的計(jì)算有效性，實(shí)驗(yàn)采用需要多次迭代算法SVD提取海量遙感數(shù)據(jù)的特征。實(shí)驗(yàn)結(jié)果表明，基于Spark的分布式多次迭代算法相對于基于MapReduce實(shí)現(xiàn)的在計(jì)算效率上有顯著的提升。與傳統(tǒng)的MapReduce數(shù)據(jù)處理平臺相比，該平臺更適合處理利用多次迭代的數(shù)據(jù)方法處理海量遙感數(shù)據(jù)。

[1] 姚禹,向晶.全球在軌衛(wèi)星數(shù)量突破1000顆大關(guān)[J].中國無線電,2012, (11):77-77.

[2] CUDA, http://www.nvidia.com/object/cuda home new.html/.

[3] Xu J Y. OpenCL–The Open Standard for Parallel Programming of Heterogeneous Systems[J]. 2008.

[4] Chetlur S, Woolley C, Vandermersch P, et al. cudnn: Efficient primitives for deep learning[J]. arXiv preprint arXiv:1410.0759, 2014.

[5] Borthakur,D.“The hadoopdistributed file system: Architecture anddesign,” [J]Hadoop ProjectWebsite,2007, 21(11).

[6] Dean J and Ghemawat. S,“Mapreduce: simplified data processingon large clusters,” [C].Communications of the ACM,51(1):107–113, 2008.

[7] Golpayegani.N and Halem.M “Cloud computing for satellite dataprocessing on high end compute clusters,” [J] in Cloud Computing, 2009.CLOUD’09. IEEE International Conference on. IEEE, 2009:88-92.

[8] Pan.X and Zhang.S, “A remote sensing image cloud processingsystem based on hadoop,” [J] in Cloud Computing and Intelligent Systems(CCIS), 2012 IEEE 2nd International Conference on, vol. 1. IEEE,2012, pp. 492-494.

[9] Grossman M, Breternitz M, Sarkar V. HadoopCL: MapReduce on Distributed Heterogeneous Platforms through Seamless Integration of Hadoop and OpenCL[J]. Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW), 2013 IEEE 27th International, 2013:1918-1927.

[10] Wang Z, Lv P, Zheng C. CUDA on Hadoop: A Mixed Computing Framework for Massive Data Processing[M]//Foundations and Practical Applications of Cognitive Systems and Information Processing. Springer Berlin Heidelberg,2014:253-260.

[11] Zaharia.M, Chowdhury.M, M. J. Franklin, S. Shenker, and I. Stoica,“Spark: cluster computing with working sets,” [C] in Proceedings of the2nd USENIX conference on Hot topics in cloud computing, 2010：10.

[12] Ghemawat S, Gobioff H, Leung S T. The Google file system[C]//ACM SIGOPS operating systems review. ACM, 2003, 37(5):29-4

V249 文獻(xiàn)標(biāo)志碼：A

2015.01.21）

1007-757X(2015)08-0065-03

國家自然科學(xué)基金，（71331005）

陳峰科（1990-），男，江西，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室，碩士研究生，研究方向：數(shù)據(jù)科學(xué)、大數(shù)據(jù)上海，201203孫眾毅（1992-），男，上海，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室，碩士研究生，研究方向：數(shù)據(jù)科學(xué)、大數(shù)據(jù)，上海，201203池明旻（1977-），女，福建，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室，電磁波信息科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室，副教授，研究方向：數(shù)據(jù)科學(xué)、大數(shù)據(jù)，上海，201203

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Spark的遙感數(shù)據(jù)分析方法

0 引言

1 數(shù)據(jù)處理平臺介紹

2 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

3 實(shí)驗(yàn)結(jié)果及分析

4 總結(jié)