陳峰科,孫眾毅,池明旻
基于Spark的遙感數(shù)據(jù)分析方法
陳峰科,孫眾毅,池明旻
隨著遙感技術(shù)的快速發(fā)展,遙感數(shù)據(jù)呈爆炸式增長,給遙感數(shù)據(jù)計(jì)算帶來巨大的挑戰(zhàn)。采用基于內(nèi)存計(jì)算的Spark分布式計(jì)算框架以克服該問題,并選擇YARN作為資源調(diào)度系統(tǒng)和采用HDFS為分布式存儲系統(tǒng)。Spark是一個(gè)開源的分布式計(jì)算框架,基于彈性分布式數(shù)據(jù)集(RDD)概念,采用先進(jìn)的有向無環(huán)圖執(zhí)行機(jī)制以支持循環(huán)數(shù)據(jù)流操作,通過一次數(shù)據(jù)導(dǎo)入內(nèi)存就可以完成多次迭代運(yùn)算。因而,特別適合基于多次迭代的大數(shù)據(jù)計(jì)算分析方法,相較于每輪迭代需把數(shù)據(jù)導(dǎo)入內(nèi)存的MapReduce有更大的優(yōu)勢。將該計(jì)算框架應(yīng)用于海量遙感數(shù)據(jù)分析,驗(yàn)證需要多次迭代的奇異值分解(SVD)算法在該數(shù)據(jù)分析中的有效性。實(shí)驗(yàn)表明,隨著迭代次數(shù)增加,基于Spark的SVD運(yùn)算效率相對于MapReduce有明顯提高,通??商岣咭粋€(gè)數(shù)量級。
大數(shù)據(jù)計(jì)算;遙感數(shù)據(jù);Hadoop;Spark;MapReduce
目前,世界上有超過1000個(gè)正在工作的衛(wèi)星實(shí)現(xiàn)對地觀測的任務(wù)[1]。其中,大量的衛(wèi)星用于民用工程,數(shù)據(jù)全球可共享,為科學(xué)研究提供有力的數(shù)據(jù)保障。隨著遙感技術(shù)的飛速發(fā)展,遙感圖像的空間和光譜分辨率也越來越高,可以獲取的遙感數(shù)據(jù)量也迅猛增長。通常,機(jī)器學(xué)習(xí)、模式識別和數(shù)據(jù)挖掘方法用來分析和理解遙感圖像。其中,大量的算法需要大量迭代運(yùn)算,比如用于分類的邏輯回歸方法、用于特征提取的SVD(Singular Value Decomposition)等。而遙感數(shù)據(jù)爆炸性增長給這類方法帶來巨大的計(jì)算挑戰(zhàn)。為了解決該問題,目前常用的方法有基于GPU加速的高性能計(jì)算系統(tǒng)和基于Hadoop的分布式集群。
CUDA[2]和OpenCL[3]是基于圖形處理器(GPU)的并行計(jì)算編程模型,適合需要大量計(jì)算的應(yīng)用,以此為基礎(chǔ)的傳統(tǒng)高性能計(jì)算系統(tǒng)被廣泛用于研究領(lǐng)域。GPUs在浮點(diǎn)運(yùn)算和并行計(jì)算方面相對于 CPUs有著巨大的優(yōu)勢,使得使用GPU可以大幅提高計(jì)算速度。深度學(xué)習(xí)是一種需要大量計(jì)算的多次迭代算法,英偉達(dá)在[4]中提出了基于CUDA的深度神經(jīng)網(wǎng)絡(luò)包CUDNN(CUDA Deep Neural Network library),實(shí)驗(yàn)結(jié)果顯示深度學(xué)習(xí)框架利用cuDNN加速后獲得了36%的速度提升。但是,雖然GPU加速能提高計(jì)算速度,卻對于數(shù)據(jù)密集型計(jì)算效率不高,而且代碼編寫調(diào)試復(fù)雜。
Hadoop[5,6]的核心分為兩部分:HDFS分布式文件系統(tǒng)[4]和MapReduce計(jì)算框架[5]。在處理大量文件時(shí),相對于傳統(tǒng)的本地文件系統(tǒng),HDFS在吞吐率和穩(wěn)定性方面有很大的優(yōu)勢。除此之外,[7-8]中工作證明,基于 MapReduce實(shí)現(xiàn)的分布式算法能夠在批量處理數(shù)據(jù)的任務(wù)中相對于單機(jī)實(shí)現(xiàn)的算法有極大的性能優(yōu)勢。然而,在許多迭代進(jìn)行的計(jì)算任務(wù)中因?yàn)樵诿恳惠喌^程中,中間數(shù)據(jù)集都需要從硬盤中加載,如此的 IO操作會(huì)消耗大量的時(shí)間,限制了基于MapReduce在如機(jī)器學(xué)習(xí)等多次迭代算法上的速度性能優(yōu)勢。Hadoop和 GPU加速技術(shù)的結(jié)合(CUDA+Hadoop[9], OpenCL + Hadoop[10]),在一定程度上能夠提高計(jì)算速度,但在涉及多次迭代機(jī)器學(xué)習(xí)算法時(shí)候,依然受 MapReduce每輪中間數(shù)據(jù)集讀寫時(shí)間的掣肘。Mahout是基于MapReduce的機(jī)器學(xué)習(xí)包,2014年4月份Mahout社區(qū)宣布,Mahout不再接受基于MapReduce實(shí)現(xiàn)的算法,轉(zhuǎn)向Spark[11]。Spark是一個(gè)基于內(nèi)存計(jì)算的開源分布式計(jì)算框架,其是一個(gè)快速且易于使用的計(jì)算框架,核心數(shù)據(jù)結(jié)構(gòu)為彈性分布式數(shù)據(jù)集(RDD),擁有先進(jìn)的有向無環(huán)圖(DAG,Directed Acyclic Graph)執(zhí)行引擎,能夠有效處理循環(huán)數(shù)據(jù)流。當(dāng)集群內(nèi)存充足時(shí),基于Spark的多次迭代機(jī)器學(xué)習(xí)算法只需要在第一次迭代時(shí)將數(shù)據(jù)從硬盤中導(dǎo)入內(nèi)存,相對于基于MapReduce的多次迭代算法來說,節(jié)省了中間數(shù)據(jù)集硬盤讀寫的時(shí)間。這些特有的性質(zhì),使得Spark特別適用于機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法,基于Spark的多次迭代算法能夠在保持高可靠性和容錯(cuò)性的情況下相對于基于MapReduce算法擁有更強(qiáng)的速度性能優(yōu)勢。在許多實(shí)際任務(wù)中,基于Spark的多次迭代算法比基于MapReduce實(shí)現(xiàn)的算法在時(shí)間上可以快10倍以上。
本文提出了一個(gè)基于Spark的遙感數(shù)據(jù)處理平臺,能夠有效應(yīng)對遙感數(shù)據(jù)日益增長對于相關(guān)算法處理數(shù)據(jù)帶來的挑戰(zhàn)。該平臺由兩部分組成:分布式存儲系統(tǒng)和分布式計(jì)算框架。在該平臺中,選擇了Hadoop的分布式文件系統(tǒng)(HDFS)作為分布式存儲。分布式計(jì)算框架由傳統(tǒng)的MapReduce和基于內(nèi)存的Spark組成,其中Spark由于其能高效實(shí)現(xiàn)機(jī)器學(xué)習(xí)等多輪迭代算法而被選為平臺核心框架。基于MapReduce實(shí)現(xiàn)的機(jī)器學(xué)習(xí)包Mahout和基于Spark實(shí)現(xiàn)的機(jī)器學(xué)習(xí)包MLlib在該平臺上都可以使用,里面包含了大部分主流的機(jī)器學(xué)習(xí)算法,可以為遙感大數(shù)據(jù)的處理提供支撐。為驗(yàn)證平臺的有效性,并評估不同計(jì)算框架的性能,本文在構(gòu)建的平臺上對于兩個(gè)公開數(shù)據(jù)集,分別基于 Spark和MapReduce實(shí)現(xiàn)了奇異值分解(SVD)。SVD是一種多次迭代算法,是許多遙感數(shù)據(jù)處理算法的重要組成部分。實(shí)驗(yàn)結(jié)果顯示,隨著迭代次數(shù)的增加,Mahout中基于MapReduce實(shí)現(xiàn)的SVD和MLlib中基于Spark實(shí)現(xiàn)的SVD運(yùn)行速度上的差距逐漸增大。當(dāng)?shù)啍?shù)到達(dá)一定數(shù)量之后,基于Spark實(shí)現(xiàn)的SVD比基于MapReduce實(shí)現(xiàn)的SVD有十倍以上的性能優(yōu)勢。
隨著可利用的遙感數(shù)據(jù)量日益增長,即使是使用GPUs加速,單機(jī)也越來越難滿足需要。開發(fā)能夠快速有效處理遙感數(shù)據(jù)的分布式平臺顯得愈發(fā)緊迫與重要。數(shù)據(jù)處理平臺通常分為兩個(gè)部分:分布式存儲系統(tǒng)和分布式計(jì)算框架。以HDFS、Hbase為代表的分布式存儲系統(tǒng)已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域的大數(shù)據(jù)存儲系統(tǒng)之中。MapReduce因其在數(shù)據(jù)密集型計(jì)算方面的巨大優(yōu)勢,是目前大部分應(yīng)用中分布式平臺的最主要選擇。在本文提出的平臺中,分布式存儲系統(tǒng)采用了以GFS[12]為基礎(chǔ)的HDFS分布式文件系統(tǒng)。在使用平臺對數(shù)據(jù)進(jìn)行處理之前,遙感數(shù)據(jù)需要首先導(dǎo)入到HDFS中。基于內(nèi)存計(jì)算的Spark,被選擇作為主要的分布式計(jì)算框架。平臺同時(shí)整合了Hadoop的MapReduce計(jì)算框架。Apache YARN被選擇作為平臺的任務(wù)調(diào)度系統(tǒng),YARN位于HDFS和分布式計(jì)算框架之間,為多個(gè)運(yùn)行中的應(yīng)用分配資源。YARN能夠支持Spark和MapReduce等多種計(jì)算框架,使得在平臺上,基于Spark的機(jī)器學(xué)習(xí)包MLlib和基MapReduce的機(jī)器學(xué)習(xí)包Mahout里面的算法皆可使用。本文提出的平臺,在滿足一般分布式平臺具有的存儲和批量處理遙感數(shù)據(jù)功能之外,還能實(shí)現(xiàn)迭代運(yùn)算對數(shù)據(jù)的快速處理。在這一章剩下的部分,我們將對我們工作中涉及到的分布式技術(shù)做進(jìn)一步的介紹。
1.1 Hadoop
Hadoop包含一系列分布式存儲和處理數(shù)據(jù)技術(shù),是一個(gè)由Apache基金會(huì)支持的開源項(xiàng)目,同時(shí)滿足容錯(cuò)、可伸縮,并且易于擴(kuò)展,易于學(xué)習(xí)。Hadoop的核心分為兩部分:分布式文件系統(tǒng) HDFS和分布式計(jì)算框架 MapReduce。Hadoop的完善與普及,使得原本需要昂貴的超級計(jì)算機(jī)才能解決的數(shù)據(jù)任務(wù)在使用一般的服務(wù)器組成的集群中就能得到高效解決。通常情況下,隨著集群規(guī)模變大,硬件損壞頻率會(huì)越來越高,Hadoop容錯(cuò)機(jī)制都能夠保證任務(wù)在一般硬件損壞情況下成功執(zhí)行。如今,Hadoop已經(jīng)能夠管理數(shù)千臺機(jī)器,對PB級別的數(shù)據(jù)進(jìn)行存儲和處理。
1.2 Mahout
ApacheMahout是一個(gè)可擴(kuò)展機(jī)器學(xué)習(xí)包,在ApacheHadoop項(xiàng)目的基礎(chǔ)上,基于MapReduce編程模型實(shí)現(xiàn)的。Mahout能從多個(gè)數(shù)據(jù)源中讀取數(shù)據(jù),利用數(shù)據(jù)科學(xué)的工具分析挖掘數(shù)據(jù)。Mahout的目的在于使得算法處理過程速度更快,數(shù)據(jù)規(guī)模更加容易擴(kuò)展。到目前為止,Mahout支持四種數(shù)據(jù)處理應(yīng)用:協(xié)同過濾,聚類,分類和頻繁項(xiàng)集挖掘。大部分經(jīng)典的機(jī)器學(xué)習(xí)算法在Mahout中都有實(shí)現(xiàn)。
1.3 Spark
ApacheSpark是一個(gè)Scala語言實(shí)現(xiàn)的基于內(nèi)存計(jì)算用于處理大規(guī)模數(shù)據(jù)的快速通用引擎。雖然MapReduce模型在分布式批量處理任務(wù)的現(xiàn)實(shí)應(yīng)用中取得巨大的成功,但卻不能滿足涉及到循環(huán)數(shù)據(jù)流應(yīng)用的需要,而這種應(yīng)用在機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法中是十分常見的。Spark技術(shù)的提出正因?yàn)榇?,在保證與MapReduce可以媲美的可擴(kuò)展性和容錯(cuò)性的基礎(chǔ)上,滿足循環(huán)數(shù)據(jù)流應(yīng)用的需要。Spark基于其創(chuàng)造性的彈性分布式數(shù)據(jù)集(RDD)概念,使用先進(jìn)的有向無環(huán)圖(DAG)執(zhí)行機(jī)制,能夠支持循環(huán)數(shù)據(jù)流的應(yīng)用和內(nèi)存計(jì)算。在許多機(jī)器學(xué)習(xí)任務(wù)中,Spark能夠在執(zhí)行速度上遠(yuǎn)遠(yuǎn)超越MapReduce。Spark被設(shè)計(jì)為可以獨(dú)立地運(yùn)行,其也能夠與其它主流分布式存儲系統(tǒng)與任務(wù)調(diào)度系統(tǒng)合作工作。在本文提出的平臺之中,Spark被作為一種計(jì)算框架置于YARN之上,與MapReduce同時(shí)運(yùn)行于集群之上。
1.4 Spark vsMapReduce
Spark與MapReduce相比,其有如下優(yōu)勢:
基于內(nèi)存計(jì)算。中間數(shù)據(jù)集保存于內(nèi)存之中,無需反復(fù)讀取硬盤,適合于迭代計(jì)算任務(wù)。
DAG 執(zhí)行引擎。Spark執(zhí)行過程中沒有嚴(yán)格的Map/Reduce階段,通過其獨(dú)有的血緣機(jī)制,在保證容錯(cuò)性下進(jìn)一步減少硬盤讀寫操作。
容易編程。Spark是由函數(shù)式語言Scala實(shí)現(xiàn)的,可以通過Scala編寫創(chuàng)建任務(wù),代碼編寫更加靈活。
Spark相比MapReduce更加適合于如機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘等迭代計(jì)算任務(wù),而MapReduce在數(shù)據(jù)密集型計(jì)算中仍然保持了強(qiáng)大的競爭力。兩者互補(bǔ)已經(jīng)成為當(dāng)今主流分布式平臺構(gòu)建時(shí)的共識。
隨著遙感技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,可以獲取的遙感數(shù)據(jù)來源逐漸增多,越來越多的高光譜與高分辨率數(shù)據(jù)被應(yīng)用于各類科學(xué)研究中。如何快速有效地處理遙感數(shù)據(jù)從未像現(xiàn)在一般迫切和重要。在本章的剩余部分,我們簡單我們實(shí)驗(yàn)中涉及到的遙感數(shù)據(jù)集,并對實(shí)驗(yàn)設(shè)定做一個(gè)詳細(xì)的描述。
2.1 實(shí)驗(yàn)數(shù)據(jù)集
(1)Indian_pines:1992年AVARIS傳感器在IndianPine上空拍攝的高光譜遙感圖像。圖像大小為145*145像素,每個(gè)像素點(diǎn)有220個(gè)波長,分布在0.36到2.5μm之間的波段中。
(2)Pavia:由ROSIS-03衛(wèi)星在Pavia上空獲取的高光譜高分辨率(1.3m)圖像,每個(gè)像素點(diǎn)有103個(gè)波長在0.43到0.86μm之間的波段。分為Pavia和PaviaU兩張圖像,圖像覆蓋地點(diǎn)分別為Pavia市區(qū)和Pavia大學(xué)。
2.2 集群配置
本文提出的平臺在實(shí)驗(yàn)集群上實(shí)現(xiàn)。實(shí)驗(yàn)集群由5臺服務(wù)器組成,每臺服務(wù)器內(nèi)存為24GB,擁有四核處理器。服務(wù)器操作系統(tǒng)皆使用CentOS6.5,集群使用的分布式系統(tǒng)版本為Hadoop 2.5與Spark 1.0.1。
2驗(yàn)設(shè)置
實(shí)驗(yàn)在兩個(gè)公開遙感數(shù)據(jù)集上對于 Spark實(shí)現(xiàn)的 SVD和基于MapReduce實(shí)現(xiàn)的SVD算法進(jìn)行運(yùn)行時(shí)間比較,以證明本文提出的平臺在性能上對于遙感數(shù)據(jù)的處理與傳統(tǒng)分布式平臺有極大提升。SVD是許多遙感數(shù)據(jù)相關(guān)操作的重要組成部分,對于SVD操作的快速計(jì)算可以大幅提高有關(guān)算法的性能。由于在實(shí)際情況下,SVD實(shí)驗(yàn)運(yùn)行時(shí)間與集群狀態(tài)擁有關(guān)聯(lián)性,集群內(nèi)存或者集群網(wǎng)絡(luò)的占用都會(huì)影響到任務(wù)執(zhí)行時(shí)間,單次實(shí)驗(yàn)結(jié)果有一定隨機(jī)性。為保證實(shí)驗(yàn)結(jié)果的科學(xué)與嚴(yán)謹(jǐn),每次SVD實(shí)驗(yàn)都重復(fù)10次,并取平均計(jì)算時(shí)間作為最終結(jié)果值。
顯示了基于Spark實(shí)現(xiàn)的SVD和基于MapReduce實(shí)現(xiàn)的SVD在IndianPine和 Pavia數(shù)據(jù)集上面隨著奇異值的增大運(yùn)算時(shí)間的變化情況。如圖1、圖2所示:
圖1 :Indian_pines遙感數(shù)據(jù)集上的SVD計(jì)算時(shí)間
圖2 :Pavia遙感數(shù)據(jù)集上的SVD計(jì)算時(shí)間
在SVD的分布式實(shí)現(xiàn)中,當(dāng)奇異值的個(gè)數(shù)小于總的特征數(shù)量的一半時(shí),算法的迭代次數(shù)隨著奇異值數(shù)量的增大而提升。實(shí)驗(yàn)中使用數(shù)據(jù)集的數(shù)據(jù)規(guī)模(樣本數(shù)量和每個(gè)樣本的特征個(gè)數(shù))如表1所示:
表格1:數(shù)據(jù)集規(guī)模
從圖1、圖2的計(jì)算時(shí)間結(jié)果中可以看出,當(dāng)奇異值為1時(shí),Spark的SVD比MapReduce的SVD并沒有優(yōu)勢。但是,從所有的數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中我們可以看到,隨著奇異值數(shù)量的增大,算法的迭代次數(shù)增多,MapReduce的SVD運(yùn)行時(shí)間迅速增加。相對而言,Spark的SVD的運(yùn)行時(shí)間卻沒有隨著迭代次數(shù)的增加有快速提升。在相同數(shù)據(jù)集上,當(dāng)奇異值超過30時(shí),MapReduce SVD消耗的時(shí)間是Spark SVD消耗的時(shí)間的10倍以上。
無論基于何種計(jì)算框架,實(shí)驗(yàn)數(shù)據(jù)皆需要在第一次迭代之前從硬盤中導(dǎo)入至內(nèi)存中,基于 MapReduce的算法在每一輪迭代中都需要進(jìn)行如第一輪中的硬盤讀寫操作。而對于基于內(nèi)存計(jì)算的Spark框架而言,迭代計(jì)算的中間數(shù)據(jù)集可以存儲于內(nèi)存中,無需進(jìn)行反復(fù)的硬盤讀寫。這使得由Spark實(shí)現(xiàn)的算法中,后面的迭代相比第一次迭代消耗的時(shí)間要短許多。內(nèi)存計(jì)算的特性為基于Spark的許多算法提供了無與倫比的性能優(yōu)勢。
在SVD算法實(shí)際的運(yùn)行過程中,無論是MapReduce還是Spark,每一次計(jì)算的時(shí)間都遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)導(dǎo)入內(nèi)存的時(shí)間,數(shù)據(jù)導(dǎo)入時(shí)間對于總體運(yùn)行時(shí)間起到了決定性因素然而數(shù)據(jù)導(dǎo)入內(nèi)存的時(shí)間因集群狀況,比如內(nèi)存使用和CPU占用等影響很大,這使得數(shù)據(jù)導(dǎo)入時(shí)間在一定程度上有很大的隨機(jī)性,甚至可能會(huì)出現(xiàn)導(dǎo)入相同的數(shù)據(jù)消耗的時(shí)間相差10倍以上的情況。在實(shí)驗(yàn)結(jié)果中,即使是使用10次實(shí)驗(yàn)的平均計(jì)算時(shí)間作比較,也出現(xiàn)了隨著迭代次數(shù)的增加,計(jì)算時(shí)間反而出現(xiàn)了減少的情況。但是這并沒有影響基于Spark的SVD算法對于基于MapReduce算法的巨大性能優(yōu)勢。
本文提出基于Spark的分布式數(shù)據(jù)處理平臺。在該平臺中,HDFS作為分布式文件系統(tǒng),YARN作為資源調(diào)度框架,Spark作為主要分布是計(jì)算框架。為了驗(yàn)證該平臺的計(jì)算有效性,實(shí)驗(yàn)采用需要多次迭代算法SVD提取海量遙感數(shù)據(jù)的特征。實(shí)驗(yàn)結(jié)果表明,基于Spark的分布式多次迭代算法相對于基于MapReduce實(shí)現(xiàn)的在計(jì)算效率上有顯著的提升。與傳統(tǒng)的MapReduce數(shù)據(jù)處理平臺相比,該平臺更適合處理利用多次迭代的數(shù)據(jù)方法處理海量遙感數(shù)據(jù)。
[1] 姚禹,向晶.全球在軌衛(wèi)星數(shù)量突破1000顆大關(guān)[J].中國無線電,2012, (11):77-77.
[2] CUDA, http://www.nvidia.com/object/cuda home new.html/.
[3] Xu J Y. OpenCL–The Open Standard for Parallel Programming of Heterogeneous Systems[J]. 2008.
[4] Chetlur S, Woolley C, Vandermersch P, et al. cudnn: Efficient primitives for deep learning[J]. arXiv preprint arXiv:1410.0759, 2014.
[5] Borthakur,D.“The hadoopdistributed file system: Architecture anddesign,” [J]Hadoop ProjectWebsite,2007, 21(11).
[6] Dean J and Ghemawat. S,“Mapreduce: simplified data processingon large clusters,” [C].Communications of the ACM,51(1):107–113, 2008.
[7] Golpayegani.N and Halem.M “Cloud computing for satellite dataprocessing on high end compute clusters,” [J] in Cloud Computing, 2009.CLOUD’09. IEEE International Conference on. IEEE, 2009:88-92.
[8] Pan.X and Zhang.S, “A remote sensing image cloud processingsystem based on hadoop,” [J] in Cloud Computing and Intelligent Systems(CCIS), 2012 IEEE 2nd International Conference on, vol. 1. IEEE,2012, pp. 492-494.
[9] Grossman M, Breternitz M, Sarkar V. HadoopCL: MapReduce on Distributed Heterogeneous Platforms through Seamless Integration of Hadoop and OpenCL[J]. Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW), 2013 IEEE 27th International, 2013:1918-1927.
[10] Wang Z, Lv P, Zheng C. CUDA on Hadoop: A Mixed Computing Framework for Massive Data Processing[M]//Foundations and Practical Applications of Cognitive Systems and Information Processing. Springer Berlin Heidelberg,2014:253-260.
[11] Zaharia.M, Chowdhury.M, M. J. Franklin, S. Shenker, and I. Stoica,“Spark: cluster computing with working sets,” [C] in Proceedings of the2nd USENIX conference on Hot topics in cloud computing, 2010:10.
[12] Ghemawat S, Gobioff H, Leung S T. The Google file system[C]//ACM SIGOPS operating systems review. ACM, 2003, 37(5):29-4
V249 文獻(xiàn)標(biāo)志碼:A
2015.01.21)
1007-757X(2015)08-0065-03
國家自然科學(xué)基金,(71331005)
陳峰科(1990-),男,江西,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,碩士研究生,研究方向:數(shù)據(jù)科學(xué)、大數(shù)據(jù)上海,201203孫眾毅(1992-),男,上海,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,碩士研究生,研究方向:數(shù)據(jù)科學(xué)、大數(shù)據(jù),上海,201203池明旻(1977-),女,福建,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,電磁波信息科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,副教授,研究方向:數(shù)據(jù)科學(xué)、大數(shù)據(jù), 上海,201203