陳 卓,平佳偉,王有春
(上海航天電子技術(shù)研究所,上海 201109)
云計算在航天測試領(lǐng)域的研究與應(yīng)用
陳 卓,平佳偉,王有春
(上海航天電子技術(shù)研究所,上海 201109)
為滿足航天測試領(lǐng)域日益增長的數(shù)據(jù)處理需求,利用云計算技術(shù)提高航天測試領(lǐng)域的數(shù)據(jù)處理性能和數(shù)據(jù)可靠性、數(shù)據(jù)安全性,主要從3個方面對云計算技術(shù)與航天測試領(lǐng)域結(jié)合進(jìn)行了研究,首先建立以Hadoop為基礎(chǔ)架構(gòu)的云計算平臺,設(shè)計新的測試數(shù)據(jù)傳輸方案,并以Hadoop冗余備份機制為基礎(chǔ),提高數(shù)據(jù)可靠性;其次,對云計算平臺的數(shù)據(jù)處理模塊進(jìn)行了研究,并與航天測試領(lǐng)域的數(shù)據(jù)比對工作相結(jié)合;最后,為云計算平臺設(shè)計了安全性更高的身份認(rèn)證和加密模塊;通過與原有航天測試工作對比分析可以看出,云計算對航天測試領(lǐng)域數(shù)據(jù)處理速度的提升是巨大的,安全模塊也有效地對數(shù)據(jù)進(jìn)行了保護(hù),適應(yīng)了航天測試領(lǐng)域?qū)Π踩矫娴母咭?,將云計算?yīng)用于航天測試領(lǐng)域具有極大的潛力和廣闊的前景。
私有云;Hadoop;MapReduce;Kerberos;PKI;HTTPS
隨著互聯(lián)網(wǎng)、通信技術(shù)的進(jìn)一步發(fā)展,大數(shù)據(jù)的時代已經(jīng)到來,云計算性能強大、資源利用率高、組建成本相對較低,靈活性高,是未來數(shù)據(jù)處理的發(fā)展趨勢,目前各行各業(yè)都紛紛利用云計算技術(shù)推動本行業(yè)的發(fā)展,百度、阿里等公司將自己的核心業(yè)務(wù)建立在云平臺上,電信、電力、金融將云計算技術(shù)應(yīng)用于用戶分析、智能電網(wǎng)、行業(yè)預(yù)測,美軍于2009年成功將云計算技術(shù)應(yīng)用于其陸軍作戰(zhàn)網(wǎng)。
在航天領(lǐng)域,深空探測,衛(wèi)星遙感、雷達(dá)掃描、導(dǎo)彈跟蹤等電子技術(shù)的快速發(fā)展,導(dǎo)致產(chǎn)生的數(shù)據(jù)越來越多,地面測試要處理的數(shù)據(jù)量也越來越大,傳統(tǒng)的方式是利用高性能服務(wù)器來處理,然而服務(wù)器性能的提升已經(jīng)逐漸不能滿足測試需求。
云計算的出現(xiàn)為航天領(lǐng)域中大數(shù)據(jù)處理提供了一個新的方向。航天各型號中存在大量的淘汰或閑置的計算機,這些計算機性能不高但是保存完好,采用云計算技術(shù)可以利用這些閑置的資源,組建高性能的云平臺來處理大數(shù)據(jù)測試,目前,云計算技術(shù)在軍事航天領(lǐng)域的研究不多見。
本文提出將云計算技術(shù)與航天領(lǐng)域相結(jié)合,組建高性能私有云平臺來處理航天領(lǐng)域大數(shù)據(jù)測試問題。云計算技術(shù)具有以下特點:計算存儲能力強,解決航天中數(shù)據(jù)處理性能不足的問題;平臺對硬件要求低,解決航天中計算資源浪費問題;平臺擁有完善的冗余備份機制,提升航天領(lǐng)域的數(shù)據(jù)可靠性。
組建云計算平臺的技術(shù)主要有Hadoop、OpenStack、Spark,其中以Hadoop的成熟性最好,同時Hadoop更側(cè)重于數(shù)據(jù)的計算處理,對平臺節(jié)點的硬件要求不高[1],符合航天領(lǐng)域大數(shù)據(jù)測試的需求,因此本文采用Hadoop技術(shù)實現(xiàn)云計算,同時考慮到航天領(lǐng)域數(shù)據(jù)保密性等要求,本文組建基于Hadoop的私有云平臺。
本文從基于Hadoop的私有云平臺的組建、HDFS存儲設(shè)計、Map/Reduce數(shù)據(jù)處理設(shè)計以及安全模塊設(shè)計4個方面全面介紹了私有云平臺的組建過程,并對組建的私有云平臺進(jìn)行了測試與驗證。
本文通過搭建平臺運行所需環(huán)境、配置核心文件、配置節(jié)點間通信3個步驟來組建基于Hadoop的私有云平臺。
搭建平臺運行所需環(huán)境:編譯配置JDK、Ant 等Hadoop運行所需要的編譯環(huán)境,并將Hadoop、HDFS、MapReduce等信息集成到系統(tǒng)環(huán)境中去,使整個平臺能夠協(xié)同運行。
配置核心文件:對hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml, yarn-site.xml等核心文件進(jìn)行配置,根據(jù)實際需求對集群中的分片大小、端口號、備份系數(shù)、HDFS、NodeManger、ResoureManger等關(guān)鍵因素進(jìn)行設(shè)置,定義整個Hadoop集群的屬性,使整個集群能適應(yīng)實際物理情況,運行起來[2]。
配置節(jié)點通信:本文采用SSH協(xié)議為集群的節(jié)點建立安全的訪問通道[3],通過公鑰對集群中節(jié)點的用戶名、口令和數(shù)據(jù)信息進(jìn)行加密,實現(xiàn)節(jié)點之間安全無密碼訪問,解決節(jié)點訪問的安全性和快速性問題。
通過這3個步驟組建的可用于大數(shù)據(jù)存儲和處理的私有云平臺,是后續(xù)對其數(shù)據(jù)處理模塊和安全性研究的基礎(chǔ)。
大數(shù)據(jù)存儲與處理速率已經(jīng)成為目前航天測試領(lǐng)域的主要瓶頸,因此對大數(shù)據(jù)存儲和處理的性能是本文組建的云平臺的重要指標(biāo)。
HDFS是云平臺虛擬的一個分布式存儲空間,能夠?qū)⒏鱾€節(jié)點的物理存儲空間集成起來,組成一個巨大的存儲資源池,穩(wěn)定的對海量數(shù)據(jù)進(jìn)行存儲,提供高吞吐量的數(shù)據(jù)訪問性能[4]。
HDFS能有效提高航天測試領(lǐng)域的數(shù)據(jù)可靠性,其冗余備份機制提高了航天測試領(lǐng)域的數(shù)據(jù)可靠性[5]。目前航天測試工作中使用的計算機一旦出現(xiàn)故障,存入其中的數(shù)據(jù)很容易丟失,而在云平臺中,當(dāng)一個節(jié)點出現(xiàn)故障后,平臺會無縫調(diào)用存儲在其它節(jié)點的數(shù)據(jù),維持?jǐn)?shù)據(jù)的完整性,不會對用戶的工作造成影響。
在地面測試過程中需要對數(shù)據(jù)進(jìn)行采集并傳輸?shù)紿DFS中存儲,其傳輸效率是影響一個測試平臺性能的關(guān)鍵。
本文對數(shù)據(jù)的傳輸過程重新進(jìn)行了設(shè)計,以適應(yīng)大數(shù)據(jù)處理的特點。
1)傳統(tǒng)的數(shù)據(jù)采集方案,如圖1所示。
圖1 傳統(tǒng)數(shù)據(jù)采集方案
由于現(xiàn)有的數(shù)據(jù)采集程序大多運行在Windows平臺下,而基于Hadoop的云平臺系統(tǒng)環(huán)境是Linux下的,需要測試計算機從被測設(shè)備采集數(shù)據(jù)后,先傳給平臺中的節(jié)點才能處理,在數(shù)據(jù)量較大的時候會耗費很多的時間,經(jīng)計算,在數(shù)據(jù)量為1T,帶寬為千兆,硬盤讀寫速率為60 M/s時,數(shù)據(jù)傳送到平臺中需要4個小時,比數(shù)據(jù)的計算處理時間還要長。
2)開發(fā)Linux系統(tǒng)下數(shù)據(jù)采集程序。
為解決上述問題,本文重新開發(fā)了Linux下的數(shù)據(jù)采集程序,直接在集群節(jié)點中進(jìn)行數(shù)據(jù)采集,也就是將測試計算機集成到平臺的節(jié)點中,去除了從測試計算機傳輸?shù)狡脚_節(jié)點的過程,如圖2所示。
圖2 Linux數(shù)據(jù)采集方案
Linux平臺下的數(shù)據(jù)采集程序主要實現(xiàn)了兩種最常見的接口,USB接口以及PCI/PCIE接口,對原有的采集板卡重新編寫了Linux系統(tǒng)下的驅(qū)動以及采集軟件,實現(xiàn)了對被測設(shè)備的數(shù)據(jù)采集,隨后將采集的數(shù)據(jù)上傳到云存儲空間HDFS中。
新的方案將測試計算機與集群節(jié)點結(jié)合在一起,避免了數(shù)據(jù)必須從外部測試計算機傳輸?shù)郊汗?jié)點中才能處理的弊端,提高了整體的數(shù)據(jù)處理速度。
數(shù)據(jù)比對的目的是找出所采集數(shù)據(jù)的異常幀,在航天測試領(lǐng)域有廣泛的應(yīng)用。本章以實際工作為例,對某型號小固存測試模塊的數(shù)據(jù)比對功能進(jìn)行了研究,開發(fā)了MapReduce數(shù)據(jù)比對程序。
Hadoop對于數(shù)據(jù)的處理是通過MapReduce實現(xiàn)的,MapReduce是一個穩(wěn)定、高效的并行計算框架,在大數(shù)據(jù)處理方面,性能優(yōu)勢非常明顯,是目前進(jìn)行大數(shù)據(jù)處理主流的計算模式[6]。
MapReduce程序有著其獨有的框架與接口,只有將數(shù)據(jù)比對過程轉(zhuǎn)化為符合其計算思想和框架的處理過程才能夠在Hadoop集群中實現(xiàn),將其在云平臺上實現(xiàn)的難點在于設(shè)計出符合MapReduce分布式處理模式的程序。
MapReduce把運行在大型集群上復(fù)雜的并行計算高度抽象為兩個過程,Map過程和Reduce過程[7],對于使用者來說,這兩個過程可以分別用Map函數(shù)和Reduce函數(shù)來表示,這種高度的抽象化使得使用者只需要設(shè)計好Map函數(shù)和Reduce函數(shù)就可以在大型集群中高效運行復(fù)雜的并行計算任務(wù),不需要關(guān)心底層是怎么實現(xiàn)的。
本文設(shè)計的數(shù)據(jù)比對大數(shù)據(jù)處理程序如圖3所示。
其主要處理流程如下:首先對采集到的數(shù)據(jù)進(jìn)行分片處理,本文的分片大小為64 M,為每一個分片分配一個Map任務(wù)進(jìn)行并行處理,經(jīng)過Map過程處理后再將結(jié)果送入Reduce過程,得到最終結(jié)果。
Map和Reduce過程設(shè)計的關(guān)鍵點在于Map的輸出中間結(jié)果
圖3 數(shù)據(jù)比對程序
通過對數(shù)據(jù)比對過程的分析,本文將相鄰兩組數(shù)據(jù)幀的計數(shù)位相減,如果相減結(jié)果為不為1,代表數(shù)據(jù)出現(xiàn)異常,將相減結(jié)果賦給key值,對應(yīng)原始數(shù)據(jù)賦給value,再將得出的中間結(jié)果
航天測試領(lǐng)域?qū)τ跀?shù)據(jù)的安全性有著較高的要求,為提高數(shù)據(jù)的安全性,本文對基于Hadoop的私有云平臺安全模塊進(jìn)行分析與設(shè)計。
現(xiàn)有的安全模塊在身份認(rèn)證和數(shù)據(jù)加密上存在一些不足:原有的Kerberos認(rèn)證方式缺乏靈活性,KDC(密鑰分配中心)一旦崩潰整個集群的認(rèn)證工作就無法正常運行[8],其次是KDC和集群緊密結(jié)合在一起,容易遭受攻擊被竊取密鑰,用戶之間的認(rèn)證采用的是對稱密鑰加密體制,安全性上不如公鑰加密體制,在數(shù)據(jù)傳輸時,采用的是HTTPS協(xié)議明文傳輸,容易被攻擊獲取信息。
針對這些不足,本文提出了基于PKI的身份認(rèn)證機制和HTTPS的數(shù)據(jù)傳輸協(xié)議,能有效解決Kerberos身份認(rèn)證體系中存在的缺陷并彌補了數(shù)據(jù)傳輸上的不足。
在本文設(shè)計的PKI認(rèn)證體系中,Hadoop集群并沒有和身份認(rèn)證中心CA緊密的結(jié)合在一起,客戶端在訪問HDFS之前,首先應(yīng)通過RA和PKI接口向CA提交證書申請,CA生成證書并把證書頒發(fā)給用戶[9]。
當(dāng)客戶端訪問HDFS時,PKI認(rèn)證體系的工作流程主要分為以下幾個過程,如圖4所示,客戶端首先提交自己的身份證書,HDFS通過CA驗證客戶端身份的真實性,認(rèn)證過程分為兩步,一步是驗證客戶端身份證書的有效性,另一步是通過LDAP服務(wù)器查看所保存的客戶端證書身份信息是否與提出申請的客戶端一致,通過驗證后客戶端可以訪問HDFS中的數(shù)據(jù)。
圖4 基于PKI身份認(rèn)證流程
完成身份認(rèn)證后,本文通過HTTPS協(xié)議對客戶端和Hadoop服務(wù)器傳輸?shù)臄?shù)據(jù)進(jìn)行加解密處理,保證數(shù)據(jù)傳輸?shù)臋C密性。
通過基于PKI的身份認(rèn)證機制和HTTPS加密協(xié)議組成的安全模塊有效提升了Hadoop集群的安全性,主要有以下幾個方面的優(yōu)勢:
1)靈活性高:通過證書進(jìn)行身份認(rèn)證,在證書有效期內(nèi),不需CA集群也可以正常運行;
2)密鑰中心安全性高:CA中心并沒有與Hadoop結(jié)合在一起,作為第三方獨立存在;
3)公鑰加密機制:提高了密鑰破解難度,而且便于密鑰的管理;
4)HTTPS協(xié)議:對傳輸?shù)臄?shù)據(jù)進(jìn)行了加密處理。
為了驗證上述設(shè)計內(nèi)容,本文采用三臺計算機組成一個小型的實驗性集群,對集群的性能進(jìn)行測試分析,集群的信息如表1所示。
表1 Hadoop集群硬件信息
5.1 平臺基本性能驗證
首先對私有云平臺的基本性能指標(biāo)進(jìn)行測試,包括平均上傳速率、平均下載速率和云存儲容量,通過對1~60 G七組測試數(shù)據(jù)進(jìn)行上傳、下載實驗,得出如下數(shù)據(jù):
表2 集群基本性能指標(biāo)
可以看出,平臺的上傳下載速率達(dá)到35 M/s以上,傳輸速率高效穩(wěn)定,能夠滿足科研工作的使用要求,云存儲空間達(dá)到1.03 T,對物理磁盤利用率達(dá)到80%,本文設(shè)計的云平臺基本性能在傳輸和存儲方面都處于優(yōu)秀水平。
5.2 平臺處理模塊性能測試
為了驗證本文組建的私有云平臺為實際工作所帶來的性能提升,本文選用某衛(wèi)星型號小固存測試模塊的數(shù)據(jù),用私有云平臺和單機對同樣大小的測試數(shù)據(jù)進(jìn)行處理,對比二者的處理速度,處理結(jié)果如圖5所示。
圖5 單機與集群處理速度對比
可以看出,當(dāng)數(shù)據(jù)量大于20 G之后,云平臺的處理速度能達(dá)到單機的1.6倍,提升了科研處理效率。這還只是最基本地3個節(jié)點組成的集群所得出的結(jié)果,其中主節(jié)點并不參與數(shù)據(jù)處理,當(dāng)節(jié)點較多時,對數(shù)據(jù)的處理速度提升更為明顯。
此外,當(dāng)數(shù)據(jù)量較小的時候,云平臺的處理速度和單機相差不大,隨著測試數(shù)據(jù)的數(shù)據(jù)量逐漸增大,云平臺處理速度遠(yuǎn)遠(yuǎn)超過單機的處理速度,可以得出如下結(jié)論,云計算技術(shù)更適用于大數(shù)據(jù)處理,并不適合用來處理小規(guī)模數(shù)據(jù)。
5.3 平臺安全模塊驗證
當(dāng)用戶訪問HDFS(云存儲空間)中的數(shù)據(jù)時,首先需要通過RA向CA申請身份認(rèn)證,再通過身份證書獲取訪問云平臺的權(quán)限,PKI體系頒發(fā)的身份認(rèn)證證書如圖6所示。
圖6 身份認(rèn)證證書
通過身份認(rèn)證后,客戶端和HDFS服務(wù)器之間通過HTTPS協(xié)議進(jìn)行加密傳輸,如圖7所示。
圖7 HTTPS協(xié)議工作圖
可以看出,本文設(shè)計的新的安全模塊是可行的,通過PKI認(rèn)證體系和HTTPS加密協(xié)議解決了原有安全模塊所存在的一些缺陷。
將云計算技術(shù)應(yīng)用于航天測試領(lǐng)域能解決目前大數(shù)據(jù)存儲與處理速率的瓶頸,提高科研效率,降低運營成本,是未來航天技術(shù)發(fā)展的一個重要的方向,有著非常廣闊的應(yīng)用前景。本文在研究云計算關(guān)鍵技術(shù)的基礎(chǔ)上,將私有云與航天測試工作相結(jié)合,充分利用已有的閑置資源,組建了一個可進(jìn)行大數(shù)據(jù)存儲和處理的私有云平臺,并進(jìn)一步對私有云平臺的安全性、數(shù)據(jù)處理模塊進(jìn)行了研究,具有良好的工程應(yīng)用價值。
[1] White T.Hadoop權(quán)威指南(第二版)[M].北京:清華大學(xué)出版社,2011.
[2] 李 琨.一種私有云存儲解決方案[D].蘭州:蘭州交通大學(xué),2014.
[3] 張炎華.私有云系統(tǒng)的實現(xiàn)及性能分析[D].北京:北京郵電大學(xué),2012.
[4] 曹風(fēng)兵.基于Hadoop的云計算模型研究與應(yīng)用[D].重慶:重慶大學(xué),2011.
[5] 王永洲.基于HDFS的存儲技術(shù)的研究[D].南京:南京郵電大學(xué),2012.
[6] 張曉強.MapReduce在Web日志挖掘中的應(yīng)用[D].成都:電子科技大學(xué),2011.
[7] 黃 晶.面向Hadoop大數(shù)據(jù)處理的訪問控制與通信安全性研究[D].長沙:湖南大學(xué),2013.
[8] 余 琦.云計算環(huán)境下數(shù)據(jù)安全多維防護(hù)體系的研究與設(shè)計[D].廣州:廣東工業(yè)大學(xué),2013.
[9] 丁偉倫.基于PKI的安全云計算的研究與應(yīng)用[D].成都:電子科技大學(xué),2013(6).
Research and Application of Cloud Computing on Aerospace Measurement Area
Chen Zhuo,Ping Jiawei,Wang Youchun
(Shanghai Aerospace Electronic Technology Institute, Shanghai 201109, China)
In order to meet the increasing demand of data processing in aerospace measurement area, promoting the speed of data processing, improving the reliable and security of data, some research is done in combining cloud computing and aerospace techniques includes three treatments. First, establishing a private cloud platform based on Hadoop, designed a new data transmission scheme, and improving the reliable of data by Hadoop; Second, studying the data processing in cloud computing and combining with data comparing in aerospace measurement area; Last, designed a new ID identify and encryption module. We can find that there is a big improvement in data processing by comparing with the traditional way, the security module protects data effective for the high demand of security in aerospace area, applying the cloud computing in aerospace measurement area has a great potential and a wide prospect.
private cloud;Hadoop; MapReduce; Kerberos ; PKI ; HTTPS
2016-06-18;
2016-07-19。
陳 卓(1993-),男,河南駐馬店人,碩士研究生,主要從事測試與控制方向的研究。
1671-4598(2016)12-0017-03
10.16526/j.cnki.11-4762/tp.2016.12.006
TP301
A