国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的云計算平臺的研究與設計

2016-03-18 08:30王麗莉
移動信息 2016年12期
關鍵詞:分布式計算海量數(shù)據(jù)處理

王麗莉

?

基于Hadoop的云計算平臺的研究與設計

王麗莉

天安財產(chǎn)保險股份有限公司,上海 200120

隨著保險保險行業(yè)對信息化的要求越來越高,幫助保險行業(yè)應對互聯(lián)網(wǎng)環(huán)境下的大渠道、大保單、大數(shù)據(jù)的挑戰(zhàn),支持大數(shù)據(jù)分析和介入,拓寬數(shù)據(jù)挖掘的廣度和深度,利用云計算平臺管理和存儲這些數(shù)據(jù)顯得極為重要?;诖?,提出了一種基于分布式計算技術進行管理和存儲海量數(shù)據(jù)的方法,設計開發(fā)基于Hadoop的云計算平臺。

云計算;保險行業(yè);Hadoop;分布式計算

引言

采用云的形式,將使保險公司變得更為靈活、快速。傳統(tǒng)模式下,保險公司上線新產(chǎn)品需要3~6個月的時間,采用云平臺后將會縮短到1~2周。對應的開發(fā)成本、部署成本將會從百萬級十萬級降低至數(shù)萬元??焖俚漠a(chǎn)品部署意味著極低的試錯成本。面對突發(fā)的市場需求,保險公司可快速推出產(chǎn)品,同時根據(jù)市場反饋不斷調整策略。這種小步快跑、快速迭代的方式,讓保險公司能夠就像互聯(lián)網(wǎng)公司一樣迅速響應市場需求,推出新產(chǎn)品。幫助保險公司低成本、低風險、快速利用云計算優(yōu)勢拓展優(yōu)化傳統(tǒng)業(yè)務和服務,同時使保險公司更容易的利用云平臺生態(tài)圈為保險提供流量,渠道和大數(shù)據(jù)服務。此外,云平臺還將輸出大數(shù)據(jù)挖掘分析能力,改變保險公司只能依托自有數(shù)據(jù)對產(chǎn)品定價的模式,讓保險公司更了解客戶,做到人群細分和差異化定價。

1 云計算及Hadoop技術簡介

1.1 云計算概述

云計算是一種超級計算模式,通過把計算任務分配給大量計算機構成的資源池上,使應用系統(tǒng)根據(jù)需求獲得相應的計算能力、存儲空間和軟件服務,通過網(wǎng)絡訪問可配置的計算資源(例如網(wǎng)絡、服務器、存儲、應用和服務),這些資源可實現(xiàn)快速提供與釋放,并且只需極少的管理成本或服務供應商的干預[1-2]。

云計算模式具有“按需自助服務、寬廣網(wǎng)絡訪問、資源池化、快速伸縮、可計量服務”5項基本特征和“私有云、社區(qū)云、公有云、混合云”4種部署方式,提供“SaaS、PaaS、IaaS”3大服務類型。

云計算體系結構自底而上為物理資源層、資源池層、管理中間件層和SOA(Service Oriented Architecture)構建層[3]。物理資源層由計算機、存儲器、網(wǎng)絡設施、數(shù)據(jù)庫和軟件等組成。資源池層將大量相同類型的資源構成同構或接近同構的資源池。管理中間件層負責云計算的資源管理,并對眾多應用任務進行調度,使資源能夠高效、安全地為應用提供服務。SOA構建層將云計算能力封裝成標準的Web Service服務,并納入到SOA體系進行管理和使用。

云計算基本架構由管理和服務兩大部分組成[4]。

1.2 Hadoop概述

Hadoop是Apache開源組織的一個分布式計算框架,可以在任何普通的硬件設備組成的集群上運行應用程序,構建一個具有高可靠性和良好擴展性的并行分布式系統(tǒng),HDFS分布式文件系統(tǒng)、MapReduce編程模型和HBase分布式數(shù)據(jù)庫是其三大核心技術 無論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。它是完全使用Java開發(fā)的開源平臺,可以運行在任何普通的軟硬件平臺上。Hadoop所采用的分布式系統(tǒng)屬于一種被稱為“向外擴展”的增強計算能力的方式,它是把許多低成本的PC設備組成大型集群,形成功能專一的分布式系統(tǒng)。分布式文件系統(tǒng)的備份恢復機制以及MapReduce的任務監(jiān)控保證了分布式處理的可靠性。它的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結合Local Data處理的模式,為高效處理海量的信息做了基礎準備。

整個Hadoop的體系結構主要通過HDFS實現(xiàn)對分布式存儲的底層支持,通過MapReduce來實現(xiàn)對分布式并行任務處理的程序支持。

2 基于Hadoop的云計算平臺設計

2.1 Hadoop云計算平臺總體設計

結合海量數(shù)據(jù)異構性、分布性、多樣性等特點,從系統(tǒng)編程實現(xiàn)角度考慮,采用MVC架構設計,使結構更加清晰,系統(tǒng)易于擴展,系統(tǒng)整體架構如圖1所示:

圖1 平臺整體框架結構

2.2 Hadoop云計算平臺功能設計思想

從功能考慮,基于Hadoop的集群特征,將云計算平臺的計算資源擴展到Hadoop的各個節(jié)點上,利用Hadoop集群的并行計算和存儲功能與數(shù)據(jù)處理的理論相結合,便可以高效完成海量數(shù)據(jù)的處理,實現(xiàn)基于Hadoop的云計算平臺。

Hadoop是一種分布式系統(tǒng)基礎架構,與MapReduce編程模式相結合,用戶可以對分布式程序進行開發(fā),對集群快速高效的數(shù)據(jù)運算和數(shù)據(jù)存儲充分利用。因此,基于Hadoop的云計算平臺在處理計算資源數(shù)據(jù)過程中具有如下特點:(1)在Hadoop的存儲和處理過程中,數(shù)據(jù)可以通過建立多個副本的方式對丟失的或錯誤的數(shù)據(jù)進行快速及時的恢復。MapReduce可以將集群的最大計算資源進行調用,Hadoop分布式文件系統(tǒng)可調用集群的最大存儲資源,根據(jù)計算和存儲任務來增加集群的節(jié)點。(2)編程人員不需要關心每處數(shù)據(jù)的細節(jié),只需將MapReduce作為統(tǒng)一的數(shù)據(jù)處理接口,用戶對處理任務和處理結果的收集過程是透明的。子問題與子問題之間的數(shù)據(jù)交互可由MapReduce組織管理,在數(shù)據(jù)處理過程中可以根據(jù)節(jié)點與數(shù)據(jù)的特點進行適當修改MapReduce接口來提高數(shù)據(jù)處理的效率。(3)Hadoop云平臺結合MapReduce改進關聯(lián)規(guī)則的算法,可以實現(xiàn)數(shù)據(jù)操作并行執(zhí)行,提高了傳統(tǒng)關聯(lián)算法的效率。

2.2 Hadoop云計算平臺建設

Hadoop框架的MapReduce計算模型為海量數(shù)據(jù)的復雜計算問題提供了簡單的編程模型。

(1)MapReduce原理,MapReduce是一種高效的適用于海量數(shù)據(jù)處理的分布式編程模型。MapReduce的工作過程可以分為兩個階段:Map階段和Reduce階段。Map將一個任務分解成多個任務,Reduce將分解后的多任務的結果匯總起來得出最后的分析結果。用戶定義一個Map函數(shù)來處理原始數(shù)據(jù),得到的輸出結果是一組鍵值對(key/value),再定義一個Reduce函數(shù)將所有擁有相同key值的中間結果進行合并。

(2)HDFS系統(tǒng)搭,HDFS是Hadoop框架中的分布式并行文件系統(tǒng),它實現(xiàn)了數(shù)據(jù)的分布式存儲及管理與高吞吐量訪問的功能。HDFS對于整個集群有單一的命名空間,保持了數(shù)據(jù)一致性,文件會被分割成多個文件塊,每個文件塊被分配存儲到數(shù)據(jù)節(jié)點上。HDFS由一個名字節(jié)點NameNode和若干個數(shù)據(jù)節(jié)點DataNode組成。NameNode負責存儲文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問,DataNode用來存放實際的數(shù)據(jù)。每個文件都被劃分成若干64 M的數(shù)據(jù)塊,這些數(shù)據(jù)塊會被分散地存儲到各個DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會為數(shù)據(jù)進行備份,默認情況下,每個數(shù)據(jù)塊會有三個副本分別存放在不同的機器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進行通信。HDFS采用Master/ Slave 的體系結構,集群中有一個NameNode和很多個DataNode組成。Master相當于管理員,管理統(tǒng)一的命名空間,主要負責NameNode及JobTracker的工作;JobTracker啟動、跟蹤和調度各個Slave的任務執(zhí)行;Slave:相當于執(zhí)行者,分布式的數(shù)據(jù)節(jié)點,具有DataNode的功能并負責TaskTracker的工作;TaskTracker根據(jù)應用要求結合本地數(shù)據(jù)執(zhí)行Map以及Reduce的任務。

(3)基于Hadoop云計算平臺的設計,結合MapReduce原理和HDFS搭建思路,云計算平臺采用分層思想,可分為:交互層、業(yè)務應用層、數(shù)據(jù)處理層、分布式計算層。其中,交互層通過提供具有良好表現(xiàn)形式的圖形界面,使得用戶可以登錄系統(tǒng)定制各種細粒度的業(yè)務,進行查看或者保存各種輸出結果。業(yè)務應用層提供了各種業(yè)務邏輯并實現(xiàn)了對各種業(yè)務流程的控制和調度,通過調用數(shù)據(jù)處理層的多個模塊完成交互層提交的業(yè)務,并返回結果到交互層。數(shù)據(jù)處理層為業(yè)務應用層提供業(yè)務流需要的各個模塊,實現(xiàn)各種任務過程中的并行算法,再將任務提交到Hadoop分布式計算層進行運算,并將結果返回給業(yè)務應用層。分布式計算層使用Hadoop框架實現(xiàn)集群存儲和計算。

[1]蔣林濤.對云計算中若干問題的思考[J].電信科學,2011(3):1-6.

[2]劉鵬.云計算[M].2版.北京:電子工業(yè)出版社,2011.

[3]吳朱華.云計算核心技術剖析[M].北京:人民郵電出版社,2012.

TP311.13

A

1009-6434(2016)12-0117-02

猜你喜歡
分布式計算海量數(shù)據(jù)處理
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
基于低頻功率數(shù)據(jù)處理的負荷分解方法
無人機測繪數(shù)據(jù)處理關鍵技術及運用
海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
“海量+”:大學生品格提升的浸潤方——以高職藝術設計專業(yè)為例
基于MATLAB語言的物理實驗數(shù)據(jù)處理探討
基于云計算的大數(shù)據(jù)處理與分析綜述
基于云計算的移動學習平臺設計與實現(xiàn)
云計算中MapReduce分布式并行處理框架的研究與搭建