王磊 張真南京云創(chuàng)大數據科技股份有限公司
?
實時云計算數據庫-數據立方
王磊 張真
南京云創(chuàng)大數據科技股份有限公司
摘要:現階段,云計算技術的快速發(fā)展和大范圍應用,為眾多行業(yè)帶來了新的發(fā)展機遇。在大數據計算和存儲方面,被稱為是數據立方的大數據處理系統(tǒng)在數據的入庫、查詢以及擴展等方面具有一系列獨特的優(yōu)勢。
關鍵字:實時 云計算 數據立方
在互聯網技術的帶動下,社會各行各領域所產生的數據量增長速度明顯加快,這些數據涉及到的內容也多種多樣,十分復雜,這就在很大程度上加大了數據的處理難度,采用傳統(tǒng)的系統(tǒng)處理技術已遠遠跟不上技術發(fā)展的趨勢,云計算計算模式便應運而生,基于目前及近未來的技術和產業(yè)發(fā)展方向,它的產生具有重要的時代性意義。
1.1MapReduce技術形式分析
這種技術形式的內部計算結構主要是由兩個函數來實現的,即Map和Reduce。在它的程序功能中,會把得到的大數據進行逐一分層和分解,分解之后再由Map函數進行處理,最后Reduce函數再對分解之后的多種任務處理所得到的結果進行一個針對性的匯聚。從它的實際應用來看,它所適用的處理范圍一般是需要將大范圍數據集進行細化處理的,而且細化之后的小數據集又是可以進行結構意義上的完整化處理的。
1.2并行數據庫技術
從并行數據庫的結構構成來看,它主要可以分為兩種基本存儲架構,即無共享架構和磁盤共享存儲結構。如果單從技術角度來對兩種架構進行分析的話,并不能取得完整的分析結果,這兩種架構雖然在內部組成上各有差異,但是在作用的體現上是不相上下的。我們可以借助Shared——nothing系統(tǒng)來分析,在這個系統(tǒng)下,所有的數據集都是已細化后存在的,通常情況下,在這個系統(tǒng)的作用下,它是可以發(fā)揮出自身的良好計算性能的。但是不可忽視的是,它也存在著多個節(jié)點事務處理、數據傳輸以及數據傾斜等的問題[1],而且它的任何一個節(jié)點都是可以對系統(tǒng)中的所有磁盤進行訪問和寫入的,這就可以在很大程度上避免數據出現傾斜問題。
1.3云計算和數據庫相融合技術
從現有的技術形式來講,我們常說的和數據庫相融合的云計算技術主要指的是MapReduce技術。我們以HadoopDB為分析對象,它的系統(tǒng)有嚴明的區(qū)分,共有兩層部分,上層的分解和調度是以Hadoop為主的,下層部分是以RDBMS來完成對數據的檢查和計算的,從它的實際查詢流程來看,它所執(zhí)行的命令是SQL to MapReduce to SQL操作流程,這個操作流程也是具有明顯技術性的。對于它的性能試驗,相對于關系數據庫系統(tǒng)來說,還存在有一定差距,那么如何在技術角度進一步提升MapReduce性能,就成為了未來發(fā)展需要解決的重點問題之一,要采取有效措施來使其性能得到了明顯改善。
從它的產生歷程來看,它的產生是離不開對MapReduce技術和并行數據庫兩者的研究的,兩者是其產生的重要輔助。它是通過引入額外的新型索引模塊技術并加以利用,進而配合并行數據庫來保證檢索的高效性、簡單性和安全性。
2.1體系結構闡述
從結構構成方面來講,數據立方的結構可以劃分為以下幾個重點部分,即用戶接口、索引、SQL解析器、作業(yè)生成器以及元數據管理等五部分。按照它的功能發(fā)揮和體現來分析,它的用戶結構主要有兩個,即JDBC和Shell,前者主要是針對于數據的定義操作來講的,并且還可以完成對數據查詢的SQL語句的查詢,后者主要支持的是數據庫、表的增減以及查詢的SQL語句。此外,數據立方還可以用HDFS或cStor等云存儲文件系統(tǒng)來作為其底層存儲系統(tǒng)。
2.2分布式的并行計算架構
立足于分布式的結構構成角度來分析,它的分布架構在實質上是一種典型的主動形式的分布結構。主Master和從Master在具體部署上,分布在HDFS或cStor云存儲的主從NameNode物理節(jié)點上,而Slave部署在DataNode物理節(jié)點上,主從Master采用的是Zookeeper完成同步,并且能夠對系統(tǒng)的日志進行分享[2]。
2.3分布式索引體系
在原生的MapReduce技術體系下,它的所有查詢活動都是通過直接形式,來從分布式文件系統(tǒng)中對原始數據進行讀取實現的;相比較而言,數據立方技術體系則是引入了一種高效的分布式索引機制,它的數據文件和索引文件都是直接存放在分布式文件系統(tǒng)中。
通過上述的分析可知,在云計算技術得到大范圍應用的今天,針對海量數據實現效處理任務的解決方案和技術研發(fā)成為了行業(yè)發(fā)展的重點,實時云計算數據庫作為一種新型的大數據處理技術,具有重要的應用意義。文中在簡單介紹的同時也對大數據處理技術的相關內容進行了分析,并在此基礎上對數據立方的優(yōu)勢進行了簡要說明。
參考文獻
[1]劉小琦.云計算數據庫在海量用電信息采集系統(tǒng)的應用研究[J].軟件工程師,2015,(12):9-10.
[2]宋振偉.云實時數據庫在用電信息采集系統(tǒng)中的應用[J].中國電力教育:下,2014,(3):263-265.
基金項目
本研究得到了國家科技支撐計劃課題任務“基于云計算平臺的OTT智能終端應用示范”(項目編號2012BAH57F00,課題編號2012BAH57F01)的資助。