潘啟明
淺析基于云計(jì)算的分布存儲(chǔ)關(guān)鍵技術(shù)
潘啟明
(遼河石油勘探局通信公司網(wǎng)管維護(hù)中心,遼寧盤錦,124010)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,云概念成為網(wǎng)絡(luò)進(jìn)步的主題。目前,我國將云計(jì)算作為新型的研究資源,利用云計(jì)算的約束,提高數(shù)據(jù)處理、存儲(chǔ)的安全性。云計(jì)算在實(shí)際應(yīng)用中,具有較高的服務(wù)價(jià)值,將其作為高技術(shù)的途徑,應(yīng)用于分布存儲(chǔ)技術(shù)中,提高分布存儲(chǔ)的性能,同時(shí)提升分布存儲(chǔ)的高效性。因此,本文通過對(duì)云計(jì)算營造的環(huán)境進(jìn)行分析,研究分布存儲(chǔ)的關(guān)鍵技術(shù)。
云計(jì)算;分布存儲(chǔ);關(guān)鍵技術(shù)
目前,我國處于互聯(lián)網(wǎng)急速發(fā)展的環(huán)境內(nèi),計(jì)算機(jī)成為網(wǎng)絡(luò)時(shí)代的應(yīng)用途徑,其在發(fā)展規(guī)模上呈現(xiàn)與日俱增的狀態(tài)?;诰W(wǎng)絡(luò)空間的發(fā)展,大量數(shù)據(jù)信息被存儲(chǔ)于計(jì)算機(jī)系統(tǒng)內(nèi),系統(tǒng)存儲(chǔ)必須處于安全、獨(dú)立的空間內(nèi),既要保障數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)環(huán)境內(nèi)的安全性,又要提高數(shù)據(jù)存儲(chǔ)的效率。在社會(huì)對(duì)數(shù)據(jù)存儲(chǔ)提出要求的過程中,云計(jì)算存儲(chǔ)空間隨之產(chǎn)生,一方面推進(jìn)存儲(chǔ)技術(shù)的發(fā)展,另一方面滿足網(wǎng)絡(luò)社會(huì)的要求。在云計(jì)算的背景下,構(gòu)建分布存儲(chǔ),主要是為用戶提供個(gè)性化的存儲(chǔ)服務(wù),促使用戶可以根據(jù)自己個(gè)人的意愿,實(shí)質(zhì)分析存儲(chǔ)系統(tǒng),通過合理的途徑,使用云計(jì)算下的存儲(chǔ)空間,一般用戶可以通過購買、租賃的方式,滿足對(duì)分布存儲(chǔ)的需要。分布存儲(chǔ)在云計(jì)算的運(yùn)行下,通過不同節(jié)點(diǎn),將大規(guī)模的信息存入相對(duì)應(yīng)的節(jié)點(diǎn)處,經(jīng)由數(shù)據(jù)中心對(duì)節(jié)點(diǎn)處的數(shù)據(jù)進(jìn)行組織,重新規(guī)劃和編排,最終將處理過的數(shù)據(jù)輸送到獨(dú)立端口,存儲(chǔ)到不同的分布地區(qū)。分布存儲(chǔ)在云計(jì)算的協(xié)助下,形成新型的存儲(chǔ)方式,利用高效的計(jì)算模型,實(shí)現(xiàn)數(shù)據(jù)互聯(lián),此環(huán)境內(nèi)的分布存儲(chǔ),可以實(shí)現(xiàn)基本數(shù)據(jù)資源的分享。
以云計(jì)算為研究環(huán)境,分析分布存儲(chǔ)關(guān)鍵技術(shù)的結(jié)構(gòu)組成,明確分布存儲(chǔ)的目的,提高存儲(chǔ)能力。
2.1 交換機(jī)結(jié)構(gòu)
交換機(jī)結(jié)構(gòu)屬于傳統(tǒng)的存儲(chǔ)環(huán)境,基本計(jì)算機(jī)用戶都是以交換機(jī)為數(shù)據(jù)處理的核心,將交換機(jī)作為數(shù)據(jù)內(nèi)外傳輸?shù)耐緩?,交換機(jī)可以通過層次服務(wù),實(shí)現(xiàn)數(shù)據(jù)在互聯(lián)網(wǎng)內(nèi)的交互,在數(shù)據(jù)交互的過程中,通過交換機(jī)實(shí)現(xiàn)數(shù)據(jù)的分布存儲(chǔ)。交換機(jī)結(jié)構(gòu)主要由三部分組成,第一層為邊緣層,主要由機(jī)架交換機(jī)構(gòu)成,提供獨(dú)立服務(wù),數(shù)據(jù)中心的第2層為聚合層,負(fù)責(zé)各項(xiàng)存儲(chǔ)數(shù)據(jù)的聚合,由聚合交換機(jī)實(shí)現(xiàn),第3層為核心層,分布核心的交換機(jī)和路由器,實(shí)時(shí)聯(lián)系互聯(lián)網(wǎng)環(huán)境。雖然交換機(jī)結(jié)構(gòu)在連接和拓展方面,表現(xiàn)極大的優(yōu)勢,但是始終無法突破存儲(chǔ)空間的限制,一旦需要存儲(chǔ)大量的分布數(shù)據(jù),交換機(jī)則無法滿足,需要實(shí)行有效改進(jìn)。
2.2 服務(wù)器結(jié)構(gòu)
與交換機(jī)結(jié)構(gòu)相比較,服務(wù)器結(jié)構(gòu)更容易實(shí)現(xiàn)數(shù)據(jù)連接,例如:用戶將所有的數(shù)據(jù)處理系統(tǒng),接入網(wǎng)絡(luò)裝置,實(shí)現(xiàn)數(shù)據(jù)處理與存儲(chǔ)處于Web環(huán)境內(nèi),以網(wǎng)卡為結(jié)構(gòu)運(yùn)行的支持,促使服務(wù)器在網(wǎng)絡(luò)線路的連接下,實(shí)現(xiàn)存儲(chǔ),服務(wù)器結(jié)構(gòu)中缺少交換機(jī)結(jié)構(gòu),所以同一結(jié)構(gòu)需要完成數(shù)據(jù)從存儲(chǔ)到轉(zhuǎn)發(fā)的全部內(nèi)容,此結(jié)構(gòu)的系統(tǒng)圖如下圖1。其中服務(wù)器最主要的任務(wù)即是將互聯(lián)網(wǎng)上的數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā),服務(wù)器結(jié)構(gòu)在數(shù)據(jù)存儲(chǔ)上,仍然表現(xiàn)出嚴(yán)重的不足,例如:其在數(shù)據(jù)存儲(chǔ)鏈接服務(wù)的過程中,容易出現(xiàn)冗余,導(dǎo)致結(jié)構(gòu)簡單,但是無法滿足鏈接環(huán)境,造成大量存儲(chǔ)數(shù)據(jù)的遺漏或丟失,影響分布存儲(chǔ)空間的建設(shè)。服務(wù)器結(jié)構(gòu)在實(shí)際發(fā)展中,遇到瓶頸,嚴(yán)重制約數(shù)據(jù)存儲(chǔ)的效率。
圖1 服務(wù)器結(jié)構(gòu)的網(wǎng)絡(luò)構(gòu)成圖
2.3 交換機(jī)與服務(wù)器的結(jié)合
為提高數(shù)據(jù)存儲(chǔ)的能力,將交換機(jī)與服務(wù)器結(jié)合使用,利用互補(bǔ)的原理,提高互聯(lián)網(wǎng)與數(shù)據(jù)的交互速率。目前,兩者結(jié)合的數(shù)據(jù)存儲(chǔ)類型被稱為混合結(jié)構(gòu),促使以交換機(jī)為核心的數(shù)據(jù)存儲(chǔ),可以高效率的在服務(wù)器上,實(shí)行節(jié)點(diǎn)互聯(lián),然后參與到數(shù)據(jù)信息的各項(xiàng)操作,不論是數(shù)據(jù)存儲(chǔ),還是數(shù)據(jù)讀寫與轉(zhuǎn)發(fā)的過程,都可以體現(xiàn)混合結(jié)構(gòu)的優(yōu)勢,既可以拓寬數(shù)據(jù)存儲(chǔ)的需要,又可以提高數(shù)據(jù)存儲(chǔ)與讀取的準(zhǔn)確度。
在云計(jì)算模型的支持下,促使計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)內(nèi)的分布存儲(chǔ),表現(xiàn)高度活躍性,被越來越多的用戶接受和認(rèn)可,同時(shí)分布存儲(chǔ)的根據(jù)自身優(yōu)勢,確實(shí)滿足數(shù)據(jù)運(yùn)行過程對(duì)穩(wěn)定、安全的需要。因此,對(duì)分布存儲(chǔ)的關(guān)鍵技術(shù)做以下分析:
3.1 避免數(shù)據(jù)錯(cuò)誤
雖然云計(jì)算模式,著實(shí)提高分布存儲(chǔ)的能力,但是不可避免的還會(huì)出現(xiàn)數(shù)據(jù)錯(cuò)誤等問題,主要是因?yàn)椴糠旨m錯(cuò)技術(shù)處于付費(fèi)狀態(tài),運(yùn)營商為確保個(gè)人利益,沒有實(shí)行糾錯(cuò)服務(wù),促使分布存儲(chǔ)的數(shù)據(jù)中心,缺乏有效的數(shù)據(jù)把控,導(dǎo)致大量數(shù)據(jù)失效,由此導(dǎo)致云計(jì)算因缺乏糾錯(cuò)服務(wù),引發(fā)數(shù)據(jù)錯(cuò)誤。例如:云存儲(chǔ)空間中,在分布存儲(chǔ)運(yùn)行過程中,隨時(shí)都在發(fā)生節(jié)點(diǎn)錯(cuò)誤,即使數(shù)據(jù)中心內(nèi)的節(jié)點(diǎn)無限大,也無法組織節(jié)點(diǎn)錯(cuò)誤、失效的發(fā)生,最終還是會(huì)引發(fā)分布存儲(chǔ)錯(cuò)誤,導(dǎo)致整個(gè)云存儲(chǔ)的存盤報(bào)廢。數(shù)據(jù)錯(cuò)誤問題的產(chǎn)生,不僅干擾使用者的效益,同時(shí)也較低運(yùn)營商的利益效應(yīng)。目前,數(shù)據(jù)錯(cuò)誤成為分布存儲(chǔ)有待解決的主要問題,利用云計(jì)算環(huán)境,理清分布存儲(chǔ)的節(jié)點(diǎn)關(guān)系,避免節(jié)點(diǎn)與節(jié)點(diǎn)連接、傳輸?shù)倪^程中,出現(xiàn)數(shù)據(jù)錯(cuò)誤,影響正常的拓?fù)溥\(yùn)行,必須對(duì)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行準(zhǔn)確規(guī)劃,提高分布存儲(chǔ)的穩(wěn)定度。
3.2 增強(qiáng)存儲(chǔ)空間
云計(jì)算的分布存儲(chǔ),涉及到數(shù)以萬計(jì)的數(shù)據(jù)分析,再加上數(shù)據(jù)存儲(chǔ)的計(jì)量方式,更是推進(jìn)存儲(chǔ)分布的拓展性,所以分布存儲(chǔ)是無法準(zhǔn)確計(jì)算預(yù)留空間的,不論預(yù)留空間的大小和規(guī)模,都不可確定。例如:某企業(yè)所使用分布存儲(chǔ)的數(shù)據(jù)中心,分布于世界各地,精確計(jì)算為35個(gè),每一項(xiàng)單獨(dú)數(shù)據(jù)中心的節(jié)點(diǎn)均在百萬以上,由此隨著分布存儲(chǔ)空間的增加,世界各國數(shù)據(jù)中心的規(guī)模也會(huì)不斷增加,尤其是服務(wù)器,數(shù)量上會(huì)呈現(xiàn)驚人的增長速度,由此可見:必須增強(qiáng)分布存儲(chǔ)的空間,才可以體現(xiàn)空間可擴(kuò)的特性。所以即使用戶對(duì)存儲(chǔ)磁盤的空間量要求非常高,也能夠通過云計(jì)算分布存儲(chǔ)實(shí)現(xiàn),還可提高磁盤的可適應(yīng)性。
3.3 控制投入成本
云計(jì)算環(huán)境的形成,促使數(shù)據(jù)存儲(chǔ)快速滿足私人網(wǎng)絡(luò)需要,例如:面對(duì)大量的私人電腦,分布存儲(chǔ)可以實(shí)現(xiàn)有效的存儲(chǔ),避免數(shù)據(jù)混淆。在分布存儲(chǔ)開發(fā)的過程中,因?yàn)槠湓诠?jié)點(diǎn)數(shù)量上,沒有達(dá)到大規(guī)模狀態(tài),所以導(dǎo)致成本、資源方面出現(xiàn)漏洞,再加上用戶對(duì)分布存儲(chǔ)技術(shù)的認(rèn)可,并不會(huì)抑制成本的投入,導(dǎo)致成本投入過大,但是分布存儲(chǔ)效果方面,仍舊沒有提高。云計(jì)算干預(yù)下的分布存儲(chǔ),確實(shí)存在較大的空間,在空間不斷被開發(fā)的過程中,資金成本的投入,也會(huì)越來越明顯。因此,成本控制成為分布存儲(chǔ)技術(shù)的研究重點(diǎn),平衡分布存儲(chǔ)與成本的空間關(guān)系,例如:分析運(yùn)營商的獲利方式,發(fā)現(xiàn)其主要在云計(jì)算的服務(wù)方面,獲得相關(guān)效益,其他領(lǐng)域涉足效益的知識(shí)較少,所以購買者可以保持服務(wù)方面的成本投入不變,盡量降低其他方面的資金運(yùn)行,如軟硬件設(shè)施、系統(tǒng)引進(jìn)等,在維護(hù)分布存儲(chǔ)功能的基礎(chǔ)上,有效控制資金投入。
數(shù)據(jù)容錯(cuò)技術(shù)是云計(jì)算空間內(nèi),分布存儲(chǔ)最為關(guān)鍵的技術(shù)。數(shù)據(jù)容錯(cuò)可以在分布存儲(chǔ)出現(xiàn)系統(tǒng)錯(cuò)誤的狀態(tài)下,保持正常的數(shù)據(jù)處理,不會(huì)出現(xiàn)干擾停頓。目前,在數(shù)據(jù)容錯(cuò)技術(shù)的支持下,分布存儲(chǔ)表現(xiàn)出明顯的優(yōu)化性,還可有目的的實(shí)現(xiàn)訪問頻率的提高。容錯(cuò)技術(shù)實(shí)現(xiàn)分布存儲(chǔ)高效性基本借助冗余完成,由此很大程度上增加資源消耗,所以資源節(jié)約屬于容錯(cuò)技術(shù)中的重點(diǎn)內(nèi)容。云計(jì)算分布存儲(chǔ)中,基本分為兩類數(shù)據(jù)容錯(cuò),即:糾刪碼和復(fù)制容錯(cuò),對(duì)其做如下分析:
4.1 糾刪碼容錯(cuò)技術(shù)
糾刪碼的工作原理為:將存儲(chǔ)數(shù)據(jù)在云計(jì)算模式下,實(shí)行數(shù)據(jù)等分,編排后組成編碼塊,在數(shù)據(jù)存儲(chǔ)時(shí),識(shí)別足夠被編碼的數(shù)據(jù),即可完成解碼讀取。糾刪碼容錯(cuò)在數(shù)據(jù)處理上優(yōu)勢明顯,一旦數(shù)據(jù)發(fā)生錯(cuò)誤,也可以借助數(shù)據(jù)塊完成數(shù)據(jù)恢復(fù),為提高糾刪碼容錯(cuò)的技術(shù)能力,需要實(shí)現(xiàn)資源的合理分配??梢岳镁W(wǎng)絡(luò)編碼的方式,保障糾刪碼容錯(cuò)的效率,網(wǎng)絡(luò)編碼在存儲(chǔ)領(lǐng)域內(nèi)不常用,屬于新型的數(shù)據(jù)技術(shù),其利用信息交互的方式,作用于互通的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)塊的多項(xiàng)融合,在保障網(wǎng)絡(luò)編碼整體效益的基礎(chǔ)上,增加流通的信息量。其中再生碼為糾刪碼網(wǎng)絡(luò)編碼的核心,再生碼可以排除冗余的影響,容錯(cuò)時(shí)主要對(duì)特殊數(shù)據(jù)實(shí)行編碼,形成等量矩陣模式,如需進(jìn)行存儲(chǔ)數(shù)據(jù)恢復(fù)時(shí),可以迅速實(shí)現(xiàn)數(shù)據(jù)融合,有效降低交互數(shù)據(jù)的信息量,再生碼容錯(cuò)原理如下圖2所示,節(jié)點(diǎn)處存在兩個(gè)編碼的數(shù)據(jù)塊,前方數(shù)據(jù)為后方冗余的計(jì)算依據(jù),數(shù)據(jù)節(jié)點(diǎn)錯(cuò)誤時(shí),可以立即實(shí)行節(jié)點(diǎn)計(jì)算,得出融合結(jié)果后,存儲(chǔ)于需要恢復(fù)的數(shù)據(jù)塊,例如:圖2中A1、A2的組合,需要6個(gè)數(shù)據(jù)塊即可修復(fù)完成。
圖2 再生碼容錯(cuò)原理結(jié)構(gòu)
4.2 復(fù)制容錯(cuò)技術(shù)
復(fù)制容錯(cuò)主要是為存儲(chǔ)數(shù)據(jù)構(gòu)建副本數(shù)據(jù)庫,副本分布存儲(chǔ)在異同節(jié)點(diǎn)上,如對(duì)應(yīng)數(shù)據(jù)錯(cuò)誤,可以利用副本代替,發(fā)揮數(shù)據(jù)存儲(chǔ)的組織與復(fù)制特性。數(shù)據(jù)組織中典型的容錯(cuò)代表為HDFS,如下圖3,
HDFS首先復(fù)制已經(jīng)被分割完成的數(shù)據(jù)塊,形成等同的副本對(duì)象,分布存儲(chǔ)需要及時(shí)向數(shù)據(jù)中心發(fā)送數(shù)據(jù)內(nèi)容,包括列表數(shù)據(jù),促使數(shù)據(jù)組織明確存儲(chǔ)數(shù)據(jù)的變化狀態(tài),數(shù)據(jù)組織執(zhí)行讀取環(huán)節(jié)時(shí),最先獲得數(shù)據(jù)列表,數(shù)據(jù)塊以及對(duì)應(yīng)副本,因?yàn)槠渚邆湎嗤拇鎯?chǔ)數(shù)據(jù),所以通過判斷節(jié)點(diǎn)與讀取的位置,以最近讀取為原則,讀取相關(guān)數(shù)據(jù)。其中寫入操作主要以數(shù)據(jù)塊為基礎(chǔ),待寫入完成后,自動(dòng)進(jìn)行數(shù)據(jù)復(fù)制,然后將原始寫入數(shù)據(jù)、副本和列表,共同輸入到管理節(jié)點(diǎn)處,管理節(jié)點(diǎn)檢測副本數(shù)是否與存儲(chǔ)數(shù)據(jù)對(duì)應(yīng),如發(fā)現(xiàn)副本數(shù)量少,則需繼續(xù)執(zhí)行復(fù)制操作,直到完成對(duì)應(yīng)副本量。HDFS在復(fù)制容錯(cuò)中,著實(shí)體現(xiàn)結(jié)構(gòu)簡單、操作快速、數(shù)據(jù)準(zhǔn)確的優(yōu)勢。
云計(jì)算屬于特殊的運(yùn)算模式,體現(xiàn)數(shù)據(jù)計(jì)算、運(yùn)行與存儲(chǔ)的優(yōu)質(zhì)性。實(shí)質(zhì)研究并改善云計(jì)算的運(yùn)行環(huán)境,提高分布存儲(chǔ)的技術(shù)能力,充分結(jié)合數(shù)據(jù)存儲(chǔ)的理論與實(shí)際,確保分布存儲(chǔ)的到位性。利用分布存儲(chǔ)關(guān)鍵技術(shù),為云計(jì)算提供科學(xué)、嚴(yán)謹(jǐn)?shù)倪\(yùn)行支持,保障云計(jì)算適應(yīng)于各項(xiàng)存儲(chǔ)系統(tǒng),滿足網(wǎng)絡(luò)化社會(huì)對(duì)高效存儲(chǔ)的需要,進(jìn)而發(fā)揮分布存儲(chǔ)關(guān)鍵技術(shù)的特性。由此可見:基于云計(jì)算環(huán)境下,實(shí)行分布存儲(chǔ)關(guān)鍵技術(shù)的研究,在很大程度上明確技術(shù)研究的方向。
[1] 李向軍.基于云計(jì)算的數(shù)據(jù)存儲(chǔ)系統(tǒng)研究[J].硅谷,2012(19):20-22.
[2] 胡慧.云計(jì)算技術(shù)現(xiàn)狀與發(fā)展趨勢分析[J].軟件導(dǎo)刊,2012(09):44-46.
[3] 王意潔.云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012(04):19-21.
[4] 王德政.云計(jì)算環(huán)境下的數(shù)據(jù)存儲(chǔ)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(04):89-91.
[5] 趙雷霆.運(yùn)營商級(jí)云計(jì)算數(shù)據(jù)中心發(fā)展研究[J].信息安全與技術(shù),2011(08):35-37.
[6] 崇陽.基于云計(jì)算下的分布存儲(chǔ)關(guān)鍵技術(shù)研究[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2012(23):67-69.
[7] 朱超.基于虛擬化技術(shù)構(gòu)建高校分布式云計(jì)算數(shù)據(jù)中心[J].武漢工程大學(xué)學(xué)報(bào),2011(04):26-28.
Analysis of distribution storage key technology based on Cloud Computing
Pan Qiming
(Liaohe Petroleum Exploration Bureau Telecommunication Company Department of Networks,Liaoning Panjin,124010)
Cloud Computing in practical application,high service value,as a way of high technology,applied to the distributed storage technology,improve the performance of distributed storage,while improving the efficiency of distributed storage.
cloud computing;distributed storage;key technology
圖3 HDFS結(jié)構(gòu)示意圖