◆楊永周
(云南電網(wǎng)有限責(zé)任公司保山供電局 云南 678000)
分布式存儲(chǔ)關(guān)鍵技術(shù)及優(yōu)勢(shì)分析研究
◆楊永周
(云南電網(wǎng)有限責(zé)任公司保山供電局 云南 678000)
隨著信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)系統(tǒng)需要處理的數(shù)據(jù)大量增加。同時(shí),這些數(shù)據(jù)還需要有效地保存在存儲(chǔ)系統(tǒng)中,為數(shù)據(jù)分析和處理提供保障和便利。隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和創(chuàng)新,分布式存儲(chǔ)技術(shù)本身也在飛速地發(fā)展。毫無疑問,各個(gè)大型網(wǎng)站也都存儲(chǔ)著海量的數(shù)據(jù),這些海量的數(shù)據(jù)如何有效存儲(chǔ),是每個(gè)大型網(wǎng)站的架構(gòu)師必須要解決的問題。分布式存儲(chǔ)技術(shù)就是為了解決這個(gè)問題而發(fā)展起來的技術(shù)。
分布式存儲(chǔ);關(guān)鍵技術(shù);分布式存儲(chǔ)應(yīng)用
與目前常見的集中式存儲(chǔ)技術(shù)不同,分布式存儲(chǔ)技術(shù)并不是將數(shù)據(jù)存儲(chǔ)在某個(gè)或多個(gè)特定的節(jié)點(diǎn)上,而是通過網(wǎng)絡(luò)使用企業(yè)中的每臺(tái)機(jī)器上的磁盤空間,并將這些分散的存儲(chǔ)資源構(gòu)成一個(gè)虛擬的存儲(chǔ)設(shè)備,數(shù)據(jù)分散的存儲(chǔ)在企業(yè)的各個(gè)角落。
傳統(tǒng)存儲(chǔ)陣列發(fā)展的幾十年里,確實(shí)給數(shù)據(jù)中心的建設(shè)帶來了巨大的發(fā)展,但是隨著虛擬化的普及以及大數(shù)據(jù)、云計(jì)算、互聯(lián)網(wǎng)+等等概念的落實(shí),傳統(tǒng)存儲(chǔ)陣列的疲態(tài)凸顯,在處理能力、擴(kuò)展性、可維護(hù)性、可靠性方面,以及成本考量都呈現(xiàn)出更多的劣勢(shì)。存儲(chǔ)廠商一味在增強(qiáng)、擴(kuò)大這個(gè)“鐵盒子”,維護(hù)傳統(tǒng)領(lǐng)域“蛋糕”的同時(shí),也在加緊研究著另一種背道而馳的存儲(chǔ)技術(shù),這就是分布式存儲(chǔ)技術(shù)。
分布式存儲(chǔ)系統(tǒng),是將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立的設(shè)備上。傳統(tǒng)的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用集中的存儲(chǔ)服務(wù)器存放所有數(shù)據(jù),存儲(chǔ)服務(wù)器成為系統(tǒng)性能的瓶頸,也是可靠性和安全性的焦點(diǎn),不能滿足大規(guī)模存儲(chǔ)應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用位置服務(wù)器定位存儲(chǔ)信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展。
常見的元數(shù)據(jù)管理可以分為集中式和分布式元數(shù)據(jù)管理架構(gòu),在大數(shù)據(jù)環(huán)境下,元數(shù)據(jù)的體量也非常大,元數(shù)據(jù)的存取性能是整個(gè)分布式文件系統(tǒng)性能的關(guān)鍵。
實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的高可擴(kuò)展性首先要解決兩個(gè)方面的重要問題,包含元數(shù)據(jù)的分配和數(shù)據(jù)的透明遷移;在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)規(guī)模和復(fù)雜度的增加往往非常迅速,對(duì)系統(tǒng)的擴(kuò)展性能要求較高。
構(gòu)建存儲(chǔ)系統(tǒng)時(shí),需要基于成本和性能來考慮,因此存儲(chǔ)系統(tǒng)通常采用多層不同性價(jià)比的存儲(chǔ)器件組成存儲(chǔ)層次結(jié)構(gòu)。大數(shù)據(jù)的規(guī)模大,因此構(gòu)建高效合理的存儲(chǔ)層次結(jié)構(gòu),可以在保證系統(tǒng)性能的前提下,降低系統(tǒng)能耗和構(gòu)建成本,利用數(shù)據(jù)訪問局部性原理,可以從兩個(gè)方面對(duì)存儲(chǔ)層次結(jié)構(gòu)進(jìn)行優(yōu)化。從提高性能的角度,可以通過分析應(yīng)用特征,識(shí)別熱點(diǎn)數(shù)據(jù)并對(duì)其進(jìn)行緩存或預(yù)取,通過高效的緩存預(yù)取算法和合理的緩存容量配比,以提高訪問性能。從降低成本的角度,采用信息生命周期管理方法,將訪問頻率低的冷數(shù)據(jù)遷移到低速廉價(jià)存儲(chǔ)設(shè)備上,可以在小幅犧牲系統(tǒng)整體性能的基礎(chǔ)上,大幅降低系統(tǒng)的構(gòu)建成本和能耗。
傳統(tǒng)數(shù)據(jù)存儲(chǔ)模型需要支持盡可能多的應(yīng)用,因此需要具備較好的通用性。大數(shù)據(jù)具有大規(guī)模、高動(dòng)態(tài)及快速處理等特性,通用的數(shù)據(jù)存儲(chǔ)模型通常并不是最能提高應(yīng)用性能的模型。而大數(shù)據(jù)存儲(chǔ)系統(tǒng)對(duì)上層應(yīng)用性能的關(guān)注遠(yuǎn)遠(yuǎn)超過對(duì)通用性的追求。針對(duì)應(yīng)用和負(fù)載來優(yōu)化存儲(chǔ),就是將數(shù)據(jù)存儲(chǔ)與應(yīng)用耦合。簡化或擴(kuò)展分布式文件系統(tǒng)的功能,根據(jù)特定應(yīng)用、特定負(fù)載、特定的計(jì)算模型對(duì)文件系統(tǒng)進(jìn)行定制和深度優(yōu)化,使應(yīng)用達(dá)到最佳性能。這類優(yōu)化技術(shù)在谷歌、Facebook等互聯(lián)網(wǎng)公司的內(nèi)部存儲(chǔ)系統(tǒng)上,管理超過千萬億字節(jié)級(jí)別的大數(shù)據(jù),能夠達(dá)到非常高的性能。
傳統(tǒng)存儲(chǔ)陣列需要一臺(tái)昂貴的硬件,以及相應(yīng)的存儲(chǔ)交換機(jī)、HBA等專用配件,對(duì)于存儲(chǔ)陣列的配置需要專業(yè)的人員進(jìn)行管理,甚至受制于存儲(chǔ)廠商。而VMware分布式存儲(chǔ)技術(shù),直接利用了服務(wù)器的磁盤,服務(wù)器本身就是控制器,在數(shù)據(jù)中心的架構(gòu)中,減少了整整一個(gè)存儲(chǔ)硬件層面,大大簡化了數(shù)據(jù)中心建設(shè)的復(fù)雜程度。
傳統(tǒng)存儲(chǔ)的優(yōu)勢(shì)是性能,但是這一點(diǎn)已經(jīng)被顛覆,對(duì)于絕大部分中低端存儲(chǔ)來說,性能反而一直是一個(gè)“雞肋”,在虛擬化環(huán)境中,由于集中化了 I/O處理,而且 I/O處理是共享式的,因此很可能造成對(duì)于某些虛擬機(jī)的影響,或者干脆由于整體性能不行拖累了虛擬化平臺(tái)。分布式存儲(chǔ)技術(shù)的性能,取決于高速緩存的處理能力和大小,而它采用的是固態(tài)盤技術(shù)(SSD),單塊SSD的性能可達(dá)上萬IOPS,如果組建集群的話,性能可以線性擴(kuò)充,這大大緩解了性能瓶頸。
分布式存儲(chǔ)的優(yōu)勢(shì)就是“分布式”,所謂的“分布式”就是能夠?qū)⒍鄠€(gè)物理節(jié)點(diǎn)整合在一起形成共享的存儲(chǔ)池,節(jié)點(diǎn)可以線性擴(kuò)充,這樣可以源源不斷地通過擴(kuò)充節(jié)點(diǎn)提升性能和擴(kuò)大容量,這是傳統(tǒng)存儲(chǔ)陣列無法做到的。
這里所提到的“對(duì)象”,是虛擬機(jī),傳統(tǒng)存儲(chǔ)陣列都是“塊”一級(jí)的操作,存儲(chǔ)規(guī)則的定義與虛擬機(jī)、應(yīng)用無任何關(guān)聯(lián)性,這就造成存儲(chǔ)與應(yīng)用、業(yè)務(wù)系統(tǒng)的脫節(jié),而新一代的分布式存儲(chǔ)技術(shù),所有的存儲(chǔ)規(guī)則都可以定義到虛擬機(jī)級(jí)別,每個(gè)虛擬機(jī)都可以有自己的個(gè)性化的存儲(chǔ)規(guī)則,比如“副本的多少、條帶化、存儲(chǔ)格式”等等,這才真正做到存儲(chǔ)層面與應(yīng)用的互動(dòng),“存儲(chǔ)感知應(yīng)用”,及時(shí)為業(yè)務(wù)系統(tǒng)創(chuàng)造合適的存儲(chǔ)環(huán)境。
由于分布式存儲(chǔ)的架構(gòu)是分散式的,數(shù)據(jù)的存放也是分散在不同的節(jié)點(diǎn)之上,因此如果個(gè)別節(jié)點(diǎn)損壞,對(duì)于整體架構(gòu)沒有任何影響?!皢吸c(diǎn)故障”是一直是困擾傳統(tǒng)存儲(chǔ)陣列最大的問題,而配置多臺(tái)存儲(chǔ)陣列做鏡像的意義不大,同時(shí)成本不菲,而分布式存儲(chǔ)技術(shù)輕松地解決了這個(gè)問題。尤其是跨站點(diǎn)的VSAN技術(shù)出來之后,使得這種可靠性擴(kuò)展到了容災(zāi)級(jí)別。
這里所提到的維護(hù),指的是維護(hù)硬件。傳統(tǒng)存儲(chǔ)架構(gòu)中,如果出現(xiàn)了故障,我們要逐層排查故障點(diǎn),其中比較復(fù)雜的層面就是存儲(chǔ)陣列和存儲(chǔ)網(wǎng)絡(luò),因?yàn)檫@是專業(yè)的領(lǐng)域,需要專業(yè)技術(shù)人員來配合解決,而分布式存儲(chǔ)技術(shù),由于與虛擬化內(nèi)核緊密耦合,服務(wù)器層就是存儲(chǔ)層,并且通過虛擬化管理軟件可以一覽無余的看到分布式存儲(chǔ)的狀態(tài),因此對(duì)于整體維護(hù)來說非常方便。
分布式存儲(chǔ)的優(yōu)勢(shì)就是“更快更省更簡單”,分布式存儲(chǔ)發(fā)展不會(huì)一步登天,會(huì)有一個(gè)過程。首先分布式存儲(chǔ)會(huì)蠶食增量存儲(chǔ)市場(chǎng),然后隨著用戶對(duì)于技術(shù)理解的不斷加深,最終將一統(tǒng)江湖。分布式存儲(chǔ)稱雄市場(chǎng)是早晚的事情?!爱?dāng)務(wù)之急是團(tuán)結(jié)合作,打敗共同的敵人--傳統(tǒng)存儲(chǔ)?!边@是超融合產(chǎn)業(yè)聯(lián)盟倡導(dǎo)的產(chǎn)業(yè)情懷和志向。
總而言之,分布式系統(tǒng)是大數(shù)據(jù)時(shí)代企業(yè)級(jí)應(yīng)用的首選平臺(tái),它有良好的可擴(kuò)展性,尤其是橫向可擴(kuò)展性(Scale Out),使得分布式系統(tǒng)非常靈活,能應(yīng)對(duì)千變?nèi)f化的企業(yè)級(jí)需求,而且降低了企業(yè)客戶對(duì)服務(wù)器硬件的要求,真正能做到應(yīng)用服務(wù)層面的彈性擴(kuò)展(auto-scaling)。
[1]ChinaByte.專家博客:分布式存儲(chǔ)系統(tǒng)的實(shí)現(xiàn)[EB/OL].http://storage.chinabyte.com/89/11678089.shtml.
[2]于廣軍,楊佳泓主編.醫(yī)療大數(shù)據(jù)[M].上海:上??茖W(xué)技術(shù)出版社,2015.
[3]盧益陽.分布式存儲(chǔ)系統(tǒng)調(diào)查[J].企業(yè)科技與發(fā)展,2011.
[4]陳敏,張東,張引,亓開元編著.大數(shù)據(jù)-大數(shù)據(jù)整體解決方案及關(guān)鍵技術(shù)探索[M].湖北:華中科技大學(xué)出版社,2015.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2017年10期