范里,李小勇
自動分層存儲的發(fā)展與展望
范里,李小勇
從NVRAM技術、SSD技術、分層架構、分層技術等方面綜合分析了自動分層存儲的發(fā)展趨勢,并對新一代分層存儲-自動分層存儲的相關理論和關鍵技術做了分析,自動分層存儲系統(tǒng)應綜合利用NVRAM、SSD和磁盤的特性進行一體化設計。
海量存儲、網絡存儲、分層存儲
存儲系統(tǒng)的性能提升一直是學術界和產業(yè)界研究的熱點,這一研究在目前具有更加緊迫的需要:一方面,存儲系統(tǒng)和計算機系統(tǒng)之間的性能差距呈不斷擴大之勢;另一方面,人類進入數字信息量呈爆炸性增長的時代,迫切需要低成本的大容量存儲系統(tǒng),也需要存儲系統(tǒng)具有與數據規(guī)模相匹配的高性能訪問能力。
基于RAM的Cache技術一直是緩解磁盤性能瓶頸,提高存儲系統(tǒng)性能的重要手段[1]。其基本思想是將經常訪問的數據保存在RAM中,盡量避免訪問磁盤,從而實現以RAM的性能訪問數據,這一技術在2000年后還獲得大的發(fā)展[2]。該方法也是RAM和HDD(Hard Disk Drive)實現混合存儲的一種方式。但基于RAM和HDD的混合存儲面臨兩個主要問題:數據可靠性問題,由于RAM是易失性存儲,掉電后數據將會丟失,這也是長期困擾存儲系統(tǒng)可靠性的挑戰(zhàn)問題;Cache有效性問題,目前計算機系統(tǒng)中HDD容量和RAM的容量比例呈不斷擴大之勢,使得基于RAM的Cache命中率呈不斷下降之勢,其提高性能的效果不斷減弱。
近年來,SSD(Solid State Disk,也稱為固態(tài)盤)的快速發(fā)展為提升存儲系統(tǒng)性能提供了新的重大機遇。SSD以Flash為存儲介質,具有隨機讀取速度快,功耗低,抗震性好等優(yōu)點;但目前SSD還存在價格偏高,容量較小,并且存在寫前擦除,耐久性等限制[3]。SSD和HDD良好的互補性為設計大容量、高性能、低成本的存儲系統(tǒng)提供了嶄新的機遇,該方向已成為目前學術界和產業(yè)界的研究熱點。存儲領域的頂級會議FAST在2011、2012年都有針對SSD的專題。從總體來看,目前該領域的研究還處于起步階段,很多研究工作主要關注于認識、研究SSD的特性及內部結構;可公開檢索到的關于SSD和HDD混合存儲的少量文獻[4][5],也僅僅提供了思路,缺少對關鍵技術的描述和測試論證,無法用于指導存儲系統(tǒng)的設計。根據國際存儲系統(tǒng)評測聯盟SPC公布的資料,目前國際一流存儲廠商的存儲產品已開始使用SSD和HDD的混合存儲[6][7][8];但由于缺乏公開文獻,其內部實現機制、性能提升效果無從得知。
分層存儲并不是一個新概念。在過去的十幾年里,以UC Berkeley、CMU為代表的學術界,以及以NetApp、EMC、IBM為代表的企業(yè)界,都對利用各類新型的存儲器件來改善系統(tǒng)性能、容量和可靠性一直進行著不斷地研究和探索,涌現出了眾多優(yōu)秀的研究成果。近年來我國也有高校和研究機構開展了混合存儲技術的研究,建立了較好的工作基礎,取得了較好的研究進展。
1.1 NVRAM技術
從存儲系統(tǒng)的國際發(fā)展動態(tài)過程來看,在20世紀90年代初,研究人員就已提出了利用NVRAM(Non-Volatile RAM)來提高存儲系統(tǒng)可靠性和性能的方法[9]。NVRAM是增加了備用電池、或以大容量電容作為后備的小容量RAM,具有和RAM同樣高的隨機讀寫性能,但容量通常很小?;贜VRAM的特性,其主要被用于臨時存儲文件系統(tǒng)的日志數據。這些日志數據首先寫入到NVRAM,當數據積累到一定量之后,再將其寫入到磁盤。期間如果發(fā)生斷電或宕機,系統(tǒng)重啟后仍然可以從NVRAM中讀出相關數據,將存儲系統(tǒng)恢復到一致的狀態(tài)。NVRAM的使用可以顯著提高存儲系統(tǒng)的可靠性,但由于其容量很小,對于需要大數據量寫入的應用所帶來的性能改進有限。在最近的幾年中,下一代NVRAM如相變RAM(phase-change RAM,PCRAM或PCM),鐵電體RAM(ferroelectric RAM,FeRAM),以及磁RAM(magnetic RAM,MRAM)等發(fā)展很快,這些NVRAM既不需要備用電源,也不需要像SSD那樣執(zhí)行寫前擦除,具有很大發(fā)展?jié)摿?。隨著新一代NVRAM技術的不斷成熟,未來有望在混合存儲系統(tǒng)中扮演重要的角色[10][11]。
1.2 SSD技術
SSD的發(fā)展是近年來存儲技術最重要的成果之一。SSD基于Flash介質來存儲數據,具有訪問延遲低、體積小、質量輕、無噪聲、低功耗等優(yōu)點。近年來,隨著制作工藝的進步,SSD的容量以每年翻一倍的速度遞增,其價格也以每年40%~50%的速度遞減,已開始進入大規(guī)模存儲領域,成為存儲系統(tǒng)突破性能瓶頸的根本手段。
在SSD屬性認知和SSD內部結構優(yōu)化方面,Agrawal等對SSD的內部架構、交叉存取、映射機制、空間回收、并行性等相關內容與機制進行了較為全面的介紹,指出了SSD設計過程中所面臨的一些利弊權衡,并設計了一個理想化的SSD模擬器[12]。文獻[13]較為詳細地介紹了針對SSD的讀、寫、擦除等基本操作的流程,并在此基礎上提出了基于交叉存取實現SSD高性能訪問的方法。由于SSD的寫入次數受限,成為影響其使用壽命,進而影響存儲系統(tǒng)可靠性的最主要因素,因此很多研究關注于如何實現“損耗平衡”,即將寫操作均衡地分配到每個存儲塊上,以避免個別塊由于寫入過于頻繁而損壞。Wu等人提出基于統(tǒng)計計數的方法,即統(tǒng)計每個塊的寫入次數,如果該次數超過了SSD所有塊的平均寫入次數,則將該塊重定向到其它寫入次數較少的塊[14];Chang等人提出了一種稱作“雙池算法”的損耗均衡策略,其思想是讓損耗過高的塊存放冷數據,以避免其損壞,但在損耗均衡發(fā)揮作用之前對存儲塊不做其它操作,這種算法的好處在于它不需要進行復雜的調整,而且可以降低由于數據遷移而導致的額外負載[15]。
1.3 分層架構
目前SSD與HDD實現混合存儲系統(tǒng)的架構主要有兩種方式:一種是將SSD作為HDD的緩存,以分層的方式搭建系統(tǒng)(緩存分層架構);另一種是將SSD和HDD設備放在同一層,作為存儲系統(tǒng)的兩個相對獨立的存儲設備來搭建系統(tǒng)(設備同層結構)。
緩存分層結構是將SSD完全作為HDD的Cache,SSD中的數據是HDD中數據的子集。因為SSD較RAM可以緩存更多的內容,所以存儲系統(tǒng)的讀性能得到提高;而且SSD的隨機寫入性能也遠遠高于HDD,所以可以用它來作為寫緩存,然后將寫入數據批量寫入到HDD中,進而提高寫性能。2008年,Taeho Kgil在FlashCache的研究基礎上提出了如何在服務器平臺中把Flash用作磁盤緩存[16]。2010年,Yang Liu提出了RAF(Random Access First)混合存儲結構[17]。在讀寫分離的基礎上提出優(yōu)先緩存隨機訪問數據,從而實現了在提高系統(tǒng)性能的同時延長SSD的使用壽命。也有人提出基于MLC/SLC兩種介質的緩存結構[18]。在網絡存儲環(huán)境中采用SSD作為本地緩存[19]。
設備同層結構是將SSD與HDD設備放在同一層,數據在SSD和HDD其中之一存儲,根據訪問頻率在兩種設備之間遷移。這樣設計的優(yōu)勢是存儲設備的存儲容量得到充分利用,系統(tǒng)容量為SSD和HDD容量之和;同時將經常使用或最近訪問的數據存放(或遷移)到SSD上,提高系統(tǒng)性能[20]。例如,UmbrellaFS將多種設備集合在統(tǒng)一命名空間下,實現了異種設備的混合存儲[21];有研究提出根據最優(yōu)化方法分配和存儲數據塊,從而使應用端可以并發(fā)地從所有的設備存取數據,以提高吞吐量,降低延遲[22];還有研究提出根據系統(tǒng)響應時間,來設計和優(yōu)化數據在SSD和HDD之間的自動遷移策略和算法[23]。
1.4 分層技術
在混合存儲系統(tǒng)中,理想狀態(tài)是將需要頻繁訪問的數據保持在速度較快的SSD設備上。但由于數據的訪問頻度會隨著時間而發(fā)生變化,而且SSD的容量也要遠遠小于HDD,因此必須要解決數據的分配、緩存和遷移問題。其中數據分配主要解決的是將數據存儲到哪種設備上;數據緩存主要用來決定將哪些數據緩存在高性能存儲介質上;而數據遷移是交換不同存儲介質間的部分數據,以便更加有效地處理訪問請求。這3種技術相互關聯,以提高混合存儲系統(tǒng)的整體性能,延長SSD使用壽命等為目標。
I/O特征流的識別也是混合存儲中的關鍵技術之一,識別的準確性和效率也會直接影響到分配、緩存和遷移的效果。在該方向的研究中,HRO(Hot Random Off-loading)通過歷史IO活動,包括隨機性和熱點程度來進行區(qū)分[24];EDT(Extent Based Dynamic Tiering)不僅僅通過IO計數,并且將LBA在之前LBA的512KB之內的IO請求被認為是連續(xù)的訪問請求,在512KB之外的被認為是隨機訪問請求,減少了識別I/O特征所需要的空間開銷[4]。
不同數據處理的粒度對于混合存儲系統(tǒng)中數據分配、緩存和遷移的效果有直接影響,進而影響整個系統(tǒng)的性能。目前研究人員提出的各種SSD和HDD混合存儲系統(tǒng)中,數據的粒度是不同的,有的是以文件為粒度進行數據的分配、緩存和遷移[24];有的粒度是卷級[25];還有的粒度是extend級,即一個可以指定的大小,如卷的一部分,采用這種粒度的系統(tǒng)有EDT[24],HybridStore[25]。
分配、緩存和遷移過程可以依據事先確定的規(guī)則和策略執(zhí)行,也可以根據負載情況動態(tài)地進行。有些研究以性能為目標,其算法的選擇更傾向于負載均衡以及多設備的并發(fā)以提高吞吐量,降低延遲[22];有些系統(tǒng)除了性能外還關注能耗,如EDT在滿足性能要求的同時,還可以使動態(tài)能耗達到最小化[4]。
實現最優(yōu)化的存儲介質用量組合,在盡可能減小成本的同時達到系統(tǒng)的性能需求,也是混合存儲設計中需要考慮的問題。典型的研究如Florida International與IBM research合作的EDT系統(tǒng),可以根據系統(tǒng)的負載特性和要求達到的性能指標,推薦最小的成本的存儲設備組合[4]。HybridStore是另一個考慮最優(yōu)化配置組合的系統(tǒng),提出了一種容量計劃方法,使管理員在預算內得到大致的性能指標[5]。
混合存儲是指利用不同特性的非易失性存儲器件而組成的高效存儲系統(tǒng)。其目標是充分利用不同存儲介質的特性,既能支持存儲系統(tǒng)的容量可大幅擴展,又要在保持系統(tǒng)低成本的前提下,大幅提高存儲系統(tǒng)的性能。
目前混合存儲系統(tǒng)的研究已經得到了學術界和產業(yè)界的廣泛重視,相關研究在各個方面已經有了較好的進展。但另一方面,一些關鍵問題還未獲得突破,主要表現在:
1)在基于SSD和HDD的混合存儲系統(tǒng)中,寫入性能仍然較低,而且頻繁的寫入會影響到SSD的壽命并進而影響到存儲系統(tǒng)的可靠性;
2)基于NVRAM和HDD的混合存儲系統(tǒng)解決了系統(tǒng)的可靠性問題,但讀性能問題仍然未獲得解決;
3)混合存儲系統(tǒng)中需要解決的關鍵問題如高效的熱點數據及訪問模式識別、數據放置策略及遷移算法等關鍵技術問題目前還未有成熟、通用的方案。
NVRAM 在處理寫請求時具備良好的性能,可以用來為寫請求加速,但其價格較高,容量較小,不足以為讀請求加速;SSD 具備良好的隨機性,尤其是隨機讀性能,可以用來為隨機讀請求加速,但由于自身固有屬性的問題,不適合用來處理頻繁的寫入操作和大數據順序訪問操作;HDD的容量最大,每 GB 成本最低,但隨機讀寫性能較低,不適合處理隨機請求,但對順序請求有很好支持,可以用來處理大數據的順序訪問。
綜合采用NVRAM、SSD和HDD并進行一體化設計的混合存儲系統(tǒng),通過引入NVRAM,利用其高性能隨機寫入能力來減少寫SSD的操作,從而解決當前混合存儲系統(tǒng)所面臨的可靠性和寫入性能低下問題。
通過利用NVRAM優(yōu)異的隨機寫性能、SSD良好的隨機讀性能,以及HDD的大容量低成本優(yōu)勢,以解決現有混合存儲系統(tǒng)所存在的可靠性和性能等方面的問題,為設計高性能、高可靠、低成本的混合存儲系統(tǒng)提供了新的思路和方法:
1)基于NVRAM、SSD、HDD一體化設計混合存儲系統(tǒng),該方法能夠突破已有混合存儲系統(tǒng)在可靠性和性能方面的瓶頸,為高性能混合存儲系統(tǒng)的設計探索出一種新的架構。
2)根據NVRAM、SSD、HDD的存儲特性和數據I/O特征,研究設計新的混合存儲系統(tǒng)的拓撲結構,數據的分配、緩存和遷移算法,以盡可能地發(fā)揮不同存儲介質的不同優(yōu)勢,避開它們的不足,實現混合存儲系統(tǒng)的性能、價格、容量、可靠性等多指標的平衡。
3)為云存儲系統(tǒng)的自動分層存儲管理研究做鋪墊。
[1] L. A. Belady. A study of replacement algorithms for a virtual-storage computers. [J]IBM Systems Journal, 1966, Vol.5(2):78-101
[2] N. Megiddo and D. S. Modha. ARC: A Self-Tuning, Low Overhead Replacement Cache. In: [J]Proc 2nd USENIX Conference on File and Storage Technologies, 2003:115-130
[3] Feng Chen, David A. Koufaty and Xiaodong Zhang. Understanding Intrinsic Characteristics and System Implications of Flash Memory based Solid State Drives. In: [J]Proc 11th International Joint Conference on Measuement and Modeling of Computer Systems, 2009:181-192
[4] J. Guerra, H. Pucha, J. Glider, W. Belluomini and R. Rangaswami. Cost Effective Storage using Extent Based Dynamic Tiering. In: [J]Proc 9th USENIX Conference on File and Storage Technologies, 2011:20-33
[5] Y. Kim, A. Gupta, B. Urgaonkar, P. Berman and A. Sivasubramaniam. HybridStore: A Cost-Efficient, High-Performance Storage System Combining SSDs and HDDs. [J]In: IEEE 19th International Symposium on Modeling, Analysis & Simulation of Computer and Telecommunication Systems, 2011:227-236
[6] Taneja Group. The State of the Core - Engineering the Enterprise Storage Infrastructure with the IBM DS8000. [M]Technology In Depth, 2011
[7] Bob Laliberte. Automate and Optimize a Tiered Storage Environment –[M] FAST. ESG White Paper, December 2009
[8] Mark Peters. NetApp’s Solid State Hierarchy With a Focus on Flash Cache. [M]ESG White Paper, September 2009
[9] M. Baker, S. Asami, E. Deprit, J. Ousterhout and M. Seltzer. Non-Volatile Memory for Fast, Reliable File Systems. In: [J]Proc 15th International Conference on Architectural Support for Programming Languages and Operating Systems, 1992:10-22
[10] S. Kannan, A. Gavrilovska, K. Schwan, D. Milojicic and V. Talwar. Using Active NVRAM for I/O Staging. In: [J]Proc 2nd Petascale Data Analytics: Challenges and Opportunities, 2011:15-22
[11] S. Kang, S. Park, H. Jung, H. Shim and J. Cha. Performance Trade-Offs in Using NVRAM Write Buffer for Flash Memory-Based Storage Devices. [J]IEEE Transactions on Computers, 2009, 58(6):744-758
[12] N. Agrawal, V. Prabhakaran, T. Wobber, J. D. Davis, M. Manasse and R. Panigrahy. Design Tradeoffs for SSD performance. [J]In: Proc USENIX Annual Technical Conference, 2008:57-70
[13] C. Dirik and B. Jacob. The Performance of PC Solid-State Disks (SSDs) as a Function of Bandwidth, Concurrency, Device Architecture, and System Organization. [J]In: Proc 36th Annual International Symposium on Computer Architecture, 2009:279-289
[14] M. Wu and W. Zwaenepoel. eNVy: A Non-Volatile, Main Memory Storage System. [J]In: Proc 6th International Conference on Architectural Support for Programming Languages and Operating Systems, 1994:86-97[15] Li-Pin Chang. On Efficient Wear Leveling for Large-Scale Flash-Memory Storage Systems. [J] In: Proc ACM Symposium on Applied Computing, 2007:1126-1130
[16] Taeho Kgil, David Roberts and Trevor Mudge. Improving NAND Flash Based Disk Caches, [J]In: Proc 35th International Symposium on Computer Architecture, 2008:327-338
[17] Yang Liu, Jianzhong Huang, Changsheng Xie and Qiang Cao. RAF: A Random Access First Cache Management to Improve SSD-Based Disk Cache, [J]In: IEEE 15th International Conference on Networking, Architecture and Storage, 2010:492-500
[18] S. Hong and D. Shin. NAND Flash-based Disk Cache Using SLC/MLC Combined Flash Memory. [J]In: Proc International Workshop on Storage Network Architecture and Parallel I/Os, 2010:21-30
[19] E. V. Hensbergen and Ming Zhao. Dynamic Policy Disk Caching for Storage Networking. [M]Technical Report, RC24123, IBM Research, 2006.
[20] I. Koltsidas and S. D. Viglas. Flashing Up the Storage Layer. [J]In: Proc VLDB Endowment, 2008, 1(1):514-525
[21] John A. Garrison and A. L. Narasimha Reddy. Umbrella File system: Storage Management across Heterogeneous Devices. [M]ACM Transactions on Storage, 2009, 5(1):Article 3
[22] Xiaojian Wu and A. L. Narasimha Reddy, Exploiting concurrency to improve latency and throughput in a hybrid storage system, [J]In: Proc 18th International Symposium on Modeling, Analysis and Simulation of Computer and Telecommunication Systems, 2010:14-23
[23] G. Zhang, L. Chiu, C. Dickey, L. Liu, P. Muench, S. Seshadri. Automated Lookahead Data Migration in SSD-enabled Multi-tiered Storage Systems. In: Proc 26th Symposium on Mass Storage and Technologies, 2010:1-6
[24] Lin Lin, Yifeng Zhu, Jianhui Yue, Zhao Cai and Bruce Segee. Hot Random Off-loading: A Hybrid Storage System With Dynamic Data Migration. [J] In: Proc 19th International Symposium on Modeling, Analysis and Simulation of Computer and Telecommunication Systems, 2011: 318-325
[25] D. Teaff, D. Watson and B. Coyne. The Architecture of the High Performance Storage System(HPSS). [J]In: 21st CERN School of Computing, 1998:41-63
The Development and Prospect of Automated Tiered Storage
Fan Li1, Li Xiaoyong2
(1. Shanghai Storbridge Information Technology Co., Ltd. Shanghai 200233, China; 2. Shanghai Jiaotong University, Shanghai 200240, China)
This paper discusses development trend of automated tiered storage from view of NVRAM, SSD, tiered structure and tiered technology; then it points out that future automated tiered storage should be integration system designed with NVRAM,SSD and hard disk.
Mass Storage; Network Storage; Tiered Storage
TP393
A
1007-757X(2014)07-0040-03
2014.05.20)
范 里(1980-),男,上海圣橋信息科技有限公司,同濟大學博士研究生,研究方向:海量存儲與網絡存儲,上海 200233李小勇(1972-),男,上海交通大學,副教授,研究方向:海量存儲與存儲網絡技術,上海 200240