沈建苗
冷存儲(chǔ)由Facebook于2014年開(kāi)源,這種存儲(chǔ)服務(wù)器專為不常訪問(wèn)的數(shù)據(jù)而設(shè)計(jì)。它針對(duì)低成本硬件、高容量和高存儲(chǔ)密度,以及低功耗進(jìn)行了優(yōu)化。如今,亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云平臺(tái),以及微軟Azure都可以為客戶提供云存儲(chǔ)服務(wù),同時(shí)這三家公司也在云端冷存儲(chǔ)領(lǐng)域?qū)崿F(xiàn)了“三足鼎立”的局面。
冷存儲(chǔ)由Facebook于2014年開(kāi)源:這種存儲(chǔ)服務(wù)器專為不常訪問(wèn)的數(shù)據(jù)而設(shè)計(jì),比如舊的Facebook照片。它針對(duì)低成本硬件、高容量和高存儲(chǔ)密度,以及低功耗進(jìn)行了優(yōu)化。為了放置這些冷存儲(chǔ)服務(wù)器,F(xiàn)acebook特意建立了獨(dú)立的、簡(jiǎn)化的數(shù)據(jù)中心。
由于許多公司生成并需要保存的數(shù)據(jù)量急劇增長(zhǎng),各大云提供商推出了一種可以代替?zhèn)鹘y(tǒng)備份產(chǎn)品的云服務(wù)。作為云服務(wù)來(lái)提供的冷存儲(chǔ)正在改變企業(yè)組織存儲(chǔ)和提供大量信息的方式。但一大問(wèn)題是,冷存儲(chǔ)用于備份是否更劃算。
亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云平臺(tái),以及微軟Azure現(xiàn)在都提供云存儲(chǔ)服務(wù)。它們各自采用的方法各不相同,那么它們彼此相比又如何?
應(yīng)對(duì)數(shù)據(jù)洪水
幾乎所有調(diào)研公司都預(yù)測(cè),云服務(wù)市場(chǎng)會(huì)繼續(xù)增長(zhǎng),而且快速增長(zhǎng)。Gartner最近表示,云在今年的新IT支出中會(huì)占據(jù)大頭。今年對(duì)這個(gè)領(lǐng)域來(lái)說(shuō)將是關(guān)鍵的一年,因?yàn)樗接性崎_(kāi)始讓位于混合云,近一半的大企業(yè)會(huì)在2017年底之前部署混合云。那么,企業(yè)在生成多少數(shù)據(jù)呢?思科估計(jì),全球數(shù)據(jù)中心流量完全進(jìn)入了澤字節(jié)(ZB)時(shí)代,將從2014年的3.4 ZB增加到2019年的10.4 ZB。數(shù)據(jù)中心流量中迅速增長(zhǎng)的一部分就是云流量,到2019年將在預(yù)測(cè)的10.4 ZB中占有8.6 ZB。
由于谷歌和亞馬遜已經(jīng)在冷存儲(chǔ)市場(chǎng)中,所以微軟也決定加入游戲。去年4月,微軟宣布正式推出Cool Blob Storage,這是面向?qū)ο髷?shù)據(jù)的低成本存儲(chǔ)服務(wù)。
有什么用場(chǎng)?
微軟當(dāng)時(shí)宣布Cool Blob存儲(chǔ)服務(wù)時(shí),列出了幾種典型的使用場(chǎng)合,比如備份、媒體內(nèi)容、科學(xué)數(shù)據(jù)、合規(guī)和歸檔數(shù)據(jù)。實(shí)際上,任何很少訪問(wèn)的數(shù)據(jù)都很適合使用冷存儲(chǔ):法律數(shù)據(jù)、信息的第三個(gè)副本、因合規(guī)而需要保留較長(zhǎng)時(shí)間的數(shù)據(jù)和歸檔信息,這些都是典型的例子。那么,冷存儲(chǔ)與較傳統(tǒng)的存儲(chǔ)方案有何不同呢?
不妨先從定義開(kāi)始說(shuō)起,冷存儲(chǔ)的定義是,這是存儲(chǔ)非活躍數(shù)據(jù)的一種操作模式和存儲(chǔ)系統(tǒng)。部署冷存儲(chǔ)后,預(yù)計(jì)數(shù)據(jù)檢索時(shí)間會(huì)超出在線或生產(chǎn)應(yīng)用通常被認(rèn)為可接受的范圍。部署冷存儲(chǔ)是為了節(jié)省資金和運(yùn)營(yíng)成本。
實(shí)際上,不是所有的冷存儲(chǔ)架構(gòu)都是同樣設(shè)計(jì)的。牢記這一點(diǎn),不妨看看三大提供商的冷存儲(chǔ)方案。
谷歌Nearline:谷歌在2015年發(fā)布了Nearline歸檔存儲(chǔ)產(chǎn)品,很快就被認(rèn)為是市場(chǎng)上具有顛覆性的解決方案。為什么?因?yàn)樗苯映兄Z:檢索時(shí)間非常短(只有幾秒鐘)。與市場(chǎng)領(lǐng)導(dǎo)者AWS Glacier相比,這相當(dāng)快。谷歌聲稱,Nearline提供的可用性比公司的標(biāo)準(zhǔn)存儲(chǔ)產(chǎn)品低一點(diǎn),延遲高一點(diǎn),不過(guò)成本較低。Nearline“檢索首個(gè)字節(jié)的時(shí)間”在2秒到5秒。如果看一下其他解決方案,可以說(shuō)谷歌Nearline真正改變了游戲規(guī)則。不過(guò)它有幾個(gè)問(wèn)題。
一個(gè)問(wèn)題是,谷歌Nearline將數(shù)據(jù)檢索速度限制在每個(gè)存儲(chǔ)的TB為4MBps。存儲(chǔ)使用量增加后,這種吞吐量可線性擴(kuò)展。所以,如果你發(fā)覺(jué)需要下載大量數(shù)據(jù),可能需要等一陣子。不過(guò),如果遇到這種情形:需要比默認(rèn)的4MBps更快地從谷歌云存儲(chǔ)Nearline檢索內(nèi)容。一項(xiàng)名為On-Demand I/O的功能讓你可以提高吞吐量。有兩點(diǎn)需要牢記:
1. 默認(rèn)情況下,On-Demand I/O已被關(guān)閉。
2. On-Demand I/O僅適用于Nearline存儲(chǔ),對(duì)標(biāo)準(zhǔn)存儲(chǔ)或低可用持久存儲(chǔ)I/O(Durable Reduced Availability Storage I/O)沒(méi)有影響。
總的來(lái)說(shuō),谷歌承諾提供一種低成本、高度持久、高可用性的存儲(chǔ)服務(wù),用于數(shù)據(jù)歸檔、在線備份和災(zāi)難恢復(fù)。數(shù)據(jù)立即可用,不是等待幾小時(shí)或數(shù)天。由于3秒的平均響應(yīng)時(shí)間和每月每GB僅1美分的價(jià)格,Nearline為你提供了出色的性能和低成本。此外,它讓你可以存儲(chǔ)“無(wú)限量”數(shù)據(jù),并通過(guò)谷歌云平臺(tái)Storage API獲得快速訪問(wèn),數(shù)據(jù)檢索的響應(yīng)時(shí)間大約是3秒。
最后,很酷的地方是它所提供的功能。除了On-Demand I/O外,還能獲得傳輸服務(wù)。這基本上讓你可以從亞馬遜S3、HTTP/HTTPS網(wǎng)站和本地環(huán)境之類的地方導(dǎo)入數(shù)據(jù)。這個(gè)過(guò)程可自動(dòng)化,實(shí)現(xiàn)全面的生命周期管理。
AWS Glacier:作為最早的領(lǐng)先冷存儲(chǔ)解決方案之一,Glacier是一種安全、成本極低的存儲(chǔ)服務(wù),用于數(shù)據(jù)歸檔和在線備份??蛻艨梢源鎯?chǔ)大量或少量的數(shù)據(jù)。據(jù)亞馬遜聲稱,起價(jià)低至每月每GB只要0.01美元,與本地解決方案相比大大節(jié)省了成本。為了保持低成本,Glacier針對(duì)不常訪問(wèn)的數(shù)據(jù)進(jìn)行了優(yōu)化,幾小時(shí)的檢索時(shí)間對(duì)這類數(shù)據(jù)而言是適合的。同樣是檢索和提供1TB的數(shù)據(jù),使用Glacier與使用Nearline的體驗(yàn)會(huì)不一樣。Glacier在大約3到5小時(shí)內(nèi)提供該存儲(chǔ)對(duì)象。相比之下,下載4小時(shí)后,谷歌Nearline客戶下載1TB數(shù)據(jù)的任務(wù)才完成5%,大約需要69個(gè)小時(shí)才能全部完成。
在Glacier環(huán)境中,數(shù)據(jù)存儲(chǔ)在“歸檔”中。歸檔可以是任何數(shù)據(jù),比如照片、視頻或文檔。可以將某個(gè)文件作為歸檔文件來(lái)上傳,也可以將多個(gè)文件聚合成一個(gè)TAR或ZIP文件,然后作為一個(gè)歸檔文件來(lái)上傳。
一個(gè)歸檔文件可能有40TB這么大??梢栽趤嗰R遜Glacier中存儲(chǔ)無(wú)限數(shù)量的歸檔文件和數(shù)據(jù)。每個(gè)歸檔文件在創(chuàng)建時(shí)被分配一個(gè)獨(dú)特的歸檔ID,歸檔的內(nèi)容是不可變的,這意味著歸檔文件創(chuàng)建后就無(wú)法更新。
亞馬遜Glacier使用“保管庫(kù)”(Vault)作為存儲(chǔ)歸檔的容器??梢栽贏WS管理控制臺(tái)中查看保管庫(kù)列表,使用AWS SDK對(duì)保管庫(kù)執(zhí)行各種操作,比如創(chuàng)建保管庫(kù)、刪除保管庫(kù)、鎖住保管庫(kù)、列出保管庫(kù)元數(shù)據(jù)、檢索保管庫(kù)清單、標(biāo)記保管庫(kù)以便過(guò)濾,以及配置保管庫(kù)通知。此外,還可以為每個(gè)保管庫(kù)設(shè)置訪問(wèn)策略,允許或禁止用戶執(zhí)行特定活動(dòng)。在一個(gè)AWS賬戶下,最多可以有1000個(gè)保管庫(kù)。
一旦你的數(shù)據(jù)進(jìn)入保管庫(kù),管理員就有機(jī)會(huì)使用一些細(xì)粒度的控制功能,包括清點(diǎn)庫(kù)存、訪問(wèn)控制、訪問(wèn)策略、保險(xiǎn)庫(kù)鎖住(比如一次寫(xiě)入多次讀取控制)、審核記錄、集成的生命周期管理、高級(jí)和低級(jí)的AWS API集成、數(shù)據(jù)保護(hù)和數(shù)據(jù)可靠性。
微軟Cool Blob Storage:去年4月推出的Cold Blob存儲(chǔ)服務(wù)是微軟追趕領(lǐng)頭羊的舉措。
Azure冷存儲(chǔ)層經(jīng)過(guò)了優(yōu)化,用于存儲(chǔ)不常訪問(wèn)、長(zhǎng)期存儲(chǔ)的數(shù)據(jù)。Cool Blob Storage每月每GB的成本從0.01美元到0.048美元不等,這取決于地理區(qū)域和存儲(chǔ)的數(shù)據(jù)總量。“熱”Blob存儲(chǔ)層(用于存儲(chǔ)頻繁訪問(wèn)的數(shù)據(jù))的同類價(jià)位是每GB 0.0223美元到0.061美元。在一些情況下,將部分?jǐn)?shù)據(jù)存儲(chǔ)在冷存儲(chǔ)層可節(jié)省50%以上的成本。
微軟強(qiáng)調(diào),你可以基于對(duì)象數(shù)據(jù)的訪問(wèn)模式,選擇熱訪問(wèn)層或冷訪問(wèn)層來(lái)存儲(chǔ)對(duì)象數(shù)據(jù)。要關(guān)注的一些功能:API集成(但僅與其他現(xiàn)有的Blob存儲(chǔ)服務(wù)集成)、安全、可擴(kuò)展性、多地理區(qū)域分布和99%的可用性(熱存儲(chǔ)層提供99.9%)。
面對(duì)挑戰(zhàn)
Nearline、Cool Blob Storage和Glacier功能強(qiáng)大、價(jià)位合理,但端到端集成和管理仍是個(gè)挑戰(zhàn)。備份和存儲(chǔ)方面的管理功能至關(guān)重要。
比如說(shuō),AWS Glacier讓客戶可以設(shè)置策略,但只允許用戶每天檢索一定數(shù)量的數(shù)據(jù)。此外,用戶還可以設(shè)置策略,只在免費(fèi)套餐的范圍內(nèi)檢索數(shù)據(jù)。相比谷歌Nearline,Glacier似乎缺少同樣的細(xì)粒度。至于微軟,只要你的數(shù)據(jù)一開(kāi)始就存儲(chǔ)在微軟云中,Cool Blob Storage的表現(xiàn)就很棒。
這個(gè)領(lǐng)域沒(méi)有絕對(duì)的贏家。這取決于冷存儲(chǔ)特定的使用場(chǎng)合。你在構(gòu)建自己的冷存儲(chǔ)架構(gòu)時(shí),要確?;谧罴鸭蓪?shí)踐來(lái)搭建環(huán)境。這意味著你要了解存儲(chǔ)何種類型的數(shù)據(jù)、保留策略、定價(jià)以及恢復(fù)期間需要多快獲得信息。