国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向科研領(lǐng)域的分布式對象存儲系統(tǒng)①

2020-07-25 11:35:40王錦濤張海明
關(guān)鍵詞:分片副本集群

王錦濤,張海明

1(中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)

2(中國科學(xué)院大學(xué),北京 100049)

1 概述

現(xiàn)代科學(xué)研究中,數(shù)據(jù)密集型的科學(xué)研究產(chǎn)生越來越多的數(shù)據(jù),科學(xué)大數(shù)據(jù)對數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)共享等提出了巨大的挑戰(zhàn)[1].在這種背景下,傳統(tǒng)的單節(jié)點(diǎn)數(shù)據(jù)存儲顯然無法滿足需求,其傳輸速度慢、存儲周期短、災(zāi)備容錯(cuò)率低、傳輸共享性差等問題制約著海量數(shù)據(jù)的高效存儲和應(yīng)用.對象存儲系統(tǒng)以其在可伸縮性、易用性、可靠性和低成本等方面的優(yōu)勢而成為應(yīng)對這些挑戰(zhàn)的很有前途的解決方案,因而得到日益廣泛的應(yīng)用[2].

在中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)地球大數(shù)據(jù)科學(xué)工程中,提出了實(shí)現(xiàn)200臺存儲服務(wù)器節(jié)點(diǎn)總計(jì)20 PB存儲容量的穩(wěn)定、高效、安全和高可用的存儲系統(tǒng)需求.傳統(tǒng)的數(shù)據(jù)存儲主要依托于分布式的文件系統(tǒng),例如Lusture[3]、GPFS[4]、PVFS[5]、Panasas[6]等,其遵循POSIX 存儲語義進(jìn)行存儲空間的組織和數(shù)據(jù)訪問,功能完備,系統(tǒng)設(shè)計(jì)復(fù)雜[7],樹狀的目錄便于文件的查看和管理,但是當(dāng)數(shù)據(jù)量不斷增大時(shí),龐大的樹狀目錄結(jié)構(gòu)會給系統(tǒng)帶來巨大的元數(shù)據(jù)管理的開銷,每次文件的讀取和移動操作都需要與元數(shù)據(jù)服務(wù)器進(jìn)行交互,導(dǎo)致訪問效率低下.同時(shí),元數(shù)據(jù)與文件內(nèi)容共存于同一存儲物理結(jié)構(gòu)內(nèi),導(dǎo)致數(shù)據(jù)形式的耦合性高,不利于存儲節(jié)點(diǎn)的擴(kuò)展.此外,文件系統(tǒng)的訪問形式和傳輸工具也比較單一,通過NFS或者CIFS網(wǎng)絡(luò)協(xié)議掛載,認(rèn)證方式單一,共享效率低下,無法滿足多種科研計(jì)算環(huán)境下的訪問和獲取需求.

對象存儲技術(shù)自2000年左右被提出來以后[8],隨著大數(shù)據(jù)行業(yè)的蓬勃發(fā)展,該技術(shù)被廣泛應(yīng)用到各種存儲需求領(lǐng)域,開源領(lǐng)域有Ceph[9]、Gluster[10]和OpenStack Swift[11]等及其成熟的對象存儲底層存儲項(xiàng)目,這些開源項(xiàng)目在近些年持續(xù)高漲的火熱,也印證了該技術(shù)的可行性和科學(xué)性,同時(shí)推動了對象存儲技術(shù)的廣泛應(yīng)用.在工業(yè)領(lǐng)域,云計(jì)算鼻祖Amazon在2006年提出S3[12]對象存儲平臺后,徹底改變了IT 存儲領(lǐng)域.但是在追求相對安全、擴(kuò)展性和靈活性的科研存儲領(lǐng)域,單一地采用商業(yè)公有云存儲或開源框架明顯不能滿足需求,公有云對象存儲服務(wù)存在安全性和擴(kuò)展性方面的劣勢,開源軟件則在功能服務(wù)性上過于基礎(chǔ)化和單一化,表1給出了兩者的優(yōu)缺點(diǎn)對比.

表1 商業(yè)對象存儲服務(wù)和開源對象存儲框架對比

在大型科研領(lǐng)域中,考慮到數(shù)據(jù)的絕對的安全性和私有性,項(xiàng)目組一般擁有一定規(guī)模的私有物理服務(wù)器集群,因此選擇共有云對象存儲無法成為有意義的方案.針對以上需求和現(xiàn)狀,i-Harbor 結(jié)合兩種存儲方案的優(yōu)勢,將靈活可擴(kuò)展的開源對象存儲框架作為底層存儲引擎,設(shè)計(jì)獨(dú)立的元數(shù)據(jù)管理模塊,提供功能完善、可控性強(qiáng)的對象存儲架構(gòu),同時(shí)設(shè)計(jì)獨(dú)立的業(yè)務(wù)管理模塊、數(shù)據(jù)傳輸功能模塊、權(quán)限認(rèn)證模塊等,提供符合公有云對象存儲業(yè)界標(biāo)準(zhǔn)的可定制化的服務(wù),增強(qiáng)功能可交互性,提升產(chǎn)品用戶體驗(yàn).

綜上,i-Harbor 擁有以幾方面的下技術(shù)優(yōu)勢:

(1)對象存儲的核心思路是將文件中的內(nèi)容和元數(shù)據(jù)進(jìn)行分離,分為控制節(jié)點(diǎn)+數(shù)據(jù)節(jié)點(diǎn).將數(shù)據(jù)內(nèi)容以對象的形式存儲到分布式的數(shù)據(jù)節(jié)點(diǎn)中,此外搭建若干控制節(jié)點(diǎn),通過軟件管理分布式的內(nèi)容數(shù)據(jù)集群,同時(shí),控制節(jié)點(diǎn)也存儲元數(shù)據(jù),元數(shù)據(jù)主要負(fù)責(zé)存儲對象的屬性(所屬數(shù)據(jù)節(jié)點(diǎn)、創(chuàng)建時(shí)間、長度大小等).元數(shù)據(jù)與對象數(shù)據(jù)存儲資源實(shí)現(xiàn)邏輯隔離,降低了存儲形式的耦合性,提高了物理存儲資源的利用率;

(2)對象存儲結(jié)合塊存儲和文件存儲各自的優(yōu)勢,同時(shí)克服共同的缺陷.塊存儲讀寫快,不利于共享,文件存儲讀寫慢,利于共享.因此將數(shù)據(jù)切分為二,元數(shù)據(jù)軟件控制節(jié)點(diǎn)避免了樹狀目錄在傳輸中的效率低的問題,對象形式的扁平化數(shù)據(jù)內(nèi)容存儲提高了數(shù)據(jù)的讀寫效率;

(3)科研數(shù)據(jù)不僅僅需要靜態(tài)穩(wěn)定的存儲,也需要動態(tài)的分享和下載,通過元數(shù)據(jù)服務(wù)器中對每個(gè)對象位置和目錄結(jié)構(gòu)的記錄,分散地到分布式中讀取數(shù)據(jù)內(nèi)容,直接將分片好的數(shù)據(jù)內(nèi)容以字節(jié)流的形式通過HTTP或FTP網(wǎng)絡(luò)傳輸協(xié)議等方式獲取,極大地提高了數(shù)據(jù)的共享效率和便捷性;

(4)系統(tǒng)采用硬盤陣列的raid多副本技術(shù)[13]、Ceph集群的糾刪碼[14]恢復(fù)技術(shù)和元數(shù)據(jù)數(shù)據(jù)庫MongoDB的副本集[15]策略,避免了集群單點(diǎn)故障,提高了數(shù)據(jù)存儲的安全性,在實(shí)現(xiàn)分布式集群可擴(kuò)展性的同時(shí),提高了集群的容災(zāi)性能.

2 系統(tǒng)設(shè)計(jì)

i-Harbor是一個(gè)對象存儲為核心功能的分布式存儲系統(tǒng),主要包含數(shù)據(jù)對象存儲集群Ceph、元數(shù)據(jù)存儲集群MongoDB、Web數(shù)據(jù)管理系統(tǒng)、FTP和HTTP傳輸接口、Zabbix[16]集群參數(shù)監(jiān)控系統(tǒng)等模塊,圖1為系統(tǒng)整體架構(gòu)設(shè)計(jì).

圖1 i--Harbor系統(tǒng)架構(gòu)圖

2.1 業(yè)務(wù)管理系統(tǒng)

該模塊主要負(fù)責(zé)為用戶提供管理數(shù)據(jù)的主要入口,包含用戶管理、數(shù)據(jù)上傳和下載、文件權(quán)限管理、數(shù)據(jù)共享等主要功能,通過高效率的MVC 開發(fā)框架Django 實(shí)現(xiàn).功能邏輯上,以bucket作為數(shù)據(jù)在物理資源的唯一劃分單位,同時(shí)也是數(shù)據(jù)上傳、下載、共享的邏輯單元,在每一個(gè)bucket 內(nèi)部,用戶可以創(chuàng)建不限量的文件夾和上傳數(shù)據(jù)文件,以此模擬出文件系統(tǒng)的樹狀目錄結(jié)構(gòu),方便用戶管理和共享.此外,該模塊實(shí)現(xiàn)了用戶對API和FTP數(shù)據(jù)接口的權(quán)限認(rèn)證和密鑰獲取,方便用戶在大規(guī)模批量地上傳和獲取數(shù)據(jù)場景下?lián)碛蟹€(wěn)定、高效的數(shù)據(jù)讀寫接口.

2.2 元數(shù)據(jù)管理

在i-Harbor系統(tǒng)中,元數(shù)據(jù)負(fù)責(zé)記錄用戶存儲的數(shù)據(jù)的具體信息,包含名稱、大小、創(chuàng)建時(shí)間、修改時(shí)間、所在目錄等信息.只有元數(shù)據(jù)分配更加平均,才能使得集群資源得到充分利用,元數(shù)據(jù)服務(wù)器之間的負(fù)載達(dá)到均衡,從而提高系統(tǒng)的性能[17].因此采用開源數(shù)據(jù)庫MongoDB,它是一個(gè)高性能、面向文檔式的分布式架構(gòu)數(shù)據(jù)庫,適用于大尺寸海量數(shù)據(jù)存儲場景,擁有高度擴(kuò)展和伸縮、低容災(zāi)性的特點(diǎn),非常適合該系統(tǒng).

在元數(shù)據(jù)管理模型中,每個(gè)存儲桶bucket作為一個(gè)collection,上述具體信息作為field,每一個(gè)document為用戶上傳的一個(gè)文件記錄,利用系統(tǒng)的ObjectId作為數(shù)據(jù)庫主鍵,也是該條數(shù)據(jù)在對象數(shù)據(jù)管理模型中的唯一標(biāo)識,通過它來尋找數(shù)據(jù)對象內(nèi)容的具體存儲地址.

i-Harbor 充分利用MongoDB 原生的分布式性能,搭建主+從+仲裁節(jié)點(diǎn)的副本集存儲集群,避免了存儲集群的單點(diǎn)故障,同時(shí),利用sharding 分片機(jī)制,根據(jù)field 特點(diǎn)選擇對id字段進(jìn)行Hash 分片,使所有document隨機(jī)、均勻地分布在所有的mongod 存儲節(jié)點(diǎn),實(shí)現(xiàn)了負(fù)載均衡,同時(shí)在增加節(jié)點(diǎn)時(shí)通過內(nèi)部的數(shù)據(jù)遷移機(jī)制,實(shí)現(xiàn)了高度擴(kuò)展的分布式特點(diǎn),大大提高了存儲效率.

2.3 對象數(shù)據(jù)管理

作為i-Harbor的存儲核心,對象數(shù)據(jù)存儲管理依賴于開源的分布式對象存儲系統(tǒng)Ceph.Ceph是在存儲領(lǐng)域應(yīng)用最廣泛的可持續(xù)化存儲系統(tǒng),主要包含對象網(wǎng)關(guān)RWG、塊存儲RBD和文件存儲CephFS 三大功能模塊,其底層依賴rados 對象作為數(shù)據(jù)的基本存儲單元,通過每一個(gè)數(shù)據(jù)文件的唯一標(biāo)識符uuid,經(jīng)過原生的crush數(shù)據(jù)尋址算法計(jì)算出所在的存儲池和存儲設(shè)備,充分利用了存儲節(jié)點(diǎn)的計(jì)算能力,實(shí)現(xiàn)了高度可擴(kuò)展的對象數(shù)據(jù)存儲策略.

i-Harbor 利用Ceph 中的核心庫librados,通過內(nèi)存的字節(jié)流讀寫,將數(shù)據(jù)寫入rados 對象且從中獲取數(shù)據(jù)實(shí)現(xiàn)文件的上傳和下載.在該模塊中,用戶通過業(yè)務(wù)管理模塊中的數(shù)據(jù)目錄和元數(shù)據(jù)記錄獲取數(shù)據(jù)的唯一標(biāo)識符uuid,通過Ceph的monitor發(fā)送給OSD,經(jīng)過crush的數(shù)據(jù)尋址算法找到對應(yīng)的rados 存儲位置,獲取對應(yīng)數(shù)據(jù)并經(jīng)過對應(yīng)接口返回給客戶端,以此來完成數(shù)據(jù)讀寫的主要IO.

在該模塊中,為了保證對象數(shù)據(jù)存儲的安全性,設(shè)計(jì)了糾刪碼的冗余技術(shù),在測試實(shí)驗(yàn)環(huán)境中采取16+4的糾刪碼策略,即在不超過五分之一的數(shù)據(jù)丟失損壞后可以利用其他完好的數(shù)據(jù)通過對應(yīng)的矩陣算法恢復(fù)出丟失數(shù)據(jù),這種策略在保證數(shù)據(jù)安全性的同時(shí)極大的提高了資源的利用率,同時(shí)配合實(shí)際物理環(huán)境中的raid多副本備份技術(shù),最大程度避免了單一故障,提高了集群的容災(zāi)性.

2.4 數(shù)據(jù)接口管理

在業(yè)務(wù)管理系統(tǒng)中,用戶可以通過Web界面在線上傳文件、刪除文件、下載文件以及共享文件,非常方便快捷,但是在大規(guī)模的數(shù)據(jù)上傳和下載場景下,這種模式顯然效率極低,在科研環(huán)境中大部分的數(shù)據(jù)讀寫都是大批量進(jìn)行的,為此設(shè)計(jì)了API和FTP 兩種數(shù)據(jù)接口形式.API為RESTFul 形式接口,遵循基于HTTP協(xié)議的接口標(biāo)準(zhǔn)形式,用戶通過Token、JWT或密鑰對等多種認(rèn)證形式連接到i-Harbor,進(jìn)行數(shù)據(jù)的上傳下載.FTP 工具是基于開源的Pyftplib庫實(shí)現(xiàn),用戶以每個(gè)存儲桶為操作單位,通過對應(yīng)的密碼連接到bucket文件目錄,從而實(shí)現(xiàn)客戶端與服務(wù)端文件同步顯示的功能,方便用戶上傳和下載.

2.5 其他模塊

為滿足整體系統(tǒng)健壯性,配合以上主要模塊穩(wěn)定運(yùn)行,設(shè)計(jì)以下其他模塊:

(1)Nginx 反向代理:將用戶通過HTTP的請求按照輪詢機(jī)制反向代理到集群中的django 業(yè)務(wù)管理系統(tǒng)節(jié)點(diǎn),實(shí)現(xiàn)訪問負(fù)載均衡;

(2)Zabbix集群監(jiān)控體系:監(jiān)控所有物理節(jié)點(diǎn)CPU、內(nèi)存運(yùn)行情況和網(wǎng)絡(luò)負(fù)載等參數(shù),以及MongoDB和Ceph集群各節(jié)點(diǎn)數(shù)據(jù)讀寫速率,保證系統(tǒng)平臺高可用性;

(3)數(shù)據(jù)歸檔備份:對于超過一定年限的數(shù)據(jù),定時(shí)備份歸檔到存儲成本更低的磁帶庫集群,保證物理資源中高速讀寫硬盤的有效利用.

3 關(guān)鍵技術(shù)

3.1 MongoDB 副本+分片集群

在2.2 元數(shù)據(jù)管理模塊中,利用MongoDB分布式數(shù)據(jù)庫作為元數(shù)據(jù)的存儲引擎,并依賴副本集合分片機(jī)制保證數(shù)據(jù)的安全性和均勻分布.在i-Harbor集群環(huán)境中,搭建了一個(gè)30個(gè)物理節(jié)點(diǎn)的分片鍵+副本集的MongoDB集群.本節(jié)將其約分為3個(gè)節(jié)點(diǎn),介紹其中關(guān)鍵技術(shù).

共3個(gè)節(jié)點(diǎn),分為3個(gè)shard,3個(gè)節(jié)點(diǎn)分別為mongo01、mongo02和mongo03,mongo01和mongo02節(jié)點(diǎn)上包含入口服務(wù)mongos,在mongo03節(jié)點(diǎn)上包含配置服務(wù)config.由于物理磁盤已做raid多副本備份,考慮到存儲效率,主需要一個(gè)MongoDB 備服務(wù)器,所以采用1 主+1 備+1 仲裁的集群節(jié)點(diǎn)分布策略(仲裁節(jié)點(diǎn)負(fù)責(zé)在主服務(wù)器宕機(jī)情況下通過心跳機(jī)制將備服務(wù)器升級為主服務(wù)器),表2給出了集群具體各個(gè)節(jié)點(diǎn)服務(wù)分布.

表2 MongoDB集群節(jié)點(diǎn)規(guī)劃表

表3給出了各服務(wù)端口分配情況.

表3 MongoDB集群各服務(wù)端口分配表

在3臺節(jié)點(diǎn)的配置文件conf 中配置好3臺服務(wù)器的地址、數(shù)據(jù)目錄等參數(shù)之后,登錄任意節(jié)點(diǎn),初始化副本集:

初始化成功之后,需要啟用分片機(jī)制.MongoDB的分片機(jī)制共有Hash和range 兩種,Hash方法為隨機(jī)分片,按照分片鍵的值在副本集中隨機(jī)分配,利于數(shù)據(jù)均勻分布,但是在按區(qū)間獲取數(shù)據(jù)時(shí)會訪問較多節(jié)點(diǎn);range方法根據(jù)分片鍵的值按照一定的范圍分布,在分區(qū)域獲取數(shù)據(jù)時(shí)可以較少地訪問不同節(jié)點(diǎn),但是無法做到數(shù)據(jù)足夠均衡.考慮到在i-Harbor中,海量數(shù)據(jù)主要以批量上傳為主,較少有大規(guī)模按范圍獲取,因此選擇將主鍵ObjectId作為分片鍵,Hash方法作為分片策略:

1.sh.addShard("localhost:27 001")

2.sh.enableSharding("i-harbor")

3.sh.shardCollection("i-harbor.bucket01",{ObjectId:"hashed" })

經(jīng)過上述的關(guān)鍵步驟配置,完成搭建一個(gè)副本集+分片鍵的MongoDB分布式高可用集群,為元數(shù)據(jù)存儲模塊提供穩(wěn)定的數(shù)據(jù)存儲引擎.

3.2 Rados數(shù)據(jù)對象讀寫

在2.3 對象數(shù)據(jù)管理模塊中,采用Ceph作為底層對象存儲引擎,此模塊的關(guān)鍵在于數(shù)據(jù)從數(shù)據(jù)接口如何寫入到Ceph 中的OSD (Object Storage Device),因此需要設(shè)計(jì)合理的rados 對象讀寫IO方法.在Ceph 中有原生的對象網(wǎng)關(guān)協(xié)議RGW 支持Amazon S3和Swift的對象存儲接口,但是其認(rèn)證方法和讀寫策略無法滿足i-Harbor 需求,因此選擇直接利用librados庫實(shí)現(xiàn)對rados的讀寫的中間件.

在業(yè)務(wù)管理模塊中,數(shù)據(jù)接口和Web系統(tǒng)由Python 開發(fā)實(shí)現(xiàn),但是在官方社區(qū)中對librados的Python版本支持較為滯后,無法與當(dāng)前版本兼容,因此該中間件基于官方社區(qū)中的go-ceph (對librados的go語言封裝),采用執(zhí)行效率和開發(fā)效率更高的go語言,實(shí)現(xiàn)對rados 讀寫方法的封裝,編譯為動態(tài)鏈接庫.so,為業(yè)務(wù)管理模塊提供數(shù)據(jù)讀寫方法,圖2給出了該中間件結(jié)構(gòu)設(shè)計(jì).

圖2 rados 讀寫中間件結(jié)構(gòu)圖

在該中間件中,對rados的操作主要為push、get、delete和list 四種方法,主要功能為創(chuàng)建并寫入對象、獲取對象內(nèi)容、刪除對象、獲取對象列表,方法介紹如下:

(1)Push:根據(jù)oid 寫入rados 對象,從offset位置起,寫入長度為len,數(shù)據(jù)內(nèi)容為data;

(2)Get:獲取oid的rados 對象內(nèi)容,起始位置為offset,獲取數(shù)據(jù)的長度為block;

(3)Delete:刪除oid的rados 對象;

(4)List:獲取指定pool 中的所有rados 對象oid列表.

表4給出了其所需參數(shù).

表4 Rados 讀寫參數(shù)表

經(jīng)過上述設(shè)計(jì),實(shí)現(xiàn)Ceph 底層對象到業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)讀寫的中間件.作為一個(gè)關(guān)鍵數(shù)據(jù)中轉(zhuǎn)站,其在i-Harbor 中承擔(dān)著非常重要的角色.

4 成果總結(jié)

4.1 系統(tǒng)環(huán)境

在地球科學(xué)大數(shù)據(jù)先導(dǎo)項(xiàng)目課題需求下,搭建一套完整的計(jì)算+存儲+網(wǎng)絡(luò)系統(tǒng)環(huán)境.共有200臺對象存儲服務(wù)器,每臺服務(wù)器100 TB 硬盤,部署Ceph分布式存儲系統(tǒng),承擔(dān)對象數(shù)據(jù)存儲任務(wù);20臺元數(shù)據(jù)服務(wù)器,每臺服務(wù)器10 TB 高速SSD 固態(tài)硬盤,部署分布式的副本集+分片制的MongoDB集群;10臺業(yè)務(wù)系統(tǒng)服務(wù)器,包含Web 服務(wù)、API接口服務(wù)、FTP 服務(wù)和nginx 反向代理服務(wù)器;3臺Zabbix監(jiān)控服務(wù).節(jié)點(diǎn)間通信全部使用萬兆以太網(wǎng)光纖.

4.2 系統(tǒng)成果

用戶通過Web界面、API或FTP接口,創(chuàng)建存儲桶,在存儲桶內(nèi)創(chuàng)建任意數(shù)量的文件夾,然后以存儲桶為單位進(jìn)行數(shù)據(jù)上傳,通過Web界面,用戶可以管理FTP和API數(shù)據(jù)接口認(rèn)證.圖3給出了系統(tǒng)Web界面效果,用戶通過Web系統(tǒng),創(chuàng)建和刪除存儲桶,實(shí)現(xiàn)文件夾和文件的創(chuàng)建、刪除和下載,同時(shí)管理FTP和API接口的認(rèn)證方式.

用戶通過RESTful API的調(diào)用接口,將數(shù)據(jù)通過成熟的HTTP協(xié)議進(jìn)行上傳下載,方便在各種在線數(shù)據(jù)處理系統(tǒng)中調(diào)用存儲桶中的數(shù)據(jù),圖4給出API 管理界面.

圖3 業(yè)務(wù)模塊Web界面功能圖

圖4 API數(shù)據(jù)接口功能圖

用戶在業(yè)務(wù)管理系統(tǒng)中,以存儲桶為單位,開啟FTP連接,管理FTP 讀寫權(quán)限賬戶,圖5給出Windows下FTP數(shù)據(jù)接口映射說明,用戶通過網(wǎng)絡(luò)驅(qū)動映射將某個(gè)存儲桶通過FTP協(xié)議映射到本地,實(shí)現(xiàn)本地瀏覽與線上系統(tǒng)同步,方便用戶進(jìn)行數(shù)據(jù)上傳下載.

圖5 FTP數(shù)據(jù)接口映射

5 結(jié)束語

針對在科研場景中海量級數(shù)據(jù)的高效率存儲和數(shù)據(jù)共享需求,本文設(shè)計(jì)并實(shí)現(xiàn)了i-Harbor分布式對象存儲系統(tǒng).該系統(tǒng)以開源框架Ceph和MongoDB為對象數(shù)據(jù)和元數(shù)據(jù)存儲引擎,將整體底層架構(gòu)合理解耦,通過分布式技術(shù)實(shí)現(xiàn)彈性可擴(kuò)展存儲集群,利用糾刪碼多分本等技術(shù)避免了單點(diǎn)故障,保證了系統(tǒng)容災(zāi)性.同時(shí),深度結(jié)合公有云對象存儲服務(wù),提供豐富的多種數(shù)據(jù)讀寫接口,方便用戶在各種場景完成數(shù)據(jù)的批量上傳下載,同時(shí)設(shè)計(jì)合理數(shù)據(jù)共享策略,方便用戶在復(fù)雜的科研場景之下更高效的利用數(shù)據(jù),提升科研工作效率.

下一步將繼續(xù)研究在科研場景中如何解決大數(shù)據(jù)量同時(shí)高并發(fā)上傳瓶頸,如何優(yōu)化海量小文件上傳這樣的IO密集型任務(wù)[18].同時(shí),為更廣泛利用i-Harbor存儲系統(tǒng)的高效服務(wù),需要調(diào)研在數(shù)據(jù)處理場景下對于存儲平臺的需求,實(shí)現(xiàn)對科研數(shù)據(jù)處理任務(wù)的支持.

猜你喜歡
分片副本集群
上下分片與詞的時(shí)空佈局
詞學(xué)(2022年1期)2022-10-27 08:06:12
分片光滑邊值問題的再生核方法
CDN存量MP4視頻播放優(yōu)化方法
海上小型無人機(jī)集群的反制裝備需求與應(yīng)對之策研究
面向流媒體基于蟻群的副本選擇算法①
基于模糊二分查找的幀分片算法設(shè)計(jì)與實(shí)現(xiàn)
一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:40
Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
勤快又呆萌的集群機(jī)器人
副本放置中的更新策略及算法*
巨鹿县| 腾冲县| 外汇| 沿河| 那曲县| 安溪县| 西畴县| 社旗县| 孟连| 涡阳县| 开远市| 大同县| 宜丰县| 长沙市| 台前县| 文登市| 双鸭山市| 安福县| 高淳县| 普兰店市| 浑源县| 年辖:市辖区| 金山区| 香港| 唐山市| 淮北市| 铁岭县| 沙田区| 上思县| 历史| 郯城县| 岐山县| 多伦县| 平湖市| 夏邑县| 类乌齐县| 巴彦淖尔市| 宜丰县| 额尔古纳市| 石狮市| 商都县|