国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向健康大數(shù)據(jù)快速讀寫的存儲系統(tǒng)設計

2018-10-24 03:06:44楊東日劉姝祎
計算機工程與設計 2018年10期
關鍵詞:存儲系統(tǒng)內存服務器

楊東日,陳 躍,劉姝祎

(1.工業(yè)和信息化部軟件與集成電路促進中心,北京 100013;2.西安交通大學 電信學院,陜西 西安 710000)

0 引 言

健康大數(shù)據(jù)來源多種多樣,涵蓋了人的全生命周期,既包括個人健康,又涉及醫(yī)藥服務、疾病防控、健康保障和食品安全、養(yǎng)生保健等多方面數(shù)據(jù)的匯聚和聚合[1,2],主要包括7個方面的來源,來源的定義請參見文獻[3]。

與其它的行業(yè)數(shù)據(jù)相比,健康大數(shù)據(jù)具有特殊性,一方面與人類的健康相關,另一方面更加復雜多樣,需要研究更多的未知事件[4]。具體來說,健康大數(shù)據(jù)具有以下特點:一是數(shù)據(jù)規(guī)模大,據(jù)統(tǒng)計,人類基因測序一次產(chǎn)生的數(shù)據(jù)量可高達100 G-600 G左右,單一公衛(wèi)系統(tǒng)中一年的數(shù)據(jù)規(guī)模約為10 T;二是數(shù)據(jù)結構復雜多樣;三是數(shù)據(jù)增長速度快,隨著科技的不斷發(fā)展,醫(yī)療信息被數(shù)字化,產(chǎn)生在線、實時數(shù)據(jù);四是數(shù)據(jù)價值高,有利于擴大醫(yī)療資源供給、降低醫(yī)療成本、提升醫(yī)療服務運行效率,關系到國家乃至全球疾病防控、新藥研發(fā)和頑疾攻克的能力[5,6]。健康大數(shù)據(jù)除了包含了大數(shù)據(jù)5個V的特點之外,還有多態(tài)性、時效性、不完整性、冗余性、隱私性等特點[7,8]。

1 健康大數(shù)據(jù)存儲面臨的問題

大數(shù)據(jù)與健康、醫(yī)療的結合給健康行為和醫(yī)療模式帶來了巨大的變革,是重要的戰(zhàn)略資源。隨著信息技術不斷發(fā)展,醫(yī)療信息越來越多被數(shù)字化,海量的健康醫(yī)療數(shù)據(jù)存儲面臨嚴峻考驗[7,8],主要包括以下兩個方面:一是健康醫(yī)療數(shù)據(jù)存儲類型復雜,大文件的數(shù)據(jù)存儲效率較高,而分散的小文件存儲效率則比較低[9];二是從現(xiàn)有存儲系統(tǒng)的技術架構來看,通常采用P2P無中心管理節(jié)點的存儲系統(tǒng),這樣會造成同步效率比較低[10,11],而有中心管理節(jié)點的存儲系統(tǒng),其管理節(jié)點服務器會影響整個系統(tǒng)的性能[12,13],很多問題挑戰(zhàn)了醫(yī)療健康大數(shù)據(jù)的采用和成功[13]。

針對以上的問題,本文通過分析海量數(shù)據(jù)快速讀寫特點,提出了海量數(shù)據(jù)的快速訪問機制,并進一步研究和設計出健康大數(shù)據(jù)快速讀寫的存儲系統(tǒng)。該系統(tǒng)通過提供專有應用程序接口(API)解決大規(guī)模小文件的高效存儲,提升小文件存儲訪問性能;同時該系統(tǒng)通過對于大文件提供高速并行訪問接口,提升大文件存儲性能。實驗結果表明,系統(tǒng)性能良好。

2 健康大數(shù)據(jù)的快速數(shù)據(jù)存儲技術

2.1 當前主流的云存儲技術

分布式文件系統(tǒng)處于云存儲的核心位置,主要是組織和管理存儲于數(shù)據(jù)中心的信息[15,16]。根據(jù)實現(xiàn)方式,分布式存儲技術可以分為4種:分布式塊存儲、分布式文件系統(tǒng)存儲、分布式對象存儲和分布式表存儲[17-19],見表1;根據(jù)其系統(tǒng)技術架構分為兩種:有管理節(jié)點的分布式文件系統(tǒng)架構和無管理節(jié)點的分布式文件系統(tǒng)架構[20,21],見表2。

表1 分布式存儲技術對比

表2 文件系統(tǒng)對比

2.2 主要的容錯技術

為了實現(xiàn)數(shù)據(jù)的高效、安全、可靠存儲,在健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)的設計過程中,除了考慮存儲技術和存儲架構之外,還需要考慮數(shù)據(jù)容錯技術[13,21]。當前有代表性的數(shù)據(jù)容錯技術主要有兩種:一是基于復制(replicaiton)的容錯技術,優(yōu)點是易于實現(xiàn)和部署[23,24];二是基于糾刪碼(erasure code)的容錯技術。

當前,在實際應用中,適用于健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)并不多,雖然有些系統(tǒng)開放了技術要點,但是并不是具體的產(chǎn)品和技術支持,因此需要設計出適用于健康大數(shù)據(jù)的存儲系統(tǒng)。

3 健康大數(shù)據(jù)快速讀寫的存儲系統(tǒng)設計

3.1 健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)結構設計

健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)應該具備便捷的存儲功能調用和管理監(jiān)控,具有較好的文件和數(shù)據(jù)讀寫性能,健康大數(shù)據(jù)的分布式文件系采用有管理節(jié)點的存儲模式[25],其系統(tǒng)架構包括:應用接口模塊、元數(shù)據(jù)管理模塊、塊數(shù)據(jù)存儲模塊和監(jiān)控配置中心模塊4個模塊,如圖1所示。

(1)應用接口模塊。主要包括客戶端、FTP/NFS/CIFS/HTTP等應用程序接口兩部分,其中客戶端是支持POSIX(portable operating system interface的縮寫),X表示其對Unix API的傳承,可以將存儲系統(tǒng)掛載成本地目錄或磁盤,用戶應用系統(tǒng)可以不修改即使用本存儲系統(tǒng);為了健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)應用簡單方便,設計了FTP/NFS/CIFS/HTTP等應用程序接口,有利于跨平臺、跨局域網(wǎng)系統(tǒng)的應用。

(2)元數(shù)據(jù)管理模塊。此模塊主要是完成存儲調度任務,通過一定的負載均衡策略將用戶的存儲訪問請求分配主元數(shù)據(jù)管理節(jié)點和備元數(shù)據(jù)管理節(jié)點進行響應。同時也保證健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)統(tǒng)一的命名空間,保持數(shù)據(jù)的同步性和安全性。

圖1 健康大數(shù)據(jù)的分布式文件系統(tǒng)架構

(3)塊數(shù)據(jù)存儲模塊。用戶數(shù)據(jù)存儲在塊數(shù)據(jù)節(jié)點的本地文件系統(tǒng)之上,用戶訪問的數(shù)據(jù)流也是直接在用戶服務器與塊數(shù)據(jù)服務器之間。

(4)監(jiān)控配置中心模塊。此模塊是對整個健康大數(shù)據(jù)分布式存儲系統(tǒng)的監(jiān)控,包括節(jié)點管理、告警配置、CPU以及內存監(jiān)控、設備狀態(tài),異常警告等,通過用戶管理功能實現(xiàn)對用戶空間和配額以及權限的管理。

以上4個模塊之間彼此耦合度比較低,具有一定的獨立性,可以單獨部署。如果添加或者刪除存儲節(jié)點,對健康大數(shù)據(jù)的分布式文件系統(tǒng)可以進行伸縮,系統(tǒng)存儲服務不會中斷。同時由于各個模塊是運行于操作系統(tǒng)之上的應用程序,因此可以部署在不同的服務器平臺上,減少了硬件的差異化,對于系統(tǒng)后續(xù)的擴容和維護帶來了便利。

3.2 健康大數(shù)據(jù)分布式文件系統(tǒng)讀寫策略

3.2.1 采取中心服務器模式

為提高數(shù)據(jù)的存儲和讀取效率,減少對管理節(jié)點的訪問,健康大數(shù)據(jù)分布式文件系統(tǒng)采取中心服務器模式,實現(xiàn)數(shù)據(jù)流和控制流分離。通過太網(wǎng)網(wǎng)絡,將應用服務器、元數(shù)據(jù)管理服務器以及各存儲節(jié)點連接起來。在實際過程中,應用服務器使用客戶端應用程序掛載到元數(shù)據(jù)服務器上,然后通過與云數(shù)據(jù)服務的交互,得到需要讀取或者存儲的信息,直接通過網(wǎng)絡完成與存儲服務器進行數(shù)據(jù)交互,服務流程如圖2所示。

在數(shù)據(jù)流與控制流分離的整個過程中,元數(shù)據(jù)服務器和存儲服務器是獨立的。當客戶端完成數(shù)據(jù)的存取操作時,其中包含控制信息的控制流與包含數(shù)據(jù)信息的數(shù)據(jù)流是分離的。通過這樣的操作,可以提高系統(tǒng)的吞吐率,最大限度的利用服務器帶寬。

圖2 數(shù)據(jù)流與控制流分離的讀寫流程

在健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)中,采用數(shù)據(jù)流與控制流分離技術,不僅可以將元數(shù)據(jù)服務器的負擔轉移到各個存儲服務器上,提升各個服務器的服務能力。而且還可以提高健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)的服務能力和可維護性。

3.2.2 實行元數(shù)據(jù)內存讀寫

在計算機系統(tǒng)中,內存資源是十分寶貴的。健康大數(shù)據(jù)要求海量存儲空間,因此系統(tǒng)的內存可能無法滿足此需要。為解決這個問題,在健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)中采用分級存儲的思想,即將元數(shù)據(jù)存儲在固態(tài)硬盤中,最大程度的平衡訪問效率和內存資源問題。在實際系統(tǒng)中,為了提高操作的效率和內存的利用率,采用相應的壓縮機制降低元數(shù)據(jù)的空間占用率。

3.2.3 采用預讀和寫緩存

為提高數(shù)據(jù)的訪問效率,減少文件讀寫流程,在健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)中,采用預讀和寫緩存技術。在實際存儲系統(tǒng)中,利用預讀和多線程并發(fā)處理的機制來減小串行模式對文件讀寫性能的影響。同時,為了把IO和傳輸并行起來[25],在健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)采用一種流式數(shù)據(jù)預讀方法,和原有的預讀策略相比,流式數(shù)據(jù)預讀方法適當?shù)恼{整了部分發(fā)送預讀請求和收取預讀數(shù)據(jù)的順序式數(shù)據(jù)。

3.2.4 提供專有API接口

健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)要考慮到的應用場景是存儲海量大數(shù)據(jù),因此系統(tǒng)對于大塊文件(MB或GB單位)的存儲上性能要比小文件(KB或B為單位)優(yōu)異。針對小文件的應用場景,采用小文件序列化的思想,建立打包文件,通過API的形式提供給上層應用使用。同時,健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)也應該包含開放API接口,供開發(fā)人員使用,并且也彌補POSIX接口本身機制對存儲系統(tǒng)效率的影響,專用API提供高度并行存儲訪問技術,最大限度提升訪客戶端存儲訪問性能。

4 測試與結果分析

由于健康大數(shù)據(jù)是新興產(chǎn)業(yè),目前業(yè)內還沒有一個標準的測試體系,本文的測試方法是參照基于網(wǎng)絡的虛擬化存儲系統(tǒng)的功能和性能測試技術和方法進行的。本文的測試環(huán)境是,2條元數(shù)據(jù)服務器(雙路八核CPU,32 GB DDR3內存,2 TB SATA系統(tǒng)盤)、8臺存儲服務器(雙路八核CPU,16 GB DDR3內存,500 GB系統(tǒng)盤,3 TB SATA數(shù)據(jù)盤×8)、1臺客服端(雙路八核CPU,16 GB DDR3內存,3 TB系統(tǒng)盤)。為了保證存儲內部網(wǎng)絡不成為系統(tǒng)的瓶頸,采用InfiniBand交換網(wǎng)絡,其單網(wǎng)口帶寬為40 Gbps。

在本次測試中,主要是大文件單流讀寫速度和小文件實時IO性能進行測試。其中,大文件單流讀寫主要測試系統(tǒng)數(shù)據(jù)流的存取效率,小文件實時IO主要測試存取效率。

在單客戶端情況下,健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)在處理250 GB大文件的測試結果見表3。

表3 單客戶端讀性能

從表3我們看出,健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)在處理大文件讀寫方面性能穩(wěn)定,寫入速度達到3 GB/s,讀入速度約2 GB/s,帶寬最大利用為60%。

通過表3、表4的實驗結果,我們可以看出,健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)在處理大文件讀寫方面性能較為優(yōu)異,對于小文件讀寫方面上的性能還需要進一步改進。因為,本系統(tǒng)主要的應用場景主要是處理海量的醫(yī)療數(shù)據(jù),基本達到了研究的預期目標。

表4 系統(tǒng)實時IO測試結果

5 結束語

本文在分析了近幾年存儲領域的主要技術研究成果后,深入討論了針對海量數(shù)據(jù)存儲的基礎架構和提升效率、簡化應用的主要方法,提出了面向健康大數(shù)據(jù)的快速訪問機制,研究和設計出了健康大數(shù)據(jù)快速讀寫存儲系統(tǒng)。在本文的基礎上,分析和挖掘健康大數(shù)據(jù)是下一步的研究重點。隨著信息技術的不斷發(fā)展,醫(yī)療信息被數(shù)字化的程度逐漸加重,健康大數(shù)據(jù)的分析利用已成為經(jīng)濟社會中相關領域的核心關鍵需求。

猜你喜歡
存儲系統(tǒng)內存服務器
分布式存儲系統(tǒng)在企業(yè)檔案管理中的應用
哈爾濱軸承(2020年2期)2020-11-06 09:22:36
通信控制服務器(CCS)維護終端的設計與實現(xiàn)
“春夏秋冬”的內存
當代陜西(2019年13期)2019-08-20 03:54:22
天河超算存儲系統(tǒng)在美創(chuàng)佳績
得形忘意的服務器標準
計算機網(wǎng)絡安全服務器入侵與防御
華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲系統(tǒng)
一種基于STM32的具有斷電保護機制的采集存儲系統(tǒng)設計
基于內存的地理信息訪問技術
上網(wǎng)本為什么只有1GB?
德钦县| 北票市| 东阿县| 自治县| 泾阳县| 鲁山县| 七台河市| 大宁县| 来凤县| 珲春市| 谢通门县| 景德镇市| 宣威市| 太白县| 彰武县| 顺昌县| 淮南市| 来安县| 松江区| 遵化市| 涞水县| 嘉善县| 隆尧县| 保亭| 台东县| 东乡| 稻城县| 扶绥县| 松原市| 彝良县| 通榆县| 辰溪县| 法库县| 平南县| 台安县| 绥棱县| 宁远县| 浦县| 南充市| 横峰县| 金华市|