董曉睿,于宗一,管曉飛,曲 強,辛海燕
(青島大學附屬醫(yī)院 山東 青島 266003)
大數(shù)據(jù)與醫(yī)療深度融合已成為國策,醫(yī)療大數(shù)據(jù)的發(fā)展改變了傳統(tǒng)的就診模式和醫(yī)院管理方式,為疾病早預防、早診斷和早治療提供了重要的手段,助力了整個醫(yī)療產業(yè)轉型升級。CT、核磁、PET-CT以及不計其數(shù)的小型設備每天產生的海量影像數(shù)據(jù)中蘊含著巨大價值,如何永久歸檔這些數(shù)據(jù)是醫(yī)療大數(shù)據(jù)發(fā)展中必須解決的問題。PACS是影像學與計算機科學的結合體,已成為影像科室的重要診療工具,隨著系統(tǒng)功能不斷演化拓寬,不少短板逐漸顯現(xiàn),其中存儲空間問題尤為嚴峻[1]。為高效、安全、長期的歸檔并管理數(shù)據(jù),可根據(jù)調用頻率由高到低將數(shù)據(jù)分為熱、溫和冷三類數(shù)據(jù),使用不同的存儲介質歸檔這三類數(shù)據(jù)以可發(fā)揮介質各自的優(yōu)勢,在增大存儲空間的同時降低運維成本。除硬件層面,采用相應的管理系統(tǒng)也是提升整體性能的關鍵,新型異構并行存儲軟件系統(tǒng)是一種將二級近線存儲和三級離線存儲進行統(tǒng)一管理的智能化平臺,可最大化發(fā)揮異構存儲的優(yōu)勢。
PACS系統(tǒng)是專為醫(yī)療影像的全數(shù)字獲取、傳輸、歸檔、分析和查閱而設計的綜合性系統(tǒng),已成為現(xiàn)代放射學實踐的基本技術和設施。在PACS數(shù)據(jù)中,就醫(yī)者信息和報告等占空間較小的文字類信息保存于關系型數(shù)據(jù)庫服務器,而體量較大的圖像數(shù)據(jù)則保存至專用的對象存儲系統(tǒng)[2]。近些年影像數(shù)據(jù)量激增并持續(xù)呈增長態(tài)勢,給存儲帶來巨大挑戰(zhàn),主流PACS存儲具有一定擴容性,可在有限范圍內實現(xiàn)無縫容量擴展,但卻無法實現(xiàn)從TB級到PB級的跨越。近3年青島大學附屬醫(yī)院每年產生近百TB的影像數(shù)據(jù),以2019年為例,全院影像數(shù)據(jù)日均生成200 GB左右,1年內的數(shù)據(jù)全部儲存至在線存儲,由于一級在線存儲采用固態(tài)硬盤,因此存儲設備運維成本較高。當PACS存儲系統(tǒng)檢測到在線數(shù)據(jù)容量超過預設閾值后,會自動將在線數(shù)據(jù)遷移到近線網絡附屬存儲(NAS)歸檔,NAS磁盤目前已存儲百TB級的歷史數(shù)據(jù)。在未來幾年內,即使采用高效的壓縮技術也無法完全解決數(shù)據(jù)量達到PB級后所帶來的空間壓力。隨著存儲技術的發(fā)展,PACS存儲的硬件架構和軟件系統(tǒng)不斷迭代,圖1對比了傳統(tǒng)PACS異構存儲硬件架構和新型異構存儲硬件結構的不同,并展示了異構并行存儲軟件系統(tǒng)與硬件架構的關系。
圖1 新舊PACS異構存儲硬件架構對比
使用不同介質存儲熱數(shù)據(jù)、溫數(shù)據(jù)和冷數(shù)據(jù)有利于兼顧性能與成本,可發(fā)揮各類介質的優(yōu)點以便建立高效的存儲模式。主流PACS存儲系統(tǒng)多采用“在線+離線”兩級或“在線+近線+離線”三級的存儲架構,第一級在線存儲保存使用頻率較高的幾個月內產生的在線熱數(shù)據(jù),第二級近線存儲保存調用頻率中等的溫數(shù)據(jù),第三級存儲歸檔使用頻率較低的離線冷數(shù)據(jù)。一級存儲通常使用性能較高的閃存或固態(tài)盤,而二級或三級存儲使用成本相對較低的SATA盤,根據(jù)業(yè)務需求合理配比各級存儲容量,可使整個存儲系統(tǒng)達到性能和成本的最優(yōu)平衡。除閃存、固態(tài)和磁盤之外,隨著技術迭代更替,性能更優(yōu)的介質不斷涌現(xiàn),新型異構三級存儲將充分利用新型存儲介質,以便提升整體硬件架構的性能與容量。
第一級在線存儲強調數(shù)據(jù)的高速讀取和寫入,新型異構存儲架構采用英特爾傲騰混合式固態(tài)盤,混合式固態(tài)盤將持久內存與QLC 3D NAND固態(tài)盤整合到一塊PCB板上。持久內存與傳統(tǒng)內存相比有兩點優(yōu)勢,一是提供更大的存儲空間,最高可支持512 GB;二是可在斷電期間保存數(shù)據(jù),非常適合作為固態(tài)盤的緩存,保證讀寫低延遲。板載持久內存為固態(tài)硬盤加速,理論上可大幅提升混合式固態(tài)盤的性能,同時持久內存分擔了部分讀寫任務,因此固態(tài)盤顆粒的壽命得以延長。許多數(shù)據(jù)中心已開始部署這款產品,中國聯(lián)通在“沃云”升級過程中,利用該存儲技術無縫快速提升了平臺的資源池,滿足了業(yè)務爆發(fā)式發(fā)展下對基礎存儲承載能力的新需求。
第二級近線存儲保存幾年以內的溫數(shù)據(jù),第三級存儲負責永久保存調取頻率較低的離線冷數(shù)據(jù)。受醫(yī)院規(guī)模和歷史數(shù)據(jù)量較小的影像,國內部分醫(yī)院的PACS存儲系統(tǒng)未設置第三級離線存儲,而將所有歷史數(shù)據(jù)保存至第二級近線NAS磁盤中,但NAS不能滿足永久保存歷史數(shù)據(jù)的需求。部分醫(yī)院為PACS配備了第三級離線磁帶庫,但卻采用了分離式的二級與三級存儲,無形中增加了各級存儲間交互的開銷。自1956年IBM發(fā)布首臺磁存儲以來,單存儲設備的容量已經增加了10億倍,被廣泛用于數(shù)據(jù)存儲,但壽命短、功耗大、易干擾等問題始終存在。光存儲誕生于1978年,具有壽命長、穩(wěn)定性高、信息密度高、功耗低等優(yōu)點,使之得到迅猛發(fā)展,但讀寫速度較慢且不可重復使用。新型異構存儲硬件架構采用SATA磁盤庫作為二級近線存儲介質,三級存儲則用藍光光盤代替,并采用統(tǒng)一的軟件平臺管理第二級與第三級存儲,使磁盤庫與藍光光盤庫有機融合。松下藍光光盤庫作為一種成熟的技術,2020年已經應用于中央電視臺音像資料館特藏系統(tǒng),該藍光光盤庫存儲介質主要由藍光光盤組成,搭配少量本地磁盤作為緩存,根據(jù)業(yè)務需求可調整光磁空間比例。藍光光盤機柜由三種模塊構成,分別是若干個盤匣裝載模塊、1~2個光驅模塊與1個機械臂模塊,三種模塊放置于同一個標準機柜中。設備可采用單機柜或多機柜的靈活部署方式安放于機房,藍光光盤庫除了壽命長、穩(wěn)定性高、信息密度高、功耗低等優(yōu)點,對機房溫度濕度等環(huán)境因素要求較低[3]。盤匣裝載模塊由76個藍光盤匣組成,一個盤匣是最小物理存儲單元,包含12張專業(yè)歸檔級藍光光盤,單盤容量300 GB,保存數(shù)據(jù)可達百年之久,并支持多種RAID模式,單機柜可容納最多6個盤匣裝載模塊,若采用RAID0模式,單機柜容量可達1.6 PB。光驅模塊由多個驅動器構成,可同時讀寫6張盤,最高讀速度為540 MB/s,寫速度為375 MB/s。機械臂在柜體中上下移動抓取光盤匣并運至光驅模塊[4],數(shù)據(jù)經多臺光驅導入或導出本地磁盤緩存,以實現(xiàn)高效自動轉存,圖2展示了由統(tǒng)一的異構并行存儲軟件系統(tǒng)管理的融合了二級和三級存儲的異構存儲硬件架構,管理軟件運行在單獨的冗余交換機中,業(yè)務交換機也具有冗余功能,負責利用業(yè)務網傳輸海量影像數(shù)據(jù),管理交換機通過管理網連接第二級、三級存儲和管理軟件服務器。
圖2 融合二級近線與三級離線存儲的硬件架構
異構并行存儲軟件系統(tǒng)發(fā)揮了藍光存儲和磁盤存儲的優(yōu)勢,可解決數(shù)據(jù)傳輸量大、冷數(shù)據(jù)永久備份、存儲擴展成本高等諸多問題,實現(xiàn)了醫(yī)療影像大數(shù)據(jù)的分級存儲和協(xié)同管理。
該軟件系統(tǒng)支持異構存儲架構與并行讀寫模式,可將多臺存儲機柜融合為統(tǒng)一的虛擬存儲池,在無需用戶干預的情況下,將數(shù)據(jù)分布式儲存至各機柜中。該管理軟件可根據(jù)業(yè)務實際需求進行配置與調參,通過存儲優(yōu)化算法,根據(jù)數(shù)據(jù)內容、日期、體積等元數(shù)據(jù)標簽將數(shù)據(jù)進行歸檔,方便其在磁盤庫與藍光光盤庫間遷移。借助光盤高密度、易搬移的特點,該系統(tǒng)將單個或多個光盤匣組成一個最小邏輯單元。通過對邏輯單元的跨機柜管理,將離散的存儲介質化為統(tǒng)一的虛擬存儲池,實現(xiàn)多機柜并行協(xié)作,以滿足非在線數(shù)據(jù)的讀寫帶寬需求。近些年青島大學附屬醫(yī)院每年產生的PACS數(shù)據(jù)經過RAID冗余處理需占用空間近百TB,若未來5年容量消耗以20%的速度遞增,僅需1臺42 U標準光盤庫即可滿足空間需求,單臺光盤庫雖減少了設備采購成本與機房空間,卻無法發(fā)揮管理軟件多機柜協(xié)同的優(yōu)勢,會導致傳輸帶寬瓶頸。因此,可配置3臺藍光光盤庫,光盤庫均采用半高機柜,每個機柜由2個盤匣裝載模塊、1個光驅模塊與1個機械臂模塊組成,整個系統(tǒng)最高可支持18個光驅同時讀寫,并發(fā)讀取速度可達1 620 MB/s,并發(fā)寫入速度可達1 125 MB/s。管理軟件利用通用唯一識別碼(UUID)標注最小邏輯單元[5],將UUID與所存內容的元數(shù)據(jù)關聯(lián),可實現(xiàn)跨院區(qū)與地區(qū)的數(shù)據(jù)資產全域檢索、索引同步等智能管控。
圖3 中綠色部分展示了管理軟件與各級存儲的交互方式,該管理軟件由6個功能模塊構成,分別是元數(shù)據(jù)管理、權限管理、數(shù)據(jù)應用、系統(tǒng)運維、數(shù)據(jù)接口與調度管理。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),為更好地理解數(shù)據(jù)并充分挖掘數(shù)據(jù),元數(shù)據(jù)管理模塊描述了近線與離線數(shù)據(jù)的存儲位置、數(shù)據(jù)類型、生命周期、空間大小等信息,為其他功能模塊提供數(shù)據(jù)基本信息,并實時向在線存儲系統(tǒng)同步數(shù)據(jù)索引庫[6]。由于備份數(shù)據(jù)規(guī)模龐大,利用訪問控制策略對讀寫操作進行排隊和限制十分必要,權限管理模塊為數(shù)據(jù)安全提供保障,將用戶和用戶組作為最小顆粒度進行管理,提供靜態(tài)權限管理和基于時間與事件的動態(tài)權限管理,靜態(tài)權限管理為文件或文件夾設定固定的讀寫權限,而動態(tài)權限管理可按照預先設定的觸發(fā)事件實時變更目標文件的權限,例如僅允許某段時間范圍內的文件共享權限,該模塊還可為用戶和組設定優(yōu)先級。數(shù)據(jù)應用模塊由Web端應用組成,用戶可通過Web客戶端查找數(shù)據(jù)、提取數(shù)據(jù)、了解資產概況等,若開通影像數(shù)據(jù)共享服務,則可實現(xiàn)膠片云端閱覽、避免數(shù)據(jù)孤島問題出現(xiàn)。系統(tǒng)運維模塊提供后臺管理工具,管理員可對存儲軟硬件狀態(tài)進行監(jiān)控與配置調整。數(shù)據(jù)接口模塊向第三方在線存儲提供檢索、讀取和寫入的標準接口,以兼容不同的在線存儲系統(tǒng)。調度管理模塊負責數(shù)據(jù)傳輸任務的調度工作,根據(jù)預先設定的優(yōu)先級和規(guī)則將傳輸任務合理排序。行業(yè)中以DICOM標準形式存儲數(shù)據(jù),數(shù)據(jù)在各級存儲間遷移量巨大,數(shù)據(jù)遷移是PACS存儲系統(tǒng)中最棘手的問題,傳統(tǒng)存儲系統(tǒng)中由于缺乏對多級存儲的統(tǒng)一管理[7-8],數(shù)據(jù)交換僅能發(fā)生在在線存儲與近線存儲或近線存儲與離線存儲之間,不能越級傳輸,該管理軟件通過對二級和三級存儲的統(tǒng)一管理,使一級在線存儲可直接與二級近線存儲或三級離線存儲進行交互,節(jié)省了傳輸帶寬并提高了讀寫效率。所有軟件功能模塊通過硬件控制接口操控底層硬件,硬件接口不僅避免了開發(fā)人員編寫底層硬件代碼,規(guī)范了硬件調用規(guī)則,還支持未來軟件模塊的開發(fā),拓展了管理軟件的擴展性。
圖3 異構并行存儲軟件系統(tǒng)
數(shù)據(jù)是數(shù)字時代的新石油,為保證PACS存儲系統(tǒng)長久、高效、安全地備份醫(yī)療影像數(shù)據(jù),采用三級異構存儲硬件架構和異構并行存儲軟件系統(tǒng)的綜合存儲管理平臺利用了多種存儲介質的優(yōu)點,提高了數(shù)據(jù)交互的效率,可有效管理PB級的存儲池,保證醫(yī)療影像數(shù)據(jù)的長久、安全、可靠。醫(yī)療影像大數(shù)據(jù)建設的持續(xù)發(fā)展可為醫(yī)生提供便利的歷史數(shù)據(jù)回溯工具,便于追溯患者久遠的影像資料、為醫(yī)療科研提供大數(shù)據(jù)依據(jù)、避免形成數(shù)據(jù)孤島,實現(xiàn)診斷、科研、數(shù)據(jù)共享等方面的共贏。