吳艷艷
摘要:該文通過探討采用業(yè)界領先的技術和合理的投資,規(guī)劃建一套我院要求的容災平臺,該文主要從計算資源、傳輸資源、存儲資源三個方面來討論數(shù)據(jù)容災技術。同時結合本院的實際情況提出了HIS系統(tǒng)數(shù)據(jù)容災的解決方案。該平臺具備良好的可擴展性和性能,滿足今后醫(yī)院4-5年的信息化發(fā)展要求。
關鍵詞:醫(yī)院信息系統(tǒng);存儲;容災作用
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)29-0109-02
1概述
我院在醫(yī)療信息化建設方面,一直走在行業(yè)的前沿,作為醫(yī)院的業(yè)務支撐——IT信息系統(tǒng)也日趨完善,包括HIS、LIS、PACS等業(yè)務。此次計劃進一步鞏固,建立一個高可用的、安全可靠的、面向服務的醫(yī)療信息系統(tǒng),更好地為病人服務。本文采用業(yè)界領先的技術和合理的投資,規(guī)劃建一套我院要求的容災平臺,該平臺具備良好的可擴展性和性能,滿足今后醫(yī)院4-5年的信息化發(fā)展要求。
該容災平臺能夠?qū)⒆钪饕臉I(yè)務系統(tǒng)實時納入處理,還可以支撐新的HIS、LIS、PACS等系統(tǒng),做到數(shù)據(jù)實時交換和共享、集中管理,統(tǒng)一調(diào)度,增強系統(tǒng)的安全性,實現(xiàn)按需分配IT資源的資源池能力,有效的控制IT信息化系統(tǒng)運行的風險,以及醫(yī)院運營的風險。真正意義上幫助我院解決:物理故障和邏輯故障。改善用戶的體驗,化繁為簡,化難為易。
2當前系統(tǒng)現(xiàn)狀、存在的問題分析和影響
目前醫(yī)院最核心、最重要的HIS系統(tǒng)運行在2臺IBMX3850的服務器和1臺IBMDS5020和IBMDS4700存儲上。
整個系統(tǒng)的架構如下:
3可能導致的風險
一旦遇到存儲物理故障、數(shù)據(jù)庫邏輯故障、甚至機房電力不可用時,極有可能導致全院的HIS系統(tǒng)中斷,導致數(shù)據(jù)丟失,醫(yī)生無法正常開出處方,患者無法拿到藥品,等等一系列風險。從而導致患者的投訴、醫(yī)患關系緊張,優(yōu)秀醫(yī)生的流失,甚至是醫(yī)療糾紛,給醫(yī)院帶來了極大的負面社會影響和降低了醫(yī)院的營業(yè)收益。
為此,醫(yī)院信息化系統(tǒng)已經(jīng)不再是傳統(tǒng)意義上的支撐部門,而是全院所有業(yè)務正常開展的一個重要的生產(chǎn)部門,其信息化勢必為病人提供更好、更快的服務,提高醫(yī)院在醫(yī)療服務市場上的競爭力。
我院信息化的基礎設施如存儲、服務器等都存在嚴重的單點隱患,隨著數(shù)據(jù)的不斷增多,應用系統(tǒng)的越來越復雜,在發(fā)生物理或者邏輯的故障后,傳統(tǒng)的補錄數(shù)據(jù)已經(jīng)無法滿足醫(yī)院的要求,為此有必要盡快采用市場成熟的技術,建立一套穩(wěn)定、高效、可靠的,適應于醫(yī)院的容災方案。
當前系統(tǒng)中已經(jīng)使用了一臺IBM DS5020存儲,建議容災方案中采用EMC的容災技術,可靠性會高于其他的公司。其次,降低方案的整體投資成本和實施的復雜性,最后EMC提供硬件3年原廠的維保,減輕醫(yī)院維護的工作量。
4我院系統(tǒng)信息化要求和IT故障分析總結
根據(jù)醫(yī)院信息化系統(tǒng)的真實要求是:系統(tǒng)停機時間越短越好,即RTO=0;數(shù)據(jù)丟失量為0,即RPO=0。物理上要求數(shù)據(jù)和應用部署在至少2個機房。
IT系統(tǒng)分析:
從系統(tǒng)安全層面來看,隨著技術的不斷發(fā)展,故障的種類變得越來越多,而方式變得越來越復雜,越來越難以預防和解決。最典型的是每一類設備的生命周期,每一類設備在其設計之初就定義了有限的使用生命周期,隨著設備投產(chǎn)時間的持續(xù),硬件故障的因素越來越高,給用戶帶來的潛在風險是越來越大。除了硬件故障外,還有一些軟性的故障,也越來越多,越來越頻繁,如應用程序故障、數(shù)據(jù)庫損壞、崩潰、文件誤刪除、病毒等等。這類故障發(fā)生的概率低于硬件,但對生產(chǎn)系統(tǒng)的危害更是大過硬件故障。
今天,隨著醫(yī)院業(yè)務的逐步開展和追求高質(zhì)量、高效率以及降低整體的擁有成本,越來越依賴于信息化的應用系統(tǒng)和底層IT設備了。一旦底層的IT設備發(fā)生重大的物理故障和軟件故障,如果缺乏有效的應急方案、應急手段和機制都將會造成一些醫(yī)療糾紛、賠償?shù)葥p失,甚至帶來極大的、負面的社會影響。
隨著技術的不斷發(fā)展物理故障的修復和冗余技術越來越成熟,物理設備的使用生命周期是可以預知的,在條件合適的時候提前更換和處理,從而避免了物理故障帶來的大影響,所以80%的物理故障可通過技術手段有效的規(guī)避或降低風險。
但是邏輯故障的發(fā)生時間、發(fā)生地點和發(fā)生方式,我們無法預知,在故障發(fā)生后,往往缺乏有效的應急方案和有效的應急措施、制度流程等。
即使已經(jīng)擁有較好的邏輯故障處理方案,但在故障發(fā)生時,也會給信息化管理者帶來極大的挑戰(zhàn),此挑戰(zhàn)和風險是:時間缺陷和數(shù)據(jù)丟失的風險
CDP與傳統(tǒng)存儲復制技術的優(yōu)勢:
復制顆粒度:CDP是基于每一個io進行復制,而傳統(tǒng)的復制是基于每一個LUN的復制;
支持回滾:CDP支持任意回滾,可以做到基于每一個IO回滾,而傳統(tǒng)的復制無法回滾,缺乏后悔藥技術。
多平臺和多數(shù)據(jù)庫支持:由于CDP是基于最小IO的顆粒度進行復制容災,所以支持所有的操作系統(tǒng)和所有數(shù)據(jù)庫的容災。
操作界面:CDP只需要點擊三次鼠標即可在容災端完成回滾操作,并且時間控制在10分鐘以內(nèi)。而傳統(tǒng)的復制操作繁瑣,費時至少需要30分鐘以上。
5容災方案
根據(jù)以上的分析,我們認為應該采用業(yè)界最成熟的、最主流的雙活技術方案,幫助醫(yī)院規(guī)劃一套全新的容災平臺,該平臺完全是一種開放式的,支持所有的操作系統(tǒng)比如windows、hnux、aix、hpux、vmware等,以及所有的數(shù)據(jù)庫的容災比如Ora-cle數(shù)據(jù)庫、SQLserver數(shù)據(jù)庫、Mysql數(shù)據(jù)庫等等,最終實現(xiàn)應用級的雙活。增強醫(yī)院的數(shù)據(jù)保護級別,幫助醫(yī)院建設一套數(shù)據(jù)零丟失,業(yè)務零停機的雙活系統(tǒng)。3種技術手段共同去降低信息化的風險,解決物理故障、邏輯故障、數(shù)據(jù)庫備份的問題,其技術如下:EMC Recoverpoint虛擬機版本的CDP任意回滾的技術解決物理故障和邏輯故障;Oracle Dataguard復制技術有效的解決數(shù)據(jù)庫的邏輯故障;
幫助我院用戶建設一套穩(wěn)定、可擴展、高效、敏捷、可控、可管、可預知的IT基礎系統(tǒng)。
6應用效果
同城2個機房同時雙活在線,對外提供業(yè)務服務,部署的應用完全一致、配置完全相同。真正意義上幫助醫(yī)院打造7*24小時不停機系統(tǒng),任何一個機房不可用時,無需人工干預,機房零切換,數(shù)據(jù)零丟失,應用零切換、零中斷。
服務器層:通過VMware服務器虛擬化軟件實現(xiàn)了服務器的虛擬化,通過虛擬化的HA功能,解決服務器不可用的物理故障;
存儲網(wǎng)絡層:2臺放置在生產(chǎn)機房,互為冗余的存儲鏈路,保證鏈路的高可用,結合多路徑軟件實現(xiàn)了10的負載均衡,鏈路故障切換;
邏輯故障:當生產(chǎn)中心Oracle數(shù)據(jù)庫故障無法正常啟動后,通過Recoverpoint CDP技術快速的從容災端恢復到生產(chǎn)端的一個正常時刻點,該時刻點確保數(shù)據(jù)庫正常啟動,從而幫助客戶縮短業(yè)務停機時間,避免了數(shù)據(jù)庫故障帶來的驚慌失措和損失?;蛘呦仍谌轂亩嘶貪L找到用戶需要回滾的時間點后再反向恢復到生產(chǎn)端。當生產(chǎn)中心Oracle數(shù)據(jù)庫的某條記錄被誤刪除后,可以在容災端服務器上查詢?nèi)轂牡臄?shù)據(jù)庫,找回刪除的記錄,再結合應用插回生產(chǎn)系統(tǒng)。
應用層1:結合Oracle RAC,SQLserver或VMware實現(xiàn)跨機房的應用雙活,2個數(shù)據(jù)中心同時提供負載均衡的應用讀寫操作;
穩(wěn)定性:物理上、邏輯上冗余,提供5個9的穩(wěn)定和高可用;
可擴展性:VNX5200可以擴容到125塊硬盤,滿足用戶容量和性能需求;
管理:一切可管。任何物理、邏輯層的設備都能夠有效的管理起來,在管理的范疇之內(nèi);
風險:一切可控。任何物理、邏輯層的故障發(fā)生后,均能通過該IT基礎架構解決,即所有可能發(fā)生的故障都會對業(yè)務的影響發(fā)生到最小甚至是無影響,都是有著成熟的、可靠的應急預案和操作手冊。整體成本:x86服務器虛擬化成本將會成倍的減少,不僅僅是建設成本,還有維護成本、管理成本,機房空間成本、能耗成本都會大幅度降低。