張瓊瑤
摘要:高可用性建設(shè)對(duì)醫(yī)院信息系統(tǒng)的重要性不言而喻。各個(gè)業(yè)務(wù)系統(tǒng)對(duì)高可用性的需求各不相同,甚至同一業(yè)務(wù)系統(tǒng)在生命周期的不同時(shí)期需求也各不相同。該文總結(jié)分析了我院十多年來信息系統(tǒng)建設(shè)的不同時(shí)期高可用性建設(shè)方案及實(shí)施經(jīng)驗(yàn),說明只要抓住了“不停、不丟、可恢復(fù)”這個(gè)關(guān)鍵目標(biāo),就能隨著技術(shù)和應(yīng)用環(huán)境的不斷發(fā)展,選擇最合適的建設(shè)方案,建設(shè)好具有高可用性的醫(yī)院信息系統(tǒng),為其他醫(yī)療機(jī)構(gòu)的建設(shè)提供借鑒參考。
關(guān)鍵詞:醫(yī)院信息系統(tǒng);高可用;集群;虛擬化;云計(jì)算
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)13-0048-03
1概述
福建省立醫(yī)院是省衛(wèi)計(jì)委直屬單位、非營(yíng)利性三級(jí)甲等綜合醫(yī)院。創(chuàng)建于1937年,是福建省最早創(chuàng)辦的中國(guó)人管理的公立醫(yī)院。現(xiàn)如今院本部年門診量達(dá)到200多萬人次,住院量達(dá)到8萬多人次,年急診量達(dá)到25萬人次。醫(yī)院的信息化建設(shè)伴隨及促進(jìn)醫(yī)院的發(fā)展,目前已建成HIS、PACS、EMR、CIS、集成平臺(tái)、CDR、掌上醫(yī)院……等系統(tǒng),基本實(shí)現(xiàn)以電子病歷為中心的醫(yī)院信息化建設(shè)。本文回顧這10多年來我院在信息系統(tǒng)可用性建設(shè)方面的探索和實(shí)踐歷程,總結(jié)相關(guān)的經(jīng)驗(yàn)體會(huì),希望為其他醫(yī)院的同行提供借鑒及幫助。
高可用性建設(shè)對(duì)醫(yī)院信息系統(tǒng)的重要性不言而喻。各個(gè)業(yè)務(wù)系統(tǒng)對(duì)高可用性的需求各不相同,甚至同一業(yè)務(wù)系統(tǒng)在生命周期的不同時(shí)期需求也各不相同??偨Y(jié)這么多年高可用性建設(shè)的經(jīng)驗(yàn),高可用性建設(shè)就是要做到“不停、不丟、可恢復(fù)”?!翱苫謴?fù)”就是要確保無論發(fā)生什么情況,要做到業(yè)務(wù)系統(tǒng)在容忍的時(shí)限內(nèi)可恢復(fù)運(yùn)行,這是高可用性建設(shè)的底限和基礎(chǔ);“不丟”就是說要通過各種技術(shù)手段保證業(yè)務(wù)數(shù)據(jù)不丟失或者丟失程度控制在業(yè)務(wù)可承受的范圍內(nèi);“不停”是指通過技術(shù)手段確保業(yè)務(wù)系統(tǒng)不停機(jī)(中斷)或者使得業(yè)務(wù)應(yīng)用操作人員察覺不到中斷,業(yè)務(wù)操作不受影響。
下面將介紹我院在不同發(fā)展階段,對(duì)高可用性建設(shè)進(jìn)行不同考量和取舍所進(jìn)行的探索和實(shí)踐經(jīng)驗(yàn)。
2高可用系統(tǒng)建設(shè)方案及實(shí)施情況
2.1單中心階段
2000年,我院只有一個(gè)中心機(jī)房。醫(yī)院信息系統(tǒng)是以HIS為主的收費(fèi)系統(tǒng),醫(yī)院對(duì)信息系統(tǒng)的依賴程度還不高,信息化處于發(fā)展初期階段。從“不停、不丟、可恢復(fù)”角度來分析當(dāng)時(shí)的情況如下:“不?!毙枨螅簩?duì)HIS系統(tǒng)有不停機(jī)需求,但認(rèn)識(shí)主要局限在服務(wù)器(系統(tǒng)或硬件)故障對(duì)業(yè)務(wù)所造成的影響上?!安粊G”需求:需求不迫切,還沒充分認(rèn)識(shí)到其重要性?!翱苫謴?fù)”需求:發(fā)生在兄弟醫(yī)院的案例,使得大家深刻認(rèn)識(shí)到備份的重要性,建立了集中備份系統(tǒng)。此時(shí)醫(yī)院信息系統(tǒng)的拓?fù)淙鐖D1所示。
如圖1,以HIS為代表的核心業(yè)務(wù)通過共享磁盤陣列建立了雙機(jī)集群系統(tǒng),以預(yù)防服務(wù)器故障造成業(yè)務(wù)中斷;建立了集中備份系統(tǒng),通過集中策略將各個(gè)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)備份到磁帶庫等備份設(shè)備,確保必要時(shí)能夠通過備份恢復(fù)使得業(yè)務(wù)系統(tǒng)恢復(fù)運(yùn)行。
2.2雙中心階段
2007年,我院信息系統(tǒng)建設(shè)已經(jīng)有了長(zhǎng)足進(jìn)步,已經(jīng)以HIS為核心建立起了LIS、RIS、EMR、超聲、病理、胃鏡、麻醉、體檢、合理用藥等系統(tǒng)。隨著醫(yī)院新病房大樓的啟用,我院為信息中心配備了一個(gè)新機(jī)房,為雙中心建設(shè)提供了必要條件。當(dāng)時(shí)的情況分析如下:“不?!毙枨螅盒畔⒒牟粩嗌钊胧沟冕t(yī)院深刻認(rèn)識(shí)到了以HIS為代表的核心業(yè)務(wù)“不?!钡闹匾裕⑶抑饾u認(rèn)識(shí)到不僅服務(wù)器,網(wǎng)絡(luò)、存儲(chǔ)以及機(jī)房環(huán)境等也是“不停”的重要影響因素。“不丟”需求。隨著對(duì)信息系統(tǒng)依賴的增強(qiáng),醫(yī)院已經(jīng)意識(shí)到“不丟”的重要性,開始探討如何才能做到“不丟”?!翱苫謴?fù)”需求:現(xiàn)實(shí)發(fā)生的“血的教訓(xùn)”使得醫(yī)院認(rèn)識(shí)到“可恢復(fù)”不能僅停留在備份上,日常的演練以及一個(gè)可恢復(fù)的環(huán)境是同等的重要。
經(jīng)過信息中心詳細(xì)的考察和論證,選擇了基于“卷鏡像”的園區(qū)集群的架構(gòu)來構(gòu)建醫(yī)院的信息系統(tǒng)。此時(shí)醫(yī)院信息系統(tǒng)的拓?fù)浼軜?gòu)演化成如圖2所示的架構(gòu)。
如圖2所示,醫(yī)院主要核心系統(tǒng)基于院內(nèi)的兩個(gè)中心機(jī)房,在每個(gè)機(jī)房分別部署網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)陣列,通過存儲(chǔ)鏡像軟件+集群軟件實(shí)現(xiàn)園區(qū)集群。經(jīng)過近十年的系統(tǒng)運(yùn)行,這種園區(qū)集群架構(gòu)歷經(jīng)考驗(yàn),成功保證我院實(shí)現(xiàn)信息系統(tǒng)“不?!钡哪繕?biāo)。
2.3虛擬化階段
從2010年開始我院通過近一年的測(cè)試和試用,2011年醫(yī)院決定在生產(chǎn)系統(tǒng)中引入虛擬化。經(jīng)過一年多的生產(chǎn)實(shí)踐,醫(yī)院發(fā)現(xiàn)通過虛擬化,將原來單機(jī)運(yùn)行的業(yè)務(wù)服務(wù)器虛擬化后,雖然通過虛擬服務(wù)器的集群功能可以實(shí)現(xiàn)物理服務(wù)器故障時(shí)將虛擬服務(wù)器自動(dòng)遷移到其他正常的服務(wù)器上繼續(xù)運(yùn)行,提高了業(yè)務(wù)系統(tǒng)的高可用性,但是虛擬服務(wù)器所依賴的存儲(chǔ)是單點(diǎn)故障,一旦存儲(chǔ)發(fā)生故障,依然會(huì)造成業(yè)務(wù)中斷,且通過虛擬化后會(huì)同時(shí)影響多個(gè)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,客觀上放大了故障的影響范圍。2012年系統(tǒng)所面臨的情況分析如下:
1)“不?!毙枨螅悍?wù)器經(jīng)虛擬化形成集群,原單機(jī)運(yùn)行的服務(wù)器遷移到虛擬集群后,利用集群自動(dòng)遷移的功能,可以提高原單機(jī)服務(wù)器的高可用性。但虛擬集群所依賴的存儲(chǔ)仍然是單點(diǎn)故障點(diǎn),存儲(chǔ)故障將嚴(yán)重影響醫(yī)院業(yè)務(wù)的正常運(yùn)行。2007年醫(yī)院上線的PACS系統(tǒng)影像文件已超過100TB,且其存儲(chǔ)設(shè)備已經(jīng)到了更換生命周期。影像存儲(chǔ)設(shè)備的更換將面臨海量文件遷移的任務(wù),如何確保在PACS系統(tǒng)運(yùn)行不受影響的情況下完成新舊設(shè)備的更換成為保障醫(yī)院“不?!彼杞鉀Q的新問題。
2)“不丟”需求:園區(qū)集群的實(shí)踐證明了通過卷鏡像功能,可以較好地降低存儲(chǔ)陣列故障所造成的數(shù)據(jù)丟失的風(fēng)險(xiǎn)。醫(yī)院需要在虛擬集群中采用類似技術(shù)滿足虛擬服務(wù)器“不丟”需求。
3)“可恢復(fù)”需求:一方面虛擬化環(huán)境對(duì)傳統(tǒng)的備份方案提出了新的挑戰(zhàn),傳統(tǒng)的物理服務(wù)器的備份方案無法滿足虛擬服務(wù)器恢復(fù)的需求,需要采用全新的虛擬化備份方案和技術(shù)。另一方面,虛擬化環(huán)境完美解決了醫(yī)院對(duì)備份恢復(fù)環(huán)境的需求以及對(duì)恢復(fù)演練環(huán)境的需求。
改造完成后系統(tǒng)的拓?fù)淙鐖D3所示。
如圖3所示,在二個(gè)中心機(jī)房分別部署存儲(chǔ)虛擬化設(shè)備,存儲(chǔ)陣列上的空間通過存儲(chǔ)虛擬化設(shè)備鏡像后再分配給虛擬服務(wù)器使用。這樣確保虛擬服務(wù)器寫入的數(shù)據(jù)同時(shí)存儲(chǔ)到兩個(gè)機(jī)房的存儲(chǔ)陣列中,任一存儲(chǔ)設(shè)備故障將不會(huì)影響虛擬服務(wù)器正常工作。虛擬服務(wù)器分級(jí)組建集群,確保高優(yōu)先級(jí)集群獲得更高的計(jì)算資源和更快的存儲(chǔ)資源,滿足關(guān)鍵業(yè)務(wù)的資源需求。
對(duì)PACS影像存儲(chǔ)采用分布式云存儲(chǔ)設(shè)備,滿足PACS系統(tǒng)對(duì)存儲(chǔ)資源的要求:1)存儲(chǔ)空間可以簡(jiǎn)單地通過增加節(jié)點(diǎn)實(shí)現(xiàn)擴(kuò)容,擴(kuò)容過程無需停止PACS業(yè)務(wù)。影像文件的訪問性能不會(huì)因?yàn)榇鎯?chǔ)節(jié)點(diǎn)及空間的增加而降低;2)PACS存儲(chǔ)無單點(diǎn)故障,不會(huì)因?yàn)閱蝹€(gè)節(jié)點(diǎn)(或部件)故障而導(dǎo)致影像文件無法訪問;3)影像存儲(chǔ)設(shè)備的新舊更替,只需簡(jiǎn)單地通過更換掉舊存儲(chǔ)節(jié)點(diǎn)實(shí)現(xiàn)且無需人工數(shù)據(jù)遷移以及無需停止PACS業(yè)務(wù);4)應(yīng)采用開放協(xié)議實(shí)現(xiàn)對(duì)影像文件的訪問,如NFS、CIFS、HTTP、bTP和HDFS。采用專門的服務(wù)器和存儲(chǔ)構(gòu)建備份系統(tǒng)的演練、恢復(fù)和生產(chǎn)應(yīng)急環(huán)境。
2.4“兩地三中心”階段
2015年福建省立金山醫(yī)院(南院)的正式啟用,醫(yī)院的信息化建設(shè)面臨新的挑戰(zhàn),對(duì)高可用系統(tǒng)提出了更高需求。情況分析如下:
1)“不停”需求:醫(yī)院決定南院通過2路萬兆光纖與院本部連接,南院與院本部共享HIS、LIS、EMR、PACS等核心系統(tǒng)。要求院本部系統(tǒng)出現(xiàn)故障時(shí),可以通過啟用南院的應(yīng)急系統(tǒng),繼續(xù)為院本部和南院提供業(yè)務(wù)服務(wù);一旦南院與院本部出現(xiàn)網(wǎng)絡(luò)中斷,可以通過啟用南院的應(yīng)急系統(tǒng),保障南院業(yè)務(wù)可以正常開展。
2)“不丟”需求:要求院本部的核心業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)在南院也保留一份,兩個(gè)院區(qū)數(shù)據(jù)允許的差異不超過1分鐘。為了防范可能的誤操作,要求南院保留的數(shù)據(jù)可以恢復(fù)到過去7天內(nèi)任1分鐘的狀態(tài)。
3)“可恢復(fù)”需求:在南院和院本部分別獨(dú)立建立備份和恢復(fù)系統(tǒng)。
如圖4所示,在院本部和金山機(jī)房各部署一套CDP(持續(xù)數(shù)據(jù)保護(hù))設(shè)備,由其將院本部存儲(chǔ)陣列的數(shù)據(jù)變更日志打包、壓縮、加密后傳輸?shù)浇鹕綑C(jī)房的CDP設(shè)備,解密、解壓縮、解包后寫到金山機(jī)房的應(yīng)急存儲(chǔ)設(shè)備中日志區(qū),然后應(yīng)用到數(shù)據(jù)區(qū),使得金山數(shù)據(jù)與生產(chǎn)數(shù)據(jù)同步變更。一旦本部?jī)蓚€(gè)機(jī)房的系統(tǒng)均出現(xiàn)問題,則啟用金山的應(yīng)急系統(tǒng),為院本部和金山同時(shí)提供業(yè)務(wù)服務(wù).若出現(xiàn)金山與院本部網(wǎng)絡(luò)中斷,且短時(shí)間無法修復(fù)的情況,啟用金山的應(yīng)急系統(tǒng)單獨(dú)為金山院區(qū)提供業(yè)務(wù)服務(wù),一旦網(wǎng)絡(luò)修復(fù)后,通過業(yè)務(wù)軟件將金山的業(yè)務(wù)同步回院本部應(yīng)用系統(tǒng)后,將金山業(yè)務(wù)重新切回院本部系統(tǒng),同時(shí)恢復(fù)保護(hù)系統(tǒng)工作。
3云計(jì)算系統(tǒng)的建設(shè)思路探討
下一步醫(yī)院信息系統(tǒng)的建設(shè)方向是云計(jì)算,但是淘寶、京東等云平臺(tái)的故障告訴我們,云計(jì)算同樣也需要”不停、不丟、可恢復(fù)”,在云環(huán)境不能使用傳統(tǒng)的思維和方法進(jìn)行高可用建設(shè)性.以醫(yī)院的核心系統(tǒng)HIS為例,分析一下在云平臺(tái)理想的高可用性需求:
1)”不?!毙枨螅合乱徊结t(yī)院的云平臺(tái)自動(dòng)跨越我院現(xiàn)有的”兩地三中心”,HIS用戶無需關(guān)注其連接的HIS服務(wù)是運(yùn)行于院本部或金山機(jī)房,其連接的是一個(gè)URL服務(wù)地址.在網(wǎng)絡(luò)正常的情況,只要三個(gè)中心的任一個(gè)正常運(yùn)行就能保證HIS業(yè)務(wù)正常.當(dāng)兩地的網(wǎng)絡(luò)發(fā)生故障時(shí),依賴本地資源的業(yè)務(wù)和檢查等仍能正常運(yùn)行,但依賴另一方的業(yè)務(wù)f如異地藥房或異地檢查等)者無法使用.當(dāng)網(wǎng)絡(luò)恢復(fù)后,基于云的HIS系統(tǒng)自動(dòng)進(jìn)行業(yè)務(wù)的比對(duì)和同步,無需管理人員手工進(jìn)行數(shù)據(jù)同步,業(yè)務(wù)同步后系統(tǒng)恢復(fù)正常使用。
在云平臺(tái)的HIS系統(tǒng)的“不停”不再是停留在可用的水平,而是要求在保證業(yè)務(wù)服務(wù)質(zhì)量(如響應(yīng)時(shí)間要求)水平下的可用.云平臺(tái)能夠自動(dòng)監(jiān)測(cè)業(yè)務(wù)的服務(wù)質(zhì)量水平,在需要時(shí)自動(dòng)申請(qǐng)資源進(jìn)行系統(tǒng)橫向擴(kuò)展,確保業(yè)務(wù)服務(wù)質(zhì)量不下降;當(dāng)云平臺(tái)發(fā)現(xiàn)服務(wù)請(qǐng)求減少時(shí),自動(dòng)進(jìn)行系統(tǒng)收縮,釋放富余的資源,確保系統(tǒng)資源可再利用。
2)”不丟”需求:通過建立跨”兩地三中心”的云平臺(tái),實(shí)現(xiàn)HIS業(yè)務(wù)數(shù)據(jù)的自動(dòng)實(shí)時(shí)分布到三個(gè)中心,并且通過云平臺(tái)自動(dòng)保證三個(gè)中心數(shù)據(jù)的一致性,而所有這些均對(duì)最終用戶透明.今后條件成熟,若還能實(shí)現(xiàn)數(shù)據(jù)自動(dòng)分布到公有云平臺(tái),這樣就從根本上解決了數(shù)據(jù)”不丟”的問題。
3)”可恢復(fù)”需求:雖然云平臺(tái)的未來描繪的非常理想,理論上不存在需要恢復(fù)的情形.但是現(xiàn)實(shí)是很冷酷的,云平臺(tái)故障給用戶造成損失的案例不絕于耳.因此,需要探討業(yè)務(wù)應(yīng)用遷移到云平臺(tái)后,如何實(shí)現(xiàn)”可恢復(fù)”的理論和技術(shù),確保在極端情況下醫(yī)院HIS業(yè)務(wù)的正常運(yùn)行具有現(xiàn)實(shí)意義。
為了更好利用云計(jì)算的特性,這需要我們采用全新的思維重新審視我們的業(yè)務(wù)應(yīng)用,打通從調(diào)研、分析、設(shè)計(jì)、開發(fā)、測(cè)試、部署、運(yùn)維的所有環(huán)節(jié),才能充分發(fā)揮和利用云的特性為醫(yī)院業(yè)務(wù)服務(wù)。
4結(jié)束語
通過10多年來建設(shè)醫(yī)院信息系統(tǒng)高可用性的探索和實(shí)踐,我們認(rèn)為只要抓住了建設(shè)系統(tǒng)高可用性的本源,雖然環(huán)境在變,技術(shù)在變,但是目標(biāo)是不變的,只要我們不斷地學(xué)習(xí)和探索,一定能夠隨需應(yīng)變,讓新技術(shù)和新環(huán)境為醫(yī)院服務(wù),保證醫(yī)院信息系統(tǒng)安全穩(wěn)定運(yùn)行。