于 天
2007年11月1日正式實施的國標(biāo)《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007,以下簡稱《規(guī)范》)是我國目前較為實用的關(guān)于災(zāi)難恢復(fù)建設(shè)的標(biāo)準(zhǔn),對各企業(yè)進行災(zāi)備建設(shè)具有重要的指導(dǎo)意義。該標(biāo)準(zhǔn)的內(nèi)容完全符合國際流行的BCM(業(yè)務(wù)連續(xù)性管理)最佳慣例。然而,中國標(biāo)準(zhǔn)通常有個特點,就是篇幅短小,條款簡潔,文字精練。如果沒有對標(biāo)準(zhǔn)進行配套的宣傳解釋和相應(yīng)的理論培訓(xùn),標(biāo)準(zhǔn)在貫徹執(zhí)行時就難免遇到一些問題。
建立組織機構(gòu)
國標(biāo)中明確要求設(shè)立災(zāi)難恢復(fù)組織機構(gòu),通常包括災(zāi)難恢復(fù)領(lǐng)導(dǎo)小組、災(zāi)難恢復(fù)規(guī)劃小組、災(zāi)難恢復(fù)運維小組。這充分反映了我國的災(zāi)難恢復(fù)建設(shè)國家標(biāo)準(zhǔn)的先進性和科學(xué)性,也是中國標(biāo)準(zhǔn)與國際慣例相結(jié)合的體現(xiàn)。
然而目前許多單位對這三個小組的建立,在理解和執(zhí)行上都存在不同程度的不足。
關(guān)于領(lǐng)導(dǎo)小組因為災(zāi)難恢復(fù)的最終目標(biāo)就是恢復(fù)業(yè)務(wù)的運行,所以整個災(zāi)難恢復(fù)活動與全企業(yè)各個部門都緊密相關(guān)。因此,如何使各部門都積極參與災(zāi)難恢復(fù)的建設(shè)過程,有效地協(xié)調(diào)各部門的資源,是災(zāi)備建設(shè)成敗的關(guān)鍵環(huán)節(jié)。因此,成立一個強有力的領(lǐng)導(dǎo)小組來調(diào)動、分配和協(xié)調(diào)各種資源就顯得非常重要。
但是許多單位對高管層領(lǐng)導(dǎo)參與災(zāi)難恢復(fù)建設(shè)工作的重要性認(rèn)識不足,在成立災(zāi)備領(lǐng)導(dǎo)小組時,參與的人員級別并不夠高,或者雖有高管層人員參與,卻只是掛名,并不參與實際工作。另外,某些單位的災(zāi)難恢復(fù)領(lǐng)導(dǎo)小組在災(zāi)備系統(tǒng)規(guī)劃建設(shè)完成后,人員就發(fā)生變化,災(zāi)難恢復(fù)領(lǐng)導(dǎo)小組實際只是一個臨時性的組織。
關(guān)于規(guī)劃小組 規(guī)劃小組具體負(fù)責(zé)災(zāi)難恢復(fù)建設(shè)的項目規(guī)劃、需求分析、策略選擇、設(shè)計實施、DRP制定和演練等工作。這些工作涉及到整個企業(yè)的各個業(yè)務(wù)部門及技術(shù)、行政和后勤保障相關(guān)部門,因此,規(guī)劃小組的人員組成是一個非常關(guān)鍵的環(huán)節(jié),他們必須覆蓋所有相關(guān)的部門,而且必須指定專人配合。
然而,很多單位的規(guī)劃小組成員往往以IT部門的人員為主,基本上沒有各業(yè)務(wù)部門的人員參與,這就使得規(guī)劃小組在進行項目規(guī)劃、需求分析等工作時,很難調(diào)動各種資源,自然也無法充分地分析各種數(shù)據(jù),得出客觀合理的需求結(jié)果,更無法協(xié)調(diào)所需災(zāi)備需求資源。這樣,很難保證災(zāi)難恢復(fù)建設(shè)的順利進行,也無法保證所建成的災(zāi)備系統(tǒng)真正有效。
關(guān)于維護小組維護小組也就是災(zāi)難恢復(fù)日常運行小組,主要負(fù)責(zé)災(zāi)備中心的日常運維、技術(shù)支持、DRP維護,以及事發(fā)時的控制和評估、執(zhí)行業(yè)務(wù)恢復(fù)等。維護小組也不應(yīng)該只是由IT部門的人員組成。事實上,IT人員只是側(cè)重于系統(tǒng)和技術(shù)的維護,整個小組還應(yīng)該有負(fù)責(zé)業(yè)務(wù)功能和流程、應(yīng)急響應(yīng)、安保的人員,同時還要有行政后勤人員參與。
但目前各單位的災(zāi)難恢復(fù)維護小組通常主要都是由IT部門的人員組成,這必然給DRP的日常維護及事發(fā)時的啟動埋下隱患。
有效確定需求
通常人們認(rèn)為災(zāi)難恢復(fù)建設(shè)的第一步是確定災(zāi)難恢復(fù)需求,然后才能決定恰當(dāng)?shù)慕鉀Q方法——災(zāi)難恢復(fù)策略。但在現(xiàn)實中,我們常常發(fā)現(xiàn)災(zāi)備項目小組歷盡千辛萬苦整理出來的需求分析報告和制定出來的相關(guān)災(zāi)備策略,在最后評審時卻發(fā)現(xiàn)需求分析的結(jié)果與實際業(yè)務(wù)需求有偏差,只能重新開始。造成這種現(xiàn)象的主要原因并非小組人員不夠努力,也不完全是業(yè)務(wù)部門配合不夠,而是缺少一個完善的災(zāi)難恢復(fù)組織機構(gòu)來保證災(zāi)難恢復(fù)需求分析工作的順利進行。
走出策略誤區(qū)
《規(guī)范》中給出了制定災(zāi)難恢復(fù)策略的七要素,以及根據(jù)這七個要素對災(zāi)難恢復(fù)能力劃分的六個等級,這無疑為各單位制定災(zāi)難恢復(fù)策略提供了一個很好的參考指南。
然而在實際工作中,人們常常還是會陷入某些誤區(qū)。比如說:過分注重災(zāi)難恢復(fù)的技術(shù)方案,而忽視了整個業(yè)務(wù)恢復(fù)流程的有效性,造成技術(shù)支持的RTO值(反映所允許的中斷時間)要求很高(這造成投資大大增加),而整個恢復(fù)流程的RTO值所滿足的要求并不太高。還有些單位混淆對RPO(反映所允許丟失的數(shù)據(jù)量)的要求與對RTO的要求。許多單位對RPO要求很高,這是可以理解的(尤其是關(guān)系到國計民生的業(yè)務(wù)),但對RTO值的要求卻不一定很高(如零中斷)。譬如,發(fā)生重大災(zāi)難時,銀行的自動取款業(yè)務(wù)允許中斷幾小時,但客戶存款數(shù)據(jù)卻不能有任何丟失。做到零丟失是完全可能的,而要做到零中斷卻是較難的,有時即使技術(shù)上做到了,業(yè)務(wù)流程也不可能做到。
考慮災(zāi)難恢復(fù)策略時應(yīng)該更多地關(guān)注整個業(yè)務(wù)的恢復(fù)流程,而不僅是注重技術(shù)方案——最好的技術(shù)方案并不一定是技術(shù)指標(biāo)最高的,而是從整個業(yè)務(wù)恢復(fù)流程來看是最合理的。因此,對各種恢復(fù)策略進行成本效益分析時也應(yīng)從整個業(yè)務(wù)流程來考慮,這樣才可能得出合理的業(yè)務(wù)恢復(fù)RTO值,并選擇合理的災(zāi)難恢復(fù)策略。
加強演練和培訓(xùn)
雖然大多數(shù)企業(yè)在制定了災(zāi)難恢復(fù)計劃(DRP)后都清楚應(yīng)該進行認(rèn)知培訓(xùn)、測試演練及維護更新,《規(guī)范》中對這些提出了明確的要求。但是在實際執(zhí)行中,多數(shù)企業(yè)在這方面做得不全面。這主要表現(xiàn)在以下幾個方面:
其一,對認(rèn)知活動不夠重視。雖然大多數(shù)企業(yè)完成DRP后會進行相關(guān)的培訓(xùn),但培訓(xùn)人員的覆蓋面不夠廣,還有很多應(yīng)該了解DRP的人并未得到相應(yīng)的培訓(xùn),而對全體員工的災(zāi)難恢復(fù)認(rèn)知宣傳就更加不足,這必會影響事發(fā)時DRP的啟動和執(zhí)行效果。
其二,演練不夠充分。許多單位雖然對災(zāi)難恢復(fù)系統(tǒng)進行了一定的測試,但普遍缺乏對計劃流程和人員進行充分的演練,這就無法確保DRP的有效性。
其三,維護更新不及時。由于演練不夠充分,所制定的DRP中存在的問題就無法及時暴露出來,也就不能及時改進。此外,由于災(zāi)難恢復(fù)組織機構(gòu)不夠完善,企業(yè)內(nèi)部發(fā)生的變更可能得不到及時反映,也就無法對DRP進行相應(yīng)的更新。另外,由于目前我國尚缺乏強制性的相關(guān)法規(guī),無法對DRP提出強制性的審計要求,而企業(yè)的自查有時會流于形式,這也使得DRP不能得到定期的有效更新。
BCM是最佳方法
解決以上所述災(zāi)難恢復(fù)建設(shè)中遇到的各種問題的最佳方法是BCM。BCM是專門幫助組織機構(gòu)應(yīng)對災(zāi)難的一體化管理方法。相對于應(yīng)對公共突發(fā)事件的問題,BCM主要是解決組織機構(gòu)自身應(yīng)對災(zāi)難的問題。BCM方法論的核心內(nèi)容被歸納為10個國際最佳慣例。
項目啟動與管理:確定BCM項目需求,獲得高管層的支持,建立BCM組織機構(gòu)及各小組人員的責(zé)任,明確BCM項目的范圍,確定計劃編制時間表等。
風(fēng)險評估和控制:識別可能的威脅和風(fēng)險,確定應(yīng)采取的控制措施等。
業(yè)務(wù)沖擊分析(BIA):確定關(guān)鍵業(yè)務(wù)功能和流程,確定RTO和RPO,以及確定互依賴性及優(yōu)先級別等。
制定業(yè)務(wù)持續(xù)策略:根據(jù)BIA的結(jié)果制定恢復(fù)策略(包括企業(yè)級和部門級策略),進行成本效益分析,選擇最佳的策略等。
應(yīng)急響應(yīng)和措施:制定和貫徹執(zhí)行用于事件發(fā)生后進行響應(yīng)并使?fàn)顟B(tài)得到穩(wěn)定的流程(應(yīng)急預(yù)案),建立和管理緊急運行中心,該中心作為緊急情況時期的指揮中心。
編制和貫徹執(zhí)行業(yè)務(wù)持續(xù)計劃:設(shè)計、編制和貫徹執(zhí)行業(yè)務(wù)持續(xù)計劃以提供滿足恢復(fù)時間目標(biāo)(RTO)和恢復(fù)點目標(biāo)(RPO)的業(yè)務(wù)持續(xù)。
認(rèn)知和培訓(xùn)計劃:制定相關(guān)的計劃,對相關(guān)人員進行培訓(xùn),使其掌握必要的技能來執(zhí)行BC/DR計劃,并對全體員工進行BCM認(rèn)知教育,從而將BCM融入到整個企業(yè)的文化中去。
維護及演練業(yè)務(wù)持續(xù)計劃:制定測試計劃,以測試系統(tǒng)和技術(shù)的可靠性;制定演練計劃,以檢驗BC計劃流程和人員行為的有效性;對測試和演練結(jié)果進行評價并提出改進意見;制定計劃維護和更新的流程。
危機溝通:制定、協(xié)調(diào)、評估和演練危機溝通計劃,這些計劃用于與各類利益相關(guān)者、外部機構(gòu)、以及媒體等的溝通。
與外部機構(gòu)的協(xié)調(diào):建立適當(dāng)?shù)牧鞒毯陀媱潄砼c外部機構(gòu)進行協(xié)調(diào),從而完成持續(xù)和恢復(fù)活動,同時確保符合相應(yīng)的法令法規(guī)要求。
這十個最佳慣例包含了任何組織機構(gòu)為應(yīng)對災(zāi)難所應(yīng)做的各項工作(包括預(yù)案制定、貫徹執(zhí)行、演練維護及認(rèn)知培訓(xùn)等等),按照這十個最佳慣例制定的各種預(yù)案覆蓋了災(zāi)難恢復(fù)的六個階段(6R模型):
1.減小(Reduce):事件發(fā)生前為預(yù)防災(zāi)難的發(fā)生所應(yīng)做的準(zhǔn)備工作。
2.響應(yīng)(Respond):事件發(fā)生時,按照計劃進行響應(yīng)和評估。
3.恢復(fù)(Recover):按照優(yōu)先級別啟動相應(yīng)的恢復(fù)計劃來使相關(guān)流程和支持功能恢復(fù)到穩(wěn)定的運行狀態(tài)。
4.重啟(Resume):按照優(yōu)先級別重新啟動事先確定的關(guān)鍵業(yè)務(wù)運行。
5.重建(Restore):災(zāi)難過去后,執(zhí)行相關(guān)程序修復(fù)或重建永久站點及其內(nèi)容,并重建原來的正常運行。此時的業(yè)務(wù)運行通常是在后備(或臨時)中心進行。
6.返回(Return):按計劃將后備(或臨時)中心的業(yè)務(wù)運行返回到永久站點。
以上這六個階段形成了一個完整的災(zāi)難恢復(fù)生命周期,如左圖所示。
可以看出,BCM的主要內(nèi)容(十個國際最佳慣例及6R模型)完全與國家標(biāo)準(zhǔn) 《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》的要求相一致。事實上,《規(guī)范》中對災(zāi)難恢復(fù)建設(shè)的基本要求正是參照BCM的國際最佳慣例提出的,這是因為企業(yè)的DRP本來就屬于企業(yè)業(yè)務(wù)連續(xù)性計劃(BCP)的一部分,可將DRP看作是一種專門針對IT服務(wù)業(yè)務(wù)的BCP,而且DRP的制定與BCP的制定在方法上也是基本一致的。一個完整的DRP和BCP都應(yīng)該包含6R模型中各階段所需的程序和計劃(預(yù)案)。因此,參照BCM的方法論來制定災(zāi)難恢復(fù)建設(shè)的標(biāo)準(zhǔn)是非常合理的。