2014年7月1日15時(shí)37分,寧夏銀行核心系統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)出現(xiàn)故障,導(dǎo)致其全部業(yè)務(wù)中斷超過(guò)37個(gè)小時(shí),在此期間,全部業(yè)務(wù)只能依靠手工完成?;叵霂啄昵?,記者曾經(jīng)親赴寧夏銀行,現(xiàn)場(chǎng)見(jiàn)證了寧夏銀行進(jìn)行800公里異地容災(zāi)演練的全過(guò)程。前后反差之大不禁令人感嘆。由寧夏銀行此次事故再聯(lián)想到其他一些銀行今年曾出現(xiàn)的業(yè)務(wù)中斷,對(duì)業(yè)務(wù)連續(xù)性要求極高且大多建有較完備的容災(zāi)系統(tǒng)的銀行,為什么會(huì)頻頻發(fā)生業(yè)務(wù)宕機(jī)的事件呢?
銀行業(yè)在數(shù)據(jù)大集中方面一直走在各行業(yè)的前列。數(shù)據(jù)大集中在帶來(lái)業(yè)務(wù)管控便利性的同時(shí)也增加了數(shù)據(jù)的風(fēng)險(xiǎn),這就像把所有雞蛋放進(jìn)了同一個(gè)籃子。在客觀上,銀行業(yè)確實(shí)面臨著巨大的安全壓力。
為了應(yīng)對(duì)風(fēng)險(xiǎn),銀行業(yè)在容災(zāi)方面表現(xiàn)得十分積極,甚至容災(zāi)系統(tǒng)是否完備已成為銀行能否開(kāi)業(yè)的重要條件。但即使在這種情況下,業(yè)務(wù)中斷現(xiàn)象仍然頻發(fā),這就要深究一下導(dǎo)致業(yè)務(wù)中斷的到底是技術(shù)、管理還是其他方面的原因了。從已經(jīng)對(duì)外公布的資料看,引發(fā)這次事故的主要原因是核心數(shù)據(jù)庫(kù)版本嚴(yán)重老化,且從2007年至今未再購(gòu)買(mǎi)維保服務(wù),而在系統(tǒng)出現(xiàn)故障后,應(yīng)急恢復(fù)處置不當(dāng)和應(yīng)急管理體系的缺失也是不容忽視的重要原因。
事件曝光后,記者也通過(guò)相關(guān)渠道了解了一些情況。據(jù)稱(chēng),提供容災(zāi)解決方案的廠商在事故發(fā)生半年前進(jìn)行巡檢時(shí)已經(jīng)發(fā)現(xiàn)了一些不好的苗頭(比如備份盤(pán)被挪作他用),并向客戶發(fā)出了公函,但沒(méi)有收到回應(yīng)?,F(xiàn)在,銀監(jiān)會(huì)還在對(duì)整個(gè)事件進(jìn)行調(diào)查,提供相關(guān)硬件和軟件的廠商也都在積極配合調(diào)查。我們不好評(píng)論此次事故到底是由于技術(shù)上的原因還是管理上的疏漏造成的,但這次事故確實(shí)又給我們上了一課:技術(shù)雖然重要,但對(duì)容災(zāi)和安全來(lái)說(shuō),管理更重要。投入大把銀子建成的容災(zāi)系統(tǒng)在有些單位中確實(shí)只是一個(gè)擺設(shè),沒(méi)有定期的容災(zāi)演練,也沒(méi)有應(yīng)急預(yù)案,當(dāng)事故真正發(fā)生時(shí),系統(tǒng)切換也就成了一句空話。
企業(yè)的IT系統(tǒng)正變得越來(lái)越復(fù)雜。在業(yè)務(wù)系統(tǒng)之外,企業(yè)還要建備份、容災(zāi)、監(jiān)控等更多保障性的系統(tǒng)。對(duì)于企業(yè)來(lái)說(shuō),每一個(gè)系統(tǒng)的建設(shè)和維護(hù)都不能馬虎,而且要實(shí)現(xiàn)全面的監(jiān)控和均衡發(fā)展,只有這樣才不會(huì)像“木桶理論”說(shuō)的那樣,因?yàn)槟骋粔K木板的缺失而造成整個(gè)木桶失效。
就在完稿之時(shí),記者接到了一個(gè)提供數(shù)據(jù)中心服務(wù)的廠商的電話,他們也注意到了此次寧夏銀行事故在業(yè)界引起的強(qiáng)烈反響,準(zhǔn)備借此時(shí)機(jī)推廣一下他們的數(shù)據(jù)中心機(jī)房安全評(píng)估服務(wù)。安全是一項(xiàng)系統(tǒng)工程,由諸多微小的細(xì)節(jié)組成,任何一個(gè)細(xì)節(jié)的疏忽都可能釀成大禍。愿此次寧夏銀行的事故對(duì)各行業(yè)的客戶都是一個(gè)警醒,讓大家注意系統(tǒng)的均衡發(fā)展。(郭濤)
中國(guó)計(jì)算機(jī)報(bào)2014年30期