陳翔
“8·12”天津港爆炸事故已經(jīng)過去了4個多月,距離中心爆炸點(diǎn)僅1.5公里的騰訊亞洲最大數(shù)據(jù)中心到底受損情況如何,又是如何度過這一劫的?經(jīng)歷了迄今為止唯一一例實(shí)際發(fā)生的國內(nèi)超大型數(shù)據(jù)中心遇險事件,騰訊天津數(shù)據(jù)中心的應(yīng)急經(jīng)驗(yàn)和獲得的啟示是否值得數(shù)據(jù)中心行業(yè)的同仁們借鑒呢?
“8·12”天津港爆炸事故已經(jīng)過去了4個多月,距離中心爆炸點(diǎn)僅1.5公里的騰訊亞洲最大數(shù)據(jù)中心到底受損情況如何,又是如何度過這一劫的?
當(dāng)時,騰訊的官方說法只有寥寥幾句,比如“部分爆炸氣浪沖擊到了數(shù)據(jù)中心建筑主體”,“發(fā)現(xiàn)個別故障點(diǎn),影響范圍較小”。
不過,在不久前舉行的第二屆騰訊云+數(shù)據(jù)中心開放日上,來自騰訊云的專家首度曝光了天津數(shù)據(jù)中心在爆炸發(fā)生時現(xiàn)場攝像頭拍攝的視頻,僅僅22秒?yún)s極其震撼。此外,專家也詳細(xì)介紹了數(shù)據(jù)中心的受損情況,以及現(xiàn)場應(yīng)急處理措施。
在數(shù)據(jù)越來越重要的今天,各個數(shù)據(jù)中心為確保萬無一失,紛紛制定應(yīng)急預(yù)案、災(zāi)備方案,并進(jìn)行演練。不過,恐怕國內(nèi)真正實(shí)操的也只有天津港爆炸事故周邊的數(shù)據(jù)中心。目前,騰訊天津數(shù)據(jù)中心是國內(nèi)唯一一家分享這一災(zāi)難應(yīng)急實(shí)例的數(shù)據(jù)中心。
受損情況大曝光
記者去年曾經(jīng)參觀過騰訊天津數(shù)據(jù)中心,這是騰訊在亞洲最大的數(shù)據(jù)中心,占地8萬平方米,服務(wù)器超過20萬臺。這一超大型數(shù)據(jù)中心在“8·12”當(dāng)天扛過了這場災(zāi)難,所有業(yè)務(wù)運(yùn)行穩(wěn)定,難道是僥幸逃過一劫?要知道它距離中心爆炸點(diǎn)僅僅1.5公里。
騰訊IDC平臺部天津數(shù)據(jù)中心經(jīng)理韓建軍完整分享了天津港爆炸事故的經(jīng)歷。他首次曝光了一組照片,從中可以看到數(shù)據(jù)中心當(dāng)時的受損情況,包括嚴(yán)重變形的大門、整體墻體的垮塌、二層IT機(jī)房和三層IT機(jī)房的損毀情況。另外,他首次曝光了當(dāng)時的攝像頭視頻記錄,主要涉及冷機(jī)房、值班室和IT機(jī)房。
那么,8·12天津港爆炸事故帶給騰訊天津數(shù)據(jù)中心具體什么損傷呢?第一,整個冷機(jī)系統(tǒng)宕機(jī);第二,冷凍水管發(fā)生爆管;第三,地下水發(fā)生嚴(yán)重水浸。
現(xiàn)場工程師經(jīng)過20分鐘的緊急排查,40分鐘之內(nèi)做出歸納總結(jié),發(fā)現(xiàn)八大主要故障,包括50%單套冷機(jī)宕機(jī)、三號樓大量的冷凍水管漏水、BA系統(tǒng)失效、智能系統(tǒng)基本癱瘓、柴發(fā)系統(tǒng)受損、IT機(jī)房受損等。
應(yīng)急上演生死時速
面對這種緊急情況,專業(yè)工程師需要做什么?
據(jù)韓建軍介紹,騰訊平時有多套應(yīng)急預(yù)案,對應(yīng)不同的故障采用對應(yīng)的應(yīng)急演習(xí)預(yù)案:比如,空調(diào)漏水緊急采用手動止動閥門,BA系統(tǒng)失效采用手動方式恢復(fù)系統(tǒng)正常運(yùn)行……80分鐘之內(nèi),系統(tǒng)恢復(fù)正常。
他還分享了一組數(shù)據(jù),重新回顧了從事件發(fā)生到處理的整個過程,在經(jīng)歷了爆炸事故發(fā)生后的126分鐘內(nèi),對于數(shù)據(jù)中心的業(yè)務(wù)可謂“生死時速”。通常騰
訊天津數(shù)據(jù)中心正常巡檢都要90分鐘,這次只用126分鐘就進(jìn)行了所有的故障處理,使得系統(tǒng)正常運(yùn)行。
90分鐘后,騰訊才得到爆炸事故的確切回應(yīng),了解到是距離較近的危險品倉庫發(fā)生爆炸,同時啟動了對應(yīng)的地震應(yīng)急預(yù)案。126分鐘以后,他們對整個園區(qū)內(nèi)所有受損的危險區(qū)域做了完整的標(biāo)識,現(xiàn)場秩序基本恢復(fù)。
天津港爆炸事故既是對騰訊天津數(shù)據(jù)中心團(tuán)隊(duì)的考驗(yàn),也帶來了許多啟示。首先,作為一個運(yùn)營團(tuán)隊(duì),必須有一套完整的應(yīng)急預(yù)案。
據(jù)悉,這套完整的應(yīng)急預(yù)案是騰訊按照風(fēng)險五步法,從風(fēng)險的識別,風(fēng)險分析,應(yīng)急方案制訂、應(yīng)急方案執(zhí)行,風(fēng)險評估和改進(jìn)。在2014年到2015年,騰訊天津數(shù)據(jù)中心發(fā)現(xiàn)風(fēng)險點(diǎn)136個,針對這些風(fēng)險點(diǎn)制訂了66項(xiàng)方案,平時通過演練最終完成71項(xiàng)方案的執(zhí)行。據(jù)韓建軍透露,騰訊天津數(shù)據(jù)中心基本每周都有一次不同級別的演習(xí),從工程師到一線人員全部參與。
當(dāng)然,也有人疑惑數(shù)據(jù)中心選址:騰訊為什么把數(shù)據(jù)中心建在危險品倉庫附近?韓建軍對此表示,騰訊嚴(yán)格按照數(shù)據(jù)中心選址規(guī)范,危險品倉庫是騰訊天津數(shù)據(jù)中心落成一年后才建立起來的。這同時給騰訊很大啟示,即“對于選址的評估工作不是做一次就夠,一定要定期做,年年做,騰訊已在全國范圍內(nèi)的數(shù)據(jù)中心實(shí)行。”
遠(yuǎn)程控制與動態(tài)遷移
其實(shí),“8·12”大爆炸事故第二天,騰訊數(shù)據(jù)中心面臨的環(huán)境更加危險。為了預(yù)防再次爆炸的可能,所有
數(shù)據(jù)中心人員都被緊急撤離到20公里之外,整個數(shù)據(jù)中心處于無人值守狀態(tài)。騰訊天津團(tuán)隊(duì)通過遠(yuǎn)程控制系統(tǒng)對整個數(shù)據(jù)中心進(jìn)行控制,并遠(yuǎn)程處理相關(guān)信息669條,異常報警26起。自然,后臺的自動化系統(tǒng)功不可沒,這就是騰訊自動化控制平臺——阿凡達(dá)。
據(jù)悉,騰訊天津數(shù)據(jù)中心有15300多個設(shè)備,143000個測點(diǎn),如果對所有設(shè)計測點(diǎn)進(jìn)行測試,會出現(xiàn)很多的報警信息。阿凡達(dá)平臺的“不凡”之處在于管控信息立體化,不孤立看待設(shè)備和測點(diǎn),建立設(shè)備之間的關(guān)系,在邏輯基礎(chǔ)之上綜合看待報警發(fā)生。
尤其值得一提的是,騰訊天津數(shù)據(jù)中心運(yùn)維專家的經(jīng)驗(yàn)豐富,管理流程規(guī)范,通過管理工具沉淀到自動化系統(tǒng)中,推廣到全新的數(shù)據(jù)中心。騰訊在全國目前擁有56個IDC,分布在13個城市,獨(dú)立機(jī)房180個。
此外,“8·12”天津港爆炸事故當(dāng)天和爆炸之后的一周,騰訊一方面搶修受損的天津數(shù)據(jù)中心,另一方面把天津數(shù)據(jù)中心承載的大部分業(yè)務(wù)遷移動到深圳和上海的數(shù)據(jù)中心。這表明,騰訊已經(jīng)實(shí)現(xiàn)了全國范圍內(nèi)IDC資源的動態(tài)調(diào)配。
據(jù)悉,谷歌三年前已經(jīng)實(shí)現(xiàn)全球業(yè)務(wù)的調(diào)配,比如夏季把主要業(yè)務(wù)遷到北歐的數(shù)據(jù)中心以節(jié)省能源、降低成本。騰訊此舉也說明,通過足夠的計算能力和網(wǎng)絡(luò)出口能力,可以讓數(shù)據(jù)和業(yè)務(wù)在全國范圍的云數(shù)據(jù)中心中轉(zhuǎn)換遷移。
作為“8·12”天津港爆炸事故中遇險的國內(nèi)超大型數(shù)據(jù)中心,騰訊的經(jīng)驗(yàn)值得數(shù)據(jù)中心行業(yè)同仁關(guān)注。