Ann Bednarz
隨著企業(yè)計算環(huán)境變得越來越復(fù)雜,IT系統(tǒng)故障和網(wǎng)絡(luò)錯誤正導(dǎo)致越來越多的數(shù)據(jù)中心出現(xiàn)運行中斷,造成了大量的意外宕機事件。
電源故障是導(dǎo)致數(shù)據(jù)中心運行中斷的常見原因,但它們并不是唯一的罪魁禍?zhǔn)住kS著企業(yè)計算環(huán)境變得越來越復(fù)雜,IT系統(tǒng)和網(wǎng)絡(luò)故障正在導(dǎo)致越來越多的數(shù)據(jù)中心宕機。
數(shù)據(jù)中心設(shè)施咨詢機構(gòu)Uptime Institute的主要業(yè)務(wù)為提供彈性服務(wù),為建立和運行數(shù)據(jù)中心提供建議以及認(rèn)證服務(wù)。該公司一直在研究公開發(fā)表的宕機報道,以追蹤導(dǎo)致意外停機的原因。過去三年中,他們已經(jīng)從傳統(tǒng)媒體或社交媒體上報道出來的162次宕機報告中篩選出了一些信息??捎玫臄?shù)據(jù)在這三年內(nèi)不斷增加,研究人員收集到了2016年27次宕機、2017年57次宕機以及2018年78次宕機的數(shù)據(jù)。
Uptime Institute的研究執(zhí)行董事Andy Lawrence表示:“曝光出來的宕機事故成為新聞的次數(shù)正變得越來越多?!?/p>
在研究結(jié)果公布的同時,Lawrence指出,目前他們正記錄著全球每天發(fā)生的幾乎所有的重大運行中斷事件。雖然這并不一定意味著運行中斷的次數(shù)在急劇增加,但是宕機時間正在受到越來越多的關(guān)注?!拔覀兒芮宄?,運行中斷產(chǎn)生的影響肯定會增加?!?/p>
Uptime Institute的一個重要研究發(fā)現(xiàn)是,電源在整個故障中影響較小,但網(wǎng)絡(luò)和IT系統(tǒng)的影響則較為深遠(yuǎn)。導(dǎo)致變化的一個原因是電力系統(tǒng)比過去更加可靠,這減少了本地數(shù)據(jù)中心發(fā)生電力故障的次數(shù)。
技術(shù)行業(yè)在過去二十年中一直專注于如何設(shè)計電力系統(tǒng),即使電力系統(tǒng)某處出現(xiàn)故障或整個系統(tǒng)發(fā)生故障,IT資產(chǎn)也能繼續(xù)運行。Uptime Institute首席技術(shù)官Chris Brown稱:“供應(yīng)雙線IT設(shè)備的2N配電系統(tǒng)的出現(xiàn)使得IT系統(tǒng)能夠在經(jīng)歷一系列獨立事件和事故后仍能繼續(xù)保持運行。”
同時,日益復(fù)雜的IT環(huán)境導(dǎo)致了更多的IT和網(wǎng)絡(luò)問題。Uptime Institute負(fù)責(zé)IT優(yōu)化和戰(zhàn)略的副總裁Todd Traver稱:“數(shù)據(jù)現(xiàn)在分布在多個地方,這些數(shù)據(jù)極為依賴網(wǎng)絡(luò)。應(yīng)用程序的構(gòu)建以及數(shù)據(jù)庫的復(fù)制同樣也非常依賴網(wǎng)絡(luò)。這是一個非常復(fù)雜的系統(tǒng)?!?/p>
對數(shù)據(jù)中心運行中斷的嚴(yán)重性的評估
為了區(qū)分可能導(dǎo)致業(yè)務(wù)崩潰的運行中斷和僅僅造成不便的運行中斷,Uptime Institute對此進(jìn)行了分級。該評級系統(tǒng)可讓研究人員了解運行中斷的整體情況是如何隨時間而變化的。Uptime Institute的評估分為五個等級:
1級為可忽略不計的中斷。該級別的中斷會被記錄下來,但是對服務(wù)的影響很小或沒有明顯影響,也沒有出現(xiàn)服務(wù)中斷。
2級的特點為最低程度的服務(wù)中斷。服務(wù)出現(xiàn)中斷,但對用戶、客戶或聲譽的影響微乎其微。
3級為重要業(yè)務(wù)發(fā)生服務(wù)中斷,涉及客戶或用戶服務(wù),主要特點是范圍、持續(xù)時間或影響有限。對財務(wù)的影響輕微甚至沒有,但是會產(chǎn)生一些聲譽或合規(guī)方面的影響。
4級為嚴(yán)重的業(yè)務(wù)或服務(wù)中斷,涉及服務(wù)和/或操作。波及面包括財務(wù)損失、數(shù)據(jù)泄露、聲譽損害并可能出現(xiàn)安全問題??赡軙?dǎo)致客戶損失。
5級為關(guān)鍵業(yè)務(wù)或任務(wù)出現(xiàn)中斷,包括服務(wù)和/或運營出現(xiàn)重大和破壞性中斷。 可能會造成重大財務(wù)損失、安全問題、數(shù)據(jù)泄露、客戶損失和名譽損失。
在分析了三年內(nèi)所有公開的數(shù)據(jù)中心運行中斷(級別1到5)事件后,Uptime Institute發(fā)現(xiàn)IT系統(tǒng)和網(wǎng)絡(luò)問題已經(jīng)超過了電源成為了主要原因(見圖)。
在逐年對原因進(jìn)行比較后,這種趨勢會顯得尤為突出。2017年,電力是28%運行中斷事件的罪魁禍?zhǔn)?。次年,僅有11%的運行中斷事件的主因為停電。與IT系統(tǒng)有關(guān)的故障則在這兩年中基本保持一致。其中,2017年32%的運行中斷事件的主因為系統(tǒng)故障,2018年這一比例為35%。網(wǎng)絡(luò)作為運行中斷的主要原因在顯著增長。其中,2017年19%的運行中斷事件被歸咎于網(wǎng)絡(luò),2018年這一比例飆升到了32%。
Traver在談到2018年運行中斷事件數(shù)量大幅增長時指出,“這些事情之間的確是相互聯(lián)系的。這也就是為什么網(wǎng)絡(luò)中斷的大幅上升會導(dǎo)致運行中斷的原因所在。這些東西不是連接在一個或兩個站點上,而是連接在三個、四個站點,甚至更多的站點上。如今,網(wǎng)絡(luò)在IT彈性方面正發(fā)揮著越來越大的作用。
此外,隨著更多IT資源被移交給服務(wù)提供商,并且不再受使用它們的企業(yè)的直接控制,管理和操作也變得越來越復(fù)雜。Traver稱:“在2018年,三分之二的運行中斷事件與網(wǎng)絡(luò)和IT有關(guān)。這是在過去幾年中出現(xiàn)的一個重大變化?!?/p>
深入研究數(shù)據(jù)中心的宕機時間
Uptime Institute對導(dǎo)致數(shù)據(jù)中心運行中斷的具體原因進(jìn)行了深入的研究。在網(wǎng)絡(luò)方面,導(dǎo)致運行中斷的常見原因包括:
連接數(shù)據(jù)中心的外部光纖被切斷,并且未充分選擇備份路由。
主要交換機間歇性故障,且未部署次要路由器。
主要交換機故障且沒有備份。
維護(hù)期間未正確配置流量。
路由器和軟件定義的網(wǎng)絡(luò)未正確配置。
無備用的單個組件(如交換機和路由器)發(fā)生斷電。
Traver指出,“錯誤配置的路由器和軟件定義的網(wǎng)絡(luò)是常見的網(wǎng)絡(luò)問題。這一問題應(yīng)當(dāng)可通過測試被檢測出來。”
當(dāng)談到光纖被切斷問題時,Traver說,企業(yè)此時往往沒有意識到他們發(fā)生了單點故障?!捌髽I(yè)可能有兩個獨立的服務(wù)提供商,但他們不知道,兩個提供商的光纖埋在同一個溝渠中。同時,企業(yè)也沒有對這一問題展開恰當(dāng)?shù)谋M職調(diào)查?!?/p>
當(dāng)IT為罪魁禍?zhǔn)讜r,造成運行中斷的主要原因如下:
對升級工作管理不善,對軟件級別測試不充分。
大型磁盤驅(qū)動器或存儲區(qū)域網(wǎng)絡(luò)發(fā)生故障并出現(xiàn)數(shù)據(jù)損壞。這可能是由硬件故障引起的,配置或編程錯誤讓問題雪上加霜。
負(fù)載平衡或流量管理系統(tǒng)中發(fā)生同步故障或程序錯誤。
未能對故障/同步或災(zāi)難恢復(fù)系統(tǒng)進(jìn)行正確的編程。
無備用的單個組件(如服務(wù)器或大型磁盤驅(qū)動器)發(fā)生斷電。
談到負(fù)載均衡/流量管理問題,Lawrence表示,在企業(yè)嘗試將IT資源部署的更為分散時,可能會出現(xiàn)程序錯誤和同步問題。Lawrence說:“減少對單一站點的依賴性通常是企業(yè)戰(zhàn)略的一部分,但是它們就像擠壓氣球一樣,問題突然出現(xiàn)在其他地方?!?/p>
Traver補充道,如果企業(yè)沒有認(rèn)真規(guī)劃他們在所有平臺上的應(yīng)用程序和數(shù)據(jù),或是沒有展開經(jīng)常性測試,那么這些問題就會發(fā)生。
當(dāng)電源是罪魁禍?zhǔn)讜r,導(dǎo)致運行中斷的一些主要原因包括:
雷擊導(dǎo)致出現(xiàn)電涌和斷電。備份軟件/配置失敗。
轉(zhuǎn)換開關(guān)出現(xiàn)間歇性故障,導(dǎo)致無法啟動發(fā)電機,或轉(zhuǎn)移到第二個數(shù)據(jù)中心。
UPS故障和無法轉(zhuǎn)移到輔助系統(tǒng)。
操作錯誤,關(guān)閉或未正確配置電源。
公用電力斷電,隨后發(fā)生發(fā)電機或UPS故障。
電涌導(dǎo)致IT設(shè)備損壞。
IT設(shè)備未配備兩種互為備份的電源供給方式。
Brown稱,在以電源問題為主因的運行中斷事件中,所有具體原因大家都非常熟悉。“這些都是數(shù)據(jù)中心的工程師們幾十年來一直在努力解決的問題,即如何圍繞這些問題進(jìn)行設(shè)計,以及如何利用他們的設(shè)計緩解這些問題。”
Traver表示,總的來說,企業(yè)需要更加關(guān)注數(shù)據(jù)中心的彈性。他說:“要知道自己的系統(tǒng)是如何設(shè)計的,充分理解各部分之間的關(guān)聯(lián)性。同時還要知道故障是如何發(fā)生的,以及故障發(fā)生后的應(yīng)急預(yù)案。而我認(rèn)為這一塊是缺失的。”
Lawrence總結(jié)道,“如今設(shè)備正越來越好,管理越來越出色,經(jīng)驗也越來越豐富。整個行業(yè)正變得越來越成熟。但即便如此,運行中斷仍將是一個非常重要和代價高昂的問題?!?/p>
本文作者Ann Bednarz,主要負(fù)責(zé)為《網(wǎng)絡(luò)世界》采訪報道IT職業(yè)、外包和互聯(lián)網(wǎng)文化方面的新聞。
原文網(wǎng)址
https://www.networkworld.com/article/3373646/network-problems-responsible-for-more-data-center-outages.html