国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)中心故障頻出:都是網(wǎng)絡(luò)惹的禍?

2019-04-25 05:29AnnBednarz
計算機世界 2019年14期
關(guān)鍵詞:宕機中斷數(shù)據(jù)中心

Ann Bednarz

隨著企業(yè)計算環(huán)境變得越來越復(fù)雜,IT系統(tǒng)故障和網(wǎng)絡(luò)錯誤正導(dǎo)致越來越多的數(shù)據(jù)中心出現(xiàn)運行中斷,造成了大量的意外宕機事件。

電源故障是導(dǎo)致數(shù)據(jù)中心運行中斷的常見原因,但它們并不是唯一的罪魁禍?zhǔn)住kS著企業(yè)計算環(huán)境變得越來越復(fù)雜,IT系統(tǒng)和網(wǎng)絡(luò)故障正在導(dǎo)致越來越多的數(shù)據(jù)中心宕機。

數(shù)據(jù)中心設(shè)施咨詢機構(gòu)Uptime Institute的主要業(yè)務(wù)為提供彈性服務(wù),為建立和運行數(shù)據(jù)中心提供建議以及認(rèn)證服務(wù)。該公司一直在研究公開發(fā)表的宕機報道,以追蹤導(dǎo)致意外停機的原因。過去三年中,他們已經(jīng)從傳統(tǒng)媒體或社交媒體上報道出來的162次宕機報告中篩選出了一些信息??捎玫臄?shù)據(jù)在這三年內(nèi)不斷增加,研究人員收集到了2016年27次宕機、2017年57次宕機以及2018年78次宕機的數(shù)據(jù)。

Uptime Institute的研究執(zhí)行董事Andy Lawrence表示:“曝光出來的宕機事故成為新聞的次數(shù)正變得越來越多?!?/p>

在研究結(jié)果公布的同時,Lawrence指出,目前他們正記錄著全球每天發(fā)生的幾乎所有的重大運行中斷事件。雖然這并不一定意味著運行中斷的次數(shù)在急劇增加,但是宕機時間正在受到越來越多的關(guān)注?!拔覀兒芮宄?,運行中斷產(chǎn)生的影響肯定會增加?!?/p>

Uptime Institute的一個重要研究發(fā)現(xiàn)是,電源在整個故障中影響較小,但網(wǎng)絡(luò)和IT系統(tǒng)的影響則較為深遠(yuǎn)。導(dǎo)致變化的一個原因是電力系統(tǒng)比過去更加可靠,這減少了本地數(shù)據(jù)中心發(fā)生電力故障的次數(shù)。

技術(shù)行業(yè)在過去二十年中一直專注于如何設(shè)計電力系統(tǒng),即使電力系統(tǒng)某處出現(xiàn)故障或整個系統(tǒng)發(fā)生故障,IT資產(chǎn)也能繼續(xù)運行。Uptime Institute首席技術(shù)官Chris Brown稱:“供應(yīng)雙線IT設(shè)備的2N配電系統(tǒng)的出現(xiàn)使得IT系統(tǒng)能夠在經(jīng)歷一系列獨立事件和事故后仍能繼續(xù)保持運行。”

同時,日益復(fù)雜的IT環(huán)境導(dǎo)致了更多的IT和網(wǎng)絡(luò)問題。Uptime Institute負(fù)責(zé)IT優(yōu)化和戰(zhàn)略的副總裁Todd Traver稱:“數(shù)據(jù)現(xiàn)在分布在多個地方,這些數(shù)據(jù)極為依賴網(wǎng)絡(luò)。應(yīng)用程序的構(gòu)建以及數(shù)據(jù)庫的復(fù)制同樣也非常依賴網(wǎng)絡(luò)。這是一個非常復(fù)雜的系統(tǒng)?!?/p>

對數(shù)據(jù)中心運行中斷的嚴(yán)重性的評估

為了區(qū)分可能導(dǎo)致業(yè)務(wù)崩潰的運行中斷和僅僅造成不便的運行中斷,Uptime Institute對此進(jìn)行了分級。該評級系統(tǒng)可讓研究人員了解運行中斷的整體情況是如何隨時間而變化的。Uptime Institute的評估分為五個等級:

1級為可忽略不計的中斷。該級別的中斷會被記錄下來,但是對服務(wù)的影響很小或沒有明顯影響,也沒有出現(xiàn)服務(wù)中斷。

2級的特點為最低程度的服務(wù)中斷。服務(wù)出現(xiàn)中斷,但對用戶、客戶或聲譽的影響微乎其微。

3級為重要業(yè)務(wù)發(fā)生服務(wù)中斷,涉及客戶或用戶服務(wù),主要特點是范圍、持續(xù)時間或影響有限。對財務(wù)的影響輕微甚至沒有,但是會產(chǎn)生一些聲譽或合規(guī)方面的影響。

4級為嚴(yán)重的業(yè)務(wù)或服務(wù)中斷,涉及服務(wù)和/或操作。波及面包括財務(wù)損失、數(shù)據(jù)泄露、聲譽損害并可能出現(xiàn)安全問題??赡軙?dǎo)致客戶損失。

5級為關(guān)鍵業(yè)務(wù)或任務(wù)出現(xiàn)中斷,包括服務(wù)和/或運營出現(xiàn)重大和破壞性中斷。 可能會造成重大財務(wù)損失、安全問題、數(shù)據(jù)泄露、客戶損失和名譽損失。

在分析了三年內(nèi)所有公開的數(shù)據(jù)中心運行中斷(級別1到5)事件后,Uptime Institute發(fā)現(xiàn)IT系統(tǒng)和網(wǎng)絡(luò)問題已經(jīng)超過了電源成為了主要原因(見圖)。

在逐年對原因進(jìn)行比較后,這種趨勢會顯得尤為突出。2017年,電力是28%運行中斷事件的罪魁禍?zhǔn)?。次年,僅有11%的運行中斷事件的主因為停電。與IT系統(tǒng)有關(guān)的故障則在這兩年中基本保持一致。其中,2017年32%的運行中斷事件的主因為系統(tǒng)故障,2018年這一比例為35%。網(wǎng)絡(luò)作為運行中斷的主要原因在顯著增長。其中,2017年19%的運行中斷事件被歸咎于網(wǎng)絡(luò),2018年這一比例飆升到了32%。

Traver在談到2018年運行中斷事件數(shù)量大幅增長時指出,“這些事情之間的確是相互聯(lián)系的。這也就是為什么網(wǎng)絡(luò)中斷的大幅上升會導(dǎo)致運行中斷的原因所在。這些東西不是連接在一個或兩個站點上,而是連接在三個、四個站點,甚至更多的站點上。如今,網(wǎng)絡(luò)在IT彈性方面正發(fā)揮著越來越大的作用。

此外,隨著更多IT資源被移交給服務(wù)提供商,并且不再受使用它們的企業(yè)的直接控制,管理和操作也變得越來越復(fù)雜。Traver稱:“在2018年,三分之二的運行中斷事件與網(wǎng)絡(luò)和IT有關(guān)。這是在過去幾年中出現(xiàn)的一個重大變化?!?/p>

深入研究數(shù)據(jù)中心的宕機時間

Uptime Institute對導(dǎo)致數(shù)據(jù)中心運行中斷的具體原因進(jìn)行了深入的研究。在網(wǎng)絡(luò)方面,導(dǎo)致運行中斷的常見原因包括:

連接數(shù)據(jù)中心的外部光纖被切斷,并且未充分選擇備份路由。

主要交換機間歇性故障,且未部署次要路由器。

主要交換機故障且沒有備份。

維護(hù)期間未正確配置流量。

路由器和軟件定義的網(wǎng)絡(luò)未正確配置。

無備用的單個組件(如交換機和路由器)發(fā)生斷電。

Traver指出,“錯誤配置的路由器和軟件定義的網(wǎng)絡(luò)是常見的網(wǎng)絡(luò)問題。這一問題應(yīng)當(dāng)可通過測試被檢測出來。”

當(dāng)談到光纖被切斷問題時,Traver說,企業(yè)此時往往沒有意識到他們發(fā)生了單點故障?!捌髽I(yè)可能有兩個獨立的服務(wù)提供商,但他們不知道,兩個提供商的光纖埋在同一個溝渠中。同時,企業(yè)也沒有對這一問題展開恰當(dāng)?shù)谋M職調(diào)查?!?/p>

當(dāng)IT為罪魁禍?zhǔn)讜r,造成運行中斷的主要原因如下:

對升級工作管理不善,對軟件級別測試不充分。

大型磁盤驅(qū)動器或存儲區(qū)域網(wǎng)絡(luò)發(fā)生故障并出現(xiàn)數(shù)據(jù)損壞。這可能是由硬件故障引起的,配置或編程錯誤讓問題雪上加霜。

負(fù)載平衡或流量管理系統(tǒng)中發(fā)生同步故障或程序錯誤。

未能對故障/同步或災(zāi)難恢復(fù)系統(tǒng)進(jìn)行正確的編程。

無備用的單個組件(如服務(wù)器或大型磁盤驅(qū)動器)發(fā)生斷電。

談到負(fù)載均衡/流量管理問題,Lawrence表示,在企業(yè)嘗試將IT資源部署的更為分散時,可能會出現(xiàn)程序錯誤和同步問題。Lawrence說:“減少對單一站點的依賴性通常是企業(yè)戰(zhàn)略的一部分,但是它們就像擠壓氣球一樣,問題突然出現(xiàn)在其他地方?!?/p>

Traver補充道,如果企業(yè)沒有認(rèn)真規(guī)劃他們在所有平臺上的應(yīng)用程序和數(shù)據(jù),或是沒有展開經(jīng)常性測試,那么這些問題就會發(fā)生。

當(dāng)電源是罪魁禍?zhǔn)讜r,導(dǎo)致運行中斷的一些主要原因包括:

雷擊導(dǎo)致出現(xiàn)電涌和斷電。備份軟件/配置失敗。

轉(zhuǎn)換開關(guān)出現(xiàn)間歇性故障,導(dǎo)致無法啟動發(fā)電機,或轉(zhuǎn)移到第二個數(shù)據(jù)中心。

UPS故障和無法轉(zhuǎn)移到輔助系統(tǒng)。

操作錯誤,關(guān)閉或未正確配置電源。

公用電力斷電,隨后發(fā)生發(fā)電機或UPS故障。

電涌導(dǎo)致IT設(shè)備損壞。

IT設(shè)備未配備兩種互為備份的電源供給方式。

Brown稱,在以電源問題為主因的運行中斷事件中,所有具體原因大家都非常熟悉。“這些都是數(shù)據(jù)中心的工程師們幾十年來一直在努力解決的問題,即如何圍繞這些問題進(jìn)行設(shè)計,以及如何利用他們的設(shè)計緩解這些問題。”

Traver表示,總的來說,企業(yè)需要更加關(guān)注數(shù)據(jù)中心的彈性。他說:“要知道自己的系統(tǒng)是如何設(shè)計的,充分理解各部分之間的關(guān)聯(lián)性。同時還要知道故障是如何發(fā)生的,以及故障發(fā)生后的應(yīng)急預(yù)案。而我認(rèn)為這一塊是缺失的。”

Lawrence總結(jié)道,“如今設(shè)備正越來越好,管理越來越出色,經(jīng)驗也越來越豐富。整個行業(yè)正變得越來越成熟。但即便如此,運行中斷仍將是一個非常重要和代價高昂的問題?!?/p>

本文作者Ann Bednarz,主要負(fù)責(zé)為《網(wǎng)絡(luò)世界》采訪報道IT職業(yè)、外包和互聯(lián)網(wǎng)文化方面的新聞。

原文網(wǎng)址

https://www.networkworld.com/article/3373646/network-problems-responsible-for-more-data-center-outages.html

猜你喜歡
宕機中斷數(shù)據(jù)中心
酒泉云計算大數(shù)據(jù)中心
島內(nèi)人口普查剛啟動就遇“宕機”
民航綠色云數(shù)據(jù)中心PUE控制
跟蹤導(dǎo)練(二)(5)
千里移防,衛(wèi)勤保障不中斷
基于集中采購的分布式系統(tǒng)的設(shè)計與實現(xiàn)
一起民航氣象數(shù)據(jù)庫系統(tǒng)進(jìn)程頻繁宕機故障分析及處理方法
基于云計算的交通運輸數(shù)據(jù)中心實現(xiàn)與應(yīng)用
Overlay Network技術(shù)在云計算數(shù)據(jù)中心中的應(yīng)用
AT89C51與中斷有關(guān)的寄存器功能表解
尚志市| 永修县| 青龙| 屏边| 右玉县| 牙克石市| 浮山县| 琼结县| 漳浦县| 博湖县| 伊金霍洛旗| 子长县| 蒙自县| 苏尼特左旗| 富顺县| 雷州市| 年辖:市辖区| 尤溪县| 宁陵县| 兴安盟| 英吉沙县| 洪洞县| 琼中| 开远市| 汶川县| 宁武县| 武冈市| 宜君县| 鄱阳县| 革吉县| 丰镇市| 大田县| 通山县| 拉萨市| 孟连| 和平县| 共和县| 香港| 英超| 同心县| 图木舒克市|