引言: 筆者單位因工作需要,購置了4臺服務(wù)器連接到網(wǎng)絡(luò)中。將4臺服務(wù)器裝好系統(tǒng),連接好網(wǎng)絡(luò)的時候,發(fā)現(xiàn)整個服務(wù)器局域網(wǎng)網(wǎng)絡(luò)延時非常高,甚至經(jīng)常有丟包現(xiàn)象,而且發(fā)生延時的服務(wù)器還在變化。經(jīng)一步步測試排查,終于解決了問題。本文向大家介紹故障排查及解決的過程。
公司近期采購了4臺服務(wù)器(聯(lián) 想X3850X6),用 作虛擬化服務(wù)器,安裝了VMware ESXi系統(tǒng),每臺服務(wù)器均有4個RJ45千兆網(wǎng)口(以下簡稱電口),2個光適配器,每個光適配器有2個萬兆光纖口,總計4個萬兆光口(以下簡稱光口)。為了保證業(yè)務(wù)連續(xù),每臺服務(wù)器管理網(wǎng)絡(luò)與應(yīng)用網(wǎng)絡(luò)需要分開,并且管理網(wǎng)絡(luò)與應(yīng)用網(wǎng)絡(luò)均需要做負載均衡。公司擁有兩臺HP5406企業(yè)級交換機,用作機房服務(wù)器匯聚。每臺HP5406匯聚交換機均擁有1個光模塊(HP J9538A),5 個電模塊 (HP J9534A),如圖1所示。
圖1 模塊信息圖
每個光模塊擁有8個光插槽,最多可以8個萬兆光纖收發(fā)器;每個電模塊擁有24個千兆網(wǎng)口;兩臺交換機的A1-A4都已經(jīng)用作上聯(lián)核心交換機,剩余A5-A8光口可以用,正好可以連4臺服務(wù)器,用作服務(wù)器的應(yīng)用網(wǎng)絡(luò)(運行應(yīng)用業(yè)務(wù)數(shù)據(jù)),交換機的電口F3-F6連4臺服務(wù)器的電口,用作管理網(wǎng)絡(luò)(管理ESXi機和用作VMotion)。連線情況如表1、表2所示。
簡單來說就是每臺主機都接了2根網(wǎng)線和2根光纖,2根網(wǎng)線分別上聯(lián)2臺交換機用作管理,2根光纖分別上聯(lián)2臺交換機用作跑應(yīng)用,都用2根線則是為了負載均衡或防止單點故障。
4臺服務(wù)器都裝好系統(tǒng),連接好網(wǎng)絡(luò)的時候,發(fā)現(xiàn)整個服務(wù)器局域網(wǎng)網(wǎng)絡(luò)延時非常高(通過Ping命令測試),高達幾百毫秒,甚至經(jīng)常有丟包現(xiàn)象,而且奇怪的是不是這四臺聯(lián)想服務(wù)器卡,是局域網(wǎng)內(nèi)其他服務(wù)器延時(如域控、RTX、PDM、K3、CAD等),并且不是所有服務(wù)器一起延時,而是一會這臺服務(wù)器卡,一會另外一臺服務(wù)器卡,并且本人Ping CAD卡的時候,別人Ping CAD又正常,但是他可能Ping k3卡,而且延時的服務(wù)器還在變化,一會又變成另外一臺機器卡,現(xiàn)象非常神奇。
表1 與交換機1連線說明
表2 與交換機2連線說明
1.由于是新連接了服務(wù)器之后網(wǎng)絡(luò)才開始出現(xiàn)這種延時現(xiàn)象,所以首先把4臺服務(wù)器連接到交換機上的網(wǎng)線光纖全部拔掉,果然網(wǎng)絡(luò)延時現(xiàn)象立馬消失,由此可以判斷,是這4臺服務(wù)器引起的故障。
2.為了定位到底是哪臺機器引起的,采取逐步接入的方法找出故障點。先接入ESXi3的VNET04到huiju1的A5口,觀察發(fā)現(xiàn)網(wǎng)絡(luò)正常。再接入ESXi4的VNET04到huiju1的A6口,沒過幾分鐘,網(wǎng)絡(luò)延時現(xiàn)象出現(xiàn),拔掉A6口光纖,延時現(xiàn)象立刻消失。難道是交換機承受不了同時2臺萬兆網(wǎng)卡服務(wù)器接入?細細想來不太可能,畢竟HP5406是企業(yè)級交換機,不應(yīng)該在性能上承受不了。
繼續(xù)測試,在ESXi3連接A5,ESXi24不連A6的時候,再將ESXi25的VNET04口連接到huiju1的A7口,觀察后發(fā)現(xiàn)網(wǎng)絡(luò)也正常,之后A8口接入也正常。同樣的方法測試第二臺HP交換機,現(xiàn)象類似,也是再接入A6口之后,就網(wǎng)絡(luò)延時,只要不接A6端口,網(wǎng)絡(luò)就正常,唯一不同的是,二臺交換機的A5口接入之后,會有少量的延時,但是問題不大,只有幾十毫秒的延時。問題集中在A6端口,與此同時連接A6端口的都是第二臺聯(lián)想服務(wù)器ESXi4,懷疑它有問題。
3.此時分析,雖然接入兩臺交換機A6都有問題,且問題相似,應(yīng)該是同一個問題,只要解決一個,另外一個也就好解決了。為了防止環(huán)路導致的情況影響測試,故采取只連一臺服務(wù)器的方式繼續(xù)尋找根源。根據(jù)線路走勢,懷疑對象分別為:服務(wù)器ESXi4、光纖、光纖收發(fā)器、HP交換機。
4.為了測試聯(lián)想服務(wù)器是否有問題,采取交差測試的方法,將ESXi4連到之前測試正常的端口A7,觀察一段時間,發(fā)現(xiàn)網(wǎng)絡(luò)正常,此時A5、A8端口也都連著設(shè)備,網(wǎng)絡(luò)依然正常,排除聯(lián)想主機問題、排除光纖問題(因為光纖用的是原來的光纖)。
5.此時只剩下光纖收發(fā)器和HP交換機需要測試,再交換測試光纖收發(fā)器,發(fā)現(xiàn)只要不連接A6端口,網(wǎng)絡(luò)就正常,不管哪個光纖收發(fā)器只要插到A6口,連上設(shè)備,網(wǎng)絡(luò)就發(fā)生故障,排除光纖收發(fā)器故障,問題集中到交換機上,并且兩臺交換機都在A6的地方有問題,可能是這款交換機有問題。
6.撥打800電話咨詢,客服建議報修交換機的光模塊板卡J9538A。再咨詢HP總代的HP工程師,建議對交換機的系統(tǒng)版本降低測試。一個從硬件角度一個從軟件角度懷疑,由于備件發(fā)貨需要時間,3天后才能到貨,故優(yōu)先采取刷ROM系統(tǒng)版本的方法測試。
7.向總代工程師要來系統(tǒng)ROM文件,詳細的操作手冊以及相關(guān)工具,征求相關(guān)領(lǐng)導的同意,在下班之后,開始實施交換機版本降級。
圖2 系統(tǒng)版本圖
8.首先備份好兩臺交換機的配置文件,然后再開始正式實施。
在一臺PC機器上允許TFTP.exe程序,將相關(guān)ROM文件放入TFTP當前目錄,登錄匯聚交換機huiji1,運行copy flash tftp
提示要刪除primary image,按Y執(zhí)行刪除操作,交換機開始重裝系統(tǒng)讀秒,剛重裝好系統(tǒng)的時候,Ping 交換機延時會比較高,CPU使用率也比較高,此時不要著急,慢慢會降下來,等一切都穩(wěn)定下來之后,代表系統(tǒng)安裝結(jié)束,執(zhí)行reboot命令重啟交換機即可。
運行show version,如圖2所示,已經(jīng)順利刷新到我們想要的版本。
9.再將各服務(wù)器連入交換機測試,發(fā)現(xiàn)網(wǎng)絡(luò)一切正常,同樣的方法對第二臺交換機更換系統(tǒng)版本,再測試,網(wǎng)絡(luò)仍然一切正常,故障徹底解決。
1.故障發(fā)生,運維的第一個任務(wù),把故障恢復到正常狀態(tài),因為是做了變更導致,那么就恢復到變更之前。
2.開始尋找原因,逐步變更,為分析問題提供資料,爭取定位故障點。
3.分析故障,羅列可能發(fā)生故障的模塊。
4.交差測試與排除法減小懷疑對象范圍。
5.反復測試,再分析,直到找到最有可能故障的模塊。
6.電話咨詢800、與其他專家(故障處理求助)。
7.之前所述,故障處理一起都以對業(yè)務(wù)影響最小為前提,所以必須在下班以后操作,并且恢復系統(tǒng)本身也是一個變更操作,需要得到領(lǐng)導的同意方可。
8.因為經(jīng)過電話求助,有詳細的操作說明,實施反而是最簡單的了,當然也如之前所述,備份工作是恢復網(wǎng)絡(luò)故障的關(guān)鍵,所以備份操作必不可少。
9.測試驗證問題是否還存在。后經(jīng)詢問,這兩臺交換機在之前曾經(jīng)有同事給交換機升級過系統(tǒng)版本。