筆者單位在九十年代初期就建立了小型數(shù)據(jù)中心機(jī)房,從那時(shí)開始一直維護(hù)使用到現(xiàn)在。最初有幾臺(tái)服務(wù)器,發(fā)展至今已有三十余臺(tái)服務(wù)器。早期采購(gòu)的服務(wù)器以SUN的服務(wù)器為主,也搭配一些其他服務(wù)器,SUN服務(wù)器的存儲(chǔ)采用SUN StorEdge351磁盤陣列。SUN StorEdge3510磁盤陣列與服務(wù)器采用DAS通過FC光纖直接連接,做的RAID5+Spare(9塊 146GB磁盤做RAID5,1塊146GB磁盤做全局熱備),從筆者承擔(dān)網(wǎng)管工作以來,設(shè)備運(yùn)行一直很穩(wěn)定,極少發(fā)現(xiàn)問題。直到近期,筆者和同事在日常巡查機(jī)房時(shí),發(fā)現(xiàn)某個(gè)機(jī)架傳出報(bào)警聲。
嘀嘀嘀的報(bào)警聲,聽上去聲音不大也不刺耳,我們并沒有很快判斷出是機(jī)架上哪一臺(tái)設(shè)備報(bào)警,通過觀察設(shè)備指示燈和其他設(shè)備,大致確定是SUN StorEdge3510磁盤陣列報(bào)警。登錄服務(wù)器發(fā)現(xiàn)磁盤陣列可讀寫,不影響數(shù)據(jù)。
看看設(shè)備上貼的標(biāo)簽,標(biāo)簽上寫著10.0.14.14,這是磁盤陣列管理地址。找了一臺(tái)筆記本設(shè)置好相同網(wǎng)段的地址,通過超級(jí)終端telnet連上去,提示輸入密碼Password,想了想不確定密碼是什么,輸入幾次密碼都不對(duì)。這下有點(diǎn)兒不知所措,想到直接連COM口看看,但是又找不到COM串口線。
好在磁盤陣列是通過光纖直接連接服務(wù)器,登錄服務(wù)器以root身份運(yùn)行pkginfo | grep sccli(操作系統(tǒng)是 Sun Solaris9),發(fā)現(xiàn)安裝Sun StorEdge 3000 Family CLI,可 以 使用磁盤陣列管理命令。在命令行下輸入 sccli,進(jìn) 入 sccli>,輸入show events,查看磁盤陣列日志信息,發(fā)現(xiàn)有警告顯示“ALERT: SCSI drive failure (CH2 ID11)、CH2 ID11:ALERT: redundant path failure detected、CH2 ID11:SCSI Target ALERT: unexpected select timeout”。懷疑11號(hào)磁盤有問題。
在sccli>下,輸入show disks,查看磁盤陣列中磁盤的信息,10號(hào)磁盤Status狀 態(tài) 顯 示USED,11號(hào) 盤Status狀態(tài)顯示FRMT。11號(hào)磁盤顯示的狀態(tài)很奇怪,磁盤有問題一般狀態(tài)顯示BAD。先替換11號(hào)磁盤看看,找出備用的磁盤陣列磁盤,按照磁盤陣列的ID號(hào)規(guī)則(如圖1),找出11號(hào)磁盤,替換11號(hào)盤。在sccli>下,輸 入show disks,查看磁盤陣列中磁盤的信息,10號(hào)磁盤Status狀態(tài)顯示USED,11號(hào)磁盤Status狀態(tài)顯示rebuild,但是報(bào)警聲一直未停。再查看一下磁盤陣列日志,發(fā) 現(xiàn)“CH2 ID10: ALERT:redundant path failure detected、CH2 ID10: SCSI Target ALERT: unexpected select timeout、ALERT:SCSI drive failure (CH2 ID10)”,我們很疑惑,難道10號(hào)磁盤也壞了?在磁盤陣列里10號(hào)磁盤是設(shè)置為備盤的,而且狀態(tài)顯示USED,不是 BAD。
至此,我們考慮可能11號(hào)磁盤和10號(hào)磁盤并沒有壞,干脆把換下的11號(hào)磁盤換掉10號(hào)磁盤看看會(huì)怎么樣。替換完磁盤,查看磁盤狀態(tài)信息,顯示FMRT,格式化,后來顯示STAND-BY,LD(邏輯驅(qū)動(dòng)器)信息顯示GLOBAL(全局熱備),感覺磁盤故障解決了。
圖1 磁盤驅(qū)動(dòng)器插槽ID號(hào)規(guī)則示意圖
但是報(bào)警聲沒有停,奇怪的是11號(hào)磁盤,怎么可以使用換掉10號(hào)磁盤?很懷疑10號(hào)磁盤沒有壞,可能只是10號(hào)磁盤從安裝到磁盤陣列前就已經(jīng)使用過,磁盤上有數(shù)據(jù),裝到磁盤陣列上又沒有進(jìn)行配置(設(shè)置為 GLOBAL),導(dǎo) 致 11號(hào) 磁盤出現(xiàn)故障,10號(hào)磁盤熱備盤沒有啟用,磁盤陣列報(bào)警。但是換下的11號(hào)磁盤能換下疑似有故障的10號(hào)磁盤繼續(xù)使用,可能是11號(hào)磁盤最開始被格式使磁盤能繼續(xù)使用的緣故。
通過查看show logical-drives,磁盤陣列狀態(tài)顯示Good。通過mute命令清除了報(bào)警聲,磁盤陣列中的磁盤運(yùn)行狀態(tài)正常。為了更好地保障業(yè)務(wù),盡可能避免風(fēng)險(xiǎn),我們用新磁盤更換了磁盤陣列10號(hào)磁盤。
實(shí)際上,最終我們將磁盤陣列的10號(hào)和11號(hào)的磁盤全部更換為了新磁盤。這次故障處理經(jīng)歷,讓我們感覺很疑惑。雖然故障沒影響到單位業(yè)務(wù),但卻暴露了我們網(wǎng)管工作的一些弱點(diǎn)。
根據(jù)此次故障處理過程中遇到問題,筆者進(jìn)行了思考并做了總結(jié)。
1.網(wǎng)絡(luò)管理員一定要記好機(jī)房設(shè)備的維護(hù)管理的重要信息,例如,管理地址、管理的用戶名和密碼等。
2.網(wǎng)絡(luò)管理員要將設(shè)備管理的線纜存放好,便于排查故障時(shí)使用。
3.網(wǎng)絡(luò)管理員要注意磁盤陣列中磁盤排列順序,避免在維護(hù)時(shí)拔錯(cuò)磁盤。如本文SUN StorEdge 3510磁盤陣列磁盤順序如圖1。
4.網(wǎng)絡(luò)管理員在日常巡查時(shí),要及時(shí)查看磁盤陣列的日志情況,及時(shí)發(fā)現(xiàn)問題并解決。
5.對(duì)于老舊設(shè)備,網(wǎng)絡(luò)管理員要做好簡(jiǎn)單、冗余和可熱插拔配件的儲(chǔ)備,以便維護(hù)更換,保障業(yè)務(wù)不間斷,例如,硬盤、風(fēng)扇、電源等。
6.對(duì)于老舊設(shè)備,網(wǎng)絡(luò)管理員要提高數(shù)據(jù)備份的頻率(周期)。
7.建立設(shè)備操作臺(tái)賬,避免留下故障疑惑點(diǎn)或隱患。