文|美國福祿克公司 尹 崗
如果你的數(shù)據(jù)中心對可靠性要求很高,那么數(shù)據(jù)機(jī)房的關(guān)鍵物理鏈路要按照1:1做冗余備份(GB 50174-2007要求A級),但實(shí)際運(yùn)行中經(jīng)常發(fā)現(xiàn),雖然網(wǎng)絡(luò)建設(shè)時非常注重質(zhì)量管理,但在使用過程中備份鏈路及在用鏈路也可能不支持新上的高速設(shè)備,這讓運(yùn)維人員和網(wǎng)管人員比較困惑,因?yàn)?,此鏈路以前做過驗(yàn)收測試,難道以前經(jīng)過驗(yàn)收測試的鏈路質(zhì)量也會發(fā)生“飄移”?其實(shí),引起參數(shù)變化的原因有多種,有時我們會改變布線系統(tǒng)結(jié)構(gòu),比如新增加了跳線,新增加了萬兆應(yīng)用,重新調(diào)整物理拓?fù)浣Y(jié)構(gòu)等;另一些原因則是由于環(huán)境變化引起的,比如溫度變化、漏雨、有毒氣體侵蝕、蟲吃鼠咬等。什么時候發(fā)現(xiàn)這些“改變”?多數(shù)時候都是網(wǎng)絡(luò)出現(xiàn)故障或按計劃上新設(shè)備、新應(yīng)用時,這與高可靠性數(shù)據(jù)中心“在線容錯”和“快速診斷”的要求是不相符的。以下我們用一些檢測實(shí)例來說明這類不穩(wěn)定現(xiàn)象的真正原因,揭示持續(xù)保證布線系統(tǒng)高可靠性的最有效方法。
支持萬兆的鏈路有幾項條件,對于電纜鏈路,主要是鏈路參數(shù)要達(dá)到要求(這項通常在工程交接驗(yàn)收時都能達(dá)到),如果是成捆電纜布放,則外部串?dāng)_參數(shù)也要達(dá)到要求(這項經(jīng)常被忽視),環(huán)境干擾不能過大(這項有時不好控制);對于光纖鏈路,除了最好使用OM3光纖(可以支持300m,俗稱萬兆光纖)或者OM2光纖(可以支持82m)外,鏈路總損耗(這項通常在工程交接驗(yàn)收時能達(dá)到)和連接點(diǎn)損耗也要符合一定要求(這項常被忽視)才能得到保障。
故障現(xiàn)象:一直使用千兆網(wǎng)卡接入服務(wù)器,新近按照計劃更換了部分核心交換機(jī),準(zhǔn)備將服務(wù)器全部改為萬兆接入。結(jié)果發(fā)現(xiàn)竟然沒有一臺萬兆服務(wù)器能接入網(wǎng)絡(luò)。起先懷疑是服務(wù)器有問題,更換新的服務(wù)器后故障依舊,然后懷疑是交換機(jī)有問題,結(jié)果交換機(jī)廠商拿來新樣機(jī)實(shí)驗(yàn)還是不行,最后才不得不懷疑是電纜鏈路有問題。但是查看竣工驗(yàn)收資料,電纜鏈路全部是合格的Cat.6A鏈路,而且是著名的監(jiān)理公司負(fù)責(zé)監(jiān)督和檢測的,更讓人難于置信的是,這些鏈路之前運(yùn)行千兆服務(wù)器時都工作得很正常。如果真是電纜鏈路不合格,那么必須要更換電纜,這個時間工期就來不及了。
故障診斷:用電纜分析儀DTX-1800檢測Cat.6A電纜鏈路,結(jié)果發(fā)現(xiàn)全部不合格,只能滿足Cat.5e的要求,說明這是用Cat.5e仿冒的Cat.6A電纜鏈路??梢钥隙ǖ氖?,原來的驗(yàn)收檢測報告肯定是偽造的。
改進(jìn)方法:先將需要上萬兆的機(jī)臺服務(wù)器鏈路更換為Cat.6A,其他的仍然運(yùn)行千兆的鏈路暫時不予更換,待今后擇機(jī)進(jìn)行。
問題預(yù)防:認(rèn)真執(zhí)行驗(yàn)收測試可以發(fā)現(xiàn)這類潛藏問題,更重要的是,如果后期定期進(jìn)行檢測,則可以提前發(fā)現(xiàn)此類無力控制的作弊問題(Cat.5e可以很好地支持千兆鏈路),避免后期升級網(wǎng)絡(luò)時才發(fā)現(xiàn)問題,造成時間和設(shè)備的浪費(fèi)。
故障現(xiàn)象:新上30臺萬兆服務(wù)器,淘汰原來的千兆服務(wù)器,新交換機(jī)也全部更新為支持萬兆端口的設(shè)備,發(fā)現(xiàn)其中約有10臺左右的服務(wù)器端口仍然是千兆(自適應(yīng)),如果強(qiáng)制設(shè)定為萬兆,則連接中斷。懷疑是交換機(jī)端口有問題,試著改接到其他交換機(jī)端口,也不能連接。查看原來的驗(yàn)收記錄,參數(shù)全部合格。穩(wěn)妥起見,重新對這些不能使用的萬兆鏈路用電纜分析儀DTX-1800進(jìn)行測試,參數(shù)也全部合格(永久鏈路)。此間接證明是設(shè)備供應(yīng)商提供的這批交換機(jī)有問題。試著將“在用的”另一臺不同品牌的交換機(jī)短時試驗(yàn)性替代接入(更改相應(yīng)配置),結(jié)果發(fā)現(xiàn)還是不能接入。
故障診斷:改變一下測試方法,首先使用電纜分析儀DTX-1800測試10條故障鏈路的“通道”參數(shù),結(jié)果2條合格8條不合格。這說明是設(shè)備跳線后導(dǎo)致參數(shù)不合格,但為什么又有2條合格?這是因?yàn)橥ǖ罍y試并不包括被測鏈路兩端的水晶頭參數(shù),所以該水晶頭本身質(zhì)量低劣或打線不合格,通道參數(shù)仍然有可能合格(不兼容)。接下來更換跳線測試適配器對新上設(shè)備的跳線逐一進(jìn)行測試,結(jié)果發(fā)現(xiàn)全部不合格。重新更換同一品牌的匹配跳線,10臺服務(wù)器全部正常工作。
問題預(yù)防:對批量購入的跳線進(jìn)行入庫檢測能有效地阻止劣質(zhì)或不兼容跳線進(jìn)入高可靠性的高速網(wǎng)絡(luò)。如果定期對鏈路進(jìn)行檢測,也能及早發(fā)現(xiàn)這類后續(xù)運(yùn)行維護(hù)階段才出現(xiàn)的不兼容問題。
故障現(xiàn)象:一臺萬兆服務(wù)器在工作半年后出現(xiàn)時斷時續(xù)的現(xiàn)象,誤碼率明顯升高,幾天后變得非常嚴(yán)重,試著重啟服務(wù)器,結(jié)果其連接速度經(jīng)常在萬兆和千兆之間擺動,懷疑是網(wǎng)卡老化,試著更換網(wǎng)卡,現(xiàn)象依舊。改跳其他交換機(jī)端口,無果。調(diào)閱電纜驗(yàn)收參數(shù),合格;測試電纜鏈路,參數(shù)合格;測試跳線,參數(shù)依然合格。遂懷疑是服務(wù)器本身問題,試著臨時調(diào)換另一臺服務(wù)器做對比,現(xiàn)象依舊。
故障診斷:鏈路使用的是Cat.6A UTP鏈路,支持萬兆綽綽有余,鏈路參數(shù)測試和容易被忽視的跳線測試也合格,說明單根鏈路本身沒有問題,需要考慮是否是鏈路的外部工作環(huán)境有問題。本鏈路被綁扎在一捆48根電纜束中,需要使用外部串?dāng)_適配器對其進(jìn)行外部串?dāng)_測試,測試結(jié)果發(fā)現(xiàn)參數(shù)嚴(yán)重超標(biāo)。
改進(jìn)方法:將48根電纜捆改成每6根一捆,服務(wù)器重新開機(jī),故障消失。究其原因:服務(wù)器工作一個月后由于多臺新增加的萬兆服務(wù)器一周之內(nèi)陸續(xù)投入運(yùn)行,造成越來越嚴(yán)重的外部串?dāng)_,誤碼率上升,直至影響到各種應(yīng)用,重啟服務(wù)器導(dǎo)致萬兆端口自適應(yīng)失敗(變?yōu)榍д谞顟B(tài),嚴(yán)重的甚至有可能變?yōu)榘僬谞顟B(tài))。
問題預(yù)防:如果定期對鏈路進(jìn)行抽測或者輪測,可以早期發(fā)現(xiàn)這類潛藏很深及影響布線系統(tǒng)高可靠性的問題。
對絕大多數(shù)數(shù)據(jù)中心用戶來說,從千兆光纖升級到萬兆光纖是一條很自然的技術(shù)路線。一種方法是直接升級到萬兆光纖系統(tǒng),另一種方法是先布放支持萬兆速率的光纖系統(tǒng),待應(yīng)用提升和資金允許時再升級到萬兆應(yīng)用。
故障現(xiàn)象:一個大型IDC機(jī)房按工程預(yù)算計劃升級150臺千兆服務(wù)器到萬兆服務(wù)器,最后約有15臺不成功,無法實(shí)現(xiàn)萬兆連接,更換回千兆光卡則又能恢復(fù)連接,由此懷疑鏈路長度或損耗超標(biāo),但查看數(shù)據(jù)庫記錄損耗均在2.5dB以內(nèi),長度不超過150m,使用的OM3萬兆光纖。最后決定進(jìn)行實(shí)測驗(yàn)證,使用DTX-1800MSO檢測,發(fā)現(xiàn)13條鏈路的損耗和長度均符合要求,損耗控制在2.5dB,長度在150m以內(nèi)(OM3要求不超過300m),但有兩條鏈路的長度略有超長,分別達(dá)到340m和402m,損耗在2.7dB以內(nèi)。使用DTX-1800MSO自帶的DTX-OTDR模塊進(jìn)行進(jìn)一步測試,發(fā)現(xiàn)超長的鏈路是被人為進(jìn)行過二次非法跳接,應(yīng)該是在使用過程中有維護(hù)人員重復(fù)跳接過。
故障診斷:使用DTX-OTDR檢測發(fā)現(xiàn),這15條鏈路中均存在至少一個跳接點(diǎn)損耗超差,損耗超過0.8dB。用顯微鏡仔細(xì)檢查這些跳接點(diǎn),發(fā)現(xiàn)光纖端面本身沒有什么大問題,就是污漬太多。按照DTX-OTDR提示的位置,逐一對這15條不合格光纖鏈路對應(yīng)跳接點(diǎn)進(jìn)行清潔,重新安裝后啟動機(jī)器,全部恢復(fù)正常運(yùn)行。
問題預(yù)防:安裝過程中就可能污損光纖端面,需要在正式接入前清潔干凈。后續(xù)維護(hù)、升級等過程中則存在防塵帽不裝、跳線不清潔就直接安裝等問題,這些都可以在定期檢測中暴露出來,而不是等到實(shí)施系統(tǒng)和應(yīng)用升級時才會暴露出來。對于高可靠性數(shù)據(jù)中心用戶而言這是不可容忍的疏忽。
光纖一級測試是指傳統(tǒng)的損耗——長度測試,對于低速鏈路而言,只要損耗和長度測試通過,則完全可以支持對應(yīng)的應(yīng)用,但對于高速光纖鏈路而言,只考慮整條鏈路的總損耗和長度是否合格是遠(yuǎn)遠(yuǎn)不夠的,必須確認(rèn)每個連接點(diǎn)的損耗都符合要求才能大致確保穩(wěn)定支持高速應(yīng)用,這就需要實(shí)施二級測試。二級測試是在一級測試的基礎(chǔ)上在增加OTDR測試,并利用OTDR曲線確認(rèn)鏈路中是否存在引起鏈路性能下降的“事件”。這些事件可能是連接點(diǎn)問題、熔接點(diǎn)問題、光纖微彎、晶裂、彎曲半徑過小、捆扎過緊、張力太大等問題。
布線系統(tǒng)多數(shù)情況下被認(rèn)為是不會更動的,只是在新家裝設(shè)備的時候會對應(yīng)加上跳線,并對跳線做綁扎處理,少數(shù)時候會進(jìn)行二次跳線。問題也往往出現(xiàn)在這里,首先是實(shí)用的跳線可能是不合格的或是隨意自制的劣質(zhì)跳線;其次是理線過程會因?yàn)榫o密捆扎和彎曲導(dǎo)致鏈路質(zhì)量下降或外部串?dāng)_增加,從而引發(fā)誤碼率增加的問題;最后是設(shè)備的接地問題或從電源供應(yīng)系統(tǒng)竄入過量的諧波和干擾信號,導(dǎo)致鏈路誤碼率上升。
故障現(xiàn)象:昨天上了10臺萬兆服務(wù)器,工作正常,今天又上了6臺,工作正常,但卻發(fā)現(xiàn)昨天投入運(yùn)行的服務(wù)器中有2臺誤碼率突然變得很高。關(guān)上新增加的6臺服務(wù)器電源,問題依舊,非常奇怪。查看問題服務(wù)器CPU利用率7%,鏈路流量15%,流量負(fù)荷不高但應(yīng)用訪問的響應(yīng)速度卻很慢。
故障診斷:將出問題的鏈路接入DTX-1800電纜分析儀,儀器界面跳出提示:“檢測到鏈路噪聲,繼續(xù)測試嗎?”繼續(xù)測試結(jié)果顯示“通過”。這表明鏈路本身沒有什么問題,問題出在有干擾進(jìn)入。可是干擾是從何處進(jìn)入?昨天還可以認(rèn)為沒有干擾,所以干擾一定跟今天接入的設(shè)備有關(guān)。仔細(xì)檢查發(fā)現(xiàn)今天新增加的布線系統(tǒng)為了方便固定和捆扎跳線,被與多根電源電纜束捆在了一起,干擾就是從這多根電源電纜束中竄入的,重新解開捆扎后問題立刻消失。
問題預(yù)防:實(shí)際上,電纜束之前就與6根布線捆扎在一起,只是這6根電纜束沒有啟用,所以問題沒有暴露。如果做定期檢測,就會發(fā)現(xiàn)竄入干擾的6根電纜。今天有將新增加的電纜跳線與電纜束綁扎在一起,導(dǎo)致昨天投入運(yùn)行的服務(wù)器出現(xiàn)問題。另外,如果設(shè)備開通對通道、跳線做相應(yīng)的測試則可以很快發(fā)現(xiàn)問題。
從千兆升級到萬兆時鏈路中的很多潛在問題都會暴露出來,但如果不是數(shù)據(jù)中心或數(shù)據(jù)機(jī)房等高速用戶,而只是水平鏈路的普通用戶,因其目前大多數(shù)處在百兆狀態(tài),不會有問題出現(xiàn)。即便是從百兆升級到千兆,也可能只有少數(shù)桌面用戶會出現(xiàn)問題。這給網(wǎng)管員們一種很強(qiáng)的錯誤暗示:只要電腦能上網(wǎng)就說明網(wǎng)線是好的,這種潛在認(rèn)識會潛移默化地影響到如何對待與水平鏈路質(zhì)量要求完全不同的數(shù)據(jù)機(jī)房中。可是他們忘了,這里的服務(wù)器幾乎不可能找到百兆及其以下接入速度的,最基本的都是千兆,目前萬兆也正成為數(shù)據(jù)機(jī)房的標(biāo)配方案。所以如果還是以在10/100/1000M時代的眼光來看待10G/40G/100G時代鏈路質(zhì)量,則多半會遇到速度問題,此時發(fā)現(xiàn)問題可能已經(jīng)為時已晚。
問題預(yù)防:如果每次都是在出現(xiàn)升級問題的時候才發(fā)現(xiàn)鏈路質(zhì)量問題,則所有數(shù)據(jù)機(jī)房用戶累計下來的損失將是一個天文數(shù)字。如果此時發(fā)現(xiàn)選用的布線產(chǎn)品有問題特別是線纜有問題,由此造成的損失是很驚人的。因?yàn)楦鼡Q電纜既造成巨大材料、工時浪費(fèi),又會延誤工期,造成正常業(yè)務(wù)開通延期,間接地給甲方造成業(yè)務(wù)收入損失。如果在布線系統(tǒng)的整個生命周期中經(jīng)常會變動布線結(jié)構(gòu)、增刪用戶和應(yīng)用、增加/變更布線路由,則由此造成的鏈路質(zhì)量下降會隨機(jī)地產(chǎn)生并存在下去。定期檢測可以及早發(fā)現(xiàn)此類累計的問題并解決問題。
驗(yàn)收測試是保證系統(tǒng)初期可靠性的基本方法,定期測試則是保持系統(tǒng)持續(xù)高可靠性的最可靠的“笨”方法,如果輔之以動態(tài)檢測、及時更新標(biāo)簽、開通測試、故障恢復(fù)后測試等方法,則可以將整個綜合布線系統(tǒng)的可靠性隨時保持在高水平。最有效的方法都是看似不起眼的方法,這有點(diǎn)像個哲學(xué)命題——如果你是高可靠性用戶,長生不老的靈丹妙藥是沒有的,一勞永逸的妙方也是不存在的,最有效、最有價值的方法往往都是不起眼的,但堅持定期檢測這項不起眼的“基本維護(hù)制度”就是非常有效的方法。