馬代軍
【摘 要】 隨著信息技術(shù)在經(jīng)濟(jì)社會(huì)各領(lǐng)域的廣泛應(yīng)用,大量信息平臺(tái)建成并投入使用,計(jì)算機(jī)網(wǎng)絡(luò)作為信息平臺(tái)的支撐基礎(chǔ),其可靠性已關(guān)系到了使用者的工作效率和生活舒適程度。計(jì)算機(jī)網(wǎng)絡(luò)的可靠性設(shè)計(jì)是網(wǎng)絡(luò)系統(tǒng)規(guī)劃的重點(diǎn)之一,本文通過(guò)對(duì)實(shí)際建成的計(jì)算機(jī)網(wǎng)絡(luò)工程分析總結(jié),從工程應(yīng)用的角度來(lái)探討計(jì)算機(jī)網(wǎng)絡(luò)可靠性的設(shè)計(jì)要點(diǎn)和實(shí)現(xiàn)方法。
【關(guān)鍵詞】 信息 通信 計(jì)算機(jī)網(wǎng)絡(luò) 可靠性 恢復(fù) 工程應(yīng)用
1 概述
計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的可靠性在規(guī)定的條件下和規(guī)定的時(shí)間內(nèi)網(wǎng)絡(luò)完成信息交換(數(shù)據(jù)通信)的能力,這里就涉及到了連通性(節(jié)點(diǎn)之間要保持通信)和有效性(節(jié)點(diǎn)間的通信要保持一定的質(zhì)量,如延遲、抖動(dòng)、速率等指標(biāo))兩方面。由于計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的可靠性是在破壞或故障的情況下保持通信,所以還涉及到了抗毀性和生存性,確保在部分節(jié)點(diǎn)、線路失效后,網(wǎng)絡(luò)依舊保持信息通信能力。
2 影響計(jì)算機(jī)網(wǎng)絡(luò)可靠性的因素
計(jì)算機(jī)網(wǎng)絡(luò)不可靠的表現(xiàn)從輕到重一般是網(wǎng)絡(luò)變慢(速率降低、響應(yīng)超時(shí))、數(shù)據(jù)出錯(cuò)(或數(shù)據(jù)丟失)、服務(wù)無(wú)響應(yīng)(或響應(yīng)錯(cuò)誤)、網(wǎng)絡(luò)阻塞(慢到無(wú)法使用)、網(wǎng)絡(luò)局部中斷、網(wǎng)絡(luò)全面崩潰等。網(wǎng)絡(luò)可靠性指在部分網(wǎng)絡(luò)組件(節(jié)點(diǎn)或線路)發(fā)生失效的情況下,網(wǎng)絡(luò)保持正常通信的能力。
網(wǎng)絡(luò)組件失效的情況一般有故障(設(shè)備或線路損壞)、錯(cuò)誤(軟件或配置出錯(cuò))、干擾(電磁、溫度等環(huán)境干擾)或者破壞(自然災(zāi)難、人為事故)等。以下是影響網(wǎng)絡(luò)可靠性的具體因素:(1)硬件設(shè)施:設(shè)備和線路自身的可靠性、維修性;(2)運(yùn)行環(huán)境:設(shè)備工作環(huán)境的電源、溫濕度、潔凈度、電磁干擾等;(3)網(wǎng)絡(luò)管理:網(wǎng)絡(luò)監(jiān)控和管理及相關(guān)規(guī)章制度;(4)網(wǎng)絡(luò)架構(gòu):網(wǎng)絡(luò)拓?fù)?、層次?guī)劃和網(wǎng)絡(luò)協(xié)議、算法等。網(wǎng)絡(luò)架構(gòu)是實(shí)現(xiàn)網(wǎng)絡(luò)故障監(jiān)測(cè)、隔離和恢復(fù)的關(guān)鍵,直接關(guān)系到網(wǎng)絡(luò)在組件失效情況下的自我恢復(fù)能力,是決定計(jì)算機(jī)網(wǎng)絡(luò)可靠性的主要因素。
3 提高計(jì)算機(jī)網(wǎng)絡(luò)可靠性的方法
要保證網(wǎng)絡(luò)的可靠性,在保證網(wǎng)絡(luò)組件自身可靠性的前提下,主要是采用容錯(cuò)技術(shù)和冗余設(shè)計(jì),使用檢測(cè)(發(fā)現(xiàn)故障)和恢復(fù)(倒換恢復(fù))的手段,使網(wǎng)絡(luò)在通信不受影響的前提下自動(dòng)恢復(fù)。保障計(jì)算機(jī)網(wǎng)絡(luò)可靠性的方法可按以下層次分類。
(1)提升網(wǎng)絡(luò)組件可靠性:選用高可靠性的網(wǎng)絡(luò)、主機(jī)等設(shè)備和軟件,并對(duì)設(shè)備的易損和重要部件熱備(如電源冗余、管理引擎冗余、磁盤(pán)陣列、網(wǎng)卡冗余等);選用合適的通信線纜并加以適當(dāng)保護(hù);采用不間斷電源、機(jī)房空調(diào)、環(huán)境監(jiān)控等,確保設(shè)備工作環(huán)境符合要求;采用防火墻、入侵檢測(cè)、病毒過(guò)濾、行為管理、流量控制等安全控制措施。保證設(shè)備設(shè)施自身的可靠性。
(2)提升網(wǎng)絡(luò)系統(tǒng)可維修性:對(duì)關(guān)鍵和重要設(shè)備(如中心和匯聚交換機(jī)、骨干路由器、重要服務(wù)器等)進(jìn)行整機(jī)熱備(如雙機(jī)雙工、雙機(jī)熱備、負(fù)載均衡、服務(wù)器集群等);對(duì)主干和重要線路進(jìn)行雙線路備份;對(duì)數(shù)據(jù)做離線備份和遠(yuǎn)程備份;對(duì)機(jī)房供電線路、UPS、機(jī)房空調(diào)等冗余備份。即使發(fā)生設(shè)備、線路故障,也有冗余系統(tǒng)可供切換,保證網(wǎng)絡(luò)主干的可維修性。
(3)提升網(wǎng)絡(luò)自動(dòng)恢復(fù)能力:結(jié)合網(wǎng)絡(luò)拓?fù)?、層次結(jié)構(gòu)、設(shè)備冗余等手段,采用網(wǎng)絡(luò)故障檢測(cè)(UDLD/DLDP、CFD、BFD等)和網(wǎng)絡(luò)故障倒換(MSTP、HSRP/VRRP等)等技術(shù),在發(fā)生故障時(shí),網(wǎng)絡(luò)快速計(jì)算并收斂、重構(gòu),自動(dòng)隔離故障和恢復(fù)通信。保證網(wǎng)絡(luò)可靠性的有效實(shí)現(xiàn)。
4 實(shí)現(xiàn)計(jì)算機(jī)網(wǎng)絡(luò)可靠性需求的技術(shù)措施
在計(jì)算機(jī)網(wǎng)絡(luò)工程可靠性系統(tǒng)的設(shè)計(jì)和施工過(guò)程中,除了采用重要設(shè)備易損部件冗余、機(jī)房環(huán)境監(jiān)控和管理、網(wǎng)絡(luò)安全控制管理等手段外,更關(guān)鍵的是在網(wǎng)絡(luò)主干設(shè)備和線路冗余的基礎(chǔ)上,采用合適的故障檢測(cè)和倒換恢復(fù)技術(shù),實(shí)現(xiàn)故障快速恢復(fù)和流量負(fù)載均衡,提高網(wǎng)絡(luò)通信效率,進(jìn)一步提升網(wǎng)絡(luò)可靠性。
計(jì)算機(jī)網(wǎng)絡(luò)主干冗余一般包含中心交換機(jī)雙機(jī)熱備、匯聚交換機(jī)雙機(jī)熱備、網(wǎng)絡(luò)骨干線路冗余、關(guān)鍵線路(如互聯(lián)網(wǎng)出口)冗余等,匯聚層到核心層之間通過(guò)冗余主干鏈路做口字或交叉連接,接入層到匯聚層做雙鏈路連接。網(wǎng)絡(luò)故障檢測(cè)通過(guò)鏈路檢測(cè)(數(shù)據(jù)鏈路層使用UDLD/DLDP、CFD等技術(shù))和網(wǎng)絡(luò)檢測(cè)(網(wǎng)絡(luò)層使用SLA/NQA、BFD等技術(shù))實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)路徑的連接狀態(tài),確定故障,為故障隔離和倒換恢復(fù)提供服務(wù)。網(wǎng)絡(luò)故障倒換恢復(fù)則通過(guò)冗余設(shè)備和冗余連接,當(dāng)故障發(fā)生時(shí)快速切換,以保證通信連續(xù)和服務(wù)可用。
網(wǎng)絡(luò)主干冗余的倒換恢復(fù)通常采用以下技術(shù)措施:
(1)生成樹(shù)協(xié)議:根據(jù)鏈路狀態(tài)和優(yōu)先級(jí)設(shè)置來(lái)阻塞或打開(kāi)冗余鏈路,實(shí)現(xiàn)鏈路備份。結(jié)合VLAN規(guī)劃,采用MSTP,多個(gè)生成樹(shù)實(shí)例以不同VLAN走不同路徑的方式可實(shí)現(xiàn)數(shù)據(jù)鏈路層的負(fù)載均衡傳輸。生成樹(shù)協(xié)議適合于各種網(wǎng)絡(luò)環(huán)境,但收斂速度較慢,只能以秒級(jí)(或更大)的速度遷移倒換,且網(wǎng)絡(luò)直徑不宜過(guò)長(zhǎng)、冗余連接不宜過(guò)于復(fù)雜,否則故障時(shí)網(wǎng)絡(luò)收斂和倒換恢復(fù)時(shí)間過(guò)長(zhǎng),還易引起網(wǎng)絡(luò)頻繁震蕩,反而降低網(wǎng)絡(luò)性能。
(2)熱備份路由協(xié)議:根據(jù)路由器狀態(tài)和優(yōu)先級(jí)設(shè)置來(lái)切換虛擬路由器中活動(dòng)路由器,實(shí)現(xiàn)路由備份。結(jié)合VLAN規(guī)劃,采用HSRP或VRRP,多個(gè)虛擬路由器(成員路由器優(yōu)先級(jí)不同)以不同VLAN訪問(wèn)不同網(wǎng)關(guān)的方式來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)層的負(fù)載均衡傳輸。
(3)路由策略:對(duì)不同的訪問(wèn)源或訪問(wèn)目標(biāo)使用不同的匹配規(guī)則來(lái)應(yīng)用路由重定向等動(dòng)作,實(shí)現(xiàn)路由備份。結(jié)合VLAN規(guī)劃和IP分配,以不同用戶使用不同網(wǎng)關(guān)的方式來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)層的負(fù)載均衡傳輸。
(4)鏈路聚合:將多條物理鏈路合并成一條更高帶寬的邏輯鏈路,可實(shí)現(xiàn)鏈路備份和負(fù)載均衡傳輸。鏈路聚合在故障發(fā)生時(shí),網(wǎng)絡(luò)通信基本上沒(méi)有中斷,且直接將單條鏈路擴(kuò)容數(shù)倍,性能效果最好。但只能用在兩臺(tái)設(shè)備直接相連的環(huán)境中。
(5)備份鏈路:?jiǎn)闻_(tái)設(shè)備采用兩條鏈路連到兩臺(tái)上游設(shè)備,故障發(fā)生時(shí)快速切換到備用鏈路。結(jié)合VLAN規(guī)劃,采用SmartLink或FlexLink,以不同VLAN使用不同鏈路的方式來(lái)實(shí)現(xiàn)數(shù)據(jù)鏈路層的負(fù)載均衡傳輸。故障時(shí)收斂速度可達(dá)亞秒級(jí),但只能用于雙上行部分,不能適用于復(fù)雜網(wǎng)絡(luò)環(huán)境,且與生成樹(shù)協(xié)議互斥。
5 結(jié)語(yǔ)
隨著網(wǎng)絡(luò)環(huán)境愈加復(fù)雜,用戶需求日益增加,實(shí)現(xiàn)計(jì)算機(jī)網(wǎng)絡(luò)可靠性面臨的條件和問(wèn)題也越來(lái)越多。對(duì)于每一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)工程可靠性系統(tǒng)的建設(shè),都應(yīng)當(dāng)根據(jù)用戶的實(shí)際環(huán)境和具體需求,結(jié)合投資預(yù)算,從工程項(xiàng)目全生命周期出發(fā),全面考慮設(shè)計(jì)、施工和運(yùn)行維護(hù)等實(shí)際情況,選擇最合理的技術(shù)手段,構(gòu)建最適合于該用戶的網(wǎng)絡(luò)可靠性體系。endprint