引言: 本文對(duì)網(wǎng)絡(luò)可用性及相關(guān)保障技術(shù)進(jìn)行了分析,對(duì)單位專(zhuān)網(wǎng)拓?fù)?、?yīng)用業(yè)務(wù)特點(diǎn)進(jìn)行了梳理,最后結(jié)合實(shí)際規(guī)劃了專(zhuān)網(wǎng)高可用性網(wǎng)絡(luò)三層接入組網(wǎng)模型,并提出了具體設(shè)計(jì)思路。
可用度指可維修產(chǎn)品在規(guī)定的條件與時(shí)間內(nèi),維持其規(guī)定功能的能力,它綜合反映可靠性和維修性。HA(High Availablity,高可用性)日益成為網(wǎng)絡(luò)建設(shè)重要指標(biāo),對(duì)其參考衡量主要涉及可靠性和可維修性?xún)蓚€(gè)方面。網(wǎng)絡(luò)可用性指標(biāo)用A(Availability,可用度 )來(lái)表示,可靠性用MTBF(Mean Time Between Failure,平均無(wú)故障時(shí)間)來(lái)表示,可維修性用MTTR(Mean Time To Repair,平均修復(fù)時(shí)間)來(lái)表示??捎霉紸=MTBF/(MTBF+MTTR)來(lái)表示,其中MTBF值越大,即可靠性越高,可用度越高。
為保證網(wǎng)絡(luò)高可用性,我們需要提高網(wǎng)絡(luò)可靠性,重點(diǎn)對(duì)網(wǎng)絡(luò)的四個(gè)部分進(jìn)行評(píng)估和改進(jìn),分別是:網(wǎng)絡(luò)設(shè)計(jì)、底層設(shè)施、操作和維護(hù)、支持服務(wù)。其中網(wǎng)絡(luò)設(shè)計(jì)和底層設(shè)施我們?cè)诮ㄔO(shè)時(shí)首要重點(diǎn)考慮的部分。網(wǎng)絡(luò)設(shè)計(jì)最重要的體現(xiàn)就是網(wǎng)絡(luò)拓?fù)?,其原則是核心、匯聚層進(jìn)行最高的可用性保證;整體設(shè)計(jì)應(yīng)保證關(guān)鍵硬件不應(yīng)該出現(xiàn)單點(diǎn)故障;另外一個(gè)重點(diǎn)就是應(yīng)當(dāng)給出對(duì)重要區(qū)域的設(shè)備的帶外管理通路,通過(guò)單獨(dú)的管理網(wǎng)絡(luò)來(lái)對(duì)重要的設(shè)備進(jìn)行訪問(wèn)——當(dāng)主要通路中斷時(shí),能夠?qū)υO(shè)備進(jìn)行診斷和進(jìn)行故障修復(fù)工作,可以顯著地提高故障恢復(fù)工作的效率。
基于網(wǎng)絡(luò)設(shè)計(jì)和底層設(shè)施的高可用性保障技術(shù)主要有以下9個(gè)方面:
對(duì)節(jié)點(diǎn)設(shè)備進(jìn)行硬件冗余,主要形式一般有雙機(jī)冗余、主控冗余、交換網(wǎng)冗余、單板熱插拔和電源風(fēng)扇冗余等,硬件冗余可以在單個(gè)部件可靠性一定的情況下提高整個(gè)設(shè)備、節(jié)點(diǎn)可用性。
鏈路捆綁就是把多個(gè)屬性相同的物理鏈路捆綁在一起,邏輯當(dāng)成一條鏈路。鏈路捆綁主要優(yōu)勢(shì)在于:提供更高的鏈路帶寬;流量在各個(gè)鏈路間可實(shí)現(xiàn)負(fù)載分擔(dān);鏈路間互為備份,這些都大大提高系統(tǒng)可用性。另外,利用跨單板、跨設(shè)備鏈路捆綁,事實(shí)提供了一定程度的單板、設(shè)備間備份功能,也較大程度提高了網(wǎng)絡(luò)可用性。
為了對(duì)設(shè)備的軟件系統(tǒng)中的某些錯(cuò)誤進(jìn)行修正,需要對(duì)設(shè)備軟件進(jìn)行升級(jí)、更改。熱補(bǔ)丁技術(shù)可以在不影響系統(tǒng)、業(yè)務(wù)正常運(yùn)行的情況下完成對(duì)設(shè)備軟件錯(cuò)誤的修正,也就是對(duì)設(shè)備軟件的動(dòng)態(tài)升級(jí)。
IRF(Intelligent Resilient Framework,智能彈性架構(gòu))是將多臺(tái)三層交換機(jī)互聯(lián)在一起形成一個(gè)邏輯交換實(shí)體的技術(shù)實(shí)現(xiàn)。其實(shí)它是一種增強(qiáng)的堆疊技術(shù),除做到擴(kuò)展端口、統(tǒng)一管理之外,在高可靠性、冗余備份方面比傳統(tǒng)堆疊有了很大提高,容許全局范圍內(nèi)的跨設(shè)備鏈路聚合,提供全面鏈路級(jí)保護(hù)。同時(shí)IRF技術(shù)也實(shí)現(xiàn)了跨設(shè)備的三層路由冗余,支持多種單播路由協(xié)議、組播路由協(xié)議的分布式處理,真正實(shí)現(xiàn)了多種路由協(xié)議的熱備份技術(shù)。此外IRF技術(shù)也實(shí)現(xiàn)了二層協(xié)議在邏輯設(shè)備內(nèi)分布式運(yùn)行,提高了堆疊內(nèi)各交換機(jī)的利用率和可靠性,減少了設(shè)備間的協(xié)議依賴(lài)關(guān)系。
環(huán)網(wǎng)就是把設(shè)備進(jìn)行環(huán)形鏈接,因而提供了一定的鏈路冗余,具有很強(qiáng)的單點(diǎn)故障自愈能力。環(huán)網(wǎng)技術(shù)分單環(huán)和雙環(huán)兩種結(jié)構(gòu),較新的環(huán)網(wǎng)技術(shù)有:RPR(Resilent Packet Ring,彈性分組環(huán))和RRPP(Rapid Ring Protection Protocol,快速環(huán)保護(hù)協(xié)議)。RPR沿襲了光傳輸SDH環(huán)型結(jié)構(gòu),屬于互逆雙環(huán)結(jié)構(gòu),它繼承了SDH的快速自愈能力,可以實(shí)現(xiàn)50ms的故障切換。RRPP組網(wǎng)采用單環(huán)結(jié)構(gòu),是一種專(zhuān)門(mén)應(yīng)用于以太網(wǎng)環(huán)的鏈路層協(xié)議,它在以太網(wǎng)環(huán)中能夠防止數(shù)據(jù)環(huán)路引起的廣播風(fēng)暴,以太網(wǎng)環(huán)上鏈路或設(shè)備故障時(shí),能迅速切換到備份鏈路,保證業(yè)務(wù)快速恢復(fù)。與生成樹(shù)協(xié)議相比,RRPP協(xié)議具有算法簡(jiǎn)單、拓?fù)涫諗克俣瓤?、收斂時(shí)間與環(huán)網(wǎng)上節(jié)點(diǎn)數(shù)無(wú)關(guān)等優(yōu)勢(shì)。
STP(Spanning Tree Protocol,生成樹(shù)協(xié)議)及Smart Link技術(shù)都是解決由于鏈路冗余而產(chǎn)生的二層環(huán)路問(wèn)題的協(xié)議。其中STP可用于各種拓?fù)?,缺點(diǎn)是收斂時(shí)間較慢,通常30秒,難以適應(yīng)重要數(shù)據(jù)傳輸保障,RSTP(快速生成樹(shù)協(xié)議)相對(duì)于STP,大大加快了收斂時(shí)間,達(dá)到百毫秒級(jí)收斂速度。MSTP(多實(shí)例生成樹(shù)協(xié)議)的出現(xiàn)解決了冗余鏈路利用率低的問(wèn)題。Smart Link則可以認(rèn)為是特定組網(wǎng)情況下STP的替代技術(shù)。
為了解決局域網(wǎng)內(nèi)主機(jī)靜態(tài)配置缺省網(wǎng)關(guān)而出現(xiàn)單點(diǎn)故障問(wèn)題,可以采用網(wǎng)關(guān)冗余技術(shù)。通過(guò)多個(gè)物理網(wǎng)關(guān)虛擬出一個(gè)或多個(gè)虛擬網(wǎng)關(guān),作為局域網(wǎng)主機(jī)的缺省網(wǎng)關(guān),虛擬網(wǎng)關(guān)的轉(zhuǎn)發(fā)任務(wù)由選舉出來(lái)的某個(gè)物理網(wǎng)關(guān)承擔(dān),如發(fā)生故障,則選舉出另外物理網(wǎng)關(guān)承擔(dān)虛擬網(wǎng)關(guān)的轉(zhuǎn)發(fā)任務(wù)。通過(guò)把局域網(wǎng)內(nèi)主機(jī)的缺省網(wǎng)關(guān)配置成不同的虛擬網(wǎng)關(guān),網(wǎng)關(guān)冗余技術(shù)還可實(shí)現(xiàn)流量的負(fù)載分擔(dān)。目前的虛擬網(wǎng)關(guān)技術(shù)主要有VRRP(Virtual Router Redundancy Protocol,虛擬路由冗余協(xié)議)、HSRP(Hot Standby Router Protocol,熱備份路由協(xié)議)和GLBP(Gateway Load Balancing Protocol,網(wǎng)關(guān)負(fù)載均衡協(xié)議),其中HSRP和GLBP是CISCO的私有技術(shù)。
通過(guò)冗余路由來(lái)提高網(wǎng)絡(luò)可用性是重要技術(shù)手段,當(dāng)其中一條路徑發(fā)生故障時(shí),流量可以切換到其他冗余路徑。冗余路由可以分為兩種情況,一種是等價(jià)路由,一種是非等價(jià)路由。ECMP(Equal Cost Multi Path,等價(jià)路由,等價(jià)多路徑),是各條路徑在互為備份的同時(shí)實(shí)現(xiàn)了負(fù)載分擔(dān)。非等價(jià)路徑情況下,只有最優(yōu)路徑被啟用作報(bào)文轉(zhuǎn)發(fā),次優(yōu)路徑只有當(dāng)最優(yōu)路徑失效時(shí)才會(huì)被啟用。ECMP具有很好的收斂速度,使用ECMP來(lái)保障高可用性是重要及必要的選擇。
圖1 專(zhuān)網(wǎng)基本拓?fù)涫疽鈭D
為提高收斂速度,基于鏈路狀態(tài)類(lèi)型的內(nèi)部網(wǎng)關(guān)路由協(xié)議,如OSPF、ISIS等可采用以下方法,提高收斂速度:①提高鄰居故障檢測(cè)速度:快速Hello可以有效加快故障檢測(cè)速度,允許把Hello間隔設(shè)到最小50ms,來(lái)提高鄰居丟失檢查速度;②提高協(xié)議會(huì)話(huà)建立速度:在沒(méi)有冗余路徑的情況下,快速hello的另一個(gè)作用是可以提高OSPF和IS-IS鄰居關(guān)系的建立;③提高鏈路狀態(tài)數(shù)據(jù)庫(kù)的同步速度:提高鏈路狀態(tài)的同步速度,需要對(duì)鏈路變化快速反應(yīng),迅速生成新LSA并泛洪;④提高SPF計(jì)算效率:提高SPF計(jì)算效率,目前普遍采用iSPF(incremental SPF,增量最短路徑優(yōu)先);⑤減少LSDB同步到SPF計(jì)算開(kāi)始之間的時(shí)間間隔,可以通過(guò)適當(dāng)調(diào)整SPF timer來(lái)實(shí)現(xiàn)。
快速檢測(cè)相鄰設(shè)備之間鏈路通信故障的速度很大程度上決定了網(wǎng)絡(luò)的收斂速 度。DLDP(Device Link Detection Protocol,鏈路檢測(cè)協(xié)議)協(xié)議的作用就檢測(cè)單向鏈路的存在狀態(tài),它工作于二層,與物理層協(xié)同以監(jiān)控鏈路狀態(tài)。另個(gè)鏈路檢測(cè)協(xié)議是BFD (Bidirectional Forwarding Detection,雙向轉(zhuǎn)發(fā)檢測(cè)協(xié)議)也是一個(gè)為上層控制協(xié)議提供通用的低開(kāi)銷(xiāo)快速故障檢測(cè)的協(xié)議,上層控制協(xié)議利用BFD提供的服務(wù)來(lái)決定自己采取相應(yīng)的重新路由等操作。
單位專(zhuān)用網(wǎng)絡(luò)基本拓?fù)浠境市切?,部分干線建有SDH環(huán)。典型呈以一、二級(jí)控制中心及外測(cè)通站的三層組成拓?fù)浣Y(jié)構(gòu),如圖1所示。
單位專(zhuān)網(wǎng)主要功能是為實(shí)現(xiàn)測(cè)量站信息數(shù)據(jù)實(shí)時(shí)、可靠傳輸與中心站傳輸,業(yè)務(wù)應(yīng)用主要采用組播形式進(jìn)行傳送。
主要業(yè)務(wù)應(yīng)用有:實(shí)時(shí)語(yǔ)音類(lèi)(指揮、調(diào)度、勤務(wù)電話(huà)等)、實(shí)時(shí)圖像類(lèi)(測(cè)量實(shí)況等)、實(shí)時(shí)數(shù)據(jù)類(lèi)(測(cè)量、控制等)、事后數(shù)據(jù)類(lèi)(測(cè)量等)。
其業(yè)務(wù)應(yīng)用數(shù)據(jù)流特性如下:實(shí)時(shí)突發(fā)小數(shù)據(jù)流(語(yǔ)音);實(shí)時(shí)突發(fā)大數(shù)據(jù)流(控制數(shù)據(jù));穩(wěn)定小數(shù)據(jù)流(指揮顯示、時(shí)間統(tǒng)一);實(shí)時(shí)穩(wěn)定大數(shù)據(jù)流(圖像、測(cè)量數(shù)據(jù))。
數(shù)據(jù)流向?yàn)椋憾鄠€(gè)外測(cè)通站向二級(jí)中心傳輸交互(圖像、測(cè)量、控制數(shù)據(jù)等);二級(jí)中心向一級(jí)中心、外測(cè)控站傳輸(語(yǔ)音、指揮顯示、時(shí)間統(tǒng)一等)。
隨著網(wǎng)絡(luò)規(guī)模逐年擴(kuò)大,設(shè)備逐年增加,各接入設(shè)備IP化建設(shè)改造不斷深入,網(wǎng)絡(luò)業(yè)務(wù)應(yīng)用在向更多、更大的實(shí)時(shí)穩(wěn)定大數(shù)據(jù)流(測(cè)量數(shù)據(jù))保障需求發(fā)展,給專(zhuān)網(wǎng)網(wǎng)絡(luò)性能、組播業(yè)務(wù)高可用性保障組織帶來(lái)巨大壓力。
圖2 高可用性網(wǎng)絡(luò)三層接入組網(wǎng)模型
網(wǎng)絡(luò)高可用性不但涉及到網(wǎng)絡(luò)架構(gòu)、設(shè)備選型、協(xié)議選擇、業(yè)務(wù)規(guī)劃、網(wǎng)絡(luò)安全防護(hù)等技術(shù)問(wèn)題,還受用戶(hù)現(xiàn)有網(wǎng)絡(luò)狀況、網(wǎng)絡(luò)投資預(yù)算、用戶(hù)管理水平等影響,所以在規(guī)劃和設(shè)計(jì)高可用性網(wǎng)絡(luò)的時(shí)候需要根據(jù)使用實(shí)際、網(wǎng)絡(luò)現(xiàn)狀,綜合考慮。
依據(jù)基本網(wǎng)絡(luò)拓?fù)洌ㄗh進(jìn)行典型的三層結(jié)構(gòu)組網(wǎng)模型和簡(jiǎn)化了的二層扁平結(jié)構(gòu)組網(wǎng),嚴(yán)格定義各層功能模型;綜合使用各種故障檢測(cè)技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)故障的快速檢測(cè)、上報(bào);采用冗余設(shè)計(jì),提供關(guān)鍵節(jié)點(diǎn)的冗余和鏈路冗余,并通過(guò)預(yù)留資源實(shí)現(xiàn)快速收斂;綜合考慮各種高可用性技術(shù)的應(yīng)用部署,優(yōu)化最佳收斂效果。高可用三層接入組網(wǎng)模型,如圖2示意。
接入層是邊緣設(shè)備、終端站和IP電話(huà)接入網(wǎng)絡(luò)的第一層。接入層交換機(jī)雙歸屬到兩個(gè)單獨(dú)的匯聚層交換機(jī)以實(shí)現(xiàn)冗余。若使用L3連接,則不會(huì)出現(xiàn)環(huán)路,所有上行鏈路都將有效轉(zhuǎn)發(fā)流量,并完成負(fù)載分擔(dān)。
健壯的接入層提供以下主要特性:
(1)使用冗余交換管理引擎和冗余電源獲得的系統(tǒng)級(jí)冗余,為關(guān)鍵用戶(hù)群提供高可用性
(2)使用冗余系統(tǒng)(GLBP、HSRP或VRRP的匯聚層交換機(jī))的雙歸屬連接獲得的缺省網(wǎng)關(guān)冗余,支持在匯聚層的主備交換機(jī)間快速實(shí)現(xiàn)故障切換
(3)實(shí)施QoS為關(guān)鍵任務(wù)網(wǎng)絡(luò)流量分發(fā)優(yōu)先級(jí),從而盡量靠近網(wǎng)絡(luò)入口對(duì)流量進(jìn)行分類(lèi)和排隊(duì)
(4)鏈路匯聚高可用特性,提供更高的帶寬利用率,同時(shí)降低復(fù)雜性,匯聚的鏈路之間在故障發(fā)生時(shí),正常鏈路可承擔(dān)起所有網(wǎng)絡(luò)流量
(5)安全服務(wù),通過(guò)配置802.1x,端口安全性、DHCP偵聽(tīng)、動(dòng)態(tài)ARP檢查及IP源保護(hù)等工具來(lái)增加安全性,從而更有效地防止非法網(wǎng)絡(luò)訪問(wèn)
在接入交換機(jī)上終結(jié)VLAN,從而針對(duì)最確定的高可用性網(wǎng)絡(luò)拓?fù)浔苊釹TP/RSTP的復(fù)雜計(jì)算和長(zhǎng)時(shí)間收斂。如果避免了STP/RSTP,網(wǎng)絡(luò)的收斂是可預(yù)測(cè)、可限制的,并能夠進(jìn)行可靠調(diào)試。在接入層就配置三層路由協(xié)議,可以把VLAN限制在接入端口上,從而限制了二層廣播域。與二層協(xié)議相比,接入層設(shè)備配置三層路由協(xié)議將具有更好的收斂性能,而且能夠充分使用連接鏈路進(jìn)行負(fù)載分擔(dān),提高鏈路利用效率。但接入層使用三層鏈路會(huì)增加路由設(shè)計(jì)的復(fù)雜性,而且每個(gè)三層接口都需要分配IP地址,增加了對(duì)IP地址的消耗。
匯聚來(lái)自接入層的節(jié)點(diǎn),保護(hù)核心不受高密度對(duì)等關(guān)系的影響。另一個(gè)功能是創(chuàng)建故障邊界,在接入層發(fā)生故障時(shí)提供邏輯隔離點(diǎn)。負(fù)載平衡、服務(wù)質(zhì)量(QoS)和易于設(shè)置等都是匯聚層的主要考慮因素。
使用相同冗余節(jié)點(diǎn)備份連接,實(shí)現(xiàn)最快速的收斂并避免黑洞產(chǎn)生。作為模塊化設(shè)計(jì)的分區(qū)匯聚核心,模塊內(nèi)實(shí)現(xiàn)跨越多個(gè)接入層交換機(jī)的L2 VLAN和三層路由匯總,有利于達(dá)到最佳的OSPF收斂。當(dāng)有VLAN跨越多個(gè)接入層交換機(jī)時(shí),匯聚層設(shè)備間通過(guò)二層TRUNK鏈路連接,提供二層通路;當(dāng)接入層設(shè)備沒(méi)有VLAN跨越或采用三層接入組網(wǎng)時(shí),匯聚層設(shè)備間使用三層鏈路進(jìn)行路由匯總,加快下層網(wǎng)絡(luò)故障時(shí)路由收斂速度。匯聚層作三層接入網(wǎng)關(guān)時(shí),還可以通過(guò)VRRP/GLBP等協(xié)議實(shí)現(xiàn)網(wǎng)關(guān)的冗余備份和流量的負(fù)載分擔(dān)。
核心層設(shè)備作為網(wǎng)絡(luò)的骨干,需要能提供快速的數(shù)據(jù)交換和極高的永續(xù)性,從備份和負(fù)載分擔(dān)角度可選用雙核心或多核心;從單臺(tái)設(shè)備考慮,選用交換性能和可靠性極高的高端路由交換設(shè)備,支持雙主控、電源冗余、風(fēng)扇冗余、分布式轉(zhuǎn)發(fā)等特性。并降低核心設(shè)備配置的復(fù)雜度,減少出現(xiàn)運(yùn)行錯(cuò)誤的幾率。
盡量在核心使用冗余的點(diǎn)到點(diǎn)互聯(lián),這樣可產(chǎn)生最快速、最確定的收斂結(jié)果。將核心設(shè)計(jì)為只使用硬件加速業(yè)務(wù)的三層交換環(huán)境要優(yōu)于二層的設(shè)計(jì),因?yàn)樵阪溌坊蚬?jié)點(diǎn)故障時(shí)能提供更快的收斂速度、通過(guò)減少路由鄰接關(guān)系和網(wǎng)絡(luò)拓?fù)涮岣吡丝蓴U(kuò)展性、通過(guò)等價(jià)多路徑提高帶寬利用率。
建設(shè)高可用性網(wǎng)絡(luò),需要從網(wǎng)絡(luò)結(jié)構(gòu)、安全、管理、優(yōu)化等方面全盤(pán)綜合考慮。
在網(wǎng)絡(luò)規(guī)劃階段,需要細(xì)致分析用戶(hù)需求和業(yè)務(wù)模式,明確對(duì)網(wǎng)絡(luò)可用性影響最大的關(guān)鍵節(jié)點(diǎn)和鏈路。設(shè)計(jì)階段,需要合理規(guī)劃網(wǎng)絡(luò)結(jié)構(gòu),對(duì)關(guān)鍵節(jié)點(diǎn)和鏈路作充分的冗余設(shè)計(jì),采用高可用性技術(shù),并對(duì)網(wǎng)絡(luò)安全給予足夠的關(guān)注。在部署階段則需要關(guān)注設(shè)備軟硬件質(zhì)量和鏈路質(zhì)量。在維護(hù)階段,還需要利用合適的網(wǎng)絡(luò)管理工具持續(xù)對(duì)網(wǎng)絡(luò)業(yè)務(wù)流量進(jìn)行分析,不斷優(yōu)化網(wǎng)絡(luò),提升網(wǎng)絡(luò)可用性水平;另外在進(jìn)行軟硬件版本的升級(jí)和新業(yè)務(wù)部署時(shí),需要事先詳細(xì)規(guī)劃,并制訂應(yīng)急措施。