国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和底層協(xié)議演進(jìn)

2021-11-28 00:58魏月華陳曉張征
中興通訊技術(shù) 2021年3期
關(guān)鍵詞:路由數(shù)據(jù)中心

魏月華 陳曉 張征

摘要:受計算規(guī)模的驅(qū)動,數(shù)據(jù)中心物理拓?fù)鋸慕尤?匯聚-核心三級網(wǎng)絡(luò)架構(gòu)演進(jìn)到基于Clos的Spine-and-Leaf架構(gòu)。計算資源的基本單位經(jīng)歷了物理服務(wù)器、虛擬機(jī)、容器化3個階段。數(shù)據(jù)中心底層(underlay)連接協(xié)議逐步從以二層協(xié)議為主演進(jìn)到以IP路由協(xié)議為主。但傳統(tǒng)路由協(xié)議存在可擴(kuò)展性、拓?fù)淇梢娦浴⒆詣踊渴鹉芰Φ戎T多問題。結(jié)合鏈路狀態(tài)和距離矢量的胖樹路由協(xié)議,解決了超大規(guī)模數(shù)據(jù)中心部署的痛點問題,有望逐漸成為超大規(guī)模數(shù)據(jù)中心底層網(wǎng)絡(luò)的主流技術(shù)。

關(guān)鍵詞:Spine-and-Leaf;路由;數(shù)據(jù)中心

Abstract: Driven by the scale of computing, the physical topology of the data center has evolved from an access-aggregation-core three-level network architecture to a Closbased Spine-and-Leaf architecture. The basic unit of computing resources has gone through three stages: physical server, virtual machine, and containerization. The underlay connection protocol of the data center has gradually evolved from layer 2 protocol to IP routing protocol. However, traditional routing protocols have many problems, such as scalability, topology visibility, and automated provision capabilities. The fat-tree routing protocol, which combines link state and distance vector, solves the pain points of ultralarge-scale data center deployment, and is expected to gradually become the mainstream technology for ultra-large-scale data center underlay networks.

Keywords: Spine-and-Leaf; routing; data center

1 接入-匯聚-核心三級網(wǎng)絡(luò)架構(gòu)協(xié)議方案演進(jìn)

受計算規(guī)模的驅(qū)動,數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和解決方案,在過去20年里發(fā)生了很大變化。總的來說,數(shù)據(jù)中心物理拓?fù)鋸慕尤?匯聚-核心三級網(wǎng)絡(luò)架構(gòu)演進(jìn)到基于Clos的Spine-and-Leaf架構(gòu)。計算資源的基本單位經(jīng)歷了從物理服務(wù)器到虛擬機(jī)再到容器化3個階段。

在物理服務(wù)器階段,應(yīng)用直接在物理服務(wù)器上運(yùn)行,數(shù)據(jù)中心物理拓?fù)錇榻?jīng)典的接入-匯聚-核心三級網(wǎng)絡(luò)架構(gòu),整張網(wǎng)絡(luò)采用二層協(xié)議互聯(lián),應(yīng)用訪問模式為客戶端-服務(wù)器模式,并且南北向流量遠(yuǎn)大于東西向流量。其中,南北向流量在核心交換機(jī)處理,數(shù)據(jù)中心內(nèi)跨網(wǎng)段需要經(jīng)過核心交換機(jī),內(nèi)部子網(wǎng)的網(wǎng)關(guān)一般也配置在核心。在這種模型中,由于節(jié)點之間的通信都可能經(jīng)過核心,因此核心交換機(jī)需要記錄所有節(jié)點的互聯(lián)網(wǎng)協(xié)議(IP)和介質(zhì)訪問控制(MAC)地址信息。在這種網(wǎng)絡(luò)方案中,與計算節(jié)點規(guī)模相關(guān)的瓶頸最可能出現(xiàn)在核心交換機(jī)中。

2008年,傳統(tǒng)的數(shù)據(jù)中心逐步演進(jìn)到云計算時代的數(shù)據(jù)中心。云計算時代計算資源的基本單位從物理機(jī)變成了虛擬機(jī)。計算資源的數(shù)量和密度都有數(shù)量級的提高。應(yīng)用廣泛采用微服務(wù)訪問模式。這種模式帶來的網(wǎng)絡(luò)變化是:東西向流量超過南北向流量,成為數(shù)據(jù)中心的主要流量。

隨后,網(wǎng)絡(luò)虛擬化應(yīng)運(yùn)而生。數(shù)據(jù)中心網(wǎng)絡(luò)中的每個宿主機(jī)都運(yùn)行一個虛擬交換機(jī)(vSwitch)。虛擬交換機(jī)向上連接物理交換機(jī),向下連接多個虛擬機(jī)。網(wǎng)絡(luò)的邊界從原來的接入交換機(jī)(置頂交換機(jī))層,下沉到宿主機(jī)內(nèi)部。這使得整張網(wǎng)絡(luò)變成一個大的二層網(wǎng)絡(luò)。在這個大二層網(wǎng)絡(luò)內(nèi),虛擬機(jī)生命周期內(nèi)的IP地址和MAC地址均保持不變。對于同網(wǎng)段的虛擬機(jī),不管它們是否在同一臺宿主機(jī)上,彼此都能夠通過二層(MAC地址)訪問對方。此時,核心交換機(jī)不僅需要記錄宿主機(jī)的IP/MAC信息,還需要記錄所有虛擬機(jī)的IP/MAC信息,以便支持虛擬機(jī)全網(wǎng)可遷移。

2016年以后,數(shù)據(jù)中心進(jìn)入大規(guī)模容器時代。容器也被稱為輕量級虛擬機(jī),可進(jìn)一步提高部署密度。虛擬機(jī)與容器的最大區(qū)別在于:虛擬機(jī)平臺交付的是虛擬機(jī)實例,抽象的是計算資源,而容器平臺交付的是服務(wù),訪問入口為服務(wù)的IP地址,同時服務(wù)屏蔽了計算資源的細(xì)節(jié)(如虛擬機(jī)實例的IP地址或MAC地址)。

當(dāng)把虛擬機(jī)換成容器后,考慮到容器的部署密度,如果繼續(xù)采用大二層模型,交換機(jī)轉(zhuǎn)發(fā)表容量將會成為網(wǎng)絡(luò)瓶頸。為此,在每個服務(wù)器節(jié)點內(nèi)可用虛擬路由器(vRouter)替換虛擬交換機(jī)。一個虛擬路由器管理一個網(wǎng)段。服務(wù)器域內(nèi)是一個二層網(wǎng)絡(luò)。服務(wù)器節(jié)點運(yùn)行邊界網(wǎng)關(guān)協(xié)議(BGP) 代理,并負(fù)責(zé)節(jié)點之間或者節(jié)點和數(shù)據(jù)中心網(wǎng)絡(luò)之間的路由同步。核心交換機(jī)只需要記錄服務(wù)器節(jié)點本身的IP和它所管理的網(wǎng)段。表項與服務(wù)器的數(shù)量保持同一量級,但與容器的數(shù)量沒有關(guān)系。

因此,數(shù)據(jù)中心網(wǎng)絡(luò)擁有一個在三層網(wǎng)絡(luò)下有無數(shù)個小二層網(wǎng)絡(luò)的架構(gòu),如圖1所示。這種以三層路由為主的數(shù)據(jù)中心協(xié)議架構(gòu),可以滿足現(xiàn)代數(shù)據(jù)中心規(guī)模不斷擴(kuò)大和服務(wù)器數(shù)量不斷增加的需求。

2 帶寬與流量模型的變化

傳統(tǒng)數(shù)據(jù)中心的流量主要是進(jìn)出數(shù)據(jù)中心的流量,通常被稱為南北向流量。即使在網(wǎng)絡(luò)層之間存在很高的收斂比,傳統(tǒng)的“樹”拓?fù)湟沧阋匀菁{這樣的流量。如果需要更多的帶寬,則可以通過“擴(kuò)展”網(wǎng)絡(luò)元素來增加帶寬。例如,升級設(shè)備的線路板,或者采用端口密度更高的設(shè)備。

如今,許多大型數(shù)據(jù)中心承載著大量服務(wù)器到服務(wù)器的流量。這些流量并不會離開數(shù)據(jù)中心,通常被稱為東西向流量。例如,某些應(yīng)用程序需要集群之間的海量數(shù)據(jù)進(jìn)行復(fù)制,或者需要虛擬機(jī)進(jìn)行遷移。由于受到物理限制(例如交換機(jī)的端口密度低),采用擴(kuò)展傳統(tǒng)的樹形拓?fù)鋪頋M足帶寬需求的方式,不僅成本很高,而且難以實現(xiàn)。

3基于Clos的Spine-and-Leaf結(jié)構(gòu)演進(jìn)

東西向流量的增加使三層數(shù)據(jù)中心架構(gòu)中的帶寬成為瓶頸。此外,服務(wù)器到服務(wù)器的延遲會隨著流量路徑的不同而不同。為了解決這兩個問題,基于Clos網(wǎng)絡(luò)的Spine-and-Leaf架構(gòu)被提出。

在如圖2所示的三級Clos架構(gòu)中,每個低層級的leaf交換機(jī)都與所有高層級的spine交換機(jī)相連,并形成全網(wǎng)狀連接拓?fù)?。leaf交換機(jī)用于連接服務(wù)器等設(shè)備,spine層則負(fù)責(zé)將所有的leaf連接起來。當(dāng)leaf 層的接入端口和上行鏈路都沒有瓶頸時,這個架構(gòu)就實現(xiàn)了無阻塞連接。

在Spine-and-Leaf架構(gòu)中,任意一個服務(wù)器到另一個服務(wù)器的連接,都需要相同數(shù)量的設(shè)備(除非這兩個服務(wù)器都在同一個leaf下)。這使得延遲可以被預(yù)測。由于東西向帶寬更高,因此它更適合現(xiàn)代微服務(wù)的場景。

當(dāng)Spine-and-Leaf中任意一層存在帶寬瓶頸時,只需要添加一臺新設(shè)備,并將其和另外一層的所有設(shè)備相連即可。這種橫向擴(kuò)展的方法比較容易實施。

4 數(shù)據(jù)中心協(xié)議的選擇與設(shè)計

4.1 選擇三層路由的Spine-and-Leaf架構(gòu)

Spine-and-Leaf結(jié)構(gòu)相當(dāng)于傳統(tǒng)網(wǎng)絡(luò)架構(gòu)中的“接入層-匯聚層”。如果采用二層交換技術(shù),則生成樹協(xié)議(STP)生成的無環(huán)樹形結(jié)構(gòu)會大大減少活躍可用的鏈路。

如果采用三層路由,Spine-andLeaf則可以充分利用spine和leaf之間的全網(wǎng)狀連接,并選擇最短路徑。如果為了獲得更高的整體利用率,該架構(gòu)也可以選擇特定的路徑。

4.2 BGP路由協(xié)議部署技術(shù)與特征[1-2]

BGP在應(yīng)用于數(shù)據(jù)中心之前,主要用于運(yùn)營商網(wǎng)絡(luò)。BGP數(shù)據(jù)中心與運(yùn)營商網(wǎng)絡(luò)最大的區(qū)別在于連接的密度:超大型數(shù)據(jù)中心的連接密度遠(yuǎn)大于運(yùn)營商網(wǎng)絡(luò)的連接密度。因此,BGP協(xié)議在應(yīng)用于數(shù)據(jù)中心之前需要經(jīng)過適當(dāng)?shù)摹案脑臁薄?/p>

BGP協(xié)議具有一些突出優(yōu)勢,主要包括:

(1)作為距離矢量協(xié)議,BGP采用傳輸控制協(xié)議(TCP),互操作性好,總體上很成熟,目前已經(jīng)獲得廣泛應(yīng)用。設(shè)備商和各種開源平臺都實現(xiàn)了BGP部署,并獲得了良好的測試結(jié)果。

(2)由于BGP本身在廣域通信網(wǎng)絡(luò)上是一個廣泛部署的路由協(xié)議,因此,從技術(shù)和運(yùn)維的角度上看,將BGP應(yīng)用于超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)具有很高的接受度;

(3)相比于其他內(nèi)部網(wǎng)關(guān)路由協(xié)議,BGP具有較高的可擴(kuò)展性;

(4)BGP協(xié)議有諸多前綴過濾、路由標(biāo)記和流量工程的能力選項,在過濾、修改路由參數(shù)和控制流量方面具有優(yōu)勢;

(5)BGP可以同時用于底層(underlay)網(wǎng)絡(luò)和疊加(overlay)網(wǎng)絡(luò)。通常在這種情況下,底層網(wǎng)絡(luò)使用外部BGP(eBGP)對等體,疊加網(wǎng)絡(luò)使用內(nèi)部BGP(iBGP)對等體。這使得網(wǎng)絡(luò)的整體配置變得更簡單。

BGP協(xié)議作為數(shù)據(jù)中心的底層也面臨一些挑戰(zhàn),具體包括:

(1)由于BGP協(xié)議具有易于擴(kuò)展的特性,BGP上逐步增加的多地址族、以太網(wǎng)虛擬專用網(wǎng)(EVPN)、虛擬專用局域網(wǎng)業(yè)務(wù)(VPLS)、 BGP鏈路狀態(tài)(BGP-LS)等能力,使得BGP協(xié)議變得非常復(fù)雜。雖然可以通過一些開關(guān)來關(guān)閉這些功能,但是實際上仍無法避免實現(xiàn)BGP功能的軟件代碼漏洞和錯誤配置等問題;

(2)BGP協(xié)議在自動化能力方面不足以滿足大規(guī)模數(shù)據(jù)中心的需求;

(3)在數(shù)據(jù)中心fabric中的高密度拓?fù)渲?,需要大量專業(yè)的手動配置來使BGP快速收斂。例如,當(dāng)流量從fabric上的一個位置移動到另一位置,或者當(dāng)由anycast地址代表的一個服務(wù)實例從fabric上被刪除時,BGP收斂時間會很長。這將影響在fabric上正常運(yùn)行的應(yīng)用。

4.3鏈路狀態(tài)路由協(xié)議的演進(jìn)[3]

自RFC 7938(在大規(guī)模數(shù)據(jù)中心路由中使用BGP的標(biāo)準(zhǔn))發(fā)布起, BGP幾乎成了大規(guī)模數(shù)據(jù)中心的缺省選擇??紤]到標(biāo)準(zhǔn)和部署的多種因素(如收斂速度、數(shù)據(jù)遙測等),業(yè)界提出在數(shù)據(jù)中心fabric中采用鏈路狀態(tài)路由協(xié)議來代替BGP協(xié)議。

在超大規(guī)模數(shù)據(jù)中心采用鏈路狀態(tài)路由協(xié)議的最大的挑戰(zhàn)是,存在用于可達(dá)性計算和拓?fù)溆嬎愕穆酚尚畔⒑榉簡栴}。目前,國際互聯(lián)網(wǎng)工程任務(wù)組(IETF)正在針對中間系統(tǒng)到中間系統(tǒng)(IS-IS)開展洪泛優(yōu)化和集中計算優(yōu)化泛洪樹的工作。

在數(shù)據(jù)中心fabric中,與BGP協(xié)議相比,鏈路狀態(tài)協(xié)議具有收斂速度快的優(yōu)點。當(dāng)一個可達(dá)目的地在fabric中從一個地方移動到另一個地方,或者完全從fabric上斷開時,鏈路狀態(tài)協(xié)議的收斂速度將遠(yuǎn)快于BGP的收斂速度。從IS-IS的角度來看,任何可達(dá)目標(biāo)的更改都只是葉子連接的更改。這意味著系統(tǒng)無須運(yùn)行最短路徑優(yōu)先(SPF)算法。這種方法被稱為部分SPF。它的速度非???,并且每個交換矩陣設(shè)備只需要進(jìn)行最少量的處理。

與數(shù)據(jù)中心結(jié)構(gòu)中的BGP相比,鏈路狀態(tài)協(xié)議的第二個優(yōu)勢是拓?fù)淇梢娦浴f溌窢顟B(tài)協(xié)議要求每個設(shè)備都擁有維護(hù)拓?fù)涞耐暾晥D。該拓?fù)洌ǚQ為鏈接狀態(tài)數(shù)據(jù)庫)必須與網(wǎng)絡(luò)洪泛域中的每個路由器同步。在使用控制器時,為了獲得鏈路狀態(tài)數(shù)據(jù)庫的副本,鏈路狀態(tài)協(xié)議僅需要連接光纖網(wǎng)絡(luò)中的一個路由器。鏈接狀態(tài)數(shù)據(jù)庫對于流量工程和流量導(dǎo)流很有用,也有利于做數(shù)據(jù)遙測。

數(shù)據(jù)中心結(jié)構(gòu)中鏈路狀態(tài)協(xié)議面臨的第一個挑戰(zhàn)是擴(kuò)展問題,這主要與消息洪泛有關(guān)。由于消息量大,鏈路狀態(tài)協(xié)議會在大型結(jié)構(gòu)中造成嚴(yán)重的洪泛。

此外,鏈路狀態(tài)協(xié)議還面臨另外兩個挑戰(zhàn):存在可達(dá)目的地數(shù)量的擴(kuò)展性問題和計算無環(huán)路徑集SPF算法所需的時間較長的問題。通過更快的處理器和SPF優(yōu)化,雖然不能使鏈路狀態(tài)協(xié)議的擴(kuò)展性達(dá)到BGP的級別,但是足以支持運(yùn)營商構(gòu)建大部分的數(shù)據(jù)中心結(jié)構(gòu)。

4.4胖樹路由協(xié)議特征分析[4-6]

業(yè)界對數(shù)據(jù)中心fabric中路由技術(shù)的探索從未停止。針對基于Clos網(wǎng)絡(luò)的Spine-and-Leaf結(jié)構(gòu),IETF啟動了結(jié)合距離矢量路由與鏈路狀態(tài)路由的胖樹路由協(xié)議的標(biāo)準(zhǔn)化工作。

胖樹路由協(xié)議可將鏈路狀態(tài)協(xié)議和距離矢量協(xié)議的優(yōu)點結(jié)合起來,以最大程度地實現(xiàn)網(wǎng)絡(luò)路由配置自動化和故障管理自動化,并用于Spineand-Leaf結(jié)構(gòu)的大規(guī)模數(shù)據(jù)中心中。胖樹路由協(xié)議支持多線程,可匹配多核CPU的處理能力。因此,胖樹路由協(xié)議可以極大地節(jié)省操作和運(yùn)維成本,并減少人為錯誤。

4.4.1拓?fù)溥m用性分析

如前所述,在數(shù)據(jù)中心進(jìn)入云計算時代以后,東西向流量就超過了南北向流量,成為數(shù)據(jù)中心的主要流量。東西向流量在虛擬服務(wù)器與虛擬服務(wù)器之間,以及容器與容器之間的轉(zhuǎn)發(fā),本質(zhì)上還是在胖樹的北向與南向運(yùn)動。只不過東西向流量的轉(zhuǎn)發(fā)是最大程度的就近轉(zhuǎn)發(fā)。

流量從Spine-and-Leaf結(jié)構(gòu)底部的leaf節(jié)點向北到達(dá)結(jié)構(gòu)的頂部,然后向南回到leaf節(jié)點。從所需的可達(dá)性信息角度來看,這種服務(wù)器到服務(wù)器的流量模式,所需的可達(dá)信息很少。例如,在三級Clos中,leaf節(jié)點流量僅需要默認(rèn)路由即可到達(dá)spine節(jié)點。同時spine節(jié)點流量不需要整個路由表即可到達(dá)leaf節(jié)點,只需要向南一級的節(jié)點可達(dá)信息。因此,胖樹路由協(xié)議具有方向特性,具體表現(xiàn)為:向北為鏈路狀態(tài)協(xié)議,向南則為距離矢量協(xié)議。

胖樹結(jié)構(gòu)(Spine-and-Leaf結(jié)構(gòu))天然分層:結(jié)構(gòu)頂部的節(jié)點保持在最高級別,而底部節(jié)點(leaf節(jié)點)保持在最低級別。胖樹路由協(xié)議用方向性來描述拓?fù)渲胁煌墑e之間的關(guān)系,并利用拓?fù)涞倪@種特性,通過零接觸部署(ZTP)功能進(jìn)行錯誤布線檢測。另外,這種協(xié)議在設(shè)計時也考慮了容錯性,因此能夠應(yīng)對胖樹結(jié)構(gòu)的變異,比如同一層節(jié)點之間的水平鏈路或跨層的垂直直連鏈路。

4.4.2 拓?fù)浒l(fā)現(xiàn)

胖樹路由協(xié)議通過交換鏈路信元(LIE)自動發(fā)現(xiàn)鄰居,協(xié)商ZTP,并檢測錯誤布線。LIE交換采用用戶數(shù)據(jù)報協(xié)議(UDP),并且將互聯(lián)網(wǎng)協(xié)議第4版(IPv4)報文中的生存時間值(TTL)(或互聯(lián)網(wǎng)協(xié)議第6版報文中的Hoplimit)設(shè)置為1。LIE包含的關(guān)鍵信息有本地鏈路ID、SystemID、最大傳輸單元(MTU)、本地節(jié)點的交付點(PoD)值、所屬層值等。

胖樹路由協(xié)議通過交換拓?fù)湫旁獊頂y帶一個節(jié)點連接的鄰居、前綴和能力等信息。由于胖樹路由協(xié)議具有方向特性,拓?fù)湫旁煞譃楸蓖負(fù)湫旁湍贤負(fù)湫旁?/p>

無論是南拓?fù)湫旁€是北拓?fù)湫旁負(fù)湫旁及?種類別:節(jié)點拓?fù)湫旁?、前綴拓?fù)湫旁⒎e極解聚合拓?fù)湫旁?、消極解聚合拓?fù)湫旁⑼獠壳熬Y拓?fù)湫旁玩I值拓?fù)湫旁?/p>

拓?fù)湫旁粨Q(洪泛)采用UDP協(xié)議,具有方向性。所有的北拓?fù)湫旁际窍虮焙榉旱?,目的在于為更高層提供以南網(wǎng)絡(luò)的完整拓?fù)湟晥D。這可以保證從特定層節(jié)點(或低于特定層節(jié)點)收到的流量始終采用最具體的路由來到達(dá)目的節(jié)點。

所有南節(jié)點拓?fù)湫旁急煌戏汉?,而其他類型的南拓?fù)湫旁獌H往南泛洪本節(jié)點為發(fā)起者的拓?fù)湫旁_@樣,低一級的節(jié)點就會擁有去往上層節(jié)點所需要的路由信息。這些信息也可以到達(dá)fabric的其他地方。

胖樹路由協(xié)議采用類似IS-IS協(xié)議的方式來保持鏈路狀態(tài)數(shù)據(jù)庫的同步。在計算最短路徑時,胖樹路由協(xié)議也是基于南向或北向的。兩個方向的最短路徑算法都不會產(chǎn)生環(huán)路:往北向的最短路徑算法只利用北向(和東西向)鄰居來計算“北拓?fù)湫旁?,往南向的最短路徑算法只利用南向鄰居來計算“南拓?fù)湫旁?/p>

4.4.3負(fù)載均衡

IP網(wǎng)絡(luò)中的負(fù)載均衡一直是個難題。BGP負(fù)載均衡實施困難,而內(nèi)部網(wǎng)關(guān)協(xié)議(IGP)僅能做到等價路徑負(fù)載均衡。在胖樹路由協(xié)議中,負(fù)載均衡只需要在北向的缺省路由上來實現(xiàn)(也可以在解聚合前綴和南向路由上實現(xiàn))。胖樹路由協(xié)議自動計算并繼續(xù)使用所有可用最短路徑上的可用帶寬,使流量不會在fabric中迂回打轉(zhuǎn)。

在正常情況下,每個前綴都帶有一個關(guān)聯(lián)的距離值(相當(dāng)于典型的度量值)。當(dāng)鏈路發(fā)生故障時,SPF計算必須考慮當(dāng)前不可用的帶寬,并計算帶寬調(diào)整后的距離(BAD),然后使用BAD值來代替初始距離值,以評估可用鏈接上的流量。

4.4.4 南向反射與路由解聚合

這種反射機(jī)制是指,只有節(jié)點的南向拓?fù)湫旁獣煌狈瓷涞缴弦粚印R虼?,同一層的所有?jié)點都能夠相互感知對方。

反射機(jī)制可以觸發(fā)積極解聚合。為了解決流量黑洞問題,路由解聚合在發(fā)布缺省路由的基礎(chǔ)上,會再發(fā)布一個更詳細(xì)的路由。

解聚合包括兩種類型:積極的解聚合和消極的解聚合。節(jié)點發(fā)布積極路由表示它可以到達(dá)某個前綴。而當(dāng)節(jié)點不能到達(dá)某個前綴時,則通告消極路由。不管是哪種情況,解聚合的路由總是被通告為前綴或外部南拓?fù)湫旁?,并且永遠(yuǎn)不會被重發(fā)。同時,其他節(jié)點不需要知道哪個節(jié)點正在發(fā)布解聚合的路由。

積極解聚合很簡單。它是一種額外的路由通告。這樣,南方的節(jié)點可以根據(jù)典型的最長匹配原則來進(jìn)行路由布置,即胖樹路由在默認(rèn)路由中為部分連接的前綴打一個洞。

積極解聚合是非傳遞性的,以免給節(jié)點增加無用的路由信息。對于未解聚合的前綴,默認(rèn)路由將為其提供可達(dá)性。

消極解聚合相對比較復(fù)雜。當(dāng)fabric包含多個平面時,消極解聚合就是必需的。當(dāng)某個節(jié)點失去某前綴的可達(dá)性時,該平面中所有上一層的節(jié)點都會觸發(fā)消極解聚合。與積極路由不同,消極路由是可傳遞的。消極路由可以一直向南廣播,直到解除流量黑洞。

4.4.5 零接觸部署

胖樹路由協(xié)議內(nèi)置了零接觸部署模式。除了ToF節(jié)點之外(ToF節(jié)點需要預(yù)先設(shè)定一個層值),其他節(jié)點無需任何初始化配置就可以自動接入fabric中。每個節(jié)點都以競爭在fabric中的最高點為原則。層決策算法利用相鄰節(jié)點之間的位置信息進(jìn)行運(yùn)算,以確保所有節(jié)點找到在fabric中的穩(wěn)定位置,從而自動完成一個穩(wěn)定的胖樹拓?fù)錁?gòu)建,并自動實現(xiàn)南向和北向路由策略。零接觸部署能力能夠有效消除可能的由錯誤布線對fabric構(gòu)建產(chǎn)生的干擾。

零接觸部署是胖樹路由協(xié)議最突出的特性之一,對于提升超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)構(gòu)建的效率意義重大。

5 結(jié)束語

在未來,BGP將繼續(xù)成為數(shù)據(jù)中心架構(gòu)底層的重要選擇。它最終會具備一些鏈路狀態(tài)協(xié)議功能,例如更快的收斂和更接近自動化的部署。然而,BGP很難復(fù)制鏈路狀態(tài)協(xié)議的某些功能,例如從一個位置獲取整個拓?fù)涞耐暾晥D。同時,BGP的收斂速度很可能總是落后于鏈路狀態(tài)協(xié)議。對此,IETF已經(jīng)啟動改進(jìn)鏈路狀態(tài)協(xié)議的標(biāo)準(zhǔn)化工作。但由于改動較大,同時協(xié)議復(fù)雜度較高,因此協(xié)議應(yīng)用前景不明。胖樹路由協(xié)議可將鏈路狀態(tài)和距離矢量相結(jié)合:當(dāng)數(shù)據(jù)報文沿fabric向上傳遞到ToF時,可采用類似鏈路狀態(tài)的操作;當(dāng)數(shù)據(jù)報文向fabric的邊緣傳遞可達(dá)性和拓?fù)湫畔r,可采用類似距離矢量的操作。胖樹路由協(xié)議解決了現(xiàn)有路由協(xié)議在Spine-andLeaf IP結(jié)構(gòu)中面臨的諸多問題,具有擴(kuò)展性好、運(yùn)維簡單的優(yōu)點,可有效節(jié)省部署開銷。

中興通訊在IETF深入?yún)⑴c了胖樹路由協(xié)議的標(biāo)準(zhǔn)化工作。我們認(rèn)為,胖樹路由協(xié)議有望成為超大規(guī)模數(shù)據(jù)中心底層網(wǎng)絡(luò)的主流技術(shù)。

參考文獻(xiàn)

[1] IETF. Use of BGP for routing in large-scale data centers: RFC 7938 [S]. 2016

[2] Dinesh G D. BGP in the data center [M]. California: OReilly Media, Inc. 2017

[3] IETF. Dynamic flooding on dense graphs: draftietf-lsr-dynamic-flooding-08 [S]. 2020

[4] IETF. RIFT: routing in fat trees: draft-ietf-riftrift-12 [S]. 2021

[5] IETF. RIFT applicability: draft-ietf-rift-applicability-06 [S]. 2021

[6] IETF. A YANG data model for Routing in Fat Trees(RIFT): draft-ietf-rtgwg-policy-model-27 [S]. 2021

作者簡介

魏月華,中興通訊股份有限公司承載網(wǎng)標(biāo)準(zhǔn)預(yù)研總工;擁有15年以上數(shù)據(jù)網(wǎng)絡(luò)產(chǎn)品研發(fā)、設(shè)計及新技術(shù)預(yù)研經(jīng)驗;從事以太網(wǎng)、IP路由、云計算數(shù)據(jù)中心網(wǎng)絡(luò)、SDN等技術(shù)和標(biāo)準(zhǔn)研究;發(fā)表論文3篇,獲授權(quán)專利40余項。

陳曉,中興通訊股份有限公司有線架構(gòu)部部長;長期從事電信產(chǎn)品和相關(guān)技術(shù)的研究規(guī)劃。

張征,中興通訊股份有限公司標(biāo)準(zhǔn)專家;擁有20年的數(shù)據(jù)網(wǎng)絡(luò)產(chǎn)品研發(fā)與設(shè)計經(jīng)驗;從事IP單播/組播路由、數(shù)據(jù)中心網(wǎng)絡(luò)、SDN等技術(shù)與標(biāo)準(zhǔn)研究;主持多個IETF工作組標(biāo)準(zhǔn)的制定和RFC的發(fā)布;申請發(fā)明專利40余項。

猜你喜歡
路由數(shù)據(jù)中心
關(guān)于間接蒸發(fā)冷機(jī)組在數(shù)據(jù)中心中應(yīng)用的節(jié)能分析
數(shù)據(jù)通信中路由策略的匹配模式
一種用于6LoWPAN的多路徑路由協(xié)議
OSPF外部路由引起的環(huán)路問題
2018年數(shù)據(jù)中心支出創(chuàng)新高
北京科創(chuàng)新型云數(shù)據(jù)中心
2017第十屆中國數(shù)據(jù)中心大會榜單
一種基于Torus網(wǎng)絡(luò)的高效隨機(jī)Oblivious路由算法
新一代數(shù)據(jù)中心建設(shè)有“書”可循