国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)中心無損網(wǎng)絡(luò)關(guān)鍵技術(shù)研究

2021-11-06 06:37:22
信息通信技術(shù)與政策 2021年10期
關(guān)鍵詞:隊(duì)列交換機(jī)數(shù)據(jù)中心

(中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所,北京 100191)

0 引言

各種應(yīng)用程序、數(shù)據(jù)的指數(shù)級增長,以及云服務(wù)的快速普及等因素,導(dǎo)致由孤立的單體系統(tǒng)構(gòu)成的傳統(tǒng)基礎(chǔ)架構(gòu)變得過時。基礎(chǔ)架構(gòu)的融合成為數(shù)據(jù)中心的根本轉(zhuǎn)變,融合或超融合基礎(chǔ)架構(gòu)應(yīng)運(yùn)而生,其將計(jì)算、存儲、網(wǎng)絡(luò)和虛擬化組合構(gòu)建成一個統(tǒng)一架構(gòu),以便簡捷高效地配置和橫向擴(kuò)展。在網(wǎng)絡(luò)方面,以太網(wǎng)成為現(xiàn)代數(shù)據(jù)中心實(shí)際采用的互聯(lián)方式?;谝蕴W(wǎng)的統(tǒng)一網(wǎng)絡(luò)架構(gòu)用于傳輸各種類型的通信流,為這種融合奠定了基礎(chǔ)。雖然這種統(tǒng)一和融合式網(wǎng)絡(luò)有著諸多好處,但也帶來了新的挑戰(zhàn)。

由于傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)在數(shù)據(jù)傳輸中采取“盡力而為”的方法,以太網(wǎng)絡(luò)是“有損”的。當(dāng)以太網(wǎng)絡(luò)發(fā)生擁塞時,數(shù)據(jù)包會被丟棄,然后由上層(如 TCP 中的重新傳輸)保障數(shù)據(jù)的完整性。在重新傳輸?shù)那闆r下,這些數(shù)據(jù)包通常不按順序抵達(dá)目的地,進(jìn)而需要重新排序。隨著數(shù)據(jù)流匯聚到以太網(wǎng)絡(luò)上,這種重新傳輸和重新排序?qū)?dǎo)致應(yīng)用程序的性能嚴(yán)重下降[1]??紤]到融合性質(zhì),這種情形還可能會導(dǎo)致網(wǎng)絡(luò)上的其他數(shù)據(jù)流的應(yīng)用性能下降。因此,需要一套措施來確保流量在以太網(wǎng)網(wǎng)絡(luò)上實(shí)現(xiàn)無損傳輸。

1 傳統(tǒng)網(wǎng)絡(luò)問題分析

無論是構(gòu)建公有云,還是用作企業(yè)云服務(wù)的私有數(shù)據(jù)中心,都需要解決一組常見的問題:如何為快速變化的環(huán)境構(gòu)建一個高度靈活的組網(wǎng),以承載多種類型的流量,從而使網(wǎng)絡(luò)可以最小化,甚至消除丟包損失;在提供高吞吐量的同時,保持低延遲。

數(shù)據(jù)中心流行的Clos網(wǎng)絡(luò)架構(gòu)通過等價多路徑實(shí)現(xiàn)無阻塞性能,并擁有彈性,交換機(jī)之間的連接方式使其具有可擴(kuò)展、簡單、標(biāo)準(zhǔn)和易于理解等優(yōu)點(diǎn)[2]。在Clos網(wǎng)絡(luò)中,機(jī)架頂部的交換機(jī)被稱作葉交換機(jī),它們連接在被當(dāng)作核心的脊交換機(jī)上。葉交換機(jī)之間互不相連,而脊交換機(jī)只與葉交換機(jī)連接。目前,數(shù)據(jù)中心已經(jīng)采用了很多技術(shù),試圖解決擁塞控制問題。盡管擁塞控制有所改善,但仍不能為今后的使用場景提供無損的網(wǎng)絡(luò),以下問題仍然存在。

1.1 等價多路徑?jīng)_突

通過散列流標(biāo)識符來選擇路徑,這樣的做法很簡便,但缺乏考慮路徑本身是否擁塞。如圖1所示,很容易發(fā)生多個流被散列到相同的路徑上的情況,從而導(dǎo)致鏈路過載。此外,流量的大小通常呈雙模態(tài)分布:大多數(shù)的流是老鼠流,而大部分傳輸字節(jié)則來自大象流。ECMP選擇路徑時不會考慮流量的大小,而對ECMP的改善應(yīng)該涉及選擇路徑時的擁塞感知和細(xì)粒度的流量負(fù)載均衡。

圖1 ECMP負(fù)載均衡時的沖突

1.2 顯性擁塞通知的控制環(huán)路延時

大型的網(wǎng)絡(luò)擁有更多的跳數(shù),因此ECN控制回路的往返時間(Round-Trip Time,RTT)會更長。大型的網(wǎng)絡(luò)也會支撐更多的數(shù)據(jù)傳輸,在ECN生效前很難處理突發(fā)流量。通過增加交換機(jī)緩存去處理突發(fā)流量是不可取的,因?yàn)檫@樣不僅會增加成本,也會增加那些正常流的排隊(duì)時間。端到端的擁塞控制對有序的網(wǎng)絡(luò)至關(guān)重要,但為確保網(wǎng)絡(luò)可以有效地避免丟包損失,額外的幫助也同樣重要。

1.3 基于優(yōu)先級的流控引起的隊(duì)頭阻塞

PFC是一種避免丟包的技術(shù),但這一技術(shù)應(yīng)該作為最后的手段使用。當(dāng)交換機(jī)的某一個出口發(fā)生擁塞時,數(shù)據(jù)被緩存到備份里,并同時調(diào)用PFC。由于PFC會阻止特定等級的所有流量,所以流向其他端口的流量也有可能會被阻隔,這種現(xiàn)象被稱為隊(duì)頭阻塞。為了避免隊(duì)頭阻塞,很有必要去盡早識別引起擁塞的流,并提供針對流特征(一般引起擁塞的流通常是大象流)的擁塞緩解技術(shù)。

隊(duì)頭阻塞可能會引起上游的額外阻塞。由于PFC隔離了所有流,包括那些發(fā)往沒有擁塞路徑的流。這使得所有流必須在上游交換機(jī)處排隊(duì),產(chǎn)生的隊(duì)列延時反過來又會引起上一個上游交換機(jī)的擁塞。如果上游交換機(jī)的緩存被填滿,一個新的PFC信息會被調(diào)用并發(fā)送到網(wǎng)絡(luò),循環(huán)往復(fù),造成更多的隊(duì)頭阻塞和擁塞現(xiàn)象,這被稱為擁塞擴(kuò)散。

1.4 多打一場景下的擁塞

CLOS架構(gòu)在未來數(shù)據(jù)中心新場景下存在丟包、時延、吞吐等多方面的挑戰(zhàn),這些挑戰(zhàn)主要來自many-to-one流量模型和all-to-all流量模型。流量模型many-to-one有時候也被稱為Incast流量模型。在高度并行的云應(yīng)用中,Incast是一個很自然發(fā)生的現(xiàn)象,它被證明是數(shù)據(jù)中心大部分丟包產(chǎn)生的原因。

圖2是many-to-one流量模型示例。在這個示例中,leaf1、leaf2、leaf3和spine1、spine2、spine3形成一個無阻塞的Tier-2 CLOS網(wǎng)絡(luò)。流量從server1到server5、從server7到server5、從server9到server5,形成一個many-to-one,這里是3打1, 整網(wǎng)無阻塞, 只有l(wèi)eaf2向server5的方向出端口方向buffer是瓶頸。

圖2 many-to-one流量模型示例

2 數(shù)據(jù)中心無損網(wǎng)絡(luò)應(yīng)用場景分析

數(shù)據(jù)中心里的應(yīng)用和存儲架構(gòu)需要不斷地進(jìn)化,以滿足日益增長的對實(shí)時和交互的數(shù)字技術(shù)的要求,業(yè)界主流熱門的應(yīng)用場景均對數(shù)據(jù)中心提出了越來越高的要求。

2.1 在線數(shù)據(jù)密集型服務(wù)

在線數(shù)據(jù)密集型服務(wù)和線下的通信(如MapReduce計(jì)算)之間最根本的區(qū)別在于,在線數(shù)據(jù)密集型服務(wù)需要對高速率涌進(jìn)的請求做出立即回答。對此,延遲是一個關(guān)鍵問題,終端的用戶體驗(yàn)高度依賴于系統(tǒng)的響應(yīng),即使是一個少于1 s的適度延時也會對個人查詢以及相關(guān)的廣告收入帶來可觀的影響。而且使用云作為決策源和信息源的系統(tǒng)先天性地?fù)碛幸淮蟛糠植豢杀苊獾难訒r,這給數(shù)據(jù)中心的內(nèi)部響應(yīng)時間帶來更大的壓力。為了處理延遲問題,在線數(shù)據(jù)密集型服務(wù)將單個請求同時分配部署在幾千個服務(wù)器上,并把這些服務(wù)器的響應(yīng)進(jìn)行協(xié)調(diào)和疊加以形成最優(yōu)的推薦和答案。

2.2 深度學(xué)習(xí)

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,人類日常生活中的語音識別和圖像識別由大型神經(jīng)網(wǎng)絡(luò)掌控,通過對百萬級,甚至十億級參數(shù)的訓(xùn)練形成模型,并集成到在線服務(wù)中。一旦模型建立,一些復(fù)雜的任務(wù)例(如社交網(wǎng)絡(luò)過濾、欺詐和異常識別等)都可以毫不費(fèi)力地被執(zhí)行。深度學(xué)習(xí)網(wǎng)絡(luò)也可以被抽象成一個有百萬量級神經(jīng)元互聯(lián)的大腦,網(wǎng)絡(luò)的規(guī)模越大、模型參數(shù)越多,網(wǎng)絡(luò)的工作表現(xiàn)通常會越好?,F(xiàn)如今的深度學(xué)習(xí)網(wǎng)絡(luò)可以擁有數(shù)十億級的參數(shù)和百萬級的互聯(lián)。

深度學(xué)習(xí)模型不斷地被訓(xùn)練和優(yōu)化,伴隨著這一持續(xù)過程的一個挑戰(zhàn)是高昂的通信成本。大量的數(shù)據(jù)不斷地被共享,如果發(fā)生同步延時,計(jì)算過程就會被拖延,而網(wǎng)絡(luò)通常被認(rèn)為是引起延時的原因。在訓(xùn)練過程中,網(wǎng)絡(luò)里使用的訓(xùn)練服務(wù)器先天地存在Incast問題,因?yàn)榧簬缀跏窃谕粫r間返回結(jié)果,Incast場景會導(dǎo)致在連接參數(shù)服務(wù)器的交換機(jī)處產(chǎn)生擁塞,從而帶來丟包損失和同步延時。由于更多的節(jié)點(diǎn)需要更多的通信請求,所以更多的并行處理可能會增加延時,增加網(wǎng)絡(luò)擁塞。在網(wǎng)絡(luò)有損情況下,數(shù)據(jù)拷貝會引入延遲抖動、擁塞丟包等性能損失,造成處理器空閑等待數(shù)據(jù),并拖累整體并行計(jì)算性能,導(dǎo)致無法通過簡單增加處理器數(shù)量來提升整體計(jì)算性能。

2.3 NVMe over Fabrics

Non-Volatile Memory Express(NVMe)是一種存儲通信接口和規(guī)范,它基于固態(tài)硬盤(Solid-State Driver,SSD)提供了一套低延遲、內(nèi)部并發(fā)化的接口規(guī)范。NVMe快速可靠的特點(diǎn)十分適用于未來云數(shù)據(jù)中心的高并行環(huán)境。全閃存陣列(All-Flash-Arrays,AFA)需要NVMe訪問網(wǎng)絡(luò),因而需要極低的延遲(通常在10 μs級別),以形成競爭優(yōu)勢。

在融合基礎(chǔ)架構(gòu)數(shù)據(jù)中心中,NVMe over Fabrics被指定基于UDP運(yùn)行在RoCEv2上,或者基于TCP運(yùn)行在iWARP上。當(dāng)網(wǎng)絡(luò)檢測到擁塞時,ECN指示符會被標(biāo)記在數(shù)據(jù)包上,接收端收到后就會通知發(fā)送端降低發(fā)送速率,以避免丟包損失。如果信息的往返時間太長,丟包損失仍然不可避免,而丟包則需要重新傳輸,這將嚴(yán)重降低NVMe存儲的訪問速度。基于有損網(wǎng)絡(luò)的存儲云化,因?yàn)榫W(wǎng)絡(luò)存在擁塞丟包、延遲抖動、故障倒換而嚴(yán)重影響NVMe存儲云化的效果。

2.4 分布式并行系統(tǒng)

為了使大規(guī)模云服務(wù)能滿足實(shí)時交互的延遲要求,應(yīng)用和存儲必須分而治之。目前,有太多的數(shù)據(jù)需要處理,而數(shù)據(jù)的真正價值在于能否快速地被提煉出有用的信息。高性能分布式并行計(jì)算,本質(zhì)上是網(wǎng)絡(luò)性能要向內(nèi)存訪問看齊(見圖3)。在有損網(wǎng)絡(luò)下,數(shù)據(jù)拷貝會引入延遲抖動、擁塞丟包等性能損失,造成處理器空閑等待數(shù)據(jù),并拖累整體并行計(jì)算性能,導(dǎo)致無法通過簡單增加處理器數(shù)量來提升總體計(jì)算性能。分布式系統(tǒng)里的并行性取決于同步信息和參數(shù)分布,信息傳遞時,由于Incast和混亂流,網(wǎng)絡(luò)流量模型會先天性地引起擁塞,如果不加以管控,擁塞就會導(dǎo)致網(wǎng)絡(luò)的全面損失:丟包損失、延遲損失和吞吐?lián)p失。

高性能傳輸技術(shù)的產(chǎn)生,40 G/100 G/400 G以太網(wǎng)和RDMA等高性能的網(wǎng)絡(luò)技術(shù)的快速發(fā)展,可以很好地替代原先昂貴的專屬存儲網(wǎng)絡(luò)。如何利用網(wǎng)絡(luò)將計(jì)算資源和存儲資源結(jié)合起來,并進(jìn)行統(tǒng)一的管理和協(xié)同操作,提供具有低時延和高帶寬的互聯(lián)網(wǎng)絡(luò),對于提升資源利用效率和滿足應(yīng)用程序的性能需求具有重要的實(shí)際意義。

2.5 Server SAN

在過去的很長一段時間內(nèi),CPU的發(fā)展速度是普通機(jī)械硬盤的幾十萬倍,對于低速的存儲介質(zhì)磁盤來說,存儲網(wǎng)絡(luò)帶來的影響相對不明顯。因此,在低速存儲盛行時期,集中式的存儲部署架構(gòu)被廣大企業(yè)所接受,并保持很長時期的主要地位。近年來,“軟件定義”概念的興起,閃存技術(shù)的應(yīng)用,正在改變這一趨勢。Server SAN可以用標(biāo)準(zhǔn)的x86服務(wù)器和高速通用網(wǎng)絡(luò)來搭建實(shí)現(xiàn)一個更高性價比的系統(tǒng)。

Server SAN的網(wǎng)絡(luò)相比于傳統(tǒng)存儲網(wǎng)絡(luò)具有更高的要求,如在時延和帶寬上要能夠配合存儲的需求,減小處理器到存儲的時間。利用現(xiàn)有的技術(shù),通過組建各種子網(wǎng)的方式,如高性能子網(wǎng)、大數(shù)據(jù)子網(wǎng)和元數(shù)據(jù)子網(wǎng)等,可以很好地滿足不同業(yè)務(wù)的需求。Server

圖3 高性能分布式并行計(jì)算

SAN的需求也推動了網(wǎng)絡(luò)技術(shù)的快速發(fā)展,從低延時、高帶寬的傳輸網(wǎng)絡(luò),到智能網(wǎng)卡的出現(xiàn)以及融合網(wǎng)絡(luò)技術(shù)的發(fā)展。但是,大型的網(wǎng)絡(luò)企業(yè)更多地希望能夠利用現(xiàn)有的低成本的網(wǎng)絡(luò)技術(shù)來解決網(wǎng)絡(luò)傳輸過程中遇到的性能瓶頸問題。

3 數(shù)據(jù)中心無損網(wǎng)絡(luò)的關(guān)鍵技術(shù)

3.1 流控機(jī)制

現(xiàn)在市面上有很多不同架構(gòu)的交換機(jī),如果這些交換機(jī)的入口端和出口端缺少協(xié)調(diào),那么將很難用這些交換機(jī)去搭建一個無損的網(wǎng)絡(luò)環(huán)境。通常路由器會在入口隊(duì)列采用PFC機(jī)制,也就是當(dāng)入口端的緩存區(qū)存滿時,PFC會被激發(fā)并反饋到上游鄰近交換機(jī)[3]。然而,在Incast場景中,由于缺少入口端和出口端之間的協(xié)調(diào),在入口端的各個隊(duì)列達(dá)到閾值之前,出口端的隊(duì)列就已經(jīng)溢出。

虛擬輸入隊(duì)列(Virtual Input Queuing,VIQ)是一種協(xié)調(diào)出口端可用資源和入口端需求資源以用來傳輸數(shù)據(jù)的方法。利用VIQ,出口端將可用緩存告知入口端,以避免交換機(jī)內(nèi)部帶來的丟包損失,數(shù)據(jù)包可以自然地備份在入口端處,如果需要,PFC也可以適當(dāng)?shù)乇徊捎?。VIQ可以被抽象成一種模型,也就是在入口端有一個協(xié)調(diào)所有入口端的專有隊(duì)列,用于公平地、有計(jì)劃地去共享利用離開交換機(jī)的流量。VIQ具有避免交換機(jī)內(nèi)部由于擁塞所引起的丟包損失的優(yōu)點(diǎn)。此外,VIQ建??梢允沽髁抗接行虻仉x開交換機(jī),是實(shí)現(xiàn)無損的基礎(chǔ)之一。

3.2 擁塞控制

網(wǎng)絡(luò)擁塞會引起數(shù)據(jù)包在網(wǎng)絡(luò)設(shè)備中排隊(duì)甚至導(dǎo)致隊(duì)列溢出而丟棄,是導(dǎo)致網(wǎng)絡(luò)高動態(tài)時延的主要原因。網(wǎng)絡(luò)擁塞從根源上可以分為兩類,一類是由于流量調(diào)度不均引起的擁塞,另一類是對網(wǎng)絡(luò)或接收端處理能力過度訂閱(或稱“超賣”)。前面所說的ECMP沖突屬于前者,Incast擁塞屬于后者。擁塞控制技術(shù)根據(jù)其應(yīng)對擁塞的時機(jī)不同,可以分為被動擁塞控制和主動擁塞控制兩類。

被動擁塞控制包括傳統(tǒng)TCP擁塞控制技術(shù),如CUBIC[4],數(shù)據(jù)中心中改進(jìn)的TCP擁塞控制技術(shù)如DCTCP[5-6],應(yīng)用于RDMA協(xié)議的擁塞控制技術(shù)如DCQCN、Timely[7],交換機(jī)進(jìn)行擁塞反饋的擁塞控制技術(shù)如QCN[8]等。盡管它們擁塞反饋的方式不同,有些是基于丟包,有些是基于ECN,有些是基于時延,但一個共同的特點(diǎn)是發(fā)送端根據(jù)網(wǎng)絡(luò)的擁塞反饋信號,對發(fā)送速率進(jìn)行調(diào)節(jié)。這類技術(shù)由于實(shí)現(xiàn)簡單、易于部署被廣泛使用,但通常被認(rèn)為存在擁塞反應(yīng)滯后、控制回環(huán)時間長、容易引起吞吐率振蕩、速率收斂慢、誤傷老鼠流等問題,因此有很大的優(yōu)化空間。

主動擁塞控制是相對比較新的擁塞控制技術(shù),成熟的應(yīng)用還比較少。主要技術(shù)是網(wǎng)絡(luò)設(shè)備或接受端直接建議或指導(dǎo)發(fā)送端發(fā)送速率的方式,比如RCP(Rate Control Protocol)[9],接收端驅(qū)動的基于信譽(yù)的速率控制技術(shù)等。主動擁塞控制能有效解決被動擁塞控制擁塞反應(yīng)滯后和速率收斂慢等問題,同時也給解決Incast擁塞等網(wǎng)絡(luò)頑疾帶來了曙光。主動擁塞控制技術(shù)展現(xiàn)了解決擁塞問題的新思路,是有前景的新型擁塞控制技術(shù),但也存在準(zhǔn)確建議速率確定困難,實(shí)現(xiàn)機(jī)制相對復(fù)雜,引入額外的信令開銷等問題。

此外,值得注意的是,被動擁塞控制和主動擁塞控制并不是兩類互斥的技術(shù),它們存在優(yōu)勢互補(bǔ),可以結(jié)合使用。數(shù)據(jù)中心無損網(wǎng)絡(luò)對這兩類技術(shù)各自的優(yōu)化研究和它們之間的組合研究提出了需求。

動態(tài)虛擬通道(Dynamic Virtual Lanes,DVL)是擁塞隔離的一個工具,擁塞隔離可以消除因過度使用PFC所造成的隊(duì)頭阻塞。DVL識別出引起擁塞的流,并把它們隔離到單獨(dú)的流量類別,然后向上游鄰居發(fā)送信號讓它執(zhí)行相同操作。相比于端到端的控制環(huán)路需要一定時間才能生效,DVL可以有效地將擁塞暫時移開。

圖4描述了DVL的實(shí)施過程。當(dāng)流量在交換機(jī)的出口端發(fā)生沖突時,該方法會檢測到?jīng)_突并識別違規(guī)流,來自違規(guī)流的后續(xù)數(shù)據(jù)包將被引向一個擁塞流的專有隊(duì)列(即被有效地移出),一旦擁塞流隊(duì)列到達(dá)閾值,DVL將會向上游鄰近交換機(jī)發(fā)送擁塞隔離包(Congestion Isolation Packet,CIP)。CIP包含足夠的信息可以讓上游交換機(jī)識別出該擁塞流,上游交換機(jī)同樣也會隔離該擁塞流,并監(jiān)控?fù)砣麝?duì)列的深度。來自擁塞流的數(shù)據(jù)包被傳輸?shù)膬?yōu)先級要低于非擁塞流隊(duì)列,如果擁塞一直持續(xù),擁塞流隊(duì)列就會被填滿,在這種情況下,采用DVL的交換機(jī)會利用VIQ去協(xié)調(diào)擁塞流隊(duì)列和入口端。同時,當(dāng)擁塞流隊(duì)列填滿時,入口端也會發(fā)出PFC以避免丟包。流量控制只會阻塞擁塞流隊(duì)列,而其他未擁塞的流量則可以由非擁塞流隊(duì)列自由通過。

3.3 負(fù)載均衡

在以Clos架構(gòu)為代表的網(wǎng)絡(luò)架構(gòu)中,由于源節(jié)點(diǎn)和目的節(jié)點(diǎn)間有多條路徑,因此存在兩節(jié)點(diǎn)間的流量如何在多條路徑上分發(fā)的問題,即負(fù)載均衡問題。如前所述,流量調(diào)度不均是引起網(wǎng)絡(luò)擁塞的一大重要根源,因此負(fù)載均衡技術(shù)一直是業(yè)界關(guān)注的重點(diǎn)技術(shù)[9]。

負(fù)載均衡技術(shù)存在豐富的設(shè)計(jì)空間,主要可以從三個維度去考慮:第一個維度,集中式還是分布式。前者易于實(shí)現(xiàn)并容易獲得全局信息,但存在擴(kuò)展性和控制回環(huán)時延大的問題;后者實(shí)現(xiàn)相對復(fù)雜,但可擴(kuò)展性好。第二個維度,網(wǎng)絡(luò)狀態(tài)無關(guān)還是網(wǎng)絡(luò)狀態(tài)感知(擁塞感知)。前者實(shí)現(xiàn)簡單,但難以適應(yīng)網(wǎng)絡(luò)狀況的變化;后者能及時感知網(wǎng)絡(luò)擁塞的變化,做到自適應(yīng)的負(fù)載均衡,但實(shí)現(xiàn)復(fù)雜度高且存在擁塞測量困難和滯后的問題。第三個維度,流量調(diào)度的粒度。從大到小,存在流、Flowlet、Flowcell、包等不同的流量調(diào)度粒度,在封閉系統(tǒng)中甚至還有更小的以Cell為單位的流量調(diào)度。流量調(diào)度粒度越小,流量分發(fā)越均勻,但小粒度的流量調(diào)度容易帶來數(shù)據(jù)包亂序的問題,從而對要求保證順序的傳輸協(xié)議的性能產(chǎn)生影響。

對上述維度的不同選擇和組合,產(chǎn)生了一系列的負(fù)載均衡技術(shù)方案,比如ECMP、Hedera、CONGA等。但隨著網(wǎng)絡(luò)速率的提高,時延的降低,流量動態(tài)性的增強(qiáng),大象流沖突、控制回環(huán)時間太長等問題越來越突出,越來越需要更細(xì)粒度、反應(yīng)更快、能適應(yīng)網(wǎng)絡(luò)負(fù)載動態(tài)變化的負(fù)載均衡技術(shù)。本文提出負(fù)載感知逐包負(fù)載均衡技術(shù)(Load-Aware Packet Spraying,LPS),它是一種分布式、以包為調(diào)度粒度、擁塞感知的負(fù)載均衡技術(shù),可以實(shí)現(xiàn)細(xì)粒度負(fù)載均衡,且不引入包亂序。通過LPS,兩個ToR(Top of Rack)交換機(jī)之間的流量會根據(jù)測量到的各路徑擁塞程度,以包為粒度均勻地分發(fā)在多條路徑上,并在到達(dá)目的ToR時進(jìn)行重排序。

與傳統(tǒng)的ECMP技術(shù)相比,LPS有三大優(yōu)勢:一是流量分發(fā)更均勻。LPS以包為粒度進(jìn)行細(xì)粒度的流量分發(fā),有效避免了大象流沖突,從而能夠大幅度地提高流量的吞吐率和網(wǎng)絡(luò)的利用率。二是自適應(yīng)。LPS能根據(jù)網(wǎng)絡(luò)路徑擁塞狀況,快速調(diào)整流量分發(fā)路徑,從而適應(yīng)網(wǎng)絡(luò)負(fù)載變化。三是低網(wǎng)絡(luò)排隊(duì)時延。LPS均勻分發(fā)和自適應(yīng)網(wǎng)絡(luò)負(fù)載變化的能力,可有效降低網(wǎng)絡(luò)擁塞,減少網(wǎng)絡(luò)排隊(duì),從而有效地減小端到端傳輸時延。

4 結(jié)束語

以數(shù)據(jù)傳輸服務(wù)為核心,無損網(wǎng)絡(luò)或?qū)⒃龠M(jìn)一步提高數(shù)據(jù)中心數(shù)據(jù)傳輸速率。遠(yuǎn)程直接數(shù)據(jù)存取(Remote Direct Memory Access,RDMA)技術(shù)通過應(yīng)用程序直接讀取或?qū)懭脒h(yuǎn)程內(nèi)存,避免操作系統(tǒng)、協(xié)議棧的介入,從而實(shí)現(xiàn)數(shù)據(jù)更加直接、簡單、高效的傳輸,大幅減少數(shù)據(jù)傳輸過程中所需的時間。而該技術(shù)在數(shù)據(jù)傳輸過程中,需要盡可能地保證網(wǎng)絡(luò)是無損的。未來無損網(wǎng)絡(luò)可與RDMA技術(shù)集合,促進(jìn)數(shù)據(jù)在不同設(shè)備間的高效傳輸,在實(shí)現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)無損的前提下,更進(jìn)一步提高數(shù)據(jù)中心網(wǎng)絡(luò)的數(shù)據(jù)傳輸速率。

網(wǎng)絡(luò)虛擬化與無損網(wǎng)絡(luò)結(jié)合,保證虛擬化場景下應(yīng)用對網(wǎng)絡(luò)性能的需求。近年來,軟件定義網(wǎng)絡(luò)作為網(wǎng)絡(luò)虛擬化的重要實(shí)現(xiàn)方式之一,同樣備受業(yè)界關(guān)注。然而,虛擬網(wǎng)絡(luò)并不是無損網(wǎng)絡(luò),仍有可能存在丟包的問題,從而不能很好地支撐現(xiàn)有數(shù)據(jù)中心的典型應(yīng)用與場景需求。未來,無損網(wǎng)絡(luò)可能與網(wǎng)絡(luò)虛擬化相結(jié)合,使得數(shù)據(jù)中心網(wǎng)絡(luò)同時兼具虛擬化與無損的優(yōu)點(diǎn)。

提升數(shù)據(jù)中心網(wǎng)絡(luò)性能,讓網(wǎng)絡(luò)更好地應(yīng)用于數(shù)據(jù)中心,支撐數(shù)據(jù)中心業(yè)務(wù)發(fā)展是行業(yè)共同的目標(biāo)與使命。目前,IEEE、CCSA和ODCC等國內(nèi)外團(tuán)體在數(shù)據(jù)中心無損網(wǎng)絡(luò)方面已經(jīng)開展了很多的標(biāo)準(zhǔn)化工作,IEEE發(fā)布了技術(shù)白皮書《The Lossless Network for Data Centers》、CCSA發(fā)布了通信行業(yè)標(biāo)準(zhǔn)YD/T 3902《數(shù)據(jù)中心無損網(wǎng)絡(luò)典型場景技術(shù)要求和測試方法》、ODCC發(fā)布了《無損網(wǎng)絡(luò)技術(shù)與應(yīng)用白皮書》《無損網(wǎng)絡(luò)測試規(guī)范》等成果,同時華為、Mellanox(已被Nvidia收購)和思科等廠商均推出了相關(guān)的產(chǎn)品。后續(xù)需要繼續(xù)匯聚行業(yè)力量,加快無損網(wǎng)絡(luò)產(chǎn)業(yè)化進(jìn)程,讓無損網(wǎng)絡(luò)更好地服務(wù)于數(shù)據(jù)中心的發(fā)展。

猜你喜歡
隊(duì)列交換機(jī)數(shù)據(jù)中心
酒泉云計(jì)算大數(shù)據(jù)中心
隊(duì)列里的小秘密
基于多隊(duì)列切換的SDN擁塞控制*
軟件(2020年3期)2020-04-20 00:58:44
在隊(duì)列里
修復(fù)損壞的交換機(jī)NOS
民航綠色云數(shù)據(jù)中心PUE控制
電子測試(2018年11期)2018-06-26 05:56:24
使用鏈路聚合進(jìn)行交換機(jī)互聯(lián)
豐田加速駛?cè)胱詣玉{駛隊(duì)列
基于云計(jì)算的交通運(yùn)輸數(shù)據(jù)中心實(shí)現(xiàn)與應(yīng)用
PoE交換機(jī)雷擊浪涌防護(hù)設(shè)計(jì)
永仁县| 姜堰市| 贵德县| 建宁县| 溧阳市| 木里| 荣昌县| 温州市| 靖边县| 大连市| 深圳市| 普格县| 荃湾区| 新密市| 巴南区| 定日县| 延安市| 武强县| 门头沟区| 高邑县| 日土县| 丹江口市| 宁阳县| 望奎县| 昭苏县| 遂平县| 辽源市| 乌鲁木齐市| 太和县| 霍城县| 齐齐哈尔市| 曲阳县| 宾阳县| 延吉市| 三台县| 湘西| 太仆寺旗| 宁安市| 曲沃县| 德钦县| 清远市|