雷波,趙倩穎
中國電信股份有限公司研究院,北京 102209
AlphaGo 與世界頂級圍棋高手李世石進(jìn)行AI 圍棋對決,AlphaGo 大比分獲勝,成為了第一個(gè)擊敗人類職業(yè)圍棋選手、第一個(gè)戰(zhàn)勝圍棋世界冠軍的人工智能機(jī)器人;人體基因測序由最初的數(shù)年縮短到現(xiàn)在的幾天,更有組織宣布人體全基因測序有望只需1000 美元在1 天時(shí)間內(nèi)完成;天氣預(yù)報(bào)從最初對未來一天的天氣預(yù)測,發(fā)展到現(xiàn)在可以對未來一周甚至更長時(shí)間的預(yù)測;宇宙的觀測距離從220 萬光年發(fā)展到現(xiàn)在的137 億光年。人工智能憑借什么戰(zhàn)勝了人類?人類對未知世界的反應(yīng)為何能越來越迅速、精準(zhǔn)?答案是海量數(shù)據(jù)背后的超級算力。AI 通過算力訓(xùn)練龐大的數(shù)據(jù),并通過神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí)成長,最終獲得技能,戰(zhàn)勝人類選手;天氣預(yù)報(bào)通過算力分析氣象站、衛(wèi)星等終端收集上來的數(shù)據(jù),對各種天氣系統(tǒng)的位置和強(qiáng)度進(jìn)行預(yù)測。可以說:算力改變世界,算力驅(qū)動未來。
隨著芯片技術(shù)的發(fā)展,算力價(jià)格日益下降,已經(jīng)不再是數(shù)年前昂貴的奢侈品。小到個(gè)人手機(jī)、個(gè)人計(jì)算機(jī),大到超級計(jì)算機(jī)、數(shù)據(jù)中心,算力存在于我們生活的各個(gè)角落。但另一方面,隨著算力的普及,算力的利用率卻在大幅下降。有數(shù)據(jù)表明各類算力終端的利用率甚至低于15%。大量算力的浪費(fèi),無論是對于一個(gè)家庭還是一個(gè)企業(yè)來說都是一種經(jīng)濟(jì)上的損失。在此背景下,亟需在算力提供方與算力消費(fèi)者之間搭建一個(gè)橋梁,讓閑置的算力可以通過網(wǎng)絡(luò)進(jìn)行交易,即不僅是傳統(tǒng)的云計(jì)算平臺,新興的邊緣計(jì)算平臺,甚至企業(yè)閑置的服務(wù)器,個(gè)人電腦都可以為其它用戶提供算力,從而減少資源的浪費(fèi),提高企業(yè)、個(gè)人的經(jīng)濟(jì)效益。然而,如何將匹配的算力傳遞給用戶成為了難點(diǎn),其需要對計(jì)算資源和網(wǎng)絡(luò)資源進(jìn)行綜合評估,以期在成本與效益之間找到最優(yōu)化的解決方案。
在集中化的云計(jì)算時(shí)代,云網(wǎng)一體成為計(jì)算網(wǎng)絡(luò)資源聯(lián)合優(yōu)化的重要解決方案,比如利用軟件定義網(wǎng)絡(luò)/網(wǎng)絡(luò)功能虛擬化(Software Defined Network/ Network Function Virtualization,SDN/NFV)技術(shù)將應(yīng)用、云計(jì)算、網(wǎng)絡(luò)及用戶聯(lián)通起來,提供一個(gè)“云、網(wǎng)、邊、端”的完整、靈活、可擴(kuò)展的云網(wǎng)一體化服務(wù)。網(wǎng)絡(luò)將按照云的要求提供網(wǎng)絡(luò)資源(網(wǎng)絡(luò)即服務(wù)),而云則根據(jù)應(yīng)用的需要調(diào)用網(wǎng)絡(luò)資源。然而,隨著5G 的規(guī)模建設(shè)與邊緣計(jì)算的興起,前期的云網(wǎng)一體方案面臨了新的挑戰(zhàn)。比如隨各類計(jì)算節(jié)點(diǎn)的下沉,算力將遍布整個(gè)網(wǎng)絡(luò),業(yè)務(wù)對算力的需求也逐漸呈現(xiàn)出多樣化、多變化的特征。因此,如何結(jié)合網(wǎng)絡(luò)對算力資源進(jìn)行調(diào)度、充分利用,對整個(gè)網(wǎng)絡(luò)進(jìn)行算網(wǎng)一體化的改造,是本文關(guān)注的主要問題[1]。
針對前文所述背景,本文面向計(jì)算資源與網(wǎng)絡(luò)資源聯(lián)合優(yōu)化的問題,提出了一種算力網(wǎng)絡(luò)的解決方案,這是在5G、AI 時(shí)代的新型資源整合方案,它將屬于不同所有方的計(jì)算資源通過網(wǎng)絡(luò)有機(jī)整合起來,并按照用戶業(yè)務(wù)的不同需求提供最優(yōu)的資源服務(wù)與網(wǎng)絡(luò)連接,從而實(shí)現(xiàn)全網(wǎng)性的資源優(yōu)化調(diào)度部署。
近年來,各領(lǐng)域的專家、學(xué)者都在關(guān)注計(jì)算與網(wǎng)絡(luò)的聯(lián)合優(yōu)化問題,也在此方向進(jìn)行了深入的研究。
Qingxia Chen 等人提出了一種新穎的融合架構(gòu)-軟件定義網(wǎng)絡(luò)、緩存和計(jì)算(Software-Defined Networking, Caching, and Computing,SDN-NCC)[2]。它支持動態(tài)編排網(wǎng)絡(luò),緩存和計(jì)算資源,以有效滿足不同應(yīng)用程序的需求并提高端到端系統(tǒng)性能。該架構(gòu)中業(yè)務(wù)的需求被解析為計(jì)算需求和緩存需求,而對網(wǎng)絡(luò)的考慮,則體現(xiàn)在基于SDN 技術(shù)的網(wǎng)絡(luò)可編程中。
Younghwa Kim 等人為更好解決在實(shí)際應(yīng)用中用戶業(yè)務(wù)需求的實(shí)現(xiàn)和管控問題,提出了一種基于SDN 編排器的智能數(shù)據(jù)中心互聯(lián)(Data Center Interconnection, DCI)技術(shù)[3],其可以通過傳輸網(wǎng)連接分布式云網(wǎng)絡(luò)。文章詳細(xì)介紹了包括需求、結(jié)構(gòu)、實(shí)施和測試床在內(nèi)的整體研發(fā)步驟并討論了該項(xiàng)技術(shù)的下一步優(yōu)化工作。
Ying He 等人提出了一個(gè)可以實(shí)現(xiàn)網(wǎng)絡(luò),緩存和計(jì)算資源的動態(tài)編排,以提高下一代車載網(wǎng)性能的集成框架。框架中將資源分配策略表述為一個(gè)聯(lián)合優(yōu)化問題,該框架考慮了網(wǎng)絡(luò)、緩存和計(jì)算三種資源[4]。
以上關(guān)于計(jì)算網(wǎng)絡(luò)聯(lián)合優(yōu)化問題的研究成果[2-4],均是優(yōu)先考慮計(jì)算資源,再考慮網(wǎng)絡(luò)資源。在多級算力并存的今天,這樣的方法容易造成網(wǎng)絡(luò)資源的浪費(fèi),也會造成優(yōu)質(zhì)計(jì)算資源的浪費(fèi)。
除學(xué)術(shù)界外,各大運(yùn)營商、廠商也在該領(lǐng)域提出了自己的看法和解決方案。當(dāng)下關(guān)于計(jì)算與網(wǎng)絡(luò)的聯(lián)合優(yōu)化問題最著名的方案是云網(wǎng)融合。云網(wǎng)融合通過一個(gè)橫跨云管和網(wǎng)管的超級協(xié)同編排系統(tǒng),對云中的各種資源和網(wǎng)絡(luò)資源進(jìn)行協(xié)同調(diào)度,以實(shí)現(xiàn)計(jì)算資源和網(wǎng)絡(luò)資源的完美結(jié)合,但是該方案目前正處于一個(gè)相對簡單的初級階段,超級協(xié)同編排系統(tǒng)的建設(shè)和運(yùn)營也相對復(fù)雜[5]。
2019年11月,中國聯(lián)通發(fā)布了《中國聯(lián)通算力網(wǎng)絡(luò)白皮書》[6],同月中國移動發(fā)布了《算力感知網(wǎng)絡(luò)技術(shù)白皮書》[7],兩本白皮書中均介紹了基于分布式網(wǎng)絡(luò)的計(jì)算網(wǎng)絡(luò)融合新架構(gòu)—計(jì)算優(yōu)先網(wǎng)絡(luò)(Compute First Network,CFN),該架構(gòu)將計(jì)算能力和網(wǎng)絡(luò)狀態(tài)信息作為路由信息發(fā)布到網(wǎng)絡(luò),并路由到相應(yīng)的計(jì)算節(jié)點(diǎn),來實(shí)現(xiàn)計(jì)算和網(wǎng)絡(luò)的聯(lián)合優(yōu)化。該分布式方案具有很好的擴(kuò)展性,但實(shí)現(xiàn)復(fù)雜,需要對現(xiàn)有的網(wǎng)絡(luò)設(shè)備進(jìn)行升級。
在我們的前期工作中,提出了一個(gè)針對計(jì)算網(wǎng)絡(luò)融合問題的算力網(wǎng)絡(luò)管理編排系統(tǒng)[8],該編排管理系統(tǒng)利用集中式的思想對計(jì)算信息和網(wǎng)絡(luò)信息進(jìn)行分發(fā)和收集。該方案在實(shí)現(xiàn)上相對簡單,但是其可擴(kuò)展性受系統(tǒng)性能影響,隨著業(yè)務(wù)量的增加會產(chǎn)生瓶頸。
基于各領(lǐng)域的研究經(jīng)驗(yàn)、成果以及生產(chǎn)實(shí)踐經(jīng)歷,作者在文中給出了一種新的算力網(wǎng)絡(luò)的實(shí)驗(yàn)驗(yàn)證平臺,該平臺利用集中式和分布式聯(lián)合的方案通過網(wǎng)絡(luò)分發(fā)服務(wù)節(jié)點(diǎn)的算力、存儲、算法等資源信息,并可結(jié)合網(wǎng)絡(luò)信息(如帶寬、時(shí)延等),針對用戶的不同類型需求,提供最佳的資源分配及網(wǎng)絡(luò)連接方案,從而實(shí)現(xiàn)整網(wǎng)資源的最優(yōu)化使用。
算力網(wǎng)絡(luò)是一種通過網(wǎng)絡(luò)分發(fā)服務(wù)節(jié)點(diǎn)的算力信息、存儲信息、算法信息等,結(jié)合網(wǎng)絡(luò)信息(如路徑、時(shí)延等),針對用戶需求,提供最佳的資源分配及網(wǎng)絡(luò)連接,并實(shí)現(xiàn)整網(wǎng)資源的最優(yōu)化使用的解決方案。
算力網(wǎng)絡(luò)需要從兩個(gè)層面來解決計(jì)算網(wǎng)絡(luò)資源聯(lián)合優(yōu)化調(diào)度的問題。首先是資源關(guān)聯(lián)問題,根據(jù)用戶的訴求將算力資源、網(wǎng)絡(luò)資源等進(jìn)行有機(jī)的整合,以滿足用戶多樣化的需求;其次是資源交易問題,使用戶能夠根據(jù)自己對業(yè)務(wù)的要求以及能夠承擔(dān)的成本,在交易平臺上購買最適合的算力資源與網(wǎng)絡(luò)資源。針對第一方面,算力網(wǎng)絡(luò)所倡導(dǎo)的解決思路是利用網(wǎng)絡(luò)控制面來分發(fā)資源信息。由于網(wǎng)絡(luò)控制面可分為集中式和分布式兩種方案,因此算力網(wǎng)絡(luò)在資源調(diào)度方面也有兩種方案,如集中式的算力網(wǎng)絡(luò)管理編排系統(tǒng)和分布式的算力路由層方案。針對第二方面,算力網(wǎng)絡(luò)希望能夠建立類似于電力交易平臺的算力交易平臺,在算力提供方與算力消費(fèi)者之間建立橋梁,為消費(fèi)者提供一站式的服務(wù),而他們不用進(jìn)行費(fèi)時(shí)費(fèi)力的一對一的談判與交易,同時(shí)完成算力資源與網(wǎng)絡(luò)資源的購買。
針對第一方面的問題,我們設(shè)計(jì)并構(gòu)建了算力網(wǎng)絡(luò)管理編排平臺,如圖 1[8]所示,其可以支持集中式資源調(diào)度或分布式資源調(diào)度方案。集中式方案實(shí)現(xiàn)簡單,可以在已有的SDN/NFV 編排控制平臺上擴(kuò)展實(shí)現(xiàn),但集中式方案在擴(kuò)展性上會出現(xiàn)瓶頸,尤其是在業(yè)務(wù)狀態(tài)頻繁變化時(shí),集中式的管理系統(tǒng)難以對算力資源進(jìn)行精細(xì)地監(jiān)控和分配;分布式方案實(shí)現(xiàn)復(fù)雜,需要對現(xiàn)有的網(wǎng)絡(luò)設(shè)備進(jìn)行升級,但是其具有很好的擴(kuò)展性。因此本文將重點(diǎn)結(jié)合集中式和分布式兩種方案的優(yōu)勢提出一種新型混合式方案:既能利用分布式路由協(xié)議分發(fā)資源信息,又能通過基于SDN/NFV 的集中式算力網(wǎng)絡(luò)管理編排平臺集中調(diào)度網(wǎng)絡(luò)資源、計(jì)算資源等。
算力網(wǎng)絡(luò)管理編排平臺負(fù)責(zé)對這些資源進(jìn)行管理和編排,既要實(shí)現(xiàn)根據(jù)業(yè)務(wù)需求的動態(tài)算力調(diào)整,又要實(shí)現(xiàn)對各個(gè)層面資源的有機(jī)協(xié)調(diào),主要模塊功能如下:
圖1 算力網(wǎng)絡(luò)管理編排平臺架構(gòu)圖Fig.1 CPN management platform architecture
(1)需求解析模塊。分析用戶業(yè)務(wù)需求,將用戶業(yè)務(wù)需求轉(zhuǎn)化為算力資源需求,根據(jù)算力需求劃分業(yè)務(wù)等級,以確定業(yè)務(wù)的部署位置、所需資源大小等信息。
(2)算法選擇模塊。根據(jù)用戶的業(yè)務(wù)類型和需求解析模塊的結(jié)果,在賦能平臺中為用戶選擇合適的部署算法,確定用戶業(yè)務(wù)部署的規(guī)格。
(3)應(yīng)用部署模塊。根據(jù)算法選擇模塊的結(jié)果,將用戶業(yè)務(wù)部署到指定的算力節(jié)點(diǎn)中。
(4)算力調(diào)度模塊。管理核心云和邊緣云的算力資源,根據(jù)業(yè)務(wù)需求為用戶分配相應(yīng)的計(jì)算、存儲、網(wǎng)絡(luò)資源,并根據(jù)策略對業(yè)務(wù)部署位置、業(yè)務(wù)算力進(jìn)行彈性調(diào)整。
(5)網(wǎng)絡(luò)調(diào)度模塊。管理用戶、邊緣云、核心云的網(wǎng)絡(luò),在用戶業(yè)務(wù)部署或調(diào)整之后,配置用戶到業(yè)務(wù)處理節(jié)點(diǎn)之間的網(wǎng)絡(luò),將用戶流量路由到處理節(jié)點(diǎn)。
在上述功能模塊中,部分功能可以借助現(xiàn)有的技術(shù)進(jìn)行實(shí)現(xiàn),如:算法選擇模塊使用大數(shù)據(jù)分析技術(shù);應(yīng)用部署模塊借助邊緣計(jì)算平臺(Multi-access Edge Computing Platform, MEP);算力調(diào)度模塊使用NFV 編排器(NFV Orchestrator, NFVO);網(wǎng)絡(luò)調(diào)度模塊使用SDN 控制器等。需求分析模塊則需要根據(jù)服務(wù)的用戶類型進(jìn)行設(shè)計(jì),形成標(biāo)準(zhǔn)化的模板,用戶根據(jù)自身業(yè)務(wù)規(guī)模提出不同的需求,算力網(wǎng)絡(luò)管理編排系統(tǒng)將業(yè)務(wù)需求轉(zhuǎn)化為具體的算力資源調(diào)度方案,并為用戶分配合適的基礎(chǔ)資源。
針對第二方面的問題,我們設(shè)計(jì)了算力交易平臺。算力交易平臺可以與圖 1 中的算力網(wǎng)絡(luò)管理編排系統(tǒng)進(jìn)行對接,且與算力消費(fèi)方、算力提供方之間建立通信,如圖2 所示。
算力網(wǎng)絡(luò)交易平臺負(fù)責(zé)資源信息的整合與報(bào)價(jià)、執(zhí)行算力網(wǎng)絡(luò)交易流程以及提供資源消費(fèi)賬單與資源占用賬單。
算力網(wǎng)絡(luò)管理平臺和算力交易平臺共同構(gòu)成了本文的實(shí)驗(yàn)驗(yàn)證平臺-算力網(wǎng)絡(luò)平臺(CPN 平臺)。
圖2 算力交易平臺Fig.2 Computing power transaction platform
在傳統(tǒng)解決方案中,不同類型資源信息分發(fā)是通過互相獨(dú)立且差異很大的體系,比如算力資源信息一般會通過集中式的管控平臺(如云管平臺)來收集,用戶需要依靠這些平臺才能獲取各個(gè)算力池的空閑算力信息,而網(wǎng)絡(luò)資源信息則是通過網(wǎng)絡(luò)控制面來分發(fā),用戶可以在接入點(diǎn)獲取全網(wǎng)的路由信息,并按一定的策略來獲得有保障或者盡力而為的傳送通道。顯然由于各類資源信息的獨(dú)立性,導(dǎo)致在進(jìn)行聯(lián)合優(yōu)化時(shí),如何將不同類型的資源關(guān)聯(lián)起來,并保持實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)更新,成為一大難題。
因此,算力網(wǎng)絡(luò)采用將算力資源等信息通過網(wǎng)絡(luò)控制面進(jìn)行轉(zhuǎn)發(fā)的方式,來實(shí)現(xiàn)計(jì)算資源與網(wǎng)絡(luò)資源的有機(jī)結(jié)合,便于用戶調(diào)用最適合的資源,同時(shí)也能夠讓運(yùn)營方從全局的角度來實(shí)現(xiàn)資源的優(yōu)化和統(tǒng)一調(diào)度。
由于網(wǎng)絡(luò)控制面可分為分布式和集中式兩種方案,因此算力網(wǎng)絡(luò)在資源調(diào)度方面也有兩種方案,如集中式的算力網(wǎng)絡(luò)管理編排系統(tǒng)和分布式的算力路由層方案。本文通過分布式的方案來實(shí)現(xiàn)算力資源的分發(fā)。該方案通過在如邊界網(wǎng)關(guān)協(xié)議(Border Gateway Protocol, BGP)等的IP 路由協(xié)議中增加相應(yīng)的字段,讓算力資源信息可以在BGP 鄰居之間傳遞,并在傳遞算力資源信息的同時(shí),利用Telemetry 等協(xié)議,測量出本節(jié)點(diǎn)到算力節(jié)點(diǎn)之間的時(shí)延信息。路由協(xié)議中新增字段如圖3 所示。
圖3 路由協(xié)議中新增字段示例Fig.3 Extended fields in routing protocol
分布式路由分發(fā)示例如圖4 所示。
第一步,算力節(jié)點(diǎn)C1 將自己的空閑的算力資源信息發(fā)送給路由節(jié)點(diǎn)R4,在R4 上記錄了到C1 的信息:{C1,I1,T4},其中I1 是R4 去往C1 的端口,T4 包括兩部分:一是C1 到R4 的傳輸時(shí)延,二是R4 的節(jié)點(diǎn)處理時(shí)延Δt。
第二步,R4 將C1 節(jié)點(diǎn)的算力信息擴(kuò)散給路由節(jié)點(diǎn)R5,這樣R5 收到了R4 發(fā)送過來的算力信息后,生成相應(yīng)的算力路由表項(xiàng):{C1,R4,T5},其中記錄去往C1 需要經(jīng)過R4,其時(shí)延是T5,而T5 可以根據(jù)R4 發(fā)送過來的T4,加上T45:R4 到R5 的傳輸時(shí)延,以及R5 的節(jié)點(diǎn)處理時(shí)延Δt 所得,也可以利用Telemetry 協(xié)議重新進(jìn)行測量。
同理,網(wǎng)絡(luò)中的各節(jié)點(diǎn)都可以根據(jù)以上流程,得到本節(jié)點(diǎn)到本域內(nèi)所有算力節(jié)點(diǎn)的算力資源信息,以及對應(yīng)的路由表項(xiàng)。
用戶首先在算力交易平臺發(fā)起申請,包括對算力資源大小的需求,以及對時(shí)延的要求等。算力交易平臺在收到用戶交易申請后,會先向算力網(wǎng)絡(luò)管理編排系統(tǒng)查詢相關(guān)的算力資源信息和網(wǎng)絡(luò)資源信息。如果有必要,也可以由算力網(wǎng)絡(luò)管理編排平臺發(fā)起端到端的時(shí)延測量流程,以獲得更為精準(zhǔn)的時(shí)延信息。
第一步:由算力網(wǎng)絡(luò)消費(fèi)者提出業(yè)務(wù)訴求,比如站點(diǎn)位置、算力資源需求大小、連接服務(wù)要求等。
圖4 分布式路由分發(fā)示例Fig.4 Distributed routing distribution instance
第二步:算力網(wǎng)絡(luò)交易平臺根據(jù)算力網(wǎng)絡(luò)消費(fèi)者的訴求,生成算力網(wǎng)絡(luò)資源視圖,以算力網(wǎng)絡(luò)消費(fèi)者為中心,將可能的算力資源池、相關(guān)的網(wǎng)絡(luò)連接資源等整合在一張視圖中,甚至包括相關(guān)資源消費(fèi)組合的套餐報(bào)價(jià)。
第三步:算力網(wǎng)絡(luò)消費(fèi)者根據(jù)算力網(wǎng)絡(luò)資源視圖選擇最適合自己的套餐服務(wù),當(dāng)然也可以自行訂制選擇相應(yīng)的資源,然后在算力交易平臺上簽訂交易合約。
第四步:算力交易平臺根據(jù)交易合約,通過算力網(wǎng)絡(luò)管理編排系統(tǒng)調(diào)度算力資源、建立網(wǎng)絡(luò)連接等,并更新相應(yīng)的空閑資源信息。
第五步:算力交易平臺將持續(xù)跟蹤資源占用情況,直到由交易合約制定的交易結(jié)束時(shí)間,算力交易平臺終止服務(wù),釋放算力資源與網(wǎng)絡(luò)資源。
算力交易平臺還可以借助區(qū)塊鏈等新興技術(shù),實(shí)現(xiàn)分布式的賬本、匿名交易等新功能。
算力消費(fèi)者在算力交易平臺完成交易后,算力交易平臺將交易結(jié)果發(fā)送給算力網(wǎng)絡(luò)編排管理系統(tǒng)。由算力網(wǎng)絡(luò)編排管理平臺根據(jù)交易結(jié)果,分別對每個(gè)用戶建立網(wǎng)絡(luò)連接,并分配相應(yīng)的算力資源,更新算力資源和網(wǎng)絡(luò)資源信息。
算力,顧名思義就是計(jì)算能力。想要根據(jù)用戶對算力的需求為其提供服務(wù),首先需要將算力像電力一樣進(jìn)行量化,根據(jù)統(tǒng)一的標(biāo)準(zhǔn),評估每一個(gè)資源池現(xiàn)有的算力大小,和用戶對算力的需求大小。有了統(tǒng)一的標(biāo)準(zhǔn),才能明確資源現(xiàn)狀和用戶需求,算力才能夠進(jìn)行交易。而目前,算力按照應(yīng)用場景有不同的衡量單位,用于比特幣的每秒哈希運(yùn)算次數(shù)(H/S),用于AI 和圖形處理的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOP/S),智能社會對算力的訴求主要是浮點(diǎn)運(yùn)算能力,專用AI 芯片如華為昇騰910 采用7nm 工藝,半精度FP16 算力達(dá)256TFLOPS,低功耗的12nm 芯片昇騰310 半精度FP16 算力也達(dá)到了8 TFLOPS。過去5年, 隨著深度學(xué)習(xí)算法的演進(jìn),AI 訓(xùn)練對算力的需求增加了30 萬倍,一些互聯(lián)網(wǎng)廠家已經(jīng)將算力作為服務(wù)提供給用戶,從1 FP 32 TFLOPS 或8 FP 16 TFLOPS 到4 FP 32 TFLOPS 或32 FP16 TFLOPS的AI 推理加速服務(wù),簡單的語音語義識別或單流視頻分析 8 FP16 TFLOPS 即可滿足,復(fù)雜的推薦引擎或者風(fēng)險(xiǎn)檢測則需要32 FP16 TFLOPS[6]。
目前算力資源評估與度量還處于積極研究的階段,已經(jīng)在CCSA 等標(biāo)準(zhǔn)組織中設(shè)立相關(guān)研究課題。當(dāng)前的初步設(shè)想是,將算力池視為黑盒,根據(jù)以往收集的同類型算力池以及實(shí)驗(yàn)室測試情況,利用深度學(xué)習(xí)算法,評估和量化該算力池針對主要的AI 算法所能提供的算力資源大小。
在算力網(wǎng)絡(luò)中,網(wǎng)絡(luò)時(shí)延和算力大小是為用戶選擇合適資源池的兩個(gè)重要指標(biāo)。精準(zhǔn)的網(wǎng)絡(luò)時(shí)延測量則是所有工作的前提。目前Telemetry 技術(shù)能夠提供精準(zhǔn)網(wǎng)絡(luò)時(shí)延測量。
Telemetry 是一項(xiàng)遠(yuǎn)程的從物理設(shè)備或虛擬設(shè)備上高速采集數(shù)據(jù)的技術(shù),設(shè)備通過推模式主動向采集器上輸送設(shè)備數(shù)據(jù)信息,提供更實(shí)時(shí)、更高速的數(shù)據(jù)采集功能。與傳統(tǒng)的簡單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP)的Trap 和SYSLOG( 系統(tǒng)日志) 采用的推模式相比,Telemetry 推送的數(shù)據(jù)范圍更廣,不但包括告警及事件,還可以采集類似接口流量等的監(jiān)控?cái)?shù)據(jù),Telemetry 對網(wǎng)絡(luò)監(jiān)測控制效率的提升有著至關(guān)重要的作用。
由于Telemetry 能夠提供網(wǎng)絡(luò)的精確測量,常常被用在生產(chǎn)中的自動控制技術(shù)上,用來實(shí)現(xiàn)遠(yuǎn)程監(jiān)控的自動控制方案。在計(jì)算和網(wǎng)絡(luò)聯(lián)合優(yōu)化的場景中,通過Telemetry 技術(shù)可以加強(qiáng)基礎(chǔ)數(shù)據(jù)采集,實(shí)現(xiàn)計(jì)算和網(wǎng)絡(luò)的智能感知,作為計(jì)算網(wǎng)絡(luò)資源可視、智能化的基礎(chǔ)。
目前Telemetry 技術(shù)尚處于標(biāo)準(zhǔn)化階段。
在確定了用戶業(yè)務(wù)的部署位置后,需要在相應(yīng)的算力池中為用戶劃分資源并在用戶和資源節(jié)點(diǎn)之間建立通路,從而為用戶提供滿足需求的服務(wù)。基于SDN/NFV 的統(tǒng)一編排、自動管控的架構(gòu),能夠很好地解決算力網(wǎng)絡(luò)中網(wǎng)絡(luò)調(diào)度的問題。
SDN 是一種新型網(wǎng)絡(luò)架構(gòu),它將控制平面和轉(zhuǎn)發(fā)平面解耦,通過軟件編程的形式集中控制網(wǎng)絡(luò),具有開放性、可編程的特點(diǎn)[9]??稍谟脩魳I(yè)務(wù)部署或調(diào)整之后,配置用戶到業(yè)務(wù)處理節(jié)點(diǎn)之間的網(wǎng)絡(luò),將用戶流量路由到處理節(jié)點(diǎn)。
NFV 利用虛擬化技術(shù),將傳統(tǒng)電信設(shè)備功能,分割成幾個(gè)功能區(qū)塊,分別以軟件方式實(shí)現(xiàn),不再局限于硬件架構(gòu),實(shí)現(xiàn)網(wǎng)絡(luò)功能和硬件設(shè)備解耦。NFV 在2012年開始逐步制訂相關(guān)國際標(biāo)準(zhǔn)規(guī)范,目前已進(jìn)入了第四階段,開始注重NFV 商用落地的研究[1,10]??衫肗FV 技術(shù)創(chuàng)建虛擬寬帶接入服務(wù)器(virtual Broadband Remote Access Server,vBRAS)、虛擬用戶 終端設(shè)備(virtual Customer Premise Equipment,vCPE)等虛擬網(wǎng)關(guān),使用戶能夠訪問資源節(jié)點(diǎn)。
SDN/NFV 目前在產(chǎn)業(yè)界受到熱烈的追捧,運(yùn)營商和通信服務(wù)提供商都加大相關(guān)方向的部署力度希望能夠發(fā)揮SDN/NFV 的優(yōu)勢,幫助新服務(wù)快速部署,實(shí)現(xiàn)高度的網(wǎng)絡(luò)自動化和動態(tài)重新,降低運(yùn)營成本。
在前述的算力網(wǎng)絡(luò)體系的基礎(chǔ)上,本小節(jié)將根據(jù)一個(gè)典型的網(wǎng)絡(luò)場景來詳細(xì)描述,如何通過CPN平臺進(jìn)行算力資源、網(wǎng)絡(luò)資源的聯(lián)合優(yōu)化調(diào)度工作。場景示意如圖5 所示。
在本場景中,一共有三類算力資源節(jié)點(diǎn)。
圖5 典型場景示例Fig.5 Typical scenario instance
表 1 算力與網(wǎng)絡(luò)資源信息表Table 1 Computing power and network resource information table
(1)第一類是云計(jì)算節(jié)點(diǎn),如本例中的C1。此類節(jié)點(diǎn)所能提供的算力資源非常的多,對于單一用戶而言,可以認(rèn)為接近是無限量供應(yīng)的,但云計(jì)算節(jié)點(diǎn)一般集中部署在電力資源充裕、遠(yuǎn)離城區(qū)的位置,因此從網(wǎng)絡(luò)角度來看,云計(jì)算節(jié)點(diǎn)到用戶的時(shí)延是很難控制與保障的。
(2)第二類是城域計(jì)算節(jié)點(diǎn),如本例中的C2。此類節(jié)點(diǎn)能夠提供一定規(guī)模的算力資源,與用戶也在同一個(gè)城域網(wǎng)范疇內(nèi),網(wǎng)絡(luò)連接的質(zhì)量和時(shí)延也相對容易保障一些。但時(shí)延指標(biāo)仍受到一定的限制,不能提供極低的時(shí)延。
(3)第三類是邊緣計(jì)算節(jié)點(diǎn),如本例中的C3。此類節(jié)點(diǎn)靠近用戶設(shè)立,時(shí)延可以非常低,且不容易被其他用戶所干擾,網(wǎng)絡(luò)連接的質(zhì)量可以得到有效的保障。但受限于機(jī)房條件,能夠提供的算力資源非常有限,最好能分配給高價(jià)值用戶使用。
第一步:資源信息分發(fā)與收集
各算力節(jié)點(diǎn)將空閑算力通過路由協(xié)議進(jìn)行分發(fā),因此R1 可以得到所有計(jì)算節(jié)點(diǎn)的算力資源信息、網(wǎng)絡(luò)節(jié)點(diǎn)之間的網(wǎng)絡(luò)拓?fù)湫畔⒁约熬W(wǎng)絡(luò)時(shí)延信息等,如表1 所示。
第二步:算力交易
用戶根據(jù)收到的算力網(wǎng)絡(luò)路由表,考慮到其業(yè)務(wù)需求,自主選擇合適的算力節(jié)點(diǎn),并向CPN 平臺發(fā)出申請,完成算力交易流程。
如用戶希望計(jì)算的時(shí)延越低越好,而對價(jià)格因素不敏感,則可以選擇計(jì)算節(jié)點(diǎn)C3。
如用戶考慮到其對時(shí)延要求一般,但希望數(shù)據(jù)不出城,即無需負(fù)擔(dān)長途專線費(fèi)用,則可以選擇計(jì)算節(jié)點(diǎn)C2。
如用戶對業(yè)務(wù)擴(kuò)展性要求很高,希望能夠靈活提供算力大小,同時(shí)還希望能夠有較高數(shù)據(jù)安全性,具有獨(dú)立的網(wǎng)絡(luò)地址空間,但對時(shí)延沒有特別要求。則可以選擇計(jì)算節(jié)點(diǎn)C3。
第三步:資源調(diào)度
當(dāng)用戶在CPN 平臺完成交易后,CPN 平臺將根據(jù)用戶的選擇,建立相應(yīng)的網(wǎng)絡(luò)連接,并分配相應(yīng)的算力資源,更新算力資源和網(wǎng)絡(luò)資源信息。
如圖5 紅線所示,若用戶選擇計(jì)算節(jié)點(diǎn)C1,則CPN 先在C1 上部署虛擬化的軟件定義廣域網(wǎng)(Software Define Wide Area Network,SD-WAN)網(wǎng)關(guān),如vCPE, 即在R1 與C1 之間建立SD-WAN 專線,然后再分配C1 的算力資源給用戶,并更新算力資源表項(xiàng)。
本文提出了一種計(jì)算網(wǎng)絡(luò)資源聯(lián)合優(yōu)化調(diào)度方案-算力網(wǎng)絡(luò)。本文在介紹CPN 平臺的整體架構(gòu)的同時(shí),針對資源關(guān)聯(lián)問題介紹了資源信息的收集分發(fā)流程,針對資源交易問題,介紹了算力的交易流程,提供算力網(wǎng)絡(luò)可長期發(fā)展的生態(tài)環(huán)境。此外,文章在最后還提供了CPN 應(yīng)用的整體示例,展示了CPN平臺如何進(jìn)行算力資源、網(wǎng)絡(luò)資源的聯(lián)合優(yōu)化調(diào)度工作。算力網(wǎng)絡(luò)可結(jié)合網(wǎng)絡(luò)信息(如帶寬、時(shí)延等),針對用戶的不同類型需求,提供最佳的資源分配及網(wǎng)絡(luò)連接,從而實(shí)現(xiàn)整網(wǎng)資源的最優(yōu)化使用的解決方案。在下一步的工作中,我們還將對算力網(wǎng)絡(luò)中所涉及的各個(gè)功能模塊進(jìn)行細(xì)化,包括如何對算力資源進(jìn)行評估與度量,如何進(jìn)行精準(zhǔn)的網(wǎng)絡(luò)時(shí)延測量,和如何對網(wǎng)絡(luò)中的業(yè)務(wù)進(jìn)行調(diào)度,從而將算力網(wǎng)絡(luò)打造成一個(gè)集算力資源選擇,算力資源調(diào)度,算力資源交易為一體的全方位的算力生態(tài)環(huán)境。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。