白 寧,范利波
(中國西昌衛(wèi)星發(fā)射中心,四川 西昌 615000)
隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,各個(gè)行業(yè)領(lǐng)域在不斷地建設(shè)智能應(yīng)用系統(tǒng)的同時(shí),也將多種應(yīng)用系統(tǒng)放置到了云中心。有資料顯示,預(yù)計(jì)到2025年,全球85%以上的企業(yè)將應(yīng)用系統(tǒng)放置在云端[1]。同時(shí)人工智能、5G技術(shù)迅速發(fā)展,其大帶寬和低時(shí)延的特征需要數(shù)據(jù)就近處理,驅(qū)動(dòng)計(jì)算從云端下移到數(shù)據(jù)源附近,邊緣計(jì)算、移動(dòng)邊緣計(jì)算技術(shù)得到快速發(fā)展。未來航天科研活動(dòng)中,面對(duì)海量大數(shù)據(jù)的實(shí)時(shí)業(yè)務(wù)計(jì)算需求,網(wǎng)絡(luò)需具備計(jì)算、存儲(chǔ)、傳輸融合的新模式。邊緣計(jì)算(Edge Computing)在靠近數(shù)據(jù)源一側(cè)就近提供計(jì)算處理服務(wù),降低對(duì)云數(shù)據(jù)中心的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)帶寬需求,提高應(yīng)用的實(shí)時(shí)處理能力[2-3]。同時(shí)智慧云服務(wù)系統(tǒng)需要調(diào)度邊緣計(jì)算和云計(jì)算中心資源分配,實(shí)現(xiàn)整體資源利用最優(yōu)化,更好滿足用戶業(yè)務(wù)需求。
因此,建設(shè)航天智慧云服務(wù)系統(tǒng),需要覆蓋航天各子系統(tǒng)應(yīng)用終端的大數(shù)據(jù)采集、傳輸和處理的網(wǎng)絡(luò)系統(tǒng)架構(gòu)。本文提出了基于算力網(wǎng)絡(luò)的航天智慧云服務(wù)架構(gòu),并分析了未來典型應(yīng)用場(chǎng)景下滿足用戶業(yè)務(wù)需求日趨多樣化、算力資源分散化、網(wǎng)絡(luò)服務(wù)智能化的發(fā)展趨勢(shì)。
算力網(wǎng)絡(luò),又叫算力感知網(wǎng)絡(luò)(Computing Awareness Network),為了滿足人工智能時(shí)代社會(huì)對(duì)信息處理的巨大計(jì)算處理需求,需要將大量邊緣節(jié)點(diǎn)的算力進(jìn)行綜合調(diào)度,通過核心網(wǎng)絡(luò)的路由策略將分布在云中心、邊緣云和終端的各類算力資源進(jìn)行有效整合,形成池化算力資源,將應(yīng)用提出的算力需求通過計(jì)算度量后,分解成多個(gè)原子算力服務(wù)節(jié)點(diǎn),減輕了云中心的算力壓力,同時(shí)減少了網(wǎng)絡(luò)擁塞產(chǎn)生的時(shí)延,提升了算力資源利用率[3]。
如圖1所示,算力網(wǎng)絡(luò)整體系統(tǒng)架構(gòu)從下向上,劃分為基礎(chǔ)設(shè)施層、平臺(tái)資源層和業(yè)務(wù)應(yīng)用層?;A(chǔ)設(shè)施層將計(jì)算資源、存儲(chǔ)資源和網(wǎng)絡(luò)基礎(chǔ)設(shè)施統(tǒng)一為整體,以虛擬機(jī)或容器(Controller)的形式為平臺(tái)資源層提供接口,通過編排器調(diào)度邊緣節(jié)點(diǎn)資源提供給用戶;平臺(tái)資源層在對(duì)下層資源進(jìn)行管理和調(diào)度的同時(shí),以組件的方式為上層應(yīng)用提供接口服務(wù);業(yè)務(wù)應(yīng)用層通過對(duì)下層資源的調(diào)用,為用戶提供最終應(yīng)用服務(wù),實(shí)現(xiàn)其業(yè)務(wù)功能。
目前,分布式的海量航天科研數(shù)據(jù),只能通過互聯(lián)網(wǎng)絡(luò)進(jìn)行傳輸至云中心處理,導(dǎo)致相關(guān)應(yīng)用服務(wù)對(duì)網(wǎng)絡(luò)性能參數(shù),如傳輸速率、時(shí)延和抖動(dòng)等有較高的要求?;谌斯ぶ悄軕?yīng)用服務(wù)需要深度學(xué)習(xí)訓(xùn)練,大量的數(shù)據(jù)需要進(jìn)行計(jì)算處理,如果能夠在靠近數(shù)據(jù)源邊緣云就對(duì)數(shù)據(jù)進(jìn)行處理,則大大縮短計(jì)算時(shí)間。現(xiàn)代的通信網(wǎng)絡(luò)不僅需要高速的數(shù)據(jù)傳輸速率,還需要從根本上產(chǎn)生新的網(wǎng)絡(luò)協(xié)議才能滿足大數(shù)據(jù)的傳輸。而TCP協(xié)議無法適應(yīng)這樣的海量數(shù)據(jù)傳輸,比如在40 Gbps帶寬環(huán)境下?lián)砣翱诨謴?fù)時(shí)間長(zhǎng)達(dá)46小時(shí)[4]。此外,隨著人工智能應(yīng)用的發(fā)展,用戶終端在網(wǎng)絡(luò)邊緣云交換的數(shù)據(jù)量就已經(jīng)達(dá)到ZB級(jí);而AR/VR、智能機(jī)器人、機(jī)器視覺等應(yīng)用,對(duì)時(shí)延抖動(dòng)、丟包率和數(shù)據(jù)安全性等提出了較高要求[5]。
圖1 算力網(wǎng)絡(luò)整體架構(gòu)
圖2 邊緣計(jì)算流量預(yù)測(cè)
邊緣計(jì)算在靠近用戶網(wǎng)絡(luò)邊緣提供輕量級(jí)的云計(jì)算、存儲(chǔ)和安全服務(wù),用戶原本需要上傳至云中心的數(shù)據(jù)得以就近計(jì)算處理,避免了傳輸時(shí)延大影響服務(wù)質(zhì)量,同時(shí)也優(yōu)化了網(wǎng)絡(luò)路由策略。此外思科及IDC分別估計(jì),未來將有超過70%~75%的數(shù)據(jù)在網(wǎng)絡(luò)邊緣就可處理[6](見圖2)。這將對(duì)未來的云數(shù)據(jù)中心運(yùn)行模式、網(wǎng)絡(luò)流量模型產(chǎn)生重大改變。到2025年,麥肯錫預(yù)計(jì)邊緣計(jì)算的價(jià)值將會(huì)增加至1 750億~2 150億美元[7]。
因此,從上面事例可以看到,邊緣計(jì)算與算力網(wǎng)絡(luò)的融合,是未來發(fā)展新型航天智慧云架構(gòu)的發(fā)展趨勢(shì)。
航天智慧云服務(wù)目前采用“云計(jì)算中心+有線專網(wǎng)接入”模式,面向當(dāng)前階段多種類型用戶需求,能提供性能很好的計(jì)算存儲(chǔ)服務(wù)和高速的網(wǎng)絡(luò)接入條件。但是,隨著大數(shù)據(jù)、人工智能應(yīng)用的發(fā)展,連接的智能設(shè)備終端類型與數(shù)量增多,需處理的數(shù)據(jù)量劇增、對(duì)實(shí)時(shí)性要求會(huì)更高,如遠(yuǎn)程控制、無人測(cè)試、AR/VR 等新型測(cè)試手段也將不斷涌現(xiàn),必然對(duì)現(xiàn)有智慧云服務(wù)的計(jì)算存儲(chǔ)、網(wǎng)絡(luò)傳輸性能、低時(shí)延抖動(dòng)等能力提出更高要求。未來應(yīng)用服務(wù)將對(duì)算力網(wǎng)絡(luò)從以下幾個(gè)方面提出新需求。
(1)計(jì)算存儲(chǔ)能力。對(duì)于用戶處理業(yè)務(wù)應(yīng)用,只需要應(yīng)用以低成本高效率完成數(shù)據(jù)處理,并不在意數(shù)據(jù)處理的地點(diǎn)。若智慧云服務(wù)架構(gòu)采用云數(shù)據(jù)中心的模式,數(shù)據(jù)處理效率低,主要受限于網(wǎng)絡(luò)傳輸質(zhì)量和云中心的處理能力;采用算力網(wǎng)絡(luò)的架構(gòu),計(jì)算任務(wù)可分配到多個(gè)資源空閑的邊緣云來處理,傳輸帶寬減少了擁塞,數(shù)據(jù)處理效率將大為提升。同時(shí),存儲(chǔ)能力在數(shù)據(jù)處理過程中也很重要,在很大程度上會(huì)影響計(jì)算機(jī)的處理速率。
(2) 網(wǎng)絡(luò)傳輸性能。網(wǎng)絡(luò)性能是提升實(shí)時(shí)性業(yè)務(wù)服務(wù)質(zhì)量(QoS)方面的重要指標(biāo)。傳統(tǒng)云服務(wù)模式下,無法對(duì)不同業(yè)務(wù)流數(shù)據(jù)均按最優(yōu)先計(jì)算處理。在算力網(wǎng)絡(luò)中,針對(duì)不同種類的業(yè)務(wù)流,可以采用NFV的模式,在邊緣節(jié)點(diǎn)上增加傳輸優(yōu)化模塊,采用專有協(xié)議、優(yōu)化路由策略,靈活調(diào)度網(wǎng)絡(luò)資源以滿足不同業(yè)務(wù)對(duì)時(shí)延和抖動(dòng)的需求。
(3) 網(wǎng)絡(luò)接入方式增加。未來航天科研活動(dòng)使用的移動(dòng)終端會(huì)增加,導(dǎo)致對(duì)無線接入方式需求會(huì)增多。隨著物聯(lián)網(wǎng)的發(fā)展,海量傳感器需要傳輸處理數(shù)據(jù)。算力網(wǎng)絡(luò)中融入5G技術(shù),利用5G技術(shù)有低時(shí)延、大帶寬的特點(diǎn),將5G接入作為航天智慧云服務(wù)的重要補(bǔ)充,增加了智能終端接入云的類型。
(4)業(yè)務(wù)體驗(yàn)服務(wù)能力。集中式的云服務(wù)模式下,各種應(yīng)用(如文件存儲(chǔ)、自動(dòng)辦公、視頻會(huì)議等)都部署在云中心,當(dāng)有用戶距離云中心較遠(yuǎn)時(shí),則存在因?yàn)榫W(wǎng)絡(luò)時(shí)延大,丟包數(shù)增加等因素導(dǎo)致用戶體驗(yàn)較差。在算力網(wǎng)絡(luò)中,除了計(jì)算存儲(chǔ)能力和網(wǎng)絡(luò)性能,編解碼能力、每秒傳輸幀數(shù)(FPS)、吞吐量也是決定業(yè)務(wù)體驗(yàn)的聯(lián)合能力。因此,利用機(jī)器學(xué)習(xí)的算法,將用戶常訪問的數(shù)據(jù)預(yù)先判斷后緩存至邊緣云存儲(chǔ),這樣提升了用戶的訪問速度,也降低了整個(gè)網(wǎng)絡(luò)帶寬流量。
航天智慧云服務(wù)集中式算力網(wǎng)絡(luò)架構(gòu)下,根據(jù)技術(shù)中心、實(shí)驗(yàn)裝置、測(cè)試場(chǎng)區(qū)、保障場(chǎng)區(qū)等不同科研試驗(yàn)場(chǎng)景的應(yīng)用需求,將網(wǎng)絡(luò)能力與應(yīng)用服務(wù)能力下移到應(yīng)用邊緣。端、邊、云的算力和網(wǎng)絡(luò)資源及節(jié)點(diǎn)信息由集中式編排器NFVO (Network Function Virtualization Orchestrator) 統(tǒng)一管理,集中式編排器調(diào)度全網(wǎng)算力資源和網(wǎng)絡(luò)狀態(tài),按照應(yīng)用需求,編排最優(yōu)的算力服務(wù)轉(zhuǎn)發(fā)路徑,并下發(fā)至原子算力節(jié)點(diǎn),提升數(shù)據(jù)傳輸處理效率,為用戶提供現(xiàn)場(chǎng)級(jí)、智能化的計(jì)算服務(wù)能力,如圖3所示。
圖3 算力網(wǎng)絡(luò)集中式的航天智慧云架構(gòu)
算力資源分別部署于網(wǎng)絡(luò)基礎(chǔ)設(shè)施上,如邊緣計(jì)算節(jié)點(diǎn)、數(shù)據(jù)中心等,算力資源節(jié)點(diǎn)與NFVO進(jìn)行垂直交互。應(yīng)用從邊緣節(jié)點(diǎn)接入,集中編排器在感知應(yīng)用的算力和網(wǎng)絡(luò)需求,進(jìn)行路由策略控制,針對(duì)典型應(yīng)用NFVO可預(yù)配置后下發(fā)至算力節(jié)點(diǎn),邊緣節(jié)點(diǎn)對(duì)預(yù)配置生成路由信息后,轉(zhuǎn)發(fā)應(yīng)用流量。集中式算力網(wǎng)絡(luò)架構(gòu)對(duì)現(xiàn)網(wǎng)設(shè)備和協(xié)議的改動(dòng)最小,部署周期短。針對(duì)非典型應(yīng)用,需要算力網(wǎng)絡(luò)入口節(jié)點(diǎn)通過指令接口向集中編排器通告,增加了應(yīng)用請(qǐng)求響應(yīng)的延遲。
此外,由于接入智慧云節(jié)點(diǎn)增多,傳統(tǒng)集中編排器無法下沉到邊緣,通過輕量級(jí)虛擬化VIM(Virtual Infrastructure Manager)部署邊緣編排器,減少邊緣節(jié)點(diǎn)直接與智慧云的集中編排器交互,邊緣云數(shù)據(jù)中心的VIM針對(duì)本地可執(zhí)行路由策略編排的應(yīng)用場(chǎng)景,直接下發(fā)編排策略,提升了本地應(yīng)用請(qǐng)求響應(yīng)速度和執(zhí)行效率,起到層次化分擔(dān)流量。
在實(shí)際網(wǎng)絡(luò)部署中,算力資源節(jié)點(diǎn)向鄰近算力網(wǎng)絡(luò)節(jié)點(diǎn)上報(bào)(更新、刪除)算力資源信息、節(jié)點(diǎn)標(biāo)識(shí)、算力原子服務(wù)實(shí)例標(biāo)識(shí)等。算力網(wǎng)絡(luò)節(jié)點(diǎn)通過IGP&BGP路由協(xié)議將本節(jié)點(diǎn)的算力資源狀態(tài)信息洪泛通告至鄰居節(jié)點(diǎn),達(dá)到全網(wǎng)算力節(jié)點(diǎn)形成統(tǒng)一的算力資源狀態(tài)信息數(shù)據(jù)庫。
算力網(wǎng)絡(luò)分布式架構(gòu)如圖4所示。對(duì)于支持同樣算力原子服務(wù)的實(shí)例或節(jié)點(diǎn)可能分布在多個(gè)算力網(wǎng)絡(luò)轉(zhuǎn)發(fā)節(jié)點(diǎn)管理域內(nèi),轉(zhuǎn)發(fā)和路由設(shè)備根據(jù)網(wǎng)絡(luò)和算力資源狀態(tài)進(jìn)行全局路由決策,選擇最優(yōu)的算力節(jié)點(diǎn)進(jìn)行應(yīng)用流轉(zhuǎn)發(fā)。由于每個(gè)轉(zhuǎn)發(fā)路由設(shè)備均包含全網(wǎng)統(tǒng)一的算力資源狀態(tài)信息數(shù)據(jù)庫,因此可以掌握全網(wǎng)的算力資源信息來指導(dǎo)應(yīng)用流量轉(zhuǎn)發(fā),不需要NFVO參與,算力服務(wù)響應(yīng)速度更快。分布式算力網(wǎng)絡(luò)架構(gòu)的優(yōu)點(diǎn)是收斂快,特別適合時(shí)延敏感應(yīng)用,缺點(diǎn)是對(duì)現(xiàn)網(wǎng)設(shè)備和協(xié)議調(diào)整范圍大,改動(dòng)的周期長(zhǎng)。
本文采用一種既有集中式交互機(jī)制又有分布式交互機(jī)制的混合式架構(gòu),平衡部署代價(jià)、收斂速度各方面的需求。在不超過20個(gè)左右的網(wǎng)絡(luò)節(jié)點(diǎn)的中小規(guī)模邊緣算力網(wǎng),算力節(jié)點(diǎn)創(chuàng)建本地算力資源信息數(shù)據(jù)庫,算力資源通告和同步通過分布式協(xié)議IGP&BGP實(shí)現(xiàn)。更大范圍的全局算力網(wǎng)絡(luò)資源同步,則由局域網(wǎng)中的代理節(jié)點(diǎn)向中央集中編排器交互,發(fā)揮集中式架構(gòu)調(diào)度全網(wǎng)資源信息的優(yōu)勢(shì),重要的算力節(jié)點(diǎn)比如測(cè)試場(chǎng)區(qū)、實(shí)驗(yàn)裝置場(chǎng)區(qū)等,則選擇兩種資源同步方式共存,如圖5所示。
圖4 算力網(wǎng)絡(luò)分布式系統(tǒng)架構(gòu)
圖5 算力網(wǎng)絡(luò)混合式架構(gòu)
針對(duì)重大聯(lián)合項(xiàng)目組、新型實(shí)驗(yàn)裝置等需要專用網(wǎng)絡(luò)保障的科研應(yīng)用,在局域網(wǎng)出口處,部署SDN交換機(jī)及邊緣云節(jié)點(diǎn),加載虛擬智能邊緣網(wǎng)關(guān)(vCPE),支持WiFi、光纖、以太網(wǎng)接入并可擴(kuò)展支持5G、eMTC、NB-IoT及LoRa等接入方式,實(shí)現(xiàn)對(duì)各種物聯(lián)網(wǎng)傳感器的接入,對(duì)流量進(jìn)行統(tǒng)一管理,控制應(yīng)用流量引入加速虛擬專網(wǎng),并通過云服務(wù)的形式實(shí)現(xiàn)用戶自主管理,如圖6所示。
圖6 基于算力網(wǎng)絡(luò)的虛擬組網(wǎng)
現(xiàn)有場(chǎng)區(qū)局域網(wǎng)出于數(shù)據(jù)安全性的考慮,與運(yùn)營商移動(dòng)網(wǎng)絡(luò)物理隔離,這樣場(chǎng)區(qū)中移動(dòng)用戶終端產(chǎn)生的4G流量就不會(huì)進(jìn)入場(chǎng)區(qū)局域網(wǎng),但是也導(dǎo)致科研試驗(yàn)部分應(yīng)用無法直接使用移動(dòng)網(wǎng)絡(luò)。在5G技術(shù)中,通過聯(lián)通場(chǎng)區(qū)5G基站與邊緣云之間的接口,可以將場(chǎng)區(qū)內(nèi)產(chǎn)生的特定5G流量分流到本地邊緣云,實(shí)現(xiàn)流量的“內(nèi)網(wǎng)化”。通過邊5G流量本地分流的方式,將5G應(yīng)用到未來的智慧云中,解決現(xiàn)有網(wǎng)絡(luò)在部分移動(dòng)應(yīng)用場(chǎng)景中的網(wǎng)絡(luò)性能不足問題。
現(xiàn)有科研云平臺(tái)上有大量功能各異的云服務(wù),用戶通過區(qū)域內(nèi)網(wǎng)進(jìn)行訪問,特別是在長(zhǎng)途鏈路環(huán)境下,網(wǎng)絡(luò)帶寬、時(shí)延、抖動(dòng)等因素有可能會(huì)導(dǎo)致服務(wù)質(zhì)量不穩(wěn)定。算力網(wǎng)絡(luò)將計(jì)算存儲(chǔ)資源下沉到靠近用戶側(cè)的邊緣網(wǎng)絡(luò),用戶根據(jù)應(yīng)用算力需求可以就近處理信息或者通過NFVO路由決策到最優(yōu)路徑上。同時(shí),在邊緣側(cè),融合5G的移動(dòng)接入方式,用戶可以通過各類移動(dòng)終端,隨時(shí)隨地高效訪問智慧云服務(wù),開展科研試驗(yàn)工作。可以提供以下幾種典型的智慧云應(yīng)用服務(wù),如圖7所示。
圖7 航天智慧云應(yīng)用服務(wù)
(1)AR/VR:移動(dòng)AR/VR業(yè)務(wù)是一種云、端相結(jié)合的方式,其本質(zhì)是一種交互式在線視頻[8]。在云側(cè)超算平臺(tái)完成海量數(shù)據(jù)處理,在邊緣算力點(diǎn)完成圖像渲染和交互,再通過網(wǎng)絡(luò)傳輸給用戶輸入設(shè)備(手機(jī)、PC、PAD、虛擬鍵盤、手柄等),對(duì)業(yè)務(wù)進(jìn)行實(shí)時(shí)操作。
(2)無線辦公:利用邊緣云實(shí)現(xiàn)智能設(shè)備管理(如云打印、云投影等),開展無線辦公。
(3)智慧靶場(chǎng):根據(jù)5G和人工智能應(yīng)用特點(diǎn),算力網(wǎng)絡(luò)需同時(shí)具備極低傳輸時(shí)延和超強(qiáng)算力。智能駕駛、機(jī)械臂、無人加注等是智慧靶場(chǎng)重要組成部分,可通過海量數(shù)據(jù)的訓(xùn)練完成深度學(xué)習(xí),在特殊環(huán)境下實(shí)現(xiàn)遠(yuǎn)程無人化的操控。
(4)視頻會(huì)議:利用算力網(wǎng)絡(luò)實(shí)現(xiàn)虛擬化視頻會(huì)議MCU功能,配合視頻傳輸優(yōu)化服務(wù),實(shí)現(xiàn)高質(zhì)量、可動(dòng)態(tài)擴(kuò)展的云化視頻會(huì)議服務(wù)。在算力網(wǎng)絡(luò)的支撐下,視頻培訓(xùn)、遠(yuǎn)程故障診斷、視頻客戶服務(wù)、在線直播等一系列新興視頻應(yīng)用迅速普及[9]。
(5)存儲(chǔ)同步:根據(jù)用戶訪問趨勢(shì),自主地將智慧云存儲(chǔ)中的高頻訪問數(shù)據(jù)緩存在網(wǎng)絡(luò)邊緣并自動(dòng)同步更新,提升用戶數(shù)據(jù)訪問速度。
算力網(wǎng)絡(luò)在大數(shù)據(jù)、人工智能背景應(yīng)用下,能夠有效解決云中心與邊緣節(jié)點(diǎn)之間算力調(diào)度,適應(yīng)多種業(yè)務(wù)網(wǎng)絡(luò)性能需求,用戶業(yè)務(wù)體驗(yàn)得到極大提升,是未來航天智慧云服務(wù)處理大數(shù)據(jù)、連接多種智能終端的發(fā)展趨勢(shì)。本文分析了大數(shù)據(jù)、人工智能應(yīng)用的普及給網(wǎng)絡(luò)與計(jì)算帶來的挑戰(zhàn),以及航天智慧云服務(wù)對(duì)算力網(wǎng)絡(luò)的需求,結(jié)合現(xiàn)網(wǎng)基礎(chǔ)現(xiàn)狀,提出并闡述了兩種算力網(wǎng)絡(luò)應(yīng)用下的航天智慧云服務(wù)架構(gòu)和特點(diǎn),并給出其適用的典型應(yīng)用場(chǎng)景與服務(wù)能力。后續(xù)仍需要根據(jù)智慧云服務(wù)運(yùn)行模式的發(fā)展和用戶應(yīng)用需求變化來不斷完善,以適應(yīng)未來多樣化業(yè)務(wù)場(chǎng)景。