狄箏,曹一凡,仇超,羅韜,王曉飛
新型算力網(wǎng)絡(luò)架構(gòu)及其應(yīng)用案例分析
狄箏,曹一凡,仇超,羅韜*,王曉飛
(天津大學(xué) 智能與計(jì)算學(xué)部,天津 300350)(*通信作者電子郵箱luo_tao@tju.edu.cn)
隨著人工智能(AI)算力向網(wǎng)絡(luò)邊緣甚至終端設(shè)備擴(kuò)散,端邊云超協(xié)同的算力網(wǎng)絡(luò)成為最佳計(jì)算解決方案,而新機(jī)遇催生了端邊云超計(jì)算和網(wǎng)絡(luò)之間的深度集成。然而,集成系統(tǒng)的完整開發(fā)還沒有得到很好的解決,包括適應(yīng)性、靈活性和價(jià)值性,因此提出了一種區(qū)塊鏈賦能的端邊云超算力網(wǎng)絡(luò)架構(gòu)。其中,端邊云超融合為框架提供基礎(chǔ)設(shè)施,該設(shè)施構(gòu)成的算力資源池為用戶提供安全可靠的算力,網(wǎng)絡(luò)通過調(diào)度資源滿足用戶需求,而框架內(nèi)的神經(jīng)網(wǎng)絡(luò)和執(zhí)行平臺(tái)為AI任務(wù)執(zhí)行提供接口;同時(shí),區(qū)塊鏈保證資源交易的可靠性,以激勵(lì)更多算力貢獻(xiàn)者加入平臺(tái)。本框架為算力網(wǎng)絡(luò)中的用戶提供了適應(yīng)性,為組網(wǎng)算力資源調(diào)度提供了靈活性,為算力供應(yīng)商提供了價(jià)值激勵(lì),并利用案例清晰地描述了該新型算力網(wǎng)絡(luò)架構(gòu)。
計(jì)算組網(wǎng)融合;端邊云超融合;算力網(wǎng)絡(luò);區(qū)塊鏈;自適應(yīng)服務(wù)
近年來,人工智能(Artificial Intelligence, AI)技術(shù)和產(chǎn)業(yè)迅猛發(fā)展,正在全球掀起新的產(chǎn)業(yè)革命。隨著AI的興起,一些智能應(yīng)用正在極大地影響和促進(jìn)經(jīng)濟(jì)社會(huì)的發(fā)展和人類文明的進(jìn)步,如語音識(shí)別、自然語言生成、虛擬代理等。算法、數(shù)據(jù)和算力作為人工智能發(fā)展的重要支撐,正在引領(lǐng)和實(shí)現(xiàn)AI的發(fā)展和普適化。高效算力作為關(guān)鍵驅(qū)動(dòng)因素之一,在數(shù)據(jù)處理、算法優(yōu)化、高精度快速交互等方面起著催化作用[1]。因此,以異構(gòu)、加速和高性能計(jì)算為特征的新興AI計(jì)算技術(shù)和框架,為有意義的AI研究和應(yīng)用提供了無數(shù)的可能性。
面對(duì)眾多新興的AI應(yīng)用場(chǎng)景問題,下一代超級(jí)計(jì)算依托其超快互聯(lián)性、超高計(jì)算性、超大存儲(chǔ)性、超完善基建性以及超強(qiáng)安全性和工作負(fù)載性等特點(diǎn),為其提供了強(qiáng)有力的解決方案。然而,針對(duì)用戶定制化的AI服務(wù),要求較高的服務(wù)資源自適應(yīng)分配與擴(kuò)展性,如適應(yīng)性服務(wù)、快速響應(yīng)服務(wù)等,超級(jí)計(jì)算提供的算力資源常常超過服務(wù)計(jì)算的需求,從而造成大量計(jì)算資源和成本的浪費(fèi)。隨著B5G/6G(Beyond Fifth-Generation/ Sixth-Generation)[2]等技術(shù)的發(fā)展,海量數(shù)據(jù)從數(shù)據(jù)中心擴(kuò)散至了網(wǎng)絡(luò)的邊緣,甚至是終端設(shè)備[3]。與此同時(shí),邊緣計(jì)算、超融合、微數(shù)據(jù)中心等多層次計(jì)算架構(gòu)應(yīng)運(yùn)而生,擴(kuò)展并提升了超計(jì)算機(jī)環(huán)境基礎(chǔ)架構(gòu)的靈活性。因此,端邊云超融合的算力網(wǎng)絡(luò)成了5G/B5G下機(jī)器智能時(shí)代的最佳解決方案。
目前,基于端邊云超融合的算力網(wǎng)絡(luò)架構(gòu)的相關(guān)研究尚處于初步階段。推進(jìn)與完善多模式、多層次的算力網(wǎng)絡(luò)架構(gòu)還存在諸多的不足。其中,如何定義并構(gòu)建可靠有效的AI算力理論是研究端邊云超協(xié)同下新一代算力網(wǎng)絡(luò)的基礎(chǔ)。首先,具備AI算力的設(shè)備(如傳感器、手機(jī)、電腦、服務(wù)器等)眾多,而針對(duì)算力的定義在國際上并無統(tǒng)一標(biāo)準(zhǔn);其次,面對(duì)不同的AI應(yīng)用場(chǎng)景及架構(gòu),算力服務(wù)的部署應(yīng)用也不盡相同,如何選擇合理的算力評(píng)估量化指標(biāo),定量分析算力配置方案是構(gòu)建端邊云超算力網(wǎng)絡(luò)的先決條件。此外,在端邊云超架構(gòu)中,各層級(jí)承載的AI算法也不同,因此,建立新型算力評(píng)價(jià)體系迫在眉睫。
端邊云超融合的算力網(wǎng)絡(luò)架構(gòu)中算力的管理和分配至關(guān)重要,尤其是對(duì)于端邊云超等多模式、多層次的算力網(wǎng)絡(luò)架構(gòu)。算力網(wǎng)絡(luò)的完善發(fā)展還存在諸多不足,包括:1)如何為用戶提供適應(yīng)性的計(jì)算服務(wù),以滿足用戶多樣化的需求;2)如何支持彈性的組網(wǎng)服務(wù)和算力資源調(diào)度,從而實(shí)現(xiàn)快速響應(yīng);3)如何保證算力提供者的效益,從而實(shí)現(xiàn)算力網(wǎng)絡(luò)的價(jià)值激勵(lì)。因此,適應(yīng)性、彈性和價(jià)值是基于端邊云超算力網(wǎng)絡(luò)架構(gòu)下的三個(gè)主要指標(biāo)。
另外,區(qū)塊鏈這一開放、加密、分布式的新興系統(tǒng),能夠有效建立面向AI友好型的共識(shí)算法,從而實(shí)現(xiàn)算力網(wǎng)絡(luò)和區(qū)塊鏈的互惠互利。而在基于端邊云超的定制算力網(wǎng)絡(luò)架構(gòu)中,區(qū)塊鏈具有激勵(lì)機(jī)制、可靠和可追蹤的算力共享等優(yōu)點(diǎn)。同時(shí),區(qū)塊鏈中基于AI的共識(shí)協(xié)議也能夠加速用戶AI任務(wù)的進(jìn)程。因此,針對(duì)以上三個(gè)主要指標(biāo),如何綜合考慮多層級(jí)的算力設(shè)施、架構(gòu)抽象計(jì)算資源、優(yōu)化算力調(diào)度以及適配各種AI業(yè)務(wù)需求,是構(gòu)建端邊云超融合的定制算力網(wǎng)絡(luò)架構(gòu)的關(guān)鍵。
受以上研究的啟發(fā),本文提出了一種區(qū)塊鏈賦能的端邊云超算力網(wǎng)絡(luò)架構(gòu),以響應(yīng)AI應(yīng)用快速增長(zhǎng)的算力需求,推動(dòng)計(jì)算和網(wǎng)絡(luò)的融合。
1.1.1 算力定義與來源
目前針對(duì)算力的定義一直沒有一個(gè)通用的標(biāo)準(zhǔn)。2018年諾貝爾獎(jiǎng)獲得者William D.Nordhaus在《計(jì)算過程》中定義算力是設(shè)備根據(jù)內(nèi)部狀態(tài)的改變,每秒可處理的信息數(shù)據(jù)量。根據(jù)運(yùn)行智能算法和數(shù)據(jù)類型的不同,算力可分為以下幾類:1)邏輯運(yùn)算能力,即處理器每秒鐘能處理的次數(shù);2)并行計(jì)算能力,即處理如圖形圖像等數(shù)據(jù)類型統(tǒng)一的一種高效計(jì)算能力;3)神經(jīng)網(wǎng)絡(luò)計(jì)算能力,即用來對(duì)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等進(jìn)行加速的計(jì)算能力。
隨著5G/B5G機(jī)器智能時(shí)代的來臨,涌現(xiàn)出大量移動(dòng)計(jì)算、邊緣計(jì)算、超算數(shù)據(jù)中心/云計(jì)算集中式AI算力網(wǎng)絡(luò)架構(gòu),如圖1所示。面對(duì)高性能、低時(shí)延需求的新型AI應(yīng)用,僅憑端側(cè)或云側(cè)的算力將無法支撐廣泛的AI計(jì)算需求,算力網(wǎng)絡(luò)的概念相繼被提出。文獻(xiàn)[4]中提出從云網(wǎng)融合走向算網(wǎng)融合,網(wǎng)絡(luò)為端邊云算力高效協(xié)同發(fā)展提供更智能的服務(wù)。而基于邊云、端邊云、端邊云超等協(xié)同算力融合架構(gòu)已成為提升整體AI算力的潛在解決方案。文獻(xiàn)[5]中提出了一種網(wǎng)絡(luò)組織架構(gòu),該架構(gòu)能實(shí)現(xiàn)云邊之間靈活調(diào)度并按需分配計(jì)算資源,在算力網(wǎng)絡(luò)中實(shí)現(xiàn)前端嵌入式資源調(diào)度,進(jìn)一步提高了前端設(shè)備的自主處理能力。文獻(xiàn)[6]中提出了基于端邊云的混合式算力網(wǎng)絡(luò)架構(gòu),通過結(jié)合集中式和分布式架構(gòu),能為多種應(yīng)用提供優(yōu)質(zhì)的算力服務(wù),并提高了算力資源利用率。
圖1 算力形態(tài)
在算力融合架構(gòu)中,具有AI算力的設(shè)備種類繁多,具體地,AI算力設(shè)備可以依據(jù)其算力規(guī)模由小至大歸納為傳感器、智能手機(jī)、便攜機(jī)、邊緣服務(wù)器、高性能服務(wù)器等,它們?yōu)闊o處不在的AI應(yīng)用提供了大量的算力支撐。
為支持5G/B5G的機(jī)器智能時(shí)代下異構(gòu)設(shè)備的增多以及超強(qiáng)算力的需求,本文提出端邊云超協(xié)同的算力網(wǎng)絡(luò)架構(gòu),協(xié)同考慮網(wǎng)絡(luò)和計(jì)算融合演進(jìn)的需求,共建新一代算力網(wǎng)絡(luò)生態(tài)。
1.1.2 算力評(píng)估量化指標(biāo)
針對(duì)算力評(píng)估量化體系的建立,不同的應(yīng)用場(chǎng)景及架構(gòu)對(duì)算力評(píng)估量化指標(biāo)也不盡相同。在端邊云超算力網(wǎng)絡(luò)架構(gòu)中,算力服務(wù)的應(yīng)用部署需要判斷配置方案是否滿足應(yīng)用需求,實(shí)現(xiàn)對(duì)算力需求以及算力的定量分析,因此需要對(duì)算力進(jìn)行量化,一般通用的指標(biāo)包括每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)(FLoating-point Operations Per Second, FLOPS)、每秒執(zhí)行百萬條指令(Million Instructions executed Per Second, MIPS)等。
在部署AI服務(wù)時(shí),數(shù)據(jù)集的復(fù)雜程度、模型的訓(xùn)練及執(zhí)行時(shí)間、硬件的配置需求以及對(duì)資源消耗等因素也會(huì)影響執(zhí)行AI應(yīng)用的效率,因此還應(yīng)將精度、延遲、帶寬等作為全面量化算力的規(guī)模與質(zhì)量的評(píng)價(jià)指標(biāo)?,F(xiàn)階段AI相關(guān)芯片、硬件、算法、場(chǎng)景、架構(gòu)等均在快速演進(jìn),上述算力指標(biāo)根據(jù)不同的場(chǎng)景也有不同的應(yīng)用。在端邊云超算力體系中,綜合考慮接入端—邊緣側(cè)—云超算中心的任務(wù)算力、任務(wù)處理需求(GPU或CPU)、計(jì)算空間大小、功耗及連接手段等方面,可選擇不同的算力量化指標(biāo)。
在端邊云超計(jì)算架構(gòu)中,各層級(jí)對(duì)AI算力應(yīng)用的評(píng)價(jià)標(biāo)準(zhǔn)各不相同:云端AI計(jì)算主要關(guān)注算力執(zhí)行AI任務(wù)的精度、處理能力、內(nèi)存容量和帶寬,同時(shí)也追求低延時(shí)和低功耗等性能服務(wù);邊緣AI計(jì)算主要關(guān)注功耗、響應(yīng)時(shí)間、體積、成本和隱私安全等問題。
不同的算力層級(jí)架構(gòu)需要不同的機(jī)器學(xué)習(xí)算法,同樣也需要針對(duì)性的性能評(píng)價(jià)指標(biāo)。機(jī)器學(xué)習(xí)算法包括有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),其中有監(jiān)督學(xué)習(xí)的主要研究方向包含分類和回歸,無監(jiān)督學(xué)習(xí)包含聚類。因此算力評(píng)價(jià)體系也可以利用基于機(jī)器學(xué)習(xí)算法的評(píng)價(jià)體系進(jìn)行評(píng)估,例如正確率、精確率、召回率、均方誤差、決定系數(shù)、蘭德系數(shù)等。
中國電信利用算力路由層進(jìn)行信息發(fā)布與計(jì)算,實(shí)現(xiàn)用戶體驗(yàn)最優(yōu)、計(jì)算資源利用率最優(yōu)、網(wǎng)絡(luò)效率最優(yōu),但是針對(duì)算力需求的模型一般不能同時(shí)考慮上述因素,較為受限。因此,新型的算力網(wǎng)絡(luò)架構(gòu)可以進(jìn)一步對(duì)不同設(shè)備種類的算力、能耗、模型規(guī)模、可訓(xùn)練性以及成本進(jìn)行建模,使得算力模型在多個(gè)維度上得到融合和均衡的發(fā)展。中國聯(lián)通發(fā)布的算力網(wǎng)絡(luò)白皮書中提出了實(shí)現(xiàn)數(shù)據(jù)與算力的高吞吐、敏捷連接和均衡隨選的算力網(wǎng)絡(luò)架構(gòu)[7];此外還提出了評(píng)價(jià)異構(gòu)算力統(tǒng)一標(biāo)識(shí),將異構(gòu)算力資源抽象進(jìn)行統(tǒng)一調(diào)度和適配,使算力從通用架構(gòu)走向?qū)S枚ㄖ疲?]。另外,由于提高CPU運(yùn)算效率會(huì)受到功耗低制約,文獻(xiàn)[9]中提出了數(shù)據(jù)中心算效模型,即用單位功耗的算力評(píng)價(jià)數(shù)據(jù)中心計(jì)算效果。
本文提出了區(qū)塊鏈賦能的端邊云超算力網(wǎng)絡(luò)架構(gòu),建立了新型的應(yīng)用評(píng)價(jià)體系。本文圍繞算力網(wǎng)絡(luò),將算網(wǎng)成員分為用戶、算力組網(wǎng)和算力提供者三類,從三個(gè)方面出發(fā),提供不同的定制化服務(wù):1)為用戶提供適應(yīng)性的計(jì)算服務(wù),以滿足用戶多樣化的需求;2)支持彈性的組網(wǎng)服務(wù)和算力資源調(diào)度,從而實(shí)現(xiàn)快速響應(yīng);3)保證算力提供者的效益,實(shí)現(xiàn)算力網(wǎng)絡(luò)的價(jià)值激勵(lì)。因此,本文將適應(yīng)性、彈性和價(jià)值激勵(lì)作為評(píng)價(jià)算力網(wǎng)絡(luò)性能的三個(gè)主要指標(biāo)。
本文的區(qū)塊鏈賦能的端邊云超算力網(wǎng)絡(luò)架構(gòu)涉及用戶的自適應(yīng)計(jì)算需求、組網(wǎng)算力資源的靈活調(diào)度與管理需求以及供應(yīng)商價(jià)值需求三個(gè)問題。在已有的架構(gòu)[10]中,用戶側(cè)的算力需求[11]、網(wǎng)絡(luò)側(cè)的管理需求[6]和算力貢獻(xiàn)側(cè)的激勵(lì)需求是被分開進(jìn)行研究的,它們都為本文的算力網(wǎng)絡(luò)架構(gòu)系統(tǒng)的底層助力,所以如何抽象、管理和分配算力資源以及優(yōu)化三個(gè)問題也直接影響著本文算力網(wǎng)絡(luò)架構(gòu)的性能,同時(shí)區(qū)塊鏈和應(yīng)用場(chǎng)景的作用也不容忽視。因此,綜合考慮這三方面因素,本文提出了一個(gè)具有普適性、靈活性和可評(píng)估性的算力網(wǎng)絡(luò)框架,如圖2所示。
圖2 區(qū)塊鏈賦能的端邊云超算力網(wǎng)絡(luò)架構(gòu)
2.1.1 基礎(chǔ)設(shè)施層
5G和邊緣計(jì)算的出現(xiàn)加速了算力從云端向網(wǎng)絡(luò)邊緣和終端設(shè)備的遷移,而由各類基礎(chǔ)設(shè)備合作構(gòu)成的端-邊-云超協(xié)同網(wǎng)絡(luò)架構(gòu)也成為網(wǎng)絡(luò)計(jì)算架構(gòu)未來的趨勢(shì)。
端設(shè)備:如智能攝像頭、終端傳感器、交通燈等具有一定的算力和網(wǎng)絡(luò)特性,可以在一定程度上執(zhí)行敏捷且無處不在的數(shù)據(jù)收集和推理。
邊緣設(shè)備:如人工智能小站(華為Atlas系列芯片)、移動(dòng)邊緣計(jì)算基站、智能家居網(wǎng)關(guān)等邊緣算力設(shè)備,只能完成特定業(yè)務(wù)需求的推理和訓(xùn)練。而在某些情況下,邊緣設(shè)備算力有限,不能完成大規(guī)模的數(shù)據(jù)分析及深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練等,仍然需要高性能云數(shù)據(jù)中心進(jìn)行高速的計(jì)算、存儲(chǔ)、訓(xùn)練及推理。
云&超中心:在目前的AI應(yīng)用場(chǎng)景中,云計(jì)算數(shù)據(jù)中心可以開發(fā)部署大部分符合市場(chǎng)業(yè)務(wù)需求的AI應(yīng)用,執(zhí)行大規(guī)模的數(shù)據(jù)分析及深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練推理等。然而,在一些情況下,如智慧城市、生物醫(yī)藥、航空航天以及地震數(shù)據(jù)處理等領(lǐng)域,云計(jì)算數(shù)據(jù)中心算力無法高效運(yùn)行大規(guī)模的科學(xué)計(jì)算任務(wù)。本文的算力網(wǎng)絡(luò)架構(gòu)利用高性能算力資源,使其與云計(jì)算的工作模式和運(yùn)行機(jī)制融合,建設(shè)兼具高性能計(jì)算和云計(jì)算的性能、軟硬件架構(gòu)和應(yīng)用模式的高性能云計(jì)算中心,可以有效完成大型深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練、推理以及大規(guī)模的科學(xué)計(jì)算任務(wù)。
2.1.2 資源池層
由端節(jié)點(diǎn)、邊緣計(jì)算節(jié)點(diǎn)及云計(jì)算融合超算平臺(tái)組成的算力資源池,是利用云計(jì)算技術(shù)的容器特性構(gòu)建的資源池,通過軟件定義網(wǎng)絡(luò)(Software?Defined?Network, SDN)與網(wǎng)絡(luò)編排引擎相連接,并通過云管平臺(tái)統(tǒng)一調(diào)度完成算力的基礎(chǔ)資源支撐。其中,多層次的計(jì)算資源和無處不在的網(wǎng)絡(luò)資源在這一層被抽象和聚集。通常,資源池管理器負(fù)責(zé)從基礎(chǔ)設(shè)施層感知物理計(jì)算和網(wǎng)絡(luò),同時(shí)將分散的資源在計(jì)算池和網(wǎng)絡(luò)池中進(jìn)行池化和分組。由于算力是由分散的算力貢獻(xiàn)者提供,所以對(duì)計(jì)算池中計(jì)算資源使用情況的追蹤至關(guān)重要,同時(shí)也需保障網(wǎng)絡(luò)池的可靠性和私密性。
2.1.3 調(diào)度優(yōu)化層
ACPN上不同用戶的需求差異較大,所以根據(jù)用戶的計(jì)算需求、網(wǎng)絡(luò)需求和對(duì)貢獻(xiàn)者的支付金額將他們的需求分成不同的類,所有的服務(wù)類別都?xì)w納在表1中。
此外,調(diào)度優(yōu)化層可對(duì)分類后的需求通過調(diào)度優(yōu)化算法進(jìn)行處理,如強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)[12]、拍賣機(jī)制[13]、凸優(yōu)化[14]算法等。算法的總體優(yōu)化目標(biāo)是對(duì)劃分后的需求進(jìn)行優(yōu)化分配,使之匹配不同的底層算力資源。
表1 服務(wù)的分類
2.1.4 AI執(zhí)行層
為了能高效地執(zhí)行AI應(yīng)用,本文的算力網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)了接口式的神經(jīng)網(wǎng)絡(luò)和執(zhí)行平臺(tái)。根據(jù)不同的AI應(yīng)用的需求,AI執(zhí)行層能靈活地選擇合適的神經(jīng)網(wǎng)絡(luò)。例如使用反向傳播(Back Propagation, BP)網(wǎng)絡(luò)進(jìn)行文本識(shí)別、使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)進(jìn)行語音識(shí)別、使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)進(jìn)行圖像識(shí)別等。此外,這一層也包含各種各樣的學(xué)習(xí)平臺(tái)框架,如Tensorflow、Caffe、PyTorch, Theano、CNTK等。結(jié)合第1、2、3層分配的計(jì)算、網(wǎng)絡(luò)資源以及本層適當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)和學(xué)習(xí)執(zhí)行平臺(tái),共同完成AI算法的執(zhí)行任務(wù)。
2.1.5 區(qū)塊鏈層
來自端、邊、云超架構(gòu)中異構(gòu)、分散和眾籌的算力被不同的用戶以一種有補(bǔ)償?shù)姆绞绞褂?,因此需要一個(gè)可信的平臺(tái)來支持安全可靠的管理,并確保自發(fā)算力提供者的服務(wù)可靠性。由于區(qū)塊鏈安全、透明和去中心化的特性,將區(qū)塊鏈層引入ACPN中,以一種防篡改和可追蹤的方式在算力用戶和算力貢獻(xiàn)者之間構(gòu)建信任。另一方面,區(qū)塊鏈的激勵(lì)機(jī)制能鼓勵(lì)更多的算力提供者加入ACPN,這可能是未來算力實(shí)現(xiàn)的新趨勢(shì)。此外,在區(qū)塊鏈中執(zhí)行類似于工作量證明(Proof of Work, PoW)等耗能的共識(shí)機(jī)制時(shí)對(duì)算力有很大需求,因此在ACPN中使用區(qū)塊鏈?zhǔn)莾烧呋ダ?。由于以下四個(gè)不同的技術(shù)特點(diǎn),區(qū)塊鏈有機(jī)會(huì)在ACPN中發(fā)揮巨大的作用。
1)分布式賬本技術(shù)。與傳統(tǒng)的由中心權(quán)威機(jī)構(gòu)控制的分布式存儲(chǔ)系統(tǒng)不同,分布式賬本技術(shù)依賴于多方制定統(tǒng)一的規(guī)則,然后共同決策、維護(hù)數(shù)據(jù)。隨著算力交易的快速增長(zhǎng),分布式賬本技術(shù)將有利于維護(hù)多方交易,提高交易的可操作性和可信性。
2)共識(shí)協(xié)議。共識(shí)協(xié)議是分布式賬本技術(shù)的必要前提,它保證了各參與方對(duì)一個(gè)區(qū)塊增加的唯一順序達(dá)成一致。在不同區(qū)塊鏈中使用的共識(shí)協(xié)議各不相同,大致可以分為基于工作量的協(xié)議和基于副本的協(xié)議。在基于工作量的協(xié)議中,各方獨(dú)自解決一個(gè)計(jì)算難題,以競(jìng)爭(zhēng)哪方可以優(yōu)先發(fā)布一個(gè)區(qū)塊;而基于副本的協(xié)議則利用狀態(tài)機(jī)復(fù)制機(jī)制來達(dá)成共識(shí)。無論是哪種共識(shí)協(xié)議,都需要大量的算力。
3)智能合約。智能合約實(shí)際上是存儲(chǔ)在區(qū)塊鏈中的一個(gè)微型計(jì)算機(jī)程序,它在滿足某些特定條件時(shí)自動(dòng)執(zhí)行。算力貢獻(xiàn)者可以通過這種自動(dòng)執(zhí)行且透明的方式按合約內(nèi)容收取服務(wù)費(fèi)用,而無需任何信任的第三方公證人。
4)密碼學(xué)原理。密碼學(xué)作為區(qū)塊鏈的底層基礎(chǔ),為區(qū)塊鏈提供了大量的安全可靠技術(shù),包括哈希算法、對(duì)稱和非對(duì)稱加密、數(shù)字簽名、數(shù)字證書、零知識(shí)證明和同態(tài)加密等。
2.1.6 AI服務(wù)層
AI應(yīng)用可以分成兩部分,其中:應(yīng)用業(yè)務(wù)涉及人臉識(shí)別、智能制造、軌跡識(shí)別、交通控制等方面;而系統(tǒng)業(yè)務(wù)則更多體現(xiàn)對(duì)系統(tǒng)的監(jiān)控,如功率控制、流量控制等。
以短視頻業(yè)務(wù)中的動(dòng)作識(shí)別需求為例,詳細(xì)對(duì)ACPN框架流程進(jìn)行闡述,如圖3所示。
圖3 本文算力網(wǎng)絡(luò)架構(gòu)的任務(wù)執(zhí)行流程
步驟1 用戶發(fā)出AI任務(wù)需求,即視頻任務(wù)進(jìn)入本文提出的區(qū)塊鏈賦能的ACPN框架后,在AI執(zhí)行層中系統(tǒng)首先對(duì)任務(wù)類型進(jìn)行感知識(shí)別,確定該任務(wù)為短視頻中的動(dòng)作識(shí)別。
步驟2 匹配需要執(zhí)行的AI任務(wù),在各類深度學(xué)習(xí)算法的框架下選擇具體的神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)平臺(tái)用于訓(xùn)練和推理。
步驟3 綜合考慮用戶的需求,即計(jì)算需求、網(wǎng)絡(luò)需求和支付費(fèi)用,從而適應(yīng)來自不同用戶的不同任務(wù)需求。
步驟4 依據(jù)用戶任務(wù)需求,在數(shù)據(jù)和服務(wù)之間按照任務(wù)需要?jiǎng)討B(tài)地建立彈性網(wǎng)絡(luò)連接。具體地說,在算力調(diào)度優(yōu)化層為了實(shí)現(xiàn)最優(yōu)的資源分配,調(diào)度控制中心會(huì)將任務(wù)進(jìn)行任務(wù)分割、模型分割,并根據(jù)使用的調(diào)度優(yōu)化算法將不同的計(jì)算子任務(wù)分配端-邊-云超協(xié)同網(wǎng)絡(luò)架構(gòu)的不同的計(jì)算池中。
步驟5 在由各種算力基本單元組成的算力資源池形成一個(gè)巨大資源網(wǎng)絡(luò)中,資源網(wǎng)絡(luò)為各種計(jì)算子任務(wù)提供傳輸路徑。在計(jì)算任務(wù)傳輸?shù)倪^程中,網(wǎng)絡(luò)傳輸?shù)臅r(shí)延、可靠性、能源的消耗以及資源使用率等信息將反饋給前一層的算力調(diào)度中心。
步驟6 具體的計(jì)算任務(wù)傳輸?shù)交A(chǔ)設(shè)備層,由確定的計(jì)算設(shè)備進(jìn)行計(jì)算。
步驟7 泛在的計(jì)算設(shè)備在完成視頻動(dòng)作識(shí)別任務(wù)的同時(shí),一些設(shè)備會(huì)執(zhí)行挖礦任務(wù)從而獲得交易的優(yōu)先記賬權(quán)。
區(qū)塊鏈中的價(jià)值激勵(lì)使得算力提供者能更廣泛地獲得除服務(wù)以外的收益,這也鼓勵(lì)越來越多的算力提供者加入到ACPN中提供算力。如果一臺(tái)云服務(wù)器被分配到訓(xùn)練處理視頻任務(wù)用到的三維卷積神經(jīng)網(wǎng)絡(luò),那么在它完成任務(wù)之后會(huì)獲得來自用戶支付的服務(wù)費(fèi)用。與此同時(shí),一個(gè)邊緣智能小站通過執(zhí)行學(xué)習(xí)量證明(Proof of Learning, PoL)共識(shí)機(jī)制獲得了優(yōu)先記錄交易的權(quán)力。在區(qū)塊出塊后,這臺(tái)邊緣設(shè)備將獲得出塊獎(jiǎng)勵(lì)和記錄交易的服務(wù)費(fèi)。而想加入?yún)^(qū)塊鏈搭建的普通用戶也可以通過租用ACPN中的算力幫助自己獲得交易的優(yōu)先記賬權(quán)從而獲得相應(yīng)的獎(jiǎng)勵(lì)。
本章將在所提出的ACPN框架下進(jìn)行算力資源分配案例分析,以驗(yàn)證其性能。其中,算力提供者根據(jù)自身算力情況提出算力資源單位定價(jià),用戶根據(jù)定價(jià)和任務(wù)需求向算力提供者報(bào)價(jià),算力提供者根據(jù)收集的用戶AI任務(wù)請(qǐng)求,通過資源池組網(wǎng),與用戶進(jìn)行算力資源交易。ACPN框架利用區(qū)塊鏈技術(shù)實(shí)現(xiàn)用戶、組網(wǎng)以及算力提供者的效益平衡。
針對(duì)用戶側(cè),算力用于挖礦和服務(wù)。在ACPN框架下,通過最大化用戶效用,滿足用戶時(shí)延需求從而為用戶提供適應(yīng)性計(jì)算服務(wù)[15]。用戶效用包括在區(qū)塊鏈環(huán)境下挖礦獲得的獎(jiǎng)勵(lì)、任務(wù)卸載執(zhí)行時(shí)延帶來的損失和為購買算力支付給算力提供者的費(fèi)用。圖4表示不同算力用處下的不同用戶效用:若所有算力用于服務(wù),用戶效益全部為負(fù)值;若所有算力用于挖礦,用戶效用有正有負(fù)。由于挖礦成功是存在風(fēng)險(xiǎn)的,并且所有的算力用于服務(wù)的用戶效用全部是負(fù)的,所以用戶如果考慮將一部分的算力用于挖礦,一部分用于服務(wù)是可能會(huì)有收益的。
圖4 不同算力用處下的不同用戶效用
在算力網(wǎng)絡(luò)方面,網(wǎng)絡(luò)為計(jì)算服務(wù),其價(jià)值在于充分利用算力資源,提高資源利用率。根據(jù)用戶需求,在端邊云超之間按需分配計(jì)算資源,并且靈活調(diào)度計(jì)算資源,使網(wǎng)絡(luò)從傳統(tǒng)的信息傳輸向感知、傳輸、存儲(chǔ)、計(jì)算和處理為一體的方向轉(zhuǎn)變。在本文的框架模型中,端邊云架構(gòu)充分調(diào)度節(jié)點(diǎn)的算力,相較于只有邊云架構(gòu),本文架構(gòu)加入端節(jié)點(diǎn)減小了任務(wù)等待時(shí)延,同時(shí)算力分配機(jī)制提高了算力資源利用率,可靈活地為網(wǎng)絡(luò)提供服務(wù)。
針對(duì)算力提供者,其效用包括提供算力得到的報(bào)酬和提供算力帶來的電力損失。通過最大化算力提供者效用從而實(shí)現(xiàn)ACPN架構(gòu)的價(jià)值激勵(lì)。如圖5所示,不同曲線代表擁有不同算力的算力提供者,購買算力的用戶數(shù)量越多,算力提供者效用越高;并且,算力提供者擁有的算力越少,其效用越高,這是因?yàn)樗懔μ峁┱邠碛械乃懔υ缴倨鋯挝欢▋r(jià)越高,導(dǎo)致其效用越高。
圖5 擁有不同算力的算力提供者效用和用戶數(shù)量關(guān)系
本文提出了區(qū)塊鏈賦能的端邊云超算力網(wǎng)絡(luò)架構(gòu),致力于通過靈活的組網(wǎng)服務(wù)來共享AI算力,通過算力分配機(jī)制,在動(dòng)態(tài)適應(yīng)用戶多樣化定制服務(wù)的同時(shí),實(shí)現(xiàn)算力提供者的價(jià)值。在未來的工作中,我們將重點(diǎn)研究區(qū)塊鏈中的共識(shí)機(jī)制和AI服務(wù)之間的關(guān)系,以此提供更全面高效的AI服務(wù)。
[1] DAI Y Y, XU D,MAHARJAN S, et al. Blockchain and deep reinforcement learning empowered intelligent 5G beyond[J]. IEEE Network, 2019, 33(3): 10-17.
[2] SAAD W, BENNIS M, CHEN M Z. A vision of 6G wireless systems: applications, trends, technologies, and open research problems[J]. IEEE Network, 2020, 34(3): 134-142.
[3] REN J K, YU G D, HE Y H, et al. Collaborative cloud and edge computing for latency minimization[J]. IEEE Transactions on Vehicular Technology, 2019, 68(5): 5031-5044.
[4] 中國聯(lián)合網(wǎng)絡(luò)通信有限公司研究院,中國聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司,華為技術(shù)有限公司.云網(wǎng)融合向算網(wǎng)一體技術(shù)演進(jìn)白皮書[R/OL]. [2021-10-05].http://221.179.172.81/images/20210324/8861616553741841.pdf. (Research Institute of China Unicom, Guangdong Branch of China Unicom, Huawei. White paper on evolution of cloud-network integration to computing network integration technology[R/OL]. [2021-10-05].http://221.179.172.81/images/20210324/8861616553741841.pdf.)
[5] 李銘軒,曹暢,唐雄燕,等. 面向算力網(wǎng)絡(luò)的邊緣資源調(diào)度解決方案研究[J]. 數(shù)據(jù)與計(jì)算發(fā)展前沿, 2020, 2(4): 80-91.(LI M X, CAO C, TANG X Y, et al. Research on edge resource scheduling solutions for computing power network[J]. Frontiers of Data and Computing, 2020, 2(4): 80-91.)
[6] 黃光平,羅鑒,周建鋒. 算力網(wǎng)絡(luò)架構(gòu)與場(chǎng)景分析[J]. 信息通信技術(shù), 2020, 14(4): 16-22.(HUANG G P, LUO J, ZHOU J F. Analysis of computation network architecture and according scenarios[J]. Information and Communications Technologies, 2020, 14(4): 16-22.)
[7] 中國聯(lián)通網(wǎng)絡(luò)技術(shù)研究院. 中國聯(lián)通算力網(wǎng)絡(luò)白皮書[EB/OL]. [2021-10-05].http://www.impcia.net/Uploads/report/2020-04-29/5ea92233af1e4.pdf. (Network Technology Research Institute of China Unicom. China Unicom computing network white paper[EB/OL]. [2021-10-05].http://www.impcia.net/Uploads/report/2020-04-29/5ea92233af1e4.pdf.)
[8] 中國聯(lián)通算力網(wǎng)絡(luò)產(chǎn)業(yè)技術(shù)聯(lián)盟. 異構(gòu)算力統(tǒng)一標(biāo)識(shí)與服務(wù)白皮書[EB/OL]. [2021-10-05].http://221.179.172.81/images/20210324/13331616553850222.pdf. (Computing Network Industry Technology Alliance of China Unicom. White paper on unified identification and service of heterogeneous computing power[EB/OL]. [2021-10-05].http://221.179.172.81/images/20210324/13331616553850222.pdf.)
[9] 郭亮,吳美希,王峰,等. 數(shù)據(jù)中心算力評(píng)估:現(xiàn)狀與機(jī)遇[J]. 信息通信技術(shù)與政策, 2021, 47(2): 79-86.(GUO L, WU M X, WANG F, et al. Research on evaluation of computing power and efficiency in data center: status and opportunities[J]. Information and Communications Technology and Policy, 2021, 47(2): 79-86.)
[10] KRóL M, MASTORAKIS S, ORAN D, et al. Compute first networking: distributed computing meets ICN[C]// Proceedings of the 6th ACM Conference on Information-Centric Networking. New York: ACM, 2019: 67-77.
[11] LEI B, ZHAO Q Y, MEI J. Computing power network: an interworking architecture of computing and network based on IP extension[C]// Proceedings of the IEEE 22nd International Conference on High Performance Switching and Routing. Piscataway: IEEE, 2021: 1-6.
[12] QIU C, YU F R, YAO H P, et al. Blockchain-based software-defined Industrial Internet of Things: a dueling deep-learning approach[J]. IEEE Internet of Things Journal, 2019, 6(3): 4627-4639.
[13] XIONG Z H, FENG S H, WANG W B, et al. Cloud/fog computing resource management and pricing for blockchain networks[J]. IEEE Internet of Things Journal, 2019, 6(3): 4585-4600.
[14] LIANG S, WANG L Y, YIN G. Distributed smooth convex optimization with coupled constraints[J]. IEEE Transactions on Automatic Control, 2020, 65(1): 347-353.
[15] CAO K, GUO X, ZHOU J, et al. QoS-adaptive approximate real-time computation for mobility-aware IoT lifetime optimization[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2019, 38(10): 1799-1810.
New computing power network architecture and application case analysis
DI Zheng, CAO Yifan, QIU Chao, LUO Tao*, WANG Xiaofei
(,,300350,)
With the proliferation of Artificial Intelligence (AI) computing power to the edge of the network and even to terminal devices, the computing power network of end-edge-supercloud collaboration has become the best computing solution. The emerging new opportunities have spawned the deep integration between end-edge-supercloud computing and the network. However, the complete development of the integrated system is unsolved, including adaptability, flexibility, and valuability. Therefore, a computing power network for ubiquitous AI named ACPN was proposed with the assistance of blockchain. In ACPN, the end-edge-supercloud collaboration provides infrastructure for the framework, and the computing power resource pool formed by the infrastructure provides safe and reliable computing power for the users, the network satisfies users’ demands by scheduling resources, and the neural network and execution platform in the framework provide interfaces for AI task execution. At the same time, the blockchain guarantees the reliability of resource transaction and encourage more computing power contributors to join the platform. This framework provides adaptability for users of computing power network, flexibility for resource scheduling of networking computing power, and valuability for computing power providers. A clear description of this new computing power network architecture was given through a case.
computing-networking integration; end-edge-supercloud collaboration; computing power network; blockchain; adaptive service
This work is partially supported by National Key Research and Development Program of China (2019YFB2101901), National Natural Science Foundation of China (62072332, 62002260), China Postdoctoral Science Foundation (2020M670654).
DI Zheng, born in 1996, M. S. candidate. Her research interests include computing power network, edge computing, edge intelligence.
CAO Yifan, born in 1997, M. S. candidate. His research interests include energy trading game, blockchain, deep reinforcement learning.
QIU Chao, born in 1988, Ph. D., lecturer. Her research interests include computing power network, blockchain, edge computing, edge intelligence, machine learning.
LUO Tao, born in 1978, Ph. D., associate professor. His research interests include information security, integrated circuit.
WANG Xiaofei, born in 1982, Ph. D., professor. His research interests include 5G edge computing, edge intelligence, blockchain, computing power network.
TP393.02
A
1001-9081(2022)06-1656-06
10.11772/j.issn.1001-9081.2021061497
2021?08?23;
2021?11?17;
2021?11?18。
國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2019YFB2101901);國家自然科學(xué)基金資助項(xiàng)目(62072332, 62002260);中國博士后科學(xué)基金面上資助項(xiàng)目(2020M670654)。
狄箏(1996—),女,河北石家莊人,碩士研究生,主要研究方向:算力網(wǎng)絡(luò)、邊緣計(jì)算、邊緣智能;曹一凡(1997—),男,湖南湘潭人,碩士研究生,主要方向:能源交易博弈、區(qū)塊鏈、深度強(qiáng)化學(xué)習(xí);仇超(1988—),女,河北張家口人,講師,博士,CCF會(huì)員,主要研究方向:算力網(wǎng)絡(luò)、區(qū)塊鏈、邊緣計(jì)算、邊緣智能、機(jī)器學(xué)習(xí);羅韜(1978—),男,河南信陽人,副教授,博士,CCF會(huì)員,主要研究方向:信息安全、集成電路;王曉飛(1982—),男,河北保定人,教授,博士,CCF會(huì)員,主要研究方向:5G邊緣計(jì)算、邊緣智能、區(qū)塊鏈、算力網(wǎng)絡(luò)。