王 睿 齊建鵬 陳 亮 楊 龍
1(北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院 北京 100083)
2(北京科技大學(xué)順德研究生院 廣東佛山 528300)
Gartner 指出2022 年將有75%的企業(yè)數(shù)據(jù)在邊緣側(cè)產(chǎn)生[1],IDC 預(yù)測(cè)2025 年將有416 億個(gè)邊緣側(cè)設(shè)備實(shí)現(xiàn)互聯(lián)數(shù)據(jù)量達(dá)79.4 ZB[2].由于云計(jì)算的實(shí)時(shí)性差、帶寬受限、高能耗、維護(hù)費(fèi)用高、隱私安全等問題[3-7],將不能應(yīng)對(duì)邊緣側(cè)如此海量的設(shè)備與數(shù)據(jù),使對(duì)用戶服務(wù)的有效提供面臨嚴(yán)峻挑戰(zhàn),促使邊緣計(jì)算的蓬勃發(fā)展[8].邊緣計(jì)算將計(jì)算、存儲(chǔ)等資源下沉至用戶側(cè),以其低時(shí)延、動(dòng)態(tài)性、移動(dòng)性以及位置感知等特征,在智能醫(yī)療、智能家居、軍事及農(nóng)業(yè)等領(lǐng)域發(fā)揮了重要作用[9-13].隨著通用設(shè)備的不斷普及、專用設(shè)備的不斷下沉、虛擬化及中間件技術(shù)的飛速發(fā)展、設(shè)備性能的不斷提升以及基礎(chǔ)設(shè)施運(yùn)營商的大力投入等[13],催生出大量可在邊緣側(cè)進(jìn)行訓(xùn)練與推理的邊緣協(xié)同技術(shù)架構(gòu),如FATE,Paddle-Lite,Tensor-Flow Lite 等[14],借助多樣化的邊緣設(shè)備協(xié)同能力,使單設(shè)備下的多業(yè)務(wù)場(chǎng)景、多設(shè)備下的復(fù)雜智能業(yè)務(wù)場(chǎng)景發(fā)展迅速.各種云、邊、端間協(xié)同技術(shù)的不斷進(jìn)步[15-16]與各種機(jī)器學(xué)習(xí)模型訓(xùn)練優(yōu)化技術(shù)、輕量化技術(shù)[17]的深入研究,促進(jìn)了邊緣智能(edge intelligence,EI)相關(guān)方向的飛速發(fā)展.邊緣智能或智慧邊緣計(jì)算是指借助邊緣側(cè)輔助實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的訓(xùn)練與推理的一系列智能化方法,使智能更加高效、貼近用戶、解決人工智能“最后一公里”問題[18-22].邊緣協(xié)同智能則指在邊緣智能的基礎(chǔ)上進(jìn)一步通過邊緣節(jié)點(diǎn)間的協(xié)同,融合邊緣計(jì)算資源(網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、感知、應(yīng)用等)核心能力實(shí)現(xiàn)的智能.從其生命周期來看,可劃分為訓(xùn)練階段、推理階段以及模型的部署更新,而本文則聚焦于其中的推理階段.
本文第1 節(jié)對(duì)邊緣智能側(cè)重于從協(xié)同推理角度的發(fā)展簡史以及整體過程進(jìn)行縱向總結(jié),引出目前邊緣協(xié)同推理涉及到的關(guān)鍵技術(shù),描繪出邊緣協(xié)同推理在邊緣協(xié)同智能中的整體位置,并給出2 個(gè)分類標(biāo)準(zhǔn),將邊緣協(xié)同推理的智能化方法與邊緣協(xié)同推理的整體架構(gòu),與已有文獻(xiàn)進(jìn)行比較,突出本文貢獻(xiàn);第2 節(jié)從協(xié)同角度根據(jù)分類標(biāo)準(zhǔn)對(duì)已有的協(xié)同推理階段、部署更新等問題進(jìn)行總結(jié)并結(jié)合邊緣計(jì)算資源特點(diǎn)對(duì)不同技術(shù)進(jìn)行橫向比較與分析;第3節(jié)聚焦于對(duì)邊緣協(xié)同推理在動(dòng)態(tài)場(chǎng)景下的挑戰(zhàn)進(jìn)行總結(jié),本文提到的動(dòng)態(tài)場(chǎng)景[23]包括有地理位置帶來的環(huán)境變化、邊緣計(jì)算資源發(fā)散、網(wǎng)絡(luò)拓?fù)涞淖兓?、服?wù)性能波動(dòng)大、節(jié)點(diǎn)頻繁交換導(dǎo)致服務(wù)或系統(tǒng)吞吐量的動(dòng)態(tài)變化以及應(yīng)用、網(wǎng)絡(luò)、設(shè)備等帶來的不確定性,標(biāo)準(zhǔn)不統(tǒng)一的場(chǎng)景.并對(duì)未來值得關(guān)注的研究方向進(jìn)行初步探討;第4 節(jié)總結(jié)本文.
圖1 展示的是在谷歌學(xué)術(shù)上使用“edge intelligence”關(guān)鍵詞進(jìn)行檢索,得到的關(guān)于邊緣智能的文獻(xiàn)數(shù)量與年份對(duì)應(yīng)的發(fā)展趨勢(shì).從圖1 來看,截止2020 年,邊緣智能的發(fā)展正處于爆發(fā)期,還未達(dá)到平穩(wěn)發(fā)展期.
Fig.1 Edge intelligence developmental trend圖1 邊緣智能發(fā)展趨勢(shì)
進(jìn)一步,通過對(duì)Web of Science 中以關(guān)鍵詞“edge intelligen”檢索得到的239 篇文獻(xiàn)進(jìn)行分析,本文將邊緣協(xié)同智能劃分為3 個(gè)階段:萌芽期、技術(shù)儲(chǔ)備期以及爆發(fā)期.本文關(guān)注的邊緣協(xié)同推理在圖2 中同時(shí)給出了所涉及到的推理過程中使用的核心技術(shù)及其在邊緣智能發(fā)展過程中的關(guān)鍵時(shí)間節(jié)點(diǎn),從中也可以觀察到,人工智能領(lǐng)域涌現(xiàn)出的新技術(shù)會(huì)極快的同步應(yīng)用到邊緣智能中(圖2 中相同形狀圖標(biāo)表示同一類型技術(shù)),如神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search,NAS)與計(jì)算能力受限的硬件資源結(jié)合后演變?yōu)樯窠?jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)搜索(neural architecture and implementation search,NAIS).技術(shù)突破的關(guān)鍵問題是如何在資源受限的邊緣計(jì)算場(chǎng)景中應(yīng)用新技術(shù).這些協(xié)同推理關(guān)鍵技術(shù)極大促進(jìn)了邊緣智能的發(fā)展,下文將在邊緣智能的基礎(chǔ)上,結(jié)合圖1、圖2,重點(diǎn)對(duì)這些關(guān)鍵技術(shù)進(jìn)行歸納總結(jié)并同時(shí)從協(xié)同角度給出分析.
邊緣協(xié)同智能萌芽期(2003—2012 年).“edge intelligence”一詞最初源自有線網(wǎng)絡(luò)傳輸場(chǎng)景,主要目標(biāo)是提升網(wǎng)絡(luò)的可靠性、智能性[24-25].隨著移動(dòng)通信技術(shù)的發(fā)展,多媒體為代表的各類服務(wù)在網(wǎng)絡(luò)中呈爆發(fā)態(tài)勢(shì),用戶的移動(dòng)性給各類服務(wù)的管理帶來挑戰(zhàn),邊緣協(xié)同智能被應(yīng)用于移動(dòng)用戶的管理,主要目標(biāo)是提升服務(wù)管理效率、降低時(shí)延[26-27].而此時(shí)對(duì)如何利用分布式網(wǎng)絡(luò)中的資源還未形成系統(tǒng)性認(rèn)識(shí),多為簡單的智能算法相互組合,節(jié)點(diǎn)間協(xié)同性不強(qiáng),未涉及到與深度學(xué)習(xí)技術(shù)的結(jié)合,能支持的智能業(yè)務(wù)有限.
Fig.2 Emerging time of key techniques in collaborative inference圖2 協(xié)同推理關(guān)鍵技術(shù)出現(xiàn)時(shí)間
邊緣協(xié)同智能技術(shù)儲(chǔ)備期(2012—2016 年).該階段隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,大量引人注目的成果不斷涌現(xiàn),如2012 年的AlexNet[28]和2015 年的Inception[29]分別在ImageNet 比賽中取得了令人矚目的成果.隨后,更加輕量化的深度學(xué)習(xí)模型處理技術(shù)被不斷提出,并應(yīng)用到邊緣設(shè)備上,使邊緣設(shè)備具有了智能化的推理能力[30].隨著深度學(xué)習(xí)與邊緣計(jì)算不斷融合,基于邊緣協(xié)同的智能處理方案開始顯現(xiàn),如在跌倒檢測(cè)應(yīng)用中在邊緣設(shè)備和邊緣服務(wù)器之間對(duì)智能檢測(cè)算法進(jìn)行簡單拆分[31].同時(shí),云原生的虛擬化容器技術(shù),如Docker,也開始迅速發(fā)展.此時(shí)與深度學(xué)習(xí)結(jié)合的邊緣智能開始成為主流,一些中間件、虛擬化技術(shù)也飛速發(fā)展,但還未出現(xiàn)以邊緣計(jì)算資源特點(diǎn)與深度學(xué)習(xí)模型結(jié)構(gòu)融合的推理方法.
邊緣協(xié)同智能爆發(fā)期(2017 年以后).得益于上個(gè)階段的技術(shù)儲(chǔ)備,該時(shí)期大量的深度學(xué)習(xí)模型與邊緣計(jì)算結(jié)合,眾多邊緣協(xié)同智能處理方案迅速增長,如邊緣計(jì)算場(chǎng)景下的分布式協(xié)同訓(xùn)練[32]、聯(lián)邦學(xué)習(xí)[33];基于模型切割、早期退出等技術(shù)的分布式協(xié)同推理[34-35]、淺層的寬度學(xué)習(xí)系統(tǒng)[36]與虛擬化技術(shù)的結(jié)合,使邊緣協(xié)同智能的快速落地成為可能,極大減輕了不同設(shè)備間的運(yùn)維成本[37-38].現(xiàn)階段用于邊緣協(xié)同推理的場(chǎng)景復(fù)雜多樣,用于推理的基礎(chǔ)服務(wù)或架構(gòu)還未形成穩(wěn)定發(fā)展的趨勢(shì),表現(xiàn)出應(yīng)用層所具有的多樣化特點(diǎn).
結(jié)合邊緣智能當(dāng)前所處的階段可以看出,其目前正處快速發(fā)展階段,這也說明邊緣協(xié)同推理方向存在眾多問題與挑戰(zhàn),由于目前未對(duì)邊緣協(xié)同推理形成整體概貌,有必要對(duì)其進(jìn)行進(jìn)一步分析,對(duì)相關(guān)技術(shù)進(jìn)行歸類劃分,指明未來的發(fā)展方向.
邊緣協(xié)同推理利用節(jié)點(diǎn)間的協(xié)同,通過不同的訓(xùn)練優(yōu)化手段,獲取用于協(xié)同推理的模型并結(jié)合場(chǎng)景的資源特點(diǎn)等信息在訓(xùn)練節(jié)點(diǎn)或邊緣設(shè)備等資源上完成部署.如圖3 所示,按照邊緣協(xié)同推理在邊緣協(xié)同智能中的生命周期位置來看,推理階段與訓(xùn)練階段相互結(jié)合,是一個(gè)不斷往復(fù)循環(huán)、不斷提升的過程.根據(jù)推理業(yè)務(wù)需求,其中還可能涉及模型的更新部署(本文“更新”特指替換服務(wù)中的推理模型,而非訓(xùn)練階段的梯度等的更新).
Fig.3 Key techniques,processes and application scenarios of edge collaborative inference圖3 邊緣協(xié)同推理關(guān)鍵技術(shù)、過程及應(yīng)用場(chǎng)景
通過訓(xùn)練得到的模型往往不能直接應(yīng)用到推理場(chǎng)景,需要額外的模型處理步驟.根據(jù)模型的生命周期以及推理場(chǎng)景的資源特點(diǎn),訓(xùn)練階段可采用的優(yōu)化手段有模型選擇、模型量化、早期退出、神經(jīng)網(wǎng)絡(luò)架構(gòu)(實(shí)現(xiàn))搜索等.推理階段可對(duì)模型進(jìn)行2 次處理,結(jié)合早期退出、模型量化、神經(jīng)網(wǎng)絡(luò)架構(gòu)(實(shí)現(xiàn))搜索等方式對(duì)模型進(jìn)行進(jìn)一步修改,以及在支持節(jié)點(diǎn)協(xié)同的情況下,采用模型切割、模型選擇等技術(shù)對(duì)模型進(jìn)行2 次無損處理;在推理階段的后期,由于時(shí)間、業(yè)務(wù)、數(shù)據(jù)等的變化涉及到模型的更新,此時(shí)多借助重新訓(xùn)練模型、在線學(xué)習(xí)等技術(shù).
除此之外,通過圖3 還可看出,邊緣計(jì)算場(chǎng)景的資源異構(gòu)性會(huì)涉及到不同的推理架構(gòu)適用性問題.目前來看推理架構(gòu)的選擇通常與特定的推理模型處理技術(shù)相關(guān).本文將從推理的智能化方法與架構(gòu)2 個(gè)角度對(duì)現(xiàn)有研究展開討論.值得一提的是,目前邊緣計(jì)算方面有著眾多優(yōu)秀的工作,由于篇幅所限,本文主要針對(duì)邊緣協(xié)同中推理階段的模型處理、更新部署以及運(yùn)行推理的架構(gòu)進(jìn)行闡述.
由于推理過程中所用機(jī)器學(xué)習(xí)模型規(guī)模大、復(fù)雜性高,限制了推理關(guān)鍵技術(shù)在邊緣計(jì)算場(chǎng)景下的訓(xùn)練與應(yīng)用.目前,有研究者針對(duì)模型的推理內(nèi)容進(jìn)行了總結(jié).文獻(xiàn)[39]探討了分布式機(jī)器學(xué)習(xí)的發(fā)展,討論了其系統(tǒng)性挑戰(zhàn)以及利用高性能計(jì)算加速和提高可擴(kuò)展性的方法,描述了一種分布式機(jī)器學(xué)習(xí)的參考架構(gòu),基于此給出了各個(gè)階段的常用算法.文獻(xiàn)[40]總結(jié)了分布式協(xié)同優(yōu)化中的熱點(diǎn)研究方向,包括加速優(yōu)化算法、非凸優(yōu)化算法和無梯度優(yōu)化算法,并結(jié)合實(shí)際應(yīng)用場(chǎng)景進(jìn)行了展望.文獻(xiàn)[41]回顧了物聯(lián)網(wǎng)場(chǎng)景中能夠支持機(jī)器學(xué)習(xí)的模型在低性能硬件上執(zhí)行的主要技術(shù),比較了深度學(xué)習(xí)、RNN、GAN 等可在邊緣設(shè)備上實(shí)現(xiàn)的機(jī)器學(xué)習(xí)算法和這類算法下沉到邊緣的過程;作為底層支持,還介紹了基于邊緣服務(wù)器的架構(gòu)、支持AI 的物聯(lián)網(wǎng)無線標(biāo)準(zhǔn)、卸載技術(shù)、隱私問題處理和訓(xùn)練階段的邊緣實(shí)現(xiàn).文獻(xiàn)[42]在深度學(xué)習(xí)的基礎(chǔ)知識(shí)和最新技術(shù)的基礎(chǔ)上,分析了在邊緣設(shè)備上執(zhí)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和深度學(xué)習(xí)模型推理的方法和架構(gòu),并探討了在邊緣部署深度學(xué)習(xí)的未來與挑戰(zhàn).文獻(xiàn)[43]在文中討論了加速深度學(xué)習(xí)推理的不同結(jié)構(gòu)與方法,分為僅設(shè)備端執(zhí)行、僅邊緣服務(wù)器執(zhí)行和中間方案3 種,以及在邊緣設(shè)備上訓(xùn)練深度學(xué)習(xí)模型,重點(diǎn)關(guān)注了多設(shè)備和隱私處理的分布式訓(xùn)練.文獻(xiàn)[18]在概述了深度學(xué)習(xí)和邊緣智能的基本概念與定義后,針對(duì)深度學(xué)習(xí)模型在網(wǎng)絡(luò)邊緣進(jìn)行訓(xùn)練/推理的總體架構(gòu)、框架和新興關(guān)鍵技術(shù)作出了介紹.
文獻(xiàn)[18,39?43]關(guān)注深度神經(jīng)網(wǎng)絡(luò)模型壓縮與加速技術(shù),并針對(duì)邊緣設(shè)備中的訓(xùn)練和推理作出了總結(jié),與之不同的是,本文充分調(diào)研了近幾年來邊緣智能相關(guān)的文獻(xiàn),從動(dòng)態(tài)場(chǎng)景角度,重點(diǎn)關(guān)注節(jié)點(diǎn)間協(xié)同的推理處理方式,分別從推理模型與架構(gòu)的角度進(jìn)行描述,總結(jié)了用于邊緣協(xié)同推理的核心技術(shù)發(fā)展,對(duì)邊緣智能中訓(xùn)練和推理相關(guān)技術(shù)面臨的機(jī)遇與挑戰(zhàn)做出了展望.
本文貢獻(xiàn)有5 個(gè)方面:
1)按照關(guān)鍵技術(shù)的發(fā)展脈絡(luò),對(duì)邊緣協(xié)同智能發(fā)展史進(jìn)行了梳理;
2)對(duì)邊緣協(xié)同推理進(jìn)行分類,將其劃分為邊緣協(xié)同推理的智能化方法與架構(gòu);
3)對(duì)邊緣協(xié)同推理中的模型輕量化技術(shù)進(jìn)行歸納整理及分析,并橫向比較了不同技術(shù)的適用范圍;
4)對(duì)邊緣協(xié)同推理中的架構(gòu)進(jìn)行歸納整理,分析了不同架構(gòu)的優(yōu)缺點(diǎn)及適用場(chǎng)景討論;
5)除了對(duì)每種技術(shù)進(jìn)行單獨(dú)分析外,本文還對(duì)邊緣協(xié)同推理的共性問題進(jìn)行了分析,并指出其值得發(fā)展的研究方向.
將邊緣智能中的協(xié)同推理階段現(xiàn)有研究劃分為2 個(gè)方面:推理智能化方法與架構(gòu).智能化方法指的是與推理任務(wù)相關(guān)的智能化方法,本文主要針對(duì)深度學(xué)習(xí)(或深度神經(jīng)網(wǎng)絡(luò)).架構(gòu)指運(yùn)行推理任務(wù)的底層網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu).通過對(duì)智能化方法的觀察與分析,歸納出用于邊緣協(xié)同推理的核心技術(shù);通過對(duì)已有工作在架構(gòu)角度的抽象,歸納出目前協(xié)同推理在部署及運(yùn)行時(shí)的特點(diǎn)、適用場(chǎng)景及不足之處.
主流的深度神經(jīng)網(wǎng)絡(luò)模型大小通常為幾兆字節(jié)甚至幾百兆字節(jié),計(jì)算量較高給低配置的邊緣節(jié)點(diǎn)帶來了挑戰(zhàn)[44],因此需要考慮如何在邊緣節(jié)點(diǎn)上對(duì)模型進(jìn)行部署.一般而言,邊緣計(jì)算中的各個(gè)資源指標(biāo)是有限的,這就導(dǎo)致在給定的約束條件下會(huì)存在多個(gè)可行解,需要考慮對(duì)存儲(chǔ)、計(jì)算、通信、能耗、隱私等的“折中”方案,實(shí)現(xiàn)“折中”的過程涉及模型的處理方式,主要是對(duì)模型進(jìn)行輕量化的優(yōu)化技術(shù).本節(jié)就目前相關(guān)主流技術(shù)進(jìn)行歸納整理,并在協(xié)同推理角度進(jìn)行分析.
2.1.1 模型切割
深度神經(jīng)網(wǎng)絡(luò)模型多具有良好的內(nèi)部結(jié)構(gòu),如圖4 所示,按照模型的內(nèi)部結(jié)構(gòu)可通過縱切、橫切及混切等方式將模型切分成不同粒度且具有相互依賴關(guān)系的模型切片[45],之后將切片按照依賴關(guān)系分別部署在云及邊緣端.如采用縱切方式的DeepThings[46-47],橫切方式的Neurosurgeon[34]、MoDNN[48]、Cogent[49].混切方 式的DeepX[50]、AOFL[51]、CRIME[52]、DeepSlicing[53],以模型切割為主壓縮等其他輕量化方法為輔的Edgent[54],ADCNN[55]等,通過優(yōu)化資源(能耗、通信或計(jì)算等)的代價(jià)函數(shù)對(duì)模型內(nèi)部的切割點(diǎn)進(jìn)行枚舉,以尋找滿足用戶或系統(tǒng)需求的切割方案.模型切割技術(shù)在保證模型推理精度不變的前提下,能更好的適應(yīng)邊緣計(jì)算.但由于邊緣計(jì)算中涉及資源分布廣泛、性能不一,尤其是在動(dòng)態(tài)場(chǎng)景下資源地理分布范圍廣,造成所面臨的環(huán)境時(shí)刻發(fā)生變化且不唯一;網(wǎng)絡(luò)規(guī)模變大造成網(wǎng)絡(luò)拓?fù)渥兓?;邊緣?jì)算場(chǎng)景中計(jì)算資源不集中,靠近用戶側(cè),資源發(fā)散;應(yīng)用、網(wǎng)絡(luò)、設(shè)備的異構(gòu)性等邊緣計(jì)算資源類型多;由于同一節(jié)點(diǎn)運(yùn)行多種類型服務(wù)的情況,資源分配困難使得網(wǎng)絡(luò)擁堵,服務(wù)器波動(dòng)大;故障頻率高、性能波動(dòng)大、節(jié)點(diǎn)協(xié)調(diào)困難、服務(wù)調(diào)整趨于被動(dòng),存在滯后性并需要分布式思維解決等問題.切割技術(shù)中需要引起關(guān)注的是切割的整體過程,其中包括切割的執(zhí)行者、切割時(shí)的參考依據(jù)如何獲取、切片的依賴關(guān)系映射、切片更新時(shí)間及頻率等,這決定了切割的方案在邊緣計(jì)算環(huán)境中的適用性及穩(wěn)定性,表1 給出了不同方法的模型切割過程中涉及的關(guān)鍵步驟的比較.
Fig.4 Model partition methods圖4 模型切割方式
Table 1 Comparison of Model Partition Methods表1 模型切割方法比較
通過表1 可以看出,由于邊緣計(jì)算資源的可用性會(huì)發(fā)生變化,因此涉及切片的重新部署.主流方式多采用中心節(jié)點(diǎn)對(duì)其他邊緣節(jié)點(diǎn)狀態(tài)進(jìn)行收集,從而作為模型重新切割的依據(jù),之后將模型切片下發(fā)到邊緣節(jié)點(diǎn).這種收集節(jié)點(diǎn)狀態(tài)的形式默認(rèn)對(duì)所有的邊緣節(jié)點(diǎn)具有感知能力,但這個(gè)前提并不適用于邊緣計(jì)算尤其是動(dòng)態(tài)場(chǎng)景[55,58].在模型的重新切割及部署上,涉及2 個(gè)關(guān)鍵問題:1)模型或數(shù)據(jù)可支持的并行度對(duì)推理速度產(chǎn)生重要影響,由于模型的內(nèi)部結(jié)構(gòu)采用橫切的方式,在并行度上很難提升;縱切雖然可極大提升并行度,但一般會(huì)帶來數(shù)據(jù)依賴的問題,因此設(shè)計(jì)適合縱切的模型是一個(gè)重要的研究方向,如考慮計(jì)算復(fù)用、設(shè)計(jì)可用于無數(shù)據(jù)依賴切割的模型等[45,55].2)部署方案更新的頻率較高會(huì)帶來過高的代價(jià),既包括切片本身也包含所涉及的其他組件;此外,切片更新過程中可能會(huì)面臨無法提供服務(wù)問題帶來的服務(wù)抖動(dòng),此時(shí)可參考經(jīng)典的任務(wù)冗余(副本)技術(shù)解決.節(jié)點(diǎn)擁有整個(gè)模型是避免針對(duì)同一模型重新切割帶來的反復(fù)下發(fā)調(diào)度,提升協(xié)同推理靈活性的關(guān)鍵.但對(duì)于運(yùn)行內(nèi)存不足的節(jié)點(diǎn)而言,擁有整個(gè)模型存在較大阻礙,此時(shí)可借助其他輕量化技術(shù)對(duì)模型進(jìn)行壓縮或考慮輔助存儲(chǔ)、網(wǎng)絡(luò)存儲(chǔ)的形式減少頻繁更新切片帶來的額外代價(jià),此外,在線學(xué)習(xí)、感知學(xué)習(xí)[59]等實(shí)時(shí)更新模型的學(xué)習(xí)方式也值得關(guān)注.
除了關(guān)注模型切片的部署之外,推理時(shí)切片間依賴關(guān)系的處理也值得關(guān)注,如根據(jù)網(wǎng)絡(luò)狀態(tài)自適應(yīng)決定相鄰切片間數(shù)據(jù)或張量(tensor)的壓縮率[56-60]以應(yīng)對(duì)緊張的通信資源.在切片間的依賴關(guān)系路由或服務(wù)發(fā)現(xiàn)上,目前多數(shù)都采用固定的IP 映射的方式,或采用解析節(jié)點(diǎn)進(jìn)行,當(dāng)部署的切片所涉及的節(jié)點(diǎn)數(shù)量過多時(shí),固定的IP 映射的方式尤其不適合于動(dòng)態(tài)的邊緣計(jì)算環(huán)境,采用解析節(jié)點(diǎn)則引入了額外的解析時(shí)間[61],數(shù)據(jù)命名網(wǎng)絡(luò)可為此方面問題提供解決方案[62].此外,多用戶方面的協(xié)同推理還有所欠缺,目前的解決方案多針對(duì)單個(gè)場(chǎng)景,涉及的應(yīng)用不多,用戶量不多,默認(rèn)的是邊緣服務(wù)器資源充足的場(chǎng)景.當(dāng)面臨多用戶、多應(yīng)用時(shí),由于邊緣計(jì)算的地理分布特點(diǎn),云計(jì)算中資源的按需擴(kuò)展很難在邊緣側(cè)實(shí)現(xiàn),這會(huì)導(dǎo)致資源緊張,使服務(wù)滿足不了用戶或企業(yè)需求,此時(shí)可參考計(jì)算復(fù)用的思想,如多場(chǎng)景共用通用模型的部分切片[63].雖然依據(jù)模型的內(nèi)部結(jié)構(gòu)對(duì)模型進(jìn)行切分的研究成果較為豐富,但多數(shù)模型切片部署方案針對(duì)的是邊緣計(jì)算資源狀態(tài)相對(duì)穩(wěn)定或基于瞬時(shí)狀態(tài)的靜態(tài)場(chǎng)景,其穩(wěn)定性易受動(dòng)態(tài)場(chǎng)景影響而出現(xiàn)系統(tǒng)瓶頸,可以參考的方案是從模型的魯棒性入手,當(dāng)存在某個(gè)瓶頸節(jié)點(diǎn)時(shí)可直接跳過部分子切片或神經(jīng)元[64-65].在具體的場(chǎng)景中,由于節(jié)點(diǎn)的資源是相對(duì)有限的,節(jié)點(diǎn)算力存在差異而且處于動(dòng)態(tài)變化中,這增大了對(duì)于恰當(dāng)?shù)哪P头指铧c(diǎn)的選擇難度.無論橫切還是縱切的切割方式,劃分計(jì)算任務(wù)時(shí)如果不能有效結(jié)合節(jié)點(diǎn)算力差異,導(dǎo)致任務(wù)分配下發(fā)不合理,那么節(jié)點(diǎn)間的協(xié)同效率也會(huì)受到較大影響.另外在節(jié)點(diǎn)協(xié)同處理問題的情境中,網(wǎng)絡(luò)狀態(tài)的處理也十分重要,不僅會(huì)直接影響到模型切割的結(jié)果,在執(zhí)行推理的過程中,產(chǎn)生的通信延遲也會(huì)明顯影響推理服務(wù)質(zhì)量[66].同時(shí)現(xiàn)有的模型切割方式存在策略的選擇不夠全面,為了實(shí)現(xiàn)協(xié)同,難以兼顧推理效果、推理延遲、服務(wù)能耗等問題.
2.1.2 模型壓縮[67]
由于邊緣節(jié)點(diǎn)內(nèi)存、計(jì)算能力、能耗等有限,模型的魯棒性、稀疏性等允許我們通過張量分解方法對(duì)張量降秩處理[68];通過剪枝剔除影響小的參數(shù)對(duì)模型進(jìn)行壓縮[17,64];通過量化方法降低權(quán)重和中間計(jì)算結(jié)果的位寬[69-70],進(jìn)一步降低模型在內(nèi)存與計(jì)算量上的需求,文獻(xiàn)[17,64,68?70]方法屬于軟件優(yōu)化,在其應(yīng)用于具體的邊端設(shè)備時(shí),由于模型的多樣性與一些加速芯片的架構(gòu)特點(diǎn)并不匹配,甚至可能存在“內(nèi)存墻”問題,在模型的推理速度及能耗提升上還存在阻礙[71],為了進(jìn)一步有效利用資源,結(jié)合資源特點(diǎn)進(jìn)行定制化的壓縮,軟硬件協(xié)同優(yōu)化[72-73]也值得關(guān)注.
在軟件優(yōu)化方面,除了與訓(xùn)練過程結(jié)合生成低稀疏性的緊致模型外,還包括對(duì)已有模型的處理,處理技術(shù)主要包含剪枝與量化2 種技術(shù).對(duì)剪枝而言,從模型的結(jié)構(gòu)出發(fā),可分別對(duì)濾波器(filter)[74]、通道(channel)[75-76]、神經(jīng)元[77]等分別或混合[78]進(jìn)行壓縮處理.在剪枝粒度上,主要包含非結(jié)構(gòu)化剪枝與結(jié)構(gòu)化剪枝2 種.非結(jié)構(gòu)化剪枝刪除任意位置的權(quán)重,其特點(diǎn)是粒度細(xì)、壓縮率高,如在多次迭代過程中刪除冗余參數(shù)的知識(shí)蒸餾方法[79].但非結(jié)構(gòu)化剪枝并不能顯著降低計(jì)算量且因存在的稀疏性帶來額外開銷,需要定制化加速器才能完成計(jì)算加速.結(jié)構(gòu)化剪枝中剪枝粒度大,具有良好的加速效果,如通過后繼層對(duì)前驅(qū)層的重要性反饋刪除影響小的通道[75],但此類方法壓縮率相對(duì)較低.這促進(jìn)了對(duì)混合粒度的剪枝方法研究,如滿足一定結(jié)構(gòu)規(guī)則性的基于模式的剪枝方案對(duì)卷積內(nèi)核進(jìn)行修剪以滿足特定模式[80].剪枝操作通常會(huì)給推理精度帶來不利影響,目前主流方法多采用重新訓(xùn)練的方式解決這個(gè)問題[74],但對(duì)重新訓(xùn)練而言,由于計(jì)算代價(jià)大,重新訓(xùn)練比較適用于精度及效率具有重要意義的場(chǎng)景[70],即需要評(píng)估模型部署后所帶來的收益與重新訓(xùn)練的代價(jià)后才考慮是否選擇重新訓(xùn)練.
對(duì)量化而言,由于模型的參數(shù)量巨大,低位寬的數(shù)據(jù)表示方法可以極大壓縮模型尺寸,提升推理速度.根據(jù)取值范圍,可將量化分為2 值量化、3 值量化[81]、線性量化、非線性量化[82],其本質(zhì)是多對(duì)一的映射問題.2 值量化方法中,主要是將權(quán)重映射為1 和?1[69],將激活值映射為1 和0[83];3 值量化主要是在2 值量化基礎(chǔ)上引入額外的0 來增強(qiáng)所能表達(dá)的狀態(tài)空間[84-85];線性量化則主要將原始權(quán)重?cái)?shù)據(jù)量化為連續(xù)的對(duì)硬件友好的定點(diǎn)[86-90];非線性量化通常沒有特定的映射規(guī)則,也有學(xué)者稱其為參數(shù)共享[91],如使用不同的哈希映射對(duì)網(wǎng)絡(luò)每一層進(jìn)行壓縮[92];使用k-means 聚類實(shí)現(xiàn)相近參數(shù)的壓縮[67,93],將最近鄰居量化到相同位寬[94]等.由于數(shù)據(jù)表示的精度上存在損失,因此,量化方法會(huì)對(duì)推理精度帶來一定影響.同樣的,也可通過重新訓(xùn)練提升推理精度[94],進(jìn)一步地,為了充分貼合硬件的計(jì)算性能,可通過編譯器的指令優(yōu)化使算法級(jí)壓縮與硬件資源優(yōu)化相融合[80],從而達(dá)到在可移植的基礎(chǔ)上進(jìn)一步提升推理速度的目的.
在軟硬件協(xié)同優(yōu)化方面,硬件敏感的神經(jīng)結(jié)構(gòu)搜 索(hardware-aware neural architecture search,HNAS)成為熱點(diǎn),不同于軟件層面的模型壓縮方法,HNAS將硬件資源與模型同時(shí)考慮在內(nèi)實(shí)現(xiàn)定制化壓縮.定制化的壓縮方案極大提升了推理性能.但有些硬件的結(jié)構(gòu)是可重塑或定制化的,如FPGA.因此,好的模型壓縮方法還需要考慮如何在一個(gè)可變的硬件上進(jìn)行充分壓縮,如NAIS,NAIS 方法所面對(duì)的搜索空間既包含模型本身又包含硬件特點(diǎn),實(shí)現(xiàn)最優(yōu)的部署需要較高的代價(jià),針對(duì)此問題,文獻(xiàn)[95]設(shè)計(jì)了一種可微分的方法來加速該過程;同時(shí),由于模型稀疏性普遍存在,設(shè)計(jì)高效的跳零架構(gòu),直接跳過冗余的零值計(jì)算.加速計(jì)算過程[96]以及存內(nèi)計(jì)算(processing in memory)[97]等也值得關(guān)注.
現(xiàn)有大多數(shù)方案都基于固定或基于歷史數(shù)據(jù)分析的資源分配,在資源不穩(wěn)定的情況下,推理運(yùn)行時(shí)的效果也值得關(guān)注.該方面可結(jié)合硬件進(jìn)行實(shí)時(shí)壓縮,考察激活值的稀疏性、動(dòng)態(tài)的壓縮激活值.如,通過區(qū)分圖像敏感區(qū)域,自適應(yīng)地選擇不同的激活值和權(quán)重量化位寬[98],通過對(duì)輸入數(shù)據(jù)按照取值范圍編/解碼,實(shí)現(xiàn)多通道自適應(yīng)壓縮[99]等.這方面的研究目前不多,尤其是在邊緣計(jì)算場(chǎng)景下值得關(guān)注.
小結(jié)與分析:可以看出,模型壓縮涉及范圍廣泛,從模型的內(nèi)部結(jié)構(gòu)出發(fā),包含了模型不同的組成部分,從使用的場(chǎng)景出發(fā)包含了與硬件資源結(jié)合時(shí)的優(yōu)化,單獨(dú)一個(gè)方法很難適用于不同的場(chǎng)景,方法的適用性對(duì)邊緣計(jì)算場(chǎng)景而言至關(guān)重要.由于涉及的資源分布廣泛,節(jié)點(diǎn)性能存在很大差異,僅靠人工設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)及壓縮的方式很難普及,通過軟硬件協(xié)同的網(wǎng)絡(luò)壓縮自動(dòng)化方法值得我們進(jìn)一步挖掘.然而,目前對(duì)模型進(jìn)行壓縮及更新替換的多數(shù)方法皆通過高性能服務(wù)器或云等遠(yuǎn)端進(jìn)行[100],在不具備這種條件的場(chǎng)景,如野外、戰(zhàn)場(chǎng)、隱私安全要求高的環(huán)境或通信代價(jià)大的場(chǎng)景,需要設(shè)備間的協(xié)同來完成更新.但由于邊緣計(jì)算場(chǎng)景資源異構(gòu)性的存在,當(dāng)前壓縮方法及精度表示多種多樣,在不同設(shè)備間移植的兼容性需要進(jìn)一步考慮.
就量化方法而言,雖然保留了完整的模型,但不同硬件由于功耗上的設(shè)計(jì)使其可表示的數(shù)值精度存在很大差異[101],固定位寬的表示方式可能并不適用于臨近的所有協(xié)同節(jié)點(diǎn),這種情況下接收到的模型與資源的匹配度無法達(dá)到最優(yōu),2.1.2 節(jié)提到的多種優(yōu)化方法也就無法發(fā)揮作用,再次壓縮處理的模型是否滿足需求甚至能否再次訓(xùn)練值得關(guān)注.值得一提的是在邊緣協(xié)同推理場(chǎng)景,受限資源的分配及調(diào)度粒度至關(guān)重要,該問題將決定“騰出資源做合適的任務(wù)”等資源調(diào)度及優(yōu)化的發(fā)展.除此之外,還需要注意的是,邊緣節(jié)點(diǎn)的可用資源是不同的、動(dòng)態(tài)變化的,現(xiàn)有的壓縮方法對(duì)此的適應(yīng)性存在空白,亟待解決.
2.1.3 模型選擇/早期退出
如圖5 和圖6 所示,模型選擇指首先訓(xùn)練具有不同尺寸大小的模型,之后結(jié)合推理場(chǎng)景,自適應(yīng)地選擇合適的模型用于離線推理.早期退出(early exit)與模型選擇相似,不同之處在于早期退出除了最終的輸出層之外,還可通過中間層輸出結(jié)果,避免數(shù)據(jù)流經(jīng)整個(gè)網(wǎng)絡(luò),并可以實(shí)現(xiàn)參數(shù)共享[18].
Fig.5 Early exit pattern圖5 早期退出模式
早期退出(典型的如BranchyNet[102])通過增加多個(gè)推理分支提升模型推理速度.由于多分支的加入,相比模型切割帶來了更多可能性,如文獻(xiàn)[32]針對(duì)云邊協(xié)同場(chǎng)景提出分布式深度神經(jīng)網(wǎng)絡(luò)(distributed deep neural network,DDNN),以分支為切割點(diǎn),將切割點(diǎn)的兩側(cè)分別部署在邊緣端與云端.與模型選擇類似,由于具有多個(gè)推理分支,退出點(diǎn)的選擇是決定邊緣協(xié)同推理在云端還是邊緣端進(jìn)行推理的關(guān)鍵.早期退出通過分支選擇器計(jì)算分支可信度來決定推理的退出點(diǎn).可信度可通過計(jì)算Softmax 輸出層的熵大小或額外增加可信度決策模型得到,如文獻(xiàn)[103]提出AO(authentic operation)模塊,為每種類型的推理任務(wù)建立了個(gè)性化的決策閾值,文獻(xiàn)[104?105]針對(duì)連續(xù)多推理請(qǐng)求場(chǎng)景(視頻分析),考慮可滿足時(shí)延要求的退出點(diǎn),以是否滿足時(shí)延要求設(shè)計(jì)收益函數(shù),并以此作為分支選擇依據(jù),按照請(qǐng)求的先后次序進(jìn)行推理,并給出了按先后次序(ordered scheduling structure)調(diào)度可以得到的一個(gè)最優(yōu)結(jié)果的證明.
Fig.6 Model selection pattern圖6 模型選擇模式
在驗(yàn)證方面,如何快速地對(duì)所提早期退出算法進(jìn)行驗(yàn)證是實(shí)現(xiàn)快速迭代的前提,文獻(xiàn)[106]提出了一款基于MATLAB 的DeepFogSim 仿真平臺(tái),Deep-FogSim 以能耗-時(shí)延為優(yōu)化目標(biāo),模擬云—邊—端協(xié)同場(chǎng)景,并支持部分資源動(dòng)態(tài)性.我們前期對(duì)目前已有的大量開源邊緣計(jì)算仿真平臺(tái)進(jìn)行了歸納整理,或可為快速驗(yàn)證想法提供有效的技術(shù)候選方案[14].同時(shí),針對(duì)動(dòng)態(tài)場(chǎng)景特點(diǎn),我們也研發(fā)了開源的仿真平臺(tái)EasiEI[107].
在模型選擇方面,簡單的形式是同時(shí)準(zhǔn)備2 種尺寸的模型分別部署在邊緣側(cè)與云端,邊緣側(cè)用于初步的推理,當(dāng)推理結(jié)果的可信度不滿足給定的閾值時(shí),則選擇云端進(jìn)行推理[108-109].由于模型訓(xùn)練的架構(gòu)、網(wǎng)絡(luò)結(jié)構(gòu)不同,在推理時(shí)延、能耗以及精度等有所差異,在同一場(chǎng)景下,如何在不同的模型之間進(jìn)行選擇是首先需要考慮的問題,即模型選擇器(model selector),如以降低推理時(shí)延為目標(biāo),通過前置專用的預(yù)測(cè)模型[110-112]識(shí)別輸入數(shù)據(jù),自動(dòng)選擇合適的推理模型.在不同場(chǎng)景下,尤其是在資源緊張的邊緣計(jì)算場(chǎng)景下,單終端節(jié)點(diǎn)可能面臨多任務(wù)推理場(chǎng)景或多租戶場(chǎng)景.此時(shí)不同任務(wù)之間的競(jìng)爭、調(diào)度等易導(dǎo)致服務(wù)質(zhì)量下降.這方面的研究主要是對(duì)不同領(lǐng)域的模型進(jìn)行智能選擇或模型融合[100,106,108,113].如文獻(xiàn)[63]結(jié)合遷移學(xué)習(xí)共享了部分計(jì)算用于支持不同場(chǎng)景的推理任務(wù).
小結(jié)與分析:可以看出,模型選擇與早期退出都涉及到如何根據(jù)給定的優(yōu)化目標(biāo)進(jìn)行決策的問題,在決策過程中需要針對(duì)目標(biāo)設(shè)置合理的閾值.然而,優(yōu)化目標(biāo)一般是推理精度與能耗、時(shí)延等的折中.由于邊緣計(jì)算場(chǎng)景眾多、資源類型不一,自動(dòng)化地確定閾值是該類輕量化方法能否適應(yīng)不同場(chǎng)景的關(guān)鍵,尤其是在推理過程中,閾值的確定應(yīng)當(dāng)根據(jù)當(dāng)前的運(yùn)行狀況進(jìn)行動(dòng)態(tài)改變.文獻(xiàn)[54]考慮了節(jié)點(diǎn)協(xié)同時(shí)網(wǎng)絡(luò)的動(dòng)態(tài)性,提前計(jì)算出不同的早期退出點(diǎn)與切割點(diǎn)候選方案,在推理過程中結(jié)合網(wǎng)絡(luò)變化實(shí)時(shí)調(diào)整推理方案,利用多節(jié)點(diǎn)協(xié)同共同保證推理精度,滿足了一定的實(shí)時(shí)性.但早期退出方法的退出點(diǎn)數(shù)量受限于模型層數(shù),在資源已經(jīng)受限的邊緣協(xié)同環(huán)境中,由于節(jié)點(diǎn)算力差異與變化,按照退出點(diǎn)進(jìn)行切割然后采用協(xié)同推理的方式無法提供更加靈活、更細(xì)粒度的資源分配控制,這方面還需要進(jìn)一步提升.與其他技術(shù),如模型壓縮結(jié)合或可提供潛在的解決方案.在模型選擇方面,通過協(xié)同方式有效獲取節(jié)點(diǎn)特點(diǎn)、節(jié)點(diǎn)運(yùn)行狀態(tài)是選擇合適模型的關(guān)鍵.一種可行的方式是結(jié)合不同節(jié)點(diǎn)的歷史數(shù)據(jù)與推理模型的算子、結(jié)構(gòu)等來訓(xùn)練用于評(píng)估推理效果的模型,近期研究nn-Meter[114]根據(jù)不同類型邊緣節(jié)點(diǎn)的特點(diǎn),對(duì)在不同節(jié)點(diǎn)上進(jìn)行推理的時(shí)延進(jìn)行預(yù)測(cè)取得了不錯(cuò)的效果,該研究或可為在邊緣節(jié)點(diǎn)上如何選擇更好的模型提供支持.除時(shí)延指標(biāo)外,還有能耗等指標(biāo)值得考慮.
適用于邊緣計(jì)算場(chǎng)景的輕量化技術(shù)還需要根據(jù)場(chǎng)景需求對(duì)多種技術(shù)進(jìn)行融合.如在時(shí)延及推理精度都具有高要求的工業(yè)物聯(lián)網(wǎng)領(lǐng)域,關(guān)注的是如何將輕量級(jí)模型運(yùn)行在單個(gè)節(jié)點(diǎn)或盡可能地降低多節(jié)點(diǎn)協(xié)同推理時(shí)帶來的網(wǎng)絡(luò)代價(jià),此時(shí)可將早期退出與模型切割結(jié)合,將一部分推理請(qǐng)求提前過濾[115];在計(jì)算代價(jià)大的場(chǎng)景,可考慮將量化與早期退出結(jié)合,壓縮計(jì)算量[94];當(dāng)支持節(jié)點(diǎn)協(xié)同時(shí),可考慮將模型切割、量化與重訓(xùn)練結(jié)合[55],從模型尺寸、推理精度方面一起優(yōu)化,實(shí)現(xiàn)更加高效的分布式協(xié)同推理;對(duì)于動(dòng)態(tài)場(chǎng)景而言,由于節(jié)點(diǎn)負(fù)載、網(wǎng)絡(luò)負(fù)載的不斷變化會(huì)導(dǎo)致部署時(shí)所采用的優(yōu)化目標(biāo)不滿足資源約束,多數(shù)解決方案通過將完整的模型存儲(chǔ)在每個(gè)節(jié)點(diǎn)上,通過觀測(cè)當(dāng)前的系統(tǒng)狀態(tài)實(shí)時(shí)調(diào)整協(xié)同推理的部署方案,以此來滿足資源約束.
僅通過云與端實(shí)現(xiàn)的推理場(chǎng)景受多方面制約,難在復(fù)雜的業(yè)務(wù)場(chǎng)景中發(fā)揮作用,主要表現(xiàn)在對(duì)帶寬密集型業(yè)務(wù)的原始數(shù)據(jù)或中間數(shù)據(jù)傳輸代價(jià)大、隱私安全要求高的業(yè)務(wù)數(shù)據(jù)傳輸敏感;所處環(huán)境惡劣的業(yè)務(wù)與云端連接不穩(wěn)定或限制上行帶寬;傳輸鏈路過長容易出現(xiàn)故障;端側(cè)能耗限制較強(qiáng)等.這在智能駕駛、在線交易以及軍事等領(lǐng)域十分普遍.邊緣協(xié)同推理通過云、邊等資源聯(lián)邦,克服數(shù)據(jù)傳輸、隱私安全、運(yùn)行環(huán)境等存在的問題,對(duì)推理任務(wù)“就近”解決.文獻(xiàn)[8]指出,“邊緣”是一個(gè)連續(xù)統(tǒng),那么,協(xié)同推理的架構(gòu)主要關(guān)注點(diǎn)則是如何調(diào)集連續(xù)統(tǒng)中的資源.本文按照資源及數(shù)據(jù)的協(xié)同處理方式,從云與邊的角度對(duì)邊緣協(xié)同推理進(jìn)行分析.
從中心化計(jì)算與否出發(fā),為了便于在邏輯上描述,此處將云端或邊緣服務(wù)器端統(tǒng)稱為云端,將終端節(jié)點(diǎn)或具有計(jì)算能力的邊端節(jié)點(diǎn)統(tǒng)稱為邊端.如圖7所示,目前主流的用于進(jìn)行邊緣協(xié)同推理的框架主要包含4 類.采用模型切割方式的云邊協(xié)同推理(圖7(a))與邊邊協(xié)同推理(圖7(b))、基于模型選擇的云邊協(xié)同推理(圖7(c))以及基于多個(gè)不同任務(wù)場(chǎng)景的多模型結(jié)果聚合的邊邊協(xié)同推理(圖7(d)).其中圖7(b)基于模型切割的邊邊協(xié)同推理架構(gòu)根據(jù)任務(wù)處理的流程及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)又可分為2 類:根據(jù)模型切割時(shí)子切片依賴圖形成的網(wǎng)狀拓?fù)渑c以協(xié)調(diào)節(jié)點(diǎn)或推理請(qǐng)求者為中心的呈放射狀的星狀拓?fù)?
Fig.7 Mainstream of collaborative inference framework in edge computing圖7 主流的邊緣計(jì)算協(xié)同推理架構(gòu)
其中圖7(a)基于模型切割的云邊協(xié)同推理依據(jù)模型切割技術(shù),將模型分解為具有先后以來關(guān)系的不同切片,分別部署在邊端與云端.邊端將部分中間結(jié)果經(jīng)過處理后發(fā)送至云端完成后續(xù)的計(jì)算,最終由云端返回推理結(jié)果.考慮的指標(biāo)主要包含隱私安全、通信代價(jià)與計(jì)算代價(jià)的聯(lián)合優(yōu)化.邊端除了對(duì)數(shù)據(jù)預(yù)處理[115]、計(jì)算一部分中間輸出結(jié)果外,還可與早期退出結(jié)合[54,116],將一部分具有推理功能的分支部署在邊端,當(dāng)邊端推理結(jié)果不滿足需求時(shí),通過云端更深層次的模型進(jìn)行推理.該類架構(gòu)從邏輯上看僅存在一個(gè)云與邊之間的切割點(diǎn).如文獻(xiàn)[34,49,54,56?57]等所述,模型主要切分為2 部分,分別部署在邊端與云端.由于切片數(shù)量的減少,簡化了網(wǎng)絡(luò)拓?fù)?,利于觀測(cè)網(wǎng)絡(luò)中的動(dòng)態(tài)變化和協(xié)同推理的實(shí)時(shí)調(diào)整.如文獻(xiàn)[54]根據(jù)可用帶寬自適應(yīng)地劃分移動(dòng)設(shè)備和邊緣服務(wù)器之間的深度神經(jīng)網(wǎng)絡(luò)(DNN)計(jì)算,由于推理速度受到移動(dòng)設(shè)備上其他計(jì)算任務(wù)的限制,不足以滿足嚴(yán)格的時(shí)延要求,因此又引入了早退機(jī)制來進(jìn)一步降低延遲.除帶寬外,節(jié)點(diǎn)負(fù)載狀況也需要關(guān)注[116],文獻(xiàn)[117]基于動(dòng)態(tài)場(chǎng)景,包括傳輸帶寬變化與節(jié)點(diǎn)計(jì)算能力變化,提出建立可靠性指標(biāo),評(píng)估了時(shí)延約束下模型的可靠性.
其中圖7(b)基于模型切割的邊邊協(xié)同推理在不具備云端支持,同時(shí)單個(gè)節(jié)點(diǎn)資源不足的場(chǎng)景下,可將模型切片映射或動(dòng)態(tài)調(diào)整到到不同的節(jié)點(diǎn),通過節(jié)點(diǎn)間的協(xié)同完成推理.該類方式可自發(fā)地通過協(xié)同交互處理任務(wù),多涉及資源性能受限節(jié)點(diǎn)、節(jié)點(diǎn)間具有網(wǎng)絡(luò)連接,關(guān)注的指標(biāo)主要包括能耗、時(shí)延、內(nèi)存等,較適用于動(dòng)態(tài)場(chǎng)景(資源、環(huán)境動(dòng)態(tài)變化)下的單方資源受限、無云端控制或控制存在一定阻礙等場(chǎng)景.該類架構(gòu)從邏輯上看模型存在多個(gè)切割點(diǎn),所涉及的切片數(shù)量多大于2 個(gè),較基于模型切割的云邊協(xié)同推理更為靈活.根據(jù)調(diào)度方式的不同,邏輯上的網(wǎng)絡(luò)拓?fù)淇煞譃榫W(wǎng)狀拓?fù)渑c星狀拓?fù)?網(wǎng)狀拓?fù)涞牟渴鸱绞揭话闶孪裙潭?,按照切片的先后依賴順序查找后繼節(jié)點(diǎn),應(yīng)對(duì)復(fù)雜的動(dòng)態(tài)場(chǎng)景能力弱;星狀拓?fù)湓诓渴鹕弦话阃ㄟ^中心協(xié)調(diào)點(diǎn)(或推理請(qǐng)求節(jié)點(diǎn))對(duì)切片按照先后依賴順序不斷收集中間結(jié)果并轉(zhuǎn)發(fā)到其他節(jié)點(diǎn)進(jìn)行調(diào)度(參見表1 中的切片依賴關(guān)系處理/服務(wù)發(fā)現(xiàn)方式),靈活性較網(wǎng)狀拓?fù)涓鼜?qiáng),但調(diào)度頻繁易使代價(jià)過高.
其中圖7(c)基于模型選擇的云邊協(xié)同推理與模型切割與早期退出結(jié)合的云邊協(xié)同類似,基于模型選擇的云邊協(xié)同推理在邊端具有完整的推理能力,不同的是邊端所運(yùn)行的推理模型是完整的.該類架構(gòu)下一般是針對(duì)同一場(chǎng)景訓(xùn)練2 個(gè)大小不同尺寸的模型,如借助知識(shí)蒸餾技術(shù)分別部署在云端與邊端.由于邊端的模型尺寸小、推理能力相對(duì)較弱,因此在推理精度不可靠的情況下會(huì)將推理請(qǐng)求轉(zhuǎn)發(fā)至云端進(jìn)行更為精確的推理[118].該類架構(gòu)邊端與云端的鏈接是否可靠取決于邊端的模型推理精度是否滿足需求,本質(zhì)上由邊端的性能決定.如文獻(xiàn)[119]提出在邊端運(yùn)行小模型(SNN),云端(邊緣服務(wù)器)運(yùn)行DNN,由邊端根據(jù)自身運(yùn)行狀態(tài)(模型復(fù)雜度、推理精度、數(shù)據(jù)質(zhì)量、計(jì)算能力和通信帶寬等)選擇是否通過云端獲取推理結(jié)果.
其中圖7(d)基于多模型結(jié)果聚合的邊邊協(xié)同推理與多數(shù)將推理請(qǐng)求發(fā)往云端思路不同,該類架構(gòu)在概念上與決策級(jí)的信息融合相近,中心節(jié)點(diǎn)(或推理請(qǐng)求節(jié)點(diǎn))將推理請(qǐng)求下發(fā)給多個(gè)邊端,每個(gè)邊端具有某一特定任務(wù)或領(lǐng)域的推理能力,之后通過匯總來自多個(gè)邊端的推理結(jié)果得出最終結(jié)論.不同于基于模型選擇的云邊協(xié)同推理中的場(chǎng)景有限,基于多模型結(jié)果聚合的邊邊協(xié)同推理能適應(yīng)的場(chǎng)景更加多樣,這種類似于任務(wù)冗余的形式能夠提供較高粒度的可靠性及并行性支持.如文獻(xiàn)[120]提出基于競(jìng)爭機(jī)制和選擇性學(xué)習(xí)方法,在邊端每個(gè)節(jié)點(diǎn)上運(yùn)行其所擅長的不同領(lǐng)域的模型,利用多節(jié)點(diǎn)的協(xié)同,實(shí)現(xiàn)多邊端協(xié)同推理.但由于一個(gè)推理請(qǐng)求會(huì)同時(shí)廣播給多個(gè)邊端,邊邊協(xié)同推理主要關(guān)注的是推理精度及速度,在能耗及通信方面值得進(jìn)一步提升,可通過額外的選擇器對(duì)多個(gè)邊端是否執(zhí)行進(jìn)行提前篩選[121].
小結(jié)與分析:基于2.2 節(jié)分類及分析可以看出,從推理結(jié)果最終的出處來看,邊緣計(jì)算協(xié)同推理架構(gòu)可分為2 類.一類是用戶發(fā)出推理請(qǐng)求,多節(jié)點(diǎn)通過處理協(xié)同推理過程中的中間數(shù)據(jù),最終由云端或邊端中的單個(gè)節(jié)點(diǎn)得出推理結(jié)果,該類思想與向云端卸載任務(wù)一致,如圖7(a)~(c)所述.另一類是由邊端匯總來自其他多個(gè)邊端或云端的多個(gè)推理結(jié)果,之后對(duì)比評(píng)判得出最終的推理結(jié)果,該類思想可參考云端將推理任務(wù)卸載到邊端或眾包,如圖7(d)所述.從整體云邊端角度分析,第1 類涉及對(duì)模型的壓縮、剪枝、量化、切割等過程,第2 類則涉及多邊端推理結(jié)果融合.表2 給出了不同的架構(gòu)所采用的關(guān)鍵技術(shù)、針對(duì)的問題及其適用場(chǎng)景的比較.
對(duì)于云計(jì)算,目前的分布式架構(gòu)所利用的資源豐富,推理效果好(推理精度高且推理速度快)是關(guān)注的重點(diǎn),而能耗并非核心關(guān)注問題.邊緣協(xié)同推理由于其資源特點(diǎn),在推理效果好的前提下同時(shí)期望得到低代價(jià)的部署方案,其所處的復(fù)雜環(huán)境決定了這是一個(gè)“折中”問題.節(jié)點(diǎn)狀態(tài)、環(huán)境及用戶等會(huì)對(duì)問題的解產(chǎn)生動(dòng)態(tài)性影響,使資源的狀態(tài)發(fā)生變化.為了更好地提升資源利用率,同時(shí)確保服務(wù)的有效性,就需要對(duì)資源進(jìn)行重新調(diào)度或部署.然而,邊緣協(xié)同推理屬于計(jì)算及帶寬密集型的復(fù)雜業(yè)務(wù),所處環(huán)境多樣,用戶不一,具有極大的不確定性[122-123],不同的調(diào)度方式在復(fù)雜性及時(shí)效性或準(zhǔn)確性上存在差異,產(chǎn)生的運(yùn)維代價(jià)不同,服務(wù)有效性與資源利用率存在沖突.
Table 2 Comparison of Different Architectures表2 不同架構(gòu)的比較
在資源調(diào)度與控制方面,由于邊端設(shè)備類型眾多,資源涉及多方且參與意愿不同,在協(xié)同推理時(shí)若非采用資源預(yù)分配的手段,很難達(dá)到實(shí)時(shí)的最優(yōu)協(xié)同推理.而資源預(yù)分配恰恰是需要統(tǒng)一調(diào)度的,這意味著會(huì)存在資源上的過度消耗、競(jìng)爭,調(diào)度周期也不好確定,無法及時(shí)有效處理多方請(qǐng)求.因此,對(duì)所有資源實(shí)現(xiàn)統(tǒng)一調(diào)度與控制是不現(xiàn)實(shí)的,這導(dǎo)致了推理過程中資源募集能力不一,加劇了邊緣協(xié)同推理的難度.
從涉及的網(wǎng)絡(luò)計(jì)算資源來看,2 節(jié)點(diǎn)是分水嶺,節(jié)點(diǎn)數(shù)量影響了調(diào)度服務(wù)對(duì)網(wǎng)絡(luò)環(huán)境、節(jié)點(diǎn)負(fù)載等的感知能力及處理能力,最終反映在任務(wù)調(diào)度的實(shí)時(shí)性上.單節(jié)點(diǎn)自身資源可以支持推理服務(wù)的運(yùn)行,但可靠性差;2 節(jié)點(diǎn)協(xié)同交互簡單,方便管理,但不夠健壯,處理任務(wù)時(shí)可調(diào)動(dòng)的資源有限;多節(jié)點(diǎn)魯棒性強(qiáng),適合動(dòng)態(tài)場(chǎng)景,但模型復(fù)雜,管理及優(yōu)化困難.目前,2 節(jié)點(diǎn)主要應(yīng)用在云邊端協(xié)同場(chǎng)景,多節(jié)點(diǎn)更多應(yīng)用于IoT 場(chǎng)景[45].
因此,邊緣協(xié)同推理與眾多應(yīng)用層的服務(wù)類似,服務(wù)表現(xiàn)碎片化、多角度,很難提供一個(gè)通用的基礎(chǔ)架構(gòu).如智慧城市場(chǎng)景,單獨(dú)的軌跡數(shù)據(jù)處理就涉及到乘客、司機(jī)、城市規(guī)劃、交通等諸多角度[124].可以看出,對(duì)于邊緣協(xié)同推理的框架而言,調(diào)度是否靈活、推理過程是否具有彈性、能否支持多設(shè)備(用戶)并發(fā)推理及并行需求是關(guān)鍵.除此之外,由于在推理過程中可能涉及到不同類型信息的融合,是否可快速移植支持異構(gòu)平臺(tái),如借助虛擬化技術(shù);是否融合異構(gòu)網(wǎng)絡(luò),如智能家居中的各種傳感器網(wǎng)絡(luò)[125],也值得關(guān)注.隨著時(shí)間的推移,還會(huì)涉及到推理模型的更新問題.目前來看,這方面主要依據(jù)聯(lián)邦學(xué)習(xí)[126]或重新部署的形式,更新的頻率及更新的代價(jià)與更新后能否帶來好的收益值得關(guān)注.
邊緣計(jì)算表現(xiàn)出廣泛的異構(gòu)性、動(dòng)態(tài)性,使不同的優(yōu)化技術(shù)應(yīng)用在“連續(xù)統(tǒng)”中,不同類型的邊緣節(jié)點(diǎn)上存在巨大挑戰(zhàn)[127],這些節(jié)點(diǎn)往往運(yùn)行多種基礎(chǔ)服務(wù).目前多數(shù)方案都僅關(guān)注在模型角度,完整的協(xié)同推理過程除了AI 模型外還涉及其他服務(wù),如可靠性保障、數(shù)據(jù)中間傳輸、數(shù)據(jù)存儲(chǔ)、日志追蹤等的基礎(chǔ)支撐服務(wù),盡管多數(shù)輕量化技術(shù)在時(shí)延方面可以滿足一些場(chǎng)景需求,但涉及的模塊過多時(shí)推理服務(wù)的穩(wěn)定性值得進(jìn)一步研究[128].
本文從邊緣智能出發(fā),簡要描述了其發(fā)展過程.著重從邊緣協(xié)同角度對(duì)模型推理階段涉及到的關(guān)鍵技術(shù)進(jìn)行了歸納總結(jié),并從動(dòng)態(tài)場(chǎng)景的角度分別進(jìn)行了分析.截至目前,邊緣協(xié)同智能依然處于快速發(fā)展階段,其大體分為2 類:一類是基于原有的智能化方法與邊緣計(jì)算資源特點(diǎn)不斷結(jié)合(如深度神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)搜索、混合精度量化);另一類是直接從邊緣計(jì)算產(chǎn)生的方法(或稱邊緣原生方法,如模型選擇)結(jié)合邊緣計(jì)算資源的特點(diǎn)(地理分布、異構(gòu)性、動(dòng)態(tài)性等).目前還存在諸多挑戰(zhàn),下面介紹幾個(gè)值關(guān)注與討論的方向:
1)推理模型與動(dòng)態(tài)性的適應(yīng)問題.以往優(yōu)化算法較適用于云計(jì)算中同質(zhì)化資源,其資源狀態(tài)變化不大,一般按需分配、按需擴(kuò)展,利于結(jié)合業(yè)務(wù)對(duì)負(fù)載實(shí)時(shí)調(diào)控.然而,在應(yīng)對(duì)具有一定規(guī)模的呈地理分布的邊緣節(jié)點(diǎn)時(shí),由于邊緣節(jié)點(diǎn)相對(duì)于云計(jì)算節(jié)點(diǎn)的可控性不強(qiáng),且存在資源異構(gòu)性及動(dòng)態(tài)性,使當(dāng)前邊緣協(xié)同推理智能化的主流方法中還存在一些值得進(jìn)一步關(guān)注的問題,如模型切割技術(shù)的整體或部分更新問題;模型壓縮技術(shù)在不同節(jié)點(diǎn)間的可移植性及再訓(xùn)練問題;模型選擇/早期退出在面對(duì)資源變化時(shí)的不同模型問題;分支切換靈活性及資源分配粒度問題.同時(shí),如2.2 節(jié)所述,盡管目前已經(jīng)呈現(xiàn)出不同技術(shù)的融合態(tài)勢(shì),但在協(xié)同環(huán)境下,邊緣協(xié)同推理智能化方法依舊面臨許多共性問題,如已部署模型的更新替換頻率及兼容性問題、動(dòng)態(tài)資源變化與所運(yùn)行模型(或部分)資源需求的匹配問題、額外的中心調(diào)度或部署代價(jià)問題等.
2)在邊緣協(xié)同推理驗(yàn)證方面,動(dòng)態(tài)場(chǎng)景建模將促進(jìn)協(xié)同推理相關(guān)方法的良性發(fā)展.動(dòng)態(tài)場(chǎng)景下的邊緣計(jì)算普遍存在硬件故障、系統(tǒng)及軟件的負(fù)載變化、人為與環(huán)境因素的影響、地理分布廣泛以及服務(wù)狀態(tài)復(fù)雜多變易受影響等特點(diǎn),運(yùn)維成為一大挑戰(zhàn).縱觀已有研究,在驗(yàn)證思路時(shí)多數(shù)通過實(shí)際的生產(chǎn)場(chǎng)景,或較為簡單的代價(jià)評(píng)估模型模擬,缺乏動(dòng)態(tài)場(chǎng)景特點(diǎn)上的考慮.造成這種現(xiàn)狀的原因,一是生產(chǎn)場(chǎng)景對(duì)于廣泛的研究人員并不容易可及,二是模擬場(chǎng)景考慮的影響因素不夠全面,在邊緣協(xié)同推理的有效性評(píng)估上還存在困難,給邊緣協(xié)同智能的落地帶來一定阻礙.除此之外,邊緣協(xié)同推理作為完整應(yīng)用,還涉及各種網(wǎng)絡(luò)、計(jì)算中間件的運(yùn)行,這些中間件無一不需要大量的資源來維護(hù).因此,提供一個(gè)可信的動(dòng)態(tài)仿真場(chǎng)景值得研究.
3)在邊緣原生方法方面,在線學(xué)習(xí)與邊緣計(jì)算的結(jié)合或可為邊緣協(xié)同智能提供更廣闊的適用場(chǎng)景.目前多數(shù)研究或工作將訓(xùn)練與推理分開,界線清晰,較適合于資源豐富且動(dòng)態(tài)性不強(qiáng)的場(chǎng)景.但對(duì)于涉及計(jì)算、網(wǎng)絡(luò)等資源存在限制且動(dòng)態(tài)的場(chǎng)景,單獨(dú)的訓(xùn)練過程并不適用,如何利用有限的資源對(duì)推理模型進(jìn)行在線更新值得研究,相關(guān)研究領(lǐng)域或可參考感知計(jì)算、觸覺網(wǎng)絡(luò)等.
邊緣協(xié)同推理具有極大的應(yīng)用價(jià)值,目前,正處于快速發(fā)展期,但清晰而又統(tǒng)一的處理方法尚未形成,值得我們重點(diǎn)研究.本文對(duì)邊緣協(xié)同智能的發(fā)展歷史進(jìn)行了簡要回顧,對(duì)推理過程中涉及到的關(guān)鍵技術(shù)進(jìn)行了歸納整理.通過對(duì)不同關(guān)鍵技術(shù)的縱向總結(jié)、適用場(chǎng)景分析以及技術(shù)間的對(duì)比等,重點(diǎn)從動(dòng)態(tài)場(chǎng)景角度提出了邊緣協(xié)同推理存在的挑戰(zhàn)與值得發(fā)展的方向.整體來看,邊緣協(xié)同推理目前還有極大的發(fā)展空間,我們未來的研究工作重點(diǎn)將放在動(dòng)態(tài)場(chǎng)景建模以及動(dòng)態(tài)場(chǎng)景下的邊緣協(xié)同推理可靠性保障方面.
作者貢獻(xiàn)聲明:王睿設(shè)計(jì)了論文框架、調(diào)研文獻(xiàn)、指導(dǎo)論文寫作并修改論文;齊建鵬和陳亮負(fù)責(zé)文獻(xiàn)調(diào)研、撰寫及修改部分論文;楊龍補(bǔ)充完善論文.