吳建軍,鄧 娟,彭程暉,王 君,楊 立,劉光毅,王 飛,何宇鋒,孫萬飛,艾 明,李文璟,戴翠琴,袁雁南,石 聰,許 陽,楊 旸0,張宏綱,李榮鵬
(1.華為技術(shù)有限公司 無線技術(shù)實(shí)驗(yàn)室,上海 201206;2.中國移動通信有限公司研究院 未來研究院,北京 100053;3.中興通訊股份有限公司,江蘇 南京 210012;4.中國電信股份有限公司研究院,廣東 廣州 510630;5.中信科移動通信技術(shù)股份有限公司,北京 100083;6.北京郵電大學(xué) 計算機(jī)學(xué)院,北京 100876;7.重慶郵電大學(xué) 通信學(xué)院,重慶 400065;8.維沃移動通信有限公司,北京 100083;9.北京歐珀通信有限公司,北京 100026;10.特斯聯(lián)科技集團(tuán)有限公司,北京 100027;11.浙江大學(xué) 電子與信息工程學(xué)院,浙江 杭州 310027)
隨著互聯(lián)網(wǎng)興起產(chǎn)生的海量數(shù)據(jù)及摩爾定律帶來的計算力的突飛猛進(jìn),從4G移動互聯(lián)到5G萬物互聯(lián),移動通信網(wǎng)絡(luò)的傳輸速率、傳輸時延、連接規(guī)模等關(guān)鍵性能指標(biāo)不斷提升,應(yīng)用場景不斷豐富。
隨著5G系統(tǒng)全面商用,面對5G運(yùn)營中出現(xiàn)的基站建設(shè)成本升高、網(wǎng)絡(luò)復(fù)雜性增加等問題導(dǎo)致的增量難增收的窘?jīng)r,電信運(yùn)營商迫切需要探索合理高效的網(wǎng)絡(luò)架構(gòu)和部署方式來保證網(wǎng)絡(luò)建設(shè)的經(jīng)濟(jì)性。面對5G網(wǎng)絡(luò)復(fù)雜化、業(yè)務(wù)差異化、用戶需求多樣化等一系列挑戰(zhàn),利用人工智能(Artificial Intelligence,AI)技術(shù)進(jìn)行網(wǎng)元智能化、網(wǎng)絡(luò)智能化和業(yè)務(wù)智能化,是業(yè)界普遍認(rèn)同的技術(shù)路徑。比如在網(wǎng)絡(luò)運(yùn)維方面,利用AI的數(shù)據(jù)感知、智能分析能力,可在海量運(yùn)維數(shù)據(jù)中抽取隱含的關(guān)聯(lián)特征和規(guī)則,追溯根因、定位故障,進(jìn)行主動式的網(wǎng)絡(luò)運(yùn)維,實(shí)現(xiàn)全面的網(wǎng)絡(luò)端到端部署自動化。目前,AI的數(shù)據(jù)驅(qū)動特性、自動控制能力、各種學(xué)習(xí)方法已經(jīng)被成功地用于解決通信網(wǎng)絡(luò)中的一些問題。業(yè)界普遍認(rèn)為:引入AI技術(shù)后的5G網(wǎng)絡(luò),將具備更廣闊的覆蓋范圍、更大的通信容量、更小的傳輸時延和更多的用戶連接能力,實(shí)現(xiàn)更加泛在、智能、安全、可信的公共移動信息基礎(chǔ)服務(wù)能力。
5G開啟的萬物互聯(lián)的場景連接,將千行百業(yè)接入到了移動通信網(wǎng)絡(luò),帶來了新的場景和無處不在的數(shù)據(jù)。針對未來,6GANA等組織提出了6G網(wǎng)絡(luò)的作用之一是基于無處不在的大數(shù)據(jù),將AI的能力賦予各個領(lǐng)域的應(yīng)用和場景,通過廣域覆蓋和場景的智能適應(yīng),創(chuàng)造一個“智能泛在”的世界[1-6],因此,6G網(wǎng)絡(luò)需要構(gòu)建內(nèi)生的、泛在的和分布化的AI能力。值得注意的是:當(dāng)前5G網(wǎng)絡(luò)中應(yīng)用AI的模式大多是基于場景驅(qū)動的“外掛式”和“疊加式”,無法較好發(fā)揮AI技術(shù)的效能。6G需在網(wǎng)絡(luò)架構(gòu)設(shè)計上支持網(wǎng)絡(luò)內(nèi)生AI,一方面根據(jù)6G網(wǎng)絡(luò)傳輸與控制需求以及所需完成的任務(wù)特征進(jìn)行6G網(wǎng)元和網(wǎng)絡(luò)的智能化,另一方面在網(wǎng)絡(luò)內(nèi)通過統(tǒng)一的架構(gòu)設(shè)計來提供完整的AI環(huán)境和AI服務(wù)(AI as a Service,AIaaS),提供業(yè)務(wù)所需智能[7-10]。
如圖1所示,從無線網(wǎng)絡(luò)演進(jìn)歷史來看,2G到5G分別提供了不同類型普惠性質(zhì)的基礎(chǔ)服務(wù),其背后都離不開原生架構(gòu)能力的支持,即通過原生設(shè)計來支持內(nèi)生功能。例如2G的普惠性質(zhì)基礎(chǔ)服務(wù)是語音服務(wù),與此匹配的2G端到端網(wǎng)絡(luò)架構(gòu)就是為語音原生設(shè)計的;到了3G和4G,普惠性質(zhì)的基礎(chǔ)服務(wù)是數(shù)據(jù)服務(wù),但3G架構(gòu)還不能完全算是原生的數(shù)據(jù)架構(gòu),更多是將數(shù)據(jù)服務(wù)疊加在傳統(tǒng)網(wǎng)絡(luò)基礎(chǔ)上;4G架構(gòu)則是完全基于數(shù)據(jù)服務(wù)來原生設(shè)計的,語音等傳統(tǒng)業(yè)務(wù)都要基于基礎(chǔ)數(shù)據(jù)服務(wù)來提供(VoLTE);5G提供的基礎(chǔ)服務(wù)是萬物互聯(lián),從URLLC、mMTC、eMBB到切片等[11-12],5G設(shè)計了很多原生的架構(gòu)能力來支持,但在智能化領(lǐng)域,5G更多是采取如NWDAF進(jìn)行功能疊加或是單獨(dú)提供AI算法等外掛的方式。文獻(xiàn)[13-14]詳細(xì)闡述了5G網(wǎng)絡(luò)中基于場景驅(qū)動的“外掛式”和“疊加式”的網(wǎng)絡(luò)智能化實(shí)踐面臨諸多挑戰(zhàn),包括數(shù)據(jù)獲取困難、數(shù)據(jù)質(zhì)量難以保證、AI模型的應(yīng)用效果缺乏有效的驗(yàn)證和保障手段等,這些因素導(dǎo)致了人工智能的性能和效率低于預(yù)期。面對上述挑戰(zhàn),6G網(wǎng)絡(luò)需要原生智能的網(wǎng)絡(luò)架構(gòu)。
圖1 無線網(wǎng)絡(luò)架構(gòu)演進(jìn)歷史
6G網(wǎng)絡(luò)原生智能架構(gòu),就是要在網(wǎng)絡(luò)內(nèi)通過統(tǒng)一的架構(gòu)設(shè)計來提供完整的AI環(huán)境和AI服務(wù),由此引入了網(wǎng)絡(luò)AI的理念,以明確區(qū)分現(xiàn)有的云AI。網(wǎng)絡(luò)AI主要面對高實(shí)時性能、高安全隱私或低綜合能耗等需求,在網(wǎng)絡(luò)內(nèi)進(jìn)行AI訓(xùn)練、驗(yàn)證或推理[15],提供適應(yīng)不同應(yīng)用場景的智能能力;網(wǎng)絡(luò)AI可以是云AI的有益補(bǔ)充[16]。
網(wǎng)絡(luò)AI的主要場景可以分為三個類別:網(wǎng)元智能、網(wǎng)絡(luò)智能和業(yè)務(wù)智能,如圖2所示。其中網(wǎng)元智能是指網(wǎng)元設(shè)備的原生智能化;網(wǎng)絡(luò)智能是指多個智體網(wǎng)元協(xié)同產(chǎn)生網(wǎng)絡(luò)級的群體智能;業(yè)務(wù)智能是指整個無線通信系統(tǒng)為業(yè)務(wù)提供的智能服務(wù),一般由外部業(yè)務(wù)觸發(fā),無線網(wǎng)絡(luò)負(fù)責(zé)執(zhí)行,其中的業(yè)務(wù)邏輯可以對無線通信系統(tǒng)透明。
圖2 6G網(wǎng)絡(luò)AI的場景需求
網(wǎng)元智能場景包括傳統(tǒng)的無線資源管理(Radio Resource Management,RRM)、無線傳輸技術(shù)(Radio Transmission Technology,RTT)的智能化,以及網(wǎng)元本身的原生智能化,如網(wǎng)元智能體。網(wǎng)元智能可以發(fā)生在網(wǎng)元、終端的功能和協(xié)議棧,影響從空口物理層到高層,如RTT智能化算法主要在PHY層,RRM智能化算法主要是MAC層(如調(diào)度、MIMO配對、功率控制、MCS選擇等算法)和RRC層(如切換、負(fù)載均衡等算法)。
網(wǎng)絡(luò)智能場景主要是網(wǎng)絡(luò)系統(tǒng)層面的優(yōu)化場景,最為典型的場景是自動駕駛網(wǎng)絡(luò)(Autonomous Driving Network,ADN),即通過數(shù)據(jù)與知識驅(qū)動的智能極簡網(wǎng)絡(luò),實(shí)現(xiàn)網(wǎng)絡(luò)自動、自愈、自優(yōu)、自治,使能新業(yè)務(wù)并實(shí)現(xiàn)極致客戶體驗(yàn)、全自動運(yùn)維、高效資源和能源利用[17]。網(wǎng)元智能和網(wǎng)絡(luò)智能從網(wǎng)絡(luò)和AI關(guān)系的角度,可以認(rèn)為是AI4NET(AI for Network),即使用AI來輔助通信效率、用戶業(yè)務(wù)體驗(yàn)等的提升。
業(yè)務(wù)智能場景主要是第三方通過網(wǎng)絡(luò)為AI提供多種支撐能力,使得AI訓(xùn)練/推理可以實(shí)現(xiàn)得更有效率、更實(shí)時,或者提升數(shù)據(jù)安全隱私保護(hù)等。例如用戶可以利用6G網(wǎng)絡(luò)的基礎(chǔ)模型、數(shù)據(jù)集、算力、連接等服務(wù),輔助和優(yōu)化其業(yè)務(wù)的AI訓(xùn)練或推理,從而更高效、安全地獲得期望的AI模型,例如6G網(wǎng)絡(luò)可以為完全自動駕駛汽車提供QoS預(yù)測和保障的輔助服務(wù),從而進(jìn)一步降低交通事故的發(fā)生風(fēng)險。特別注意的是,業(yè)務(wù)智能不是說6G網(wǎng)絡(luò)要做業(yè)務(wù)本身,而是網(wǎng)絡(luò)為業(yè)務(wù)的智能化提供更好的資源、功能或服務(wù)方面的支持。業(yè)務(wù)智能從網(wǎng)絡(luò)和AI關(guān)系的角度,可以認(rèn)為是NET4AI(Network For AI),即基于6G網(wǎng)絡(luò)的原生AI能力輔助業(yè)務(wù)提升效率和體驗(yàn)。
傳統(tǒng)通信系統(tǒng)是以通信連接為中心的設(shè)計,其典型的應(yīng)用場景是為特定終端之間、或?yàn)榻K端與應(yīng)用服務(wù)器之間提供連接,網(wǎng)絡(luò)在架構(gòu)上為會話提供了完整的生命周期管理機(jī)制(例如端到端通信隧道的創(chuàng)建、修改、刪除、錨點(diǎn)遷移等流程)和QoS保障。其主要目的是為數(shù)據(jù)傳輸提供連接、支持用戶移動性、保證其業(yè)務(wù)體驗(yàn)。在資源類型上,非云化部署的設(shè)備通常采用專用算力資源,對計算和存儲資源的需求量均不高。與傳統(tǒng)通信業(yè)務(wù)不同,AI屬于數(shù)據(jù)和計算密集型業(yè)務(wù),為使6G網(wǎng)絡(luò)具備原生的AI能力,6G網(wǎng)絡(luò)需引入新的資源維度,包括異構(gòu)的算力資源和存儲資源、新的計算任務(wù)(AI相關(guān)計算)以及新的數(shù)據(jù)類型(AI計算輸入輸出數(shù)據(jù))等,需要設(shè)計相應(yīng)的管控機(jī)制。另一方面,6G網(wǎng)絡(luò)將具備更全面的感知能力,包括目標(biāo)檢測、定位(距離和角度)、測速和3D成像,并將引入基于雷達(dá)回波的方案[18]。上述AI能力、感知能力等網(wǎng)絡(luò)新能力將涉及到多節(jié)點(diǎn)場景下算力、連接、算法、數(shù)據(jù)資源的協(xié)同和調(diào)配,以共同完成某個特定的目標(biāo)。本文將在6G網(wǎng)絡(luò)層面通過多維度資源協(xié)同來完成某個特定目標(biāo)的過程定義為“任務(wù)”。面向6G網(wǎng)絡(luò)中將出現(xiàn)的不同類型、數(shù)量眾多的任務(wù),6G網(wǎng)絡(luò)層面需要提供任務(wù)相關(guān)的四要素(連接、計算、數(shù)據(jù)、算法)協(xié)同完整的任務(wù)生命周期管理機(jī)制和任務(wù)QoS保障。從網(wǎng)絡(luò)架構(gòu)角度,6G將從會話為中心轉(zhuǎn)為任務(wù)為中心,如圖3所示。
圖3 以任務(wù)為中心的架構(gòu)
6G網(wǎng)絡(luò)需要原生支持網(wǎng)絡(luò)AI和感知等新能力,無線網(wǎng)絡(luò)架構(gòu)應(yīng)發(fā)生根本性改變,體現(xiàn)為:
變化1無線網(wǎng)絡(luò)系統(tǒng)中的管控對象從“會話”轉(zhuǎn)變?yōu)椤叭蝿?wù)”。
變化2調(diào)度資源從連接資源轉(zhuǎn)變?yōu)檫B接、計算、數(shù)據(jù)和算法的四要素資源。
變化3基于任務(wù)粒度的管控,實(shí)現(xiàn)四要素的深度協(xié)同,提供高效的任務(wù)運(yùn)行環(huán)境。
為了方便理解,對任務(wù)、任務(wù)管控進(jìn)行進(jìn)一步說明。
2.1.1 任務(wù)
現(xiàn)有的通信網(wǎng)絡(luò)包括核心網(wǎng)(Core Network,CN)、承載網(wǎng)和無線接入網(wǎng)(Radio Access Network,RAN),包含的典型網(wǎng)元有核心網(wǎng)網(wǎng)元、接入網(wǎng)網(wǎng)元和用戶設(shè)備(User Equipment,UE)等。
如上所述,任務(wù)是指網(wǎng)絡(luò)新能力涉及到多節(jié)點(diǎn)場景下連接、計算、數(shù)據(jù)和算法資源的協(xié)同和調(diào)配,以共同完成某個特定的目標(biāo)。本文將在6G網(wǎng)絡(luò)層面通過多維度資源協(xié)同來完成某個特定目標(biāo)的過程定義為“任務(wù)”。根據(jù)不同目的,任務(wù)分為AI推理、AI訓(xùn)練、計算、感知等多種類型。
根據(jù)參與任務(wù)的節(jié)點(diǎn)數(shù)量,又可以分為協(xié)作類和非協(xié)作類:① 單個節(jié)點(diǎn)執(zhí)行的為非協(xié)作類任務(wù),例如可以在UE單獨(dú)執(zhí)行,也可以在RAN或CN網(wǎng)元上單獨(dú)執(zhí)行。② 涉及到兩個或多個節(jié)點(diǎn)的協(xié)作任務(wù)。例如協(xié)作節(jié)點(diǎn)可以是UE和RAN、UE和CN、RAN網(wǎng)元間、CN網(wǎng)元間,以及RAN和CN等。
圖4是以AI推理任務(wù)為例,說明單點(diǎn)、兩點(diǎn)、多點(diǎn)任務(wù)的工作機(jī)理;AI訓(xùn)練任務(wù)、計算任務(wù)、感知任務(wù)等類似,不再贅述。
圖4 AI推理模型示意圖
圖4中,模型1是指在基站或UE側(cè)進(jìn)行單點(diǎn)推理,或者UE請求基站側(cè)推理;模型2對應(yīng)兩節(jié)點(diǎn)聯(lián)合推理,UE先經(jīng)過推理獲得輸出1,上傳到基站側(cè)并作為基站推理的輸入,基站獲得輸出2并使用,或發(fā)送給UE使用;模型3對應(yīng)多節(jié)點(diǎn)聯(lián)合推理,3個UE先各自推理并分別將輸出1、輸出2、輸出3發(fā)送給基站,基站整合后作為自身推理的輸入,推理得出輸出4并使用(即基站使用推理結(jié)果)。
通常來說,針對一個具體任務(wù)的執(zhí)行,需要以下兩個維度的協(xié)同。
四要素協(xié)同一個任務(wù)的執(zhí)行可能同時需要連接、計算、數(shù)據(jù)、算法的部分或全部四要素資源。例如,在任務(wù)部署階段提供四要素資源的配置,以及在任務(wù)執(zhí)行期間進(jìn)行實(shí)時的四要素資源調(diào)度。
多節(jié)點(diǎn)協(xié)同首先,在傳統(tǒng)通信網(wǎng)絡(luò)中連接相關(guān)的計算處理大多是在單個網(wǎng)元內(nèi)實(shí)現(xiàn)的,網(wǎng)元間一般無需算力共享和算力協(xié)同。隨著越來越多的AI場景伴隨著大規(guī)模的AI訓(xùn)練、大模型的AI推理和海量的感知圖像處理,這些對算力的需求量遠(yuǎn)超傳統(tǒng)網(wǎng)絡(luò),通過簡單的擴(kuò)容逐個網(wǎng)元的計算能力,會導(dǎo)致整網(wǎng)部署成本過高。而分布式計算可通過算力共享的方式來協(xié)同完成任務(wù),因此協(xié)同任務(wù)(即涉及多節(jié)點(diǎn)協(xié)同的任務(wù))需要節(jié)點(diǎn)間算力層面的協(xié)同。其次,隨著社會的進(jìn)步和數(shù)據(jù)所有權(quán)意識的提升,數(shù)據(jù)隱私保護(hù)的要求也越來越高,協(xié)同任務(wù)需要多節(jié)點(diǎn)間進(jìn)行數(shù)據(jù)層面的協(xié)同。例如UE的原始數(shù)據(jù)由于隱私原因無法上傳到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而聯(lián)邦學(xué)習(xí)通過協(xié)同學(xué)習(xí)和梯度傳遞的方式在一定程度上解決了該問題。最后,為了支持內(nèi)生AI,模型的訓(xùn)練需要消耗較大的計算和存儲資源,一個好的模型也需要在網(wǎng)絡(luò)內(nèi)共享以提升整網(wǎng)效率,協(xié)同任務(wù)需要多節(jié)點(diǎn)間進(jìn)行AI模型層面的協(xié)同。
2.1.2 任務(wù)管控
任務(wù)管控是指伴隨在整個任務(wù)運(yùn)行過程中的管理和控制行為,包括任務(wù)部署階段多節(jié)點(diǎn)協(xié)同的調(diào)配(例如參與節(jié)點(diǎn)的選擇)、任務(wù)的生命周期管理和控制(例如任務(wù)的創(chuàng)建、修改、暫停、刪除等)和四要素參數(shù)配置(例如參與節(jié)點(diǎn)使用的輸入數(shù)據(jù)、模型參數(shù)等),以及在任務(wù)執(zhí)行期間為了滿足QoS要求進(jìn)行的QoS監(jiān)控和資源調(diào)度。其中,資源調(diào)度包括多節(jié)點(diǎn)協(xié)同的調(diào)配(例如協(xié)同節(jié)點(diǎn)的增加、刪除、變更等操作)和四要素資源協(xié)同的調(diào)度(例如參與節(jié)點(diǎn)的四要素變更或參與節(jié)點(diǎn)自身的資源分配)等。
需要澄清的一個問題是:在引入任務(wù)為中心架構(gòu)后,會話為中心的架構(gòu)是否依然存在?一種方式是任務(wù)為中心完全融合會話為中心,即基于純連接的會話管理流程作為任務(wù)為中心的其中一個分支運(yùn)行(四要素中僅有連接需求);另一種方式是任務(wù)為中心和會話為中心的兩種架構(gòu)和流程同時存在,例如當(dāng)發(fā)起會話管理流程時啟用會話為中心架構(gòu),當(dāng)發(fā)起計算、AI、感知、數(shù)據(jù)處理等6G新業(yè)務(wù)時啟用任務(wù)為中心架構(gòu)。兩種方式對于方案的統(tǒng)一性、與5G純連接系統(tǒng)的兼容性、標(biāo)準(zhǔn)復(fù)雜度、部署靈活性等存在不同的影響;由于篇幅有限,本文不展開討論。
面向各行各業(yè)對6G網(wǎng)絡(luò)AI千差萬別的需求,將用戶的需求轉(zhuǎn)化為網(wǎng)絡(luò)可以理解的對網(wǎng)絡(luò)AI服務(wù)能力的要求是亟需解決的問題。6G網(wǎng)絡(luò)將不再只是服務(wù)于傳統(tǒng)通信業(yè)務(wù)的管道,不同的智能應(yīng)用場景對AI服務(wù)的質(zhì)量將有著不同的需求,需要一套指標(biāo)體系通過量化或分級的方式傳達(dá)用戶的需求以及網(wǎng)絡(luò)編排控制AI各要素(包括連接、計算、數(shù)據(jù)和算法等)的綜合效果。對此,本文提出AI服務(wù)質(zhì)量 (Quality of AI Service,QoAIS)的概念,QoAIS是對AI服務(wù)質(zhì)量進(jìn)行評估和保障的一套指標(biāo)體系和流程機(jī)制。
6G網(wǎng)絡(luò)的AI服務(wù)可以分為AI數(shù)據(jù)類、AI訓(xùn)練類、AI推理類和AI驗(yàn)證類,每一類AI服務(wù)均需要一套QoAIS[19]。在具體指標(biāo)體系設(shè)計上,傳統(tǒng)通信網(wǎng)絡(luò)的QoS主要考慮通信業(yè)務(wù)的時延和吞吐率(MBR、GBR)等與連接相關(guān)的性能指標(biāo)[20-21],6G網(wǎng)絡(luò)除了傳統(tǒng)通信資源外,還將引入分布式異構(gòu)算力資源、存儲資源、數(shù)據(jù)資源、AI算法等AI服務(wù)編排的多種資源元素,因而需要從連接、算力、算法、數(shù)據(jù)等多個維度來綜合評估網(wǎng)絡(luò)內(nèi)生AI的服務(wù)質(zhì)量。同時,隨著“碳中和”和“碳達(dá)峰”政策的實(shí)施、全球智能應(yīng)用行業(yè)對數(shù)據(jù)安全性和隱私性關(guān)注程度的普遍加強(qiáng),以及用戶對網(wǎng)絡(luò)自治能力需求的提升,未來性能相關(guān)指標(biāo)將不再是用戶關(guān)注的唯一指標(biāo),開銷、安全、隱私和自治方面的需求將逐漸深化,從而成為評估服務(wù)質(zhì)量的新維度。而不同行業(yè)和場景在這些新維度上的具體需求也將千差萬別,需要進(jìn)行量化或分級評估。因此,QoAIS指標(biāo)體系從初始設(shè)計時,即需要考慮涵蓋性能、開銷、安全、隱私和自治等多個方面,需從內(nèi)容上進(jìn)行擴(kuò)展[22]。
表1提供了一種針對AI訓(xùn)練服務(wù)的QoAIS指標(biāo)設(shè)計方式。
表1 AI訓(xùn)練服務(wù)的QoAIS指標(biāo)體系
QoAIS 是網(wǎng)絡(luò)內(nèi)生AI 編排管理系統(tǒng)和控制功能的重要輸入,管理編排系統(tǒng)對頂層的QoAIS進(jìn)行分解和映射,生成AI任務(wù)的QoS需求,再將任務(wù)QoS映射到對連接、計算、數(shù)據(jù)和算法等多維度資源的QoS 要求上,通過管理面、控制面和用戶面相關(guān)機(jī)制的設(shè)計獲得持續(xù)保障。圖5為AI用例、AI服務(wù)和AI任務(wù)的邏輯關(guān)系,需要注意的是,AI 用例是用戶在智能應(yīng)用場景下向網(wǎng)絡(luò)提出的一次AI 服務(wù)請求,一個AI 用例可能涉及到一類或多類網(wǎng)絡(luò)內(nèi)生AI 服務(wù)(如AI 訓(xùn)練、驗(yàn)證和推理服務(wù))的調(diào)用。
圖5 AI服務(wù)(QoAIS)和AI任務(wù)(任務(wù)QoS)間的邏輯關(guān)系示例
面向通信連接的管理和控制,5G網(wǎng)絡(luò)內(nèi)的通信數(shù)據(jù)主要包括通信測量數(shù)據(jù)、用戶簽約數(shù)據(jù)和網(wǎng)絡(luò)管理數(shù)據(jù)等。隨著6G服務(wù)從通信連接擴(kuò)展至感知、計算和AI等服務(wù),6G網(wǎng)絡(luò)內(nèi)的數(shù)據(jù)將增加感知測量數(shù)據(jù)、計算測量數(shù)據(jù)、AI數(shù)據(jù)等。面向任務(wù)采用統(tǒng)一方案收集、傳輸和提供數(shù)據(jù)是6G網(wǎng)絡(luò)高效運(yùn)轉(zhuǎn)的重要基礎(chǔ)之一。面向任務(wù)的數(shù)據(jù)功能是數(shù)據(jù)提供者和數(shù)據(jù)消費(fèi)者之間的抽象功能,解耦數(shù)據(jù)消費(fèi)者和物理數(shù)據(jù)提供者。特別是存在多個數(shù)據(jù)提供者或多個數(shù)據(jù)消費(fèi)者時,數(shù)據(jù)功能有助于維持?jǐn)?shù)據(jù)的完整性,通過重用性提高數(shù)據(jù)服務(wù)效率。6G數(shù)據(jù)功能旨在高效支持端到端的數(shù)據(jù)采集、傳輸、存儲和共享,解決如何將數(shù)據(jù)方便、高效、安全地提供給網(wǎng)絡(luò)內(nèi)部功能或網(wǎng)絡(luò)外部功能,在遵從隱私安全法律法規(guī)的前提下降低數(shù)據(jù)獲取難度、提升數(shù)據(jù)流動效率和數(shù)據(jù)消費(fèi)體驗(yàn)。如圖6所示,根據(jù)潛在的6G數(shù)據(jù)功能范圍,可將數(shù)據(jù)功能分為5個類別。
圖6 面向任務(wù)的數(shù)據(jù)功能
① 數(shù)據(jù)收集/分發(fā)。為數(shù)據(jù)生產(chǎn)者和消費(fèi)者提供基礎(chǔ)數(shù)據(jù)收集的發(fā)布和訂閱機(jī)制,提升數(shù)據(jù)收集/分發(fā)效率。
② 數(shù)據(jù)安全隱私。借助安全和隱私保護(hù)技術(shù)為用戶和網(wǎng)絡(luò)按需提供高質(zhì)量的可信數(shù)據(jù)服務(wù),既保證用戶和網(wǎng)絡(luò)的隱私保護(hù),又保證數(shù)據(jù)的安全不可篡改及可溯源性。
③ 數(shù)據(jù)分析。疊加利用模型、算法、知識和算力等提供統(tǒng)計信息、預(yù)測信息、網(wǎng)絡(luò)異常分析和優(yōu)化建議等信息,提升網(wǎng)絡(luò)內(nèi)部功能和網(wǎng)絡(luò)外部功能的數(shù)據(jù)消費(fèi)體驗(yàn)。
④ 數(shù)據(jù)預(yù)處理。對所收集的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換、去噪和特征提取等通用工具類預(yù)處理滿足智能應(yīng)用需求。
⑤ 數(shù)據(jù)存儲。存儲和檢索上述所收集的數(shù)據(jù),以及為數(shù)據(jù)安全隱私、數(shù)據(jù)分析或數(shù)據(jù)預(yù)處理等相關(guān)數(shù)據(jù)處理功能提供存儲支持。
單個任務(wù)的生命周期可以分為兩個階段:任務(wù)部署和任務(wù)執(zhí)行。針對這兩個階段,存在如下問題:
問題1任務(wù)部署階段,面對無線系統(tǒng)中算力的固有特征(分布式、異構(gòu)、海量、動態(tài)等),以及任務(wù)部署的靈活、實(shí)時等訴求,基于現(xiàn)有的CN、RAN、UE多級架構(gòu),如何設(shè)計出高效的任務(wù)部署系統(tǒng)?
問題2任務(wù)執(zhí)行階段,如何達(dá)成AI任務(wù)在無線系統(tǒng)中執(zhí)行期間的QoS保障和效率最優(yōu)?
下面將重點(diǎn)闡述針對上述架構(gòu)變化及技術(shù)問題的架構(gòu)方案,包括邏輯架構(gòu)、部署架構(gòu)、接口、協(xié)議和流程、任務(wù)QoS保障、AI用例自生成和任務(wù)應(yīng)用實(shí)例及其對應(yīng)的四要素協(xié)同等。
以任務(wù)為中心的架構(gòu)包括兩大部分:網(wǎng)絡(luò)AI管理編排和任務(wù)管控,如圖7所示?;谌蝿?wù)管控各階段對實(shí)時性不同要求、任務(wù)管控范圍等因素的考慮,本文新引入網(wǎng)絡(luò)AI管理編排(Network AI Management & Orchestration,NAMO),來完成從AI業(yè)務(wù)到任務(wù)的分解、映射和AI業(yè)務(wù)流編排,NAMO通常是非實(shí)時的,一般部署在管理域;任務(wù)管控則是在控制層引入任務(wù)錨點(diǎn)功能(Task Anchor,TA)、任務(wù)調(diào)度功能(Task Scheduler,TS)、任務(wù)執(zhí)行功能(Task Executer,TE),對任務(wù)進(jìn)行分層的控制,以在任務(wù)范圍和任務(wù)實(shí)時調(diào)度之間尋求平衡。
圖7 以任務(wù)為中心的邏輯架構(gòu)
僅通過管理域的NAMO對任務(wù)進(jìn)行管控,存在如下問題:
① NAMO無法直接管理UE,涉及UE的任務(wù)需通過應(yīng)用層來部署,網(wǎng)絡(luò)無法感知,因此也無法實(shí)現(xiàn)四要素協(xié)同來管控和保障任務(wù)QoS。
② NAMO信令時延較大(一般是分鐘級別),導(dǎo)致任務(wù)管控不及時,難以滿足嚴(yán)格的任務(wù)QoS保障要求。
③ NAMO管理的節(jié)點(diǎn)多,如果進(jìn)行高度集中的任務(wù)管控,信令消耗大,容易成為瓶頸。
因此,本文引入一個任務(wù)錨點(diǎn)TA來負(fù)責(zé)任務(wù)的生命周期管控;該節(jié)點(diǎn)部署在控制面,能夠保證信令的實(shí)時快速傳輸(毫秒級別),使得任務(wù)控制更為實(shí)時和高效。在任務(wù)范圍較大的場景,TA部署位置可能較高(例如部署在核心網(wǎng))。TS的部署位置取決于四要素資源控制的實(shí)時性需求,比如控制連接資源的TS部分需要部署在靠近TE的位置,以便更實(shí)時地感知連接資源狀態(tài),以及進(jìn)行實(shí)時QoS質(zhì)量監(jiān)控和資源調(diào)整。
基于上述的TA、TS、TE三級架構(gòu),下面分別闡述每個邏輯功能的特性。
任務(wù)錨點(diǎn)功能(TA)TA負(fù)責(zé)任務(wù)的生命周期管理,基于任務(wù)QoS需求完成任務(wù)部署、啟動、刪除、修改、監(jiān)控等,包括調(diào)控四要素資源來進(jìn)行任務(wù)的QoS保障。
任務(wù)調(diào)度功能(TS)TS負(fù)責(zé)任務(wù)的控制,在任務(wù)實(shí)例的部署過程中,TS會建立并維護(hù)任務(wù)相關(guān)的上下文信息,從而對任務(wù)進(jìn)行控制。針對任務(wù)控制功能,TS主要有三大核心特性:其一,TS需要接受TA的管理控制。TS不能作為網(wǎng)絡(luò)架構(gòu)外的功能獨(dú)立存在,需要由TA來管理控制。其二,TS負(fù)責(zé)任務(wù)執(zhí)行的實(shí)時控制,實(shí)現(xiàn)通算深度融合。TS實(shí)時感知網(wǎng)絡(luò)環(huán)境的變化,如終端切換、鏈路狀態(tài)變化等,通過自身或者通知TA來實(shí)時調(diào)整任務(wù)配置,保障任務(wù)的順利執(zhí)行和QoS要求。其三,TS負(fù)責(zé)任務(wù)相關(guān)TE間資源的調(diào)度。比如,任務(wù)執(zhí)行是一個過程,期間對于算力的需求是不斷變化的,需要TS進(jìn)行實(shí)時的算力調(diào)度。
任務(wù)執(zhí)行功能(TE)TE負(fù)責(zé)任務(wù)的具體執(zhí)行,并進(jìn)行業(yè)務(wù)邏輯上的數(shù)據(jù)交互。同一個服務(wù)的工作流可能被實(shí)例化為多個任務(wù),部署在多個TE間執(zhí)行,因此TE間存在數(shù)據(jù)的交互。
TA對TE的管理需要具備實(shí)時、靈活等要求,在RAN域內(nèi)部署RAN TA實(shí)現(xiàn)對RAN TE的管理更為合理,同理CN TA對CN TE類似。這是因?yàn)門E的狀態(tài)是實(shí)時變化的(例如 CPU負(fù)載、內(nèi)存、電量、UE的信道狀況等),TA/TS的就近部署能夠帶來更少的管理時延;此外,根據(jù)3GPP的設(shè)計邏輯,CN和RAN需要盡量解耦。例如 RAN RRM和RTT優(yōu)化不應(yīng)對CN感知;反之若由CN TA來管理RAN TE并執(zhí)行RAN任務(wù),會導(dǎo)致業(yè)務(wù)邏輯強(qiáng)耦合。因此本文建議分別在CN域和RAN域都獨(dú)立部署TA/TS,達(dá)到實(shí)時管理和業(yè)務(wù)解耦的目的。
以基站和終端進(jìn)行聯(lián)邦學(xué)習(xí)為例,下面詳細(xì)說明TA、TS和TE如何部署。由于6G架構(gòu)未定,本文以5G RAN架構(gòu)為例進(jìn)行說明,如圖8所示。
圖8 以任務(wù)為中心的部署架構(gòu)-站內(nèi)任務(wù)協(xié)同
場景1:gNB+UE場景其中g(shù)NB同時是TA和TS,UE是TE;此時UE是算力提供方和任務(wù)執(zhí)行方,接受gNB的任務(wù)管理和任務(wù)四要素調(diào)度(例如 UE側(cè)與基站的連接建立、空口資源的實(shí)時調(diào)度,以及AI模型的分配和實(shí)時調(diào)整等)。
場景2:CU+DU場景其中CU同時是TA和TS,DU是TE;此時DU是算力提供方和任務(wù)執(zhí)行方。
場景3:CU+DU+UE場景其中CU是TA、DU是TS、UE是TE,此時UE是算力提供方和任務(wù)執(zhí)行方,CU是任務(wù)管理者,DU感知CU給UE分配的任務(wù),并進(jìn)行四要素資源調(diào)度和任務(wù)實(shí)時QoS保障。在該場景中,TA和TS是分開部署的,TS部署比TA位置更低,因此能夠更實(shí)時感知TE的連接、算力、模型等狀態(tài),從而更為實(shí)時監(jiān)控任務(wù)QoS和快速調(diào)整四要素資源。
場景4:復(fù)雜任務(wù)場景上述三個場景都是對應(yīng)一個簡單任務(wù),僅包括一個TA、TS和TE;對于計算量更大的任務(wù),僅有一個TE是不夠的,因此需要多個TE共同參與同一個任務(wù)。針對本場景,CU是TA,在接受一個大任務(wù)后,將部分任務(wù)分給DU1進(jìn)行處理(此時DU1是TE,CU還是該TE的TS),并將剩余任務(wù)交給DU2下的UE1和UE2處理(DU2是該子任務(wù)的TS,UE1和UE2是對應(yīng)TE)。
場景5:跨站協(xié)同場景圖8所示場景是針對在一個基站內(nèi)進(jìn)行任務(wù)執(zhí)行的,場景5則重點(diǎn)關(guān)注基站間聯(lián)合進(jìn)行聯(lián)邦學(xué)習(xí)。為簡單起見、本文以兩個基站為例進(jìn)行說明。如圖9所示,由于在無線通信系統(tǒng)中,基站與基站之間的拓?fù)涫菍Φ鹊?,因此可以采用集中式或分布式方案來?shí)施任務(wù)協(xié)同。其中分布式方案是指每個基站既是TE、又是TS,兩個TS之間通過協(xié)商的方式來協(xié)同算力分配或模型更改,此時兩個基站是對等的,沒有決策者和決策執(zhí)行者的區(qū)分;而集中式是指在兩個基站間選擇一個節(jié)點(diǎn)作為邏輯的TS,并對兩個站的TE資源進(jìn)行調(diào)度(連接優(yōu)化、算力調(diào)度、模型變更、數(shù)據(jù)配置等),此時兩個基站是不對等的,其中一個是資源調(diào)度的決策者,另一個是決策執(zhí)行者,執(zhí)行者本身針對該任務(wù)沒有資源調(diào)度的決策功能,但當(dāng)其內(nèi)部存在多個任務(wù)時,需要考慮任務(wù)間資源調(diào)度的需求。
圖9 以任務(wù)為中心的部署架構(gòu)-站間任務(wù)協(xié)同
從上面例子可以看出,TA、TS和TE僅是邏輯功能,這些功能根據(jù)不同場景可以部署于同一邏輯節(jié)點(diǎn)或不同邏輯節(jié)點(diǎn);從邏輯節(jié)點(diǎn)來看,單個節(jié)點(diǎn)可以同時具備多個邏輯功能(如TA、TS、TE的任意組合)。
本節(jié)分為接口和協(xié)議棧、任務(wù)流程兩個部分。
3.3.1 接口和協(xié)議棧
無線系統(tǒng)中的現(xiàn)有網(wǎng)元都具備一定計算能力,在考慮TA和TS的部署位置時,需要考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),以及CN網(wǎng)元、RAN網(wǎng)元、UE側(cè)算力分布的特點(diǎn),以便充分并高效地利用分布式算力。TA或TS是較為集中的控制TE的功能實(shí)體,適合部署在CU或AMF等類似網(wǎng)元上;而其他RAN網(wǎng)元(如DU、CU-UP等)、CN網(wǎng)元(如UPF、SMF等)和UE作為TE進(jìn)行部署。
基于上述部署假設(shè),TA/TS對TE的管控涉及到的接口有:① 對RAN TE的管理,重用現(xiàn)有CU和DU間的F1接口、CU-CP和CU-UP間的E1接口;② 對UE TE的管理,包括Uu口和NAS接口,可以重用RRC或NAS信令;③ 對CN TE的管理,重用現(xiàn)有CN網(wǎng)元間的SBA接口并新增信令。此外,若要支持TA/TS間任務(wù)協(xié)同,則需影響:① RAN TA/TS間的站間接口,如Xn接口;② RAN TA和CN TA間接口,如Ng接口;③ CN TA間接口。
3.3.2 任務(wù)流程
從整個端到端流程來看,NAMO接收外部服務(wù)請求后,將對應(yīng)AI業(yè)務(wù)提交給TA來完成執(zhí)行,AI服務(wù)實(shí)施的整個端到端流程包括如下功能:
① 生成或?qū)階I用例;
② 將用例分解為一個或多個AI服務(wù);
③ 將AI服務(wù)分解為一個或多個AI任務(wù)(AI Task,AIT),同時將AI服務(wù)對應(yīng)的QoAIS分解為AI任務(wù)的QoS;
④ 決定AIT的錨點(diǎn)位置;
⑤ 將任務(wù)QoS分解為資源QoS需求,明確AIT所需四要素資源的需求,包括連接、計算、數(shù)據(jù)和算法/模型;
⑥ 決定并配置任務(wù)所需四要素資源,包括節(jié)點(diǎn)選擇(選擇參與計算的節(jié)點(diǎn)、提供數(shù)據(jù)的節(jié)點(diǎn)、提供算法/模型的節(jié)點(diǎn))、建立節(jié)點(diǎn)間的連接,或更新上述配置;
⑦ 在選擇參與的節(jié)點(diǎn)范圍內(nèi),實(shí)時決定并調(diào)整計算的分配、優(yōu)化通信連接質(zhì)量、決定并采集處理所需數(shù)據(jù),以及決定并更換或優(yōu)化算法模型,以保證任務(wù)QoS的達(dá)成,從而保證QoAIS的達(dá)成。
如上所述,考慮管理面實(shí)時性較差,獲取網(wǎng)絡(luò)信息范圍廣,但粒度粗;控制面實(shí)時性強(qiáng),可獲取較精準(zhǔn)的信息,但數(shù)據(jù)范圍比較局限;另外,管理面無法獲得空口鏈路和終端側(cè)資源狀態(tài)的實(shí)時信息。因此,部分功能適合在管理面或控制面上實(shí)施,另一部分功能可通過管理面和控制面的協(xié)同達(dá)到更好的效果,具體功能與管理面和控制面的映射關(guān)系如表2所示。
表2 任務(wù)管理和任務(wù)控制的功能劃分
另一種場景是由控制面生成的網(wǎng)絡(luò)AI能力需求,如用戶通過控制信令向網(wǎng)絡(luò)提交的AI服務(wù)請求。針對這種場景的端到端流程需要進(jìn)一步分析,比如一種可能的方式是TA首先判斷該需求是一個AI服務(wù)需求,還是AI任務(wù)需求。若為前者,則交由NAMO執(zhí)行;若為后者,則TA處理。
如前文所述,6G網(wǎng)絡(luò)AI需要設(shè)計一套評估和保障AI服務(wù)質(zhì)量的指標(biāo)體系和流程機(jī)制—QoAIS。傳統(tǒng)的通信QoS包括時延、可靠性、速率、優(yōu)先級等指標(biāo),由CN網(wǎng)元根據(jù)IP五元組映射獲得每個數(shù)據(jù)包對應(yīng)的QoS flow及QoS指標(biāo),進(jìn)而傳遞給RAN,并由RAN進(jìn)行相應(yīng)的數(shù)據(jù)無線承載映射和空口資源調(diào)度來同時保證不同業(yè)務(wù)和數(shù)據(jù)包的通信QoS。這種QoS機(jī)制仍存在業(yè)務(wù)區(qū)分顆粒度較粗、優(yōu)化調(diào)整周期較長無法較好滿足邊緣業(yè)務(wù)的實(shí)時性要求,以及空口資源配置無法靈活適配網(wǎng)絡(luò)與業(yè)務(wù)的實(shí)時動態(tài)變化、指標(biāo)體系無法適用于AI業(yè)務(wù)等弊端,因此需要重新設(shè)計新的指標(biāo)體系以及生成和保障機(jī)制。
如前文所述,QoAIS是6G網(wǎng)絡(luò)AI編排管理系統(tǒng)和控制功能的重要輸入,網(wǎng)絡(luò)AI管理編排系統(tǒng)需要對頂層的QoAIS進(jìn)行分解,再映射到對連接、計算、數(shù)據(jù)和算法等各方面的QoS要求上,此過程與三層管控功能實(shí)體的邏輯關(guān)系如圖10所示。
圖10 以任務(wù)為中心的QoS保障
為保障QoAIS的達(dá)成,上述分層管控邏輯架構(gòu)通過“三層閉環(huán)”進(jìn)行實(shí)施。TS層通過實(shí)時監(jiān)測和優(yōu)化四要素資源,在TA的資源配置范圍內(nèi),保證任務(wù)QoS的達(dá)成;當(dāng)TS層無法提供任務(wù)QoS保證時,TA層對總體資源配置進(jìn)行更改,如調(diào)整參與任務(wù)的網(wǎng)絡(luò)節(jié)點(diǎn)、更換模型倉庫或數(shù)據(jù)倉庫;當(dāng)TA層無法提供任務(wù)QoS保證時,交由NAMO進(jìn)行優(yōu)化,NAMO可通過更改AI任務(wù)的錨點(diǎn)位置,也可以對AI服務(wù)與AI任務(wù)的映射進(jìn)行重新分解。
為保障QoAIS的達(dá)成,上述分層管控邏輯架構(gòu)通過“三層閉環(huán)”進(jìn)行實(shí)施。TS層通過實(shí)時監(jiān)測和優(yōu)化四要素資源,在TA的資源配置范圍內(nèi),保證任務(wù)QoS的達(dá)成;當(dāng)TS層無法提供任務(wù)QoS保證時,TA層對總體資源配置進(jìn)行更改,如調(diào)整參與任務(wù)的網(wǎng)絡(luò)節(jié)點(diǎn)、更換模型倉庫或數(shù)據(jù)倉庫;當(dāng)TA層無法提供任務(wù)QoS保證時,交由NAMO進(jìn)行優(yōu)化,NAMO可通過更改AI任務(wù)的錨點(diǎn)位置,也可以對AI服務(wù)與AI任務(wù)的映射進(jìn)行重新分解。
圖11展示了QoAIS各指標(biāo)維度和各資源維度上QoS之間的映射關(guān)系。AI服務(wù)的QoAIS指標(biāo)拆解到任務(wù)及各指標(biāo)維度上的QoAIS指標(biāo),再進(jìn)一步映射到各資源維度上的QoS指標(biāo),由管理面、各資源維度的控制面和用戶面機(jī)制進(jìn)行保障。
圖11 QoAIS指標(biāo)分解到各資源維度上的QoS指標(biāo)
圖11中各資源維度上QoS指標(biāo)可分為適合量化評估的指標(biāo)(如各類資源開銷)和適合分級評估的指標(biāo)(如安全等級、隱私等級和自治等級)。在前一類指標(biāo)中,有部分指標(biāo)的量化方案已成熟或較容易制定(如訓(xùn)練耗時、算法性能界、計算精度、各類資源開銷等),部分指標(biāo)目前尚無定量評估方法(如模型的魯棒性、可重用性、泛化性和可解釋性等),如表3所示。因此,如何在起始階段設(shè)計出足夠開放包容的網(wǎng)絡(luò)架構(gòu),以便后續(xù)逐步引入上述指標(biāo)的成熟量化技術(shù),是需要思考和研究的問題。
表3 AI訓(xùn)練服務(wù)性能QoAIS到各資源維度的映射
如上文所述,任務(wù)及QoAIS均與AI用例表示的用戶需求有著密切聯(lián)系。為了全方位地表征各場景細(xì)致的差異,精準(zhǔn)適應(yīng)場景對網(wǎng)絡(luò)能力和服務(wù)的需求,本文提出AI用例自生成的方式,從范圍、數(shù)據(jù)、目標(biāo)、開放等多維度表征用戶AI用例需求。需要解釋的是,AI用例是用戶在智能應(yīng)用場景下向網(wǎng)絡(luò)提出的一次AI服務(wù)請求,一個AI用例可能涉及到一類或多類網(wǎng)絡(luò)內(nèi)生AI服務(wù)(如AI訓(xùn)練、驗(yàn)證和推理服務(wù))的調(diào)用。
AI用例自生成的方式可以是網(wǎng)絡(luò)自身根據(jù)數(shù)據(jù)分析推演或外部導(dǎo)入,生成關(guān)于AI用例描述(AI Use case Description,AIUD)。通過AI 用例的管理將AI 用例部署到網(wǎng)絡(luò)中,網(wǎng)絡(luò)根據(jù)AI 用例的描述按需調(diào)配網(wǎng)絡(luò)元素(包括連接、計算、數(shù)據(jù)、算法等)以滿足該用例的性能需求。除此之外,與通信感知技術(shù)的結(jié)合,網(wǎng)絡(luò)可以做到感知-數(shù)據(jù)分析-用例生成-QoAIS保障-任務(wù)管控執(zhí)行的閉環(huán)處理,具備自主化的智能能力。
AI用例自生成的關(guān)鍵是AI用例描述,AI用例描述承載了用戶提出AI服務(wù)請求的相關(guān)信息。由于場景與需求的差異,AI用例描述的部分內(nèi)容可能是通用性的內(nèi)容,部分內(nèi)容可能是差異化的可選內(nèi)容。根據(jù)目前的研究,經(jīng)過對需求的分類,提出一種AI用例描述的方式,如表4所示。
表4 AIUD的組成
表4中,范圍指的是使用數(shù)據(jù)的范圍,包括使用數(shù)據(jù)的起始時間范圍、地理空間范圍、網(wǎng)絡(luò)空間范圍(如網(wǎng)元、網(wǎng)絡(luò)域等)以及使用數(shù)據(jù)的對象(如用戶組、功能等)。數(shù)據(jù)類型考慮了訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集,可以表示用例兩類數(shù)據(jù)集數(shù)據(jù)量、數(shù)據(jù)來源以及各自的占比。算法中對問題類型進(jìn)行了歸類,如規(guī)則類、預(yù)測類、決策類等;算法類型則表示監(jiān)督/非監(jiān)督、強(qiáng)化學(xué)習(xí)等的機(jī)器學(xué)習(xí)算法類型。在此處列舉了兩個可選的內(nèi)容,包括具體算法,如KNN、LSTM等,以及算法結(jié)構(gòu)及參數(shù),如深度神經(jīng)網(wǎng)絡(luò)層數(shù)、每層節(jié)點(diǎn)數(shù)等。此兩項(xiàng)可選內(nèi)容對于網(wǎng)絡(luò)專家來說可能是更有益處的,可以更好地表達(dá)需求,但是對于普通用戶,并不具備表達(dá)此類需求的能力,因此作為可選內(nèi)容。目標(biāo)則是期望用例達(dá)到的目標(biāo)及訓(xùn)練的時長。開放和安全方面,對模型使用開放的范圍(如用戶組)、數(shù)據(jù)的安全等級及開放范圍進(jìn)行了規(guī)范。
目前AIUD的組成內(nèi)容研究還比較初步,不夠完備。隨著研究的深入,還有較大的優(yōu)化空間,尤其是對各類用例需求研究后的可選內(nèi)容,可以預(yù)見將十分豐富。此項(xiàng)工作后續(xù)也將是本文未來研究的一項(xiàng)重要內(nèi)容。
一般而言,高性能同時伴隨著高消耗,因此這里的四要素協(xié)同是指網(wǎng)絡(luò)側(cè)如何在更高性能和更少資源消耗之間進(jìn)行折中?下面用兩個具體的例子來說明針對網(wǎng)絡(luò)中的任務(wù),如何協(xié)同四要素資源,以及協(xié)同帶來的有益效果。
第一個例子是基站和UE進(jìn)行AI聯(lián)合推理任務(wù),一個大AI模型被拆分為兩部分,前半段推理任務(wù)在UE執(zhí)行,執(zhí)行完成后輸出中間output并通過空口上報給基站側(cè),基站將UE上報的中間output作為輸入,再執(zhí)行后半段推理任務(wù)。網(wǎng)絡(luò)側(cè)通過調(diào)整AI模型的切割點(diǎn),從而控制UE和基站分別執(zhí)行的神經(jīng)網(wǎng)絡(luò)規(guī)模,進(jìn)而控制UE和基站的計算量。圖12為AI聯(lián)合推理任務(wù)的分割點(diǎn)調(diào)整示意圖。
圖12 聯(lián)合推理任務(wù)的分割點(diǎn)調(diào)整
例如,當(dāng)UE電池電量不足時,網(wǎng)絡(luò)可將切割點(diǎn)往前調(diào)整,從而減少UE計算量及電池消耗。此外,網(wǎng)絡(luò)側(cè)也可以根據(jù)UE網(wǎng)絡(luò)信號的好壞來調(diào)整AI模型的切割點(diǎn),例如當(dāng)UE處于網(wǎng)絡(luò)邊緣時,由于數(shù)傳速率低,此時可將切割點(diǎn)調(diào)整為中間output數(shù)量少的位置,從而減少UE側(cè)上報量。
第二個例子是終端與基站協(xié)作進(jìn)行分布式AI模型訓(xùn)練,當(dāng)前,業(yè)界已提出較多分布式AI模型訓(xùn)練的技術(shù)框架,比如(分層)聯(lián)邦學(xué)習(xí)[23]、群學(xué)習(xí)[23]、多智能體學(xué)習(xí)[25]、基于模型分割的學(xué)習(xí)[26-27]等。在空口應(yīng)用這些訓(xùn)練框架,訓(xùn)練過程會產(chǎn)生大量中間計算結(jié)果,需頻繁占用空口無線資源進(jìn)行傳輸,訓(xùn)練節(jié)點(diǎn)數(shù)量、各訓(xùn)練節(jié)點(diǎn)的計算時延、傳輸?shù)臅r延和誤碼率情況會對訓(xùn)練結(jié)果產(chǎn)生影響。為了在保證模型收斂的同時,提高空口無線資源的利用率,引入效率更高的高階模型學(xué)習(xí)算法是一種值得考慮的思路[28-30]。由于不同階數(shù)(零階、一階隨機(jī)梯度下降、二階牛頓方法等)的模型學(xué)習(xí)算法在訓(xùn)練速度和資源開銷上各有優(yōu)劣勢,可以考慮根據(jù)無線信道狀態(tài)動態(tài)調(diào)整學(xué)習(xí)算法,即多種學(xué)習(xí)算法間的動態(tài)轉(zhuǎn)換機(jī)制,圖13展示了為引入這種動態(tài)轉(zhuǎn)換機(jī)制設(shè)計的功能交互。
圖13 多種學(xué)習(xí)算法動態(tài)轉(zhuǎn)換原理示意圖
上述新技術(shù)需要在空口引入針對AI連接的控制機(jī)制和數(shù)據(jù)傳輸協(xié)議,相應(yīng)的邏輯功能分別用Dtrain_C和Dtrain_U來表示。其中,Dtrain_C是負(fù)責(zé)控制終端與基站協(xié)作進(jìn)行AI模型訓(xùn)練的控制功能,該實(shí)體根據(jù)網(wǎng)絡(luò)變化,動態(tài)調(diào)整參與分布式訓(xùn)練終端采用的模型學(xué)習(xí)算法。Dtrain_U是負(fù)責(zé)終端與基站協(xié)作進(jìn)行AI模型訓(xùn)練的業(yè)務(wù)面功能實(shí)體,其包含有在基站與終端間傳輸模型參數(shù)、梯度或梯度范數(shù)等信息所需的專用協(xié)議棧。
上述示例僅描述了算法和連接的協(xié)同,例如通過調(diào)整AI模型的切割點(diǎn)來控制UE上報量,以及通過調(diào)整AI模型的訓(xùn)練算法來提高空口無線資源的利用率。更多的連接、計算、數(shù)據(jù)和算法之間的協(xié)同,有待于后續(xù)進(jìn)一步的研究。
本文針對6G智能普惠等新業(yè)務(wù)需求,提出一種任務(wù)為中心的網(wǎng)絡(luò)內(nèi)生AI架構(gòu),通過在無線通信系統(tǒng)中原生集成和融合四要素協(xié)同能力,并在網(wǎng)絡(luò)層面以任務(wù)的形式提供新業(yè)務(wù)服務(wù);通過給移動網(wǎng)絡(luò)帶來新的量綱(從連接服務(wù)的單量綱,到以任務(wù)的形式封裝和提供連接、計算、數(shù)據(jù)、算法的多量綱),保證計算類如感知、AI業(yè)務(wù)的SLA等,進(jìn)一步拓展6G網(wǎng)絡(luò)的應(yīng)用場景、充實(shí)無線網(wǎng)絡(luò)價值。6G應(yīng)在5G基礎(chǔ)上全面支持整個世界的數(shù)字化,并通過內(nèi)生AI的網(wǎng)絡(luò)架構(gòu)設(shè)計,實(shí)現(xiàn)智慧的泛在可得,全面賦能萬事萬物。為了實(shí)現(xiàn)“智能泛在”的愿景,本文認(rèn)為6G需要提供智能普惠的基礎(chǔ)服務(wù),關(guān)鍵是在網(wǎng)絡(luò)架構(gòu)層面設(shè)計相應(yīng)的原生能力,即6G架構(gòu)層面的原生智能能力。需要特別說明的是,本文中的多數(shù)技術(shù)方案和觀點(diǎn)是經(jīng)過6GANA組織的充分討論,最終達(dá)成的業(yè)界共識。
雖然業(yè)界已就6G原生網(wǎng)絡(luò)AI達(dá)成初步共識,但如何高效地支持和可標(biāo)準(zhǔn)化方面還有待于進(jìn)一步研究和討論,例如本文提出的QoAIS保障、AI用例自生成以及四要素如何高效協(xié)同將是未來深入研究的方向之一。