基于數(shù)據(jù)和知識驅動的低軌衛(wèi)星資源智能調度研究綜述

2024-01-12 04:50:16李宛靜李加洪劉昊鈞張更新

空間電子技術 2023年6期

李宛靜,李加洪,張晨,劉昊鈞,張更新

(1.南京郵電大學通信與信息工程學院,南京 210000;2.中國空間技術研究院西安分院,西安 710000)

0 引言

各通信領域權威標準化組織認為,引入衛(wèi)星通信網(wǎng)絡的空天地一體化網(wǎng)絡可以有效解決當前第五代移動通信系統(tǒng)(5th generation mobile communication technology, 5G)基站覆蓋不足的問題。同時,衛(wèi)星通信網(wǎng)絡可以很好地為全球空天地全域范圍內的用戶提供寬帶接入服務[1]。

與地球靜止軌道(geostationary earth orbit, GEO)衛(wèi)星和中地球軌道(medium earth orbit, MEO)衛(wèi)星相比,低軌(low earth orbit, LEO)衛(wèi)星具有低傳播時延、高時效性、低鏈路傳輸損耗等優(yōu)勢[2],但在低軌衛(wèi)星的發(fā)展過程中也面臨著如下挑戰(zhàn)。一方面,LEO衛(wèi)星的星上功率資源嚴重受限;另一方面,低軌衛(wèi)星的覆蓋區(qū)域不固定導致信道環(huán)境、用戶終端分布和業(yè)務需求情況不斷動態(tài)變化[3]。目前,大多數(shù)部署的衛(wèi)星通信系統(tǒng)在很大程度上仍依賴于人類的專業(yè)知識和人工干預,這將對衛(wèi)星通信系統(tǒng)的性能造成一系列影響。首先,人為參與系統(tǒng)控制活動會導致高運營支出和系統(tǒng)時延[4]。其次,快速變化的無線電環(huán)境需要自主適應機制,這是人為干預無法提供的。最后,衛(wèi)星通信服務于海量用例和場景將產(chǎn)生大量的數(shù)據(jù)。綜上,設計合理的資源調度策略以使衛(wèi)星能夠自主采取可靠的行動是有益且必要的。

為了合理利用和分配星上資源以滿足業(yè)務需求,研究人員從基于數(shù)學模型驅動的資源調度方法逐漸轉向數(shù)據(jù)驅動的資源調度方法。但上述方法存在精確度低、時效性差等問題,無法較好滿足衛(wèi)星通信低時延的要求。為了在滿足低軌衛(wèi)星通信低時延要求的同時充分發(fā)揮模型和數(shù)據(jù)驅動各自的優(yōu)勢,研究人員提出將基于理論模型和專家經(jīng)驗的領域知識與神經(jīng)網(wǎng)絡方法深度融合,設計數(shù)據(jù)和知識聯(lián)合驅動的資源調度方法[5]。

本文針對數(shù)據(jù)和知識聯(lián)合驅動的低軌衛(wèi)星智能資源調度進行綜述。首先,概述數(shù)據(jù)驅動和知識驅動方法并對其特點進行分析。其次,對不同的低軌衛(wèi)星資源調度策略進行綜述,分為傳統(tǒng)數(shù)學模型驅動的低軌衛(wèi)星資源調度方法、數(shù)據(jù)驅動的低軌衛(wèi)星資源調度方法以及未來數(shù)據(jù)和知識聯(lián)合驅動的資源調度方法。最后,對本文所提及的3種資源調度方法進行總結,并展望低軌衛(wèi)星資源調度方法的未來研究方向。

1 數(shù)據(jù)驅動和知識驅動的方法概述與特點分析

從本質上來看,數(shù)據(jù)驅動方法與知識驅動方法都源于對人類知識的總結和拓展,都是以一定的數(shù)學理論為基礎。雖然兩種方法都以數(shù)學理論為骨架,但仍然存在一定區(qū)別,數(shù)據(jù)驅動方法中經(jīng)驗模型的功能由樣本數(shù)據(jù)決定,而知識驅動方法中則由功能和需求的特點決定機理模型的形式[6]。本節(jié)先介紹數(shù)據(jù)驅動方法,其次對知識的定義和分類進行介紹,進一步介紹知識驅動方法,最后對知識融入的途徑進行介紹。

1.1 數(shù)據(jù)驅動方法

數(shù)據(jù)驅動指通過對數(shù)據(jù)的分析和實驗驗證等手段,以事實為依據(jù)來制定決策和解決問題。數(shù)據(jù)驅動強調以事實為依據(jù),根據(jù)事實進行決策。數(shù)據(jù)驅動的實現(xiàn)過程是通過移動互聯(lián)網(wǎng)或者其他的相關軟件為手段采集海量的數(shù)據(jù),將數(shù)據(jù)進行組織形成信息,之后對相關的信息進行整合和提煉,在數(shù)據(jù)的基礎上經(jīng)過訓練和擬合形成自動化的決策模型。因此,數(shù)據(jù)驅動的過程非常復雜,需要有數(shù)據(jù)和不斷的輸入,需要模型根據(jù)比對決策結果和現(xiàn)實數(shù)據(jù)把偏差信息反饋給機器學習,在其后不斷的機器學習迭代過程中進行自我完善,數(shù)據(jù)驅動的流程圖如圖1所示。

圖1 數(shù)據(jù)驅動流程圖Fig.1 Data-driven flowchart

根據(jù)模型分析所使用理論工具的不同,文獻[6]將數(shù)據(jù)驅動方法分為統(tǒng)計分析方法和人工智能方法。統(tǒng)計分析方法更關注于分析樣本數(shù)據(jù)或數(shù)據(jù)集的特性,而人工智能方法更關注于構建描述研究對象的近似模型。統(tǒng)計分析方法嚴格遵循數(shù)學推導,相比人工智能方法有更好的解釋性,并且統(tǒng)計分析方法的性能不那么依賴于樣本數(shù)據(jù)的質量和數(shù)量。人工智能方法雖然在可解釋性和樣本依賴性上略遜一籌,但它在發(fā)現(xiàn)輸入輸出數(shù)據(jù)間的非線性關系方面具有優(yōu)勢,并且可以在新的樣本數(shù)據(jù)產(chǎn)生時快速給出結果。

目前大多數(shù)關于數(shù)據(jù)驅動方法的研究都集中于人工智能方法,尤其是機器學習(machine learning, ML)。機器學習是人工智能的一個分支,通過利用從數(shù)據(jù)中獲得的經(jīng)驗和知識來進行計算、統(tǒng)計和預測。機器學習包括深度學習(deep learning, DL)和強化學習(reinforcement learning, RL)。深度學習允許模型在沒有明確編程的情況下根據(jù)大型數(shù)據(jù)集進行分類、預測或決策。三者與人工智能之間的關系如圖2所示[7]。此外,機器學習從訓練方法上可以分為監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習[8]。監(jiān)督學習從標記的訓練樣本中學習來解決分類或回歸問題,無監(jiān)督學習從未標記的數(shù)據(jù)中學習來實現(xiàn)聚類或數(shù)據(jù)降維,半監(jiān)督學習算法從不完整的訓練數(shù)據(jù)中開發(fā)數(shù)學模型,其中部分樣本輸入沒有標簽[9]?？梢詫W習和模擬人類的人工智能通常是由深度學習+強化學習實現(xiàn)的。

圖2 人工智能、機器學習、強化學習和深度學習關系圖Fig.2 Relationship graph of artificial intelligence, machine learning, reinforcement learning and deep learning

傳統(tǒng)數(shù)據(jù)驅動的機器學習模型如圖3所示[10]。設x,y,θ分別表示神經(jīng)網(wǎng)絡的特征、數(shù)據(jù)集的標簽和參數(shù)。對于輸入、輸出和參數(shù)的所有可能值的集合分別被稱為輸入空間X、輸出空間Y和參數(shù)空間Θ。數(shù)據(jù)驅動模型的任務是將數(shù)據(jù)集的實例從X映射到Y,同時在Θ中找到全局最優(yōu)解。然而,在數(shù)據(jù)驅動的機器學習網(wǎng)絡之間,X和Y的相關性難以捉摸,它不得不依靠龐大的數(shù)據(jù)集而不是數(shù)學模型進行優(yōu)化,這導致了網(wǎng)絡結構的高復雜性和高訓練成本。

圖3 數(shù)據(jù)驅動的機器學習模型Fig.3 Data-driven machine learning model

雖然數(shù)據(jù)驅動方法有自身的優(yōu)勢,但該方法存在嚴重的“黑盒”問題,無法考慮問題全局特征,同時嚴重依賴歷史數(shù)據(jù)[11],這制約了其在實際系統(tǒng)上的應用。此外,深度學習的可解釋性不足,這限制了其在無線通信系統(tǒng)等高可靠性場景中的應用。

1.2 知識的定義與分類

知識的定義為:(1)通過經(jīng)歷或教育獲得的專業(yè)知識和技能,對某一學科的理論或實踐理解;(2)在某一特定領域或總體上已知的知識、事實和信息;(3)通過對事實或情況的經(jīng)驗獲得的認識或熟悉程度。根據(jù)定義,知識可以分為隱性知識和顯性知識兩種。在知識管理領域,隱性知識的概念是指一種只有個人知道的知識,這種知識很難與組織的其他成員交流。易于交流的知識稱為顯性知識,顯性知識是已經(jīng)或能夠被表述、編纂和存儲在特定媒介中的知識[12]。

在網(wǎng)絡領域,文獻[5]重新對知識進行定義,即網(wǎng)絡知識是對用戶主體、業(yè)務需求的個性化特征、演變規(guī)律等的整體描述,是對網(wǎng)絡資源調度過程中的邏輯規(guī)則、理論算法等的總結。從知識來源角度出發(fā),文獻[13]將其分為3大類:相對專業(yè)化和形式化的科學知識、日常生活中的世界知識以及更直觀的專家知識,對于3類知識,具體描述如下。

1)科學知識:科學知識包括技術、工程和數(shù)學。這些知識通常是通過科學實驗進行形式化和明確驗證的。例如物理學的普遍定律,基因序列的生物分子描述或物質形成的過程。

2)世界知識:世界知識指的是幾乎所有人都知道的日常生活中的事實,因此也可以稱為一般知識。通常,它是直觀的并且可以通過人類對周圍世界的推理來隱含地驗證。因此,世界知識通常描述的是人類感知到的世界中出現(xiàn)的物體或概念之間的關系,例如鳥有羽毛而且會飛。此外,世界知識還包括語言學。

3)專家知識:專家知識是由特定專家掌握的一組知識。在專家的圈子里,它也可以被稱為常識,這類知識是非正式的,并且需要被形式化,例如人機界面。

為了滿足當前低軌衛(wèi)星資源調度的復雜性和精確性,從越來越多的研究中考慮將專家知識融入數(shù)據(jù)驅動的資源調度方法,以降低系統(tǒng)復雜度并提升時效性和可解釋性。

1.3 知識驅動方法

知識驅動方法借助已有的領域知識、專家知識等,分析研究對象的運行機制和原理,并建立數(shù)學模型來描述因果關系。一方面,知識驅動方法通過指定一系列邏輯規(guī)則以增強數(shù)據(jù)驅動方法的穩(wěn)健性和可解釋性,并降低訓練樣本大小、提升系統(tǒng)的學習性能;另一方面,通過知識的共享和遷移,來提升資源調度的決策速度[14]。

同樣地,根據(jù)所使用理論工具的不同,知識驅動方法可分為模式分析、概率模型和優(yōu)化模型等。模式分析方法注重狀態(tài)量和觀測量之間的關系,經(jīng)過大量場景驗證后形成模型或規(guī)則,但該方法存在主觀性且需要大量實驗時間來優(yōu)化和改進模型。概率模型方法側重于事件發(fā)生的可能性即概率,根據(jù)假設的特定條件或參數(shù),結合數(shù)據(jù)來形成模型的參數(shù)與形式。概率模型方法也因此易于和數(shù)據(jù)驅動方法結合。優(yōu)化模型方法通過算法求解帶約束條件目標的最優(yōu)解或可行解,雖然建模過程簡單,但求解過程相對復雜。在實際應用中,3種方法相輔相成,需要結合實際需求選擇合適的方法[6]。

考慮到數(shù)據(jù)驅動機器學習的缺點,文獻[10]提出了知識驅動機器學習(knowledge-driven machine learning,KDML)模型,該模型旨在利用領域知識簡化ML網(wǎng)絡結構,降低其訓練成本,提高其可解釋性。雖然KDML是建立在數(shù)據(jù)驅動ML方法基礎上的,但它更強調領域知識的提取和開發(fā)。文獻[15]將無線領域知識定義為對各種無線通信和無線網(wǎng)絡中涉及的所有問題的描述、理解和認知的總稱。換句話說,無線領域知識包括對無線用戶、傳輸、系統(tǒng)、網(wǎng)絡、業(yè)務等的描述、理解和認知。在無線領域知識定義的基礎上,從無線領域知識的特征變量和數(shù)據(jù)模型出發(fā),進行無線領域知識的數(shù)據(jù)挖掘。

KDML的基本模型如圖4所示[10]。在數(shù)據(jù)驅動的ML中,將X映射到Y是導致神經(jīng)網(wǎng)絡高度復雜性的關鍵因素。相比之下,KDML的目的是通過在X輸入后續(xù)ML模塊之前降低X的維數(shù)來簡化整個學習網(wǎng)絡。在機器學習中,改變輸入數(shù)據(jù)空間的常用方法是特征提取和特征選擇,這兩者都可以實現(xiàn)空間轉換和降維。

圖4 知識驅動的機器學習模型Fig.4 Knowledge-driven machine learning model

KDML最重要的特點是利用領域知識來重建學習任務,并使學習模塊的輸入空間與其輸出空間保持一致。神經(jīng)網(wǎng)絡的輸入特征數(shù)量會明顯減少,訓練成本也會相應降低。此外,知識模塊也可以直接給出學習問題的近似解。因此,即使學習模塊失敗了,KDML模型仍然能夠輸出近似解。同時,KDML模型在領域知識和機器學習之間具有清晰的交互機制,它將前者的輸出作為后者的輸入,使得KDML模型具有更高的可靠性和可解釋性。

目前,知識驅動方法的應用領域越來越廣泛,下一小節(jié)將通過分析知識融入的途徑來分析數(shù)據(jù)和知識聯(lián)合驅動資源調度方法的實現(xiàn)形式。

1.4 知識融入的途徑

如上所述,現(xiàn)有使用ML的資源調度方法大多忽略了領域知識的固有好處。隨著越來越多的學者開始研究數(shù)據(jù)和知識聯(lián)合驅動的資源調度方法,目前關于如何將知識引入數(shù)據(jù)驅動方法的研究有3種研究類型。

(1)利用現(xiàn)有數(shù)據(jù)中的知識并將其應用于特定的ML

文獻[16]考慮到監(jiān)督學習的關鍵問題之一是訓練集大小的不足,利用可能在該領域可用的先驗知識或可以從原型示例中學習到的信息來解決泛化能力不足。通過創(chuàng)建虛擬示例來討論使用先驗知識的概念,從而擴大有效訓練集的大小。在某些情況下,這個想法在數(shù)學上等同于將先驗知識作為正則化器,這表明該策略是動機良好的。

(2)將知識嵌入機器學習過程

文獻[17]利用正則化理論作為知識來解決ML的過擬合問題,其中ML的一些學習參數(shù)被限制在一定的范圍內。文獻[18]進一步提供了將約束嵌入正則化框架的充分條件,這也使得機器學習算法在不同的數(shù)據(jù)集上表現(xiàn)更好。

(3)將成熟的傳統(tǒng)算法和ML方法的知識結合來解決實際問題

文獻[19]開發(fā)了一種知識輔助深度強化學習算法來設計5G蜂窩網(wǎng)絡中的無線調度器。該文獻提出了一個理論深度強化學習(deep reinforcement learning, DRL)框架,其中使用無線通信的理論模型來制定DRL中的馬爾可夫決策過程。為了縮短收斂時間并提高每個用戶的用戶服務質量(quality of service, QoS),設計了一個知識輔助的深度確定性策略梯度(knowledge-assisted deep deterministic policy gradient, K-DDPG),該DDPG采用了調度器設計問題中的專家知識。仿真結果表明,該方法顯著縮短了DDPG的收斂時間,實現(xiàn)了比現(xiàn)有調度器更好的QoS。

綜上,為了更好地理解知識的融入方式,本文從知識分類出發(fā),將不同種類知識的表征形式和融入途徑歸納為如圖5所示[5]。

步驟2 對和進行脈沖壓縮，計算和脈壓后峰值位置x(n)和xd(n)，相應的位置偏移量Δn=x(n)-xd(n)，并對定標信號進行補償。

圖5 知識的分類、表達形式及融入途徑Fig.5 Classification, expression and integration of knowledge

2 低軌衛(wèi)星資源調度方法概述

傳統(tǒng)的低軌衛(wèi)星資源調度方法分為基于優(yōu)化理論等數(shù)學模型驅動的調度方法和基于深度強化學習等數(shù)據(jù)驅動的調度方法?；跀?shù)學模型驅動的研究方法在前計算機時代有其合理性和可解釋性,但是在計算機快速發(fā)展的今天,模型驅動的方法就存在諸多問題,如算法準確度低、精準性差等。數(shù)據(jù)的增加和計算機的發(fā)展帶動了數(shù)據(jù)驅動的資源調度方法迅速發(fā)展,其優(yōu)勢在于可以用大量的離線訓練換取在線計算時間,但存在可解釋性差、泛化能力差等問題。學術界開始考慮融合各個方法的優(yōu)勢,將數(shù)學模型、深度強化學習和現(xiàn)有的知識融合,以達到在訓練樣本有限的情況下提升訓練速度并增強可解釋性和泛化性。由此誕生了數(shù)據(jù)和知識聯(lián)合的資源調度方法。本節(jié)將從3個方面介紹低軌衛(wèi)星資源調度方法,分別是傳統(tǒng)數(shù)學模型驅動的低軌衛(wèi)星資源調度方法、傳統(tǒng)數(shù)據(jù)驅動的低軌衛(wèi)星資源調度方法以及未來數(shù)據(jù)和知識聯(lián)合驅動的調度方法。為了更加清晰直觀地展示本文所調研的內容,構建低軌衛(wèi)星資源調度策略的知識圖譜如圖6所示。

圖6 低軌衛(wèi)星資源調度方法知識圖譜Fig.6 Knowledge graph of resource scheduling methods for LEO satellite

2.1 傳統(tǒng)數(shù)學模型驅動的低軌衛(wèi)星資源調度方法

由于地面用戶的時空分布不均,導致各波位間的業(yè)務需求不平衡,為了滿足日益增長的用戶業(yè)務需求,早期的低軌衛(wèi)星資源調度方法大多利用數(shù)學模型驅動方法來解決資源分配問題。傳統(tǒng)數(shù)學模型驅動的低軌衛(wèi)星資源調度方法包括但不限于凸優(yōu)化算法、迭代算法、啟發(fā)式算法等。該類方法的優(yōu)點是可解釋性強,在衛(wèi)星系統(tǒng)中對系統(tǒng)性能的提升也較為明顯,可以很快解決業(yè)務和資源不匹配的問題。

文獻[20]利用遺傳算法對一個實際系統(tǒng)的跳波束時隙規(guī)劃進行了優(yōu)化。結果表明,與傳統(tǒng)系統(tǒng)相比,該系統(tǒng)的容量增益可以達到30%,雖然算法有一定的優(yōu)勢,但存在算法復雜度高、時效性低、不能適應業(yè)務動態(tài)變化場景等問題。文獻[21]假設同信道干擾可以忽略不計,利用凸優(yōu)化方法來解決資源分配問題。文獻[22]針對業(yè)務請求分布不均勻的情況,研究了基于遺傳算法的動態(tài)波束跳變方法,以提高資源利用率。遺傳算法在尋找最優(yōu)解的過程中自適應調整搜索空間,是一種能夠獲得全局最優(yōu)解的高效并行方法。在此基礎上,該文獻還采用了一種基于時分復用的多動作選擇方法,有效地降低了算法的復雜度。仿真結果表明,該方法能夠實現(xiàn)滿足用戶需求的智能跳波束,有效提高系統(tǒng)性能。文獻[23]通過聯(lián)合功率控制和波束形成,提出了一種迭代算法來獲得優(yōu)化的功率分配策略。結果表明,聯(lián)合波束形成方案優(yōu)于固定波束形成方案,且可以保障系統(tǒng)安全性。文獻[24]研究了衛(wèi)星系統(tǒng)前向下行鏈路中資源分配的容量優(yōu)化算法并提出了兩種啟發(fā)式算法,根據(jù)流量請求來分配容量資源。結果表明,所提算法在可用容量方面比傳統(tǒng)系統(tǒng)有一定的提升。

綜上所述,傳統(tǒng)數(shù)學模型驅動的低軌衛(wèi)星資源調度方法在解決初期業(yè)務量和資源不匹配方面有一定的優(yōu)勢,它的模型依據(jù)通常是有一定研究基礎的數(shù)學理論等。但該方法存在復雜度高、建模時間長、成本昂貴等實際應用問題。隨著計算機領域的發(fā)展,研究人員逐漸從數(shù)學模型驅動轉向數(shù)據(jù)驅動,以尋求更為簡單、高效的資源調度方案。

2.2 數(shù)據(jù)驅動的低軌衛(wèi)星資源調度方法

傳統(tǒng)數(shù)學模型驅動的資源調度方法通常是輸入數(shù)據(jù)后根據(jù)一定的模型來得到相應的結果,而數(shù)據(jù)驅動則會根據(jù)訓練過程中的變化相應對原始模型做出改變和優(yōu)化。二者一個非常明顯的區(qū)別在于,模型驅動不會改變原始模型,但數(shù)據(jù)驅動會改變模型。數(shù)據(jù)驅動需要大量數(shù)據(jù),這就需要系統(tǒng)不斷采集和輸入以實現(xiàn)較理想的結果,然后需要模型根據(jù)比對決策結果和現(xiàn)實數(shù)據(jù)把偏差信息反饋給機器學習,在之后不斷的機器學習迭代過程中自我完善,因此數(shù)據(jù)驅動還存在反饋過程。隨著低軌衛(wèi)星的不斷發(fā)展和研究學者們的不懈努力,已有不少數(shù)據(jù)驅動的低軌衛(wèi)星資源分配方法實現(xiàn)應用。數(shù)據(jù)驅動的低軌衛(wèi)星資源調度方法系統(tǒng)架構如圖7所示。衛(wèi)星建模為智能體,地面用戶建模為環(huán)境。衛(wèi)星寬波束收集地面業(yè)務請求發(fā)送至星上緩沖區(qū)等待數(shù)據(jù)處理,監(jiān)控器收集信道狀態(tài)、波束分配功率等信息并發(fā)送至控制器?？刂破魍ㄟ^數(shù)據(jù)驅動的資源調度算法訓練得到功率資源分配結果并通過分配器進行功率分配和波束調度。

圖7 數(shù)據(jù)驅動的低軌衛(wèi)星資源調度方法系統(tǒng)架構Fig.7 System architecture of data-driven resource scheduling method in LEO satellite

文獻[25]提出了一種基于深度強化學習的多目標優(yōu)化(multi-objective optimization, MOP)算法。所提算法基于DRL和MOP技術,對動態(tài)變化的系統(tǒng)環(huán)境和用戶到達模型建模,以歸一化處理后的頻譜效率、能量效率和業(yè)務滿意度指數(shù)的加權和作為優(yōu)化目標,實現(xiàn)了系統(tǒng)和用戶累計性能的優(yōu)化。仿真對比表明,所提算法可以更好地解決面向多波束衛(wèi)星系統(tǒng)的多目標優(yōu)化問題,系統(tǒng)性能和用戶滿意度優(yōu)化結果較好,且收斂快、復雜度低。文獻[26]提出了一種基于DRL的動態(tài)波束圖案和帶寬分配策略,該方案可靈活地利用時間、空間和頻率3個自由度?？紤]到帶寬和波束圖案的聯(lián)合分配會導致動作空間溢出,文中提出了一種協(xié)同多智能體深度強化學習(multi-agents deep reinforcement learning, MADRL)的框架,其中每個智能體只負責一路波束的照明分配或帶寬分配。智能體可以通過共享成果來學習協(xié)作以實現(xiàn)通信目標,即最大吞吐量和最小單位間時延公平性。仿真結果表明,離線訓練的MADRL模型能夠實現(xiàn)實時的波束圖案和帶寬分配,以匹配非均勻和時變的流量請求。此外,當流量需求增加時,所提模型具有良好的泛化能力。

綜上,基于數(shù)據(jù)驅動的低軌衛(wèi)星資源調度方法多數(shù)采用前文所述的人工智能方法,具體來說可以是強化學習、深度學習或者深度強化學習等方法。其中深度強化學習通過結合RL和DL,完成系統(tǒng)特征的學習并智能地執(zhí)行資源分配策略[27]。系統(tǒng)利用RL不斷與環(huán)境進行交互獲取樣本,再利用DL提取樣本特征,完成當前場景到資源分配策略的映射[28]。雖然當前的數(shù)據(jù)驅動方法對低軌衛(wèi)星系統(tǒng)性能已有大幅提升,但仍需對訓練時間、樣本空間大小等進行優(yōu)化,這就需要研究數(shù)據(jù)和知識聯(lián)合驅動的資源調度方法。

2.3 未來數(shù)據(jù)和知識聯(lián)合驅動的資源調度方法

和數(shù)據(jù)驅動不同的是,數(shù)據(jù)和知識聯(lián)合驅動的資源調度方法在訓練過程中融合了知識。這些知識包括上文提及的專家知識、領域知識等。通過知識的融入可以實現(xiàn)減少訓練周期、減少訓練參數(shù)、改進算法收斂時間等目標。文獻[29]提出了一種帶保護機制的知識輔助強化學習框架,如圖8所示。智能體接收到初始狀態(tài)后,根據(jù)策略生成動作,并將其傳遞給保護器。然后保護器通過求解優(yōu)化問題,從融入了專家知識、領域知識等信息的分析模型中得到標準動作,并通過標準動作對智能體生成的動作進行調整產(chǎn)生新的動作,稱為執(zhí)行動作。執(zhí)行動作是在環(huán)境中實際執(zhí)行的動作。在確認執(zhí)行動作安全后,執(zhí)行動作將被同時發(fā)送給環(huán)境和分析模型。智能體從環(huán)境中收集獎勵,同時從分析模型中收集指導獎勵,這兩種獎勵結合起來產(chǎn)生更新獎勵,策略使用更新獎勵來更新自己。在存儲數(shù)據(jù)并更新智能體策略之后,根據(jù)下一個狀態(tài)生成下一個智能體動作。如果分析模型認為執(zhí)行動作是不安全的,且執(zhí)行動作未通過安全確認,則保護器將拒絕執(zhí)行動作,并將其發(fā)送給智能體?；谠摽蚣?本文從知識是否在系統(tǒng)中遷移出發(fā),將數(shù)據(jù)和知識聯(lián)合驅動的資源調度方法分為基于本地知識的資源調度方法和基于知識共享和遷移的資源調度方法。

圖8 知識輔助的強化學習系統(tǒng)架構Fig.8 Architecture of knowledge-assisted reinforcement learning system

2.3.1 基于本地知識的資源調度方法

基于本地知識的資源調度方法,是從本地網(wǎng)絡訓練過程中學習到的知識出發(fā)來指導資源調度,知識在系統(tǒng)中沒有過多的遷移或共享。本文按照知識融入的途徑來綜述現(xiàn)有的低軌衛(wèi)星資源調度方法。

將知識嵌入機器學習過程的資源調度方法會對網(wǎng)絡結構、訓練參數(shù)等產(chǎn)生一定的影響。文獻[30] 從保證各波束間業(yè)務公平性、最小化實時業(yè)務傳輸延遲、最大化非實時業(yè)務傳輸吞吐量等多目標出發(fā),研究了DVB-S2X衛(wèi)星跳波束的最優(yōu)策略。文獻采用無模型多目標深度強化學習方法,通過與環(huán)境交互學習最優(yōu)策略。為了解決動作維度災難問題,將領域知識融入學習過程提出了一種基于雙環(huán)學習(double-loop learning, DLL)的多動作選擇方法。并利用深度神經(jīng)網(wǎng)絡對其多維狀態(tài)進行了重新表述和獲取。結果表明,該方法能夠同時實現(xiàn)多個目標,并能根據(jù)用戶需求和信道條件智能地分配資源。然而,該方法只考慮了跳波束的情況,并假設每個波束共享整個帶寬,這將導致波束之間產(chǎn)生嚴重的共信道干擾。同時,由于視衛(wèi)星為單智能體,因此動作空間會隨著波束的增加而呈指數(shù)增長。

將成熟的傳統(tǒng)算法和ML方法的知識結合來解決實際問題的資源調度方法,以ML的相關知識為基礎,融合其他算法以提升系統(tǒng)性能。文獻[31]以傳統(tǒng)強化學習算法為基礎,結合了深度學習提取信道容量、用戶業(yè)務量、時延等特征的能力與強化學習進行波束調度決策的特點,提出了基于深度強化學習的動態(tài)波束調度算法。仿真表明,結合傳統(tǒng)算法和ML知識的算法可以降低系統(tǒng)時延并提高系統(tǒng)吞吐量。

綜上所述,基于本地知識的資源調度方法相比數(shù)據(jù)驅動方法對低軌衛(wèi)星系統(tǒng)的性能有一定的提升,在一定程度上降低訓練成本并減少動作空間大小,加快了訓練的收斂速度。但存在對實際應用中影響因素考慮不夠全面的問題。

2.3.2 基于知識共享和遷移的資源調度方法

基于知識共享和遷移的資源調度方法可以更好地在不同網(wǎng)絡之間實現(xiàn)信息和策略更新,因此也更適用于現(xiàn)實系統(tǒng)。它可以很好地適應業(yè)務快速變化、服務需求多樣性的場景,以滿足現(xiàn)代通信的要求。本文將這部分分為基于無監(jiān)督強化學習的遷移方法和基于有監(jiān)督深度學習的遷移方法。

無監(jiān)督強化學習側重讓算法自行發(fā)現(xiàn)數(shù)據(jù)集中的規(guī)律和模式,基于無監(jiān)督強化學習的知識遷移資源調度方法通常先訓練模型再對數(shù)據(jù)進行遷移。文獻[32]提出并評估了低軌衛(wèi)星的在線決策算法。文中提出了兩種基于RL的解決方案,以克服傳統(tǒng)動態(tài)編程(dynamic programming, DP)的計算負擔。第一種方法是基于Actor-Critic方法并結合時序差分(temporal-difference, TD)學習的方法。這個方法中有兩個角色,第一個是Actor角色,在一些資料中也稱為“演員角色”。這個角色是一個相對獨立的模型,可以把它理解成一個神經(jīng)網(wǎng)絡,任務就是學動作。優(yōu)化它的過程和優(yōu)化一個普通DQN網(wǎng)絡沒有太大的區(qū)別。另一個是Critic角色,也稱作“評論家角色”。它負責評估Actor的表現(xiàn),并指導Actor下一階段的動作,這個角色也是一個獨立的模型。在這種思維的指導下,估值學習也是一個獨立的、可優(yōu)化的任務,需要通過一個模型進行擬合。動作輸出也是一個模型,通過一個模型進行擬合。這種方法中,兩個角色(網(wǎng)絡)互相交互并訓練模型,最后達到一個較好的效果;第二種方法是基于Critic-only的方法,稱為樂觀時序差分學習方法。該算法在存儲需求、計算復雜性和計算時間等方面都對系統(tǒng)性能有一定提高?？傮w結果表明,RL框架可以很好地提升低軌衛(wèi)星系統(tǒng)性能。

有監(jiān)督深度學習相比無監(jiān)督強化學習有一個目標值,訓練過程中不停地和目標值進行比對以改進模型?；谟斜O(jiān)督深度神經(jīng)網(wǎng)絡的遷移方法通常是以領域知識或歷史數(shù)據(jù)為基礎,構建資源調度的神經(jīng)網(wǎng)絡模型或初始化模型參數(shù)[5]。文獻[28]提出一種基于遷移深度強化學習(transfer deep reinforcement learning, TDRL)的低軌衛(wèi)星跳波束資源分配方案。采用DRL算法,將衛(wèi)星數(shù)據(jù)包緩存量、信道狀態(tài)重構為狀態(tài)空間,執(zhí)行小區(qū)的波束調度、功率分配決策。根據(jù)小區(qū)數(shù)據(jù)包的積累量定義獎勵函數(shù),使LEO資源分配過程更加自動化和智能化。在新的低軌衛(wèi)星接入網(wǎng)絡時需要重新獲取樣本數(shù)據(jù)并再次訓練模型,因此為了降低模型的訓練成本,使模型更快速地適應LEO動態(tài)變化的環(huán)境,文獻提出將遷移學習(transfer learning, TL)和DRL算法結合起來。利用TL將模型訓練得到的知識遷移至新的模型以引導新模型更快地收斂而非從零開始。結果表明,TDRL算法在保證用戶服務質量的同時可以提升系統(tǒng)吞吐量并最小化包平均時延。

綜上所述,基于知識共享和遷移的資源調度方法讓知識在不同網(wǎng)絡中實現(xiàn)共享,可以很好地降低新接入衛(wèi)星的模型訓練收斂時間,同時仍能提升系統(tǒng)性能。在實際中比基于本地知識的資源調度方法有更好的應用前景。但現(xiàn)有研究沒有考慮到衛(wèi)星網(wǎng)絡中多種知識的融合和利用。

3 結論

本文針對數(shù)據(jù)和知識驅動的低軌衛(wèi)星資源智能調度研究進行了綜述。首先概述數(shù)據(jù)驅動方法和知識驅動方法并分析其特點,其次對低軌衛(wèi)星資源調度方法進行綜述。傳統(tǒng)數(shù)學模型驅動的方法雖然可解釋性強,但由于存在復雜度高、求解困難等問題,已經(jīng)逐漸被數(shù)據(jù)驅動方法取代。數(shù)據(jù)驅動方法大大降低了求解復雜度,但為了得到較好的訓練結果往往需要大量樣本數(shù)據(jù),且訓練時間長、可解釋性差、泛化性差。由此,研究學者考慮采用知識和數(shù)據(jù)聯(lián)合驅動的調度方法來提升系統(tǒng)的穩(wěn)定性。在未來的研究中,更應注意以下幾個方面的突破:(1)現(xiàn)有數(shù)據(jù)和知識聯(lián)合驅動資源調度方法中融合的知識相對單一,如何在保證算法低復雜度的基礎上實現(xiàn)多種知識融合;(2)資源調度方法的設計過程離不開跳波束圖案設計,如何在波束成形、網(wǎng)絡拓撲等層次上設計更加靈活的有效載荷;(3)面對未來業(yè)務種類更加多樣、應用場景更加豐富多元的情況,如何將不同領域和場景的知識提取并融入低軌衛(wèi)星通信系統(tǒng)。綜上,本文總結了低軌衛(wèi)星資源智能調度方法并為后續(xù)研究奠定基礎。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡