摘 要:文章提出一種基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度模型,在聚合場景中將深度學(xué)習(xí)技術(shù)應(yīng)用于流量管理,以解決多路徑環(huán)境下的數(shù)據(jù)包調(diào)度問題。文章使用了一個(gè)多路徑快速UDP網(wǎng)絡(luò)連接協(xié)議(MPQUIC)來實(shí)現(xiàn)多路徑場景中的路徑選擇,并訓(xùn)練了一個(gè)代理人(Agent)來改進(jìn)最優(yōu)選擇路徑的算法,展示了將深度Q網(wǎng)絡(luò)代理(DQN Agent)應(yīng)用于數(shù)據(jù)流量管理問題的優(yōu)勢。實(shí)驗(yàn)證明了在實(shí)時(shí)環(huán)境中使用DQN Agent來提高包調(diào)度器性能的可行性,以及使用該技術(shù)對新的5G網(wǎng)絡(luò)進(jìn)行優(yōu)化的潛力。實(shí)驗(yàn)結(jié)果表明:基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度模型能夠自適應(yīng)地調(diào)整路徑選擇策略,從而提高網(wǎng)絡(luò)的穩(wěn)定性和可靠性。改進(jìn)的模型不僅具有理論價(jià)值,還為實(shí)際應(yīng)用提供了有益的參考和借鑒。
關(guān)鍵詞:5G網(wǎng)絡(luò);多路徑;分組調(diào)度;深度強(qiáng)化學(xué)習(xí);QUIC;MPTCP
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A
*基金項(xiàng)目:甘肅省基礎(chǔ)研究計(jì)劃-軟科學(xué)專項(xiàng)“‘強(qiáng)省會(huì)戰(zhàn)略下推進(jìn)‘四型機(jī)場建設(shè)的實(shí)施路徑和策略研究—以蘭州中川國際機(jī)場為例”(22JR4ZA108)。
作者簡介:趙靜(1981-),女,碩士,講師,主要研究方向:人工智能技術(shù)。
0 引言
隨著人工智能技術(shù)的不斷發(fā)展,深度強(qiáng)化學(xué)習(xí)作為一種新興的學(xué)習(xí)范式,正在被廣泛應(yīng)用于各個(gè)領(lǐng)域。在傳統(tǒng)的調(diào)度問題中,如任務(wù)調(diào)度、生產(chǎn)調(diào)度等,采用深度強(qiáng)化學(xué)習(xí)進(jìn)行多路徑調(diào)度優(yōu)化已成為研究熱點(diǎn)。然而,在實(shí)際應(yīng)用中,仍然存在著許多問題和挑戰(zhàn),如路徑選擇、任務(wù)分配、資源利用率等方面的優(yōu)化。文章旨在基于深度強(qiáng)化學(xué)習(xí),設(shè)計(jì)并構(gòu)建一種多路徑調(diào)度模型,以解決傳統(tǒng)調(diào)度問題中存在的優(yōu)化難題,提高路徑選擇、任務(wù)分配和資源利用率的效率和準(zhǔn)確性。通過對多路徑調(diào)度模型進(jìn)行深入研究和實(shí)驗(yàn)驗(yàn)證,探索深度強(qiáng)化學(xué)習(xí)在該領(lǐng)域的應(yīng)用前景,提高多路徑調(diào)度問題的解決效率和質(zhì)量。5G 架構(gòu)的關(guān)鍵概念之一是網(wǎng)絡(luò)接入(Access Networks,AN)的合并。5G系統(tǒng)架構(gòu)[1]定義了一個(gè)具有公共接口AN-CN的融合核心網(wǎng)(CN),它集成了第三代合作伙伴計(jì)劃(3GPP)和非3GPP網(wǎng)絡(luò),如Wi-Fi或固定接入網(wǎng),在這些場景中可以同時(shí)使用多個(gè)網(wǎng)絡(luò)接入[2]。通過多訪問架構(gòu),可以定義新的應(yīng)用場景,并根據(jù)訪問的用途進(jìn)行分類:(1)聚合應(yīng)用,它以終端用戶只感知一個(gè)接入的方式聚合接入網(wǎng)絡(luò),具有底層接入(如聚合帶寬,延遲等)的聚合特性;(2)彈性應(yīng)用,它只使用一個(gè)網(wǎng)絡(luò)接入,并使用其余的網(wǎng)絡(luò)接入進(jìn)行冗余。彈性應(yīng)用的一個(gè)例子是Apple Siri服務(wù)[3],它默認(rèn)使用Wi-Fi網(wǎng)絡(luò)接入,但通過移動(dòng)網(wǎng)絡(luò)接入打開會(huì)話以進(jìn)行備份。
文章采用深度強(qiáng)化學(xué)習(xí)算法,考慮任務(wù)調(diào)度、路徑選擇、資源利用率等因素,構(gòu)建多路徑調(diào)度模型。首先,將對傳統(tǒng)的調(diào)度問題進(jìn)行深入分析,明確問題的關(guān)鍵點(diǎn)和難點(diǎn);其次,設(shè)計(jì)出基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度模型;最后,在模型構(gòu)建完成后,將進(jìn)行大量的仿真實(shí)驗(yàn)和案例分析,以驗(yàn)證模型的有效性和優(yōu)越性。文章的研究工作主要集中在聚合場景中,特別是符合寬帶論壇(BBF)規(guī)范的架構(gòu)。主要關(guān)注L4多路徑網(wǎng)絡(luò),其主要特點(diǎn)是使用多路徑傳輸協(xié)議,通過多條路徑來控制流量。基于前述BBF規(guī)范,根據(jù)策略、數(shù)據(jù)包流量類別和每個(gè)可用訪問路徑的性能,將流量分布在不同的路徑上。
根據(jù)性能選擇最佳路徑通常稱為分組調(diào)度(Packet Scheduling)。大多數(shù)多路徑協(xié)議的實(shí)現(xiàn)都使用平滑往返時(shí)間(Smoothed Round-Trip Time,SRTT)和擁塞窗口作為表征訪問路徑性能的參數(shù)。尤其是在擁塞窗口不滿的情況下,選擇SRTT較低的路徑對數(shù)據(jù)包進(jìn)行調(diào)度,以實(shí)現(xiàn)多路徑傳輸控制協(xié)議(MPTCP)[4]。理論上講,在明確網(wǎng)絡(luò)參數(shù)的前提下,可以建立一個(gè)提供最優(yōu)性能的調(diào)度器。但在實(shí)際應(yīng)用中,網(wǎng)絡(luò)訪問的延遲會(huì)隨著時(shí)間而變化,特別是在移動(dòng)網(wǎng)絡(luò)中,帶寬也會(huì)隨著并發(fā)連接數(shù)的變化而變化。通過引入其他參數(shù)和更復(fù)雜的算法,研究認(rèn)為可以通過預(yù)測訪問的演化來改進(jìn)分組調(diào)度。
在強(qiáng)化學(xué)習(xí)領(lǐng)域,深度學(xué)習(xí)系統(tǒng)廣泛應(yīng)用于許多Atari視頻游戲,提出利用機(jī)器學(xué)習(xí)技術(shù)對Packet Schedule算法進(jìn)行改進(jìn),并將該方法應(yīng)用于深度強(qiáng)化學(xué)習(xí)代理作為數(shù)據(jù)包調(diào)度器,通過與測試環(huán)境的交互來查看代理人(Agent)如何學(xué)習(xí),以得到分發(fā)數(shù)據(jù)包的最佳算法。結(jié)果表明,在某些場景中,深度強(qiáng)化學(xué)習(xí)方法給出了最優(yōu)的結(jié)果。因此,文中技術(shù)可以用于改進(jìn)大多數(shù)多路徑實(shí)現(xiàn)中使用的默認(rèn)包調(diào)度器。
1 研究背景及相關(guān)研究綜述
隨著互聯(lián)網(wǎng)的飛速發(fā)展和大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)流量呈現(xiàn)出爆炸式增長的態(tài)勢。傳統(tǒng)的單路徑傳輸方式已經(jīng)難以滿足日益增長的網(wǎng)絡(luò)需求,多路徑傳輸因其能夠充分利用網(wǎng)絡(luò)資源、提高傳輸效率而備受關(guān)注。然而,多路徑調(diào)度問題涉及復(fù)雜的決策過程,傳統(tǒng)的優(yōu)化方法難以應(yīng)對其動(dòng)態(tài)性和不確定性。因此,文章提出利用深度強(qiáng)化學(xué)習(xí)技術(shù)來解決多路徑調(diào)度問題,以期實(shí)現(xiàn)更高效的網(wǎng)絡(luò)傳輸。
1.1 相關(guān)概念
1.1.1 深度強(qiáng)化學(xué)習(xí)
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是一種結(jié)合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的技術(shù),通過深度神經(jīng)網(wǎng)絡(luò)來逼近強(qiáng)化學(xué)習(xí)中的值函數(shù)或策略函數(shù),從而處理更加復(fù)雜和大規(guī)模的問題。
1.1.2 多路徑調(diào)度
多路徑調(diào)度(Multi-path Scheduling)指在網(wǎng)絡(luò)傳輸中,根據(jù)一定的策略將數(shù)據(jù)流分配到不同的路徑上進(jìn)行傳輸,以充分利用網(wǎng)絡(luò)資源,提高傳輸效率。
1.2 已有研究分類
1.2.1 基于傳統(tǒng)優(yōu)化算法的研究
這類研究主要利用數(shù)學(xué)優(yōu)化方法,如線性規(guī)劃、整數(shù)規(guī)劃等,來解決多路徑調(diào)度問題。雖然這些方法在理論上有較好的性能保證,但在實(shí)際應(yīng)用中,由于問題的復(fù)雜性和動(dòng)態(tài)性,往往難以獲得理想的效果。
1.2.2 基于啟發(fā)式算法的研究
啟發(fā)式算法通過模仿人類決策過程或借鑒自然界中的某些現(xiàn)象來進(jìn)行路徑選擇和調(diào)度。這類方法通常具有較好的實(shí)時(shí)性和適應(yīng)性,但在處理大規(guī)模復(fù)雜問題時(shí),其性能往往不穩(wěn)定。
1.2.3 基于深度強(qiáng)化學(xué)習(xí)的研究
近年來,隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展,越來越多的研究開始嘗試?yán)肈RL來解決多路徑調(diào)度問題。這類方法能夠自動(dòng)學(xué)習(xí)和優(yōu)化調(diào)度策略,適應(yīng)網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)變化,具有較高的潛力和應(yīng)用價(jià)值。
傳統(tǒng)優(yōu)化算法雖然理論性強(qiáng),但在實(shí)際應(yīng)用中難以處理復(fù)雜的動(dòng)態(tài)問題;啟發(fā)式算法雖然實(shí)時(shí)性好,但性能不穩(wěn)定;而深度強(qiáng)化學(xué)習(xí)則能夠結(jié)合深度學(xué)習(xí)的表征學(xué)習(xí)能力和強(qiáng)化學(xué)習(xí)的決策能力,有效應(yīng)對多路徑調(diào)度問題的復(fù)雜性和動(dòng)態(tài)性。然而,目前基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度研究仍處于探索階段,面臨著諸多挑戰(zhàn),如模型設(shè)計(jì)、訓(xùn)練效率、穩(wěn)定性等問題。
綜上所述,基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度模型研究具有重要的理論價(jià)值和實(shí)踐意義。文章旨在探索更加高效的深度強(qiáng)化學(xué)習(xí)算法,以解決多路徑調(diào)度問題中的關(guān)鍵挑戰(zhàn)。具體研究問題包括:設(shè)計(jì)合適的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以充分提取網(wǎng)絡(luò)狀態(tài)的特征;設(shè)計(jì)有效的獎(jiǎng)勵(lì)函數(shù)以引導(dǎo)模型學(xué)習(xí)到高質(zhì)量的調(diào)度策略;提高模型的訓(xùn)練效率和穩(wěn)定性。通過解決這些問題,期望能夠?yàn)槎嗦窂秸{(diào)度問題的研究提供新的思路和方法。
2 實(shí)驗(yàn)平臺(tái)與實(shí)驗(yàn)過程
2.1 研究目標(biāo)
研究的主要目標(biāo)是使用深度強(qiáng)化學(xué)習(xí)代理來改進(jìn)多路徑協(xié)議的數(shù)據(jù)包調(diào)度。主要的挑戰(zhàn)是如何在網(wǎng)絡(luò)系統(tǒng)中集成現(xiàn)有的、最先進(jìn)的、具有強(qiáng)制性低延遲性的Agent。一方面,通過對通信網(wǎng)絡(luò)有時(shí)延要求,在新的5G網(wǎng)絡(luò)中,超可靠低時(shí)延通信(Ultra Reliable Low Latency Communications,URLLC)服務(wù)的時(shí)延要求為1 ms;另一方面,包調(diào)度器的實(shí)現(xiàn)必須是快速的,達(dá)到微秒級(jí)甚至納秒級(jí),以不干擾實(shí)驗(yàn)的結(jié)果。
2.2 實(shí)驗(yàn)中使用的技術(shù)
2.2.1 多路徑協(xié)議
在實(shí)驗(yàn)中,使用 MPQUIC 作為多路徑協(xié)議。MPQUIC是基于QUIC協(xié)議的改進(jìn)QUIC-GO5,使用Go編程語言實(shí)現(xiàn)。該協(xié)議的優(yōu)點(diǎn)之一是不依賴于內(nèi)核實(shí)現(xiàn),并且允許“快速實(shí)現(xiàn)-運(yùn)行-測試”的周期循環(huán)。
2.2.2 深度強(qiáng)化學(xué)習(xí)代理
深度強(qiáng)化學(xué)習(xí)(DRL)是融合了試錯(cuò)法學(xué)習(xí)范式的強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)和使用深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(Deep Learning,DL)的創(chuàng)新概念。DeepMind公司在2013年推出了應(yīng)用于舊式Atari游戲的新范式,其結(jié)果有時(shí)竟然超過了人類。這項(xiàng)工作使用Q-Learning強(qiáng)化學(xué)習(xí)技術(shù),基于從初始狀態(tài) s 0 開始,尋找在連續(xù)步驟中獲得最大獲益的策略。圖1演示了強(qiáng)化學(xué)習(xí)技術(shù)的流程架構(gòu)。即:Agent讀取當(dāng)前的環(huán)境狀態(tài)s t ,并從可用的動(dòng)作集合A中選擇一個(gè)動(dòng)作 a t ∈A ;通過執(zhí)行選定的動(dòng)作,過渡到另一個(gè)狀態(tài) s t+1 ,并為Agent r t+1 提供一個(gè)可觀獎(jiǎng)賞,并通過學(xué)習(xí)選擇獎(jiǎng)賞最大化的最優(yōu)算法。DeepMind 最初的目標(biāo)是通過一個(gè)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來代替?zhèn)鹘y(tǒng)的獲取最佳動(dòng)作的算法。因此,這種新技術(shù)被稱為深度Q網(wǎng)絡(luò)(Deep Q Network,DQN),而實(shí)現(xiàn)它的Agent就是DQN Agent。
2.3 實(shí)驗(yàn)流程
圖2展示了一個(gè)深度強(qiáng)化學(xué)習(xí)代理的體系結(jié)構(gòu),包括2個(gè)主要階段:(1)前饋,其中Agent使用當(dāng)前狀態(tài)作為深度神經(jīng)網(wǎng)絡(luò)的輸入,并獲得具有最佳預(yù)測獎(jiǎng)勵(lì)的動(dòng)作(最優(yōu)動(dòng)作);(2)反向傳播,其中Agent使用以前的經(jīng)驗(yàn)(批量回放)來更新深度神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置。由于反向傳播消耗大量的計(jì)算資源,該任務(wù)必須在離線模式下完成,即與數(shù)據(jù)包調(diào)度分離。TensorFlow庫中DQN Agent的最新實(shí)現(xiàn)的快速審查結(jié)果表明,前饋過程需要在5~10 ms,這與5G網(wǎng)絡(luò)中所需的延遲處于同一數(shù)量級(jí)。為此,在2個(gè)模塊中實(shí)現(xiàn)一個(gè)DQN Agent:其中一個(gè)模塊嵌入到MPQUIC服務(wù)器中,為每個(gè)狀態(tài)選擇最優(yōu)動(dòng)作;以及另一個(gè)具有學(xué)習(xí)邏輯的離線模塊。為模塊之間的通信定義了2個(gè)接口:第一個(gè)接口包含一個(gè)公共分離值(CSV)文件,其中包含在線Agent的經(jīng)驗(yàn),即狀態(tài)列表 s t ,動(dòng)作 a t 和獎(jiǎng)勵(lì) r t 。這些信息被離線Agent用于執(zhí)行學(xué)習(xí)。第二個(gè)接口用于將DNN的新值上傳至在線Agent。為此,使用了層級(jí)數(shù)據(jù)格式5(hdf5)文件,其廣泛應(yīng)用于現(xiàn)有框架。
2.4 狀態(tài)、獎(jiǎng)勵(lì)和行為
最優(yōu)狀態(tài)和獎(jiǎng)賞函數(shù)的選擇對深度強(qiáng)化學(xué)習(xí)的性能至關(guān)重要。此外,還需要保證選擇與馬爾可夫決策過程(MDP)框架兼容,特別是狀態(tài)向量s表示唯一的狀態(tài)。在DQN Agent[5]的原始工作中,這個(gè)問題是通過在狀態(tài)向量中堆疊框架來解決的。在案例中,提出了保證唯一性的特征組合:平滑往返時(shí)間、擁塞窗口和發(fā)送的數(shù)據(jù)。
2.4.1 平滑往返時(shí)間(SRTT)
往返時(shí)延(Round-Trip Time,RTT)是MPTCP的內(nèi)核實(shí)現(xiàn)[6]和MPQUIC原型[7]中分組調(diào)度算法使用的基本參數(shù)。同時(shí)使用了Smooth RTT,即:
SRTT= ( ) 1-α *SRTT+α*R ' (1)
式中:R ' 是最后一個(gè)RTT, α= 1 / 8 。
在DQN Agent的實(shí)現(xiàn)中使用了SRTT特征。
SRTT '=SRTT/150 (2)
式中:SRTT ' 為將SRTT特征重新縮放到150 ms。
2.4.2 擁塞窗口(CWND)
擁塞窗口特征是通過擁塞控制算法計(jì)算得到的擁塞窗口的字節(jié)大小。
CWND '=CWND /(300 * TCP_MSS) (3)
式中:CWND ' 意為將CWND特征重新縮放為300個(gè)最大片段的尺寸(MaximumSegment Size,MSS),在實(shí)現(xiàn)中定義為1 460個(gè)字節(jié)。
2.4.3 發(fā)送字節(jié)(BiF)
BiF 是指 Flight 中的字節(jié)數(shù),即未收到相應(yīng)的(ACK消息)從而被確認(rèn)為未確認(rèn)發(fā)送的字節(jié)數(shù)。它是狀態(tài)向量中使用的最后一個(gè)特征。
BiF '=BiF/CWND (4)
式中:BiF ' 為將BIF特征被重新縮放到CWND的大小。
另一個(gè)需要界定的,是如何進(jìn)行獎(jiǎng)勵(lì)計(jì)算。因?yàn)樗茿gent的反饋,因此比狀態(tài)定義更為關(guān)鍵。獎(jiǎng)勵(lì)和懲罰之間的不平衡可能會(huì)導(dǎo)致學(xué)習(xí)過程中的錯(cuò)誤。
partial Reward = sentBits /(3 500 * sessionTime)(5)
式中:參數(shù) partial Reward (部分獎(jiǎng)勵(lì))以兆比特每秒(Mbps)為單位,表示在部分獎(jiǎng)勵(lì)的情況下,基于會(huì)話具有任意數(shù)量的3 500個(gè)數(shù)據(jù)包的假設(shè)前提下,使用MPQUIC服務(wù)器發(fā)送的尚未確認(rèn)的字節(jié)數(shù)和會(huì)話的持續(xù)時(shí)間來估計(jì)會(huì)話的吞吐量。
最終的獎(jiǎng)勵(lì)定義為會(huì)話的平均吞吐量,用兆比特每秒(Mbps)表示。此外,當(dāng) MPQUIC 達(dá)到限制值,例如最大不帶ACK的數(shù)據(jù)包數(shù)時(shí),或者在沒有丟包的理想信道中存在重傳或丟包時(shí),獎(jiǎng)勵(lì)中存在懲罰。
2.5 Agent實(shí)現(xiàn)
深度強(qiáng)化學(xué)習(xí)Agent分2個(gè)模塊實(shí)現(xiàn)。在線模塊在MPQUIC的包調(diào)度內(nèi)執(zhí)行,為簡化操作,只作為MPQUIC服務(wù)器的一部分,對下行流進(jìn)行測試。離線模塊是對keras-rl框架的擴(kuò)展實(shí)現(xiàn),該框架在Py?thon中實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法,并與流行的深度學(xué)習(xí)Python庫keras9集成。
2.5.1 在線Agent
在線Agent的主要組件是gorl庫,它實(shí)現(xiàn)了深度Q網(wǎng)絡(luò)。為了重用代碼,實(shí)現(xiàn)了一個(gè)通用的DNN,其中包含了這項(xiàng)工作所需的基本要素。它支持基于全連接層的多層神經(jīng)網(wǎng)絡(luò),具有任意的層數(shù)和可配置的層大小。它還支持最常見的激活函數(shù),包括該工作中使用的激活函數(shù)(ReLu和Linear)。深度神經(jīng)網(wǎng)絡(luò)定義在spec文件中,激活為keras格式。該庫支持2種工作模式:訓(xùn)練與生產(chǎn)。在學(xué)習(xí)階段,使用了Training(訓(xùn)練)模式,因?yàn)樗恳粚蛹?jí)產(chǎn)生一個(gè)CSV文件,其中包含一個(gè)用于每個(gè)數(shù)據(jù)包調(diào)度的行,元組為( r t 、 s t 、a t )。在案例中,每個(gè)情節(jié)被映射到一個(gè) MPQUIC 會(huì)話,情節(jié)描述文件中包含的關(guān)于Agent 的狀態(tài)、獎(jiǎng)勵(lì)和動(dòng)作的信息被用于離線訓(xùn)練。gorl支持使用從離線代理導(dǎo)出的HDF5文件對DNN進(jìn)行更新。另一個(gè)組件插入到MPQUIC服務(wù)器的包調(diào)度器中,該組件的任務(wù)是設(shè)置 DNN,從MPQUIC服務(wù)器中可用的信息中收集狀態(tài)向量 s t ,調(diào)用DNN獲取動(dòng)作 a t 并計(jì)算獎(jiǎng)勵(lì) r t 。
DQN Agent必須解決的基本問題是探索與開發(fā)之間的平衡。Agent必須尋找一個(gè)狀態(tài)的不同行動(dòng)方案,從而確定最優(yōu)方案。為此它將測試不同的行動(dòng)方案下不同獎(jiǎng)勵(lì),并更新Deep Q網(wǎng)絡(luò)。在線代理實(shí)現(xiàn)了2個(gè)功能:選擇最優(yōu)動(dòng)作(對于非學(xué)習(xí)型運(yùn)行)的ArgMax函數(shù)和以概率進(jìn)行探索的ε-greedy函數(shù)以 ε 的概率進(jìn)行利用。在訓(xùn)練的執(zhí)行過程中,使用了一個(gè) ε∈[ 0.1,0.9],從0.9開始,線性減小直到0.1,至訓(xùn)練結(jié)束。
2.5.2 離線Agent
離線Agent使用keras-rl框架實(shí)現(xiàn),它是實(shí)驗(yàn)框架的一部分。通過擴(kuò)展了kera的DQNAgent的行為,以支持在線代理生成的CSV情節(jié)文件。keras-rl框架很好的集成到了Gym OpenAI環(huán)境中,提供了不同場景的環(huán)境基礎(chǔ)。在案例中,創(chuàng)建一個(gè)OpenAI環(huán)境,用于加載CSV情節(jié)文件,以便為離線代理提供在線代理的經(jīng)驗(yàn)。此外還擴(kuò)展了keras-rl DQN Agent,以便在訓(xùn)練過程中使用由在線代理決定的動(dòng)作a t 。
2.6 實(shí)驗(yàn)流程及結(jié)果
文章提供了一個(gè)執(zhí)行代理的環(huán)境來進(jìn)行訓(xùn)練和測試Agent?;驹O(shè)置是一個(gè)MPQUIC客戶端和服務(wù)器運(yùn)行在Mininet網(wǎng)絡(luò)仿真器之上,該仿真器模擬網(wǎng)絡(luò)拓?fù)?,NetEm仿真器允許配置通道的帶寬和它們的延遲。實(shí)驗(yàn)流程如圖3所示,包括從MPQUIC客戶端下載文件,直到有足夠的信息開始離線訓(xùn)練。離線訓(xùn)練完成后,將新的DNN模型加載到在線代理中繼續(xù)測試。
流程中包括為MPQUIC客戶端配置了2條可能的路徑,通過在交換機(jī)上增加2條連接,交換機(jī)上也有1條通往MPQUIC服務(wù)器的路徑。該框架支持離線 Agent 的執(zhí)行,并提供了用于創(chuàng)建不同測試的Jupyter筆記本應(yīng)用程序。最后,用所有的實(shí)驗(yàn)框架創(chuàng)建一個(gè)Docker鏡像,以允許在任何環(huán)境中重現(xiàn)實(shí)驗(yàn)結(jié)果。
3 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)?zāi)康氖窃u估多條路徑帶寬聚合的效率。為了衡量效率,使用在下載固定大?。? MB)文件的實(shí)驗(yàn)中測量吞吐量。在實(shí)驗(yàn)框架中,配置了帶寬為5 Mbps,基延遲為100 ms的MPQUIC路徑。為了比較不同場景下的結(jié)果,改變其中1條路徑的延遲,以模擬它們之間存在延遲的非對稱路徑,即delta(ms)∈[0,50]。第一個(gè)實(shí)驗(yàn)設(shè)置了MPQUIC協(xié)議的性能基線,用于測量效率。如圖4所示,圖(a)表示使用單條路徑測量吞吐量的結(jié)果,并以此作為該場景下MPQUIC協(xié)議吞吐量的基礎(chǔ)。圖(b)表示使用默認(rèn)調(diào)度器RTT的多路徑場景下的吞吐量,圖(c)表示隨機(jī)選擇任意路徑的隨機(jī)調(diào)度器。初始測試結(jié)果表明,選擇低延遲路徑和隨機(jī)選擇路徑之間只有很小的差異。
一旦基線建立,即可對延遲為0的不同場景進(jìn)行 DQN Agent 的訓(xùn)練,其中 delta(ms)∈[0,50]。且考慮到消耗的時(shí)間和資源,必須對訓(xùn)練進(jìn)行限制。此外,假設(shè)在訓(xùn)練過程中,不同路徑的測量SRTT之間的差異在δ范圍內(nèi)變化,因此Agent將在所有可能的SRTT值中進(jìn)行訓(xùn)練。圖5描述了DQN Agent在訓(xùn)練時(shí)間上的演化,以步數(shù)(預(yù)定數(shù)據(jù)包)為橫軸進(jìn)行了分析。訓(xùn)練經(jīng)過130 000步后具有最大的吞吐量,此模型用于訓(xùn)練的驗(yàn)證。
為了比較聚合策略的效率,定義聚合效益(Ag?gregation Benefit,ABen)為:
式中:?是實(shí)測吞吐量的平均值,?s 是MPQUIC在單路徑場景下的基線平均吞吐量。
圖6描述了MPQUIC默認(rèn)包調(diào)度器(SRTT)和訓(xùn)練好的DQN Agent之間的聚合效益對比ABen??梢钥吹剑M管DQN Agent僅在0延遲場景下訓(xùn)練,但聚集效益在delay(ms)∈[0,50]范圍內(nèi)得到了提高,驗(yàn)證了實(shí)驗(yàn)假設(shè)。
綜合效益在4.45%和7.58%之間得到改善,見表1。
為了測試DQN Agent的魯棒性,文章使用背景流量進(jìn)行了重復(fù)實(shí)驗(yàn)。為此,在Agent的訓(xùn)練和測試過程中,通過網(wǎng)絡(luò)的 2 條路徑生成背景 TCP 流量。由于在之前的場景中取得了不錯(cuò)的效果,只在0 延遲場景中重復(fù)訓(xùn)練DQN Agent,并在24 050步取得了最大的吞吐量。使用訓(xùn)練好的代理,得到了類似的改進(jìn)結(jié)果,但只有 delay(ms)∈[ 0 ,20 ]。從30 ms的差異來看,聚合效益的改善下降到1 %,如圖7和表2所示。
4 結(jié)論與討論
文章分析了深度強(qiáng)化學(xué)習(xí)在一個(gè)具體的流量管理問題中的應(yīng)用,即多路徑環(huán)境下的數(shù)據(jù)包調(diào)度問題。在實(shí)驗(yàn)中,證明了在實(shí)時(shí)環(huán)境中使用DQN Agent來提高包調(diào)度器性能的可行性,以及使用這種技術(shù)對新的5G網(wǎng)絡(luò)進(jìn)行優(yōu)化的潛力。在實(shí)驗(yàn)過程中使用了一個(gè)全連接層的DNN。今后可以嘗試引入其他具有時(shí)間記憶的模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)或長短期記憶網(wǎng)絡(luò)(LSTM)。這些模型可以更好地預(yù)測路徑條件的變化,從而更好地學(xué)習(xí)最優(yōu)行為。離線-在線架構(gòu)工作良好,但仍需要占用大量的資源和時(shí)間,使得工作效率還有待提升。今后可以使用預(yù)訓(xùn)練的方法,通過使用Gym OpenAI環(huán)境來模擬網(wǎng)絡(luò)和多路徑行為。研究過程中將 DQN Agent與MPQUIC協(xié)議集成,將Agent動(dòng)作定義為選擇發(fā)送數(shù)據(jù)包的路徑,結(jié)果并不理想不足以解決完整的問題,今后可能需要 DQN Agent 通過控制MPQUIC的更多方面,如重傳控制或數(shù)據(jù)包來進(jìn)行更加充分的集成。最后,在獎(jiǎng)勵(lì)方面,定義的微調(diào)也可以促進(jìn)學(xué)習(xí)的改進(jìn),這也是今后改進(jìn)的方向。
文章深入探討了基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度模型,并將其應(yīng)用于網(wǎng)絡(luò)流量優(yōu)化問題中。通過對模型的構(gòu)建、訓(xùn)練以及實(shí)驗(yàn)驗(yàn)證,得出了以下結(jié)論:
(1)模型有效性。文章設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)多路徑調(diào)度模型在復(fù)雜的網(wǎng)絡(luò)環(huán)境中表現(xiàn)出了顯著的有效性。通過不斷地學(xué)習(xí)和調(diào)整,模型能夠自適應(yīng)地選擇最優(yōu)路徑,實(shí)現(xiàn)網(wǎng)絡(luò)流量的高效調(diào)度。
(2)性能優(yōu)勢。與傳統(tǒng)的調(diào)度算法相比,基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度模型在多個(gè)評價(jià)指標(biāo)上均表現(xiàn)出了明顯的優(yōu)勢。特別是在高負(fù)載和網(wǎng)絡(luò)擁堵的情況下,該模型能夠更好地平衡網(wǎng)絡(luò)負(fù)載,減少數(shù)據(jù)包的丟失和延遲。
(3)可擴(kuò)展性。文章提出的模型具有良好的可擴(kuò)展性。通過調(diào)整模型的參數(shù)和結(jié)構(gòu),可以將其應(yīng)用于不同類型的網(wǎng)絡(luò)和調(diào)度場景,滿足不同的流量優(yōu)化需求。
雖然文章取得了一定的研究成果,但仍存在一些有待解決的問題。未來的研究可以進(jìn)一步探索模型的優(yōu)化策略,提高其適應(yīng)性和魯棒性。同時(shí),也可以考慮將更多先進(jìn)的深度學(xué)習(xí)技術(shù)引入到多路徑調(diào)度中,以實(shí)現(xiàn)更高效、更智能的網(wǎng)絡(luò)流量管理。
綜上所述,基于深度強(qiáng)化學(xué)習(xí)的多路徑調(diào)度模型在網(wǎng)絡(luò)流量優(yōu)化方面表現(xiàn)出色,具有廣闊的應(yīng)用前景和研究價(jià)值。文章為網(wǎng)絡(luò)流量管理提供了新的思路和方法,對于提升網(wǎng)絡(luò)性能和服務(wù)質(zhì)量具有重要意義。
參考文獻(xiàn):
[1]石紅曉,程永志. 基于5G核心網(wǎng)的網(wǎng)絡(luò)演進(jìn)及策略研究[J]. 通信與信息技術(shù),2020(4):39-41+50.
[2]賈靖,王恒,夏旭,等. 空地一體網(wǎng)絡(luò)接入選擇與切換控制技術(shù)研究[J]. 無線電通信技術(shù),2023,49(5):826-833.
[3]高菁陽.下一場戰(zhàn)役:人機(jī)對話 — —對話Siri創(chuàng)始人諾曼(Norman Winarsky)[J]. 清華管理評論,2017(Z2):8-13.
[4]廖彬彬,張廣興,刁祖,等. 基于深度強(qiáng)化學(xué)習(xí)的MPTCP動(dòng)態(tài)編碼調(diào)度系統(tǒng)[J]. 高技術(shù)通訊,2022,32(7):727-736.
[5]LI J,Dang X,LI S. DQN- based decentralized multi-agent JSAP resource allocation for UAV swarm commu?nication[J]. Journal of Systems Engineering and Elec?tronics,2023,34(2):289-298.
[6]夏雨峰,占敖,吳呈瑜,等. 基于MPTCP耦合的自適應(yīng)帶寬估計(jì)算法[J]. 無線電通信技術(shù),2022,48(2):336-341.
[7]黃培紀(jì),蔣艷,陳斌,等. 基于線性規(guī)劃的MPQUIC調(diào)度算法[J]. 計(jì)算機(jī)時(shí)代,2023(6):38-42.
Multi-path Scheduling Model Based on Deep Reinforcement Learning
ZHAO Jing
(School of Information Engineering, Lanzhou Vocational Technical College,Lanzhou Gansu 730070,China)
Abstract::In this paper, a multi-path scheduling model based on deep reinforcement learning is proposed,and deep learning technology is applied to traffic management in aggregation scenario to solve the problem of packet scheduling in multi-path environment. A multi-path Quick UDP Internet Connection is used to implement path se?lection in multi-path scenarios, and an agent is trained to improve the optimal path selection algorithm, demonstrat?ing the advantages of applying DQN Agent to data traffic management problems. Experiments demonstrate the feasi?bility of using DQN Agent to improve the performance of packet scheduler in real-time environment, and the poten?tial of using this technology to optimize the new 5G networks. The experimental results show that the multi-path scheduling model based on deep reinforcement learning can adaptively adjust the path selection strategy, thereby improving the stability and reliability of the network. The improved model not only has theoretical value, but also provides useful reference for practical application.
Key words::5G network; multi-path; packet scheduling; deep reinforcement learning; QUIC; MPTCP