国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)在IP網(wǎng)絡(luò)優(yōu)化中的應(yīng)用

2023-08-04 09:07:44曾漢徐曉青錢劉熠輝武娟
信息通信技術(shù)與政策 2023年7期
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)流量深度

曾漢 徐曉青 錢劉熠輝 武娟

(中國(guó)電信股份有限公司研究院,廣州 510000)

0 引言

云網(wǎng)融合的不斷推進(jìn)和VR/AR等新業(yè)務(wù)的不斷涌現(xiàn),使得IP網(wǎng)絡(luò)更加復(fù)雜。新需求引發(fā)的大量流量和數(shù)據(jù)中心的不斷涌現(xiàn),改變了傳統(tǒng)網(wǎng)絡(luò)的流量分布。復(fù)雜動(dòng)態(tài)的流量分布需要結(jié)合相關(guān)人工智能技術(shù)來(lái)實(shí)現(xiàn)更精準(zhǔn)的預(yù)測(cè)和更合理的調(diào)度。此外,隨著軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)的廣泛應(yīng)用,復(fù)雜的網(wǎng)絡(luò)業(yè)務(wù)流量需求給現(xiàn)有的網(wǎng)絡(luò)路由算法提出了更大的挑戰(zhàn)。為了滿足多樣化的服務(wù)需求,不少基于機(jī)器學(xué)習(xí)的路由優(yōu)化算法被提出,然而該算法的研究方向主要在于其合理性和收斂性,相對(duì)缺乏在真實(shí)場(chǎng)景下訓(xùn)練和部署的研究[1]。同時(shí),隨著5G的發(fā)展,通信與人工智能將進(jìn)一步深度融合,通信各個(gè)領(lǐng)域?qū)W(wǎng)絡(luò)智能化的需求會(huì)大量增加[2]。

網(wǎng)絡(luò)智能化需求的增加,為現(xiàn)有的IP網(wǎng)絡(luò)優(yōu)化算法研究拓寬了更多探索方向,同時(shí)也為數(shù)據(jù)驅(qū)動(dòng)算法創(chuàng)造了更廣闊的應(yīng)用空間。近年來(lái),隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的發(fā)展,數(shù)據(jù)驅(qū)動(dòng)算法已經(jīng)在一些領(lǐng)域得到了廣泛應(yīng)用。其中深度學(xué)習(xí)是目前數(shù)據(jù)驅(qū)動(dòng)算法中最重要的一個(gè)分支,它通過(guò)學(xué)習(xí)大量樣本數(shù)據(jù)的內(nèi)在規(guī)律,捕捉數(shù)據(jù)的重要特征,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類、回歸或預(yù)測(cè)等,從而具備感知和分析的能力。圖神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的一個(gè)分支,對(duì)圖結(jié)構(gòu)數(shù)據(jù)具有更強(qiáng)的感知與分析能力,適用于IP網(wǎng)絡(luò)的特征表示,因?yàn)镮P網(wǎng)絡(luò)本質(zhì)可抽象成一張圖。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,對(duì)大規(guī)模空間的最優(yōu)化問題有較好的求解能力,且基于深度強(qiáng)化學(xué)習(xí)的算法在通信網(wǎng)絡(luò)的業(yè)務(wù)場(chǎng)景中已經(jīng)做了不少嘗試[3]。

本文介紹了常用的深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)算法,總結(jié)了研究人員在幾種場(chǎng)景下的設(shè)計(jì)思路,希望為在現(xiàn)網(wǎng)實(shí)施相關(guān)算法和模型提供參考。首先,介紹了深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的基本模型,其中包括全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Network,FCNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)、深度Q-網(wǎng)絡(luò)(Deep Q-Network,DQN)、深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG);其次,收集了深度學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)在IP網(wǎng)絡(luò)不同場(chǎng)景(流量預(yù)測(cè)、網(wǎng)絡(luò)規(guī)劃和流量工程)的應(yīng)用;最后,探討了深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的行業(yè)現(xiàn)狀、存在的挑戰(zhàn)和研究方向。

1 基于深度學(xué)習(xí)的IP網(wǎng)絡(luò)優(yōu)化算法

1.1 應(yīng)用于IP網(wǎng)絡(luò)優(yōu)化的深度學(xué)習(xí)算法概述

深度學(xué)習(xí)是指機(jī)器學(xué)習(xí)中基于神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法?!吧疃取敝负鄠€(gè)隱藏層的學(xué)習(xí)模型,通過(guò)深度學(xué)習(xí)可以組合低維度特征形成高維度的屬性、類別或特征。隨著計(jì)算機(jī)算力的大幅度提升,深度學(xué)習(xí)將更為普及和實(shí)用。

全連接神經(jīng)網(wǎng)絡(luò)也稱前饋神經(jīng)網(wǎng)絡(luò)或多層感知機(jī),由輸入層、全連接層和輸出層3部分組成,每一層都由若干個(gè)神經(jīng)元組成,其模型結(jié)構(gòu)如圖1所示。在前向傳播中,下一層神經(jīng)元的值是上一層所有神經(jīng)元數(shù)值的加權(quán)疊加,數(shù)據(jù)經(jīng)多層全連接層的傳遞被不斷壓縮和提煉,最終傳遞給輸出層,因此在未添加激活函數(shù)的情況下,輸出層神經(jīng)元值可以表示為輸入層神經(jīng)元值的線性組合。輸出層通過(guò)與實(shí)際結(jié)果對(duì)比得到損失函數(shù),并以反向傳播的形式逐層更新神經(jīng)元加權(quán)權(quán)重,從而不斷優(yōu)化全連接網(wǎng)絡(luò)的連接方式,得到從輸入數(shù)據(jù)映射至輸出數(shù)據(jù)的最佳網(wǎng)絡(luò)參數(shù)。全連接網(wǎng)絡(luò)在處理特征分布一致的數(shù)據(jù)時(shí)有著非常好的工作效率和準(zhǔn)確率,但在實(shí)際應(yīng)用中,需要進(jìn)行預(yù)測(cè)的數(shù)據(jù)往往有著不完全一致的特征分布,全連接網(wǎng)絡(luò)訓(xùn)練得到的分類器或回歸器對(duì)于訓(xùn)練數(shù)據(jù)以外的樣本魯棒性較差,模型整體的新數(shù)據(jù)泛化能力較低。

圖1 全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

循環(huán)神經(jīng)網(wǎng)絡(luò)是一類以序列數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。RNN引入了“記憶”的概念,其輸出依賴于之前的輸入序列,具體體現(xiàn)在RNN通過(guò)隱藏狀態(tài)來(lái)存儲(chǔ)之前時(shí)間步長(zhǎng)的信息。

當(dāng)時(shí)間步長(zhǎng)較大時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度計(jì)算容易出現(xiàn)梯度衰減或梯度爆炸,這導(dǎo)致循環(huán)神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中難以捕捉時(shí)間序列中時(shí)間周期較大的變化趨勢(shì),而門控循環(huán)單元(Gated Recurrent Unit,GRU)和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)可以解決這個(gè)難題。

GRU是一種常用的門控循環(huán)神經(jīng)網(wǎng)絡(luò),它引入了重置門和更新門的概念。重置門和更新門的計(jì)算公式和RNN中隱藏狀態(tài)的計(jì)算一樣,選取Sigmoid函數(shù)作為激活函數(shù),將重置門和更新門的參數(shù)值約束至[0,1]之間。兩個(gè)門控的不同點(diǎn)在于:重置門的優(yōu)化目標(biāo)是控制上一時(shí)間步的隱藏狀態(tài)以怎樣的權(quán)重流入當(dāng)前時(shí)間步的候選隱藏狀態(tài);更新門的優(yōu)化目標(biāo)是選擇最佳的加權(quán)系數(shù)組合上一時(shí)間步的隱藏狀態(tài)和當(dāng)前時(shí)間步的候選隱藏狀態(tài)。

圖2 LSTM內(nèi)部結(jié)構(gòu)

與GRU相比,LSTM由遺忘門和輸入門產(chǎn)生新的狀態(tài),而GRU只有一種更新門;LSTM可以通過(guò)輸出門調(diào)節(jié)新產(chǎn)生的狀態(tài),而GRU對(duì)輸出無(wú)任何調(diào)節(jié)。因此,LSTM在模型結(jié)構(gòu)上更加強(qiáng)大和靈活,有著更好的特征表達(dá)能力,但也引入了額外的計(jì)算開銷。

圖神經(jīng)網(wǎng)絡(luò)是指將神經(jīng)網(wǎng)絡(luò)技術(shù)運(yùn)用在圖數(shù)據(jù)的學(xué)習(xí)任務(wù)中的一大類方法。GNN的發(fā)展起源于對(duì)圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Network,GCN),其中GCN分為譜域和空域兩類。譜域GCN的卷積操作通常作用于圖拉普拉斯(Laplace)的特征值矩陣上,一般只能作用于一張圖,限制了跨圖學(xué)習(xí)能力和泛化能力;而空域GCN以壓縮映射原理(Banach不動(dòng)點(diǎn)理論)為基礎(chǔ),相對(duì)譜域GCN而言,空域GCN研究成果更為豐富??沼騁CN本質(zhì)上是一個(gè)迭代式的聚合鄰居的過(guò)程,一方面大部分空域GCN的成果本質(zhì)是對(duì)聚合操作的重新設(shè)計(jì)(基于GCN發(fā)展而來(lái)的模型統(tǒng)稱為GNN),例如GraphSAGE(Graph SAmple and aggreGatE)、圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT)、關(guān)系圖卷積網(wǎng)絡(luò)(Relational-GCN,R-GCN);另一方面,一些研究人員將具體的GNN設(shè)計(jì)解構(gòu),抽象為GNN設(shè)計(jì)范式,例如消息傳播神經(jīng)網(wǎng)絡(luò)(Message Passing Neural Network,MPNN)、非局部神經(jīng)網(wǎng)絡(luò)(Non-Local Neural Network,NLNN)、圖網(wǎng)絡(luò)(Graph Network,GN)。

1.2 基于深度學(xué)習(xí)的IP網(wǎng)絡(luò)優(yōu)化算法

網(wǎng)絡(luò)流量預(yù)測(cè)通過(guò)捕捉流量數(shù)據(jù)的特征,依據(jù)歷史流量數(shù)據(jù)規(guī)律推斷未來(lái)的變化,是IP網(wǎng)絡(luò)優(yōu)化的基礎(chǔ)。預(yù)測(cè)的準(zhǔn)確度會(huì)直接影響網(wǎng)絡(luò)規(guī)劃和流量工程的最終結(jié)果,因此網(wǎng)絡(luò)流量預(yù)測(cè)也是網(wǎng)絡(luò)規(guī)劃和流量工程的基礎(chǔ)?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法適合處理序列數(shù)據(jù),是捕捉數(shù)據(jù)時(shí)間關(guān)聯(lián)性的常用手段,廣泛應(yīng)用在時(shí)間序列預(yù)測(cè)的場(chǎng)景中。GRU,特別是LSTM的引入使得RNN捕捉短時(shí)時(shí)序特征的能力增強(qiáng)。

Vinayakumar[4]等將RNN框架應(yīng)用在網(wǎng)絡(luò)流量預(yù)測(cè)上,分別將LSTM與GRU、identity-RNN、RNN的預(yù)測(cè)結(jié)果進(jìn)行比較。具體使用了泛歐學(xué)術(shù)網(wǎng)絡(luò)的流量矩陣數(shù)據(jù)(采樣間隔為15 min),將每個(gè)流量矩陣展平為流量矩陣向量,按時(shí)間順序拼接成新流量矩陣,采用時(shí)間窗口的形式處理新流量矩陣以得到樣本與標(biāo)簽。通過(guò)比較幾種循環(huán)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與標(biāo)簽的均方誤差(Mean Squared Error,MSE)得出以下結(jié)論:在網(wǎng)絡(luò)流量預(yù)測(cè)的場(chǎng)景下,LSTM比其余基于RNN框架的算法表現(xiàn)更優(yōu)異。

Ramakrishnan[5]等沿用Vinayakumar等人的處理方法,擴(kuò)大了LSTM的比較范圍并對(duì)算法的應(yīng)用場(chǎng)景進(jìn)行了拓展,包括網(wǎng)絡(luò)協(xié)議預(yù)測(cè)和網(wǎng)絡(luò)協(xié)議分布預(yù)測(cè)。具體而言,使用了Abilene數(shù)據(jù)集(采樣間隔為5 min),將RNN、GRU、樸素預(yù)測(cè)(Naive Model,NM,即使用上一時(shí)刻的值作為預(yù)測(cè)值)、移動(dòng)平均(Moving Average,MA)和自回歸綜合移動(dòng)平均(Autoregressive Integrated Moving Average,ARIMA)算法與LSTM進(jìn)行比較。在網(wǎng)絡(luò)流量預(yù)測(cè)和網(wǎng)絡(luò)協(xié)議分布預(yù)測(cè)的場(chǎng)景下,比較各個(gè)模型的預(yù)測(cè)結(jié)果與標(biāo)簽的MSE可知,LSTM的表現(xiàn)優(yōu)于RNN和GRU,RNN框架的表現(xiàn)優(yōu)于NM、MA和ARIMA。無(wú)論是回歸任務(wù)還是分類任務(wù),LSTM都有更優(yōu)異的表現(xiàn)。

Hua[6]等就降低計(jì)算開銷方向?qū)STM進(jìn)行了改進(jìn),提出了隨機(jī)連接長(zhǎng)短期記憶(Random Connectivity Long Short-Term Memory,RCLSTM)框架,有效降低了計(jì)算開銷。通過(guò)比較RCLSTM、LSTM和其它常用算法模型分別在網(wǎng)絡(luò)流量預(yù)測(cè)和用戶位置預(yù)測(cè)場(chǎng)景中的預(yù)測(cè)效果,論證了在部分計(jì)算資源受限的條件下,RCLSTM比LSTM更具優(yōu)勢(shì)。RCLSTM的神經(jīng)元之間是隨機(jī)連接的,連接策略可以遵循任意分布規(guī)律,且允許調(diào)整臨界值來(lái)控制神經(jīng)元連接的數(shù)量。在網(wǎng)絡(luò)流量預(yù)測(cè)場(chǎng)景中,研究人員使用泛歐學(xué)術(shù)網(wǎng)絡(luò)公開數(shù)據(jù)集的流量矩陣數(shù)據(jù),比較了各個(gè)算法模型的預(yù)測(cè)結(jié)果與標(biāo)簽的均方根誤差(Root Mean Squared Error,RMSE),得出RCLSTM在這些場(chǎng)景下表現(xiàn)更優(yōu)且計(jì)算開銷更低的結(jié)論;在用戶位置預(yù)測(cè)場(chǎng)景中,使用多個(gè)移動(dòng)通信用戶的位置數(shù)據(jù),比較預(yù)測(cè)結(jié)果的準(zhǔn)確率并得出RCLSTM的表現(xiàn)略差于LSTM但計(jì)算開銷更低的結(jié)論。

Theyazn[7]等從預(yù)處理環(huán)節(jié)提出了一個(gè)智能混合模型,將當(dāng)前的時(shí)間序列預(yù)測(cè)模型與聚類模型相結(jié)合以提升網(wǎng)絡(luò)流量預(yù)測(cè)的效果。該聚類模型使用模糊C-均值(Fuzzy-C-Means,FCM)作為聚類顆粒來(lái)分類流量數(shù)據(jù),并使用加權(quán)指數(shù)平滑模型以提升預(yù)測(cè)結(jié)果穩(wěn)定性。使用該聚類模型對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行預(yù)處理,可以提升LSTM的預(yù)測(cè)效果。此外,還使用4G基站網(wǎng)絡(luò)流量(來(lái)自Kaggle數(shù)據(jù)集)和廣域網(wǎng)流量(日本骨干網(wǎng)數(shù)據(jù))作為輸入,使用消融試驗(yàn)證明了該聚類模型可以提升預(yù)測(cè)效果。

與此同時(shí),He[8]等基于圖神經(jīng)網(wǎng)絡(luò)提出一種新的深度學(xué)習(xí)模型——圖注意力時(shí)空網(wǎng)絡(luò)(Graph Attention Spatial-Temporal Network,GASTN)。與之前的研究相比,該模型對(duì)數(shù)據(jù)的空間特征有更好的捕捉能力,能夠同時(shí)捕捉局部空間特征和全局空間特征。GASTN通過(guò)構(gòu)建空間關(guān)系圖來(lái)建立空間關(guān)聯(lián)性捕捉模型,并用遞歸神經(jīng)網(wǎng)絡(luò)為捕捉時(shí)間關(guān)聯(lián)性進(jìn)行建模。此外,為了提升GASTN的預(yù)測(cè)效果,研究人員提出了一種全局—局部協(xié)作學(xué)習(xí)策略,并充分利用全局模型和各區(qū)域的局部模型的知識(shí),提高了GASTN模型的有效性。在流量數(shù)據(jù)預(yù)測(cè)中,他們使用大規(guī)模真實(shí)場(chǎng)景的移動(dòng)流量數(shù)據(jù),比較GASTN、歷史均值(Historcal Average,HA)、ARIMA、多層感知機(jī)(Multiple Layer Perceptron,MLP)、LSTM、CNN-LSTM和STN(結(jié)合ConvLSTM和3D-ConvNet的深度時(shí)空網(wǎng)絡(luò))流量預(yù)測(cè)結(jié)果的RMSE、平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)、平均絕對(duì)誤差(Mean Absolute Error,MAE)指標(biāo),證明了GASTN在流量數(shù)據(jù)預(yù)測(cè)任務(wù)上準(zhǔn)確率更高。此外,他們使用消融試驗(yàn)驗(yàn)證了兩層注意力網(wǎng)絡(luò)的有效性,并在GASTN的基礎(chǔ)上使用不同的學(xué)習(xí)策略來(lái)驗(yàn)證全局—局部協(xié)作學(xué)習(xí)策略的有效性。

2 基于強(qiáng)化學(xué)習(xí)的IP網(wǎng)絡(luò)優(yōu)化算法

2.1 應(yīng)用于IP網(wǎng)絡(luò)優(yōu)化中的強(qiáng)化學(xué)習(xí)算法概述

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是指環(huán)境中的智能體按照一定策略做出一系列決策以完成給定任務(wù),求得最優(yōu)策略使得回報(bào)最大化的過(guò)程。強(qiáng)化學(xué)習(xí)要重點(diǎn)考慮預(yù)測(cè)和控制兩個(gè)問題,即策略評(píng)估和求解最優(yōu)策略。強(qiáng)化學(xué)習(xí)本質(zhì)上屬于序列決策問題和優(yōu)化問題,因此強(qiáng)化學(xué)習(xí)問題可以采用馬爾科夫(Markov)模型表示,并基于此進(jìn)行優(yōu)化。

如果未來(lái)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),則稱該狀態(tài)具有Markov性,特別地,如果St具有Markov性,用P表示條件概率,則上述定義如式(1)所示。

P[St+1|St]=P[St+1|S1,S2,…,St]

(1)

一個(gè)Markov決策過(guò)程,可以用四元組(S,A,P,R)表示,其中S表示狀態(tài)集,A表示動(dòng)作集,P表示轉(zhuǎn)移概率,R表示獎(jiǎng)賞。一般來(lái)說(shuō)狀態(tài)、動(dòng)作和獎(jiǎng)賞均為隨機(jī)變量。強(qiáng)化學(xué)習(xí)的重要任務(wù)之一是策略評(píng)估,即需要定義狀態(tài)值函數(shù)(每個(gè)狀態(tài)的價(jià)值)及Q-值函數(shù)(指定狀態(tài)下某個(gè)動(dòng)作的價(jià)值)。

vπ(s)=Eπ[Gt|St=s]

(2)

qπ(s,a)=Eπ[Gt|St=s,at=a]

(3)

貝爾曼(Bellman)方程定義了狀態(tài)值函數(shù)和Q-值函數(shù)的遞推關(guān)系,在指定策略π下(π(a|s)表示在狀態(tài)s下,執(zhí)行動(dòng)作a的概率),狀態(tài)值函數(shù)vπ(s)和Q-值函數(shù)qπ(s,a)定義分別如下:

vπ(s)=Eπ[Rt+1+γGt+1|St=s]=∑aπ(a|s)

∑s′,rp(s′,r|s,a)[r+γvπ(s′)]

(4)

qπ(s,a)=Eπ[Rt+1+γGt+1|St=s,At=a]=∑s′,r

p(s′,r|s,a)[r+γ∑a′π(a′|s′)qπ(s′,a′)]

(5)

強(qiáng)化學(xué)習(xí)另外一個(gè)重要任務(wù)是求解最優(yōu)策略。對(duì)于策略π和策略π′,如果對(duì)于任意狀態(tài)有vπ(s)≥vπ′(s),則稱策略π是優(yōu)于策略π′的,記為π≥π′。如果至少存在一個(gè)策略比其他策略好,則這個(gè)策略為最優(yōu)策略,記為π*。

深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),將強(qiáng)化學(xué)習(xí)的逼近任務(wù)用深度學(xué)習(xí)算法來(lái)完成。常見的DRL算法有DQN、DDPG等。DQN使用深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近最優(yōu)Q-值函數(shù),即式(6):

(6)

即逼近一個(gè)最優(yōu)策略π使得在給定的狀態(tài)st下執(zhí)行動(dòng)作a能獲取最大的期望匯報(bào)。DQN有兩個(gè)特殊的機(jī)制,一種是隨機(jī)抽樣,從經(jīng)驗(yàn)數(shù)據(jù)隨機(jī)抽樣,以消除觀測(cè)序列的相關(guān)性并減緩數(shù)據(jù)分布的變動(dòng);另一種是目標(biāo)量周期變動(dòng),使用迭代更新的方式讓Q-值朝著目標(biāo)量變動(dòng),而目標(biāo)量設(shè)置為周期性變動(dòng),減少Q(mào)-值與目標(biāo)量的相關(guān)性?;谶@兩個(gè)機(jī)制可以讓非線性的神經(jīng)網(wǎng)絡(luò)在逼近Q-值函數(shù)時(shí)趨于穩(wěn)定而避免發(fā)散。

除了DQN逼近Q-值函數(shù)的思路之外,另一個(gè)思路是逼近策略。策略梯度(Policy Gradient,PG)是早期逼近策略的強(qiáng)化學(xué)習(xí)方法,為了減少訓(xùn)練過(guò)程中參數(shù)的方差,通常采用演員-評(píng)論家(Actor-Critic,AC)框架。但PG輸出的是一個(gè)概率分布函數(shù),本質(zhì)上是一個(gè)隨機(jī)的策略。于是,2014年D.Silver[9]提出了確定性策略梯度(Deterministic Policy Gradient,DPG),將PG中的概率分布函數(shù)映射為一個(gè)確定的動(dòng)作。隨著DQN的成功,2016年Deepmind[10]受其啟發(fā)基于DPG算法進(jìn)行改進(jìn)并提出了DDPG算法,采用深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)μ和Q-函數(shù)的近似(即策略網(wǎng)絡(luò)和Q-網(wǎng)絡(luò)),最后用梯度優(yōu)化的方法來(lái)訓(xùn)練這兩個(gè)網(wǎng)絡(luò)。

2.2 基于強(qiáng)化學(xué)習(xí)的IP網(wǎng)絡(luò)優(yōu)化算法概述

強(qiáng)化學(xué)習(xí)應(yīng)用于IP網(wǎng)絡(luò)優(yōu)化問題的主要場(chǎng)景有網(wǎng)絡(luò)規(guī)劃和流量工程。網(wǎng)絡(luò)規(guī)劃是一類NP-難(Non-deterministic Polynomial hard,NP-hard)的組合優(yōu)化問題。一般來(lái)說(shuō),可以將其建模為整數(shù)線性規(guī)劃(Integer Linear Programming,ILP)問題,約束條件可以基于一系列相關(guān)的QoS和SLA要求進(jìn)行設(shè)置,目標(biāo)函數(shù)可以設(shè)置為相關(guān)的成本。但是ILP本身也是NP-難的組合優(yōu)化問題,經(jīng)典方法是通過(guò)分支定界法、割平面法等指數(shù)時(shí)間算法求得精確解,對(duì)復(fù)雜大規(guī)模網(wǎng)絡(luò)規(guī)劃問題的求解存在困難。流量工程是通過(guò)控制網(wǎng)絡(luò)的路由策略來(lái)改變網(wǎng)絡(luò)流量分布,優(yōu)化網(wǎng)絡(luò)資源的分配和提升網(wǎng)絡(luò)的性能,要求算法有更低的時(shí)間復(fù)雜度以及更少的資源調(diào)度。

Zhu[11]等結(jié)合GNN、DRL與ILP提出了網(wǎng)絡(luò)規(guī)劃框架——NeuroPlan。首先使用GNN對(duì)節(jié)點(diǎn)和連接進(jìn)行動(dòng)態(tài)編碼,目的是應(yīng)對(duì)規(guī)劃過(guò)程中網(wǎng)絡(luò)拓?fù)涞膭?dòng)態(tài)性質(zhì);其次,使用兩階段混合方法,先用DRL修剪搜索空間,然后使用ILP求解器找到最優(yōu)解。與手動(dòng)調(diào)整的啟發(fā)式算法相比,它可以降低約17%的目標(biāo)函數(shù)值;與ILP相比,則能求解更大規(guī)模的網(wǎng)絡(luò)規(guī)劃問題。

胡道允[12]等基于SDN提出了一種基于深度學(xué)習(xí)的流量工程算法(DL-TEA)。在仿真場(chǎng)景下,將該算法與模擬退火和貪婪算法進(jìn)行比較發(fā)現(xiàn),在平均時(shí)延、請(qǐng)求平均占用帶寬和網(wǎng)絡(luò)阻塞率上DL-TEA略差于模擬退火,但優(yōu)于貪婪算法;在耗時(shí)上DL-TEA遠(yuǎn)優(yōu)于模擬退火,略優(yōu)于貪婪算法。這表明DL-TEA不僅能夠?qū)崟r(shí)地為業(yè)務(wù)計(jì)算一條高效的路徑,同時(shí)還能夠提升業(yè)務(wù)的QoS、網(wǎng)絡(luò)資源利用率,降低網(wǎng)絡(luò)阻塞率。

蘭巨龍[13]等為解決SDN場(chǎng)景中QoS優(yōu)化方案常因參數(shù)與網(wǎng)絡(luò)場(chǎng)景不匹配出現(xiàn)性能下降的問題,提出了R-DRL算法。該算法基于LSTM和DDPG,首先統(tǒng)一網(wǎng)絡(luò)資源和狀態(tài)信息,然后通過(guò)LSTM獲取流量的時(shí)序特征,最后使用DDPG生成滿足QoS目標(biāo)的動(dòng)態(tài)流量調(diào)度策略。試驗(yàn)結(jié)果表明,相較于現(xiàn)有算法,R-DRL算法不但保證了端到端傳輸時(shí)延和分組丟失率,而且提高了22.7%的網(wǎng)絡(luò)負(fù)載均衡程度和8.2%的網(wǎng)絡(luò)吞吐率。

Zhang[14]等提出將關(guān)鍵流重新路由強(qiáng)化學(xué)習(xí)(Critical Flow Rerouting-Reinforcement Learning,CFR-RL)方法應(yīng)用于路由規(guī)劃。只對(duì)關(guān)鍵流進(jìn)行重新路由可以縮小對(duì)網(wǎng)絡(luò)流的調(diào)度規(guī)模,減輕大規(guī)模網(wǎng)絡(luò)流調(diào)度產(chǎn)生的負(fù)面影響。由于關(guān)鍵流的搜索空間巨大,且無(wú)法使用基于規(guī)則的啟發(fā)式算法應(yīng)對(duì)動(dòng)態(tài)拓?fù)鋱?chǎng)景,所以選擇強(qiáng)化學(xué)習(xí)作為算法框架。主要使用CFR-RL自動(dòng)在流量矩陣中選取關(guān)鍵流,之后通過(guò)求解簡(jiǎn)單的線性規(guī)劃來(lái)重新路由這些關(guān)鍵流以平衡鏈路的利用率。試驗(yàn)結(jié)果顯示,CFR-RL可以在僅重新路由10%~21.3%全局流量的情況下達(dá)到近似最優(yōu)解。

Sun[15]等提出使用多智能體元強(qiáng)化學(xué)習(xí)(Multi-Agent Meta Reinforcement Learning,MAMRL)解決路由優(yōu)化問題,使用同為分布式無(wú)模型路由算法的深度策略梯度算法與MAMRL進(jìn)行比較。MAMRL得益于與模型無(wú)關(guān)的元學(xué)習(xí),能夠迅速適應(yīng)拓?fù)涓淖兊膱?chǎng)景。為驗(yàn)證MAMRL的性能,使用多個(gè)廣域網(wǎng)拓?fù)溥M(jìn)行模擬,其在數(shù)據(jù)包級(jí)的模擬場(chǎng)景下的結(jié)果顯示:與傳統(tǒng)最短路徑算法和傳統(tǒng)強(qiáng)化學(xué)習(xí)方法相比,即使在需求激增的情況下MAMRL也能顯著降低數(shù)據(jù)包的平均傳輸時(shí)間;與非元深度策略梯度方法相比,在鏈路故障的情況下MAMRL能在較少的迭代次數(shù)內(nèi)可觀地減少數(shù)據(jù)包的丟失數(shù)量,從而降低數(shù)據(jù)包的平均傳輸時(shí)間。

3 IP網(wǎng)絡(luò)優(yōu)化算法面臨的挑戰(zhàn)

數(shù)據(jù)的質(zhì)量和規(guī)模是深度學(xué)習(xí)的基礎(chǔ)。但是在實(shí)踐過(guò)程中,受成本和采集技術(shù)所限,用于深度學(xué)習(xí)的數(shù)據(jù)往往不能達(dá)到預(yù)計(jì)的質(zhì)量和規(guī)模,從而使得深度學(xué)習(xí)模型難以直接適用于現(xiàn)網(wǎng)場(chǎng)景。以流量預(yù)測(cè)為例,流量預(yù)測(cè)是大部分網(wǎng)絡(luò)規(guī)劃和流量工程算法的關(guān)鍵輸入,其準(zhǔn)確度直接影響到其他任務(wù)的結(jié)果。對(duì)于流量預(yù)測(cè)而言,數(shù)據(jù)的采樣間隙越小,預(yù)測(cè)誤差越小,采集成本也會(huì)越高。流量采樣需要消耗一定的帶寬和存儲(chǔ)資源,深度學(xué)習(xí)也要消耗相應(yīng)的算力資源,而在現(xiàn)網(wǎng)中需要實(shí)時(shí)預(yù)測(cè)時(shí),需要盡可能降低算法和模型的復(fù)雜度。如何在低成本和低資源消耗下保持合理的預(yù)測(cè)精度,是現(xiàn)網(wǎng)實(shí)際應(yīng)用中需要考慮的問題。此外,還需考慮相關(guān)的數(shù)字孿生技術(shù),通過(guò)模擬環(huán)境得到一些數(shù)據(jù),也可能通過(guò)數(shù)據(jù)增強(qiáng)等擴(kuò)充數(shù)據(jù),如依靠生成對(duì)抗網(wǎng)絡(luò)來(lái)產(chǎn)生一些數(shù)據(jù)。

另外,深度學(xué)習(xí)類似于“黑盒”,缺乏一定的解釋性,在現(xiàn)網(wǎng)應(yīng)用中會(huì)引入一系列問題,無(wú)法了解算法做出相應(yīng)決策的邏輯。若出現(xiàn)某些應(yīng)用場(chǎng)景失效而造成網(wǎng)絡(luò)故障,不僅會(huì)導(dǎo)致相關(guān)SLA的違背,還可能引發(fā)其他嚴(yán)重后果。此外,網(wǎng)絡(luò)往往是動(dòng)態(tài)變化的,也要求相關(guān)算法和模型具有一定的泛化性。深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的模型中存在大量的超參數(shù),一個(gè)良好的模型通常需要依賴恰當(dāng)?shù)恼{(diào)參才能得到。如何選取合適的算法模型進(jìn)行調(diào)參,是相當(dāng)復(fù)雜的過(guò)程,雖然已有一些自動(dòng)化調(diào)參方法,但尚處于初期階段。因此,如何設(shè)計(jì)出成本較低、具備可解釋性和較好泛化效果的算法和模型,是目前研究的難點(diǎn)。

與此同時(shí),深度學(xué)習(xí)模型在云網(wǎng)邊端的部署和協(xié)同問題需要深入分析;如何融合相關(guān)行業(yè)知識(shí)、結(jié)合傳統(tǒng)優(yōu)化算法使得求解問題更高效,也值得從業(yè)人員進(jìn)行探索。

4 結(jié)束語(yǔ)

本文總結(jié)了深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)目前在IP網(wǎng)絡(luò)優(yōu)化中的相關(guān)算法、模型和應(yīng)用方向,并分析了其主要存在的問題。目前來(lái)看,深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)方法在IP網(wǎng)絡(luò)優(yōu)化相關(guān)場(chǎng)景下的應(yīng)用具備一定優(yōu)勢(shì),并取得了一些積極效應(yīng),但同時(shí)也面臨著數(shù)據(jù)采集難、訓(xùn)練成本高、缺乏可解釋性和泛化能力、真實(shí)場(chǎng)景部署難等問題,需要相關(guān)從業(yè)人員進(jìn)一步的研究和攻克,從而推動(dòng)網(wǎng)絡(luò)智能化的發(fā)展。

猜你喜歡
神經(jīng)網(wǎng)絡(luò)流量深度
冰墩墩背后的流量密碼
玩具世界(2022年2期)2022-06-15 07:35:36
張曉明:流量決定勝負(fù)!三大流量高地裂變無(wú)限可能!
深度理解一元一次方程
尋找書業(yè)新流量
出版人(2020年4期)2020-11-14 08:34:26
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
深度觀察
深度觀察
深度觀察
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
中西区| 安宁市| 清河县| 安达市| 东乡族自治县| 昌吉市| 错那县| 谷城县| 漾濞| 抚州市| 武功县| 新乐市| 汨罗市| 崇文区| 南丰县| 襄城县| 阳西县| 古丈县| 宜都市| 茶陵县| 泌阳县| 麻江县| 繁昌县| 鹿泉市| 余庆县| 廉江市| 天台县| 高阳县| 凤凰县| 丰宁| 康定县| 石狮市| 寻甸| 景德镇市| 山丹县| 深圳市| 清苑县| 多伦县| 怀来县| 裕民县| 金堂县|