基于深度強(qiáng)化學(xué)習(xí)的轉(zhuǎn)發(fā)效能感知流量調(diào)度算法

2022-09-03 10:30:04沙宗軒霍如孫闖汪碩黃韜

通信學(xué)報(bào) 2022年8期

沙宗軒，霍如,2，孫闖，汪碩，黃韜

（1.北京工業(yè)大學(xué)信息學(xué)部，北京 100124；2.網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室,江蘇南京 211111；3.清華大學(xué)自動化系，北京 100084；4.北京郵電大學(xué)網(wǎng)絡(luò)與交換國家重點(diǎn)實(shí)驗(yàn)室，北京 100876）

0 引言

互聯(lián)網(wǎng)日益成為人們生產(chǎn)生活中不可或缺的基礎(chǔ)設(shè)施，隨著網(wǎng)絡(luò)應(yīng)用和服務(wù)的進(jìn)一步發(fā)展，對網(wǎng)絡(luò)數(shù)據(jù)流實(shí)施有效的監(jiān)測管理愈發(fā)重要，研究人員提出了多種類型的流量工程（TE,traffic engineering）技術(shù)以完成網(wǎng)絡(luò)優(yōu)化任務(wù)。流量工程，或稱流量管理，是指針對網(wǎng)絡(luò)中數(shù)據(jù)流的行為進(jìn)行動態(tài)的分析預(yù)測和有目的的管理[1]。在20 世紀(jì)80 年代的異步傳輸模式（ATM,asynchronous transfer mode）網(wǎng)絡(luò)中，擁塞最小化是TE 最常見的目標(biāo)之一[2]。到了20 世紀(jì)90 年代，IP 網(wǎng)絡(luò)逐漸成為主流，TE 常用于路由優(yōu)化；有研究結(jié)合ATM 和IP 的優(yōu)點(diǎn)提出了多協(xié)議標(biāo)簽交換（MPLS,multiprotocol label switching）技術(shù)。與傳統(tǒng)IP 路由方式相比，MPLS 不需要在每一跳都分析IP 報(bào)文頭，節(jié)約了處理時(shí)間。但隨著網(wǎng)絡(luò)需求的不斷變化，以IP 為網(wǎng)絡(luò)層的體系架構(gòu)存在擴(kuò)展性差、缺乏安全機(jī)制、不具備虛擬化特征等問題使其難以持續(xù)發(fā)展[3]。

軟件定義網(wǎng)絡(luò)（SDN,software defined network）將數(shù)據(jù)平面與控制平面分離，為有效解決上述問題提供了思路。一方面，SDN 控制器具有全局視野，可實(shí)現(xiàn)靈活控制流量、降低網(wǎng)絡(luò)運(yùn)營成本以及促進(jìn)網(wǎng)絡(luò)創(chuàng)新[4-5]。該架構(gòu)目前已廣泛部署在Google、微軟、Facebook 等公司的內(nèi)網(wǎng)建設(shè)中。例如，Google 希望通過SDN 使資源利用率提升20%～30%，同時(shí)優(yōu)化網(wǎng)絡(luò)傳輸性能。另一方面，不同廠商的設(shè)備使用統(tǒng)一的編程接口，可以提供充分的開放性。

近年來，SDN 與深度強(qiáng)化學(xué)習(xí)（DRL,deep reinforcement learning）算法的結(jié)合引起了人們的廣泛關(guān)注。DRL 是由深度學(xué)習(xí)（DL,deep learning）[6]與強(qiáng)化學(xué)習(xí)（RL,reinforcement learning）融合產(chǎn)生的智能決策工具[7]。憑借深度模型強(qiáng)大的表示能力，與傳統(tǒng)RL 算法相比，DRL 在處理具有連續(xù)狀態(tài)空間及動作空間的復(fù)雜問題時(shí)具有更好的性能，已被證明是一種可行有效的復(fù)雜系統(tǒng)自主控制解決方案。利用DRL 的優(yōu)勢解決動態(tài)網(wǎng)絡(luò)下的流量調(diào)度問題正成為領(lǐng)域內(nèi)的熱點(diǎn)[8-9]。

提高網(wǎng)絡(luò)資源利用率和改善數(shù)據(jù)傳輸性能對保障網(wǎng)絡(luò)服務(wù)質(zhì)量具有重要意義。Hartman 等[10]指出在資源受限的網(wǎng)絡(luò)環(huán)境中輸出具有最大流量的鏈路集是NP 完全問題。目前解決此問題廣泛使用兩類算法：開路最短路徑優(yōu)先（OSPF,open shortest path first）算法和負(fù)載均衡（LB,load balance）算法，將流量分配到最短路徑或考慮負(fù)載均衡的傳輸路徑上。流量調(diào)度算法通常會面臨以下挑戰(zhàn)。

1)根據(jù)網(wǎng)絡(luò)環(huán)境變化快速調(diào)整策略。由于大量用戶請求的網(wǎng)絡(luò)服務(wù)種類繁多，使網(wǎng)絡(luò)環(huán)境快速變化。在復(fù)雜動態(tài)的網(wǎng)絡(luò)環(huán)境中，傳統(tǒng)基于規(guī)則的啟發(fā)式算法適應(yīng)性較差。各種約束條件也增加了啟發(fā)式流量調(diào)度算法的求解效率。這就要求流量調(diào)度算法必須高效，能夠快速根據(jù)網(wǎng)絡(luò)環(huán)境及時(shí)調(diào)整輸出策略[11-12]。

2)調(diào)度算法需考慮多維因素的影響。基于RL的流量調(diào)度算法可以適應(yīng)動態(tài)變化的網(wǎng)絡(luò)環(huán)境。在目前的研究中，相關(guān)算法常常根據(jù)跳數(shù)、鏈路時(shí)延及擁塞情況等因素產(chǎn)生流量調(diào)度方案。而SDN 架構(gòu)中數(shù)據(jù)包端到端的完整傳輸時(shí)間還包含流量調(diào)度策略生成時(shí)間和數(shù)據(jù)包在交換機(jī)的轉(zhuǎn)發(fā)時(shí)延等，傳統(tǒng)方法考慮因素不足，也導(dǎo)致在復(fù)雜網(wǎng)絡(luò)環(huán)境中流量調(diào)度的性能不是最優(yōu)[13-14]。

3)模型收斂慢且優(yōu)化目標(biāo)單一。在一些利用RL 算法解決網(wǎng)絡(luò)流量調(diào)度的研究中，由于訓(xùn)練初期缺乏知識，智能體在接近隨機(jī)策略的控制下輸出動作，從環(huán)境獲得的正反饋低，導(dǎo)致模型訓(xùn)練速度慢。且由于優(yōu)化目標(biāo)單一，使模型在某一性能方面表現(xiàn)較為突出，而整體網(wǎng)絡(luò)的其他指標(biāo)不穩(wěn)定[15]。

為此，本文針對SDN 架構(gòu)下的流量調(diào)度問題，綜合考慮了交換機(jī)狀態(tài)，如流表項(xiàng)數(shù)量、設(shè)備負(fù)載率及連接主機(jī)數(shù)量等因素對其轉(zhuǎn)發(fā)效能的影響，進(jìn)而影響端到端數(shù)據(jù)傳輸時(shí)延，提出了一種轉(zhuǎn)發(fā)效能感知流量調(diào)度（FEATS,forwarding efficiency aware traffic scheduling）算法。FEATS 算法通過神經(jīng)網(wǎng)絡(luò)對設(shè)備的轉(zhuǎn)發(fā)效能進(jìn)行估計(jì)，并利用DRL 結(jié)合該估計(jì)值和網(wǎng)絡(luò)狀態(tài)信息產(chǎn)生流量調(diào)度策略。具體來說，本文的主要貢獻(xiàn)介紹如下。

1)針對考慮交換機(jī)轉(zhuǎn)發(fā)效能的SDN 流量調(diào)度問題，設(shè)計(jì)了基于DL 的轉(zhuǎn)發(fā)效能估計(jì)模塊，通過采集交換機(jī)狀態(tài)數(shù)據(jù)，對其轉(zhuǎn)發(fā)效能進(jìn)行準(zhǔn)確估計(jì)，為控制器輸出傳輸時(shí)延更低的流量調(diào)度方案提供依據(jù)。

2)提出了FEATS 算法，該算法在考慮SDN架構(gòu)中交換機(jī)轉(zhuǎn)發(fā)效能對數(shù)據(jù)傳輸時(shí)延影響的基礎(chǔ)上，進(jìn)一步結(jié)合流量需求及當(dāng)前網(wǎng)絡(luò)狀態(tài)，實(shí)現(xiàn)對數(shù)據(jù)流更合理的自動化控制與調(diào)度。

3)設(shè)計(jì)了專家樣本產(chǎn)生模塊，利用在同屬性同參數(shù)的平行虛擬網(wǎng)絡(luò)環(huán)境中運(yùn)行具有不同優(yōu)化目標(biāo)的流量調(diào)度算法，如OSPF 和LB 算法，產(chǎn)生專家樣本注入經(jīng)驗(yàn)池。從經(jīng)驗(yàn)池中提取樣本引導(dǎo)模型訓(xùn)練，一方面可以加速模型初期的訓(xùn)練速度，另一方面可以使模型吸取不同優(yōu)化目標(biāo)的專家樣本中包含的經(jīng)驗(yàn)，優(yōu)化模型多方面的性能。

1 相關(guān)工作

傳統(tǒng)基于規(guī)則的流量調(diào)度算法需要對網(wǎng)絡(luò)環(huán)境和流量請求進(jìn)行建模，這種方式在網(wǎng)絡(luò)環(huán)境動態(tài)變化時(shí)暴露出適應(yīng)性差的缺點(diǎn)[16]。因此，基于機(jī)器學(xué)習(xí)的算法成為流量調(diào)度領(lǐng)域的主要工具，其中利用DRL 的自主學(xué)習(xí)機(jī)制，通過構(gòu)建智能體與環(huán)境交互采集狀態(tài)數(shù)據(jù)，在觀察到的網(wǎng)絡(luò)狀態(tài)的基礎(chǔ)上，根據(jù)策略產(chǎn)生一系列行動，即可實(shí)現(xiàn)智能化的流量調(diào)度[17]。目前，對于討論如何在SDN 中進(jìn)行流量調(diào)度相關(guān)工作的主要目標(biāo)集中在降低傳輸時(shí)延和平衡鏈路負(fù)載兩方面，對這兩方面的研究概括如下。

1.1 降低傳輸時(shí)延

網(wǎng)絡(luò)用戶追求更低的數(shù)據(jù)傳輸時(shí)延，以獲得更高的體驗(yàn)質(zhì)量。Huang 等[13]認(rèn)為對數(shù)據(jù)流的控制是優(yōu)化用戶體驗(yàn)質(zhì)量（QoE,quality of experience）的關(guān)鍵問題，其首先利用DRL 動態(tài)分配網(wǎng)絡(luò)資源來實(shí)現(xiàn)QoE 驅(qū)動的無模型流量調(diào)度，利用SDN 控制器具有網(wǎng)絡(luò)的全局視圖以獲取環(huán)境狀態(tài)，輸出數(shù)據(jù)流路徑和明確的帶寬分配。其次，利用QoE 作為獎勵參數(shù)，但頻繁地與用戶進(jìn)行交互是不現(xiàn)實(shí)的，這會使來自用戶的真實(shí)QoE 數(shù)據(jù)反饋周期變長，因此，采用多層神經(jīng)網(wǎng)絡(luò)捕獲特征，將網(wǎng)絡(luò)和應(yīng)用指標(biāo)映射到平均意見評分（MOS,mean opinion score）。利用該模型，可以根據(jù)數(shù)據(jù)流狀態(tài)快速得到MOS 值，支持流量調(diào)度模型的訓(xùn)練。Huang 等[13]進(jìn)一步利用 DDPG（deep deterministic policy gradient）算法將SDN中的數(shù)據(jù)分流問題構(gòu)建為一個(gè)深度強(qiáng)化學(xué)習(xí)模型，該模型將QoS 指標(biāo)作為獎勵函數(shù)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)訓(xùn)練，以優(yōu)化QoS 性能。

Zhang 等[18]提出了一種時(shí)延優(yōu)化的多播樹封裝問題，即交付時(shí)延最小化多播樹封裝（DDMMTP,delivery delay minimized multicast tree packing）。該問題的目標(biāo)是根據(jù)可用網(wǎng)絡(luò)資源，在網(wǎng)絡(luò)帶寬和最大源?目的時(shí)延約束下，最小化平均傳輸時(shí)延。通過利用批量多播樹封裝算法并根據(jù)需要調(diào)整現(xiàn)有多播路徑的網(wǎng)絡(luò)容錯容量改進(jìn)算法來近似求解，提出一種基于可用網(wǎng)絡(luò)資源的源?目的時(shí)延改進(jìn)算法，以進(jìn)一步減少傳輸時(shí)延。

Wu 等[19]提出了一種多信道重分配和流量控制框架，通過在神經(jīng)網(wǎng)絡(luò)中增加 LSTM（long short-term memory）層來提取信道的時(shí)序信息，將每個(gè)信道的預(yù)測流量負(fù)載作為鏈路的狀態(tài)信息之一，結(jié)合丟包率、時(shí)延、吞吐量等數(shù)據(jù)，由多智能體DRL 模型根據(jù)局部狀態(tài)選擇決策，從而實(shí)現(xiàn)最大化吞吐量、最小化丟包率和時(shí)延。

Saha 等[20]針對通用拓?fù)涮岢隽艘环NQoS 感知的流規(guī)則聚合方案，該方案考慮了網(wǎng)絡(luò)應(yīng)用的不同QoS 需求和交換機(jī)的流規(guī)則容量，自適應(yīng)聚合流規(guī)則。實(shí)驗(yàn)結(jié)果顯示，該方案能夠減少22%的平均端到端傳輸時(shí)延。

在復(fù)雜的SDN 中，往往存在多個(gè)控制器應(yīng)對請求。合理的控制器分配方法可以最小化數(shù)據(jù)流設(shè)置時(shí)延，進(jìn)而影響數(shù)據(jù)平面性能。Filali 等[21]將控制器的分配問題表述為基于請求數(shù)量的一對多匹配博弈，并使控制器在滿足最小資源利用率和容量約束的前提下實(shí)現(xiàn)負(fù)載均衡，以最小化控制平面的響應(yīng)時(shí)間。Savas 等[22]考慮了網(wǎng)絡(luò)故障后需要多個(gè)階段恢復(fù)交換機(jī)和控制器之間的控制路徑的問題，提出了一種多級控制路徑恢復(fù)方法。Wang 等[23]結(jié)合隨機(jī)固定水平控制框架，提出了一種結(jié)合匹配理論和聯(lián)盟博弈的控制器分配方法，降低控制器響應(yīng)時(shí)間。Bera 等[24]提出動態(tài)控制器分配方案，考慮了特定的流量需求，利用FlowVisor 模型，構(gòu)建了一個(gè)虛擬平臺，作為SDN 架構(gòu)的控制面和數(shù)據(jù)面之間的管理器，使用動態(tài)穩(wěn)定匹配機(jī)制，通過定義偏好列表以最小化數(shù)據(jù)流設(shè)置時(shí)延和相關(guān)控制開銷。Bouzidi 等[25]動態(tài)計(jì)算控制器的最優(yōu)數(shù)量，確定它們的最優(yōu)位置，同時(shí)將交換機(jī)集劃分為集群，利用DRL 解決分配控制器的優(yōu)化問題。Lin 等[26]提出了最小化控制器選擇機(jī)制，保證控制器的區(qū)域覆蓋率，并利用改進(jìn)的多目標(biāo)人工蜂群算法，根據(jù)實(shí)時(shí)流量判斷需要打開哪個(gè)控制器進(jìn)行數(shù)據(jù)傳輸，大幅降低了傳輸時(shí)延。

1.2 平衡鏈路負(fù)載

對于網(wǎng)絡(luò)管理者來說，在滿足用戶需求的前提下，還需要考慮鏈路負(fù)載均衡，保證網(wǎng)絡(luò)性能長期穩(wěn)定。Zhang 等[11-12]考慮網(wǎng)絡(luò)中由于頻繁重路由帶來的負(fù)面影響，提出了一種針對SDN 流量調(diào)度的強(qiáng)化學(xué)習(xí)方法，該方法可自動選擇流量矩陣中的關(guān)鍵數(shù)據(jù)流，通過有選擇地重路由少數(shù)關(guān)鍵流量，以平衡網(wǎng)絡(luò)的鏈路利用率。

Huang 等[14]針對SDN 和遺留設(shè)備共存的混合環(huán)境給路由策略帶來挑戰(zhàn)的問題，提出一種QoS 優(yōu)化的近似最優(yōu)流量控制方法，利用DRL 輸出多路可拆分路由的流量分流比，在鏈路利用率方面取得了顯著改善。

Zhang 等[15]提出了使用DL 進(jìn)行網(wǎng)絡(luò)內(nèi)容感知以及使用DRL 進(jìn)行流量調(diào)度的方法。作者認(rèn)為SDN 提供對流的控制粒度，但不是對內(nèi)容的適當(dāng)抽象，如帶寬要求很小的圖片和帶寬要求很大的視頻可能具有相同的源地址和目的地址、相同的端口ID 和傳輸協(xié)議。因此，提取網(wǎng)絡(luò)傳輸內(nèi)容的屬性是合理分配帶寬等網(wǎng)絡(luò)資源的關(guān)鍵，在SDN架構(gòu)中，沒有深度數(shù)據(jù)包檢測，控制器很難獲取內(nèi)容屬性。通過DL 模型建立起帶寬需求和內(nèi)容屬性的關(guān)聯(lián)性，將對帶寬的預(yù)測輸入基于DRL 的流量調(diào)度模塊，輸出數(shù)據(jù)流的傳輸路徑。該方法在網(wǎng)絡(luò)吞吐量、帶寬利用率和負(fù)載平衡方面顯著提高了網(wǎng)絡(luò)性能。

Maity 等[27]針對防止控制器過載和優(yōu)化分配流量的問題，根據(jù)馬爾可夫預(yù)測器對設(shè)備移動性的預(yù)測結(jié)果，實(shí)現(xiàn)了流量感知的規(guī)則緩存機(jī)制和主控制器分配方案，降低了23.08%控制流量峰值強(qiáng)度。

以上方法針對不同的優(yōu)化目標(biāo)，利用深度模型強(qiáng)大的特征表達(dá)能力和強(qiáng)化學(xué)習(xí)的自主學(xué)習(xí)機(jī)制，可不需要精確的環(huán)境建模，為數(shù)據(jù)流請求實(shí)時(shí)計(jì)算調(diào)度方案。然而，隨著流表項(xiàng)數(shù)量、設(shè)備負(fù)載率和連接主機(jī)數(shù)等因素變化，SDN 交換機(jī)具有不同的轉(zhuǎn)發(fā)效能，進(jìn)而影響數(shù)據(jù)傳輸。因此，將SDN 交換機(jī)的轉(zhuǎn)發(fā)效能作為影響數(shù)據(jù)傳輸?shù)闹匾蛩?，同時(shí)考慮多維優(yōu)化目標(biāo)，才能夠輸出更合理的流量調(diào)度策略。

2 轉(zhuǎn)發(fā)效能感知流量調(diào)度算法

基于OpenFlow 協(xié)議的SDN 端到端的數(shù)據(jù)傳輸模型如圖1 所示。

圖1 基于OpenFlow 協(xié)議的SDN 端到端的數(shù)據(jù)傳輸模型

當(dāng)主機(jī)1 向主機(jī)2 發(fā)送的數(shù)據(jù)流經(jīng)過交換機(jī)時(shí)，交換機(jī)將數(shù)據(jù)包的匹配域與自身保存的流表項(xiàng)進(jìn)行對比。如果有匹配流表項(xiàng)，根據(jù)對應(yīng)動作執(zhí)行；如果沒有匹配流表項(xiàng)，交換機(jī)和控制器交互PACKET_IN 和PACKET_OUT 消息，數(shù)據(jù)流首個(gè)報(bào)文由交換機(jī)發(fā)送至控制器，控制器在接收到報(bào)文后，根據(jù)轉(zhuǎn)發(fā)策略產(chǎn)生數(shù)據(jù)轉(zhuǎn)發(fā)路徑，并發(fā)送到路徑上的各個(gè)交換機(jī)安裝更新規(guī)則。因此，端到端的數(shù)據(jù)傳輸時(shí)延可表示為

其中，tl為鏈路傳輸時(shí)延，L為鏈路集合，ts為交換機(jī)轉(zhuǎn)發(fā)時(shí)延，S為交換機(jī)集合。數(shù)據(jù)傳輸時(shí)延T為鏈路傳輸時(shí)延和交換機(jī)轉(zhuǎn)發(fā)時(shí)延的總和，且ts與交換機(jī)狀態(tài)緊密相關(guān)。

本文除了考慮網(wǎng)絡(luò)資源和鏈路狀態(tài)等因素外，還綜合考慮了SDN 交換機(jī)的轉(zhuǎn)發(fā)效能對數(shù)據(jù)傳輸效率的影響，結(jié)合深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的特點(diǎn)，提出了FEATS 算法求解該問題。FEATS 算法的整體架構(gòu)如圖2 所示。首先，對于SDN 流量調(diào)度問題，定義網(wǎng)絡(luò)拓?fù)錇闊o向圖Graph=(N,E)，N為節(jié)點(diǎn)集合，E為鏈路集合，從源節(jié)點(diǎn)src 到目的節(jié)點(diǎn)dst 的鏈路為esrc,dst，?esrc,dst∈E。接下來，將對算法中的核心模塊和算法流程進(jìn)行闡述。

圖2 FEATS 算法的整體架構(gòu)

2.1 轉(zhuǎn)發(fā)效能估計(jì)模塊

由于SDN 交換機(jī)的轉(zhuǎn)發(fā)效能與其本身的性能及實(shí)時(shí)狀態(tài)有關(guān)，且這種映射關(guān)系很難通過數(shù)學(xué)多項(xiàng)式精確表達(dá)。因此本文設(shè)計(jì)了一種基于深度學(xué)習(xí)的SDN 交換機(jī)轉(zhuǎn)發(fā)效能估計(jì)模塊。該模塊的輸入向量Intrans=[entriesi,tablei,hostesi,lri,rfi]為SDN 交換機(jī)狀態(tài)參數(shù)，其中，entries 為流表項(xiàng)數(shù)量，table 為流表數(shù)量，hostes 為連接主機(jī)數(shù)，lr 為設(shè)備負(fù)載率，rf 為出入口流量。模塊的輸出向量為Outtrans，表示模塊預(yù)測數(shù)據(jù)包從進(jìn)入交換機(jī)到輸出的完整時(shí)延，其中包含了流表項(xiàng)的匹配時(shí)間，以及當(dāng)接收新數(shù)據(jù)流時(shí)交換機(jī)與控制器的交互時(shí)間。模塊主要由一個(gè)3 層sequential神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。該神經(jīng)網(wǎng)絡(luò)第一層包含5 個(gè)神經(jīng)元，用于接收輸入向量；第二層為全連接層，分別包含64 個(gè)神經(jīng)元，與第一層全連接，激活函數(shù)為ReLU；最后一層包含一個(gè)神經(jīng)元，輸出對交換機(jī)轉(zhuǎn)發(fā)時(shí)延的估計(jì)值。模型以均方誤差（MSE,mean square error）作為損失函數(shù)，表示為

其中，n為樣本數(shù)量，Outtrans,i為模型輸出估計(jì)值，tin,i和tout,i分別為數(shù)據(jù)包進(jìn)出交換機(jī)的時(shí)刻。隨著最小化損失函數(shù)通過反向傳播更新模型參數(shù)，模型估計(jì)的轉(zhuǎn)發(fā)時(shí)延與真實(shí)值逐漸接近。

2.2 流量調(diào)度模塊

為了解決動態(tài)復(fù)雜環(huán)境下的流量調(diào)度問題，本節(jié)將引入基于深度強(qiáng)化學(xué)習(xí)的流量調(diào)度算法。在一個(gè)典型的強(qiáng)化學(xué)習(xí)模型中，智能體與環(huán)境交互，利用狀態(tài)（state）、策略（policy）、動作（action）和獎勵（reward）逐步實(shí)現(xiàn)優(yōu)化目標(biāo)。定義智能體的狀態(tài)空間為S，動作空間為A。具體來說，在每個(gè)時(shí)間步t，智能體首先觀察當(dāng)前狀態(tài)st∈S，結(jié)合自身策略π產(chǎn)生對應(yīng)動作at∈A，通過執(zhí)行該動作實(shí)現(xiàn)智能體與環(huán)境的互動，獲得獎勵rt并同時(shí)觀察到下一個(gè)狀態(tài)st+1。通過構(gòu)建四元組以最大化未來的累計(jì)獎勵的期望E(Rt)為目標(biāo)調(diào)整模型參數(shù)。E(Rt)可表示為

其中，T為迭代上限，t為當(dāng)前時(shí)間步，γ∈[0,1]為折扣因子，γ越大表示算法越重視長期的累計(jì)獎勵，γ越小則反之。在本文的研究場景中，狀態(tài)、動作和獎勵的具體含義如下所示。

狀態(tài)（state）。狀態(tài)是指在時(shí)刻t時(shí)，SDN 交換機(jī)的轉(zhuǎn)發(fā)效能Outtrans、鏈路的傳輸時(shí)延dt、丟包率lt和網(wǎng)絡(luò)抖動jt，用向量st表示，即st=[Outtrans,dt,lt,jt]。若令拓?fù)渲薪粨Q機(jī)數(shù)量為m，源節(jié)點(diǎn)src 和目的節(jié)點(diǎn)dst 間可用的鏈路數(shù)為e，則st為3e+m維向量。

動作（action）。動作是指智能體根據(jù)策略π和狀態(tài)st生成的流量調(diào)度方案，即數(shù)據(jù)流最優(yōu)的轉(zhuǎn)發(fā)路徑，動作向量可表示為策略π和狀態(tài)st的函數(shù)，如式(4)所示。at=[e1,e2,…,el]用于表示輸出的可用傳輸路徑。

獎勵（reward）。獎勵是指環(huán)境針對智能體的行為做出的反饋，用于表示所執(zhí)行動作的好壞，同時(shí)也體現(xiàn)了模型訓(xùn)練的目標(biāo)。流量調(diào)度模塊中獎勵函數(shù)定義為

其中，U表示當(dāng)前網(wǎng)絡(luò)環(huán)境下各鏈路利用率的矩陣，D表示對應(yīng)流量需求的傳輸時(shí)延矩陣，Dsrc,dst表示從源節(jié)點(diǎn)src 到目的節(jié)點(diǎn)dst 的特定數(shù)據(jù)流的傳輸時(shí)延。算法的目標(biāo)是使獎勵最大化，即使當(dāng)前網(wǎng)絡(luò)中的最大鏈路利用率和端到端傳輸時(shí)延盡可能小。

深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法分為基于策略的算法和基于價(jià)值的算法，而將2 種方法結(jié)合起來就是Actor-Critic 算法。該算法由Actor 和Critic 這2 個(gè)神經(jīng)網(wǎng)絡(luò)組成，Actor 網(wǎng)絡(luò)負(fù)責(zé)生成動作并和環(huán)境交互，產(chǎn)生四元組作為訓(xùn)練數(shù)據(jù)，而Critic 網(wǎng)絡(luò)負(fù)責(zé)評估Actor 的表現(xiàn)。

具體來說，此模塊中的Actor 網(wǎng)絡(luò)由3 層構(gòu)成，分別包含3e+m、128 和e個(gè)神經(jīng)元，其中，e和m分別為源節(jié)點(diǎn)src 和目的節(jié)點(diǎn)dst 間可用的鏈路數(shù)和拓?fù)渲邪慕粨Q機(jī)數(shù)。第一層3e+m神經(jīng)元數(shù)量與DRL 狀態(tài)向量st=[Outtrans,dt,lt,jt]的維度對應(yīng)。模塊后兩層為全連接層，激活函數(shù)分別為ReLU 和softmax。Critic 網(wǎng)絡(luò)由3 層構(gòu)成，分別包含e、128和一個(gè)神經(jīng)元，后兩層為全連接層，激活函數(shù)使用ReLU，損失函數(shù)為Huber。令A(yù)ctor 網(wǎng)絡(luò)的參數(shù)為θ，Critic 網(wǎng)絡(luò)的參數(shù)為w，則Actor 網(wǎng)絡(luò)的參數(shù)更新計(jì)算式為

其中，?θlogπθ(St,At)是策略梯度的分值函數(shù)，α是學(xué)習(xí)率，δ(t)是TD-error，γ是折扣率。Critic 網(wǎng)絡(luò)使用Huber 損失函數(shù)作為參數(shù)w的梯度更新，該損失函數(shù)為

其中，λ為超參數(shù)，當(dāng)|Ocri–Rt|≤λ時(shí)，損失函數(shù)等價(jià)為MSE；反之則等價(jià)于平均絕對誤差（MAE,mean absolute error），該方法同時(shí)具備MSE 和MAE這2 種損失函數(shù)的優(yōu)點(diǎn)，能夠降低奇異點(diǎn)數(shù)據(jù)對擬合效果的影響。

2.3 專家樣本產(chǎn)生模塊

本文提出的FEATS 算法中的流量調(diào)度模塊是基于DRL 實(shí)現(xiàn)的。在復(fù)雜環(huán)境下，面臨獎勵稀疏的問題，即模型在訓(xùn)練初期執(zhí)行隨機(jī)策略，難以學(xué)習(xí)到有效的知識，導(dǎo)致模型訓(xùn)練時(shí)間增加。

FEATS 算法設(shè)計(jì)了專家樣本產(chǎn)生模塊，即構(gòu)建和網(wǎng)絡(luò)拓?fù)渚哂邢嗤Y(jié)構(gòu)、參數(shù)和狀態(tài)的并行虛擬環(huán)境。令初始網(wǎng)絡(luò)拓?fù)錇镚raph=(N,E)，則平行網(wǎng)絡(luò)拓?fù)?Graph=(N,E)。在中運(yùn)行最短路徑和負(fù)載均衡算法，生成具有相同格式的四元組作為專家樣本，其中

其中，at是控制器利用最短路徑和負(fù)載均衡算法的策略πex，根據(jù)當(dāng)前狀態(tài)st產(chǎn)生的流量調(diào)度方案。

將專家樣本和由智能體與環(huán)境交互產(chǎn)生的一般樣本分別放入專家樣本經(jīng)驗(yàn)池和一般樣本經(jīng)驗(yàn)池中，利用隨機(jī)采樣方法從上述2 個(gè)經(jīng)驗(yàn)池中抽取樣本組成mini-batch 用于模型訓(xùn)練。通過控制隨機(jī)采樣因子逐漸遞減，實(shí)現(xiàn)mini-batch 中專家樣本數(shù)量隨著訓(xùn)練過程逐漸降低。該模塊的主要作用介紹如下。1)在訓(xùn)練初期，利用更多的專家樣本引導(dǎo)模型訓(xùn)練，一方面，可加速模型在訓(xùn)練初期的學(xué)習(xí)速度。由于RL 智能體在訓(xùn)練初期由于缺乏知識，自身策略接近于隨機(jī)策略，輸出的動作無法從環(huán)境中獲得足夠的正反饋，因此僅靠智能體與環(huán)境交互產(chǎn)生的樣本進(jìn)行訓(xùn)練的效率較低。另一方面，專家樣本也可輔助模型學(xué)習(xí)到專家樣本中的知識，實(shí)現(xiàn)多目標(biāo)優(yōu)化。2)在訓(xùn)練后期，即在智能體學(xué)習(xí)到了專家樣本的知識后，降低專家樣本在mini-batch 中的比例，發(fā)揮RL 算法在環(huán)境中探索的能力，增加智能體學(xué)習(xí)到綜合性能高于單一性能優(yōu)秀的專家樣本知識的概率，實(shí)現(xiàn)FEATS 算法的優(yōu)化目標(biāo)。

3 算法設(shè)計(jì)與實(shí)現(xiàn)

為了解決上述流量調(diào)度問題，本文提出FEATS算法，首先使用基于DL 的轉(zhuǎn)發(fā)效能估計(jì)模塊預(yù)測SDN 交換機(jī)轉(zhuǎn)發(fā)時(shí)延，之后將該估計(jì)值作為輸入變量傳遞給基于DRL 的流量調(diào)度模塊，使控制器輸出的最優(yōu)決策受到該估計(jì)值的影響。

3.1 交換機(jī)轉(zhuǎn)發(fā)效能估計(jì)

在FEATS 中，利用DL 強(qiáng)大的表示能力擬合交換機(jī)的轉(zhuǎn)發(fā)效能和多維狀態(tài)數(shù)據(jù)之間映射關(guān)系。轉(zhuǎn)發(fā)效能估計(jì)算法的訓(xùn)練流程如算法1 所示。

隨著對流量需求的執(zhí)行，可以獲取數(shù)據(jù)流傳輸路徑上交換機(jī)的狀態(tài)信息及轉(zhuǎn)發(fā)時(shí)延，根據(jù)模塊輸出估計(jì)結(jié)果，通過最小化損失函數(shù)調(diào)整模型參數(shù)以提升預(yù)測準(zhǔn)確度。

3.2 轉(zhuǎn)發(fā)效能感知流量調(diào)度

在估計(jì)交換機(jī)轉(zhuǎn)發(fā)效能后，F(xiàn)EATS 根據(jù)該估計(jì)值和當(dāng)前網(wǎng)絡(luò)狀態(tài)，針對流量需求產(chǎn)生對應(yīng)的調(diào)度策略。基于深度強(qiáng)化學(xué)習(xí)的智能流量調(diào)度算法流程如算法2 所示。定義當(dāng)前的訓(xùn)練時(shí)長為timer，模型訓(xùn)練時(shí)間上限為DT，一次迭代內(nèi)最大時(shí)間步上限為T。定義random(α)為隨機(jī)采樣方法，隨機(jī)采樣因子α∈(0,1)，表示以α為概率抽取樣本。

FEATS 在同參數(shù)同狀態(tài)的虛擬環(huán)境中運(yùn)行最短路徑和負(fù)載均衡算法，由此產(chǎn)生專家樣本及其自身與環(huán)境交互產(chǎn)生的數(shù)據(jù)共同組成訓(xùn)練集，在隨機(jī)因子α的作用下從中采樣。隨著α逐漸降低，算法抽取到專家樣本的概率減小，即專家樣本在訓(xùn)練初期對模型的影響大，不僅可以加速訓(xùn)練速度，也可使模型學(xué)習(xí)到專家樣本中的知識，而在訓(xùn)練后期更強(qiáng)調(diào)模型自身對環(huán)境的“探索”。模型根據(jù)交換機(jī)狀態(tài)預(yù)測數(shù)據(jù)包經(jīng)過該設(shè)備轉(zhuǎn)發(fā)時(shí)產(chǎn)生的時(shí)延，輸出綜合考慮傳輸時(shí)延和網(wǎng)絡(luò)負(fù)載均衡的流量調(diào)度方案。

4 仿真分析

為了驗(yàn)證FEATS 算法的性能，本節(jié)通過實(shí)驗(yàn)仿真將其與迪杰斯特拉（Dijkstra）算法、輪詢（Round Robin）調(diào)度算法及加權(quán)最小連接（Weighted Least Connection）調(diào)度算法的評價(jià)指標(biāo)對比。

1)Dijkstra 算法是OSPF 協(xié)議的核心算法，使用廣度優(yōu)先搜索解決賦權(quán)有向圖或者無向圖的單源最短路徑問題。

2)Round Robin 是一種以輪詢方式將負(fù)載請求分配給設(shè)備的負(fù)載均衡調(diào)度算法。

3)Weighted Least Connection 可為設(shè)備賦值權(quán)重，算法通過連接數(shù)和權(quán)重調(diào)整設(shè)備被輪詢到的概率，以實(shí)現(xiàn)更平均的負(fù)載均衡。

本節(jié)實(shí)驗(yàn)利用Mininet 和Python 構(gòu)建實(shí)驗(yàn)環(huán)境及采集數(shù)據(jù)，使用Ryu 作為SDN 控制器，通過Iperf工具產(chǎn)生數(shù)據(jù)流。FEATS 模型采用Keras 實(shí)現(xiàn)，Keras 是一種基于Tensorflow 的高階API。服務(wù)器硬件配置及軟件版本如表1 所示。

表1 服務(wù)器硬件配置及軟件版本

本文從SNDLib 獲取GEANT 網(wǎng)絡(luò)拓?fù)浜土髁啃枨螅撏負(fù)渚哂?2 個(gè)節(jié)點(diǎn)及72 條鏈路。初始化實(shí)驗(yàn)參數(shù)，隨機(jī)采樣因子α=0.9，各節(jié)點(diǎn)根據(jù)高斯分布隨機(jī)產(chǎn)生流表項(xiàng)及流表數(shù)量，設(shè)置最小傳輸時(shí)延為1 ms，最大傳輸時(shí)延為200 ms。

4.1 算法評價(jià)指標(biāo)

本文提出的FEATS 算法由于考慮了設(shè)備轉(zhuǎn)發(fā)效能，并且由最短路徑和負(fù)載均衡算法產(chǎn)生的專家樣本訓(xùn)練，可輸出綜合考慮了網(wǎng)絡(luò)負(fù)載均衡的最短傳輸時(shí)延的流量調(diào)度方案。因此，實(shí)驗(yàn)部分針對以下評價(jià)指標(biāo)進(jìn)行對比分析。令F為流量需求矩陣，f∈F為單個(gè)流量需求命令，n為流量需求命令的數(shù)量，L為全部交換機(jī)負(fù)載率矩陣，lr∈L為交換機(jī)負(fù)載率，m為交換機(jī)數(shù)量。

平均跳數(shù)為

其中，numhop為完成流量需要跳轉(zhuǎn)的設(shè)備數(shù)量，每經(jīng)過一臺交換機(jī)，numhop加1。

平均傳輸時(shí)延為

其中，tend和tstart分別為數(shù)據(jù)包從發(fā)送端發(fā)出和到目的端接收的時(shí)刻。

最大負(fù)載率為

其中，max 函數(shù)為獲取L中的最大值，即計(jì)算各算法在執(zhí)行流量需求的過程中全部交換機(jī)的負(fù)載率最大值。

負(fù)載率方差為

式(13)用于計(jì)算各算法在執(zhí)行流量需求的過程中各交換機(jī)負(fù)載率方差的最大值。該指標(biāo)越大，表示各交換機(jī)之間負(fù)載率的差異越大，反之則表示負(fù)載率越均衡。

4.2 專家樣本產(chǎn)生模塊支持模型訓(xùn)練效果分析

FEATS 算法中設(shè)計(jì)了專家樣本產(chǎn)生模塊，在同結(jié)構(gòu)同參數(shù)的虛擬環(huán)境中，利用成熟的算法產(chǎn)生專家樣本，幫助算法學(xué)習(xí)到對應(yīng)方面的知識，加速模型在訓(xùn)練初期的訓(xùn)練效率。本節(jié)實(shí)驗(yàn)通過控制有無專家樣本產(chǎn)生模塊參與訓(xùn)練，驗(yàn)證該模塊對模型訓(xùn)練的影響。無專家樣本模塊支持的FEATS 算法在實(shí)驗(yàn)中用“FEATS 無專家樣本”表示。同時(shí)，本節(jié)實(shí)驗(yàn)還與同屬 Actor-Critic 架構(gòu)的 A3C（asynchronous advantage actor-critic）和DDPG（deep deterministic policy gradient）算法進(jìn)行了更廣泛的分析對比。在實(shí)驗(yàn)環(huán)境中部署上述4 種算法，分別進(jìn)行20 次實(shí)驗(yàn)，收集模型從環(huán)境中獲取的累計(jì)獎勵值。平均獎勵值對比結(jié)果如圖3 所示。

圖3 平均獎勵值對比結(jié)果

從圖3 可以看出，F(xiàn)EATS 算法的訓(xùn)練效率高于FEATS 無專家樣本、A3C 和DDPG 算法的情況。FEATS、A3C 和DDPG 都是基于DRL 的算法，在復(fù)雜環(huán)境中同樣面臨獎勵稀疏的問題，表現(xiàn)為模型訓(xùn)練的前中期很難獲得有效的正反饋，使獎勵值難以擴(kuò)展至環(huán)境的大部分狀態(tài)。圖3 中的結(jié)果顯示，F(xiàn)EATS 無專家樣本、A3C 和DDPG 算法在第1～2 000 次迭代期間獲取的獎勵值在較低水平浮動，說明模型輸出的動作難以獲得環(huán)境給予的正反饋，導(dǎo)致模型在前中期訓(xùn)練效率低，并分別在迭代4 439 次、3 485 次、4 101 次后收斂。對于有專家樣本支持的情況，由成熟的算法產(chǎn)生的動作在訓(xùn)練初期就可以獲得較高的獎勵值，縮短了FEATS 在沒有足夠知識的情況下盲目探索的過程，使模型在迭代3 295 次后完成訓(xùn)練。DDPG 具有經(jīng)驗(yàn)回放功能，但訓(xùn)練樣本來自自身與環(huán)境交互，相當(dāng)于FEATS 算法中的一般樣本，其功能更多是為了打破數(shù)據(jù)相關(guān)性，在訓(xùn)練初期對加速模型收斂的影響不大。A3C 通過異步方式執(zhí)行多個(gè)Actor 進(jìn)行學(xué)習(xí)，并行的方式對加速模型訓(xùn)練起到了一定的積極效果，但在初期依然難以獲得正反饋。本節(jié)實(shí)驗(yàn)證明了專家樣本產(chǎn)生模塊使FEATS 模型訓(xùn)練效率提升了25.78%。

4.3 數(shù)據(jù)傳輸性能對比分析

路由跳數(shù)和數(shù)據(jù)傳輸時(shí)延是評價(jià)數(shù)據(jù)傳輸性能的重要指標(biāo)。本節(jié)實(shí)驗(yàn)在GEANT 拓?fù)渲袌?zhí)行流量需求指令，記錄各算法完成流量需求的平均跳數(shù)和平均傳輸時(shí)延，實(shí)驗(yàn)結(jié)果如圖4 所示。

圖4 數(shù)據(jù)傳輸性能對比

圖4(a)顯示出Dijkstra 作為一種最短路徑算法，在平均跳數(shù)方面取得了最好的性能，為3.77；負(fù)載均衡算法Round Robin 和Weighted Least Connection的平均跳數(shù)分別為4.72 和9.75。在平均傳輸時(shí)延方面，如圖4(b)所示，Dijkstra 為15.61 ms，Round Robin和Weighted Least Connection 分別為20.38 ms 和23.56 ms。

本文提出的FEATS 算法的平均跳數(shù)為4.13，平均傳輸時(shí)延為13.22 ms，較Dijkstra 算法分別增加了9.55%及降低了15.31%，呈現(xiàn)出跳數(shù)高、傳輸時(shí)延低的結(jié)果。這是因?yàn)樵跀?shù)據(jù)轉(zhuǎn)發(fā)過程中，交換機(jī)具有不同數(shù)量的流表項(xiàng)和連接主機(jī)數(shù)以及不同程度的負(fù)載等因素，使其轉(zhuǎn)發(fā)效能呈現(xiàn)較大差異。FEATS 算法的轉(zhuǎn)發(fā)效能估計(jì)模塊預(yù)測的轉(zhuǎn)發(fā)時(shí)延最小值為0.9 ms，最大值為9.3 ms。因此，存在在跳數(shù)最少的數(shù)據(jù)傳輸路徑上某些交換機(jī)的轉(zhuǎn)發(fā)時(shí)延較高的情況。FEATS 算法可以有效感知交換機(jī)的轉(zhuǎn)發(fā)效能，在預(yù)測到交換機(jī)的轉(zhuǎn)發(fā)時(shí)延較高時(shí)，選擇跳數(shù)多但交換機(jī)可以更快完成數(shù)據(jù)轉(zhuǎn)發(fā)的路徑，從而實(shí)現(xiàn)更低的傳輸時(shí)延。

4.4 負(fù)載均衡性能對比分析

最短路徑算法往往僅考慮數(shù)據(jù)傳輸效率，導(dǎo)致不同重要程度的鏈路和節(jié)點(diǎn)之間負(fù)載率差距較大，不利于網(wǎng)絡(luò)整體性能和穩(wěn)定性。各算法執(zhí)行流量需求指令時(shí)，交換機(jī)的負(fù)載均衡性能對比如圖5 所示。

圖5(a)顯示了FEATS、Dijkstra、Round Robin和Weighted Least Connection 的最大負(fù)載率分別為78.92%、75.73%、79.07%和85.14%。其中，Dijkstra算法的最大負(fù)載率最低，主要原因是該算法的目標(biāo)為經(jīng)過數(shù)量最少的交換機(jī)完成數(shù)據(jù)傳輸，因此在執(zhí)行相同的流量需求時(shí)，全部交換機(jī)的負(fù)載率總和最低。Round Robin 和Weighted Least Connection 需要考慮負(fù)載均衡，輸出的傳輸路徑通常要比Dijkstra算法的更長，導(dǎo)致網(wǎng)絡(luò)整體的負(fù)載率有所增加。

在負(fù)載均衡方面，如圖5(b)所示，負(fù)載率方差反映了交換機(jī)負(fù)載率的差異性。FEATS、Dijkstra、Round Robin 和Weighted Least Connection 的最大負(fù)載率方差分別為7.39%、8.93%、7.21%和6.51%。Dijkstra 算法雖然產(chǎn)生最短傳輸路徑，但輸出的路徑可能頻繁經(jīng)過在網(wǎng)絡(luò)拓?fù)渲姓紦?jù)重要位置的節(jié)點(diǎn)，而邊界節(jié)點(diǎn)常處于閑置或低負(fù)載狀態(tài)，造成節(jié)點(diǎn)負(fù)載率差距較大，在圖5(b)中表現(xiàn)為最大負(fù)載率方差最大。Round Robin 按順序調(diào)度流量，起到了負(fù)載均衡的作用，其最大負(fù)載率方差與Dijkstra 相比有顯著的降低。Weighted Least Connection 算法由于存在加權(quán)系數(shù)，使流量可以更均勻地調(diào)度到低負(fù)載的交換機(jī)，實(shí)現(xiàn)各設(shè)備之間負(fù)載率更均衡，因此其最大負(fù)載率方差最低。FEATS 算法在負(fù)載均衡方面取得了和Round Robin 算法接近的水平。由于在訓(xùn)練過程中，模型有利用負(fù)載均衡算法產(chǎn)生的樣本參與訓(xùn)練，且rt與最大負(fù)載率緊密相關(guān)，因此，產(chǎn)生的決策也具備較好的負(fù)載均衡效果。

圖5 負(fù)載均衡性能對比

綜合以上結(jié)果分析，本文提出的FEATS 算法可以根據(jù)交換機(jī)狀態(tài)有效估計(jì)交換機(jī)轉(zhuǎn)發(fā)時(shí)延，并基于轉(zhuǎn)發(fā)時(shí)延規(guī)劃更合理的數(shù)據(jù)傳輸路徑。通過利用專家樣本縮短了25.78%的訓(xùn)練時(shí)間，并且實(shí)現(xiàn)了在具備一定負(fù)載均衡效果的基礎(chǔ)上平均降低15.31%的端到端傳輸時(shí)延。

5 結(jié)束語

在SDN 架構(gòu)中，流表項(xiàng)數(shù)量、設(shè)備負(fù)載率及連接主機(jī)數(shù)量增加，會導(dǎo)致SDN 交換機(jī)的轉(zhuǎn)發(fā)效能降低，進(jìn)而影響端到端數(shù)據(jù)傳輸時(shí)延。本文提出的FEATS 算法利用DL 的強(qiáng)大表示能力，建立起SDN 交換機(jī)的多維狀態(tài)數(shù)據(jù)與轉(zhuǎn)發(fā)效能之間的映射關(guān)系，并根據(jù)轉(zhuǎn)發(fā)效能、網(wǎng)絡(luò)狀態(tài)和流量需求輸出兼顧最低時(shí)延和網(wǎng)絡(luò)負(fù)載均衡的流量調(diào)度策略。實(shí)驗(yàn)表明，F(xiàn)EATS 算法的專家樣本產(chǎn)生模塊可提升25.78%的模型訓(xùn)練效率。同時(shí)，由于FEATS算法可以有效評估交換機(jī)轉(zhuǎn)發(fā)效能，端到端傳輸時(shí)延比Dijkstra 算法降低15.31%，負(fù)載均衡性能與Round Robin 算法接近。說明FEATS 算法學(xué)習(xí)到了最短路徑和負(fù)載均衡專家樣本的知識，并在自身獎勵函數(shù)的引導(dǎo)下可以輸出綜合考慮了傳輸時(shí)延和網(wǎng)絡(luò)負(fù)載均衡的流量調(diào)度方案。FEATS 算法對解決SDN 的流量調(diào)度問題、提升網(wǎng)絡(luò)性能有一定的實(shí)用價(jià)值。

需要注意的是，F(xiàn)EATS 算法在實(shí)驗(yàn)環(huán)境下驗(yàn)證了有效性。在實(shí)際場景中，交換機(jī)轉(zhuǎn)發(fā)效能還會額外受到硬件性能和狀態(tài)等多種因素的影響，在針對實(shí)際場景調(diào)整模型輸入維度后，可更好地滿足實(shí)際使用需求。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡