王軍選,趙 縣,王 穎
(1.西安郵電大學(xué) 陜西省信息通信網(wǎng)絡(luò)及安全重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710121;2.北京郵電大學(xué) 信息安全中心,中國 北京100876)
隨著移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展,智能設(shè)備和移動(dòng)應(yīng)用的數(shù)量飛速增長,全球移動(dòng)數(shù)據(jù)流量顯著增加,預(yù)計(jì)到2026年全球移動(dòng)數(shù)據(jù)數(shù)量相較于2021年將增長6倍以上[1]。學(xué)術(shù)界和工業(yè)界為第五代移動(dòng)網(wǎng)絡(luò)(5th Generation Mobile Networks,5G)提出了兩種解決方案。第一種解決方案是通過改進(jìn)物理層和介質(zhì)訪問控制(Medium Access Control,MAC)技術(shù)提高許可頻譜利用效率,但當(dāng)前可用頻偏基本已被分配殆盡。第二種解決方案是將蜂窩通信的帶寬擴(kuò)展到現(xiàn)有的未許可頻帶[2]。由于WiFi接入點(diǎn)目前被運(yùn)營商廣泛部署,同時(shí)又具有高帶寬、高移動(dòng)性等特點(diǎn),用WiFi對(duì)蜂窩網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行分流可以解決授權(quán)頻段擁擠的問題,因此很多網(wǎng)絡(luò)選擇研究將WiFi作為異構(gòu)網(wǎng)絡(luò)提供額外頻譜資源的重要候選者[3]。
目前,在異構(gòu)網(wǎng)絡(luò)中網(wǎng)絡(luò)選擇解決方案的研究主要集中在為不同的用戶提供滿足偏好的同時(shí)訪問高質(zhì)量網(wǎng)絡(luò)的機(jī)會(huì)[4]。解決接入網(wǎng)絡(luò)選擇的方法可以分為以網(wǎng)絡(luò)為中心和以用戶為中心兩種。在以網(wǎng)絡(luò)為中心的方法中[5-7],網(wǎng)絡(luò)端決策通過集中控制器進(jìn)行。集中控制器通過用戶報(bào)告的本地信道條件,為用戶分配最匹配的服務(wù)網(wǎng)絡(luò),這種方法要求系統(tǒng)中各種無線接入網(wǎng)絡(luò)之間高度耦合。在以用戶為中心的方法中[8-10],每個(gè)用戶根據(jù)自己的偏好實(shí)現(xiàn)接入網(wǎng)絡(luò)的垂直切換,而無需任何信令開銷或不同接入網(wǎng)絡(luò)之間的協(xié)調(diào),因此以網(wǎng)絡(luò)為中心算法的整體吞吐量優(yōu)于以用戶為中心的算法。由于以網(wǎng)絡(luò)為中心的算法需要網(wǎng)絡(luò)與用戶協(xié)作,因而造成顯著的通信開銷。此外,不同的網(wǎng)絡(luò)運(yùn)營商很少有合作的動(dòng)機(jī)。在以用戶為中心的方法中,用戶自主選擇適合的網(wǎng)絡(luò),可以提供個(gè)性化服務(wù)。
5G采用以用戶為中心的接入網(wǎng)架構(gòu),可以滿足不同的通信需求[11]。文獻(xiàn)[8]提出了一種智能網(wǎng)絡(luò)接入策略,考慮了信道狀態(tài)和網(wǎng)絡(luò)服務(wù)質(zhì)量(Quality of Service,QoS)要求,并根據(jù)用戶訪問請(qǐng)求執(zhí)行網(wǎng)絡(luò)選擇。文獻(xiàn)[9]提出了多用戶深度強(qiáng)化學(xué)習(xí)方案以控制每個(gè)集群中用戶之間的切換,首先集中控制器根據(jù)移動(dòng)模式對(duì)用戶進(jìn)行聚類,再使用強(qiáng)化學(xué)習(xí)為相同群集的用戶獲得最佳切換控制器。在隨機(jī)環(huán)境中,智能體需要長時(shí)間搜索獲得全局最優(yōu)結(jié)果,這會(huì)導(dǎo)致收斂緩慢[10]。
針對(duì)以用戶為中心的方法網(wǎng)絡(luò)吞吐量低、收斂慢的問題,擬提出一種在5G異構(gòu)網(wǎng)絡(luò)場(chǎng)景下,基于Q學(xué)習(xí)(Q-learning)的多業(yè)務(wù)網(wǎng)絡(luò)選擇博弈(Multi-Service Network Selection Game based on Q-learning,QSNG)策略。該策略將通過模糊推理和綜合屬性評(píng)估得到的多業(yè)務(wù)網(wǎng)絡(luò)效用函數(shù)作為Q-learning的獎(jiǎng)勵(lì),以滿足用戶選網(wǎng)Qos偏好。同時(shí),通過博弈算法預(yù)測(cè)Q-learning選網(wǎng)收益,從而避免用戶訪問負(fù)載較重的網(wǎng)絡(luò)。為了驗(yàn)證QSNG策略的有效性,將其與基于Q-learning的網(wǎng)絡(luò)輔助反饋(Reinforcement Learning with Network-Assisted Feedback,RLNF)策略與無線網(wǎng)絡(luò)選擇博弈(Radio Network Selection Games,RSG)策略進(jìn)行比較。
所提QSNG策略的框架采用兩階段決策過程,包括基于Q-learning的多業(yè)務(wù)網(wǎng)絡(luò)選擇(Multi-Service Network Selection based on Q-learning,QSNS)過程和網(wǎng)絡(luò)選擇博弈(Network Selection Game,NSG)兩個(gè)過程。QSNG策略流程如圖1所示。
圖1 QSNG策略流程
QSNS針對(duì)異構(gòu)網(wǎng)絡(luò)中不同用戶業(yè)務(wù)需求,利用模糊過程,得到與QoS相關(guān)的各屬性權(quán)重與各屬性效用函數(shù)。根據(jù)屬性權(quán)重和屬性效用函數(shù)計(jì)算網(wǎng)絡(luò)QoS效用,將QoS效用與網(wǎng)絡(luò)價(jià)格效用的線性組合作為Q-learning的獎(jiǎng)勵(lì)。同時(shí),用戶的狀態(tài)為用戶所連接網(wǎng)絡(luò)的QoS和價(jià)格情況,動(dòng)作為候選網(wǎng)絡(luò)選擇。用戶做切換決策之前,首先判斷此時(shí)策略是否產(chǎn)生更高選網(wǎng)收益,避免接入狀況較差的網(wǎng)絡(luò)。NSG采用了802 .11協(xié)議中分布協(xié)調(diào)功能的思想,通過二進(jìn)制指數(shù)退避策略降低了多個(gè)用戶并發(fā)性接入某一節(jié)點(diǎn)的概率,克服了現(xiàn)有技術(shù)中由于未考慮并發(fā)性接入導(dǎo)致用戶體驗(yàn)差的問題。
在分析網(wǎng)絡(luò)博弈中,根據(jù)MAC協(xié)議將吞吐量模型分為吞吐量-公平模型和比例-公平模型[12]兩類。
模型1吞吐量-公平模型。用戶M連接在網(wǎng)絡(luò)k上獲得的吞吐量取決于連接到相同網(wǎng)絡(luò)的特定用戶的集合,連接到同一網(wǎng)絡(luò)的所有用戶實(shí)現(xiàn)相同的吞吐量。用戶M連接到網(wǎng)絡(luò)k的吞吐量[12]可以表示為
(1)
模型2比例-公平模型。用戶M連接到網(wǎng)絡(luò)k上獲得的吞吐量僅取決于共享相同網(wǎng)絡(luò)的所有用戶的總數(shù)nk,而不是特定的用戶組合。用戶M連接到網(wǎng)絡(luò)k的吞吐量[12]可以表示為
(2)
在高斯假設(shè)下,吞吐量均值等于實(shí)際吞吐量,標(biāo)準(zhǔn)差等于噪聲值e和實(shí)際吞吐量的乘積。因此,用戶M連接到網(wǎng)絡(luò)k的瞬時(shí)吞吐量服從的概率分布為
(3)
將異構(gòu)網(wǎng)絡(luò)中的網(wǎng)絡(luò)選擇問題建模為非合作博弈,其中用戶以分布式方式選擇網(wǎng)絡(luò)以增加其自身的吞吐量。因此,參與者是用戶集合,策略是網(wǎng)絡(luò)選擇結(jié)果。
為了降低模糊規(guī)則的復(fù)雜性,引入了并行模糊推理系統(tǒng)。對(duì)于用戶的不同業(yè)務(wù)請(qǐng)求先得到用戶對(duì)網(wǎng)絡(luò)屬性的偏好,再利用模糊邏輯量化用戶的偏好得到網(wǎng)絡(luò)屬性的權(quán)重。在解模糊過程中,使用模糊評(píng)分法將模糊推理得到的模糊數(shù)轉(zhuǎn)換為對(duì)應(yīng)的明晰數(shù)。最后,計(jì)算出歸一化屬性權(quán)重,用于為特定用戶業(yè)務(wù)計(jì)算不同網(wǎng)絡(luò)QoS的效用。具體的模糊推理系統(tǒng)過程如圖2所示。
圖2 模糊推理系統(tǒng)過程
QoS效用函數(shù)的限制條件如下。
(4)
(5)
(6)
(7)
式中:U(Q)表示QoS效用函數(shù);U(i)表示第i個(gè)QoS屬性的效用函數(shù);H表示QoS屬性的總個(gè)數(shù);xi表示函數(shù)U(i)的自變量。式(5)表明,QoS效用函數(shù)中每個(gè)決策屬性的效用的單調(diào)性與相應(yīng)的決策屬性效用的單調(diào)性一致。
網(wǎng)絡(luò)選擇的決策屬性包括QoS和價(jià)格,根據(jù)決策屬性的效用函數(shù),設(shè)計(jì)網(wǎng)絡(luò)k的網(wǎng)絡(luò)選擇模型的表達(dá)式[13]為
Uk=ωQ·(Uk(b))ωb·(Uk(d))ωd·(Uk(p))ωp·(Uk(j))ωj+ωc·Uk(c)
(8)
式中:Uk(b)、Uk(d)、Uk(p)和Uk(j)分別表示第k個(gè)網(wǎng)絡(luò)的帶寬、時(shí)延、丟包率和抖動(dòng)的效用函數(shù);Uk(c)為第k個(gè)網(wǎng)絡(luò)價(jià)格的效用函數(shù);ωb、ωd、ωp和ωj分別表示通過模糊推理得到的網(wǎng)絡(luò)業(yè)務(wù)對(duì)帶寬、時(shí)延、丟包率和抖動(dòng)的偏好權(quán)重,ωb+ωd+ωp+ωj=1;參數(shù)ωQ和ωc分別為QoS和價(jià)格的權(quán)重,并且ωQ+ωc=1。
在將Q-learning算法應(yīng)用于網(wǎng)絡(luò)選擇前,需要將系統(tǒng)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)等因素映射到實(shí)際的接入模型中,具體的映射過程如下。
1)t時(shí)刻用戶i的狀態(tài)表示為
(9)
2)t時(shí)刻用戶i的動(dòng)作是從服務(wù)列表中選擇合適的服務(wù)網(wǎng)絡(luò),其由WiFi1、WiFi2、5G和長期演進(jìn)(Long Term Evolution,LTE)等4個(gè)部分組成。
3)t時(shí)刻用戶i的獎(jiǎng)勵(lì)表示為
(10)
式中,Uk(t)表示t時(shí)刻用戶i選擇網(wǎng)絡(luò)k的基于業(yè)務(wù)類型的選網(wǎng)效用。
(11)
將網(wǎng)絡(luò)選擇問題建模成非合作網(wǎng)絡(luò)選擇博弈,利用NSG策略輔助Q-learning進(jìn)行網(wǎng)絡(luò)選擇,提升Q-learning選網(wǎng)準(zhǔn)確性,同時(shí)加快收斂速度,文獻(xiàn)[12]證明了NSG策略可以收斂到納什均衡。在任何特定時(shí)間內(nèi),當(dāng)通過QSNS選擇的網(wǎng)絡(luò)吞吐量大于當(dāng)前連接的網(wǎng)絡(luò),才進(jìn)行切換。t+1時(shí)刻參與者i從網(wǎng)絡(luò)v切換到網(wǎng)絡(luò)w,定義預(yù)期的切換收益為
(12)
(13)
式中,λ為切換增益閾值,且λ≥1 。
為了提高策略準(zhǔn)確性,期望吞吐量應(yīng)接近可用吞吐量。但是,如果多個(gè)參與者同時(shí)選擇相同的網(wǎng)絡(luò),則預(yù)期吞吐量和可用吞吐量實(shí)際值可能相差較大,這將導(dǎo)致不好的用戶體驗(yàn)??紤]網(wǎng)絡(luò)上的并發(fā)切換的數(shù)量,類似于802.11協(xié)議中分布式協(xié)調(diào)功能中的二進(jìn)制指數(shù)退避,當(dāng)參與者i發(fā)現(xiàn)網(wǎng)絡(luò)發(fā)生并發(fā)切換,則將其并發(fā)性接入概率設(shè)置為
ρ=ρmi
(14)
式中:0<ρ<1;mi表示參與者i觀察并記錄的過去連續(xù)并發(fā)切換數(shù)量。在QSNG策略中,只有當(dāng)切換后吞吐量提高并且滿足并發(fā)性切換條件時(shí),用戶才會(huì)執(zhí)行切換。
為了驗(yàn)證策略的性能和穩(wěn)定性,采用仿真軟件對(duì)所提策略進(jìn)行仿真。仿真環(huán)境基于由3種網(wǎng)絡(luò)組成的異構(gòu)網(wǎng)絡(luò)區(qū)域,設(shè)置40個(gè)用戶設(shè)備(User Equipment,UE)隨機(jī)分布在網(wǎng)絡(luò)覆蓋區(qū)域,具體的仿真環(huán)境如圖3所示。
圖3 異構(gòu)網(wǎng)絡(luò)仿真環(huán)境
表1 主要仿真參數(shù)
為了比較不同網(wǎng)絡(luò)選擇策略的公平性,采用被廣泛應(yīng)用的Jain公平性指數(shù)[15],其表達(dá)式為
(15)
式中,xi是用戶i的平均吞吐量。根據(jù)定義可知,該值越大,說明系統(tǒng)公平性越高。
為了驗(yàn)證所提策略的性能,將所提策略與以下兩個(gè)策略相比。
1)RLNF策略。使用網(wǎng)絡(luò)輔助信息改善網(wǎng)絡(luò)選擇的性能,該策略收斂于相關(guān)均衡,仿真時(shí)使用Q-learning模擬強(qiáng)化學(xué)習(xí)算法。
2)RSG策略。所有網(wǎng)絡(luò)都將其業(yè)務(wù)量信息推送給所有用戶。在每次迭代時(shí),用戶選擇提供最高吞吐量的網(wǎng)絡(luò),該策略收斂于納什均衡。
通過任選UE3和UE26兩個(gè)用戶驗(yàn)證NSG策略的有效性。兩個(gè)用戶的網(wǎng)絡(luò)選擇結(jié)果具體對(duì)比情況如圖4所示。
圖4 兩個(gè)用戶的網(wǎng)絡(luò)選擇結(jié)果
由圖4(a)和圖4(b)可以看出,UE3頻繁地在4個(gè)網(wǎng)絡(luò)之間切換,而UE26沒有發(fā)生顯著的頻繁切換。由圖4(a)和圖4(c)可以看出,當(dāng)使用了NSG策略之后,UE3的頻繁切換明顯減少,這是由于通過預(yù)先評(píng)估網(wǎng)絡(luò)收益,與其他網(wǎng)絡(luò)相比,5G可以提供更穩(wěn)健的服務(wù)。由圖4(b)和圖4(d)可以發(fā)現(xiàn),利用NSG策略可以減少正常用戶UE26接入非最合適網(wǎng)絡(luò)的數(shù)量并且加速收斂速率。
以會(huì)話業(yè)務(wù)為例,當(dāng)只有40個(gè)用戶時(shí),近37%的用戶選擇訪問5G。隨著網(wǎng)絡(luò)負(fù)載的增加,信道資源可能會(huì)被耗盡,策略只能滿足最低QoS的要求。因此,訪問5G用戶比例逐漸降低,4個(gè)業(yè)務(wù)的網(wǎng)絡(luò)分配比率如圖5所示。
圖5 4個(gè)業(yè)務(wù)網(wǎng)絡(luò)分配比率對(duì)比結(jié)果
由于Q學(xué)習(xí)的隨機(jī)探索和網(wǎng)絡(luò)博弈的影響,當(dāng)用戶數(shù)量增加時(shí),圖5(c)中連接到WiFi1的用戶并不總是減少。由于后臺(tái)業(yè)務(wù)的用戶對(duì)QoS屬性的要求較低,因此用戶傾向于選擇實(shí)惠的網(wǎng)絡(luò),如圖5(d)所示,用戶剛開始就傾向于訪問WiFi1。
總體來說,當(dāng)用戶數(shù)量較少的時(shí)候,系統(tǒng)信道資源足夠多,大部分用戶都可以根據(jù)自己的偏好選擇適合自己業(yè)務(wù)的網(wǎng)絡(luò)。
為了驗(yàn)證QSNG策略吞吐量,將所提QSNG策略與RLNF策略、RSG策略等策略的系統(tǒng)吞吐量進(jìn)行對(duì)比,具體如圖6所示。由圖6可以看出,在RLNF策略中,用戶使用網(wǎng)絡(luò)輔助反饋更準(zhǔn)確地估算其收益函數(shù),由于該策略用戶切換次數(shù)很多,因而損失了部分吞吐量。RSG策略能夠準(zhǔn)確建模每個(gè)用戶的決定對(duì)其他用戶的影響。QSNG策略和RSG策略類似,不同之處在于,QSNG策略可以根據(jù)實(shí)際傳輸情況和用戶業(yè)務(wù)需求動(dòng)態(tài)地調(diào)整信道資源,因此可以獲得較高的吞吐量。由于引入了Q-leaning算法,通過系統(tǒng)學(xué)習(xí),當(dāng)前信道資源被合理地占用,從而減少了信道沖突,提高了信道利用率。
圖6 3種策略的系統(tǒng)吞吐量對(duì)比結(jié)果
通過Jains指數(shù)將3種策略的公平性隨著迭代次數(shù)增加的變化趨勢(shì)進(jìn)行對(duì)比,從而驗(yàn)證QSNG策略的公平性。Jains指數(shù)對(duì)比情況具體如圖7所示。
圖7 Jains指數(shù)對(duì)比結(jié)果
由圖7可以看出,由于上述3種策略都收斂于相應(yīng)的博弈均衡狀態(tài),因此都獲得了非常好的公平性指數(shù)。不同之處在于RLNF策略剛開始公平性波動(dòng)很大,而RSG策略收斂較慢。QSNG策略剛開始就獲得了很好的公平性,而且公平性相比于其他兩種策略來說一直保持在很好的狀態(tài)。
對(duì)于QSNG策略的穩(wěn)定性,可以將所提QSNG策略和其他兩種對(duì)比策略的切換次數(shù)和迭代次數(shù)進(jìn)行對(duì)比,3種策略的切換次數(shù)對(duì)比情況如圖8所示。
圖8 3種策略的切換次數(shù)對(duì)比結(jié)果
由圖8(a)可以看出,3種策略中的用戶都嘗試探索周圍環(huán)境以達(dá)到最終的選網(wǎng)均衡狀態(tài),每次迭代用戶切換次數(shù)越來越少。圖8(b)顯示的切換次數(shù)遠(yuǎn)遠(yuǎn)低于對(duì)比策略,而且策略收斂速度最快。在QSNG策略中,用戶可以根據(jù)QoS效用和價(jià)格函數(shù)確定適合其業(yè)務(wù)的網(wǎng)絡(luò)。因此,用戶可根據(jù)預(yù)測(cè)指標(biāo)訪問更穩(wěn)定的網(wǎng)絡(luò)。此外,用戶可以在執(zhí)行策略之前預(yù)測(cè)網(wǎng)絡(luò)選擇收益,能夠避免切換到重負(fù)載網(wǎng)絡(luò)。QSNG策略還利用二進(jìn)制指數(shù)退避策略顯著減少了并發(fā)切換,避免網(wǎng)絡(luò)擁塞,從而提高了切換增益和服務(wù)質(zhì)量。
針對(duì)5G異構(gòu)網(wǎng)絡(luò)中多業(yè)務(wù)網(wǎng)絡(luò)選擇的問題,提出了一種QSNG策略。在QSNG策略中,通過模糊過程獲得各種業(yè)務(wù)對(duì)網(wǎng)絡(luò)QoS的量化值。然后,將網(wǎng)絡(luò)QoS選擇模型與價(jià)格決策屬性結(jié)合起來以評(píng)估備選接入網(wǎng)絡(luò)。QSNG策略中引入了強(qiáng)化學(xué)習(xí)和博弈算法,不僅考慮了服務(wù)質(zhì)量而且還考慮了負(fù)載選擇網(wǎng)絡(luò),目的是在滿足用戶QoS偏好的同時(shí)最大化平均系統(tǒng)吞吐量。此外,由于博弈算法在選擇網(wǎng)絡(luò)之前已經(jīng)預(yù)估了吞吐量情況,因此可以提升強(qiáng)化學(xué)習(xí)選網(wǎng)準(zhǔn)確性,進(jìn)而加快強(qiáng)化學(xué)習(xí)收斂速度。QSNG策略還考慮了切換效果和并發(fā)性,可以減少不必要的信令開銷并保證切換效果。實(shí)驗(yàn)結(jié)果表明,通過使用所提的QSNG策略,在大多數(shù)情況下可以通過合理數(shù)量的迭代過程實(shí)現(xiàn)全局優(yōu)化。