張志才,張熠寧,付 芳
(1. 山西大學 物理電子工程學院,山西 太原 030006;2. 北京郵電大學 信息與通信工程學院,北京 100876)
車聯網實時視頻流直播服務面對兩個挑戰(zhàn):一是路邊單元覆蓋范圍的有限性與車輛視頻業(yè)務QoS保障的嚴苛之間的矛盾[1]. 由于電磁波在傳播過程的衰減特性,每一個路邊單元對車輛用戶的下行發(fā)送功率在遠距離傳輸后會變得很弱,路邊單元的覆蓋范圍有限,然而,接收端信噪比低不利于視頻業(yè)務QoS保障. 二是按照高峰時段來部署固定數目霧計算節(jié)點導致在車流量小的時段里大部分計算資源被浪費了. 城市車流量在高峰時段(工作日的早7點~8點和下午4點~5點)是低谷時段(工作日的早1點~4點,周六的早2點~4點和周日的早3點~5點)的5倍~8倍[2].
為了應對這些挑戰(zhàn),學術界將公交車作為霧計算節(jié)點,隨著車流量大小而動態(tài)部署霧計算節(jié)點,不僅能避免計算資源的浪費,而且能增大車聯網的覆蓋范圍. 車聯網中將車輛作為霧計算結點已經有了一些研究成果. 文獻[3]針對車輛自組織網(Ad Hoc)場景,提出了一種基于遺傳算法的計算任務卸載方案,實現了計算任務執(zhí)行時間和能量消耗的最小化. 文獻[4]針對高速公路車輛霧計算網絡場景,提出一種能量效率動態(tài)計算卸載和資源分配方案以提高能效和降低時延. 文獻[5]針對停車場車輛霧計算網絡場景,提出一種智慧泊車的新方法,將已停好的車輛作為霧計算節(jié)點來引導正在行駛的車輛盡快找到合適的停車位. 文獻[6]針對車輛視頻業(yè)務,將基站和出租車作為霧計算節(jié)點,其優(yōu)化目標是最小化時延和視頻質量損失. 需要注意的是,上述文獻都是以降低時延為優(yōu)化目標,而且只有文獻[6]考慮的是車聯網視頻業(yè)務,但是其不足之處是其QoS只考慮了視頻質量和時延而沒有考慮視頻抖動,由于車聯網環(huán)境的動態(tài)變化易導致相鄰時隙的比特率發(fā)生變化,進而引起視頻抖動,因此,在車聯網視頻業(yè)務的QoS保障中,視頻質量、時延和抖動都是重要的指標.
關于車聯網視頻業(yè)務中自適應比特率技術,文獻[7]提出一種雙時間尺度的動態(tài)緩存方案,文獻[8]提出一種車載視頻自適應上傳方案,文獻[9,10]將視頻質量和時延分開考慮. 關于車聯網視頻業(yè)務中強化學習算法,文獻[11,12]使用深度Q學習網絡(DQN)算法來優(yōu)化頻譜和計算資源,文獻[13]證明把車載環(huán)境建模為馬爾可夫決策過程(MDP)模型的效果優(yōu)于非MDP模型,文獻[14]研究了最小化所有用戶設備的總下載延遲的D2D緩存問題,文獻[13,14]均采用Q-learning算法來求解. 然而,上述算法大都采用ε-greedy策略進行探索,這種隨機策略的探索能力非常有限,很難找到問題的最優(yōu)解. 為了增強算法的探索性,本文采用最新的深度強化學習算法Soft Actor-Critic求解問題,該算法在ε-greedy策略的基礎上,引入關于動作策略的最大熵目標以提高其探索能力,從而獲得最優(yōu)解.
綜上所述,本文提出一種車輛霧計算網絡中基于Soft Actor-Critic的視頻傳輸方法,采用霧計算網絡和基于HTTP的動態(tài)自適應流(DASH)技術相結合[15],將路邊單元和公交車視為霧計算節(jié)點,核心網發(fā)出的視頻通過霧計算結點傳輸給目標車輛[16],并且將視頻內容編碼成多個比特率的版本,通過聯合優(yōu)化比特率選擇、用戶調度和頻譜資源分配,以最大化視頻質量,同時降低時延和視頻抖動.
圖 1 為城市中車聯網的場景圖,我們將配備LTE-V2X無線接口的路邊單元(RSU)和公交車作為霧計算結點,可以為私家車提供低時延的通信服務. 根據當前的信道條件及自身需要自適應選擇不同比特率的視頻,通過核心網把視頻傳輸到霧節(jié)點,霧節(jié)點再把視頻傳輸到目標車輛. 采用集中式資源分配方式,RSU決定其覆蓋范圍內用戶的資源分配.
圖 1 網絡場景圖
RSU和私家車之間的通信屬于車輛到基礎設施(V2I)通信,它采用LTE-Advanced標準,其鏈路的子載波為2 GHz,而公交車和私家車之間的通信屬于車到車(V2V)通信,它采用專用短距離通信頻帶,其鏈路的子載波為5.9 GHz. 故V2I鏈路和V2V鏈路之間無同頻干擾.
由香農公式可知,V2I和V2V的通信速率為
Gu,k=bu,kB0log(1+γu,k),?u∈U,k∈K.
(1)
V2I鏈路的信干噪比(SINR)為
γu,0=pu,0gu,0/(I+σ2),
(2)
式中:I為其他RSU導致的干擾;σ2為高斯白噪聲功率;pu,0和gu,0分別為V2I鏈路的發(fā)射功率和信道增益.
V2V鏈路的SINR為
(3)
式中:pu,k和gu,k分別為霧節(jié)點k對用戶u的V2V鏈路的發(fā)射功率和信道增益.
(4)
將目標視頻從霧節(jié)點下載到用戶u消耗的時間為
(5)
(6)
式中:參數ξ為正值,并且隨著特定應用的變化而變化.
(7)
視頻被等分成若干小段播放和處理,每一段的播放時間長度為L,在播放一小段視頻流的同時處理下一小段視頻流. 從視頻提供商到霧節(jié)點傳輸消耗的時間不受本文策略影響,因此,處理視頻的時間只考慮霧節(jié)點下行傳輸到車輛的時間Tu(t).保證連續(xù)播放需滿足處理視頻的時間不能超過播放視頻的時間,否則就會產生時延Du(t)
Du(t)=Tu(t)-L.
(8)
設計效用函數
(9)
式中:αu為視頻質量價格;βu為比特率切換價格;ωu為時延價格.
聯合優(yōu)化比特率選擇、車輛調度和頻譜資源分配,在約束條件下最大化效用函數,即
Maximize:Ω,
(10-1)
cu,k∈{0,1},?u∈U,?k∈K,
(10-2)
約束(10-2)表明V2V和V2I兩種通信鏈路,約束(10-3)表明每輛車同時能且只能與一個霧節(jié)點通信,約束(10-4)表明霧節(jié)點k可用來分配給車輛u的頻譜資源有限,約束(10-5)表明目標視頻比源視頻的比特率低.
將上述優(yōu)化問題建模為一個馬爾科夫決策過程MDP〈S,A,r,P〉,其中S表示狀態(tài)空間,包含可用的資源塊數量和下行鏈路的信干噪比;A表示動作空間,包括車輛調度策略、頻譜資源分配策略和視頻比特率選擇策略;P表示狀態(tài)轉移概率函數;r表示執(zhí)行完一個動作后,環(huán)境反饋給智能體的獎勵值,即效用函數的值.
該算法在長期回報的獎勵值中引入熵,尋找最優(yōu)策略π(a|s)使式(11)熵目標最大化.
(11)
式中:γ∈[0,1]為折扣因子;λ為溫度系數,通過調整溫度系數的大小來控制策略的隨機性. 給定初始狀態(tài)和初始動作后,式(11)變換為軟Q值函數,即
Qπ(s,a)=
(12)
狀態(tài)值函數又稱軟V值函數,其與軟Q值函數的關系為
(13)
式(11)的最優(yōu)策略π*為
(14)
?θL(θ)=
(15)
設αc(αc>0)為critic部分的學習率,在梯度下降方向更新參數θ
θ←θ-αc?θL(θ).
(16)
(17)
式中:τ為平滑系數,0<τ<1.
L(?)=
(18)
L(?)的梯度為
??L(?)=
??V?(s)[V?(s)-Qθ(s′,a)+λlogπφ(a|s′)].
(19)
在梯度下降方向更新參數?
?←?-αc??L(?).
(20)
(21)
式中:k∈(0,1)為平滑系數.
Actor部分采用參數為φ的DNN網絡來表示策略分布,通過軟Q值和軟V值函數計算得到的策略來訓練該DNN. 用KL散度最小化式(21)損失函數,從而得到最優(yōu)策略.
L(φ)=E[DKL(πφ(·|s)||π*(·|s))],
(22)
L(φ)=
(23)
L(φ)的梯度為
?φL(φ)=?φλlogπφ(a|s)+
(?aλlogπφ(a|s)-?aQθ(s,a))?φfφ(ξ;s).
(24)
設αa(αa>0)是Actor部分的學習率,在梯度下降的方向更新參數φ
φ←φ-αa?φL(φ).
(25)
在Tensorflow1.14.0平臺上采用Python仿真器進行實驗,場景為一條500 m的城市公路,在一個RSU覆蓋的范圍內隨機分布了4輛公交車和10輛私家車用戶,仿真參數見表1.
表1 仿真參數
圖 2 顯示了當αa=0.000 05、αc=0.05時,隨著私家車用戶數量的增加,視頻比特率分布情況的變化. 由圖可見,當用戶越來越多時,高比特率(2 750 kbps)用戶的比例在降低,低比特率(1 750 kbps、1 250 kbps)用戶的比例在上升. 這是因為頻譜資源是有限的,根據下行鏈路的無線信道環(huán)境和可獲取的頻譜資源后,就需要犧牲視頻比特率的級別以降低視頻抖動.
圖 2 用戶總數變化對接受視頻比特率的影響
圖 3 顯示了Soft Actor-Critic算法、Actor-Critic算法和無學習狀態(tài)下收斂性能的對比. 由圖可見,Soft Actor-Critic算法的收斂最快,而且回合平均獎勵值最高,為0.57,經過20個回合已收斂;普通Actor-Critic性能其次,經過350個回合才收斂,回合平均獎勵值略大于0.48;無學習狀態(tài)的收斂性能最差.
圖 3 算法收斂性能對比
本文提出了一種霧計算輔助車聯網中視頻直播業(yè)務的資源分配方法,聯合優(yōu)化用戶調度、資源分配和視頻比特率選擇,旨在最大化視頻質量,同時降低時延和抖動. 創(chuàng)新點如下:
1)利用霧計算輔助車聯網,將公交車和RSU都視為霧計算結點,將計算和通信資源帶到距離用戶更近的地方以降低時延.
2)設計了一個面向視頻直播業(yè)務的效用函數,將相鄰視頻片段的比特率切換和時延作為懲罰因子,以降低時延和視頻抖動,區(qū)別于現有大多數文獻只考慮提高視頻質量或只考慮降低時延.
3)采用Soft Actor-Critic深度強化學習算法獲得最優(yōu)資源分配策略,算法的收斂性和探索能力更好.