国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

以用戶QoE 預(yù)測值為獎勵(lì)的視頻自適應(yīng)比特率算法

2021-04-09 03:10肖慶宇陳梓晗陳貴豪李陶深
關(guān)鍵詞:函數(shù)算法模型

葉 進(jìn),肖慶宇,陳梓晗,陳貴豪,李陶深

(廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院 南寧 530004)

近年來,基于HTTP 的視頻流觀看需求迅速增長。為了在各種網(wǎng)絡(luò)條件下實(shí)現(xiàn)流暢的視頻播放,客戶端視頻播放器采用自適應(yīng)比特率(adaptive bitrate, ABR)算法來動態(tài)確定每個(gè)視頻塊的比特率以優(yōu)化視頻質(zhì)量。這樣做的目標(biāo)是使視頻比特率適應(yīng)潛在的網(wǎng)絡(luò)條件來最大化用戶的體驗(yàn)質(zhì)量(quality of experience, QoE)。但是由于網(wǎng)絡(luò)流量的高突發(fā)性,為每一個(gè)視頻塊選擇一個(gè)合適的比特率是具有挑戰(zhàn)性的。

國際電信聯(lián)盟(international telecommunication union, ITU)對QoE 進(jìn)行了明確的定義[1],即一個(gè)應(yīng)用或一項(xiàng)服務(wù)的整體可接受性,它由終端用戶的主觀感知決定。當(dāng)QoE 較差時(shí),用戶可能會更早關(guān)閉視頻頁面,這導(dǎo)致視頻內(nèi)容提供方的大量經(jīng)濟(jì)損失。而在視頻傳輸場景下,QoE 是指用戶在某一次觀看視頻后對這次觀看體驗(yàn)的接受性。一些現(xiàn)有研究以評分的形式直接從用戶處獲取QoE,文獻(xiàn)[2]則采用一些應(yīng)用層或網(wǎng)絡(luò)層的指標(biāo)來定義QoE。

現(xiàn)有的ABR 算法采用固定的控制規(guī)則來選擇未來的視頻比特率。但這類方法具有很強(qiáng)的假設(shè)性,難以適應(yīng)不同的網(wǎng)絡(luò)環(huán)境。因此利用強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)生成ABR 的方法被提出,能從零開始學(xué)習(xí)并生成算法而無需任何網(wǎng)絡(luò)假設(shè),這類方法通過提高訓(xùn)練時(shí)的獎勵(lì)值來優(yōu)化神經(jīng)網(wǎng)絡(luò),而獎勵(lì)定義為QoE 函數(shù)。但獎勵(lì)函數(shù)往往被預(yù)先設(shè)置且設(shè)置時(shí)缺乏現(xiàn)實(shí)依據(jù),因此該類基于RL 的方法具有獲得相對良好的獎勵(lì)值的能力,但它們也可能為用戶提供與用戶期望不匹配的觀看體驗(yàn)。

播放視頻時(shí)用戶QoE 受到多種因素影響,以準(zhǔn)確的QoE 值作為RL 訓(xùn)練時(shí)的獎勵(lì),能讓ABR朝著最大化QoE 的方向做出比特率決策。QoE 與視頻播放時(shí)的指標(biāo)密切相關(guān),其中包括視頻播放時(shí)的卡頓持續(xù)時(shí)間、平均播放比特率和比特率的變化值等。恰當(dāng)?shù)莫剟?lì)函數(shù)設(shè)計(jì)能使獎勵(lì)值的變化更貼近真實(shí)用戶的QoE。但如何確定用于ABR 的獎勵(lì),目前缺乏統(tǒng)一的標(biāo)準(zhǔn),而現(xiàn)有方法中的獎勵(lì)函數(shù)在訓(xùn)練之前就被預(yù)先設(shè)置,且設(shè)置過程缺乏描述和依據(jù),無法得知是否與用戶真實(shí)意圖相匹配。

本文提出用戶QoE 預(yù)測網(wǎng)絡(luò)(user QoE prediction network, UQPN),以真實(shí)用戶數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)并預(yù)測用戶QoE 的方法。UQPN 將視頻流狀態(tài)作為輸入,輸出為現(xiàn)在用戶的QoE 預(yù)測分?jǐn)?shù),并以UQPN作為“獎勵(lì)函數(shù)”。本文提出了一種基于RL 的ABR算法,引入U(xiǎn)QPN 加入ABR 訓(xùn)練過程,避免了獎勵(lì)函數(shù)建模的盲目性,從而使ABR 算法可以在滿足用戶要求的方向上進(jìn)行訓(xùn)練。

1 相關(guān)工作

基于客戶端的ABR 算法主要分為兩種類型:基于模型的方法和基于學(xué)習(xí)的方法[3]。

第一類方法考慮了吞吐量的預(yù)測值和視頻緩沖區(qū)大小等因素來選擇比特率。文獻(xiàn)[4]通過過去視頻塊大小和下載時(shí)間預(yù)測網(wǎng)絡(luò)吞吐量,并以此作為未來吞吐量的估計(jì)值,估計(jì)值大時(shí)選擇高視頻比特率。另一些方法通過觀察緩沖區(qū)大小來避免卡頓事件,并以此作為標(biāo)準(zhǔn)為下一個(gè)視頻塊選擇盡可能高的比特率。文獻(xiàn)[5]提出了一個(gè)線性標(biāo)準(zhǔn)閾值來控制可用的播放緩沖區(qū)大小。以model predictive control (MPC)[6]為代表的混合策略綜合考慮了吞吐量預(yù)測值和緩沖區(qū)大小,進(jìn)行下一個(gè)視頻塊的比特率決策。此外,文獻(xiàn)[7]研究了電池電量與移動流媒體QoE 的關(guān)系。文獻(xiàn)[8]提出的Oboe 對現(xiàn)有ABR 策略參數(shù)進(jìn)行自動調(diào)整,使現(xiàn)有算法能夠找到更佳的參數(shù)配置。此類方法往往針對某些網(wǎng)絡(luò)條件,并在具有較強(qiáng)假設(shè)的前提下進(jìn)行設(shè)計(jì),嚴(yán)重依賴于微調(diào)的參數(shù),難以適用于不同的網(wǎng)絡(luò)環(huán)境。

基于學(xué)習(xí)的方法針對上述不足進(jìn)行了改進(jìn),在獲取到不同網(wǎng)絡(luò)條件下的經(jīng)驗(yàn)后,該類算法能夠顯著提高ABR 的性能。D-DASH (a deep Q-learning frame work for dynamic adaptive streaming over HTTP)[9]結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù),利用深度Q-learning 這種基于價(jià)值的強(qiáng)化學(xué)習(xí)方法優(yōu)化視頻的QoE。在相同的網(wǎng)絡(luò)條件下,Tiyuntsong[10]用生成對抗網(wǎng)絡(luò),通過兩個(gè)智能體的競爭來朝著規(guī)則或特定的獎勵(lì)進(jìn)行自我優(yōu)化。Pensieve[11]采用最新的A3C[12]算法生成ABR算法模型,其中包含兩個(gè)神經(jīng)網(wǎng)絡(luò)模型,一個(gè)用于比特率決策,另一個(gè)用于評估當(dāng)前狀態(tài)并給出狀態(tài)價(jià)值,實(shí)驗(yàn)結(jié)果顯示其性能優(yōu)于基于模型的方法。HOT Dash[13]將視頻中的幀區(qū)分為熱點(diǎn)和非熱點(diǎn),并將熱點(diǎn)部分在帶寬允許時(shí)優(yōu)先傳輸,這樣的做法使用戶能夠高質(zhì)量的觀看特定視頻塊。Comyco[14]針對該類方法采樣效率低的缺陷,通過模仿即時(shí)求解器給出的專家軌跡來訓(xùn)練策略,這不僅可以避免多余的探索,還可以更好地利用收集的樣本。

上述方法在訓(xùn)練時(shí)擁有相同的目標(biāo):最大化累計(jì)獎勵(lì)值?;趯W(xué)習(xí)的方法多采用線性QoE 公式作為獎勵(lì)函數(shù),應(yīng)用層的網(wǎng)絡(luò)或播放器參數(shù)作為其輸入,每一項(xiàng)參數(shù)給與固定的權(quán)重以表示對其的重視程度,但是權(quán)重的設(shè)置過程缺乏描述和依據(jù)。因此出現(xiàn)了一些采用機(jī)器學(xué)習(xí)的方法對用戶的QoE進(jìn)行預(yù)測。Video ATLAS[15]是一種機(jī)器學(xué)習(xí)框架,其中結(jié)合了許多與QoE 相關(guān)的特征,包括客觀視頻質(zhì)量、卡頓以及記憶特征進(jìn)行QoE 預(yù)測。在此基礎(chǔ)上,文獻(xiàn)[16]采用非線性自回歸外生模型來在連續(xù)時(shí)間上對QoE 進(jìn)行預(yù)測,在幀級別的粒度上測量QoE,并利用了多模型聯(lián)合預(yù)測來提升準(zhǔn)確率。文獻(xiàn)[17]選擇長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)來捕捉QoE 在時(shí)序上的依賴關(guān)系,并在真實(shí)的用戶數(shù)據(jù)上展現(xiàn)了良好的性能。

綜上,現(xiàn)有強(qiáng)化學(xué)習(xí)的訓(xùn)練目標(biāo)都可以被描述成使預(yù)期的累計(jì)獎勵(lì)值達(dá)到最大化,而基于RL 的ABR 算法輸出比特率決策,視頻播放器以該比特率請求下載下一個(gè)視頻塊。下載完成后狀態(tài)發(fā)生轉(zhuǎn)移,獎勵(lì)函數(shù)以這些狀態(tài)指標(biāo)作為輸入,計(jì)算得到下一步的獎勵(lì)值,從而使算法模型沿著獎勵(lì)值的梯度方向進(jìn)行更新,因此獎勵(lì)函數(shù)的設(shè)置對于算法性能具有重要影響。如果獎勵(lì)函數(shù)設(shè)計(jì)未經(jīng)充分考慮,一般會導(dǎo)致網(wǎng)絡(luò)不收斂,結(jié)果不優(yōu)或者使模型無法按照希望的方法做出決策。

已有基于RL 的ABR 算法均以量化的QoE 作為獎勵(lì)值。QoE 由播放中的指標(biāo)如視頻平均比特率、卡頓時(shí)間、比特率切換值等構(gòu)成,每項(xiàng)指標(biāo)賦予固定的權(quán)重表達(dá)對其重視程度。但由于用戶的主觀因素(如期望、體驗(yàn)經(jīng)歷)和環(huán)境因素,QoE 的量化十分復(fù)雜。獎勵(lì)函數(shù)中權(quán)重的設(shè)置體現(xiàn)了用戶對不同指標(biāo)的傾向,而定量描述用戶對這樣的事件的傾向,用以確定獎勵(lì)函數(shù)的設(shè)置是一項(xiàng)難以實(shí)施的工作。本文認(rèn)為,ABR 算法獎勵(lì)值應(yīng)該體現(xiàn)對播放質(zhì)量變化事件的相應(yīng)懲罰或獎勵(lì),應(yīng)該針對用戶QoE 進(jìn)行大量采樣和訓(xùn)練建模,用以研究用戶QoE 預(yù)測的方法。因此本文提出了UQPN,從用戶數(shù)據(jù)出發(fā)訓(xùn)練得到QoE 預(yù)測模型代替以往的函數(shù),以此網(wǎng)絡(luò)用于訓(xùn)練,能夠獲得更加符合用戶需求的ABR 算法模型。

2 詳細(xì)設(shè)計(jì)

本文提出UQPN 并讓其加入RL 訓(xùn)練過程,因?yàn)镽L 訓(xùn)練的目標(biāo)為最大化累計(jì)獎勵(lì)值,所以有了UQPN 輸出更準(zhǔn)確的QoE 預(yù)測值作為獎勵(lì),可以使ABR 學(xué)會做出令用戶QoE 更佳的比特率決策。據(jù)此設(shè)計(jì)的ABR 算法其整體系統(tǒng)結(jié)構(gòu)如圖1 所示。

圖1 ABR 算法整體結(jié)構(gòu)

該方法采用離線訓(xùn)練模式,在離線仿真器上讀取收集好的數(shù)據(jù)進(jìn)行訓(xùn)練。仿真訓(xùn)練時(shí),設(shè)某一視頻塊下載完成的時(shí)間為t,離線仿真器將不同的狀態(tài)向量st和s′t輸出至UQPN 和ABR 智能體。UQPN接受當(dāng)前狀態(tài)后將用戶QoE 預(yù)測值rt輸出給ABR智能體作為獎勵(lì)用于訓(xùn)練。智能體接收該值并基于該值采用策略梯度法更新神經(jīng)網(wǎng)絡(luò),隨后發(fā)送下一視頻塊的碼率決策at至仿真器,開始下一塊的模擬下載。待訓(xùn)練過程結(jié)束后,將最新的ABR 模型發(fā)送至在線使用的ABR 服務(wù)器進(jìn)行替換,為在線視頻播放器提供自適應(yīng)比特率服務(wù)。與離線訓(xùn)練階段相比,在線應(yīng)用階段則無需獎勵(lì)機(jī)制,由ABR 獲取播放器狀態(tài)并做出碼率決策即可。

2.1 UQPN 設(shè)計(jì)

使用RL 生成ABR 模型時(shí),受到獎勵(lì)函數(shù)建模困難和權(quán)重難以確定的困擾。因此,本節(jié)給出UQPN 的設(shè)計(jì)細(xì)節(jié),該網(wǎng)絡(luò)能夠接收當(dāng)前視頻流狀態(tài)并輸出當(dāng)前QoE 預(yù)測值。訓(xùn)練UQPN 讓其“學(xué)會”捕捉用戶數(shù)據(jù)中潛藏的信息,以UQPN 作為獎勵(lì)能夠使ABR 模型做出更迎合用戶需求的碼率決策。

UQPN 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用具有雙隱藏層的多層感知器(multi-layer perceptron, MLP)結(jié)構(gòu)。MLP是一種前饋人工神經(jīng)網(wǎng)絡(luò),層與層之間的節(jié)點(diǎn)進(jìn)行全連接。每當(dāng)下載完成一個(gè)視頻塊,設(shè)此時(shí)時(shí)刻為t,UQPN 收到狀態(tài)輸入st={x,n,m},x 為已下載完成的上個(gè)視頻塊的比特率;n 為上個(gè)視頻塊的比特率切換值;如果某個(gè)塊的比特率和上一個(gè)塊的比特率不相等,則有第i 個(gè)塊的比特率切換值ni=|xi-xi-1|。比特率切換值越大,代表用戶觀看視頻時(shí)的質(zhì)量波動越大;m 則表示上個(gè)視頻塊播放過程中的卡頓持續(xù)時(shí)間。在特征選擇時(shí),使用Multi-RELIEF[18]方法來篩選特征,它計(jì)算每個(gè)特征對于QoE 貢獻(xiàn)的權(quán)重。其中以現(xiàn)有數(shù)據(jù)集LIVE-NFLXII[19]中記錄的用戶評分作為其觀看的QoE,各個(gè)視頻流中記錄的參數(shù)作為特征來計(jì)算權(quán)重。取權(quán)重值最大的前3 位特征作為狀態(tài)輸入st。接收輸入st后,UQPN 給出當(dāng)前狀態(tài)的QoE 預(yù)測值,即獎勵(lì)值rt。

UQPN 以梯度下降法訓(xùn)練,采用反向傳播的方式更新網(wǎng)絡(luò)節(jié)點(diǎn),使訓(xùn)練集上的累計(jì)誤差不斷減小。訓(xùn)練開始之前,以輸入層的下一層為第一層,為所有節(jié)點(diǎn)隨機(jī)初始化權(quán)重和偏置值。其中設(shè)第i 層的權(quán)重矩陣為Wi、偏置為bi。節(jié)點(diǎn)的激活函數(shù)采用sigmoid,令其為f。于是,第i 隱藏層的節(jié)點(diǎn)激活值為:

式中,xi-1為第i-1 層所有節(jié)點(diǎn)的輸出組成的矩陣。

最終輸出層的激活值為:

式中,L 為神經(jīng)網(wǎng)絡(luò)層數(shù)。

訓(xùn)練時(shí)的損失函數(shù)定義為訓(xùn)練數(shù)據(jù)集之中用戶觀看視頻給出的QoE 得分y 與UQPN 輸出值r 之間差值的平方,并加入正則化項(xiàng)以防止過擬合。訓(xùn)練過程中通過反向傳播算法逐一計(jì)算誤差的偏導(dǎo)數(shù),并以此更新神經(jīng)網(wǎng)絡(luò)參數(shù)來達(dá)到最小化累計(jì)誤差的目標(biāo)。

2.2 基于UQPN 的ABR 算法

在此基礎(chǔ)上,本文提出一種強(qiáng)化學(xué)習(xí)的ABR算法。UQPN 訓(xùn)練完成后,令其加入RL 訓(xùn)練,替代以往的獎勵(lì)函數(shù)給出獎勵(lì)值。該方法的基本訓(xùn)練算法使用A3C,這是一種高效的actor-critic 算法,其中包括用于做出決策的actor 網(wǎng)絡(luò)和預(yù)測狀態(tài)價(jià)值的critic 網(wǎng)絡(luò)。訓(xùn)練時(shí)采用策略梯度算法更新網(wǎng)絡(luò)參數(shù),梯度方向則是能使UQPN 輸出值增加的方向。

在每一個(gè)視頻塊完成下載的時(shí)刻t,actor 網(wǎng)絡(luò)接收狀態(tài)觀察向量s′t并輸出比特率決策at。同樣的,使用Multi-RELIEF 方法篩選特征后,考慮到該方法網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性和客戶端獲取特征的可行性,定義狀態(tài)觀察向量s′t={ot,nt,at,et,τt,B},其中ot為t 之前的k 個(gè)視頻塊的下載時(shí)的吞吐量測量值; nt為t 之前的k 個(gè)視頻塊的大小; at表示t 之前的k 個(gè)視頻塊的比特率; et儲存了t 之前的k 個(gè)視頻塊各自下載時(shí)播放視頻的卡頓時(shí)間; τt為t 之前的k 個(gè)視頻塊的下載時(shí)間;B 為當(dāng)前播放器緩沖區(qū)的大小。

需要注意的是,actor 網(wǎng)絡(luò)的實(shí)際輸出并非某一確定值,而是一個(gè)概率分布。即在某一狀態(tài)下特定比特率被選擇的概率,將其標(biāo)識為π(s′,a),輸入狀態(tài)和動作后輸出概率。而具有可管理的、可調(diào)整的神經(jīng)網(wǎng)絡(luò)權(quán)重集θ 的網(wǎng)絡(luò),標(biāo)識為πθ(s′,a)。因此,訓(xùn)練目標(biāo),即累積獎勵(lì)相對于θ 的梯度可表示為:

因此,actor 網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)權(quán)重集θ 更新公式為:

環(huán)境部署應(yīng)用at后狀態(tài)由s′t轉(zhuǎn)移至s′t+1,s′t+1的預(yù)期獎勵(lì)估計(jì)為V(s′t+1),γ 為未來折扣系數(shù),γ∈[0,1]。γ=1 時(shí)表示未來狀態(tài)和當(dāng)前狀態(tài)同等權(quán)重。而critic 網(wǎng)絡(luò)接收s′t后輸出狀態(tài)價(jià)值V(s′t),以評價(jià)當(dāng)前狀態(tài)好壞。對于critic 網(wǎng)絡(luò)的更新,使用時(shí)序差分法更新所有critic 網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)權(quán)重集θv,對于每次t,critic 估計(jì)值和真實(shí)值之間的誤差可以表示為:

θv的更新公式為:

式中,μ為critic 網(wǎng)絡(luò)的學(xué)習(xí)速率。為提升訓(xùn)練速度,算法使用多個(gè)ABR 智能體并行訓(xùn)練,每個(gè)智能體的輸入不同。默認(rèn)情況下,本文工作按照Pensieve 建議,使用16 個(gè)并行智能體。這樣互不干預(yù)的獨(dú)立訓(xùn)練可獲得不同的經(jīng)驗(yàn)。每個(gè)智能體將其獲得的數(shù)據(jù)發(fā)送給中央智能體,該智能體會對其進(jìn)行匯總以生成一個(gè)ABR 算法模型。對于中央智能體接收到的每組數(shù)據(jù),它都使用actor-critic 算法來計(jì)算梯度并進(jìn)行更新。最后,中央智能體更新actor 網(wǎng)絡(luò),并將新模型返回給其余智能體使用。

2.3 模型更新

當(dāng)前的客戶端視頻播放器網(wǎng)絡(luò)條件多變,且流量行為變化復(fù)雜,為了保證ABR 模型決策的有效性和對環(huán)境變化的適應(yīng)性,算法中設(shè)置了觸發(fā)更換新模型的觸發(fā)機(jī)制。當(dāng)客戶端播放器播放視頻時(shí)記錄其吞吐量,即每次視頻播放完成時(shí)都可以獲得該次播放的網(wǎng)絡(luò)吞吐量追蹤。其次,播放完成或頁面關(guān)閉時(shí),向用戶詢問該次播放的QoE 評分并記錄??紤]到用戶評分收集難度較大,當(dāng)吞吐量追蹤獲取到一定數(shù)量時(shí),離線ABR 智能體在現(xiàn)有模型基礎(chǔ)上進(jìn)一步訓(xùn)練,結(jié)束后則進(jìn)行模型更新,即將剛經(jīng)過訓(xùn)練的ABR 模型部署至在線的ABR 服務(wù)器。具體算法如下。

算法1:ABR 模型更新算法

輸入:吞吐量追蹤向量o,用戶QoE 評分向量N,現(xiàn)有ABR 模型π,UQPN 模型r

輸出:模型更新結(jié)果

初始化更新所需閾值S;

其中S 為模型更新的吞吐量追蹤數(shù)量閾值,該值應(yīng)隨客戶端具體需求變化。當(dāng)客戶端網(wǎng)絡(luò)條件變化較為頻繁時(shí),可以適當(dāng)減小S 以更多地更新模型。網(wǎng)絡(luò)條件較為穩(wěn)定時(shí),可以適當(dāng)增大S 以減少更新次數(shù)。

3 仿真實(shí)驗(yàn)及結(jié)果

本節(jié)首先進(jìn)行了相關(guān)性對比來驗(yàn)證UPQN 的效果,然后對基于UPQN 的RL 獎勵(lì)及其ABR 算法進(jìn)行了對比。其中相關(guān)性對比實(shí)驗(yàn)采用LIVENFLX-II 數(shù)據(jù)集,包括訓(xùn)練所需的視頻流信息和用戶QoE 信息。實(shí)驗(yàn)收集了由15 個(gè)不同類型的視頻、4 種不同的ABR 算法、7 種不同的網(wǎng)絡(luò)狀態(tài)生成的視頻流,以及由65 個(gè)受試者給出的視頻評分。對于每個(gè)視頻流,在連續(xù)時(shí)間上生成了連續(xù)評分。數(shù)據(jù)集記錄了視頻卡頓狀況和多種視頻質(zhì)量評價(jià)指標(biāo)的變化。

對于RL 獎勵(lì)及其ABR 算法,結(jié)合兩個(gè)真實(shí)網(wǎng)絡(luò)帶寬數(shù)據(jù)集進(jìn)行仿真:由FCC 提供的寬帶數(shù)據(jù)集[20]和挪威收集的移動設(shè)備網(wǎng)絡(luò)數(shù)據(jù)集[21]。仿真實(shí)驗(yàn)采用文獻(xiàn)[16]提出的QoE 預(yù)測方法作為評價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)中包含多個(gè)測試視頻流,每個(gè)視頻流均需下載若干個(gè)視頻塊,因此實(shí)驗(yàn)采用每一視頻塊的平均QoE 作為評價(jià)指標(biāo)。

3.1 相關(guān)性對比

UPQN 為雙隱藏層MLP 結(jié)構(gòu),其中將第二隱藏層固定為4 節(jié)點(diǎn),進(jìn)行第一層的節(jié)點(diǎn)實(shí)驗(yàn)性探索,發(fā)現(xiàn)第一隱藏層具有12 節(jié)點(diǎn)時(shí)最優(yōu)。因此論文使用上述UQPN 網(wǎng)絡(luò)結(jié)構(gòu)在數(shù)據(jù)集上進(jìn)行評估。表1 使用了兩個(gè)度量來對比UQPN 模型與其他獎勵(lì)函數(shù)的QoE 預(yù)測的性能:線性相關(guān)系數(shù)(linear correlation coefficient, LCC)以及斯皮爾曼等級相關(guān)系數(shù)(spearman rank order correlation coefficient,SROCC)。LCC 和SROCC 度量的是兩組數(shù)據(jù)之間的相關(guān)程度。對本實(shí)驗(yàn)來說,這兩個(gè)指標(biāo)值越大,預(yù)測的分值和QoE 越接近。

表1 可見經(jīng)過真實(shí)用戶數(shù)據(jù)訓(xùn)練得到的UQPN相比于現(xiàn)有方法的獎勵(lì)函數(shù)平均提升了12%~22.4%的LCC 和11.6%~14.3%的SRCC。

表1 UQPN 與其他獎勵(lì)函數(shù)相關(guān)性對比

3.2 不同RL 獎勵(lì)方法對比

本節(jié)主要考慮以下3 種常用的RL 算法:

Policy-Gradient:使用函數(shù)逼近器明確表示策略,并根據(jù)預(yù)期獎勵(lì)相對于策略參數(shù)的梯度進(jìn)行更新,并證明了具有任意可微函數(shù)逼近器的策略迭代之后可以收斂到局部最優(yōu)策略。

A2C:A2C 是一種改進(jìn)的actor-critic 算法,使用優(yōu)勢函數(shù)代替critic 網(wǎng)絡(luò)中的原始獎勵(lì),可以作為衡量被選取動作值和所有動作平均值好壞的指標(biāo)。

A3C:神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),需要的數(shù)據(jù)是獨(dú)立同分布的,因此A3C 采用異步訓(xùn)練的方法,打破數(shù)據(jù)的相關(guān)性并加速了訓(xùn)練過程。

之后將每種RL 算法中的獎勵(lì)設(shè)定為由3 種方法給出:Pensieve、Comyco 和UQPN。其中前兩者均為線性函數(shù),由播放中比特率、卡頓時(shí)間等指標(biāo)與固定權(quán)重的乘積組成。實(shí)驗(yàn)中RL 智能體采用的輸入與Pensieve 中一致,并設(shè)置所有ABR 模型訓(xùn)練次數(shù)為10 000 次。實(shí)驗(yàn)中訓(xùn)練、測試數(shù)據(jù)均為離線仿真器讀取網(wǎng)絡(luò)帶寬數(shù)據(jù)并模擬下載特定視頻得出。

如圖2 所示,在兩種用于測試的網(wǎng)絡(luò)帶寬數(shù)據(jù)下,與Pensieve、Comyco 提出的獎勵(lì)函數(shù)相比,UQPN 在3 種不同的RL 算法上的性能均更優(yōu),展現(xiàn)了良好的泛化能力。在A3C 方法上UQPN 的優(yōu)勢最為明顯,相比另外兩種方法的平均歸一化QoE在挪威數(shù)據(jù)集上帶來約27.9%提升并在FCC 數(shù)據(jù)集上帶來約27.7%的QoE 提升。而在A2C 方法上,UQPN 能夠帶來平均約27.2%和18.3%的QoE提升,在Policy-Gradient 上則有約15.4%和8.6%的QoE 性能上升。這是由算法的學(xué)習(xí)能力導(dǎo)致,A3C 算法的學(xué)習(xí)能力最強(qiáng),同樣的訓(xùn)練次數(shù)下更能夠發(fā)揮UQPN 的優(yōu)勢。而Policy-Gradient 則相反,不同的獎勵(lì)方法帶來的差異并不明顯。

圖2 3 種獎勵(lì)方法得到的ABR 模型QoE 對比

3.3 基于RL 的ABR 算法性能對比

結(jié)果顯示,該方法分別能夠帶來平均約29.6%和26.1%的歸一化QoE 提升。這意味著,將UQPN和本文提出的訓(xùn)練方法結(jié)合,以UQPN 輸出值作為獎勵(lì),使ABR 策略模型在強(qiáng)化學(xué)習(xí)時(shí)有了更準(zhǔn)確、合理的訓(xùn)練目標(biāo),因此該方法在寬帶和移動兩種真實(shí)網(wǎng)絡(luò)條件下都能夠比現(xiàn)有的基于RL 的ABR方法給用戶帶來更好的QoE。

4 結(jié) 束 語

本文提出了一種使用用戶QoE 預(yù)測值作為強(qiáng)化學(xué)習(xí)獎勵(lì)的自適應(yīng)比特率算法。有了更加準(zhǔn)確的QoE 預(yù)測值加入訓(xùn)練,該方法能夠給用戶帶來更好的觀看體驗(yàn)。該方法采用離線訓(xùn)練,僅基于收集的數(shù)據(jù)即可生成算法模型,其輸入?yún)?shù)也易于獲取,無需修改現(xiàn)有的流媒體視頻傳輸框架,具備較好的可行性。未來的工作中,將考慮采用更細(xì)粒度、更準(zhǔn)確的方法來探索用戶在觀看視頻時(shí)的QoE變化,能夠更準(zhǔn)確把握用戶在觀看視頻時(shí)的感受,為用戶提供更好的觀看體驗(yàn)。

猜你喜歡
函數(shù)算法模型
適用于BDS-3 PPP的隨機(jī)模型
自制空間站模型
哪種算法簡便
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
根據(jù)問題 確定算法
模型小覽(二)
關(guān)于函數(shù)的一些補(bǔ)充知識
離散型隨機(jī)變量分布列的兩法則和三模型
高中數(shù)學(xué)中二次函數(shù)應(yīng)用舉隅オ
大渡口区| 镇原县| 陇南市| 图片| 北票市| 新民市| 富民县| 连城县| 洱源县| 兴和县| 灵川县| 峨眉山市| 澄城县| 杭锦后旗| 太湖县| 南平市| 武城县| 洪雅县| 德保县| 潢川县| 巢湖市| 通许县| 安福县| 本溪市| 宝鸡市| 贵港市| 灵山县| 寿光市| 高清| 察隅县| 海盐县| 绵竹市| 鄂托克前旗| 兴城市| 武鸣县| 微博| 桦甸市| 丽水市| 阳山县| 娄底市| 宜宾县|