杜麗娜 卓力 李嘉鋒
(1.北京工業(yè)大學計算智能與智能系統(tǒng)北京市重點實驗室,北京 100124;2.北京工業(yè)大學信息學部微電子學院,北京 100124)
近年來,隨著5G 移動通信和多媒體技術的迅猛發(fā)展,移動視頻通信逐步朝著“立體式、沉浸感、全場景”的方向演進,全景視頻通信引起了人們的廣泛關注。全景視頻又稱為360°視頻、全向視頻或者球形視頻,用戶通過頭戴式的顯示設備(Head Mounted Display,HMD)來觀看視頻,享受身臨其境的觀看體驗。全景視頻可以廣泛應用于醫(yī)療保健、教育培訓、汽車制造、營銷廣告、物流運輸、軍事國防、地產以及旅游業(yè)等眾多領域,也是元宇宙在實現(xiàn)沉浸式體驗過程中必不可少的組成部分。
與平面視頻相比,全景視頻的數(shù)據量倍增,對視頻數(shù)據的采集、編碼、傳輸和存儲均提出了更高的要求。一般說來,4K分辨率是全景視頻最基礎的畫質要求,需要8K 甚至更高的分辨率才能讓用戶獲得高質量的視覺體驗[1]。Netflix 推薦的超高清視頻流傳輸連接速度為25 Mbps1Netflix.(2014).Internet Connection Speed Recommendations.[Online].Available:https://help.netflix.com/en/node/306,但目前全球只有不到10%的網絡帶寬能達到這個要求[2-3]。在帶寬資源有限、時變的網絡環(huán)境中傳輸全景視頻時,頻繁的視角切換、網絡波動會導致播放卡頓、質量切換等現(xiàn)象時有發(fā)生,進而影響用戶的觀看體驗質量(Quality of Experience,QoE)。因此,如何對全景視頻QoE 進行評價就成為設計資源優(yōu)化分配策略、提升用戶體驗質量必須解決的首要問題,目前已經成為工業(yè)界和學術界共同關注的研究熱點。
國際電信聯(lián)盟[4]對QoE 定義為“用戶使用一項應用或服務時感到的快樂或煩惱程度”。Perkis 等人[5]對全景視頻QoE 定義為“它是根據用戶的個性和當前狀態(tài),實現(xiàn)其對應用程序或服務的效用和/或享受的期望的結果”??梢钥闯?,QoE是一種以“人”為中心的評價準則,在QoE 建模時既要考慮主觀因素,又要考慮客觀因素,這使得全景視頻QoE 評價極具挑戰(zhàn)性。具體表現(xiàn)在以下幾個方面:
(1)對于全景視頻來說,眩暈感和臨場感是影響用戶觀看體驗的主要因素,用戶的興趣、愛好等也對觀看體驗有著一定的影響,但是這些主觀因素因人而異,往往難以度量和表達,給QoE 建模帶來了極大的困難;
(2)視頻內容紛繁復雜,場景的豐富程度、運動復雜程度等都對用戶QoE 有著直接的影響,如何對視頻復雜的內容特性進行有效表達也是一個難點;
(3)全景視頻包括采集、拼接、渲染等多個環(huán)節(jié),每個環(huán)節(jié)均會引入失真,而失真類型眾多且相互影響,進一步增加了QoE建模的難度。
近年來,有不少學者開展了全景視頻QoE 評價的研究工作,并取得了一定的進展。國內外目前已經有了關于全景視頻QoE 評價模型的綜述,比如,Chiariotti 等人[6]從全景視頻的編碼和壓縮、QoE 評價模型、顯著性測量和視窗預測以及全景視頻的碼率自適應算法等幾個方面總結了全景視頻的研究進展。Sara 等人[7]從QoE 的影響因素、主觀和客觀測量方法等方面綜述了QoE 評價模型所面臨的困難和挑戰(zhàn)。Gao 等人[8]從理論和技術角度研究了全景視頻QoE 和傳統(tǒng)QoE 之間的差異,并對沉浸式體驗的影響因素進行了探索和分類。本文則是對全景視頻QoE 的影響因素、QoE 評價模型及其在碼率自適應、資源優(yōu)化分配和碼率控制等方面的應用情況等進行了綜述。
剩余部分安排如下:第2 節(jié)分析全景視頻QoE的各種影響因素;第3 節(jié)總結歸納全景視頻QoE 評價模型的研究進展;第4 節(jié)介紹全景視頻QoE 評價模型的應用;第5 節(jié)介紹常用的全景視頻數(shù)據集以及QoE 評價模型的性能評價標準;第6 節(jié)探討了全景視頻QoE評價模型未來可能的研究方向。
全景視頻從視頻采集到播放過程中涉及多個環(huán)節(jié),包括采集、拼接、投影、編碼、傳輸、解碼、反投影、渲染等[9],如圖1 所示。采集時,需要多個攝像機在同一時間、同一位置分別拍攝不同角度具有部分重疊的多個視頻,然后將其進行拼接(縫合),構成完整的全景視頻。之后,再將全景視頻投影成平面視頻,編碼壓縮為視頻流,存儲于服務端。用戶在觀看視頻時,客戶端依據設計的碼率自適應算法來選擇合適的視窗和質量,對到達客戶端的視頻進行解碼、反投影、渲染后,再進行播放??梢钥闯?,全景視頻從采集到播放的各個環(huán)節(jié)都有可能存在失真,對用戶的QoE造成影響。具體原因如下:
圖1 全景視頻從采集到播放的整體過程Fig.1 The overall process of panoramic video from acquisition to playback
(1)采集:攝像頭會受到各種光學畸變的影響,例如色差、莫爾效應、噪聲和運動模糊等[10]。
(2)拼接:由于不同攝像機之間可能存在光學畸變和運動不連續(xù),使得拼接過程非常具有挑戰(zhàn)性[11]。除此之外,視頻拼接過程可能需要對多攝像機裝置中的一些傳感器限制和攝像機之間的不一致性進行補償。因此,現(xiàn)有的大多數(shù)方法生成的全景視頻可能會出現(xiàn)模糊、可見接縫(由于對顏色和亮度不連續(xù)的不同曝光)、重影、邊緣錯位、圖像結構信息缺失和幾何變形等失真情況[12]。
(3)投影:由于缺乏面向全景視頻的編碼算法,因此對全景視頻進行編碼前,需要將全景視頻投影為平面視頻。由于球面域上的相鄰區(qū)域可能不是平面域上的相鄰區(qū)域,因此不同的投影方式可能意味著不同的幾何變形和不連續(xù)區(qū)域,而編碼效率與投影方式密切相關[13]。
(4)編碼:目前大部分的全景視頻都采用HTTP的自適應流媒體(HTTP Adaptive Streaming,HAS)技術進行傳輸[14-15]。為便于傳輸,需要采用編碼器(如H.266 及其改進方法[16])將視頻以不同的比特率進行編碼,并將編碼后的視頻切割成視頻片段存儲于服務端,而低質量的視頻會影響用戶的觀看體驗。
(5)傳輸:在帶寬資源有限、時變的網絡環(huán)境中傳輸高質量全景視頻是一項極具挑戰(zhàn)性的任務[17]。雖然人們提出了眾多基于視窗的全景視頻傳輸機制[18]或者基于Tile 的全景視頻傳輸機制[19],然而網絡波動引起的質量切換和播放卡頓、中斷等現(xiàn)象難以避免,給用戶的觀看體驗造成嚴重影響。
(6)解碼、反投影、渲染和播放:解碼、反投影、渲染和播放等過程需要大量的顯示和計算資源,在處理不屬于用戶視窗的視頻內容時還會浪費大量的計算資源。除此之外,HMD設備的性能也會影響用戶的觀看體驗。
3D 視頻與單通道視頻的本質區(qū)別就在于3D 視頻添加了深度信息,能夠產生立體視覺感受,使其對自然場景的表征更具真實感[20]。對3D視頻而言,影響用戶QoE 的主要因素包括視頻質量、深度感知以及視覺舒適度[21-22]。將平面視頻拼接和投影之后可以獲得全景視頻,而視窗是其特有的概念,是用戶觀看全景視頻時視角的直接反映,在觀看全景視頻期間,不同的視窗位置會帶來不同的失真并影響用戶的QoE。因此,與單通道視頻和3D視頻的區(qū)別在于,全景視頻QoE 評價會著重考慮視窗內視頻的質量、卡頓和質量切換等影響因素,而往往忽略視窗外的視頻。作為全景視頻不同于平面視頻的觀看感受[7],臨場感(Presence)和眩暈感(Cybersickness/motion sickness)同樣會直接影響用戶的QoE。
臨場感是指用戶在觀看視頻時“身臨其境”的感受[23]。Lee 等人[24]將臨場感定義為“虛擬物體以感官或非感官的方式被體驗為真實物體時的一種心理狀態(tài)”。眩暈感是指用戶在沉浸式體驗過程中由于運動感知和視覺輸入的不匹配導致的頭暈或惡心等不良感受[25-26]。眩暈感與視頻內容場景的豐富程度[27]、視頻的運動復雜程度[28]等因素有很大關系。研究結果表明,幾何失真[29]也會影響用戶的QoE。
Tran 等人[30]將QoE 的影響因素分為用戶屬性、系統(tǒng)屬性和內容屬性等三類。Vlahovic 等人[7]將QoE 的影響因素分為人的因素、系統(tǒng)因素以及情境上下文等三類。Fan 等人[31]將QoE 的影響因素分為人的因素、內容因素和情境上下文和系統(tǒng)因素等四類。上述的分類方法分別從不同的角度歸納了全景視頻的QoE影響因素,不夠全面。
本文從各方面綜合考慮,將全景視頻QoE 的影響因素歸納為四類,包括人的因素、系統(tǒng)因素、情境上下文以及視頻內容特性,如圖2 所示。這些因素均會在一定程度上對用戶的QoE 造成影響。各影響因素的具體表述如下:
圖2 全景視頻QoE影響因素Fig.2 Influencing factors of QoE in panoramic video
(1)人的因素:包括人眼視覺特性以及人的性別、年齡、習慣以及興趣愛好等;
(2)系統(tǒng)因素:包括視頻編解碼器(如量化參數(shù)、編碼碼率、分辨率等)、QoS(Quality of Service)(如傳輸帶寬、時延、誤碼率等)、采用的拼接、投影和渲染方法等;
(3)情境上下文:包括用戶所處環(huán)境、網絡連接、采用的觀看設備以及觀看區(qū)域等;
(4)視頻內容特性:包括紋理豐富程度、運動劇烈程度和復雜程度、場景復雜程度等。
可以看出,全景視頻的QoE 因素眾多,既包含主觀因素,又包含客觀因素,這些因素不是相互獨立的,而是相互關聯(lián)、相互影響。QoE建模時應綜合考慮多種影響因素,才能獲得理想的性能。
QoE 建模的本質在于找到一種映射關系Y=f(X),其中X是QoE 的各種影響因素;Y是用戶的QoE,目前普遍采用平均意見得分(Mean Opinion Score,MOS)進行度量[32]。QoE建模流程圖如圖3所示。建立全景視頻QoE 評價模型時,首先需要對各種影響因素進行表征和量化,之后將其組成特征參數(shù)矢量,最后采用最優(yōu)化的傳統(tǒng)數(shù)學方法或者機器學習方法建立特征參數(shù)矢量與MOS 之間的映射關系[33],用于預測用戶的QoE。
圖3 QoE建模流程圖Fig.3 The framework of QoE evaluation model
表1所示的是目前比較具有代表性的全景視頻QoE 評價模型,表中給出了這些模型所考慮的影響因素、QoE度量、建模方法等。
從表1中可以看出:
表1 全景視頻QoE評價模型匯總表Tab.1 The summary of QoE evaluation model for panoramic video
(1)在影響因素方面,早期的全景視頻QoE 建模借鑒了平面視頻的建模思路,考慮的影響因素比較簡單,主要包括視頻質量、卡頓、質量切換等,因此建模的準確性較差;
(2)近年來全景視頻建模時則更多地考慮了“人”的因素,比如性別、臨場感和眩暈感、人眼的視覺特性等,因此建立的模型能更好地評估人的主觀感受,評價結果與人的主觀感受相一致;
(3)考慮視頻的內容特性會顯著提升全景視頻QoE建模的準確性,這是因為視頻內容紛繁復雜,對人眼的主觀感知有著直接的影響。尤其是利用深度卷積神經網絡可以有效提取視頻的時空特征,雖然建模時影響因素特征向量的維度會大幅增加,但是準確性也隨之顯著提高。
(4)建模工具則從早期的線性模型逐步轉向機器學習方法,利用數(shù)據驅動的方式進行建模,建模的準確性也得以大大提升。但是需要大規(guī)模的數(shù)據集作為支撐,這也是目前全景QoE 建模需要著重解決的問題。
2017 年,Tran 等人[34]通過主觀實驗的方式系統(tǒng)性地研究了視頻編碼參數(shù)、內容特性和HMD 設備類型等因素對用戶QoE 的影響。之后,作者進一步深入探究了感知質量、臨場感、眩暈感和可接受性等因素對用戶QoE 的影響,同時還考慮了量化參數(shù)(Quantization Parameters,QP)、視頻的運動復雜程度、渲染設備和渲染模式(虛擬現(xiàn)實和非虛擬現(xiàn)實)四個關鍵的影響因素。研究結果表明:(1)當空間分辨率在4K 到2.5K 之間時,QoE 的差異較小。然而,當分辨率進一步降低或QP 增加時,全景視頻的質量會迅速下降;(2)用戶的QoE 與視頻內容有很大的關系。即使是擁有相同MOS值的兩個視頻,由于視頻內容的不同,兩個視頻的碼率之間仍然會有很大的差異;(3)視頻的運動復雜程度對感知質量、臨場感和眩暈感有著顯著的影響;(4)當視頻質量較高時,相比于平面視頻來說,用戶更喜歡選擇VR模式進行觀看。
Singla 等人[35]研究了不同HMD(Oculus DK2 和HTC VIVE)設備對用戶眩暈感的影響。實驗結果表明,與Oculus DK2 相比,HTC VIVE 可以提供更好的QoE;而與HMD 相比,視頻內容和分辨率對用戶QoE的影響更大。
2018 年,Xie 等人[36]研究了不同視頻質量對視窗內外區(qū)域的影響,建立了QP、分辨率和MOS 之間的關聯(lián)關系模型,具體表達式為QP 和分辨率兩個指數(shù)函數(shù)的乘積。作者還進一步研究了視頻質量切換對用戶QoE 的影響,通過調整視頻的量化參數(shù)和分辨率產生多組質量由高到低的失真視頻,建立了多種質量切換方式的指數(shù)模型,并將其相乘作為最終的QoE模型[37]。
2019年,考慮到視頻的內容特性,Yao等人[38]探究了投影方式、QP、時間信息(Temporal Information,TI)和空間信息(Spatial Information,SI)等多種影響因素對QoE 的影響,將這些影響因素相結合構成特征參數(shù)矢量,采用線性回歸的方式建立了特征參數(shù)矢量和MOS 之間的映射關系。Mahmoudpour等人[39]考慮到人類視覺系統(tǒng)會對運動信息做出強烈響應這一特性,結合視頻質量和抖動等兩種因素,建立了一種線性QoE 評價模型。由于考慮的影響因素較少,模型的準確性有待于進一步的提升。
Fei 等人[40]建立了一種包含傳輸失真的QoE 評價模型。作者首先建立了一個包含壓縮失真和傳輸失真的數(shù)據集,該數(shù)據集包含9 個原始視頻以及經過不同網絡環(huán)境傳輸?shù)玫降?68個失真視頻。在主觀評價部分,觀看者對沉浸感、眩暈感和整體QoE等多個方面的體驗進行打分。建模時,首先根據IQX 假說(QoS 參數(shù)和QoE 之間存在指數(shù)關系[41]),將視頻碼率、丟包率和時延分別與沉浸感和眩暈感建立指數(shù)模型,之后,將沉浸感和眩暈感等影響因素輸入INN(Improved two-step Neural Network)中與MOS 建立映射關系。數(shù)據集通過仿真網絡中設置時延、丟包、帶寬等參數(shù)來構建,換而言之,該數(shù)據集不是采用HAS 技術進行傳輸所獲得的真實失真視頻。
Singla 等人[42]進一步研究了帶寬、時延和分辨率等因素對用戶QoE 的影響以及不同時延對用戶眩暈感的影響。實驗結果表明,47毫秒是可接受的最大網絡時延,且隨著使用時間的增加,用戶的眩暈感會隨之增強,因此在測試過程中進行適當休息是有必要的。另外,在觀看過程中,眩暈感與性別有著密切聯(lián)系,相比于男性,女性更容易產生眩暈感,因此質量體驗更差。
2020 年,Anwar 等人[43]評估了三種不同碼率(1 Mbps、5 Mbps 和15 Mbps)下,各種卡頓對用戶QoE 的影響以及卡頓和碼率之間的相互作用,采用貝葉斯推理方法建立了全景視頻QoE 模型。實驗結果表明,當視頻質量接近最高和最低時,視頻中多次卡頓的負面影響更甚。該作者進一步研究了量化參數(shù)、分辨率、渲染設備、性別、用戶興趣和用戶對虛擬現(xiàn)實視頻的熟悉程度等六個QoE 影響因素對感知質量的影響。具體而言,首先建立了量化參數(shù)、分辨率、渲染設備與感知質量之間的映射關系,用于預測用戶的感知質量;另外,建立了性別、用戶興趣和用戶對虛擬現(xiàn)實視頻的熟悉程度與眩暈感之間的映射關系,用來預測用戶的眩暈感。建模時,采用邏輯回歸、K 近鄰算法、決策樹和SVR 等四種機器學習方法建立感知質量與MOS 之間的映射關系[44]。結果表明,相比于其他三種建模方法,邏輯回歸可以獲得更優(yōu)的性能。
2022 年,F(xiàn)an 等人[31]首先建立了一個包含壓縮失真和質量切換等多種失真的全景視頻數(shù)據集,之后提取了視頻幀質量、編碼碼率、臨場感、SI和TI等多種影響因素構成了特征參數(shù)矢量,采用隨機森林、Gradient boosting 和支持向量回歸(Support Vector Regression,SVR)等不同的機器學習方法建立了特征參數(shù)矢量和MOS 之間的映射關系。實驗結果表明,視頻幀質量、編碼碼率等因素對用戶QoE 影響最大,而眩暈感與性別等因素有關。
Zhu 等人[45]提出了一種新的基于視覺行為的QoE 評價模型EyeQoE,并公布了名為EyeQoE 的數(shù)據集。該模型利用新的視覺感知模式提取主觀和客觀影響因素來進行QoE 建模。具體而言,作者首先將眼睛的注視和掃視等線索構建成一個圖形結構數(shù)據,該數(shù)據既保留了時域特征,又保留了內容依賴性;之后,設計了一種基于圖卷積神經網絡的分類器,通過從圖形結構數(shù)據中提取的內在特征來進行QoE 建模。實驗結果表明,該模型可以獲得更準確的預測性能。
Hooft 等人[46]探究了網絡帶寬、視窗預測、碼率分配等因素對自適應點云流媒體感知質量的影響,建立了采用不同分發(fā)方案和點云視頻內容生成的點云視頻PSNR、SSIM 等客觀指標與MOS 之間的關聯(lián)關系。實驗結果表明,傳輸過程中加入視窗預測可以提高用戶的QoE;客觀指標與MOS 之間有很強的線性關系,這種關系還受點云視頻內容的影響。
立體視頻是利用人眼雙目視差原理,雙眼各自獨立地接收來自同一場景特定攝像點的左右圖像,形成雙目視差,大腦依據雙目視差獲得圖像的深度信息,使欣賞到的圖像有強烈深度感、逼真感,達到超強的立體視覺效果[47-48]。立體全景視頻能夠給觀看者提供全方位、無比真實的視覺體驗。因此部分研究者對立體全景視頻的QoE評價進行了研究。
蘭等人[49]提出了一種基于多智能體強化學習的立體全景視頻非對稱傳輸自適應流方法,該方法首先采用視點預測概率模型來獲取左右視點每個瓦片的觀看概率,然后,設計了一種立體全景視頻碼率選擇框架,以選擇合適的碼率,進而提高用戶的QoE。其QoE 評價模型為視窗內視頻的質量、卡頓時長和質量切換的線性模型。
綜上所述,現(xiàn)有的全景視頻QoE 評價模型著重考慮視頻質量、時延、質量切換、性別、臨場感和眩暈感等各種影響因素,通過數(shù)據驅動的方法建立復雜影響因素與MOS之間的映射關系,雖然取得了一定的進展,但是還存在以下不足:
(1)大多在自建的數(shù)據集上進行建模和驗證,數(shù)據通過仿真的方式生成,且數(shù)據規(guī)模有限。
(2)建模時考慮的影響因素不夠全面,往往只關注了少數(shù)幾個影響因素。導致建立的QoE 模型的準確性比較差,適用范圍有限。
(3)視頻內容特性往往用SI 和TI 進行表達,難以有效刻畫視頻復雜的時空特性[50-51]。
(4)研究中考慮的失真類型較少,多為壓縮失真,對傳輸、渲染等其他環(huán)節(jié)導致的失真考慮得較少。事實上,在復雜多變的網絡環(huán)境下傳輸高碼率的全景視頻時,可能會導致卡頓、質量切換等,也是影響用戶QoE的重要因素。
全景視頻數(shù)據量龐大,給壓縮、傳輸和存儲帶來了很大的壓力。如何在網絡帶寬有限和網絡狀況時變的情況下,提高用戶的QoE,就成為全景視頻通信需要重點解決的關鍵問題。
為此,研究者們開展了QoE 驅動的自適應傳輸和資源優(yōu)化等方面的研究,這些研究從兩個角度開展工作:一是以QoE 作為獎勵函數(shù),在網絡可用資源約束條件下,使得QoE 最大化;二是在保證用戶具有一定QoE 的前提下,使得系統(tǒng)資源利用率最大化。除了用作獎勵函數(shù),QoE 模型也常用于評價算法性能的優(yōu)劣。
現(xiàn)有的面向全景視頻的碼率自適應(Adaptive Bit Rate,ABR)算法普遍借鑒了平面視頻ABR 算法中的QoE 評價模型,并對其進行改進??紤]到算法對實時性有嚴格的要求,ABR 算法中普遍采用線性QoE 模型。Mao 等人[52]提出的Pensieve 是最具代表性的平面視頻ABR 算法之一,其QoE 評價模型如下:
其中,Rn表示第n個視頻片段的碼率,Qn=q(Rn),表示視頻質量,Tn表示卡頓時長,最后一項表示質量切換,α,β,γ表示每一項的權重。
Park等人[53]提出了一種全景視頻ABR 算法,其中采用的QoE 評價模型考慮了視頻片段的碼率、卡頓時長、質量切換以及Tile的丟失等四種影響因素,建立了一種線性模型。Fu 等人[54]提出的ABR 算法中,QoE 評價模型為視頻質量、空間質量變化、時間質量變化和卡頓時長等四種影響因素的線性加權。Yang 等人[55]提出的ABR 算法中,QoE 評價模型為Tile 內的碼率、Tile 外的碼率、卡頓時長以及質量切換的線性加權。
上述QoE 評價模型大多為線性模型,由于考慮的影響因素比較少,其性能有待進一步提高。
針對上述問題,Yuan 等人[56]提出了一種基于Tile 的全景視頻ABR 算法。該算法首先采用高斯模型預測用戶的觀看視窗;然后采用Zipf 模型確定各個視窗的優(yōu)先級;最終,基于不同視窗內容的率失真特性,設計了兩階段優(yōu)化算法確定視窗質量的組合方式。其獎勵函數(shù)為QoE 模型,該模型考慮了視頻質量(PSNR)、質量切換、卡頓時長等三種因素,通過線性加權得到。實驗結果表明,該算法在避免視角切換延遲的同時,節(jié)約了帶寬,并解決了局部視窗請求時,空間-時間質量不可控的難題,保障了用戶觀看視角的空間-時間質量一致性。
Shen 等人[57]設計了一種面向QoE 的全景視頻碼率分配策略,該方法的主要思想是保證視覺重要區(qū)域具有較高的質量,而非重要區(qū)域則可以具有較低的質量。具體過程如下:首先計算每個視頻片段的顯著性值及其顯著性權重系數(shù),之后將顯著性權重系數(shù)與視頻質量進行加權,將加權后的視頻質量與質量切換、卡頓時長等影響因素進行線性加權構成QoE 評價模型,用于指導全景視頻傳輸策略的設計。實驗結果表明,設計碼率分配策略時考慮視頻顯著性信息可以有效提高用戶的QoE。
上述的研究工作表明,QoE 驅動的自適應傳輸策略和資源優(yōu)化分配策略可以充分利用有限的網絡資源,提升用戶QoE。
數(shù)據集是開展QoE 評價研究不可或缺的工具之一,主要用于QoE 建模,并與其他算法進行性能比較。但是目前公認的數(shù)據集普遍是針對平面圖像/視頻的,在主觀實驗的基礎上,有的學者建立了全景視頻QoE 評價數(shù)據集,但是數(shù)據規(guī)模有限、失真類型較少,而且傳輸失真多通過手工或者仿真產生,與實際的傳輸情況存在一定的差異。目前公開的全景視頻的QoE 評價數(shù)據集非常稀缺,且尚未有公認的權威數(shù)據集[58]。
下面首先介紹目前常用的數(shù)據集,然后介紹QoE模型的性能評價指標。
表2總結了幾個常用的全景視頻QoE 評價數(shù)據集,表中給出了各個數(shù)據集的發(fā)布時間、失真類型、分辨率、原始視頻的幀率以及觀看設備等信息。其中數(shù)據集大小這一列表示原始視頻和失真視頻的數(shù)量,對于原文中未說明原始視頻數(shù)量的以失真視頻總數(shù)代替。
表2 全景視頻QoE評價數(shù)據集Tab.2 Overview of the panoramic video datasets for QoE evaluation
2017 年,Duan 等人[59]提出的IVQAD 數(shù)據集是較早的全景視頻數(shù)據集。在該數(shù)據集中,作者構建了包含10 個原始視頻和150 個失真視頻的數(shù)據集。作者認為碼率、幀率和分辨率是最主要的影響視頻質量的因素。視頻使用MPEG-4 進行編碼,分辨率分別設置為4096×2048、2048×1024 和1024×512。在每種分辨率下,設置不同的碼率和幀率以模擬不同的帶寬要求。
Zhang 等人[60]提出的數(shù)據集共包括16 個原始視頻,通過24 種方式對這些視頻進行處理,最終得到384 個失真視頻。為了模擬多媒體業(yè)務中的應用,使用了三個編碼器和六個不同的碼率。通過使用FFMPEG 軟件,將高斯噪聲和盒形模糊添加到兩種不同碼率(10 Mbps 和3 Mbps)的視頻中,并采用H.264編碼器,模擬網絡數(shù)據包的丟失情況。
為了研究幀率對用戶QoE 的影響,Zhang 等人[61]和Lopes 等人[62]根據JVET(Joint Video Exploration Team)2ITU.2019.JVET-Joint Video Experts Team.https://www.itu.int/en/ITU-T/studygroups/2017-2020/16/Pages/video/jvet.aspx.提供的10 個8K 和4K 原始視頻,分別自建了不同的數(shù)據集。Zhang 等人[61]將幀率設為60 fps 和30 fps,通過下采樣,將原始視頻的分辨率降為3600×1800,每個原始視頻分別對應5 個失真視頻。Lopes 等人在8192×4096 和3840×1920 的分辨率下設置了更多的幀率,分別是7.5 fps、10 fps、15 fps、30 fps以及60 fps。
2022 年,Zhu 等人[45]公布了目前最新的全景視頻QoE 評價數(shù)據集EyeQoE。該數(shù)據集中的源視頻都是從YouTube 和Vimeo 兩大全景視頻平臺下載的。原始視頻的分辨率為4K,幀率為25 fps。這些視頻涵蓋自然、體育和城市景觀等各種類型。每個視頻的持續(xù)時間均為25 s,沒有明顯的場景變化。每個失真視頻都包含兩種類型的失真,分別是壓縮失真和傳輸失真。對于前者,使用H.264 編碼將4K原始視頻壓縮為較低的分辨率,如2K、1080p 和720p。對于后者,添加了卡頓幀來模擬三個不同版本的卡頓:8次卡頓,每次持續(xù)s,4次卡頓,每次持續(xù)2 s,以及2次卡頓,每次持續(xù)4 s。
常用的QoE 模型性能評價指標主要包括皮爾遜線性相關系數(shù)(Pearson Linear Correlation Coefficient,PLCC)、斯皮爾曼秩相關系數(shù)(Spearman Rank Order Correlation Coefficient,SROCC)和肯德爾秩相關系數(shù)(Kendall Rank Order Correlation Coefficient,KROCC)。三個指標的取值范圍均為[0,1],其數(shù)值越接近于1,說明模型性能越好。PLCC和SROCC指標由以下公式計算獲得:
其中,m是數(shù)據集中的視頻數(shù)量;yi是第i個視頻的真實分數(shù);ypi是相應的預測分數(shù);是數(shù)據集中真實分數(shù)的均值;是相應的預測分數(shù)的均值;di是相應視頻的yi和ypi之間的排序等級差異。
KROCC的計算公式如下:
對于KROCC,將測試集中視頻的真實分數(shù)yi和預測分數(shù)ypi組成k個數(shù)據對,那么從k個數(shù)據對中任取兩組數(shù)據{(ypi,yi),(ypj>yj)},i≠j,則共有K=k(k-1)/2 種可能。對于提取的兩組數(shù)據對,若ypi>yi,ypj>yj或ypi<yi,ypj<yj,則稱這樣的數(shù)據對為同序數(shù)據對,以P表示測試集中同序數(shù)據對的個數(shù);若ypi>yi,ypj<yj或ypi<yi,ypj>yj,則稱這樣的數(shù)據對為逆序數(shù)據對,以Q表示數(shù)據集中逆序數(shù)據對的個數(shù)。
表3 匯總了目前比較具有代表性的全景視頻QoE 評價模型的性能,這些模型往往是在自建的數(shù)據集上進行測試。
表3 全景視頻QoE評價模型性能Tab.3 The QoE evaluation model performance of panoramic video
QoE 建模是全景視頻通信中優(yōu)化分配資源、提升用戶體驗的前提和關鍵。盡管全景視頻QoE 評價研究已經取得了一定的進展,但是現(xiàn)階段開展全景視頻QoE 評價的研究工作還不夠深入,仍有很大的研究空間。在未來的工作中,可以開展以下方面的研究:
(1)大規(guī)模QoE 評價視頻數(shù)據集的建立。大規(guī)模數(shù)據集是開展QoE 評價研究的基礎和前提,但是目前權威的全景視頻QoE 評價數(shù)據集較少。與平面視頻相比,全景視頻涉及更多、更復雜的環(huán)節(jié),主觀測評不易設計,需要考慮的影響因素眾多,且設備條件往往難以具備,這些都使得建立大規(guī)模的全景視頻QoE評價數(shù)據集十分困難。
(2)視頻內容特性的量化和有效表達。視頻內容特性對用戶的觀看體驗有著直接的影響,然而視頻內容的多樣性和失真類型的復雜性使得對視頻內容特性的量化和表達十分困難。如何有效表達復雜的視頻時空特性是一個值得深入研究的問題。
(3)人眼視覺特性的應用。QoE 評價是一個以“人”為中心的評價準則,現(xiàn)有的QoE 評價對人眼的視覺特性考慮得不夠,未來的研究工作中可以更多地考慮人眼的視覺特性這一因素,使得評價結果更符合人眼的感知結果。
(4)觀看體驗的度量。臨場感和眩暈感是全景視頻的觀看體驗區(qū)別于平面視頻之處。但是由于這種體驗因人而異,主觀性強,涉及的因素很多,因此難以有效度量和建模表達,目前研究中涉及這方面的內容相對較少。如何綜合考慮各種因素,有針對性地對全景視頻的觀看體驗進行建模也是一個值得研究的內容。