国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于最鄰近幀質(zhì)量增強(qiáng)的視頻編碼參考幀列表優(yōu)化算法

2023-01-08 14:31:22霍俊彥邱瑞鵬馬彥卓楊付正
通信學(xué)報(bào) 2022年11期
關(guān)鍵詞:列表卷積編碼

霍俊彥,邱瑞鵬,馬彥卓,楊付正

(西安電子科技大學(xué)ISN 國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071)

0 引言

近年來,短視頻的廣泛普及使視頻數(shù)據(jù)量進(jìn)入持續(xù)爆發(fā)式增長(zhǎng)階段。同時(shí),直播電商作為一種新的購(gòu)物消費(fèi)方式開始上線。受新冠疫情影響,視頻會(huì)議的應(yīng)用需求也呈現(xiàn)爆炸式增長(zhǎng)。為保證用戶間的實(shí)時(shí)交互,這些視頻業(yè)務(wù)對(duì)時(shí)延有嚴(yán)格的要求。針對(duì)低時(shí)延、大數(shù)據(jù)量的特點(diǎn),在低時(shí)延視頻應(yīng)用場(chǎng)景下,提高視頻編碼效率對(duì)高效開展視頻會(huì)話具有積極的意義。與此同時(shí),基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)在視頻處理等方面取得了令人矚目的成果,利用深度學(xué)習(xí)提升視頻編碼效率是未來的研究趨勢(shì)。

高效視頻編碼H.265/HEVC[1]標(biāo)準(zhǔn)采用傳統(tǒng)的視頻混合編碼框架,使用靈活的塊劃分結(jié)構(gòu),并在預(yù)測(cè)、變換和熵編碼等各個(gè)環(huán)節(jié)增加多種新算法。相比于先進(jìn)視頻編碼H.264/AVC[2]標(biāo)準(zhǔn),在相同的視頻質(zhì)量條件下,H.265/HEVC 可降低約50%的編碼碼率。針對(duì)日益增長(zhǎng)的低時(shí)延視頻業(yè)務(wù),視頻通用測(cè)試條件設(shè)計(jì)了低時(shí)延P 幀(LDP,low-delay only P)配置,其僅利用單向參考幀進(jìn)行幀間預(yù)測(cè)。在此配置下,視頻序列的編碼順序與播放順序一致,每幀編碼時(shí)僅參考播放順序在當(dāng)前幀之前的已編碼幀。在以往的研究中,基于深度學(xué)習(xí)的方法已經(jīng)應(yīng)用到了視頻編碼框架的主要模塊中,如幀內(nèi)預(yù)測(cè)、幀間預(yù)測(cè)和環(huán)路濾波等。本文算法的設(shè)計(jì)目標(biāo)是借助深度學(xué)習(xí)的方法輔助幀間預(yù)測(cè),提高LDP配置下H.265/HEVC 的編碼效率。

幀間預(yù)測(cè)是視頻編碼框架的關(guān)鍵模塊,其利用視頻的時(shí)間相關(guān)性提高編碼效率。針對(duì)每個(gè)待編碼塊,幀間預(yù)測(cè)利用多個(gè)參考幀的重建樣本,運(yùn)用多種運(yùn)動(dòng)補(bǔ)償技術(shù)構(gòu)造預(yù)測(cè)樣本,預(yù)測(cè)樣本與原始樣本之間的差值經(jīng)過變換、量化、熵編碼等模塊處理后被送入碼流進(jìn)行傳輸。

目前,基于深度學(xué)習(xí)的幀間預(yù)測(cè)包含亞像素插值、預(yù)測(cè)值生成和參考幀列表(RFL,reference frame list)優(yōu)化等方案,其中,參考幀列表優(yōu)化使用神經(jīng)網(wǎng)絡(luò)生成額外的虛擬參考幀,用于待編碼幀的預(yù)測(cè)參考。虛擬參考幀的生成涉及內(nèi)插(兩幀之間插入)和外插(多幀之外插入)2 種方式。在LDP 配置下,為了保證低時(shí)延,參考幀列表的圖像皆為先于待編碼幀的圖像。此時(shí),虛擬參考幀的生成僅能由當(dāng)前時(shí)刻之前的參考幀外插得到。相比于內(nèi)插算法,外插算法需要生成參考幀之外的新內(nèi)容,預(yù)測(cè)精度較低,對(duì)幀間編碼性能的提高非常有限。

本文針對(duì)LDP 配置提出基于最鄰近幀質(zhì)量增強(qiáng)的參考幀列表優(yōu)化算法,優(yōu)化框架如圖1 所示。將待編碼幀前向參考幀列表中的第一個(gè)參考幀,即最鄰近參考幀,送入提出的參考幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)進(jìn)行質(zhì)量增強(qiáng),并將其作為額外的參考幀整合到待編碼幀的參考幀列表中。與現(xiàn)有虛擬參考幀算法相比,本文提出的參考幀增強(qiáng)算法的輸出幀不包含虛構(gòu)內(nèi)容,其構(gòu)造算法較簡(jiǎn)單,且性能優(yōu)于已有虛擬參考幀算法。

圖1 基于最鄰近幀質(zhì)量增強(qiáng)的參考幀列表優(yōu)化框架

綜上,本文提出一種新型的參考幀列表優(yōu)化算法,設(shè)計(jì)一種改進(jìn)的視頻幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)對(duì)最鄰近幀進(jìn)行質(zhì)量增強(qiáng)。首先將可變形卷積網(wǎng)絡(luò)(DCN,deformable convolutional network)和光流相結(jié)合,應(yīng)用光流引導(dǎo)可變形卷積的偏移預(yù)測(cè),然后將網(wǎng)絡(luò)生成的高質(zhì)量參考幀插入?yún)⒖紟斜韰⑴c幀間預(yù)測(cè),提高預(yù)測(cè)準(zhǔn)確度,進(jìn)而提高編碼效率。

1 相關(guān)研究

1.1 基于神經(jīng)網(wǎng)絡(luò)的視頻幀質(zhì)量增強(qiáng)

視頻幀質(zhì)量增強(qiáng)旨在減弱視頻經(jīng)過有損壓縮引入的失真,基于深度學(xué)習(xí)的方法在視頻幀質(zhì)量增強(qiáng)方面取得了顯著的成效。該類方法大致可分為單幀質(zhì)量增強(qiáng)和多幀輔助質(zhì)量增強(qiáng)。單幀質(zhì)量增強(qiáng)方法基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)來提取圖像的空域信息和特征,通過強(qiáng)化這些信息對(duì)圖像進(jìn)行增強(qiáng)。多幀輔助質(zhì)量增強(qiáng)方法則利用一個(gè)或多個(gè)相鄰幀的時(shí)域和空域信息進(jìn)行質(zhì)量增強(qiáng),是目前視頻幀質(zhì)量增強(qiáng)的主要手段。

1.1.1 單幀質(zhì)量增強(qiáng)方法

受基于神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法的啟發(fā),面向減弱失真的卷積神經(jīng)網(wǎng)絡(luò)(ARCNN,artifact reduction CNN)[3]率先針對(duì)JPEG 重建圖像引入CNN 濾波方法,實(shí)現(xiàn)對(duì)單幀圖像的質(zhì)量增強(qiáng)?;诰矸e神經(jīng)網(wǎng)絡(luò)的環(huán)內(nèi)濾波(IFCNN,in-loop filtering using CNN)技術(shù)[4]使用三層卷積網(wǎng)絡(luò)代替H.265/HEVC 中的樣點(diǎn)自適應(yīng)補(bǔ)償濾波模塊。殘差高速卷積神經(jīng)網(wǎng)絡(luò)(RHCNN,residual highway CNN)[5]引入由殘差高速單元和卷積層組成的神經(jīng)網(wǎng)絡(luò),作為H.265/HEVC 中額外的環(huán)內(nèi)濾波器。非對(duì)稱卷積殘差網(wǎng)絡(luò)(ACRN,asymmetric convolutional residual network)[6]利用密集結(jié)構(gòu)來提取重建幀的層次性特征,利用非對(duì)稱卷積塊提取紋理的方向性特征來恢復(fù)紋理。遞歸殘差卷積神經(jīng)網(wǎng)絡(luò)(RRCNN,recursive residual CNN)[7]作為H.265/HEVC 中額外的環(huán)內(nèi)濾波器,在編碼樹單元(CTU,coding tree unit)級(jí)自適應(yīng)選擇使用此濾波器,同時(shí)采用遞歸殘差模塊實(shí)現(xiàn)殘差模塊的參數(shù)共享?;谧?yōu)V波器尺寸的殘差學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(VRCNN,variable-filter-size residue-learning CNN)[8]應(yīng)用Inception 模塊的方式,利用多個(gè)小尺度卷積層并行組合來代替大尺度卷積層。多級(jí)注意力卷積神經(jīng)網(wǎng)絡(luò)(MACNN,multi-stage attention CNN)[9]采用改進(jìn)的Inception 模塊和自注意力機(jī)制,使用較淺的卷積網(wǎng)絡(luò)獲得全局信息能力。基于壓縮激發(fā)模塊的濾波卷積神經(jīng)網(wǎng)絡(luò)(SEFCNN,squeeze-and-excitation filtering CNN)[10]利用特征提取和特征增強(qiáng)2 個(gè)子網(wǎng)組合來更獲取通道間的非線性關(guān)系,并結(jié)合壓縮激發(fā)(SE,squeeze-and-excitation)模塊[11]來建立通道間注意力機(jī)制。

有些工作將編碼信息應(yīng)用到網(wǎng)絡(luò)中,幫助網(wǎng)絡(luò)快速收斂并進(jìn)一步提高重建幀的質(zhì)量。多模型/多尺度卷積神經(jīng)網(wǎng)絡(luò)(MMSCNN,multi-modal/multi-scale CNN)[12]將H.265/HEVC 的編碼單元和變換單元的分區(qū)映射作為網(wǎng)絡(luò)的輸入。分區(qū)掩蓋卷積神經(jīng)網(wǎng)絡(luò)[13]深入分析編碼單元分區(qū)信息的生成方法和幀融合方法。引入殘差的卷積神經(jīng)網(wǎng)絡(luò)濾波器(CNNF-R,CNN filter using residual)[14]將編碼后的殘差信息作為輔助信息輸入網(wǎng)絡(luò)。深度殘差卷積神經(jīng)網(wǎng)絡(luò)(DRCNN,deep residual CNN)[15]采用歸一化量化參數(shù)(QP,quantization parameter)作為網(wǎng)絡(luò)輸入,幫助網(wǎng)絡(luò)學(xué)習(xí)QP 與輸入重建幀壓縮失真的關(guān)系。

1.1.2 多幀輔助質(zhì)量增強(qiáng)方法

空-時(shí)殘差網(wǎng)絡(luò)(STResNet,spatial-temporal residue network)[16]通過同時(shí)輸入當(dāng)前塊和同位塊提高重建幀的質(zhì)量。深度卡爾曼濾波網(wǎng)絡(luò)(DKFN,deep Kalman filtering network)[17]融合卡爾曼濾波模型和神經(jīng)網(wǎng)絡(luò)的高度非線性映射的優(yōu)勢(shì),提供更準(zhǔn)確的時(shí)間信息,同時(shí)還利用預(yù)測(cè)殘差作為先驗(yàn)信息,從而產(chǎn)生更高質(zhì)量的恢復(fù)結(jié)果。質(zhì)量門控卷積長(zhǎng)短期記憶(QG-ConvLSTM,quality-gated convolutional long short-term memory)網(wǎng)絡(luò)[18]根據(jù)不同質(zhì)量幀的重要性不同,通過網(wǎng)絡(luò)學(xué)習(xí)使每幀的信息得到合理和充分的使用。上述方法直接使用相鄰?fù)粔K或參考幀作為網(wǎng)絡(luò)的輸入,未考慮運(yùn)動(dòng)信息,難以利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)跨多幀的依賴關(guān)系。

考慮運(yùn)動(dòng)信息的多幀輔助質(zhì)量增強(qiáng)一般分為幀對(duì)齊、幀融合和質(zhì)量增強(qiáng)3 個(gè)步驟?;诠饬鲗?duì)齊和基于可變形卷積對(duì)齊是目前最常用的幀對(duì)齊方法。幀融合是將對(duì)齊的幀與待增強(qiáng)的幀進(jìn)行融合,學(xué)習(xí)時(shí)域和空域相關(guān)性來生成融合特征以增強(qiáng)圖像質(zhì)量。質(zhì)量增強(qiáng)是充分挖掘融合特征中的互補(bǔ)信息,生成增強(qiáng)目標(biāo)幀。

基于光流的幀對(duì)齊通過估計(jì)幀之間的運(yùn)動(dòng)信息,將鄰近幀變形映射(warp),使之與待增強(qiáng)幀對(duì)齊。質(zhì)量增強(qiáng)網(wǎng)絡(luò)(QENet,quantity enhancement network)[19]、基于學(xué)習(xí)的多幀視頻質(zhì)量增強(qiáng)(LMVE,learning-based multi-frame video quality enhancement)[20]和多幀引導(dǎo)的注意力網(wǎng)絡(luò)(MGANet,multi-frame guided attention network)[21]利用光流網(wǎng)絡(luò)[22]及使用金字塔、映射和代價(jià)量的卷積神經(jīng)網(wǎng)絡(luò)(PWC-Net)[23]估計(jì)的光流得到對(duì)齊幀,并與當(dāng)前幀一起作為網(wǎng)絡(luò)的輸入。多幀質(zhì)量增強(qiáng)(MFQE,multi-frame quality enhancement)[24]和MFQE 2.0[25]由基于光流的運(yùn)動(dòng)補(bǔ)償子網(wǎng)絡(luò)和質(zhì)量增強(qiáng)子網(wǎng)絡(luò)組成,將與待增強(qiáng)幀最接近的2 個(gè)高質(zhì)量關(guān)鍵幀作為輸入。

現(xiàn)有的光流估計(jì)算法對(duì)有遮擋場(chǎng)景內(nèi)容的穩(wěn)健性不強(qiáng),在運(yùn)動(dòng)幅度大的情況下不能保證運(yùn)動(dòng)信息的準(zhǔn)確性?;诠饬鞯膸瑢?duì)齊在每個(gè)特征位置只學(xué)習(xí)一個(gè)偏移量,而DCN[26]和DCNv2[27]引入多個(gè)偏移量進(jìn)行幀對(duì)齊???時(shí)可變形融合(STDF,spatio-temporal deformable fusion)[28]和遞歸融合及可變形空-時(shí)注意力(RFDA,recursive fusion and deformable spatial-temporal attention)[29]學(xué)習(xí)一種新的時(shí)空可變形卷積來聚合時(shí)間信息的同時(shí)進(jìn)行幀融合,并利用由密集連接的卷積層來實(shí)現(xiàn)質(zhì)量增強(qiáng)。基于可變形卷積的幀對(duì)齊仍然存在一些問題,如快速運(yùn)動(dòng)不準(zhǔn)確、訓(xùn)練不穩(wěn)定。由于可變形偏移與基于光流的偏移關(guān)系密切,光流引導(dǎo)的可變形對(duì)齊網(wǎng)絡(luò)(FDAN,flow-guided deformable alignment network)[30]和基本視頻超分(BasicVSR++,basic video super-resolution)算法[31]提出了新型的對(duì)齊算法,將可變形卷積和光流相結(jié)合。

幀融合是將對(duì)齊后的相鄰幀與當(dāng)前幀進(jìn)行融合,生成融合特征以增強(qiáng)圖像質(zhì)量。RFDA[29]提出一種遞歸融合模塊,在一段長(zhǎng)時(shí)間范圍內(nèi)構(gòu)建時(shí)間依賴性。LMVE[20]和基于預(yù)測(cè)的多幀視頻增強(qiáng)(PMVE,prediction-based multi-frame video enhancement)[32]展示了直接融合、早期融合和慢速融合3 種不同的融合方法,并通過實(shí)驗(yàn)驗(yàn)證了慢速融合在效率上的優(yōu)勢(shì)。但是這些方法忽略了不同位置對(duì)增強(qiáng)幀的影響不同。為此,基于增強(qiáng)可變形卷積網(wǎng)絡(luò)的視頻恢復(fù)(EDVR,video restoration with enhanced deformable convolutional network)算法[33]引入了時(shí)間和空間注意力來幫助跨多個(gè)對(duì)齊特征聚合信息,但是沒有區(qū)分多個(gè)相鄰幀的重要性,忽略了它們的不同特征。

1.2 基于神經(jīng)網(wǎng)絡(luò)的虛擬參考幀生成

上述單幀或多幀輔助質(zhì)量增強(qiáng)方法可作為后處理技術(shù)應(yīng)用在視頻編碼系統(tǒng)中,也可用于環(huán)內(nèi)濾波處理。但這些方式多以提高主觀質(zhì)量為目標(biāo),對(duì)提高編碼效率幫助有限。同時(shí),基于神經(jīng)網(wǎng)絡(luò)的環(huán)內(nèi)濾波處理不可避免的一個(gè)問題是多次增強(qiáng),即多幀之間存在參考依賴,質(zhì)量提升效果會(huì)隨著幀之間的傳遞逐漸減小。質(zhì)量增強(qiáng)之后的幀較平滑,多次濾波后平滑效果更加明顯,這時(shí)直接作為輸出會(huì)影響主觀質(zhì)量。

出于以上原因,本文聚焦于基于神經(jīng)網(wǎng)絡(luò)的幀間預(yù)測(cè)技術(shù),此類技術(shù)不僅致力于提高重建圖像的質(zhì)量,而且利用增強(qiáng)技術(shù)可提高幀間預(yù)測(cè)的精確度,從而明顯提高視頻編碼效率,同時(shí)也避免了多次增強(qiáng)的問題。

目前,基于神經(jīng)網(wǎng)絡(luò)的幀間預(yù)測(cè)方法主要應(yīng)用在亞像素插值、預(yù)測(cè)值生成和參考幀列表優(yōu)化等環(huán)節(jié)。亞像素插值方法[34-37]通過神經(jīng)網(wǎng)絡(luò)利用整像素來推導(dǎo)亞像素位置。預(yù)測(cè)值生成方法[38-39]通過神經(jīng)網(wǎng)絡(luò)來代替線性加權(quán)預(yù)測(cè),可更好地處理復(fù)雜運(yùn)動(dòng)。使用網(wǎng)絡(luò)生成額外的虛擬參考幀是目前基于深度學(xué)習(xí)的參考幀列表優(yōu)化的主要方法。虛擬參考幀生成一般采用內(nèi)插、外插2 種方式。Lin 等[40]采用拉普拉斯金字塔狀的生成式對(duì)抗網(wǎng)絡(luò),利用待編碼幀的前4 個(gè)已編碼的重建幀生成額外的具有高質(zhì)量的參考幀。Zhao 等[41]從2 個(gè)重建參考幀中生成高質(zhì)量虛擬幀放入?yún)⒖紟斜?,并設(shè)計(jì)CTU 級(jí)編碼模式。之后Zhao 等[42]進(jìn)一步利用神經(jīng)網(wǎng)絡(luò)將合成幀整合到參考幀列表中進(jìn)行運(yùn)動(dòng)估計(jì)。Lee 等[43]提出使用之前已編碼的重建幀來合成虛擬參考幀,具有更高的時(shí)間相關(guān)性,可以同時(shí)進(jìn)行視頻幀內(nèi)插和外插,并自適應(yīng)地修改了高級(jí)運(yùn)動(dòng)向量預(yù)測(cè)(AMVP,advanced motion vector prediction)模式和Merge 模式的預(yù)測(cè)機(jī)制。Choi 等[44]利用非線性變換和自適應(yīng)空間變化濾波器,使用擴(kuò)張的卷積和減少濾波器長(zhǎng)度以減少網(wǎng)絡(luò)模型參數(shù),為單向預(yù)測(cè)和雙向預(yù)測(cè)2 種方式設(shè)計(jì)模型。此類方法在實(shí)時(shí)性的LDP 配置下編碼時(shí),僅能采用外插虛擬幀方法。而外插虛擬幀方法準(zhǔn)確度低,很難生成之后時(shí)刻尚不存在的信息,導(dǎo)致性能損失。針對(duì)該問題,本文提出利用深度學(xué)習(xí)實(shí)現(xiàn)參考幀質(zhì)量增強(qiáng),并將增強(qiáng)后的參考幀作為額外的參考幀插入?yún)⒖紟斜恚蕴岣邘g預(yù)測(cè)準(zhǔn)確度,從而提高視頻編碼效率。

2 基于神經(jīng)網(wǎng)絡(luò)的參考幀列表優(yōu)化算法

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

在常見的基于深度學(xué)習(xí)的視頻幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)中,一般僅對(duì)一個(gè)分量,即Y 分量進(jìn)行質(zhì)量增強(qiáng)。H.265/HEVC 的通用測(cè)試序列格式為YCbCr 4:2:0格式,Y、Cb、Cr 這3 個(gè)分量在尺寸、分布范圍、紋理特征等方面各不相同。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)對(duì)3 個(gè)分量分支路單獨(dú)處理。由于色度分量紋理相對(duì)平坦,因此色度分量支路網(wǎng)絡(luò)結(jié)構(gòu)為亮度分量支路的簡(jiǎn)化版本,并且Cb 和Cr 分量支路共享網(wǎng)絡(luò)參數(shù),以避免色度分量的過擬合。

在LDP 配置下,待編碼幀的參考幀列表一般存在4 個(gè)可用參考幀,故網(wǎng)絡(luò)輸入設(shè)置為4 個(gè)參考幀,其中參考幀列表中第一幀(即最鄰近幀)為待增強(qiáng)的參考幀。幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)旨在估計(jì)出一個(gè)高質(zhì)量的參考幀放入?yún)⒖紟斜碇小<僭O(shè)參考幀列表中的參考幀對(duì)應(yīng)的時(shí)刻依次為t,t1,t2,t3,網(wǎng)絡(luò)生成的高質(zhì)量參考幀表示為

其中,fRQE為本文所提出的參考幀質(zhì)量增強(qiáng)網(wǎng)絡(luò),為輸入的參考幀。

如圖2 所示,首先,參考幀被送入偏移和掩碼預(yù)測(cè)(OMP,offset and mask prediction)模塊。偏移信息為參考幀對(duì)齊提供參考幀之間的運(yùn)動(dòng)偏移量,掩碼信息為幀融合提供融合權(quán)重。

圖2 基于深度學(xué)習(xí)的參考幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)模型框架

然后,利用OMP 模塊提供的偏移信息和掩碼信息,本文提出的網(wǎng)絡(luò)模型使用DCNv2[26]來對(duì)齊并同時(shí)融合待增強(qiáng)參考幀和其他參考幀。

最后,將融合得到的特征送入質(zhì)量增強(qiáng)(QE,quality enhancement)模塊進(jìn)一步處理,計(jì)算出增強(qiáng)的結(jié)果。為了利用殘差學(xué)習(xí)的優(yōu)勢(shì)[45],QE 模塊的輸出與待增強(qiáng)參考幀相加得到增強(qiáng)后的參考幀。生成的高質(zhì)量參考幀為

其中,fOMP、fDCN和fQE分別為OMP 模塊、可變形卷積DCNv2 模塊和QE 模塊;I為參考幀集合,包含4 個(gè)參考幀。OMP 模塊生成t1,t2,t3時(shí)刻參考幀與t時(shí)刻參考幀之間的偏移信息和掩碼信息,如式(3)所示。

2.1.1 偏移和掩碼預(yù)測(cè)

不同參考幀之間存在不同程度的運(yùn)動(dòng)偏移,準(zhǔn)確的幀對(duì)齊可以更有效地挖掘多個(gè)視頻幀的信息??紤]到光流引導(dǎo)的可變形對(duì)齊的優(yōu)異性能[31],如圖3 所示,本文使用光流引導(dǎo)偏移量預(yù)測(cè)(FGOP,flow guided offset prediction)子模塊來獲得基本偏移量。進(jìn)一步地,使用特征學(xué)習(xí)子模塊(FLSN,feature learning sub-net)獲得殘差偏移信息和掩碼信息,進(jìn)而為輸入幀的每個(gè)位置提供最終偏移信息和融合權(quán)重。

如圖3 所示,以It和Iti為例,首先將這2 個(gè)重建幀的亮度分量經(jīng)過光流預(yù)測(cè)得到兩幀亮度分量之間的光流信息,再將其和經(jīng)過warp 操作得到對(duì)應(yīng)的warp 圖像。在色度分量支路中,使用亮度分量光流信息的下采樣作為兩幀色度分量之間的光流信息,具體如式(4)所示。

圖3 帶有光流引導(dǎo)的偏移和掩碼預(yù)測(cè)模塊

基于編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu),本節(jié)中的亮度分量特征學(xué)習(xí)子模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。在該結(jié)構(gòu)中,跨度為2 的卷積層和反卷積層分別用于下采樣和上采樣,亮度分量分別進(jìn)行三次卷積下采樣和反卷積上采樣。對(duì)于跨度為1 的卷積層,使用零填充來保留特征大小。為了簡(jiǎn)單起見,所有(反)卷積層的通道數(shù)為32。這樣,每一層的內(nèi)部特征的通道數(shù)是相同的。在FLSN 中,將輸入幀經(jīng)過圖4 所示的一系列處理得到殘差偏移信息和掩碼信息。

圖4 亮度分量特征學(xué)習(xí)子模塊的網(wǎng)絡(luò)結(jié)構(gòu)

其中,fFLSN表示特征學(xué)習(xí)子模塊。最終的偏移信息為

色度分量支路的特征學(xué)習(xí)子模塊為亮度分量的簡(jiǎn)化版本,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。

圖5 色度分量特征學(xué)習(xí)子模塊的網(wǎng)絡(luò)結(jié)構(gòu)

2.1.2 質(zhì)量增強(qiáng)模塊

QE 模塊將幀對(duì)齊并融合后得到的特征作為輸入,充分挖掘特征圖中包含的信息,進(jìn)一步提高生成幀的質(zhì)量。

通過DCNv2 得到的融合特征(FF,fusion feature)如式(7)所示。

其中,F(xiàn)FY表示亮度分量的融合特征,F(xiàn)FC表示色度分量Cb 或Cr 的融合特征。經(jīng)過QE 模塊之后將得到最終的高質(zhì)量參考幀,各分量的處理如式(8)所示。

本文采用8 層卷積網(wǎng)絡(luò)作為亮度的質(zhì)量增強(qiáng)模塊,使用4 層卷積網(wǎng)絡(luò)作為色度的質(zhì)量增強(qiáng)模塊,分別如圖6 和圖7 所示。

圖6 亮度分量質(zhì)量增強(qiáng)

圖7 色度分量質(zhì)量增強(qiáng)

2.2 高質(zhì)量參考幀的整合

如圖1 所示,解碼圖像緩存器(DPB,decoded picture buffer)用于存放解碼重建完成的圖像。每個(gè)片(slice)的幀間預(yù)測(cè)參考幀都由RFL 來管理,RFL 的圖像實(shí)際存儲(chǔ)于DPB 中。在編解碼過程中,不同時(shí)刻會(huì)為DPB 中存在的每幀重建圖像賦予一個(gè)不同的標(biāo)記,標(biāo)記有兩層含義,首先區(qū)分其是否作為參考幀,如果作為參考幀,再區(qū)分其是長(zhǎng)期參考幀還是短期參考幀。當(dāng)圖像不再作為其他圖像的參考幀時(shí),將其從DPB 中移除。

圖8給出了LDP配置下圖像之間參考關(guān)系以及各位置圖像與其質(zhì)量對(duì)應(yīng)關(guān)系。通常,圖像組(GoP,group of picture)大小設(shè)置為8,圖像間的編碼順序、解碼順序與顯示順序均相同。圖8 中的箭頭方向表示參考關(guān)系,每幀圖像僅參考顯示順序排在其之前的圖像,包括其最鄰近圖像和3 個(gè)前序GoP 中質(zhì)量最高的圖像。圖8 中的圖像使用不同的QP 進(jìn)行編碼,因此具有不同的重建質(zhì)量。一般來說,QP 越小質(zhì)量越高,圖8 中白色框表示對(duì)應(yīng)圖像使用的QP 最小,其質(zhì)量最高;圖像標(biāo)識(shí)顏色越深,表示其對(duì)應(yīng)的QP 越大,質(zhì)量越差。

圖8 LDP 配置下圖像之間參考關(guān)系以及各位置圖像與其質(zhì)量對(duì)應(yīng)關(guān)系

觀察圖8 可知,由于采用了不同QP,與待編碼圖像時(shí)間上最接近、內(nèi)容最相似的參考幀質(zhì)量往往不是最好的?;诖?,本文提出對(duì)最鄰近參考幀進(jìn)行質(zhì)量增強(qiáng)從而得到高質(zhì)量參考幀。

本節(jié)將本文算法集成到H.265/HEVC 參考軟件平臺(tái)HM(HEVC model)16.22 版本上,可分為以下幾個(gè)步驟。

步驟1在待編碼幀編碼之前創(chuàng)建一個(gè)增強(qiáng)參考幀緩存INN,并將其放入DPB 中。本文所提出的算法對(duì)參考幀列表中第一個(gè)參考幀進(jìn)行質(zhì)量增強(qiáng),即圖像順序計(jì)數(shù)(POC,picture order count)值最大的參考幀作為待增強(qiáng)幀。將INN的POC 值設(shè)置為DPB 中最大的POC 值,同時(shí)設(shè)置一個(gè)標(biāo)志信息與原參考幀進(jìn)行區(qū)分。

步驟2LDP 配置下待編碼幀僅含有前向參考幀列表,如圖9 所示,將前向參考幀列表的4 個(gè)參考幀輸入本文提出的網(wǎng)絡(luò),進(jìn)行參考幀質(zhì)量增強(qiáng)。將增強(qiáng)后的參考幀賦給INN,并將INN整合到參考幀列表中。

圖9 LDP 配置編碼下參考幀列表優(yōu)化方案

步驟3對(duì)待編碼幀進(jìn)行編碼。在當(dāng)前幀編碼完成之后,將INN從DPB 中移除,以免影響后續(xù)的輸出及編碼。

需要注意的是,本文提出的參考幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)的輸入均為存儲(chǔ)在DPB 中的重建幀,編碼端和解碼端的操作保持一致,所以編碼端不需要向比特流中傳輸任何額外的信息來標(biāo)記創(chuàng)建的參考幀。

3 實(shí)驗(yàn)結(jié)果

3.1 訓(xùn)練細(xì)節(jié)

本文使用的數(shù)據(jù)集選自Xiph 和VQEG 中的106 個(gè)序列,包含280p~1 080p 不同分辨率。使用H.265/HEVC參考軟件HM16.22對(duì)每個(gè)序列分別使用4 個(gè)典型的QP {22,27,32,37}進(jìn)行LDP 配置下的編碼。

常用的損失函數(shù)包括均方差(MSE,mean squared error)、平均絕對(duì)誤差(MAE,mean absolute error)等。本文使用式(9)所示的MAE 作為損失函數(shù),為方便整數(shù)運(yùn)算,最終選取式(10)作為最終的損失函數(shù)。

在訓(xùn)練過程中,本文使用Adam 優(yōu)化算法對(duì)網(wǎng)絡(luò)進(jìn)行更新,其相應(yīng)參數(shù)設(shè)置為α= 0.0001,β1= 0.9,β2= 0.999,ε= 10-8。

3.2 與標(biāo)準(zhǔn)參考軟件的對(duì)比

本文在H.265/HEVC 的LDP 配置[47]下進(jìn)行了相關(guān)的測(cè)試,具體測(cè)試了A~E 類共計(jì)18 個(gè)視頻序列,測(cè)試仍采用4 個(gè)典型的QP,即{22,27,32,37}。

本節(jié)實(shí)驗(yàn)使用BD-rate[48]對(duì)測(cè)試方法進(jìn)行客觀評(píng)價(jià),以HM16.22 作為基準(zhǔn)方案,BD-rate 值代表在相同重建視頻質(zhì)量下的碼率節(jié)省量,若BD-rate為負(fù)值,則表示測(cè)試方法優(yōu)于基準(zhǔn)方案;若BD-rate為正值,則表示測(cè)試方法相比于基準(zhǔn)方案需要傳輸更多的編碼碼率,引入了編碼損失。

表1 給出了相應(yīng)的測(cè)試結(jié)果,其中包含三類內(nèi)容,即不同測(cè)試序列對(duì)應(yīng)的類別、名稱、3 種顏色分量的性能。為充分分析增強(qiáng)參考幀放在參考幀列表不同位置造成的影響,本文方案將增強(qiáng)參考幀分別放到參考幀列表的第一位、第二位和最后位進(jìn)行測(cè)試。同時(shí),為了驗(yàn)證不改變參考幀列表長(zhǎng)度下引入增強(qiáng)參考幀的性能,本文也測(cè)試了將增強(qiáng)參考幀替換最鄰近參考幀的性能。

表1 LDP 配置編碼下引入增強(qiáng)參考幀在HM16.22 下的測(cè)試結(jié)果

從表1 中可以看出,基于最鄰近幀質(zhì)量增強(qiáng)的參考幀列表優(yōu)化算法將增強(qiáng)參考幀放到參考幀列表第二位時(shí),獲得的性能最高。在Y、Cb、Cr 這3 個(gè)分量上平均得到-9.06%、-14.92%、-13.19%的BD-rate 增益。同時(shí),在所有測(cè)試序列上都得到了增益,從Y 分量來看,可得到-15.21%~5.02%的BD-rate 增益。在不改變參考幀列表長(zhǎng)度的情況下,將增強(qiáng)參考幀替換最鄰近參考幀也可帶來一定的BD-rate 增益,在Y、Cb、Cr 這3 個(gè)分量分別得到-4.92%、-10.11%、-7.84%的BD-rate 增益。在相同視頻質(zhì)量前提下,所提算法均可降低編碼碼率。

在測(cè)試時(shí),本文深度學(xué)習(xí)網(wǎng)絡(luò)部分使用GPU進(jìn)行運(yùn)算,編解碼器的其他部分均使用CPU。表2給出了增強(qiáng)參考幀放到參考幀列表中不同位置時(shí)的編解碼時(shí)間比。

表2 增強(qiáng)參考幀放到參考幀列表中不同位置時(shí)的編解碼時(shí)間比

由表2 可知,將增強(qiáng)參考幀放到參考幀列表中不同位置時(shí)的編解碼時(shí)間接近,其中,編碼時(shí)間約為HM16.22 的1.2 倍,解碼時(shí)間約為HM16.22 的55 倍。

基于以上結(jié)果,本文選擇將質(zhì)量增強(qiáng)后的視頻幀插入待編碼幀的參考幀列表中的第二個(gè)位置。

3.3 與現(xiàn)有方法的對(duì)比

本節(jié)將所提算法與文獻(xiàn)[39,44]方法在相同的條件下進(jìn)行測(cè)試和比較。由于HM16.20 的LDP 配置編碼使用的GoP 為4,與HM16.22(GoP 為8)有較大差異,本文將參考幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)在HM16.20上重新訓(xùn)練并測(cè)試,如表3 所示。

表3 與現(xiàn)有方法的編碼性能比較

由表3 可知,所提算法在Y、Cb、Cr 這3 個(gè)分量分別獲得了-8.9%、-12.5%、-10.4%的BD-rate增益。將所提算法與文獻(xiàn)[39,44]方法的最優(yōu)性能進(jìn)行對(duì)比,可見其在不同分辨率的序列上都取得了最優(yōu)的性能。

正如前文所述,在LDP 配置下,文獻(xiàn)[39,44]方法都利用當(dāng)前時(shí)刻之前的重建幀進(jìn)行外插來得到虛擬參考幀,旨在生成與待編碼幀內(nèi)容一致的參考幀。然而,因?yàn)闊o法避免運(yùn)動(dòng)遮擋問題,虛擬參考幀中往往存在部分虛構(gòu)內(nèi)容,從而影響幀間預(yù)測(cè)的準(zhǔn)確性。而本文算法僅對(duì)已有的最鄰近參考幀進(jìn)行質(zhì)量增強(qiáng),避免了因虛構(gòu)內(nèi)容帶來的預(yù)測(cè)誤差,同時(shí)經(jīng)過增強(qiáng)的參考幀內(nèi)容往往具有較高的預(yù)測(cè)精度,有助于提高幀間編碼效率。

文獻(xiàn)[39,44]方法經(jīng)過神經(jīng)網(wǎng)絡(luò)處理得到的幀可直接作為編碼塊的預(yù)測(cè)值,從而減少了大量運(yùn)動(dòng)信息的傳輸,這是本文算法無法達(dá)到的效果。后續(xù)研究可以考慮綜合這2 種方法的優(yōu)勢(shì)進(jìn)行組合設(shè)計(jì),達(dá)到更高的壓縮性能。

4 結(jié)束語

本文提出了一種基于最鄰近參考幀質(zhì)量增強(qiáng)的參考幀列表優(yōu)化算法,以提高在LDP 配置下的視頻編碼效率。具體做法是先應(yīng)用光流引導(dǎo)可變形卷積的偏移預(yù)測(cè),再結(jié)合多參考幀通過QE 網(wǎng)絡(luò)對(duì)最鄰近參考幀進(jìn)行質(zhì)量增強(qiáng),將增強(qiáng)后的參考幀作為額外的高質(zhì)量參考幀插入?yún)⒖紟斜怼1疚膶?shí)驗(yàn)結(jié)果表明,所提算法可以提高低時(shí)延場(chǎng)景下視頻幀間編碼的效率。

本文將基于神經(jīng)網(wǎng)絡(luò)的視頻幀質(zhì)量增強(qiáng)應(yīng)用于參考幀列表優(yōu)化算法中,為視頻編碼標(biāo)準(zhǔn)的研究提供了可行的研究方向。然而將基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型與傳統(tǒng)編碼框架相結(jié)合大大增加了編解碼復(fù)雜度,下一步可考慮對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮和簡(jiǎn)化以降低復(fù)雜度。同時(shí),隨著軟硬件計(jì)算能力的提升,設(shè)計(jì)更高效的質(zhì)量增強(qiáng)網(wǎng)絡(luò)應(yīng)用到參考幀列表優(yōu)化中,也可進(jìn)一步提升視頻編碼性能。

猜你喜歡
列表卷積編碼
巧用列表來推理
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
學(xué)習(xí)運(yùn)用列表法
《全元詩(shī)》未編碼疑難字考辨十五則
擴(kuò)列吧
子帶編碼在圖像壓縮編碼中的應(yīng)用
電子制作(2019年22期)2020-01-14 03:16:24
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
Genome and healthcare
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
乳山市| 东宁县| 湄潭县| 大方县| 荣成市| 大兴区| 周口市| 宽城| 进贤县| 岳普湖县| 巢湖市| 邵阳县| 崇州市| 新巴尔虎右旗| 肥乡县| 依安县| 定远县| 民县| 汕头市| 郯城县| 和龙市| 高安市| 太原市| 新竹县| 海南省| 洪湖市| 西丰县| 尼玛县| 汝南县| 三江| 达州市| 宁波市| 黄龙县| 焦作市| 江城| 乌拉特后旗| 鹤山市| 万盛区| 锦屏县| 旬邑县| 房产|