王延文,雷為民,張偉,孟歡,陳新怡,葉文慧,景慶陽
(東北大學(xué)計算機科學(xué)與工程學(xué)院,遼寧 沈陽 110169)
隨著視頻流量的大幅增長,進一步提升視頻壓縮編碼性能的需求十分迫切。傳統(tǒng)視頻圖像的壓縮編碼算法停留在像素表示階段,僅針對視頻的空間冗余、時間冗余、感知冗余以及信息熵冗余進行處理,無法利用圖像的語義信息和感知圖像的內(nèi)容相關(guān)性,因此基于像素相關(guān)性的編碼范式難以進一步提升數(shù)據(jù)壓縮比,進入了技術(shù)瓶頸階段。相較于傳統(tǒng)方案,基于生成模型的語義壓縮編碼方法能夠進一步感知視頻數(shù)據(jù)間的統(tǒng)計規(guī)律,通過將圖像內(nèi)容轉(zhuǎn)換為低語義冗余的概念表示,如結(jié)構(gòu)、紋理和語義等,利用圖像間的結(jié)構(gòu)相似性和先驗知識來消除視頻圖像數(shù)據(jù)間的語義冗余,從而有望極大提升壓縮性能。作為壓縮編碼的重要環(huán)節(jié),視頻重建是指解碼端根據(jù)接收的碼流信息恢復(fù)出原始視頻,是低碼率下視頻質(zhì)量的重要保證。目前的視頻重建方法可以分為2 種,一種是基于傳統(tǒng)混合編碼框架[1-3]的重建方法,利用幀內(nèi)預(yù)測和幀間預(yù)測技術(shù)結(jié)合編碼殘差來重建視頻幀,或者利用超分辨率技術(shù)重建圖像的高頻信息,從而實現(xiàn)質(zhì)量增強;另一種是基于生成模型[4]和語義分析模型[5-6]的重建方法,根據(jù)編碼端發(fā)送的圖像特征描述符,即提取圖像的稀疏特征表示或者潛在的特征向量,利用生成模型建立特征空間到像素空間的有效轉(zhuǎn)換,從而實現(xiàn)圖像重建。
一般來說,生成模型的目標(biāo)是根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個能夠模擬該數(shù)據(jù)集的概率分布,并生成符合該分布的新的樣本數(shù)據(jù)。目前,主流的生成方法有3 種,一種是基于變分自編碼器(VAE,variational auto-encoder)[7],通過明確的概率估計來擬合真實的樣本分布;第二種是基于生成對抗網(wǎng)絡(luò)(GAN,generative adversarial network)[8],利用生成器與判別器的相互博弈來訓(xùn)練網(wǎng)絡(luò),使其不斷逼近真實分布;第三種是基于自回歸模型[9]實現(xiàn)圖像生成,包括利用卷積來建模像素概率分布和基于Transformer[10]的網(wǎng)絡(luò)架構(gòu)實現(xiàn)圖像預(yù)測。相對于其他2 種方案,GAN 不需要對生成分布建立顯式表達進而避免復(fù)雜的計算[11]。此外,通過語義函數(shù)來構(gòu)建損失函數(shù)而非基于像素級的相似度量,能夠生成更高質(zhì)量的視頻圖像,是目前使用最為廣泛的方法。
本文主要針對編碼框架中的重建方法進行綜述,其中重點介紹生成式的重建方法。首先從傳統(tǒng)編碼重建方法出發(fā),分析利用深度學(xué)習(xí)進行優(yōu)化的預(yù)測方法。其次結(jié)合幾種生成模型,總結(jié)其可用于視頻圖像重建的相關(guān)方法。最后通過分析現(xiàn)有的編碼重建方法存在的相關(guān)問題,討論進一步的研究方向。
傳統(tǒng)的視頻編碼框架是由預(yù)測編碼和變換編碼組成的混合編碼框架。其中,預(yù)測編碼主要包括幀內(nèi)預(yù)測和幀間預(yù)測2 種模式,旨在消除視頻數(shù)據(jù)的空間和時間冗余,變換編碼通過對殘差數(shù)據(jù)進行變換量化以消除數(shù)據(jù)的統(tǒng)計冗余?;谶@種混合式編碼框架,H.264/AVC(advanced video coding)[1]、H.265/HEVC(high efficiency video coding)[2]、VVC(versatile video coding)[3]編碼方案通過探索像素之間的冗余,實現(xiàn)了非常高效的編碼效率和良好的重建效果。隨著深度學(xué)習(xí)的不斷發(fā)展,許多研究者將深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)框架相結(jié)合,用于改進其中的某些模塊,如幀內(nèi)預(yù)測、幀間預(yù)測、環(huán)路濾波等,進一步提高編碼效率和重建質(zhì)量。本文主要針對幀內(nèi)預(yù)測、幀間預(yù)測和超分辨率重建3 個方面展開敘述,并在表1中總結(jié)了基于傳統(tǒng)編碼框架的視頻圖像重建的基本原理和主要方法。
表1 基于傳統(tǒng)編碼框架的視頻圖像重建的基本原理和主要方法
幀內(nèi)預(yù)測旨在根據(jù)圖像的空間相關(guān)性去除空間冗余,利用相鄰的重建像素預(yù)測當(dāng)前的編碼單元。在傳統(tǒng)編碼標(biāo)準(zhǔn)中,通過計算率失真代價來優(yōu)化幀內(nèi)預(yù)測模式,并通過不斷精細化劃分編碼單元以及完善預(yù)測模式來增強編碼性能。由于傳統(tǒng)編碼的線性預(yù)測模式相對簡單,因此對于具有復(fù)雜紋理的編碼塊預(yù)測效果不佳。而利用深度神經(jīng)網(wǎng)絡(luò)能夠進一步提升預(yù)測精度,主要包括利用網(wǎng)絡(luò)優(yōu)化預(yù)測模式,對像素值直接預(yù)測以及對傳統(tǒng)預(yù)測結(jié)果的進一步增強。例如,Li 等[12]使用全連接網(wǎng)絡(luò)直接產(chǎn)生預(yù)測像素,并通過訓(xùn)練網(wǎng)絡(luò)來選擇預(yù)測模式。Cui 等[13]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network),以相鄰的重建塊和HEVC 的預(yù)測單元作為網(wǎng)絡(luò)輸入,對預(yù)測結(jié)果進一步增強,從而減小預(yù)測殘差。文獻[14-15]等分別利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)和GAN 增強預(yù)測??傮w來說,基于神經(jīng)網(wǎng)絡(luò)的方法能夠更好地利用編碼塊的上下文信息,相比于傳統(tǒng)編碼方法實現(xiàn)了大幅的BD-rate 增益。
幀間預(yù)測旨在利用視頻的時間相關(guān)性去除時間冗余,基于運動估計和運動補償技術(shù)實現(xiàn)圖像像素值的預(yù)測,其主要原理是根據(jù)鄰近已編碼的圖像來為當(dāng)前圖像塊選擇最佳匹配塊,并將其作為預(yù)測結(jié)果?;谏窠?jīng)網(wǎng)絡(luò)的幀間預(yù)測主要通過提升參考幀質(zhì)量和增強運動補償來改善編碼性能。從改善參考幀的角度來看,除了使用重建幀作為參考幀外,主要通過合成新的參考幀來增加多樣性,例如,Zhao 等[16]利用幀速率上轉(zhuǎn)換算法根據(jù)重建的雙向幀生成虛擬幀作為參考幀;Guo 等[17]提出高低時域的分層編碼架構(gòu),將低時域的重建幀作為高時域的參考幀。從增強運動補償?shù)慕嵌葋砜矗琙hao 等[18]進行幀間的雙向預(yù)測,使用CNN 非線性方式融合預(yù)測塊進行雙向運動補償,以提高預(yù)測效率;Yan等[19]利用CNN 構(gòu)建分數(shù)像素參考網(wǎng)絡(luò),由與當(dāng)前編碼幀接近的參考幀生成分數(shù)位像素,增強運動矢量估計的準(zhǔn)確性。
在低帶寬的情況下,可以通過超分辨率技術(shù)來保證視頻重建質(zhì)量,具體做法為在編碼前對圖像進行下采樣,然后解碼器再上采樣到原始分辨率,其整體框架如圖1 所示。早期研究主要通過基于插值、基于字典學(xué)習(xí)的方式進行超分辨率重建,隨著基于深度學(xué)習(xí)的超分辨率算法[20]的不斷成熟,其中一些超分辨率網(wǎng)絡(luò)被應(yīng)用于編碼框架,相關(guān)研究主要集中在解碼端的上采樣,如Li 等[21]采用傳統(tǒng)濾波方式對圖像進行下采樣,并設(shè)置2 種模式來決策圖像的編碼分辨率,然后在解碼端利用CNN 分別對編碼塊和整個編碼幀執(zhí)行上采樣,進一步完善邊界處理。Afonso 等[22]通過量化分辨率優(yōu)化模塊來自適應(yīng)選擇輸入視頻的最佳空間和時間分辨率,使用VDSR[23]的網(wǎng)絡(luò)架構(gòu)重新訓(xùn)練后進行上采樣,實現(xiàn)了顯著的編碼增益。另一種基于超分辨率的編碼方案是利用神經(jīng)網(wǎng)絡(luò)同時實現(xiàn)上下采樣,如Jiang 等[24]利用2 個CNN 協(xié)同優(yōu)化分別實現(xiàn)圖像的壓縮表示和解碼重建,保留更多圖像細節(jié)。
圖1 基于超分辨率的編碼重建框架
基于神經(jīng)網(wǎng)絡(luò)對傳統(tǒng)編碼框架進行優(yōu)化的方法具有很大優(yōu)勢,首先,神經(jīng)網(wǎng)絡(luò)能夠充分利用視頻圖像的先驗知識,以非線性的學(xué)習(xí)方式推導(dǎo)數(shù)據(jù),優(yōu)于傳統(tǒng)僅依賴于信號處理的模型。其次,神經(jīng)網(wǎng)絡(luò)可以更有效地捕獲不同處理單元間的相關(guān)性,增大時間空間的感受野,從而更好地去除視頻的時間空間冗余,提高預(yù)測精度。但是在此框架下的編碼效率以及重建質(zhì)量的提升空間有限,無法進一步滿足不斷增長的用戶和市場需求。
目前,基于生成模型的端到端的編碼與重建框架,能夠以稀疏的圖像表示重建原始圖像,為探究視頻圖像語義編碼開辟了新的思路,下面,圍繞基于生成模型的重建方法展開綜述,并在表2 中對其方法進行分析與比較。
表2 基于生成模型的重建方法的分析與比較
變分自編碼器(VAE,variational auto-encoder)[7]是一種無監(jiān)督式學(xué)習(xí)的生成模型,基于變分貝葉斯推斷對輸入數(shù)據(jù)的分布進行建模,其網(wǎng)絡(luò)架構(gòu)如圖2所示。在編碼部分學(xué)習(xí)隱變量的分布,首先將輸入圖像x編碼為隱變量z,通過學(xué)習(xí)條件分布q(z|x) 來擬合真實的后驗概率分布p(x|z),為方便計算,通常假設(shè)q(z|x) 為正態(tài)分布,即學(xué)習(xí)該分布的2 個參數(shù)均值μ和標(biāo)準(zhǔn)差δ;在解碼部分,從隱變量中采樣,根據(jù)學(xué)習(xí)到的條件分布p(x|z)恢復(fù)樣本數(shù)據(jù)。
圖2 變分自編碼器網(wǎng)絡(luò)架構(gòu)
為更有效地控制數(shù)據(jù)生成,條件變分自編碼器[25]通過對編碼器和解碼器輸入one-hot 向量來表示標(biāo)簽信息,從而實現(xiàn)監(jiān)督學(xué)習(xí),改善重建質(zhì)量?;跅l件VAE 和條件U-Net 網(wǎng)絡(luò),Esser 等[26]假設(shè)圖像可由外觀和姿態(tài)兩部分特征來表示,那么圖像生成過程可以大致定義為建立關(guān)于這2 個變量的最大后驗估計。首先采用VAE 推斷出圖像外觀,然后利用U-Net網(wǎng)絡(luò)根據(jù)外觀和姿態(tài)信息2個分量重建圖像。與基于pix2pix[27]的邊緣重建方法相比,該方法能使輸出圖像與輸入圖像的邊緣保持更高的一致性。
為更好地近似隱變量的先驗和后驗概率,一些多層VAE 模型將隱變量分組為
同樣假設(shè)其為高斯分布,逐層自回歸建模。因此先驗和后驗概率可分別表示為
其中,p(z) 表示潛在變量z的先驗分布,q(z|x) 表示編碼器所學(xué)習(xí)的近似后驗概率。
結(jié)合這種分組自回歸的推理思想,DRAW[28]采用遞歸神經(jīng)網(wǎng)絡(luò)逐步修正隱變量的分布,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。編碼端捕獲輸入圖像的顯著信息,并采樣得到輸入的潛在分布,解碼器根據(jù)接收的條件分布和前一時刻的解碼輸出,逐步更新生成數(shù)據(jù)分布。該算法能夠生成簡單的手寫數(shù)字,但對于自然圖像中的數(shù)字生成以及大尺度圖像恢復(fù)效果有待提升。得益于DRAW 的生成方法,文獻[29]對變分自編碼器的潛在特征進行壓縮,通過優(yōu)先存儲更高級的抽象表示,實現(xiàn)了圖像的概念壓縮。
圖3 DRAW 網(wǎng)絡(luò)結(jié)構(gòu)
為進一步改善深層VAE 的參數(shù)優(yōu)化,LVAE(Ladder VAE)[30]設(shè)計了一種階梯網(wǎng)絡(luò)結(jié)構(gòu),利用數(shù)據(jù)之間的依賴性遞歸修正生成分布,實驗結(jié)果表明,該網(wǎng)絡(luò)結(jié)構(gòu)相比于其他自底向上[1]的推理模型更容易優(yōu)化參數(shù),實現(xiàn)了更準(zhǔn)確的對數(shù)似然預(yù)測和更嚴(yán)格的對數(shù)似然界限。在LVAE 的基礎(chǔ)上,BIVA[31]構(gòu)建了雙向推理變分自編碼器,通過在生成模型中添加明確的自上而下的路徑和在推理模型中添加自下而上的隨機推理路徑,從而避免了變量崩潰。為進一步提高圖像生成質(zhì)量,NVAE[32]借助文獻[33]的統(tǒng)計模型,設(shè)計了深度分層的多尺度網(wǎng)絡(luò)結(jié)構(gòu),編碼器自底向上提取輸入表示并自頂向下推斷潛在向量,解碼器自上而下進行解碼,有效捕捉數(shù)據(jù)的長時相關(guān)性。其次提出近似后驗殘差參數(shù)化方法,并為每一層卷積層添加譜正則化保持訓(xùn)練穩(wěn)定性,首次實現(xiàn)了VAE 在大的自然圖像上的高質(zhì)量生成。
基于codebook 的重建方式是指為輸入圖像構(gòu)建由多個編碼潛在向量組成的向量碼本,并對其索引實現(xiàn)離散化表示,重建過程即對索引值的預(yù)測。VQ-VAE[34]是首個進行離散化表征的VAE 模型,如圖4 所示,編碼器將輸入圖像編碼為潛在表征同時網(wǎng)絡(luò)初始構(gòu)造包含k個嵌入向量的編碼表,通過共享嵌入空間,利用最近鄰查找算法找到與當(dāng)前潛在變量z距離最近的嵌入向量ei,取其索引值作為當(dāng)前向量的離散表征,最后經(jīng)解碼器映射回碼本中的向量重建圖像。這種離散化的數(shù)據(jù)表示進一步提高了壓縮性能和編碼效率,為圖像重建開創(chuàng)了新范式。同樣基于有損壓縮的思想,Deepmind 在二代VQ-VAE[35]中引入層次結(jié)構(gòu),根據(jù)不同大小的潛在空間分別建模圖像的局部信息和全局信息,有效提升了圖像生成的分辨率。
圖4 VQ-VAE 示意
變分自編碼器的重建方法具有更明確的數(shù)學(xué)理論,可以將數(shù)據(jù)建模為顯式的概率分布,有助于編碼器在潛在空間對圖像進行壓縮表征。但由于VAE 依靠假設(shè)的損失函數(shù)和KL 散度來優(yōu)化重建圖像,當(dāng)這兩項優(yōu)化失衡時可能會導(dǎo)致后驗坍塌,即解碼器過于強大,編碼器無法提供有效的隱變量表示。此外,對于更復(fù)雜的自然圖像可能會導(dǎo)致生成樣本模糊。
GAN[8]作為一種新的無監(jiān)督網(wǎng)絡(luò)框架備受關(guān)注。如圖5 所示,GAN 包含2 個模型,生成器模型G與判別器模型D,生成器根據(jù)隨機變量生成虛假圖片,通過不斷學(xué)習(xí)訓(xùn)練集中真實數(shù)據(jù)的概率分布,盡可能地提高生成樣本與輸入圖像的相似度;判別器對生成圖片與真實圖片進行辨別,若輸入是真實圖片則輸出高概率,否則輸出低概率,同時將輸出反饋給生成器從而指導(dǎo)G的訓(xùn)練。二者以博弈的訓(xùn)練方式來分別提升各自性能,使其最終達到納什均衡,網(wǎng)絡(luò)損失函數(shù)表示為
圖5 生成對抗網(wǎng)絡(luò)示意
其中,pdata(x)為數(shù)據(jù)的真實分布為輸入噪聲的向量分布,G(z)為生成器根據(jù)噪聲z生成的假樣本。式(3)中第一項表示判別器識別數(shù)據(jù)為真實數(shù)據(jù),第二項表示判別器識別出數(shù)據(jù)為生成器生成的虛假數(shù)據(jù)。當(dāng)優(yōu)化判別器D時,需固定生成器,使真實數(shù)據(jù)的判別概率趨近于1,生成圖片的判別概率趨近于0,因此對應(yīng)最大化式(3);當(dāng)優(yōu)化生成器G時,需固定訓(xùn)練好的判別器,使生成樣本接近于真實樣本,因此對應(yīng)最小化第二項。
由于GAN 生成圖像過于隨機,缺乏一定限制,無法準(zhǔn)確反映訓(xùn)練數(shù)據(jù)的分布變化,為解決該問題,條件GAN[36]通過對生成器和鑒別器添加約束條件從而有效指導(dǎo)數(shù)據(jù)生成,其中條件信息可以是類標(biāo)簽、文本等多模態(tài)數(shù)據(jù),其損失函數(shù)如式(4)所示,y表示輸入條件。相比原始GAN,條件GAN輸出更可控,因此更適用于視頻圖像重建任務(wù)。
得益于GAN 強大的生成能力,一些基于GAN改進的生成方法層出不窮,成為當(dāng)前視頻圖像生成效果最為突出的主流方法。例如,pix2pix[27]是最具有代表性的基于GAN 的圖像生成方案之一,文中提出了一個圖像轉(zhuǎn)換的統(tǒng)一框架,該框架以輸入圖像作為條件,利用條件GAN 生成對應(yīng)圖像。生成器采用了“U-Net”的網(wǎng)絡(luò)架構(gòu),加入殘差連接更有效地傳遞信息;判別器為“PatchGAN”,將圖像分塊判別,有效建模高頻信息。Pix2pixHD[37]在此基礎(chǔ)上做進一步改進,通過嵌入多級生成器提升生成圖像的分辨率,并采用3 個作用于不同圖像尺度的判別器,分別捕獲圖像的更大感受野以及精細細節(jié)。得益于強大的圖像生成能力,這2 種網(wǎng)絡(luò)被廣泛應(yīng)用在圖像解碼重建中,實現(xiàn)了高質(zhì)量的重建效果。
目前,基于GAN 的編碼重建框架為在編碼端提取表征圖像語義特征的輔助信息,實現(xiàn)語義壓縮,發(fā)送方只需傳輸少量的關(guān)鍵幀和輔助信息;解碼端根據(jù)輔助信息,使用相關(guān)基于GAN 改進的生成模型恢復(fù)圖像。根據(jù)輔助信息不同,可分為基于邊緣、關(guān)鍵點特征以及語義分割圖的視頻圖像重建方法,下面針對3 種重建方法分別展開討論。
基于邊緣的重建借鑒了一部分圖像分層的概念,認為結(jié)構(gòu)和紋理是圖像中2 個重要的組成部分,而最常見的幾何結(jié)構(gòu)就是邊緣。所以一般來說從視覺上可以將圖像分為兩層:邊緣和紋理。按照這種劃分思想,就產(chǎn)生了基于圖像邊緣的重建方式[38-41]。
Hu 等[38]以在編碼端提取的邊緣和色彩為依據(jù),利用pix2pix 網(wǎng)絡(luò)[27]在解碼端將二者映射回原始的像素進行圖像重建,具體如圖6 所示。在邊緣特征提取上,采用基于結(jié)構(gòu)化森林的快速邊緣檢測[42]來檢測邊緣的映射,將邊緣映射進行二值化,繼而將二值化邊緣圖轉(zhuǎn)換為矢量化表示,從而利用生成模型根據(jù)矢量化的邊緣圖進行重建。該方法在保持高壓縮比的同時能夠支持機器和人類視覺任務(wù)。Kim 等[39]同樣以邊緣為重建依據(jù),實現(xiàn)了視頻重建,不同的是該研究采用“軟邊緣”,即邊緣檢測器提取的是帶有顏色信息的多級邊緣圖,而非二進制邊緣圖。
圖6 基于邊緣的編碼重建框架
結(jié)合結(jié)構(gòu)和紋理的分層壓縮重建方案能夠進一步提高圖像的保真度。例如,Chang 等[40-41]將視覺數(shù)據(jù)表示為邊緣結(jié)構(gòu)和紋理信息,結(jié)合VAE 和GAN 這2 個生成模型實現(xiàn)圖像重建。在編碼端,利用邊緣檢測(HED,holistically-nested edge detection)[43]來提取保留圖像主要結(jié)構(gòu)信息的邊緣圖,借助VAE 提取圖像中紋理信息的潛在語義編碼。對于重建部分,文獻[40]使用最小二乘GAN 結(jié)合獲得的低維紋理信息和上采樣的邊緣圖來合成原始圖像,其整體網(wǎng)絡(luò)架構(gòu)如圖7 所示。文獻[41]設(shè)計了一個分層融合的GAN,以殘差塊為基本單元,通過跳躍連接和分層融合技術(shù)逐步提高合成特征圖的分辨率。這樣的重建方式擁有更好的感知質(zhì)量,并且保留了原始圖像的大部分紋理信息。
圖7 層間感知的圖像壓縮和重建網(wǎng)絡(luò)架構(gòu)
用邊緣作為緊湊的視覺表征進行編碼重建,能夠建立視頻對象的長時相關(guān)性,對圖像內(nèi)容具有更靈活的控制,可極大降低碼流。而基于邊緣信息的重建方法適用的處理對象和處理任務(wù)也更加廣泛,包括自然圖像合成、人物圖像合成等。由于邊緣提取效果是保證重建質(zhì)量的關(guān)鍵,因此對邊緣提取算法具有較高要求。目前,以邊緣為輔助信息的方法主要集中在圖像的壓縮重建,對于視頻場景,實驗的視頻分辨率較低,距離實際1080P、4K 等視頻還有很大差距,其次重建的視頻幀可能伴隨閃爍效應(yīng),因此在消除視頻時間冗余的同時還需考慮重建視頻的完整性與連貫性。盡管目前的視頻重建質(zhì)量仍有待提高,但也為未來視頻編碼技術(shù)提供了新的編碼框架。
關(guān)鍵點特征作為一種常用的人臉結(jié)構(gòu)以及人體姿態(tài)表示方法,具有高度抽象且稀疏的特點,盡管缺乏顏色和紋理信息,但能夠描述人物的關(guān)鍵結(jié)構(gòu),也可表示特征域的運動信息,用于輔助視頻圖像重建,對視頻圖像壓縮編碼具有重要意義。使用關(guān)鍵點作為輔助信息的重建方法根據(jù)其驅(qū)動方式的不同可分為2 種:一種是使用人臉關(guān)鍵點作為驅(qū)動信息,即在面部五官周圍設(shè)置特定的參考點,使用面部重演技術(shù)[44-46]重建人臉圖像;另一種是使用關(guān)鍵點表示主體的運動信息,從驅(qū)動視頻中提取運動特征,利用talking-head 任務(wù)、圖像動畫、動作遷移等技術(shù)重建人物圖像。
3.2.1 以人臉特征點為驅(qū)動的重建方法
以人臉特征點為驅(qū)動的重建方法是指通過面部特征點表示運動信息,利用生成對抗網(wǎng)絡(luò)結(jié)合關(guān)鍵幀以及面部關(guān)鍵點進行重建,從而大幅降低視頻通話帶寬,其網(wǎng)絡(luò)架構(gòu)如圖8 所示。Feng 等[47]基于面部重演FSGAN[48]架構(gòu)實現(xiàn)重建,選取1~10 張圖像為關(guān)鍵幀傳遞人臉整體外貌特征和背景特征,提取其他幀的面部關(guān)鍵點用于改變?nèi)四樀淖藨B(tài)和表情,并對非關(guān)鍵幀區(qū)分出敏感區(qū)域加強重建質(zhì)量。為進一步節(jié)省碼流,考慮視頻內(nèi)容的長時相關(guān)性,可將關(guān)鍵幀編碼的碼流上傳云端或者提前保存本地從而節(jié)約實時的傳輸碼流。該方法實現(xiàn)了1 kbit/s 的良好性能,相比VVC 編碼,可節(jié)省75%碼率。文獻[49]通過傳輸扭曲面部分割圖,并利用SPADE[50]改善面部重要區(qū)域,實現(xiàn)了移動端低帶寬的視頻通話。進一步地,Hong 等[51]利用深度圖來輔助人臉關(guān)鍵點檢測,并學(xué)習(xí)跨模態(tài)注意力指導(dǎo)運動場的學(xué)習(xí),使之生成更自然的視頻。
圖8 基于面部關(guān)鍵點的視頻重建網(wǎng)絡(luò)架構(gòu)
3.2.2 以視頻為驅(qū)動的重建方法
以視頻為驅(qū)動的重建方法是指將視頻分為源視頻與驅(qū)動視頻,分別提供人物的身份信息與運動信息,根據(jù)運動信息驅(qū)動源視頻實現(xiàn)重建。Monkey-Net[52]第一個以自監(jiān)督方式預(yù)測關(guān)鍵點來建模姿態(tài)信息,在此基礎(chǔ)上,F(xiàn)OMM(first order motion model)[53]根據(jù)相鄰關(guān)鍵點的局部仿射變換來表征物體運動,并對遮擋部分進行建模實現(xiàn)視頻重建。其基本思想都是通過少量的關(guān)鍵點表征不同視頻幀之間的運動信息,例如,Wang 等[54]利用talking-head 模型實現(xiàn)重建,不同于之前的人臉關(guān)鍵點特征表示方式,該模型所提取的關(guān)鍵點是以三維空間分布的形式表征人臉的姿勢與表情。整體框架如圖9 所示,首先提取源圖像的外觀特征,然后通過一階近似計算驅(qū)動關(guān)鍵點相對于源圖像關(guān)鍵點的光流,組合多個光流產(chǎn)生最終的光流場用于扭曲三維源特征,最后將扭曲后的特征送入生成器重建圖像。由于編碼端只需傳輸關(guān)鍵點,因此在很大程度上節(jié)約了傳輸碼流,相比商業(yè)H.264 標(biāo)準(zhǔn),該方法可以節(jié)約90%的帶寬?;陬愃扑枷?,Konuko等[55]同樣根據(jù)關(guān)鍵點運動信息扭曲參考幀實現(xiàn)重建,并提出了自適應(yīng)選取參考幀方案,避免由于其他幀與參考幀的時間距離太遠導(dǎo)致相關(guān)性降低,從而影響重建質(zhì)量。相較于HEVC 方案,該方案能夠節(jié)約80%的碼率。
圖9 基于關(guān)鍵點的talking-head 視頻合成整體框架
此外,F(xiàn)ew-vid2vid[56]突破了單純的人臉重建,實現(xiàn)了人體姿態(tài)、talking-head 等高質(zhì)量視頻合成。Chan 等[57]完成了2 個不同人物視頻的動作遷移。Xia 等[58]通過學(xué)習(xí)關(guān)鍵點的稀疏運動軌跡進行重建,實現(xiàn)了一種可伸縮的聯(lián)合壓縮方法。文獻[59]通過傳輸人體姿態(tài)和人臉網(wǎng)格信息,利用基于骨骼的動畫系統(tǒng)實現(xiàn)重建,最終以動畫木偶的形式顯示在接收端。Wu 等[60]在重建方法上做出了改進,根據(jù)CovLSTM[61]對(GoP,group of picture)內(nèi)部的幀間時空相關(guān)性進行建模,通過回憶注意力建立特征與關(guān)鍵點之間聯(lián)系,并將注意力模塊的輸出作為重建視頻的輸入條件,基于pix2pixHD[37]網(wǎng)絡(luò)來實現(xiàn)重建。但由于該網(wǎng)絡(luò)對視頻序列循環(huán)提取抽象特征,適用于非實時視頻壓縮場景。
相比于使用邊緣作為描述圖像的低級語義特征,關(guān)鍵點特征能夠?qū)崿F(xiàn)更高的壓縮比和更低的傳輸碼流,但由于關(guān)鍵點只表征了位置和方向,無法表征更多的語義信息,因此對動作主體要求比較嚴(yán)格,同時適用的視頻場景也相對單一,如只能用于以人物為主體的視頻,對于人物姿勢變化較大以及背景復(fù)雜的視頻重建效果欠佳。在網(wǎng)絡(luò)擁塞導(dǎo)致帶寬極低的情況下,借助關(guān)鍵點重建視頻的方法對構(gòu)建高質(zhì)量實時視頻會議、移動端實時視頻通話以及流媒體直播具有重要意義,能夠進一步節(jié)約網(wǎng)絡(luò)傳輸資源。
語義分割作為圖像分析的關(guān)鍵步驟,是指對圖像中所有像素進行分類,并將同一類別像素用相同顏色表示,從而形成語義分割圖,因此語義分割圖在一定程度上建立了圖像的語義和結(jié)構(gòu)表示,通常也作為視頻圖像生成的一種輔助條件。例如,Vid2vid[62]根據(jù)語義分割圖組成的視頻來生成視頻,將視頻到視頻合成問題轉(zhuǎn)換為分布匹配問題,通過訓(xùn)練學(xué)習(xí)使生成視頻的條件分布盡可能地與真實視頻相接近,以歷史圖片和語義分割圖作為生成器輸入合成高清圖片。該文實現(xiàn)了合成約30 s 的2K街景視頻的超高水平,并且涵蓋了視頻生成的大部分應(yīng)用場景。Pan 等[63]采用分治策略實現(xiàn)了基于單一語義標(biāo)簽的視頻生成。在語義圖像合成中,由于在生成網(wǎng)絡(luò)中使用歸一化層,所以直接將語義分割圖送入網(wǎng)絡(luò)處理會使語義標(biāo)簽激活后變?yōu)榱?,?dǎo)致語義消失。為解決此問題,Park 等[50]提出了空間自適應(yīng)歸一化,通過自適應(yīng)學(xué)習(xí)的參數(shù)來調(diào)節(jié)激活值,保證語義信息的有效性。在此基礎(chǔ)上,Zhu 等[64]提出了語義區(qū)域自適應(yīng)歸一化,為每個語義區(qū)域創(chuàng)建歸一化參數(shù),實現(xiàn)對每個語義區(qū)域樣式的單獨控制,進一步提升合成的圖像質(zhì)量和對細節(jié)的控制。
基于語義分割圖的視頻圖像合成的應(yīng)用,文獻[65]提出了語義壓縮框架,利用GAN 技術(shù)結(jié)合壓縮的圖像表示和語義圖重建圖像,實現(xiàn)了優(yōu)于傳統(tǒng)圖像壓縮方法的重建質(zhì)量,但由于語義圖無損壓縮進行傳輸,無疑增加了額外的傳輸碼流。針對此問題,EDMS(encoder-decoder matched semantic segmentation)[66]在編碼端與解碼端分別進行語義分割,只傳輸語義重建圖像與原圖像的殘差和圖像壓縮表示的下采樣版本,解碼端重新得到語義分割圖,并結(jié)合殘差重建圖像,在保證重建圖像質(zhì)量的同時避免了傳輸語義圖耗費碼流。雖然這2 種方法均以語義圖為引導(dǎo)重建圖像,但主要數(shù)據(jù)處理還是面向信號級別。為實現(xiàn)面向高層語義的分析處理,Chang等[67]提出了一種新的對語義先驗建模的超低比特率的圖像壓縮編碼方法,如圖10 所示,將輸入圖像分為結(jié)構(gòu)層和紋理層2 種視覺特征,結(jié)構(gòu)層用語義分割圖表示,紋理層經(jīng)過卷積得到高級特征表示,在語義圖的指導(dǎo)下,為每個語義區(qū)域聚合相應(yīng)潛在向量作為語義先驗,并通過跨通道熵模型建立向量的內(nèi)部依賴關(guān)系,解碼端以語義圖作為條件,利用生成對抗模型建立語義圖與先驗之間的分布映射來重建圖像,采用感知損失和特征匹配損失保證視覺重建質(zhì)量,實現(xiàn)了0.02~0.03 bpp 極低比特率下的感知重建。
圖10 基于語義先驗建模的圖像壓縮和重建架構(gòu)
本節(jié)介紹的利用語義分割圖的視頻生成模型達到了目前先進的視頻合成水平,且涵蓋應(yīng)用場景廣泛,包括人物姿態(tài)轉(zhuǎn)換、視頻風(fēng)格遷移、視頻預(yù)測、視頻語義屬性編輯等。語義分割圖建立了每個像素的類別表示,在語義概念層面對圖像進行分析,可以進一步增強圖像重建質(zhì)量,適用的場景更為廣泛。但相比于之前的邊緣和關(guān)鍵點作為重建輔助信息,傳輸語義圖會消耗更多碼流。
從概率建模的角度看待視頻圖像重建,即假設(shè)圖像x由n個像素點隨機組合形成,那么整幅圖像的預(yù)測概率可分解為各像素點的預(yù)測概率,假設(shè)各像素預(yù)測概率之間相互獨立,則圖像x預(yù)測概率可表示為
其中,p(x) 代表圖像x的概率分布,符號右邊表示預(yù)測各像素點的條件概率,重建圖像時需按一定順序逐像素生成。如圖11 所示,每一個像素點的預(yù)測都取決于所有之前的像素點,當(dāng)預(yù)測第i個像素概率時,則需以前i-1 個像素作為輸入條件。
圖11 像素概率預(yù)測示意
為提高圖像預(yù)測準(zhǔn)確性,一些研究[68-69]使用深度學(xué)習(xí)對像素條件概率進行建模,并以最小化圖像似然作為損失函數(shù)來指導(dǎo)網(wǎng)絡(luò)訓(xùn)練,其計算式為
Deepmind[68]提出了像素循環(huán)神經(jīng)網(wǎng)絡(luò)(PixelRNN,pixel recurrent neural network)來實現(xiàn)像素概率建模,其中包括采用2 種長短期記憶(LSTM,long short-term memory)模型來學(xué)習(xí)圖像分布——行LSTM 和對角LSTM,前者以一維卷積形式預(yù)測該行的像素,而后者以對角線方式掃描圖像從而捕捉更多相關(guān)信息。但由于LSTM 運行速度緩慢,導(dǎo)致預(yù)測速度減慢。文中的另一個網(wǎng)絡(luò)PixelCNN 利用卷積神經(jīng)網(wǎng)絡(luò)來建模各像素間的關(guān)系,分別沿2 個方向維度生成像素,并采用特殊的掩碼卷積來保證推理順序。該方法在訓(xùn)練速度上有所提升,但由于利用像素信息有限,生成效果不理想。
除了直接對像素建模實現(xiàn)預(yù)測之外,還可以通過先驗信息來指導(dǎo)圖像生成,如文獻[69]中的門控PixelCNN。
其中,h為先驗信息,如生成圖像的種類、圖像高維表征等。
原始的自回歸方式是逐通道預(yù)測的,忽略了像素之間的相關(guān)性。換言之,其將像素預(yù)測作為256 個分類問題,即使預(yù)測為相鄰的像素也會導(dǎo)致非常大的損失。為解決此問題,PixelCNN++[70]提出了離散邏輯混合似然法,而非基于256 個通道的回歸預(yù)測,并通過下采樣減少計算量,引入殘差連接縮短訓(xùn)練時長。此外,PixelSNAIL[71]將自注意力與因果卷積二者相結(jié)合,從而增強對遠距離數(shù)據(jù)的有效建模。為進一步將自回歸模型擴展到大圖像,文獻[72]提出了子尺度像素網(wǎng)絡(luò)(SPN,subscale pixel network)進行數(shù)據(jù)變換,包括圖像大小和深度的尺度處理。(VPN,video pixel network)[73]進一步將像素建模的思想應(yīng)用于視頻編碼和重建中。將視頻表示為關(guān)于時間維度、空間坐標(biāo)以及通道信息的四維張量,同樣根據(jù)鏈?zhǔn)椒▌t來預(yù)測像素值,為視頻生成任務(wù)提供了一種通用方案。
此種自回歸像素建模的方法在捕捉圖像局部細節(jié)信息具有一定優(yōu)勢,但仍存在一些不足,主要表現(xiàn)在三方面:其一,由于當(dāng)前的預(yù)測總是取決于之前的信息,因此會導(dǎo)致誤差累積;其二,上下文信息過大,需要更為有效的存儲和編碼方案;其三,對于圖像冗余處理仍停留在像素層面,且生成過程需按照固定順序逐像素生成,無法并行計算,對于處理視頻圖像等高維數(shù)據(jù),速度較慢且計算成本較高。針對這些固有缺陷,可以將其與其他模型結(jié)合進行改進,如此前介紹的VQ-VAE[34]利用先降維量化再自回歸的方案來減少數(shù)據(jù)量,以及利用Transfomer 增強自回歸的全局感知。
Transformer[10]是一個基于自注意力機制的學(xué)習(xí)模型,最早用于自然語言處理中。整體保持編碼器和解碼器的結(jié)構(gòu),其中編碼器由6 個相同的模塊組成,每個模塊包含多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)2 個子層,并在子層之間加入殘差連接以及層歸一化;解碼器采取類似的結(jié)構(gòu),不同的是增加了掩碼多層注意力,用于掩蔽未預(yù)測的信號。編碼器根據(jù)一系列注意層獲取輸入上下文的語義表示;解碼器基于前一時刻的解碼輸出以及編碼表征生成輸出序列。在之前的重建任務(wù)中,主要以卷積的方式實現(xiàn)圖像特征提取和重建。相比于卷積的局部感知,Transformer 具有更強的全局感知能力和通用的建模能力。相比于RNN,Transformer 具有更高效的并行計算,自2017 年被提出就在視頻圖像生成中取得了顯著效果。
基于Transformer 的視頻圖像生成方法采取與自然語言處理類似的思想,以序列的形式處理圖像。Parmar 等[74]首次將Transformer 應(yīng)用于圖像生成任務(wù),該模型將圖像的聯(lián)合分布轉(zhuǎn)換為像素的條件分布。在編碼端,將像素強度表示為256 個d維向量;在解碼端,使用局部自注意力建模之前像素與當(dāng)前像素之間的關(guān)系實現(xiàn)各像素點的生成。相比于PixelCNN[68],該模型具有對圖像長期關(guān)系建模和增大感受野的優(yōu)點。由于此種對像素直接建模難以保證生成圖像的分辨率,因此大部分方法還是基于VQ-VAE[34]構(gòu)建的兩階段生成方式:第一階段將圖像特征映射為離散標(biāo)記,第二階段采用自回歸的方式預(yù)測標(biāo)記,將其映射回像素空間。目前,基于Transformer 的重建方法主要不同表現(xiàn)在對第二階段的處理方式上,其中 VQGAN[75]將 CNN 與Transformer 相結(jié)合,CNN 用于學(xué)習(xí)codebook,Transformer 用于自回歸建模,并引入基于塊的判別器,利用對抗訓(xùn)練方式保證對于圖像局部質(zhì)量的捕捉,可生成高達百萬級像素圖像。受自然語言中無監(jiān)督表征學(xué)習(xí)的啟發(fā),文獻[76]證明了 GPT(generative pretraining)模型在圖像生成任務(wù)中的有效性。VideoGPT[77]通過3D 卷積和軸向注意力學(xué)習(xí)視頻的離散表征,然后將GPT 的架構(gòu)應(yīng)用于視頻的自回歸建模。LVT[78]將視頻劃分為多個不重疊的切片,按照光柵掃描順序?qū)崿F(xiàn)自回歸預(yù)測。文獻[79]提出的多模態(tài)預(yù)訓(xùn)練模型,利用Transformer 編解碼框架為語言、圖像和視頻定義了一個統(tǒng)一的三維表征,實現(xiàn)了文本到圖像、文本到視頻以及視頻預(yù)測等多種視覺合成任務(wù)。但這些基于量化的生成模型通常會導(dǎo)致較長的離散序列,為在保證圖像率失真性能的同時減小自回歸成本,RQ-VAE[80]提出了殘差量化的思想,不同于VQ-VAE[34]的可變大小碼本,RQ-VAE 使用固定大小碼本,以殘差的方式逐漸逼近特征圖,解碼端使用Transformer 分別對空間和深度信息進行回歸。實驗結(jié)果表明,在生成高分辨率圖像上比之前的自回歸模型計算更有效。
為了緩解對訓(xùn)練數(shù)據(jù)的依賴,Bao 等[81]將掩碼思想引入圖像處理中,基于離散視覺標(biāo)記重建圖像。隨后,He 等[82]提出的(MAE,masked autoencoder)證明了掩碼在圖像表征學(xué)習(xí)上的有效性,首先對輸入圖像塊隨機采樣并掩碼其余圖像塊,編碼器僅編碼未掩碼的圖像塊,然后解碼器根據(jù)編碼的潛在表示以及掩碼標(biāo)記對缺失像素進行重建,其較高的掩碼率消除了圖像的大部分冗余,從而減少了編碼參數(shù)。Xie 等[83]提出的SimMIM 同樣使用掩碼圖像建模來進行自監(jiān)督學(xué)習(xí),與文獻[82]不同的是,SimMIM 編碼所有的標(biāo)記不是僅編碼未掩碼的部分,解碼端使用線性層預(yù)測像素值。實驗結(jié)果表明,僅重建掩碼區(qū)域可獲得更高重建質(zhì)量,且掩碼圖像塊越小對應(yīng)的重建質(zhì)量越高。結(jié)合掩碼的建模思想和兩階段重建架構(gòu),MaskGIT[84]提出了一種雙向Transformer 的圖像合成新范式,利用雙向自注意力從多個方向生成標(biāo)記,且掩碼部分標(biāo)記用于下一步的迭代預(yù)測,直至生成所有標(biāo)記。此種雙向生成和并行解碼的方式極大地提升了回歸速度,相比VQGAN[75]加速了30~64 倍,同時證明了這種掩碼方式在圖像重建的有效性,僅需較少標(biāo)記即可重建出圖像的整體信息。由此可見基于掩碼的圖像建模方式能夠高效地利用數(shù)據(jù),對于圖像表征學(xué)習(xí)與圖像重建具有重要意義,同時選擇合適的掩碼率有助于節(jié)約模型的訓(xùn)練時間與內(nèi)存消耗。未來,可將其用于視頻圖像的語義編碼中以進一步降低碼率。
上述模型都是以自回歸的形式重建圖像,這意味著在提高重建時間上有所限制。最近的一些工作[85-88]嘗試將Transformer 與GAN 相結(jié)合,其中文獻[85]首次僅利用Transformer 構(gòu)建GAN 實現(xiàn)圖像生成。生成器由多個Transformer 塊組成,用以漸進式地提高生成圖像分辨率,并通過級聯(lián)不同大小的圖像塊實現(xiàn)多尺度鑒別,以防細節(jié)信息丟失,但無法生成高分辨率圖像,原因在于高分辨率圖像的生成序列像素過大,自注意機制處理受限。為了提升生成圖像的分辨率,Zhao 等[86]分兩步來生成圖像,第一步通過多軸自注意力捕獲全局信息來解碼空間特征,第二步用多層感知機替代自注意力來減少計算復(fù)雜度。此外,文獻[87-88]進一步在網(wǎng)絡(luò)結(jié)構(gòu)上進行改進,力求生成更高分辨率的圖像。目前,基于Transformer 構(gòu)建的GAN 成為一大研究熱點,但相較于基于CNN 構(gòu)建的GAN 會帶來更多計算成本,因此需要尋求更為有效的自注意力形式,從而在性能上進一步提升。
基于Transformer 的視頻圖像生成方法依托離散化的處理方式,實現(xiàn)了數(shù)據(jù)的高效表示。采用自然語言處理的方法實現(xiàn)重建,更好地建立特征的上下文關(guān)系,為一些由文本生成視頻圖像任務(wù)建立了有效機制,進而將其應(yīng)用于跨模態(tài)的視頻編碼與重建。但此類方法計算成本高,難以訓(xùn)練,對于實時視頻的應(yīng)用還有待進一步研究。
盡管近年來一些生成模型在視頻圖像重建上取得了顯著效果,但現(xiàn)階段仍存在以下問題亟須解決。
1) 視頻長時相關(guān)性
視頻長時相關(guān)性是指不同圖像序列之間內(nèi)容存在較大關(guān)聯(lián),主要體現(xiàn)在兩方面,一是同一視頻的長時相關(guān)性,其不僅局限于一個GoP 內(nèi)的視頻幀處理;二是不同時間下視頻內(nèi)容的相似性,如大致相同背景、不同背景下相同人物的視頻通話。目前的重建方法集中在消除同一視頻的時間相關(guān)性上,但對于時間跨度較大的視頻幀,僅依據(jù)關(guān)鍵幀和邊緣、特征點等輔助信息,有時無法保證重建質(zhì)量。
針對同一視頻的長時相關(guān)性,可以通過提升輔助信息的提取質(zhì)量來改善長時視頻幀的重建質(zhì)量,如優(yōu)化邊緣、特征點提取算法,其次針對視頻的特定場景來進一步完善重建模型。對于不同時間、不同內(nèi)容的視頻之間存在的重復(fù)性內(nèi)容,則需進一步探究視頻圖像的語義表征,對內(nèi)容實現(xiàn)高層概念認知來消除語義冗余,例如,通過對卷積后的高級特征空間進行處理,在編碼端和解碼端形成語義庫,根據(jù)特征辨識只傳輸細節(jié)變化的內(nèi)容,從而大幅度降低傳輸碼率。
2) 高昂的計算成本和時間成本
基于深度生成模型輔助的編碼重建框架是以高昂的計算成本為代價來換取編碼效率和重建質(zhì)量。先進的生成模型如VQ-VAE、GAN 等能夠?qū)崿F(xiàn)清晰的視頻圖像重建,但這種大型模型的弊端除了消耗巨大的計算和存儲資源外,還需要根據(jù)大量數(shù)據(jù)集花費大量時間訓(xùn)練網(wǎng)絡(luò)模型。
此前,掩碼建模方法證明了自監(jiān)督學(xué)習(xí)圖像表征以及重建的有效性。因此針對此問題,可以將基于掩碼視覺標(biāo)記的方法進一步擴展于視頻編碼重建中,結(jié)合視頻的幀間相關(guān)性完善掩碼學(xué)習(xí)策略,在一定周期內(nèi)保證較高的掩碼率,并在訓(xùn)練學(xué)習(xí)時有針對性地跳過掩碼區(qū)域來減少訓(xùn)練時間和資源。此外,還可以借助小樣本學(xué)習(xí)方法減少數(shù)據(jù)依賴,借助模型剪枝等壓縮方法減小模型參數(shù)。
3) 適用場景單一
盡管現(xiàn)有生成模型在視頻圖像生成任務(wù)取得了巨大成功,但將其應(yīng)用在視頻圖像編碼框架中的研究方法相對較少,且大部分面向圖像壓縮編碼,對于視頻的場景還有待進一步開發(fā)。其次,基于特征的重建主要集中在以人物為主的視頻場景,無法適用于大部分視頻場景,且重建視頻的連貫性以及與原視頻的一致性還有待提升。此外,目前模型依托大量數(shù)據(jù)集進行離線訓(xùn)練,并不適用于視頻通話等實時業(yè)務(wù)。
針對此問題,則需尋求更有效的語義表征,設(shè)計更先進的重建算法。一方面可以利用圖神經(jīng)網(wǎng)絡(luò),基于邊和節(jié)點的方式刻畫物體表征,形成結(jié)構(gòu)化的概念表示,從而實現(xiàn)對復(fù)雜物體更靈活通用的建模,同時也更符合人類的視覺感知。另一方面可以加強特征空間的探索,在編碼端形成層次特征,根據(jù)重建難度選擇特征傳輸?shù)燃?。對于實時視頻業(yè)務(wù),可以設(shè)計高效的重建算法,利用前幾幀視頻作為訓(xùn)練樣本,結(jié)合離線訓(xùn)練模型進行微調(diào),從而完成后續(xù)視頻幀的重建。
近年來,深度生成模型在視頻圖像補全、動作遷移、視頻圖像合成等多個領(lǐng)域取得巨大成功,為視頻圖像壓縮領(lǐng)域的重建模塊提供了新的解決方案。本文主要總結(jié)了5 種現(xiàn)有視頻圖像重建的相關(guān)方法,包括傳統(tǒng)重建方法及其優(yōu)化以及4 種基于生成模型的重建方法,其中重點介紹了生成式的重建方法,根據(jù)視頻圖像數(shù)據(jù)不同類型的語義表征對模型進行分類、梳理和闡述,最后總結(jié)了現(xiàn)有重建方法在視頻長時相關(guān)性、計算成本和適用場景等方面所存在的問題,探索了相應(yīng)的解決方案以及進一步的研究方向。