国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于姿態(tài)引導的場景保留人物視頻生成

2020-09-01 15:06桂,李
圖學學報 2020年4期
關鍵詞:泊松姿態(tài)背景

李 桂,李 騰

基于姿態(tài)引導的場景保留人物視頻生成

李 桂,李 騰

(安徽大學電氣工程與自動化學院,安徽 合肥 230601)

人物視頻生成技術是通過學習人體結構與運動的特征表示,實現(xiàn)從特征表示到人物視頻幀的空間生成映射。針對現(xiàn)有的人物視頻生成算法未考慮背景環(huán)境轉(zhuǎn)換及人體姿態(tài)估計精度較低等問題,提出一種基于姿態(tài)引導的場景保留人物視頻生成算法(PSPVG)。首先,取合適的源視頻和目標視頻,利用分割人物外觀的視頻幀代替源視頻幀作為網(wǎng)絡的輸入;然后,基于GAN的運動轉(zhuǎn)換模型將源視頻中的人物替換成目標人物,并保持動作一致性;最后,引用泊松圖像編輯將人物外觀與源背景融合,去除邊界異常像素,實現(xiàn)將人物自然地融入源場景且避免改變畫面背景環(huán)境和整體風格。該算法使用分割出的前景人物圖代替源視頻幀中的人物,減少背景干擾,提高姿態(tài)估計精度,自然地實現(xiàn)運動轉(zhuǎn)移過程中源場景的保留,生成藝術性與真實性和諧并存的人物視頻。

人物視頻生成;姿態(tài)估計;運動轉(zhuǎn)換;生成對抗網(wǎng)絡;圖像處理

一直以來,人物視頻生成技術作為計算機視覺和多媒體領域的重點研究內(nèi)容之一,已有了各種生成策略和特征表示方法。基于位姿檢測算法的人物視頻生成技術是利用骨架圖的變換進行運動的轉(zhuǎn)換,生成各類有趣的視頻,用于廣告、電影或特效合成以及人物外觀造型的切換等。由于廣泛的應用場景,其受到了研究人員的高度重視,不斷涌現(xiàn)出豐富的視頻生成算法。

近年來,圖像生成技術的迅速發(fā)展為人物視頻生成技術的研究奠定了堅實的基礎,提供了許多有效的途徑和研究思路?,F(xiàn)有的生成算法可分為2大類:①基于生成方向的分段式圖像生成[1],該方法在生成粗略圖之后,再根據(jù)生成對抗網(wǎng)絡[2]框架獲得精確圖像。②直接學習從骨架圖到真實視頻幀的映射關系,即通過姿態(tài)檢測器檢測出視頻幀中人物對應的骨架圖,生成器根據(jù)訓練數(shù)據(jù)集學習人物的外觀特征。根據(jù)求解的途徑,特征表示的方法主要分為:骨架紋理的特征分離,其依賴于傳統(tǒng)算法的估計[3];使用骨架圖或人體mask,該方法依靠生成網(wǎng)絡來填充紋理特征,更依賴于數(shù)據(jù)集[4-5];使用其他混合功能,例如人體表面模型[6]。

不同于基于人體圖像的生成方法,本文將研究延伸至視頻生成領域,直接學習從骨架圖到真實視頻幀的映射,從訓練數(shù)據(jù)集中自動學習生成的人物外觀特征,無需人工干預?;谏蓪咕W(wǎng)絡結構的人物視頻生成算法,在學習不同視頻間的映射時,僅針對外觀模型變換與運動轉(zhuǎn)移過程中的精度,未考慮源視頻和目標視頻中背景環(huán)境對人體姿態(tài)估計精度的影響,以及背景在運動轉(zhuǎn)移研究范疇中的結合。

通過解決圖像生成網(wǎng)絡和判別網(wǎng)絡之間的博弈游戲來學習圖像生成以生成對抗網(wǎng)絡(generative adversarial networks,GAN)[2]。其中,VAE[7]和PixelCNNs[8]等在視頻合成方面均取得了非凡突破。此外,為了學習同視頻之間的映射,RecycleGAN[9],DiscoGAN[10]和MocoGAN[11]先后被提出。大量的研究結果表明,GAN逐漸成為圖像或視頻生成的最佳選擇。

在保證人體姿態(tài)估計精度不降低的基礎上,是否有一種算法能實現(xiàn)目標人物在源視頻環(huán)境中學習到源人物的動作?例如,替身演員代替影視演員做高難度動作,通過算法轉(zhuǎn)換后影視演員將在源場景下合成替身的動作,完成表演。本文通過去除背景的人物前景圖像代替源視頻幀進行姿態(tài)估計,提高位姿檢測的效率和精度,以及結合圖像分割和圖像融合操作,實現(xiàn)源場景保留的人物視頻生成技術。

與傳統(tǒng)方法相比,本文方法使用去背景人物前景圖作為網(wǎng)絡的輸入,并將運動轉(zhuǎn)換后的視頻幀與源視頻幀的背景融合以實現(xiàn)背景切換。在經(jīng)過大量訓練后,可以實現(xiàn)良好的轉(zhuǎn)換效果,具有很大的應用價值。本文的創(chuàng)新點如下:

(1) 姿態(tài)引導的場景保留人物視頻生成算法(pose-guided scene-preserving person video generation,PSPVG),是首個在不同視頻人物對象之間實現(xiàn)目標姿勢遷移和背景切換的方法。

(2) 相比于其他融合方法,本文方法使目標人物與源背景環(huán)境完全融為一體且無明顯的邊界像素差。

(3) 將分割后的源人物前景圖代替源視頻幀放入運動轉(zhuǎn)換網(wǎng)絡中訓練,提高姿態(tài)估計的準確性,減少背景環(huán)境干擾以及肢體缺少等產(chǎn)生的影響。

1 基于姿態(tài)引導的場景保留人物視頻生成算法

PSPVG主要分為3個階段。首先,利用源視頻幀中的人物前景圖代替源人物圖像進行位姿估計;其次,在基于GAN的運動轉(zhuǎn)換模型上,將輸入的目標人物外觀視頻幀與源人物姿態(tài)圖像合成高分辨率的人物運動視頻幀;最后,將與源姿勢相同的目標對象與源背景進行融合。圖1為PSPVG網(wǎng)絡模型的總體結構框圖,主要包括:①基于空間金字塔模型和編碼-解碼結構的語義分割算法;②基于GAN的運動轉(zhuǎn)換模型結構;③基于泊松方程的無縫融合算法。

圖1 PSPVG網(wǎng)絡生成模型結構

1.1 基于空間金字塔模型和編碼-解碼結構的語義分割算法

隨著深度學習的不斷發(fā)展,圖像分割技術涌現(xiàn)出許多優(yōu)秀的網(wǎng)絡?;谌矸e網(wǎng)絡(fully convolutional networks,F(xiàn)CNs)[12]的方法已經(jīng)證明了幾個分割基準的顯著改進[13-14],其中變體包括:SPP模型,PSPNet[15]或DeepLab[16]算法。模型利用分割基準的多尺度信息獲得結果,編碼器-解碼器模型[17-18]中編碼器模塊用于捕獲更高語義信息,解碼器模塊用于逐漸恢復空間信息。本文采用“DeepLabv3+[19]”模型編碼豐富上下文信息和通過一個簡單有效的解碼器模塊去恢復對象邊界,應用Atrous卷積來提取任意分辨率的編碼器特征。

針對源場景保留模型中,人物肢體區(qū)域源背景的精度分割效果不佳的問題,需要選擇適用于本模型且效果相對較好的分割方法。在圖像視頻生成領域,生成的圖片存在精度低、質(zhì)量差的問題,為了改進這些問題,本文使用分割后的人物前景圖代替源視頻幀作為網(wǎng)絡的輸入。經(jīng)對比實驗證明,利用基于空間金字塔模型和編碼-解碼結構的語義分割算法分割精度更高、視覺效果更佳。

在物體邊界分割中,本文使用新穎的DeepLabv3+[19]網(wǎng)絡模型架構進行分割,將其作為編碼模塊,并添加了一個簡單有效的解碼模塊構成編碼-解碼結構(encode-decoder)以提升分割效果。特征提取部分通過空洞卷積調(diào)整卷積filter的接受野來捕捉多尺度的上下文內(nèi)容信息,直接控制提取encoder特征的分辨率,以平衡精度和耗時。

二維信號使用空洞卷積,對于位置的,在輸入特征圖上應用濾波器,若輸出特征圖為,則擴張卷積為

1.2 基于生成對抗網(wǎng)絡的運動轉(zhuǎn)換模型結構

GAN的運動轉(zhuǎn)換模型結構是指不同人物外觀之間進行動作遷移。其中采用GAN和運動遷移算法構建的EDN (everybody dance now)[4]模型在圖像視頻生成領域表現(xiàn)良好[20-21]。本文在原有基礎上結合背景切換將源人物和背景進行分離,并完成目標人物和源背景的融合,減小邊界像素差,不僅實現(xiàn)了源場景保留的目的,還能達到良好的運動轉(zhuǎn)換效果。

GAN的主要思想是訓練2個網(wǎng)絡:生成網(wǎng)絡試圖生成視頻;鑒別器網(wǎng)絡試圖區(qū)分“真實”視頻和“虛假”視頻。過程中,生成器試圖最大限度地欺騙鑒別器,同時鑒別器檢測哪些樣例為假

其中,為潛在的“代碼”,通常從一個簡單的抽樣分布和來自數(shù)據(jù)分布的~p()樣本中采樣。實驗過程中數(shù)據(jù)的真實分布未知,從數(shù)據(jù)集中抽取數(shù)據(jù)估計期望值。使用基于梯度的方法(stochastic gradient descent,SGD)優(yōu)化方程2,2個網(wǎng)絡和可以采用適合于任務的任何形式,且相對于參數(shù)ww可微分。

姿態(tài)遷移部分分為:①姿態(tài)檢測:使用去背景的人物外觀圖預訓練位姿檢測器,從源視頻中描繪出給定幀的骨架圖形。②全局姿態(tài)標準化:計算給定視頻幀中,源人物和目標人物身體形狀與位置間的差異,將源姿態(tài)圖轉(zhuǎn)換為符合目標人物身體形狀和位置的姿態(tài)圖。③從標準化后的姿態(tài)圖形推斷目標人物的圖像:使用一個生成式對抗模型,訓練模型學習從標準化后的姿態(tài)圖形推斷到目標人物圖像。

為了創(chuàng)建編碼身體位置的圖像,用預訓練姿勢檢測器P精確地估計關節(jié)坐標(,)。通過繪制關鍵點,并在連接的關節(jié)之間畫線,訓練時利用分割出的前景人物圖取代源視頻幀并作為生成器的輸入,從而得到并繪制出最終的位姿簡圖,如圖2所示。

創(chuàng)建視頻序列時,必須修改單個圖像的生成設置以提高相鄰幀之間的時間相干性,而不是生成單獨的幀?;趐ix2pixHD框架加入時間平滑設置,預測2個連續(xù)幀的第一個輸出(x–1)是基于其對應的姿勢骨架圖x–1和零圖像。第二個輸出(x)基于其對應的姿勢骨架圖x和第一個輸出(x–1),則鑒別器區(qū)分出“真實”序列(x–1,x,y–1,y)和“假”序列(x–1,x,(x–1),(x))的差異,即

圖2 視頻目標幀與對應骨架圖

其中,x為合成當前幀的對應姿勢圖;x–1為前一幀對應姿勢圖;(*)為經(jīng)過生成器的輸出幀;為目標視頻幀。

在運動轉(zhuǎn)換模型中(圖3),通過加入分割算法替換源視頻幀,以人物的外觀圖進行姿態(tài)估計,生成器以更加精確的生成圖片進行網(wǎng)絡模型訓練。對比EDN模型,本文模型不僅能夠?qū)崿F(xiàn)運動轉(zhuǎn)換算法,還能夠提高生成圖片與視頻的精度,實現(xiàn)目標人物在源場景中執(zhí)行準確的源人物動作。

圖3 運動轉(zhuǎn)換模型的訓練部分

1.3 基于MVC的泊松融合加速算法

圖像融合技術普遍應用于航天、醫(yī)療和工業(yè)制造等諸多領域。傳統(tǒng)的圖像融合算法中,有基于小波框架變換法、主要分析PCA法以及HIS融合法等。近年來,出現(xiàn)了許多基于深度學習的圖像融合算法,其中包括基于深度卷積神經(jīng)網(wǎng)絡的多聚焦圖像融合法[22-23]以及多尺度圖像融合法[24]等,然而這些算法實現(xiàn)過程復雜、工作量繁重且效果較差。為確保目標人物外觀更加自然地融入到風格多樣的背景圖像中,本文使用基于MVC的泊松融合加速算法進行無縫融合,以匹配選取內(nèi)部像素而減小像素差,通過調(diào)整局部亮度與顏色的變化,使其更加貼近背景環(huán)境的顏色與風格。

泊松圖像融合是將2張圖像“無縫融合”的技術,在邊界條件下進行梯度匹配,引入各種新穎的工具用于圖像區(qū)域的無縫編輯?;贛VC的泊松融合方法將原有的泊松方程替換為拉普拉斯方程,然后使用Mean-Value Coordinates近似求解,使之變成插值問題,問題復雜度降低,算法更加簡單,可實時進行交互運行。此融合方法能夠使前景平滑地融入背景中,保持畫面不突兀,平滑且不起伏,邊界色差不明顯。

相比其他融合方法,基于MVC的泊松圖像融合技術在操縱顏色方面功能更加強大,使2種不同顏色的版本無縫混合,在保留人物完整“細節(jié)”的前提下,調(diào)整肖像顏色得到新融合的圖像,其中細節(jié)包括:邊緣、角點等。經(jīng)實驗證明,基于MVC的泊松融合加速方法非常適用于人物視頻生成技術中的融合操作,擁有突出的畫面效果。

本文在EDN[4]運動轉(zhuǎn)換算法的基礎上改進,加入語義分割算法與泊松圖像融合加速算法,以實現(xiàn)視頻幀背景的切換,減小邊界像素差。通過改進運動轉(zhuǎn)換算法,使用分割后的人物前景圖代替源圖像放入運動轉(zhuǎn)換網(wǎng)絡中進行訓練,提高姿態(tài)估計準確性,減少背景環(huán)境干擾以及肢體缺少等因素的影響。文中的實驗結果證明,該算法能夠生成設計感十足、自然且真實的轉(zhuǎn)換效果,具有巨大的應用價值。

2 PSPVG方法實驗分析及討論

為保證評估的客觀性及公平性,本文使用文獻[4]的評估方法,在多組數(shù)據(jù)集中對所提出的模型進行驗證。首先,介紹多組自采集數(shù)據(jù)集及數(shù)據(jù)預處理操作;其次,詳細介紹實現(xiàn)細節(jié),并利用該數(shù)據(jù)集對所提出的PSPVG算法進行對比實驗與評估。

在基于姿態(tài)引導的人物視頻生成領域,由于外觀和背景轉(zhuǎn)換的效果感受具有一定主觀性,為了衡量本文方法的有效性,檢驗融合區(qū)域的邊緣是否自然平滑地嵌入,采用泊松圖像編輯算法將得到的融合結果與未進行背景融合的EDN方法進行融合效果對比。

2.1 實驗環(huán)境及數(shù)據(jù)集

(1) 實驗軟硬件環(huán)境。Pytorch框架;CPU:E5-2620 V3;內(nèi)存64 G;GPU:GTX TITAN X (12 G)。

(2) 數(shù)據(jù)集。①源數(shù)據(jù)集:從網(wǎng)絡上選取一段畫質(zhì)清晰、無明顯遮擋的單人舞蹈視頻,將視頻截取至十分鐘左右,進行視頻轉(zhuǎn)換得到幀圖像。②目標數(shù)據(jù)集:為一段任意動作的10 min錄制視頻,可展現(xiàn)目標對象的完整外觀與足夠的運動范圍來保證目標視頻的學習質(zhì)量。

為了保證畫面的質(zhì)量,均采用100~120幀率的多組視頻作為訓練數(shù)據(jù)集。將選取的源、目標視頻分別進行預處理操作,轉(zhuǎn)換成對應視頻幀(源視頻:12 930幀,目標視頻:24 500幀),預處理為512×512大小的圖像。再分別用DeepLabv3+算法分割出人物前景圖和背景,人物前景圖作為訓練數(shù)據(jù),源背景圖作為融合操作中的背景數(shù)據(jù)。

2.2 實施細節(jié)

DeepLabv3+[19]算法用于精確分割前景圖與背景圖,姿態(tài)轉(zhuǎn)換算法用于高精度的姿態(tài)估計與高質(zhì)量的運動轉(zhuǎn)換,泊松融合算法用于實現(xiàn)自然的無縫拼接效果。采用分割的前景人物數(shù)據(jù)集來實現(xiàn)姿態(tài)檢測(選擇最先進的姿勢檢測器openpose[25-26]提供的架構),可以降低畫面遮擋與背景環(huán)境的干擾。

將得到的源人物和目標人物視頻幀作為PSPVG網(wǎng)絡的輸入,使用位姿檢測器進行位姿估計,及用一個預先訓練的位姿檢測器,繪制出位姿簡圖。利用基于GAN的運動轉(zhuǎn)換網(wǎng)絡合成高分辨率的人物運動視頻,將骨架圖、目標人物視頻幀數(shù)據(jù)、源人物的前景圖分別輸入到基于GAN的運動轉(zhuǎn)換網(wǎng)絡中進行訓練,將結果執(zhí)行歸一化操作,完成從歸一化的姿態(tài)簡圖到目標對象的映射,將圖片分割出前景,與源背景進行泊松圖像編輯融合,得到的融合結果進行圖像轉(zhuǎn)視頻操作,將結果利用泊松圖像編輯進行融合操作,得到目標效果的視頻。

如圖4所示,在每個部分顯示連續(xù)5個幀,第1列顯示源人物序列;第2列顯示標準化的姿勢骨架圖;第3列為源視頻幀進行訓練下的EDN[4]運動轉(zhuǎn)換模型生成結果;第4列為PSPVG模型,使用泊松融合算法輸出具有源背景的目標人物;第5列為使用拉普拉斯金字塔融合算法的輸出結果。為了實現(xiàn)與源對象背景風格的融合,在昏暗的舞臺氛圍下選擇泊松圖像編輯算法融合前景圖像和源背景圖像。將得到的融合結果進行圖像轉(zhuǎn)視頻操作,最終得到視覺效果大幅提升的視頻結果。

圖4 PSPVG與EDN算法的生成結果

2.3 實驗結果及分析

在之前視頻生成的工作中,并未結合背景切換進行運動轉(zhuǎn)換。本文加入簡單的mask轉(zhuǎn)移方案和泊松圖像編輯的混合結果,探討基于EDN[4]運動轉(zhuǎn)換網(wǎng)絡實現(xiàn)外觀與運動的轉(zhuǎn)移,并展示其實驗結果,以評估提出的框架。

為了評估生成各個幀的模型質(zhì)量,本文以結構相似性(structural similarity index,SSIM)[27]與學習感知圖像塊相似性(learned perceptual image patch similarity,LPIPS)[28]作為精度指標。SSIM的范圍是[0,1],其值越高表示結構相似性越高,結果見表1。從利用圖5的數(shù)據(jù)集訓練多次得出的平均結果可知:①人物外觀體型對比度越小,生成人物圖像的相似度越高;②視頻背景復雜程度和色差大小是人物與背景之間融合效果的直接體現(xiàn);③使用分割出前景人物的數(shù)據(jù)集代替源視頻幀作為訓練數(shù)據(jù),分割效果更加精確,學習感知圖像塊相似性更高。因此選擇前景人物視頻幀作為訓練數(shù)據(jù)。

本文依靠定性分析來評估輸出視頻的時間一致性(圖4),通過源視頻序列相應的姿態(tài)骨架圖,先將動作從源人物遷移至另一個目標人物上,再將轉(zhuǎn)換后的結果與源視頻背景融合。經(jīng)過泊松圖像融合后,前景人物與背景的融合區(qū)域視覺效果自然、邊界平滑;觀察融合邊界處的圖像細節(jié)可以發(fā)現(xiàn),融合區(qū)域與源背景以互相嵌入的方式融合,無明顯分割痕跡。對比未增加背景的EDN運動轉(zhuǎn)換算法,融合源視頻背景之后的圖像畫面感更強,與源視頻更接近,可實現(xiàn)目標人物的外觀更換并平移至源舞臺中,讓不會表演的目標人物像源人物一樣站在舞臺上表演,實現(xiàn)很好的娛樂性和真實感。

表1 不同數(shù)據(jù)集上訓練模型的相似性值

PSPVG模型在大部分指標上均優(yōu)于pix2pixHD[29]與EDN[4]方法。表2展示了模型中身體周圍區(qū)域的平均圖像相似度值,PSPVG模型的SSIM平均值可達0.897 92,LPIPS平均值為0.031 22。從表3可以看出,人體各個區(qū)域的平均漏檢次數(shù)為2.321 132,均優(yōu)于其他方法,經(jīng)驗證本文方法具有一定的有效性。

圖6為8組由不同數(shù)據(jù)集訓練的生成結果,包括正面、側(cè)面、背面以及鏡像等情況。在每組中,可隨機選擇5個視頻幀,第1排為源人物,中間顯示對應骨架姿勢圖,第3排為目標人物的模型輸出。

圖5 在不同數(shù)據(jù)集上的人物外觀對比圖

表2 輸出圖像的SSIM與LPIPS值

表3 每一視頻幀的平均漏檢次數(shù)

圖6 不同情景下PSPVG模型的生成結果

3 結束語

本文針對現(xiàn)有的人物視頻生成方法,難以提高姿態(tài)估計精度以及未考慮場景轉(zhuǎn)換等問題進行了研究,提出了基于姿態(tài)引導的場景保留人物視頻生成模型。PSPVG模型在基于GAN的人物視頻生成基礎上利用姿態(tài)引導的運動轉(zhuǎn)換算法,通過替換源視頻幀訓練網(wǎng)絡,使用分割后的人物前景視頻幀訓練,提高人體姿態(tài)估計精度。同時進行視頻中人物間的運動轉(zhuǎn)移和背景切換,將語義分割和圖像融合加入到運動轉(zhuǎn)移中去,實驗證明了傳統(tǒng)的泊松圖像編輯邊界環(huán)境對比度存在差異時具有融合人物平滑自然等優(yōu)點。本文充分驗證了該模型方法能夠準確提取到有效的特征且具有較好的泛化能力,發(fā)展成熟后將在游戲或視頻動畫中進行人物動作遷移,并設置AR特效、3D場景切換功能,研發(fā)出更多有趣的平臺應用程序等。如何更好地完善基于姿態(tài)引導的3D模型動作遷移以及背景自由切換將是未來的研究重點。

[1] YANG C, WANG Z, ZHU X, et al. Pose guided human video generation[C]//Proceedings of the European Conference on Computer Vision. New York: IEEE Press, 2018: 201-216.

[2] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Quebec: Curran Associate Inc, 2014: 2672-2680.

[3] SIAROHIN A, SANGINETO E, LATHUILIERE S, et al. Deformable GANs for pose-based human image generation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 3408-3416.

[4] CHAN C, GINOSAR S, ZHOU T, et al. Everybody dance now[EB/OL]. [2019-10-13]. https://arxiv.org/abs/ 1808.07371.

[5] WANG T C, LIU M Y, ZHU J Y, et al. Video-to-video synthesis[J]. Neural Information Processing Systems, 2018, 3(4): 1144-1156.

[6] NEVEROVA N, ALP GULER R, KOKKINOS I. Dense pose transfer[C]//Proceedings of the European Conference on Computer Vision (ECCV). New York: IEEE Press, 2018: 123-138.

[7] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. [2019-10-07]. https://arxiv.org/abs/1312. 6114.

[8] OORD A V D, KALCHBRENNER N, VINYALS O, et al. Conditional image generation with PixelCNN decoders[C]//2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 318-328.

[9] BANSAL A, MA S G, RAMANAN D, et al. Recycle-GAN: unsupervised video retargeting[C]// Proceedings of the European Conference on Computer Vision. New York: IEEE Press, 2018: 122-138.

[10] KIM T, CHA M, KIM H, et al. Learning to discover cross-domain relations with generative adversarial networks[EB/OL]. [2019-09-29]. https://arxiv.org/abs/ 1703.05192 .

[11] TULYAKOV S, LIU M Y, YANG X D, et al. MoCoGAN: decomposing motion and content for video generation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1526-1535.

[12] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3431-3440.

[13] ZHOU B L, ZHAO H, PUIG X, et al. Scene parsing through ADE20K dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 633-641.

[14] CAESAR H, UIJLINGS J, FERRARI V. COCO-stuff: thing and stuff classes in context[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1209-1218.

[15] ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2881-2890.

[16] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.

[17] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2117-2125.

[18] LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1925-1934.

[19] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.

[20] RADFORD A, METZ L K, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL].[2019-10-05]. https://link.springer.com/chapter/10.1007/ 978-3-319-71589-6_9.

[21] 蔡青宏. 基于單張深度圖的三維人體重建技術研究[D].長沙: 湖南大學, 2018. CAI Q H. Research on 3D human reconstruction technology based on single depth map[D]. Changsha: Hunan Universty, 2018 (in Chinese).

[22] ZHONG J Y, YANG B, LI Y H, et al. Image fusion and super-resolution with convolutional neural network[C]//Chinese Conference on Pattern Recognition. New York: IEEE Press, 2017: 78-88.

[23] DU C B, GAO S S. Image segmentation-based multi-focus image fusion through multi-scale convolutional neural network[J]. IEEE Access, 2017, 5: 15750-15761.

[24] LIU Y, LIU S P, WANG Z F. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164.

[25] CAO Z, SIMON T, WEI SHIH-EN, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 7291-7299.

[26] WEI SHIH-EN, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4724-4732.

[27] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[28] ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 586-595.

[29] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8798-8807.

Pose-guided scene-preserving person video generation algorithm

LI Gui, LI Teng

(School of Electrical Engineering and Automation, Anhui University, Hefei Anhui 230601, China)

The person video generation technology learns the feature representation of human body structure and motion, so as to realize the spatial generation mapping from the feature representation to the character video frame. In view of the existing person video generation algorithm lacking in the transformation of background environment and the low accuracy of human pose estimation, a pose-guided scene-preserving person video generation algorithm was proposed. First, the appropriate source video and target video were selected, and the video frame with the appearance of the segmented character served as the network input instead of the source video frame. Then, based on GAN, a motion transformation model was employed to replace characters in source videos with target characters and maintain the consistency of motion. Finally, the Poisson image editing was used to fuse the character appearance with the source background, enabling the flowed advantages: (a) removing border anomaly pixels; (b) realizing character blending naturally into the source scene; and (c) avoiding changing the background environment and overall image style. The proposed algorithm used the segmented foreground person image instead of the source video frame to reduce background interference and improve the accuracy of pose estimation, thus naturally realizing scene-preserving during the motion transfer process and producing artistic and authentic person videos.

person video generation; pose estimation; motion transfer; generative adversarial networks; image processing

TP 183

10.11996/JG.j.2095-302X.2020040539

A

2095-302X(2020)04-0539-09

2019-12-24;

2020-02-17

17 February, 2020

24 December, 2019;

國家自然科學基金項目(61572029);安徽省杰出青年基金項目(1908085J25)

National Natural Science Foundation of China (61572029); Anhui Outstanding Youth Fund (1908085J25)

李 桂(1995–),女,安徽合肥人,碩士研究生。主要研究方向為計算機視覺、圖像處理等。E-mail:1250501205@qq.com

LI Gui (1995–), female, master student. Her main research interests cover computer vision, image processing, etc.E-mail: 1250501205@qq.com

李 騰(1980–),男,安徽鳳臺人,教授,博士,碩士生導師。主要研究方向為計算機視覺、圖像處理。E-mail:liteng@ahu.edu.cn

LI Teng (1980–), male,professor, Ph.D. His main research interests cover vision, image processing, etc. E-mail: liteng@ahu.edu.cn

猜你喜歡
泊松姿態(tài)背景
基于泊松對相關的偽隨機數(shù)發(fā)生器的統(tǒng)計測試方法
“新四化”背景下汽車NVH的發(fā)展趨勢
一類非線性薛定諤泊松方程的正解
基于泊松分布的成都經(jīng)濟區(qū)暴雨概率特征研究
《論持久戰(zhàn)》的寫作背景
攀爬的姿態(tài)
黑洞背景知識
淺談泊松過程在經(jīng)濟生活中的應用
全新一代宋的新姿態(tài)
另一種姿態(tài)
安塞县| 北安市| 正阳县| 贵阳市| 寿光市| 沙河市| 潮州市| 阿鲁科尔沁旗| 分宜县| 凌云县| 三都| 苍南县| 确山县| 沾益县| 清原| 德惠市| 象州县| 阳东县| 会同县| 西峡县| 安阳县| 吉安县| 景谷| 化州市| 长泰县| 山东| 水富县| 平湖市| 会泽县| 平顺县| 衡阳市| 木里| 阿巴嘎旗| 桓台县| 平舆县| 贡嘎县| 博客| 大城县| 泾川县| 城市| 潼关县|