相凱 吳少群 袁紅星
摘 要:關鍵幀是半自動2D轉3D的核心技術,現(xiàn)有方法沒有考慮關鍵幀提取與深度傳播間的相互影響,難以最小化深度傳播誤差。針對該問題,通過光流運動分析,根據(jù)顏色差異、運動差異與遮擋誤差建立深度傳播誤差預測模型,提出傳播誤差最小化的關鍵幀提取算法。實驗結果表明,基于誤差預測模型的關鍵幀提取方法深度傳播質量更高,平均PSNR改善了0.6dB以上。
關鍵詞:3D視頻;2D轉3D;關鍵幀;深度傳播;誤差預測
DOI:10.11907/rjdk.172680
中圖分類號:TP312
文獻標識碼:A 文章編號:1672-7800(2018)004-0082-03
Abstract:Key-frame selection is one of core technologies in semi-automatic 2D-to-3D conversion. Existing methods cannot minimize depth propagation errors since they don′t consider key-frame′s impact on depth propagation. To address this issue, we predict propagation errors based on color dissimilarities, motion dissimilarities and occlusion errors, and select key-frames via minimization of propagation errors. Experiments demonstrate that our method can improve quality of depth propagation via the errors prediction model. The PSNR is improved by more than 0.6 dB compared with existing methods.
Key Words:3D video; 2D-to-3D conversion; key-frame; depth propagation; errors prediction
0 引言
3D在消費類媒體中占據(jù)著重要位置[1],涉及3D內容制作、傳輸、存儲、播放和顯示等技術,對于國民經(jīng)濟發(fā)展具有重要意義。為了在3D影像產(chǎn)業(yè)鏈中占據(jù)制高點,目前迫切需要解決以下3個問題:顯示終端、3D內容創(chuàng)建與3D標準制定。其中,隨著3D電視頻道的開通,3D片源不足已成為制約3D影像發(fā)展的瓶頸,而2D轉3D技術是解決這一難題的關鍵。2D轉3D流程如圖1所示,其核心是深度估計?,F(xiàn)有轉換方法主要分為:人工轉換、半自動轉換和全自動轉換[2]。人工轉換能夠產(chǎn)生最佳深度圖,但也是最耗時、耗力且轉換成本最高的方法;全自動轉換因為無需人工干預而受到研究人員青睞,但現(xiàn)有的全自動轉換難以估計出高品質的深度圖,且存在場景適用性問題;半自動轉換首先從原始2D視頻中提取若干關鍵幀,然后對這些關鍵幀進行人工轉換,再利用深度傳播技術將關鍵幀深度擴散到非關鍵幀,最后對非關鍵幀深度進行人工優(yōu)化,該轉換方式是兼顧轉換品質和效率的最佳折衷方案。半自動轉換的核心問題是關鍵幀提取,這是最大限度減少人工成本和保證轉換品質的關鍵,而現(xiàn)有研究對此關注較少。因此,本文從深度傳播誤差分析著手探討半自動2D轉3D的關鍵幀提取問題。
1 研究現(xiàn)狀
現(xiàn)有的關鍵幀提取算法研究主要針對視頻摘要、檢索等應用。當前,關鍵幀提取算法可粗略分為序列法和基于聚類的方法。Vila等[3]利用Tsallis互信息和Jensen-Tsallis散度計算幀間相似度,并用一幀圖像和同一鏡頭內其它幀所有圖像間的平均相似度作為該幀的代表性測度,將最具代表性的視頻幀選為關鍵幀;Yong等[4]提出一個對視頻序列語義上下文進行建模的計算框架,通過比較幀間語義級特征和一個統(tǒng)計分類器實現(xiàn)關鍵幀提??;張曉星等[5]利用圖像特征點檢測與匹配的方法,將相鄰圖像的非匹配點作為幀間相關性的近似,將累積或平均非匹配點數(shù)超過設定閾值的幀判為關鍵幀;張建明等[6]采用全局運動特征與局部運動特征作為視頻體特征,同時提取典型視頻相應特征,采用粒子群算法自適應提取視頻關鍵幀;雷少帥等[7]將序列法和聚類法結合起來,首先提取視頻的時空切片,然后對切片進行K均值聚類,最后根據(jù)相似度從每個類中提取關鍵幀;王方石等[8]針對聚類關鍵幀提取的閾值問題,提出二次聚類方法,根據(jù)內容變化程度自適應確定聚類所需的閾值,并采用動態(tài)無監(jiān)督聚類算法自動提取關鍵幀;羅森林等[9]以幀間顏色直方圖差為特征進行子鏡頭檢測,并對子鏡頭進行關鍵幀提取與聚類,在提升關鍵幀提取速度的同時,降低了關鍵幀提取冗余度;詹永照等[10]針對現(xiàn)有聚類方法對初始類劃分敏感、易陷入局部最優(yōu)、沒有考慮時序性等問題,提出一種基于人工免疫的有序樣本聚類算法。
目前,針對半自動2D轉3D的關鍵幀提取算法研究還較少。Cao等[11]使用基于采樣的關鍵幀提取算法(SKF),每隔一段時間從視頻中提取一幀作為關鍵幀。SKF的優(yōu)點是算法實現(xiàn)簡單,缺點是采樣間隔很難與視頻內容匹配,導致選取的關鍵幀不具代表性,進而影響到后續(xù)的深度傳播質量;Sun等[12]根據(jù)相鄰幀的遮擋面積和SURF特征點匹配比例計算關鍵幀選取閾值,進而對候選的每個關鍵幀估計攝像機的投影矩陣,最后將具有最小重投影誤差的候選幀作為關鍵幀。實驗表明該方法可顯著改善深度傳播質量。然而,攝像機投影矩陣估計是個病態(tài)問題,Sun等[12]需要借助Lenz等[13]提出的標定方法進行投影矩陣估計。
現(xiàn)有面向半自動2D轉3D的關鍵幀提取算法將深度傳播與關鍵幀提取獨立進行研究,沒有考慮關鍵幀和深度傳播對彼此的影響。為此,本文對深度傳播誤差進行建模,計算候選關鍵幀到非關鍵幀的深度傳播誤差,選擇具有最小傳播誤差的視頻幀作為關鍵幀。
2 本文方法
如圖2所示,本文提出基于深度傳播誤差預測的關鍵幀提取算法,主要包括基于光流的運動分析、基于運動分析的深度傳播誤差預測,以及根據(jù)誤差代價矩陣進行關鍵幀提取,對關鍵幀進行人工深度分配并傳播到非關鍵幀。
2.1 深度傳播誤差預測分析
關鍵幀向非關鍵幀進行深度傳播,首先需要建立幀間像素點的對應關系,大部分算法都采用運動估計的方法。本文通過前向光流和反向光流建立幀間像素點的匹配關系。假設第i幀圖像用Fi表示,其對應的前向光流和反向光流分別為wfi和wbi。其中wfi表示Fi到Fi+1的光流,wbi為Fi+1到Fi的光流。利用前向光流wfi從Fi的像素點X=(x,y)處向后續(xù)幀F(xiàn)i+1進行深度傳播的誤差概率定義如式(1)所示。式(1)中ci+1i表示利用光流建立從Fi到Fi+1的像素點對應關系的誤差代價,其定義如式(2)所示,主要包括顏色差異、運動差異和遮擋誤差,分別如式(3)—(5)所示。這里顏色差異假設匹配的像素點具有相似顏色,運動差異假設匹配的像素點運動具有一致性。對于非遮擋像素點,其前向光流和反向光流應大小相同、方向相反,因而遮擋誤差項為0,否則這種非0值表示遮擋對深度傳播的誤差影響。
2.2 基于傳播誤差預測的關鍵幀提取
本文的關鍵幀提取算法是要尋找向其它幀傳播誤差概率最小的幀。為此,定義一個N×N的代價矩陣C,其中N表示總視頻幀數(shù)。矩陣C第i行、第j列的元素定義如式(7)所示:
假設S表示候選關鍵幀,定義如式(8)所示的能量函數(shù),其中l(wèi)和r分別表示距離候選關鍵幀F(xiàn)i左邊和右邊最近的候選關鍵幀索引?;趥鞑フ`差預測的關鍵幀提取即是最小化式(8)的求解過程。
3 實驗結果與分析
實驗數(shù)據(jù)來自微軟提供的3D視頻序列Ballet和Breakdancer[14]。將關鍵幀的真實深度向非關鍵幀進行傳播,并與非關鍵幀的真實深度進行比較,以PSNR作為客觀比較指標。其中深度傳播采用簡單的最近鄰法,即某個非關鍵幀的深度由距離其最近的關鍵幀深度傳播得到。實驗中,與Cao等[10]基于采樣的關鍵幀提取算法(SKF)、Sun等[11]的雙閾值法(DT)進行了比較。如表1所示,與SKF和DT方法相比,本文方法獲取關鍵幀的深度傳播平均PSNR改善了0.6dB以上。這是因為SKF和DT提取關鍵幀時并未考慮深度傳播誤差的影響,而本文通過最小化傳播誤差選取關鍵幀,因而能夠有效改善深度傳播質量。
4 結語
關鍵幀提取直接決定了半自動2D轉3D質量。現(xiàn)有方法將關鍵幀提取與深度傳播割裂開來,難以最小化深度傳播誤差。本文從顏色差異、運動差異與遮擋誤差著手,建立深度傳播的誤差預測模型,進而構造傳播代價能量函數(shù),通過能量最小化實現(xiàn)誤差最小化的深度傳播。實驗結果表明,本文方法可有效改善深度傳播質量。
參考文獻:
[1] 王瑜.三維場景模型構建研究與實現(xiàn)[J].軟件導刊,2017,16(7):199-201.
[2] 吳少群,袁紅星,安鵬,等.軟分割約束邊緣保持插值的半自動2D轉3D[J].電子學報,2015,43(11):2218-2224.
[3] VILA M, BARDERA A, QING X, et al. Tsallis entropy-based information measures for shot boundary detection and keyframe selection[J]. Signal, Image and Video Processing, 2013:1-14.
[4] YONG S P, DENG J D, PURVIS M K. Wildlife video key-frame extraction based on novelty detection in semantic context[J]. Kluwer Academic Publishers, 2013,62(2):359-376.
[5] 張曉星,劉冀偉,張波,等.分布視頻編碼中基于幀間相關性的自適應關鍵幀選取算法[J].光電子·激光,2010,21(10):1536-1541.
[6] 張建明,蔣興杰,李廣翠,等.基于粒子群的關鍵幀提取算法[J].計算機應用,2011,31(2):358-361.
[7] 雷少帥,曹長青,古赟,等.基于時空切片的關鍵幀提取研究[J].太原理工大學學報,2012,43(3):358-361.
[8] 王方石,須德,吳偉鑫.基于自適應閾值的自動提取關鍵幀的聚類算法[J].計算機研究與發(fā)展, 2005, 42(10):1752-1757.
[9] 羅森林,馬舒潔,梁靜,等.基于子鏡頭聚類方法的關鍵幀提取技術[J].北京理工大學學報,2011,31(3):348-352.
[10] 詹永照,汪滿容,柯佳.基于人工免疫有序聚類的視頻關鍵幀提取方法[J].江蘇大學學報:自然科學版,2012,33(2):199-204.
[11] CAO X, LI Z, DAI Q H. Semi-automatic 2D-to-3D conversion using disparity propagation[J]. IEEE Transactions on Broadcasting, 2011,57(2):491-499.
[12] SUN J D, XIE J C, LIU J. Dual threshold based key-frame selection for 2D-to-3D conversion[J]. Journal of Computational Information Systems, 2013,9(4):1297-1305.
[13] LENZ R K, TSAI R Y. Technology for calibration of the scale factor and image center for high accuracy 3-D machine version metrology[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1988,10:68-75.
[14] ZITNICK C L, KANG S B, UYTTENDAELE M, et al. High-quality video view interpolation using a layered representation[J]. ACM Transactions on Graphics, 2004,23(3):600-608.
(責任編輯:黃 ?。?/p>