林財明 衛(wèi)志敏
(華僑大學(xué),福建 廈門 361021)
特定場景大視角視頻拼接技術(shù)研究與實現(xiàn)
林財明 衛(wèi)志敏
(華僑大學(xué),福建 廈門 361021)
本文對視頻拼接設(shè)計了一個簡單的框架,主要是采用三路固定攝像進(jìn)行實時拼接,在U u n t u 16.04系統(tǒng)安裝O p e n C V開源庫和C U D A 8.0軟件包,并使用該系統(tǒng)搭建視頻拼接框架系統(tǒng)。利用G PU編程技術(shù),對視頻拼接技術(shù)中最耗時的特征匹配算法、細(xì)縫估計、多波段融合和扭曲映射算法進(jìn)行加速。在計算資源足夠的情況下,利用C U D A進(jìn)行在線實時視頻流拼接。
實時拼接;多波段融合;加速
由于互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)的快速發(fā)展,VR(Virtual Reality,即虛擬現(xiàn)實)直播是目前繼體驗店最容易商業(yè)化的領(lǐng)域。華人文化(CMC,華人文化基金、華人文化控股的并稱)宣布,旗下體奧動力與微鯨科技進(jìn)入體育賽事VR內(nèi)容制作領(lǐng)域,將嘗試在中國國家隊、中超聯(lián)賽、足協(xié)杯賽、業(yè)余足球聯(lián)賽等足球賽事中提供VR直播信號。VR技術(shù)是一項目前來說前景不錯的技術(shù),在體育賽事領(lǐng)域已有一定應(yīng)用。
視頻拼接技術(shù)是屬于較新的研究領(lǐng)域,存在很大的研究空間。國內(nèi)外對于視頻拼接都朝著各種方向進(jìn)行研究,并且取得一些成果。該技術(shù)在視頻會議、軍事監(jiān)控、交通導(dǎo)航等領(lǐng)域得到了廣泛的應(yīng)用。視頻拼接技術(shù)也在VR中是一項非常重要的技術(shù),在此背景下,本文對特定場景大視角視頻拼接技術(shù)進(jìn)行了研究。
目前,常用的拼接技術(shù)是以AutoStitch軟件的拼接框架為主,該拼接框架已經(jīng)非常成熟,是影像拼接的一個里程碑。AutoStitch必須滿足兩個條件:第一,影像疊區(qū)域要近似一個平面;第二,每個攝像機(jī)拍攝的光心要在同一點上。如果這兩個條件不滿足的話,那么因為視差問題帶來的鬼影和模糊現(xiàn)象將會非常嚴(yán)重。
本文采用的是基于足球場三路攝像頭+算法+CUDA編程的大視角拼接方案,覆蓋整個足球場。讓三路攝像頭光心盡量重合在一起,三路攝像頭擺放在一個圓盤上,這樣就可以減少因為物理問題帶來的重疊區(qū)域的鬼影和模糊現(xiàn)象。
圖1 設(shè)計框架圖
設(shè)計方案如圖1所示,首先輸入三路視頻流,然后對三路視頻流的第一幀影像進(jìn)行特征點計算、匹配,并由特征點計算出相機(jī)參數(shù),最終配準(zhǔn)出正確的數(shù)據(jù),并計算出相應(yīng)的單應(yīng)性矩陣;根據(jù)變形的模型和單應(yīng)性矩陣把最終三幅影像映射為一幅影像的關(guān)系式計算出來,然后進(jìn)行縫隙估計和曝光補(bǔ)償,使得拼接后的視頻更加自然,最后用多波段融合技術(shù)對每三幀進(jìn)行融合處理,最終得出視頻拼接的大視角全景圖。
下面分四點闡述拼接的主要技術(shù):
(1)找特征點
本文采用ORB算法,ORB特征是將FAST特征點的檢測方法與BRIEF特征描述子結(jié)合起來,并在它們原來的基礎(chǔ)上做了改進(jìn)與優(yōu)化。首先,它利用FAST特征點檢測的方法來檢測特征點,然后利用Harris角點的度量方法,從FAST特征點中挑選出Harris角點響應(yīng)值最大的N個特征點。其中Harris角點的響應(yīng)函數(shù)定義為:
R=detM-α(traceM)2(1)
我們知道FAST特征點是沒有尺度不變性的,所以我們可以通過構(gòu)建高斯金字塔,然后在每一層金字塔圖像上檢測角點,來實現(xiàn)尺度不變性。那么,對于局部不變性,我們還差一個問題沒有解決,就是FAST特征點不具有方向,ORB[1]的論文中提出了利用灰度質(zhì)心法來解決這個問題?;叶荣|(zhì)心法假設(shè)角點的灰度與質(zhì)心之間存在一個偏移,這個向量可以用于表示一個方向。對于任意一個特征點p來說,我們定義p的鄰域像素的矩為:
其中I(x,y)為點(x,y)處的灰度值。那么可以計算出圖像的質(zhì)心為:
那么特征點與質(zhì)心的夾角定義為FAST特征點的方向:
要保證該算法具有旋轉(zhuǎn)不變性,需要確保x和y在半徑為r的圓形區(qū)域內(nèi),即x,y∈[-r,r],r等于鄰域半徑。
ORB選擇BRIEF作為特征描述方法,但是特征不具有旋轉(zhuǎn)不變性,所以給BRIEF加上旋轉(zhuǎn)不變性。對于任意的特征點,該描述子是一個長度為n的二值碼串,該二值串是由特征點周圍的n個點對(2n個點)組成的,我們把這2n個點組成一個矩陣S:
使用鄰域方向θ和對應(yīng)旋轉(zhuǎn)矩陣Rθ,構(gòu)建S的一個校正版本Sθ=RθS其中
而θ就是公式(4)所求,把360o分為12份,然后對每一份求得Sθ,這樣一個查找表就創(chuàng)建成功,對于每一個θ,我們只需查找表即可快速得到它的點對集合Sθ。本文將ORB算法編寫成CUDA程序,使其效率更加高效,并用RANSAC算法篩選特征點。
(2)找縫隙
縫合線(Seam Line)是圖像拼接后在重疊區(qū)域內(nèi)形成的一條把兩幅拼接在一起的圖像明顯可區(qū)分開的分界線(又稱“拼接線”)。不消除它,對拼接圖像的視覺效果將產(chǎn)生不良影響,消除它可采用某種圖像融合策略。消除“拼接線”之前,需先找到“拼接線”在全景圖中的準(zhǔn)確位置,即找到縫合線。目前用于縫合線搜索的主要技術(shù)有基于動態(tài)規(guī)劃法,該種方法依據(jù)一定的相似性準(zhǔn)則找出符合最優(yōu)條件的縫合線。
(3)融合圖像
簡單的線性融合會使得影像的高頻部分被模糊,而多波段融合可以很好地解決這個問題,本文對于每一幅影像融合掩模公式(7)如下:
如果坐標(biāo)(x,y)的值有最大權(quán)重,那么相應(yīng)映射的位置設(shè)為1,否則設(shè)為0。最大權(quán)重映射通過和連續(xù)的高斯函數(shù)進(jìn)行卷積產(chǎn)生融合映射:
在這個公式中,wiσ(x,y)是0到σ寬度的融合權(quán)重。新的波段頻率由公式(10)產(chǎn)生,相應(yīng)的權(quán)重由公式(11)產(chǎn)生。
本文利用GPU對高斯金字塔和拉普拉斯金字塔算法進(jìn)行編程,提高算法的執(zhí)行速度,以實現(xiàn)視頻實時拼接。
(4)Warps image部分
可以采用很多模型來進(jìn)行圖像扭曲,因為對于不同的場景,全局單應(yīng)性矩陣的對齊能力并不是十分完美,所以需要用更厲害的矩陣或者更多的單應(yīng)性矩陣來解決。J Gao提出將場景劃分為背景平面和前景平面,用兩個單應(yīng)性矩陣分別對齊背景和前景,這種方法可以無縫拼接大部分現(xiàn)實場景,但是需要拼接影像具有可以劃分為前景和背景的約束[2]。林溫燕提出用多個仿射變換,六參數(shù)的homography矩陣,經(jīng)過仿射變換的平行線依舊保持平行,能把正方形變成四邊形,局部變形和對齊能力很好,在某種程度上可以處理由視差帶來的重影問題[3]。J Zaragoza提出一種新的homography,主要將圖像劃分為密集網(wǎng)格,每個網(wǎng)格都用一個單應(yīng)性矩陣對齊,并給出一套高效的計算方法Moving DLT。但是計算如此多單應(yīng)性矩陣,計算量極大,所以此處必須用GPU編程實現(xiàn),否則實時拼接是不可能的。2014年張帆提出的拼接方案是在整個重疊區(qū)域所有的輸入圖像并不需要精確對齊。采用混合對齊模型,開發(fā)一種隨機(jī)算法來尋找最佳的單應(yīng)性矩陣,將單應(yīng)性矩陣和content-preserving warping進(jìn)行結(jié)合,最后將對齊的影像用標(biāo)準(zhǔn)的seam-cuting算法和多波段融合算法組合起來,可以有效處理視差和局部畸變問題[4]。張哲瀚提出的變形方法則是采用分三大塊處理,借鑒圖像縮放形狀保持的方法,非重疊區(qū)域逐漸過渡到全局相似變換,能把正方形變成矩形,并對整個圖像增加相似變換約束,矯正拼接圖像的形狀,減小由于投影帶來的畸變問題[5]。林宗慶提出的變形方法是用對單應(yīng)性矩陣進(jìn)行約束,不過它采用兩種線性單應(yīng)性矩陣和全局相似變換相結(jié)合來進(jìn)行影像的拼接[6]。
以上的變形方案都是對單應(yīng)性矩陣做文章,但不同方案相應(yīng)的計算量都很大,對于不同場景,如果想利用比較好的單應(yīng)性矩陣,就得優(yōu)先考慮GPU編程。
三路視頻拼接最重要的問題就是實時性,還有本文采用的大視角拼接系統(tǒng),三路攝像頭擺放位置都是固定的,所以針對影像拼接框架中,利用特征點計算單應(yīng)性矩陣,本文只計算一次,然后利用它進(jìn)行后續(xù)的處理。
圖2 輸入影像
圖3 輸出影像
由于本文的實現(xiàn)目標(biāo)是想達(dá)到實時性,但是由于細(xì)縫估計和多波段融合方面的耗時比較大,所以將這兩部分算法用GPU編程實現(xiàn),目前所能達(dá)到的效果是720p三路視頻每秒20幀左右,實現(xiàn)平臺i7-7700hq,系統(tǒng)ubuntu16.04,GPU為TITAN BLACK。本文采用扭曲方式是圓柱映射,這部分算法代碼也需要用GPU編程來實現(xiàn)。
本文采用三路視頻對足球場進(jìn)行拼接,首先計算速度慢,因為針對單應(yīng)性矩陣的優(yōu)化方法,很多文章都有提及,但是想擴(kuò)展到視頻拼接上,最直接的思路是利用GPU的并行來加速單應(yīng)性矩陣的計算。對拉普拉斯金字塔融合算法進(jìn)行優(yōu)化,并移植在GPU上運行,可以消除小部分的重影問題。對視頻進(jìn)行實時拼接,利用CUDA進(jìn)行加速,是一個目前來說最完美的方案。
[1]Rublee E,Rabaud V,Konolige K,et al. ORB: an efficient alternative to SIFT or SURF. Proceedings of the IEEE International Conference on Computer Vision,Barcelona,Spain,2011: 2564—2571.
[2]Gao, J., Kim, S.J., Brown, M.S.: Constructing image panoramas using dual-homography warping. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. pp. 49{56. CVPR '11 (2011).
[3]W.-Y. Lin, S. Liu, Y. Matsushita, T.-T. Ng, and L.-F. Cheong. Smoothly varying affine stitching. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 345–352. IEEE, 2011.
[4]F. Zhang and F. Liu. Parallax-tolerant image stitching. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE,2014.
[5]Chang, C.H., Sato, Y., Chuang, Y.Y.: Shape-preserving half-projective warps for image stitching. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3254{3261. CVPR ' 14 (2014).
[6]C.-C. Lin, S. U. Pankanti, K. N. Ramamurthy, and A. Y. Aravkin, “Adaptive as- natural- as- possible image stitching,”in Proc. IEEE Conf.Comput. Vis. Pattern Recog., Jun. 2015, pp. 1155–1163.
[7]Brown, M., Lowe, D.G.: Recognizing panoramas. In: Proceedings of the Ninth IEEE International Conference on Computer Vision - Volume 2. pp. 1218{. ICCV'03 (2003).
[8]Brown, M., Lowe, D.G.: Automatic panoramic image stitching using invariant features. Int. J. Comput. Vision 74(1), 59{73 (Aug 2007).
[9]Carroll, R., Agrawal, M., Agarwala, A.: Optimizing content- preserving projections for wide- angle images. ACM Transactions on Graphics 28(3), 43 (2009).
Research and Realization of Large-angle Video Stitching Technology in Specific Scene
Lin Caiming Wei Zhimin
(Huaqiao University,Xiamen 361021,Fujian)
tract】 This paper designs a simple framework for video stitching,mainly using three fixed camera for real-time stitching;installs OpenCV base and CUDA8.0 software package in the Uuntu16.04 system;and uses the system to build video stitching frame system.It uses GPU programming technology to accelerate the most time-consuming algorithms of video stitching technology,such as feature matching,slit estimation,multi-band fusion and twist mapping.With sufficient calculation resources,CUDA is used for the online real-time video stream stitching.
words】 real-time stitching;multi-band fusion;accelerate
TP391.41
A
1008-6609(2017)04-0025-03
林財明(1991-),男,福建泉州人,碩士研究生,研究方向為圖像處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)。
華僑大學(xué)研究生科研創(chuàng)新能力培育計劃資助項目,項目編號:1511401021。