沈 秋 李小凡 孔繁鏘 代俁西
?
基于仿射模型的無人機(jī)視頻實(shí)時(shí)壓縮算法
沈 秋*李小凡 孔繁鏘 代俁西
(南京航空航天大學(xué)航天學(xué)院 南京 210016)
在現(xiàn)有算法無法滿足無人機(jī)視頻實(shí)時(shí)壓縮傳輸需求的應(yīng)用背景下,該文提出一種新的低復(fù)雜度無人機(jī)(Unmanned Aerial Vehicle, UAV)視頻實(shí)時(shí)壓縮算法,利用無人機(jī)視頻的背景平面性、運(yùn)動(dòng)一致性等特點(diǎn),建立仿射模型描述視頻的全局運(yùn)動(dòng),并根據(jù)模型參數(shù)進(jìn)行視頻壓縮。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有壓縮算法H.264相比,該算法在保證壓縮性能的前提下,大量減少了壓縮時(shí)間,可滿足大多數(shù)情況下無人機(jī)視頻傳輸?shù)馁|(zhì)量要求和實(shí)時(shí)性要求。
視頻壓縮;無人機(jī)視頻;全局運(yùn)動(dòng)估計(jì);仿射模型
信息化時(shí)代的到來要求人們改變對(duì)偏遠(yuǎn)地區(qū)(例如高原、森林等)信息采集的傳統(tǒng)方式。無人機(jī)(Unmanned Aerial Vehicle, UAV)由于經(jīng)濟(jì)環(huán)保、安全便捷,現(xiàn)已越來越廣泛地應(yīng)用于土地監(jiān)測(cè)、森林防火、抗震救災(zāi)、電力巡線等領(lǐng)域。然而無人機(jī)由于機(jī)載設(shè)備受限、要求視頻實(shí)時(shí)傳輸?shù)仍?,要求其采用的視頻壓縮算法復(fù)雜度低、壓縮性能高。
目前,無人機(jī)視頻壓縮主要使用MPEG-2[1]和H.264[2]等標(biāo)準(zhǔn)算法,算法核心是基于塊的運(yùn)動(dòng)補(bǔ)償/變換的混合編碼,算法復(fù)雜度較高,無法實(shí)現(xiàn)實(shí)時(shí)壓縮和傳輸。運(yùn)動(dòng)估計(jì)是現(xiàn)有視頻壓縮算法的核心技術(shù)之一,也是算法復(fù)雜度高的主要因素[3],以H.264為例,運(yùn)動(dòng)估計(jì)的時(shí)間占整個(gè)視頻編碼時(shí)間的60%~80%[4]。因此,如何有效地進(jìn)行運(yùn)動(dòng)估計(jì)是減少壓縮編碼時(shí)間的關(guān)鍵。
一方面,無人機(jī)在執(zhí)行偵察、勘測(cè)任務(wù)時(shí),大部分飛行高度都在500 m以上,遠(yuǎn)大于拍攝距離,故可以忽略地表起伏以及獨(dú)立的運(yùn)動(dòng)目標(biāo),將拍攝的背景視為平面[5];另一方面,航拍視頻中獨(dú)立的運(yùn)動(dòng)目標(biāo)在畫幅中所占比例較小,并且大部分拍攝任務(wù)在飛行狀態(tài)比較平穩(wěn)時(shí)進(jìn)行,因此,可假設(shè)無人機(jī)視頻的相鄰幀之間存在有規(guī)律的、一致的全局運(yùn)動(dòng);其次,無人機(jī)的飛行速度一般在100~300 km/h,而視頻拍攝幀率在25~30幀/s,兩幀之間具有70%~90%的重疊度[6]。鑒于以上幾個(gè)特征,在大部分情況下,對(duì)無人機(jī)拍攝視頻采用全局運(yùn)動(dòng)估計(jì)代替分塊的運(yùn)動(dòng)估計(jì),可以在不嚴(yán)重影響視頻質(zhì)量的同時(shí),較大地降低算法復(fù)雜度。
現(xiàn)有的全局運(yùn)動(dòng)估計(jì)算法可分為基于像素域和基于壓縮域的方法,前者大多采用的是最小二乘的迭代方法以及快速的金字塔算法,又可細(xì)分為基于像素[7]、基于特征[5, 8, 9]、基于塊匹配[10, 11]3種算法;后者利用壓縮碼流中的相關(guān)信息進(jìn)行快速的全局運(yùn)動(dòng)估計(jì)[12, 13],相較于前者,計(jì)算量少,但壓縮碼流中運(yùn)動(dòng)矢量由于局部運(yùn)動(dòng)影響,會(huì)使全局運(yùn)動(dòng)估計(jì)產(chǎn)生偏差。現(xiàn)有利用全局運(yùn)動(dòng)估計(jì)進(jìn)行視頻壓縮的算法,其全局運(yùn)動(dòng)矢量只包含水平和垂直兩個(gè)分量,適合簡(jiǎn)單的平移運(yùn)動(dòng),不能應(yīng)對(duì)旋轉(zhuǎn)、縮放等復(fù)雜情況,預(yù)測(cè)后的編碼殘差大,碼率高而性能低。
本文結(jié)合無人機(jī)運(yùn)動(dòng)的特點(diǎn),提出了一種基于六參數(shù)仿射變換模型的全局運(yùn)動(dòng)估計(jì)算法,可以精準(zhǔn)地描述視頻圖像的平移、旋轉(zhuǎn)、縮放等運(yùn)動(dòng),并利用模型參數(shù)指導(dǎo)視頻的幀間預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償,在保持視頻壓縮性能的同時(shí),極大地降低計(jì)算復(fù)雜度。
按照攝像機(jī)運(yùn)動(dòng)方式的不同,全局運(yùn)動(dòng)模型有對(duì)應(yīng)于平移的二參數(shù)模型,對(duì)應(yīng)于平移和縮放運(yùn)動(dòng)的三參數(shù)模型[14],對(duì)應(yīng)于平移、縮放和旋轉(zhuǎn)的四參數(shù)模型,六參數(shù)的仿射模型[15,16],八參數(shù)的投影模型以及十二參數(shù)的拋物模型。參數(shù)越多,描述的模型越復(fù)雜,描述的精度也越高,但是模型的計(jì)算復(fù)雜度也就越高。
當(dāng)無人機(jī)做水平運(yùn)動(dòng)時(shí),其運(yùn)動(dòng)模型可以用二參數(shù)的平移模型來表達(dá)。
圖1 航拍視頻成像圖
然而無人機(jī)在飛行過程中免不了要進(jìn)行各種姿態(tài)調(diào)整,這就會(huì)帶來比平移更復(fù)雜的全局運(yùn)動(dòng),如旋轉(zhuǎn)、縮放等,如圖2所示,是一個(gè)無人機(jī)航拍視頻中某一幀的運(yùn)動(dòng)矢量圖的一部分。圖像上半部分與下半部分的運(yùn)動(dòng)方向不一致,運(yùn)動(dòng)矢量的大小也不相同,一般的平移模型已經(jīng)不能滿足這種情況。
其中
圖2 航拍視頻運(yùn)動(dòng)矢量圖
本文利用六參數(shù)仿射模型對(duì)無人機(jī)視頻的全局運(yùn)動(dòng)進(jìn)行描述,并根據(jù)全局運(yùn)動(dòng)參數(shù)對(duì)視頻進(jìn)行壓縮,避開了視頻壓縮編碼中最耗時(shí)的運(yùn)動(dòng)估計(jì)部分,達(dá)到大幅降低計(jì)算復(fù)雜度的目的。算法主體框架與標(biāo)準(zhǔn)算法H.264相同(如圖3所示),主要改進(jìn)的核心步驟包括兩個(gè)部分,即全局運(yùn)動(dòng)模型參數(shù)估計(jì)和基于全局運(yùn)動(dòng)模型的運(yùn)動(dòng)補(bǔ)償,如圖中虛線框內(nèi)所示。
本文采用基于特征點(diǎn)匹配的全局運(yùn)動(dòng)模型參數(shù)估計(jì),主要步驟包括:
圖3 基于仿射模型的無人機(jī)壓縮算法編碼框架圖
(3)估計(jì)出的運(yùn)動(dòng)參數(shù)需要加入到壓縮碼流中,可以加在視頻圖像頭參數(shù)列表中,也可以利用補(bǔ)充增強(qiáng)信息單元攜帶該信息。
直接利用換算出的運(yùn)動(dòng)矢量對(duì)圖像進(jìn)行運(yùn)動(dòng)補(bǔ)償和預(yù)測(cè),并對(duì)幀間預(yù)測(cè)補(bǔ)償后的殘差壓縮編碼得到壓縮比特流,而該碼流中不再攜帶每個(gè)分塊的運(yùn)動(dòng)矢量。
實(shí)驗(yàn)中分別對(duì)H.264壓縮算法全搜索方式(以下用H.264全搜索代指)、基于二參數(shù)平移模型的全局運(yùn)動(dòng)估計(jì)壓縮算法(以下用二參數(shù)平移模型代指)和本文提出的算法(以下用六參數(shù)仿射模型代指)進(jìn)行測(cè)試和比較。
4.1.1壓縮時(shí)間比較 各算法平均壓縮用時(shí)如表1所示,本文算法和基于二參數(shù)平移模型的算法所需視頻壓縮時(shí)間均遠(yuǎn)遠(yuǎn)少于H.264全搜索方式,只有H.264全搜索方式的4%左右,對(duì)于無人機(jī)視頻實(shí)時(shí)傳輸應(yīng)用具有重要的實(shí)踐意義。并且由于基于二參數(shù)平移模型的算法不能準(zhǔn)確地表達(dá)全局運(yùn)動(dòng),導(dǎo)致編碼殘差較大,對(duì)應(yīng)的編碼時(shí)間略長,因此,其壓縮時(shí)間也略大于本文算法。
4.1.2壓縮性能比較 本文對(duì)于壓縮視頻的性能采用率失真曲線圖衡量。量化參數(shù)分別取16, 22, 28, 34, 40, 46,這里列舉4個(gè)序列的率失真曲線圖如圖4~圖7所示。
表1壓縮時(shí)間比較
序列H.264全搜索(s)二參數(shù)平移模型(s)六參數(shù)仿射模型(s) 序列128.3981.3211.188 序列227.0881.0080.954 序列328.0371.2391.199 序列427.6111.2061.087 序列528.4231.1181.068 序列627.5601.1241.014 序列727.9041.2771.112 序列829.2361.5311.386 序列929.7721.4701.312
圖5 序列4性能比較圖
圖6 序列6性能比較圖
圖7 序列9性能比較圖
4.1.3主觀質(zhì)量及細(xì)節(jié)損失比較 當(dāng)壓縮比為102:1時(shí),選取序列1的重建視頻中第3幀作為比較。圖8~圖11分別展示了原始幀及重建幀以及它們的局部細(xì)節(jié)放大圖和使用零交叉方式(zerocross)提取出來的邊緣局部細(xì)節(jié)放大圖。從圖中可以看出,在同樣的碼率下本文算法重建幀與H.264全搜索方式重建幀在細(xì)節(jié)方面具有一樣良好的表現(xiàn),與原始視頻幀相比沒有明顯的損失,而二參數(shù)平移模型方式則細(xì)節(jié)損失嚴(yán)重,進(jìn)一步說明了本文算法的有效性。
圖8 原始圖像幀
圖9 H.264全搜索方式編碼重建
圖10 六參數(shù)仿射模型編碼重建
圖11 二參數(shù)平移模型編碼重建
本實(shí)驗(yàn)分別從壓縮時(shí)間、客觀重建質(zhì)量和主觀重建質(zhì)量3個(gè)方面,對(duì)視頻壓縮算法性能進(jìn)行了全面的比較與分析。結(jié)果顯示本文算法比H.264全搜索方式算法復(fù)雜度降低了95%以上;而基于二參數(shù)平移模型的算法雖然在壓縮時(shí)間上和本文算法相當(dāng),但由于其無法適應(yīng)旋轉(zhuǎn)、縮放運(yùn)動(dòng),造成運(yùn)動(dòng)矢量誤差較大,所以壓縮性能要遠(yuǎn)低于本文的算法,不能滿足無人機(jī)視頻實(shí)時(shí)傳輸?shù)馁|(zhì)量要求。因此,與傳統(tǒng)方法相比,本文提出的基于六參數(shù)仿射模型的算法可以在壓縮時(shí)間和壓縮質(zhì)量?jī)煞矫嫒〉米顑?yōu)的綜合性能。
本文在現(xiàn)有壓縮算法的基礎(chǔ)上,針對(duì)無人機(jī)的特殊需求提出了一種新的視頻壓縮編碼算法,利用無人機(jī)視頻的背景平面性、運(yùn)動(dòng)一致性等特點(diǎn),建立仿射模型描述視頻的全局運(yùn)動(dòng),并根據(jù)模型參數(shù)進(jìn)行視頻壓縮。算法計(jì)算復(fù)雜度低且性能與現(xiàn)有H.264算法相當(dāng),達(dá)到了實(shí)時(shí)性壓縮目的,對(duì)于機(jī)載設(shè)備受限的無人機(jī)而言具有顯著的實(shí)際應(yīng)用價(jià)值。該算法對(duì)于無人機(jī)應(yīng)用的大多數(shù)情況具有良好的性能,但也具有一定的局限性,當(dāng)無人機(jī)運(yùn)動(dòng)變化劇烈或飛行高度較低、運(yùn)動(dòng)目標(biāo)較大時(shí),該算法模型不能很好地表達(dá)視頻中的復(fù)雜運(yùn)動(dòng),從而造成性能下降。因此,作者下一步的研究重點(diǎn)是進(jìn)一步地優(yōu)化和完善全局運(yùn)動(dòng)模型以及實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的分割與獨(dú)立編碼,從而提高本文算法的適用性和有效性。
[1] 毛偉勇. 可用于無線傳輸?shù)母咔錗PEG-2實(shí)時(shí)編碼器的設(shè)計(jì)與實(shí)現(xiàn)[D]. [碩士論文], 上海交通大學(xué), 2008.
Mao Wei-yong. Design and implementation of high definition real-time MPEG-2 encoder used for wireless transmission[D]. [Master dissertation], Shanghai Jiao Tong University, 2008.
[2] 陳坤. 微型無人機(jī)圖像傳輸系統(tǒng)研究[D]. [碩士論文], 天津大學(xué), 2011.
Chen Kun. Research of image transmission system in micro-UAV[D]. [Master dissertation], Tianjin University, 2011.
[3] 劉英哲, 王進(jìn)祥. H.264中一種基于搜索范圍自適應(yīng)調(diào)整的運(yùn)動(dòng)估計(jì)算法[J]. 電子與信息學(xué)報(bào), 2013, 35(6): 1382-1387.
Liu Ying-zhe and Wang Jin-xiang. Motion estimation algorithm based on adaptive search range adjustment for H.264[J].&, 2013, 35(6): 1382-1387.
[4] 姚玉兵. H.264視頻編碼運(yùn)動(dòng)估計(jì)算法研究[D]. [碩士論文], 華東理工大學(xué), 2011.
Yao Yu-bing. Research of motion estimation based on H.264 video coding[D]. [Master dissertation], East China University of Science and Technology, 2011.
[5] 王云麗, 張?chǎng)? 高超, 等. 航拍視頻拼圖中基于特征匹配的全局運(yùn)動(dòng)估計(jì)方法[J]. 航空學(xué)報(bào), 2008, 29(5): 1218-1225.
Wang Yun-li, Zhang Xin, Gao Chao,.. Feature matching based global motion estimation in aerial video mosaicing[J]., 2008, 29(5): 1218-1225.
[6] 田金文, 謝清鵬, 譚毅華, 等. 無人機(jī)序列圖像壓縮方法研究[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2005, 33(12): 76-78.
Tian Jin-wen, Xie Qing-peng, Tan Yi-hua,.. Methods for compressing sequence image of unmanned aerial vehicle[J].(), 2005, 33(12): 76-78.
[7] 王思珺, 趙建, 韓希珍. 基于仿射變換的快速全局運(yùn)動(dòng)估計(jì)算法[J]. 液晶與顯示, 2012, 27(2): 263-266.
Wang Si-jun, Zhao Jian, and Han Xi-zhen. Fast global motion estimation algorithm based on affine transformation[J]., 2012, 27(2): 263-266.
[8] 于明, 孫煒燁, 閻剛, 等. 動(dòng)態(tài)場(chǎng)景下基于精確背景補(bǔ)償?shù)倪\(yùn)動(dòng)目標(biāo)檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2013, 30(10): 139-141.
Yu Ming, Sun Wei-ye, Yan Gang,..Moving objects detection based on exact background compensation in dynamic scene[J]., 2013, 30(10): 139-141.
[9] 王天召, 徐克虎, 陳金玉, 等. 基于均值聚類和幾何關(guān)系的運(yùn)動(dòng)背景估計(jì)算法研究[J]. 光電子技術(shù), 2013, 33(4): 244-248.
Wang Tian-zhao, Xu Ke-hu, Chen Jin-yu,.. Research on algorithm of moving background estimation based on means clustering and triangulation[J]., 2013, 33(4): 244-248.
[10] 吳浩, 鄧宏彬, 何少陽. 基于分塊灰度投影的無人飛行器視頻穩(wěn)像方法[J]. 北京理工大學(xué)學(xué)報(bào), 2013, 33(4): 385-389.
Wu Hao, Deng Hong-bin, and He Shao-yang. A UAV video stabilization method based on sub-block gray projection[J]., 2013, 33(4): 385-389.
[11] 席志紅, 初守艷. 全局運(yùn)動(dòng)中結(jié)合改進(jìn)C-1BT變換的平移運(yùn)動(dòng)估計(jì)[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2013, 31(6): 601-606.
Xi Zhi-hong and Chu Shou-yan. Translational motion estimation combined with improved C-1BT transform in global motion[J]., 2013, 31(6): 601-606.
[12] 王喆, 劉貴忠, 錢學(xué)明. 一種高效的基于H.264/AVC壓縮域信息的全局運(yùn)動(dòng)估計(jì)方法[J]. 電子學(xué)報(bào), 2011, 39(3A): 19-23.
Wang Zhe, Liu Gui-zhong and Qian Xue-ming. An efficient global motion estimation algorithm on H.264/AVC compression domain[J]., 2011, 39(3A): 19-23.
[13] 王麗. 視頻流中運(yùn)動(dòng)對(duì)象提取與分割的研究[D]. [碩士論文], 電子科技大學(xué), 2011.
Wang Li. Research on moving object extraction and segmentation among a video stream[D]. [Master dissertation], University of Electronic Science and Technology of China, 2011.
[14] 王嘉, 王海峰, 劉青山, 等. 基于三參數(shù)模型的快速全局運(yùn)動(dòng)估計(jì)[J]. 計(jì)算機(jī)學(xué)報(bào), 2006, 29(6): 920-926.
Wang Jia, Wang Hai-feng, Liu Qing-shan,..Fast global motion estimation based on 3-parameter global motion model[J]., 2006, 29(6): 920-926.
[15] 郭麗, 龔聲蓉, 崔志明. 一種快速全局運(yùn)動(dòng)估計(jì)算法[J]. 中國圖象圖形學(xué)報(bào), 2007, 12(12): 2119-2126.
Guo Li, Gong Sheng-rong, and Cui Zhi-ming. A fast global motion estimation algorithm[J]., 2007, 12(12): 2119-2126.
[16] Bhaskaranand M and Gibson J D. Low-complexity video encoding for UAV reconnaissance and surveillance[C]. Proceedings of the Military Communications Conference, Baltimore, MD, USA, 2011: 1633-1638.
[17] Rublee E, Rabaud V, Konolige K,.. ORB: an efficient alternative to SIFT or SURF[C]. Proceedings of the Computer Vision (ICCV), Barcelona, Spain, 2011: 2564-2571.
[18] 張波, 羅海勇, 劉冀偉, 等. 視覺傳感器網(wǎng)絡(luò)中基于RANSAC的頑健定位算法[J]. 通信學(xué)報(bào), 2013, 34(8): 62-69.
Zhang Bo, Luo Hai-yong, Liu Ji-wei,.. RANSAC based robust localization algorithm for visual sensor network[J]., 2013, 34(8): 62-69.
沈 秋: 女,1982年生,講師,研究方向?yàn)橐曨l壓縮與處理等.
李小凡: 男,1990年生,碩士生,研究方向?yàn)閿?shù)字圖像處理等.
孔繁鏘: 男,1980年生,講師,研究方向?yàn)槎喙庾V遙感圖像傳輸與處理等.
代俁西: 女,1991年生,碩士生,研究方向?yàn)槿S數(shù)字視頻處理等.
A Real-time Video Compression for UAV Based on Affine Model
Shen Qiu Li Xiao-fan Kong Fan-qiang Dai Yu-xi
(,,210016,)
Since the existing algorithms can not meet the requirements of real-time compression and transmission for UAV(Unmanned Aerial Vehicle) videos, a new real-time compression algorithm with low complexity for UAV videos is proposed. Considering the plane background and unified motion of UAV videos, the proposed method establishes an affine model for global motion estimation and compression. The experimental results demonstrate that the proposed algorithm is able to reduce the total encoding time while maintaining the performance compared with H.264, which the quality requirement and real-time performance for UAV videos transmission can be satisfied in most cases.
Video compression; Unmanned Aerial Vehicle (UAV) videos; Global motion estimation; Affine model
TN919.81
A
1009-5896(2014)12-2855-06
10.3724/SP.J.1146.2014.00080
沈秋 shenqiu@nuaa.edu.cn
2014-01-13收到,2014-05-09改回
國家自然科學(xué)基金(61201365),南京航空航天大學(xué)基本科研業(yè)務(wù)費(fèi)專項(xiàng)項(xiàng)目(NS2012071),南京航空航天大學(xué)青年科技創(chuàng)新基金(NS2013085),南京航空航天大學(xué)研究生創(chuàng)新基地(實(shí)驗(yàn)室)開放基金(kfjj201457)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助課題