覃遠年,徐曉寧
(桂林電子科技大學 信息與通信學院,廣西 桂林 541004)
?
立體視頻圖像編碼的研究進展
覃遠年,徐曉寧
(桂林電子科技大學 信息與通信學院,廣西 桂林 541004)
從編碼方案、關鍵技術和評價準則3個方面綜述了立體視頻圖像編碼研究的發(fā)展。闡明了各種編碼方案的特點及適用范圍。詳細分析了立體視頻圖像編碼中視差估計、運動估計、遮擋檢測、殘差圖像編碼和碼率控制5大關鍵技術,總結了各項技術的發(fā)展現(xiàn)狀。最后指出了立體視頻圖像編碼研究中存在的問題,并對未來的研究方向進行了展望。
立體視頻編碼;視差估計;遮擋檢測;可伸縮編碼;壓縮感知
隨著信號處理、通信網絡和計算機技術的發(fā)展,傳統(tǒng)視頻(2D Video)編碼技術趨于成熟,基于MPEG-X、H.26X等視頻編碼標準的視頻產品得到了廣泛的應用。然而,由于立體視頻(3D Video)能夠帶給人們更多的視覺信息和視覺體驗,能產生更強烈的視覺沖擊,因此正越來越受到人們的追捧[1],例如3D電影電視等。立體視頻是利用人眼睛的雙目視差原理,使欣賞到的圖像有強烈的立體感、臨場感和真實感。立體視頻處理是圖像視頻處理技術的重要組成部分和研究熱點[2],在醫(yī)學診斷、影視娛樂、戰(zhàn)場實時仿真、遠程教育及視頻會議、文物保存研究等領域有著廣闊的應用前景。
目前立體視頻技術中雙目立體視頻是應用最廣泛的視頻格式,觀看者通過顯示設備獲得其左、右眼兩路視頻并基于視差原理獲得立體視覺效果。與單目視頻相比,雙目立體視頻的數(shù)據(jù)量和計算復雜度成倍增加,這使得立體視頻在信息處理和存儲、遠程通信等應用領域面臨巨大考驗。因此,如何高效地對立體視頻圖像進行編碼,最大限度壓縮數(shù)據(jù)量是立體視頻得到更廣泛的應用(例如移動3D視頻、互聯(lián)網3D視頻等)的關鍵。
國際上,立體視頻圖像編碼的研究始于20世紀80年代末[3]。初期,主要是將立體圖像對中的左右圖像分別使用經典的2D圖像編碼方法進行壓縮。該方法比較簡單直觀,但沒有很好地利用立體視頻圖像中的相關性,獲得的壓縮率也比較小,難以滿足實際應用的需求。進入90年代中后期,隨著研究的深入[4],許多學者注意到有大量的冗余信息存在于立體圖像的左右視圖之間,通過采用計算機視覺的方法,對左右視圖進行視差估計,可顯著提高編碼效率。國內學者從20世紀90年代中后期開始對立體視頻圖像編碼進行研究,截至目前已在立體視頻的編碼方面取得了一定的研究成果[5-6]。雖然不斷涌現(xiàn)了眾多的立體視頻編碼算法,但目前很多技術仍不成熟,將其廣泛應用還有很長的路要走。為此,本文從編碼方案、關鍵技術和評價準則3個方面綜述了立體視頻編碼研究的發(fā)展,指出了立體視頻圖像編碼研究中存在的問題,對未來的研究方向進行了展望。
2.1 基于普通視頻編碼標準的擴展方案
2.1.1 基于塊的立體視頻圖像編碼方案
基于塊的立體視頻圖像編碼方案[7]主要使用視差估計算法通過已編碼的左圖像序列對右圖像序列進行預測編碼。該方案首先把左圖像序列分割成大小相等的塊,然后根據(jù)單視點視頻編碼的方法對其進行編碼;對于右圖像也先分成大小相等的塊,按照某種判決準則在左圖像序列中尋找相應塊的最佳匹配塊,視差矢量即為左右圖像匹配塊之間的位置差異,為了提高視差預測的精度,塊的大小也可以是可變尺寸的。在基于塊的立體視頻圖像編碼方案中,視差匹配估計[8]是至關重要的一步,它的準確程度直接影響整個編碼系統(tǒng)的精度和效率?;趬K的編碼方案與其他編碼方案相比算法簡單、穩(wěn)健且易于硬件移植。但會出現(xiàn)塊效應,且在低比特率下重建圖像的主觀質量不是很好。
2.1.2 基于對象的立體視頻圖像編碼方案
20世紀90年代后期,圖像編碼領域開始研究基于對象的編碼算法[9],其核心思想是:首先使用視差估計算法得到視差場,然后根據(jù)視差場和圖像特征將用戶感興趣的對象分割、提取出來,并在編碼時分配較多碼流,對視頻場景中的其余部分編碼時則分配較少碼流,從而顯著提高編碼效率。這種方法的性能和效率均優(yōu)于基于塊的編碼方法,在低比特率下沒有方塊效應,能夠以一種更自然的方式對場景進行描述。但是基于對象的編碼方法的圖像分析過程比較復雜,且其中的對象建模、分割和提取等很多環(huán)節(jié)還不是很成熟,同時對于一些運動形式和圖像背景復雜的視頻圖像不是很適用[10],視頻對象的有效分割和提取是基于對象法尚待解決的問題,對于立體視頻編碼來說更是需要深入的研究。
2.1.3 基于網格的立體視頻圖像編碼方案
目前網格已被廣泛應用于眾多領域,如計算機圖形學[11]、力學的有限元分析以及地貌模型的構造等。在視頻編碼中,網格根據(jù)圖像內容自適應地產生一些符合一定特征的多邊形區(qū)域來對整個圖像和運動模型進行描述。在立體圖像編碼中有三角形網格[12]和四邊形網格[13]等。文獻[14]基于DT網格提出了一種立體視頻編碼算法,該算法首先將特征點DT網格化,得到網格化的立體視頻圖像;然后對網格節(jié)點進行運動估計和跟蹤;最后對視差信息和運動信息進行編碼。基于網格的方法在較高壓縮比時恢復圖像的均勻度、自然度,優(yōu)于基于塊的方法,主觀上更易接受。
2.2 立體視頻編碼新探索
2.2.1 基于可伸縮的立體視頻圖像編碼方案
為了更好地適應各種復雜的網絡環(huán)境和不同的終端設備,人們提出了可伸縮立體視頻編碼[15]方案??缮炜s編碼[16]實質是首先按照視頻信息的重要性對其進行分解,然后按照其自身的統(tǒng)計特性對分解的各層進行編碼。通常,將視頻編碼分成一個基本層和一組增強層。對基本層進行單獨的傳輸解碼即可滿足最小需求,但解碼的視頻質量較差;增強層依賴于基本層,增強層是對基本層視頻信息的增強。增強層越多,視頻信息的質量恢復得越好。與其他編碼方案相比,可伸縮編碼通過對視頻信息進行分解處理簡化了解碼器端的設計,同時也使得碼流對網絡帶寬變化、誤碼和丟包都有了很強的適應性,成為目前視頻編碼技術研究的熱點。
2.2.2 基于多視點的立體視頻圖像編碼方案
多視點視頻編碼是把視點內部的時間相關性和多個視點之間的空間相關性作為著手點,直接對所有視點進行編碼的方法(Multi-View Video Coding,MVC)[17]。目前,MVC的編碼傳輸格式分為兩類:一類是視頻流中只包括多視點視頻數(shù)據(jù)的純視頻格式[18];另一類是多視點視頻加深度信息的深度增強格式[19]。純視頻型MVC的研究主要從預測結構、提高MVC編碼效率的技術、高層語法3個方面展開。MVC標準[20]定義的純視頻型編碼方案支持隨機訪問功能且兼顧了H.264/AVC的后向兼容性。深度增強型MVC將深度信息和多視點視頻信息一起傳輸?shù)浇獯a端,通過深度圖繪制技術(DIBR)恢復更多的視頻流,實現(xiàn)立體“環(huán)視”效果。深度增強型MVC的關鍵環(huán)節(jié)是深度圖像的獲取、深度圖像的編碼、視點合成技術[21]。與純視頻型MVC相比,深度增強型MVC大大減少了傳輸數(shù)據(jù)量,解碼端深度信息具有尺度伸展性,成為了目前的研究熱點。
2.2.3 基于分布式壓縮感知的立體視頻圖像編碼方案
分布式視頻編碼(Distributed Video Coding,DVC)是分布式信源編碼技術[22-23]在視頻編碼領域的應用,它將耗時耗功率的運動估計/補償從編碼端移到解碼端,具有編碼簡單、解碼相對復雜以及容錯性能較好的特點。壓縮感知理論(Compress Sensing,CS)最早由Candes、Donoho等人[24-25]提出,其核心思想是利用較少的測量值對稀疏或可壓縮信號的信息進行完全表征。通過采用壓縮感知技術,可以低于奈奎斯特速率的采樣率對視頻數(shù)據(jù)進行壓縮采樣,從而顯著地降低數(shù)據(jù)處理所需時間,增強實時性。分布式壓縮感知采用一種聯(lián)合稀疏模型(Joint Sparity Model,JSM) 對相關信源進行壓縮。由于相鄰幀之間的相關性,視頻序列可以看作是一種特殊的相關信源,Kang 等人[26]將聯(lián)合稀疏模型應用在視頻信號的壓縮編碼中,提出了一種分布式視頻壓縮感知(DCVS)算法。武曉嘉等人[27]提出了一種用于多視點立體視頻編解碼的分布式壓縮感知模型,該模型可以在實現(xiàn)高效編碼的同時將復雜度從編碼端轉移到解碼端,從而滿足低復雜度編碼的應用場合。
2.2.4 基于模式識別的立體視頻圖像編碼方案
模式識別[28]是通過計算機對信息進行處理、判別的一種分類過程?;谀J阶R別的圖像編碼算法[29-30]是一種新的圖像編碼思路,能夠較好地克服變換編碼適應性不足的缺點。文獻[31]提出了一種基于自組織神經網絡的立體圖像編碼算法(SOM+VQ+DE),該算法為了提高左圖像的編碼效率,采用矢量量化編碼代替?zhèn)鹘y(tǒng)算法中的DCT變換對左圖像進行壓縮,使用視差估計補償算法對右圖像進行預測編碼,最后對矢量量化與視差估計的殘差均使用DCT和Huffman進行編碼。實驗結果表明,該算法能有效地提高左圖像的編碼效率。但在基于模式識別的立體圖像編碼方面目前仍有很多工作需要做,例如如何獲得性能更優(yōu)的模式庫以及為視差估計殘差、矢量量化殘差建立相應的Huffman碼表等。
3.1 視差估計
視差估計是立體視頻圖像編碼的第一步,其估計的準確程度直接影響算法的整體性能,視差估計實質上就是按照某種數(shù)學準則在左右圖像上尋找匹配點或塊的過程,視差估計是一個圖像匹配的過程。視差矢量就是兩個對應點或塊之間的位置差異,它代表了左右圖像在空間上的冗余信息。對此,很多學者對通用算法和在特定應用中的視差估計進行了研究,并取得了一定的成果。Koschan[32]總結了1989年到1993年視差估計算法。Myron Z.Brown 等人[33]對1993年至2003年期間視差估計技術的發(fā)展進行了總結。Zhu Shiping[34]等人對自適應視差估計的發(fā)展現(xiàn)狀進行了分析,同時基于自適應視差估計算法提出了一些新的中間視合成技術。
根據(jù)匹配基元的不同,可以把視差估計簡單分為基于區(qū)域的和基于特征的兩大類[35-36],根據(jù)匹配策略的不同,基于區(qū)域的視差估計又可以分為局部法和全局法兩種。代表性的局部算法有相關法[37]、松弛迭代法[38]和生長法[39]等;而全局法計算復雜度較高,速度相對較慢,但是全局法能夠得到比局部法更好的結果,代表性的全局算法有動態(tài)規(guī)劃法[40]、圖割法[41]和置信度傳播法[42]等?;谔卣鞯钠ヅ渌惴ㄍǔ0▋蓚€步驟:特征點提取和特征匹配,文獻[43]提出了一種基于關鍵點的目標識別方法,這種識別方法能實時地對存在混亂和堵塞的對象進行有效識別。
3.2 運動估計
運動估計就是尋找視頻序列中運動物體在前后幀之間移動的方向和大小,即運動矢量。運動估計是視頻編碼中消除時間冗余,提高壓縮比的一項重要的技術。目前,常用的運動估計方法有頻域運動估計和空間運動估計兩大類。
頻域運動估計算法主要是在變換域內進行匹配搜索運算。Moshe等人[44]提出一種基于沃爾什-哈達瑪(WHT)變換的快速運動估計自適應算法,該算法能根據(jù)圖像內容自適應的提高估計精度,在計算復雜度和估計精度之間進行很好的權衡。空間運動估計算法主要在空間域進行匹配搜索,實現(xiàn)待匹配圖像與參考圖像之間的最優(yōu)匹配。這一方法主要分為光流場法[45]、像素遞歸法[46]和圖像塊匹配法[47]等。
3.3 遮擋檢測
遮擋問題主要是由物體之間的遮擋以及攝像機的位置差異而產生的,在立體視頻圖像編碼中,遮擋區(qū)域由于得不到很好的視差補償而成為殘差圖像的重要來源。依據(jù)遮擋產生原因的不同,視覺目標之間的遮擋可分為兩大類:一類是不同物體間存在的互相遮擋現(xiàn)象;另一類是同一物體的不同組成部分之間存在的自遮擋現(xiàn)象。
遮擋現(xiàn)象的研究已取得了一定的成果,M.Hu等人[48]引入了貝葉斯網絡處理遮擋問題,該貝葉斯網絡通過一個二維橢球模型和對遮擋的深度處理過程進行建模。二維橢球模型通過創(chuàng)建子區(qū)域的顏色直方圖來聯(lián)合顏色和空間信息;深度處理過程能表示出遮擋區(qū)域的深度信息。Ahra Jo等人[49]采用基于水平分割矩形窗的直方圖匹配法對車輛跟蹤中存在的遮擋區(qū)域進行檢測。王展青等人[50]在Mean Shift算法的基礎上,利用Kalman濾波器引入遮擋檢測算法,根據(jù)濾波殘差的大小判定是否發(fā)生遮擋,然后將目標分塊進行遮擋程度檢測。
相對于視覺目標的之間存在的互遮擋的研究,有關自遮擋現(xiàn)象的研究仍需進一步的深入。Zhang Shihui等人[51]利用支持向量機技術提出了一種對深度圖像進行自遮擋檢測的方法。J.L.Youn等人[52]提出了一種簡單的三維形變模型,通過一個圓柱頭模型對輸入人臉的遮擋部分進行自動檢測,選擇面部可見的特征點對三維模型擬合方法進行設計,從而有效避免了自遮擋的影響,改善了三維人臉重建性能。
3.4 殘差圖像編碼
立體殘差圖像(Disparity Compensated Difference,DCD)是由原始右圖像和利用視差估計補償算法得到的預測圖像做差得到的。為了提高解碼重建圖像的質量,將得到的殘差圖像與視差矢量一同被傳送到解碼端。常用的殘差圖像編碼方法有基于DCT的方法和基于小波變換的方法。文獻[53]分別使用DCT和小波變換對立體殘差數(shù)據(jù)進行處理,結果表明DCT變換比小波更適合立體殘差數(shù)據(jù)的處理。文獻[54]從DCT域中運動殘差的分布特性出發(fā),通過分析殘差與編碼圖像兩者之間量化DCT系數(shù)的關系,提出一種基于I/P系數(shù)法則的運動補償算法。文獻[55] 從能量非平穩(wěn)特性、時空相關特性和頻率特性3個方面對可伸縮視頻編碼中的時域濾波殘差圖像特性進行了分析研究,研究結果對立體殘差圖像的編碼有重要意義。
3.5 碼率控制
碼率控制的目標是通過預設的控制算法,使視頻編碼的碼率適應傳輸帶寬,同時使編碼重建質量達到最優(yōu)。根據(jù)外部帶寬變化特性的不同,碼率控制主要分為恒定碼率[56]和可變碼率[57]兩大類。目前針對立體視頻碼率控制算法主要從三方面進行研究:1)在基于率失真模型的碼率控制方面,文獻[58]根據(jù)立體視頻的不同圖片類型,改造了3D視頻序列的二次失真模型,實現(xiàn)了在幀層和宏塊層碼率的精確控制。2)在基于人眼視覺特性的碼率控制方面,Natio等人[59]提出了能保持左右圖像質量平衡的統(tǒng)一緩沖區(qū)模型,優(yōu)化了GoP結構的設置,根據(jù)人眼視覺特性對左右視點進行了合理的比特分配。盧山等人[60]通過對立體視覺特性的分析,提出了一種基于幀級目標碼率分配的碼率控制算法。3)在多視點視頻碼率控制方面,文獻[61]提出了一種基于多視點視頻加深度的碼率控制技術,首先采用圖像拼接技術對視頻和深度同時進行編碼,然后在視圖層、視頻深度層、幀層3個層次進行聯(lián)合碼率控制。文獻[62]通過利用人類感知的視覺冗余,針對MVC提出了一種基于區(qū)域比特分配優(yōu)化的立體視覺關注算法。
立體視頻圖像編碼就是要在編碼復雜度、壓縮率和圖像質量之間尋求平衡。同時圖像質量和壓縮比之間又相互制約,它們是最基本的衡量編碼效果好壞的標準。
4.1 編碼復雜度
編碼復雜度直接影響整個系統(tǒng)的實時性,復雜度越高,計算量越大,實時性越差。目前,對于立體視頻編碼復雜度的研究主要集中在低復雜度的編碼算法上,而低復雜度編碼算法的研究主要集中在三方面:運動估計、視差估計、碼率控制。
4.2 圖像質量
圖像質量指人們對一幅圖像的視覺主觀評價,包括圖像逼真度和圖像可懂度兩個含義,通常立體視頻圖像壓縮只關注圖像的逼真度??陀^評價和主觀評價是常用的兩種圖像質量評價方法,其中客觀評價有均方誤差(MSE)、峰值信噪比(PSNR)等,主觀評價有平均評價分數(shù)法(MOS)等。目前部分學者致力于研究更合理有效的立體圖像評價方法,文獻[63]提出了一種新型遙感立體圖像編碼質量綜合評價模型,該模型從輻射特性畸變、紋理損失、相關性損失和幾何特性畸變四個方面評價重建圖像的質量,實驗表明該方法的評價結果與人眼的感知評價保持很好的一致性。
4.3 壓縮比
壓縮比(Compression Ratio,CR)是衡量壓縮程度的指標之一。壓縮比的計算方法有很多,一種是采用信息論中的概念,即在得知要壓縮數(shù)據(jù)的統(tǒng)計分析結果的前提下,壓縮比就是壓縮前后數(shù)據(jù)的熵之比。這種定義方法存在局限性,而現(xiàn)在所使用的許多壓縮技術并不依賴于數(shù)據(jù)的統(tǒng)計結果。
近年來,盡管立體視頻編碼的研究已取得了較大進展,但就整體而言,它仍處于一個較基礎的研究階段,面臨著許多問題和難點,有待進一步的研究和探索。
5.1 視差估計
近年來,人們對基于區(qū)域的視差估計進行了大量的研究并提出了很多有效的改進措施,但是目前仍存在許多不足之處,主要表現(xiàn)在以下幾個方面:1)視差的精度易受圖像灰度統(tǒng)計的影響。當景物表面缺乏足夠的紋理信息時,由于信息量小,容易出現(xiàn)誤匹配現(xiàn)象。2)由于存在遮擋效應、噪聲、光線、約束原則等因素的影響,常常會引起匹配的混淆,因此改進視差圖校正算法的研究至關重要。3)由于基于區(qū)域的匹配法是一個窮舉匹配運算的過程,因此該方法的運算量大、復雜度高。需進一步對算法進行優(yōu)化改進,減少運算量,降低編碼復雜度。
與基于特征的視差估計算法相比,基于區(qū)域的算法具有匹配準確度高、計算量小、速度快等優(yōu)點。但由于特征點的提取本身存在不足,導致了基于特征點的視差估計算法也存在一些缺點:1)特征在圖像中的稀疏性決定基于特征的匹配算法只能得到稀疏的視差場,雖可通過插值的方法來提高特征匹配得到的視差場,但這也會帶來更復雜的計算。2)特征的提取和定位對匹配的精度影響很大,若特征提取效果不佳會很大程度上制約匹配精度的提高,如何高效準確地進行特征提取定位將是今后算法的發(fā)展方向。
5.2 運動估計
隨著視頻編碼技術應用范圍的不斷擴展,傳統(tǒng)的運動估計算法面臨很多問題:1)從低碼率到高碼率視頻編碼,對不同分辨率的視頻序列進行編碼時,同一個算法會導致編碼性能的不穩(wěn)定。因此需根據(jù)不同視頻序列編碼參數(shù)的不同,自適應地對運動估計算法的搜索策略進行調整。2)模式選擇,合理地對塊的模式進行選擇,可以進一步優(yōu)化運動估計中存在的冗余度,同時有效地降低編碼器的復雜度。3)預測準確性,基于塊的運動估計算法假設圖像塊均進行簡單的平移運動,對旋轉、縮放或其他任何形式的非平移運動不能進行表示,運動估計的準確性低,視頻壓縮的效率也有待進一步提高。
總的來說,視頻序列運動估計算法仍有待繼續(xù)優(yōu)化完善,一些創(chuàng)新性的理論和技術正在不斷的被應用到其中。神經網絡在圖像編碼中得到了廣泛的應用,研究人員正嘗試著將其運用到運動估計中[64],與此同時,更高像素精度的運動估計如半像素、1/4像素、1/8像素等[65]也成為了一個主要的發(fā)展趨勢。
5.3 遮擋檢測
遮擋檢測是立體視頻圖像編碼中的難題,現(xiàn)有的算法雖然檢測率高,但是計算復雜。非常不合適對實時性要求較高的編碼系統(tǒng)。另外,立體圖像編碼中的遮擋區(qū)域檢測對精確性的要求會因為有殘差圖像的存在而有所降低。因此,在保持一定的準確度和精確性的前提下,如何適當?shù)貙@些遮擋檢測算法進行簡化將成為這一領域的研究重點。
5.4 碼率控制
由于立體視頻編碼系統(tǒng)自身的復雜度,同時影響視頻主觀質量的因素很多,立體視頻碼率控制在許多方面仍不完善,很多問題有待進一步研究。
1)目前大部分的立體視頻編碼方法都是將左右兩個通道等同對待,分配相同的比特。如何合理地給左右兩個通道分配比特數(shù),使其滿足信道的要求,同時又能保證良好的圖像質量,有待進一步的研究。
2)目前算法所采用的率失真模型準確度均不是很高,而立體視頻的比特分配與碼率控制精度與率失真模型的準確度密切相關,因此如何有效提高率失真模型的準確度,將是未來重要的研究熱點。
3)目前的碼率控制算法大部分是針對恒定碼率研究的,而實際通信中的帶寬是經常變化的,尤其是在移動環(huán)境小的情況下,使有效帶寬變化更大。因此需要將碼率控制算法擴展到可變碼率(VBR)的立體視頻通信中。
4)人眼是視頻的最終接收者,視頻質量的好壞必須滿足人眼的主觀感受,因此基于人眼視覺特性的多視點視頻碼率控制是未來研究的方向之一。
5.5 可伸縮立體視頻編碼
可伸縮編碼方法(Fine Granualarity Scalability,F(xiàn)GS)[66]是近年來研究的熱點,這種方法可以根據(jù)網絡帶寬的變化自適應調整輸出碼流的大小。立體視頻不可避免地要面向網絡環(huán)境傳輸,因此研究面向網絡環(huán)境傳輸?shù)腇GS立體視頻編碼方案具有重要的意義。但是現(xiàn)有的FGS方案在立體視頻編碼方面還處于研究初期,需要進一步地優(yōu)化碼流選取方案、提高壓縮效率以及分級方案的靈活性,同時也需要研究更加高效的可用帶寬測量機制和終端設備描述機制,通過對網絡可用帶寬的準確測量和終端設備的高效描述,為視頻傳輸過程提供依據(jù)。
隨著人們對視頻應用需求的不斷增長和品質要求的日益提高,2D視頻在立體感、臨場感和真實感方面已無法滿足人們的視覺要求,因此研究立體視頻處理及其編碼技術有著重大的現(xiàn)實意義。本文綜述了立體視頻編碼方案、關鍵技術和評價準則,指出了存在的問題,并對未來的研究方向進行了展望,希望能對相關領域的研究人員有所裨益。
[1]KONRAO J,HALLE M.3-D displays and signal processing[J].Signal Processing Magazine,2007,24(6):97-111.
[2]張兆楊,安平,張之江.二維和三維視頻處理及立體顯示技術[M].北京:科學出版社,2010.
[3]LUKACS M.Predictive coding of multi-viewpoint image sets[C]//Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP′86).[S.l.]:IEEE Press,1986:521-524.
[4]STRINTZIS M G,MALASSIOTIS S.Object-based coding of stereoscopic and 3D image sequences[J].IEEE Signal Processing Magazine,1999,16 (3):14-28.
[5]韓軍功.立體圖像和視頻編碼的理論及算法研究[D].西安:西安電子科技大學,2004.
[6]張克新.可伸縮視頻編碼及傳輸理論與應用研究[D].廣州:華南理工大學,2012.
[7]YANG W,NGAN K.MPEG-4 based stereoscopic video sequences encoder[C]//Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP 2004).[S.l.]:IEEE Press,2004:741-744.
[8]GOUTCHER R,HIBBARD P B.Mechanisms for similarity matching in disparity measurement[J].Front Psychol,2014(4):10-14.
[9]AIZAWA K,HUANG T S.Model-based image coding advanced video coding techniques for very low bitrate applications[J].Proceedings of the IEEE,1995,83(2):259-271.
[10]吳勇軍,殷勤業(yè),方強,等.立體圖像壓縮研究進展[J].電視技術,2002,26(7):19-23.
[11]WANG Changbo,ZHANG Qiang,KONG Fanlong,et al.Hybrid particle Grid fluid animation with enhanced details[J].The Visual Computer,2013,29(9):937-947.
[12]焦衛(wèi)東,盧朝陽,郭大波.Delaunay三角形模型基立體圖像編碼[J].計算機輔助設計與圖形學學報,2008,12(20):12.
[13]ANISSA M,VIANNEY M J,ASTRUC J P.Motion estimation algorithms using the deformation of planar hierarchical mesh grid for video conferencing applications at low bit-rate transmission[J].Journal of Signal Processing Systems,2012,67(2):167-185.
[14]劉爽.視差立體視頻對象提取與DT網格壓縮編碼[D].長春:吉林大學,2012.
[15]JIN Zhigang,ZHAO Ximan,WANG Jia.Scalable video coding transmission system with error correction of high-resolution multi-view stereo video with LDPC[C]//Proc.6th International Conference on Wireless Communications, Networking and Mobile Computing(WiCOM 2010).[S.l.]:IEEE Press,2010:1-4.
[16]SCHWARZ H,MARPE D, WIEGAND T.Overview of the scalable video coding extension of the H.264/AVC standard[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17(9):1103-1120.
[17]HE Y,OSTERMANN J,TANIMOTO M,et al.Introduction to the special section on multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17(11):1433-1435.
[18]FEZZA S A,LARABI M C,F(xiàn)ARAOUN K M.Feature-based color correction of multi-view video for coding and rendering enhancement[J].IEEE Trans.Circuits and Systems for Video Technology,2014,24(9):1486-1498.
[19]MARIO C,CARL J D.An adaptive lagrange multiplier technique for multi-view video plus depth coding[C]//Proc.Picture Coding Symposium(PCS 2013).San Jose,CA:IEEE Press,2013:249-252.
[20]SULGLIVAN G J,WIEGAND T,SCHWARZ H.JVT-AD007:Editorsdraft revision to ITU-T H.264,ISO/IEC14496-10 advanced video coding in preparation for ITU-TSG 16 AAP consent(in integrated form)[S].2009.
[21]CHUNG T Y,SIM J Y,KIM C S.Bit allocation algorithm with novel view synthesis distortion model for multi-view video plus depth coding[J].IEEE Trans.Image Processing,2014,23(8):3254-3267.
[22]SLEPIAN J D,WOLF J K.Noiseless coding of correlated information sources[J].IEEE Trans.Information Theory,1973,19(4):471-480.
[23]WYNER A D,ZIV J.The rate-distortion function for source coding with side information at the decoder[J].IEEE Trans.Information Theory,1975,22(1):1-10.
[24]CANDES E J, ROMBERG J.Quantitative robust uncertainty principles and optimally sparse decompositions[J].Foundations of Compute Math.,2006,6(2):227-254.
[25]DONOHO D L.Compressed sensing[J].IEEE Trans.Information Theory,2006,52(4):1289-1306.
[26]KANG L W,LU C S.Distributed compressive video sensing[C]//Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing.Piscataway:IEEE Press,2009:1169-1172.
[27]武曉嘉,郭繼昌,姜丹,等.一種多視點立體視頻分布式壓縮感知編解碼模型[J].天津大學學報,2012,45(10):895-902.
[28]XI Zhanghao,LIU Heping,REN Zhenqin,et al.The summary of the application of pattern recognition in image progressing[J].Advanced Materials Research,2012(532):1329-1333.
[29]黎洪松,李達.一種新的基于自學習神經網絡的靜止圖像編碼方案[J].北京師范大學學報:自然科學版,2006,42(5):498.
[30]CHIRCO P,ZANARINI M.Image analysis and pattern recognition for the localization of medical devices in the operational field[C]//Proc.SPIE Optical Engineering Applications,International Society for Optics and Photonics.[S.l.]:SPIE Press,2011:125-128.
[31]李達,黎洪松.一種改進的立體圖像編碼算法[J].北京師范大學學報:自然科學版,2007,43(1):50.
[32]KOSCHAN A.A survey of current stereo papers[D].Berlin:Univ.of Berlin,1993.
[33]BROWN M Z,BURSCHKA D,HAGER G D.Advances in computational stereo [J].IEEE Trans.Pattern Analysis and Machine Intelligence,2005,25(8):993-1008.
[34]ZHU S,YANG L.A survey of adaptive disparity estimation[C]//Proc.International Conference on Industrial Control and Electronics Engineering (ICICEE 2012).[S.l.]:IEEE Press,2012:958-961.
[35]POLLEFEYS M.Vision modeling with a hand-held camera[J].International Journal of Computer Vision,2004,59(3):207-232.
[36]KALOMIROS J A.Dense disparity features for fast stereo vision[J].J.Electron.Imaging,2012,21(4):23-43.
[37]STEFANO L D, MARCHIONNI M, MATTOCCIA S.A fast area-based stereo matching Algorithm[J].Image and Vision Computing,2006,22(12):983-1005.
[38]ZITINICK C L,KANADE T.A cooperative algorithm for stereo matching and occlusion detection[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2000,22(7):675-684.
[39]CECH J, SARA R.Efficient sampling of disparity space for fast and accurate matching[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,Minnesota,USA:IEEE Press,2008:1-8.
[40]HU Tingbo,QI Baojun,WU Tao,et al.Stereo matching using weighted dynamic programming on a single-direction four connected tree[J].Computer Vision and Image Understanding, 2012,116(8):908-921.
[41]WANG D L,LIM K B.Obtaining depth map from segment-based stereo matching using graph cuts[J].Journal of Visual Communication and Image Representation,2011,22(4):325-331.
[42]PEREZ J M,SANCHEZ P.Real-time stereo matching using memory efficient belief propagation for high-definition 3D telepresence systems[J].Pattern Recognition Letters,2011,32(16):2250-2253.
[43]DAVID G L.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[44]MOSHE Y,HELOR H.Video block motion estimation based on gray-code kernels[J].IEEE Trans.Image Process,2009,18(10):2243-2254.
[45]BROX T,MALIK J.Large displacement optical flow:descriptor matching in variational motion estimation[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2011,33(3):500-513.
[46]HUANG Y R,CHAU Y.A fast recursive algorithm for gradient-based global motion estimation in sparsely sampled field[C]//Proc.8th International Conference on Intelligent Systems Design and Applications.Washington,DC,USA:IEEE Press,2008:84-88.
[47]AKIN A,SAYILAR G,HAMZAOG L I. High performance hardware architectures for one bit transform based single and multiple reference frame motion estimation[J].IEEE Trans. Consumer Electron,2010,56(2):1144-1152.
[48]HU M,HU W,TAN T.Tracking people through occlusions[C]//Proc.17th Int.Conf.on Pattern Recognition.Cambridge,UK:IEEE Press,2004:724-727.
[49]AHRA J,JANG G J,HAN B.Occlusion detection using horizontally segmented windows for vehicle tracking[J].Multimedia Tools and Applications,2014(9):784-790.
[50]王展青,凡友福,張桂林.跟蹤遮擋目標的一種魯棒算法[J].計算機工程與應用,2007,43(27):50-53.
[51]ZHANG Shihui,LIU Jianxin.A self-occlusion detection approach based on depth image using SVM[J].International Journal of Advanced Robotic Systems,2012(9):230-243.
[52]YOUN J L,SUNG J L,KANG R P,et al.Single view based 3D face reconstruction robust to self occlusion[J].EURASIP Journal on Advances in Signal Processing,2012,2012(1):176.
[53]ZEGER K.Residual image coding for stereo image compression[J].Optical Engineering,2003,42(1):182-189.
[54]景麟,王宏遠,馬泳,等.基于殘差分布特性的運動補償算法[J].計算機工程,2008,34(12):194.
[55]向友軍,吳宗澤,張克新.運動補償時域濾波殘差圖像的特性研究[J].電視技術,2009,33(11):11-21.
[56]胡曉飛, 詹學峰, 朱秀昌.基于自適應變論域模糊理論的CBR視頻碼率控制策略[J].信號處理,2009(7):1141-1145.
[57]SABRY A,EL-BADAWY H,SHEHATA K,et al.A novel resource allocation technique for vbr video traffic in the uplink over WiMAX networks [C]//Proc.International Conference on Information and Multimedia Technology(ICIMT′09).[S.l.]:IEEE Press,2009:442-448.
[58]LIM J E,KIM J.Advanced rate control technologies for 3D-HDTV[J].IEEE Trans.Consumer Electronics,2003,4(49):1498-1507.
[59]NAITO S,MATSUMOTO S.Advanced rate control technologies for 3D-HDTV digital coding based on MPEG-2 multi-view profile[C]//Proc.International Conference on Image Processing(ICIP 99).[S.l.]:IEEE Press,1999:281-285.
[60]盧山,孫軍,王嘉.基于人眼立體視覺特性的多視視頻碼率控制算法[J].中國圖象圖形學報,2009,14(11):2396-2400.
[61]LIU Y W,HUANG Q M,MA S W.A novel rate control technique for multiview video plus depth based 3D video coding[J].IEEE Trans.Broadcasting,2011,57(2):562-571.
[62]ZHANG Y, JIANG G,YU M.Stereoscopic visual attention-based regional bit allocation optimization for multiview video coding[J].EURASIP Journal on Advances in Signal Processing,2010(7):24-26.
[63]李世忠,胡萃,顧學邁,等.新型遙感立體圖像編碼質量評價方法[J].西安電子科技大學學報,2009,36(5):927-932.
[64]陳云華,余永權,曾碧.一種基于新型遺傳算法的塊運動估計算法[J].計算機工程與應用,2005(34):86-88.
[65]LIN W Y,PANUSOPONE K,BAYLON D M. A fast sub-pixel motion estimation algorithm for H.264/AVC video coding[J].IEEE Trans.Circuits and Systems for Video Technology,2011,21(2):237-242.
[66]OZBEK N.Trellis-based optimization of layer extraction for rate adaptation in real-time scalable stereo video coding[J].Turkish Journal of Electrical and Computer Sciences,2012,20(4):557-567.
Research Development of Stereo Video and Image Coding
QIN Yuannian,XU Xiaoning
(GuilinUniversityofElectronicTechnology,CollegeofInformationandCommunication,GuangxiGuilin541004,China)
The development of stereo video and image coding research is overviewed from three aspects, which include coding schemes, key technologies and evaluation criteria.The characteristics and applicable scope of each kind of coding scheme are represented in this paper.In addition, five key technologies are described in the stereo video and image coding, which include disparity estimation, motion estimation, occlusion detection, residual image coding and rate control.In the end, the existing problems are pointed out in the research of stereo video and image coding, at the same time, the direction of research in the future is prospected.
stereo video coding;disparity estimation;occlusion detection;scalable coding;compressed sensing
國家自然科學基金項目(61261035)
TN91
A
10.16280/j.videoe.2015.07.003
2014-06-09
【本文獻信息】覃遠年,徐曉寧.立體視頻圖像編碼的研究進展[J].電視技術,2015,39(7).
覃遠年(1971— ),碩士生導師,主要研究方向為無線通信系統(tǒng)和信號處理;
徐曉寧(1987— ),碩士生,主要研究方向為圖像處理、立體圖像壓縮研究。
責任編輯:時 雯