劉龍濤
摘 要: 隨著立體視頻資源數(shù)量的不斷增加,立體視頻資源的存儲和獲取不斷多樣化,為了便于立體視頻資源的高效管理及利用,對立體視頻的鏡頭、場景、關(guān)鍵幀三個方面進行研究,建立立體視頻存儲入庫模型,對立體視覺資源進行存儲入庫,實現(xiàn)對立體視頻資源的高效管理及利用,緩解立體視頻資源匱乏的狀態(tài)。
關(guān)鍵詞: 立體視頻資源 鏡頭 場景 關(guān)鍵幀
1.引言
隨著多媒體技術(shù)的快速發(fā)展,立體視頻逐漸融入人們的日常生活中,應(yīng)用領(lǐng)域不斷擴大,已經(jīng)廣泛應(yīng)用于軍事、醫(yī)療、虛擬現(xiàn)實、教育科研等領(lǐng)域,尤其是教育領(lǐng)域的應(yīng)用不斷增加,同時產(chǎn)生大量立體視頻資源。常見的立體視頻以雙目立體視頻為主,通常采用雙路分離、左右合成、上下合成等格式表示,并通過紅藍或者偏光等形式顯示和觀看。隨著立體視頻資源的增多,立體視頻資源存儲入庫成為亟待解決的問題。本文主要解決雙目立體視頻的存儲入庫。
2.立體視頻的本質(zhì)特征
立體視頻幀的本質(zhì)特征是視頻幀本身所蘊含的特征信息,包括視頻幀的顏色特征、紋理特征、形狀特征、視差特征、深度特征,等等。
顏色特征是數(shù)字圖像領(lǐng)域中應(yīng)用最廣的特征之一,提取圖像的顏色特征分為三步:選取顏色空間、顏色區(qū)間量化、相似性計算。顏色空間是一種通過特殊規(guī)則加以說明的顏色集合體,數(shù)字圖像上幾乎任何一種顏色都能在顏色空間找到對應(yīng)的點,常用的顏色空間:RGB顏色空間,HSV顏色空間,YUV顏色空間。紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺特征,是物體表面特性,例如高山、小橋、石頭、衣服等都有各自的紋理特征。紋理特征包含物體表面結(jié)構(gòu)組織排列的重要信息及其與周圍環(huán)境的聯(lián)系。形狀特征是指一個物體的外部輪廓,與顏色特征和紋理特征相比,形狀特征在描述立體視頻內(nèi)容時更具有語義含義。形狀特征首先需要對圖像分割,把對象提取出來,再用各種方法進行匹配測量。對于形狀特征的描述方法有:邊界特征法、傅里葉形狀描述法、集合參數(shù)法、最小生成樹等[1]。
與2D視頻相比,立體視頻增加了視差和深度特征。立體電影的制作就是利用了雙目視差的原理。在拍攝時,使用兩臺攝像機相距幾厘米同時進行拍攝。放映時,把兩個影像同時放映在屏幕上,觀眾戴上立體眼鏡使左右兩眼的像落在視網(wǎng)膜上的非對應(yīng)點,并產(chǎn)生一定的差異,從而產(chǎn)生立體視覺。
雙目視差是指兩眼注視外界物體時,兩個視網(wǎng)膜上視像之間的差異。距離和深度知覺,主要依賴雙目視差,它是形成立體視覺的最重要的依據(jù)。人的雙眼結(jié)構(gòu)相同,雙眼間的距離大約是6.5cm,當(dāng)人們觀看三維物體時,物體投射在左右眼睛上的像并不完全落在視網(wǎng)膜上的對應(yīng)區(qū)域,左眼看物體的左邊多一些,右眼看物體的右邊多一些,三維物體在雙眼視網(wǎng)膜上的像就存在差異,稱為雙目視[2]。深度信息反映了所拍攝物體到相機的距離,獲得深度信息的方式有兩種;第一種是通過拍攝儀器直接獲得,但通過這種方式獲得的深度信息往往分辨率低,并且需要很大的計算復(fù)雜度,對硬件設(shè)備要求很高,一般情況下難以達到實時拍攝的需求。第二種深度信息的獲取是靠幾何學(xué)知識,利用已知參數(shù)的攝像機拍攝出的雙目視頻,利用立體匹配計算出視差后,反推視頻對象的深度信息[2]。隨著立體匹配技術(shù)的不斷完善,現(xiàn)在已形成許多各具特色的匹配算法。已有算法根據(jù)匹配準(zhǔn)則的不同,大致可以分為兩大類:一類是局部匹配算法;另一類是全局匹配算法。全局匹配算法與局部匹配算法相比,匹配準(zhǔn)確性較高,可以獲得較高精度的稠密視差圖,但是往往計算量大、耗時比較長、不易于硬件實現(xiàn),無法應(yīng)用于實時系統(tǒng)。總之,兩類立體匹配算法各有優(yōu)缺點,適用于不同的情況和空間場景[3]。
3.建立立體視頻存儲入庫模型
視頻結(jié)構(gòu)一般分為視頻、場景、鏡頭、視頻幀四個層次[4]。本文主要對立體視頻資源的鏡頭、場景、關(guān)鍵幀三個方面進行研究,建立立體視頻資源存儲入庫模型。
3.1立體視頻鏡頭分解存儲入庫
鏡頭是由時間上連續(xù)的幀構(gòu)成,同一個鏡頭內(nèi)的內(nèi)容具有一致性。通過判斷連續(xù)幀之間的差異確定鏡頭的邊界。根據(jù)鏡頭邊界的不同,可分鏡頭的突變和鏡頭的漸變。鏡頭突變是指一個鏡頭內(nèi)容的變化發(fā)生在單個視頻幀上。鏡頭漸變是指相鄰的兩個鏡頭的變換是逐漸完成的,在鏡頭切換的時候加入編輯特效,達到視覺上平滑過渡的效果。根據(jù)編輯特效的不同,鏡頭的漸變可以分為淡入(fade in)、淡出(fade out )、溶解(dissolve)、擦拭(wipe)等不同類型。淡入是指畫面亮度不斷增強;淡出是指畫面亮度慢慢變暗最終消失;溶解是指鏡頭的幀逐漸變淡退出;擦拭是指后一個鏡頭的畫面慢慢代替前面的一個鏡頭的畫面。
目前立體視頻鏡頭分割算法大多是基于2D視頻的,立體視頻鏡頭分割算法還不成熟,2D視頻的鏡頭邊界檢測算法主要分為兩大類:基于像素域的方法和基于壓縮域的方法。像素域中鏡頭邊界檢測方法主要利用時空域中的顏色、紋理、形狀等特征進行檢測。像素域中的算法主要有像素比較法,基于直方圖的方法,塊匹配法,基于邊緣的方法。由于現(xiàn)在大多數(shù)視頻序列以壓縮格式存儲,對這些壓縮形式的視頻流直接進行邊界檢測,節(jié)省大量解壓縮時間。目前壓縮域中的主要有基于DCT系數(shù)的方法,基于小波變化的方法,時空分析法。
雖然2D視頻的鏡頭分割算法能完成立體視頻資源存儲入庫的預(yù)處理工作,但是運用2D視頻鏡頭分割算法處理雙目立體視頻時,檢測結(jié)果往往存在一定誤差,并且不能很好地檢測鏡頭漸變的完整邊界變化,在2D視頻的鏡頭分割算法的基礎(chǔ)上,提取立體視頻的深度特征,進行鏡頭邊界檢測,從而提高鏡頭邊界的檢測精度,實現(xiàn)對立體視頻的鏡頭準(zhǔn)的確分割?;诹Ⅲw視頻鏡頭分割算法,對立體視頻資源存儲入庫。
3.2立體視頻場景分解存儲入庫
場景是由連續(xù)鏡頭組成的視頻片段,是表達一個完整情節(jié)的邏輯故事單元。
立體視頻場景分割,以鏡頭作為研究對象,根據(jù)鏡頭的內(nèi)容相關(guān)性和時間上的鄰近性把相似的鏡頭劃分到同一場景中,這樣一段視頻被分割成若干個有意義的邏輯故事單元。
目前立體視頻場景分割算法大多是基于2D視頻的,立體視頻場景分割算法還不成熟。大體上通過提取鏡頭的視覺特征,把內(nèi)容相關(guān)時間相近的鏡頭聚類成一個場景,或者綜合視覺信息和聽覺信息劃分場景[5]。
與傳統(tǒng)的2D視頻場景分割不同,立體視頻利用立體視頻鏡頭分割算法的結(jié)果,結(jié)合立體視頻顏色特征、紋理等本質(zhì)特征,通過鏡頭聚類,檢測場景邊界,利用立體視頻的深度特征,實現(xiàn)對場景的準(zhǔn)確分割,基于立體視頻場景分割算法,對立體視頻資源存儲入庫。
3.3立體視頻關(guān)鍵幀分解存儲入庫
幀是立體視頻的基本組成單位,立體視頻的每一幀都可以看成空間上獨立、時間上相關(guān)的靜止圖像??臻g上獨立體現(xiàn)在立體視頻的每一幀都可以進行分析處理,時間上相關(guān)體現(xiàn)在時間軸上相鄰的幀一般會有內(nèi)容上的相似性。
由于立體視頻中,幀的數(shù)量巨大,可以用關(guān)鍵幀描述鏡頭和場景。這樣既充分描述了視頻內(nèi)容,又減少了冗余信息。關(guān)鍵幀就是能描述立體視頻內(nèi)容主要的幀。根據(jù)立體視頻結(jié)構(gòu)的復(fù)雜程度,關(guān)鍵幀可以由一幀或者多個幀組成。
目前立體視頻關(guān)鍵幀提取算法主要是:基于鏡頭邊界提取關(guān)鍵幀,基于運動分析提取關(guān)鍵幀,基于圖像信息提取關(guān)鍵幀,基于鏡頭活動性提取關(guān)鍵幀,基于聚類的方法提起關(guān)鍵幀。
Zhang,Wu[6]等人依據(jù)幀間的顯著變化來為2D視頻選擇多個關(guān)鍵幀,首先把鏡頭的第一幀作為關(guān)鍵幀,然后計算前一個關(guān)鍵幀與剩余幀之差,如果差值大于某一閾值,則再選取一個關(guān)鍵幀。與2D視頻不同,立體視頻依據(jù)幀間的顯著變化,再加上立體視頻的深度信息構(gòu)建相鄰幀差,實現(xiàn)對關(guān)鍵幀的準(zhǔn)確提取,基于立體視頻關(guān)鍵幀提取算法,對立體視頻資源存儲入庫。
4.結(jié)語
在2D視頻的鏡頭分割算法上基礎(chǔ)上,增加立體視頻的深度特征,得出立體視頻鏡頭分割算法,進而研究出立體視頻場景分割算法和關(guān)鍵幀提取算法,從鏡頭、場景、關(guān)鍵幀三個方面實現(xiàn)對立體視頻資源高效的管理及利用。對立體視頻資源存儲入庫的同時,增加了立體視頻素材,緩解了立體視頻資源匱乏的現(xiàn)狀。
參考文獻:
[1]印勇,侯海珍.基于直方圖幀差的自適應(yīng)鏡頭分割算法[J].計算機工程與應(yīng)用,2010,09:186-189.
[2]王波.雙目視差的立體視覺及其在技術(shù)課程教育中的應(yīng)用[D].浙江工業(yè)大學(xué),2012.
[3]楊志榮.雙目視覺立體匹配方法和遮擋問題研究[D].燕山大學(xué),2010.
[4]Yong Rui,Huang,T.S,Mehrotra, S, “Exploring video structure beyond the shots,”in Multimedia Computing and Systems,1998. Proceedings. IEEE International Conference on,vol,no, pp.237-240,28 Jun-1 Jul 1998.
[5]王旭軍.視頻場景分割方法研究[D].重慶大學(xué),2010.
[6]Zhang Z,Wu J, Zhong D,et al. An Integrated System for Content based Video Retrieval and Browsing [J].Pattern Recognition,1997,30(4):643.
國家科技支撐計劃資助項目(2012BAH37F02)。