支持大規(guī)模視頻融合的混合現(xiàn)實(shí)技術(shù)

2017-12-21 17:06周忠孟明周頤

中興通訊技術(shù) 2017年6期

周忠　孟明　周頤

虛擬現(xiàn)實(shí)（VR）是一個(gè)新興的科學(xué)技術(shù)領(lǐng)域，該技術(shù)建立人工構(gòu)造的三維虛擬環(huán)境，用戶(hù)以自然的方式與虛擬環(huán)境中的物體進(jìn)行交互，極大地?cái)U(kuò)展了人類(lèi)認(rèn)識(shí)、模擬和適應(yīng)世界的能力。

虛實(shí)融合（MR）技術(shù)將虛擬環(huán)境與真實(shí)環(huán)境進(jìn)行匹配合成，降低了三維建模的工作量，并借助真實(shí)場(chǎng)景及實(shí)物提高用戶(hù)的體驗(yàn)感和可信度。隨著當(dāng)前視頻圖像的普及，MR技術(shù)的探討與研究更是受到關(guān)注。

視頻融合技術(shù)利用已有的視頻圖像，將它們?nèi)诤系饺S虛擬環(huán)境中，可以實(shí)現(xiàn)具有統(tǒng)一性的、深度的視頻集成。該技術(shù)最早可追溯到1996年P(guān)aul Debevec[1]提出的一種視點(diǎn)相關(guān)的紋理混合方法，即實(shí)現(xiàn)了不在相機(jī)視點(diǎn)的真實(shí)感漫游效果，但仍在很多方面存在難點(diǎn)。

1 MR的技術(shù)特點(diǎn)

現(xiàn)在業(yè)內(nèi)普遍認(rèn)可從真實(shí)世界到虛擬環(huán)境中間經(jīng)過(guò)了增強(qiáng)現(xiàn)實(shí)與增強(qiáng)虛擬環(huán)境這兩類(lèi)VR增強(qiáng)技術(shù)[2]，混合現(xiàn)實(shí)則是包含這兩類(lèi)技術(shù)及其融合。

增強(qiáng)現(xiàn)實(shí)技術(shù)與增強(qiáng)虛擬環(huán)境技術(shù)，可分別形象地描述為“實(shí)中有虛”和“虛中有實(shí)”。增強(qiáng)現(xiàn)實(shí)技術(shù)通過(guò)運(yùn)動(dòng)相機(jī)或可穿戴顯示裝置的實(shí)時(shí)連續(xù)標(biāo)定，將三維虛擬對(duì)象穩(wěn)定一致地投影到用戶(hù)視口。增強(qiáng)虛擬環(huán)境技術(shù)通過(guò)相機(jī)或投影裝置的事先或?qū)崟r(shí)標(biāo)定，提取真實(shí)對(duì)象的二維動(dòng)態(tài)圖像或三維表面信息，實(shí)時(shí)將對(duì)象圖像區(qū)域或三維表面融合到虛擬環(huán)境中。兩項(xiàng)技術(shù)的MR方式如圖1和圖2所示，圖中虛線(xiàn)對(duì)象代表虛擬環(huán)境對(duì)象，實(shí)線(xiàn)對(duì)象代表真實(shí)對(duì)象或其圖像。

隨著VR技術(shù)的發(fā)展，其與現(xiàn)實(shí)世界正趨向于深度融合，一些技術(shù)開(kāi)始兼具“虛中有實(shí)”和“實(shí)中有虛”這兩種模式。20世紀(jì)70年代電影《星球大戰(zhàn)》中展示的全息甲板是科幻中的終極理想狀態(tài)，但U.C.Berkeley提出的Tele-immersion遠(yuǎn)程沉浸系統(tǒng)、微軟的Holoportation、Magic Leap所設(shè)計(jì)的光場(chǎng)頭盔顯示原型等已經(jīng)具備了這種深度MR特點(diǎn)。

2 視頻融合技術(shù)分類(lèi)

早期的視頻融合技術(shù)只能做到將圖片向地面或簡(jiǎn)單立面映射，現(xiàn)在的新技術(shù)則已經(jīng)能夠快速將視頻實(shí)時(shí)地映射到復(fù)雜的三維模型上。根據(jù)實(shí)現(xiàn)MR的維度不同，可將相關(guān)方法分為4類(lèi)：視頻標(biāo)簽地圖、視頻圖像拼接、視頻疊加到三維場(chǎng)景，視頻融合到三維場(chǎng)景。需要說(shuō)明的是：這些技術(shù)針對(duì)的是易于獲取的普通攝像頭視頻，F(xiàn)reeD等基于多視圖幾何的三維重建方法不在討論中。

2.1 視頻標(biāo)簽地圖

基于視頻監(jiān)測(cè)控制對(duì)于多地點(diǎn)視頻有效組織的需求，采用視頻標(biāo)簽與地圖的索引集成，實(shí)現(xiàn)在地圖上放置和觀看視頻。美國(guó)FX Palo Alto實(shí)驗(yàn)室、美國(guó)三菱電機(jī)研究所、韓國(guó)電子通信研究院和法國(guó)原子能署CEA LIST等機(jī)構(gòu)在該方面開(kāi)展了工作。

美國(guó)FX Palo Alto實(shí)驗(yàn)室提出了用于室內(nèi)的多相機(jī)實(shí)時(shí)監(jiān)測(cè)控制系統(tǒng)，動(dòng)態(tài)物體跟蹤系統(tǒng)（DOTS）[3]，該系統(tǒng)通過(guò)對(duì)平面設(shè)計(jì)圖的特征分割，獲得系統(tǒng)中視頻與位置信息的關(guān)聯(lián)，直接向用戶(hù)提供一種視頻分析結(jié)果的展示手段。美國(guó)三菱電機(jī)研究所MERL的Ivanov等也實(shí)現(xiàn)了用于室內(nèi)居住環(huán)境可視化的類(lèi)似系統(tǒng)，通過(guò)加入運(yùn)動(dòng)傳感數(shù)據(jù)等信息，為建筑系統(tǒng)的設(shè)計(jì)人員和管理人員提供整棟樓的上下文信息[4]。視頻標(biāo)簽索引的融合方法除了用于監(jiān)測(cè)控制系統(tǒng)，還廣泛應(yīng)用于地理信息系統(tǒng)（GIS），它們通過(guò)建立提取的視頻內(nèi)容與數(shù)據(jù)庫(kù)中GIS數(shù)據(jù)的對(duì)應(yīng)關(guān)系，進(jìn)行視頻與GIS的融合。韓國(guó)電子通信研究院的Tae-Hyun Hwang等基于這個(gè)思想，將視頻和虛擬場(chǎng)景中的meta元素提出，建立了基于meta元素的視頻與GIS系統(tǒng)的關(guān)聯(lián)[5]，通過(guò)簡(jiǎn)單的點(diǎn)擊地圖查詢(xún)即可在手機(jī)上直接訪問(wèn)視頻。此外，法國(guó)原子能署CEA LIST的Gay-Bellile等通過(guò)增強(qiáng)現(xiàn)實(shí)AR和相機(jī)追蹤的方式建立了實(shí)時(shí)視頻與2D GIS的關(guān)聯(lián)[6]。

2.2 視頻圖像拼接

視頻圖像拼接是指將空間上可配準(zhǔn)、相互之間具有足夠重疊區(qū)域的圖像序列經(jīng)過(guò)特征對(duì)齊、空間變換、重采樣和拼接合成之后形成寬視角甚至全景圖像的方法。經(jīng)過(guò)數(shù)十年的發(fā)展，圖像拼接算法目前已經(jīng)比較成熟，全景相機(jī)出現(xiàn)了低成本、消費(fèi)級(jí)的特點(diǎn)，利用魚(yú)眼相機(jī)來(lái)降低對(duì)相機(jī)數(shù)量的要求，達(dá)到小型化成為新的“爆點(diǎn)”。圖像拼接主要針對(duì)的是窄基線(xiàn)相機(jī)圖像序列，寬基線(xiàn)相機(jī)不具備統(tǒng)一的單應(yīng)性，特別是遮擋大大影響重疊區(qū)域的匹配，其圖像拼接是目前研究的難點(diǎn)。

2.3 視頻疊加到三維場(chǎng)景

視頻疊加到三維場(chǎng)景的方法以2D和3D特征注冊(cè)為基礎(chǔ)進(jìn)行虛實(shí)融合，允許用戶(hù)在相機(jī)視點(diǎn)的轉(zhuǎn)移路徑上觀看疊加的結(jié)果，其效果優(yōu)于視頻標(biāo)簽地圖方法。

塞爾維亞利茲大學(xué)CG&GIS實(shí)驗(yàn)室中Milosavljevic^等提出基于GIS增強(qiáng)的視頻監(jiān)測(cè)控制系統(tǒng)，將視頻窗口疊加到3D模型視圖窗口的上方顯示，在3D GIS環(huán)境中建立視頻與空間信息的位置關(guān)聯(lián)[7-8]。美國(guó)微軟公司的Snavely等于2006年提出了照片旅游系統(tǒng)[9]，該系統(tǒng)利用對(duì)互聯(lián)網(wǎng)上照片集的匹配，重構(gòu)一個(gè)稀疏的三維點(diǎn)云場(chǎng)景，通過(guò)圖像變換的渲染方法進(jìn)行照片瀏覽。荷蘭代爾夫特理工大學(xué)的Haan等人受到Snavely等共平面視點(diǎn)轉(zhuǎn)移方法的啟發(fā)，于2009年面向監(jiān)測(cè)控制系統(tǒng)提出了第一人稱(chēng)式的場(chǎng)景導(dǎo)航方法[10]，通過(guò)交互地在場(chǎng)景中放置畫(huà)布的方法完成視頻的注冊(cè)，進(jìn)而通過(guò)動(dòng)態(tài)視頻嵌入實(shí)現(xiàn)導(dǎo)航，緩解了視點(diǎn)移動(dòng)時(shí)視頻間重疊區(qū)域的視覺(jué)差異現(xiàn)象。

2.4 視頻融合到三維場(chǎng)景

視頻與三維場(chǎng)景的融合方法，實(shí)質(zhì)是將相機(jī)捕捉的視頻圖像，以紋理的方式實(shí)時(shí)注冊(cè)到虛擬環(huán)境中，達(dá)到增強(qiáng)虛擬環(huán)境的效果，能夠允許用戶(hù)從非相機(jī)虛擬視點(diǎn)觀察融合結(jié)果。這種方法比前幾種融合方法在視點(diǎn)可選范圍上進(jìn)一步擴(kuò)大，實(shí)際上是從另一個(gè)角度解決了寬基線(xiàn)相機(jī)以及無(wú)重疊視域相機(jī)的圖像拼接問(wèn)題。但這類(lèi)技術(shù)仍會(huì)存在一些難以克服的問(wèn)題。

在IEEE VR 03上，南加州大學(xué)的Ulrich Neumann等人[11]系統(tǒng)闡述了增強(qiáng)虛擬環(huán)境的概念，實(shí)現(xiàn)了隨著圖像數(shù)據(jù)變化的動(dòng)態(tài)三維模型效果，解決了非相機(jī)視點(diǎn)下貼圖扭曲現(xiàn)象[12]。在ACM MM 10上，麻省理工學(xué)院的DeCamp等人[13]設(shè)計(jì)了一套用于智能家庭的沉浸式系統(tǒng)HouseFly，通過(guò)魚(yú)眼相機(jī)的三維融合，讓用戶(hù)可以漫游于掀頂式樓宇。在ISMAR 09上，佐治亞理工學(xué)院Kihwan Kim等[14]提出基于動(dòng)態(tài)信息增強(qiáng)Google Earth等航拍地球地圖的方法，提出對(duì)視頻進(jìn)行分類(lèi)處理和增強(qiáng)顯示的方法。2012年國(guó)立臺(tái)灣大學(xué)的Chen等人[15]建立了GIS輔助的可視化框架，融入了多分辨率監(jiān)測(cè)控制策略，以固定視角的相機(jī)提供低分辨圖像，球基相機(jī)根據(jù)用戶(hù)交互提供興趣區(qū)的高分辨圖像。endprint

3 MR技術(shù)進(jìn)展

近幾年，我們?cè)谶@方面開(kāi)展了一系列工作，主要特色是將圖片建模技術(shù)用到MR中，以得到準(zhǔn)確的虛實(shí)對(duì)齊效果。其中圖片建模技術(shù)是利用二維圖片恢復(fù)場(chǎng)景三維結(jié)構(gòu)的數(shù)學(xué)過(guò)程和計(jì)算技術(shù)，這一技術(shù)能夠很容易地達(dá)到虛實(shí)融合過(guò)程中對(duì)三維模型精度的高要求，克服了視頻投影本身帶來(lái)的二三維深度不匹配問(wèn)題。

3.1 基于圖片建模的視頻模型

該方法的核心部分是一種快速建模視頻背景的交互式方法，使用體元和場(chǎng)景樹(shù)來(lái)描述圖像中各點(diǎn)之間的建模關(guān)系，首先針對(duì)單幅圖像，在圖像幾何分析的預(yù)處理基礎(chǔ)上，進(jìn)行圖像與場(chǎng)景模型的三維注冊(cè)，然后提出了一種體元的定義，支持交互式的方式進(jìn)行基本幾何結(jié)構(gòu)的恢復(fù)，實(shí)現(xiàn)單幅圖像場(chǎng)景的視頻模型生成。場(chǎng)景樹(shù)結(jié)構(gòu)示意如圖3所示。

監(jiān)測(cè)控制場(chǎng)景中存在大量相機(jī)視頻區(qū)域重疊度很小的情況，現(xiàn)有基于多視圖的建模方法不能適用。進(jìn)一步針對(duì)低重疊度圖像序列，使用點(diǎn)線(xiàn)聯(lián)合的匹配方法進(jìn)行新圖像與現(xiàn)有視頻模型的注冊(cè)，用戶(hù)可以進(jìn)一步進(jìn)行新圖像場(chǎng)景的結(jié)構(gòu)建模，最終鏈?zhǔn)降仄ヅ浜妥?cè)更多的圖像場(chǎng)景結(jié)構(gòu)，如圖4所示。

在此基礎(chǔ)上，我們定義了一種基于單幅照片建模生成的視頻模型，它描述了該照片對(duì)應(yīng)的三維幾何結(jié)構(gòu)，可以供二次開(kāi)發(fā)使用。

3.2 基于視頻模型的MR方法

我們提出了基于視頻模型的MR方法，針對(duì)每個(gè)視頻創(chuàng)建對(duì)應(yīng)的視頻模型[16]，然后通過(guò)紋理投影[17]和陰影投影方法將視頻與其模型進(jìn)行融合。方法整體流程如圖5所示，分為兩個(gè)階段：（1）預(yù)處理階段。提取視頻的背景幀進(jìn)行交互式建模，得到簡(jiǎn)單的視頻模型，然后與三維場(chǎng)景模型進(jìn)行注冊(cè)；（2）在線(xiàn)階段。該階段與直接投影的融合方法類(lèi)似，但不再執(zhí)行遮擋測(cè)試。

3.3 MR場(chǎng)景中的自動(dòng)路徑規(guī)劃方法

由于MR中視頻中的動(dòng)態(tài)物體并未三維化，這類(lèi)技術(shù)不可避免存在偏離原視點(diǎn)會(huì)出現(xiàn)畫(huà)面畸變的現(xiàn)象。研究視點(diǎn)變化與畫(huà)面畸變之間的關(guān)系，我們給出了一種基于視頻投影中的畫(huà)面畸變的視點(diǎn)質(zhì)量評(píng)價(jià)方法，進(jìn)一步提出了一種MR場(chǎng)景中的自動(dòng)路徑規(guī)劃方法，來(lái)盡量減少畸變現(xiàn)象。

3.4 支持大規(guī)模視頻融合的視頻

監(jiān)測(cè)控制

以上技術(shù)被應(yīng)用于支持大規(guī)模視頻融合的視頻監(jiān)測(cè)控制，如圖6所示，各建筑模型是手工建模得到的精細(xì)模型，視錐區(qū)域是視頻模型。通過(guò)空間劃分和瓦片關(guān)聯(lián)，可以很容易地?cái)U(kuò)展到大規(guī)模的視頻模型場(chǎng)景。

4 展望

隨著視頻監(jiān)測(cè)控制在公共安全、交通等領(lǐng)域的廣泛應(yīng)用，多相機(jī)監(jiān)測(cè)控制網(wǎng)絡(luò)中相機(jī)數(shù)量日益增多，MR技術(shù)將現(xiàn)實(shí)世界中大量的相機(jī)視頻進(jìn)行整合，提供與真實(shí)世界具有幾何結(jié)構(gòu)一致性的統(tǒng)一視圖，解決的是人類(lèi)“認(rèn)知”的問(wèn)題。另一方面，實(shí)際上不同位置的相機(jī)在內(nèi)容上也很難關(guān)聯(lián)分析，對(duì)于計(jì)算機(jī)的智能分析能力也帶來(lái)了巨大的挑戰(zhàn)，這同樣需要MR的信息支持。

在MR技術(shù)的基礎(chǔ)上，我們正在研究多相機(jī)拓?fù)渲械膸缀?語(yǔ)義聯(lián)合理解與關(guān)聯(lián)問(wèn)題，研究并實(shí)現(xiàn)了一種基于幾何-語(yǔ)義結(jié)構(gòu)分析的多相機(jī)場(chǎng)景拓?fù)溥B通圖的構(gòu)建方法。以多相機(jī)拍攝的監(jiān)測(cè)控制視頻為輸入，如圖7所示，解析相機(jī)圖像的語(yǔ)義信息與基本幾何結(jié)構(gòu)，通過(guò)分析目標(biāo)在不同相機(jī)之間的轉(zhuǎn)移狀態(tài)，計(jì)算各相機(jī)區(qū)域之間的連通概率，從而建立多相機(jī)間的拓?fù)溥B通圖。

圖8中展示了使用我們的算法在Duke[18]數(shù)據(jù)集上恢復(fù)出的相機(jī)拓?fù)溥B通圖，各視頻圖像和地圖上對(duì)應(yīng)的語(yǔ)義區(qū)域進(jìn)行對(duì)齊，和原始場(chǎng)景中的拓?fù)溥B通關(guān)系相符。這種細(xì)粒度的相機(jī)視頻融合方式可以很容易地作為一個(gè)地圖圖層推廣到大規(guī)模GIS系統(tǒng)中，可以從根本上解決現(xiàn)有的海量視頻碎片化問(wèn)題。

MR技術(shù)正在快速發(fā)展中，這種虛實(shí)信息的可視關(guān)聯(lián)對(duì)于人類(lèi)認(rèn)知和人工智能都已表現(xiàn)出顯著的提升作用，未來(lái)作為一種基礎(chǔ)的地理信息資源來(lái)提供，有著重要的發(fā)展意義。

參考文獻(xiàn)

[1] DEBEVEC P E， TAYLOR C J， MALIK J. Modeling and Rendering Architecture from Photographs： A Hybrid Geometry-and Image-Based Approach[C]//Proceedings of the Annual Conference on Computer Graphics and Interactive Techniques. USA： ACM， 1996：11-20. DOI： 10.1145/237170.237191

[2] AZUMA R， BAILLOT Y， BEHRINGER R， et al. Recent Advances in Augmented Reality[J]. Computer Graphics and Applications， 2001，（21）： 34-47

[3] GIRGENSOHN F， SHIPMAN T， TURNER， et al. Wilcox， Effects of Presenting Geographic Context on Tracking Activity Between Cameras[C]//Conference on Human Factors in Computing Systems. USA： California， 2007：1167-1176

[4] IVANOV Y， WREN C， SOROKIN A， et al. Visualizing the History of Living Spaces[J]. IEEE Transactions on Visualization and Computer Graphics， 2007， 13（6）：1153-1160.DOI： 10.1109/TVCG.2007.70621

[5] HWANG T H， CHOI K H， JOOL I H， et al. MPEG-7 Metadata for Video-Based GIS

Applications[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. USA： IEEE， 2003，（6）： 3641-3643. DOI： 10.1109/IGARSS.2003.1294880

[6] GAY-BELLILE V， LOTHE P， BOURGEOIS S，endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

支持大規(guī)模視頻融合的混合現(xiàn)實(shí)技術(shù)