陳 真,蔡 浩,張 飛
(汕頭大學工學院,廣東 汕頭 515063)
隨著科技的發(fā)展,多媒體可包含的信息種類越發(fā)豐富,表現(xiàn)的效果也更加多元化.近年來出現(xiàn)的全景漫游顯示以其真實、全面、直觀的表現(xiàn)特點,成為了多媒體顯示的趨勢.全景漫游顯示包括全景圖像生成和全景漫游兩部分:全景圖像生成是指通過全景相機對圖像進行獲取、拼接而生成的全視角圖像;全景漫游是指在全視角圖像里進行場景切換,模擬瀏覽不同的場景.
目前,全景漫游顯示在眾多領域取得了豐碩成果[1]:在旅游領域,與互聯(lián)網(wǎng)結(jié)合可以使用戶足不出戶觀天下;在軍事領域,同地理信息的結(jié)合可以模擬仿真作戰(zhàn);在房地產(chǎn)領域,可以使用戶獲得真實性的感官體驗.隨著虛擬顯示技術(shù)的大眾化以及虛擬現(xiàn)實技術(shù)的興起,全景漫游顯示技術(shù)與人們的社會生活將會聯(lián)系的愈加緊密.
全景漫游[2]是以靜態(tài)圖像為基礎,生成水平方向360°環(huán)視、垂直方向180°俯仰的立體環(huán)境,平且能夠通過互聯(lián)網(wǎng)進行瀏覽、新型可交互的媒體技術(shù).在普通圖像中,由于圖像的角度和拍攝位置被拍攝者控制,不由觀看者的意志而改變,因此觀看者并不能很好的沉浸在拍攝者所拍攝的場景當中,缺乏身臨其境的感受.
全景漫游系統(tǒng)采用圖像拼接技術(shù),將多張有重疊部分的圖像拼接成一幅比原來每張圖像信息量都要多的圖像.目前國內(nèi)外基于圖像的全景漫游技術(shù)主要是運行三維實景技術(shù)實現(xiàn),也就是使用相機對相隔一定距離的實際場景進行多角度的環(huán)視拍攝,每個場景都拼接生成360°影像,并按照實際情況關聯(lián)每個場景,讓觀看者可以在每個場景之間進行切換瀏覽.在全景圖像的生成拼接上,目前拼接模型有基于球體、圓柱體等,拼接流程上也有半自動標注匹配點進行拼接、全自動圖像拼接、比較成熟的全景拼接軟件有微軟的Photosynth,AutoSticth和諾基亞的Panorama.
在全景漫游上,谷歌推出的谷歌街景就是在原有的谷歌地圖基礎之上加入了全景功能.其原理就是在一輛車的車頂上擺放一組全景圖像采集工具,車輛在路面上行駛,按照一定的密度對街道圖像進行采集,并且生成的全景圖像在瀏覽器中可以360°觀看并可以通過鼠標點擊瀏覽器中的前后左右的箭頭來進行場景切換瀏覽.隨著虛擬現(xiàn)實技術(shù)的發(fā)展,可以使用虛擬現(xiàn)實頭盔,通過雙目視差原理,帶給觀看者身臨其境的體驗.
本文采用GoPro omni相機采集全景圖像信息,PTGui進行全景圖片集成,Pano2VR構(gòu)建全景系統(tǒng),DevalVR player用于全景圖像的瀏覽.
GoPro omni相機前、后、左、右、上、下共六個方向各安裝一臺Hero4運動相機,通過內(nèi)建系統(tǒng)將6個相機構(gòu)成一個整體,使各個角度拍攝到的照相信息處于同一個視點,并且能夠?qū)崿F(xiàn)像素級同步.
PTGui是一款圖像拼接工具,可以實現(xiàn)全景圖像集成,通過手動添加控制點以及優(yōu)化器優(yōu)化,最后經(jīng)過平滑融合處理,獲得高質(zhì)量的全景圖像.
Pano2VR是一款全景圖像轉(zhuǎn)換和編輯軟件,補丁功能可以有效對全景圖片中的局部“黑洞”進行提取和插入修補,消除三腳架、拍攝人員等影響.
DevalVR player是一款3D圖片顯示軟件,將具有全景視圖效果的二維圖片展示出三維立體全景效果,還可以實現(xiàn)手動旋轉(zhuǎn)、細節(jié)觀察等功能.
構(gòu)建全景漫游系統(tǒng)首先要獲得各個場景的全景圖片[3],生成全景圖片的基本步驟如圖1所示,具體包括圖像的采集,圖像的投影變換,圖像的拼接優(yōu)化和輸出4個步驟.
圖1 全景圖像系統(tǒng)生成流程
采集全景圖像[4]指的是使用相機獲取圖像的過程,常用的方式有兩種.一種是用普通相機以一個視點為圓心進行水平方向360°以及天空和地面的拍攝,然后進行圖片信息處理.這種方法對拍攝要求較高:拍攝時要求盡可能小的改變相機的視點,并且由于拍攝時間較長可能引發(fā)場景的細微變動,使后期的圖像拼接難度加大,產(chǎn)生明顯拼接痕跡,使得真實感下降.第二種是用專業(yè)全景攝影器材進行場景信息采集.這種方式可以減少獲取信息時產(chǎn)生的時差,操作方便簡潔,但相機價格較高.本文的圖像采用第二種方式,使用具有6鏡頭的GoPro omni相機來進行全景圖像的采集,采集到的全景圖片如圖2所示.
圖2 零散全景信息圖片
圖像投影變換指的是對圖像信息進行投影模型,初步生成全景圖投影模型.投影的實質(zhì)是將實際場景的圖像坐標系映射到一個圓柱體坐標系.具體思路是首先將以視點為中心的全景圖像坐標系平移和旋轉(zhuǎn)到圓柱體坐標系,然后計算平面圖像與圓柱面圖像的函數(shù)映射表達式,最后求解平面圖像與柱體模型的對應關系.
3.2.1 圖像投影
本文采用柱面投影模型[5].柱面投影模型是將拍攝到的圖像投影到一個圓柱面上,即把場景信息存儲在一個圓柱面上.柱面投影模型如圖3所示.
圖3 柱面投影模型
平面圖像與圓柱面的對應關系如公式(1)所示:
b表示實際場景圖像的寬,h表示實際場景圖像的高,f是獲取全景信息相機設備的焦距,(x′,y′)是柱面上任意點,(x,y)是平面圖像上相對應的點.
3.2.2 控制點匹配
經(jīng)過投影變換,初步生成了全景圖像模型.雖然這個模型能夠瀏覽全景圖像,但在圖像接縫部位存在著畸變,例如不完整的房屋、有裂痕的行人等缺陷,造成全景圖像真實感和沉浸感的下降.為了保持全景圖像中的場景信息同實際場景一致,需要對圖像進行控制點匹配處理,修正圖像拼接中的畸變.
控制點匹配[6]就是對圖像拼接部位的重疊部分進行匹配計算的過程,通常分為兩種方式.第一種方式基于像素點進行匹配:根據(jù)投影模型的參數(shù),計算拼接區(qū)域重疊部分點的平均誤差和方差,再根據(jù)參數(shù)比較平均誤差和方差的變化率,迭代計算使誤差變化率最小的初始參數(shù),確定匹配區(qū)域進行圖像的拼接.這種方式計算量大,實現(xiàn)簡單,適用性強,但圖像匹配效果可靠性不夠.第二種方式基于圖像的特征匹配:首先提取圖像重疊區(qū)域的特征信息,比如特殊的點、突出的線段、物體邊緣或頂角等,根據(jù)特征點之間的對應關系計算重疊區(qū)域的對應關系,建立全景圖像的匹配映射.
相比于像素點的匹配,基于特征的匹配算法[7]主要有以下優(yōu)點:
(1)對位置變化敏感,對應關系和匹配更準確,得到的全景圖像真實性更高;
(2)計算量更小,需要的匹配拼接特征點比像素點要少的多;
(3)圖像噪聲小,更好的適應圖像灰度變化,匹配完成后失真更少.
但是基于特征的匹配也存在著一些缺點,例如處理草原、天空等重疊區(qū)域特征不明顯的圖像,特征點的提取會變得困難,相應出現(xiàn)較大的誤差,最后造成匹配后的全景圖像失真.因此在實際處理過程中,為減小誤差,手動選取特征點進行匹配,可以獲取更好的效果.圖4為自動配和手動匹配的對比.
圖4 自動匹配與手動對比圖
3.2.3 圖像的融合
圖像融合是指對圖像在像素級進行融合,減少圖像重疊區(qū)域的拼接痕跡,提高圖像的真實性,常用以下兩種方式:
(1)漸入漸出圖像融合法:對重疊區(qū)域的像素值加權(quán)平均,減小重疊區(qū)域的像素值差異.加權(quán)平均公式(2)如下:
其中I1(x)、I2(x)為相鄰兩幅圖像的灰度函數(shù),W1(x)、W2(x)為兩幅圖像的加權(quán)值,x為圖像I1、I2的重疊區(qū)域.如圖5所示,在迭代計算過程中,W1(x)的值從0漸變到1,相對應的W2(x)的值從1漸變到0,實現(xiàn)圖像的平滑過度,消除拼接痕跡.
(2)帶閾值的漸入漸出圖像融合法:在基于漸入漸出圖像融合法上加入一個閾值K,將平滑前的灰度值與加權(quán)后的平均值作差,若差值小于K,則取加權(quán)后的灰度值為該點的灰度值;若大于K,則取加權(quán)之前的灰度值為該點的灰度值,減小重疊區(qū)域的像素值變化,使圖像融合平滑,如圖6所示.
圖5 漸入漸出圖像融合法過程
圖6 帶閾值的漸入漸出圖像融合法
加權(quán)后重疊區(qū)域的像素值為:
I(x)為重疊區(qū)域的灰度值,圖像L1、L3在重疊區(qū)域L2中對應的灰度值分別為I1(x)、I2(x).
將重疊區(qū)域分為A、B、C三部分,計算各個區(qū)域的像素值并與加權(quán)后平均值作差,與閥值對比,選取融合后的像素I(x).三部分的像素值計算公式(3)如下:
本文采用帶閾值的漸入漸出圖像融合法處理圖像,雖然通過基本的漸入漸出法可以有效消除拼接痕跡,但同時在重疊區(qū)域可能產(chǎn)生重影,使圖像變得模糊不清,因此通過采用帶閾值的漸入漸出圖像融合法可以進一步提高圖像清晰度,消除拼接邊界的色彩差.如圖7所示是融合前后的全景圖像對比圖.
圖7 融合前后對比圖
為得到更加平滑的融合圖,需要對控制點進行匹配優(yōu)化[8].根據(jù)控制點平均距離可以從以下3個方面對整體的控制點進行優(yōu)化匹配處理:
(1)位移優(yōu)化:分為水平位移和垂直位移,通過對投影后圖像的控制點水平方向和垂直方向分析對比,選取出平均控制點距離最小的對應組,對控制點進行微調(diào),使其對應關系更精確;
(2)鏡頭畸變優(yōu)化:針對相機拍攝時可能存在的不同時、不同步、鏡頭焦距不同的情況,進行對比優(yōu)化處理,減少控制點受平移和旋轉(zhuǎn)的影響;
(3)視點優(yōu)化:相機拍攝時難以保證各個方向的視點精確在同一位置,需要對匹配好的控制點進行視點分析優(yōu)化,使各方向的視點同主方向盡可能保持一致,減少由于視點引起的對應點匹配度差的情況.
優(yōu)化處理前后的全景圖像對比結(jié)果如圖8所示.
采集的全景圖像中,可能存在不需要的信息,例如拍攝人員、遮蔽物等;還存在著一些需要突出顯示的信息,例如關鍵地理位置、明顯標記物等,這時候就需要蒙版處理.所謂蒙版處理就是將全景圖像中無用的信息去除,重要的信息突出的過程[2].
全景圖像生成后在相機所處位置下會出現(xiàn)三角支架,如果采用蒙版處理遮擋住三角支架,會在全景圖像的底部出現(xiàn)“黑洞”現(xiàn)象,這種存在與全景圖像整體環(huán)境不協(xié)調(diào)的漏洞區(qū)域的現(xiàn)象簡稱為“黑洞”.本文采用Pano2VR對全景圖像中的“黑洞”區(qū)域進行補丁提取,Adobe Photoshop CS6對“黑洞”區(qū)域進行處理,使“黑洞”區(qū)域同周圍環(huán)境相適應,最后使用Pano2VR將修補處理后的補丁圖片插入到全景圖像中,從而消除掉出現(xiàn)的“黑洞”區(qū)域.
圖8 優(yōu)化器優(yōu)化前后全景圖局部對比
根據(jù)圖像投影的類型,全景圖像的集成與輸出[10]可以分為以下3種模型.
(1)球面投影圖:將圖像的位置點坐標同球面的球面坐標對應起來形成的全景圖片.
(2)柱形投影圖:球面投影的一種簡化形勢,它是將拍攝到的全景信息形成的圖像投影在一個圓柱面上,相當于把場景信息存儲在一個圓柱面上.
(3)立方體投影圖:把全景圖全部圖像信息直接分解為前后上下左右6個面,全景瀏覽時就是把6個面結(jié)合起來形成一個封閉立方體來實現(xiàn)全視角[10]瀏覽.
基于圖像的全景系統(tǒng)以全景圖像為顯示界面,通過鼠標和界面功能鍵實現(xiàn)場景切換.本文采用Pano2VR構(gòu)建基于圖像的全景系統(tǒng).
基于圖像的全景系統(tǒng)有兩種顯示方式:一種是基于視頻播放器的flash文件顯示格式;第二種是基于網(wǎng)頁的HTML文件顯示格式.兩種顯示格式都包含五個模塊:全視角瀏覽模塊、局部區(qū)域縮放瀏覽模塊、文字音頻介紹模塊、全景場景切換模塊以及校園地圖導航模塊.
(1)全視角瀏覽模塊、局部區(qū)域縮放瀏覽模塊、文字音頻介紹模塊:在單個全景圖像場景中,利用Pano2VR的皮膚編輯器添加特殊功能鍵實現(xiàn)任意視角瀏覽、區(qū)域縮放、背景介紹等功能.
(2)全景場景切換模塊:利用熱點鏈接[11],實現(xiàn)相鄰全景場景的切換,全景場景的切換結(jié)合地圖導航模塊實現(xiàn).
(3)地圖導航模塊:在各個全景場景中添加地圖之后,利用地圖同全景場景的位置對應關系實現(xiàn)地圖導航以及任意場景切換.
系統(tǒng)總體設計如圖9所示.
隨著計算機圖形圖像技術(shù)、網(wǎng)絡傳輸技術(shù)的發(fā)展,基于全景圖像的漫游技術(shù)將會變得日益普及.本文構(gòu)建了基于圖像的全景漫游系統(tǒng),具有“逼真、自然、交互性強”的特點,使得觀看者能夠沉浸在全景系統(tǒng)中,按照自己的視角來觀察整個環(huán)境的細節(jié),在教育、旅游、博物館展示等方面具有較強的實用性.
圖9 全景漫游系統(tǒng)總體框架
但是基于目前的技術(shù)限制,本文所構(gòu)建的基于圖像的全景漫游系統(tǒng),是由多副全景圖像構(gòu)成的漫游結(jié)點構(gòu)成,而漫游結(jié)點[12]是由拍攝者所選定,觀察者并不能完全按照自己的意愿瀏覽整個環(huán)境.除此之外,本系統(tǒng)是基于互聯(lián)網(wǎng)的瀏覽器構(gòu)建,觀察者使用電腦終端來觀看.雖然構(gòu)成系統(tǒng)的圖像均為360°全景圖像,但是由于觀察是在二維平面上觀察,所以造成了沉浸感的大大降低.
隨著技術(shù)的日益成熟,全景漫游將在人們的社會生活中越來越常見.并且隨著VR、AR、MR技術(shù)的進步,全景展示的方式也將變得更加豐富,展示的終端也將由電腦終端、手機屏幕等二維場景過渡至VR頭盔和MR頭盔等方式,大大增強觀察者的沉浸式體驗感.并在交互的方式上,也將由目前的鼠標鍵盤轉(zhuǎn)換為手勢識別等更加自然、人性化的交互方式.
通過上述研究,本文構(gòu)建了基于圖像的全景漫游系統(tǒng),實現(xiàn)全景瀏覽、場景漫游、路線規(guī)劃、地圖導航等功能,給瀏覽者以真實性、沉浸式的全景瀏覽體驗,具有一定的科研價值和實用價值.