于子豪,龔光紅,李 妮
(北京航空航天大學 自動化科學與電氣工程學院,北京 100191)
以增強現(xiàn)實技術(shù)和虛擬現(xiàn)實技術(shù)為代表的技術(shù)的發(fā)展,使得對三維重建中模型紋理貼圖分辨率的要求不斷提高。使用航空傾斜攝影技術(shù)獲得的圖像進行三維模型重建時,圖像的空間分辨率直接受限于飛機的飛行高度和圖像傳感器的精度。在拍攝條件不變的情況下,如何獲得高分辨率的模型貼圖成了一個待解決的問題。本文基于這一問題,開展了對單幀超分辨率重建算法的研究,探索超分辨率方法應(yīng)用到航空傾斜攝影數(shù)據(jù)中及三維重建中的可行性。
對大地形場景進行三維重建,首先需要獲取目標區(qū)域的三維點云數(shù)據(jù)和紋理圖像[1]。近幾年來,興起的航空傾斜攝影對地觀測技術(shù)在城市建模中發(fā)揮著很大的作用[2],利用航空傾斜攝影可以相對較低的成本獲取較高質(zhì)量的目標區(qū)域的紋理圖像。
圖像空間分辨率是傳感器能夠分辨的最小物體的度量,即每個像素表示的地面線性尺寸[3]。航空傾斜攝影相機在進行成像時與目標場景做高速相對運動,真實世界場景經(jīng)過大氣湍流擾動進入相機鏡頭,圖像難免會被運動模糊、大氣模糊以及光學模糊所影響。在感光耦合元件處受到量化下采樣的影響后形成低質(zhì)量的含有系統(tǒng)噪聲的圖像??梢酝ㄟ^提高獲得的航空圖像空間分辨率的方法來提高三維重建時的模型貼圖的空間分辨率。利用搭載航空傾斜相機的無人機對北京市門頭溝區(qū)的潭墅苑小區(qū)進行拍攝。圖1為拍攝的航空圖像,對其中22號樓的樓牌號進行放大可以看出所拍攝的航空圖像空間分辨率較低,“潭墅苑”三個字并不能被清晰辨認。
圖1 潭墅苑小區(qū)無人機航拍圖
可以通過提高圖像傳感器密度和增大鏡頭焦距等方法提高成像系統(tǒng)的性能進而提高圖像空間分辨率,但是增大鏡頭焦距會使相機重量增加,提高傳感器密度會導致噪聲影響加劇,并且提高成像系統(tǒng)的性能會大大增加拍攝的成本。在大地形場景三維重建時,降低無人機的飛行高度也會增加無人機航路規(guī)劃的成本。
通過圖像處理的技術(shù),利用軟件算法將低分辨率(Low Resolution, LR)圖像重建為高分辨率(High Resolution, HR)圖像[4]的方法被稱為超分辨率重建技術(shù)。超分辨率重建技術(shù)能夠在一定程度上突破航空傾斜攝影成像系統(tǒng)的硬件限制,削弱噪聲等降質(zhì)因素給圖像空間分辨率帶來的負面影響。在三維建模前,使用超分辨率重建技術(shù)對獲取的傾斜攝影航拍圖進行處理,可獲得高質(zhì)量高空間分辨率的圖像。從而在三維重建時,提高模型貼圖的空間分辨率(圖2)。
圖2 超分辨率重建與三維重建流程
單幀超分辨率重建的主要方法為基于學習的超分辨率方法,基于分塊的方法[4]占了基于學習的超分辨率方法的很大比例。這種方法可以找到高、低分辨率圖像塊之間復雜的映射關(guān)系,指導LR圖像重建為HR圖像[5],可以還原輸入圖像中沒有的紋理細節(jié)。
單幀超分辨率算法為最近幾年的研究熱點,Yang Jianchao 等[6]根據(jù)壓縮感知理論提出了一種基于稀疏表達的方法。通過字典的訓練來得到先驗信息,在放大倍數(shù)為8時,生成HR圖像的質(zhì)量也很高。稀疏表達的引入與通過完備字典的學習降低了計算量,并且使得圖像的表達更為簡潔。
基于卷積神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)的單幀分辨率算法是最近幾年的熱點研究方向。2017年,Ledig等[7]提出的超分辨率生成對抗網(wǎng)絡(luò)(SRGAN)可以在人眼視覺感知層面達到state-of-the-art的結(jié)果。Lai Weisheng等[8]提出的深度拉普拉斯金字塔超分辨率網(wǎng)絡(luò)(Deep laplacian pyramid networks,LapSRN)可以在峰值信噪比(Peak signal-to-noise ratio, PSNR)和結(jié)構(gòu)相似度度量(Structural similarity, SSIM)層面達到state-of-the-art的結(jié)果。
圖3所示為8倍LapSRN網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)由特征提取部分和圖像重建部分組成。8倍的LapSRN網(wǎng)絡(luò)有三級,其中每一級都會將上一級的輸入圖像分辨率放大2倍。特征提取部分在每個金字塔等級上使用級聯(lián)卷積層從輸入LR圖像中提取非線性特征映射。特征映射經(jīng)過轉(zhuǎn)置卷積層上采樣,再經(jīng)過卷積層預(yù)測子帶殘差。圖像重建部分對LR圖像進行上采樣并根據(jù)特征提取部分獲取的子帶殘差值,通過逐個像素相加有效地重建HR圖像。該網(wǎng)絡(luò)架構(gòu)以深度監(jiān)督的方式(即可以在金字塔每個等級上同時進行監(jiān)督學習)完成高分辨率圖像的重建任務(wù)。
圖3 LapSRN網(wǎng)絡(luò)結(jié)構(gòu)[9]
圖2所示為系統(tǒng)的數(shù)據(jù)處理流程,首先由搭載傾斜攝影相機的無人機進行傾斜攝影航拍,獲得傾斜攝影航拍圖;使用LapSRN對獲得的傾斜攝影航拍圖進行超分辨率重建;將獲得的高分辨率圖像輸入到ContextCapture中進行三維重建;最終獲得具有超高分辨率紋理的地形場景三維模型。
本文使用的訓練集為從Berkeley Segmentation Dataset[10]選取的200張圖像,還有Yang等[6]使用的91張訓練圖像。本文使用的測試集為Tanzhesi461、Tanzhesi5、Bluehouse5和Urban100數(shù)據(jù)集[11]。其中,tanzhesi461數(shù)據(jù)集為傾斜攝影航拍數(shù)據(jù)集,包含461張分辨率為 7360×4912 的傾斜攝影航拍圖,并可用于三維重建。Tanzhesi5數(shù)據(jù)集與Bluehouse5數(shù)據(jù)集均為tanzhesi461數(shù)據(jù)集的子集,各包含5張圖像。Tanzhesi461數(shù)據(jù)集的部分圖像如圖4所示。
圖4 Tanzhesi461數(shù)據(jù)集中的部分圖像
Urban100數(shù)據(jù)集包括100張城鎮(zhèn)區(qū)域的圖像,是用于超分辨率算法性能評估的通用數(shù)據(jù)集,其中部分圖像如圖5所示。
圖5 Urban100數(shù)據(jù)集中的部分圖像
由于超分辨率重建算法占用內(nèi)存較大,因此在對Tanzhesi461數(shù)據(jù)集與Tanzhesi5數(shù)據(jù)集進行超分辨率重建時,需要首先對圖像進行分割處理。為了定量計算峰值信噪比(Peek Signal-to-Noise Ratio, PSNR)、結(jié)構(gòu)相似性(Structural Similarity, SSIM)以及感知度量(Learned Perceptual Image Patch Similarity, LPIPS),需要下采樣圖像從而獲得LR圖像和真值(Ground Truth, GT)圖像。
在進行定量實驗時,首先將Tanzhesi5和Urban100作為測試集。對Tanzhesi5數(shù)據(jù)集中5張分辨率為 7360×4912 的航拍圖進行分割,每張可分割出36張分辨率為 1226×818 的圖片,共得到180張圖片。由于Tanzhesi461數(shù)據(jù)集所覆蓋的場景主體為建筑物及地形,去除30張僅含植被的圖像后最終得到包含150張圖像的數(shù)據(jù)集Divided150。使用雙三次插值算法將Divided150數(shù)據(jù)集和Urban100數(shù)據(jù)集下采樣。在下采樣系數(shù)為2、4、8時,可以獲得一系列LR圖像和GT圖像。
使用雙三次插值算法將Bluehouse5數(shù)據(jù)集直接下采樣,下采樣系數(shù)為4和16。其中下采樣系數(shù)為4的數(shù)據(jù)作為GT圖像,下采樣系數(shù)為16的數(shù)據(jù)作為LR圖像。
在進行定性實驗時,將Tanzhesi461數(shù)據(jù)集中461張圖像分割,每張可分割出121張分辨率為 668×446 的圖像。最終得到包含55 781張圖像的數(shù)據(jù)集Divided55781。
首先使用Wang Zhihao等[9]在他們的論文中提到的數(shù)據(jù)集及訓練方法訓練LapSRN網(wǎng)絡(luò)。
卷積層由大小為 3×3 的64個濾波器組成。使用He等的方法初始化卷積濾波器[12]。轉(zhuǎn)置卷積濾波器的大小為 4×4,從雙線性濾波器開始初始化其權(quán)重。所有的卷積和轉(zhuǎn)置卷積層(重建層除外)之后都為斜率為-0.3的泄漏整流線性單元(LReLU)。在執(zhí)行卷積之前,在圖像邊界周圍填充零,以使所有特征映射的大小與每個級別的輸入圖像大小相同。
訓練集為從Berkeley Segmentation Dataset[10]選取的200張圖像,還有Yang等[6]使用的91張訓練圖像。每個訓練批次中,隨機抽取64個大小為128×128的圖像塊。一個epoch有1000次反向傳播迭代。使用三種方式增加訓練數(shù)據(jù):①縮放:在[0.5,1.0]之間隨機縮??;②旋轉(zhuǎn):將圖像隨機旋轉(zhuǎn)90°、180°或270°;③翻轉(zhuǎn):在水平或垂直方向翻轉(zhuǎn)圖像,概率為0.5。根據(jù)現(xiàn)有方法的規(guī)則[13],用雙三次插值法將每一批訓練數(shù)據(jù)下采樣。使用MatConvNet工具箱中的隨機梯度下降求解器訓練模型。此外,將動量參數(shù)設(shè)置為0.8,權(quán)重衰減為 1×10-4。所有層的初始學習率為 1×10-5,并且每經(jīng)過50次迭代后降低為原來的1/2。
為了驗證LapSRN網(wǎng)絡(luò)模型在三維重建任務(wù)中的有效性。首先,在Tanzhesi461數(shù)據(jù)集上進行定性實驗獲得超分辨率傾斜攝影圖像。并利用ContextCapture處理超高分辨率的傾斜攝影圖像,獲得具有超高分辨率場景紋理的三維模型。然后,在傾斜攝影航拍數(shù)據(jù)集Tanzhesi5、Bluehouse5與通用數(shù)據(jù)集Urban100上進行定量對比實驗。
圖6與圖7分別是Tanzhesi461數(shù)據(jù)集中的一張圖像的二倍雙三次插值和二倍超分辨率重建的結(jié)果??梢钥闯?,二倍超分辨率重建的結(jié)果中的紋理更加清晰。
圖6 二倍雙三次插值結(jié)果
圖7 二倍超分辨率重建結(jié)果
用ContextCapture對LapSRN二倍超分辨率的Tanzhesi461數(shù)據(jù)集進行三維重建。得到的結(jié)果如圖8所示。由于ContextCapture重建出的三維模型具有多個細節(jié)層次,在視點靠近模型時模型細節(jié)層次逐漸提高,模型多邊形的數(shù)目逐漸增加。由于生成的模型具有多細節(jié)層次,只有在視點比較靠近模型時才可以觀察到超分辨率算法的作用。由于在視點較遠時,模型細節(jié)層次較低,模型多邊形數(shù)目較少,因此不能直觀地觀察到超分辨率重建前后生成模型的模型貼圖紋理細節(jié)的不同。隨著視點靠近模型,模型的多邊形數(shù)目增加,細節(jié)層次提高,超分辨率的作用才體現(xiàn)出來。在圖8中,隨著視角的變化,在距離模型較近的視角下,可以看到使用二倍超分辨率重建圖像進行三維重建得到的模型貼圖分辨率更高,更加清晰。
圖8 使用二倍超分辨率重建的圖像進行三維重建的結(jié)果與使用原圖進行三維重建的結(jié)果對比
表1呈現(xiàn)的是LapSRN在Tanzhesi5數(shù)據(jù)集和Urban100數(shù)據(jù)集上的PSNR及SSIM實驗結(jié)果。PSNR和SSIM是超分辨率重建領(lǐng)域常用的兩個指標。從表1中可以看出,在Tanzhesi5和Urban100上,超分辨率倍數(shù)為2時,LapSRN可以獲得最好的結(jié)果。這說明超分辨率重建倍數(shù)越低,越容易獲得高質(zhì)量的圖像。在2、4、8倍的重建倍數(shù)下,在PSNR和SSIM意義上使用LapSRN模型均可以獲得較好的重建結(jié)果。
表1 LapSRN在Tanzhesi5數(shù)據(jù)集和Urban100數(shù)據(jù)集上的PSNR及SSIM實驗結(jié)果
表2呈現(xiàn)的是LapSRN與雙三次插值算法在Tanzhesi5數(shù)據(jù)集上的PSNR及SSIM對比實驗結(jié)果??梢钥闯?,超分辨率重建在Tanzhesi5數(shù)據(jù)集上的表現(xiàn)在PSNR和SSIM意義上要明顯優(yōu)于雙三次插值算法。
表2 LapSRN與雙三次插值算法在Tanzhesi 5數(shù)據(jù)集上的PSRN及SSIM對比實驗結(jié)果
表3是LapSRN與雙三次插值算法在Bluehouse5數(shù)據(jù)集上的PSNR及LPIPS的對比實驗結(jié)果,其重建倍數(shù)為4。其中,LPIPS更加符合人眼的感知標準,LPIPS越小,說明圖像的人眼感知質(zhì)量越接近真值圖像。可以看出,LapSRN重建結(jié)果的PSNR和LPIPS均優(yōu)于雙三次插值算法。為了方便定性對比,將Bluehouse5中的一張圖像中的藍色房屋截出,如圖6所示。對比結(jié)果如圖7所示,可以直觀看出,使用LapSRN處理的LR圖像比使用雙三次插值算法處理的LR圖像更加接近GT圖像。
表3 LapSRN與雙三次插值算法在Bluehouse5數(shù)據(jù)集上的PSNR及LPIPS對比試驗結(jié)果
圖9 截出Bluehouse5中圖像的一棟房子所在的區(qū)域
圖10 Bluehouse5定量及定性對比結(jié)果
本文主要對超高分辨率地形場景紋理圖像生成方法開展了相關(guān)研究,探索超分辨率重建算法LapSRN應(yīng)用到傾斜攝影和三維重建中的可行性。首先驗證了LapSRN可以提高航空傾斜攝影數(shù)據(jù)集中圖像的質(zhì)量和空間分辨率。并將LapSRN超分辨率重建模型應(yīng)用于傾斜攝影和三維重建中。實驗表明,在拍攝條件不變的情況下,提高了傾斜攝影圖像和三維模型貼圖的空間分辨率。