蔡 濤, 段善旭, 李德華
(1. 華中科技大學電氣與電子工程學院,湖北 武漢 430074;2. 華中科技大學圖像識別與人工智能研究所圖像信息處理與智能控制教育部重點實驗室,湖北 武漢 430074)
雙視三維重建的高精度運動參數(shù)估計方法
蔡 濤1, 段善旭1, 李德華2
(1. 華中科技大學電氣與電子工程學院,湖北 武漢 430074;2. 華中科技大學圖像識別與人工智能研究所圖像信息處理與智能控制教育部重點實驗室,湖北 武漢 430074)
從兩幅透視圖像恢復被攝目標的三維結(jié)構(gòu)是計算機視覺最基本的任務(wù)之一,其中,運動估計算法的性能決定了最終的三維重建精度。首先討論了雙視成像的基本數(shù)學模型,并介紹了幾種現(xiàn)有運動參數(shù)估計方法的基本原理和不足。隨后,基于投影誤差最小判決函數(shù),提出了用于雙像運動估計的改進非線性迭代優(yōu)化方法。數(shù)值仿真結(jié)果表明,在大平移小旋轉(zhuǎn)角及小平移大旋轉(zhuǎn)角2種運動條件下,采用文中提出的方法,運動估計精度均有所提高。此外,根據(jù)運動參數(shù)的估計值對真實目標進行三維重建實驗,結(jié)果表明尺度重建誤差小于2%且角度誤差在3°以內(nèi)。
計算機視覺;三維重建;運動參數(shù)估計;Levenberg-marquard優(yōu)化算法
空間3D目標的運動估計和幾何重建是計算機視覺和虛擬現(xiàn)實中的重要研究內(nèi)容[1]。隨著光學器件及數(shù)字信號處理技術(shù)的不斷提高,高性能的消費類數(shù)碼相機日益普及,使得非專業(yè)人員進行計算機視覺的應(yīng)用研究成為可能。然而,不同于標準雙攝像機立體視覺系統(tǒng)[2],通常條件下只有單個數(shù)碼相機可以利用,為此需要在兩個視角獲取同一目標的2幅透視視圖[3]。此時攝像機的相對運動參數(shù)估計算法的性能對后續(xù)的3D重建或測量的精度起著決定性的因素。經(jīng)典的線性算法,如兩步估計法[4]、奇異值分解法[5]等,具有簡單、快速的優(yōu)點,但是對圖像噪聲極其敏感,導致后續(xù)重建精度不夠理想。為改善運動參數(shù)的估計精度,本文在Horn的迭代優(yōu)化方法[6]基礎(chǔ)上提出了改進的參數(shù)優(yōu)化判決函數(shù),并采用Levenberg-Marquard非線性優(yōu)化方法獲得了高精度的運動估計結(jié)果。仿真和實驗結(jié)果表明,本文方法非常適合基于數(shù)碼相機的低成本視覺系統(tǒng)。
若已獲得某剛性目標的兩幅透視投影圖像,計算機視覺的一般任務(wù)就是確定兩幅圖像間的對應(yīng)關(guān)系并由此估計目標的3D幾何結(jié)構(gòu)??偟膩碇v,攝像機與目標間存在3種配置情況:① 單攝像機從不同角度拍攝靜止目標獲得2幅圖像,需確定攝像機相對運動參數(shù)及目標3D結(jié)構(gòu);②單個固定攝像機在不同時刻拍攝運動目標獲得2幅圖像,需確定目標的運動參數(shù)及其3D結(jié)構(gòu);③ 2個攝像機在同一時刻獲取靜止目標的 2幅圖像,需確定2攝像機的相對位姿及目標3D結(jié)構(gòu)。
圖1 雙視成像模型
式中 K1和K2分別是兩個攝像機的內(nèi)參數(shù)矩陣,s1和s2是常數(shù)因子。經(jīng)過變換和整理可消掉s1、s2和,得[1]
式(2)可改寫為所謂的極線方程
其中 E=[t]×R=t×R 即所謂本質(zhì)矩陣(Essential Matrix)。易知,F(xiàn)矩陣和E矩陣的轉(zhuǎn)換關(guān)系為
式中的等號在相差一個比例因子意義下成立。在得出攝像機的相對位姿及內(nèi)部參數(shù)后,就可以在相差某個常數(shù)因子的條件下實現(xiàn)物體的3D歐氏重建。
前已說明:若攝像機的內(nèi)參數(shù)已經(jīng)標定,則從F矩陣可以得到E矩陣,其包含了兩攝像機間的運動關(guān)系,即平移向量和旋轉(zhuǎn)矩陣。為求取這兩個值,Maybank和Faugeras[5]在研究雙像運動估計問題時給出并證明了下列定理:
定理1 實數(shù)3階矩陣E能夠分解成一個反對稱矩陣T和一個旋轉(zhuǎn)矩陣R的乘積E=TR,當且僅當它有一個奇異值為零,另兩個奇異值相等。
為確定T和R的符號,可選取一對圖像匹配點數(shù)據(jù)作為測試點,在4種符號配置條件下分別計算該點的3D位置,由此確定該3D點在兩攝像機中的深度,選擇在兩個攝像機中深度均為正值的R和t,即為正確解。
令J′關(guān)于iΔm的偏導數(shù)為O,于是有
引入拉格朗日乘子 λ,將約束優(yōu)化問題(10)轉(zhuǎn)變?yōu)樽钚』率綄嶋H上
為了最小化準則函數(shù)(15),本文采用Levenberg-Marquard非線性優(yōu)化方法[8]。需要注意的是,E=[t]×R包含5個自由參數(shù),其中旋轉(zhuǎn)角 R有 3個(3維旋轉(zhuǎn)向量)、單位平移向量 t有 2個(單位球面坐標),故整個優(yōu)化過程在 5維參數(shù)空間內(nèi)進行。
實驗1 t=[500, 0, 0]T、r對應(yīng)歐拉角為[10°,10°, 0°]T,代表大平移小旋轉(zhuǎn)角情況,實驗結(jié)果如圖2(a)、圖2(b)所示。
實驗2 t=[100, 0, 0]T、r對應(yīng)歐拉角為[60°,10°, 0°]T,代表小平移大旋轉(zhuǎn)角情況,實驗結(jié)果如圖2(c)、圖2(d)所示。
圖2 運動參數(shù)估計誤差分析
從實驗中可以發(fā)現(xiàn) SVD法的結(jié)果最差,而使用Horn迭代優(yōu)化方法后運動參數(shù)的誤差都有所改善,特別是對平移估計的改善較為顯著。但是,Horn迭代對于旋轉(zhuǎn)量改善不多,在某些情況下甚至會變差(如圖 2(b)),這一現(xiàn)象也說明了最小化準則式(6)并不是最優(yōu)的。相比之下,使用最優(yōu)準則式(9)的本文方法,在 2中條件下平移和旋轉(zhuǎn)參數(shù)的估計都能夠得到改進。
為評估本文方法改善雙目視覺3D重建精度的能力,分別對模擬3D目標和真實3D目標進行了運動估計和3D重建實驗。
3.2.1 模擬3D目標重建
選取的模擬攝像機參數(shù)同3.1節(jié),觀測目標為模擬的攝像機定標物,如圖 3(a),其中兩塊板夾角90°,每塊大小為200×400單位,其重心距離第一個攝像機光心600單位。攝像機相對運動參數(shù) t =[-40, 0, 0]T,r =[0, 0, π/10]T,圖像點疊加σ=0.5高斯噪聲。圖3(b)和圖3(c)分別是模擬目標在左、右攝像機上的成像。
分別采用 SVD、Horn迭代以及本文方法估計運動參數(shù)并使用迭代最小二乘三角測量方法[10]重建每個空間點的3D坐標。隨后將重建3D點分別反投影到2個攝像機平面上計算重投影誤差。表1中列出了運動參數(shù)估計結(jié)果以及重投影誤差均方根。從中可以發(fā)現(xiàn)一個比較有趣的現(xiàn)象,那就是真實結(jié)構(gòu)的重投影誤差居然比改進的優(yōu)化方法還大,這可能與使用的重投影誤差最小準則有關(guān),具體原因有待進一步研究。
表1 模擬3D目標重建實驗結(jié)果
3.2.2 真實3D目標圖像重建
這里,實驗所使用的圖像輸入設(shè)備是UnisDC-Q8數(shù)碼相機。采集圖像時,相機處于手動調(diào)焦狀態(tài)并始終保持不變。圖像原始分辨率為1600×1200,降采樣成為800×600。采用文獻[11]中的方法定標,后得到內(nèi)部參數(shù)為:主點u0=357.1、v0=347.1、焦距au=2101.8、av=2113.5。重建過程中忽略鏡頭的畸變效應(yīng)。
重建的目標為UnisDC-Q8的包裝盒。圖4(a)顯示的是采集的兩幅圖像以及使用改進Harris角點檢測算法[12]提取到的特征點。使用三角測量方法重建得到3D散亂點云,其俯視圖如圖4(c)而左視圖如圖4(d)。將最終的三維點集三角化、計算每個特征點的紋理坐標生成 VRML文件,其顯示效果如圖4(d)。
表3 矩形ABCD的內(nèi)角重建值
提出了一種用于雙像三維重建的改進運動參數(shù)估計算法。該算法首先從基礎(chǔ)矩陣和攝像機的內(nèi)參數(shù)矩陣估計本質(zhì)矩陣,然后采用奇異值分解方法獲得旋轉(zhuǎn)矩陣和平移向量的初始估計,最后通過對投影誤差目標函數(shù)進行 L-M 非線性迭代優(yōu)化對運動參數(shù)進行求精。實驗結(jié)果表明,該算法計算精度高,極大的改善了后續(xù)的3D重建精度,即便是手工選取匹配點,尺度重建誤差仍低于2%、角度重建誤差在3°以內(nèi)。因此,該算法非常適合基于簡易攝像設(shè)備的3D測量及目標3D重建。
[1]馬頌德, 張正友. 計算機視覺——計算理論與算法基礎(chǔ)[M]. 北京:科學出版社, 1998. 72-116.
[2]Dhond U R, Aggarwal J K. Structure from stereo–a review [J]. IEEE Transactions on Systems, Man and Cybernetics, 1989, 19(6):1489-1510.
[3]Longuet-Higgins H C. A computer algorithm for reconstructing a scene from two projections [J].Nature, 1981, 293:133-135.
[4]Weng J, Huang T S, Ahuja N. Motion and structure from two perspective views:algorithms, error analysis,and error estimation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1989, 11(5):451-476.
[5]Faugeras O, Maybank S. Motion from point matches:multiplicity of solutions [J]. International Journal of Computer Vision, 1990, 4(3):225-246.
[6]Horn B K P. Relative orientation [J]. International Journal of Computer Vision, 1990, 4(1):59-78.
[7]Zhang Zhengyou. A new multistage approach to motion and structure estimation:from essential parameters to euclidean motion via fundamental matrix [R]. Research Report 2910, INRIA Sophia-Antipolis, France, 1996.
[8]MathWorks. Optimization toolbox for use with matlab,matlab user’s guide, version 2.0 [M]. The Math Works,Inc. 2001. 2-24.
[9]Hartley R I. In defence of the 8-point algorithm [C]//Proceedings of the 5th Proc. International Conference on Computer Vision. IEEE Computer Society Press,Boston, MA, 1995:1064-1070.
[10]Richard I Hartley, Peter Sturm. Triangulation [J].Computer Vision and Image Understanding, 1997,68(2):146-157.
[11]Zhang Zhengyou. A flexible camera calibration by viewing a plane from unknown orientations [C]//Proceedings of the 7th International Conference on Computer Vision, 1999:666-673.
[12]Harris C, Stephens M. A combined corner and edge detector [C]//Proceedings of the 4th Alvey Vision Conference, 1988:147-151.
High Accuracy Motion Estimation Method Used for Three Dimensional Reconstructing from Two Views
CAI Tao1, DUAN Shan-xu1, LI De-hua2
( 1. College of Electrical and Electronic Engineering, Huazhong University of Science and Technology, Wuhan Hubei 430074, China;2. Institute for Pattern Recognition and Artificial Intelligence, State Education Commission Key Laboratory for Image Processing and Intelligent Control, Huazhong University of Science and Technology, Wuhan Hubei 430074, China )
Recovering the 3D geometric structure of an observed object from its two perspective views is one of the most important tasks in the computer vision research. It’s well known that the accuracy of 3D reconstruction is mainly decided by the performance of motion estimation method. In the paper, the fundamental model of two-view imaging system is introduced and the principles and disadvantages of some motion estimation methods are analyzed. To improve the estimation accuracy, a modified non-linear iterative optimization method is proposed based on the projective error minimization. The numerical simulations prove that the estimation accuracy is improved either under large translation and small rotation or under small translation and large rotation. Furthermore, the proposed method is verified by reconstruction from two view images of simulated object and real object. The result shows that the metric error is below 2% and the angle error below 3°.
computer vision; 3D reconstruction; motion estimation; Levenberg-marquard algorithm
TP 391
A
1003-0158(2010)06-0023-06
2009-03-03
國家自然科學基金資助項目(50737004/E0706)
蔡 濤(1974-),男,湖北武漢人,講師,博士,主要研究方向為信息檢測技術(shù)與計算機視覺。