劉學 ,戚文靜
(1.山東電子職業(yè)技術學院 計算機科學系, 山東 濟南 250200;2.泰華智慧產(chǎn)業(yè)集團股份有限公司博士后工作站,山東 濟南 250101;3.山東建筑大學 計算機學院,山東 濟南 250101)
?
基于外觀和深度信息的視覺跟蹤算法研究
劉學1,戚文靜2,3
(1.山東電子職業(yè)技術學院 計算機科學系, 山東 濟南 250200;2.泰華智慧產(chǎn)業(yè)集團股份有限公司博士后工作站,山東 濟南 250101;3.山東建筑大學 計算機學院,山東 濟南 250101)
能夠?qū)崿F(xiàn)視覺導航的自主移動機器人具有很好的應用前景,而場景變化、目標運動、障礙、遮檔等是自主機器人視覺導航過程經(jīng)常遇到的問題,結(jié)合外觀特征和深度信息的目標檢測和跟蹤算法是提高自主機器人對目標及環(huán)境變化適應能力的重要途徑。文章結(jié)合人類在跟蹤和定位目標時既利用顏色、亮度、形狀、紋理等外觀特征,又利用物體間距離、深度信息的特點,提出了結(jié)合外觀特征和深度信息的目標跟蹤算法并通過實驗驗證了該算法對視角、運動、遮擋等因素所引起變化的適應能力,且利用定量的方法對算法的性能進行了評價。
視覺導航;目標跟蹤;外觀特征;深度信息
能夠?qū)崿F(xiàn)視覺導航的自主移動機器人具有很好的應用前景,尤其是在危險工作及戰(zhàn)爭環(huán)境中具有非同尋常的意義。機器人導航大體上可分成兩類,一類是需要預先了解整個環(huán)境的基于地圖的導航,另一類是無地圖的邊導航邊感知環(huán)境的模式[1]。視覺導航是典型的無地圖導航模式,由于對環(huán)境的適應性高而具有廣泛的應用價值。視覺導航中最關鍵的問題是實現(xiàn)對目標的精確跟蹤和定位,主要包括三類方法:通過檢測進行跟蹤的方法[2](如MIL算法)、利用立體或RGB-D攝像機進行跟蹤的方法[3]和利用平面視圖進行跟蹤的方法[4]。通過檢測進行跟蹤的方法從第一幀中對目標進行一次性學習,然后根據(jù)后續(xù)的跟蹤結(jié)果在線更新目標特征,來適應目標的外觀變化[2]。研究者針對MIL的不足,給出了改進方案[5-7]。其中,WMIL算法在強分類器更新時使用的弱分類器選擇標準進行了一階泰勒展開,減小了計算量;同時為正樣本賦予一個權重,在一定程度上提高了學習的準確性[6]。彭爽等在更新強分類器時采用了一種精簡的選擇策略,從而提高了算法的效率[7]。Gu提出的跟蹤框架通過結(jié)合特征袋NN分類、有效子窗口搜索和新特征選擇及裁剪等方法,在跟蹤外觀變化大的目標時獲得穩(wěn)定性和可塑性[8-9]。上述方法主要依賴于物體的外觀特征,適用于沒有突然產(chǎn)生顯著外觀變化的情況。
近期研究文獻顯示利用立體或RGB-D攝像機[3,13]能夠提高跟蹤和檢測的健壯性。Ess和David等描述了利用立體視覺為移動機器人或汽車建立動態(tài)障礙圖的系統(tǒng),認為利用稀疏三維結(jié)構可以有效提高行人的檢測和跟蹤效果[10-11]。Shotto等提出了一種能夠從深度圖像中快速準確地預測身體關節(jié)3D位置的方法[12]。平面視圖(plan-view map)是通過將組成物體的3D點垂直投影到地平面產(chǎn)生的,在早期的研究中多用于人的檢測和軌跡估計[3,14]。文章與使用平面視圖的方法不同,一方面,使用平面視圖方法目標跟蹤僅基于平面視圖,當物體距離很近或者軌跡交叉時容易出現(xiàn)跟蹤錯誤,而文章將平面視圖與RGB圖像相結(jié)合,通過外觀特征糾正可能的位置錯誤;另一方面,使用平面視圖方法以很多的假設為基礎,如已知環(huán)境、固定攝像機、目標勻速運動、在相繼的幀中沒有太大的姿態(tài)變化和遮擋變化[14]。文章的方法沒有此類約束,尤其適用于機器人和移動設備在未知環(huán)境中的導航任務。
如上所述,機器人視覺跟蹤面臨著主要難題包括:(1) 如何理解在運動過程中產(chǎn)生的目標尺度和視角上的變化;(2) 如何適應環(huán)境的動態(tài)變化、準確避開突然出現(xiàn)在視野中的物體;(3) 如何精確跟蹤和定位目標,實現(xiàn)動態(tài)規(guī)劃路徑。為解決這些問題,文章結(jié)合人類在跟蹤和定位目標時既利用顏色、亮度、形狀、紋理等外觀特征,又利用物體間距離、深度信息的特點,提出結(jié)合外觀特征和深度信息的目標跟蹤方法。機器人的視覺系統(tǒng)是一個Kinect攝像機[2],從Kinect攝像機可以獲得場景的RGB圖像和深度信息;從RGB圖像提取目標的外觀特征信息;從深度信息創(chuàng)建反映物體空間分布層次的平面視圖[3,14],利用平面視圖以及機器人運動參數(shù)預測目標可能的位置及尺度;最后,結(jié)合外觀特征、位置及尺度信息快速和準確地檢測和跟蹤目標。
1.1平面視圖的構建
從Kinect攝像機得到的深度信息可以恢復機器人所看的物體的3D點云。參照文獻[16]的方法構建平面視圖方法如下:(1) 找到地平面;(2) 將地平面的點移除;(3) 把剩下的3D點投影到地面上。一個RGB圖像和它對應的平面視圖如圖1所示??捎^察到在圖1(a)中許多家具是互相遮擋,但在圖1(b)所示的平面視圖中,它們能夠清楚地分開。平面視圖提供了物體的層次和位置信息,可以用來提高跟蹤的健壯性。
圖1 RGB圖像和對應的平面視圖(a)RGB圖像 ;(b)平面視圖
物體在RGB圖像和平面視圖中的對應關系如圖2所示。平面視圖中的每個十字表示一個檢測到的物體,RGB圖像上顯示了包圍物體凸殼,部分物體在平面視圖和RGB圖像中的對應關系在圖中由箭頭指出。有了這個對應關系,在RGB圖像中搜索目標時,就只需要用預測窗口在對應的凸殼周圍的一定范圍內(nèi)進行搜索,提高檢測效率和跟蹤的健壯性。
圖2 平面視圖和RGB圖像中物體的對應關系圖
1.2外觀模型及在線更新
文章采用的是基于檢測的跟蹤方法,使用一次性學習和在線更新機制產(chǎn)生一個累積的外觀模型[8]。初始外觀模型由第一幀中目標的特征組成,用后續(xù)幀中檢測到的目標對模型進行更新,這樣既保留了初始的特征,又增加了視角、尺度和其它變化產(chǎn)生的新特征。選取的特征描述符為dense-SIFT[15],它在預定義的網(wǎng)格點上對圖像特征進行無偏地采樣,可以避免關鍵點SIFT由于解析度、光照問題引起特征丟失的問題。
在第一幀中,手工標注目標物體的矩形圍盒,用Λrect表示圍盒中采樣點的坐標集合,圍盒中所有采樣點特征的集合作為目標物體特征,構成初始模型O1。圍盒外所有采樣點的特征構成背景模型B1。用f(x,y)表示采樣點(x,y)處的特征。初始的目標和背景外觀模型由式(1)和式(2)定義為
O1={f(x,y)|(x,y)∈Λrect}
(1)
(2)
在后續(xù)幀中檢測到目標后,按式(3)的定義,用目標圍盒中與模型匹配的采樣點的特征更新目標模型(匹配函數(shù)將在1.4部分描述);按式(4)的定義,用目標圍盒外的采樣點特征更新背景模型。
O1=Ok-1∪{f(x,y)|(x,y)∈Λk_matched?Λk_bdbox}
(3)
(4)
式中:Λk_bdbox為第k幀中目標圍盒中的采樣點集;Λk_matched為第k幀中與模型Ok-1匹配的采樣點集??紤]穩(wěn)定性與可塑性平衡,目標累積模型只保留第一幀和M個最近鄰幀的特征,即,模型k是由來自于1,k-M+1,…,k(k≥M)各幀的特征組成。背景模型僅使用當前幀中的特征,以適應背景的變化。
1.3平面視圖上的運動模型
平面視圖中的坐標系以機器人的位置為原點,x軸自左向右,y軸自底向上。利用目標的當前位置及攝像機參數(shù)來預測下一幀中目標的可能位置及尺度。假設(pxi,pyi)是目標在第i個平面視圖中的位置坐標,機器人轉(zhuǎn)過一個α角并向目標移動距離d,則在i+1個平面視圖中的位置可由式(5)表示為
(5)
圖3 在平面視圖中進行目標位置預測圖(a)目標預測位置和實際位置; (b)出現(xiàn)目標的概率
在圖3(a)所示的平面視圖中,紅十字代表檢測到物體的位置,藍星號為目標物體的實際位置,綠圓點表示預測的目標位置。從圖中可看到由于運動參數(shù)測量不準確造成預測位置與實際位置有一定偏差。若目標鄰近處有其它物體時,可能會產(chǎn)生錯誤的預測。另外,若機器人跟蹤的是移動的目標,目標會產(chǎn)生一個主動的預測偏差。為了解決這個問題,提出自適應的位置預測方法,即平面視圖某一位置(px,py)出現(xiàn)目標的概率可用式(6)表示為
(6)
式中:(pxd,pyd)為預測的目標位置;σ為可調(diào)參數(shù),用于適應具體的運動情況,如果目標運動快,則σ可設為較大的值,反之,σ設為較小的值。在實驗中我們采用了各向異性高分布來適應物體不同方向的運動。圖3(b)顯示平面圖中每一位置出現(xiàn)目標的概率分布,紅十字處坐標為(pxd,pyd)。
預測出物體的位置后,還可以根據(jù)小孔成像的原理來預測目標的大小。Hk和Hk+1分別表示第k和第k+1幀中目標的大小,Dk和Dk+1表示第k和第k+1幀中攝像機和目標間的距離,則有第k+1幀中目標的大小可用式(7)進行估計為
(7)
在RGB圖像中檢測目標時,直接使用估算的目標尺度作為搜索子窗口大小。
1.4目標檢測
首先,在第k+1幀中,確定每個采樣點特征屬于背景還是屬于目標。在背景模型和目標模型中分別找出該采樣點的N個最近鄰特征,用Lb、Lo表示采樣點與背景模型Bk和目標模型Ok的N最近鄰的平均距離。對于每一采樣點(xi,yi)用式(8)進行評分為
(8)
式中:threshold為衡量背景特征和目標特征差異的統(tǒng)計參數(shù)。Lo/Lb≤threshold表示與目標模型匹配,賦為正值a。對于與目標不匹配的點,賦懲罰值-a/c,a>0,c>0。
然后,對于所有可能包括目標的子窗口wj∈W,外觀分數(shù)用式(9)定義為
(9)
最后,將子窗口wj的外觀分數(shù)與位置因子相乘,最終檢測目標為乘積最大的子窗口wi,用式(10)確定為
wt=warg maxj(Swj×F(pxj,pyj,pxd,pyd))
(10)
2.1實驗驗證
通過結(jié)合來自RGB圖像的外觀特征和來自平面視圖的位置和尺度信息,機器人在目標跟蹤方面顯示了很高的健壯性。在文章提供的實驗結(jié)果中,機器人進行了17次導航試驗,跟蹤8個不同的目標,包括3個椅子、1個垃圾箱、2個桌子和2個箱子;經(jīng)驗參數(shù)a=2,c=100及threshold=1.5。在圖6~8顯示的跟蹤結(jié)果中,紅色圍盒為文章的檢測結(jié)果;青色、黃色和藍色圍盒依次為是MIL[2]、WMIL[7]、nntracker[8]的跟蹤結(jié)果。
2.1.1適應外觀變化的能力
圖4顯示了一種非??量痰那樾?,在機器人行走的過程中,不斷地改變目標物體的角度,并一直向前移動目標,實驗結(jié)果顯示文章方法對于跟蹤外觀變化及運動的目標具有較高的健壯性。
圖4 跟蹤外觀變化的目標圖
2.1.2適應遮擋的能力
如圖5所示,在第一幀中有意遮擋了目標的一部分。由于第一次學習的目標外觀模型中包括了一些噪聲特征,使得僅依賴于外觀的跟蹤方法面臨較大的困難,由圖可以看出nntracker在第三幀、第四幀中一度完全偏離了目標。在第五幀中移動白色椅子再次遮住目標的一部分。在此過程中,盡管使用了反復的遮擋和移動,但我們使用的位置信息有效地糾正了外觀噪聲的干擾,對目標的跟蹤非常穩(wěn)定和精確。
圖5 遮擋情況下的跟蹤圖
2.1.3抵抗錯誤的能力
文章方法的另一個優(yōu)勢是它具有很高的抵抗錯誤的能力,而僅依賴外觀進行目標檢測的方法有錯誤積累和放大的趨勢。以nntracker[8]為例,在圖6的第二個圖像中,發(fā)生了檢測錯誤,青色圍盒偏離了目標,在更新目標外觀模型更新時,就會有一些不屬于實際目標的“臟特征”被更新到目標模型中,在下一次會產(chǎn)生更大的錯誤,如此反復,使檢測的結(jié)果完全偏離目標。而文章的方法由于加入位置和尺度的約束,能保持正確的檢測結(jié)果。
圖6 抵抗錯誤的能力圖
2.2算法性能評價
文章使用了二種方法來評價跟蹤的效果,并將文章中方法與MIL[2]、WMIL[7]和nntracker[8]的跟蹤結(jié)果。進行了比較。
第一種方法是評價跟蹤效果常用的平均距離誤差方法[9],由式(11)表示為
(11)
文章方法是一種基于目標檢測的方法,目標檢測的正確性直接影響跟蹤的效果,目標檢測的精確度由式(12)表示為
(12)
式中:A(·)為一個區(qū)域的面積;Rgt為實際目標所在的區(qū)域;Rdet為檢測到的目標區(qū)域。
在所有17次試驗檢測中,平均精確度(AP)和平均距離誤差(AE)如表1所示。
表1 目標檢測和跟蹤性能評價
文章研究在機器人視覺導航中結(jié)合外觀特征和深度信息實現(xiàn)目標跟蹤。機器人每走一步前都要重新感知環(huán)境、跟蹤定位目標和規(guī)劃路徑,以適應動態(tài)變化的環(huán)境。由于拍攝圖像不連續(xù)、機器人的運動、目標的移動等因素,引起視角、尺度和遮擋方面出現(xiàn)不可預測的變化,使目標跟蹤任務比通常的視頻跟蹤任務更加困難。文章利用Kinect攝像機作為機器人的視覺系統(tǒng),通過深度信息獲得反映物體空間分布的層次的平面視圖,利用平面視圖及攝像機運動參數(shù)推斷目標的位置,將位置信息與RGB圖像中提取的外觀特征相結(jié)合,取得很好的跟蹤效果。另外,通過平面視圖還可以確定RGB圖像中包圍物體的凸殼和目標的尺度信息,結(jié)合這兩個信息可以有效地減小搜索目標空間,提高檢測速度,對于實時的機器人導航具有現(xiàn)實意義的。
[1]Francisco B., Alberto O. ,Gabriel O..Visual navigation for mobile robots: A survey[J].Journal of Intelligent and Robotic Systems, 2008, 53(3):263-296.
[2]Babenko M., Yang H., Belongie S.. Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011,33(8):1619-1632.
[3]Peter H., Michael K., Evan H.,etal.. Dieter RGB-D mapping: Using Kinect-style depth cameras for dense 3D modeling of indoor environments[J]. The International Journal of Robotics Research,2012, 31(5):647-663,
[4]Rafael M.,Yeguas B. L. ,Díaz M.,etal.. Shape from pairwise silhouettes for plan-view map generation[J]. Image and Vision Computing, 2012, 30(2) :122-133.
[5]尚曉清,宋宜美.一種基于擴散映射的非線性降維算法[J]. 西安電子科技大學學報,2010,37(1):130-135.
[6]夏魯瑞,胡蔦慶,秦國軍.基于流形學習的渦輪泵海量數(shù)據(jù)異常識別算法[J]. 航空動力海報,2011,26(3):689-703.
[7]彭爽,彭曉明. 基于高效多示例學習的目標跟蹤[J].計算機應用,2015,35(2):466-469,475.
[8]Gu.S., Zheng. Y., Tomasi C.. Efficient Visual Object Tracking with Online Nearest Neighbor Classifier[C].Proceedings of the 10 the Asia conference on compuler vision,Durham:Doke University,2011.
[9]Lampert H., Blaschko B., Hofmann T.. Efficient subwindow search: A branch and bound framework for object localization [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12):2129-2142.
[10]Ess A., Leibe B. Gool L.. Depth and Appearance for Mobile Scene Analysis[J].Communication in Complater & Information Science,2012,7:110-118.
[11]David, G.,Antonio L.,Angel D.etal. Survey of pedestrian detection for advanced driver assistance systems[J]. Pattern Analysis & Machine Intelligence, 2010,32(7):1239-1258.
[12]Shotton J., Fitzgibbon A.. Real-time Human Pose Recognition in Parts From Single Depth Images[J].Aisa Journal, 2011, 92:1297-1304.
[13]基于RGB-D的在線多示例學習目標跟蹤算法[J]. 計算機工程與設計, 2015(7):1865-1870.
[14]Bonin F., Ortiz A., Oliver G.. People detection and tracking using stereo vision and color[J].Image and Vision Computing, 2007, 25(6):995-1007.
[15]Liu C., Yuen J., Torralba A.,etal.. SIFT Flow: Dense Correspondence Across Different Scenes [C].European Conference on Computer Vision, London: The Thomson Corporation,2008.
[16]Burschka D., Hager G.. Stereo-Based Obstacle Avoidance in Indoor Environments with Active Sensor Re-Calibration[J]. Autonoraovs Robots,2002,2:2066-2072.
(學科責編:李雪蕾)
Visual tracking algorithm based on appearance feature and depth information
Liu Xue1, Qi Wenjing2,3
(1.Department of Computer Science, Shandong College of Electronic Technology, Jinan 250200, China; 2. Shandong Taihua Telecommunication Co.,,Ltd, Jinan 250101,China; 3. School of Computer Science, Shandong Jianzhu University, Jinan 250101, China)
Challenges that robot faces in vision-based navigation include scene change, appearance change, obstacle, occlusion etc. Imitating human vision perception, an object detection and tracking algorithm that combines appearance feature and depth information is proposed. First, RGB image and depth information are captured by the Kinect camera that works as the vision system of robot. Then, an appearance model is created with features extracted from RGB image. A motion model is created on plan-view map produced from depth information and camera parameters, and the estimation of object position and scale is performed on the motion model. Finally, appearance features are combined with position and scale information to track the target. Experimental result show the robustness of our object detection and tracking method to appearance changes arose from view, motion and occlusion factors. It also shows that the object detection efficiency and object tracking accuracy are improved greatly compared with the method that only employ the appearance features.
vision-based navigation; object tracking; appearance feature; depth information
2015-11-24
山東省自然科學基金(ZR2013FL024);山東建筑大學博士科研基金(XNBS1261)
劉學(1971-),男, 副教授,碩士,主要從事軟件工程,圖像處理等方面的研究.E-mail:liuxe@sdcet.cn
1673-7644(2016)02-0177-06
TP391.4
A