胡 歡 孫漢旭 賈慶軒
(北京郵電大學(xué)自動化學(xué)院,北京100876)
?
基于在線重建的遙操作預(yù)測顯示系統(tǒng)
胡 歡 孫漢旭 賈慶軒
(北京郵電大學(xué)自動化學(xué)院,北京100876)
為了提高遙操作的操作效率,采用一種基于單目視覺的預(yù)測顯示方法來解決時延導(dǎo)致的視覺反饋滯后問題.該方法通過基于地圖的相機(jī)位姿估計算法來實(shí)時跟蹤機(jī)器人的狀態(tài),在線構(gòu)建機(jī)器人工作環(huán)境的三維幾何結(jié)構(gòu)模型,并結(jié)合多紋理映射技術(shù)進(jìn)行渲染,將模型重投影到預(yù)測視點(diǎn)下,得到逼真的預(yù)測圖像.搭建了一個基于客戶端-服務(wù)器端模式的系統(tǒng)平臺,用于未知環(huán)境下的遙操作.結(jié)果表明,在總長為7.112 m的攝像機(jī)運(yùn)動軌跡中,位姿跟蹤的平均誤差約為0.015 m.該系統(tǒng)不僅能提供預(yù)測圖像,而且支持生成任意視點(diǎn)的圖像,有利于操作者從各個角度觀察機(jī)器人工作場景.
預(yù)測顯示;遙操作;同步定位與地圖構(gòu)建;機(jī)器視覺
機(jī)器人已被廣泛應(yīng)用于遠(yuǎn)程環(huán)境(如太空、外星球、遠(yuǎn)程手術(shù)、水下、災(zāi)后救援等)中,研究對遠(yuǎn)程機(jī)器人的高效魯棒控制是一項(xiàng)重要任務(wù).其控制方法包括自主控制和遙操作兩大類.在目前智能技術(shù)尚未完全成熟的情況下,遙操作仍是一種不可或缺的操作控制方式.機(jī)器人實(shí)際運(yùn)動和遙操作控制命令之間存在的時延會導(dǎo)致操作性能下降.預(yù)測顯示被認(rèn)為是一種有效解決遙操作時延的方法,通過將時延排除在本地控制回路之外,消除時延對系統(tǒng)穩(wěn)定性的影響,能夠大幅提升遙操作的成功率和執(zhí)行效率[1-2].
傳統(tǒng)的預(yù)測顯示技術(shù)中,首先利用先驗(yàn)知識構(gòu)建環(huán)境及機(jī)器人虛擬模型,然后根據(jù)遠(yuǎn)端反饋回來的各種傳感器信息在線修正虛擬模型,操作者通過仿真的虛擬環(huán)境來感知真實(shí)機(jī)器人工作環(huán)境.然而,有時機(jī)器人的操作環(huán)境是無法事先預(yù)知的.Xie等[3]提出了一種基于增強(qiáng)現(xiàn)實(shí)的遙操作方法,通過疊加虛擬機(jī)器人模型到延時視頻流上,操作者可以實(shí)時了解虛擬機(jī)器人和真實(shí)機(jī)器人的匹配程度,從而進(jìn)行在線修正,這在很大程度上提高了操作者的作業(yè)能力;然而,該方法僅對機(jī)器人的狀態(tài)進(jìn)行了預(yù)測,大多應(yīng)用于攝像機(jī)固定的情形,且環(huán)境是靜態(tài)的.如果攝像機(jī)是受操作者控制而運(yùn)動的,仍需對攝像機(jī)視野中環(huán)境的改變進(jìn)行預(yù)測.J?gersand[4]提出了一種基于圖像插值的快速預(yù)測顯示方法,將其與基于增強(qiáng)現(xiàn)實(shí)的遙操作方法有效結(jié)合,從而達(dá)到同時預(yù)測機(jī)器人狀態(tài)和工作環(huán)境的目的.然而,基于圖像插值方法生成的預(yù)測圖像逼真度較差.
隨著近年來3D重建技術(shù)的飛速發(fā)展,在線實(shí)時重建逐漸成為可能,將該技術(shù)引入到預(yù)測顯示遙操作系統(tǒng)中是一種發(fā)展趨勢.Kelly等[5]搭建了一個遙操作系統(tǒng)平臺,通過融合深度數(shù)據(jù)和雙目彩色圖像構(gòu)建出一個逼真的3D場景模型,從而使操作者能夠高效地遙操作遠(yuǎn)程移動車輛;然而,多傳感器的融合所產(chǎn)生的傳感器間標(biāo)定誤差會影響系統(tǒng)的魯棒性.Rachmielowski等[6]提出了一種基于單目視覺的預(yù)測顯示方法,通過對視頻圖像進(jìn)行同步定位與地圖構(gòu)建,重建場景的3D模型,并將其重投影到預(yù)測視點(diǎn)下,得到預(yù)測圖像;然而,這種3D模型是離線構(gòu)建的,無法實(shí)時更新.
本文提出了一種基于在線模型構(gòu)建的預(yù)測顯示方法,在進(jìn)行跟蹤與地圖構(gòu)建的同時能夠增量式擴(kuò)展3D模型.
預(yù)測顯示的目標(biāo)是處理時延帶來的視覺反饋滯后問題,通過在操作端根據(jù)已接收到的延時視頻流來構(gòu)建遠(yuǎn)程機(jī)器人及其工作環(huán)境模型,以預(yù)測基于操作者控制輸入的即時視覺反饋,使操作者可以進(jìn)行連續(xù)的遙操作控制,無需等待遠(yuǎn)程機(jī)器人端反饋的視覺信息.預(yù)測顯示遙操作系統(tǒng)是一種典型的客戶端-服務(wù)器系統(tǒng),其架構(gòu)如圖1所示.
圖1上半框圖中的軟件模塊位于機(jī)器人端(客戶端).跟蹤與地圖構(gòu)建模塊根據(jù)視頻圖像估計機(jī)器人的當(dāng)前位姿,同時構(gòu)建環(huán)境地圖.地圖是指基于視覺特征檢測方法獲取的場景3D特征點(diǎn)云模型.將模塊置于機(jī)器人端是考慮到遙操作通信鏈路帶寬的限制.傳輸完整視頻會占用大量帶寬,且視頻含有大量冗余信息,將部分關(guān)鍵幀圖像傳輸?shù)讲僮鞫耸且环N有效的解決帶寬限制的方法.傳輸關(guān)鍵幀圖像來代替完整視頻流,可較大程度地減少數(shù)據(jù)傳輸量.
圖1 預(yù)測顯示系統(tǒng)架構(gòu)
圖1下半部分位于操作端(服務(wù)器端),是操作者操縱遠(yuǎn)程機(jī)器人的軟件平臺.交互輸入模塊接收控制輸入,并轉(zhuǎn)化為機(jī)器人控制命令,發(fā)送給客戶端的機(jī)器人控制器模塊,同時還發(fā)送控制指令到預(yù)測顯示模塊,以得到預(yù)測圖像.此外,該模塊也包含了一些遠(yuǎn)程模塊交互控制命令,如選擇指定圖像構(gòu)建地圖、保存地圖等操作.模型構(gòu)建模塊接收到遠(yuǎn)程地圖數(shù)據(jù),構(gòu)建出機(jī)器人工作環(huán)境下的3D幾何結(jié)構(gòu)模型.3D模型可視化模塊根據(jù)接收到的關(guān)鍵幀圖像,負(fù)責(zé)對幾何結(jié)構(gòu)模型進(jìn)行紋理渲染,實(shí)現(xiàn)逼真可視化.預(yù)測顯示模塊根據(jù)控制命令解算相機(jī)當(dāng)前位姿,渲染3D模型,得到預(yù)測圖像,補(bǔ)償視覺反饋滯后,是操作者高效地進(jìn)行下步?jīng)Q策的重要依據(jù).
跟蹤與地圖構(gòu)建模塊可實(shí)現(xiàn)基于單目視覺的相機(jī)位姿跟蹤與地圖構(gòu)建2個核心功能.目前主流的視覺跟蹤方法有幀間跟蹤方法和基于地圖的跟蹤方法.幀間跟蹤方法是指對連續(xù)2幀圖像進(jìn)行匹配并計算相對位姿,累加后便可得到全局位姿;該方法會造成誤差累積,通常還需要通過路徑閉合的方法以優(yōu)化位姿,但前提是必須能夠檢測到閉合,這在很大程度上限制了其應(yīng)用范圍.基于地圖的跟蹤方法首先通過2幀圖像構(gòu)建初始3D地圖,然后根據(jù)已有的相機(jī)位姿估算相機(jī)運(yùn)動模型,預(yù)測下一時刻相機(jī)的可能位姿,將所有地圖點(diǎn)重投影到該預(yù)測視點(diǎn)下,在當(dāng)前待跟蹤圖像中查找匹配點(diǎn),并根據(jù)匹配誤差修正預(yù)測相機(jī)位姿,從而得到最終的位姿估計;該方法建立在一個全局的地圖模型下,通過不斷優(yōu)化全局地圖來減少誤差,從而有效縮小了誤差的累積.本文采用基于地圖的跟蹤算法,同步實(shí)現(xiàn)了跟蹤和地圖構(gòu)建的功能.
2.1 初始地圖
本文采用立體匹配原理構(gòu)建初始地圖.在初始階段需要人為選擇2幀圖像作為立體匹配的首要條件.具體過程如下:① 針對這2幀圖像,利用自適應(yīng)通用加速分割算法(AGAST)[7]來檢測特征點(diǎn),并采用基于塊的零均值像素灰度差平方和算法查找匹配點(diǎn)對;② 采用五點(diǎn)算法[8]結(jié)合隨機(jī)抽樣一致算法(RANSAC)來估計基礎(chǔ)矩陣;③ 進(jìn)行匹配點(diǎn)對的三角化,得到初始地圖.
使用AGAST算法代替FAST特征檢測算法,對并行跟蹤與地圖構(gòu)建算法(PTAM)[9]進(jìn)行改進(jìn),可使檢測速度提高將近2倍.
2.2 在線跟蹤
在線跟蹤的目標(biāo)是實(shí)時估計機(jī)器人的位姿.首先,基于上一時刻相機(jī)運(yùn)動速度來預(yù)測當(dāng)前的相機(jī)位姿.利用剛體變換群SE(3)來表示相機(jī)位姿,指數(shù)和對數(shù)運(yùn)算可實(shí)現(xiàn)3×4維位姿變換矩陣和六自由度參數(shù)間的轉(zhuǎn)換.利用六自由度參數(shù)向量來表示位姿變換矩陣,可提高計算效率.相機(jī)運(yùn)動速度的計算公式為
(1)
式中,Vt為第t幀圖像的相機(jī)速度;Pt為第t幀圖像的相機(jī)位姿;dt為第t幀圖像的時間間隔.
預(yù)測位姿的計算公式為
(2)
根據(jù)重投影誤差更新相機(jī)位姿.首先,根據(jù)相機(jī)的透視投影模型將已有的3D地圖點(diǎn)投影到預(yù)測視點(diǎn)下,得到預(yù)測投影位置;然后,在預(yù)測投影位置鄰域范圍內(nèi)尋找對應(yīng)的匹配位置;最后,采用Levenberg-Marquardt算法[10]對重投影誤差進(jìn)行最小化處理,更新相機(jī)的位姿.
2.3 地圖擴(kuò)展
隨著機(jī)器人的不斷探索,初始地圖可能已經(jīng)在機(jī)器人攝像頭視域之外,因此需要不斷地對地圖進(jìn)行擴(kuò)展.地圖擴(kuò)展是指,通過對2個已跟蹤的關(guān)鍵幀圖像執(zhí)行極線搜索匹配點(diǎn)對,進(jìn)行三角化處理得到3D點(diǎn),將其加入到已有地圖點(diǎn)云模型中.
關(guān)鍵幀的選取標(biāo)準(zhǔn)如下:
1) 時間間隔性.連續(xù)幀往往存在大量的冗余信息,因此在算法初始階段,假定2個關(guān)鍵幀的時間間隔大于20幀,并基于已有關(guān)鍵幀圖像間重合度來修正該間隔值,如果重合度小于30%,則適當(dāng)減小該值;如果重合度大于80%,則適當(dāng)增大該值.
2) 空間間隔性.在空間上,2個關(guān)鍵幀之間應(yīng)該保留一定的間隔距離,確保極線搜索有足夠的基線.這樣一方面可盡量減少冗余信息,節(jié)省存儲空間;另一方面也減少了在極線匹配和后續(xù)的地圖優(yōu)化過程中執(zhí)行關(guān)鍵幀搜索的用時.關(guān)鍵幀的數(shù)目在很大程度上影響了算法的速率.間隔距離由當(dāng)前場景的平均深度決定.間隔距離的計算公式為
(3)
式中,sini為手動選擇的2個關(guān)鍵幀間的距離;dref_depth為初始化時得到的場景平均深度;davg_depth為當(dāng)前幀的平均深度.
3) 位姿準(zhǔn)確性.只有跟蹤質(zhì)量好的圖像幀,才可能成為關(guān)鍵幀.首先把所有地圖點(diǎn)投影到當(dāng)前視點(diǎn)下,得到m個投影點(diǎn);然后,在當(dāng)前圖像中搜尋對應(yīng)的匹配點(diǎn),假設(shè)有n個點(diǎn)匹配成功,則跟蹤質(zhì)量定義為成功匹配點(diǎn)數(shù)占總投影點(diǎn)數(shù)的比例,即s=n/m.如果s<0.3,則認(rèn)為跟蹤質(zhì)量較差;否則認(rèn)為跟蹤質(zhì)量較好.
2.4 地圖優(yōu)化
地圖優(yōu)化是指不斷根據(jù)新測量數(shù)據(jù)校準(zhǔn)已有數(shù)據(jù)的過程,是提高系統(tǒng)精度和魯棒性的主要步驟.集束調(diào)整是一種魯棒的地圖優(yōu)化方法,通過最小化重投影誤差迭代修正關(guān)鍵幀位姿及地圖點(diǎn)位置,模型化為求解如下目標(biāo)函數(shù)的非線性最小二乘問題:
(4)
本文采用Levenberg-Marquardt算法求解非線性最小二乘問題.其核心問題是求解雅克比矩陣.首先,引入3D點(diǎn)的透視投影變換公式,即
(5)
式中,Pw,Pc分別為點(diǎn)P在世界坐標(biāo)系和相機(jī)坐標(biāo)系下的三維坐標(biāo),且Pc={xc,yc,zc}T;K為相機(jī)的內(nèi)參矩陣;M為估計相機(jī)位姿相對于世界坐標(biāo)系的變換矩陣,依據(jù)剛體變換群SE(3)的特性,M=eεA,其中A為相機(jī)的真實(shí)位姿變換矩陣;?運(yùn)算表示點(diǎn)相對于相機(jī)的投影變換[11].
式中,Rc為相機(jī)位姿變換矩陣M中的3×3旋轉(zhuǎn)子矩陣.
模型重建的目標(biāo)是根據(jù)散亂點(diǎn)云構(gòu)建場景的幾何網(wǎng)格模型,采用基于3D Delaunay三角化的自由空間雕刻方法[12],增量式擴(kuò)展構(gòu)建網(wǎng)格模型,其輸入來源于跟蹤與地圖構(gòu)建模塊中不斷更新的地圖數(shù)據(jù).本文采用事件關(guān)聯(lián)機(jī)制來實(shí)現(xiàn)地圖構(gòu)建與模型構(gòu)建的同步,即在地圖事件發(fā)生的同時,觸發(fā)模型構(gòu)建模塊的相關(guān)事件,其關(guān)聯(lián)如圖2所示.
當(dāng)添加關(guān)鍵幀到地圖時,觸發(fā)以下3個模型構(gòu)建事件:添加新網(wǎng)格點(diǎn)、記錄新關(guān)鍵幀、插入可見視線.添加新網(wǎng)格點(diǎn)的過程為:首先找到該點(diǎn)所在的3D網(wǎng)格,并將其刪除;然后針對所有和刪除網(wǎng)格相關(guān)聯(lián)的3D點(diǎn)及新插入點(diǎn),執(zhí)行3D Delaunay三角化,重新構(gòu)建新網(wǎng)格.記錄新關(guān)鍵幀事件是指添加新關(guān)鍵幀到關(guān)鍵幀隊列中,其數(shù)據(jù)包含了圖像(用于可視化模塊的紋理渲染).插入可見視線事件記錄點(diǎn)和關(guān)鍵幀的關(guān)聯(lián)關(guān)系,同時判斷此可見視線是否違背自由空間約束(即相交于某已存在的網(wǎng)格面),如果違背則刪除相交的網(wǎng)格面.
圖2 地圖更新與模型更新的關(guān)聯(lián)
對地圖進(jìn)行集束調(diào)整優(yōu)化時,模型構(gòu)建模塊需執(zhí)行以下幾個事件:點(diǎn)位置調(diào)整、關(guān)鍵幀位置調(diào)整、可見視線刪除、壞點(diǎn)刪除.點(diǎn)位置調(diào)整等同于先執(zhí)行壞點(diǎn)刪除事件,然后執(zhí)行添加新網(wǎng)格點(diǎn)事件.關(guān)鍵幀位置調(diào)整是指從關(guān)鍵幀隊列中找到該關(guān)鍵幀,修改其位姿,如果位姿有較大變化,則遍歷所有關(guān)聯(lián)的可見視線,執(zhí)行可見視線插入事件.可見視線刪除是指去除與其相關(guān)的點(diǎn)和關(guān)鍵幀的關(guān)聯(lián)屬性.壞點(diǎn)刪除是指先刪除所有相關(guān)的關(guān)鍵幀關(guān)聯(lián)屬性,然后刪除所有相關(guān)網(wǎng)格,最后對其鄰域內(nèi)所有點(diǎn)重新執(zhí)行3D Delaunay三角化,生成新網(wǎng)格.
網(wǎng)格模型的可視化能夠帶給操作者逼真的臨場感.逼真可視化算法是通過將關(guān)鍵幀圖像投影到網(wǎng)格模型上來實(shí)現(xiàn)的.本文選擇空間上最近的4幀關(guān)鍵幀圖像進(jìn)行多紋理融合映射.紋理融合是通過加權(quán)合并來實(shí)現(xiàn)的.針對渲染點(diǎn)p,第i(i∈{1,2,3,4})幀圖像對應(yīng)的權(quán)值計算公式為
式中,Vi,Ni分別為根據(jù)視線夾角和法線向量計算的權(quán)重分量;Si為深度測試值;Pi為第i幀圖像對應(yīng)的相機(jī)位置;Pcr為渲染視點(diǎn)位置;Pn為渲染點(diǎn)p的法線向量;Zr,Zb分別為渲染點(diǎn)p在渲染視點(diǎn)下和深度緩沖區(qū)中存儲的深度值,且當(dāng)Zr>Zb時,渲染點(diǎn)p在第i幀圖像中不可見,故權(quán)值為0.當(dāng)Vi>0時,表示渲染視線與當(dāng)前相機(jī)的觀察視線夾角小于90°,且夾角越大,此值越小;當(dāng)Vi<0時,表示夾角大于90°,直接設(shè)置Wi=0,表示第i幀圖像對當(dāng)前渲染效果無影響.當(dāng)Ni>0時,表示點(diǎn)p在第i幀圖像中可見;反之不可見,設(shè)置Wi=0.
考慮到高效性的需求,紋理融合是通過OpenGL軟件中的著色語言實(shí)現(xiàn)的.預(yù)測視點(diǎn)的計算是根據(jù)操作者的控制輸入來解算的.預(yù)測顯示能夠及時為操作者的下一步?jīng)Q策提供實(shí)時依據(jù),無需等待延時的反饋圖像,從而實(shí)現(xiàn)高效的遙操作.
搭建了一個用于機(jī)器人預(yù)測顯示遙操作的客戶端-服務(wù)器端系統(tǒng),通過真實(shí)場景數(shù)據(jù)來驗(yàn)證預(yù)測顯示效果.機(jī)器人端平臺運(yùn)行在一個輕量級的筆記本電腦上,其型號為聯(lián)想Thinkpad X230t,處理器為2.4 GHz Intel Core(TM) i3-2370M.操作端運(yùn)行在一個組裝的臺式電腦上,其處理器型號為3.50 GHz Intel Core(TM) i7-3770K,同時配有NVIDIA GeForce 7800 GT圖形卡.2個電腦上均運(yùn)行ubuntu 12.04系統(tǒng).軟件平臺搭建在一個通用機(jī)器人軟件開發(fā)平臺ROS[13]上,每個子模塊封裝為一個節(jié)點(diǎn),節(jié)點(diǎn)和節(jié)點(diǎn)之間通過消息進(jìn)行通信.這種模塊化程序設(shè)計有利于應(yīng)用程序的擴(kuò)展.
本文將從數(shù)據(jù)傳輸量、位姿跟蹤的精確度和驗(yàn)證預(yù)測顯示3個方面來驗(yàn)證系統(tǒng)的可行性.
4.1 數(shù)據(jù)傳輸量
考慮到遙操作通信鏈路帶寬的限制,大量數(shù)據(jù)的傳輸會降低系統(tǒng)的效率.實(shí)驗(yàn)中采集了3個室外場景視頻,其分辨率分別為 640×320,640×480,752×480像素,記錄軟件運(yùn)行過程中傳輸不同類型數(shù)據(jù)的平均數(shù)據(jù)傳輸量,結(jié)果見表1.平均傳輸數(shù)據(jù)量等于總數(shù)據(jù)量除以視頻總幀數(shù);圖像視頻數(shù)據(jù)的平均傳輸數(shù)據(jù)量即為每幀圖像大小;關(guān)鍵幀數(shù)據(jù)包括了關(guān)鍵幀圖像及位姿數(shù)據(jù);地圖數(shù)據(jù)包括三維點(diǎn)云及相應(yīng)的地圖事件數(shù)據(jù).由表1可知,與傳輸圖像視頻數(shù)據(jù)相比,僅傳輸關(guān)鍵幀數(shù)據(jù)和地圖數(shù)據(jù)時的平均數(shù)據(jù)傳輸量明顯減少.
表1 網(wǎng)絡(luò)平均傳輸數(shù)據(jù)量對比 kB
4.2 位姿跟蹤的精確度
根據(jù)操作者的控制輸入及機(jī)器人的運(yùn)動學(xué)和動力學(xué)理論,可以估算出機(jī)器人的位姿.但由于存在傳感器及機(jī)構(gòu)誤差,隨著時間的推移誤差將不斷累積,造成較大位姿偏移.因此,基于視覺對機(jī)器人位姿進(jìn)行估計是必要的,這可在一定程度上補(bǔ)償上述偏移.
在本文實(shí)驗(yàn)中,選用了RGB-D數(shù)據(jù)集[14]中的一組30 s視頻數(shù)據(jù)freiburg1_xyz作為實(shí)驗(yàn)數(shù)據(jù)集,其分辨率為640×480像素,攝像機(jī)的運(yùn)動軌跡總長為7.112 m,工作空間為0.46 m×0.70 m×0.44 m.通過比較絕對軌跡誤差來驗(yàn)證跟蹤的精確度.如圖3所示,實(shí)驗(yàn)中共計算了736幀圖像對應(yīng)的相機(jī)位姿誤差.由圖可知,本文算法與RGB-D SLAM算法[14]具有相似的精確度.兩者的平均誤差分別約為0.015和0.012 m,誤差中值分別約為0.013和0.011 m,最小誤差分別約為0.001和0.001 m,最大誤差分別約為0.115和0.034 m.本文算法的最大誤差較大的原因在于,圖像模糊有時會造成特征檢測與匹配失敗,從而導(dǎo)致跟蹤失敗;RGB-D SLAM算法通過引入深度測量,避免了跟蹤失敗.然而,本文算法的優(yōu)勢在于對平臺要求較低,可運(yùn)行在通用的CPU平臺上,僅需單一攝像機(jī);而RGB-D SLAM算法則必須運(yùn)行在GPU平臺上,并且需要使用深度測量傳感器.
圖3 2種算法的相機(jī)位姿誤差比較
4.3 驗(yàn)證預(yù)測顯示
本實(shí)驗(yàn)通過安裝在無人機(jī)底端的一個俯視相機(jī)來采集場景視頻,在操作端人為引入4 s時延,即每當(dāng)接收到關(guān)鍵幀數(shù)據(jù)和地圖事件數(shù)據(jù)時先將其存儲在等待隊列中,經(jīng)過4 s時延后再傳送給模型構(gòu)建模塊進(jìn)行處理.預(yù)測顯示是由3D模型重投影得到的,結(jié)果見圖4.由圖可知,延時圖像明顯滯后,而預(yù)測圖像則較為接近真實(shí)圖像.在實(shí)驗(yàn)中,預(yù)測位姿為跟蹤算法估算的實(shí)時圖像位姿,預(yù)測圖像和真實(shí)圖像的差異正是由于位姿估計誤差所造成的.利用本文算法獲取的3D幾何結(jié)構(gòu)模型見圖4(d),該模型是對稀疏的3D點(diǎn)云進(jìn)行3D Delaunay三角化處理得到的,在程序運(yùn)行過程中進(jìn)行在線更新.
(a) 實(shí)時圖像
(b) 預(yù)測圖像
(c) 延時圖像
(d) 3D模型
為了進(jìn)一步驗(yàn)證三維重建的效果,選取了具有豐富紋理的實(shí)驗(yàn)室書架作為對象,重建結(jié)果見圖5.圖5(a)和(b)為任意視點(diǎn)渲染的圖像,圖5(c)為場景幾何結(jié)構(gòu)模型,它們分別代表了局部視域和全局視域.操作者可以從任意角度、任意距離觀察場景來高效地遙控機(jī)器人.模型的可視化是通過融合距離當(dāng)前渲染視點(diǎn)最近的4幅紋理圖像來實(shí)現(xiàn)的.使用單幅紋理圖像和多幅紋理圖像的模型可視化結(jié)果見圖6.由圖可知,多幅紋理圖像更有助于增加可視化區(qū)域.
(a) 遠(yuǎn)視點(diǎn)
(b) 近視點(diǎn)
(c) 全局幾何結(jié)構(gòu)模型
(a) 單紋理(近視點(diǎn))
(b) 單紋理(遠(yuǎn)視點(diǎn))
(c) 多紋理(近視點(diǎn))
本文搭建了一個客戶端-服務(wù)器端模式的預(yù)測顯示系統(tǒng).該系統(tǒng)能夠?qū)Σ僮髡叩目刂戚斎胩峁┘磿r的視覺反饋,將時延排除在本地控制回路之外.早期的預(yù)測顯示系統(tǒng)大多針對結(jié)構(gòu)化環(huán)境,需要事先構(gòu)建場景模型,本文則將其擴(kuò)展到未知環(huán)境下的預(yù)測顯示遙操作中,利用單目視頻在線重建方法對3D環(huán)境進(jìn)行構(gòu)建.在線重建包括了2個核心內(nèi)容:跟蹤與地圖構(gòu)建和模型重建與預(yù)測顯示.通過多紋理融合映射技術(shù),構(gòu)建出一個逼真的模型可視化平臺,既可以提供預(yù)測圖像,又可以給操作者一個全方位的觀測.實(shí)驗(yàn)結(jié)果表明,該預(yù)測顯示系統(tǒng)能夠逼真地預(yù)測延時圖像,解決了時延造成的視覺反饋滯后的問題.配套軟件平臺可用于遙操作無人機(jī)、火星車、移動車輛、機(jī)械臂等各種遠(yuǎn)程機(jī)器人.
References)
[1]王永, 謝圓, 周建亮. 空間機(jī)器人大時延遙操作技術(shù)研究綜述[J]. 宇航學(xué)報, 2010, 31(2): 299-306. Wang Yong, Xie Yuan, Zhou Jianliang. A research survey on teleoperation of space robot through time delay[J].JournalofAstronautics, 2010, 31(2): 299-306. (in Chinese)
[2]孫漢旭, 胡歡, 賈慶軒,等. 遙操作系統(tǒng)中預(yù)測顯示技術(shù)研究[J]. 宇航學(xué)報, 2013, 34(11): 1502-1508. Sun Hanxu, Hu Huan, Jia Qingxuan, et al. Research on predictive display in teleoperation system[J].JournalofAstronautics, 2013, 34(11): 1502-1508. (in Chinese)
[3]Xie T, Xie L J, He L S, et al. A general framework of augmented reality aided teleoperation guidance[J].JournalofInformationandComputationalScience, 2013, 10(5): 1325-1335.
[4]J?gersand M. Image-based predictive display for high d.o.f. uncalibrated tele-manipulation using affine and intensity subspace models[J].AdvancedRobotics, 2001, 14(8): 683-701.
[5]Kelly A, Chan N, Herman H, et al. Real-time photorealistic virtualized reality interface for remote mobile robot control[J].TheInternationalJournalofRoboticsResearch, 2011, 30(3): 384-404.
[6]Rachmielowski A, Birkbeck N, Jagersand M. Performance evaluation of monocular predictive display[C]//IEEEInternationalConferenceonRoboticsandAutomation. Anchorage, Alaska, USA, 2010: 5309-5314.
[7]Mair E, Hager G D, Burschka D, et al. Adaptive and generic corner detection based on the accelerated segment test[C]//11thEuropeanConferenceonComputerVision. Heraklion, Greece, 2010: 183-196.
[8]Wu F C, Hu Z Y. 5-point and 4-point algorithm to determine of the fundamental matrix[J].ActaAutomaticaSinica, 2003, 29(2): 175-180.
[9]Klein G, Murray D. Parallel tracking and mapping for small AR workspaces[C]//6thIEEEandACMInternationalSymposiumonMixedandAugmentedReality. Nara, Japan, 2007: 225-234.
[10]Szeliski R. 計算機(jī)視覺——算法與應(yīng)用[M]. 艾海舟,等譯. 北京:清華大學(xué)出版社, 2012: 575-581.
[11]Blanco J L. A tutorial on SE(3) transformations and on-manifold optimization[R]. Seville, Spain: University of Malaga, 2010.
[12]Miller G L, Pav S E, Walkington N. Fully incremental 3D delaunay refinement mesh generation[C]//ProceedingsoftheInternationalMeshingRoundtable(IMR). Ithaca, NY, USA, 2002: 75-86.
[13]Cousins S. Exponential growth of ROS [ROS topics][J].IEEERobotics&AutomationMagazine, 2011, 18(1): 19-20.
[14]Sturm J, Engelhard N, Endres F, et al. A benchmark for the evaluation of RGB-D SLAM systems[C]//2012IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems. Vilamoura, Portugal, 2012: 573-580.
On-line reconstruction-based predictive display system for teleoperation
Hu Huan Sun Hanxu Jia Qingxuan
(Automation School, Beijing University of Posts and Telecommunications, Beijing 100876, China)
To improve the operation efficiency of teleoperation, a predictive display method based on monocular vision is proposed for solving the visual feedback delay problem caused by time delay. In this method, the robot’s poses are tracked in real-time by the map-based camera pose estimation algorithm. The three-dimensional geometry model under robot working environments is reconstructed on-line with rendering by multiple texture mapping technology. Finally, the realistic predicted image is obtained by projecting the model into the predicted view. The system platform based on the client-server architecture is constructed which is suitable for teleoperation under unknown environments. The experimental results show that the average error of pose tracking is about 0.015 m over a camera journey of 7.112 m. The proposed system can not only supply the predicted images, but also support to generate the images of arbitrary views, which benefits the operator observing the working environments of the robot from all angles.
predictive display; teleoperation; simultaneous localization and mapping(SLAM); robot vision
10.3969/j.issn.1001-0505.2015.03.007
2014-12-19. 作者簡介: 胡歡(1986—),女,博士生;孫漢旭(聯(lián)系人),男,博士,教授,博士生導(dǎo)師,hxsun@bupt.edu.cn.
國家自然科學(xué)基金資助項(xiàng)目(61175080)、國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(973計劃)資助項(xiàng)目(2013CB733000).
胡歡,孫漢旭,賈慶軒.基于在線重建的遙操作預(yù)測顯示系統(tǒng)[J].東南大學(xué)學(xué)報:自然科學(xué)版,2015,45(3):448-454.
10.3969/j.issn.1001-0505.2015.03.007
TP242
A
1001-0505(2015)03-0448-07