劉宇,徐鋒,張丹,阮橋,左敦穩(wěn)
南京航空航天大學 江蘇南京 210016
在工業(yè)4.0時代,質(zhì)量和效率是制造業(yè)產(chǎn)品增值的關(guān)鍵因素。增強現(xiàn)實技術(shù)(AR)憑借其能夠幫助操作人員建立物理世界與數(shù)字信息環(huán)境連接的特性,在制造業(yè)中已經(jīng)被視為提高效率的強大技術(shù)工具。增強現(xiàn)實區(qū)別于虛擬現(xiàn)實(VR),它以交互的方式,實時地在真實環(huán)境中注冊虛擬對象,是對真實物理環(huán)境的補充,這顯著減少了其對硬件的依賴,提高了工業(yè)應用能力。工業(yè)增強現(xiàn)實適用性分布研究報告中指出,在機器人操作、維護、制造等10個AR工業(yè)應用類別中,增強現(xiàn)實技術(shù)在手動裝配領(lǐng)域的應用最廣,占比達到32%?;谠鰪姮F(xiàn)實的裝配引導技術(shù)已經(jīng)成為了智能制造研究的熱點,其重要性得到了普遍認可。
基于增強現(xiàn)實的裝配引導技術(shù)一般以系統(tǒng)平臺的形式進行開發(fā)部署,將增強現(xiàn)實技術(shù)應用于產(chǎn)品裝配引導,以實現(xiàn)產(chǎn)品、真實環(huán)境和虛擬信息與操作人員實時交互。圖1所示為典型的視覺增強現(xiàn)實裝配引導系統(tǒng)運行流程圖,主要分為視頻流采集、圖像處理、跟蹤注冊和信息交互4個步驟。其中圖像處理對采集的視頻幀進行分析,為跟蹤注冊或信息交互提供響應信號。
圖1 典型視覺增強現(xiàn)實裝配引導系統(tǒng)運行流程
在國外,基于增強現(xiàn)實的裝配引導技術(shù)正趨于集成化與智能化,并已應用于真實的裝配環(huán)境中。Zhl等研發(fā)出了面向機械裝配的智能增強現(xiàn)實裝配系統(tǒng),該系統(tǒng)的視覺模塊由兩個單目相機組成,其中AR相機基于人工標識進行跟蹤注冊,識別相機基于R-CNN神經(jīng)網(wǎng)絡對裝配工具或裝配部件進行智能識別,并標記其在視場的位置。此系統(tǒng)被應用在數(shù)控雕刻機的裝配中,通過增強現(xiàn)實的指令引導,操作人員裝配時間及錯誤率顯著降低。Mura的研究團隊開發(fā)了支持車身面板對準裝配的增強現(xiàn)實原型系統(tǒng),它通過傳感器實時測量汽車所需裝配面板之間的間隙及其他公差信息,并與矩陣模板庫進行對比,最后轉(zhuǎn)換成增強現(xiàn)實指令以校準工人的裝配誤差。系統(tǒng)對裝配誤差的及時檢測與回饋,提高了裝配的精確度,極大減少了裝配過程對操作人員經(jīng)驗的依賴。然而,此系統(tǒng)仍然存在部署繁瑣、矩陣模板測量困難等問題,還存在很大的改善空間。
在國內(nèi),此項技術(shù)的研究主要集中在高校,距離工業(yè)應用還存在一定差距。南京航空航天大學的楊康康等針對跟蹤注冊流程提出一種基于RGB-D數(shù)據(jù)的配準方法,基于此方法開發(fā)了增強現(xiàn)實裝配指導系統(tǒng),同時以發(fā)動機模型的裝配為例,驗證了配準方法的穩(wěn)定性與準確性。上海交通大學的劉然等以車門驅(qū)動電動機為裝配對象,使用基于自然特征和LINEMOD算法分別對裝配基體和安裝的零部件進行識別、跟蹤注冊,最后根據(jù)增強指令進行零部件裝配。此方法對大基體、小零部件的工業(yè)產(chǎn)品具有良好的適用性。
目前,國內(nèi)外對增強現(xiàn)實裝配引導技術(shù)的研究正處于如火如荼的關(guān)鍵時期,其整體的發(fā)展正向著集成化、智能化、普適化和精確化的目標前進,但這仍然需要研究人員的艱苦攻關(guān)。
基于增強現(xiàn)實的裝配引導技術(shù)的關(guān)鍵是三維跟蹤注冊技術(shù),它直接影響虛擬信息的可讀性以及信息呈現(xiàn)在真實環(huán)境中的位姿。而信息顯示與交互技術(shù)是基于增強現(xiàn)實的裝配引導技術(shù)的重要組成部分,是聯(lián)系人機的紐帶。
三維跟蹤注冊是將虛擬信息實時地與真實環(huán)境進行配準融合,其中應用最廣泛的是基于計算機視覺的跟蹤注冊技術(shù),根據(jù)環(huán)境中有無標志物可再細分為基于人工標識和無標識的三維跟蹤注冊方法。
(1)基于人工標識的三維跟蹤注冊方法 基于人工標識的三維跟蹤注冊方法應用最為廣泛,并且已開發(fā)出成熟的增強現(xiàn)實軟件開發(fā)工具包(SDK),如AR TOOL Kit。該方法(見圖2)預先在裝配場景中放置預定義的人工標識,相機對其捕捉識別后進行配準,而這些標識大多由黑白兩色組成,易被識別?;谌斯ぷR別的三維跟蹤注冊方法的工作流程為特征點提取、位姿矩陣計算、虛實融合3個步驟。該方法魯棒性、實時性好,受環(huán)境因素影響小,但還存在著如下問題:進行裝配操作時標識易被遮擋,使跟蹤注冊失效;對零部件造成二次污染;操作視野小。這些都制約著此方法在增強現(xiàn)實裝配引導技術(shù)中的發(fā)展和應用。
圖2 基于人工標識的三維跟蹤注冊方法
(2)無標識的三維跟蹤注冊方法 有以下幾種。
1)基于自然特征的跟蹤注冊方法?;谧匀惶卣髋c基于人工標識的方法,其工作流程類似,區(qū)別在于基于自然特征的方法以具有豐富特征的自然圖像作為計算位姿變換矩陣的依據(jù)。對自然場景圖像進行特征點提取與匹配的相關(guān)算法已經(jīng)非常成熟,其中具有代表性的有SIFT(Scale- Invariant Feature Transform)、ORB(Oriented FAST and Rotated BRIEF)等,利用ORB算子進行特征點匹配的效果如圖3所示。各個算法的側(cè)重點不同,其選取和改進的方向依賴于自然場景的具體特征,否則將會影響增強現(xiàn)實系統(tǒng)的實時性與魯棒性。此方法避免了標識對裝配環(huán)境的“污染”,但受環(huán)境影響較大且對弱紋理的工業(yè)零件識別效果差,具有一定的局限性。
圖3 利用ORB進行特征點匹配
2)基于模型的跟蹤注冊方法?;谀P偷母欁苑椒ㄊ墙鉀Q弱紋理零件跟蹤注冊的主要方法,其中邊跟蹤與基于點云配準的方法發(fā)展最快。此類方法通過三維重建或Solidworks等繪圖軟件建立零件模型,并以此獲得零件的輪廓特征或點云數(shù)據(jù)作為先驗知識,最后在捕捉的視頻幀或RGB-D數(shù)據(jù)中尋找最優(yōu)關(guān)系,進行配準和注冊。目前,高通公司的Vuforia發(fā)布了model target插件,在Unity平臺實現(xiàn)了基于模型的跟蹤注冊技術(shù)(見圖4)的商業(yè)應用,加快了增強現(xiàn)實裝配引導系統(tǒng)的開發(fā)流程?;谀P瓦M行跟蹤注冊仍有很大的局限性,它依賴于零件本身:特征單一、輪廓簡單的零件誤識別率高;特征繁多,輪廓復雜的零件計算量大,實時性識別難以保證。
圖4 Vuforia中model target的跟蹤注冊
3)基于深度學習的跟蹤注冊方法。近幾年,深度學習快速發(fā)展,在增強現(xiàn)實領(lǐng)域中,各種深度學習的方法及體系結(jié)構(gòu)憑借其強大的計算能力可以更有效、更魯棒地執(zhí)行和解決跟蹤注冊的任務,其中直接以RGB圖像為輸入,以目標物體六自由度位姿為輸出的深度學習網(wǎng)絡模型發(fā)展最為迅猛。此類方法主要以李代數(shù)、四元數(shù)或控制點來表示目標物體的旋轉(zhuǎn)和位移,將位姿估計問題轉(zhuǎn)化為回歸問題,主要流程如圖5所示。
圖5 基于深度學習的位姿估計方法主要流程
Tekin等基于YOLOv2網(wǎng)絡提出了YOLO-6D網(wǎng)絡模型。以光驅(qū)為識別對象的YOLO-6D位姿預測通過輸入的RGB圖像來實時預測目標物體3D邊界框的8個角點及中心點的2D投影坐標,最后使用PnP(Perspective-n-Point)算法來計算目標對象在三維空間的旋轉(zhuǎn)和平移矩陣(見圖6)。Kstner等基于YOLO-6D網(wǎng)絡,在HoloLens上實時檢測和標注移動機器人的位姿,在實時性與預測準確性方面都取得了不錯的效果,張德等提出通過YOLO和關(guān)鍵點檢測器網(wǎng)絡(KPD),分別實現(xiàn)目標檢測和標記被訓練關(guān)鍵點的2D投影位置的功能,然后根據(jù)關(guān)鍵點2D-3D關(guān)系,利用概率神經(jīng)網(wǎng)絡算法計算位姿,此方法無需再進行位姿的二次優(yōu)化就能達到較高的精度。
圖6 基于YOLO-6D的位姿預測
基于深度學習的跟蹤注冊方法較于傳統(tǒng)方法具有較高的精度和魯棒性,但還存在所需數(shù)據(jù)龐大、數(shù)據(jù)集制作困難以及模型訓練周期長等問題,限制了它的快速發(fā)展。
信息顯示與操作人員的裝配過程直接相關(guān),是引導裝配的重要一環(huán)。信息顯示取決于硬件設備,比較經(jīng)濟的方案是利用多目攝像頭和顯示器,來組成系統(tǒng)的場景信息收集和信息顯示模塊,但是此方案存在視野固定,調(diào)試部署周期長,設備零散等問題。目前較流行的還是Microsoft公司發(fā)布的HoloLens2,它集成了深度相機、磁力儀等多種傳感器,使操作人員可以更靈活地進行裝配操作,具有較好的沉浸式體驗。雖然HoloLens2因為存在成本較高、易致人眩暈等問題,而沒有在工業(yè)上廣泛應用,但信息顯示的硬件載體將會繼續(xù)沿著集成化的方向發(fā)展。
信息管理是根據(jù)對裝配作業(yè)的認知,對裝配工藝等信息進行獲取、維護和管理。常見的方法是信息建?;蜻\用知識圖與語義網(wǎng)技術(shù)。華中科技大學的藍珊將基本的裝配工藝信息與裝配過程的多媒體信息進行IDEF1X建模,將它們分類組織、轉(zhuǎn)換、關(guān)聯(lián),從而轉(zhuǎn)換成在增強現(xiàn)實裝配引導的數(shù)據(jù)信息庫,并在裝配過程中進行調(diào)用。語義網(wǎng)技術(shù)主要是將各種文本格式的文件及其他非結(jié)構(gòu)化的信息編碼轉(zhuǎn)化成計算機能理解的結(jié)構(gòu)化信息和推理規(guī)則集,而知識圖更側(cè)重于數(shù)據(jù)和語義的圖形化結(jié)構(gòu)。知識圖與語義網(wǎng)技術(shù)相輔相成,通過上下文信息,極大地豐富了數(shù)據(jù)的內(nèi)容。Walczak等提出了一種分布式增強現(xiàn)實服務的體系結(jié)構(gòu),利用語義網(wǎng)技術(shù)有效地搜索上下文描述的分布式資源,構(gòu)成交互式增強現(xiàn)實演示,以提供搜索和反饋服務。
隨著傳感器技術(shù)的發(fā)展,人機交互的方式越來越多樣化。傳統(tǒng)的鍵鼠交互方式雖然穩(wěn)定,但是操作效率低,無法實現(xiàn)虛實場景的無縫銜接,已經(jīng)漸漸被摒棄。而基于深度學習和多傳感器的語音、手勢、眼控等交互方式具有簡單、自然、效率高等特點,是目前人機交互研究的重點和熱點。董瓊等就在利用增強現(xiàn)實進行裝配的場景中,通過提煉的關(guān)鍵語音命令搭建了指導裝配的語音交互系統(tǒng),提高了人機交互的效率和用戶體驗。
基于增強現(xiàn)實的裝配引導技術(shù)為用戶提供了新的交流和獲取信息的方式,能夠有效提高產(chǎn)品裝配的效率。目前,此項技術(shù)正向著集成化和智能化方向發(fā)展,而深度學習是智能化的重要技術(shù)工具,它能夠提高整個系統(tǒng)的效率和有效性,并將“智能”灌輸?shù)较到y(tǒng)中,在跟蹤注冊、人工交互等技術(shù)領(lǐng)域相比于傳統(tǒng)方法,在效率和精確度方面取得了不錯的應用效果。同時,科研人員提出使用虛擬合成數(shù)據(jù)來代替部分真實數(shù)據(jù)的方法來彌補訓練深度學習模型時所需數(shù)據(jù)量大、數(shù)據(jù)集制作困難等問題,從而顯著降低了深度學習應用的門檻。未來,基于增強現(xiàn)實的裝配引導技術(shù)的發(fā)展會與深度學習進行更深層次的結(jié)合,將進一步強化此項技術(shù)的功能、應用和服務,這還需要科研人員不斷的研究和創(chuàng)新。