王成軍, 韋志文, 嚴(yán)晨
(1.安徽理工大學(xué)人工智能學(xué)院, 淮南 232001; 2.安徽理工大學(xué)機(jī)械工程學(xué)院, 淮南 232001)
視覺是物體影像刺激視網(wǎng)膜所產(chǎn)生的感覺[1]。人類感知外部環(huán)境主要通過視覺、觸覺、聽覺以及嗅覺等感覺器官,但其中約 80% 的信息是通過視覺器官獲取的[2]。機(jī)器視覺是機(jī)器對(duì)圖像進(jìn)行自動(dòng)處理并報(bào)告圖像內(nèi)容的過程。機(jī)器視覺技術(shù)則應(yīng)用感光元件和計(jì)算機(jī)技術(shù)模擬人類視覺功能[3],代替人眼進(jìn)行目標(biāo)相似性度量和基于目標(biāo)圖像特征的模式識(shí)別。隨著視覺傳感技術(shù)、計(jì)算機(jī)技術(shù)、圖像處理技術(shù)以及人工智能的高速發(fā)展,機(jī)器視覺技術(shù)日趨成熟,已發(fā)展成為現(xiàn)代加工制造業(yè)和綠色制造業(yè)重要的核心技術(shù)[4],包括視覺傳感器技術(shù)、光源照明技術(shù)、光學(xué)成像技術(shù)、數(shù)字圖像處理技術(shù)、模擬與數(shù)字視頻技術(shù)、計(jì)算機(jī)軟硬件技術(shù)以及自動(dòng)控制技術(shù)。機(jī)器視覺技術(shù)不但能模仿人眼的絕大部分功能,而且可完成很多人眼所不能勝任的工作[5]。
傳統(tǒng)的分揀工作主要靠人工來完成,但隨著工業(yè)自動(dòng)化程度的提高,人類視覺顯然不能適應(yīng)快節(jié)奏、高強(qiáng)度的工業(yè)生產(chǎn),故生產(chǎn)過程中的許多環(huán)節(jié)被機(jī)器人所替代。
在新一輪科技革命和產(chǎn)業(yè)變革背景下,分揀機(jī)器人順勢(shì)發(fā)展,自動(dòng)分揀技術(shù)逐漸成為工業(yè)生產(chǎn)的主流,將機(jī)器視覺技術(shù)應(yīng)用于分揀機(jī)器人可減少人工分揀工作量、降低分揀差錯(cuò)率,極大地提升工業(yè)生產(chǎn)效率,實(shí)現(xiàn)分揀作業(yè)的自動(dòng)化和智能化。
國外一些發(fā)達(dá)國家的機(jī)器視覺技術(shù)經(jīng)歷了漫長(zhǎng)的歲月,相關(guān)技術(shù)較為成熟。中國機(jī)器視覺技術(shù)起步較晚,與發(fā)達(dá)國家相比存在較大差距[6],但隨著人口紅利下降,中國市場(chǎng)對(duì)工業(yè)機(jī)器人需求量不斷增大,分揀機(jī)器人技術(shù)得到飛速發(fā)展。
在基于機(jī)器視覺技術(shù)分揀的應(yīng)用背景下,重點(diǎn)綜述不同領(lǐng)域分揀機(jī)器人的應(yīng)用,并對(duì)未來相關(guān)技術(shù)的應(yīng)用趨勢(shì)進(jìn)行展望。
機(jī)器視覺技術(shù)隸屬于計(jì)算機(jī)學(xué),是其衍生的一個(gè)重要分支,從最初的萌芽到如今的發(fā)展,機(jī)器視覺技術(shù)經(jīng)歷了幾十年的歲月,其功能和應(yīng)用范圍逐步完善和擴(kuò)展。早在20世紀(jì)50年代,國外學(xué)者就帶頭開始了二維圖像統(tǒng)計(jì)模式識(shí)別的研究[7];到了 60 年代,Roberts[8]把研究方向轉(zhuǎn)移到了三維機(jī)器視覺上; 70 年代中期,麻省理工學(xué)院(massachusetts institute of technology,MIT)人工智能實(shí)驗(yàn)室正式開設(shè)“機(jī)器視覺”的課程[9]; 80 年代,機(jī)器視覺技術(shù)爆發(fā)了全球性的科研浪潮,發(fā)展突飛猛進(jìn),新概念、新工藝、新理論和新方法層出不窮[10];步入90年代,計(jì)算機(jī)圖像采集設(shè)備逐漸升級(jí),圖像處理技術(shù)與機(jī)器人控制技術(shù)不斷發(fā)展完善,機(jī)器視覺技術(shù)相關(guān)算法也成了研究焦點(diǎn),并獲得深入發(fā)展[11]; 20 世紀(jì)末,Zhang[12]提出了基于二維平面靶標(biāo)的標(biāo)定方法,該方法可實(shí)現(xiàn)相機(jī)內(nèi)外參數(shù)的求解; 21 世紀(jì)初期,Lowe[13-14]提出的SIFT(scale-invariant feature transform)特征提取方法得到了更深入的發(fā)展和完善,并被廣泛應(yīng)用于機(jī)器視覺、三維重建等領(lǐng)域; 2006年,Hinton等[15]開啟了機(jī)器視覺技術(shù)發(fā)展核心領(lǐng)域——深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的研究浪潮;2012年,Krizhevsky等[16]通過卷積神經(jīng)網(wǎng)絡(luò)在ImageNet圖像識(shí)別比賽中取得了突破性進(jìn)展,其構(gòu)建的CNN(convolutional neural networks)網(wǎng)絡(luò)AlexNet首次采用了線性整流函數(shù)ReLU(rectified linear unit),提高了收斂速度并解決了梯度消失問題; 2020年Belan等[17]提出了一種用于機(jī)器視覺質(zhì)量檢測(cè)的機(jī)器視覺系統(tǒng)(machine vision studio,MVS),并通過實(shí)驗(yàn)結(jié)果證明了MVS的魯棒性和可行性。
隨著制造業(yè)和物流行業(yè)的快速發(fā)展,分揀機(jī)器人被廣泛應(yīng)用在各個(gè)領(lǐng)域中,而其分揀過程涉及最核心的領(lǐng)域就是機(jī)器視覺技術(shù)。由于機(jī)器視覺技術(shù)的引入,分揀過程實(shí)現(xiàn)了精準(zhǔn)和高效,分揀機(jī)器人朝著智能化、自動(dòng)化方向快速演進(jìn)。
機(jī)器視覺技術(shù)是實(shí)現(xiàn)人工智能和智能制造的重要技術(shù),其可實(shí)現(xiàn)工業(yè)自動(dòng)化現(xiàn)場(chǎng)產(chǎn)品的缺陷檢測(cè)、機(jī)器視覺引導(dǎo)定位等,對(duì)工業(yè)機(jī)器人代替人力起決定作用。
機(jī)器視覺技術(shù)和人工智能讓機(jī)器擁有了眼睛和大腦,機(jī)器視覺技術(shù)是人工智能的核心領(lǐng)域之一,也是推動(dòng)人工智能發(fā)展的重要力量。機(jī)器視覺技術(shù)與人工智能以及其他領(lǐng)域的關(guān)系如圖1所示。
圖1 機(jī)器視覺技術(shù)與其他領(lǐng)域關(guān)系
機(jī)器視覺技術(shù)屬于交叉學(xué)科,與很多的領(lǐng)域都有關(guān)聯(lián)。其與人工智能的關(guān)系最為密切,對(duì)制造業(yè)的發(fā)展產(chǎn)生了深遠(yuǎn)影響,并提高了生產(chǎn)的柔性和自動(dòng)化程度。隨著不斷地探索和創(chuàng)新,屬于機(jī)器視覺技術(shù)的新時(shí)代將很快到來,基于機(jī)器視覺技術(shù)的產(chǎn)品將會(huì)投入到眾多領(lǐng)域,尤其是環(huán)境復(fù)雜且惡劣的場(chǎng)合[18]。機(jī)器視覺技術(shù)的研究方向主要包括多傳感器信息融合、深層初級(jí)視覺、視覺深度學(xué)習(xí)[19]、主動(dòng)視覺[20]、完整三維場(chǎng)景重構(gòu)、視覺并行計(jì)算結(jié)構(gòu)以及通用視覺信息系統(tǒng)等[21]。
在人工智能時(shí)代的大背景下,機(jī)器視覺與其他傳感器融合的方法將成為研究的熱點(diǎn)。而實(shí)驗(yàn)室中進(jìn)行的機(jī)器視覺研究基本處于理想情況下固定的環(huán)境,輸入源多為靜止或瞬時(shí)視覺信息,難以滿足對(duì)復(fù)雜客觀世界的認(rèn)識(shí)需求[22]。多傳感器信息融合方法不單單指多個(gè)傳感器本身融合,其核心在于各傳感器系統(tǒng)內(nèi)部各信息通道的融合、系統(tǒng)模塊的融合以及各類信息處理方法的融合[23]。多傳感器信息融合將會(huì)使機(jī)器視覺技術(shù)在應(yīng)用中更加精準(zhǔn)且高效,也將使人工智能變得更加智能,方便更好地服務(wù)人類[24]。
分揀機(jī)器人的工作過程可以理解為在機(jī)器視覺的引導(dǎo)下,分揀機(jī)器人的末端執(zhí)行器到達(dá)相應(yīng)位置抓取物件并放到指定位置的過程,如圖2所示。首先應(yīng)該對(duì)視覺攝像頭進(jìn)行位置標(biāo)定,然后視覺攝像頭才能精準(zhǔn)地采集物件的圖像[25]。其次進(jìn)行最核心的步驟——圖像處理,通過圖像處理確定物件的坐標(biāo)和特征,將信息轉(zhuǎn)化成為末端執(zhí)行器的坐標(biāo)和姿態(tài),保證精準(zhǔn)且高效地完成分揀工作。
圖2 分揀機(jī)器人工作流程圖
圖像處理技術(shù)是用計(jì)算機(jī)對(duì)圖像信息進(jìn)行處理的技術(shù),主要包括圖像預(yù)處理、圖像數(shù)字化、圖像增強(qiáng)和復(fù)原、圖像數(shù)據(jù)編碼、圖像分割、形態(tài)學(xué)處理、圖像投影、配準(zhǔn)定位以及圖像特征提取,通過圖像處理可以提升圖像中的有用信息并且精簡(jiǎn)數(shù)據(jù)量,是決定分揀過程是否能夠達(dá)到精準(zhǔn)且高效的關(guān)鍵。
圖像預(yù)處理是將每一個(gè)文本圖像分檢進(jìn)行分類并將其送交識(shí)別模塊進(jìn)行識(shí)別,常用的方法有圖像濾波、二值化和邊緣提取[26]。圖像濾波方法有均值濾波、中值濾波、高斯濾波、BM3D濾波和雙邊濾波等,其目的是消除或者抑制圖像中的噪聲[27]。圖像的二值化處理是將圖像上像素的灰度值置為0 或 1,讓整個(gè)圖像呈現(xiàn)出明顯的黑白效果,從而獲得可以反映圖像整體和局部特征的二值圖像。這樣獲得的圖像包含的數(shù)據(jù)量大大減少,使得后續(xù)處理過程變得簡(jiǎn)單。二值化處理最常用的是Otsu[28]和Kittler等[29]兩種方法:Otsu方法的中心思想是閾值T應(yīng)使目標(biāo)與背景兩類的類間方差最大,又稱最大類間方差法;Kittler方法的中心思想是,計(jì)算整幅圖像的梯度灰度的平均值,相對(duì)于Otsu方法速度更快,更適合應(yīng)用于像素質(zhì)量較高的圖像中。使用邊緣特征來代表整個(gè)圖像,這樣可以大大減少內(nèi)存中的數(shù)據(jù)量,常用的方法有Sobel模板邊緣檢測(cè)、Laplacian模板邊緣檢測(cè)、Canny邊緣檢測(cè)以及霍夫變換直線檢測(cè)等。
圖像增強(qiáng)的目的就是增強(qiáng)圖像中有價(jià)值的信息,其最終的目標(biāo)是優(yōu)化圖像的視覺效果,提高圖像的可讀性[30]。圖像增強(qiáng)技術(shù)一般可分為空間域法與頻率域法兩大類[31]??沼蛟鰪?qiáng)方法可以表示為
g(x,y)=T[f(x,y)]
(1)
式(1)中:f(x,y)表示增強(qiáng)前的圖像;g(x,y)表示增強(qiáng)后的圖像;而T表示增強(qiáng)操作。空間域法[32]的重點(diǎn)是在空間域中直接計(jì)算處理圖像的各個(gè)像素灰度值;而頻率域法[33]則是在圖像的某種變換域內(nèi),通過某種運(yùn)算間接處理圖像的變換系數(shù),之后再變回空間域中,因此可看作是一種間接增強(qiáng)的算法。
圖像分割[34]是指把圖像分割成若干個(gè)特定的或者獨(dú)具特質(zhì)的區(qū)域并從中提煉出需要的對(duì)象的技術(shù)和過程。圖像分割的方法中最常用的有閾值分割、區(qū)域分割、邊緣分割以及特定分割四大類[35]。但是迄今為止,圖像分割算法基本上都是基于特定問題具體分析的,沒有統(tǒng)一的、標(biāo)準(zhǔn)的圖像分割算法[36]。因此,圖像分割技術(shù)正在朝著迅捷、精確且統(tǒng)一的標(biāo)準(zhǔn)化方向高速發(fā)展,也是目前非常值得研究的方向之一。
圖像特征提取與識(shí)別是我們都熟悉的一個(gè)概念,圖像特征提取就是獲取圖像的特征信息的操作,特征提取是圖像壓縮,圖像理解,圖像分類以及識(shí)別的基礎(chǔ)。圖像特征[37]是指圖像最初的特質(zhì)或?qū)傩?,底層的特征包括顏色、紋理、形狀以及區(qū)域結(jié)構(gòu)等多方面的內(nèi)容。對(duì)于特征提取的算法來說,算法的魯棒性會(huì)直接影響整個(gè)缺陷檢測(cè)系統(tǒng)的魯棒性,甚至?xí)绊懴到y(tǒng)的穩(wěn)定性[38]?,F(xiàn)階段常用的圖像特征有Hu不變矩、Haar特征和surf特征,三種特征均具有良好的魯棒性。
分揀機(jī)器人[39]是一類具備了傳感器、物鏡以及電子光學(xué)系統(tǒng)的機(jī)器人,可精確且高效地分揀物件。其分揀工作是將物件按品種、出入庫順序分別放到指定位置的作業(yè)[40];而視覺分揀則是將物件識(shí)別和分類的過程交給視覺系統(tǒng)處理。基于機(jī)器視覺技術(shù)的分揀機(jī)器人提高了分揀的速度、確保了分揀的質(zhì)量、減輕了員工的勞動(dòng)強(qiáng)度,同時(shí)也提高了人員的使用效率,為社會(huì)的發(fā)展做出了巨大貢獻(xiàn),為人工智能更進(jìn)一步奠定了堅(jiān)實(shí)的基礎(chǔ)。
分揀機(jī)器人是一個(gè)集機(jī)械、電氣、計(jì)算機(jī)于一體的機(jī)電一體化設(shè)備,主要由三大部分六個(gè)子系統(tǒng)組成[41]。三大部分包括機(jī)械部分、傳感部分以及控制部分。六個(gè)子系統(tǒng)包括驅(qū)動(dòng)系統(tǒng)、機(jī)械結(jié)構(gòu)系統(tǒng)、感受系統(tǒng)、機(jī)器人-環(huán)境交互系統(tǒng)、人機(jī)交互系統(tǒng)以及控制系統(tǒng)[42]。驅(qū)動(dòng)系統(tǒng)[43]可分為液壓驅(qū)動(dòng)、電氣驅(qū)動(dòng)以及氣動(dòng)驅(qū)動(dòng)三種,三種系統(tǒng)各有所長(zhǎng),如液壓驅(qū)動(dòng)系統(tǒng)適用于分揀機(jī)器人搬運(yùn)大型物件,電氣驅(qū)動(dòng)系統(tǒng)的控制性能好,常用于高精度分揀機(jī)器人,而氣動(dòng)驅(qū)動(dòng)系統(tǒng)是一種柔性系統(tǒng),價(jià)格低且功率質(zhì)量比最低。機(jī)械結(jié)構(gòu)系統(tǒng)是分揀機(jī)器人最基本的要素,主要由執(zhí)行機(jī)構(gòu)、傳動(dòng)機(jī)構(gòu)和支承部件組成,用于完成規(guī)定的動(dòng)作,傳遞功率、運(yùn)動(dòng)和信息以及支承連接相關(guān)部件。對(duì)分揀機(jī)器人來說,末端執(zhí)行器是機(jī)器人機(jī)構(gòu)拓?fù)浣Y(jié)構(gòu)的核心,主要分為氣吸式和機(jī)械夾持式。感受系統(tǒng)[44]是由內(nèi)部與外部各自的傳感器模塊組合而成,用于獲得內(nèi)部和外部環(huán)境狀態(tài)中有價(jià)值的信息,在子系統(tǒng)中占居核心地位;而機(jī)器視覺作為感受系統(tǒng)的子系統(tǒng),在分揀過程中扮演著一種不可或缺的角色。把機(jī)器視覺技術(shù)融合于分揀機(jī)器人中,精準(zhǔn)且高效地將物件從其所處位置分揀出來,并搬運(yùn)到指定位置按預(yù)定的格局進(jìn)行分類、集中[45]。機(jī)器人-環(huán)境交互系統(tǒng)[46]是完成分揀機(jī)器人和周圍環(huán)境裝置相互溝通與協(xié)調(diào)的系統(tǒng),它的存在使得分揀機(jī)器人和周圍環(huán)境裝置集成為一個(gè)功能單元。而人機(jī)交互系統(tǒng)是操作人員參與分揀機(jī)器人控制并與其進(jìn)行溝通的樞紐,在最大程度上幫助人們實(shí)現(xiàn)信息管理、服務(wù)以及處理等功能,使計(jì)算機(jī)和人工智能真正成為人類學(xué)習(xí)與工作的一門技術(shù)科學(xué)[47]??刂葡到y(tǒng)是分揀機(jī)器人最為核心的組成之一,它對(duì)分揀機(jī)器人的性能起著決定性影響,在一定程度上推動(dòng)著分揀機(jī)器人產(chǎn)業(yè)的發(fā)展。分揀機(jī)器人內(nèi)部的協(xié)調(diào)以及多臺(tái)分揀機(jī)器人協(xié)同作業(yè)都離不開控制系統(tǒng)。
機(jī)器視覺技術(shù)是一種采集、處理和分析真實(shí)世界中圖像和視頻的方法,將機(jī)器視覺技術(shù)引入分揀機(jī)器人,使機(jī)器能夠從物理世界中提取有意義的上下文信息,包括機(jī)器視覺識(shí)別、光學(xué)字符識(shí)別、圖像識(shí)別、模式識(shí)別、人臉識(shí)別、邊緣檢測(cè)和運(yùn)動(dòng)檢測(cè)等許多重要領(lǐng)域。對(duì)于不同物件,最明顯的特征就是它的“形狀”[48],故基于機(jī)器視覺的形狀識(shí)別技術(shù)在分揀過程中發(fā)揮著巨大作用,這種用于形狀識(shí)別的技術(shù)使得物件分揀工作更加精準(zhǔn)高效,既能節(jié)省空間,又可提高物件出庫速度。將機(jī)器視覺技術(shù)用于分揀機(jī)器人產(chǎn)業(yè)鏈,使得分揀過程逐步朝著自動(dòng)化分揀、智能化分揀的方向發(fā)展[49]。
攝像頭標(biāo)定技術(shù)是降低相機(jī)采集圖像數(shù)據(jù)誤差的重要技術(shù)之一。攝像頭采集的信息要比人眼觀察的更為簡(jiǎn)單,攝像頭光敏元件首先把接收到的光信號(hào)轉(zhuǎn)變?yōu)閿?shù)字信號(hào),再將其量化成數(shù)字矩陣[50]。攝像頭發(fā)布的圖像數(shù)據(jù)格式多種多樣,但無論是USB(universal serial bus)攝像頭還是RGBD(red+green+blue+depth map)攝像頭,數(shù)據(jù)格式基本可分為二維圖像數(shù)據(jù)和三維點(diǎn)云數(shù)據(jù)。攝像頭屬于對(duì)光學(xué)器件要求較高的精密儀器,圖像采集過程中可能會(huì)鑒于其內(nèi)部或外部環(huán)境某些因素的影響,導(dǎo)致生成物件圖像產(chǎn)生畸變[51]。為排除數(shù)據(jù)源對(duì)最后結(jié)果產(chǎn)生的誤差,必須在圖像采集前對(duì)攝像頭參數(shù)進(jìn)行標(biāo)定[52]。
傳統(tǒng)標(biāo)定技術(shù)需要攝像頭拍攝一個(gè)三維標(biāo)定靶,而較新的標(biāo)定技術(shù)僅需要一些平面靶標(biāo),如布蓋的MATLAB標(biāo)定工具箱和張正友標(biāo)定等[53]。本文中展示了棋盤格圖案的標(biāo)定靶,并根據(jù)使用的攝像頭和標(biāo)定靶棋盤格尺寸,相應(yīng)修改了size、square、image和camera等參數(shù)。為提高標(biāo)定的準(zhǔn)確性,標(biāo)定靶應(yīng)出現(xiàn)于攝像頭視野范圍內(nèi)的各個(gè)領(lǐng)域,界面右上角的進(jìn)度條會(huì)提示標(biāo)定進(jìn)度,如圖3所示。
圖3 攝像頭標(biāo)定程序
通過在相機(jī)視野中不斷上下、左右、前后、旋轉(zhuǎn)以及傾斜地移動(dòng)標(biāo)定靶,直到標(biāo)定程序的參數(shù)采集結(jié)束即可點(diǎn)擊完成[54]。通過采集的數(shù)據(jù)可確定空間物件輪廓上某一點(diǎn)的三維幾何位置和它在圖像中相應(yīng)點(diǎn)之間的彼此聯(lián)系,建立攝像機(jī)成像的幾何模型,獲得幾何模型的對(duì)應(yīng)參數(shù)即是所需要的攝像機(jī)參數(shù)[55]。
完成攝像頭標(biāo)定后,物體的識(shí)別與跟蹤就能夠進(jìn)行了[56]。物體跟蹤和識(shí)別都用到了特征點(diǎn)檢測(cè)手段,雖有類似之處,但側(cè)重點(diǎn)不同[57]。物體識(shí)別針對(duì)對(duì)象包含靜態(tài)和動(dòng)態(tài),依據(jù)檢測(cè)對(duì)象特征點(diǎn)作為識(shí)別的數(shù)據(jù)依據(jù)[58];物體跟蹤的側(cè)重點(diǎn)是對(duì)檢測(cè)對(duì)象位置的精準(zhǔn)定位,輸入的圖像通常需要具備動(dòng)態(tài)特征。
物體識(shí)別屬于機(jī)器視覺技術(shù)中重要且經(jīng)典的問題。物體識(shí)別站在人類的角度來看似乎非常簡(jiǎn)單,人眼可以很輕松地感知圖片上不同顏色、紋理、大小以及位置,從而精準(zhǔn)地識(shí)別目標(biāo)物體。但計(jì)算機(jī)得到的是機(jī)器視覺系統(tǒng)采集提供的RGB(red+green+blue)像素矩陣,想要從圖像中直接獲得比較抽象的物體并對(duì)其定位是相當(dāng)困難的。再者,物體不斷變化的姿態(tài)混合了周圍復(fù)雜的環(huán)境背景,這會(huì)讓物體的識(shí)別難度大增[59]。從2001年Viola等[60]提出基于Adaboost的人臉檢測(cè)方法至今,物體檢測(cè)算法經(jīng)歷了傳統(tǒng)的人工設(shè)計(jì)特征結(jié)合淺層分類器的架構(gòu),到基于大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)的End-To-End物體檢測(cè)架構(gòu),物體識(shí)別技術(shù)逐步成熟。
TensorFlow[61]是一個(gè)用于人工智能的開源神器,其采用數(shù)據(jù)流圖,與ROS(robot operating system)結(jié)合可實(shí)現(xiàn)物體的識(shí)別與跟蹤。如圖4所示是基于TensorFlow Object Detection API結(jié)合ROS實(shí)現(xiàn)的物體識(shí)別效果,圖4中所示物體均能被較好地識(shí)別并定位。
圖4 目標(biāo)物體識(shí)別效果圖
通過ROS獲得攝像頭動(dòng)態(tài)圖像數(shù)據(jù),再經(jīng)過圖像處理,使用cv_brideg將ROS中的圖像消息轉(zhuǎn)換成TensorFlow Object Detection API所需要使用的圖像格式;然后開始圖像識(shí)別,并且將識(shí)別到的物體用矩形框標(biāo)注出來;再轉(zhuǎn)變?yōu)镽OS中的Image message進(jìn)行發(fā)布,提供給ROS中的訂閱者subscri-ber[62]。圖像中的杯子、瓶子和手機(jī)都被非常準(zhǔn)確地識(shí)別了出來,并且標(biāo)注了其所在位置和識(shí)別概率。
基于機(jī)器視覺技術(shù)的分揀機(jī)器人可以將工人從繁重的勞動(dòng)中解放出來,大大提高了分揀的效率,因此被廣泛地應(yīng)用于食品、物流以及煤礦等多個(gè)行業(yè)。
隨著農(nóng)業(yè)科技的發(fā)展和人民生活水平的提高,水果品種越來越多,人們對(duì)水果的品質(zhì)也有了更高的要求。人工分揀勞動(dòng)量大、生產(chǎn)率低而且分揀精度不穩(wěn)定,因此水果分揀的快速、準(zhǔn)確和無損化成為亟需解決的問題。
基于機(jī)器視覺技術(shù)的水果分揀機(jī)器人采用非接觸式的圖像傳感器,因此不會(huì)對(duì)水果造成損傷,可適用于多種類型水果的分揀。Sofu等[63]設(shè)計(jì)的蘋果自動(dòng)分揀與品質(zhì)檢驗(yàn)體系,集成了圖像處理以及曲線擬合軟件,使得分揀過程準(zhǔn)確率逼近96%。基于機(jī)器視覺技術(shù)的水果分揀機(jī)器人不僅能夠檢測(cè)水果的大小和形狀,還能對(duì)水果外表的損傷進(jìn)行分析[64]。如圖5所示[65],根據(jù)水果顏色這個(gè)外觀特征能夠間接判斷其內(nèi)部品質(zhì),如使用近紅外光的品質(zhì)檢測(cè)法精確測(cè)定水果的糖度和酸度,而且檢測(cè)過程十分迅速。
圖5 水果分揀機(jī)器人[65]
近些年電子商務(wù)行業(yè)快速增長(zhǎng),中國每天有超過1億個(gè)快遞包裹,而且中國快遞行業(yè)還在高速發(fā)展,規(guī)模不斷擴(kuò)大。物流業(yè)是對(duì)人力成本非常敏感的產(chǎn)業(yè),同時(shí)機(jī)器視覺技術(shù)具有高度自動(dòng)化、高效率、高精度和環(huán)境適應(yīng)強(qiáng)等優(yōu)點(diǎn),為高速發(fā)展的物流分揀系統(tǒng)開啟了“新視界”。物流行業(yè)正從原始的人工分揀向模塊化、智能化以及自動(dòng)化方向快速演進(jìn)。
極智嘉(Geek+)[66]是一家專注于智慧物流的AI機(jī)器人公司,通過融合機(jī)器視覺技術(shù)與人工智能相關(guān)技術(shù)來完成高度柔性以及智能物流自動(dòng)化的解決方案,被稱為“機(jī)器人智能物流專家”,其生產(chǎn)的物流分揀機(jī)器人以穩(wěn)定魯棒、性能優(yōu)異以及安全可靠等優(yōu)點(diǎn)深受顧客青睞。
基于機(jī)器視覺技術(shù)的物流分揀機(jī)器人可以將貨物從目標(biāo)位置快速且準(zhǔn)確地搬運(yùn)到指定的位置,所有的作業(yè)均是按照指令自動(dòng)完成,其間不會(huì)受到氣候、時(shí)間和體力的限制,真正實(shí)現(xiàn)了貨物的連續(xù)大規(guī)模分揀。在準(zhǔn)確性方面,先進(jìn)的機(jī)器視覺技術(shù)可以自動(dòng)識(shí)別并判斷商品的條形碼、尺寸、重量和形狀,分揀錯(cuò)誤率極低。分揀車間實(shí)現(xiàn)了極少數(shù)人輔助分揀甚至無人分揀,大大降低了企業(yè)的人力成本投入,同時(shí)也降低了企業(yè)員工的勞動(dòng)強(qiáng)度,提高了人員的使用效率。深圳路輝物流設(shè)備有限公司在物流行業(yè)很具有代表性,是一家聚焦智能分流領(lǐng)域的國家高新企業(yè),其使用滾珠模組帶分揀系統(tǒng)和高速分流器實(shí)現(xiàn)智能分揀,分揀效率極高,達(dá)到了1萬件/h,而且分揀準(zhǔn)確率達(dá)到了 99.99%。因此,其被廣泛應(yīng)用于電商與快遞物流行業(yè)。安徽省一通研發(fā)的高速環(huán)形交叉帶分揀系統(tǒng),實(shí)測(cè)分揀效率高達(dá) 2.3萬件/h,而且分揀準(zhǔn)確率高達(dá) 99.99%,廣泛應(yīng)用于郵政快遞、跨境電商、海關(guān)等行業(yè)。
隨著人們?cè)絹碓疥P(guān)注食品的質(zhì)量和健康,食品行業(yè)面臨著越來越多的產(chǎn)品篩選和工作,手工分揀存在速度慢、準(zhǔn)確性差、不衛(wèi)生以及勞動(dòng)力成本高等問題?;跈C(jī)器視覺技術(shù)的智能分揀機(jī)器人為食品制造商帶來了更多的智能選擇,這有助于節(jié)省勞動(dòng)力、提高效率和產(chǎn)品質(zhì)量,同時(shí)人工智能也帶來了更大的靈活性。
食品分揀機(jī)器人主要是由一個(gè)基于機(jī)器視覺技術(shù)的圖像識(shí)別系統(tǒng)和一個(gè)多功能機(jī)械手組合而成。在食品分揀生產(chǎn)線上,最普遍的是選用Eye-to-Hand[67]的方式來實(shí)現(xiàn)運(yùn)動(dòng)食品的抓取。為了使機(jī)械手能夠精確且穩(wěn)定地抓取、搬運(yùn)食品,最常用的是基于位置的機(jī)器視覺控制技術(shù)。機(jī)器視覺系統(tǒng)的識(shí)別以及定位是通過對(duì)食品的邊緣、形狀以及顏色等進(jìn)行特征檢測(cè),最終引導(dǎo)分揀機(jī)器人實(shí)現(xiàn)對(duì)應(yīng)的抓取和搬運(yùn)工作[68]。近年來,隨著機(jī)器視覺技術(shù)的高速成長(zhǎng),基于機(jī)器視覺技術(shù)的食品分揀機(jī)器人的分揀過程越來越高效[69]。同時(shí)SCARA(selective compliance assembly robot arm)機(jī)器人得益于其負(fù)載小、速度快,因此常常被作為分揀機(jī)器人的載體,廣泛應(yīng)用于食品分揀行業(yè)。同時(shí),并聯(lián)分揀機(jī)器人也被廣泛應(yīng)用于食品分揀行業(yè),通常是四軸和六軸并聯(lián)機(jī)器人,即所謂的蜘蛛手,主要應(yīng)用于巧克力、餅干、面包等食品生產(chǎn)線,如圖6所示[70]。
圖6 并聯(lián)食品分揀機(jī)器人[70]
在中國的化石能源中,富煤、貧油、少氣是最基本的特征,這決定了煤炭在中國化石能源使用中所居的關(guān)鍵位置[71]。在煤炭生產(chǎn)中,煤炭分揀過程環(huán)境十分惡劣:一成不變的體力勞動(dòng),揚(yáng)起的灰塵,轟隆隆的機(jī)器聲音,濃烈的有害氣體味道。由于環(huán)境的惡劣,人工分揀不僅傷害工人的健康,而且生產(chǎn)效率低且成本也高。隨著社會(huì)發(fā)展和科技進(jìn)步,基于PLC(programmable logic controller)的分揀設(shè)備應(yīng)運(yùn)而生,但其在分揀過程中穩(wěn)定性得不到保障,因此可靠性差,不適合大批量投入使用。近年來,基于機(jī)器視覺技術(shù)的分揀機(jī)器人漸漸步入煤炭行業(yè)。因其具有成本低、效率高、穩(wěn)定性好而且非常智能等特點(diǎn),被廣泛應(yīng)用于煤炭分揀過程中。
在人工智能發(fā)展突飛猛進(jìn)的今天,智能煤矸石分揀系統(tǒng)很快被研發(fā)出來,其運(yùn)用人工智能深度學(xué)習(xí)技術(shù),通過對(duì)海量的矸石和煤炭圖片進(jìn)行人工標(biāo)注矸石和煤炭特征,運(yùn)用Faster R-CNN[72]算法,以基于機(jī)器視覺技術(shù)的分揀機(jī)器人為載體,可快速且準(zhǔn)確識(shí)別皮帶上的煤炭和矸石,并通過智能中央控制系統(tǒng)指揮機(jī)器人末端執(zhí)行器進(jìn)行準(zhǔn)確分揀。通過機(jī)器視覺技術(shù)、深度學(xué)習(xí)與人工智能算法的融合,分揀精準(zhǔn)且高效,煤炭和矸石識(shí)別率高達(dá) 98%,同時(shí)分揀后煤帶矸石率小于 2%。隨著機(jī)器視覺技術(shù)的發(fā)展和人工智能算法的優(yōu)化,分揀的準(zhǔn)確率將達(dá)到 100%且大大降低分揀時(shí)間。
基于機(jī)器視覺技術(shù)的分揀機(jī)器人應(yīng)用于煤炭行業(yè),大大降低了煤炭分揀過程的一系列成本,減少了安全事故的發(fā)生,為實(shí)現(xiàn)煤炭開采的智能化升級(jí)改造、智慧礦山和綠色礦山奠定了堅(jiān)實(shí)的基礎(chǔ)。
機(jī)器視覺技術(shù)是分揀機(jī)器人領(lǐng)域的一項(xiàng)重要技術(shù),其拓展了分揀機(jī)器人的研究方向和應(yīng)用領(lǐng)域,基于機(jī)器視覺技術(shù)的分揀機(jī)器人被廣泛應(yīng)用于食品、煤炭、物流、電子制造以及汽車制造等行業(yè)。機(jī)器視覺技術(shù)的發(fā)展一方面得益于計(jì)算機(jī)和相機(jī)性能的提升,另一方面也離不開核心算法的優(yōu)化和創(chuàng)新。機(jī)器視覺技術(shù)的發(fā)展使得基于機(jī)器視覺技術(shù)的分揀機(jī)器人工作更加高效、更加智能和更加人性化。本文中從機(jī)器視覺技術(shù)的角度對(duì)分揀機(jī)器人的組成和關(guān)鍵技術(shù)進(jìn)行了介紹,剖析了機(jī)器視覺技術(shù)未來可能的研究方向,最后梳理了基于機(jī)器視覺技術(shù)的分揀機(jī)器人在多個(gè)領(lǐng)域中的應(yīng)用現(xiàn)狀。
雖然基于機(jī)器視覺技術(shù)的分揀機(jī)器人在各行業(yè)得到了廣泛應(yīng)用,但在具體實(shí)施過程中仍存在以下問題和挑戰(zhàn)。
(1)在實(shí)際分揀過程中,由于待分揀物體的形狀和材質(zhì)不固定,機(jī)器視覺系統(tǒng)需要處理的信息多且復(fù)雜?,F(xiàn)有的機(jī)器視覺算法識(shí)別過程耗時(shí)長(zhǎng),難以實(shí)現(xiàn)精準(zhǔn)高效分揀的目標(biāo)。因此,亟需設(shè)計(jì)一種新的機(jī)器視覺算法來提升特征提取能力、特征選擇能力以及特征分類能力,使得高效精準(zhǔn)分揀成為現(xiàn)實(shí)。
(2)嵌入式機(jī)器視覺系統(tǒng)是先進(jìn)的計(jì)算機(jī)技術(shù)、半導(dǎo)體技術(shù)、電子技術(shù)相結(jié)合后在各個(gè)行業(yè)具體應(yīng)用的產(chǎn)物,其可以達(dá)到實(shí)時(shí)視覺圖像采集與視覺圖像處理控制的效果,且對(duì)于一些特定的分揀場(chǎng)合,可以不使用高端計(jì)算機(jī)。使用嵌入式機(jī)器視覺系統(tǒng)可以使分揀機(jī)器人結(jié)構(gòu)更緊湊,在降低成本的同時(shí)也減小了功耗。因此,把嵌入式機(jī)器視覺系統(tǒng)融入分揀機(jī)器人是未來的重點(diǎn)研究方向。
(3)分揀機(jī)器人并沒有像人類一樣敏銳的視覺,且現(xiàn)有的機(jī)器視覺算法受環(huán)境影響很大,單一的機(jī)器視覺很難適用于復(fù)雜的分揀場(chǎng)景。因此,給分揀機(jī)器人配備多個(gè)不同類型傳感器,將來自多傳感器或多源的信息和數(shù)據(jù)按照一定的準(zhǔn)則進(jìn)行自動(dòng)分析和綜合,讓分揀機(jī)器人能夠靈活感知環(huán)境并完成物體識(shí)別、精準(zhǔn)定位、自由抓取是現(xiàn)階段的首要任務(wù)。但是,目前尚未建立統(tǒng)一的融合理論和有效廣義融合模型及算法,對(duì)數(shù)據(jù)融合的具體方法研究也尚處于初步階段。因此,建立統(tǒng)一的融合理論、數(shù)據(jù)融合的體系結(jié)構(gòu)和廣義融合模型,將人工智能技術(shù)與大數(shù)據(jù)引入到數(shù)據(jù)融合領(lǐng)域以提高多傳感融合的性能,并構(gòu)建數(shù)據(jù)融合測(cè)試評(píng)估平臺(tái)和多傳感器管理體系是未來的重點(diǎn)研究方向。
(4)在分揀行業(yè),機(jī)器視覺已經(jīng)幾乎成為標(biāo)配,但在具體應(yīng)用上,卻往往還是采用傳統(tǒng)機(jī)器視覺算法,加入人工智能的機(jī)器視覺算法仍然應(yīng)用較少。用“人工智能+機(jī)器視覺”來做機(jī)器識(shí)別,優(yōu)勢(shì)非常明顯,可大大增加分揀過程的柔性,在不同的位置、光照以及復(fù)雜環(huán)境下,能夠呈現(xiàn)出更好的適應(yīng)性。但準(zhǔn)確率一直制約著人工智能應(yīng)用的發(fā)展,目前大多數(shù)人工智能算法都難以達(dá)到較高的準(zhǔn)確率,誤差率只能控制在15%左右。因此,提高人工智能算法的準(zhǔn)確率是未來研究的重點(diǎn)和難點(diǎn)。
(5)在人工智能大數(shù)據(jù)時(shí)代背景下誕生的5G具有高速率、低時(shí)延及大連接等特點(diǎn)。與5G深度融合的深度學(xué)習(xí)算法將機(jī)器視覺的效率和魯棒性和人類視覺的靈活性相結(jié)合,結(jié)合后的機(jī)器視覺分揀系統(tǒng)不僅具備在復(fù)雜環(huán)境中檢測(cè)的能力,而且在實(shí)時(shí)性方面也得到了很大改善。深度融合5G和深度學(xué)習(xí)的機(jī)器視覺將使高分辨率圖像的機(jī)器視覺分揀系統(tǒng)、多分揀機(jī)器人協(xié)作作業(yè)成為可能,同時(shí)也能加速智慧分揀工廠的建設(shè),為打造未來超級(jí)工廠提供了思路。