左懷見(jiàn),徐 聰,盧勝?gòu)?qiáng),段吉安
(中南大學(xué) 高性能復(fù)雜制造國(guó)家重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410083)
工業(yè)加工中,加工物體的精準(zhǔn)位置檢測(cè)是一個(gè)很常見(jiàn)的問(wèn)題。人工操作存在著精度低、效率低的缺點(diǎn)。傳統(tǒng)機(jī)器視覺(jué)算法可以實(shí)現(xiàn)物體位置檢測(cè),所以現(xiàn)在一般采用基于傳統(tǒng)機(jī)器視覺(jué)算法的位置檢測(cè)系統(tǒng)。傳統(tǒng)機(jī)器視覺(jué)算法通常對(duì)圖像進(jìn)行復(fù)雜的變換處理,再進(jìn)行復(fù)雜的數(shù)學(xué)計(jì)算得到物體位置信息,過(guò)程非常繁瑣。而且算法對(duì)圖像里的場(chǎng)景要求很苛刻,不同場(chǎng)景需要不同的特定算法處理,不具有通用性。
深度學(xué)習(xí)的概念由Hinton等人在2006年首先提出,直到2012年Krizhevsky在ImageNet圖像分類比賽中使用的深度學(xué)習(xí)方法力壓傳統(tǒng)方法取得突破性成績(jī)后,深度學(xué)習(xí)呈現(xiàn)出了爆發(fā)式發(fā)展[1]。近幾年深度學(xué)習(xí)被廣泛應(yīng)用在圖像處理、自然語(yǔ)言處理和搜索推薦等領(lǐng)域中,并且取得傳統(tǒng)方法達(dá)不到的成績(jī)。特別是在圖像處理中,物體位置檢測(cè)使用深度學(xué)習(xí)算法表現(xiàn)的非常優(yōu)秀[2]。深度學(xué)習(xí)算法對(duì)圖像場(chǎng)景要求不苛刻,通用性強(qiáng)。圖像是相似的場(chǎng)景中不需修改算法也能得到很好的結(jié)果。深度學(xué)習(xí)算法一端接收?qǐng)D像,另一端輸出圖像中物體的位置,不需要設(shè)計(jì)復(fù)雜的圖像變換和數(shù)學(xué)計(jì)算,過(guò)程非常簡(jiǎn)潔。深度學(xué)習(xí)算法很好的解決了上述傳統(tǒng)機(jī)器視覺(jué)算法在實(shí)際生產(chǎn)中的不足。怎么將這些深度學(xué)習(xí)算法應(yīng)用在工業(yè)生產(chǎn)中成為近幾年工業(yè)界里邊一個(gè)重要的問(wèn)題。
我們開(kāi)發(fā)了一套基于深度學(xué)習(xí)的芯片位置檢測(cè)系統(tǒng)。系統(tǒng)檢測(cè)激光bar條上芯片的位置,控制運(yùn)動(dòng)平臺(tái)將芯片移動(dòng)到測(cè)試和加工的位置。系統(tǒng)使用的深度學(xué)習(xí)位置檢測(cè)算法定位精確度高、通用向強(qiáng),可以應(yīng)用在不同的場(chǎng)景中。
基于深度學(xué)習(xí)的芯片位置檢測(cè)系統(tǒng)分為圖像處理部分和物理加工部分,如圖1所示。圖像處理部分包括圖像采集模塊和深度學(xué)習(xí)模塊。物理加工部分包括通信模塊和運(yùn)動(dòng)加工模塊。
圖1 芯片位置檢測(cè)系統(tǒng)
圖像采集模塊采集加工平臺(tái)上含芯片的圖像。深度學(xué)習(xí)模塊接收?qǐng)D像,輸出圖像中的芯片的位置。通信模塊將芯片的位置信息傳遞到運(yùn)動(dòng)加工模塊。運(yùn)動(dòng)加工模塊依據(jù)接收的位置信息將運(yùn)動(dòng)平臺(tái)移動(dòng)到正確的位置。其中圖像采集模塊需要合適的相機(jī)配合光源才能得到高質(zhì)量圖像,運(yùn)動(dòng)加工模塊需要搭建物理加工平臺(tái)實(shí)現(xiàn)移動(dòng)及加工。下邊介紹相機(jī)選型的細(xì)節(jié)和物理加工平臺(tái)的結(jié)構(gòu)。
黑白相機(jī)是圖像采集模塊中最重要的物理裝置,其作用是利用光學(xué)系統(tǒng)聚焦于成像平面的光線生成圖像。高質(zhì)量的圖像自然需要高質(zhì)量且合適的相機(jī)。相機(jī)中最重要的光學(xué)器件是鏡頭。鏡頭的幾何關(guān)系如式(1)所示。
式中:Hi為實(shí)際物體的高度;Ho為相機(jī)成像后物體的高度;Di為物距;Do為相距;TIMES為鏡頭的放大倍數(shù)。鏡頭里參數(shù)的幾何意義如如2所示。
圖2 鏡頭里參數(shù)的幾何意義
系統(tǒng)里的工業(yè)相機(jī)選用??低暪镜暮诎紫鄼C(jī),型號(hào)為MV-CE050-30UM黑白相機(jī)。相機(jī)500萬(wàn)像素,傳感器為cmos,通信接口為usb3.0,輸出圖像分辨率為2592×1944。cmos傳感器對(duì)實(shí)際物體掃描采樣的最小單位是0.0022mm×0.0022mm。系統(tǒng)采集的圖像精度為0.0022mm(亞微米級(jí)別),完全達(dá)到檢測(cè)要求。圖3物理加工平臺(tái)中相機(jī)位置大約在芯片位置的正上方。
正常的LED燈可以提供合適的照明狀態(tài)。在圖像采集過(guò)程中,保持良好的照明狀態(tài)可以降低采集高質(zhì)量圖3物理加工平臺(tái)圖像的難度,提高系統(tǒng)的可靠性。
圖3 物理加工平臺(tái)
物理加工平臺(tái)分為通信部分和物理移動(dòng)部分。通信部分控制器MPC08控制卡接收計(jì)算機(jī)發(fā)送的芯片位置信息。物理移動(dòng)部分控制器MPC08控制卡依據(jù)芯片的位置信息發(fā)出控制命令。步進(jìn)電機(jī)和氣缸依據(jù)控制命令移動(dòng)進(jìn)而帶動(dòng)運(yùn)動(dòng)平臺(tái)運(yùn)動(dòng)。圖4展示了整個(gè)物理加工的流程。
圖4 物理加工流程
通信部分的物理接口是PCI口??刂破鱉PC08控制卡直接插在計(jì)算機(jī)的PCI擴(kuò)展口上。計(jì)算機(jī)按照設(shè)計(jì)好的信息格式將芯片的位置信息發(fā)送到MPC08控制卡上,MPC08控制卡按照相應(yīng)的信息格式解析出物理移動(dòng)信息。MPC08控制卡依據(jù)解析出的信息,發(fā)出控制指令,控制運(yùn)動(dòng)裝置移動(dòng)。
物理移動(dòng)部分的器件為步進(jìn)電機(jī)和氣缸。氣缸通過(guò)電氣裝置完成氣缸的開(kāi)閉,進(jìn)而帶動(dòng)運(yùn)動(dòng)平臺(tái)快速移動(dòng)。步進(jìn)電機(jī)依據(jù)MPC08控制卡發(fā)出不同的電流旋轉(zhuǎn),進(jìn)而帶動(dòng)運(yùn)動(dòng)平臺(tái)進(jìn)行精確位置的移動(dòng)。氣缸配合步進(jìn)電機(jī)將芯片快速且準(zhǔn)確的移動(dòng)到測(cè)試和加工的位置。
深度學(xué)習(xí)算法只需將合適的預(yù)處理層、骨干網(wǎng)和檢測(cè)層連接在一起。位置檢測(cè)系統(tǒng)里的深度學(xué)習(xí)算法接收采集的原始圖像,輸出圖像中芯片的位置,如圖5所示。預(yù)處理層將尺寸不一的原始圖像經(jīng)過(guò)雙線性插值變成固定尺寸,同時(shí)將像素值大小歸一化到(0,1)之間。骨干網(wǎng)接收預(yù)處理層輸出的圖像,輸出邊緣信息、顏色信息、亮度信息之類的簡(jiǎn)單描述信息。檢測(cè)層接收骨干網(wǎng)輸出的簡(jiǎn)單描述信息,輸出高級(jí)抽象信息得到圖像中芯片的位置。
圖5 算法整體框架
骨干網(wǎng)是由卷積層、激活層和池化層等組成的。大量的深度學(xué)習(xí)實(shí)驗(yàn)表明,某些特定的卷積層、激活層和池化層等組成的模型結(jié)構(gòu)可以很好的提取出圖像里邊緣信息、顏色信息、亮度信息之類的簡(jiǎn)單描述信息[3]。經(jīng)典的骨干網(wǎng)有何愷明提出的ResNet、牛津大學(xué)提出的VGG和谷歌公司提出的Inception。
本文中骨干網(wǎng)選用何愷明提出的ResNet。隨著深度學(xué)習(xí)算法中骨干網(wǎng)的層數(shù)變多,卻出現(xiàn)了不是由過(guò)擬合造成的(過(guò)擬合的情況訓(xùn)練集應(yīng)該準(zhǔn)確率很高)算法性能下降的現(xiàn)象。針對(duì)這個(gè)問(wèn)題何愷明提出了ResNet。它允許網(wǎng)絡(luò)盡可能的加深,并且引入了圖6中全新的結(jié)構(gòu)。張量x一個(gè)分支經(jīng)過(guò)三個(gè)卷積層和池化層得到F(x),另一個(gè)分支直接傳遞下來(lái),x和F(x)相加輸出y,如式(2)所示:
x和F(x)融合在一起解決因?yàn)榫W(wǎng)絡(luò)層數(shù)變多導(dǎo)致算法性能下降的現(xiàn)象[4]。
檢測(cè)層接收骨干網(wǎng)輸出的簡(jiǎn)單特征信息,輸出高級(jí)抽象信息。圖像分類任務(wù)中,輸出圖像是某個(gè)類別的概率。物體檢測(cè)任務(wù)中,輸出圖像中物體的位置。
圖6 ResNet中使用的網(wǎng)絡(luò)結(jié)構(gòu)
圖像中物體的位置用矩形框來(lái)表示[5]:矩形框中心點(diǎn)在水平方向的坐標(biāo)X,矩形框中心點(diǎn)在豎直方向的坐標(biāo)Y,矩形框的寬W、矩形框的高H,矩形框里有物體的概率O。如果X、Y、W和H信息是預(yù)測(cè)框位置的絕對(duì)坐標(biāo)會(huì)喪失模型的通用性,所以它們?yōu)轭A(yù)測(cè)框位置的相對(duì)坐標(biāo)。相對(duì)坐標(biāo)按設(shè)計(jì)好的公式轉(zhuǎn)換得到絕對(duì)坐標(biāo)。
反向傳播時(shí)需要計(jì)算模型輸出的損失L。模型的損失L采用下面smooth L1損失計(jì)算公式。即模型的輸出值X、Y、W、H和O與正確值的差x,代入式(3)得到smooth L1即為損失L。
反向傳播時(shí)需要計(jì)算損失L對(duì)模型里參數(shù)P的偏導(dǎo)數(shù)。η為放大系數(shù),依據(jù)式(4)對(duì)參數(shù)進(jìn)行更新。模型更新參數(shù)后,模型的輸出值和正確值的偏差變小。重復(fù)訓(xùn)練,直至模型的輸出值和正確值的偏差在實(shí)際可以接受的范圍內(nèi)。
深度學(xué)習(xí)算法需要大量的圖像訓(xùn)練,來(lái)調(diào)試模型里的參數(shù)才能達(dá)到預(yù)期的結(jié)果。實(shí)驗(yàn)員在機(jī)器上隨機(jī)采集1000張不同場(chǎng)景的加工圖像,標(biāo)注出圖像中芯片的位置,制成訓(xùn)練集。模型使用訓(xùn)練集中的圖像進(jìn)行訓(xùn)練。因?yàn)橛?xùn)練過(guò)程不知道模型性能怎么樣,所以還需要驗(yàn)證集測(cè)試當(dāng)前模型的好壞。實(shí)驗(yàn)員隨機(jī)采集100張和訓(xùn)練集不重復(fù)的圖像制成驗(yàn)證集。
圖7 采集的原始圖像
本文實(shí)驗(yàn)在linux平臺(tái)下,使用Facebook公司開(kāi)源的深度學(xué)習(xí)框架PyTorch進(jìn)行訓(xùn)練[6]。圖8顯示隨著訓(xùn)練次數(shù)增多,模型損失越來(lái)越小。
模型性能的好壞用交叉比衡量[7]。預(yù)測(cè)框和芯片重疊部分的面積除以預(yù)測(cè)框和芯片總共占的面積為交叉比。交叉比最大為1,表示預(yù)測(cè)框和芯片完全重合。圖8顯示隨著訓(xùn)練次數(shù)增多,模型輸出的預(yù)測(cè)框和芯片的交叉比無(wú)限接近于1,預(yù)測(cè)框和芯片完全重合。
圖8 模型損失值的變化
模型輸出多個(gè)預(yù)測(cè)框。不同預(yù)測(cè)框可能預(yù)測(cè)的是同一個(gè)物體,此時(shí)需要保留O值比較大的預(yù)測(cè)框[8]。通常預(yù)測(cè)框越準(zhǔn)確,預(yù)測(cè)框的O值越大。圖10中位置較左的框和位置較右的框預(yù)測(cè)的是同一個(gè)芯片,這時(shí)保留O值較大的預(yù)測(cè)框。
圖9 預(yù)測(cè)框和芯片的交叉比的變化
在這里引入非最大值抑制操作進(jìn)行去重。非最大值抑制的核心操作:
1)拿出當(dāng)前的預(yù)測(cè)框中O值最高的預(yù)測(cè)框B。
2)舍掉和B重疊面積大于一定閾值的預(yù)測(cè)框。
深度學(xué)習(xí)算法模型得到圖像中芯片的位置后,計(jì)算機(jī)控制物理裝置將芯片移動(dòng)到合適的位置。物理加工過(guò)程中計(jì)算機(jī)和控制硬件通信,控制硬件發(fā)出指令控制物理裝置完成加工。系統(tǒng)具有以下的優(yōu)點(diǎn):
圖10 左邊的框和右邊框預(yù)測(cè)的是同一個(gè)芯片
1)速度快。系統(tǒng)自動(dòng)完成芯片位置檢測(cè)的整個(gè)過(guò)程。從芯片放在加工平臺(tái)上開(kāi)始,平臺(tái)上的相機(jī)自動(dòng)采集圖像,經(jīng)過(guò)深度學(xué)習(xí)算法處理,向硬件平臺(tái)發(fā)送運(yùn)動(dòng)控制命令。整個(gè)過(guò)程在計(jì)算機(jī)的控制下自動(dòng)完成全部的操作。
2)通用性強(qiáng)。在不同的場(chǎng)景下測(cè)試,模型在不加修改的情況下,也能很好的檢測(cè)出物體。即在相似的場(chǎng)景下,可以很好的移植系統(tǒng)的位置檢測(cè)算法,減少大量的重復(fù)性開(kāi)發(fā)工作。系統(tǒng)采集圖像的精度為亞微米級(jí)別,檢測(cè)出來(lái)物體的位置精度也是亞微米級(jí)別的,精度完全符合要求。
我們提出了一種基于深度學(xué)習(xí)的位置檢測(cè)系統(tǒng)。系統(tǒng)很好的將前沿的深度學(xué)習(xí)技術(shù)和現(xiàn)在的芯片加工技術(shù)融合在一起,對(duì)加工系統(tǒng)中的傳統(tǒng)機(jī)器視覺(jué)算法進(jìn)行改進(jìn)?;谏疃葘W(xué)習(xí)的位置檢測(cè)系統(tǒng)的對(duì)加工環(huán)境要求不那么苛刻,過(guò)程非常簡(jiǎn)潔,算法通用性強(qiáng),可以很好的移植到類似的場(chǎng)景中。而且算法精度隨著訓(xùn)練圖像增多,會(huì)變得越來(lái)越準(zhǔn)確,和傳統(tǒng)算法比具有天然優(yōu)勢(shì)[9]。
不僅是在位置檢測(cè)上,在關(guān)鍵點(diǎn)檢測(cè)、圖像分割上,深度學(xué)習(xí)算法比傳統(tǒng)算法表現(xiàn)的更好[10]。我們只是將其運(yùn)用在芯片的位置檢測(cè)上。在當(dāng)前工業(yè)生產(chǎn)中,缺陷檢測(cè)、邊緣檢測(cè)等場(chǎng)景中同樣可以采用基于深度學(xué)習(xí)的算法,來(lái)提高自動(dòng)化生產(chǎn)的效率。國(guó)內(nèi)工業(yè)發(fā)展離不開(kāi)新興技術(shù)的推動(dòng),各個(gè)領(lǐng)域的新興技術(shù)交叉共同推動(dòng)工業(yè)的升級(jí)。人工智能和機(jī)械自動(dòng)化加工的結(jié)合是未來(lái)的必然趨勢(shì),希望更多人加入進(jìn)來(lái),讓制造業(yè)散發(fā)出新的活力。