張亞輝 楊林 白雪
摘? 要:為了解決傳統(tǒng)倉(cāng)儲(chǔ)托盤檢測(cè)方法泛化性差,檢測(cè)精度低的問(wèn)題。設(shè)計(jì)了一種基于Faster RCNN深度學(xué)習(xí)算法的倉(cāng)儲(chǔ)托盤檢測(cè)模型,對(duì)算法模型進(jìn)行了網(wǎng)絡(luò)、數(shù)據(jù)增強(qiáng)處理以及特征提取方面的優(yōu)化。自主拍攝倉(cāng)儲(chǔ)托盤圖片并對(duì)其進(jìn)行數(shù)據(jù)擴(kuò)充,使用LableImage平臺(tái)進(jìn)行數(shù)據(jù)標(biāo)注,在ResNet框架下進(jìn)行網(wǎng)絡(luò)訓(xùn)練,通過(guò)對(duì)比試驗(yàn),改進(jìn)后的模型性能高于其他常見目標(biāo)檢測(cè)模型,其準(zhǔn)確率達(dá)到了96.5%,平均檢測(cè)時(shí)間為76.9 ms,表明該方法能夠滿足工業(yè)生產(chǎn)環(huán)境中對(duì)倉(cāng)儲(chǔ)托盤的檢測(cè)需求。
關(guān)鍵詞:深度學(xué)習(xí);倉(cāng)儲(chǔ)托盤;Faster RCNN;目標(biāo)檢測(cè)
中圖分類號(hào):TP183? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)02-0057-07
Abstract:In order to solve the problem that the traditional storage pallet detection method has the low generalization and low detection accuracy. A storage pallet detection model based on the Faster RCNN deep learning algorithm is designed,and the algorithm model is optimized in the aspects of network,data enhancement processing and feature extraction. Which can achieve independently take pictures of storage pallets and make data augmentation on them,use the LableImage platform for data annotation,and conduct network training under the ResNet framework. Through the comparative experiments,the improved model performance is higher than other common target detection models,and its accuracy rate reaches at 96.5 %,the average detection time is 76.9 ms,the results show that the method can meet the detection requirements for storage pallets in industrial production environment.
Keywords:deep learning;storage pallet;Faster RCNN;target detection
0? 引? 言
隨著“中國(guó)制造2025”的提出與落實(shí)[1],中國(guó)的工業(yè)發(fā)展有了巨大的變化。為了提高工業(yè)生產(chǎn)效率,大量的工業(yè)機(jī)器人被引入工業(yè)環(huán)境中,代替人工完成大量危險(xiǎn)、高強(qiáng)度的工業(yè)操作。
目前,倉(cāng)儲(chǔ)行業(yè)也在經(jīng)歷一場(chǎng)智能化的大變革[2],目前的倉(cāng)儲(chǔ)環(huán)境中常用的貨物搬運(yùn)設(shè)備是叉車,一般分為自動(dòng)乘駕式和電動(dòng)步行式,都需要人工參與,屬于半自動(dòng)化設(shè)備。托盤是現(xiàn)代物流集裝的兩大構(gòu)成元素之一,是現(xiàn)代物流裝卸、運(yùn)輸?shù)闹匾d具,相比傳統(tǒng)的貨物載具,有高效率、低成本、安全便捷的優(yōu)勢(shì)[3]。智能叉車機(jī)器人是一種貨叉式AGV(Automated Guided Vehicle),屬于無(wú)人駕駛車輛的一種,其機(jī)械結(jié)構(gòu)相對(duì)于普通AGV更加復(fù)雜,能夠?qū)崿F(xiàn)更加多樣的功能。目前的智能叉車機(jī)器人大多采用機(jī)器視覺(jué)算法,該類算法對(duì)環(huán)境的適應(yīng)性較差,一旦環(huán)境發(fā)生變化,則需要對(duì)原有算法進(jìn)行重新訓(xùn)練,調(diào)整參數(shù),無(wú)法滿足智能叉車機(jī)器人的高適應(yīng)性要求。
近年來(lái),深度學(xué)習(xí)被用于許多領(lǐng)域,如人臉識(shí)別、對(duì)象檢測(cè)等[4,5]。深度學(xué)習(xí)可以更好地提取特征,同時(shí)隨著大數(shù)據(jù)時(shí)代的到來(lái)與計(jì)算機(jī)設(shè)備的提升,使得深度學(xué)習(xí)的應(yīng)用成為現(xiàn)實(shí)。因此本文提出改進(jìn)的Faster RCNN神經(jīng)網(wǎng)絡(luò)算法[6],采用自建的倉(cāng)儲(chǔ)托盤數(shù)據(jù)集訓(xùn)練模型參數(shù),將模型應(yīng)用到倉(cāng)儲(chǔ)領(lǐng)域。
1? Faster RCNN算法在智能叉車機(jī)器人倉(cāng)儲(chǔ)托盤檢測(cè)中的應(yīng)用
1.1? 智能叉車機(jī)器人的倉(cāng)儲(chǔ)托盤檢測(cè)
倉(cāng)儲(chǔ)托盤檢測(cè)主要是目標(biāo)檢測(cè)算法Faster RCNN結(jié)合深度圖像所構(gòu)成的視覺(jué)處理系統(tǒng),處理流程如圖1所示。
使用TOF相機(jī)對(duì)工業(yè)實(shí)際場(chǎng)景中的倉(cāng)儲(chǔ)托盤進(jìn)行拍攝獲取深度圖像,然后對(duì)采集到的深度圖進(jìn)行標(biāo)注制作數(shù)據(jù)集;目標(biāo)檢測(cè)算法階段先用改進(jìn)后Faster RCNN網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行離線訓(xùn)練,將訓(xùn)練好模型部署在叉車機(jī)器人上實(shí)現(xiàn)對(duì)倉(cāng)儲(chǔ)托盤的檢測(cè)。
1.2? Faster RCNN網(wǎng)絡(luò)框架
Faster RCNN算法是在RCNN[7]和Fast RCNN的基礎(chǔ)上改進(jìn)而來(lái)的,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。Faster RCNN算法的創(chuàng)新點(diǎn)主要有兩個(gè):第一個(gè)創(chuàng)新點(diǎn)是提出了RPN(region proposal networks)網(wǎng)絡(luò),用來(lái)提取候選區(qū)域,代替Selective Search算法;第二個(gè)創(chuàng)新點(diǎn)是RPN網(wǎng)絡(luò)與ROI Pooling層共享卷積層參數(shù),加速了網(wǎng)絡(luò)訓(xùn)練,且減少了網(wǎng)絡(luò)參數(shù)量。Faster RCNN算法之前的RCNN算法都采用Selective Search算法來(lái)進(jìn)行候選區(qū)域的提取,實(shí)驗(yàn)表明,通過(guò)Selective Search算法提取一張圖片的所有候選區(qū)域需要大約2 s,但是改進(jìn)后的RPN算法提取候選區(qū)域僅需要10 ms,大大提高了網(wǎng)絡(luò)運(yùn)行速度。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)[8,9]提取候選框的方法有很多,如不同種類的目標(biāo)候選框、CPMC等。
1.3? 錨框機(jī)制
錨框機(jī)制是RPN算法的核心,RPN算法的原理是利用滑動(dòng)窗口的方式在卷積神經(jīng)網(wǎng)絡(luò)層的最后輸出的特征圖上滑窗生成候選區(qū)域,即將經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)層生成的特征圖作為RPN網(wǎng)絡(luò)層的輸入,然后在特征圖上利用錨框機(jī)制生成推薦候選區(qū)域,如圖3所示。
具體來(lái)說(shuō)就是把Faster RCNN網(wǎng)絡(luò)卷積層的最后一層所生成的特征圖作為RPN網(wǎng)絡(luò)的輸入,然后用窗口大小是3×3,步長(zhǎng)(padding)是1的卷積核在特征圖上進(jìn)行卷積操作。卷積核在特征圖上滑動(dòng)到每一個(gè)位置,則該卷積核中心在原圖的映射點(diǎn)就稱之為錨點(diǎn),然后以錨點(diǎn)為中心,生成3種大?。?282,2562,5122)和3種長(zhǎng)寬比(1:1,1:2,2:1)共9個(gè)錨框,然后針對(duì)每個(gè)錨框產(chǎn)生k組參數(shù),包括2k個(gè)置信度參數(shù)(判斷錨框中有無(wú)物體)和4k個(gè)坐標(biāo)參數(shù)(當(dāng)前錨框到預(yù)測(cè)框的變換參數(shù))。
1.4? 非極大值抑制
非極大值抑制(Non-Maximum Suppression,NMS)是目標(biāo)檢測(cè)后處理的一個(gè)經(jīng)典算法,最早由Neubeck A提出,用來(lái)對(duì)兩階段目標(biāo)檢測(cè)算法的重復(fù)預(yù)測(cè)框進(jìn)行去重并保存最佳預(yù)測(cè)框。NMS算法首先過(guò)濾掉小于閾值的候選框,然后不斷以最大分類置信度的預(yù)測(cè)框和其他預(yù)測(cè)框做交并比(Intersection Over Union,IOU)操作,過(guò)濾掉IOU值大于預(yù)設(shè)交并比閾值的候選框,然后通過(guò)迭代這一過(guò)程尋找局部最優(yōu)預(yù)測(cè)框。
2? 改進(jìn)的Faster RCNN算法
2.1? 自適應(yīng)錨框
自適應(yīng)錨框生成網(wǎng)絡(luò)包括兩個(gè)分支,第一個(gè)分支是位置預(yù)測(cè)分支,第二個(gè)分支是形狀預(yù)測(cè)分支,對(duì)于一個(gè)輸入圖片I,使用特征提取網(wǎng)絡(luò)得到特征圖Ni,在特征圖上,位置預(yù)測(cè)分支能夠產(chǎn)生一個(gè)目標(biāo)存在位置的概率圖,形狀預(yù)測(cè)分支則是根據(jù)預(yù)先在數(shù)據(jù)集上利用K-means算法,對(duì)目標(biāo)框進(jìn)行聚類分析得到的目標(biāo)框推薦尺寸。結(jié)合位置和形狀預(yù)測(cè)的結(jié)果,當(dāng)位置預(yù)測(cè)概率大于設(shè)定閾值的時(shí)候,網(wǎng)絡(luò)會(huì)產(chǎn)生一系列高質(zhì)量的預(yù)測(cè)框。
2.1.1? 錨框位置預(yù)測(cè)
位置預(yù)測(cè)分支的任務(wù)是預(yù)測(cè)錨框的中心點(diǎn)坐標(biāo)。對(duì)于一個(gè)輸入圖片I,使用特征提取網(wǎng)絡(luò)MuRes-FPN得到特征圖Ni,然后位置預(yù)測(cè)分支通過(guò)一個(gè)1×1大小的卷積將特征圖Ni轉(zhuǎn)換成一個(gè)位置得分圖,根據(jù)這個(gè)得分圖利用Sigmoid函數(shù)將得分圖轉(zhuǎn)換成位置概率圖P(·|Ni),其中概率值表示目標(biāo)中心在這個(gè)位置的概率?;谶@樣的概率圖將整個(gè)特征圖分為正樣本區(qū)域、忽略區(qū)域和負(fù)樣本區(qū)域,通過(guò)設(shè)定閾值 和 ,當(dāng)概率值大于閾值的稱為正樣本區(qū)域,小于的稱為負(fù)樣本區(qū)域,中間的稱為忽略區(qū)域。
根據(jù)概率圖,將概率值大于閾值的稱為正樣本區(qū)域視為目標(biāo)可能存在的區(qū)域,這種方法可以過(guò)濾掉90%的區(qū)域,保證較高的召回率。如圖4所示,只在目標(biāo)附近密集產(chǎn)生候選區(qū)域,其余區(qū)域都被過(guò)濾掉。該方法在幾乎不增加計(jì)算量的同時(shí)產(chǎn)生了高質(zhì)量的目標(biāo)中心推薦區(qū)域,相比原始遍歷產(chǎn)生候選區(qū)域的錨框推薦算法,極大的減少了計(jì)算量。
針對(duì)每一個(gè)特征圖產(chǎn)生一個(gè)標(biāo)簽圖,通過(guò)設(shè)定閾值和 ,其中參數(shù)? 設(shè)為0.5,參數(shù)? 設(shè)為0.2。如圖5所示,當(dāng)概率值大于,標(biāo)簽值為2,表示當(dāng)前位置有錨框,區(qū)域內(nèi)的像素作為正樣本用來(lái)訓(xùn)練;當(dāng)概率值小于 時(shí),標(biāo)簽值為0,表示沒(méi)有錨框,區(qū)域內(nèi)像素作為負(fù)樣本參與訓(xùn)練;介于兩者中間時(shí),標(biāo)簽值為1代表當(dāng)前位置為忽略區(qū)域,不參與網(wǎng)絡(luò)訓(xùn)練。在本文中,當(dāng)?shù)玫捷斎雸D片的預(yù)測(cè)值之后,結(jié)合聚類產(chǎn)生的錨框尺寸,可以得到推薦的候選區(qū)域,用于網(wǎng)絡(luò)訓(xùn)練。
2.1.2? 錨框形狀預(yù)測(cè)
在確定了錨框的位置之后,利用K-means算法聚類產(chǎn)生的候選框尺寸,結(jié)合位置信息生成預(yù)測(cè)框推薦。原始的Faster RCNN算法中是利用卷積神經(jīng)網(wǎng)絡(luò)生成的特征圖進(jìn)行預(yù)測(cè)的,錨框預(yù)設(shè)值為三個(gè)規(guī)定尺度{8,16,32},預(yù)設(shè)比例為{1:1,1:2,2:1},特征圖上的每個(gè)位置都會(huì)產(chǎn)生9個(gè)錨框。根據(jù)式(1)和式(2)可以得到每個(gè)錨框映射到原圖的區(qū)域范圍:
其中stride表示某個(gè)錨框的預(yù)設(shè)尺度,s為錨框預(yù)設(shè)尺度,r為錨框的預(yù)設(shè)比例,heightij、widthij為錨框的高和寬。表1是原始Faster RCNN算法的感興趣區(qū)域大小,可以看到覆蓋面積大約是90像素到724像素。
指定錨框尺寸和比例超參數(shù)的方式過(guò)于死板,一旦數(shù)據(jù)集中有大量的目標(biāo)尺度不符合預(yù)設(shè)尺度,如數(shù)據(jù)集中存在過(guò)大或過(guò)小尺寸的目標(biāo),如圖6所示,那么此時(shí)的預(yù)測(cè)框感受野將不能夠提供有效檢測(cè)目標(biāo)所需要的信息,導(dǎo)致模型檢測(cè)精度大大降低。為了提升模型推薦預(yù)測(cè)框的合理性,使用K-means聚類錨框來(lái)生成訓(xùn)練所需的錨框形狀。
2.1.2.1? K-means算法
K-means算法是對(duì)于給定數(shù)據(jù)集,按照樣本之間距離的大小,將樣本聚類為K個(gè)簇,算法的原理是使簇內(nèi)的點(diǎn)距離盡可能小,使簇間的點(diǎn)距離盡可能大。假設(shè)劃分簇為(C1,C2,…,CK),目標(biāo)是最小化平方誤差E,如式3所示:
其中μi為簇Ci的均值向量,x為數(shù)據(jù)集中的樣本點(diǎn),表達(dá)式如式4所示:
K-means算法先在數(shù)據(jù)集中產(chǎn)生K個(gè)隨機(jī)初始點(diǎn),然后再自行迭代K個(gè)簇。流程圖如圖7所示。
2.1.2.2? 基于K-means的錨框形狀預(yù)測(cè)
原始K-means聚類采用的是歐式距離作為聚類指標(biāo),可是這會(huì)導(dǎo)致尺度大的目標(biāo)相對(duì)尺度小的目標(biāo)更容易受到誤差影響,考慮到后續(xù)篩選預(yù)測(cè)框與交并比有關(guān),所以這里選擇利用交并比作為聚類尺度,如式(5)所示。
其中d為目標(biāo)框與當(dāng)前聚類中心的距離,box為目標(biāo)的標(biāo)簽框,center為當(dāng)前聚類中心。
算法的計(jì)算流程不變,這里以PASCAL VOC數(shù)據(jù)集為例,對(duì)數(shù)據(jù)集目標(biāo)框進(jìn)行聚類,聚類產(chǎn)生的錨框如圖8所示。
2.2? 候選區(qū)域篩選策略
本文使用改進(jìn)的Soft-NMS代替原來(lái)的NMS算法,Soft-NMS與NMS算法的流程大致相同,但是在處理重疊框的時(shí)候,Soft-NMS對(duì)于IOU大于設(shè)定閾值的重疊框不是直接濾除,而是降低重疊框的置信度得分,最終得到分?jǐn)?shù)達(dá)到置信度閾值的候選框。Soft-NMS每次選擇得分最高的候選框,抑制周圍的候選框,周圍的候選框與得分最高的候選框之間的IOU值越大,被抑制的程度就越大,這樣就能夠保留周圍其他目標(biāo)的候選框,抑制同一目標(biāo)的候選框。Soft-NMS和NMS算法流程為:
偽代碼中上方方框表示NMS的處理步驟,下方方框表示Soft-NMS的處理步驟。Soft-NMS通過(guò)降低置信度si,而非直接濾除bi,線性函數(shù)si表示為式(7):
由式7可以得到,IOU(M,bi)的值越大,對(duì)置信度的抑制程度就越大。此外除了線性函數(shù)si可以用于抑制重疊框置信度得分之外,Soft-NMS還提供了一個(gè)高斯權(quán)重函數(shù)來(lái)抑制重疊框的置信度得分。Soft-NMS將與最大得分的候選框重疊度大于給定閾值的候選框的分值與一個(gè)高斯權(quán)重函數(shù)相乘,高斯權(quán)重函數(shù)會(huì)降低重疊框的置信度得分值,重疊程度越高,得分衰減越嚴(yán)重,高斯權(quán)重函數(shù)表示如式(8)所示,實(shí)驗(yàn)中,參數(shù)σ設(shè)為0.5。
3? 數(shù)據(jù)預(yù)處理
3.1? 數(shù)據(jù)采集
倉(cāng)儲(chǔ)托盤檢測(cè)網(wǎng)絡(luò)模型訓(xùn)練所使用的數(shù)據(jù)集是一個(gè)自制數(shù)據(jù)集,在深度圖像采集階段,由叉車機(jī)器人使用TOF相機(jī)在倉(cāng)庫(kù)實(shí)地采集現(xiàn)場(chǎng)圖片,為了使模型擁有更好的適應(yīng)性,利用多種背景作為干擾因素;為了避免網(wǎng)絡(luò)出現(xiàn)過(guò)擬合現(xiàn)象,所以對(duì)原始數(shù)據(jù)集采使用水平翻轉(zhuǎn)、高斯濾波、亮度增強(qiáng)、高斯噪聲、椒鹽噪聲等策略擴(kuò)充數(shù)據(jù)集,由于深度圖不利于觀看,所以下面會(huì)給出數(shù)據(jù)增強(qiáng)處理后的原始深度圖以及對(duì)應(yīng)的偽彩色圖片。具體如圖9所示。
3.2? 數(shù)據(jù)標(biāo)注
訓(xùn)練Faster RCNN模型之前需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,采用LabelImg數(shù)據(jù)標(biāo)注工具,設(shè)置托盤標(biāo)簽類別為pallet。標(biāo)注后的標(biāo)注信息保存為XML格式的文本文件,即PASCAL VOC的標(biāo)準(zhǔn)文件格式,由于我們的原始數(shù)據(jù)集為采集的深度圖,不利于標(biāo)注,所以這里先將數(shù)據(jù)增強(qiáng)后的深度圖轉(zhuǎn)換成對(duì)應(yīng)的偽彩色圖片,通過(guò)讀取標(biāo)注后的標(biāo)注框信息對(duì)應(yīng)到原始深度圖,來(lái)完成我們的數(shù)據(jù)集標(biāo)注。標(biāo)注后的數(shù)據(jù)集共有10 568張圖片,從中隨機(jī)選取7 398張作為訓(xùn)練集、2 114張作為驗(yàn)證集、1 056張作為測(cè)試集(訓(xùn)練集:驗(yàn)證集:測(cè)試集=7:2:1),要求訓(xùn)練集、驗(yàn)證集和測(cè)試集之間無(wú)交集現(xiàn)象。
4? 實(shí)驗(yàn)與分析
4.1? 實(shí)驗(yàn)環(huán)境配置
深度學(xué)習(xí)網(wǎng)絡(luò)模型通常對(duì)訓(xùn)練平臺(tái)的配置有著較高的要求,F(xiàn)aster RCNN網(wǎng)絡(luò)可以在CPU或者GPU上進(jìn)行模型的訓(xùn)練,由于GPU的并行計(jì)算能力遠(yuǎn)超CPU,所以為了節(jié)約時(shí)間成本,選擇在GPU上訓(xùn)練。將已經(jīng)標(biāo)注好的托盤數(shù)據(jù)集作為訓(xùn)練樣本,F(xiàn)aster RCNN網(wǎng)絡(luò)模型的訓(xùn)練平臺(tái)具體配置信息如表2所示。
網(wǎng)絡(luò)模型的訓(xùn)練框架為TensorFlow深度學(xué)習(xí)框架,其關(guān)鍵訓(xùn)練參數(shù)設(shè)置如表3所示。
網(wǎng)絡(luò)訓(xùn)練參數(shù)bitchsize(每次并行計(jì)算的圖像數(shù))為128,動(dòng)量值為0.9,權(quán)重衰減系數(shù)為0.000 5,訓(xùn)練集圖片總數(shù)為7 398,總迭代次數(shù)為22 000,初始學(xué)習(xí)率為0.001。
4.2? 模型評(píng)估
4.2.1? 損失值
損失值是訓(xùn)練過(guò)程中樣本的預(yù)測(cè)值和真實(shí)值的誤差,由損失函數(shù)計(jì)算得到,損失值越小,則代表模型的預(yù)測(cè)結(jié)果越好。網(wǎng)絡(luò)訓(xùn)練過(guò)程中保存損失值的訓(xùn)練日志,并根據(jù)日志信息進(jìn)行可視化繪圖,結(jié)果如圖10所示。
由圖可知,隨著網(wǎng)絡(luò)迭代次數(shù)的增加,損失值減少,在網(wǎng)絡(luò)訓(xùn)練迭代到20 000步之后,損失值值已經(jīng)趨向于0了,在0.1附近波動(dòng),說(shuō)明網(wǎng)絡(luò)模型訓(xùn)練效果良好。
4.2.2? 測(cè)試結(jié)果
目標(biāo)檢測(cè)算法的主要度量方法有準(zhǔn)確率(Precision)、召回率(Recall)和平均精度(mean average precision,mAP)等。以Recall為橫軸,Precision為縱軸的曲線簡(jiǎn)稱P-R曲線,P-R曲線下的面積稱為精度均值A(chǔ)P(average precision),所有類別的精度均值的平均值為mAP,值越大,代表網(wǎng)絡(luò)模型越好,準(zhǔn)確率和召回率的計(jì)算如式(9)和式(10)所示:
其中,TP為被預(yù)測(cè)為正類的正類;FP為被預(yù)測(cè)為正類的負(fù)類;FN為被預(yù)測(cè)為負(fù)類的正類。
測(cè)試集圖片總共為1 056張,用測(cè)試集測(cè)試網(wǎng)絡(luò)精度,得到的P-R曲線如圖11所示,其精度均值A(chǔ)P為96.5%,模型性能較優(yōu)。
4.2.3? 對(duì)比分析
為了驗(yàn)證本文算法(改進(jìn)的Faster RCNN)的有效性,將本文算法與改進(jìn)前的Faster RCNN算法以及目標(biāo)檢測(cè)經(jīng)典算法YOLO v3和SSD在模型的準(zhǔn)確率以及模型測(cè)試一張圖片所需要的時(shí)間兩個(gè)指標(biāo)來(lái)測(cè)試算法性能,對(duì)比結(jié)果如表4所示。
由表4可知,改進(jìn)后的Faster RCNN與改進(jìn)前的Faster RCNN、SSD和YOLO v3相比,mAP值分別高出1.3%、4.9%和2.8%;FPS相比改進(jìn)前提升了10幀/秒,雖然相比SSD和YOLO v3依然還有差距,但是改進(jìn)后的算法已經(jīng)滿足了實(shí)時(shí)性要求。
4.2.4? 檢測(cè)效果
為了驗(yàn)證改進(jìn)后的Faster RCNN模型的可行性,及其實(shí)時(shí)檢測(cè)能力,將模型移植到叉車機(jī)器人實(shí)驗(yàn)檢測(cè)平臺(tái),采用主板為英偉達(dá)TX2工控板,CPU為i7-9700k,主頻為3.6 GHz,GPU為NVIDIA Pascal GPU,擁有8 GB的運(yùn)行內(nèi)存和32 GB的物理內(nèi)存。使用工業(yè)相機(jī)TOF SR-4000在線實(shí)時(shí)獲取倉(cāng)儲(chǔ)托盤的圖像,實(shí)時(shí)檢測(cè)倉(cāng)儲(chǔ)環(huán)境中倉(cāng)儲(chǔ)托盤的位置,由相機(jī)實(shí)時(shí)采集的圖像并完成的效果如圖13所示。
由上圖可知,該模型能夠?qū)崟r(shí)在線完成倉(cāng)儲(chǔ)托盤的檢測(cè)任務(wù),其準(zhǔn)確率達(dá)到96.5%,平均檢測(cè)時(shí)間為76.9 ms,能夠滿足倉(cāng)儲(chǔ)環(huán)境中對(duì)倉(cāng)儲(chǔ)托盤的實(shí)時(shí)檢測(cè)任務(wù)。
5? 結(jié)? 論
本文給出了一種基于Faster RCNN深度學(xué)習(xí)網(wǎng)絡(luò)的倉(cāng)儲(chǔ)托盤檢測(cè)方法,自主采集和標(biāo)注倉(cāng)儲(chǔ)托盤圖片,利用圖像擴(kuò)充策略來(lái)增加數(shù)據(jù)集的多樣性,然后將數(shù)據(jù)集用于Faster RCNN、SSD、YOLO v3和我們改進(jìn)后的Faster RCNN等網(wǎng)絡(luò)進(jìn)行訓(xùn)練,具有較高的檢測(cè)精度,改進(jìn)后的算法準(zhǔn)確度達(dá)到96.5%,平均檢測(cè)時(shí)間為76.9 ms。由于改進(jìn)后模型參數(shù)依然龐大,改進(jìn)后的模型勉強(qiáng)達(dá)到實(shí)時(shí)性要求,后續(xù)工作重點(diǎn)將在保持模型高精度的同時(shí)進(jìn)一步提升模型的檢測(cè)速度,以增強(qiáng)模型的實(shí)時(shí)性。
參考文獻(xiàn):
[1] 胡遲.制造業(yè)轉(zhuǎn)型升級(jí):“十二五”成效評(píng)估與“十三五”發(fā)展對(duì)策 [J].經(jīng)濟(jì)研究參考,2016(49):3-27.
[2] 徐翔.倉(cāng)儲(chǔ)行業(yè)正經(jīng)歷一場(chǎng)智能化大變革 [J].中國(guó)儲(chǔ)運(yùn),2020(10):50-51.
[3] LYU Z J,ZHAO P C,LU Q,et al. Prediction of the Bending Strength of Boltless Steel Connections in Storage Pallet Racks:An Integrated Experimental-FEM-SVM Methodology [J/OL].Advances in Civil Engineering,2020:[2020-10-22].https://doi.org/10.1155/2020/5109204.
[4] PARKHI O M,VEDALDI A,ZISSERMAN A. Deep Face Recognition [C]//Proceedings of the British Machine Vision Conference.Swansea:BMVA Press,2015:41.1-41.12.
[5] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot MultiBox Detector [J/OL].arXiv:1512.02325 [cs.CV].(2016-12-29).https://arxiv.org/abs/1512.02325.
[6] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[7] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.
[8] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述 [J].數(shù)據(jù)采集與處理,2016,31(1):1-17.
[9] ERGUN H,SERT M. Fusing Deep Convolutional Networks for Large Scale Visual Concept Classification [C]//2016 IEEE Second International Conference on Multimedia Big Data(BigMM).Taipei:IEEE,2016:210-213.
作者簡(jiǎn)介:張亞輝(1994—),男,漢族,河南平頂山人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘與人工智能。