基于YOLO的圖書(shū)裝訂自動(dòng)化檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2023-02-03 08:50何師，于強(qiáng)

制造業(yè)自動(dòng)化 2023年1期

何師，于強(qiáng)

（1.中國(guó)科學(xué)院國(guó)家空間科學(xué)中心，北京 100192；2.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，北京 101408）

0 引言

隨著機(jī)器視覺(jué)，工業(yè)自動(dòng)化的快速發(fā)展，工業(yè)4.0[1]的概念已經(jīng)被提上日程。傳統(tǒng)很多需要人工來(lái)手動(dòng)操作的工作，漸漸的被機(jī)器所替代。神經(jīng)網(wǎng)絡(luò)更是讓計(jì)算機(jī)視覺(jué)有了更廣闊的應(yīng)用場(chǎng)景，它將基于人類(lèi)視覺(jué)的分類(lèi)[2]、檢測(cè)[3]、分割[4]等任務(wù)實(shí)現(xiàn)自動(dòng)化。目標(biāo)檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用于人臉識(shí)別[5]、自動(dòng)駕駛[6]、工業(yè)生產(chǎn)[7]等領(lǐng)域。

在圖書(shū)的生產(chǎn)過(guò)程中，圖書(shū)的質(zhì)量保證是重中之重。要保證任何一本圖書(shū)在出廠時(shí)都不能夠有任何的裝訂錯(cuò)誤。

裝訂過(guò)程中出現(xiàn)的錯(cuò)誤形式如下圖所示，從上至下依次為正確樣本、順序出錯(cuò)樣本、章節(jié)重復(fù)樣本、章節(jié)缺失樣本。

圖1 四種樣本圖書(shū)

目前，該項(xiàng)工作主要是由人工來(lái)完成，這造成了正版圖書(shū)較高的圖書(shū)成本，并且很難完全保證圖書(shū)質(zhì)量。利用自動(dòng)化方式來(lái)完成圖書(shū)質(zhì)量的檢測(cè)，是圖書(shū)生產(chǎn)過(guò)程中必然的趨勢(shì)。在圖書(shū)裝訂檢測(cè)領(lǐng)域，杜萬(wàn)全先后提出過(guò)使用在線稱(chēng)重[8]、計(jì)算機(jī)視覺(jué)[9]兩種方式，但都只是一種探索和想象，并未真正落地實(shí)現(xiàn)。在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方面，YOLOv3具有速度快、精度高的特征優(yōu)勢(shì)，并且已經(jīng)在很多方面應(yīng)用。本文研究借助于YOLOv3模型，對(duì)圖書(shū)裝訂進(jìn)行識(shí)別檢測(cè)，并使用Qt完成軟件系統(tǒng)的研發(fā)。

1 系統(tǒng)總體設(shè)計(jì)方案

1.1 系統(tǒng)組成

圖書(shū)裝訂檢測(cè)系統(tǒng)由圖像采集模塊、圖書(shū)智能識(shí)別模塊和后處理模塊三個(gè)模塊組成。圖像采集模塊包括工業(yè)CCD相機(jī)——大華相機(jī)、平行光源、觸發(fā)器。后處理模塊包過(guò)氣缸、氣泵、氣閥和一個(gè)裝訂有誤圖書(shū)的回收裝置。智能識(shí)別模塊主要是通過(guò)深度學(xué)習(xí)算法對(duì)圖書(shū)的裝訂進(jìn)行識(shí)別和檢測(cè)。

圖2 系統(tǒng)組成圖（位置檢測(cè)）

1.2 系統(tǒng)流程

整個(gè)流程如圖3所示。傳送帶上的圖書(shū)到達(dá)觸發(fā)器位置之后會(huì)觸發(fā)相機(jī)進(jìn)行拍照，拍得的照片會(huì)通過(guò)網(wǎng)線（RJ45）傳送給電腦，軟件首先會(huì)對(duì)拍到的圖像進(jìn)行識(shí)別，識(shí)別分為兩次，第一次識(shí)別圖書(shū)在整個(gè)圖片中的位置，按照識(shí)別到的圖書(shū)位置對(duì)整個(gè)圖像進(jìn)行裁剪。裁剪完之后會(huì)再次進(jìn)行識(shí)別，此次識(shí)別是識(shí)別書(shū)脊側(cè)的標(biāo)志塊，識(shí)別完之后提取識(shí)別到的標(biāo)志塊的中點(diǎn)坐標(biāo)，使用最小二乘法進(jìn)行線性擬合。通過(guò)綜合判斷識(shí)別到的標(biāo)志塊的數(shù)量、擬合得到的參數(shù)和相關(guān)系數(shù)，最終得到圖書(shū)的裝訂是否有誤。若圖書(shū)裝訂結(jié)果正確，則后處理裝置不觸發(fā)；若裝訂有誤，則觸發(fā)后處理裝置，彈出回收裝置將圖書(shū)截獲。

圖3 系統(tǒng)流程圖

2 目標(biāo)識(shí)別與判斷

2.1 目標(biāo)識(shí)別

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法主要分為兩類(lèi)[10]：一種是基于候選區(qū)域的兩階段（Two Stage）目標(biāo)檢測(cè)如FastRCNN[11]、Faster R-CNN[12]等，另一種是基于回歸的單階段（One Stage）目標(biāo)檢測(cè)算法如YOLO[13]和SSD[14]。兩種方法各有利弊，綜合對(duì)比各種方式之后選擇YOLOv3作為本系統(tǒng)的檢測(cè)模型。

YOLOv3模型無(wú)論是精度還是速度都要優(yōu)于其他模型。使用Geoforce 2080Ti OpenCV FP16，Network size=416，fps可以達(dá)到159[15]。這個(gè)速度滿足了每秒鐘檢測(cè)一本樣本圖書(shū)所需要的時(shí)間要求。

整個(gè)系統(tǒng)的兩次識(shí)別都是通過(guò)YOLOv3模型識(shí)別的。在對(duì)本地圖書(shū)樣本進(jìn)行標(biāo)記之后，訓(xùn)練Github上提供的預(yù)訓(xùn)練的模型[15]，將得到的模型用于后期的識(shí)別工作中。

2.2 模型訓(xùn)練

為提高識(shí)別精度，本文中主要通過(guò)修改cfg 文件中的參數(shù)實(shí)現(xiàn)，例如：使用不同的初始網(wǎng)絡(luò)大小、設(shè)置random=1、訓(xùn)練模型時(shí)設(shè)置layer=23，stride=4。

訓(xùn)練樣本使用的不同光照強(qiáng)度下的不同種類(lèi)圖書(shū)、同一種圖書(shū)不同樣本，共20種圖書(shū)1000余個(gè)樣本。此外，我們?cè)谟?xùn)練模型時(shí)曾使用在同一光照強(qiáng)度下不同的樣本進(jìn)行訓(xùn)練，但最終得到的結(jié)果并不能識(shí)別到任何的標(biāo)志，并且mAP始終為0，由此我們推測(cè)，YOLOv3對(duì)圖像的亮度敏感。

2.3 結(jié)果判斷

圖書(shū)裝訂結(jié)果是根據(jù)線性擬合的參數(shù)決定的，線性擬合的方式是采用最小二乘法。

設(shè)x和y之間的函數(shù)關(guān)系為y=ax+b，此式中有兩個(gè)待定參數(shù)，a為斜率，b為截距。對(duì)于所得到的N組數(shù)據(jù)，xi認(rèn)為是準(zhǔn)確的，所有的誤差只和yi有關(guān)。用最小二乘法估計(jì)參數(shù)時(shí)，要求觀測(cè)值yi的偏差的加權(quán)平方和最小，即：

對(duì)a，b分別求一階偏導(dǎo)數(shù)：

對(duì)a,b再分別求二階偏導(dǎo)數(shù)：

令一階偏導(dǎo)數(shù)為0：

解得：

相關(guān)系數(shù)r：

3 軟件設(shè)計(jì)與實(shí)現(xiàn)

軟件采用Qt5.12進(jìn)行開(kāi)發(fā)。主要分為以下幾個(gè)部分：相機(jī)控制模塊、外部設(shè)備控制模塊、目標(biāo)檢測(cè)與判斷模塊、前端界面模塊。

圖4 系統(tǒng)模塊組成

圖5 主界面功能

相機(jī)控制模塊：相機(jī)為大華工業(yè)相機(jī)，型號(hào)為A3600MG18，分辨率為3072*2048，單通道圖像。此模塊主要將大華相機(jī)提供的接口集成在軟件中，實(shí)現(xiàn)的兩個(gè)功能是控制相機(jī)的開(kāi)關(guān)和拉流方式。通過(guò)點(diǎn)擊軟件界面上的“打開(kāi)相機(jī)”、“關(guān)閉相機(jī)”兩個(gè)按鈕，可以實(shí)現(xiàn)控制相機(jī)的打開(kāi)和關(guān)閉。點(diǎn)擊界面上的“開(kāi)始識(shí)別”、“停止識(shí)別”按鈕，將會(huì)改變相機(jī)的拉流方式從持續(xù)拉流和外部觸發(fā)之間切換，同時(shí)這兩個(gè)按鈕也控制著軟件的識(shí)別功能的開(kāi)始和停止。

目標(biāo)檢測(cè)與判斷模塊：此部分的代碼主要是實(shí)現(xiàn)兩個(gè)接口函數(shù)YOLO和線性擬合。YOLO函數(shù)將相機(jī)的數(shù)據(jù)流讀進(jìn)來(lái)，然后進(jìn)行識(shí)別和判斷，同時(shí)返回出識(shí)別到的所有的小黑塊的位置信息。線性擬合函數(shù)會(huì)將上一步Y(jié)OLO返回的位置信息作為輸入，通過(guò)最小二乘法擬合直線并將得到的參數(shù)和相關(guān)系數(shù)與給定的值和閾值進(jìn)行比較，得到最終結(jié)果并返回。

外部設(shè)備控制模塊：此模塊有兩個(gè)功能，一個(gè)是與光敏傳感器的通信來(lái)控制相機(jī)的拍照，另一個(gè)是當(dāng)識(shí)別到錯(cuò)誤圖書(shū)的時(shí)候驅(qū)動(dòng)外部設(shè)備彈出回收裝置并收回。

最后一個(gè)模塊是前端界面模塊。前端界面采用的Qt庫(kù)進(jìn)行開(kāi)發(fā)，集成了前三個(gè)模塊的內(nèi)容。界面上包括顯示區(qū)、控制區(qū)和菜單欄。顯示區(qū)顯示相機(jī)實(shí)時(shí)畫(huà)面、識(shí)別的圖像結(jié)果和文字結(jié)果?？刂茀^(qū)設(shè)置了四個(gè)按鈕，對(duì)應(yīng)了相機(jī)控制模塊和目標(biāo)檢測(cè)與判斷模塊。除此之外，軟件還將模型訓(xùn)練集成到其中，包括樣本的采集（拍照）、樣本標(biāo)注、模型訓(xùn)練。菜單欄中單張拍照實(shí)現(xiàn)了相機(jī)的軟觸發(fā)功能，點(diǎn)擊按鈕相機(jī)就會(huì)拍照一張。樣本標(biāo)記是將LabelImg這個(gè)軟件集成到其中，點(diǎn)擊按鈕會(huì)會(huì)將LabelImg這個(gè)軟件彈出。參數(shù)調(diào)整會(huì)彈窗顯示本次圖書(shū)樣本的參數(shù)信息和閾值信息，并且可以根據(jù)使用情況對(duì)此進(jìn)行調(diào)整。

4 實(shí)驗(yàn)與分析

實(shí)驗(yàn)中檢測(cè)所用的計(jì)算機(jī)的配置如表1所示。

表1 測(cè)試計(jì)算機(jī)配置

圖6 識(shí)別流程圖

圖7 軟件界面

對(duì)9種圖書(shū)4096本樣本圖書(shū)進(jìn)行裝訂檢測(cè)。系統(tǒng)檢測(cè)圖書(shū)裝訂準(zhǔn)確率ACC為正確檢測(cè)的圖書(shū)樣本數(shù)占總樣本圖書(shū)的比值，如式子。

其中，TP表示實(shí)際正確且檢測(cè)為正確的樣本個(gè)數(shù)，F(xiàn)N表示實(shí)際正確但是檢測(cè)為錯(cuò)誤樣本的個(gè)數(shù)，F(xiàn)P表示實(shí)際裝訂有誤但是檢測(cè)為正確的樣本個(gè)數(shù)，TN表示實(shí)際錯(cuò)誤且檢測(cè)為有誤的樣本個(gè)數(shù)。實(shí)驗(yàn)結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果

由于生產(chǎn)過(guò)程中負(fù)樣本數(shù)量較少，在實(shí)驗(yàn)過(guò)程中手動(dòng)制造了缺失、重復(fù)、亂序三種錯(cuò)誤在不同厚度的6種圖書(shū)（悲慘世界、從0到 1、背影、新華字典、古漢語(yǔ)常用字字典、成語(yǔ)詞典）共36個(gè)負(fù)樣本，均能將錯(cuò)誤識(shí)別出來(lái)。

從實(shí)驗(yàn)結(jié)果可以看出，每種樣本的檢測(cè)準(zhǔn)確率η≥95%，總體檢測(cè)的準(zhǔn)確率β≥97%。另一方面，平均每個(gè)樣本的檢測(cè)時(shí)間為100ms，滿足生產(chǎn)線所要求的檢測(cè)速度。

5 結(jié)語(yǔ)

本系統(tǒng)開(kāi)發(fā)完成之后在通州皇家印刷廠的生產(chǎn)線進(jìn)行線上試驗(yàn)，通過(guò)連續(xù)一周對(duì)樣本的檢測(cè)，ACC準(zhǔn)確率達(dá)到96%，每個(gè)樣本的檢測(cè)時(shí)間小于100ms，滿足線上生產(chǎn)需求。

針對(duì)圖書(shū)裝訂檢測(cè)的方法，本文中采用的是使用線性擬合的方式對(duì)識(shí)別到的結(jié)果進(jìn)行判斷，除此之外還可以通過(guò)對(duì)識(shí)別到的結(jié)果進(jìn)行仿射變換再通過(guò)模板匹配的方式進(jìn)行判斷。

總體來(lái)說(shuō)，此套圖書(shū)檢測(cè)系統(tǒng)，具有十分廣闊的應(yīng)用前景，基本可以滿足現(xiàn)在國(guó)內(nèi)所有的圖書(shū)印刷行業(yè)的檢測(cè)問(wèn)題。并且隨著工業(yè)智能化的不斷推進(jìn)，機(jī)器視覺(jué)一定會(huì)被廣泛的引用到圖書(shū)生產(chǎn)過(guò)程檢測(cè)中。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡