国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于YOLO的圖書(shū)裝訂自動(dòng)化檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2023-02-03 08:50師,于強(qiáng)
制造業(yè)自動(dòng)化 2023年1期
關(guān)鍵詞:按鈕界面圖書(shū)

何 師,于 強(qiáng)

(1.中國(guó)科學(xué)院國(guó)家空間科學(xué)中心,北京 100192;2.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 101408)

0 引言

隨著機(jī)器視覺(jué),工業(yè)自動(dòng)化的快速發(fā)展,工業(yè)4.0[1]的概念已經(jīng)被提上日程。傳統(tǒng)很多需要人工來(lái)手動(dòng)操作的工作,漸漸的被機(jī)器所替代。神經(jīng)網(wǎng)絡(luò)更是讓計(jì)算機(jī)視覺(jué)有了更廣闊的應(yīng)用場(chǎng)景,它將基于人類(lèi)視覺(jué)的分類(lèi)[2]、檢測(cè)[3]、分割[4]等任務(wù)實(shí)現(xiàn)自動(dòng)化。目標(biāo)檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用于人臉識(shí)別[5]、自動(dòng)駕駛[6]、工業(yè)生產(chǎn)[7]等領(lǐng)域。

在圖書(shū)的生產(chǎn)過(guò)程中,圖書(shū)的質(zhì)量保證是重中之重。要保證任何一本圖書(shū)在出廠時(shí)都不能夠有任何的裝訂錯(cuò)誤。

裝訂過(guò)程中出現(xiàn)的錯(cuò)誤形式如下圖所示,從上至下依次為正確樣本、順序出錯(cuò)樣本、章節(jié)重復(fù)樣本、章節(jié)缺失樣本。

圖1 四種樣本圖書(shū)

目前,該項(xiàng)工作主要是由人工來(lái)完成,這造成了正版圖書(shū)較高的圖書(shū)成本,并且很難完全保證圖書(shū)質(zhì)量。利用自動(dòng)化方式來(lái)完成圖書(shū)質(zhì)量的檢測(cè),是圖書(shū)生產(chǎn)過(guò)程中必然的趨勢(shì)。在圖書(shū)裝訂檢測(cè)領(lǐng)域,杜萬(wàn)全先后提出過(guò)使用在線稱(chēng)重[8]、計(jì)算機(jī)視覺(jué)[9]兩種方式,但都只是一種探索和想象,并未真正落地實(shí)現(xiàn)。在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方面,YOLOv3具有速度快、精度高的特征優(yōu)勢(shì),并且已經(jīng)在很多方面應(yīng)用。本文研究借助于YOLOv3模型,對(duì)圖書(shū)裝訂進(jìn)行識(shí)別檢測(cè),并使用Qt完成軟件系統(tǒng)的研發(fā)。

1 系統(tǒng)總體設(shè)計(jì)方案

1.1 系統(tǒng)組成

圖書(shū)裝訂檢測(cè)系統(tǒng)由圖像采集模塊、圖書(shū)智能識(shí)別模塊和后處理模塊三個(gè)模塊組成。圖像采集模塊包括工業(yè)CCD相機(jī)——大華相機(jī)、平行光源、觸發(fā)器。后處理模塊包過(guò)氣缸、氣泵、氣閥和一個(gè)裝訂有誤圖書(shū)的回收裝置。智能識(shí)別模塊主要是通過(guò)深度學(xué)習(xí)算法對(duì)圖書(shū)的裝訂進(jìn)行識(shí)別和檢測(cè)。

圖2 系統(tǒng)組成圖(位置檢測(cè))

1.2 系統(tǒng)流程

整個(gè)流程如圖3所示。傳送帶上的圖書(shū)到達(dá)觸發(fā)器位置之后會(huì)觸發(fā)相機(jī)進(jìn)行拍照,拍得的照片會(huì)通過(guò)網(wǎng)線(RJ45)傳送給電腦,軟件首先會(huì)對(duì)拍到的圖像進(jìn)行識(shí)別,識(shí)別分為兩次,第一次識(shí)別圖書(shū)在整個(gè)圖片中的位置,按照識(shí)別到的圖書(shū)位置對(duì)整個(gè)圖像進(jìn)行裁剪。裁剪完之后會(huì)再次進(jìn)行識(shí)別,此次識(shí)別是識(shí)別書(shū)脊側(cè)的標(biāo)志塊,識(shí)別完之后提取識(shí)別到的標(biāo)志塊的中點(diǎn)坐標(biāo),使用最小二乘法進(jìn)行線性擬合。通過(guò)綜合判斷識(shí)別到的標(biāo)志塊的數(shù)量、擬合得到的參數(shù)和相關(guān)系數(shù),最終得到圖書(shū)的裝訂是否有誤。若圖書(shū)裝訂結(jié)果正確,則后處理裝置不觸發(fā);若裝訂有誤,則觸發(fā)后處理裝置,彈出回收裝置將圖書(shū)截獲。

圖3 系統(tǒng)流程圖

2 目標(biāo)識(shí)別與判斷

2.1 目標(biāo)識(shí)別

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法主要分為兩類(lèi)[10]:一種是基于候選區(qū)域的兩階段(Two Stage)目標(biāo)檢測(cè)如FastRCNN[11]、Faster R-CNN[12]等,另一種是基于回歸的單階段(One Stage)目標(biāo)檢測(cè)算法如YOLO[13]和SSD[14]。兩種方法各有利弊,綜合對(duì)比各種方式之后選擇YOLOv3作為本系統(tǒng)的檢測(cè)模型。

YOLOv3模型無(wú)論是精度還是速度都要優(yōu)于其他模型。使用Geoforce 2080Ti OpenCV FP16,Network size=416,fps可以達(dá)到159[15]。這個(gè)速度滿足了每秒鐘檢測(cè)一本樣本圖書(shū)所需要的時(shí)間要求。

整個(gè)系統(tǒng)的兩次識(shí)別都是通過(guò)YOLOv3模型識(shí)別的。在對(duì)本地圖書(shū)樣本進(jìn)行標(biāo)記之后,訓(xùn)練Github上提供的預(yù)訓(xùn)練的模型[15],將得到的模型用于后期的識(shí)別工作中。

2.2 模型訓(xùn)練

為提高識(shí)別精度,本文中主要通過(guò)修改cfg 文件中的參數(shù)實(shí)現(xiàn),例如:使用不同的初始網(wǎng)絡(luò)大小、設(shè)置random=1、訓(xùn)練模型時(shí)設(shè)置layer=23,stride=4。

訓(xùn)練樣本使用的不同光照強(qiáng)度下的不同種類(lèi)圖書(shū)、同一種圖書(shū)不同樣本,共20種圖書(shū)1000余個(gè)樣本。此外,我們?cè)谟?xùn)練模型時(shí)曾使用在同一光照強(qiáng)度下不同的樣本進(jìn)行訓(xùn)練,但最終得到的結(jié)果并不能識(shí)別到任何的標(biāo)志,并且mAP始終為0,由此我們推測(cè),YOLOv3對(duì)圖像的亮度敏感。

2.3 結(jié)果判斷

圖書(shū)裝訂結(jié)果是根據(jù)線性擬合的參數(shù)決定的,線性擬合的方式是采用最小二乘法。

設(shè)x和y之間的函數(shù)關(guān)系為y=ax+b,此式中有兩個(gè)待定參數(shù),a為斜率,b為截距。對(duì)于所得到的N組數(shù)據(jù),xi認(rèn)為是準(zhǔn)確的,所有的誤差只和yi有關(guān)。用最小二乘法估計(jì)參數(shù)時(shí),要求觀測(cè)值yi的偏差的加權(quán)平方和最小,即:

對(duì)a,b分別求一階偏導(dǎo)數(shù):

對(duì)a,b再分別求二階偏導(dǎo)數(shù):

令一階偏導(dǎo)數(shù)為0:

解得:

相關(guān)系數(shù)r:

3 軟件設(shè)計(jì)與實(shí)現(xiàn)

軟件采用Qt5.12進(jìn)行開(kāi)發(fā)。主要分為以下幾個(gè)部分:相機(jī)控制模塊、外部設(shè)備控制模塊、目標(biāo)檢測(cè)與判斷模塊、前端界面模塊。

圖4 系統(tǒng)模塊組成

圖5 主界面功能

相機(jī)控制模塊:相機(jī)為大華工業(yè)相機(jī),型號(hào)為A3600MG18,分辨率為3072*2048,單通道圖像。此模塊主要將大華相機(jī)提供的接口集成在軟件中,實(shí)現(xiàn)的兩個(gè)功能是控制相機(jī)的開(kāi)關(guān)和拉流方式。通過(guò)點(diǎn)擊軟件界面上的“打開(kāi)相機(jī)”、“關(guān)閉相機(jī)”兩個(gè)按鈕,可以實(shí)現(xiàn)控制相機(jī)的打開(kāi)和關(guān)閉。點(diǎn)擊界面上的“開(kāi)始識(shí)別”、“停止識(shí)別”按鈕,將會(huì)改變相機(jī)的拉流方式從持續(xù)拉流和外部觸發(fā)之間切換,同時(shí)這兩個(gè)按鈕也控制著軟件的識(shí)別功能的開(kāi)始和停止。

目標(biāo)檢測(cè)與判斷模塊:此部分的代碼主要是實(shí)現(xiàn)兩個(gè)接口函數(shù)YOLO和線性擬合。YOLO函數(shù)將相機(jī)的數(shù)據(jù)流讀進(jìn)來(lái),然后進(jìn)行識(shí)別和判斷,同時(shí)返回出識(shí)別到的所有的小黑塊的位置信息。線性擬合函數(shù)會(huì)將上一步Y(jié)OLO返回的位置信息作為輸入,通過(guò)最小二乘法擬合直線并將得到的參數(shù)和相關(guān)系數(shù)與給定的值和閾值進(jìn)行比較,得到最終結(jié)果并返回。

外部設(shè)備控制模塊:此模塊有兩個(gè)功能,一個(gè)是與光敏傳感器的通信來(lái)控制相機(jī)的拍照,另一個(gè)是當(dāng)識(shí)別到錯(cuò)誤圖書(shū)的時(shí)候驅(qū)動(dòng)外部設(shè)備彈出回收裝置并收回。

最后一個(gè)模塊是前端界面模塊。前端界面采用的Qt庫(kù)進(jìn)行開(kāi)發(fā),集成了前三個(gè)模塊的內(nèi)容。界面上包括顯示區(qū)、控制區(qū)和菜單欄。顯示區(qū)顯示相機(jī)實(shí)時(shí)畫(huà)面、識(shí)別的圖像結(jié)果和文字結(jié)果??刂茀^(qū)設(shè)置了四個(gè)按鈕,對(duì)應(yīng)了相機(jī)控制模塊和目標(biāo)檢測(cè)與判斷模塊。除此之外,軟件還將模型訓(xùn)練集成到其中,包括樣本的采集(拍照)、樣本標(biāo)注、模型訓(xùn)練。菜單欄中單張拍照實(shí)現(xiàn)了相機(jī)的軟觸發(fā)功能,點(diǎn)擊按鈕相機(jī)就會(huì)拍照一張。樣本標(biāo)記是將LabelImg這個(gè)軟件集成到其中,點(diǎn)擊按鈕會(huì)會(huì)將LabelImg這個(gè)軟件彈出。參數(shù)調(diào)整會(huì)彈窗顯示本次圖書(shū)樣本的參數(shù)信息和閾值信息,并且可以根據(jù)使用情況對(duì)此進(jìn)行調(diào)整。

4 實(shí)驗(yàn)與分析

實(shí)驗(yàn)中檢測(cè)所用的計(jì)算機(jī)的配置如表1所示。

表1 測(cè)試計(jì)算機(jī)配置

圖6 識(shí)別流程圖

圖7 軟件界面

對(duì)9種圖書(shū)4096本樣本圖書(shū)進(jìn)行裝訂檢測(cè)。系統(tǒng)檢測(cè)圖書(shū)裝訂準(zhǔn)確率ACC為正確檢測(cè)的圖書(shū)樣本數(shù)占總樣本圖書(shū)的比值,如式子。

其中,TP表示實(shí)際正確且檢測(cè)為正確的樣本個(gè)數(shù),F(xiàn)N表示實(shí)際正確但是檢測(cè)為錯(cuò)誤樣本的個(gè)數(shù),F(xiàn)P表示實(shí)際裝訂有誤但是檢測(cè)為正確的樣本個(gè)數(shù),TN表示實(shí)際錯(cuò)誤且檢測(cè)為有誤的樣本個(gè)數(shù)。實(shí)驗(yàn)結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果

由于生產(chǎn)過(guò)程中負(fù)樣本數(shù)量較少,在實(shí)驗(yàn)過(guò)程中手動(dòng)制造了缺失、重復(fù)、亂序三種錯(cuò)誤在不同厚度的6種圖書(shū)(悲慘世界、從0到 1、背影、新華字典、古漢語(yǔ)常用字字典、成語(yǔ)詞典)共36個(gè)負(fù)樣本,均能將錯(cuò)誤識(shí)別出來(lái)。

從實(shí)驗(yàn)結(jié)果可以看出,每種樣本的檢測(cè)準(zhǔn)確率η≥95%,總體檢測(cè)的準(zhǔn)確率β≥97%。另一方面,平均每個(gè)樣本的檢測(cè)時(shí)間為100ms,滿足生產(chǎn)線所要求的檢測(cè)速度。

5 結(jié)語(yǔ)

本系統(tǒng)開(kāi)發(fā)完成之后在通州皇家印刷廠的生產(chǎn)線進(jìn)行線上試驗(yàn),通過(guò)連續(xù)一周對(duì)樣本的檢測(cè),ACC準(zhǔn)確率達(dá)到96%,每個(gè)樣本的檢測(cè)時(shí)間小于100ms,滿足線上生產(chǎn)需求。

針對(duì)圖書(shū)裝訂檢測(cè)的方法,本文中采用的是使用線性擬合的方式對(duì)識(shí)別到的結(jié)果進(jìn)行判斷,除此之外還可以通過(guò)對(duì)識(shí)別到的結(jié)果進(jìn)行仿射變換再通過(guò)模板匹配的方式進(jìn)行判斷。

總體來(lái)說(shuō),此套圖書(shū)檢測(cè)系統(tǒng),具有十分廣闊的應(yīng)用前景,基本可以滿足現(xiàn)在國(guó)內(nèi)所有的圖書(shū)印刷行業(yè)的檢測(cè)問(wèn)題。并且隨著工業(yè)智能化的不斷推進(jìn),機(jī)器視覺(jué)一定會(huì)被廣泛的引用到圖書(shū)生產(chǎn)過(guò)程檢測(cè)中。

猜你喜歡
按鈕界面圖書(shū)
當(dāng)你面前有個(gè)按鈕
圖書(shū)推薦
國(guó)企黨委前置研究的“四個(gè)界面”
歡迎來(lái)到圖書(shū)借閱角
基于FANUC PICTURE的虛擬軸坐標(biāo)顯示界面開(kāi)發(fā)方法研究
班里有個(gè)圖書(shū)角
死循環(huán)
電子顯微打開(kāi)材料界面世界之門(mén)
手機(jī)界面中圖形符號(hào)的發(fā)展趨向
內(nèi)心不能碰的按鈕