郎貴林
(西華大學(xué) 計算機與軟件工程學(xué)院,四川 成都 610039)
在現(xiàn)如今科技高速發(fā)展的社會中,人工智能已經(jīng)是一個不可避免的話題。在很多工作中人們更希望使用機器來代替人工的工作,員工每天的上班時間有限,所以如果能用機器來代替人工,那么工作效率無疑提高了很多。文獻[1]提出使用自動化的機器對香煙產(chǎn)品進行篩選,而且描述了煙盒上噴碼的實際意義,由于香煙在我國的監(jiān)管比較嚴(yán)謹(jǐn),制定了一些規(guī)定來規(guī)范香煙的制作和販賣,煙盒噴碼主要是用于相關(guān)工作人員查驗香煙是否違法。文獻[2]使用了傳統(tǒng)的圖像處理算法來對煙盒的包裝進行檢測,文獻[3]使用的是深度學(xué)習(xí)的模型對煙盒上的激光噴碼進行識別,這些方法都是用的工業(yè)相機,而本文是使用手機拍照。
本文主要是針對煙盒上的噴碼進行檢測,這些煙盒上的兩行白色數(shù)字噴碼則為本文需要檢測的字符,這些噴碼使用的是油漆打印,油漆分布不均勻,在燈光下還會反光,針對這些難題,本文主要使用了一些目標(biāo)檢測算法對噴碼檢測進行了相關(guān)實驗和對比。
根據(jù)煙盒圖像是可以看的出一些字符噴碼的,這些噴碼的顏色固定,一般都為白色,煙盒身的顏色與噴碼有一些差異,與煙盒上的中文字符也有很大不同,所以根據(jù)這些特征本文通過模糊聚類算法來對圖像中的顏色特征進行聚類。經(jīng)過模糊聚類后截取下來的結(jié)果中,聚類算法把背景聚為一類,把前景數(shù)字聚為了一類,噪聲聚為了一類,但是這些字符都有殘缺,而且混有較多噪聲,這些都將為下一步的字符分割和字符識別造成干擾。
由于煙盒噴碼的檢測難度,結(jié)合文獻[4]提出了基于尺度可擴展的煙盒噴碼檢測算法。該算法在ICDAR 2015和ICDAR 2017數(shù)據(jù)集中的整體表現(xiàn)都比較好,但是該算法的檢測速率太慢,在前面的ICDAR 2015數(shù)據(jù)集中的每秒檢測圖像的數(shù)量為1.6,而在ICDAR 2017中的檢測速率還要低。
本文根據(jù)尺度可擴展網(wǎng)絡(luò)算法存在檢測圖像速率較慢缺點做出了一些改進,為了提高該算法的檢測速率,對該網(wǎng)絡(luò)的結(jié)構(gòu)進行了優(yōu)化。根據(jù)圖像在檢測過程中所消耗的時間進行了分析,首先殘差網(wǎng)絡(luò)是使用50層,但是卷積的效率比較高,然后在文獻[4]中也分析了基于廣度優(yōu)先的擴展算法在時間上占用的量也很小,所以整個模型的大量時間都花費在了特征融合的結(jié)構(gòu)中,由于對不同尺度的特征融合時需要進行雙線性插值,所以消耗了大量時間。那么本文在針對這個問題上提出了一個比較輕便的網(wǎng)絡(luò)結(jié)構(gòu),如圖1。
圖1 模型結(jié)構(gòu)圖
本文去掉長寬為160且通道為256特征融合層,去掉了長寬為40且通道為1024特征融合層,只剩下另外兩層進行融合,連接后得到特征F,如圖1。由于最后一層提取的時深層特征,所以是不能夠去除,如果去除最后一層那就沒有意義。第一層和第三層特征層提取的時比較淺的特征,都是可以由第二層來代替的,所以可以去掉。最后在實驗結(jié)果中,也表明了留下第二層與最后一層的效率較高。
本文的數(shù)據(jù)集來自移動手機拍攝,整個圖像的分別率為1080p,拍攝的都是條形煙盒表面的字符噴碼,整個數(shù)據(jù)集總共有1000張圖片。
本實驗是在Ubuntu 18.04系統(tǒng)上進行的,使用的是PyTorch1.2.0的深度學(xué)習(xí)框架以及CUDA 10.2,在硬件設(shè)施上使用的是AMD R5 4600H處理器,NVIDIA GTX1650顯卡加速計算。本文的模型總共使用了1000張圖片,500張圖片用于訓(xùn)練,500張用于測試。在訓(xùn)練前使用了殘差網(wǎng)絡(luò)在官方預(yù)訓(xùn)練好的參數(shù),訓(xùn)練中總共迭代了420次。在開始時將學(xué)習(xí)率設(shè)置0.00001,在迭代到200次時將學(xué)習(xí)率下調(diào)為了0.000001,最終損失函數(shù)的值下降為了0.4左右。
本文主要是使用了4個指標(biāo)來評價算法。第一個評價參數(shù)是召回率,主要是使用已經(jīng)檢測到字符的圖像數(shù)量除以參與測試圖像的總數(shù),第二個指標(biāo)是精確率,計算每個檢測到的字符圖像中檢測正確的數(shù)量與檢測到的圖像數(shù)量之比,第三個是F值,為精確率和召回率的均橫指標(biāo),數(shù)值上等于精確率的倒數(shù)與召回率的倒數(shù)之和乘以2,第三個參數(shù)檢測速率,主要指每秒鐘能夠處理圖像的數(shù)量。
在本節(jié)中主要是對尺度擴展算法與改進后的算法進行對比,在數(shù)據(jù)集和實驗環(huán)境保持不變的情況下進行訓(xùn)練和測試。實驗結(jié)果如表1。
表1 算法實驗數(shù)據(jù)比較
表1中展現(xiàn)了各個參數(shù)的對比,其中尺度可擴展網(wǎng)絡(luò)算法在召回率、精確率和F值上要比本文算法要高一些,但是最終在檢測速率上,本文算法的檢測速率要比尺度可擴展網(wǎng)絡(luò)算法的檢測速率卻要高出1.1,在如此小的代價中卻換來了更高的檢測速率。
經(jīng)本文對已有的算法模型進行研究得出,通過對比較耗時較高的結(jié)構(gòu)進行簡化處理,對無關(guān)緊要的結(jié)構(gòu)進行去除,較大的提升了算法的效率。那么在以后的深度學(xué)習(xí)算法的研究中,依然需要對一些比較成熟的算法進行優(yōu)化,主要是為了提高算法的檢測速率。