劉桂雄 劉思洋 吳俊芳 羅文佳
摘要:基于深度學(xué)習(xí)的目標(biāo)檢測是機(jī)器視覺應(yīng)用的重要方面。該文系統(tǒng)總結(jié)基于區(qū)域候選的目標(biāo)檢測算法、基于回歸方法的目標(biāo)檢測算法及其他優(yōu)化算法的算法思想、網(wǎng)絡(luò)架構(gòu)、演進(jìn)過程、技術(shù)指標(biāo)、應(yīng)用場景,指出在機(jī)器視覺系統(tǒng)應(yīng)用中,應(yīng)充分考慮檢測對象、檢測精度、實時性能要求,結(jié)合不同目標(biāo)檢測算法特點,選擇最合適的檢測算法。最后,面向票據(jù)檢測需求,分析目標(biāo)檢測算法在票據(jù)圖像位置檢測、防偽特征檢測、文本信息檢測中的應(yīng)用。
關(guān)鍵詞:機(jī)器視覺;目標(biāo)檢測;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);票據(jù)檢測
中圖分類號:TP302一 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-5124(2019)05-0001-09
0 引言
在智能制造與裝備等產(chǎn)業(yè)中,機(jī)器視覺檢測技術(shù)因其實時性好、準(zhǔn)確性高、適用性廣而得到廣泛應(yīng)用。目標(biāo)檢測作為機(jī)器視覺系統(tǒng)主要任務(wù)之一,在工業(yè)相機(jī)采集高分辨率圖像信息基礎(chǔ)上,實現(xiàn)多目標(biāo)物體識別、位置預(yù)測,并關(guān)聯(lián)目標(biāo)物體位置信息與世界坐標(biāo)信息,控制視覺檢測系統(tǒng)驅(qū)動器進(jìn)行相應(yīng)機(jī)器檢測操作[1]。機(jī)器視覺目標(biāo)檢測算法由目標(biāo)特征提取器、目標(biāo)分類器與目標(biāo)位置區(qū)域搜索方法構(gòu)成[2-5]。其中,目標(biāo)特征提取器由人為設(shè)計,提取目標(biāo)圖像顏色、形狀、紋理等信息,如方向梯度直方圖特征[6](histogram of oriented gradient,HOG)、尺度不變特征[7](scale-invariant feature transform,SIFT)等;目標(biāo)分類器則是基于提取器得到信息進(jìn)行特征計算,確定目標(biāo)類別,代表性的有基于支持向量機(jī)(support vector machine,SVM)分類器[8]、adaboost分類器[9];目標(biāo)位置區(qū)域搜索方法通常是采用滑動窗口(slding window)在圖像上滑動,對每個滑動區(qū)域進(jìn)行特征提取與分類,判斷該區(qū)域存在目標(biāo)概率及其位置[10]。機(jī)器視覺目標(biāo)檢測算法的目標(biāo)特征提取器、目標(biāo)分類器、目標(biāo)位置區(qū)域搜索方法獨立設(shè)計,實現(xiàn)目標(biāo)檢測,在特定場景下檢測效果良好,但通用性較差、開發(fā)周期較長。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)具有特征學(xué)習(xí)與歸納能力強(qiáng)特點,深度學(xué)習(xí)采用端到端學(xué)習(xí)策略(end-to-end learning),將特征提取、目標(biāo)分類、目標(biāo)定位任務(wù)整合到神經(jīng)網(wǎng)絡(luò)架構(gòu)中,實現(xiàn)從圖像輸入到目標(biāo)分類與定位檢測結(jié)果輸出的統(tǒng)一過程[11],與經(jīng)典目標(biāo)檢測算法相比,有效地簡化算法過程,提高檢測效率,以CNN為代表的深度學(xué)習(xí)方法成為目標(biāo)檢測領(lǐng)域研究熱點[12]。目前,基于深度學(xué)習(xí)的目標(biāo)檢測算法與機(jī)器視覺系統(tǒng)結(jié)合,已經(jīng)在無人機(jī)巡[13]、工業(yè)CT圖像缺陷檢測[14]、車輛檢測[15]、移動端人臉檢測[16]等領(lǐng)域取得較大進(jìn)展,但在復(fù)雜多變的目標(biāo)檢測場景中應(yīng)用存在問題,如在票據(jù)檢測應(yīng)用領(lǐng)域,目前多采用傳統(tǒng)目標(biāo)檢測方法完成票據(jù)某一防偽特征檢測[17-18],而實現(xiàn)票據(jù)完整檢測涉及多光照條件票據(jù)檢測[19]、票據(jù)多防偽特征檢測[20]、票據(jù)文本信息檢測[21]等多項任務(wù),票據(jù)在不同光照條件下又呈現(xiàn)復(fù)雜多變圖像特征,傳統(tǒng)目標(biāo)檢測方法在票據(jù)多目標(biāo)檢測中應(yīng)用復(fù)雜、實現(xiàn)困難?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法在高特征維度中具有強(qiáng)大分辨能力[22],非常適合應(yīng)用于票據(jù)檢測的機(jī)器視覺系統(tǒng)中。
本文系統(tǒng)總結(jié)基于深度學(xué)習(xí)的機(jī)器視覺目標(biāo)檢測算法,對比各種算法在VOC2012[23]目標(biāo)檢測數(shù)據(jù)集中的性能,指出不同目標(biāo)檢測算法適用的機(jī)器視覺任務(wù)場景,并結(jié)合基于深度學(xué)習(xí)的票據(jù)檢測技術(shù)加以分析與應(yīng)用。
1 目標(biāo)檢測算法準(zhǔn)確性評價指標(biāo)
基于深度學(xué)習(xí)的目標(biāo)檢測算法以經(jīng)典CNN作為骨干網(wǎng)絡(luò),包括輸入層、卷積層、池化層、全連接層、輸出層[24]。輸入層以固定分辨率圖像作為輸入,由多層卷積層進(jìn)行圖像逐層卷積運算,完成從顏色、紋理等低級特征到圖像高級語義特征提取,全連接層則根據(jù)輸出層具體任務(wù),對高層特征進(jìn)行映射,再由SVM、SoftMax等分類器輸出目標(biāo)類別置信度、目標(biāo)包圍框(bounding box)坐標(biāo)參數(shù)。典型CNN網(wǎng)絡(luò)包括AlexNef25]、GoogleNet[26]、VGG16[27]、ResNet[28]等。算法結(jié)合目標(biāo)位置區(qū)域搜索方法,采用端對端訓(xùn)練策略,完成圖像從輸入到目標(biāo)類別、目標(biāo)位置坐標(biāo)輸出的統(tǒng)一過程[29]。
在多類別目標(biāo)檢測任務(wù)中,算法在一幅圖像上對某種待測目標(biāo)的檢測結(jié)果存在4種情況(圖1為算法檢測結(jié)果示意圖),情況1為算法檢測得到的樣本屬于待測目標(biāo)樣本TP,數(shù)量為N即;情況2為算法檢測得到的樣本不屬于待測目標(biāo)樣本FP,數(shù)量為NFP;情況3為未被算法成功檢測的其他目標(biāo)樣本TN,數(shù)量為NTN;情況4為未被算法成功預(yù)測的待測目標(biāo)樣本FN,數(shù)量為NFN。
目標(biāo)檢測算法準(zhǔn)確性評價指標(biāo)可用查準(zhǔn)率Pprection、查全率Precall表示。其中,查準(zhǔn)率Pprection定義為算法檢測得到樣本總數(shù)NTp+N即中,待測目標(biāo)樣本數(shù)NTP所占比率,即:
Pprection=NTP/NTPNFP(1)
查全率Precall定義為圖像上存在的所有待測目標(biāo)樣本數(shù)NTP+NFN中,算法檢測的待測目標(biāo)樣本數(shù)NTP占比率,即:
Precall=NTP/TP+NFN
在保證查全率Precall處于較高水平前提下,查準(zhǔn)率Pprection越高,算法性能越好。以Precall為橫坐標(biāo),以Pprection為縱坐標(biāo)建立曲線,曲線與坐標(biāo)軸中所包圍面積即為算法在單類目標(biāo)檢測中的準(zhǔn)確性評價指標(biāo)AP(average precision),對于多類別目標(biāo)檢測,則求各類目標(biāo)檢測結(jié)果準(zhǔn)確性指標(biāo)平均值mAP(meanaverage precision)作為算法準(zhǔn)確性評價指標(biāo)。
2 基于深度學(xué)習(xí)的機(jī)器視覺目標(biāo)檢測算法
基于深度學(xué)習(xí)的機(jī)器視覺目標(biāo)算法按實現(xiàn)原理可分為基于區(qū)域候選的目標(biāo)檢測算法[30]、基于回歸方法的目標(biāo)檢測算法[31],兩者區(qū)別主要在于是否采用區(qū)域候選方法(region proposals)。此外,一些算法從損失函數(shù)設(shè)計、網(wǎng)絡(luò)優(yōu)化人手,提高算法檢測能力[32]。
2.1 基于區(qū)域候選的目標(biāo)檢測算法
基于區(qū)域候選的目標(biāo)檢測算法首先為待檢測目標(biāo)選取候選區(qū)域;其次,在候選區(qū)域上進(jìn)行特征提取、目標(biāo)分類、位置調(diào)整;最終輸出檢測結(jié)果。
1)R-CNN
Girshick(2014)將CNN引入目標(biāo)檢測任務(wù),提出R-CNN算法[33](region-convolutional neural net-work),是基于深度學(xué)習(xí)的目標(biāo)檢測算法奠基之作。圖2為R-CNN算法流程,利用選擇性搜索策略(selective search)提取約2000個目標(biāo)候選區(qū)域,將候選區(qū)域大小改變?yōu)榻y(tǒng)一尺寸,輸入由AlexNet作為骨干網(wǎng)絡(luò)實現(xiàn)自淺而深的圖像特征提取,由SVM分類器對每個候選區(qū)域特征向量進(jìn)行分類,最后采用非極大值抑制策略(non-maximum suppression,NMS)完成目標(biāo)包圍框位置修正。
R-CNN通過區(qū)域候選方法將目標(biāo)檢測問題轉(zhuǎn)化為圖像區(qū)域的分類問題,相較于經(jīng)典算法,大幅度提高算法檢測性能,具有簡單、通用性強(qiáng)優(yōu)點,但其在2000個區(qū)域候選與特征提取中進(jìn)行多次重復(fù)運算,影響算法時間性能。在ILSVRC2013數(shù)據(jù)集上,R-CNN將mAP從之前最佳算法OverFeat的24.3%提升至31.4%,在VOC2012數(shù)據(jù)集上達(dá)到53.3%。
2)SPP-Net
為彌補R-CNN對2000個區(qū)域候選區(qū)域尺寸改變、特征提取出現(xiàn)重復(fù)操作、冗余運算問題,KaimingHe等(2015)提出SPP-Net(spatial pyramid poolingnetwork),一次性完成整張圖片卷積特征提取,且無需固定圖片尺寸,極大減小R-CNN算法卷積運算量[34],圖3為SPP-Net算法流程。相較于R-CNN算法網(wǎng)絡(luò)結(jié)構(gòu),SPP-Net在卷積層最后一層與全連接層間加入空間金字塔池化層,它將選擇性搜索策略得到的候選區(qū)域?qū)?yīng)至卷積特征圖上,并全部以金字塔池化方式形成大小一致的特征圖進(jìn)入全連接層進(jìn)行進(jìn)一步計算。
SPP-Net在R-CNN基礎(chǔ)上,采用空間金字塔池化方式解決候選區(qū)域歸一化問題,并在一次卷積運算基礎(chǔ)上實現(xiàn)所有候選區(qū)域特征提取,在檢測速度上比R-CNN提高38~102倍,準(zhǔn)確性上略有提高。但SPP-Net對象分類與邊界框回歸兩部分任務(wù)依然是分離進(jìn)行,計算空間占用率高,計算效率較低。
3)Fast R-CNN
Girshick(2015)借鑒SPP-Net空間金字塔池化層思想,提出R-CNN升級版本Fast R-CNN[35](fastregion-convolutional neural network),圖4為Fast R-CNN算法流程圖,其在卷積層之后引入ROIPooling層,與空間金字塔池化層產(chǎn)生相同效果,保證在不同分辨率候選區(qū)域輸入下得到相同維度特征向量,滿足網(wǎng)絡(luò)輸出對圖像分辨率的要求,并可使用反向傳播(back propagation,BP)[36]實現(xiàn)網(wǎng)絡(luò)端對端學(xué)習(xí)。同時,F(xiàn)ast R-CNN構(gòu)造多任務(wù)損失函數(shù),將分類與邊界框回歸統(tǒng)一于一個損失函數(shù)中,實現(xiàn)分類與定位結(jié)果的統(tǒng)一輸出。此外,F(xiàn)ast R-CNN采用VGG16作為骨干網(wǎng)絡(luò),更為優(yōu)異的特征提取網(wǎng)絡(luò)一定程度上提高目標(biāo)檢測準(zhǔn)確率。
Fast R-CNN作為R-CNN升級版本,在VOC2012數(shù)據(jù)集上mAP達(dá)到66.0%,同時,端對端的統(tǒng)一學(xué)習(xí)架構(gòu)使得Fast R-CNN的訓(xùn)練時間、檢測時間有效縮短,在不包括區(qū)域候選過程條件下,單張圖片檢測時間為0.3s。但選擇性搜索這一區(qū)域候選方法仍然嚴(yán)重影響Fast R-CNN的實時性能,是Fast R-CNN的工業(yè)應(yīng)用瓶頸。
4)Faster R-CNN
SPP-Net與Fast R-CNN均從特征提取、候選區(qū)域尺寸歸一化角度提升目標(biāo)檢測算法性能,而Girsh-ick(2017)提出的Faster R-CNN(faster region-con-volutional neural network則從算法另一瓶頸——區(qū)域候選策略改進(jìn)算法[37],F(xiàn)aster R-CNN提出RPN網(wǎng)絡(luò)(region proposal network)代替選擇性搜索作為區(qū)域候選方法。圖5為Faster R-CNN算法流程圖,RPN網(wǎng)絡(luò)在圖像卷積特征圖上通過滑動窗口方法,采用預(yù)設(shè)尺度為特征圖上每個錨點生成9個錨點框并映射至圖像原圖,即為候選區(qū)域。其中,RPN與全連接層共享輸入卷積特征圖,極大降低運算量。
Faster R-CNN采用RPN代替選擇性搜索方法完成區(qū)域候選任務(wù),充分利用骨干網(wǎng)絡(luò)提取的圖像特征。Faster R-CNN在VOC2012數(shù)據(jù)集上mAP達(dá)到75.9%,時間性能達(dá)到5f/s,即is內(nèi)可檢測5張圖像(包括區(qū)域候選過程);但算法在小目標(biāo)檢測任務(wù)中效果較差,這是由于選取的錨點框經(jīng)過多次下采樣操作,再返回至原圖時,對應(yīng)于原圖中區(qū)域較大部分,使得小目標(biāo)的定位準(zhǔn)確性下降。
綜合以上分析,基于區(qū)域候選的目標(biāo)檢測算法采用區(qū)域候選方法預(yù)測目標(biāo)位置,通過合并有效區(qū)域、去除冗余區(qū)域策略實現(xiàn)目標(biāo)位置調(diào)整,實現(xiàn)目標(biāo)高精度定位,但區(qū)域候選方法耗費較長時間,適用于檢測精度要求高、檢測實時性要求不高場合。
2.2 基于回歸方法的目標(biāo)檢測算法
基于回歸方法的目標(biāo)檢測算法不同于基于區(qū)域候選的目標(biāo)檢測算法“區(qū)域候選+分類”思路,將目標(biāo)檢測過程簡化為端到端的回歸問題,通過網(wǎng)格劃分、像素合并等操作減少圖像處理操作,直接獲得目標(biāo)類別與位置信息,提高算法實時性。
1)YOLO系列
針對基于區(qū)域候選的目標(biāo)檢測操作繁復(fù)、實時性不佳的缺點,Redmon J等(2016)提出YOLO(youonly look once)算法[38]。圖6為YOLO算法流程圖,其將圖像劃分為S×S網(wǎng)格(cel1),在提取卷積特征圖基礎(chǔ)上,若目標(biāo)中心落在某網(wǎng)格中,則該網(wǎng)格為目標(biāo)預(yù)測若干個目標(biāo)邊界框與置信度,最后通過邊界框交并比IOU(intersection over union)等指標(biāo)去除、合并邊界框,最終獲得檢測結(jié)果。
YOLO采用以網(wǎng)格劃分為基礎(chǔ)的多尺度區(qū)域代替區(qū)域候選步驟,以犧牲部分檢測精度為代價提高檢測速度,實現(xiàn)在線實時檢測,檢測時間性能達(dá)到45f/s,在VOC2012數(shù)據(jù)集上mAP為57.9%。YOLO受檢測精度影響,其目標(biāo)定位較為粗糙,小物體檢測效果差,易出現(xiàn)漏檢情況。
Redmon J等(2017)在YOLO算法基礎(chǔ)上研究YOL09000算法[39]。針對YOLO檢測精度問題,YO_L09000在卷積網(wǎng)絡(luò)架構(gòu)上進(jìn)行優(yōu)化,設(shè)計DarkNet-19網(wǎng)絡(luò)并引入批歸一化層[40](batch normalization,BN),一定程度上解決訓(xùn)練過程過擬合問題,從圖像特征提取質(zhì)量角度提高檢測精度。在小目標(biāo)檢測效果不佳問題上,YOL09000采用多尺度訓(xùn)練策略(multi-scale training),即網(wǎng)絡(luò)訓(xùn)練過程中調(diào)整輸入圖像分辨率,使得網(wǎng)絡(luò)具有不同分辨率圖像的檢測能力。YOL09000在45f/s檢測速度下達(dá)到mAP值為63.4%的檢測效果。由于YOL09000算法僅使用最后一層特征圖作為特征輸入,特征信息多樣性不足,限制其檢測效果。
Redmon J等(2018)再次研究YOLO系列新算法YOLOv3[41],CNN研究結(jié)果表明,具備深度、寬度的特征提取網(wǎng)絡(luò)在特征多樣性、層次性表達(dá)效果更好[42]。YOLOv3借鑒該思想,設(shè)計更深的特征提取網(wǎng)絡(luò)DarkNet-53,以及面向工業(yè)應(yīng)用的輕量化網(wǎng)絡(luò)Tiny-DarkNet,進(jìn)一步彌補YOLO系列算法在檢測精度上的缺陷。
2)SSD
Liu Wei等(2015)在以POLO為代表的目標(biāo)檢測算法思路基礎(chǔ)上,借鑒Faster R-CNN在提高檢測精度方面采取的方法,提出SSD(single shot multiBoxDetector)目標(biāo)檢測算法[43]。圖7為SSD算法核心思想示意圖,SSD算法與YOLO系列算法思想一致,將原始圖像劃分為若干個網(wǎng)格,同時借鑒FasterR-CNN關(guān)于錨點框設(shè)置方法,為每個網(wǎng)格設(shè)置特定長寬比先驗框,以適應(yīng)目標(biāo)形狀與大小,減少訓(xùn)練難度。另外,SSD采用多尺度訓(xùn)練策略,大尺度特征圖用于檢測小目標(biāo),小尺度特征圖用于檢測大目標(biāo),提高目標(biāo)檢測精度。
SSD算法結(jié)合YOLO算法、Faster R-CNN算法優(yōu)點,兼具實時性與準(zhǔn)確性,在當(dāng)時是最先進(jìn)算法之一,在VOC2012數(shù)據(jù)集上達(dá)到72.4%檢測精度及59f/s檢測速度。同時,SSD采用多尺度訓(xùn)練策略,使得SSD在小目標(biāo)檢測上取得重大突破,適用于小目標(biāo)檢測場景。
基于回歸方法的目標(biāo)檢測算法與基于區(qū)域候選的目標(biāo)檢測算法相比,減少區(qū)域候選步驟,直接在原圖圖像上劃分網(wǎng)格、分類、位置調(diào)整,提高檢測速度,但由于網(wǎng)格劃分不具備目標(biāo)位置的任何先驗信息,導(dǎo)致該類算法在檢測精度上略有欠缺,適用于在線、實時檢測場合。
2.3 其他相關(guān)改進(jìn)算法
除基于區(qū)域候選、基于回歸方法的目標(biāo)檢測算法思想外,一些目標(biāo)檢測算法從損失函數(shù)優(yōu)化、神經(jīng)網(wǎng)絡(luò)加速等方面進(jìn)一步提高算法檢測準(zhǔn)確性與實時性。
1)RetinaNet
T.Lin等(2017)指出目標(biāo)檢測算法精度難以進(jìn)一步提升主要由類別不平衡問題導(dǎo)致,即在算法生成的大量目標(biāo)邊界框中,大部分邊界框包含的是圖像背景類別,只有少部分邊界框包含待測目標(biāo)。若分類器將所有邊界框分類為背景類別,將導(dǎo)致分類器往錯誤方向訓(xùn)練學(xué)習(xí),檢測效果下降。在此問題分析基礎(chǔ)上,T.Lin等設(shè)計新?lián)p失函數(shù),提出RetinaNet目標(biāo)檢測算法[44],它在損失函數(shù)設(shè)計中加入損失權(quán)重參數(shù),當(dāng)檢測結(jié)果為背景時具有較小損失權(quán)重值,當(dāng)檢測結(jié)果為待測目標(biāo)時具有較大損失權(quán)重值,達(dá)到背景類別、待測目標(biāo)類別整體樣本損失值平衡。
2)RefineDet
S.Zhang等(2018)指出CNN在執(zhí)行下采樣步驟時,將丟失目標(biāo)邊界等細(xì)節(jié)信息且在高特征維度中無法恢復(fù),產(chǎn)生目標(biāo)定位誤差,從多卷積特征融合角度對算法完成改進(jìn),提出RefineDet(refinementneural network for object detection)目標(biāo)檢測算法[45],借鑒ResNet卷積層跳躍連接(short connection)思路,引入特征融合模塊transfer connection block),將網(wǎng)絡(luò)中多個卷積層輸出特征圖進(jìn)行連接,實現(xiàn)從底層輪廓、邊界特征到高層語義特征融合。此外,RefmeDet引入樣本過濾機(jī)制,對于屬于圖像背景類別且置信度高的樣本,算法直接舍去該樣本,以緩解樣本不平衡問題,提高訓(xùn)練速度。在VOC2012數(shù)據(jù)集上,RefmeDet在24.1f/s的時間性能下達(dá)到80.1%的mAP值。
表1為各種目標(biāo)檢測算法及其效果比較表??梢钥闯?,基于區(qū)域候選的目標(biāo)檢測算法在檢測精度上表現(xiàn)優(yōu)異,基于回歸方法的目標(biāo)檢測算法在時間性能上效果良好,在工業(yè)應(yīng)用中,應(yīng)根據(jù)應(yīng)用場景、任務(wù)要求選擇算法。
3 目標(biāo)檢測算法在票據(jù)檢測中的應(yīng)用
在用于票據(jù)檢測的機(jī)器視覺系統(tǒng)中,系統(tǒng)首先由工業(yè)相機(jī)獲取包含票據(jù)目標(biāo)的高分辨率圖像,檢測票據(jù)目標(biāo)在圖像上位置并確定其票據(jù)類別、光源激發(fā)條件信息;其次,完成票據(jù)目標(biāo)所有局部防偽特征檢測,并與該光源條件下標(biāo)準(zhǔn)票據(jù)防偽特征比對,判定票據(jù)真?zhèn)蝃48];最后,系統(tǒng)采用圖像文本檢測方法讀取票據(jù)票號、數(shù)額等信息,完成票據(jù)信息檢測。在票據(jù)檢測過程中,涉及目標(biāo)檢測算法的應(yīng)用包括多光源激發(fā)條件下圖像位置、防偽特征、文本信息等檢測。
3.1 票據(jù)圖像位置檢測
在開放式票據(jù)防偽鑒別儀器中,票據(jù)圖像在視覺系統(tǒng)視野中位置存在偏移、旋轉(zhuǎn)情況,其在視野中位置影響票據(jù)局部防偽特征檢測。傳統(tǒng)方法采用檢測票據(jù)圖像局部角點、顏色特征等實現(xiàn)票據(jù)圖像位置檢測。Young P等(2015)采用SURF(speeded-up robust features)角點特征檢測方法定位票據(jù)特征位置,在可見光條件下實現(xiàn)票據(jù)識別[49];Liu X W等(2014)首先利用模糊集理論對紙幣目標(biāo)與背景進(jìn)行對比度增強(qiáng),然后用最小二乘法擬合出紙幣像素邊緣,根據(jù)像素邊緣線角度校正紙幣圖像,完成紙幣位置區(qū)域檢測[50]。該類方法在特定檢測條件下的票據(jù)位置檢測效果良好,但在不同檢測條件下通用性較差,而票據(jù)完整檢測要求在自然光、紫外光、透光、紅外光條件下分別檢測(見圖8),要求票據(jù)圖像位置檢測方法具有通用性。
票據(jù)圖像位置檢測是在高分辨率圖像中對票據(jù)目標(biāo)的粗定位,是票據(jù)局部防偽特征檢測基礎(chǔ)。因此,票據(jù)圖像位置檢測精度要求不高,只需獲取票據(jù)目標(biāo)的邊緣、類別信息,允許一定位置誤差,但要求算法時間性能佳,檢測速度快?;诨貧w方法的目標(biāo)檢測算法既滿足多光源條件下票據(jù)位置檢測算法通用性要求,又具備實時性檢測特點,是該任務(wù)場景下首選算法。
3.2 票據(jù)防偽特征檢測
票據(jù)防偽特征檢測是票據(jù)檢測的核心內(nèi)容,是通過視覺方法鑒別票據(jù)真?zhèn)蔚年P(guān)鍵手段[51]。票據(jù)在不同光源下呈現(xiàn)不同防偽特征(如圖8所示),如紫外光下的熒光圖案特征、透光下的油墨特征、紅外光下則隱去大部分特征,僅保留某些文字、編碼特征,復(fù)雜多變的票據(jù)特征為所有防偽特征檢測增加難度。傳統(tǒng)圖像算法針對票據(jù)一種或某幾種防偽特征設(shè)計相應(yīng)檢測鑒別算法[52],Roy A等(2015)將熒光特征、安全線特征作為檢測目標(biāo),結(jié)合閾值分割等圖像處理方法完成特征檢測,并計算檢測特征與標(biāo)準(zhǔn)特征的圖像歐式距離,判定真?zhèn)蝃53];Bruna A等(2013)研發(fā)紅外光下歐元偽幣檢測系統(tǒng),系統(tǒng)利用紅外相機(jī)獲取的鈔票圖像,通過圖像降噪、SIFT特征提取,SVM分類方法評判紅外光下整張紙幣真?zhèn)吻闆r[54]。
以Faster R-CNN為代表的基于區(qū)域候選的目標(biāo)檢測算法在多目標(biāo)檢測任務(wù)中表現(xiàn)優(yōu)異,檢測精度高,適用于票據(jù)多防偽特征檢測任務(wù)場景。
3.3 票據(jù)文本信息檢測
票據(jù)文本信息檢測完成票據(jù)編碼、數(shù)額、類型等關(guān)鍵信息檢測與讀取,是實現(xiàn)票據(jù)信息自動保存記錄的基礎(chǔ)。圖9為基于深度學(xué)習(xí)的票據(jù)文本信息檢測流程,在輸入票據(jù)圖像基礎(chǔ)上,采用目標(biāo)檢測算法預(yù)測票據(jù)信息文本框位置,其次在文本框內(nèi)對字符序列進(jìn)行分割,依次對每個字符內(nèi)容進(jìn)行分類識別,最終合并字符序列,輸出票據(jù)文本信息。
票據(jù)文本信息處于票據(jù)圖像很小區(qū)域范圍內(nèi),屬于小目標(biāo)檢測任務(wù)范圍,應(yīng)選用類似SSD在小目標(biāo)檢測中又快又準(zhǔn)的算法[55]。
在面向票據(jù)檢測的目標(biāo)檢測算法應(yīng)用中,根據(jù)票據(jù)檢測不同階段、不同任務(wù)場景,結(jié)合不同類別目標(biāo)檢測算法特點,選用最為合適算法?;诨貧w方法的目標(biāo)檢測算法用于票據(jù)圖像快速定位,基于候選區(qū)域的目標(biāo)檢測算法用于票據(jù)防偽特征精準(zhǔn)檢測,票據(jù)文本信息檢測則使用SSD等小目標(biāo)檢測算法。
4 結(jié)束語
目標(biāo)檢測是機(jī)器視覺檢測的一部分,實現(xiàn)圖像上目標(biāo)的分類與定位,可分為基于區(qū)域候選的目標(biāo)檢測算法、基于回歸方法的目標(biāo)檢測算法、其他改進(jìn)算法。其在票據(jù)檢測領(lǐng)域具有廣泛應(yīng)用前景,總結(jié)如下:
1)基于區(qū)域候選的目標(biāo)檢測算法采用“區(qū)域候選+分類”的實現(xiàn)思路,區(qū)域候選策略為目標(biāo)檢測提供先驗定位,降低算法在目標(biāo)定位選擇的盲目性,然后通過位置精修獲得目標(biāo)準(zhǔn)確位置,其特點是檢測精度高,適用于圖像精密檢測場景;
2)基于回歸方法的目標(biāo)檢測算法則將目標(biāo)檢測視為回歸問題解決,減少區(qū)域候選步驟,簡化算法流程,直接在圖像特征提取基礎(chǔ)上輸出目標(biāo)類別置信度與位置信息,有效提高檢測實時性,適用于動態(tài)在線檢測場景;
3)一些目標(biāo)檢測算法研究基于深度學(xué)習(xí)的目標(biāo)檢測機(jī)理,從圖像特征提取網(wǎng)絡(luò)優(yōu)化、訓(xùn)練損失函數(shù)設(shè)計、多層卷積特征融合等方面實現(xiàn)目標(biāo)檢測算法優(yōu)化,提高檢測精度;
4)在票據(jù)檢測的機(jī)器視覺系統(tǒng)中,包括圖像位置、防偽特征、文本信息等檢測,在應(yīng)用過程中,應(yīng)結(jié)合不同場景檢測需求與目標(biāo)檢測算法特點,選擇適用算法,提高票據(jù)檢測精度、實時性能,構(gòu)建面向票據(jù)檢測應(yīng)用的智能檢測系統(tǒng)。
參考文獻(xiàn)
[1]尹仕斌,任永杰,劉濤,等.機(jī)器視覺技術(shù)在現(xiàn)代汽車制造中的應(yīng)用綜述[J].光學(xué)學(xué)報,2018,38(8):11-22.
[2]GUO Y,LIU Y,OERLEMANS A,et al.Deep learning forvisual understanding:A review[J].Neurocomputing,2016,187:27-48.
[3]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-basedmodels[J].IEEE Transactions on Pattern Analysis andMachine Intelligence,2010,32(9):1627-1645.
[4]REN X,RAMANAN D.Histograms of sparse codes for objectdetection[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2013.
[5]FELZENSZWALB P,GIRSHICK R,MCALLESTER D,et al.Visual object detection with deformable part models[J].Communications of the ACM,2013,56(9):97-105.
[6]DALAL N,TRIGGS B.Histograms of oriented gradients forhuman detection[C]//International Conference on ComputerVision&Pattern Recognition(CVPR'05),2005.
[7]LOWE D G.Distinctive image features from scale-invariantkeypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[8]CHEN P,LIN C,SCHOLKOPF,B.A tutorial on v-supportvector machines[J].Applied Stochastic Models in Business&Industry,2005,21(2):111-136.
[9]WANG P,SHEN C,BARNES N,et al.Fast and robust objectdetection using asymmetric totally corrective boosting[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(1):33-46.
[10]尹宏鵬,陳波,柴毅,等.基于視覺的目標(biāo)檢測與跟蹤綜述[J].自動化學(xué)報,2016,42(10):1466-1489.
[11]方路平,何杭江,周國民.目標(biāo)檢測算法研究綜述[J].計算機(jī)工程與應(yīng)用,2018,54(13):11-18,33.
[12]于進(jìn)勇,丁鵬程,王超.卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的應(yīng)用綜述[J].計算機(jī)科學(xué),2018,45(S2):17-26.
[13]張明江,李紅衛(wèi),趙衛(wèi)虎,等.深度學(xué)習(xí)在軍用光纜線路無人機(jī)巡檢中的應(yīng)用[J].光通信研究,2018(6):61-65.
[14]常海濤,茍軍年,李曉梅.Faster R-CNN在工業(yè)CT圖像缺陷檢測中的應(yīng)用[J].中國圖象圖形學(xué)報,2018,23(7):129-139.
[15]王衛(wèi)東,程丹.監(jiān)控場景下的實時車輛檢測方法[J].電子測量與儀器學(xué)報,2018(7):83-88.
[16]魏震宇,文暢,謝凱,等.光流估計下的移動端實時人臉檢測[J].計算機(jī)應(yīng)用,2018,38(4):1146-1150.
[17]張玉杰,張媛媛.便攜式票據(jù)數(shù)字水印檢測系統(tǒng)的研究[J].自動化儀表,2013,34(3):41-43.
[18]陶銳,孫彥景.金融票據(jù)混沌水印加密算法研究與實現(xiàn)[J].電子器件,2017,40(5):1297-1303.
[19]PHAM T D,NGUYEN D T,KINI W,et al.Deep leaming-based banknote fitness classification using the reflectionimages by a visible-light one-dimensional line imagesensor[J].Sensors,2018,18(2):472.
[20]LEE J,HONG H,KIM K,et al.A survey on banknoterecognition methods by various sensors[J].Sensors,2017,17(2):313.
[21]PHAM T,LEE D,PARK K.Multi-national banknoteclassification based on visible-light line sensor andconvolutional neural network[J].Sensors,2017,17(7):1595.
[22]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436.
[23]EVERINGHAM M,ESLAMI S M A,VAN GOOL L,et al.The PASCAL visual object classes challenge:aretrospective[J].International Journal of Computer Vision,2015,111(1):98-136.
[24]陳超,齊峰.卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計算機(jī)視覺領(lǐng)域中的應(yīng)用綜述[J].日算機(jī)科學(xué),2019,46(3):63-73.
[25]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagenetclassification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems,2012.
[26]SZEGEDY C,LIU W,JIA Y,et al.Going deeper withconvolutions[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2015.
[27]SIMONYAN K,ZISSERMAN A.Very deep convolutionalnetworks for large-scale image recognition[C]//2015International Conference on Learning Representations,2015.
[28]HE K,ZHANG X,REN S,et al.Deep residual learning forimage recognition[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2016.
[29]張榮,李偉平,莫同.深度學(xué)習(xí)研究綜述[J].信息與控制,2018,47(4):385-397,410.
[30]吳帥,徐勇,趙東寧.基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測綜述[J].模式識別與人工智能,2018,31(4):335-346.
[31]昊加瑩,楊賽,堵俊,等.自底向上的顯著性目標(biāo)檢測研究綜述[J].日算機(jī)科學(xué),2019,46(3):48-52.
[32]ZHAO Z Q,ZHENG P,XU S,et al.Object detection withdeep learning:A review[C]//IEEE Transactions on NeuralNetworks and Learning Systems,2019.
[33]GIRSHICK R,DONAHUE J,DARRELL T,et al.Richfeature hierarchies for accurate object detection and semanticsegmentation[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2014.
[34]HEK,ZHANG X,REN S,et al.Spatial pyramid pooling indeep convolutional networks for visual recognition[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[35]GIRSHICK R.Fast R-CNN[C]//Proceedings of theIEEEInternational Conference on Computer Vision,2015.
[36]RUMELHART D E.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[37]REN S,HE K,GIRSHICK R et al.Faster R-CNN:Towardsreal-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems,2015.
[38]REDMON J,DIVVALA S,GIRSHICK R,et al.You onlylook once:Unified,real-time object detection[C]//Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition,2016.
[39]REDMON J,F(xiàn)ARHADI A.YOL09000:better,faster,stronger[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017.
[40]IOFFE S,SZEGEDY C.Batch normalization:acceleratingdeep network training by reducing internal covariateshift[C]//International Conference on Machine Learning,2015.
[4]]REDMON J,F(xiàn)ARHADI A.Yolov3:An incrementalimprovement[J].CoRR,2018.abs/1804.02767.
[42]SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethinkingthe inception architecture for computer vision[C]//Proceedingof the IEEE Conference on Computer Vision and PatternRecognition,2016.
[43]LIU W,ANGUELOV D,ERHAN D,et al.Ssd:Single shotmultibox detector[C]//European Conference on ComputerVision,2016.
[44]LIN T Y,GOYAL P,GIRSFIICK R,et al.Focal loss for denseobject detection[C]//Proceedings of theIEEE InternationalConference on Computer Vision,2017.
[45]ZHANG S,WEN L,BIAN X,et al.Single-shot refinementneural network for object detection[C]//Proceedings of theIEEE Conference on Computer Vision and PatternRecognition,2018.
[46]葛動元,姚錫凡,向文江,等.面向齒廓偏差等精密檢測的機(jī)器視覺關(guān)鍵技術(shù)[J].機(jī)械傳動,2019,43(2):171-176.
[47]郭雪梅,劉桂雄,黃堅,等.面向標(biāo)準(zhǔn)件裝配質(zhì)量的PI-SURF檢測區(qū)域劃分技術(shù)[J].中國測試,2017,43(8):101-105.
[48]廣州市銀科電子有限公司.一種基于紅外油墨標(biāo)志智能識別的票據(jù)防偽鑒別方法:CN201710536627.2[P].2017-11-10.
[49]YOUNG P,SEUNG K,TUYEN P,et al.A high performancebanknote recognition system based on a one-dimensionalvisible light line sensor[J].Sensors,2015,15(6):14093-14115.
[50]LIU X W,LIU C Y.Paper currency CIS image fuzzyenhancement and boundary detection[J].Applied Mechanicsand Materials,2014,651-653:2356-2361.
[51]廣州市銀科電子有限公司.基于防偽材料光譜特性的票據(jù)鑒偽方法及裝置:CN201710516001.5[P].2017-10-24.
[52]廣州市銀科電子有限公司一種智能識別水印特征的票據(jù)防偽鑒別方法:CN201710337615.7[P].2017-09-05.
[53]ROY A,HALDER B,GARAIN U,et al.Machine-assistedauthentication of paper currency:an experiment on Indianbanknotes[J].International Journal on Document Analysisand Recognition(IJDAR),2015,18(3):271-285.
[54]BRUNA A,F(xiàn)ARINELLA G,GUARNERA G,et al.Forgerydetection and value identification of Euro banknotes[J].Sensors,2013,13(2):2515-2529.
[55]LIAO M,SHI B,BAI X,et al.Textboxes:A fast text detectorwith a single deep neural network[C]//Proceedings of theThirty-First AAAI Conference on Artificial Intelligence,2017.
(編輯:李剛)
收稿日期:2019-03-29;收到修改稿日期:2019-04-15
基金項目:廣州市產(chǎn)學(xué)研重大項目(201802030006);廣東省現(xiàn)代幾何與力學(xué)計量技術(shù)重點實驗室開放課題(SCMKF201801)
作者簡介:劉桂雄(1968-),男,廣東揭陽市人,教授,博導(dǎo),主要從事測控技術(shù)及儀器研究。