国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種提高手機(jī)人民幣圖像真?zhèn)巫R(shí)別率的CNN框架*

2021-09-15 08:35郭素珍任明武
關(guān)鍵詞:分量特征提取卷積

郭素珍 任明武

(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

1 引言

隨著我國(guó)在世界舞臺(tái)上經(jīng)濟(jì)政治實(shí)力的快速提高,人民幣在國(guó)內(nèi)外流通速度隨之加快[1]。人民幣鑒偽技術(shù)的發(fā)展對(duì)于保證我國(guó)金融安全,維護(hù)正常的經(jīng)濟(jì)秩序和社會(huì)的穩(wěn)定性都具有重要的現(xiàn)實(shí)意義。

目前手機(jī)分辨率普遍在2000萬(wàn)像素,更有甚者達(dá)到4800萬(wàn)像素,這為利用手機(jī)人民幣圖像鑒偽帶來(lái)了可能,但是利用手機(jī)拍攝的人民幣圖像難免會(huì)有變形、噪聲,這使得使用手工提取手機(jī)人民幣圖像特征進(jìn)行真?zhèn)舞b別面臨很大的問(wèn)題。近年來(lái),深度學(xué)習(xí)在圖像檢測(cè)識(shí)別領(lǐng)域取得了令人矚目的成就,相比傳統(tǒng)的人工提取特征的圖像處理方法,深度學(xué)習(xí)通過(guò)其網(wǎng)絡(luò)在訓(xùn)練過(guò)程中自己學(xué)習(xí)參數(shù)來(lái)對(duì)輸入圖像進(jìn)行特征提取,然后對(duì)輸出結(jié)果進(jìn)行判斷并識(shí)別?,F(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類[2]等計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用廣泛。

圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)經(jīng)典研究課題,傳統(tǒng)的圖像分類主要處理語(yǔ)義級(jí)圖像和實(shí)例級(jí)圖像兩大類:前者包括諸如場(chǎng)景識(shí)別、對(duì)象識(shí)別等,其目的是識(shí)別不同類別的對(duì)象,如貓和狗等;后者則是對(duì)不同的個(gè)體進(jìn)行分類,如人臉識(shí)別。而細(xì)粒度圖像分類則位于這兩者之間,不同于對(duì)象識(shí)別等粗粒度的圖像分類任務(wù),細(xì)粒度圖像的類別精度更加細(xì)致,類間差異更加細(xì)微,往往只能借助于微小的局部差異才能區(qū)分出不同的類別[3]。細(xì)粒度圖像分類任務(wù)一直是分類任務(wù)中極具挑戰(zhàn)性的任務(wù),主要原因就是數(shù)據(jù)集本身類內(nèi)差異大,類間差異小的特性[4]。RMB圖像的真?zhèn)舞b別很明顯屬于細(xì)粒度圖像分類的范疇,其真假RMB的差異很小,但是類內(nèi)差異卻比較大。

本文首先介紹在2014年ILSVRC上定位第一,分類第二的經(jīng)典網(wǎng)絡(luò)VGG[5]和2015年提出的針對(duì)細(xì)粒度圖像分類任務(wù)的雙線性卷積神經(jīng)網(wǎng)絡(luò)[6]。隨后介紹手機(jī)人民幣圖像的紅色分量對(duì)于人民幣鑒偽的重要性。之后介紹一種用于手機(jī)人民幣圖像鑒偽任務(wù)的框架,該框架以帶有提取紅色分量Lambda層的VGG16的block5的輸出一分為二為基礎(chǔ)構(gòu)成B-CNN。之后介紹兩種模型學(xué)習(xí)策略,專門(mén)用于該框架的模型學(xué)習(xí)。最后的實(shí)驗(yàn)部分,首先對(duì)比將單純的VGG16(不包含頂部的三個(gè)全連接層和softmax層)的block3、block4、block5的輸出分別接三個(gè)層(卷積核大小為1*1、filters=5的卷基層、概率參數(shù)為0.5的Dropout層、激活函數(shù)為sigmoid的全連接層)之后的人民幣真?zhèn)舞b別性能;其次對(duì)比在以VGG16的block3、block4、clock5的輸出為基礎(chǔ)構(gòu)建的B-CNN網(wǎng)絡(luò)在人民幣真?zhèn)舞b別性能;繼而對(duì)比增加了提取人民幣紅色分量的Lambda層的單純的VGG16的block3、block4、clock5的輸出構(gòu)建的B-CNN網(wǎng)絡(luò)在人民幣真?zhèn)舞b別性能。最后對(duì)比兩種訓(xùn)練策略對(duì)人民幣真?zhèn)舞b別性能的影響。

2 卷積神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)[7]的重要組成部分,也是深度學(xué)習(xí)的基礎(chǔ)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8-9]相較于一般的神經(jīng)網(wǎng)絡(luò)最突出的特征就是增加了卷積層和池化層,這相當(dāng)于在神經(jīng)網(wǎng)絡(luò)的線性基礎(chǔ)上增加了非線性變化。卷積層擁有的參數(shù)共享、局部連接的特性使得傳統(tǒng)神經(jīng)網(wǎng)絡(luò)采用全連接網(wǎng)絡(luò)帶來(lái)的參數(shù)量巨大訓(xùn)練消耗資源多的弊端得到改善。

2.1 VGG16

VGG[5]網(wǎng)絡(luò)模型對(duì)卷積神經(jīng)網(wǎng)絡(luò)的深度和性能之間的關(guān)聯(lián)進(jìn)行了多項(xiàng)探索,其網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)潔,整個(gè)網(wǎng)絡(luò)中全部使用大小為3*3的卷積核和2*2的最大池化核。

VGG16的網(wǎng)絡(luò)架構(gòu)如圖1所示,VGG16里面包含多個(gè)conv->conv->max_pool這類的結(jié)構(gòu),其卷積參數(shù)padding都是same類型、其下采樣完全是通過(guò)max_pooling完成。其較之前的卷積神經(jīng)網(wǎng)絡(luò)最大的閃光點(diǎn)就是卷積層使用更小的filter尺寸和間隔。

圖1 VGG16網(wǎng)絡(luò)結(jié)構(gòu)圖

2.2 B-CNN

細(xì)粒度圖像分類任務(wù)中幾種主流方法有強(qiáng)監(jiān)督的細(xì)粒度圖像分類、弱監(jiān)督的細(xì)粒度圖像分類。強(qiáng)監(jiān)督的細(xì)粒度圖像分類是指在模型訓(xùn)練的時(shí)候除了使用圖像的類別標(biāo)簽外,還使用了標(biāo)注框等額外的人工標(biāo)注信息;而弱監(jiān)督的細(xì)粒度圖像分類在模型訓(xùn)練時(shí)只依賴于類別標(biāo)簽[10]。

Lin等[6]在2015年創(chuàng)造性地提出了雙線性卷積神經(jīng)網(wǎng)絡(luò)(B-CNN),該模型的網(wǎng)絡(luò)架構(gòu)圖2所示,其在三個(gè)經(jīng)典數(shù)據(jù)集上達(dá)到了很高的分類精度、能夠?qū)崿F(xiàn)端到端的訓(xùn)練,且屬于僅依賴圖像的類別標(biāo)簽的弱監(jiān)督分類算法。B-CNN模型可認(rèn)為一個(gè)網(wǎng)絡(luò)對(duì)物體局部區(qū)域進(jìn)行檢測(cè),另外一個(gè)網(wǎng)絡(luò)進(jìn)行特征提取,兩個(gè)網(wǎng)絡(luò)相互協(xié)調(diào)完成細(xì)粒度圖像分類過(guò)程中的區(qū)域檢測(cè)和特征提取。

圖2 B-CNN網(wǎng)絡(luò)架構(gòu)

B-CNN網(wǎng)絡(luò)由B=(fa,fb,P,C)組成,其中fa,fb代表特征提取函數(shù),對(duì)應(yīng)于圖2中的streamA和streamB,P是一個(gè)池化函數(shù),C則是分類函數(shù)。從圖2中可以看出,其實(shí)就是用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,然后用一個(gè)bilinear pooling層將CNN抽取的兩組特征進(jìn)行結(jié)合,最后帶入softmax層進(jìn)行分類。此處的bilinear pooling本質(zhì)上就是對(duì)兩個(gè)CNN的輸出進(jìn)行外積,從而得到雙線性特征X,之后將X依次按照式(1)和式(2)進(jìn)行處理,從而得到圖片最終的特征,并用于后續(xù)分類。

3 手機(jī)人民幣圖像的GLCM紋理特征

本文針對(duì)的手機(jī)人民幣圖像指的是用魅族16th手機(jī)拍攝的百元人民幣的局部特征圖像,本人采集的手機(jī)人民幣圖像的12個(gè)特征區(qū)域均為人民幣正面特征,即左上角國(guó)徽、左上角國(guó)徽右側(cè)祥云、中國(guó)人民銀行標(biāo)識(shí)下方100字樣、包含壹佰圓字樣的中間梅花區(qū)域、左下角的100字樣、毛主席臉部,毛主席耳朵、毛主席耳朵上方頭發(fā)區(qū)域、毛主席耳朵下方衣領(lǐng)區(qū)域、毛主席衣領(lǐng)中間扣子、右上角100元字樣,右下角盲文區(qū)。

紋理分析技術(shù)起源于對(duì)遙感圖像的分析[11],常用的紋理分析技術(shù)有統(tǒng)計(jì)分析、結(jié)構(gòu)分析、模型分析和頻譜分析,而灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)是統(tǒng)計(jì)分析方法中最關(guān)鍵的方法之一[12]。灰度共生矩陣統(tǒng)計(jì)在圖像中的指定方向上,像素坐標(biāo)相距一定間隔的兩個(gè)灰度像素同時(shí)出現(xiàn)的概率,矩陣中的元素代表圖像中灰度之間的聯(lián)合概率密度?;叶裙采仃嘒中的元素可以定義為式(3),其中(x,y)代表圖像像素的坐標(biāo),i,j=0,1,…L-1是圖像的灰度級(jí),|.|表示集合中的元素個(gè)數(shù),S表示在指定區(qū)域中具有特定空間關(guān)系的像素對(duì)的集合,dx和dy為求取灰度矩陣時(shí)選取的步長(zhǎng)。

Ulaby等[13]基于GLCM特征,提出熵(Entropy,ENT)、能量(Energy,又稱角二階矩Angular Second Moment,ASM)、慣性矩(又稱對(duì)比度Contrast,CON)和相關(guān)性(又稱逆差矩,Inverse Different Moment,IDM)等四種紋理特征,這四種特征的計(jì)算公式如下:

本人求取了手機(jī)人民幣圖像的12個(gè)特征區(qū)域的RGB通道在GLCM的step為1、2、3的情況下的四個(gè)方向上的四種紋理特征,其均值如表1所示,求取灰度共生矩陣使用的灰度級(jí)別是64。從表中可以看出:在手機(jī)人民幣的鑒偽任務(wù)中,手機(jī)人民幣圖像的紅色分量對(duì)比藍(lán)綠分量具有其優(yōu)越性。

表1 手機(jī)人民幣圖像RGB三通道在GLCM步長(zhǎng)為1、2、3情況下四個(gè)方向上四種紋理特征均值

4 本文方法

本節(jié)提出一種針對(duì)手機(jī)人民幣圖像局部特征的真?zhèn)巫R(shí)別框架,框架是以VGG16和提取圖片紅色分量的Lambda為基礎(chǔ)構(gòu)建的變種的B-CNN網(wǎng)絡(luò)。Lin[14]在2017年提出的B-CNN的改進(jìn)中就已經(jīng)證實(shí)了雙線性特征是高度冗余的,可以減小數(shù)量級(jí),而不會(huì)顯著降低精度,但是其并沒(méi)有擺脫仍然是兩路不一樣的CNN網(wǎng)絡(luò)進(jìn)行特征提取。本人以增加了提取圖片紅色分量的Lambda層的單路VGG16模擬兩路輸出,從而構(gòu)建B-CNN網(wǎng)絡(luò)。本節(jié)提出的網(wǎng)絡(luò)構(gòu)造圖如圖3所示,圖中紅色框代表提取人民幣圖片紅色分量的Lambda層;綠色框代表VGG16的5個(gè)block層;藍(lán)色框代表B-CNN中的Bilinear Pooling層。

圖3 本文提出框架的結(jié)構(gòu)圖

4.1 簡(jiǎn)單組合訓(xùn)練

VGG16模型提出后,在多領(lǐng)域的特征提取上都展示了巨大的優(yōu)勢(shì)[15]。因?yàn)楸救说臄?shù)據(jù)集不足以訓(xùn)練VGG16如此龐大的網(wǎng)絡(luò),所以在模型訓(xùn)練時(shí)使用了遷移學(xué)習(xí)的方法,即在訓(xùn)練帶有提取手機(jī)人民幣紅色分量的Lambda層的VGG16模型時(shí)先載入了VGG16在ImageNet預(yù)訓(xùn)練的權(quán)重,然后再使用本人構(gòu)建的手機(jī)人民幣圖像數(shù)據(jù)集進(jìn)行進(jìn)一步的訓(xùn)練。

簡(jiǎn)單組合訓(xùn)練的具體策略是首先將圖3中的藍(lán)色框全部去掉(即去掉了B-CNN的Bilinear Pooling層),以帶有提取手機(jī)人民幣紅色分量的Lambda層的VGG16的block5的輸出作為圖片的特征,以激活函數(shù)為softmax的全連接層為輸出,利用梯度下降法更新模型參數(shù)。當(dāng)此模型收斂后,再加入Bilinear Pooling層,之后凍結(jié)Bilinear Pooling層之前的所有層的權(quán)重,再次訓(xùn)練直到模型收斂。

4.2 端到端組合訓(xùn)練

上面提出的簡(jiǎn)單組合框架訓(xùn)練中,單路VGG16和Bilinear Pooling層在訓(xùn)練期間沒(méi)有發(fā)生直接的關(guān)聯(lián),即兩部分均屬于單獨(dú)訓(xùn)練。本小節(jié)在簡(jiǎn)單組合訓(xùn)練的基礎(chǔ)上提出一種端到端組合訓(xùn)練方法。

端到端組合訓(xùn)練的具體策略是直接搭建圖3中的模型,訓(xùn)練開(kāi)始時(shí)載入VGG16在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重,繼而使用本人采集的手機(jī)人民幣圖像數(shù)據(jù)集進(jìn)行端到端的訓(xùn)練,即VGG16和Bilinear Pooling同時(shí)訓(xùn)練權(quán)重,訓(xùn)練直到模型收斂。

5 實(shí)驗(yàn)驗(yàn)證

本實(shí)驗(yàn)使用的數(shù)據(jù)集為通過(guò)魅族16th采集的一百元真假人民幣的12個(gè)特征區(qū)域的圖片,圖片大小均為4032*3024像素。其中每個(gè)特征的真假人民幣訓(xùn)練樣本各為1200張,驗(yàn)證樣本各為300張,測(cè)試樣本各為300張。實(shí)驗(yàn)采用的實(shí)驗(yàn)平臺(tái)是Titan v+python3.6+keras2.2.4。本文提出的兩組框架在模型訓(xùn)練時(shí)選用相同的訓(xùn)練參數(shù)。

本節(jié)為了證明本文提出的以帶有提取手機(jī)人民幣圖像紅色分量的Lambda層的單路VGG16構(gòu)建的B-CNN網(wǎng)絡(luò)在手機(jī)人民幣圖片鑒偽任務(wù)中的有效性,對(duì)比了多種框架和本文提出的框架在手機(jī)人民幣鑒偽任務(wù)中的性能指標(biāo),性能指標(biāo)包含精確率、召回率、準(zhǔn)確率、錯(cuò)誤率。性能對(duì)比結(jié)果如表2。

表2 不同模型在測(cè)試集上性能指標(biāo)

本小節(jié)對(duì)比的特征提取器框架包含:?jiǎn)渭兊腣GG16的block3、block4、block5的輸出、帶有提取手機(jī)人民幣紅色分量的VGG16的block3、block4、block5的輸出、單純的VGG16的block3、block4、block5的輸出構(gòu)成的B-CNN的簡(jiǎn)單組合訓(xùn)練和端到端組合訓(xùn)練、本文提出的帶有提取紅色分量Lambda層的單路VGG16的block3、block4、block5的輸出構(gòu)建的B-CNN的輸出。上述特征提取器的輸出均通過(guò)激活函數(shù)為softmax的全連接層。

觀察表2,我們按照在表2中框架順序依次編號(hào)為1~6。最明顯地能看到前三個(gè)框架以VGG16的Block3的輸出作為特征提取器時(shí),訓(xùn)練無(wú)法收斂,這是因?yàn)楹?jiǎn)單的block3的輸出無(wú)法獲取真人民幣的有效特征,從而導(dǎo)致所有預(yù)測(cè)都是假人民幣,這也是為什么假幣的召回率為100%的原因??蚣?中依然是使用VGG16的block3的輸出,但是其因?yàn)槭褂昧薆ilinear Pooling層對(duì)其輸出進(jìn)行了進(jìn)一步的非線性化,使得準(zhǔn)確率得到飛升。從框架1到框架6,最直觀的還是隨著block的增多,即非線性層帶來(lái)的非線性程度的提高,準(zhǔn)確率逐步上升。

其次對(duì)比三組框架(框架1和框架2,框架3和框架5,框架4和框架6),這三組框架的區(qū)別僅僅在于是否有提取手機(jī)人民幣圖像的紅色分量的Lambda層,從表格中可以清楚地看出:帶有提取紅色分量Lambda層的框架在準(zhǔn)確率上明顯更具有優(yōu)勢(shì),這也很好地驗(yàn)證了手機(jī)人民幣圖像中紅色分量確實(shí)比其他兩個(gè)分量攜帶的有效信息多。

最后對(duì)比兩組不同訓(xùn)練方法的性能,即框架3和框架4、框架5和框架6。這兩組框架的區(qū)別僅僅在于訓(xùn)練方法的不同,結(jié)果顯示:使用端到端組合訓(xùn)練方法可以明顯提升識(shí)別率。簡(jiǎn)單組合訓(xùn)練依賴于網(wǎng)絡(luò)前端VGG16網(wǎng)絡(luò)對(duì)手機(jī)人民幣圖像的特征提取能力,若前端的VGG16無(wú)法提取有效信息,那么簡(jiǎn)單組合訓(xùn)練后期凍結(jié)網(wǎng)絡(luò)前端之后也無(wú)法獲取有效的用于真?zhèn)舞b別的特征。反觀端到端組合訓(xùn)練,其VGG16和Bilinear Pooling層同時(shí)訓(xùn)練,同步提取特征,使得模型的非線性能力得到提升,也能更好地提取手機(jī)人民幣用于真?zhèn)舞b別的特征

6 結(jié)語(yǔ)

本文提出了一種提升手機(jī)人民幣圖像真?zhèn)舞b別的深度學(xué)習(xí)框架,其使用帶有提取紅色分量的Lambda的VGG16的block5作為前端,使用Bilinear Pooling作為后端,最后使用激活函數(shù)為softmax的全連接層作為分類器。本文使用了簡(jiǎn)單組合訓(xùn)練和端到端組合訓(xùn)練方式獲取前文所述框架,并且在實(shí)驗(yàn)部分也對(duì)比了多種特征提取器對(duì)手機(jī)人民幣圖像真?zhèn)舞b別的各種性能。現(xiàn)提出幾點(diǎn)展望。

1)本文在實(shí)驗(yàn)部分證明了該框架可以提高手機(jī)人民幣的真?zhèn)巫R(shí)別率,但是實(shí)驗(yàn)所用數(shù)據(jù)集僅僅是一種手機(jī)拍攝獲取,不具有普遍性,后期可以針對(duì)多款手機(jī)(華為、小米等)進(jìn)行數(shù)據(jù)集的補(bǔ)充。

2)本文的數(shù)據(jù)集對(duì)于有大量訓(xùn)練參數(shù)的網(wǎng)絡(luò)來(lái)說(shuō),會(huì)存在過(guò)擬合的問(wèn)題,后期應(yīng)該更多的手機(jī)真假人民幣圖像擴(kuò)充數(shù)據(jù)集。

3)本文使用的基礎(chǔ)框架是VGG16的block5的輸出,在后期可以針對(duì)其他特征提取網(wǎng)絡(luò)(ResNet[16]、DenseNet[17]、Inception[18]等)構(gòu)建單路BCNN網(wǎng)絡(luò)模型。

猜你喜歡
分量特征提取卷積
同步定位與建圖特征提取和匹配算法研究
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
畫(huà)里有話
一斤生漆的“分量”——“漆農(nóng)”劉照元的平常生活
一物千斤
論《哈姆雷特》中良心的分量
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究