国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于優(yōu)化分類的數(shù)據(jù)增廣方法

2018-11-17 01:26蔣夢(mèng)瑩林小竹
關(guān)鍵詞:正確率類別卷積

蔣夢(mèng)瑩,林小竹,柯 巖

(1.北京石油化工學(xué)院 信息工程學(xué)院,北京 102617;2.北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100029)

0 引 言

傳統(tǒng)的圖像分類識(shí)別方法大多需要人為地進(jìn)行特征提取,圖像信息劇增使其難以滿足人們生活需求。深度學(xué)習(xí)是近十年來(lái)人工智能領(lǐng)域取得的重要突破,通過(guò)逐層抽象,深度挖掘數(shù)據(jù)的本質(zhì)信息。2012年,krizhevsky等[1]設(shè)計(jì)的AlexNet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在ImageNet圖像競(jìng)賽中取得冠軍。GoogleNet[2]和VGGNet[3]是2014年ImageNet競(jìng)賽的雙雄,兩類模型的共同特點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)比以往的模型更深。在2015年ImageNet競(jìng)賽上,MSRA何凱明團(tuán)隊(duì)的深度殘差網(wǎng)絡(luò)(residual networks,ResNet)[4]大放異彩,殘差網(wǎng)絡(luò)使網(wǎng)絡(luò)結(jié)構(gòu)更深,分類正確率更高。隨著卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)不斷加深,網(wǎng)絡(luò)參數(shù)越來(lái)越多,在有限的訓(xùn)練數(shù)據(jù)集下,容易發(fā)生過(guò)擬合現(xiàn)象,使圖像分類的正確率下降。提高圖片分類正確率的方法主要分為兩種:一種是調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu)或改進(jìn)對(duì)各層特征的處理能力,通過(guò)改變網(wǎng)絡(luò)中的激活函數(shù)(ReLu)[5]、引入dropout層[6]等方法來(lái)提高模型特征學(xué)習(xí)的能力,進(jìn)而提高模型分類的正確率;另一種是從數(shù)據(jù)集入手,通過(guò)擴(kuò)增數(shù)據(jù)集增加訓(xùn)練集樣本來(lái)提高模型分類正確率。

本文提出一種優(yōu)化分類的數(shù)據(jù)增廣方法,通過(guò)對(duì)訓(xùn)練集某一類或幾類樣本進(jìn)行數(shù)據(jù)增廣,提高模型分類正確率,并通過(guò)實(shí)驗(yàn)驗(yàn)證了方法的可行性。本文采用Caltech-101[7]數(shù)據(jù)集和Corel1K數(shù)據(jù)集,在開(kāi)源的深度學(xué)習(xí)框架Caffe[8]提供的CaffeNet模型上進(jìn)行實(shí)驗(yàn),采用預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù),然后利用訓(xùn)練集進(jìn)行微調(diào)。通過(guò)分析訓(xùn)練集每類的正確率對(duì)分類效果不好的一類或者幾類后進(jìn)行數(shù)據(jù)增廣,一定程度上提高了識(shí)別的準(zhǔn)確率。

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是常見(jiàn)的深度學(xué)習(xí)框架之一,已經(jīng)成為眾多科學(xué)領(lǐng)域特別是在模式分類領(lǐng)域的研究熱點(diǎn)。由于卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行圖像處理的過(guò)程中,不需要對(duì)圖像進(jìn)行復(fù)雜的前期預(yù)處理工作,可以直接地輸入原始圖像,因而得到廣泛應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)是為了識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè)多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比例縮放、平移等變形具有一定的不變性。卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層、激活函數(shù)層、下采樣層、局部響應(yīng)歸一化(local response normalization,LRN)層、全連接層和Softmax分類層。卷積層采用多個(gè)過(guò)濾器(即卷積核)來(lái)過(guò)濾圖像中的各個(gè)小區(qū)域,從而實(shí)現(xiàn)對(duì)圖像特征的提取。在進(jìn)行卷積操作后,圖像仍然很大,為了降低數(shù)據(jù)維度,對(duì)圖像進(jìn)行下采樣操作。在典型的卷積神經(jīng)網(wǎng)絡(luò)中,前幾層都是卷積層和下采樣層交替,在靠近輸出的最后幾層通常為全連接層(如圖1所示)[9]。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程主要包括前向傳播和反向傳播兩個(gè)過(guò)程,主要是學(xué)習(xí)卷積層的卷積核參數(shù)和層間連接權(quán)重等網(wǎng)絡(luò)參數(shù)。

本文采用的CaffeNet網(wǎng)絡(luò)結(jié)構(gòu),CaffeNet與AlexNet結(jié)構(gòu)相似,區(qū)別在于池化和歸一化的順序不同。CaffeNet包含5個(gè)卷積層、3個(gè)下采樣層、2個(gè)局部響應(yīng)歸一化層、3個(gè)全連接層以及1個(gè)softmax分類層。整個(gè)網(wǎng)絡(luò)的訓(xùn)練過(guò)程分為前向傳播和反向傳播,前向傳播是隱層提取特征的一個(gè)過(guò)程,主要通過(guò)卷積和池化操作實(shí)現(xiàn)。反向傳播采用BP反向傳播算法傳遞誤差,求解最優(yōu)參數(shù)。誤差最小化求解使用的是隨機(jī)梯度下降法來(lái)更新權(quán)值。網(wǎng)絡(luò)的各層網(wǎng)絡(luò)參數(shù)見(jiàn)表1,n表示分類類別數(shù)。

圖1 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

表1 CaffeNet網(wǎng)絡(luò)參數(shù)

對(duì)于卷積層輸入X,二維卷積過(guò)程

(1)

其中,x表示輸入X中卷積區(qū)域M中的元素,w表示卷積核中元素,m、n表示卷積核大小,b表示偏置,f(·)稱為激活函數(shù),采用的是ReLu激活函數(shù),即ReLu=max(0,x)。在進(jìn)行卷積時(shí),常對(duì)圖片進(jìn)行邊緣填充,在圖片進(jìn)行卷積操作后保持圖片大小不變,如表1的第2、3、4、5卷積層所示。

下采樣層采用最大池化方法,取下采樣卷積核大小的對(duì)應(yīng)位置最大值。對(duì)于下采樣層輸入Y,下采樣過(guò)程

pool=down(max(yi,j)),i,j∈p

(2)

其中,y表示下采樣層輸入Y中池化區(qū)域p中的元素,down是下采樣過(guò)程,即保留下采樣區(qū)域的最大值。通過(guò)下采樣操作可以使圖片具有一定的縮放不變性。

全連接層將所有二維圖像的特征圖像拼接為一維特征作為全連接層的輸入,對(duì)于全連接層輸入z,公式如下

full=f(w*z+b)

(3)

輸出層采用softmax分類器進(jìn)行分類。LRN層[10]是2012年Hinton等提出的,LRN層的作用是對(duì)局部輸入?yún)^(qū)域進(jìn)行歸一化處理,使響應(yīng)值較大的值相對(duì)更大,提高模型的泛化能力。

本文在訓(xùn)練網(wǎng)絡(luò)模型時(shí)采用微調(diào)網(wǎng)絡(luò)模型參數(shù)的方法,即使用在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練后得到的模型參數(shù)來(lái)作為初始化CaffeNet網(wǎng)絡(luò)模型的參數(shù)。保持網(wǎng)絡(luò)底層的參數(shù)不變,利用訓(xùn)練樣本進(jìn)行微調(diào),只訓(xùn)練最后一層全連接層的參數(shù)。由于網(wǎng)絡(luò)底層的參數(shù)是最難更新的,而從ImageNet數(shù)據(jù)集上學(xué)習(xí)得到的底層濾波器往往描述了各種不同的局部邊緣和紋理信息,這些濾波器對(duì)一般的圖像有較好的普適性。

2 改進(jìn)的數(shù)據(jù)增廣方法

2.1 數(shù)據(jù)增廣

數(shù)據(jù)增廣的思想來(lái)源于著名的EM算法(expectation maximization algorithm),它是EM算法的一種小樣本形式。數(shù)據(jù)增廣算法的提出是為了模擬不正常參數(shù)的后驗(yàn)分布。

在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí),往往需要大量的訓(xùn)練樣本輸入,使網(wǎng)絡(luò)模型有更好的泛化能力。而實(shí)際中,由于訓(xùn)練集樣本數(shù)是有限的,網(wǎng)絡(luò)模型的復(fù)雜度也在逐漸增加,使得模型對(duì)訓(xùn)練樣本特征的表達(dá)能力下降,網(wǎng)絡(luò)容易發(fā)生過(guò)擬合現(xiàn)象。解決過(guò)擬合的方法有很多,針對(duì)數(shù)據(jù)集有限的情況,研究者們提出數(shù)據(jù)增廣方法,通過(guò)人工增加訓(xùn)練樣本數(shù)據(jù)量來(lái)提高分類準(zhǔn)確率。

自然圖像的數(shù)據(jù)增廣方式有很多,如①對(duì)顏色的數(shù)據(jù)增強(qiáng),即圖像亮度、飽和度、對(duì)比度變化等的增強(qiáng);②采用隨機(jī)圖像差值方式,對(duì)圖像進(jìn)行裁剪、縮放;③尺度和長(zhǎng)寬比增強(qiáng)變換,對(duì)圖像進(jìn)行水平、垂直翻轉(zhuǎn)或者平移變換;④對(duì)圖像引入高斯噪聲或者對(duì)圖片進(jìn)行模糊處理;⑤類別不平衡數(shù)據(jù)的增廣[11]。

2.2 優(yōu)化分類的數(shù)據(jù)增廣方法

數(shù)據(jù)增廣方法常用于改善網(wǎng)絡(luò)模型過(guò)擬合。對(duì)于訓(xùn)練集測(cè)試集正確率都很高的情況,不同類別的特征抽象程度不一,在相同數(shù)量的訓(xùn)練樣本下,大多數(shù)類別能訓(xùn)練得到很高的正確率,而少數(shù)具有復(fù)雜特征的類別正確率并不高。一般的數(shù)據(jù)增廣方法都是增加訓(xùn)練樣本每一類的數(shù)量或者在不平衡數(shù)據(jù)集上通過(guò)數(shù)據(jù)增廣來(lái)使得數(shù)據(jù)集的每一類樣本數(shù)量平衡。本文提出一種優(yōu)化分類的數(shù)據(jù)增廣方法,首先求出測(cè)試集每一類的分類正確率,然后找到測(cè)試集中正確率最低的一個(gè)分類,即模型對(duì)于這一類的分類效果不好,最后對(duì)這個(gè)分類進(jìn)行數(shù)據(jù)增廣處理。

卷積神經(jīng)網(wǎng)絡(luò)最后一層全連接層與輸出層之間實(shí)際是對(duì)訓(xùn)練樣本的特征向量進(jìn)行分類。最后一層全連接層的特征向量通常為4096個(gè)單元(如圖2所示)。

圖2 全連接層結(jié)構(gòu)

其中,x1、x2、…、x4096為全連接層的輸入,a1、a2、…、an為輸出,n表示分類的類別數(shù)。當(dāng)輸入一個(gè)樣本時(shí),得到一個(gè)分類類別關(guān)于輸入的多元方程組如式(4)所示

(4)

其中,w為全連接層的權(quán)值參數(shù),b為全連接層的偏置。

單獨(dú)對(duì)第i類分析,輸入特征向量與分類類別i存在如圖3所示的聯(lián)系。

圖3 全連接層第i類結(jié)構(gòu)

當(dāng)輸入k個(gè)樣本時(shí),對(duì)于每個(gè)類別來(lái)說(shuō),也存在著一個(gè)多元方程組如式(5)所示。方程的未知數(shù)為該類別所對(duì)應(yīng)的權(quán)值參數(shù)w,輸入樣本個(gè)數(shù)即為構(gòu)成該方程組的方程個(gè)數(shù)。

假設(shè)每個(gè)類別有k個(gè)輸入樣本,對(duì)于第i類則有

(5)

實(shí)際上,在訓(xùn)練網(wǎng)絡(luò)模型時(shí),訓(xùn)練集的樣本數(shù)往往是有限的,每類出現(xiàn)的輸入樣本數(shù)量達(dá)不到實(shí)際全連接層權(quán)值參數(shù)的數(shù)量,即k<<4096。那么,對(duì)于一個(gè)多元線性方程組來(lái)說(shuō),方程組個(gè)數(shù)小于未知數(shù)個(gè)數(shù),方程組為欠定方程組,寫成矩陣形式如式(6)。欠定方程組有無(wú)窮多解也就是方程組具有多組解

(6)

由于方程組的解即是類別i對(duì)應(yīng)的權(quán)值參數(shù),權(quán)值參數(shù)代表每個(gè)輸入特征x在該類別的所占比例。所以,對(duì)于每一個(gè)單獨(dú)的分類來(lái)說(shuō),決定其分類的特征可能只有少數(shù)幾類,大多數(shù)特征值是不起決定性作用的。

當(dāng)某一類樣本的特征相對(duì)復(fù)雜時(shí),有限數(shù)量的該類別輸入樣本可能使得其對(duì)應(yīng)的線性方程組的解陷入局部極小的情況,如圖4所示。對(duì)于該類別來(lái)說(shuō),網(wǎng)絡(luò)模型難以學(xué)習(xí)到較好的特征,即出現(xiàn)網(wǎng)絡(luò)整體分類正確率相對(duì)較高。當(dāng)增加輸入樣本個(gè)數(shù)后,方程組的方程個(gè)數(shù)增加,方程組的基礎(chǔ)解系所含向量個(gè)數(shù)增加,那么網(wǎng)絡(luò)模型更容易達(dá)到全局最優(yōu)。

圖4 網(wǎng)絡(luò)模型參數(shù)解分布

當(dāng)網(wǎng)絡(luò)模型整體分類沒(méi)有發(fā)生過(guò)擬合的情況下,單個(gè)類別仍存在分類效果不好的現(xiàn)象。優(yōu)化分類的數(shù)據(jù)增廣方法將分類效果不好的那一類輸入樣本增加。增加該類的輸入樣本,也就是增加該類所對(duì)應(yīng)的方程組的方程個(gè)數(shù)。所以,對(duì)單類進(jìn)行數(shù)據(jù)增廣能夠提高網(wǎng)絡(luò)模型對(duì)該類的分類正確率進(jìn)而提高整體的分類正確率。

3 實(shí)驗(yàn)分析

本文所有實(shí)驗(yàn)均在深度學(xué)習(xí)框架caffe上實(shí)現(xiàn),硬件平臺(tái)為:Intel(R) Core(TM)i7-7700HQ CPU、主頻為2.80 GHz、內(nèi)存為8.00 GB。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)分別采用Caltech-101數(shù)據(jù)集和Corel1K數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。Caltech-101是李菲菲和Marco Andreetto等于2003年在加州理工學(xué)院創(chuàng)建的數(shù)字圖像集。Caltech-101總共9146張圖片,包括101類前景圖片和一個(gè)背景類。每類有30~800張圖片,大部分圖片有50張。圖2為Caltech-101的一部分示例圖片。

圖5 Caltech-101數(shù)據(jù)集的部分示例圖

Corel1K數(shù)據(jù)集共包含科雷爾公司收集整理的1000張圖片,分為10種類型物體,每種物體有100張。圖3為Corel1K的部分示例圖片。

圖6 Corel1K數(shù)據(jù)集示例圖片

3.2 實(shí)驗(yàn)結(jié)果及分析

本文將Caltech-101數(shù)據(jù)集在每類隨機(jī)選取30幅圖像作為訓(xùn)練樣本,剩余部分作為測(cè)試樣本。同樣,將Corel1K數(shù)據(jù)集每類隨機(jī)選取90幅圖像作為訓(xùn)練樣本,剩余部分作為測(cè)試樣本。首先對(duì)圖像進(jìn)行預(yù)處理,將數(shù)據(jù)集所有圖片縮放為256*256像素大小的圖像塊。在訓(xùn)練時(shí)截取227*227像素的圖像,然后對(duì)所有圖像進(jìn)行減均值處理。在每個(gè)全連接層后,采用Dropout方法防止過(guò)擬合,由于Caltech-101和Corel1K的數(shù)據(jù)集訓(xùn)練樣本較少,故將Dropout ratio設(shè)置為0.9,抑制更多的神經(jīng)元連接。初始學(xué)習(xí)率設(shè)置為0.001。

對(duì)Caltech-101數(shù)據(jù)集的訓(xùn)練集和測(cè)試集所有類別進(jìn)行單獨(dú)測(cè)試,訓(xùn)練集正確率均為100%,測(cè)試集正確率最低的兩組分別為第60類和第74類,分別對(duì)這兩個(gè)分類進(jìn)行數(shù)據(jù)增廣,其增廣前后正確率見(jiàn)表2。

表3為Caltech-101數(shù)據(jù)集在各模型上的分類準(zhǔn)確率以及優(yōu)化分類后的分類準(zhǔn)確率。對(duì)Caltech-101數(shù)據(jù)集進(jìn)行優(yōu)化分類的數(shù)據(jù)增廣后,其總體準(zhǔn)確率也得到了提高。

表2 Caltech-101數(shù)據(jù)集第60類和第74類數(shù)據(jù)增廣前后正確率對(duì)比

表3 Caltech-101數(shù)據(jù)集優(yōu)化分類前后正確率對(duì)比

同樣,對(duì)Corel1K數(shù)據(jù)集在CaffeNet網(wǎng)絡(luò)上進(jìn)行訓(xùn)練后,對(duì)其訓(xùn)練集和測(cè)試集所有類別進(jìn)行單獨(dú)測(cè)試,測(cè)試集正確率最低的分別為第2類和第10類。分別對(duì)其進(jìn)行數(shù)據(jù)增廣,增廣前后正確率見(jiàn)表4。

表4 Corel1K數(shù)據(jù)集第2類和第10類數(shù)據(jù)增廣正確率對(duì)比

表5為進(jìn)行優(yōu)化分類前后Corel1K數(shù)據(jù)集整體正確率。

表5 Corel1K數(shù)據(jù)集優(yōu)化分類前后正確率對(duì)比

由表2和表4可知,優(yōu)化分類的數(shù)據(jù)增廣方法能夠提高單個(gè)類別的分類正確率。由表3和表5可知,對(duì)單個(gè)類別進(jìn)行數(shù)據(jù)增廣后,網(wǎng)絡(luò)模型也能對(duì)整體的分類正確率起到提高的效果。

4 結(jié)術(shù)語(yǔ)

卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是自動(dòng)地、隱式地學(xué)習(xí)特征,不需要人為地定義特征。當(dāng)有足夠多的樣本進(jìn)行訓(xùn)練時(shí),網(wǎng)絡(luò)可以學(xué)習(xí)到很好的特征來(lái)進(jìn)行分類。但實(shí)際上,網(wǎng)絡(luò)模型進(jìn)行分類訓(xùn)練時(shí)所需的數(shù)據(jù)樣本數(shù)量往往很難滿足其需求。本文從數(shù)據(jù)增廣解決網(wǎng)絡(luò)模型過(guò)擬合的角度出發(fā),提出一種優(yōu)化分類的數(shù)據(jù)增廣方法。當(dāng)網(wǎng)絡(luò)模型沒(méi)有發(fā)生過(guò)擬合的現(xiàn)象時(shí),仍能通過(guò)優(yōu)化分類的數(shù)據(jù)增廣方法來(lái)提高網(wǎng)絡(luò)模型對(duì)圖片分類的正確率。對(duì)分類結(jié)果進(jìn)行分析后,將分類效果不好的單個(gè)類別進(jìn)行數(shù)據(jù)增廣,提高這個(gè)類別的分類正確率,進(jìn)而提高網(wǎng)絡(luò)模型對(duì)整體分類的正確率。另外,由本次實(shí)驗(yàn)可知,在優(yōu)化分類的數(shù)據(jù)增廣過(guò)程中,對(duì)訓(xùn)練集中的某一類進(jìn)行大量數(shù)據(jù)增加,容易造成訓(xùn)練集數(shù)據(jù)不平衡的現(xiàn)象。所以,進(jìn)行優(yōu)化分類的數(shù)據(jù)增廣時(shí),需要注意增加的單類輸入樣本不宜過(guò)大。

猜你喜歡
正確率類別卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
生意
品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
生意
服務(wù)類別
論類別股東會(huì)
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法