国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

半徑間隔界驅(qū)動卷積神經(jīng)網(wǎng)絡(luò)模型的圖像識別

2021-03-19 05:56:24王曉明杜亞軍黃增喜
關(guān)鍵詞:識別率類別間隔

肖 遙,蔣 琦,王曉明,2*,杜亞軍,黃增喜

(1.西華大學(xué)計算機(jī)與軟件工程學(xué)院,四川 成都 610039;2.西華大學(xué)機(jī)器人研究中心,四川 成都 610039)

圖像識別是計算機(jī)視覺領(lǐng)域的重要研究方向,其任務(wù)是識別給定的一張或多張圖像的類別或?qū)傩?。圖像識別技術(shù)被廣泛應(yīng)用于自動駕駛、視頻監(jiān)控以及智能醫(yī)療等領(lǐng)域。實際應(yīng)用中,圖像識別的主要挑戰(zhàn)在于如何提取具有強(qiáng)鑒別性的圖像特征。傳統(tǒng)的圖像識別算法針對不同模式的識別任務(wù)設(shè)計了多種類型的特征[1?3]。然而,這些特征往往只針對某一特定的識別環(huán)境,無法完全適應(yīng)復(fù)雜環(huán)境。隨著計算機(jī)硬件的迅速發(fā)展及大規(guī)模數(shù)據(jù)集可用性的提高,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)在圖像識別領(lǐng)域受到越來越多研究者的關(guān)注。不同于傳統(tǒng)的識別算法,基于CNN 的圖像識別能夠自適應(yīng)的提取適合當(dāng)前識別模式的深度特征,具有更強(qiáng)的泛化性能及更高的識別率。為了進(jìn)一步增強(qiáng)深度模型的特征表達(dá)能力,研究者提出了許多不同的改進(jìn)方案。按照實現(xiàn)的方式,這些改進(jìn)可分為基于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)和基于能量函數(shù)的改進(jìn)?;诰W(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)旨在增加網(wǎng)絡(luò)的深度以提高深度模型的特征表達(dá)能力。文獻(xiàn)[4]提出了具有13~19 層網(wǎng)絡(luò)的VGG 深度卷積模型。文獻(xiàn)[5]提出的GoogLeNet 深度卷積模型將網(wǎng)絡(luò)層數(shù)提高到了22 層。文獻(xiàn)[6]將網(wǎng)絡(luò)模型進(jìn)一步提高到了110 層,并探索了高達(dá)1 102 層的網(wǎng)絡(luò)模型的有效性。增加網(wǎng)絡(luò)的深度能夠增強(qiáng)模型的特征表達(dá)能力,然而,這種策略是不可持續(xù)的。隨著網(wǎng)絡(luò)層數(shù)的增加,深度模型將變得更難收斂。此外,更深的網(wǎng)絡(luò)需要更多GPU/CPU 集群和復(fù)雜的分布式計算平臺,以實現(xiàn)具有高計算復(fù)雜性的學(xué)習(xí),然而在當(dāng)前計算機(jī)硬件性能的限制下,這樣的策略不可避免地將會達(dá)到極限。

不同于基于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),基于能量函數(shù)的改進(jìn)著手于采用不同的學(xué)習(xí)策略來指導(dǎo)深度模型的訓(xùn)練。傳統(tǒng)的CNN 模型中往往采用Softmax 能量函數(shù)指導(dǎo)模型的更新,但這種策略是間接和低效的[7]。針對這一不足,文獻(xiàn)[7]采用Triplet 能量函數(shù)代替Softmax,然而,該能量函數(shù)中錨樣本對的構(gòu)造與選擇是一個復(fù)雜且困難的過程,會導(dǎo)致模型的訓(xùn)練變得不穩(wěn)定。文獻(xiàn)[8]提出的中心損失能量函數(shù)在魯棒性和模型收斂速度上具有優(yōu)勢,但其應(yīng)用必須依賴于Softmax 損失。文獻(xiàn)[9]在Softmax 中引入了Fisher 判別正則項與旋轉(zhuǎn)不變正則項,增加了圖像特征的質(zhì)量與魯棒性,但過多的正則項約束使得深度模型的學(xué)習(xí)變得更加困難。

不同于上述基于能量函數(shù)的改進(jìn),文獻(xiàn)[10]認(rèn)為支持向量機(jī)(support vector machine,SVM)能夠提供更出色的正則化效果,提出了一種基于SVM的CNN 模型。與傳統(tǒng)的CNN 模型相比,基于SVM 的CNN 最顯著的優(yōu)勢在于將大間隔原理引入到CNN 的學(xué)習(xí)策略中,迫使CNN 更多的關(guān)注異類樣本特征間的分類間隔,從而提取到具有更強(qiáng)鑒別性的樣本特征。然而,它忽略了一關(guān)鍵事實:SVM 的泛化能力不僅取決于不同類別樣本之間的間隔,還與特征空間中所有樣本的最小包含球(minimum enclosing ball,MEB)的半徑有關(guān)[11]。實際上,在一般的識別任務(wù)中,給定的樣本特征往往是不變的,MEB 的半徑是一個固定的常數(shù)。在CNN 模型中,訓(xùn)練樣本的特征會隨著網(wǎng)絡(luò)參數(shù)的更新而變化,MEB 的半徑也隨之發(fā)生改變?;赟VM 的CNN 模型中未考慮到這一變化,導(dǎo)致SVM 泛化能力不足,進(jìn)而限制了其對CNN 正則化效果的提高。

針對上述不足,本文提出了一種半徑間隔界(radius margin bound,RMB)驅(qū)動的CNN 模型。與傳統(tǒng)的CNN 相比,半徑間隔界驅(qū)動的CNN 采用了更嚴(yán)格的學(xué)習(xí)策略,不僅考慮了不同類別的樣本特征間的間隔,還進(jìn)一步考慮了不斷變化的MEB 的半徑對SVM 泛化能力的影響。本質(zhì)上,通過在學(xué)習(xí)策略中引入SVM 的泛化誤差界理論,本文模型中的CNN 能夠擴(kuò)大不同類別的圖像特征間的分類間隔,同時減小包含所有圖像特征的MEB 的半徑。換言之,迫使CNN 在增大類間間隔的同時減小類內(nèi)間隔,從而能夠提取到更高質(zhì)量的特征。此外,作為一種基于能量函數(shù)的改進(jìn)方案,本文模型能夠顯著提高深度卷積模型的泛化能力而不會額外增加網(wǎng)絡(luò)的復(fù)雜度,且不受限于某一特定的網(wǎng)絡(luò)結(jié)構(gòu),能夠應(yīng)用于不同的深度模型中。在多個公開數(shù)據(jù)集上的實驗結(jié)果表明,半徑間隔界驅(qū)動的CNN模型能夠提取到鑒別性更強(qiáng)的圖像特征,在識別應(yīng)用中表現(xiàn)出了更高的識別率。

1 相關(guān)工作

為了建立半徑間隔界驅(qū)動的CNN 模型,本章首先闡述SVM 及其泛化誤差理論,然后介紹基于SVM 的CNN 模型。

1.1 SVM 與泛化誤差

SVM 是一種典型的基于大間隔的分類算法,其目標(biāo)是在給定的特征空間中尋找一個最優(yōu)分類超平面,使得特征空間中正負(fù)樣本間有最大的分類間隔。對于一組線性可分的訓(xùn)練樣本{x1,···,xn},SVM 的優(yōu)化問題可表示為:

式中:yi∈{+1,?1}是對應(yīng)的訓(xùn)練樣本的標(biāo)簽;n表示訓(xùn)練樣本的個數(shù);||w||=1/γ為特征空間中正負(fù)樣本分類間隔 γ的倒數(shù);b為對應(yīng)的偏置項。為了選擇有效的分類參數(shù),使SVM 在數(shù)據(jù)集上取得更好的分類表現(xiàn),VAPNIK 等[12]提出了留一法(leave-oneout,LOO)誤差估計用于評估SVM 的泛化性能。LOO 誤差被定義為

式中a為MEB 的中心。由式(2)可知,SVM 泛化誤差上界不僅取決于正負(fù)樣本間的分類間隔,還與特征空間中包含所有樣本的MEB 半徑有關(guān)。

在一般分類任務(wù)中,給定的訓(xùn)練樣本往往是線性不可分的,對于此類情況,定義L2 范數(shù)SVM的優(yōu)化問題為:

式中:ξi為引入的松弛變量;λ為懲罰系數(shù)用于表示模型對分類誤差的容忍度,當(dāng)λ=0時為線性可分的情況。實際上,根據(jù)文獻(xiàn)[13],L2 范數(shù)SVM 可以被轉(zhuǎn)換為一個等價的硬間隔SVM 問題。

1.2 基于SVM 的CNN 模型

傳統(tǒng)的CNN 模型中往往采用Softmax 能量函數(shù)指導(dǎo)模型的學(xué)習(xí)。給定一組包含C個類別的訓(xùn)練樣本,則Softmax 能量函數(shù)可表達(dá)為

式中:zi=wT?(xi;ω)+b為模型中Softmax 層的預(yù)測輸出;w是模型中預(yù)測層的權(quán)重系數(shù);?(xi;ω)為模型提取到的樣本xi的圖像特征;ω表示網(wǎng)絡(luò)中的權(quán)重系數(shù);表示樣本zi中的第c個元素;yi是對應(yīng)樣本的標(biāo)簽向量;N表示樣本的個數(shù)。顯然,式(7)只考慮了模型的經(jīng)驗風(fēng)險,其正則化效果有限。針對這一不足,文獻(xiàn)[10]提出了一種基于SVM 的CNN模型。該模型通過結(jié)合L2 范數(shù)的SVM,將大間隔原理引入到了CNN 模型中?;赟VM 的CNN定義了能量函數(shù),為

式中:||w||2是分類間隔項,越小則表示不同類別的圖像特征間的間隔越大;max(·)2表示二次方的合頁損失用于度量卷積深度模型的識別誤差,該項越小則表明模型的識別誤差越小。與式(7)相比,基于SVM 的CNN 模型額外考慮了不同類別的樣本間的間隔,能夠提取高質(zhì)量的圖像特征。

2 半徑間隔界驅(qū)動卷積網(wǎng)絡(luò)的目標(biāo)識別

本章的目的在于建立半徑間隔界驅(qū)動的CNN模型,首先構(gòu)建二分類模式下的模型,并進(jìn)一步推廣到多類別的模式中;其次詳細(xì)說明所提模型的訓(xùn)練策略;最后給出模型的識別方法。

2.1 模型的構(gòu)建

基于SVM 的CNN 模型通過結(jié)合L2 范數(shù)的SVM,將大間隔原理引入到了深度模型中。相比于傳統(tǒng)的基于Softmax 的CNN 模型,基于SVM 的CNN 在識別中表現(xiàn)出了更好的泛化能力。然而,其忽視了一個關(guān)鍵事實:SVM 的泛化性能不僅取決于異類樣本特征間的間隔,還與包含所有樣本特征的MEB 的半徑有關(guān)。實際上,在一般分類任務(wù)中,確定了特征提取器后,訓(xùn)練樣本的特征就不再變化。包含所有樣本特征的MEB 的半徑隨之被固定為一個常數(shù)。由式(2)可知,此時SVM 的泛化誤差只取決于異類樣本間的分類間隔因此不必考慮MEB 的半徑。然而,在基于CNN 的深度模型中,作為特征提取器的CNN 會隨著權(quán)重系數(shù)的每一輪更新而改變,由所有樣本特征決定的MEB 的半徑在不斷變化。在這種情況下,如果仍忽略MEB 的半徑對SVM 泛化能力的影響,會導(dǎo)致分類間隔只是簡單的隨著的增大而增大,而無法對SVM 泛化性能的提升做出有效的貢獻(xiàn)。換言之,CNN 提取到的樣本特征雖然具有更大的類間間隔,但其類內(nèi)間隔也更大,顯然,這樣的特征并不能有效提高深度模型的識別能力。

針對上述不足,基于SVM 的泛化誤差界理論,本文提出了一種半徑間隔界驅(qū)動的CNN 模型。為了同時考慮不同類別的圖像特征間的間隔和MEB 的半徑,所提模型中定義的能量函數(shù)為

化簡式(13),可得

本質(zhì)上,這是一個簡單的求圖像特征間最大距離的問題,只需要遍歷圖像特征便可求得的值。顯然,相對于求解復(fù)雜的對偶優(yōu)化問題,求解最大成對距離可以有效地減小模型的計算開銷。采用替換式(9)中的,得到改進(jìn)后的能量函數(shù),為

在實際應(yīng)用中,識別處理的圖像往往遠(yuǎn)大于2 個類別。因此,本文將提出的深度模型擴(kuò)展到多類別的模式。借鑒文獻(xiàn)[14]中一對多的策略,本文分別學(xué)習(xí)每個類別間的分類間隔的倒數(shù)及其對應(yīng)的最大成對距離。對于給定的一組包含C個類別的訓(xùn)練樣本,令{y1,···,yn}表示對應(yīng)樣本的標(biāo)簽,yi∈{1,···,C}。由此擴(kuò)展能量函數(shù)(16)到多類別的模式,為

圖1 本文卷積深度模型的結(jié)構(gòu)

2.2 模型的更新

本節(jié)將介紹半徑間隔界驅(qū)動的CNN 模型中各個參數(shù)的更新,包括卷積網(wǎng)絡(luò)中的權(quán)重系數(shù) ω、分類器參數(shù)以及最大成對距離。更新過程采用交替優(yōu)化的策略,將深度模型分為3 個部分進(jìn)行更新:固定 ω與更新固定ω 與,更新固定與更新 ω。

2.2.1 更新最大成對距離

式(21)是一個尋找樣本間最大間隔的問題,簡單地遍歷圖像特征就可求得該問題的解。求得{i?,j?}后,通過計算式(22)便可得到Dˉ的值。

其中si=?(xi,ω)。該無約束問題是關(guān)于wc和bc可導(dǎo)的[13],因此,可通過梯度下降法對其進(jìn)行求解。為了便于表述,將問題式(23)改寫為

得到梯度后,通過梯度下降法便可求得wc與bc在卷積深度模型中的局部最優(yōu)解。

2.2.3 更新權(quán)重系數(shù)ω

其中?si/?ω表示反向傳播,可由深度學(xué)習(xí)框架如TensorFlow 以及Caffe 等提供的自動微分技術(shù)進(jìn)行計算。最后,能量函數(shù)關(guān)于權(quán)重系數(shù) ω的梯度為

利用式(33),在反向傳播的過程中,通過梯度下降法即可實現(xiàn)對卷積網(wǎng)絡(luò)中各權(quán)重系數(shù)的更新。

圖2 示出了本文提出的深度模型的更新過程。其中步驟(a)表示更新分類器參數(shù)以及最大成對距離,步驟(b)表示更新卷積網(wǎng)絡(luò)中權(quán)重系數(shù) ω。

圖2 本文提出的深度模型的更新過程

綜合所提模型的更新步驟,概括半徑間隔界驅(qū)動的CNN 模型的學(xué)習(xí)過程如下。

輸入:訓(xùn)練樣本X∈Rm×n,訓(xùn)練樣本的標(biāo)簽Y∈Rn,設(shè)置懲罰系數(shù)λ,學(xué)習(xí)率 σ以及最大迭代次數(shù)T。

步驟3:通過式(26)與式(27)更新分類器參數(shù)wc與bc。

步驟4:通過式(20)計算能量函數(shù)的值。判斷,若能量函數(shù)停止收斂或迭代次數(shù)t>T,則終止迭代,否則繼續(xù)進(jìn)行步驟5。

步驟5:通過式(33)更新權(quán)重系數(shù) ω。返回步驟1)繼續(xù)迭代。

2.3 識別方法

3 實驗設(shè)計與結(jié)果分析

為了綜合評價本文提出的半徑間隔界驅(qū)動的CNN 模型,本章首先分析了不同的懲罰系數(shù)λ對所提模型性能的影響,然后通過可視化的方式將所提模型提取的圖像特征與傳統(tǒng)CNN 及基于SVM 的CNN 提取的圖像特征進(jìn)行比較,最后基于3 種具有代表性的深度卷積網(wǎng)絡(luò)結(jié)構(gòu),在多個標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了仿真實驗,以驗證所提模型在識別率上的有效性。本文中所有的實驗都在Nvidia TITAN X(Pascal) GPU 以及Intel(R) Xeon(R) W-2125 CPU環(huán) 境中進(jìn)行。

3.1 懲罰系數(shù)對模型性能的影響

半徑間隔界驅(qū)動的CNN 模型中,懲罰系數(shù)λ被用于度量模型對誤差的容忍度。為了調(diào)查其對模型性能的影響,本節(jié)基于ResNet-18 網(wǎng)絡(luò)結(jié)構(gòu)[5]在數(shù)據(jù)集CIFAR-10[15]上對多個不同的 λ進(jìn)行仿真實驗。CIFAR-10 數(shù)據(jù)集包含了10 個類別的真實圖像,由5 萬張訓(xùn)練圖像以及1 萬張測試圖像組成,每個圖像均為32×32 大小的RGB 彩色圖。實驗中設(shè)置懲罰系數(shù)λ ∈{0.001,0.01,0.1,1,10,100},采用Mini-batch 策略,設(shè)置每次迭代中使用250 張訓(xùn)練圖像,規(guī)定最大迭代次數(shù)t=2 000。為了使模型盡可能的收斂,采用梯度學(xué)習(xí)率策略,具體設(shè)置為:若迭代次數(shù)t<500,則學(xué)習(xí)率σ=10?3;若500 ≤t<1 500,則σ=10?4;若1 500 ≤t<2 000,則σ=10?5。圖3 示出了在不同懲罰系數(shù)λ下能量函數(shù)值的收斂曲線、識別率的增長曲線。圖4 示出了模型在CIFAR-10 數(shù)據(jù)集上取得的最大識別準(zhǔn)確率。從實驗結(jié)果中可以看出:在λ=0.01 時能量函數(shù)的收斂速度最快,模型取得了最高的識別率;隨著懲罰系數(shù)λ的增大,能量函數(shù)的收斂速度變慢,對應(yīng)的識別率的增長明顯變緩,模型也難以取得較高的識別準(zhǔn)確率。分析其原因,過大的懲罰系數(shù)使得深度卷積模型過多的關(guān)注被錯誤識別的樣本,迫使模型擬合更復(fù)雜的網(wǎng)絡(luò)參數(shù)以盡可能多地修正被錯分的訓(xùn)練樣本,這增加了模型的優(yōu)化難度,同時導(dǎo)致模型出現(xiàn)過擬合。根據(jù)實驗結(jié)果,設(shè)定本文實驗中的懲罰系數(shù)λ=0.01。

圖3 不同的懲罰系數(shù)對模型的收斂和識別率的影響

圖4 不同懲罰系數(shù)下模型的最大識別率

3.2 圖像特征可視化分析

為了驗證半徑間隔界驅(qū)動的CNN 模型能夠提取到鑒別性更強(qiáng)的圖像特征,本節(jié)在CIFAR-10 數(shù)據(jù)集上通過可視化的方式將所提模型提取的圖像特征與基于中心損失、基于Softmax 以及基于SVM 的深度卷積模型提取的圖像特征進(jìn)行比較。其中,比較的圖像特征提取于CIFAR-10 數(shù)據(jù)集中全部的測試樣本。同時,為了調(diào)查本文提出的模型在不同網(wǎng)絡(luò)結(jié)構(gòu)中的泛化能力,實驗中采用AlexNet[16]、VGGNet-13[4]以及ResNet-18[5]3 種具有代表性的網(wǎng)絡(luò)結(jié)構(gòu)。由于深度模型提取的特征為高維的圖像特征,實驗先通過TSNE 降維算法[17],將圖像特征的維度降到二維后再進(jìn)行可視化比較。

圖5 示出AlexNet、VGGNet-13 以及ResNet-18在3 種損失函數(shù)驅(qū)動下提取到的圖像特征的可視化結(jié)果。其中:xxx-Center 表示基于中心損失的深度卷積模型;xxx-Softmax 表示基于Softmax 的深度卷積模型;xxx-SVM 表示基于SVM 的深度卷積模型;xxx-RMB 表示半徑間隔界驅(qū)動的深度卷積模型。

圖5 各卷積深度模型提取的圖像特征的可視化比較

從實驗結(jié)果可以看出:與另外3 種深度模型相比,半徑間隔界驅(qū)動的深度卷積模型能夠有效分隔不同類別的樣本,得到線性可分的圖像特征,從而提取到更高質(zhì)量的圖像特征;基于Softmax 的深度卷積模型難以分隔不同類別的圖像特征,并且提取的同類樣本特征的分布較為分散;基于SVM 的深度卷積模型能夠提供較大的類間間隔,對不同類別的樣本的分隔能力相對較差,使得圖像特征間線性不可分;基于中心損失的深度卷積模型能夠聚合同類圖像特征,減小了類內(nèi)間隔,但其難以分隔不同類別的圖像特征。綜上,半徑間隔界驅(qū)動的深度模型在圖像特征表達(dá)上是非常有效的。

3.3 實驗結(jié)果與分析

為了驗證本文所提出的深度卷積模型在識別率上的有效性,本節(jié)在5 個大規(guī)模數(shù)據(jù)集上進(jìn)行仿真實驗。使用的數(shù)據(jù)集包括2 個數(shù)字識別數(shù)據(jù)集MINIST[18]和SVHN[19]、1 個表情識別數(shù)據(jù)集FER2013[20],以及2 個相對復(fù)雜的真實圖像數(shù)據(jù)集CIFAR-10[15]和CIFAR-100[15]。其中:MINIST 與SVHN 都是由0-9 這10 個類別的數(shù)字圖像組成,MINIST 為簡單的手寫數(shù)字?jǐn)?shù)據(jù)集,包含的圖像是28×28 尺寸的灰度圖,SVHN 是相對復(fù)雜的街景數(shù)字?jǐn)?shù)據(jù)集,由尺寸為32×32 的RGB 彩色圖組成;FER2013 由7 個類別的表情圖像組成,每個圖像都是48×48 的灰度圖;CIFAR-10 和CIFAR-100 由相同的從真實世界收集的圖像構(gòu)成,這些圖像均為32×32 的RGB 彩色圖,CIFAR-10 將其分為了10 個類別,CIFAR-100 進(jìn)一步將這些圖像細(xì)分成了100 個不同的類別。為了規(guī)范數(shù)據(jù)集中的圖像,使用時,本文首先將MINIST 和FER2013 中的圖像尺寸縮放到32×32 大小,然后對所有數(shù)據(jù)集中的圖像做歸一化處理。實驗中,采用3 種具有代表性的卷積網(wǎng)絡(luò)結(jié)構(gòu) AlexNet、VGGNet-13 以及ResNet-18,使用TensorFlow 深度學(xué)習(xí)框架搭建對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu),使用Top-1 和Top-5 正確率作為模型識別性能的評價指標(biāo)[21]。Top-1 正確率表示深度卷積模型輸出的預(yù)測向量中響應(yīng)最大的那個類別就是測試圖像真實類別的準(zhǔn)確率。Top-5 正確率則表示預(yù)測響應(yīng)最大的前5 個類別中包含真實類別的概率。所提深度模型中的懲罰系數(shù)根據(jù)3.1節(jié)中的結(jié)論進(jìn)行設(shè)置,基于SVM的深度模型與基于中心損失的深度模型中的相關(guān)參數(shù)參考文獻(xiàn)[10]和文獻(xiàn)[22]進(jìn)行設(shè)置。實驗中的剩余參數(shù)采用與3.1 節(jié)中相同設(shè)置,包括設(shè)置最大迭代次數(shù)、梯度學(xué)習(xí)率以及Mini-batch 策略。

表1-2 示出了基于Softmax 的深度卷積模型、基于中心損失的深度卷積模型、基于SVM 的深度卷積模型以及半徑間隔界驅(qū)動的深度卷積模型在5 個大規(guī)模數(shù)據(jù)集上的Top-1 識別率和Top-5 識別率。從實驗結(jié)果可以看出,相比于另外3 種類別的深度卷積模型,半徑間隔界驅(qū)動的深度卷積在所有測試數(shù)據(jù)集的Top-1 以及Top-5 識別率上均取得了最好的表現(xiàn),尤其在類別最多且最復(fù)雜的CIFAR-100 數(shù)據(jù)集上表現(xiàn)出了最顯著的識別率,其中:與次優(yōu)的基于中心損失的深度卷積相比,半徑間隔界驅(qū)動的CNN 模型在CIFAR-100 的Top-5正確率上對AlexNet 的增益為0.03%,對VGGNet-13的增益為0.63%以及對ResNet-18 的增益為1.28%;同時在Top-1 正確率上對AlexNet、VGGNet-13 以及ResNet-18 的增益分別為3.40%、2.90%以及3.66%。實驗結(jié)果驗證了所提模型在識別率上的有效性。此外,觀察深度卷積模中的參數(shù)總量可知,所提模型能夠應(yīng)用于不同的網(wǎng)絡(luò)結(jié)構(gòu)中,并且不會額外增加網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度。

表1 各深度卷積模型的參數(shù)總量和在5 個所使用的數(shù)據(jù)集上的Top-5 識別率比較

表2 各深度卷積模型的參數(shù)總量和在5 個所使用的數(shù)據(jù)集上的Top-1 識別率比較

4 結(jié)束語

為了提高CNN 的圖像特征表達(dá)能力并增強(qiáng)其在識別應(yīng)用中的泛化性能,本文基于SVM 的泛化誤差理論,提出了一種半徑間隔界驅(qū)動的CNN 模型。該模型采用基于SVM 泛化誤差界的準(zhǔn)則來指導(dǎo)CNN 深度模型學(xué)習(xí)和相應(yīng)分類器構(gòu)建,其不僅考慮了大間隔原理,還進(jìn)一步考慮了包含所有訓(xùn)練樣本的MEB 的半徑對SVM 泛化能力的影響。在多個大規(guī)模數(shù)據(jù)集上的實驗結(jié)果表明,相對于傳統(tǒng)CNN 模型、基于SVM 的CNN 模型以及基于中心損失的CNN 模型,該模型夠提取到鑒別性更強(qiáng)的圖像特征,并且在圖像識別中具有更高的識別率。同時,該模型具有較強(qiáng)的泛化能力,能夠被應(yīng)用于不同的網(wǎng)絡(luò)結(jié)構(gòu)中,因此,下一步的研究方向是探索所提深度卷積模型在其他模式中的應(yīng)用,如目標(biāo)檢測、目標(biāo)追蹤以及行為識別等。

猜你喜歡
識別率類別間隔
間隔問題
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
間隔之謎
提升高速公路MTC二次抓拍車牌識別率方案研究
高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
上樓梯的學(xué)問
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
泰顺县| 龙江县| 栖霞市| 滨海县| 乌拉特后旗| 安达市| 长子县| 仁布县| 赤壁市| 大名县| 广丰县| 隆安县| 五家渠市| 将乐县| 庐江县| 永丰县| 恩平市| 资中县| 驻马店市| 色达县| 麦盖提县| 贺兰县| 宁河县| 平利县| 漳平市| 大同市| 山东| 大埔县| 石楼县| 衡东县| 明星| 开封县| 青铜峡市| 浦东新区| 宜昌市| 黄陵县| 香港 | 建阳市| 精河县| 定兴县| 延安市|