周 非,李 陽,范馨月
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)(重慶郵電大學(xué) 光通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
誕生于上世紀(jì)80年代末的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)目前廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域[1],在最近十幾年里不斷刷新著圖像分類精度的極限,并同時(shí)在目標(biāo)檢測[2,3],目標(biāo)跟蹤[4,5],圖像分割[6],以及人臉識別等領(lǐng)域取得豐碩的研究成果[7].在應(yīng)用于圖像分類的過程中,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)歷了從1998年Lecun Y等人提出的LeNet[8],到2012年Krizhevsky等人提出的AlexNet[9],再到2015年Szegedy等人提出的GoogLeNet和2016年Kaiming等人提出的ResNet[10,11],以及后來的改進(jìn)版本[12,13].這期間出現(xiàn)了ReLu等新型激活函數(shù)[14,15],Inception和殘差結(jié)構(gòu)等卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[10,11],與Batch Normalization等優(yōu)化算法[12].整體而言,卷積神經(jīng)網(wǎng)絡(luò)在朝著“更深”和“更寬”的方向發(fā)展.
“更深”指通過增加CNN的層數(shù),來提高卷積神經(jīng)網(wǎng)絡(luò)分類性能.泛逼近定理指出,當(dāng)給定足夠的容量,一個(gè)單層的前饋網(wǎng)絡(luò)就足以表示任何函數(shù),但是,這個(gè)層可能會非常大,并且網(wǎng)絡(luò)容易出現(xiàn)過擬合等問題,所以實(shí)際上構(gòu)建一個(gè)單層CNN并不可行,學(xué)術(shù)界對此的主要解決辦法就是增加CNN的深度.2012年論文[9]提出的AlexNet卷積神經(jīng)網(wǎng)絡(luò)僅有8個(gè)參數(shù)層,而2015年發(fā)表的論文[10]提出的GoogLeNet就已經(jīng)增加到22層.但是研究人員發(fā)現(xiàn)在逐漸增加網(wǎng)絡(luò)深度的同時(shí),梯度消失問題越來越嚴(yán)重,導(dǎo)致CNN隨著層數(shù)的增加,性能反而有所下降.而ResNet卷積神經(jīng)網(wǎng)絡(luò)所采用的一種殘差網(wǎng)絡(luò)結(jié)構(gòu),在一定程度上緩解了這一難題,使得卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的進(jìn)一步加深成為可能,論文[11]已經(jīng)實(shí)現(xiàn)了一個(gè)超過1000層的圖像分類卷積神經(jīng)網(wǎng)絡(luò).
但“更深”并不是提高圖像分類卷積神經(jīng)網(wǎng)絡(luò)性能的唯一途徑,研究發(fā)現(xiàn)“更寬”也能提高CNN的性能.論文[16]指出,對于ResNet所提出的殘差網(wǎng)絡(luò)結(jié)構(gòu),隨著模型的加深,并不能保證梯度在反饋訓(xùn)練過程中能夠流經(jīng)每一個(gè)殘差模塊,甚至在整個(gè)訓(xùn)練過程中,可能只有很少的幾個(gè)殘差模塊能夠?qū)W習(xí)到有用的特征表達(dá),大部分殘差模塊對圖像分類能力的提升影響并不大.為此該論文提出了一種網(wǎng)絡(luò)層數(shù)較少,但每層的通道數(shù)更多的CNN結(jié)構(gòu).即所謂的“更寬”,通過擴(kuò)展卷積層的通道數(shù),優(yōu)化參數(shù)利用效率,從而提升卷積神經(jīng)網(wǎng)絡(luò)對圖片的分類能力.
受“更寬”思路的啟發(fā),本文提出通過提高卷積神經(jīng)網(wǎng)絡(luò)輸出向量的維度,同時(shí)增加不同類別訓(xùn)練樣本標(biāo)簽間的漢明距離,從而提高卷積神經(jīng)網(wǎng)絡(luò)對圖像的分類能力.即在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,使用維度更高、不同類別間最小漢明距離更大的標(biāo)簽進(jìn)行訓(xùn)練,以此增大網(wǎng)絡(luò)對不同類別圖片的輸出距離.更大的輸出距離能夠提高卷積神經(jīng)網(wǎng)絡(luò)判決時(shí)的容錯(cuò)能力,提升網(wǎng)絡(luò)對圖片的分類性能.
當(dāng)前用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)主要通過獨(dú)熱編碼處理訓(xùn)練樣本的標(biāo)簽,然后結(jié)合softmax激活函數(shù)和對數(shù)似然損失函數(shù)計(jì)算訓(xùn)練過程中CNN的實(shí)際輸出與理論輸出之間的誤差,并通過隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)更新權(quán)重和偏置.其權(quán)重和偏置的更新過程遵循的原則如公式(1)和公式(2)所示,公式中C為反饋誤差,η為更新步長.
(1)
(2)
本節(jié)主要分析這種傳統(tǒng)圖像分類卷積神經(jīng)網(wǎng)絡(luò)存在的缺陷以及改進(jìn)的思路.
對數(shù)似然損失函數(shù)常被用來衡量訓(xùn)練樣本圖片通過CNN后的實(shí)際輸出與理論輸出之間的誤差,其定義如公式(3)所示.
C=-∑kyklogak
(3)
其中y表示CNN的理論輸出,a表示實(shí)際輸出,C表示實(shí)際輸出與理論輸出之間的誤差.由于權(quán)重w與本層輸入x間存在關(guān)系z=wx+b,定義激活函數(shù)的表達(dá)式為a=σ(z),則可得到對數(shù)似然損失函數(shù)關(guān)于權(quán)重w和偏置b的導(dǎo)數(shù)如下.
(4)
(5)
softmax激活函數(shù)為圖像分類卷積神經(jīng)網(wǎng)絡(luò)引入非線性化操作,其數(shù)學(xué)表達(dá)式如公式(6)所示.
(6)
當(dāng)i=j時(shí),可得到該激活函數(shù)的導(dǎo)數(shù)為
(7)
當(dāng)i≠j時(shí),可得到該激活函數(shù)的導(dǎo)數(shù)為
(8)
將softmax激活函數(shù)的導(dǎo)數(shù)帶入公式(4)和(5)中,可將對數(shù)似然損失函數(shù)關(guān)于權(quán)重和偏移的導(dǎo)數(shù)公式化簡如下.
(9)
(10)
用于訓(xùn)練圖像分類卷積神經(jīng)網(wǎng)絡(luò)的樣本標(biāo)簽通常使用獨(dú)熱編碼進(jìn)行預(yù)處理.經(jīng)過處理后的每個(gè)樣本標(biāo)簽只有一個(gè)數(shù)位上的值為1,其余數(shù)位上的值均為0.因此公式(9)和公式(10)中∑kyk=1,即可將這兩個(gè)公式進(jìn)一步化簡如下.
(11)
(12)
當(dāng)圖像分類卷積神經(jīng)網(wǎng)絡(luò)使用對數(shù)似然損失函數(shù)、softmax激活函數(shù)和獨(dú)熱編碼計(jì)算訓(xùn)練過程中的反饋損失時(shí),其權(quán)重更新公式(公式(1))和偏置更新公式(公式(2))的最終結(jié)果如公式和公式所示.
(wj)new=(wj)old-ηxj(aj-yj)
(13)
(bj)new=(bj)old-η(aj-yj)
(14)
公式(13)和(14)公式表明,當(dāng)訓(xùn)練過程中實(shí)際輸出與理論輸出的誤差較大時(shí),權(quán)重和偏置的更新速度較快,當(dāng)誤差較小時(shí),更新速度較慢,這樣的特性有利于提高網(wǎng)絡(luò)訓(xùn)練時(shí)的收斂速度.
以上推導(dǎo)的就是傳統(tǒng)圖像分類卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中普遍使用的反饋損失計(jì)算方法.測試時(shí),只需要找出輸出向量的最大值所處位置,即可判斷出測試樣本所屬類別.這種判決方式存在的問題是,由于卷積神經(jīng)網(wǎng)絡(luò)最終的分類結(jié)果僅依靠輸出向量的最大值進(jìn)行判定,當(dāng)輸出向量的某一位置受到較大的干擾時(shí),容易造成最終結(jié)果的誤判.為此本文提出充分利用卷積神經(jīng)網(wǎng)絡(luò)輸出向量在各個(gè)維度上的信息.訓(xùn)練時(shí),通過增大不同類別間標(biāo)簽的維度和最小碼間距離,從而提高卷積神經(jīng)網(wǎng)絡(luò)對不同類別樣本的區(qū)分能力.測試時(shí),根據(jù)先前標(biāo)簽的制定規(guī)則,計(jì)算出卷積神經(jīng)網(wǎng)絡(luò)的輸出與標(biāo)簽集合中對應(yīng)的最小歐幾里德距離,該最小距離所對應(yīng)的標(biāo)簽即為最優(yōu)的判決結(jié)果.
本文提出通過增加不同類別的圖片經(jīng)過CNN后輸出向量間的最小距離,從而提高卷積神經(jīng)網(wǎng)絡(luò)判決時(shí)的容錯(cuò)能力.對此,本文的具體解決方案是增加CNN輸出向量的維度并使用信道編碼中的分組碼處理訓(xùn)練樣本的標(biāo)簽,同時(shí)選擇合適的激活函數(shù)和損失函數(shù)計(jì)算反饋損失.
分組碼是通信中廣泛使用的一種信道編碼方式,其通過增加編碼冗余來提高信道的容錯(cuò)能力,并且其能夠糾正的錯(cuò)誤位數(shù)t與碼組的最小漢明距離d之間存在的關(guān)系如公式(15)所示.
d≥2t+1
(15)
當(dāng)分組碼能夠糾正的錯(cuò)誤位數(shù)越多,其最小碼距就越大.使用最小碼距越大的分組碼來做訓(xùn)練樣本的標(biāo)簽時(shí),不同類別的圖片經(jīng)過CNN后輸出向量的區(qū)分度就越大.因此,設(shè)計(jì)CNN訓(xùn)練樣本標(biāo)簽的問題就轉(zhuǎn)化成求解分組碼的監(jiān)督矩陣問題.
對于(n,k)線性分組碼,其監(jiān)督矩陣的典型矩陣如公式所示,其中I為(n-k)階單位矩陣.
H=(I|P)
(16)
并且對于線性分組碼,最小碼距為d的充要條件是監(jiān)督矩陣H中任意d-1列線性無關(guān).因?yàn)镮是單位矩陣,為了使得d盡可能大,P的每一列所含1的個(gè)數(shù)需要盡可能多,同時(shí)需要保證矩陣P線性無關(guān)的列數(shù)盡可能大.
例如對于一個(gè)10分類的圖片數(shù)據(jù)集,使用4比特的信息位就能夠表示其全部類別,如果設(shè)定卷積神經(jīng)網(wǎng)絡(luò)的輸出向量維度為10,那么訓(xùn)練樣本標(biāo)簽的編碼問題就轉(zhuǎn)化為求解一個(gè)(10,4)分組碼問題.通過設(shè)計(jì)監(jiān)督矩陣,然后轉(zhuǎn)換為對應(yīng)的生成矩陣,就能夠生成一組最小碼距較大的訓(xùn)練樣本標(biāo)簽集.本文在設(shè)計(jì)監(jiān)督矩陣的時(shí)候,采用了一種類似列舉編碼的方法[17].對于(10,4)線性分組碼,其監(jiān)督矩陣的行數(shù)為6,列數(shù)為10,并且其前6列構(gòu)成一個(gè)單位矩陣.本文構(gòu)造的監(jiān)督矩陣如下所示.
設(shè)生成矩陣為G=(I|Q),并且由于監(jiān)督矩陣和生成矩陣存在的關(guān)系如公式所示.
H·GT=0T
(17)
可以將生成矩陣轉(zhuǎn)換為公式所示.
G=(I|PT)
(18)
對于上文所描述的(10,4)線性分組碼,可以得到其生成矩陣如下.
因此,根據(jù)c=u·G,可以得到卷積神經(jīng)網(wǎng)絡(luò)10分類訓(xùn)練樣本的一組標(biāo)簽如下所示(每行為一個(gè)標(biāo)簽類別).
通過觀察許用碼組C可以看出,該組標(biāo)簽的最小碼距為4.并且通過觀察監(jiān)督矩陣H,可以發(fā)現(xiàn)監(jiān)督矩陣H的任意4列線性無關(guān),這也符合前面所提到的最小碼距為d的充要條件是監(jiān)督矩陣H中任意d-1列線性無關(guān)這一約束條件.下文的仿真還會使用一種(20,4)的線性分組碼,其構(gòu)造步驟與上述方法一致.
本文分別使用softmax和sigmoid兩種激活函數(shù)來計(jì)算卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的反饋誤差,并對比分析這兩種激活函數(shù)在圖像分類應(yīng)用中的優(yōu)劣.
為保證權(quán)值與偏置的更新快慢與反饋誤差的大小保持一致,當(dāng)使用softmax激活函數(shù)作為CNN最后一層的激活函數(shù)時(shí),本文使用對數(shù)似然損失函數(shù)計(jì)算反饋誤差.但不同于獨(dú)熱編碼,當(dāng)使用分組碼處理樣本標(biāo)簽時(shí),存在
即每個(gè)樣本標(biāo)簽的碼重不再為1,所以反饋損失關(guān)于權(quán)重和偏置的導(dǎo)數(shù)變?yōu)槿缦滤?
(19)
(20)
盡管公式(19)和公式(20)中輸出向量a前面有標(biāo)簽的碼重作為系數(shù),但并未改變權(quán)重和偏置的更新快慢和反饋誤差大小保持一致這一特性,這樣的特性能夠讓CNN取得較快的收斂速度,基于這個(gè)原因,本文選擇了這一組合作為卷積神經(jīng)網(wǎng)絡(luò)反饋誤差的計(jì)算方式之一.
sigmoid激活函數(shù)的定義和導(dǎo)數(shù)如公式(21)和公式(22)所示.
(21)
(22)
當(dāng)選擇sigmoid作為卷積神經(jīng)網(wǎng)絡(luò)最后一層的激活函數(shù)時(shí),本文使用交叉熵作為對應(yīng)的損失函數(shù).下面分析這樣選擇的合理性.
交叉熵的數(shù)學(xué)表達(dá)式如公式(23)所示,其中y為訓(xùn)練樣本的標(biāo)簽,a為網(wǎng)絡(luò)的實(shí)際輸出.
(23)
由于a=σ(z),z=wx+b,可以推導(dǎo)出交叉熵對權(quán)重w和偏置b的導(dǎo)數(shù)如下.
結(jié)合sigmoid激活函數(shù)的導(dǎo)數(shù),可以得到交叉熵?fù)p失關(guān)于權(quán)重和偏置的導(dǎo)數(shù),如公式(24)和公式(25)所示.
(24)
(25)
然后可以得到對應(yīng)的權(quán)重和偏置的更新表達(dá)式如公式(26)和公式(27)所示.
(26)
(27)
從公式(26)和公式(27)可以看出,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)使用分組碼處理樣本標(biāo)簽,并結(jié)合sigmoid激活函數(shù)和交叉熵計(jì)算訓(xùn)練過程中的反饋誤差時(shí),同樣具備權(quán)重和偏置的更新快慢與反饋誤差大小保持一致這一特性.因此,本文選擇這一組合作為驗(yàn)證本文算法的另一種反饋損失計(jì)算方式.
本文使用三種不同的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合三種不同的數(shù)據(jù)集來驗(yàn)證CNN輸出維度和標(biāo)簽集的最小碼距對系統(tǒng)分類精度的影響.
圖1和圖2是ResNet卷積神經(jīng)網(wǎng)絡(luò)兩種殘差模塊的網(wǎng)絡(luò)結(jié)構(gòu).圖3所示為本文仿真使用的三種CNN結(jié)構(gòu),每種網(wǎng)絡(luò)結(jié)構(gòu)對應(yīng)使用圖4的一種圖像分類數(shù)據(jù)集.圖3的(a)和(b)為一個(gè)二分類的卷積網(wǎng)絡(luò)模型,這兩個(gè)網(wǎng)絡(luò)模型在LeNet網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn)[8],使得輸出維度可以在2、10和20中進(jìn)行選擇,用于探究CNN輸出維度與分類精度的關(guān)系.圖3(c)為一個(gè)10分類的卷積網(wǎng)絡(luò)模型,其在21層的ResNet網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)而來,用來探究CNN標(biāo)簽集合的最小碼距與分類精度的關(guān)系.
圖1 恒等殘差模塊Fig.1 Constantresidualmodule圖2 卷積殘差模塊Fig.2 Convolutionresidualmodule
圖3 本文仿真所用CNN結(jié)構(gòu)圖Fig.3 CNN structure in simulation
本文的仿真實(shí)驗(yàn)使用了3個(gè)數(shù)據(jù)集(如圖4所示),分別作為圖3的三種網(wǎng)絡(luò)模型的訓(xùn)練和測試數(shù)據(jù).圖4(a)所示的Wider Faces數(shù)據(jù)集為32×32像素的RGB彩色圖像,訓(xùn)練樣本中人臉圖片和非人臉圖片各有15000張,測試樣本中人臉圖片和非人臉圖片各有6000張.圖4(b)所示的Dogs vs.Cats 數(shù)據(jù)集為64×64像素的RGB彩色圖像,訓(xùn)練樣本中貓狗圖片各10000張,測試樣本中貓狗圖片各5000張.圖4(c)所示的Cifar-10數(shù)據(jù)集為32×32像素的RGB彩色圖像,數(shù)據(jù)集共10個(gè)類別,其中訓(xùn)練集有50000張圖片,測試集有10000張圖片.
圖5所示仿真圖探究了輸出維度對卷積神經(jīng)網(wǎng)絡(luò)分類精度的影響.圖5(a)為使用圖3(a)所示網(wǎng)絡(luò)模型,對圖4(a)所示的Wider Faces數(shù)據(jù)集進(jìn)行訓(xùn)練和測試所得到的仿真結(jié)果;圖5(b)為使用圖3(b)所示網(wǎng)絡(luò)模型,對圖4(b)所示的Dogs vs.Cats數(shù)據(jù)集進(jìn)行訓(xùn)練和測試所得到的仿真結(jié)果;圖5(c)為使用圖3(c)所示網(wǎng)絡(luò)模型,對圖4(c)所示的Cifar-10數(shù)據(jù)集進(jìn)行訓(xùn)練和測試所得到的仿真結(jié)果.
圖4 部分圖片數(shù)據(jù)集Fig.4 Partial image database
在圖5(a)中,sigmoid-2、sigmoid-10和sigmoid-20所標(biāo)記的曲線對應(yīng)的模型在訓(xùn)練時(shí)都使用sigmoid激活函數(shù)和交叉熵?fù)p失函數(shù)計(jì)算反饋損失.三條曲線的不同之處在于,sigmoid-2曲線對應(yīng)的CNN模型使用獨(dú)熱編碼處理訓(xùn)練樣本的標(biāo)簽,而sigmoid-10曲線和sigmoid-20曲線對應(yīng)的模型使用分組碼處理訓(xùn)練樣本的標(biāo)簽.sigmoid-10曲線對應(yīng)的模型使用(10,4)分組碼,而sigmoid-20曲線對應(yīng)的模型使用(20,4)分組碼.softmax-2和softmax-20所標(biāo)記的曲線對應(yīng)的模型在訓(xùn)練時(shí)使用softmax激活函數(shù)和對數(shù)似然損失函數(shù)計(jì)算反饋損失.不同之處是,softmax-2曲線對應(yīng)的模型使用獨(dú)熱編碼處理訓(xùn)練樣本的標(biāo)簽,而softmax-20對應(yīng)的模型使用(20,4)分組碼處理訓(xùn)練樣本的標(biāo)簽.圖5(b)和圖5(c)中各條曲線所代表的含義與圖5(a)類似,三幅仿真圖的不同點(diǎn)在于圖5(a)、圖5(b)和圖5(c)所使用的數(shù)據(jù)集和網(wǎng)絡(luò)結(jié)構(gòu)不同.表1是圖5中每條曲線對應(yīng)的最大準(zhǔn)確率.
圖5 輸出維度對CNN性能的影響Fig.5 Simulation results in different output dimensions
從圖5和表1中的sigmoid-2(sigmoid-5)、sigmoid-10和sigmoid-20,以及softmax-2(softmax-10)和softmax-20的對比分析中可以看出,當(dāng)增加卷積神經(jīng)網(wǎng)絡(luò)輸出維度時(shí),卷積神經(jīng)網(wǎng)絡(luò)的分類精度會隨之提高.同時(shí)從sigmoid-20曲線和softmax-20曲線的對比分析中還可以發(fā)現(xiàn),當(dāng)使用分組碼處理訓(xùn)練樣本的標(biāo)簽時(shí),卷積神經(jīng)網(wǎng)絡(luò)的最后一層使用sigmoid激活函數(shù)比使用softmax激活函數(shù)對CNN的分類精度提高得更多一些.
表1 圖5所示曲線對應(yīng)的最大準(zhǔn)確率Table1 Maximum accuracy of each curve in Fig.5
本文的4.2節(jié)探討了CNN輸出維度對分類精度的影響,接下來,圖6所示的仿真圖探究標(biāo)簽的最小碼距對卷積神經(jīng)網(wǎng)絡(luò)分類精度的影響.
圖6 標(biāo)簽的最小碼距對CNN性能的影響Fig.6 Simulation results with different minimum code space
同圖5類似,圖6(a)為使用圖3(a)所示網(wǎng)絡(luò)模型,對圖4(a)所示的Wider Faces數(shù)據(jù)集進(jìn)行訓(xùn)練和測試所得到的仿真結(jié)果;圖6(b)為使用圖3(b)所示網(wǎng)絡(luò)模型,對圖4(b)所示的Dogs vs.Cats數(shù)據(jù)集進(jìn)行訓(xùn)練和測試所得到的仿真結(jié)果;圖6(c)為使用圖3(c)所示網(wǎng)絡(luò)模型,對圖4(c)所示的Cifar-10數(shù)據(jù)集進(jìn)行訓(xùn)練和測試所得到的仿真結(jié)果.并且圖6(a)和圖6(b)對應(yīng)CNN的輸出維度為10,圖6(c)對應(yīng)CNN的輸出維度為20.圖6中的softmax-dis-2和softmax-dis-10(9)所標(biāo)記曲線對應(yīng)的CNN模型在訓(xùn)練時(shí)都使用softmax激活函數(shù)和對數(shù)似然損失函數(shù)計(jì)算反饋損失,這兩條曲線的區(qū)別在于softmax-dis-2曲線對應(yīng)訓(xùn)練樣本標(biāo)簽的最小碼距為2,而softmax-dis-10(9)對應(yīng)的訓(xùn)練樣本標(biāo)簽的最小碼距為10(9).sigmoid-dis-2、sigmoid-dis-5和sigmoid-dis-10所標(biāo)記曲線對應(yīng)的CNN模型在訓(xùn)練時(shí)都使用sigmoid激活函數(shù)和交叉熵?fù)p失函數(shù)計(jì)算反饋損失,區(qū)別在于sigmoid-dis-2曲線對應(yīng)訓(xùn)練樣本標(biāo)簽的最小碼距為2,而sigmoid-dis-5曲線和sigmoid-dis-10曲線對應(yīng)的訓(xùn)練樣本標(biāo)簽的最小碼距分別為5和10.為便于進(jìn)行對比,表2列出了圖6中各條曲線對應(yīng)的最大準(zhǔn)確率.
表2 圖6所示曲線對應(yīng)的最大準(zhǔn)確率Table 2 Maximum accuracy of each curve in Fig.6
圖6和表1證明,當(dāng)增加訓(xùn)練樣本標(biāo)簽的最小碼距時(shí),圖像分類卷積神經(jīng)網(wǎng)絡(luò)的分類精度會隨之提高.并且從圖6(c)的sigmoid-dis-9曲線和softmax-dis-9曲線的對比中可以發(fā)現(xiàn),當(dāng)使用分組碼處理樣本標(biāo)簽時(shí),使用sigmoid激活函數(shù)比使用softmax激活函數(shù)的效果更好,這與從圖5的仿真結(jié)果中得出的結(jié)論是一致的.
本文提出通過增加圖像分類卷積神經(jīng)網(wǎng)絡(luò)的輸出維度,并使用最小碼距更大的分組碼代替獨(dú)熱編碼處理訓(xùn)練樣本的標(biāo)簽,同時(shí)利用sigmoid激活函數(shù)和交叉熵計(jì)算訓(xùn)練過程中的反饋損失.實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的CNN性能比傳統(tǒng)中使用softmax激活函數(shù)結(jié)合對數(shù)似然損失函數(shù)計(jì)算反饋損失的CNN性能更好.但同時(shí)仿真結(jié)果也表明,相比于二分類任務(wù),改進(jìn)后的CNN對于圖片的多分類任務(wù)的精度提高幅度要小一些,本文認(rèn)為造成多分類任務(wù)性能提升不夠顯著的原因是沒有選擇最佳的標(biāo)簽組合方式.即對于不同的數(shù)據(jù)集,其最優(yōu)的標(biāo)簽組合方式可能不同,在以后的工作中將考慮通過訓(xùn)練的方式獲得最優(yōu)的標(biāo)簽組合,以此提高改進(jìn)CNN對圖片的多分類任務(wù)的分類精度.