張 強(qiáng) 楊吉斌 張雄偉 曹鐵勇 鄭昌艷
1(陸軍工程大學(xué)研究生院 南京 210007)
2(陸軍工程大學(xué)指揮控制工程學(xué)院 南京 210007)
3(火箭軍士官學(xué)校 山東青州 262500)
(zq308297543@126.com)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)能夠準(zhǔn)確建模高維嵌入表示參數(shù)的局部分布,被廣泛應(yīng)用于許多視覺(jué)與聽(tīng)覺(jué)分類(lèi)任務(wù)中,如聲學(xué)場(chǎng)景分類(lèi)[1-3]、物體識(shí)別和分割[4-10]、人臉驗(yàn)證[11]、手寫(xiě)字符識(shí)別[12]等.然而在一些多分類(lèi)問(wèn)題中,由于不同類(lèi)別的樣本間存在較強(qiáng)相似性,CNNs分類(lèi)框架的性能還不能令人滿(mǎn)意[13].近年來(lái),研究人員分別針對(duì)CNNs分類(lèi)框架中的嵌入表示學(xué)習(xí)和分類(lèi)2個(gè)方面,提出了許多有效的改進(jìn)方法,進(jìn)一步增強(qiáng)了分類(lèi)效果.
在嵌入表示學(xué)習(xí)方面,CNNs的結(jié)構(gòu)、激活函數(shù)[14-15]以及學(xué)習(xí)策略[16-17]都出現(xiàn)了許多改進(jìn)和優(yōu)化,例如文獻(xiàn)[18]將CNNs的深度擴(kuò)展到100層以上,進(jìn)一步提升了網(wǎng)絡(luò)學(xué)習(xí)能力.同時(shí),網(wǎng)絡(luò)中的數(shù)據(jù)處理也通過(guò)引入不同的規(guī)范化技術(shù)(批處理規(guī)范化[19]、層規(guī)范化[20]、實(shí)例規(guī)范化[21]、組規(guī)范化[22])調(diào)整數(shù)據(jù)分布,防止梯度爆炸,加快收斂速度.這些技術(shù)均有效改善了嵌入表示提取的效率和準(zhǔn)確性.
在嵌入表示分類(lèi)方面,采用全連接層實(shí)現(xiàn)回歸計(jì)算后,最通用的方法是通過(guò)最小化基于Softmax函數(shù)的交叉熵?fù)p失(Softmax損失函數(shù))來(lái)訓(xùn)練分類(lèi)器.雖然最小化Softmax損失函數(shù)可以使學(xué)習(xí)到的預(yù)測(cè)數(shù)據(jù)分布接近訓(xùn)練數(shù)據(jù)的真實(shí)分布,但Softmax損失函數(shù)存在2點(diǎn)問(wèn)題:1)對(duì)輸入值的模長(zhǎng)敏感.當(dāng)嵌入表示位于決策邊界附近時(shí),隨著嵌入表示或權(quán)重的模長(zhǎng)增加,損失會(huì)越來(lái)越小,CNNs容易過(guò)早收斂[23].2)并不鼓勵(lì)增大類(lèi)內(nèi)緊湊性和類(lèi)間分離性.此時(shí)學(xué)習(xí)到的嵌入表示雖然具有可分性,但是判別性不強(qiáng).針對(duì)這2個(gè)問(wèn)題,已經(jīng)出現(xiàn)了許多解決方案.中心損失函數(shù)(center loss)[24],通過(guò)加權(quán)的方式將約束類(lèi)內(nèi)距離的成對(duì)聚類(lèi)損失函數(shù)(coupled clusters loss, CCL)與Softmax損失函數(shù)相結(jié)合,增強(qiáng)了嵌入表示的類(lèi)內(nèi)緊湊性.L-Softmax損失函數(shù)[25]引入了邊距因子,并通過(guò)設(shè)計(jì)一個(gè)與該邊距因子相關(guān)的乘性角度邊距函數(shù)來(lái)增加正類(lèi)實(shí)例學(xué)習(xí)的難度,使嵌入表示在類(lèi)內(nèi)更加緊湊.文獻(xiàn)[26]將L-Softmax損失函數(shù)中的全連接層權(quán)重歸一化,得到A-Softmax損失函數(shù),并在一系列開(kāi)集人臉識(shí)別任務(wù)中驗(yàn)證了它的有效性.AM-Softmax損失函數(shù)[27]將A-Softmax損失函數(shù)中的乘性角度邊距轉(zhuǎn)換為加性角度邊距,通過(guò)引入尺度因子和歸一化嵌入表示,進(jìn)一步提升了人臉識(shí)別準(zhǔn)確性.除了針對(duì)Softmax損失函數(shù)進(jìn)行改進(jìn)外,學(xué)者們還提出了基于樣本對(duì)或三元組的損失函數(shù)計(jì)算方法,如對(duì)比損失函數(shù)(contrastive loss)[28]、三元組損失函數(shù)(triplet loss)[29]、多種相似性損失函數(shù)(multi-similarity loss)[30]等.但這些方法需要樣本配對(duì)組合,當(dāng)訓(xùn)練樣本量巨大時(shí),需要篩選樣本,網(wǎng)絡(luò)的性能?chē)?yán)重依賴(lài)所選擇的訓(xùn)練樣本.實(shí)際上,triplet loss,以及基于Softmax損失函數(shù)改進(jìn)的一系列損失函數(shù)大多將類(lèi)內(nèi)相似性sintra和類(lèi)間相似性sinter集成到相似性對(duì)中,并通過(guò)最小化sinter-sintra實(shí)現(xiàn)優(yōu)化,但這樣的收斂狀態(tài)不確定.針對(duì)該問(wèn)題,文獻(xiàn)[31]基于softplus框架提出圓損失函數(shù)(circle loss),該損失函數(shù)通過(guò)引入基于相似性的權(quán)重更新因子,可以分別優(yōu)化sintra和sinter,改善了網(wǎng)絡(luò)學(xué)習(xí)的收斂效果.
針對(duì)Softmax損失函數(shù)存在的問(wèn)題,本文借鑒多種相似性的思想,在Softmax交叉熵?fù)p失框架下提出了一種基于余弦相似性的Softmax(cosine similarity-based Softmax, CS-Softmax)損失函數(shù),可實(shí)現(xiàn)判別性更強(qiáng)的決策邊界控制,有利于提高嵌入表示的類(lèi)內(nèi)緊湊性和類(lèi)間分離性.同時(shí),與circle loss,triplet loss等損失函數(shù)相比,使用CS-Softmax損失函數(shù)不需要篩選樣本對(duì),復(fù)雜度較低.在典型的音頻和圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也表明,使用CS-Softmax損失函數(shù)可以有效提升分類(lèi)效果.
采用Softmax損失函數(shù)的CNNs分類(lèi)框架如圖1所示.設(shè)一個(gè)包含C類(lèi)實(shí)例的分類(lèi)任務(wù),若某個(gè)實(shí)例的嵌入表示為x,它屬于第j類(lèi)的概率可以用Softmax函數(shù)評(píng)估:
(1)
Fig. 1 Classification framework using CNNs and Softmax loss圖1 使用CNNs和Softmax損失函數(shù)的分類(lèi)框架
若x屬于第i類(lèi),則對(duì)應(yīng)的Softmax損失函數(shù)表示為
(2)
Fig. 2 Decision boundaries of Softmax loss function under binary classification圖2 在二分類(lèi)任務(wù)中Softmax損失函數(shù)的決策邊界
在全連接層中,將各輸出節(jié)點(diǎn)的偏置設(shè)為0,對(duì)嵌入表示x和權(quán)重進(jìn)行歸一化(如圖3所示),將輸出轉(zhuǎn)換為x與全連接層權(quán)重的余弦相似性向量S=(s1,s2,…,sk,…,sC).其中,sk為
(3)
Fig. 3 Classification module of embedding based on cosine-similarity圖3 基于余弦相似性的嵌入表示分類(lèi)模塊
(4)
(5)
(6)
該實(shí)例對(duì)應(yīng)的CS-Softmax損失函數(shù)為
(7)
進(jìn)一步地,對(duì)于嵌入表示集合X,平均CS-Softmax損失函數(shù)值估計(jì)為
(8)
本文采用基本的線(xiàn)性更新公式來(lái)實(shí)現(xiàn)f()和g():
(9)
此時(shí)的CS-Softmax損失函數(shù)為
(10)
觀(guān)察可知,當(dāng)αp=αn=1,Δn=0時(shí),此時(shí)的CS-Softmax損失函數(shù)就退化成了AM-Softmax損失函數(shù):
(11)
正相似性si反映同類(lèi)樣本間的相似性,因此越大越好.同理,負(fù)相似性sj應(yīng)越小越好.因此,為有效區(qū)分正、負(fù)相似性,可分別設(shè)正相似性的訓(xùn)練目標(biāo)op>si和負(fù)相似性的訓(xùn)練目標(biāo)on (12) 這樣,當(dāng)si接近op、sj接近on時(shí),相應(yīng)的權(quán)重更新因子能夠動(dòng)態(tài)減小,優(yōu)化過(guò)程更平緩. 將式(12)代入式(9),可以得到: (13) (14) (15) 因此,op=2-Δp,on=-Δn,Δp=1-Δn.不失一般性,可設(shè)Δn=m(0≤m≤1),則Δp=1-m,on=-m,op=1+m.此時(shí),簡(jiǎn)化后的正、負(fù)相似性度量為 (16) CS -Softmax損失函數(shù)為 (17) 訓(xùn)練時(shí),利用CS -Softmax損失函數(shù)分別最大化si、最小化sj.測(cè)試時(shí),使用原始的余弦相似性向量S計(jì)算Softmax邏輯值進(jìn)行預(yù)測(cè).對(duì)比式(2)、式(17)可知,Softmax與CS -Softmax損失函數(shù)的唯一差別是用于Softmax函數(shù)計(jì)算的邏輯值不同:Softmax損失函數(shù)直接使用全連接層輸出的內(nèi)積作為邏輯值,而CS -Softmax損失函數(shù)使用的邏輯值是關(guān)于內(nèi)積的二次多項(xiàng)式,并未增加計(jì)算復(fù)雜度.所以CS -Softmax與Softmax損失函數(shù)的時(shí)間復(fù)雜度屬于同一個(gè)量級(jí).同理,對(duì)比式(11)、式(17)可知,CS -Softmax與AM-Softmax損失函數(shù)的時(shí)間復(fù)雜度也屬于同一個(gè)量級(jí).因此使用CS -Softmax損失函數(shù)訓(xùn)練網(wǎng)絡(luò)不會(huì)增加額外的時(shí)間成本.第3節(jié)的時(shí)間復(fù)雜度對(duì)比分析實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn). 將式(15)所得的參數(shù)代入式(14)可得類(lèi)i與類(lèi)j之間相似性區(qū)分的決策邊界為 (18) 同理可得類(lèi)j與類(lèi)i之間相似性區(qū)分的決策邊界為 (19) 圖4繪出了CNNs分類(lèi)框架中Softmax損失函數(shù)和CS -Softmax損失函數(shù)對(duì)應(yīng)的二分類(lèi)決策邊界.可以看出,Softmax損失函數(shù)對(duì)應(yīng)的決策邊距是0,而在CS -Softmax損失函數(shù)中,2個(gè)類(lèi)之間存在2個(gè)決策邊界,間距與m相關(guān).由式(18)、式(19)可以推出,在判定實(shí)例屬于類(lèi)i和類(lèi)j的決策邊界上,余弦相似性分別滿(mǎn)足si-sj≥1-2m和si-sj≤-(1-2m).因此2個(gè)類(lèi)的決策邊界間距至少為2(1-2m),并且只要m≤0.5,2個(gè)類(lèi)的決策邊界就不會(huì)相交.對(duì)比圖4(b)~(d)可以發(fā)現(xiàn),當(dāng)m由0.5變?yōu)?.1時(shí),類(lèi)i與類(lèi)j之間的決策邊距逐漸增加,即正負(fù)相似性之間的差值越來(lái)越大,這將使學(xué)習(xí)到的嵌入表示對(duì)應(yīng)的正相似性不斷接近1,負(fù)相似性不斷接近0,即類(lèi)內(nèi)方差越來(lái)越小,類(lèi)間方差越來(lái)越大,從而實(shí)現(xiàn)類(lèi)內(nèi)更加緊湊、類(lèi)間更加遠(yuǎn)離.在測(cè)試階段,使用原始余弦相似性向量S進(jìn)行預(yù)測(cè),2個(gè)類(lèi)的決策邊界是一致的,為si-sj=0.如果訓(xùn)練時(shí)類(lèi)i的實(shí)例被正確分類(lèi),那么si-sj≥2(1-2m)>0,則在測(cè)試階段,該實(shí)例也能至少以邊距2(1-2m)被正確分類(lèi). Fig. 4 Decision boundaries of category i and j when the classification module outputs the cosine similarity圖4 在分類(lèi)模塊輸出余弦相似性的情況下類(lèi)i和類(lèi)j之間的決策邊界 為了評(píng)估CS -Softmax損失函數(shù)的性能,選取典型的音頻和圖像數(shù)據(jù)集(聲學(xué)場(chǎng)景分類(lèi)(acoustic scene classification, ASC)[33]、MNIST[12]、CIFAR10/100[34])進(jìn)行仿真實(shí)驗(yàn).實(shí)驗(yàn)中,選用Softmax損失函數(shù)和AM-Softmax損失函數(shù)[27]作為對(duì)比方法.AM-Softmax損失函數(shù)集成了尺度因子和正相似性邊距因子這2類(lèi)參數(shù),含義與CS-Softmax損失函數(shù)中的對(duì)應(yīng)參數(shù)類(lèi)似.為了公平對(duì)比,如果損失函數(shù)存在可調(diào)整的超參數(shù),均選取獲得最佳性能的參數(shù)組合.實(shí)驗(yàn)性能評(píng)估采用通用的分類(lèi)精度評(píng)估標(biāo)準(zhǔn)[35].所有實(shí)驗(yàn)在配備N(xiāo)VIDIA 2080Ti GPU的工作站上實(shí)現(xiàn). 實(shí)驗(yàn)中采用的音頻和圖像數(shù)據(jù)集詳細(xì)信息如表1所示: Table 1 Typical Acoustic and Image Datasets表1 典型的音頻和圖像數(shù)據(jù)集 1) ASC.使用2019年聲學(xué)場(chǎng)景和事件檢測(cè)與分類(lèi)競(jìng)賽中的ASC開(kāi)發(fā)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)中,將每個(gè)實(shí)例數(shù)據(jù)轉(zhuǎn)換為單通道,降采樣至32 kHz,計(jì)算對(duì)數(shù)梅爾譜能量特征,特征形狀為640×64,其中640是幀數(shù),64是梅爾頻率數(shù).分別采用Cnn5avg,Cnn9avg,Cnn13avg,Cnn9max模型作為網(wǎng)絡(luò)結(jié)構(gòu)[36].在這4個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中,采用相同的實(shí)驗(yàn)設(shè)置:激活函數(shù)為ReLU[14],批大小為32.所有特征采用訓(xùn)練集特征的均值和方差進(jìn)行歸一化處理.訓(xùn)練持續(xù)5 000次迭代,使用Adam優(yōu)化器[37],初始學(xué)習(xí)率設(shè)置為0.001,每隔200次迭代,衰減為原來(lái)的0.9倍.網(wǎng)絡(luò)中使用權(quán)重初始化[15]和批標(biāo)準(zhǔn)化[19]. 2) CIFAR10/100.實(shí)驗(yàn)中,2個(gè)數(shù)據(jù)集均采用ResNet34[18]作為網(wǎng)絡(luò)結(jié)構(gòu).其中,CIFAR10采用隨機(jī)水平翻轉(zhuǎn)和不改變圖像尺寸的隨機(jī)裁剪增強(qiáng)訓(xùn)練樣本.所有實(shí)例使用訓(xùn)練集的均值和方差進(jìn)行歸一化處理.CIFAR10訓(xùn)練持續(xù)6.4萬(wàn)次迭代,初始學(xué)習(xí)率設(shè)置為0.1,在第3.2萬(wàn)、4.8萬(wàn)次迭代時(shí),依次衰減為0.01,0.001.批大小設(shè)置為128.CIFAR100訓(xùn)練持續(xù)200輪,初始學(xué)習(xí)率設(shè)置為0.1,在第60,120,160輪時(shí)依次衰減50%.2個(gè)任務(wù)的網(wǎng)絡(luò)都使用SGD優(yōu)化器[38].批大小設(shè)置為256. 3) MNIST.實(shí)驗(yàn)采用ResNet56[18]作為網(wǎng)絡(luò)結(jié)構(gòu).所有實(shí)例使用訓(xùn)練集的均值和方差進(jìn)行歸一化處理.訓(xùn)練持續(xù)200輪,使用SGD優(yōu)化器[38],初始學(xué)習(xí)率設(shè)置為0.1,在第100,150輪時(shí)依次衰減90%.批大小設(shè)置為256. 1) ASC的實(shí)驗(yàn)結(jié)果.表2給出了在不同網(wǎng)絡(luò)結(jié)構(gòu)上,CS-Softmax等損失函數(shù)的分類(lèi)性能及對(duì)應(yīng)超參數(shù)設(shè)置.其中每個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中最好的結(jié)果用黑體表示,對(duì)應(yīng)的參數(shù)設(shè)置在括號(hào)中說(shuō)明.Softmax損失函數(shù)對(duì)應(yīng)的結(jié)果來(lái)自文獻(xiàn)[36].從表2可以看出,當(dāng)采用Cnn13avg網(wǎng)絡(luò)模型,m=0.5,λ=4時(shí),CS -Softmax損失函數(shù)對(duì)應(yīng)的精度為68.0%,比AM-Softmax損失函數(shù)高1.1%,比Softmax損失函數(shù)高6.6%.在所有對(duì)比的網(wǎng)絡(luò)模型中,CS -Softmax損失函數(shù)性能均超過(guò)了其他損失函數(shù). Table 2 Classification Accuracies of Three Loss Functions on Four Network Structures on ASC Dataset表2 在ASC數(shù)據(jù)集上3種損失函數(shù)在4種網(wǎng)絡(luò)結(jié)構(gòu)上的分類(lèi)精度 表3綜合對(duì)比了在ASC數(shù)據(jù)集上采用不同CNNs框架和損失函數(shù)的分類(lèi)結(jié)果.所有方法均使用對(duì)數(shù)梅爾譜能量特征作為輸入.其中,前3行均是單模型使用Softmax損失函數(shù)進(jìn)行訓(xùn)練得到的分類(lèi)精度,行2采用了注意力機(jī)制.行4是基于二值交叉熵?fù)p失函數(shù),使用多層感知機(jī)對(duì)3個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合訓(xùn)練對(duì)應(yīng)的分類(lèi)精度.最后3行是在Cnn9avg網(wǎng)絡(luò)中,分別采用3種損失函數(shù)訓(xùn)練取得的分類(lèi)結(jié)果.其中,Softmax損失函數(shù)的準(zhǔn)確率是69.4%,這是我們使用文獻(xiàn)[36]提供的框架獲得的最好結(jié)果.雖然這個(gè)結(jié)果比原文中的準(zhǔn)確率70.3%低,但是差別在1%之內(nèi),復(fù)現(xiàn)結(jié)果可信.從表3中可以看出,CS -Softmax損失函數(shù)將Cnn9avg網(wǎng)絡(luò)結(jié)構(gòu)對(duì)應(yīng)的分類(lèi)精度由69.4%提升至72.9%,性能優(yōu)于其他分類(lèi)方法. Table 3 Classification Accuracies of Different Schemes on ASC Dataset 表4進(jìn)一步給出了使用CS -Softmax損失函數(shù)和Softmax損失函數(shù)訓(xùn)練Cnn9avg模型得到的ASC的詳細(xì)分類(lèi)精度.圖5對(duì)比了2種損失函數(shù)的分類(lèi)混淆矩陣.從圖5(a)中可以看出,公共汽車(chē)(bus)誤判為有軌電車(chē)(tram)、公共廣場(chǎng)(public square)誤判為街頭道路(street pedestrian)的比例分別為22.9%,24.3%,說(shuō)明這2對(duì)類(lèi)別之間相似性較大,容易誤判.由表4可知,采用CS -Softmax損失函數(shù)時(shí),雖然有軌電車(chē)等3類(lèi)場(chǎng)景的分類(lèi)準(zhǔn)確率出現(xiàn)小幅度下降,但公共汽車(chē)、公共廣場(chǎng)的分類(lèi)準(zhǔn)確率大幅提升(幅度分別為19.4%,14.8%).公共汽車(chē)和有軌電車(chē)、公共廣場(chǎng)和街頭道路這2對(duì)相似場(chǎng)景的誤分類(lèi)比例顯著降低.以上結(jié)果表明:利用CS -Softmax損失函數(shù)訓(xùn)練網(wǎng)絡(luò),原本相似類(lèi)別之間的差異變大,整體分類(lèi)性能得到提高. Table 4 Classification Accuracies of Two Loss Functions on ASC Dataset 2) CIFAR10/100,MNIST的實(shí)驗(yàn)結(jié)果.表5綜合對(duì)比了在CIFAR10/100,MNIST數(shù)據(jù)集上不同分類(lèi)方法的結(jié)果.前9行分別是使用Softmax損失函數(shù)訓(xùn)練不同的網(wǎng)絡(luò)結(jié)構(gòu)得到的分類(lèi)精度.行10和行11是采用CNNs框架,分別使用L-Softmax[25]和W-Softmax[23]損失函數(shù)訓(xùn)練得到的分類(lèi)精度.最后3行是以ResNet34或ResNet56為網(wǎng)絡(luò)結(jié)構(gòu),分別使用3種損失函數(shù)訓(xùn)練取得的分類(lèi)結(jié)果.可以看出,不論采用何種損失函數(shù),ResNet34或ResNet56網(wǎng)絡(luò)結(jié)構(gòu)對(duì)應(yīng)的分類(lèi)精度都要優(yōu)于其他網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)果.同時(shí),采用CS-Softmax損失函數(shù)的方法取得了最佳分類(lèi)性能.與采用相同網(wǎng)絡(luò)結(jié)構(gòu)的Softmax損失函數(shù)方法相比,在CIFAR10/100,MNIST數(shù)據(jù)集上,分類(lèi)精度分別提高了1.37%,2.39%,0.08%. Fig. 5 Confusion matrix of two loss functions on ASC dataset圖5 在ASC數(shù)據(jù)集上2種損失函數(shù)的混淆矩陣 序號(hào)方法分類(lèi)精度∕%CIFAR10CIFAR100MNIST1All-CNN[43]92.7566.292DropConnect[17]90.6899.433FitNet[44]91.6164.9699.494DSN[45]92.0365.4399.495NiN[46]91.1964.3299.536Maxout[47]90.6261.4399.557R-CNN[48]92.9168.2599.698GenPool[49]93.9567.6399.699CNN[50]99.4710L-Softmax[25]94.0870.4799.6911W-Softmax[23]71.3899.6912Softmax94.0974.0799.7313AM-Softmax94.43(m=0.3,λ=2)75.32(m=0,λ=12)99.79(m=0.4,λ=8)14CS-Softmax95.46(m=0.3,λ=2)76.46(m=0.2,λ=6)99.81(m=0.4,λ=2) 3.3.1 類(lèi)內(nèi)與類(lèi)間平均角度 (20) (21) 圖6(a)給出了嵌入表示和相應(yīng)的分類(lèi)器權(quán)重的夾角平均值.可以觀(guān)察到Softmax損失函數(shù)對(duì)應(yīng)的夾角平均值比不同參數(shù)設(shè)置下的CS-Softmax損失函數(shù)對(duì)應(yīng)的夾角平均值都更大.由于更低的夾角平均值意味著類(lèi)內(nèi)嵌入表示更加緊湊,這說(shuō)明CS-Softmax損失函數(shù)學(xué)習(xí)到的嵌入表示的類(lèi)內(nèi)緊湊性?xún)?yōu)于Softmax損失函數(shù). 圖6(b)給出了訓(xùn)練得到的各分類(lèi)器權(quán)重之間的夾角平均值.可以看出,與Softmax損失函數(shù)對(duì)應(yīng)的夾角相比,不同參數(shù)設(shè)置下的CS-Softmax損失函數(shù)對(duì)應(yīng)的夾角都更加接近90°.向量之間的夾角越接近90°,意味著向量之間越不相似.這說(shuō)明,CS-Softmax損失函數(shù)學(xué)習(xí)到的嵌入表示的類(lèi)間相似性更小,類(lèi)間可分離性?xún)?yōu)于利用Softmax損失函數(shù)學(xué)習(xí)得到的嵌入表示. Fig. 6 Comparison of the average angle values learned by Softmax and CS-Softmax loss functions on MNIST dataset圖6 在MNIST數(shù)據(jù)集上Softmax和CS-Softmax損失函數(shù)學(xué)習(xí)到的平均角度值比較 3.3.2 收斂性能 本節(jié)在ASC數(shù)據(jù)集上,以Cnn9avg為網(wǎng)絡(luò)結(jié)構(gòu),對(duì)比研究了CNNs采用CS-Softmax損失函數(shù)訓(xùn)練時(shí)的收斂狀態(tài)及收斂過(guò)程.其中,正相似性sp為公園(park)實(shí)例的嵌入表示與同類(lèi)別分類(lèi)器權(quán)重的余弦相似性,負(fù)相似性sn為公園實(shí)例的嵌入表示與機(jī)場(chǎng)(airport)類(lèi)別分類(lèi)器權(quán)重的余弦相似性.AM-Softmax損失函數(shù)、CS-Softmax損失函數(shù)的超參數(shù)設(shè)為表2中采用Cnn9avg網(wǎng)絡(luò)取得最高分類(lèi)精度所對(duì)應(yīng)的參數(shù). 1) 收斂狀態(tài).圖7展現(xiàn)了分別經(jīng)過(guò)3種損失函數(shù)訓(xùn)練之后的余弦相似性分布圖.對(duì)比發(fā)現(xiàn),利用CS-Softmax損失函數(shù)學(xué)習(xí)得到的嵌入表示正相似性更加接近1,負(fù)相似性更加接近0,說(shuō)明學(xué)習(xí)到的嵌入表示距離所屬類(lèi)別分類(lèi)器權(quán)重更近,可以有效避免早停問(wèn)題.同時(shí),CS-Softmax損失函數(shù)學(xué)習(xí)到的嵌入表示在(sn,sp)二維平面中更加接近點(diǎn)(0,1),分布更為集中,收斂狀態(tài)更加明確. Fig. 7 Comparison of positive and negative similarity distributions with Cnn9avg trained with three loss functions on ASC dataset圖7 在ASC數(shù)據(jù)集上使用3種損失函數(shù)訓(xùn)練Cnn9avg網(wǎng)絡(luò)對(duì)應(yīng)的正負(fù)相似性分布比較 2) 收斂過(guò)程.圖8對(duì)比了使用CS-Softmax損失函數(shù)和AM-Softmax損失函數(shù)進(jìn)行訓(xùn)練時(shí)的正負(fù)相似性變化曲線(xiàn)圖.由于在高維嵌入表示空間中,隨機(jī)分布的嵌入表示傾向于相互遠(yuǎn)離[32,51],因此所有的正負(fù)相似性初值都比較小.從圖8可以看出,在訓(xùn)練初始階段,AM-Softmax損失函數(shù)對(duì)應(yīng)的sp,sn變化速率基本相同,之后sp,sn逐漸接近優(yōu)化目標(biāo)1和0.而使用CS-Softmax損失函數(shù)時(shí),初始階段sp的變化速率要大于對(duì)應(yīng)的sn,而且比AM-Softmax損失函數(shù)的sp更新速率還要大.由于sp的優(yōu)化主導(dǎo)了訓(xùn)練過(guò)程,訓(xùn)練更加側(cè)重于嵌入表示的聚類(lèi)效果.在訓(xùn)練中后期,sp值依然增加,但優(yōu)化較為平緩,和AM-Softmax損失函數(shù)相比,CS-Softmax損失函數(shù)訓(xùn)練得到的嵌入表示相似性更加接近于優(yōu)化目標(biāo).這從另一個(gè)方面驗(yàn)證了CS-Softmax損失函數(shù)的性能. Fig. 8 Change curves of positive and negative similarity values during the training process圖8 訓(xùn)練過(guò)程中正負(fù)相似性值變化曲線(xiàn) 3.3.3 超參數(shù)魯棒性 本節(jié)通過(guò)在CIFAR10數(shù)據(jù)集上的仿真實(shí)驗(yàn),探究了在不同超參數(shù)設(shè)置下,使用CS-Softmax損失函數(shù)訓(xùn)練ResNet34模型的性能表現(xiàn).表6給出了不同參數(shù)設(shè)置下的分類(lèi)精度,其中黑體數(shù)字為超過(guò)95%的分類(lèi)精度.從表6可以看出,無(wú)論超參數(shù)m和λ在表中如何取值,CS-Softmax損失函數(shù)取得的分類(lèi)精度均高于表5中Softmax損失函數(shù)取得的分類(lèi)精度.結(jié)合CS-Softmax損失函數(shù)在本文各項(xiàng)任務(wù)中的性能表現(xiàn),一般地,m的建議取值為0.1,0.2,0.3,0.4,λ的建議取值是2,4,6,8. 3.3.4 時(shí)間復(fù)雜度 本節(jié)在典型數(shù)據(jù)集上,通過(guò)對(duì)比使用3種損失函數(shù)訓(xùn)練相應(yīng)模型對(duì)應(yīng)的平均每輪時(shí)間消耗,分析了CS-Softmax損失函數(shù)的訓(xùn)練時(shí)間成本.在表7中,黑體數(shù)字表示各個(gè)模型對(duì)應(yīng)的最短平均每輪耗時(shí)和最高分類(lèi)精度,相應(yīng)的參數(shù)設(shè)置標(biāo)注在括號(hào)內(nèi).其中,時(shí)間欄為訓(xùn)練階段每輪的平均耗時(shí).相對(duì)差異為最長(zhǎng)時(shí)間、最短時(shí)間之間差值除以最長(zhǎng)時(shí)間得到的百分比.可以看出,在所有數(shù)據(jù)集上,使用CS-Softmax損失函數(shù)訓(xùn)練時(shí)的平均每輪耗時(shí),與其他2種損失函數(shù)相當(dāng),差異在2%以?xún)?nèi).這說(shuō)明,與其他2種損失函數(shù)相比,使用CS-Softmax損失函數(shù)訓(xùn)練網(wǎng)絡(luò)在有效提升分類(lèi)精度的同時(shí),沒(méi)有增加對(duì)應(yīng)的時(shí)間成本. Table 6 Classification Accuracies of ResNet34 Trained with CS-Softmax Loss Function on CIFAR10 Dataset with Different Hyperparameters Table 7 Comparison of the Time Cost of Training the Corresponding Models on Typical Datasets Using Three Loss Functions 本文從余弦相似性的角度出發(fā),對(duì)全連接層做出了新的解釋?zhuān)⒎治隽嘶谟嘞蚁嗨菩缘膿p失函數(shù)可以有效減輕使用Softmax損失函數(shù)訓(xùn)練時(shí)CNNs的早停問(wèn)題.基于余弦相似性,提出了一種CS-Softmax損失函數(shù).應(yīng)用該方法,可以通過(guò)參數(shù)m調(diào)整決策邊距,使學(xué)習(xí)到的嵌入表示類(lèi)內(nèi)更加緊湊、類(lèi)間更加遠(yuǎn)離,判別性更強(qiáng),并且優(yōu)化過(guò)程可有效區(qū)分不同目標(biāo),收斂狀態(tài)更加確定.在典型音頻、圖像分類(lèi)數(shù)據(jù)集上的初步實(shí)驗(yàn)表明,該損失函數(shù)與Softmax,AM-Softmax損失函數(shù)的訓(xùn)練時(shí)間成本相當(dāng).與Softmax損失函數(shù)相比,CS-Softmax損失函數(shù)能夠明顯提升分類(lèi)性能;與最先進(jìn)的損失函數(shù)相比,CS-Softmax損失函數(shù)能夠獲得相當(dāng)或更好的分類(lèi)精度. 作者貢獻(xiàn)聲明:張強(qiáng)進(jìn)行了論文相關(guān)問(wèn)題的定義、理論分析、實(shí)驗(yàn)設(shè)計(jì)、編碼測(cè)試、論文撰寫(xiě)等工作;楊吉斌提出了研究思路,給予了理論分析和論文寫(xiě)作的指導(dǎo);張雄偉指導(dǎo)了實(shí)驗(yàn)方案的設(shè)計(jì)、論文結(jié)構(gòu)的修改;曹鐵勇進(jìn)行了實(shí)驗(yàn)補(bǔ)充設(shè)計(jì)討論及論文修改;鄭昌艷進(jìn)行了部分實(shí)驗(yàn)測(cè)試和整理工作.2.3 CS-Softmax損失函數(shù)的類(lèi)別決策邊界
3 仿真實(shí)驗(yàn)和分析
3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
3.2 實(shí)驗(yàn)結(jié)果分析與討論
3.3 CS-Softmax損失函數(shù)性能分析
4 結(jié) 論