基于深度學(xué)習(xí)的長尾數(shù)據(jù)集分類精度提高的研究

2021-11-29 02:17王中洲魏勝楠

沈陽理工大學(xué)學(xué)報 2021年5期

王中洲，陳亮，魏勝楠

(沈陽理工大學(xué) 自動化與電氣工程學(xué)院，沈陽 110159)

在機器學(xué)習(xí)及其視覺識別的應(yīng)用中，處理的數(shù)據(jù)集通常都有一個基本假設(shè)，即該數(shù)據(jù)集各類別對應(yīng)的樣本數(shù)量近似服從均勻分布，亦即類別平衡，但實際數(shù)據(jù)往往呈現(xiàn)極端不平衡狀態(tài)[1]。在一個訓(xùn)練樣本集中一些類別的樣本數(shù)量較多，這種類別的樣本稱為頭類樣本；一些樣本的數(shù)量較少，是頭類樣本的十分之一甚至更少，這種類別的樣本稱為尾類樣本。頭類樣本與尾類樣本的比值稱為不平衡率，不平衡率大于10的數(shù)據(jù)集稱為長尾數(shù)據(jù)集[2]。汽車輪胎缺陷的分類和定位研究中實驗用輪胎數(shù)據(jù)集即為長尾數(shù)據(jù)集。

數(shù)據(jù)集類別不平衡導(dǎo)致模型學(xué)習(xí)非常容易被頭類樣本主導(dǎo)而產(chǎn)生過擬合；同時模型對于尾類樣本的建模能力極其有限，從而在模型測試階段表現(xiàn)出對尾類樣本預(yù)測精度不高的問題。

經(jīng)典統(tǒng)計機器學(xué)習(xí)處理長尾問題采用處理傳統(tǒng)類別不平衡問題的方法?，F(xiàn)有技術(shù)有兩類做法：第一類為重采樣法，即通過采樣方式緩解長尾分布帶來的樣本極度不平衡[3]；第二類為重權(quán)重法，通過改變權(quán)重來調(diào)整不同類別的訓(xùn)練比重[4]。

深度學(xué)習(xí)使用的方法如下。

(1)開放長尾識別算法(Open Long-tail Recognition，OLTR)基于一種度量標(biāo)準(zhǔn)將圖像映射到一個特征空間[5]。其優(yōu)點是在尊重封閉世界的同時承認(rèn)開放世界的新穎性，但是訓(xùn)練過程復(fù)雜，操作繁瑣。

(2)解耦算法認(rèn)為對任何不平衡分類數(shù)據(jù)的重平衡本質(zhì)上都是對分類器重平衡[6]。按照此理論提出了一種可以將特征學(xué)習(xí)和分類器學(xué)習(xí)解耦的訓(xùn)練策略，但該算法使用類平衡策略會出現(xiàn)學(xué)習(xí)頭類樣本特征不充分的問題。

(3)標(biāo)簽分布感知邊緣算法(Label-Distribution-Aware Margin，LDAM)提出基于邊緣泛化界限的損失函數(shù)[7]，取代了訓(xùn)練網(wǎng)絡(luò)中的損失函數(shù)，但是訓(xùn)練過程相比其他算法并沒有優(yōu)勢。

兩階段法訓(xùn)練過程分為兩個階段：第一個階段深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)服從原始長尾分布；第二階段是緩解長尾分布帶來的不平衡。2020年CVPR會議上Zhou B等基于兩階段法提出雙邊分支神經(jīng)網(wǎng)絡(luò)(Bilateral-Branch Network，BBN)，用于解決在自然界中存在的長尾數(shù)據(jù)集中尾類樣本數(shù)量少、分類精確度低的問題[8]；該訓(xùn)練方法簡單、操作步驟較少，可以兼顧特征學(xué)習(xí)和分類器學(xué)習(xí)。

本文使用BBN網(wǎng)絡(luò)解決輪胎長尾數(shù)據(jù)集中缺陷樣本分類精度低的問題。

1 BBN網(wǎng)絡(luò)結(jié)構(gòu)分析

BBN雙分支循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 BBN雙分支循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

BBN中包含的兩個分支用于表示特征學(xué)習(xí)和分類器學(xué)習(xí)。兩個分支使用相同的殘差網(wǎng)絡(luò)結(jié)構(gòu)，共享除最后一個殘差塊以外的所有權(quán)值。其工作過程如下。

(1)設(shè)x表示訓(xùn)練樣本集，y∈{1，2，…，H}是x內(nèi)各元素對應(yīng)的標(biāo)簽，其中H是類別數(shù)量。經(jīng)采樣得到的樣本(xc，yc)和(xr，yr)作為兩個分支網(wǎng)絡(luò)輸入數(shù)據(jù)，其中(xc，yc)為傳統(tǒng)學(xué)習(xí)分支的輸入數(shù)據(jù)，(xr，yr)為重平衡分支的輸入數(shù)據(jù)。

(2)先將兩個分支的輸入數(shù)據(jù)經(jīng)過殘差網(wǎng)絡(luò)特征提取，然后經(jīng)過全局平均池化(Global Average Pooling，GAP)降低維度，減少訓(xùn)練參數(shù)，得到特征向量fc和fr。

(3)將(2)中得到的特征向量fc和fr經(jīng)過特定的累積學(xué)習(xí)策略，改變網(wǎng)絡(luò)對兩個分支特征向量的注意力。通過累計學(xué)習(xí)策略中的自適應(yīng)權(quán)衡參數(shù)α控制fc和fr的權(quán)值，將加權(quán)特征向量αfc和(1-α)fr分別傳輸?shù)絎c和Wr分類器中，輸出結(jié)果為

(1)

式中z為預(yù)測輸出向量。

(4)將兩分支輸出的結(jié)果經(jīng)過歸一化指數(shù)函數(shù)Softmax處理，計算每一個類別的概率。Softmax函數(shù)計算公式為

(2)

式中：zi為第i個節(jié)點的輸出；j為輸出的網(wǎng)絡(luò)節(jié)點類別。

(3)

1.1 特征提取網(wǎng)絡(luò)

在數(shù)據(jù)集的特征提取網(wǎng)絡(luò)中，卷積神經(jīng)網(wǎng)絡(luò)特征提取效果相比于其它網(wǎng)絡(luò)更好。

采用ResNet-32與ResNet-50網(wǎng)絡(luò)在不同不平衡率的CIFAR-10和CIFAR-100數(shù)據(jù)集上的對比實驗錯誤率結(jié)果如表1所示。

表1 不同骨干網(wǎng)絡(luò)錯誤率對比

從表1可見，使用網(wǎng)絡(luò)ResNet-50比使用ResNet-32的錯誤率更低，表明ResNet-50相比于ResNet-32提取效果更好，沒有出現(xiàn)網(wǎng)絡(luò)退化問題。

ResNet-50的網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。

表2 ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)

1.2 數(shù)據(jù)采樣

傳統(tǒng)學(xué)習(xí)分支的輸入數(shù)據(jù)來自均勻采樣器，其中訓(xùn)練數(shù)據(jù)集中的每個樣本在一個訓(xùn)練時期中以相等概率只采樣一次[9]。均勻采樣器保留了原始分布的特征，有利于表征學(xué)習(xí)。而重平衡分支的目的是為了緩解數(shù)據(jù)不平衡。表3為實驗得出的不同采樣器模型的錯誤率。從表中可以看出，反向采樣器取得了比均勻采樣器和平衡采樣器更低的錯誤率，表明重平衡分支可以通過使用反向采樣器更多地關(guān)注尾類缺陷數(shù)據(jù)[12]。

表3 不同采樣器的錯誤率 %

1.3 累積學(xué)習(xí)策略

累積學(xué)習(xí)策略使用一個權(quán)衡參數(shù)α，可以將訓(xùn)練的注意力從一個分支轉(zhuǎn)變到另一個分支。不同的α取值方式對于實驗的影響如表4所示。

表4 不同α在輪胎數(shù)據(jù)集的對比實驗

從表4的實驗結(jié)果可以看出：以線性衰減和拋物線衰減為取值方式的α的錯誤率相比其它取值方式更低。說明首先訓(xùn)練傳統(tǒng)學(xué)習(xí)分支，再訓(xùn)練重平衡分支的訓(xùn)練方法，可以避免破壞學(xué)習(xí)到的原始分布特征，又提升了分類準(zhǔn)確率。

2 實驗結(jié)果與分析

輪胎數(shù)據(jù)集樣本量分布如圖2所示。

圖2 輪胎長尾數(shù)據(jù)集樣本量分布圖

輪胎數(shù)據(jù)集中共10類缺陷，其中稀線缺陷樣本為頭類樣本，氣泡缺陷樣本為尾類樣本。

實驗中除使用長尾版本的CIFAR數(shù)據(jù)集CIFAR-10和CIFAR-100外，還使用了實驗室標(biāo)注分類的輪胎數(shù)據(jù)集。此數(shù)據(jù)集包含60000張圖片，50000張圖片用于訓(xùn)練，10000張圖片用于驗證，缺陷類別數(shù)量為10，不平衡因子設(shè)置為10。

實驗中制作數(shù)據(jù)集時，采用的數(shù)據(jù)增強策略是從原始圖像中隨機裁剪一個32×32的圖片橫向翻轉(zhuǎn)，每邊填充4個像素[10]，目的是提升訓(xùn)練樣本的數(shù)據(jù)量，改善網(wǎng)絡(luò)模型的魯棒性。

2.1 長尾數(shù)據(jù)集實驗分析

本實驗使用不同不平衡率的長尾CIFAR-10和長尾CIFAR-100訓(xùn)練數(shù)據(jù)，錯誤率為評價指標(biāo)。不同損失函數(shù)的實驗結(jié)果如表5所示。

表5 不同損失函數(shù)在CIFAR-10和CIFAR-100上的錯誤率對比

從表5可以看出，使用Softmax函數(shù)比CE損失函數(shù)的錯誤率更低，而且隨著不平衡率的上升，相較于CE損失函數(shù)，使用Softmax函數(shù)錯誤率變化更穩(wěn)定，說明該方法可有效解決樣本不平衡對分類精度的影響問題。

2.2 自制數(shù)據(jù)集實驗分析

本實驗使用輪胎數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)，損失值、平均精度均值(mAP)、錯誤率作為評價指標(biāo)。實驗過程中損失值的變化曲線如圖3所示。

從圖3可以看出，使用ResNet-50比使用ResNet-32收斂速度更快，收斂維度更低。證明對于輪胎缺陷圖片ResNet-50比ResNet-32特征提取效果更好，沒有出現(xiàn)網(wǎng)絡(luò)退化問題。

圖3 不同骨干網(wǎng)絡(luò)的對比圖

為驗證損失函數(shù)對實驗結(jié)果的影響，使用Softmax函數(shù)和CE損失函數(shù)進行對比試驗，實驗結(jié)果如圖4所示。

圖4 不同損失函數(shù)的對比圖

從圖4可以看出，使用Softmax函數(shù)與CE損失函數(shù)相比，收斂維度降低，收斂速度更快。證明在BBN網(wǎng)絡(luò)中使用 Softmax函數(shù)可以降低訓(xùn)練難度，提高分類準(zhǔn)確性。

在輪胎數(shù)據(jù)集上訓(xùn)練改進后的網(wǎng)絡(luò)模型(OURS)與網(wǎng)絡(luò)模型OLTR、Decoupling、LDAM、BBN進行對比實驗。實驗結(jié)果如表6所示。

表6 不同網(wǎng)絡(luò)模型實驗結(jié)果 %

從表6可見，改進后的網(wǎng)絡(luò)模型各評價指標(biāo)均優(yōu)于其他網(wǎng)絡(luò)。說明改進后的網(wǎng)絡(luò)在特征提取效果和分類器性能兩方面均有提升。

在輪胎數(shù)據(jù)集上訓(xùn)練BBN網(wǎng)絡(luò)模型和改進后網(wǎng)絡(luò)得到的部分輪胎缺陷分類結(jié)果如圖5所示。

圖5 實驗結(jié)果圖

由圖5可見，改進后的網(wǎng)絡(luò)相比于原網(wǎng)絡(luò)，雜質(zhì)和氣泡兩類缺陷的分類準(zhǔn)確率有很大提高。

3 結(jié)論

本文使用BBN雙邊分支神經(jīng)網(wǎng)絡(luò)訓(xùn)練輪胎數(shù)據(jù)集。通過對BBN神經(jīng)網(wǎng)絡(luò)中的骨干網(wǎng)絡(luò)采用更適合提取輪胎缺陷圖片的ResNet-50神經(jīng)網(wǎng)絡(luò)，損失函數(shù)采用適合輪胎數(shù)據(jù)集的Softmax 函數(shù)，權(quán)衡參數(shù)調(diào)整為線性衰減，令改進后的BBN神經(jīng)網(wǎng)絡(luò)更適合訓(xùn)練本實驗室制作的輪胎數(shù)據(jù)集，使輪胎數(shù)據(jù)集中的尾類缺陷的分類效果更好，平均準(zhǔn)確率更高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡