王中洲,陳 亮,魏勝楠
(沈陽理工大學(xué) 自動化與電氣工程學(xué)院,沈陽 110159)
在機器學(xué)習(xí)及其視覺識別的應(yīng)用中,處理的數(shù)據(jù)集通常都有一個基本假設(shè),即該數(shù)據(jù)集各類別對應(yīng)的樣本數(shù)量近似服從均勻分布,亦即類別平衡,但實際數(shù)據(jù)往往呈現(xiàn)極端不平衡狀態(tài)[1]。在一個訓(xùn)練樣本集中一些類別的樣本數(shù)量較多,這種類別的樣本稱為頭類樣本;一些樣本的數(shù)量較少,是頭類樣本的十分之一甚至更少,這種類別的樣本稱為尾類樣本。頭類樣本與尾類樣本的比值稱為不平衡率,不平衡率大于10的數(shù)據(jù)集稱為長尾數(shù)據(jù)集[2]。汽車輪胎缺陷的分類和定位研究中實驗用輪胎數(shù)據(jù)集即為長尾數(shù)據(jù)集。
數(shù)據(jù)集類別不平衡導(dǎo)致模型學(xué)習(xí)非常容易被頭類樣本主導(dǎo)而產(chǎn)生過擬合;同時模型對于尾類樣本的建模能力極其有限,從而在模型測試階段表現(xiàn)出對尾類樣本預(yù)測精度不高的問題。
經(jīng)典統(tǒng)計機器學(xué)習(xí)處理長尾問題采用處理傳統(tǒng)類別不平衡問題的方法?,F(xiàn)有技術(shù)有兩類做法:第一類為重采樣法,即通過采樣方式緩解長尾分布帶來的樣本極度不平衡[3];第二類為重權(quán)重法,通過改變權(quán)重來調(diào)整不同類別的訓(xùn)練比重[4]。
深度學(xué)習(xí)使用的方法如下。
(1)開放長尾識別算法(Open Long-tail Recognition,OLTR)基于一種度量標(biāo)準(zhǔn)將圖像映射到一個特征空間[5]。其優(yōu)點是在尊重封閉世界的同時承認(rèn)開放世界的新穎性,但是訓(xùn)練過程復(fù)雜,操作繁瑣。
(2)解耦算法認(rèn)為對任何不平衡分類數(shù)據(jù)的重平衡本質(zhì)上都是對分類器重平衡[6]。按照此理論提出了一種可以將特征學(xué)習(xí)和分類器學(xué)習(xí)解耦的訓(xùn)練策略,但該算法使用類平衡策略會出現(xiàn)學(xué)習(xí)頭類樣本特征不充分的問題。
(3)標(biāo)簽分布感知邊緣算法(Label-Distribution-Aware Margin,LDAM)提出基于邊緣泛化界限的損失函數(shù)[7],取代了訓(xùn)練網(wǎng)絡(luò)中的損失函數(shù),但是訓(xùn)練過程相比其他算法并沒有優(yōu)勢。
兩階段法訓(xùn)練過程分為兩個階段:第一個階段深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)服從原始長尾分布;第二階段是緩解長尾分布帶來的不平衡。2020年CVPR會議上Zhou B等基于兩階段法提出雙邊分支神經(jīng)網(wǎng)絡(luò)(Bilateral-Branch Network,BBN),用于解決在自然界中存在的長尾數(shù)據(jù)集中尾類樣本數(shù)量少、分類精確度低的問題[8];該訓(xùn)練方法簡單、操作步驟較少,可以兼顧特征學(xué)習(xí)和分類器學(xué)習(xí)。
本文使用BBN網(wǎng)絡(luò)解決輪胎長尾數(shù)據(jù)集中缺陷樣本分類精度低的問題。
BBN雙分支循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 BBN雙分支循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
BBN中包含的兩個分支用于表示特征學(xué)習(xí)和分類器學(xué)習(xí)。兩個分支使用相同的殘差網(wǎng)絡(luò)結(jié)構(gòu),共享除最后一個殘差塊以外的所有權(quán)值。其工作過程如下。
(1)設(shè)x表示訓(xùn)練樣本集,y∈{1,2,…,H}是x內(nèi)各元素對應(yīng)的標(biāo)簽,其中H是類別數(shù)量。經(jīng)采樣得到的樣本(xc,yc)和(xr,yr)作為兩個分支網(wǎng)絡(luò)輸入數(shù)據(jù),其中(xc,yc)為傳統(tǒng)學(xué)習(xí)分支的輸入數(shù)據(jù),(xr,yr)為重平衡分支的輸入數(shù)據(jù)。
(2)先將兩個分支的輸入數(shù)據(jù)經(jīng)過殘差網(wǎng)絡(luò)特征提取,然后經(jīng)過全局平均池化(Global Average Pooling,GAP)降低維度,減少訓(xùn)練參數(shù),得到特征向量fc和fr。
(3)將(2)中得到的特征向量fc和fr經(jīng)過特定的累積學(xué)習(xí)策略,改變網(wǎng)絡(luò)對兩個分支特征向量的注意力。通過累計學(xué)習(xí)策略中的自適應(yīng)權(quán)衡參數(shù)α控制fc和fr的權(quán)值,將加權(quán)特征向量αfc和(1-α)fr分別傳輸?shù)絎c和Wr分類器中,輸出結(jié)果為
(1)
式中z為預(yù)測輸出向量。
(4)將兩分支輸出的結(jié)果經(jīng)過歸一化指數(shù)函數(shù)Softmax處理,計算每一個類別的概率。Softmax函數(shù)計算公式為
(2)
式中:zi為第i個節(jié)點的輸出;j為輸出的網(wǎng)絡(luò)節(jié)點類別。
(3)
在數(shù)據(jù)集的特征提取網(wǎng)絡(luò)中,卷積神經(jīng)網(wǎng)絡(luò)特征提取效果相比于其它網(wǎng)絡(luò)更好。
采用ResNet-32與ResNet-50網(wǎng)絡(luò)在不同不平衡率的CIFAR-10和CIFAR-100數(shù)據(jù)集上的對比實驗錯誤率結(jié)果如表1所示。
表1 不同骨干網(wǎng)絡(luò)錯誤率對比
從表1可見,使用網(wǎng)絡(luò)ResNet-50比使用ResNet-32的錯誤率更低,表明ResNet-50相比于ResNet-32提取效果更好,沒有出現(xiàn)網(wǎng)絡(luò)退化問題。
ResNet-50的網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。
表2 ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)
傳統(tǒng)學(xué)習(xí)分支的輸入數(shù)據(jù)來自均勻采樣器,其中訓(xùn)練數(shù)據(jù)集中的每個樣本在一個訓(xùn)練時期中以相等概率只采樣一次[9]。均勻采樣器保留了原始分布的特征,有利于表征學(xué)習(xí)。而重平衡分支的目的是為了緩解數(shù)據(jù)不平衡。表3為實驗得出的不同采樣器模型的錯誤率。從表中可以看出,反向采樣器取得了比均勻采樣器和平衡采樣器更低的錯誤率,表明重平衡分支可以通過使用反向采樣器更多地關(guān)注尾類缺陷數(shù)據(jù)[12]。
表3 不同采樣器的錯誤率 %
累積學(xué)習(xí)策略使用一個權(quán)衡參數(shù)α,可以將訓(xùn)練的注意力從一個分支轉(zhuǎn)變到另一個分支。不同的α取值方式對于實驗的影響如表4所示。
表4 不同α在輪胎數(shù)據(jù)集的對比實驗
從表4的實驗結(jié)果可以看出:以線性衰減和拋物線衰減為取值方式的α的錯誤率相比其它取值方式更低。說明首先訓(xùn)練傳統(tǒng)學(xué)習(xí)分支,再訓(xùn)練重平衡分支的訓(xùn)練方法,可以避免破壞學(xué)習(xí)到的原始分布特征,又提升了分類準(zhǔn)確率。
輪胎數(shù)據(jù)集樣本量分布如圖2所示。
圖2 輪胎長尾數(shù)據(jù)集樣本量分布圖
輪胎數(shù)據(jù)集中共10類缺陷,其中稀線缺陷樣本為頭類樣本,氣泡缺陷樣本為尾類樣本。
實驗中除使用長尾版本的CIFAR數(shù)據(jù)集CIFAR-10和CIFAR-100外,還使用了實驗室標(biāo)注分類的輪胎數(shù)據(jù)集。此數(shù)據(jù)集包含60000張圖片,50000張圖片用于訓(xùn)練,10000張圖片用于驗證,缺陷類別數(shù)量為10,不平衡因子設(shè)置為10。
實驗中制作數(shù)據(jù)集時,采用的數(shù)據(jù)增強策略是從原始圖像中隨機裁剪一個32×32的圖片橫向翻轉(zhuǎn),每邊填充4個像素[10],目的是提升訓(xùn)練樣本的數(shù)據(jù)量,改善網(wǎng)絡(luò)模型的魯棒性。
本實驗使用不同不平衡率的長尾CIFAR-10和長尾CIFAR-100訓(xùn)練數(shù)據(jù),錯誤率為評價指標(biāo)。不同損失函數(shù)的實驗結(jié)果如表5所示。
表5 不同損失函數(shù)在CIFAR-10和CIFAR-100上的錯誤率對比
從表5可以看出,使用Softmax函數(shù)比CE損失函數(shù)的錯誤率更低,而且隨著不平衡率的上升,相較于CE損失函數(shù),使用Softmax函數(shù)錯誤率變化更穩(wěn)定,說明該方法可有效解決樣本不平衡對分類精度的影響問題。
本實驗使用輪胎數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),損失值、平均精度均值(mAP)、錯誤率作為評價指標(biāo)。實驗過程中損失值的變化曲線如圖3所示。
從圖3可以看出,使用ResNet-50比使用ResNet-32收斂速度更快,收斂維度更低。證明對于輪胎缺陷圖片ResNet-50比ResNet-32特征提取效果更好,沒有出現(xiàn)網(wǎng)絡(luò)退化問題。
圖3 不同骨干網(wǎng)絡(luò)的對比圖
為驗證損失函數(shù)對實驗結(jié)果的影響,使用Softmax函數(shù)和CE損失函數(shù)進行對比試驗,實驗結(jié)果如圖4所示。
圖4 不同損失函數(shù)的對比圖
從圖4可以看出,使用Softmax函數(shù)與CE損失函數(shù)相比,收斂維度降低,收斂速度更快。證明在BBN網(wǎng)絡(luò)中使用 Softmax函數(shù)可以降低訓(xùn)練難度,提高分類準(zhǔn)確性。
在輪胎數(shù)據(jù)集上訓(xùn)練改進后的網(wǎng)絡(luò)模型(OURS)與網(wǎng)絡(luò)模型OLTR、Decoupling、LDAM、BBN進行對比實驗。實驗結(jié)果如表6所示。
表6 不同網(wǎng)絡(luò)模型實驗結(jié)果 %
從表6可見,改進后的網(wǎng)絡(luò)模型各評價指標(biāo)均優(yōu)于其他網(wǎng)絡(luò)。說明改進后的網(wǎng)絡(luò)在特征提取效果和分類器性能兩方面均有提升。
在輪胎數(shù)據(jù)集上訓(xùn)練BBN網(wǎng)絡(luò)模型和改進后網(wǎng)絡(luò)得到的部分輪胎缺陷分類結(jié)果如圖5所示。
圖5 實驗結(jié)果圖
由圖5可見,改進后的網(wǎng)絡(luò)相比于原網(wǎng)絡(luò),雜質(zhì)和氣泡兩類缺陷的分類準(zhǔn)確率有很大提高。
本文使用BBN雙邊分支神經(jīng)網(wǎng)絡(luò)訓(xùn)練輪胎數(shù)據(jù)集。通過對BBN神經(jīng)網(wǎng)絡(luò)中的骨干網(wǎng)絡(luò)采用更適合提取輪胎缺陷圖片的ResNet-50神經(jīng)網(wǎng)絡(luò),損失函數(shù)采用適合輪胎數(shù)據(jù)集的Softmax 函數(shù),權(quán)衡參數(shù)調(diào)整為線性衰減,令改進后的BBN神經(jīng)網(wǎng)絡(luò)更適合訓(xùn)練本實驗室制作的輪胎數(shù)據(jù)集,使輪胎數(shù)據(jù)集中的尾類缺陷的分類效果更好,平均準(zhǔn)確率更高。