国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BoTNet的車(chē)輛分類(lèi)實(shí)現(xiàn)

2022-01-22 11:21楊東李丹
電子測(cè)試 2021年24期
關(guān)鍵詞:注意力準(zhǔn)確率分類(lèi)

楊東,李丹

(四川大學(xué)錦城學(xué)院,四川成都,611731)

1 當(dāng)代社會(huì)下車(chē)輛分類(lèi)研究背景

當(dāng)代社會(huì)下,雖然有著男性普遍了解車(chē)型的刻板印象,但是并非所有人都普遍對(duì)車(chē)偏愛(ài),他們也有一定程度上的識(shí)別車(chē)輛的需求。同時(shí),在城市內(nèi)和城市周邊對(duì)車(chē)輛信息進(jìn)行一定程度的監(jiān)控是有利于整個(gè)交通系統(tǒng)的規(guī)劃的。當(dāng)然,車(chē)輛分類(lèi)如果應(yīng)用于市中心,也有利于研究目前市場(chǎng)上主流車(chē)型還可以向相關(guān)部門(mén)提供更多的過(guò)往車(chē)輛信息以滿足道路交通的需求??偠灾?,車(chē)輛的圖片分類(lèi)是圖片分類(lèi)領(lǐng)域一項(xiàng)主要的任務(wù)。在以往的研究中,諸多卷積神經(jīng)網(wǎng)絡(luò)模型被用于車(chē)輛分類(lèi)等圖片分類(lèi)的研究之中??紤]到BoTNet網(wǎng)絡(luò)本身具有較高的深度和本身的復(fù)雜性,故將BoTNet的研究應(yīng)用于車(chē)輛分類(lèi)。計(jì)算機(jī)行業(yè)應(yīng)該研究更多可以應(yīng)用于實(shí)際生活中的項(xiàng)目,而對(duì)于新興網(wǎng)絡(luò)模型應(yīng)用于傳統(tǒng)圖片分類(lèi)尤其是現(xiàn)實(shí)生活中會(huì)涉及到的分類(lèi)的研究具有廣泛的社會(huì)意義和使用價(jià)值。

早期的卷積神經(jīng)網(wǎng)絡(luò),如AlexNet[1]和VGGNet[2]提出了簡(jiǎn)單的激活函數(shù)和卷積結(jié)構(gòu)使得多尺度特征的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)成為可能。深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)目前已被成功地應(yīng)用于圖像分類(lèi)[3]、語(yǔ)音識(shí)別[4-5]、自然語(yǔ)言處理[6-7]等領(lǐng)域。網(wǎng)絡(luò)退化的問(wèn)題也被何凱文等人提出的ResNet[8]的殘差結(jié)構(gòu)使得更深的網(wǎng)絡(luò)能夠進(jìn)行有效的學(xué)習(xí)。而在計(jì)算機(jī)網(wǎng)絡(luò)架構(gòu)研究的前沿,計(jì)算機(jī)大牛們正在不斷地研究、改善和融合不同的網(wǎng)絡(luò)結(jié)構(gòu),本文著重研究在ResNet的瓶頸層使用多頭自注意力模型替換得到改造升級(jí)的BoTNet,并將其應(yīng)用于傳統(tǒng)的圖片分類(lèi)中,嘗試圖片分類(lèi)的新可能。

2 基于BoTNet的深度網(wǎng)絡(luò)訓(xùn)練

BoTNet是一個(gè)簡(jiǎn)單卻十分強(qiáng)大的框架。在近期開(kāi)始流行的它可以運(yùn)用于計(jì)算機(jī)視覺(jué)的多個(gè)領(lǐng)域:圖像識(shí)別、對(duì)象檢測(cè)和實(shí)例分割等方面。它是由ResNet直接改造獲得的一種改良型的網(wǎng)絡(luò)結(jié)構(gòu)。我們將ResNet的最后三個(gè)瓶頸塊中的3*3的卷積替換成多頭自注意力(Multi-Head Self-Attention又稱(chēng)MHSA)層。多頭自注意力層包含了相對(duì)位置編碼和多頭自注意力模型。在以往的研究中,我們發(fā)現(xiàn)在多頭自注意力模型用于語(yǔ)義識(shí)別時(shí),多層注意力的結(jié)合能顯著提升句子在復(fù)雜語(yǔ)義上的表現(xiàn),彌補(bǔ)單注意力的不足[9]。現(xiàn)在我們將這種出色的對(duì)特征識(shí)別的能力運(yùn)用到圖片分類(lèi)之中,希望可以在訓(xùn)練時(shí),運(yùn)用相對(duì)位置編碼和多頭自注意力讓網(wǎng)絡(luò)模型學(xué)習(xí)到圖片更多的特征和細(xì)節(jié),提升網(wǎng)絡(luò)性能。圖1便是ResNet-50和BoTNet-50的網(wǎng)絡(luò)結(jié)構(gòu)圖。

首先,自注意力機(jī)制本質(zhì)上是根據(jù)注意對(duì)象的重要程度進(jìn)行不同的資源分配。在神經(jīng)網(wǎng)絡(luò)中,注意力所要分配的資源就是權(quán)重[10]。這種權(quán)重分配的方式本身就可以在一定程度上提高網(wǎng)絡(luò)對(duì)于特征的識(shí)別能力。不同的權(quán)重分配方式可以對(duì)結(jié)果產(chǎn)生不同程度的影響。而多頭自注意力不僅在單頭的基礎(chǔ)上進(jìn)行了多頭的擴(kuò)展,如文獻(xiàn)11所言:head的數(shù)量會(huì)影響對(duì)不同特征的關(guān)注度,適當(dāng)?shù)膆ead數(shù)目可以準(zhǔn)確地關(guān)注到數(shù)據(jù)包關(guān)鍵時(shí)空特征[11]。多頭自注意力模型還可以作為多個(gè)獨(dú)立attention計(jì)算防止過(guò)擬合,可以有效提升模型的泛化能力。MHSA還包含了相對(duì)位置編碼,可以顯著提升網(wǎng)絡(luò)對(duì)于特征識(shí)別的準(zhǔn)確度。這是因?yàn)橄鄬?duì)位置編碼本身[12]應(yīng)用于語(yǔ)義識(shí)別時(shí),可以準(zhǔn)確識(shí)別語(yǔ)義信息之間的位置信息,如:我欠你兩萬(wàn)元。這句話本身的位置信息就體現(xiàn)了是誰(shuí)欠誰(shuí)錢(qián),若是語(yǔ)義識(shí)別無(wú)法利用其位置信息而理解成:你欠我兩萬(wàn)元。這種每個(gè)詞都認(rèn)識(shí),但在事實(shí)層面完全誤解了語(yǔ)句的含義,無(wú)法理解句子間的邏輯結(jié)構(gòu)含義,這也是機(jī)械翻譯普遍存在的問(wèn)題。而我們發(fā)現(xiàn)相對(duì)位置編碼在圖像識(shí)別等視覺(jué)任務(wù)上也有著十分出色的表現(xiàn):不同的特征距離之間可以有完全不同的現(xiàn)實(shí)意義以及背后更深層的邏輯含義。在采用了相對(duì)位置編碼之后,我們的網(wǎng)絡(luò)也可以對(duì)處于不同位置的特征之間的信息加以學(xué)習(xí)。從而可以有效地把握對(duì)象信息和位置信息之間的聯(lián)系,甚至學(xué)習(xí)到圖片或者文字背后的實(shí)際含義,從而顯著提高網(wǎng)絡(luò)性能。

圖1 ResNet-50和BoTNet-50結(jié)構(gòu)圖

3 實(shí)驗(yàn)結(jié)果及分析

3.1 訓(xùn)練和測(cè)試數(shù)據(jù)

本文使用的樣本是來(lái)自計(jì)算機(jī)圖像分類(lèi)車(chē)輛模型的數(shù)據(jù)包,其中的圖片按照車(chē)型分類(lèi)存儲(chǔ)??紤]到網(wǎng)絡(luò)模型本身較高的復(fù)雜性,為了防止訓(xùn)練時(shí)間過(guò)長(zhǎng),所以本次實(shí)驗(yàn)使用較小的數(shù)據(jù)包便于訓(xùn)練。此數(shù)據(jù)包包括了1600個(gè)車(chē)輛圖像,其中共分為10類(lèi),因?yàn)閳D片本身數(shù)據(jù)量較小,隨機(jī)打亂之后便按照7:1的比列分成了訓(xùn)練集和測(cè)試集。訓(xùn)練樣本中每個(gè)樣本包含140張圖片,測(cè)試樣本中包含20張圖片。整個(gè)訓(xùn)練集和測(cè)試集具有樣本圖片清晰、角度不同的特點(diǎn)。部分?jǐn)?shù)據(jù)如圖2所示,其中不少都是貼近生活中拍攝的圖片,有利于使訓(xùn)練結(jié)果更加貼近生活中車(chē)輛拍攝的實(shí)際情況。

圖2 部分?jǐn)?shù)據(jù)集圖

3.2 實(shí)驗(yàn)細(xì)節(jié)

使用ImageFolder將數(shù)據(jù)集打包寫(xiě)入dataset中。遍歷數(shù)據(jù)文件夾中所有的文件,取出其中對(duì)應(yīng)的圖片名和分類(lèi)組成我們的數(shù)據(jù)集。數(shù)據(jù)集按照7:1的比例分為訓(xùn)練集和測(cè)試集。為了更好地提升模型的準(zhǔn)確率,實(shí)驗(yàn)在模型訓(xùn)練前對(duì)訓(xùn)練數(shù)據(jù)集和測(cè)試集進(jìn)行同樣的預(yù)處理,進(jìn)行對(duì)所有的訓(xùn)練數(shù)據(jù)進(jìn)行伸縮變化、中心裁剪、對(duì)比度調(diào)整、隨機(jī)旋轉(zhuǎn)和歸一化最終形成了小圖片(32*32)形式的數(shù)據(jù)集。對(duì)測(cè)試集也進(jìn)行同樣的處理。

為了便于修改ResNet-50的網(wǎng)絡(luò)結(jié)構(gòu),我們手動(dòng)創(chuàng)建ResNet-50類(lèi),構(gòu)建好ResNet-50后,創(chuàng)立MHSA類(lèi),完成多頭自注意力層的搭建,創(chuàng)立瓶頸層類(lèi),用于替換原本ResNet-50網(wǎng)絡(luò)的瓶頸層,最后將我們準(zhǔn)備好的MHSA和瓶頸層替換掉原本ResNet-50網(wǎng)絡(luò)的瓶頸層:在ResNet-50的最后三個(gè)瓶頸塊中將3*3的卷積替換成多頭自注意力(MHSA)層得到BoTNet-50用于網(wǎng)絡(luò)學(xué)習(xí)。我們分別將兩種網(wǎng)絡(luò)模型使用在我們經(jīng)過(guò)同樣預(yù)處理的數(shù)據(jù)集中。在訓(xùn)練過(guò)程中,使用隨機(jī)梯度下降作為我們的優(yōu)化器,這樣對(duì)梯度要求低,可以很好地收斂。同時(shí),為了方便求導(dǎo)使得運(yùn)算不會(huì)過(guò)于復(fù)雜,我們使用交叉熵?fù)p失函數(shù)。我們用args來(lái)存儲(chǔ)我們傳入的參數(shù)并將其batch_size賦值給dataset的batch_size,方便我們傳入的參數(shù)不受限制。

3.3 測(cè)試結(jié)果及分析

在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中,每輪epoch結(jié)束時(shí)會(huì)輸出在測(cè)試集上計(jì)算和打印的平均損失函數(shù)值和準(zhǔn)確度。為了有效檢驗(yàn)ResNet-50和BoTNet-50兩種網(wǎng)絡(luò)模型的性能差異,實(shí)驗(yàn)進(jìn)行了分別進(jìn)行了多次長(zhǎng)達(dá)400多輪的訓(xùn)練。便于觀察和區(qū)分不同輪次兩種模型的適應(yīng)程度。多次進(jìn)行訓(xùn)練之后,我們發(fā)現(xiàn)ResNet-50網(wǎng)絡(luò)和BoTNet-50網(wǎng)絡(luò)的準(zhǔn)確率整體上會(huì)隨著輪次的提升穩(wěn)步提升,但是由于時(shí)間和內(nèi)存的限制難以進(jìn)一步驗(yàn)證閾值。其中一次模型在ResNet-50網(wǎng)絡(luò)和BoTNet-50網(wǎng)絡(luò)上的訓(xùn)練結(jié)果如圖3所示。

根據(jù)訓(xùn)練的結(jié)果不難發(fā)現(xiàn),兩種模型整體上都不夠穩(wěn)定,在訓(xùn)練初期兩種模型的適應(yīng)性都不太好,但是BoTNet-50網(wǎng)絡(luò)模型的增長(zhǎng)速度在此時(shí)明顯快于ResNet-50網(wǎng)絡(luò)模型,但是不夠穩(wěn)定。此后前者便更加穩(wěn)定,在70左右輪次時(shí),兩種模型的準(zhǔn)確率都有明顯地下跌,在150輪左右時(shí)ResNet-50再次出現(xiàn)明顯下跌。但是整體情況來(lái)看BoTNet-50網(wǎng)絡(luò)模型的準(zhǔn)確率曲線優(yōu)于ResNet-50網(wǎng)絡(luò)模型,尤其是在150輪左右時(shí)更加穩(wěn)定。通過(guò)實(shí)驗(yàn),我們得到結(jié)論:在小圖片的分類(lèi)作業(yè)中,BoTNet-50網(wǎng)絡(luò)模型的訓(xùn)練效果優(yōu)于ResNet-50網(wǎng)絡(luò)模型,尤其是在輪次較大時(shí),BoTNet-50更加穩(wěn)定。

圖3

4 車(chē)輛分類(lèi)算法的實(shí)際應(yīng)用

有時(shí)候由于環(huán)境因素甚至是人為因素,我們無(wú)法準(zhǔn)確獲取監(jiān)控里的車(chē)輛信息,同時(shí),由于交通的不斷發(fā)展,即便是通過(guò)同一個(gè)路口的車(chē)輛在一段時(shí)間內(nèi)也相當(dāng)大,由人工排查檢測(cè)過(guò)于困難。我們?cè)谲?chē)輛分類(lèi)訓(xùn)練集上進(jìn)行訓(xùn)練,發(fā)現(xiàn)了BoTNet的表現(xiàn)比傳統(tǒng)的ResNet更優(yōu)秀。將車(chē)輛分類(lèi)運(yùn)用于這種場(chǎng)景,可以提升效率,協(xié)助交通管制或是抓捕隱藏車(chē)牌的嫌犯,幫助相關(guān)部門(mén)迅速排除無(wú)關(guān)車(chē)型,聚焦嫌犯車(chē)輛。

不同的應(yīng)用場(chǎng)景有不同的需求,如果用于平時(shí)的交通管制方面,也可以幫助相關(guān)部門(mén)快速統(tǒng)計(jì)交通信息,及時(shí)了解到城內(nèi)流動(dòng)的車(chē)輛類(lèi)型,了解到各時(shí)段公路上主要的車(chē)輛,便于交通管制,也可以在節(jié)假日監(jiān)管通過(guò)高速路口的車(chē)輛類(lèi)型,及時(shí)做好相關(guān)工作。在我們應(yīng)用此技術(shù)在嫌犯車(chē)輛識(shí)別時(shí):尤其是對(duì)于已經(jīng)修改車(chē)牌的犯罪車(chē)輛,可以快速識(shí)別監(jiān)控圖片中的車(chē)型是否為目標(biāo)車(chē)型,如圖4,幫助有關(guān)部門(mén)排除干擾,在海量車(chē)輛圖片中識(shí)別目標(biāo)車(chē)型。

圖4 車(chē)輛分類(lèi)的實(shí)際應(yīng)用

5 結(jié)論

本文針對(duì)基于BoTNet的車(chē)輛分類(lèi)現(xiàn)進(jìn)行了對(duì)比實(shí)驗(yàn)。在對(duì)比實(shí)驗(yàn)中,我們都對(duì)數(shù)據(jù)集進(jìn)行了相同的預(yù)處理和同樣的損失函數(shù)、隨機(jī)梯度下降。實(shí)驗(yàn)結(jié)果表明在小圖片的分類(lèi)作業(yè)中,BoTNet-50網(wǎng)絡(luò)模型的訓(xùn)練效果優(yōu)于ResNet-50網(wǎng)絡(luò)模型。實(shí)驗(yàn)最終兩種網(wǎng)絡(luò)模型都沒(méi)有達(dá)到較高準(zhǔn)確率的原因可能是因?yàn)楸旧頂?shù)據(jù)集訓(xùn)練樣本較少,也有可能是由于我們?cè)跀?shù)據(jù)預(yù)處理時(shí)使用了伸縮變化導(dǎo)致圖片較小。由于伸縮變換,最終圖片的大小可能影響到了相對(duì)位置編碼對(duì)于特征的識(shí)別。并且,可能在此過(guò)程中,圖片壓縮導(dǎo)致?lián)p失了更多的特征導(dǎo)致我們的網(wǎng)絡(luò)難以讀取甚至無(wú)法識(shí)別到更多的特征值,最終使得訓(xùn)練初期準(zhǔn)確率不高,也導(dǎo)致我們整體實(shí)驗(yàn)準(zhǔn)確率上升較慢。但是我們依然可以根據(jù)實(shí)驗(yàn)結(jié)果得出結(jié)論:經(jīng)過(guò)對(duì)ResNet-50網(wǎng)絡(luò)改進(jìn)后得到的BoTNet-50網(wǎng)絡(luò)對(duì)于小圖片的識(shí)別效果更好。相信在未來(lái)經(jīng)過(guò)進(jìn)一步的優(yōu)化和訓(xùn)練之后會(huì)在實(shí)際應(yīng)用中有著更出色的表現(xiàn)。

猜你喜歡
注意力準(zhǔn)確率分類(lèi)
讓注意力“飛”回來(lái)
分類(lèi)算一算
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
分類(lèi)討論求坐標(biāo)
高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”