国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多特征融合的膠囊網(wǎng)絡(luò)用于圖像分類

2021-01-16 06:00李建橋賈曉芬趙佰亭
關(guān)鍵詞:深層殘差膠囊

李建橋, 賈曉芬, 趙佰亭

(安徽理工大學(xué) 電氣與信息工程學(xué)院, 安徽 淮南 232000)

近年來,機(jī)器視覺的發(fā)展非常迅速,在各個(gè)領(lǐng)域中取得了顯著的進(jìn)展.尤其卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域是重要的部分,有廣泛的應(yīng)用,例如圖像分類[1]、文本檢測[2]、語音處理[3]等.CNN是通過卷積層提取圖像的信息,經(jīng)過池化層降維減少參數(shù)量,最后通過分類器進(jìn)行分類.CNN通過權(quán)值共享和池化操作實(shí)現(xiàn)了平移不變性和旋轉(zhuǎn)不變性.但是池化層的出現(xiàn)會(huì)導(dǎo)致提取的特征信息會(huì)丟失,影響最終的分類精度.圖像的空間相對(duì)位置對(duì)于結(jié)果有著非常重要影響,CNN并不能識(shí)別.比如說,人的一張臉,把眼睛、鼻子、嘴巴的空間位置打亂,那么CNN還是會(huì)將其識(shí)別成一張人臉,我們知道這是錯(cuò)誤的 .雖然后續(xù)有許多對(duì)CNN的改進(jìn)方法[4-6],但是由于CNN中有大量的參數(shù),池化層依然不可或缺.

為了解決這些問題,Sabour[7]提出了一種新型的網(wǎng)絡(luò)模型—膠囊網(wǎng)絡(luò)(CapsNet).膠囊網(wǎng)絡(luò)利用變換矩陣對(duì)局部部分與整個(gè)對(duì)象之間的關(guān)系進(jìn)行編碼,從而CapsNet能夠通過局部關(guān)系理解整個(gè)對(duì)象.不同于CNN使用標(biāo)量,膠囊網(wǎng)絡(luò)將標(biāo)量替換為向量神經(jīng)元,向量的長度代表實(shí)體存在的概率大小,方向代表實(shí)例化參數(shù).同時(shí),CapsNet中使用步幅卷積和動(dòng)態(tài)路由來實(shí)現(xiàn)參數(shù)大小的控制,膠囊網(wǎng)絡(luò)對(duì)于數(shù)據(jù)集的要求比較低.CNN需要大數(shù)據(jù)集,這樣網(wǎng)絡(luò)擬合效果才好,而膠囊網(wǎng)絡(luò)只需要小樣本的數(shù)據(jù)集.卷積網(wǎng)絡(luò)在池化的過程中會(huì)有大量的信息丟失,這會(huì)影響分類精度,膠囊網(wǎng)絡(luò)能夠?qū)⒃敿?xì)的姿態(tài)信息(如目標(biāo)的位置、旋轉(zhuǎn)、厚度、傾斜、大小等等)在整個(gè)網(wǎng)絡(luò)過程中保存下來.CapsNet在小數(shù)據(jù)集MNIST上表現(xiàn)良好,但是對(duì)于復(fù)雜數(shù)據(jù)集CIFAR-10分類精度較低.可能的原因有以下兩點(diǎn):1)卷積提取模塊只有兩層卷積層,而CIFAR-10中的圖片都是多通道和高分辨的彩色圖片.淺的卷積層不能提取到更深層的特征和語義信息,從而導(dǎo)致在復(fù)雜數(shù)據(jù)集上的錯(cuò)誤率較高;2)解碼器部分的三個(gè)全連接層會(huì)導(dǎo)致圖片的重構(gòu)誤差增大,進(jìn)一步使得分類精度降低.

目前已有學(xué)者對(duì)膠囊網(wǎng)絡(luò)展開了研究和改進(jìn).Kang[8]等人提出基于雙通道詞向量的卷積膠囊文本分類算法,采用具有動(dòng)態(tài)路由機(jī)制的卷積膠囊網(wǎng)絡(luò)模型進(jìn)行文本分類,提高了文本分類的準(zhǔn)確度.Xiang[9]等人提出了一種多尺度膠囊網(wǎng)絡(luò)(MS-CapsNet).通過多尺度特征提取獲得更多的結(jié)構(gòu)和語義信息,然后將特征層次編碼到多維的原始膠囊中去.在FashionMNIST和CIFAR-10數(shù)據(jù)集準(zhǔn)確率分別達(dá)到92.7%、75.7%.Chen[10]將路由過程和神經(jīng)網(wǎng)絡(luò)中所有其他參數(shù)一起嵌入到優(yōu)化過程中,克服了必須手工尋找最優(yōu)路由迭代數(shù)目的缺點(diǎn).Lin[11]通過改進(jìn)動(dòng)態(tài)路由和壓縮函數(shù)的方式對(duì)Hinton等的膠囊網(wǎng)絡(luò)模型進(jìn)行改進(jìn),相比較原始網(wǎng)絡(luò)性能有了明顯的提升.Jay[12]等人通過向相應(yīng)的實(shí)例化參數(shù)添加隨機(jī)噪聲來模擬人類手寫輸入中的實(shí)際變化.這種策略對(duì)于缺少大量標(biāo)記訓(xùn)練數(shù)據(jù)的本地化語言的字符識(shí)別非常有用,除此之外,還開發(fā)了一種策略,有效地利用損失函數(shù)的組合來改進(jìn)重建.Han[13]等人提出特征提取器和空間關(guān)系提取器,以尋找特征和空間關(guān)系的最佳組合.特征提取器從下到上提取特征信息,空間關(guān)系提取器從上到下提供空間關(guān)系指導(dǎo).Chang[14]等人提出了一種嚴(yán)格擠壓多車道的膠囊網(wǎng)絡(luò)模型,稱為MLSCN.替換了壓縮函數(shù),優(yōu)化了dropout的實(shí)現(xiàn).相比較原始的膠囊網(wǎng)絡(luò),性能有一定的提升效果.

本文主要的貢獻(xiàn)如下:1)使用殘差網(wǎng)絡(luò)替代了原始膠囊網(wǎng)絡(luò)中卷積提取層,能夠提取到更深層的特征信息; 2)用反卷積層代替原始網(wǎng)絡(luò)中的全連接重構(gòu)層,降低重構(gòu)誤差;3)提取圖片的淺層、中層和深層特征,并嵌入SE模塊得到權(quán)重系數(shù),數(shù)字膠囊層進(jìn)行加權(quán)融合.所提出的方法經(jīng)實(shí)驗(yàn)后可得,在Cifar10數(shù)據(jù)集上達(dá)到了87.21%的結(jié)果,相比較CapsNet有了很大提升,說明該方法的有效性.

1 改進(jìn)的膠囊網(wǎng)絡(luò)

1.1 模型結(jié)構(gòu)

相比較CNN在訓(xùn)練過程中池化層的信息丟失、需要大量的樣本和不能很好地應(yīng)對(duì)模糊性等問題,膠囊網(wǎng)絡(luò)很好地解決了這些問題.在小樣本集上,CapsNet地表現(xiàn)超過了CNN.它是分層級(jí)的網(wǎng)絡(luò)模型,在訓(xùn)練中學(xué)習(xí)部分與整體的關(guān)系.同時(shí),對(duì)于模糊性的問題,膠囊網(wǎng)絡(luò)在MultiMNIST數(shù)據(jù)集(一種由重疊的不同數(shù)字組成的手寫數(shù)字變體)上獲得了比CNN好的多的結(jié)果.

本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主體架構(gòu)主要分為兩部分:編碼器部分和解碼器部分.輸入的圖片先是經(jīng)過編碼器部分編碼,再經(jīng)過解碼器部分得到重構(gòu)圖像.其中編碼器部分包括殘差模塊和膠囊模塊,解碼器部分包括5層反卷積層.殘差模塊主要是提取特征信息,膠囊模塊將特征向量化.反卷積主要是對(duì)編碼后的圖片進(jìn)行重構(gòu).

圖1 網(wǎng)絡(luò)結(jié)構(gòu)模型

1.2 編碼器

1.2.1 殘差提取模塊

編碼器部分包括殘差提取模塊[15]和膠囊模塊.殘差提取模塊主要用于提取圖片中更深層的特征和語義信息,模型結(jié)構(gòu)見圖2,主要包括一個(gè)3×3卷積、8個(gè)殘差塊、一個(gè)BN層和ReLU激活層.圖片先是經(jīng)過卷積核大小為3×3、步幅為1的卷積,得到維度為32×32×16的特征圖.然后經(jīng)過3個(gè)核大小為3×3、步幅為1的殘差塊,得到維度為32×32×64的淺層特征圖,將提取到的淺層特征輸送到Primary1中.再經(jīng)過3個(gè)核大小為3×3、步幅為1的殘差塊,得到維度為16×16×128的中層特征圖,將提取到的中層特征輸送到Primary2中.再經(jīng)過2個(gè)核大小為3×3、步幅為2的殘差,得到維度為8×8×256的深層特征圖,將提取到的深層特征輸送到Primary3中.最后經(jīng)過BN層和ReLU激活函數(shù)層.

圖2 編碼器

1.2.2 膠囊模塊

深層網(wǎng)絡(luò)的感受野比較大,語義信息表征能力強(qiáng),但幾何信息的表征能力弱,深層特征表征的圖像信息更豐富,能夠?qū)?fù)雜的目標(biāo)區(qū)分開.淺層網(wǎng)絡(luò)的感受野比較小,語義信息表征能力弱,但幾何信息的表征能力強(qiáng),淺層特征表征的信息較少,但能夠?qū)⒁恍┖唵蔚哪繕?biāo)區(qū)分開.淺層和深層的特征進(jìn)行融合能夠互相彌補(bǔ),這樣對(duì)于分類任務(wù)有提升.

膠囊模塊包括主膠囊層和數(shù)字膠囊層.如圖3所示,經(jīng)過前面殘差網(wǎng)絡(luò)提取到的淺層特征R1、中層特征R2和深層特征R3,再分別輸送到主膠囊層Primary1、Primary2和Primary3中,里面都包含一個(gè)SE模塊,經(jīng)過SE模塊后分別得到淺層、中層和深層特征的權(quán)重系數(shù)a1、a2和a3.將三個(gè)權(quán)重系數(shù)與三個(gè)數(shù)字膠囊層分別相乘,得到三個(gè)帶有權(quán)重的數(shù)字膠囊層,分別為Digit1、Digit2和Digit3.權(quán)重系數(shù)對(duì)分類有用的膠囊起到放大的作用,對(duì)無用或作用比較小的膠囊起到抑制的作用.最后將三個(gè)帶有權(quán)重系數(shù)的數(shù)字膠囊層融合成一個(gè)數(shù)字膠囊層.其中Digit1、Digit2和Digit3都是10個(gè)類別的輸出向量,每個(gè)類別為16D的膠囊.Digit1、Digit2和Digit3的輸出分別用D1、D2、D3表示,⊕代表串型連接.最后的數(shù)字膠囊融合層Digit用D表示,是一個(gè)48D的膠囊.則有

圖3 帶有SE的膠囊模塊

D=(a1*D1)⊕(a2*D2)⊕(a3*D3)

(1)

在編碼器部分,損失函數(shù)用邊緣損失函數(shù),定義為:

(2)

其中:m+為上邊界,取值為m+=0.9,m-為下邊界,取值為m-=0.1,λ=0.5,如果一個(gè)類別的對(duì)象存在m+時(shí)Tk=1.

1.3 解碼器

解碼器部分主要包括了一個(gè)反卷積模塊.原始的膠囊網(wǎng)絡(luò)將重建損失作為一個(gè)正則化方法,以鼓勵(lì)數(shù)字膠囊層中的膠囊盡可能多的編碼有用信息.這里的重建模塊簡單地通過將數(shù)字膠囊層的輸出提供給3個(gè)全連接層組成的解碼器來完成.雖然該方法在簡單數(shù)據(jù)集MNIST上能夠很好的重建數(shù)字,但是對(duì)于復(fù)雜數(shù)據(jù)集的重建性能并不好,重建后的圖像較模糊,難以分辨.

基于以上的分析,本文提出了使用反卷積來重構(gòu)圖像的方法,以提高復(fù)雜數(shù)據(jù)集的重建性能和分類精度.如圖4所示,由編碼器部分得到的10個(gè)48D的膠囊向量,我們將其壓縮成480D的向量.然后經(jīng)過4個(gè)卷積核大小都為3×3,步幅分別為1、2、2、1,濾波器的數(shù)量分別為64、32、16、3的反卷積.最后得到通道為3,大小為32×32的重構(gòu)圖像.使用均方誤差作為重構(gòu)損失函數(shù),定義為:

圖4 解碼器

(3)

2 實(shí)驗(yàn)和結(jié)果

2.1 數(shù)據(jù)集

為了評(píng)價(jià)所提方法的性能,我們?cè)趦蓚€(gè)數(shù)據(jù)集Fashion-MNIST、CIFAR-10上進(jìn)行實(shí)驗(yàn).Fashion-MNIST是單通道的數(shù)據(jù)集,分辨率大小為28×28,共有十個(gè)類別.包含70 000張灰度圖片,其中60 000張訓(xùn)練集圖片,10 000張測試集圖片.CIFAR-10是RGB三通道的數(shù)據(jù)集,分辨率大小為32×32,共有10個(gè)類別.包含60 000張彩色圖片,其中50 000張是訓(xùn)練集,10 000張是測試集.

本文使用Keras框架編碼實(shí)現(xiàn)改進(jìn)的膠囊網(wǎng)絡(luò)模型,并使用Adam優(yōu)化器作為梯度下降算法進(jìn)行訓(xùn)練.批大小設(shè)置為128,訓(xùn)練設(shè)置為150個(gè)周期,每個(gè)周期內(nèi)迭代了390次,權(quán)重衰減系數(shù)設(shè)置為0.000 05.初始學(xué)習(xí)率為0.001,在訓(xùn)練過程中階段性的減小學(xué)習(xí)率,使網(wǎng)絡(luò)能夠在訓(xùn)練時(shí)達(dá)到最優(yōu).所有的實(shí)驗(yàn)都是在安裝內(nèi)存為6 GB的GTX1060顯卡的電腦上完成的.

2.2 結(jié)果與討論

本文所提方法的準(zhǔn)確率和參數(shù)量與其他方法的比較如表1所示,“-”表示該方法沒有在數(shù)據(jù)集上實(shí)驗(yàn).

實(shí)驗(yàn)結(jié)果如表1所示,通過表1可以看出MFF-CapsNet在Fashion-MNIST和CIFAR-10數(shù)據(jù)集上的性能明顯優(yōu)于已有的幾種方法.同時(shí)參數(shù)量相比較于CapsNet沒有增加多少,但是分類的準(zhǔn)確率有了大幅的提高,在兩個(gè)數(shù)據(jù)集上分別提高了1.7%和14.23%,特別是對(duì)于CIFAR-10數(shù)據(jù)集.相較于MS-CapsNet,準(zhǔn)確率分別提高了0.65%和11.74%,但是參數(shù)量減少了接近一半.MFF-CapsNet的準(zhǔn)確率比TextCaps高0.05%、8.25%,而參數(shù)量是TextCaps的1/3.MFF-CapsNet在CIFAR-10上準(zhǔn)確率比FSc-CapsNet高7.18%,參數(shù)量有了大幅度的減少.模型在CIFAR-10上的準(zhǔn)確率比在Fashion-MNIST上有了明顯的提高,可能是由于CIFAR-10數(shù)據(jù)集是三通道的彩色圖像,圖片包含的信息量比較多,MFF-CapsNet網(wǎng)絡(luò)提取的三個(gè)特征信息較全面,既有淺層網(wǎng)絡(luò)提取到圖片的紋理、細(xì)節(jié)特征,也有深層網(wǎng)絡(luò)提取到的輪廓、形狀等特征,將不同的特征融合到一起,這樣使得提取到的特征更加全面,對(duì)于分類更加有幫助.

表1 實(shí)驗(yàn)結(jié)果對(duì)比

圖5是MFF-CapsNet在數(shù)據(jù)集CIFAR-10上的模型訓(xùn)練圖.訓(xùn)練準(zhǔn)確率達(dá)94.31%,測試準(zhǔn)確率達(dá)87.21%,兩者相差不大,損失梯度比較平滑,說明模型的擬合效果較好.

圖5 網(wǎng)絡(luò)模型訓(xùn)練圖

圖6是CapsNet和MFF-CapsNet在數(shù)據(jù)集Fashion-MNIST上的損失下降圖.從圖6可以看出,隨著迭代次數(shù)的增加,兩個(gè)網(wǎng)絡(luò)的損失下降,最終穩(wěn)定下來.MFF-CapsNet網(wǎng)絡(luò)相比較CapsNet網(wǎng)絡(luò)損失下降多,說明MFF-CapsNet效果好.

圖6 CapsNet和MFF-CapsNet在Fashion-MNIST上的損失圖

雖然模型MFF-CapsNet在CIFAR-10數(shù)據(jù)集上分類精度有了大幅度的提升,但是和卷積神經(jīng)網(wǎng)絡(luò)相比還是有差距.同時(shí),膠囊網(wǎng)絡(luò)中的膠囊部分還有許多的改進(jìn)之處.比如說對(duì)不同類別的膠囊維度使用不同維度,對(duì)壓縮函數(shù)進(jìn)行改進(jìn),使其能夠?qū)δiL接近于0的膠囊進(jìn)行放大,從而提取到更多的信息,優(yōu)化動(dòng)態(tài)路由機(jī)制等等.

3 結(jié) 語

本文提出了一種改進(jìn)的膠囊網(wǎng)絡(luò),使用8個(gè)殘差塊代替了原始膠囊網(wǎng)絡(luò)中的卷積層,從而提取到圖片中更深層的語義和特征信息.同時(shí)將殘差網(wǎng)絡(luò)提取到的淺層、中層和深層特征融合,使得圖片的信息得到充分的利用.將解碼器部分使用反卷層代替,降低模型的重構(gòu)誤差,提高模型的分類精度.該結(jié)構(gòu)的有效性在后面的實(shí)驗(yàn)中得到了體現(xiàn),在數(shù)據(jù)集Fashion-MNIST和CIFAR-10上準(zhǔn)確率達(dá)到94.20%和87.21%,同時(shí)相比較其他模型,參數(shù)量大幅減少.下一步我們將進(jìn)一步的優(yōu)化膠囊部分,使其在復(fù)雜數(shù)據(jù)集上的錯(cuò)誤率進(jìn)一步降低.

猜你喜歡
深層殘差膠囊
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
時(shí)光膠囊
深層攪拌樁在水利工程地基處理中的應(yīng)用分析
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
時(shí)光膠囊
哈貝馬斯科學(xué)技術(shù)批判的深層邏輯
考慮各向異性滲流的重力壩深層抗滑穩(wěn)定分析
基于深度卷積的殘差三生網(wǎng)絡(luò)研究與應(yīng)用
打破作風(fēng)建設(shè)周期律的深層思考
安远县| 察隅县| 比如县| 博湖县| 佛冈县| 双辽市| 安塞县| 许昌县| 吴忠市| 无为县| 汝城县| 盐津县| 浦县| 林口县| 嘉鱼县| 县级市| 灵寿县| 九台市| 邹平县| 仪征市| 手游| 铜川市| 和硕县| 和田县| 合山市| 肥城市| 太仆寺旗| 武乡县| 延川县| 固镇县| 兴仁县| 永修县| 临夏县| 克山县| 瓮安县| 民丰县| 临海市| 屏南县| 肥城市| 当阳市| 阜阳市|