基于膠囊網(wǎng)絡(luò)在復(fù)雜場景下的行人識別

2021-03-08 00:24程換新劉文翰郭占廣張志浩

計算機(jī)技術(shù)與發(fā)展 2021年2期

程換新，劉文翰，郭占廣，張志浩

(青島科技大學(xué) 自動化與電子工程學(xué)院，山東青島 266061)

0 引言

隨著國家的各項城市工程建設(shè)，視頻監(jiān)控攝像頭的數(shù)量也在不斷增長，隨之帶來的就是視頻信息的大數(shù)據(jù)化。因此，現(xiàn)如今開發(fā)視頻數(shù)據(jù)中的重要價值越來越受到人們的重視。比如公安部門可以通過視頻信息實(shí)現(xiàn)對目標(biāo)人物的跟蹤、搜尋，亦可用來分析行人的種種行為是否存在異常[1]，這無疑是保障社會安全的又一有力手段。

“深度學(xué)習(xí)”這一概念是在2006年被提出的，在這短短的十幾年間已經(jīng)發(fā)展出了大量算法，但是將深度學(xué)習(xí)這一技術(shù)實(shí)際應(yīng)用于圖片分析依然以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為主。然而因為卷積神經(jīng)網(wǎng)絡(luò)的一些結(jié)構(gòu)缺陷，例如無法充分地表明下層各對象之間的空間關(guān)系，而且在池化的過程中會將一些位置信息丟失[2]，這使得卷積神經(jīng)網(wǎng)絡(luò)在某些場景下的圖片識別并不能達(dá)到令人滿意的效果。

膠囊(capsule)[3]的概念是由Sabour S等人首次提出的，他們在文中創(chuàng)建了一個結(jié)構(gòu)簡單的三層膠囊網(wǎng)絡(luò)(capsule network)，并且利用該網(wǎng)絡(luò)實(shí)現(xiàn)對Mnist手寫數(shù)字識別，識別的準(zhǔn)確率達(dá)到了97.5%，直接超越了LeNet-5模型[4]。Hinton等人在2018年發(fā)表的論文中對膠囊網(wǎng)絡(luò)中的動態(tài)路由迭代算法進(jìn)行了介紹，并提出了一種新的EM路由算法，對膠囊網(wǎng)絡(luò)核心路由算法進(jìn)行改進(jìn)[5]。改進(jìn)的膠囊網(wǎng)絡(luò)通過使用動態(tài)路由算法替代了CNN的池化操作[6-7]，從而使得特征損失有所減小，能夠在一定程度上提高圖像識別的準(zhǔn)確率。但是在目前復(fù)雜環(huán)境的應(yīng)用場景下的識別研究還是少數(shù)。該文在原有Hinton提出的膠囊網(wǎng)絡(luò)的基礎(chǔ)上，對網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行一定的改進(jìn)，提出了基于改進(jìn)膠囊網(wǎng)絡(luò)的行人識別算法PRM-ICN。并使用三個公開通用的數(shù)據(jù)集CUHK01[8]、CUHK03[9]和Market-1501[10]對該模型進(jìn)行訓(xùn)練及驗證。

1 改進(jìn)膠囊網(wǎng)絡(luò)模型

經(jīng)過改進(jìn)后的膠囊網(wǎng)絡(luò)模型如圖1所示，共包含三層卷積層，一層多維Primary Capsule Layer，一層Intermediate Capsule Layer以及一層Advanced Capsule Layer。

圖1 改進(jìn)的膠囊網(wǎng)絡(luò)模型結(jié)構(gòu)

1.1 增加卷積層

在復(fù)雜場景下的圖片所包含的信息量是巨大的，然而在圖片中存在著過多的干擾信息。為了能夠減少無用信息的干擾，充分聯(lián)系圖片中各特征的關(guān)系，并且可以在進(jìn)入Primary Capsule Layer之前過濾一部分噪聲。該網(wǎng)絡(luò)在Conv 1層之后又額外增加了兩層卷積層Conv 2和Conv 3，從而可以減少復(fù)雜背景中多余信息對網(wǎng)絡(luò)產(chǎn)生的干擾。

1.2 膠囊維度擴(kuò)展

經(jīng)過三層的卷積網(wǎng)絡(luò)后，輸入圖片的大量有用特征被提取，經(jīng)過Primary Capsule Layer和Intermediate Capsule Layer對信息進(jìn)行處理后將其壓縮至膠囊中。該網(wǎng)絡(luò)中的典型結(jié)構(gòu)是膠囊結(jié)構(gòu)，膠囊是存儲信息的單元，膠囊結(jié)構(gòu)的維度越大，就有充足的存儲單元對網(wǎng)絡(luò)中的有效信息進(jìn)行保存。因此，在該網(wǎng)絡(luò)將其維度擴(kuò)展至16D。

1.3 Intermediate Capsule Layer

在膠囊層的內(nèi)部，底層的特征膠囊利用姿態(tài)關(guān)系來對高層特征進(jìn)行預(yù)測，之后利用動態(tài)路由算法以及篩分決策機(jī)制對高層膠囊進(jìn)行選擇性的激活，這就等同于篩選出了部分低層膠囊網(wǎng)絡(luò)的預(yù)測結(jié)果，并且使高層膠囊選擇性激活。

經(jīng)過上述的改動之后，該網(wǎng)絡(luò)的運(yùn)行情況如下：

Conv 1：先將輸入的彩色圖片用256個5×5大小的卷積核進(jìn)行卷積操作，其卷積步長為1。并且在卷積操作過程中使用ReLu激活函數(shù)。

Conv 2：對Conv 1經(jīng)過卷積得到的初步特征使用512個5×5的卷積核進(jìn)行卷積操作，其卷積步長為1，進(jìn)而得到Conv 2層的輸出結(jié)果。

Conv 3：進(jìn)一步地將Conv 2層卷積得到的特征進(jìn)行卷積操作，使用512個5×5大小的卷積核。

Primary Capsule Layer：對Conv 3層的輸出結(jié)果進(jìn)行向量化操作。采用16組不同的卷積核，而每一組卷積核中又包含64個不同的15×15的卷積核，卷積的步長設(shè)置為1，該卷積操作的激活函數(shù)使用ReLu。經(jīng)過該步操作后，得到低級特征Ui，該特征為1×16的向量。其過程如圖2所示。

圖2 Primary Capsule Layer結(jié)構(gòu)

Intermediate Capsule Layer：通過上一層得所到的低級特征Ui以及各膠囊層之間的姿態(tài)關(guān)系Wij來對高級特征Uj|i進(jìn)行預(yù)測。即Uj|i=Ui·Wij。

Advanced Capsule Layer：利用得到的底層特征對高層特征進(jìn)行預(yù)測，并利用動態(tài)路由算法以及篩分決策機(jī)制對高層特征膠囊進(jìn)行選擇性激活，最終實(shí)現(xiàn)分類功能。

2 關(guān)鍵算法

2.1 向量神經(jīng)元

在膠囊網(wǎng)絡(luò)中，每個膠囊包含著眾多神經(jīng)元，每一個神經(jīng)元存儲了從圖片中獲取的特征。與CNN不同，在膠囊網(wǎng)絡(luò)中采用向量神經(jīng)元而非標(biāo)量神經(jīng)元，這就使得神經(jīng)元可以表達(dá)的信息更豐富，從而能夠提高網(wǎng)絡(luò)的識別率。每一個向量神經(jīng)元都有其自身的屬性，各種各樣的實(shí)例化參數(shù)都可以包含于其屬性當(dāng)中，比如姿態(tài)、變形、速度等。除此之外，膠囊還存在一個特殊屬性，該屬性描述的是圖像中某一類別實(shí)例的存在與否。該屬性的值為概率，其大小又取決于該向量神經(jīng)元的模長，模長越大則概率越大，反之亦然。向量神經(jīng)元通過Squash()函數(shù)進(jìn)行激活，該函數(shù)能夠?qū)υ撓蛄康拈L度進(jìn)行放大或縮小，而向量的長度又代表某一時間發(fā)生的可能性。經(jīng)過該函數(shù)的激活后，能夠?qū)⑻卣黠@著的向量進(jìn)行放大，將特征不夠明顯的向量進(jìn)行縮小，從而提高識別率。

2.2 姿態(tài)關(guān)系轉(zhuǎn)換

膠囊層中物體各部分之間的分層姿態(tài)關(guān)系通過姿態(tài)矩陣表現(xiàn)出來[11-12]。為了正確地識別物體，首先應(yīng)當(dāng)保持分層姿態(tài)關(guān)系。而姿態(tài)無非包括旋轉(zhuǎn)(rotation)、平移(translation)和縮放(scale)三種。若將某個物體姿態(tài)先逆時針旋轉(zhuǎn)60°，再將其向右平移3個單位，之后再縮放至原來的50%，那么可以通過以下矩陣連乘的方式得到。其中等式右邊前三個矩陣分別為R、T、S，而該三個矩陣相乘即為姿態(tài)矩陣M。

2.3 動態(tài)路由迭代算法

圖3 動態(tài)路由迭代算法

2.4 Squash函數(shù)

該函數(shù)能夠?qū)υ撓蛄康拈L度進(jìn)行放大或縮小，并且保證每個膠囊的長度都介于0到1之間。因此，每個事件發(fā)生的概率大小都可以使用每個膠囊的長度所替代，這就能提高大概率事件的可能性，而降低小概率事件的發(fā)生幾率，從而提高識別的準(zhǔn)確度。該函數(shù)的表達(dá)式為：

其中，Vi是該函數(shù)的輸出，也就是長度在0到1之間的一個向量；Sj是輸入該函數(shù)的一個膠囊，而該膠囊是經(jīng)過前述三層卷積運(yùn)算后的結(jié)果。對于等式右邊的第一項，該項的作用僅為放縮膠囊的長度，使得長度大的膠囊更長、長度小的膠囊進(jìn)一步縮小。對于等式右邊的第二項，該項的作用是保持原有的膠囊方向不變，也就是保持事件除概率外的各項特征不發(fā)生變化。

3 實(shí)驗與分析

為了驗證提出的基于膠囊網(wǎng)絡(luò)的復(fù)雜場景下行人識別模型(PRM-ICN)的性能，在三個流行的公開數(shù)據(jù)集CUHK01、CUHK03和Market-1501上進(jìn)行了實(shí)驗，實(shí)驗的結(jié)果及分析見下文。

3.1 實(shí)驗設(shè)置

在本次實(shí)驗中，整個網(wǎng)絡(luò)的實(shí)現(xiàn)是在TensorFlow框架下完成的，編程語言使用的是Python，GPU型號為GTX 1080Ti。對于實(shí)驗結(jié)果的評價，采用常用的兩個指標(biāo)，即累計匹配曲線(cumulative match curve，CMC)和平均精度均值(Mmean average precision，MAP)。在行人識別領(lǐng)域中，一個必不可少的對模型的重要評價指標(biāo)就是CMC曲線，該指標(biāo)能夠充分反映分類器的性能。MAP曲線即為平均AP值，是對多次查詢結(jié)果求平均AP值。

此外，為了驗證本網(wǎng)絡(luò)的有效性，還與另外兩個在該領(lǐng)域性能不錯的模型進(jìn)行了對比，這兩個模型分別為基于AlexNet的行人識別方法(PRM-AlexNet)[14]和基于VGG-16的行人識別方法(PRM-VGG-16)[15]。其中AlexNet包含5個激活函數(shù)為ReLu的卷積層和3層全連接層。VGG-16網(wǎng)絡(luò)包含13個激活函數(shù)為ReLu的卷積層和3層全連接層。

3.2 數(shù)據(jù)集

本實(shí)驗采用了三個公開通用的數(shù)據(jù)集CUHK01、CUHK03和Market-1501對該模型進(jìn)行訓(xùn)練及驗證。數(shù)據(jù)集CUHK01中包括971人，其中每人都有包含正面、背面以及兩側(cè)的四張圖片，在實(shí)驗中選取前750人作為訓(xùn)練集，剩余作為測試集；數(shù)據(jù)集CUHK03包含13 164張行人圖片，涵蓋了1 360個人，在實(shí)驗中選取前1 100人作為訓(xùn)練集，剩余作為測試集；數(shù)據(jù)集Market-1501包括1 501個行人共32 668張圖片，在本次實(shí)驗中選取前1 300個人的圖片作為訓(xùn)練集，剩余作為測試集。數(shù)據(jù)集中的部分圖片如圖4所示。

圖4 數(shù)據(jù)集中的部分圖片

3.3 實(shí)驗結(jié)果分析

在三個數(shù)據(jù)集上的實(shí)驗結(jié)果如表1所示。從表中可以看出，因為CUHK01中的圖片數(shù)據(jù)相對較少，而PRM-AlexNet和PRM-VGG-16網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜超參數(shù)也較多，使得在訓(xùn)練過程中極容易發(fā)生過擬合的現(xiàn)象，很難利用到其深層網(wǎng)絡(luò)的作用，從而導(dǎo)致兩者的CMC較低。在三個數(shù)據(jù)集上，提出的基于膠囊網(wǎng)絡(luò)的行人識別模型的CMC曲線值均高于上述兩種方法。

表1 不同方法的CMC比較

該文創(chuàng)建的模型PRM-ICN在三個數(shù)據(jù)集上的MAP值如圖5所示。從圖中可以看出，在三個數(shù)據(jù)集下，所提模型在MAP值上的表現(xiàn)都優(yōu)于其他兩種網(wǎng)絡(luò)。在CUHK01數(shù)據(jù)集上，所提模型較其他兩種方法的MAP值分別提高了0.18和0.16；在CUHK03數(shù)據(jù)集上，所提模型較其他兩種方法的MAP值分別提高了0.22和0.20；在Market-1501數(shù)據(jù)集上，所提模型較其他兩種方法的MAP值分別提高了0.17和0.10。

圖5 不同模型的MAP值

通過上述實(shí)驗表明，提出的基于膠囊網(wǎng)絡(luò)的復(fù)雜場景下行人識別模型的性能較好。因為其在對不同姿態(tài)和空間關(guān)系的識別對象進(jìn)行處理時，可以通過姿態(tài)轉(zhuǎn)換來對圖像進(jìn)行變換，提高了識別準(zhǔn)確率。

4 結(jié)束語

針對復(fù)雜場景下行人識別難度大的問題，為了讓膠囊網(wǎng)絡(luò)能夠在復(fù)雜場景下對行人圖像進(jìn)行更高準(zhǔn)確度的識別，在原始的膠囊網(wǎng)絡(luò)基礎(chǔ)之上對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了優(yōu)化，使之提高了在處理復(fù)雜場景中消除無用信息的能力，提出了基于改進(jìn)膠囊網(wǎng)絡(luò)的行人識別模型，并與在該領(lǐng)域識別效果不錯的模型PRM-AlexNet和PRM-VGG-16進(jìn)行了對比。所提出的模型在CMC曲線及MAP值上都優(yōu)于前兩者。但是該模型的識別率還未達(dá)到預(yù)期，并且還存在一定的局限性，比如并未詳細(xì)考量光線變化較大的情況。未來會將更多的環(huán)境因素考慮在內(nèi)，不斷地修改網(wǎng)絡(luò)結(jié)構(gòu)、完善模型，使之識別準(zhǔn)確率進(jìn)一步提高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡