程換新,劉文翰,郭占廣,張志浩
(青島科技大學(xué) 自動化與電子工程學(xué)院,山東 青島 266061)
隨著國家的各項城市工程建設(shè),視頻監(jiān)控攝像頭的數(shù)量也在不斷增長,隨之帶來的就是視頻信息的大數(shù)據(jù)化。因此,現(xiàn)如今開發(fā)視頻數(shù)據(jù)中的重要價值越來越受到人們的重視。比如公安部門可以通過視頻信息實(shí)現(xiàn)對目標(biāo)人物的跟蹤、搜尋,亦可用來分析行人的種種行為是否存在異常[1],這無疑是保障社會安全的又一有力手段。
“深度學(xué)習(xí)”這一概念是在2006年被提出的,在這短短的十幾年間已經(jīng)發(fā)展出了大量算法,但是將深度學(xué)習(xí)這一技術(shù)實(shí)際應(yīng)用于圖片分析依然以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為主。然而因為卷積神經(jīng)網(wǎng)絡(luò)的一些結(jié)構(gòu)缺陷,例如無法充分地表明下層各對象之間的空間關(guān)系,而且在池化的過程中會將一些位置信息丟失[2],這使得卷積神經(jīng)網(wǎng)絡(luò)在某些場景下的圖片識別并不能達(dá)到令人滿意的效果。
膠囊(capsule)[3]的概念是由Sabour S等人首次提出的,他們在文中創(chuàng)建了一個結(jié)構(gòu)簡單的三層膠囊網(wǎng)絡(luò)(capsule network),并且利用該網(wǎng)絡(luò)實(shí)現(xiàn)對Mnist手寫數(shù)字識別,識別的準(zhǔn)確率達(dá)到了97.5%,直接超越了LeNet-5模型[4]。Hinton等人在2018年發(fā)表的論文中對膠囊網(wǎng)絡(luò)中的動態(tài)路由迭代算法進(jìn)行了介紹,并提出了一種新的EM路由算法,對膠囊網(wǎng)絡(luò)核心路由算法進(jìn)行改進(jìn)[5]。改進(jìn)的膠囊網(wǎng)絡(luò)通過使用動態(tài)路由算法替代了CNN的池化操作[6-7],從而使得特征損失有所減小,能夠在一定程度上提高圖像識別的準(zhǔn)確率。但是在目前復(fù)雜環(huán)境的應(yīng)用場景下的識別研究還是少數(shù)。該文在原有Hinton提出的膠囊網(wǎng)絡(luò)的基礎(chǔ)上,對網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行一定的改進(jìn),提出了基于改進(jìn)膠囊網(wǎng)絡(luò)的行人識別算法PRM-ICN。并使用三個公開通用的數(shù)據(jù)集CUHK01[8]、CUHK03[9]和Market-1501[10]對該模型進(jìn)行訓(xùn)練及驗證。
經(jīng)過改進(jìn)后的膠囊網(wǎng)絡(luò)模型如圖1所示,共包含三層卷積層,一層多維Primary Capsule Layer,一層Intermediate Capsule Layer以及一層Advanced Capsule Layer。
圖1 改進(jìn)的膠囊網(wǎng)絡(luò)模型結(jié)構(gòu)
在復(fù)雜場景下的圖片所包含的信息量是巨大的,然而在圖片中存在著過多的干擾信息。為了能夠減少無用信息的干擾,充分聯(lián)系圖片中各特征的關(guān)系,并且可以在進(jìn)入Primary Capsule Layer之前過濾一部分噪聲。該網(wǎng)絡(luò)在Conv 1層之后又額外增加了兩層卷積層Conv 2和Conv 3,從而可以減少復(fù)雜背景中多余信息對網(wǎng)絡(luò)產(chǎn)生的干擾。
經(jīng)過三層的卷積網(wǎng)絡(luò)后,輸入圖片的大量有用特征被提取,經(jīng)過Primary Capsule Layer和Intermediate Capsule Layer對信息進(jìn)行處理后將其壓縮至膠囊中。該網(wǎng)絡(luò)中的典型結(jié)構(gòu)是膠囊結(jié)構(gòu),膠囊是存儲信息的單元,膠囊結(jié)構(gòu)的維度越大,就有充足的存儲單元對網(wǎng)絡(luò)中的有效信息進(jìn)行保存。因此,在該網(wǎng)絡(luò)將其維度擴(kuò)展至16D。
在膠囊層的內(nèi)部,底層的特征膠囊利用姿態(tài)關(guān)系來對高層特征進(jìn)行預(yù)測,之后利用動態(tài)路由算法以及篩分決策機(jī)制對高層膠囊進(jìn)行選擇性的激活,這就等同于篩選出了部分低層膠囊網(wǎng)絡(luò)的預(yù)測結(jié)果,并且使高層膠囊選擇性激活。
經(jīng)過上述的改動之后,該網(wǎng)絡(luò)的運(yùn)行情況如下:
Conv 1:先將輸入的彩色圖片用256個5×5大小的卷積核進(jìn)行卷積操作,其卷積步長為1。并且在卷積操作過程中使用ReLu激活函數(shù)。
Conv 2:對Conv 1經(jīng)過卷積得到的初步特征使用512個5×5的卷積核進(jìn)行卷積操作,其卷積步長為1,進(jìn)而得到Conv 2層的輸出結(jié)果。
Conv 3:進(jìn)一步地將Conv 2層卷積得到的特征進(jìn)行卷積操作,使用512個5×5大小的卷積核。
Primary Capsule Layer:對Conv 3層的輸出結(jié)果進(jìn)行向量化操作。采用16組不同的卷積核,而每一組卷積核中又包含64個不同的15×15的卷積核,卷積的步長設(shè)置為1,該卷積操作的激活函數(shù)使用ReLu。經(jīng)過該步操作后,得到低級特征Ui,該特征為1×16的向量。其過程如圖2所示。
圖2 Primary Capsule Layer結(jié)構(gòu)
Intermediate Capsule Layer:通過上一層得所到的低級特征Ui以及各膠囊層之間的姿態(tài)關(guān)系Wij來對高級特征Uj|i進(jìn)行預(yù)測。即Uj|i=Ui·Wij。
Advanced Capsule Layer:利用得到的底層特征對高層特征進(jìn)行預(yù)測,并利用動態(tài)路由算法以及篩分決策機(jī)制對高層特征膠囊進(jìn)行選擇性激活,最終實(shí)現(xiàn)分類功能。
在膠囊網(wǎng)絡(luò)中,每個膠囊包含著眾多神經(jīng)元,每一個神經(jīng)元存儲了從圖片中獲取的特征。與CNN不同,在膠囊網(wǎng)絡(luò)中采用向量神經(jīng)元而非標(biāo)量神經(jīng)元,這就使得神經(jīng)元可以表達(dá)的信息更豐富,從而能夠提高網(wǎng)絡(luò)的識別率。每一個向量神經(jīng)元都有其自身的屬性,各種各樣的實(shí)例化參數(shù)都可以包含于其屬性當(dāng)中,比如姿態(tài)、變形、速度等。除此之外,膠囊還存在一個特殊屬性,該屬性描述的是圖像中某一類別實(shí)例的存在與否。該屬性的值為概率,其大小又取決于該向量神經(jīng)元的模長,模長越大則概率越大,反之亦然。向量神經(jīng)元通過Squash()函數(shù)進(jìn)行激活,該函數(shù)能夠?qū)υ撓蛄康拈L度進(jìn)行放大或縮小,而向量的長度又代表某一時間發(fā)生的可能性。經(jīng)過該函數(shù)的激活后,能夠?qū)⑻卣黠@著的向量進(jìn)行放大,將特征不夠明顯的向量進(jìn)行縮小,從而提高識別率。
膠囊層中物體各部分之間的分層姿態(tài)關(guān)系通過姿態(tài)矩陣表現(xiàn)出來[11-12]。為了正確地識別物體,首先應(yīng)當(dāng)保持分層姿態(tài)關(guān)系。而姿態(tài)無非包括旋轉(zhuǎn)(rotation)、平移(translation)和縮放(scale)三種。若將某個物體姿態(tài)先逆時針旋轉(zhuǎn)60°,再將其向右平移3個單位,之后再縮放至原來的50%,那么可以通過以下矩陣連乘的方式得到。其中等式右邊前三個矩陣分別為R、T、S,而該三個矩陣相乘即為姿態(tài)矩陣M。
圖3 動態(tài)路由迭代算法
該函數(shù)能夠?qū)υ撓蛄康拈L度進(jìn)行放大或縮小,并且保證每個膠囊的長度都介于0到1之間。因此,每個事件發(fā)生的概率大小都可以使用每個膠囊的長度所替代,這就能提高大概率事件的可能性,而降低小概率事件的發(fā)生幾率,從而提高識別的準(zhǔn)確度。該函數(shù)的表達(dá)式為:
其中,Vi是該函數(shù)的輸出,也就是長度在0到1之間的一個向量;Sj是輸入該函數(shù)的一個膠囊,而該膠囊是經(jīng)過前述三層卷積運(yùn)算后的結(jié)果。對于等式右邊的第一項,該項的作用僅為放縮膠囊的長度,使得長度大的膠囊更長、長度小的膠囊進(jìn)一步縮小。對于等式右邊的第二項,該項的作用是保持原有的膠囊方向不變,也就是保持事件除概率外的各項特征不發(fā)生變化。
為了驗證提出的基于膠囊網(wǎng)絡(luò)的復(fù)雜場景下行人識別模型(PRM-ICN)的性能,在三個流行的公開數(shù)據(jù)集CUHK01、CUHK03和Market-1501上進(jìn)行了實(shí)驗,實(shí)驗的結(jié)果及分析見下文。
在本次實(shí)驗中,整個網(wǎng)絡(luò)的實(shí)現(xiàn)是在TensorFlow框架下完成的,編程語言使用的是Python,GPU型號為GTX 1080Ti。對于實(shí)驗結(jié)果的評價,采用常用的兩個指標(biāo),即累計匹配曲線(cumulative match curve,CMC)和平均精度均值(Mmean average precision,MAP)。在行人識別領(lǐng)域中,一個必不可少的對模型的重要評價指標(biāo)就是CMC曲線,該指標(biāo)能夠充分反映分類器的性能。MAP曲線即為平均AP值,是對多次查詢結(jié)果求平均AP值。
此外,為了驗證本網(wǎng)絡(luò)的有效性,還與另外兩個在該領(lǐng)域性能不錯的模型進(jìn)行了對比,這兩個模型分別為基于AlexNet的行人識別方法(PRM-AlexNet)[14]和基于VGG-16的行人識別方法(PRM-VGG-16)[15]。其中AlexNet包含5個激活函數(shù)為ReLu的卷積層和3層全連接層。VGG-16網(wǎng)絡(luò)包含13個激活函數(shù)為ReLu的卷積層和3層全連接層。
本實(shí)驗采用了三個公開通用的數(shù)據(jù)集CUHK01、CUHK03和Market-1501對該模型進(jìn)行訓(xùn)練及驗證。數(shù)據(jù)集CUHK01中包括971人,其中每人都有包含正面、背面以及兩側(cè)的四張圖片,在實(shí)驗中選取前750人作為訓(xùn)練集,剩余作為測試集;數(shù)據(jù)集CUHK03包含13 164張行人圖片,涵蓋了1 360個人,在實(shí)驗中選取前1 100人作為訓(xùn)練集,剩余作為測試集;數(shù)據(jù)集Market-1501包括1 501個行人共32 668張圖片,在本次實(shí)驗中選取前1 300個人的圖片作為訓(xùn)練集,剩余作為測試集。數(shù)據(jù)集中的部分圖片如圖4所示。
圖4 數(shù)據(jù)集中的部分圖片
在三個數(shù)據(jù)集上的實(shí)驗結(jié)果如表1所示。從表中可以看出,因為CUHK01中的圖片數(shù)據(jù)相對較少,而PRM-AlexNet和PRM-VGG-16網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜超參數(shù)也較多,使得在訓(xùn)練過程中極容易發(fā)生過擬合的現(xiàn)象,很難利用到其深層網(wǎng)絡(luò)的作用,從而導(dǎo)致兩者的CMC較低。在三個數(shù)據(jù)集上,提出的基于膠囊網(wǎng)絡(luò)的行人識別模型的CMC曲線值均高于上述兩種方法。
表1 不同方法的CMC比較
該文創(chuàng)建的模型PRM-ICN在三個數(shù)據(jù)集上的MAP值如圖5所示。從圖中可以看出,在三個數(shù)據(jù)集下,所提模型在MAP值上的表現(xiàn)都優(yōu)于其他兩種網(wǎng)絡(luò)。在CUHK01數(shù)據(jù)集上,所提模型較其他兩種方法的MAP值分別提高了0.18和0.16;在CUHK03數(shù)據(jù)集上,所提模型較其他兩種方法的MAP值分別提高了0.22和0.20;在Market-1501數(shù)據(jù)集上,所提模型較其他兩種方法的MAP值分別提高了0.17和0.10。
圖5 不同模型的MAP值
通過上述實(shí)驗表明,提出的基于膠囊網(wǎng)絡(luò)的復(fù)雜場景下行人識別模型的性能較好。因為其在對不同姿態(tài)和空間關(guān)系的識別對象進(jìn)行處理時,可以通過姿態(tài)轉(zhuǎn)換來對圖像進(jìn)行變換,提高了識別準(zhǔn)確率。
針對復(fù)雜場景下行人識別難度大的問題,為了讓膠囊網(wǎng)絡(luò)能夠在復(fù)雜場景下對行人圖像進(jìn)行更高準(zhǔn)確度的識別,在原始的膠囊網(wǎng)絡(luò)基礎(chǔ)之上對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了優(yōu)化,使之提高了在處理復(fù)雜場景中消除無用信息的能力,提出了基于改進(jìn)膠囊網(wǎng)絡(luò)的行人識別模型,并與在該領(lǐng)域識別效果不錯的模型PRM-AlexNet和PRM-VGG-16進(jìn)行了對比。所提出的模型在CMC曲線及MAP值上都優(yōu)于前兩者。但是該模型的識別率還未達(dá)到預(yù)期,并且還存在一定的局限性,比如并未詳細(xì)考量光線變化較大的情況。未來會將更多的環(huán)境因素考慮在內(nèi),不斷地修改網(wǎng)絡(luò)結(jié)構(gòu)、完善模型,使之識別準(zhǔn)確率進(jìn)一步提高。