国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種深度模型行人檢測(cè)方法

2016-12-21 09:24:45郭秋滟
實(shí)驗(yàn)室研究與探索 2016年8期
關(guān)鍵詞:行人分類器深度

郭秋滟, 李 欣

(1. 西昌學(xué)院 汽車與電子工程學(xué)院, 四川 西昌 615013; 2. 清華大學(xué) 深圳研究生院, 廣東 深圳 518055)

?

一種深度模型行人檢測(cè)方法

郭秋滟1, 李 欣2

(1. 西昌學(xué)院 汽車與電子工程學(xué)院, 四川 西昌 615013; 2. 清華大學(xué) 深圳研究生院, 廣東 深圳 518055)

提出一種新的深度模型,通過(guò)多個(gè)階段的后向傳播來(lái)聯(lián)合訓(xùn)練多階段分類器實(shí)現(xiàn)行人檢測(cè)。該模型可將分類器的得分圖輸出存儲(chǔ)在局部區(qū)域中,并將其作為上下文信息來(lái)支持下一階段的決策。通過(guò)設(shè)計(jì)具體的訓(xùn)練策略,深度模型可對(duì)硬性樣本進(jìn)行挖掘來(lái)分階段訓(xùn)練網(wǎng)絡(luò),進(jìn)而模擬串聯(lián)分類器。此外,每個(gè)分類器可在不同的難度水平上處理樣本,并通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練和專門安排的各階段有監(jiān)督訓(xùn)練來(lái)對(duì)優(yōu)化問(wèn)題正規(guī)化,提高了行人檢測(cè)的可靠性。理論分析表明該訓(xùn)練策略有助于避免過(guò)擬合。基于3個(gè)數(shù)據(jù)集(Caltech, ETH和TUD-Brussels)的實(shí)驗(yàn)結(jié)果也驗(yàn)證了該方法優(yōu)于當(dāng)前其他最新算法。

串聯(lián)式分類器; 行人檢測(cè); 深度模型; 上下文信息

0 引 言

行人檢測(cè)[1-2]是多種重要應(yīng)用領(lǐng)域基本的計(jì)算機(jī)視覺(jué)問(wèn)題之一。由于存在視角變化、姿態(tài)、光照、遮擋等各種挑戰(zhàn),行人檢測(cè)難度很大,只簡(jiǎn)單利用一種整體分類器難以有效實(shí)現(xiàn)行人檢測(cè)。例如,側(cè)面視角下行人視覺(jué)線索不同于正面視角下的視覺(jué)線索。單個(gè)檢測(cè)器難以有效同時(shí)捕獲兩個(gè)視覺(jué)線索。為了處理行人復(fù)雜的外觀變化,許多方法選擇一組分類器分階段做出行人和非行人決策[3]。不同分類器負(fù)責(zé)不同樣本。串聯(lián)式分類器往往采取序列訓(xùn)練策略。使用早先階段無(wú)法有效分類的硬性樣本來(lái)訓(xùn)練后續(xù)階段的分類器。

直觀來(lái)說(shuō),因?yàn)檫@些分類器通過(guò)緊密交互可以產(chǎn)生協(xié)同作用,所以我們希望對(duì)這些分類器進(jìn)行聯(lián)合優(yōu)化。此外,雖然早期分類器無(wú)法對(duì)硬性樣本做出最終決策,但是它們的輸出所提供的上下文信息可用于支持后續(xù)階段的決策。然而,由于參數(shù)太多,訓(xùn)練樣本相對(duì)較少,所以分類器容易出現(xiàn)訓(xùn)練數(shù)據(jù)過(guò)擬合問(wèn)題。為了對(duì)大量分類器參數(shù)進(jìn)行聯(lián)合訓(xùn)練,本文提出一種深度模型,既可對(duì)這些分類器進(jìn)行聯(lián)合學(xué)習(xí),又可防止訓(xùn)練過(guò)程同時(shí)出現(xiàn)過(guò)擬合問(wèn)題。

對(duì)行人檢測(cè)問(wèn)題已展開(kāi)了研究,如文獻(xiàn)[4]針對(duì)單幅圖像中的行人檢測(cè)問(wèn)題,提出了基于自適應(yīng)增強(qiáng)算法(Adaboost) 和支持向量機(jī)(SVM)的兩級(jí)檢測(cè)方法, 應(yīng)用粗細(xì)結(jié)合的思想有效提高檢測(cè)的精度。文獻(xiàn)[5] 提出了一種新的顏色自相似度特征(CSSF),在顏色通道上計(jì)算兩個(gè)選定的矩形塊的比值衡量自相似性。文獻(xiàn)[6]針對(duì)HOG特征檢測(cè)準(zhǔn)確率高、計(jì)算量大的特點(diǎn),通過(guò)對(duì)HOG特征的結(jié)構(gòu)進(jìn)行調(diào)整,提出了使用Fisher特征挑選準(zhǔn)則來(lái)挑選出有區(qū)別能力的行人特征塊,得到MultiHOG特征。文獻(xiàn)[7-20]提出多種特征來(lái)提升行人檢測(cè)性能。這些方法利用尺寸可變滑動(dòng)窗口來(lái)掃描圖片,進(jìn)而將行人檢測(cè)看成一種分類任務(wù)。人們已經(jīng)提出了多種生成性和區(qū)分性分類方法。生成性方法,如文獻(xiàn)[7-9],計(jì)算一個(gè)窗口圍住一位行人的概率。區(qū)分性分類器,比如文獻(xiàn)[10-13]中的boosting分類器和文獻(xiàn)[14-16]中的SVM,試圖通過(guò)參數(shù)來(lái)將陽(yáng)性和陰性樣本分開(kāi)。因?yàn)樾腥送庥^具有多樣性,所以多篇文獻(xiàn)利用了混合模型[17-19],混合模型通過(guò)有監(jiān)督或無(wú)監(jiān)督聚類來(lái)訓(xùn)練分類器。近期,深度模型已經(jīng)成功應(yīng)用于手寫(xiě)數(shù)字識(shí)別、對(duì)象分割、人臉識(shí)別和場(chǎng)景理解、對(duì)象檢測(cè)和識(shí)別領(lǐng)域。文獻(xiàn)[20-24]利用深度模型進(jìn)行多階段特征的無(wú)監(jiān)督學(xué)習(xí)。然而,他們沒(méi)有在每個(gè)階段添加額外的分類器,而且分類得分沒(méi)有在不同階段之間作為上下文信息進(jìn)行傳輸。因此,構(gòu)建了深度模型和多階段分類器間的聯(lián)系,進(jìn)而對(duì)串聯(lián)分類器進(jìn)行聯(lián)合優(yōu)化,有效地提高了行人檢測(cè)的可靠性,最后仿真實(shí)驗(yàn)結(jié)果也表明了該方法的優(yōu)越性。

1 深度模型架構(gòu)

1.1 特征準(zhǔn)備

(1)

圖1給出了31個(gè)箱子的區(qū)分性功率。丟棄了區(qū)分性最低的6個(gè)箱子。因此,利用每個(gè)區(qū)塊有25個(gè)維度的HOG特征來(lái)降低計(jì)算量。

圖1 31維HOG特征的區(qū)分性(DPk值見(jiàn)圖下)

為了利用局部區(qū)域中的上下文信息,本文深度模型采用11個(gè)金字塔3 × 3空間局部區(qū)域中的檢測(cè)得分。因?yàn)橐粋€(gè)行人窗口包含15 × 5 × 36特征,所以通過(guò)利用15 × 5 × 36過(guò)濾器來(lái)過(guò)濾局部17 × 7 × 36特征金字塔,可以獲得具體某一金字塔的3 × 3檢測(cè)得分。圖2給出了從3種窗口尺寸中構(gòu)建特征圖的一個(gè)示例。鑒于篇幅所限,我們這里只給出了11個(gè)金字塔中的3個(gè)金字塔。

圖2 規(guī)模不同的3個(gè)特征金字塔中構(gòu)建特征圖

1.2 基于深度學(xué)習(xí)架構(gòu)的推理

圖3給出了深度學(xué)習(xí)架構(gòu)。整個(gè)架構(gòu)基于圖2所示的特征圖。我們對(duì)同一特征圖f采用不同的過(guò)濾器Fi然后獲得不同的得分圖si。在該圖中,有2層隱藏層,采用了3個(gè)分類器。為了方便起見(jiàn),我們將輸入層得分圖s0看成是h0。

圖3 深度學(xué)習(xí)架構(gòu)

將這些節(jié)點(diǎn)連接起來(lái)的權(quán)重分為3種:①Fi+1表示第i層用于過(guò)濾特征圖及獲得得分圖si+1的分類器。②Wh,i表示將隱藏節(jié)點(diǎn)hi-1和hi連接起來(lái)的權(quán)重(轉(zhuǎn)移矩陣)。③Ws,i表示將得分圖si和隱藏節(jié)點(diǎn)hi連接起來(lái)的權(quán)重。因?yàn)檩斎雜0被看成是h0,所以h0和h1間的權(quán)重矩陣表示為Wh,1。

輸入特征圖f有11個(gè)金字塔,每個(gè)金字塔為17 × 7 × 36特征。該輸入可用于不同層訓(xùn)練的多個(gè)分類器中。在推理階段,分類器Fi+1可對(duì)特征圖f進(jìn)行過(guò)濾,并輸出得分圖si+1:

(2)

其中:?表示過(guò)濾操作。通過(guò)利用線性SVM訓(xùn)練而得的分類器F0過(guò)濾特征圖f,可獲得初始得分圖s0。F0固定,s0可用作上下文檢測(cè)得分信息。

利用式(2)求得得分圖si后,si和hi-1可與hi中的隱藏節(jié)點(diǎn)完全相連,于是有:

(3)

(4)

最后,窗口包含行人的概率為:

(5)

1.3 深度模型的分階段訓(xùn)練

算法1對(duì)訓(xùn)練步驟進(jìn)行了總結(jié)。算法包括兩步。首先通過(guò)去除所有層中的追加分類器來(lái)訓(xùn)練深度模型,以便到達(dá)優(yōu)質(zhì)初始化點(diǎn)。對(duì)經(jīng)過(guò)簡(jiǎn)化的上述模型進(jìn)行訓(xùn)練可避免過(guò)擬合。然后,挨個(gè)增加每一層上的分類器。在每個(gè)階段t,對(duì)直到第t層的所有當(dāng)前分類器進(jìn)行聯(lián)合優(yōu)化。每一輪優(yōu)化可在先前訓(xùn)練階段到達(dá)的優(yōu)質(zhì)初始點(diǎn)周圍發(fā)現(xiàn)一個(gè)更優(yōu)局部最小值。

步驟1.1(算法1中的第1和2行):采用文獻(xiàn)[25]中的逐層無(wú)監(jiān)督預(yù)訓(xùn)練方法來(lái)訓(xùn)練連環(huán)隱藏轉(zhuǎn)移矩陣Wh,i+1。在該步驟中,設(shè)置Ws,i+1=0,F(xiàn)i+1=0且i=0,…,L。

步驟1.2(算法1第3行):BP用于微調(diào)所有Wh,i+1,其中Ws,i+1=0,且Fi+1=0。

步驟2.1(算法1第4行):對(duì)過(guò)濾器Fi+1(i=0,…,L)進(jìn)行隨機(jī)初始化,以便搜索出下一步中的區(qū)分性信息。

步驟2.2(算法1中的第5~7行):通過(guò)BP后向傳播逐步對(duì)串聯(lián)過(guò)濾器Fi+1(i=0,…,L)進(jìn)行訓(xùn)練。在階段t,對(duì)直到第t層的分類器Fi+1和權(quán)重Ws,i+1(?i≤t)進(jìn)行聯(lián)合更新。

算法1:分階段訓(xùn)練。

線性SVM濾波器:W0

隱藏層數(shù)量:L

輸出:轉(zhuǎn)移矩陣:Wh,i+1,Ws,i+1

新濾波器:Fi+1,i=0,…,L

將Ws,i+1和Fi+1中的元素設(shè)置為0;

對(duì)所有轉(zhuǎn)移矩陣Wh,i+1進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練;

通過(guò)BP來(lái)微調(diào)所有轉(zhuǎn)移矩陣Wh,i+1,同時(shí)保持Ws,i+1和Fi+1為0;

對(duì)Fi+1隨機(jī)初始化;

fort=0 toLdo

利用BP來(lái)更新第0層至第t層間的參數(shù),即Fi+1,Wh,i+1,Ws,i+1,0≤i≤t;

end

輸出Wh,i+1,Ws,i+1,Fi+1,i=0,…,L

1.4 理論分析

1.4.1 步驟1的分析

因?yàn)閃s,i設(shè)為0,故步驟1可看成是利用輸入s0、隱藏節(jié)點(diǎn)hi和標(biāo)識(shí)y對(duì)深度置信網(wǎng)絡(luò)(DBN)[25]進(jìn)行訓(xùn)練。步驟1.1用于進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,步驟1.2用于微調(diào)。在該步驟中,DBN網(wǎng)絡(luò)利用線性SVM獲得的上下文得分圖作為輸入來(lái)訓(xùn)練樣本。該DBN網(wǎng)絡(luò)可對(duì)大部分樣本進(jìn)行正確分類。

1.4.2 步驟2的分析

步驟2訓(xùn)練策略的屬性描述如下:

(6)

(7)

將第n個(gè)訓(xùn)練樣本表示為xn。將其標(biāo)簽估計(jì)表示為yn,其真實(shí)標(biāo)簽表示為ln。算法1中的步驟2.2對(duì)式(7)中的參數(shù)Θi進(jìn)行訓(xùn)練。在循環(huán)t開(kāi)始時(shí),Ws,i+1=0。如果yn=ln,即訓(xùn)練樣本已經(jīng)被正確分類,則對(duì)樣本xn來(lái)說(shuō)式(7)中的dθi,j為0。因此,先前階段被正確分類的樣本不會(huì)影響參數(shù)更新。對(duì)于被錯(cuò)誤分類的樣本,估計(jì)誤差越大,dθi,j的值越大。參數(shù)更新主要取決于被錯(cuò)誤分類的樣本的影響。因此,在訓(xùn)練策略下,每個(gè)階段引入一個(gè)新的分類器來(lái)幫助處理被錯(cuò)誤分類的樣本,而正確分類的樣本不會(huì)對(duì)新的分類器產(chǎn)生影響。這就是本文多階段訓(xùn)練的核心思想。

(2) 在步驟2.2第t階段對(duì)t+1個(gè)分類器(即i=0,…,t時(shí)它們的參數(shù)Θi)進(jìn)行聯(lián)合優(yōu)化,以便這些分類器可更好地互相之間展開(kāi)協(xié)作。

(3) 深度模型可保留特征的上下文信息及檢測(cè)得分。卷積分類器Fi利用上下文特征(用金字塔覆蓋行人周圍較大區(qū)域的特征),以獲得得分圖。得分圖是第2層上下文信息,我們將得分在局部區(qū)域的分布傳輸給下個(gè)隱藏層。不同層中的得分圖聯(lián)合處理分類任務(wù)。傳統(tǒng)的串聯(lián)分類器往往丟失這些信息。如果檢測(cè)窗口在早先串聯(lián)階段被否決,則其特征和檢測(cè)得分無(wú)法用于下一階段。

(4) 整個(gè)訓(xùn)練階段有助于避免過(guò)擬合。首先采取非監(jiān)督方式對(duì)轉(zhuǎn)移矩陣Wh,i進(jìn)行預(yù)訓(xùn)練,這可提高泛化能力。有監(jiān)督分階段訓(xùn)練可認(rèn)為是向參數(shù)施加正規(guī)化約束,即在早期訓(xùn)練策略中要求部分參數(shù)為0。在每個(gè)階段,利用先前訓(xùn)練策略到達(dá)的優(yōu)質(zhì)點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)初始化,追加的濾波器對(duì)被錯(cuò)分的硬性樣本進(jìn)行處理。在先前訓(xùn)練策略中有必要設(shè)置Ws,t+1=0且Ft+1=0;否則,它將成為標(biāo)準(zhǔn)的BP。在標(biāo)準(zhǔn)的BP中,即使是簡(jiǎn)單的訓(xùn)練樣本也可能對(duì)各個(gè)分類器造成影響。不會(huì)根據(jù)它們的難度水平將訓(xùn)練樣本分配給不同的分類器。整個(gè)模型的參數(shù)空間很大,很容易進(jìn)行過(guò)擬合。

2 仿真實(shí)驗(yàn)

在訓(xùn)練和測(cè)試階段,利用HOG和CSS特征及一個(gè)線性SVM分類器來(lái)生成得分圖作為底層的輸入。利用一個(gè)保守閾值來(lái)修剪樣本,降低計(jì)算量。在3×3窗口中生成每一層的得分圖,將11個(gè)金字塔與對(duì)齊后的最大得分圖進(jìn)行融合,作為得分圖中心。與文獻(xiàn)[14]類似,我們利用對(duì)數(shù)平均丟失率來(lái)衡量總體性能,其中對(duì)數(shù)平均丟失率表示范圍在10-2~100且在對(duì)數(shù)空間均衡分布的9個(gè)FPPI率的均值,并利用文獻(xiàn)[14]中的評(píng)估代碼繪出丟失率和每幅圖像的錯(cuò)判量(FPPI)之間的關(guān)系。

2.1 總體性能

在如下3個(gè)公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):Caltech數(shù)據(jù)集、ETHZ數(shù)據(jù)集及TUD-Brussels 數(shù)據(jù)集。我們只關(guān)注合適的子集,即含有50像素或更高、未遮擋或部分遮擋的行人圖像。深度模型(ContDeepNet)行人檢測(cè)方法與目前較為典型的行人檢測(cè)算法做比較:VJ[21], Shapelet[18], PoseInv[14], ConvNet-U-MS[20],FtrMine[11], HikSvm[15], HOG[7], MultiFtr[24], Pls[19],HogLbp[23], LatSvm-V1[12],LatSvm-V2[13],MultiFtr+CSS[22],FPDW[11],ChnFtrs[10],DN-HOG[16],MultiFr+Motion[22],MultiResC[17],CrossTalk[9], Contextual Boost[8]。

2.1.1 Caltech數(shù)據(jù)集的性能比較

使用Caltech訓(xùn)練數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),并用Caltech測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試。圖4給出了實(shí)驗(yàn)結(jié)果。被比較算法已經(jīng)采用了多種特征,比如Haar-like特征、形狀子特征( shapelet )、HOG、LBP和CSS。其中,文獻(xiàn)[8,13]采用基于部位的模型、文獻(xiàn)[7,23]采用線性SVM、文獻(xiàn)[15]采用內(nèi)核SVM、文獻(xiàn)[8,9,10,21]采用串聯(lián)分類器、文獻(xiàn)[16,20]采用深度模型、文獻(xiàn)[12]中的MultiResC和文獻(xiàn)[8]中的上下文增強(qiáng)(Contextual-Boost)算法與本文類似,采用HOG+CSS作為特征。上下文增強(qiáng)(Contextual-Boost)算法雖然采用串聯(lián)分類器,但是沒(méi)有對(duì)分類器進(jìn)行聯(lián)合優(yōu)化,它們的對(duì)數(shù)平均丟失率為48%。所有現(xiàn)有算法中,這兩種算法的對(duì)數(shù)平均丟失率最低。與MultiResC和上下文增強(qiáng)(Contextual-Boost)算法相比,ContDeepNet算法的對(duì)數(shù)平均丟失率下降到45%,性能提升了3%。

圖4 Caltech測(cè)試數(shù)據(jù)集的性能比較

2.1.2 ETHZ數(shù)據(jù)集的性能比較

圖5給出了對(duì)ETHZ行人數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。與大多數(shù)算法利用INRIA訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練并利用ETHZ數(shù)據(jù)集進(jìn)行測(cè)試類似,深度模型也利用INIRA訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練。ConvNet-U-MS表示文獻(xiàn)[20]中給出的卷積網(wǎng)絡(luò)模型運(yùn)行結(jié)果。ConvNet-U-MS是當(dāng)前所有算法中對(duì)數(shù)平均丟失率最低的算法,但是與ConvNet-U-MS相比,ContDeepNet方法的對(duì)數(shù)平均丟失率為48%,性能提升了2%。ConvNet-U-MS利用一種深度模型來(lái)學(xué)習(xí)低層次特征,但是它既沒(méi)有利用上下文得分,也沒(méi)有利用多階段分類器。

圖5 ETHZ數(shù)據(jù)集的性能比較

2.1.3 TUD-Brussels數(shù)據(jù)集的性能比較

圖6給出了TUD-Brussels行人數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。利用INRIA訓(xùn)練數(shù)據(jù)集進(jìn)行模型訓(xùn)練。本文算法的對(duì)數(shù)平均丟失率為63%。有部分算法的性能優(yōu)于本文算法。這些算法利用的特征更多。性能最優(yōu)的MultiFtr+Motion[22]算法利用了運(yùn)動(dòng)特征。

圖6 TUD數(shù)據(jù)集的性能比較

2.2 架構(gòu)比較

采用不同架構(gòu)時(shí)的實(shí)驗(yàn)結(jié)果,比較兩種3層深度網(wǎng)絡(luò)的性能。第1個(gè)網(wǎng)絡(luò)表示為DeepNetNoFilter,未額外采用分類器。第2種網(wǎng)絡(luò)即為本文采用了3個(gè)額外分類器的ContDeepNet網(wǎng)絡(luò)。兩種網(wǎng)絡(luò)在其他方面均相同,利用Caltech訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,利用Caltech測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試。如圖7所示,當(dāng)包含額外分類器時(shí),對(duì)數(shù)平均丟失率下降了6%。

圖8給出了被ContDeepNet正確分類但是被DeepNetNoFilter錯(cuò)誤分類的檢測(cè)樣本。這些樣本是從兩種算法300個(gè)檢測(cè)樣本中選擇出來(lái)的檢測(cè)得分最高的樣本。追加的分類器有助于本文深度模型處理硬性樣本。例如,公交燈、輪胎和樹(shù)干的虛警現(xiàn)象被正確排除,側(cè)視、模糊、被遮擋的行人和行進(jìn)中的自行車的漏警現(xiàn)象被正確檢測(cè)出來(lái)。

圖7 不同深度架構(gòu)對(duì)Caltech測(cè)試數(shù)據(jù)集的性能比較

圖8 被DeepNet-NoFilter錯(cuò)誤分類但被ContDeepNet正確分類的檢測(cè)結(jié)果

2.3 訓(xùn)練策略的比較

在架構(gòu)與ContDeepNet相同、但訓(xùn)練策略不同的條件下展開(kāi)一組實(shí)驗(yàn)。其中,BP表示整個(gè)網(wǎng)絡(luò)只利用BP策略進(jìn)行訓(xùn)練,不經(jīng)逐層預(yù)訓(xùn)練對(duì)所有參數(shù)隨機(jī)初始化,然后通過(guò)后向傳播來(lái)對(duì)所有轉(zhuǎn)移矩陣和過(guò)濾器進(jìn)行同步更新。PretrainTransferMatrix-BP算法采用文獻(xiàn)[26]中的方法對(duì)所有轉(zhuǎn)移矩陣進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,然后通過(guò)BP方法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)。Multi-stage表示本文所提訓(xùn)練策略,它采用逐階段BP策略而不是標(biāo)準(zhǔn)BP策略來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)。圖9的實(shí)驗(yàn)結(jié)果證明了本文訓(xùn)練策略的有效性。

圖9 架構(gòu)與ContDeep-Net相同但訓(xùn)練策略不同時(shí)對(duì)Caltech測(cè)試數(shù)據(jù)集的運(yùn)行結(jié)果

3 結(jié) 語(yǔ)

提出了一種新的多階段上下文深度模型,并針對(duì)行人檢測(cè)設(shè)計(jì)了專門的訓(xùn)練策略。該模型可對(duì)串聯(lián)分類器進(jìn)行模擬。來(lái)自特征圖和得分圖的金字塔上下文信息可在串聯(lián)分類器中傳播。通過(guò)多階段后向傳播,對(duì)深度模型中的所有分類器進(jìn)行聯(lián)合訓(xùn)練。通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練和專門設(shè)計(jì)的多階段有監(jiān)督訓(xùn)練策略,避免過(guò)擬合,有效提高了行人檢測(cè)的準(zhǔn)確性。下一步工作重點(diǎn)是對(duì)復(fù)雜背景下人體動(dòng)作識(shí)別進(jìn)行研究,提出一種基于定位的人體聯(lián)合姿態(tài)跟蹤和動(dòng)作識(shí)別算法。

[1] 蘇松志, 李紹滋, 陳淑媛, 等. 行人檢測(cè)技術(shù)綜述[J]. 電子學(xué)報(bào), 2012, 40(4): 814-820.

[2] 陳 銳, 彭啟民. 基于穩(wěn)定區(qū)域梯度方向直方圖的行人檢測(cè)方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2012, 24(3): 372-377.

[3] Benenson R, Mathias M, Timofte R,etal. Pedestrian detection at 100 frames per second[C]∥Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 2903-2910.

[4] 種衍文, 匡湖林, 李清泉. 一種基于多特征和機(jī)器學(xué)習(xí)的分級(jí)行人檢測(cè)方法[J]. 自動(dòng)化學(xué)報(bào), 2012, 38(3): 375-381.

[5] 曾波波, 王貴錦, 林行剛. 基于顏色自相似度特征的實(shí)時(shí)行人檢測(cè)[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 52(4): 571-574.

[6] 田仙仙, 鮑 泓, 徐 成. 一種改進(jìn) HOG 特征的行人檢測(cè)算法[J]. 計(jì)算機(jī)科學(xué), 2014, 41(9): 320-324.

[7] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR2005). IEEE, 2005: 886-893.

[8] Ding Y, Xiao J. Contextual boost for pedestrian detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2012). IEEE, 2012: 2895-2902.

[9] Dollár P, Appel R, Kienzle W. Crosstalk cascades for frame-rate pedestrian detection [M]. Computer Vision. Springer Berlin Heidelberg, 2012: 645-659.

[10] Dollár P, Tu Z, Perona P,etal. Integral Channel Features [J].BMVC. 2009, 2(3): 510-518.

[11] Dollár P, Tu Z, Tao H,etal. Feature mining for image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2007). IEEE, 2007: 1-8.

[12] Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2008). IEEE, 2008: 1-8.

[13] Felzenszwalb P F, Girshick R B, McAllester D,etal. Object detection with discriminatively trained part-based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

[14] Lin Z, Davis L S. A pose-invariant descriptor for human detection and segmentation [M]. Computer Vision. Springer Berlin Heidelberg, 2008: 423-436.

[15] Maji S, Berg A C, Malik J. Classification using intersection kernel support vector machines is efficient[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). IEEE, 2008: 1-8.

[16] Ouyang W, Wang X. A discriminative deep model for pedestrian detection with occlusion handling[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2012). IEEE, 2012: 3258-3265.

[17] Park D, Ramanan D, Fowlkes C. Multiresolution models for object detection [M]. Computer Vision-ECCV 2010. Springer Berlin Heidelberg, 2010: 241-254.

[18] Sabzmeydani P, Mori G. Detecting pedestrians by learning shapelet features[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2007). IEEE, 2007: 1-8.

[19] Schwartz W R, Kembhavi A, Harwood D,etal. Human detection using partial least squares analysis[C]∥IEEE 12th international conference on Computer vision. IEEE, 2009: 24-31.

[20] Sermanet P, Kavukcuoglu K, Chintala S,etal. Pedestrian detection with unsupervised multi-stage feature learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2013). IEEE, 2013: 3626-3633.

[21] Viola P, Jones M J, Snow D. Detecting pedestrians using patterns of motion and appearance [J]. International Journal of Computer Vision, 2005, 63(2): 153-161.

[22] Walk S, Majer N, Schindler K,etal. New features and insights for pedestrian detection[C]∥IEEE conference on Computer vision and pattern recognition (CVPR2010). IEEE, 2010: 1030-1037.

[23] Wang X, Han T X, Yan S. An HOG-LBP human detector with partial occlusion handling[C]∥12th International Conference on Computer Vision. IEEE, 2009: 32-39.

[24] Wojek C, Schiele B. A performance evaluation of single and multi-feature people detection [M]. Pattern Recognition. Springer Berlin Heidelberg, 2008: 82-91.

[25] Hinton G, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.

Research on a Pedestrian Detection Scheme Based on Deep Model

GUOQiu-yan1,LIXin2

(1. School of Automotive and Electronic Engineering, Xichang College, Xichang 615013, China;2. Graduate School of Shenzhen, Tsinghua University, Shenzhen 518055, China)

The existing pedestrian detection schemes are based on cascaded classifiers, hence it has too many parameters and low reliability of detection. In this paper, we propose a new deep model that can jointly train multi-stage classifiers through several stages of back propagation to achieve pedestrian detection. It keeps the score map output by a classifier within a local region, and uses it as contextual information to support the decision at the next stage. Through a specific design of the training strategy, this deep architecture is able to simulate the cascaded classifiers by mining hard samples to train the network stage-by-stage. However, each classifier handles samples with different difficulty levels, and unsupervised pre-training and specifically designed stage-wise supervised training are used to regularize the optimization problem for the reliability of pedestrian detection. Both theoretical analysis and experimental results show that the training strategy helps to avoid over-fitting. Experimental results on three datasets (Caltech, ETH and TUD-Brussels) show that the presented approach outperforms the state-of-the-art approaches.

cascaded classifiers; pedestrian detection; deep model; contextual information

2015-07-06

國(guó)家自然科學(xué)基金項(xiàng)目資助(61371138/F010403)

郭秋滟(1981-),女,四川隆昌人,講師,研究方向:圖像處理、計(jì)算機(jī)視覺(jué)。

E-mail: 929138392@qq.com

TP 391

A

1006-7167(2016)08-0121-06

猜你喜歡
行人分類器深度
毒舌出沒(méi),行人避讓
意林(2021年5期)2021-04-18 12:21:17
深度理解一元一次方程
路不為尋找者而設(shè)
深度觀察
深度觀察
深度觀察
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
我是行人
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
微博| 珲春市| 莆田市| 九台市| 化州市| 蒙山县| 沈丘县| 金秀| 灵寿县| 万安县| 彰化市| 阿拉尔市| 卢龙县| 米脂县| 株洲县| 武平县| 措美县| 巴彦县| 自治县| 化德县| 浪卡子县| 广水市| 宣恩县| 普格县| 呼伦贝尔市| 大邑县| 巴中市| 泾源县| 如东县| 芜湖县| 长寿区| 大竹县| 重庆市| 南平市| 汉中市| 瑞丽市| 武冈市| 乌兰察布市| 嘉义县| 尤溪县| 汝州市|