国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)和上下文模型的目標(biāo)檢測(cè)

2019-01-29 07:09公安部第一研究所馬增妍
關(guān)鍵詞:正確率類(lèi)別公式

■ 文/公安部第一研究所 馬增妍

關(guān)鍵字:卷積神經(jīng)網(wǎng)絡(luò) R-CNN NMS 上下文模型

1 引言

中國(guó)的安防產(chǎn)業(yè)起步晚,改革開(kāi)放以前,中國(guó)的安防主要以人防為主,安全技術(shù)防范還只是一個(gè)概念,技術(shù)防范產(chǎn)品幾乎還是空白。改革開(kāi)放以后,在公安信息化的大背景下,隨著大數(shù)據(jù),人工智能等技術(shù)的快速發(fā)展,以深度學(xué)習(xí)算法為核心的安防產(chǎn)品已經(jīng)初步應(yīng)用于公安一線,目標(biāo)檢測(cè)算法是深度學(xué)習(xí)的重要分支。R-CNN算法是目標(biāo)檢測(cè)的經(jīng)典算法,但是R-CNN算法在圖像后處理階段,采用的是NMS算法。NMS算法存在兩方面的缺點(diǎn):一方面,如何選擇合適的閾值是一件困難的事;另一方面,沒(méi)有考慮圖像中物體與物體之間的共存與空間位置關(guān)系。

文獻(xiàn)中提出了用上下文模型來(lái)統(tǒng)計(jì)一幅圖像里面總是同時(shí)出現(xiàn)的目標(biāo)之間的空間位置關(guān)系,從而有利于目標(biāo)更準(zhǔn)確的定位。文獻(xiàn)中是在淺層網(wǎng)絡(luò)的圖像特征提取之上進(jìn)行的上下文模型訓(xùn)練,因此,我們把上下文模型運(yùn)用到深層網(wǎng)絡(luò)的圖像特征提取之上,進(jìn)一步提高目標(biāo)檢測(cè)的正確率。

本文主要把上下文模型和R-CNN算法結(jié)合起來(lái),在R-CNN算法的最后一步,即經(jīng)過(guò)SVM分類(lèi)器分類(lèi)之后,把候選窗口的信息保存下來(lái),并對(duì)其應(yīng)用訓(xùn)練好的上下文模型,我們采用割平面方法來(lái)學(xué)習(xí)上下文模型中的參數(shù)。該模型給每一幅圖像,依據(jù)各個(gè)候選窗口的SVM分?jǐn)?shù)以及它們的空間布局,定義了一個(gè)總分?jǐn)?shù)來(lái)刻畫(huà)物體間的共存與空間位置關(guān)系,最優(yōu)候選窗口的布局就是最大化圖像所對(duì)應(yīng)的總分?jǐn)?shù),本文采用了貪心優(yōu)化算法來(lái)選擇最優(yōu)候選窗口。這種結(jié)合既避免了NMS算法的缺點(diǎn),又避免了文獻(xiàn)中對(duì)圖像信息進(jìn)行淺層特征提取的不足。

2 R-CNN算法

R-CNN算法在圖像預(yù)處理方面采用的是選擇搜索算法,在特征提取方面,采用的是八層卷積神經(jīng)網(wǎng)絡(luò),其中前五層是卷基層,后三層是全連接層。八層網(wǎng)絡(luò)的所有卷積層的卷積核被連接到第二個(gè)卷積層中的所有核映射上。全連接層中的神經(jīng)元被連接到前一層中所有的神經(jīng)元上。網(wǎng)絡(luò)的前五層為卷積層,其中第一層、第二層、第五層之后跟有最大池化層,之后三層是全連接層,最后是一個(gè)有21個(gè)(20PASCAL VOC類(lèi)+1個(gè)背景類(lèi))輸出的softmax層,輸出圖像的分類(lèi)結(jié)果。局部響應(yīng)歸一化層跟在第一、第二個(gè)卷積層后面。最大池化層是在局部響應(yīng)歸一化層之后以及第五層卷積層之后使用的。ReLU激活函數(shù)是在每一個(gè)卷積層和全連接層中使用的。

3 上下文模型

3.1 上下文模型的介紹

該模型主要是統(tǒng)計(jì)了真實(shí)圖像中目標(biāo)之間的空間位置關(guān)系,從而確定目標(biāo)最優(yōu)的位置,進(jìn)而提高目標(biāo)檢測(cè)的正確率。在現(xiàn)實(shí)生活中,無(wú)論目標(biāo)是同類(lèi)別還是不同類(lèi),都會(huì)有一些經(jīng)常出現(xiàn)的空間位置關(guān)系和一些幾乎不可能出現(xiàn)的位置關(guān)系。比如“人”和“馬”這兩類(lèi)物體,它們之間的空間位置關(guān)系有很大的可能是“人”騎在“馬”上,即“人”在“馬”上面(above),或者“人”在“馬”的旁邊(next-to),很少會(huì)出現(xiàn)“人”在“馬”下面(below)這種空間位置關(guān)系。再比如“人”和“人”這種同類(lèi)別的目標(biāo),他們所組成的空間位置關(guān)系一般都是“人”在“人”的旁邊(nextto),很少有“人”在“人”上面(above)的,或者“人”在“人”下面(below)的空間位置關(guān)系。因此,如果我們能夠統(tǒng)計(jì)出這種共同出現(xiàn)在一副圖像里面的物體之間特有的空間位置關(guān)系,那么就會(huì)對(duì)目標(biāo)檢測(cè)的正確率有一定的幫助。本論文統(tǒng)計(jì)了這種現(xiàn)實(shí)生活中物體之間特有的空間位置關(guān)系,從而構(gòu)造了一個(gè)上下文模型,定義了如圖1所示的幾種空間位置關(guān)系,分別是上面(above)、下面(below)、兩個(gè)對(duì)稱(chēng)的旁邊(nest-to)、近(near)、遠(yuǎn)(far)、覆蓋(overlap):

圖1 位置關(guān)系

3.2 上下文模型的構(gòu)造

首先構(gòu)造一個(gè)上下文模型,用于捕獲目標(biāo)檢測(cè)器之間的存在空間位置關(guān)系。用一系列有重合的窗口明確表示一幅圖像(本論文是一幅圖像經(jīng)過(guò)線性SVM分類(lèi)器之后的所有候選窗口),第i個(gè)窗口的位置用其中心和長(zhǎng)寬表示,寫(xiě)作Ii=(x,y,s),其中(x,y)是中心的坐標(biāo),s是窗口的尺寸,N表示一幅圖像有N個(gè)窗口,xi表示從第i個(gè)窗口提取的圖像特征,整幅圖像就可用X={xi:i=1,……N}表示,K代表圖像類(lèi)別個(gè)數(shù)(本論文所用的是PASCAL VOC 2011數(shù)據(jù)集,所以K為20),yi∈{0,……,K}代表了第i個(gè)窗口的標(biāo)簽,0表示背景,那么Y={yi:i=1,……N}。定義X,Y之間的分?jǐn)?shù),用公式(1)表示:

其中wyi,yj表示yi類(lèi)和yj類(lèi)之間的權(quán)重,wyi表示類(lèi)i的局部模板,dij表示窗口i和窗口j之間的空間位置關(guān)系,位置關(guān)系可分為:上面(above)、下面(below)、重疊(overlap)、兩個(gè)對(duì)稱(chēng)的旁邊(next-to)、近(near)和遠(yuǎn)(far),還有一個(gè)二進(jìn)制的(overlap)。因此dij是一個(gè)稀疏的一維向量,只有滿(mǎn)足相互之間的空間位置關(guān)系的對(duì)應(yīng)項(xiàng)會(huì)賦值為1。比如,一副圖像中“人”與“人”之間的空間位置關(guān)系是旁邊(next-to),不是上面(above),也不是下面(below)。那么,上面(above)、下面(below)及其他位置的對(duì)應(yīng)項(xiàng)賦值為0,而給旁邊(next-to)賦值為1。

3.3 上下文模型的推理

利用上下文模型進(jìn)行最優(yōu)候選窗口的選擇,就是計(jì)算出公式(1) S(X,Y)的最大值,因?yàn)橛?jì)算S(X,Y)的最大值是非確定性多項(xiàng)式NP(non-deterministic polynomial) hard,所以本論文采用貪心算法(greedy algorithms)的思想來(lái)解決這個(gè)問(wèn)題。

算法步驟如下:

(1)對(duì)每一個(gè)窗口的向量Y初始化為背景類(lèi);

(2)貪心地選擇不是背景類(lèi)的單一窗口,即最大限度的增加公式(1)中S(X,Y)的值;

(3) 當(dāng)選擇任意一個(gè)窗口,S(X,Y)的值不再增加反而減少時(shí),停止迭代。

用公式表示如下:I代表一系列實(shí)例化的窗口-類(lèi)(window-class),I={pairs(I,c)},記Y(I)代表相關(guān)的標(biāo)簽向量,當(dāng)所有的pairs在集合I中時(shí),yi=c,否則yi=0;通過(guò)加窗口-類(lèi)pair(I,c)到集合I里改變S(X,Y)的值,具體過(guò)程用公式(2)表示:

3.4 上下文模型的優(yōu)化

為了優(yōu)化上下文模型的學(xué)習(xí)算法,需要把公式(1)寫(xiě)公式(3)的形式:

公式(3)等價(jià)于公式(4)

凸訓(xùn)練的目的是假設(shè)給定一系列訓(xùn)練圖像Xi和標(biāo)簽Yi,希望得到一個(gè)W的最優(yōu)值,使得給定一幅新的圖像Xi,可以產(chǎn)生一個(gè)標(biāo)簽向量Y*=Yi。因此,凸訓(xùn)練的結(jié)果是得到W的最優(yōu)值,使得Y*和Yi的差值盡可能的小,凸訓(xùn)練得到W最優(yōu)值的這一過(guò)程既是求下列數(shù)學(xué)公式(5)極值的過(guò)程。

其中:Hi是自己算出的標(biāo)簽,

考慮到第n個(gè)訓(xùn)練圖像Xi和其真正的標(biāo)簽Yi,我們需要真標(biāo)簽的得分比所有其他虛擬標(biāo)號(hào){Hi}的更高。然而,并非所有不正確標(biāo)簽是同樣程度的不正確,即有的錯(cuò)的多,有的錯(cuò)的少。損失函數(shù)L(Yi,Hi)測(cè)量Hi是如何不正確,并用松弛變量按比例錯(cuò)的比例懲罰。因此,約束函數(shù)如公式(6)所示:

其中,第一行對(duì)應(yīng)的是錯(cuò)誤(negative)的窗口,第二行對(duì)應(yīng)的是錯(cuò)誤的窗口但是被歸類(lèi)為正確的(positive)窗口了,第三行對(duì)應(yīng)其它情況。

為了方便最優(yōu)化,把公式(5)的約束問(wèn)題等價(jià)于公式(7)的無(wú)約束問(wèn)題:

R(w)是凸函數(shù),因?yàn)樗扔谝幌盗芯€性函數(shù)中最大的值,N是所有的訓(xùn)練圖像的總數(shù),因此也證明了目標(biāo)函數(shù)L(W)是凸函數(shù),因?yàn)樗莾蓚€(gè)凸函數(shù)的總和。定義一個(gè)簡(jiǎn)化問(wèn)題(reduced problem),用公式(8)表示:

R被近似成了一個(gè)分段的線性函數(shù)Rt,

g(wi)是函數(shù)R(w)在一個(gè)點(diǎn)wj的子梯度,用公式(9)表示:

由此,二次規(guī)劃問(wèn)題可以寫(xiě)成公式(10)的形式:

最終,上下文模型的優(yōu)化就變成解二次規(guī)劃問(wèn)題,即求解公式(10),具體的優(yōu)化過(guò)程在第四章給出。

4 在R-CNN中應(yīng)用上下文模型

在R-CNN中應(yīng)用上下文模型,即把上下文模型應(yīng)用在經(jīng)過(guò)線性SVM分類(lèi)器分類(lèi)之后圖像的候選窗口上。在測(cè)試實(shí)驗(yàn)之前,首先要學(xué)習(xí)上下文模型的參數(shù)即訓(xùn)練訓(xùn)練上下文模型。

由第3.4小節(jié)可知,對(duì)于構(gòu)造好的上下文模型進(jìn)行割平面(Cutting Plane)最優(yōu)化,即可得到W的最優(yōu)值。割平面最優(yōu)化的過(guò)程就是求解二次規(guī)劃問(wèn)題,用公式(11)表示如下:

本論文選擇的懲罰因子C為2。割平面算法的原理是用有限半個(gè)空間來(lái)近似凸規(guī)劃的可行解集合,并求解一系列不斷改進(jìn)的線性規(guī)劃,它們的最優(yōu)解收斂于原凸規(guī)劃問(wèn)題的最優(yōu)解。這一方法的基本思想是:每次迭代求函數(shù)在某一個(gè)凸多面體的極小值,每次迭代后引進(jìn)一個(gè)割面,這個(gè)割面是可以隨意選擇的,從而逐步縮小多面體,促使迭代點(diǎn)收斂至最優(yōu)解。凸優(yōu)化過(guò)程如下:

(1)初始化t=0,割平面的集合為空,根據(jù)第三章公式(3-8),計(jì)算wt;

(2)計(jì)算子梯度g(wt)并把新的割平面加入到割平面集合中,根據(jù)第三章公式(3-7)計(jì)算L(wt);

(3)迭代的停止的條件是,本論文把的值設(shè)置成0.01,當(dāng)不滿(mǎn)足停止條件時(shí),跳到步驟(2)繼續(xù)進(jìn)行優(yōu)化直到滿(mǎn)足停止條件。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 實(shí)驗(yàn)數(shù)據(jù)及流程

PASCAL VOC是國(guó)際權(quán)威的物體檢測(cè)挑戰(zhàn)賽,其作為視覺(jué)對(duì)象的分類(lèi)識(shí)別和檢測(cè)的一個(gè)標(biāo)準(zhǔn)測(cè)試,提供了檢測(cè)算法和學(xué)習(xí)性能的標(biāo)準(zhǔn)圖像注釋數(shù)據(jù)集和標(biāo)準(zhǔn)的評(píng)估系統(tǒng)。因此本論文采用的測(cè)試數(shù)據(jù)是PASCAL VOC 2011數(shù)據(jù)集,大約有6000張圖像,20個(gè)圖像類(lèi)別。

我們把數(shù)據(jù)集平均分成兩部分,訓(xùn)練集和測(cè)試集。本論文遵循PASCAL VOC協(xié)議的規(guī)則,如果圖像檢測(cè)窗口與該圖像的ground truth窗口的交集是大于50%的,其中,ground truth窗口是圖像當(dāng)中已經(jīng)標(biāo)注好的檢測(cè)目標(biāo)的正確窗口,那么檢測(cè)被認(rèn)為是正確的。實(shí)驗(yàn)對(duì)比了R-CNN算法的測(cè)試結(jié)果,計(jì)算每一個(gè)類(lèi)別的精度-召回PR (Precision-Recall)曲線,和每一個(gè)類(lèi)別的平均正確率,在表1中給出:

表1 測(cè)試結(jié)果對(duì)比

5.2 實(shí)驗(yàn)結(jié)果分析

由表1可以看出,具有明顯的空間位置關(guān)系,并且總是同時(shí)出現(xiàn)在一幅圖像里面的類(lèi)別,正確率有了一定的提高,比如“bike”,“horse”,“soft”正確率分別由原來(lái)的23.7%,40.1%,22.7%提高到了50.1%,46.9%,27.8%。而和“bike”,“horse”,“soft”有明顯位置關(guān)系的“person”的正確率出現(xiàn)了微小的下降,從53.9%到53.5%。圖2,圖5-2分別表示的是,“person”和“horse”,“person”和“soft”的經(jīng)過(guò)線性SVM分類(lèi)后的所有候選窗口和經(jīng)過(guò)上下文模型選擇出的最優(yōu)候選窗口的對(duì)比圖。

圖2 人和馬

圖3 人和沙發(fā)

圖2 b)中,可以看到,這是由于“person”和“person”之間的位置關(guān)系通常都是“next-to”,所以上下文模型在選定“person”的最優(yōu)候選窗口時(shí),會(huì)優(yōu)先選擇“next-to”的候選窗口,但從圖2 b)中可以看出,兩個(gè)人其實(shí)是有重疊的部分的,而由于采用了上下文模型,優(yōu)先選擇了旁邊的候選窗口而排除了有重疊的候選窗口,所以,經(jīng)過(guò)上下文模型的學(xué)習(xí)后選出的最優(yōu)的候選窗口并不是真正的最優(yōu)的候選窗口,這個(gè)原因,可能導(dǎo)致“person”這個(gè)類(lèi)別的總體正確率有了一點(diǎn)的下降,但是下降的不多,這是因?yàn)?,測(cè)試集中會(huì)出現(xiàn)很多和“人”類(lèi)有空間位置關(guān)系的類(lèi)別,比如“bike”,“horse”等等,它們之間的空間位置關(guān)系會(huì)提高“person”的目標(biāo)檢測(cè)正確率。

對(duì)于一些和其他類(lèi)別沒(méi)有固定的空間位置關(guān)系,總是和自己同類(lèi)的目標(biāo)一同出現(xiàn)在一幅圖像當(dāng)中的類(lèi)別,比如“cat”“cow”“dog”“plant”,它們的正確率并沒(méi)有提高的很多,有的類(lèi)別會(huì)出現(xiàn)正確率的小幅度下降,這可能是因?yàn)樯舷挛哪P透m合檢測(cè)圖像里面有多種不同類(lèi)別目標(biāo)的情況,而不適合檢測(cè)一幅圖像里面只有一種類(lèi)別的多個(gè)目標(biāo)的情況,所以正確率提高的不多。由此我們也可以得出,上下文模型更適合于一幅圖像中有多個(gè)類(lèi)別的圖像檢測(cè),文獻(xiàn)中也提到,上下文模型在多個(gè)類(lèi)別同時(shí)出現(xiàn)在一幅圖像上,一些目標(biāo)容易檢測(cè)而另一些目標(biāo)不容易檢測(cè)的情況下會(huì)有明顯效果。總體而言,可以看出上下文模型對(duì)于數(shù)據(jù)集中的部分類(lèi)別的檢測(cè)正確率有了明顯的提高。

6 結(jié)論

在公安信息化的大背景下,隨著大數(shù)據(jù),人工智能等技術(shù)的快速發(fā)展,以深度學(xué)習(xí)算法為核心的警用裝備已經(jīng)初步應(yīng)用于公安安防一線,目標(biāo)檢測(cè)算法的是深度學(xué)習(xí)的重要分支,本文提出來(lái)一種新的選擇候選框的方法,針對(duì)R-CNN算法的缺點(diǎn),本文提出了一種新的目標(biāo)檢測(cè)方法,該方法結(jié)合了R-CNN與一個(gè)可以描述圖像中物體間的共存與空間位置關(guān)系的上下文模型,在該上下文模型中,對(duì)每一幅圖像,依據(jù)各個(gè)候選窗口的分類(lèi)分?jǐn)?shù)以及它們的空間布局,定義了一個(gè)總分?jǐn)?shù)來(lái)刻畫(huà)物體間的共存與空間位置關(guān)系,最優(yōu)候選窗口的布局應(yīng)該最大化該分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果表明,如果屬于不同類(lèi)別的物體經(jīng)常同時(shí)出現(xiàn)在一幅圖像中,并且相互之間存在特定的空間位置關(guān)系,那么,這些物體對(duì)應(yīng)類(lèi)別的檢測(cè)正確率會(huì)有明顯的提高。

猜你喜歡
正確率類(lèi)別公式
組合數(shù)與組合數(shù)公式
排列數(shù)與排列數(shù)公式
個(gè)性化護(hù)理干預(yù)對(duì)提高住院患者留取痰標(biāo)本正確率的影響
等差數(shù)列前2n-1及2n項(xiàng)和公式與應(yīng)用
門(mén)診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
一起去圖書(shū)館吧
例說(shuō):二倍角公式的巧用
生意
生意
多類(lèi)別復(fù)合資源的空間匹配
延边| 新泰市| 仁化县| 申扎县| 高阳县| 新邵县| 本溪市| 门头沟区| 昌宁县| 玉田县| 庆元县| 威宁| 政和县| 建始县| 内乡县| 公安县| 平原县| 东宁县| 平陆县| 福海县| 鹿邑县| 社会| 金堂县| 张家口市| 察隅县| 武冈市| 鸡泽县| 彝良县| 集贤县| 东平县| 西藏| 湖州市| 崇信县| 铜山县| 灌阳县| 天水市| 司法| 霍城县| 吕梁市| 乌兰县| 新田县|