国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于并行卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計方法*

2018-01-30 01:45賈翻連張麗紅
測試技術(shù)學報 2018年1期
關(guān)鍵詞:密度估計特征提取卷積

賈翻連, 張麗紅

(山西大學 物理電子工程學院, 山西 太原 030006)

近幾年來, 人群密度估計成為智能視頻分析的一個研究熱點. 對人群密度進行估計的算法開始出現(xiàn)并不斷豐富, 主要算法包括模板匹配和深度學習兩類. Davies[1]等提出人群密度的估計能夠利用提取前景圖像(只包含人)的總像素數(shù)以及邊緣圖像的總像素數(shù)兩種像素特征來進行, 它們都與圖像人群數(shù)量大致成線性關(guān)系; Chow[2]為了對人群的像素統(tǒng)計特征進行有效地分析, 通過使用神經(jīng)網(wǎng)絡(luò)方法估計人群密度信息; Marana[3]提出基于紋理分析的人群密度估計算法, 該算法的主要功能是能夠解決高密度場景的人群密度估計問題; Lin S F[4]等人在論文中提出利用個人特征來檢測行人, 實現(xiàn)人群人數(shù)的統(tǒng)計, 從而實現(xiàn)人群密度估計; Zhao[5]提出了一種基于模板匹配進行行人檢測的方法, 對行人進行了參數(shù)化建模. 這些方法首先從給定的圖像中提取特征, 然后通過這些特征將人群密度圖片分成不同等級. 常用的分類器是支持向量機和神經(jīng)網(wǎng)絡(luò), 其中HuaYang[6], XiaoHua Li[7]等都選擇支持向量機作為分類器.

這些方法往往都是在整幅圖像中應(yīng)用一個模型, 把特征向量映射成行人數(shù)量來進行人群密度估計, 其缺陷是忽略了不同區(qū)域中的不同人群密度的差異, 且用一個模型一次處理一張圖片需要的時間較長. 卷積神經(jīng)網(wǎng)絡(luò)模型具有很強大的特征提取和表示能力, 本文提出一種基于并行卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計算法, 把視頻幀進行分塊, 將圖像塊分別輸入不同的模型, 深入地挖掘不同條件下較好的特征, 降低背景環(huán)境復雜度的影響, 從而更好地進行人群密度估計, 克服單一模型帶來的局限性.

1 卷積神經(jīng)網(wǎng)絡(luò)模型

1.1 基本卷積神經(jīng)網(wǎng)絡(luò)模型

在深度學習模型中, 卷積神經(jīng)網(wǎng)絡(luò)是最經(jīng)典的模型之一. 卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器, 這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、 比例縮放、 傾斜或者共他形式的變形具有高度不變性. LeCun[8]等人提出的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, 簡稱 CNN)是第一個真正的多層非線性結(jié)構(gòu)學習算法, 它在手寫字符識別中已經(jīng)成功應(yīng)用, 該方法將特征提取和識別結(jié)合在一起, 通過卷積操作直接對圖像進行處理, 提取圖像的局部特征如角點、 邊緣等等, 并利用誤差反向傳播過程, 不斷地選擇、 優(yōu)化既得的特征.

一般地, CNN包含多個卷積過程和全連接的過程. 每個卷積的過程由4個部分組成, 即卷積層、 匯聚層、 非線性變換層, 局部反應(yīng)標準化層. 通過這4個部分減少參數(shù)數(shù)目以提高訓練性能, 并能夠保證圖像對位移、 縮放、 形變的魯棒性. 經(jīng)典的LeNet-5網(wǎng)絡(luò)模型結(jié)構(gòu)如圖 1 所示.

圖 1 LeNet-5網(wǎng)絡(luò)框架Fig.1 LeNet-5 network framework

卷積網(wǎng)絡(luò)較一般神經(jīng)網(wǎng)絡(luò)在圖像處理方面有如下優(yōu)點: ① 輸入圖像和網(wǎng)絡(luò)的拓撲結(jié)構(gòu)能很好地吻合; ② 特征提取和模式分類同時進行, 并同時在訓練中產(chǎn)生; ③ 權(quán)重共享可以減少網(wǎng)絡(luò)的訓練參數(shù), 使神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得更簡單, 適應(yīng)性更強.

卷積神經(jīng)網(wǎng)絡(luò)的缺點是: 存在計算瓶頸, 即卷積層與子采樣層間特征圖的大小匹配, 會影響計算速度和時間.

1.2 并行卷積神經(jīng)網(wǎng)絡(luò)模型

用基本卷積神經(jīng)網(wǎng)絡(luò)人群密度圖片時, 其網(wǎng)絡(luò)的結(jié)構(gòu)會受背景的影響. 當背景較為復雜時, 網(wǎng)絡(luò)會有比較多的隱含層, 此時, 基本卷積神經(jīng)網(wǎng)絡(luò)的計算瓶頸會更為突出. 對此, 本文提出一種并行卷積神經(jīng)網(wǎng)絡(luò), 其模型如圖 2 所示.

并行卷積神經(jīng)網(wǎng)絡(luò)由4部分組成: 輸入、 特征提取、 特征融合和結(jié)果輸出. 圖像分塊后將每一個圖像塊作為該模型的輸入; 特征提取是通過并行卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)的, 特征融合采用的是自編碼網(wǎng)絡(luò), 最后用支持向量機將分類結(jié)果輸出.

并行卷積神經(jīng)網(wǎng)絡(luò)是可以同時處理多個圖像塊的網(wǎng)絡(luò)結(jié)構(gòu), 每層都是一個完整的卷積神經(jīng)網(wǎng)絡(luò), 具有基本卷積神經(jīng)網(wǎng)絡(luò)的基本功能. 在卷積神經(jīng)網(wǎng)絡(luò)中處在同一個特征圖中的神經(jīng)元節(jié)點有著共同的卷積核, 表示為數(shù)學模型

(1)

式中: *代表卷積操作;xi代表前一層中第i個特征圖;wij代表從上一層第i個特征圖產(chǎn)生下一層第j個特征圖所需要的卷積核;bj代表閾值;f(x)代表激活函數(shù).

圖 2 并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Parallel convolution neural network structure

網(wǎng)絡(luò)中第p個樣本的誤差為Ep, 表達式如式(2), 式中yp代表期望輸出,op代表實際輸出. 將網(wǎng)絡(luò)關(guān)于整個樣本集的誤差測度定義為β, 表達式如式(3).

(2)

β=∑Ep.

(3)

由網(wǎng)絡(luò)結(jié)構(gòu)可知: 并行卷積神經(jīng)網(wǎng)絡(luò)具有基本卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點, 而且通過分塊處理一幅圖片, 減少了卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)量, 使得運算速度加快, 降低了網(wǎng)絡(luò)結(jié)構(gòu)的復雜度.

2 基于并行卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計

基本的圖像分類任務(wù)主要由特征提取和分類兩部分組成. 基于并行卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計算法的流程如圖 3 所示.

圖 3 人群密度估計算法的流程圖Fig.3 Flow chart of population density estimation algorithm

具體步驟如下:

1) 圖像預處理

視頻中存在透視效應(yīng), 使得同樣面積的前景像素實際的大小不同, 所以需要對圖像做透視校正, 以降低其在實驗中帶來的誤差.

2) 圖像分塊

對于每一幀圖像都進行分塊, 在本文中分成3*3塊區(qū)域.

3) 人群密度預估計

根據(jù)前景面積閾值粗略判斷該區(qū)域是否是密集人群, 對于稀疏人群, 網(wǎng)絡(luò)中第一層卷積的卷積核大小為 5×5, 第二層卷積核大小為 3×3; 對于密集人群, 網(wǎng)絡(luò)中第一層的卷積核大小為7×7, 第二層卷積核大小為5×5.

4) 人群特征提取

將圖像塊輸入并行卷積神經(jīng)網(wǎng)絡(luò), 根據(jù)步驟3)的預估計結(jié)果選擇合適的卷積核進行特征提取.

在網(wǎng)絡(luò)中, 損失函數(shù)為平方損失函數(shù), 如式(4)所示.

(4)

式中: β表示的是誤差, 整個式子表示的是誤差的平方和.

激活函數(shù)采用有Maxout的Exponential Linear Enit (ELU)[8], 表達式如式(5).

(5)

ELU 是 ReLU 的一個相對平滑的版本, 它能加速收斂并提高準確度. 其中α是一個可調(diào)整的參數(shù), 它控制著ELU負值部分在何時飽和. 與 ReLU 不同, ELU 擁有負值, 允許它們以更低的計算復雜度將平均單位激活推向更加接近 0 的值. 與雙曲正切和Sigmoid函數(shù)相比較, 由于ELU函數(shù)的正部分是恒等式, 所以梯度消失的問題得到了緩解, 因此它們的導數(shù)是一個而不是收縮的.

5) 人群特征融合

由步驟4)可以得到每一個圖像塊的特征. 這些特征維數(shù)過高, 很難直接應(yīng)用. 因此有必要融合這些特征, 降低特征維數(shù). 并且, 在我們的方法中, 每張圖像被分割為9個區(qū)域塊. 在每一塊的區(qū)域邊界可能會有某一個人被分到兩個甚至更多的圖像塊中, 不同塊特征中有些特征是有可能表示同一個人的, 因此有必要融合這些特征. 每個圖像塊的特征由向量組成, 本文采用自編碼網(wǎng)絡(luò)融合這些特征并降維.

6) 人群特征分類

將步驟5)得到的特征用Softmax分類.

7) 結(jié)果輸出

網(wǎng)絡(luò)的輸出層 3 個節(jié)點分別對應(yīng) 3 個密度等級, 將步驟6得到的分類結(jié)果作為支持向量機的輸入, 通過支持向量機得到網(wǎng)絡(luò)的輸出. 在實驗中采用向量形式將訓練樣本的類別對應(yīng)到輸出節(jié)點, 即: 低密度等級對應(yīng)的輸出向量就是(1,0,0)T, 中密度等級對應(yīng)的輸出向量是(0,1,0)T, 高密度等級對應(yīng)的輸出向量是(0,0,1,)T.

3 仿真實驗及結(jié)果

在系統(tǒng)為windows server 2012的服務(wù)器、 python 3.5 的實驗平臺下, 用2個數(shù)據(jù)集對提出的方法進行驗證. 一個數(shù)據(jù)集來自Chan[9]UCSD的行人數(shù)據(jù)集(下文簡稱數(shù)據(jù)集1 ), 該數(shù)據(jù)集圖片分辨率為238*158、 幀率為10fps的視頻. 另外一個數(shù)據(jù)集是自己拍攝的一段某路口視頻(下文簡稱數(shù)據(jù)集2), 該視頻視角較遠, 場景中有少許雜亂背景.

表 1 人群密度等級的定義

將人群密度按照人數(shù)分為低、 中、 高3個等級, 具體定義如表 1 所示.

3.1 參數(shù)設(shè)置

并行卷積神經(jīng)網(wǎng)絡(luò)的訓練過程大致可以歸結(jié)為 3 步, ① 將樣本導入分類器進行訓練至網(wǎng)絡(luò)收斂; ② 優(yōu)化網(wǎng)絡(luò), 刪除冗余的連接; ③ 進一步訓練. 網(wǎng)絡(luò)中采用的損失函數(shù)為對數(shù)損失. 網(wǎng)絡(luò)的誤差參數(shù)β的初始值設(shè)為 0.18, 通過實驗發(fā)現(xiàn)在這個閾值之前網(wǎng)絡(luò)的誤差處于平滑下降趨勢, 當網(wǎng)絡(luò)誤差降至 0.15 左右時, 大部分的可分樣本已經(jīng)能夠正確分類; 對于少數(shù)不可分樣本, 由于受到學習率的影響, 會使分類錯誤. 實驗中,α=0.1 , 學習率為0.000 1, 此時分類效果最好.

3.2 實驗結(jié)果

對于數(shù)據(jù)集1和數(shù)據(jù)集2, 選取其中4 400個樣本, 使用數(shù)據(jù)集中的樣本, 提取特征, 用2 400個樣本訓練神經(jīng)網(wǎng)絡(luò)的參數(shù), 并用剩余的2 000個樣本進行測試. 人群密度等級估計準確率的結(jié)果如表 2 和表 3 所示. 將并行卷積神經(jīng)網(wǎng)絡(luò)的實驗結(jié)果和基本卷積神經(jīng)網(wǎng)絡(luò)實驗結(jié)果進行比較.

表 2 和表 3 結(jié)果表明: 并行卷積網(wǎng)絡(luò)對于人群密度估計有極高的準確率, 并且與基本卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)相比, 其分類準確率也有所提高.

表 2 數(shù)據(jù)集 1 人群密度等級估計準確率

表 3 數(shù)據(jù)集2人群密度等級估計準確率

另外, 將數(shù)據(jù)集1和HangSu[10], Kim[11]的方法進行比較. HangSu等采用了 SST-LBP 方法描述特征并使用 SVM 作為分類器. Kim采用計算運動區(qū)域和對比信息的方法來估計人群密度等級, 其中對比信息基于 GLDM 矩陣方法, 累加矩陣元素將和作為一個特征, 然后用這兩個特征去訓練 BP 神經(jīng)網(wǎng)絡(luò). 由實驗結(jié)果可得到, 依靠卷積神經(jīng)網(wǎng)絡(luò)可以得到更為準確的特征和分類.

本文算法采用并行卷積神經(jīng)網(wǎng)絡(luò)對視頻幀進行處理, 在算法運算速度上與基本卷積神經(jīng)網(wǎng)絡(luò)相比具有明顯優(yōu)勢, 并且具有良好的魯棒性.

4 結(jié)束語

本文構(gòu)造了一種并行卷積神經(jīng)網(wǎng)絡(luò)模型, 將其應(yīng)用于人群密度等級估計, 與基本卷積神經(jīng)網(wǎng)絡(luò)、 BP神經(jīng)網(wǎng)絡(luò)及HangSu, Kim等方法進行了對比. 實驗結(jié)果表明: 本文方法在人群密度估計準確度和運算速度方面都有所提高.

[1] Davies A C, Yin J H, Velastin S A.Crowd monitoring using image processing[J]. Electronics & Communication Engineering Journal, 1995, 7(1): 37-47.

[2] Chow T W S. Fast training algorithm for feed forward neural networks: application to crowd estimation at underground stations[J]. Artificial Intelligence in Engineering, 1999, 13(3): 301-307.

[3] Marana A N, Velastin S A, Costa L F, et al. Estimation of crowd density using image processing[J]. IEEE Colloquium on Image Processing for Security Applications, 1997, 11(3): 1-11.

[4] Lin S F, Chen J Y, Chao H X. Estimation of number of people in crowded scenes using perspective transformation[J]. IEEE Transactions on Systems, Man and Cybemetics PartA: Systems and Humans, 2001, 31(6): 645-653.

[5] Zhao T, NeVatia R, Wu B. Segmentation and tracking of multiple humans in crowded environments[J]. Pattern AnaIysis and Machine Intelligence, IEEE Transactions on, 2008, 30(7): 1198-1211.

[6] Yang H, Su H, Zheng S, et al. The large-scale crowd density estimation based on sparse spatiotemporal local binary pattern[C]. Multimedia and Expo (ICME), 2011 IEEE International Conference on. IEEE, 2011: 1-6.

[7] Li Xiaohua, Shen Lansun, Li Huanqin. Estimation of crowd density based on wavelet and support vector machine[J]. Transactions of the Institute of Measurement and Control, 2006, 11(3): 2-15.

[8] Djork-Arne Clevert, Thomas Unterthiner, Sepp Hochreiter. Fast and accurate deep network learning by exponential linear units [C], International Conference on Learning Representations. 2016: 1-14.

[9] Chan A, Vasconcelos N.Counting people with low-level features and bayesian regression[J].IEEE Trans on Image Processing, 2012, 21(4): 60-77.

[10] Su H, Yang H, Zheng S. The large-scale crowd density estimation based on effective region feature extraction method[M]. Computer Vision-ACCV 2010. Springer Berlin Heidelberg, 2011.

[11] Kim G, An T, Kim M. Estimation of crowd density in public areas based on neural network[J]. KSII Transactions on Internet & Information Systems, 2012, 6(9): 2170-2190.

猜你喜歡
密度估計特征提取卷積
面向魚眼圖像的人群密度估計
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
基于MATLAB 的核密度估計研究
一種基于改進Unet的蝦苗密度估計方法
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計
NSD樣本最近鄰密度估計的強相合性
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
從濾波器理解卷積
基于Daubechies(dbN)的飛行器音頻特征提取
基于傅里葉域卷積表示的目標跟蹤算法
毕节市| 东平县| 武强县| 黄冈市| 汝城县| 天柱县| 陇西县| 黔东| 合水县| 高要市| 南华县| 防城港市| 平江县| 杭锦旗| 泾阳县| 灵璧县| 若尔盖县| 平乡县| 固始县| 黔江区| 沙田区| 临海市| 梁平县| 昌吉市| 孝昌县| 资源县| 兴文县| 汝州市| 霍邱县| 普兰店市| 图木舒克市| 健康| 兴仁县| 靖西县| 固始县| 阳曲县| 清水县| 乳山市| 武胜县| 安多县| 海晏县|