陳勝杰
摘 要:在智能視頻監(jiān)控場景下,由于攝像機視角、光照條件、姿態(tài)的不同,同一行人在不同場景下的外貌出現(xiàn)巨大差異。本文結(jié)合深度學(xué)習(xí)、視覺注意機制、稀疏表示等領(lǐng)域的理論與方法,重點研究視頻的視覺特征表示和選擇算法以及顯著性多特征的融合方法,實現(xiàn)視頻數(shù)據(jù)中視覺特征的多層次、多尺度提取,形成穩(wěn)定、可靠的視頻行人數(shù)據(jù)處理方法。
關(guān)鍵詞:視頻檢索;深度學(xué)習(xí);特征融合
中圖分類號:TP391.41文獻標識碼:A文章編號:1003-5168(2020)05-0055-02
Abstract: In the intelligent video surveillance scene, due to different camera angles, lighting conditions, and attitudes, the appearance of the same pedestrian in different scenes varies greatly. Combining theories and methods in the fields of deep learning, visual attention mechanism, and sparse representation, this paper focused on the visual feature representation and selection algorithm of video and the fusion method of significant multi-feature to achieve the multi-leveland multi-scale extraction of visual features in video data, forming a stable and reliable video pedestrian data processing method.
Keywords: video retrieval;deep learning;feature fusion.
行人重識別[1]是智能視頻監(jiān)控的關(guān)鍵組成部分,目前面臨諸多挑戰(zhàn)。對于傳統(tǒng)視頻監(jiān)控來說,在監(jiān)控區(qū)域多,保存視頻數(shù)據(jù)量大時,視頻數(shù)據(jù)的查詢、檢索將變得極其復(fù)雜。將視覺主觀注意模型引入智能視頻監(jiān)控系統(tǒng)中,可以實現(xiàn)對視頻場景中感興趣目標的自動定位、辨識與跟蹤,對檢測目標的行為實施分析與判斷。行人重識別技術(shù)是智能視頻監(jiān)控系統(tǒng)中的關(guān)鍵技術(shù)之一,當前有必要對行人重識別計算模型進行深入、有效的研究,提高智能視頻監(jiān)控系統(tǒng)的準確性。
“十三五”期間,我國社會經(jīng)濟蓬勃發(fā)展,科技創(chuàng)新日新月異,人們大力開展“平安中國”活動,加強視頻監(jiān)控和網(wǎng)絡(luò)化建設(shè)和應(yīng)用。目前,視頻分析和圖像檢測技術(shù)在打擊犯罪、安防、智慧城市、民生服務(wù)等方面發(fā)揮了越來越強大的作用[2]。
特征表示作為智能視頻監(jiān)控、視頻分析的關(guān)鍵技術(shù)之一,逐漸引起研究者的關(guān)注,被廣泛地應(yīng)用于行人重識別、圖像檢索、圖像分類及人臉識別與驗證等經(jīng)典問題中,成為計算機視覺領(lǐng)域中最熱門的研究課題之一。另外,受“平安中國”活動推動,智能視頻監(jiān)控得到極大的推廣和應(yīng)用,圖像、視頻資源變得越來越豐富,海量的圖像信號與視頻數(shù)據(jù)勢必為圖像理解、識別、檢索、視頻摘要、目標跟蹤等系統(tǒng)的執(zhí)行效率帶來挑戰(zhàn)。然而,研究人員指出,行人通常只是整個圖像或視頻幀的一部分。近年來,計算機視覺領(lǐng)域的研究一直致力于如何準確有效地從復(fù)雜的圖像場景中提取出有用的行人視覺信息,為后續(xù)的行人識別提供更加簡潔、精細的圖像內(nèi)容表達。眾所周知,生物視覺系統(tǒng)具有非常高效的數(shù)據(jù)篩選能力,能夠?qū)?fù)雜場景進行快速分析和理解,這得益于生物視覺的注意機制。目前,關(guān)于生物視覺注意的研究已經(jīng)很多,對人和動物大腦的認知過程進行了分析和討論。受此啟發(fā),計算機視覺通過模擬人的視覺注意機制,能夠有效地濾除和檢測圖像和視頻數(shù)據(jù)中描述行人的重要目標,濾除場景中多余的背景視覺信息[3],從而降低計算機對圖像和視頻內(nèi)容理解的復(fù)雜度,這是行人識別算法研究的核心目的。本文重點分析了基于視覺注意機制的行人重識別技術(shù)。
1 行人視覺特征表示
在行人重識別的應(yīng)用中,全局的顏色、紋理、形狀特征是最常使用的底層圖像特征,但不足以表達行人圖像局部細節(jié)的差異。因此,在本項目中,首先將圖像進行超像素劃分,針對超像素圖像塊,一方面利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來獲取圖像全局特征,另一方面采用基于視覺注意機制的深度網(wǎng)絡(luò)學(xué)習(xí)超像素塊的局部顯著特征。此外,考慮到視頻中行人圖像本身具有的特性,在構(gòu)建特征描述子時,還將引入申請人提出的局部結(jié)構(gòu)描述子并結(jié)合圖像顯著性檢測進行進一步完善,使它適應(yīng)行人重識別場景,讓該描述子可以有效地將顏色、紋理和形狀結(jié)合在一起表征圖像前景目標。上述三種描述子可以起到信息相互補充的作用,有利于提高行人重識別準確度。
訓(xùn)練階段,首先在圖像數(shù)據(jù)庫上選取一定數(shù)量的行人圖片構(gòu)成訓(xùn)練樣本,然后利用基于視覺注意機制的深度學(xué)習(xí)模型對訓(xùn)練樣本進行全局特征和局部特征學(xué)習(xí),從而得到更有區(qū)分能力的高級特征。同時,基于局部結(jié)構(gòu)描述子,高級特征和低級特征都將作為顯著性候選特征。測試階段,對于任意一幅測試圖像,首先利用訓(xùn)練好的深度模型,提取高級特征,然后提取局部描述子,最后利用顯著性多特征融合分類器或距離度量進行行人重識別。
2 視覺注意網(wǎng)絡(luò)建模
本文利用CNN作為空域特征深度學(xué)習(xí)網(wǎng)絡(luò)模型。其中,CNN本質(zhì)上是為識別二維形狀而特殊設(shè)計的一個多層感知器,它的結(jié)構(gòu)對平移、比例縮放、傾斜等變形具有高度不變性。這種性能優(yōu)勢對視頻行人重識別尤為重要,因為在視頻場景下,不同視頻幀中的同一行人可能具有不同的角度、位置、姿態(tài)等。CNN的結(jié)構(gòu)能夠有效克服以上問題,保證所獲得特征的魯棒性和區(qū)分能力。因此,筆者將充分借鑒CNN的上述優(yōu)點及在計算機視覺領(lǐng)域中的成功經(jīng)驗,以經(jīng)典的Tensorflow或Pytorch神經(jīng)網(wǎng)絡(luò)模型為訓(xùn)練和學(xué)習(xí)平臺,構(gòu)建新的網(wǎng)絡(luò)模型,完成行人重識別基本特征的學(xué)習(xí),開辟一條特征提取及表示的新途徑。
3 行人多特征顯著性分析與建模
顯著性是人類視覺對事物的某種質(zhì)與量的度量感知。對于行人重識別,顯著性特征是待識別行人有別于其他人的最根本特征。顯著性意識具有以下特點:一是具有代表性,能使被識別的行人與其他行人具有明顯的可分性;二是顯著性意識與行人各種特征的測量單位無關(guān),它反映了特征值對正確識別行人的貢獻。利用它,行人特征可以分為最顯著特征、次顯著特征和一般顯著特征等。由于行人圖像受多種不可控因素影響,顯著性度量準則不易采用確定形式的函數(shù)表示,應(yīng)該采用一個統(tǒng)計量表示。也就是說,最顯著特征對應(yīng)最大概率值,次顯著特征對應(yīng)次大概率值,以此類推。因此,課題擬采用最小錯誤概率度量特征的顯著性感知。
4 基于證據(jù)理論的決策級融合行人重識別
近年來,多源信息融合技術(shù)得到了迅速發(fā)展,行人重識別的多源信息融合大多采用像素級、特征級,很少看到?jīng)Q策級多源信息融合的行人重識別報道。DS證據(jù)理論是多源信息決策級融合的一種有效方法,本文將獲得的顯著性特征匹配作為證據(jù),在行人目標集中建立基本可信度,然后在同一決策框架下,用合并規(guī)則將不同的特征合并成統(tǒng)一的特征信息表示。實際應(yīng)用中,DS證據(jù)理論按照證據(jù)分配置信度函數(shù)給命題時,要受多種因素影響,不同方法可能產(chǎn)生不同的基本概率賦值公式,應(yīng)根據(jù)具體情況確定。一般來說,要根據(jù)特征對行人目標的度量以及其決策的重要性與可靠性等來構(gòu)造基本概率賦值。在DS證據(jù)組合規(guī)則中,各信息源所提出的證據(jù)是平等的。事實上,在各組信息源的可靠性、重要性不同的情況下,DS證據(jù)組合規(guī)則可能給出和客觀情況不符合的組合結(jié)果。因此,本課題在前面研究特征顯著性的基礎(chǔ)上給出了基于最小錯誤概率的加權(quán)置信指派函數(shù)。
5 結(jié)語
本文將深度學(xué)習(xí)、人類視覺注意機制和圖像稀疏性表示等技術(shù)引入行人重識別計算模型中,針對現(xiàn)有算法的幾個關(guān)鍵問題設(shè)計研究方案,提高行人重識別的準確率和效率。其中,在外觀特征提取和表示方面,要借鑒傳統(tǒng)特征提取方法中的成功經(jīng)驗,結(jié)合深度學(xué)習(xí)算法,通過建立視覺注意卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出具有良好魯棒性和區(qū)分能力的視覺特征。除了圖像理解領(lǐng)域,本文的研究成果也可以在計算機視覺、視頻理解、視覺搜索、視頻內(nèi)容的監(jiān)管和過濾等領(lǐng)域應(yīng)用。
參考文獻:
[1]彭志勇,常發(fā)亮,劉洪彬,等.基于HSV模型和特征點匹配的行人重識別算法[J].光電子·激光,2015(8):1575-1582.
[2]中國安全防范產(chǎn)品行業(yè)協(xié)會.中國安防行業(yè)“十三五”(2016—2020年)發(fā)展規(guī)劃[EB/OL].(2015-10-09)[2019-12-28].http://xh.21csp.com.cn/c59/201512/11379782.html.
[3]丁宗元,王洪元,陳付華,等.基于距離中心化與投影向量學(xué)習(xí)的行人重識別[J].計算機研究與發(fā)展,2017(8):1785-1794.