劉仁硯 蔡曉東 黃嘉成 梁東旭 甘凱今
(桂林電子科技大學(xué)信息與通信學(xué)院,廣西 桂林 541004)
基于視頻監(jiān)控場景的用戶視覺注意力模型
劉仁硯 蔡曉東 黃嘉成 梁東旭 甘凱今
(桂林電子科技大學(xué)信息與通信學(xué)院,廣西 桂林 541004)
視頻監(jiān)控圖像幀中所有物體具有同等地位,造成用戶感興趣的物體并沒有能夠分配到更多的視覺注意力。文章針對視頻監(jiān)控場景,構(gòu)造了一個兩層的用戶視覺注意力模型,首先,進(jìn)行前景和背景的分類,其次,通過用戶對前景和背景的理解,將物體的視覺重要性進(jìn)行特征屬性的抽象化表述,最后,根據(jù)注意力模型計算物體的重要性。模型旨在借鑒人類的視覺系統(tǒng),獲取一個基于視頻監(jiān)控場景的用戶視覺注意力模型。實驗表明,該模型獲得了良好的效果。
視頻監(jiān)控;視覺注意力模型;物體重要性
如何對大量的視頻監(jiān)控場景進(jìn)行快而有效的分析,是監(jiān)控領(lǐng)域亟待解決的問題[1]。人類的視覺系統(tǒng)通過判斷視覺場景中物體的重要程度,能夠準(zhǔn)確、高效地將視覺注意力集中到重要的物體上,并對具有較高視覺注意力的圖像信息進(jìn)行細(xì)致而深入的分析。
在圖像研究領(lǐng)域,描述場景的視覺注意力信息時常使用“顯著圖”的方法。文獻(xiàn)[2]利用視覺顯著圖過濾與檢索任務(wù)不相關(guān)的背景信息。文獻(xiàn)[3]使用注意力驅(qū)動模型提取圖像顯著圖,將能代表圖像的部分分割出來。文獻(xiàn)[4]通過計算圖像灰度通道與彩色拮抗對的顯著性描述,將三者的加權(quán)平均作為彩色圖像的顯著圖。
然而顯著圖本身是基于對像素的操作獲取的,既不能反映觀察者感興趣物體的重要性,無法完整地表示感興趣物體的形狀。對于抽象的人類視覺觀察系統(tǒng),如何去衡量觀察者感興趣物體的重要程度正是本文的主要研究內(nèi)容。
人類的視覺注意力機制在處理復(fù)雜場景時,選擇性地對信息進(jìn)行分析和處理,從而使得視覺注意點集中在場景中的某些物體[5]。對觀察者而言,物體的視覺重要程度取決于人類視覺系統(tǒng)對物體感知特征的敏感程度。在視頻圖像幀中,物體的視覺重要性可以被諸如運動、大小、紋理、顏色、位置等圖像屬性所表示,這些屬性信息從不同方面表達(dá)了一個物體的重要性程度。使用圖像屬性對視頻圖像幀中物體的視覺重要性進(jìn)行定義,這與人類視覺系統(tǒng)的工作方式相一致,由此,本文提出了一個基于圖像屬性的兩層用戶視覺注意力模型,模型結(jié)構(gòu)如圖1所示。
圖1 用戶視覺注意力模型的兩層結(jié)構(gòu)圖
2.1第一層:前景和背景物體的分類
在用戶視覺注意力模型中,對監(jiān)控場景視頻的前景物體和背景對象進(jìn)行分類具有重要意義[6]。這是由于在對監(jiān)控視頻做進(jìn)一步分析處理之前,選擇一個依賴于應(yīng)用并且有意義的視覺信息的子集特征可以減小場景分析的復(fù)雜性。這個特征就是人類視覺系統(tǒng)的“注意力特征”。由于使用攝像機進(jìn)行監(jiān)控的過程中,視頻中背景物體往往要比前景物體大得多,而且對于本文研究的視頻場景,抽取的前景物體才是人類感興趣的目標(biāo),因此,把前景和背景的視頻物體的大小、運動、位置和編碼復(fù)雜度直接進(jìn)行比較是不合理的。為了建立更為合理的視覺注意力模型,本文從最佳的視頻質(zhì)量控制的角度出發(fā),創(chuàng)新性的把視頻中的物體以組的形式進(jìn)行分類,然后再去比較組中的重要性特征。
本文提出的物體重要性模型是根據(jù)視頻物體的分類情況由組級別來確定各個視頻對象的重要性。為了定義基于前景和背景組的重要性,用表示第t幀的第i個物體在前景和背景分類時的重要性,如下所示:
其中α和β依賴于視頻監(jiān)控的具體應(yīng)用,當(dāng)物體i屬于背景時,其獲得的重要性大小為α,當(dāng)物體i屬于前景時,其獲得的重要性大小為β,(α,β)∈[0,1]且α+β=1。
2.2第二層:重要性特征的分析
在傳統(tǒng)的多視頻目標(biāo)速率控制算法中,物體的大小是影響視頻目標(biāo)重要性的主要因素,但位置信息卻沒有被平等地對待。正常情況下,觀察者更多關(guān)注的是處于視覺場景中心位置的物體,而且同一物體在不同的位置將會得到不同的注意力。由此可見,物體的位置信息對視覺注意力具有一定的影響,應(yīng)該作為影響物體重要性的因素之一。
一方面,對于前景物體,本文采取的策略是使用大小和位置相結(jié)合的歸一化高斯函數(shù)來定義物體的重要性。在第 t幀,物體i的大小和位置因子對于整個物體重要性的貢獻(xiàn)定義如下:
其中,iM是物體i的二元分割掩膜,x,y是物體的坐標(biāo),表示在中心位置(W-1)/2和(H-1)/2的歸一化高斯函數(shù),如下所示:
其中,xμ,yμ,xσ,yσ是x和y的平均值和標(biāo)準(zhǔn)差,滿足:其中,T是向量轉(zhuǎn)置,W和H分別表示視頻幀圖像大小的寬度和高度。
另一方面,對于背景物體,不管背景物體出現(xiàn)在什么位置都不是我們的感興趣點,所以不考慮位置,只用大小來計量物體的重要性。此外,如果有多個背景物體時,每個物體的重要性將被同等對待,用同一個重要性參數(shù)計算背景物體的重要性,如下:
靜態(tài)場景下,運動物體會更容易引起觀察者的注意[7]。一般來說,在視頻監(jiān)控應(yīng)用中,觀察者注意的是相對運動或相對靜止的前景物體而不是背景物體。因此,對于背景物體,運動不作為重要性考慮的因素。對于前景物體而言,物體本身和攝像頭之間存在著相對運動的關(guān)系。具體的監(jiān)控應(yīng)用可分為以下兩種情況:一種是攝像頭固定,背景不變,前景相對攝像頭運動;另一種是攝像頭隨著前景運動而相對靜止。對于前者,在整個攝像頭能攝取到運動物體的過程中,把相對運動的物體的運動作為重要性的度量。這是因為,如果一個前景物體在一個監(jiān)控區(qū)域相對攝像頭運動,它表明這個物體是觀察者感興趣的方面。對于后者,相對攝像頭靜止的運動常常度量重要性,它表明這個物體正在被跟蹤而應(yīng)該給與更高的視覺重要性。綜上,無論是相對運動還是相對靜止,用定義第t幀物體i的運動因子的重要性,如下式所示:
在兩層用戶視覺注意力模型中,編碼復(fù)雜性是計算重要性所需考慮的另一個因素。傳統(tǒng)方法中對于編碼的復(fù)雜性通常使用變化程度來度量。在室外監(jiān)控系統(tǒng)中,就強度變化而言背景物體是復(fù)雜的。但是,由于背景的復(fù)雜性不是觀察者感興趣的,所以并不意味著復(fù)雜的背景的重要性就高于簡單的前景。這也使得傳統(tǒng)度量編碼復(fù)雜性的方法在許多場景沒有明確的物理含義。因此,為了使編碼更具意義性,對于前景物體i而言,用物體的任意形狀區(qū)域的信息來度量物體重要性的編碼復(fù)雜性,如式(7)所示:
k,jRS和jRI由Blob塊檢測算法得到。
基于上述討論,構(gòu)成兩層重要性模型的所有因子有:大小和位置因子,運動因子,編碼復(fù)雜性因子,表示第 t幀的視頻中物體i的總視覺重要性度量,如下式所示:
其中,|.|表示每個因子的歸一化運算,λ,μ和υ分別表示了大小和位置,運動以及編碼復(fù)雜性的權(quán)重。它們表示在觀察者的視角每一個參數(shù)的重要性,約束條件是(λ,μ,υ)∈[0,1]且λ+μ+υ=1。
為了驗證所提出的基于視頻物體本身的兩層用戶視覺注意力模型的有效性,實驗選取一段行人視頻序列的前60幀進(jìn)行視頻物體重要性的計算。
對于本文的視頻監(jiān)控場景而言,前景物體比背景物體更加的重要,同時,每一個前景物體的大小和位置、運動、編碼復(fù)雜性都具有相似的重要性,所以,基于該視頻序列,可設(shè)置相似的權(quán)重值(λ,μ,υ)=(0.3,0.4,0.3)。需要指出的是,這三個權(quán)重參數(shù)是根據(jù)具體的應(yīng)用場景進(jìn)行設(shè)置。
如圖2所示,視頻場景中包含三個物體:行人A、行人B和道路。行人A和行人B是前景物體,道路作為背景物體。視頻中,行人A現(xiàn)在中心位置逗留,然后向左移動,逐漸走出監(jiān)控區(qū)域,行人B從左向右走過從監(jiān)控區(qū)域。前45幀行人A在視頻的中心位置附近,這是觀察者注意力集中的地方。隨著行人A遠(yuǎn)離中心的位置,行人B往視頻中心的方向靠近,使得行人B逐漸得到越來越多的視覺注意力而越來越重要,反之,行人A越來越不重要。
圖2 (a)原始視頻幀圖像;(b)提取的前景物體;(c)提取的背景物體
圖3 影響物體重要性的特征因子分析圖
由圖 3(a)可知,對于大小和位置高斯函數(shù)確定的物體重要性而言,在26幀之前,由于行人A處于視頻的中心位置附近,行人B在視頻的左側(cè),此時,行人A的值高于行人B。隨著行人A在中心位置的偏離,行人B從左側(cè)漸漸走入視頻畫面,兩者大小和位置均發(fā)生變化,在32幀之后使得行人B越來越重要,其值最終高于行人A的。
由圖3(c)可知,圖2中兩個前景物體的區(qū)域色彩已經(jīng)確定,使得行人A的總是高于行人B且相差不大。
由圖3(d)可知,48幀之前行人A比行人B得到了更多的注意力,之后行人B逐漸成為用戶注意力的中心所在,而且,背景信息的重要性遠(yuǎn)遠(yuǎn)小于行人A和行人B的重要性。
本文提出了一種針對視頻監(jiān)控場景的兩層用戶視覺注意力模型,能夠準(zhǔn)確的描述視頻圖像中吸引注意力的物體信息。通過計算視頻物體的VPV值來定義物體的視覺重要性。這種模型可以容易地運用到視頻的快速分析算法中,進(jìn)一步保證了分析的正確性和魯棒性。接下來的研究工作將重點放在視覺注意力模型的應(yīng)用部分,希望能聯(lián)合模型本身應(yīng)用到具體的視頻分析中,如行人檢測與跟蹤。
[1] 梁曄,劉宏哲.基于視覺注意力機制的圖像檢索研究[J].北京聯(lián)合大學(xué)學(xué)報(自然科學(xué)版),2010,24(1):30-35.
[2] 胡勝雄,尚趙偉,張?zhí)?等.基于視覺顯著圖的彩色圖像檢索[J].計算機工程,2012,(8):189-191.
[3] 王雪峰.一種基于注意力驅(qū)動模型提取圖像顯著圖的方法[J].伊犁師范學(xué)院學(xué)報(自然科學(xué)版),2011,(1):58-61.
[4] 黃虹,張建秋.彩色自然場景統(tǒng)計顯著圖模型[J].復(fù)旦學(xué)報(自然科學(xué)版),2014,53(1):51-58.
[5] 葉剛.基于視覺注意的立體視頻感興趣區(qū)域提取[D].杭州:浙江大學(xué),2013.
[6] 李慶武,蔡艷梅,徐立中.基于分塊分類的智能視頻監(jiān)控背景更新算法[J].智能系統(tǒng)學(xué)報,2010,(3):272-276.
[7] 孫業(yè).基于運動選擇注意的目標(biāo)跟蹤系統(tǒng)的研究[D].天津:河北工業(yè)大學(xué),2012.
User visual attention model based on video surveillance scene
All objects in the frame of surveillance video have equal status, so that the objects which users interested in may not have more attention. A two-level user visual attention model are proposed for video surveillance scenes in this paper. Firstly, classify foreground and background objects, and then, according to user’s understanding of foreground and background, abstractly express the visual importance related to feature property, finally, calculate the visual importance of the object according to visual attention model. In video surveillance scene, the model aim to extract a user visual attention model learn from the human vision system. The validity of the model has been confirmed through a series of experiments.
Video surveillance; visual attention model; importance of objects
TP391.4
A
1008-1151(2015)09-0030-03
2015-08-10
國家大學(xué)生創(chuàng)新性實驗計劃(101059509)。
劉仁硯(1995-),男,桂林電子科技大學(xué)信息與通信學(xué)院學(xué)生,研究方向為通信工程;蔡曉東(1971-),男,桂林電子科技大學(xué)信息與通信學(xué)院碩士生導(dǎo)師,研究方向為圖像和視頻處理、模式識別與智能系統(tǒng)。