劉海華,程志君,諶先敢,高智勇
(中南民族大學(xué)生物醫(yī)學(xué)工程學(xué)院,武漢430074)
人體動作識別在智能視頻監(jiān)控系統(tǒng),高級人機(jī)交互以及基于內(nèi)容的視頻檢索等方面有著重要的應(yīng)用前景[1],引起了研究人員的廣泛關(guān)注 .由于在運(yùn)動特性、記錄條件、個體差異等方面的變化,人體動作識別是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域里最具挑戰(zhàn)性的識別問題之一.與此同時(shí),在腦科學(xué)等領(lǐng)域里,了解人腦對動作的感知能力,可對計(jì)算機(jī)視覺中的識別問題提供較大的啟發(fā),因此模擬人腦的視覺系統(tǒng)構(gòu)建識別模型,一方面加深了我們對人類大腦機(jī)制的理解,另一方面為我們在計(jì)算機(jī)上實(shí)現(xiàn)識別模型提供了新的方法.
近來,將基于生物學(xué)的方法應(yīng)用于真實(shí)世界中的目標(biāo)識別已經(jīng)取得了成功[2],研究者們通過對靈長類動物的腦皮層中視覺通路工作機(jī)理的研究,逐漸建立起分層式的模式分類與識別模型的思想,眾多由生物視覺感知啟發(fā)的特征計(jì)算模型被相繼提出,例如T.Serre和M.Riesenhuber改進(jìn)的HMAX模型,使得特征具有更高的選擇復(fù)雜性[3]以及 T.Serre,L.Wolf為解決特征的選擇性和不變形間的矛盾而提出的仿生識別模型[4].根據(jù)研究,人類視覺皮層由兩條通路組成:處理形狀信息的腹部通路和分析運(yùn)動信息的背部通路.這兩條通路的的組織結(jié)構(gòu)很相似[5]:他們都是層次結(jié)構(gòu)的,經(jīng)過一系列的處理階段后,逐漸增加了神經(jīng)元的選擇性[6].同時(shí),沿著這個層次結(jié)構(gòu),神經(jīng)元感受野(例如視野的一部分)經(jīng)過適當(dāng)?shù)拇碳ず?,能從神?jīng)元引起一個反應(yīng).在組成主視覺皮層的兩條通路中,腹部通路的主要作用是感知物體的存在,而背部通路的主要作用是定位由即時(shí)的運(yùn)動信息引起的刺激[7].早期的基于神經(jīng)生物學(xué)的動作處理模型模擬了視覺皮層中的背部通路,它成功的解釋了很多生理和心理數(shù)據(jù),但由于過于簡單以至于不能處理實(shí)際的視頻[8].
早期由Giese和Poggio提出的基于視覺皮層背部通路運(yùn)動處理的神經(jīng)生物學(xué)模型[6],成功地解釋了許多生理和心理數(shù)據(jù),后來Jhuang等人擴(kuò)展了這個簡單的神經(jīng)生物模型,提出了一種基于處理時(shí)空特征[9]的識別系統(tǒng),該系統(tǒng)是類似于視覺皮層中簡單細(xì)胞和復(fù)雜細(xì)胞依次交替的層次結(jié)構(gòu)的計(jì)算機(jī)識別模型.此模型通過從訓(xùn)練樣本中提取出的特征描述符建立特征模板,使得計(jì)算機(jī)可以根據(jù)模型自動的識別新輸入的視頻中的動作類型.此系統(tǒng)由一組逐漸復(fù)雜的時(shí)空特征檢測單元組成,并最終得到與位置無關(guān)的時(shí)空特征[10].在Jhuang提出的動作識別模型中,系統(tǒng)對輸入的視頻序列進(jìn)行了預(yù)處理:使用了Gaussian Mixture Model(GMM)背景相減技術(shù),然后截取了原視頻序列每幀圖像的一半(包含了運(yùn)動目標(biāo))作為系統(tǒng)的輸入序列[10].這些預(yù)處理技術(shù)過于依賴手工,并不完全符合生物視覺系統(tǒng)的原理.另外,該模型的特征提取方法是在C1層上隨機(jī)選取大量不同尺寸的小塊作為模型的特征模板,這種隨機(jī)選擇,容易選到背景信息,因此Jhuang使用了特征選擇技術(shù),從隨機(jī)選取的大量特征小塊中重新篩選出部分權(quán)重大的小塊作為模型的特征小塊,以到達(dá)降維的目的.這些處理步驟增加了模型的復(fù)雜度和耗時(shí).
Jhuang的模型解釋了視覺皮層中對運(yùn)動信息敏感的背部通路部分,但是他提取運(yùn)動的特征小塊過程是在隨機(jī)幀的隨機(jī)位置提取,這種特征描述法依賴于對輸入視頻的預(yù)處理,如背景剔除,陰影消除,形態(tài)濾波[11]及人體檢測和跟蹤[12]等,這些預(yù)處理過程一方面加大了系統(tǒng)的計(jì)算量,使得系統(tǒng)識別速度過慢,另一方面這些操作并沒有在真正意義上模仿生物視覺系統(tǒng),它是相當(dāng)于提取待分析的目標(biāo)后再送入視覺系統(tǒng),而不是神經(jīng)生物學(xué)中的對視覺場景中最相關(guān)區(qū)域進(jìn)行選擇和處理的這一原理.
在現(xiàn)實(shí)場景中,人類具有高效的注意周圍事物的能力,當(dāng)周圍環(huán)境中有大量的信息時(shí),我們并不是被動的接受所有的信息,而是選擇視覺中的某些部分進(jìn)行下一步分析.這種對輸入視覺的圖像中相關(guān)信息進(jìn)行選擇的能力是人類視覺系統(tǒng)所具有的最重要的能力之一,確保視覺系統(tǒng)對輸入的信息進(jìn)行優(yōu)化.相比通過視頻預(yù)處理和特征選擇這兩個步驟來獲取目標(biāo)特征信息的Jhuang的生物模型,人類視覺系統(tǒng)注意特性顯然性能更強(qiáng)大,因此,本文引入視覺注意機(jī)制,獲取更準(zhǔn)確的目標(biāo)模板,可以減少識別過程對手工的依賴性,同時(shí)提高識別的準(zhǔn)確性.
本文在已有的層次化動作識別模型上,加入了模仿人類視覺注意機(jī)制的處理過程,提出了結(jié)合運(yùn)動視頻圖像的顯著區(qū)域來獲取運(yùn)動的特征小塊的方法.此方法使我們的模型更加接近人類視覺的原理,降低了在背景上選取小塊的概率,使選取的小塊盡可能多地?cái)y帶有效的運(yùn)動信息,從而剔除了視頻圖像的預(yù)處理和特征選擇這些步驟,可以達(dá)到簡化原模型、改善識別率的目的.
視覺注意機(jī)制特指位于視覺系統(tǒng)頂層的觀察者所具有的對視覺場景中最相關(guān)區(qū)域進(jìn)行選擇和處理的能力,視覺信息進(jìn)行深入理解之前,對所搜集的信息進(jìn)行選擇,這些選擇可以減少場景理解的復(fù)雜性.為解決隨機(jī)選取小塊時(shí)容易選擇到背景信息導(dǎo)致模型的計(jì)算量大這一問題,我們借鑒了人類視覺機(jī)制,在Jhuang提出的層次化計(jì)算機(jī)識別模型中引入了注意機(jī)制.我們使用了Itti提出的視覺模型,得到視頻圖像的顯著區(qū)域,再結(jié)合顯著區(qū)域,也就是運(yùn)動目標(biāo)所在的區(qū)域來限定選取特征小塊的區(qū)域,以此提高所選特征小塊的準(zhǔn)確度.這種方法,能較大程度的避免在視頻圖像的背景信息上選擇特征小塊,從而可以省略模型對視頻圖像進(jìn)行背景相減和截取的預(yù)處理以及對特征小塊進(jìn)行多次刪選的操作.同時(shí),只針對視頻圖像的顯著區(qū)域進(jìn)行研究使我們的系統(tǒng)更進(jìn)一步的模擬了人類視覺皮層,也提高了我們的動作識別系統(tǒng)的準(zhǔn)確度.
我們模型的基本框架是基于逐漸復(fù)雜的層次結(jié)構(gòu)和不變的時(shí)空特征檢測單元,通過交替的模板匹配(增加所得特征的復(fù)雜性)和局部最大化操作(獲得對尺度,平移具有一定不變性的特征),系統(tǒng)獲得最終的特征表示.系統(tǒng)的結(jié)構(gòu)如圖1所示.
圖1 動作識別模型的結(jié)構(gòu)Fig.1 Sketch of the system
系統(tǒng)的輸入是一組經(jīng)灰度化處理后的視頻序列,我們用I來表示{Ii|i=1,2,…,nf}.系統(tǒng)的第一階段由一組對運(yùn)動敏感的S1單元組成,它模仿了視覺皮層背部通路中的V1簡單細(xì)胞.在我們的動作識別模型中,我們使用由Simoncelli和Heeger提出的三維高斯濾波器[11]作為系統(tǒng)第一階段的時(shí)空濾波器.對每一個輸入的視頻,經(jīng)過時(shí)空濾波器Fl(Fl的推導(dǎo)
[11])濾波后,系統(tǒng)獲得一個初步的運(yùn)動特征.對視頻中的每一幀Ii,每一個S1單元計(jì)算一層運(yùn)動特征,由于我們使用了多方向多速度的S1單元,因此每一幀經(jīng)過S1單元后得到一個三維的S1幀,我們用S1i表示.S1i由公式(1)獲得.
在公式(1)中,[·]+表示半路修正操作[7].我們通過在時(shí)間和空間上取亮度的平均值來對濾波器的響應(yīng)結(jié)果歸一化,并且用半路修正操作為積極的細(xì)胞響應(yīng)建模.我們用了4個方向和2個速度的一共8個時(shí)空濾波器.相應(yīng)的S1單元的感受野是9(像素)×9(像素).一個灰度視頻經(jīng)過S1單元后,輸出結(jié)果為一個每幀有多層(S1幀)的序列.圖2是KTH數(shù)據(jù)庫中person01的jogging動作視頻中的任選一幀后在4個不同方向,速度為每幀3個像素條件下的S1響應(yīng).
在S1的下一階段是C1階段,C1階段的操作是依方向進(jìn)行的,對每一個S1幀的每一層進(jìn)行局部最大值的匯聚操作.具體做法是將每一個S1幀的每一層劃分為c×c的格子,在每個格子中求最大值,這樣對S1幀的每一層都能得到一張減采樣過的最大值圖,我們采用的是c×c區(qū)域相互重疊一半的方法,最終得到具有不變性質(zhì)的C1響應(yīng).C1響應(yīng)由公式(2)獲得.在此階段,我們的系統(tǒng)獲得了對局部空間形變的容忍能力,同時(shí),最大值匯聚對雜亂的背景提供了魯棒性.
圖2 一幀的(0°,90°,180°,270°)4 個方向的 S 1 響應(yīng)Fig.2 S1 response of one frame in four direction(0°,90°,180°,270°)
在C1階段,我們用大小為8×8且區(qū)域重疊一半的網(wǎng)格對S1幀進(jìn)行局部最大化操作,既S1幀中每4×4區(qū)域的像素對應(yīng)到一個C1元素值,因此得到的C1幀比S1幀小(每一個C1層是輸入的S1層1/4),但幀數(shù)和層次的數(shù)量仍然和S1幀保持一致.
1.3.1 獲得視頻圖像顯著區(qū)域的方法
在動作識別中,運(yùn)動目標(biāo)所在的區(qū)域被認(rèn)為是視頻圖像的關(guān)鍵區(qū)域,也就是圖像的顯著區(qū)域.正確的找到視頻圖像的顯著區(qū)域有利于我們獲得更多有用的運(yùn)動信息,有助于提高我們識別系統(tǒng)的效果.
在現(xiàn)存的較多視覺模型中,我們選取具有代表性的Itti視覺模型,它在提取圖像的特征階段,采用多個底層視覺特征,如顏色,亮度,方向等;這些特征通過高斯金字塔和Center-Surround算子形成各個特征的關(guān)注圖,然后將這些特征合成一幅顯著圖.所謂的顯著圖,就是一幅和原始圖像大小相同的二維圖像,其中的每個像素值表示原圖像對應(yīng)點(diǎn)的顯著性大小.Itti顯著圖的原理是:(a)提取亮度I,顏色C和方向O的特征,具體實(shí)現(xiàn)的方法見公式(3)~(5);(b)用高斯濾波器對亮度,顏色和方向特征圖像進(jìn)行濾波,得到九層的高斯金字塔;(c)“中心-周圍”差分和歸一化操作,獲取亮度,顏色和方向特征圖;(d)對特征圖進(jìn)行跨尺度融合及歸一化后,合成視覺顯著圖[8].具體實(shí)現(xiàn)的方法見公式(6).
N(·)表示歸一化操作,它的作用是整體提升那些有部分強(qiáng)刺激峰值(醒目位置)的特征圖,而整體抑制那些包含大量可比峰值響應(yīng).圖3是從動作boxing,handwaving和walking的視頻中隨機(jī)選取幀獲得的顯著圖.
圖3 將原視頻圖像和顯著圖做與操作的結(jié)果Fig.3 Apply the saliencymap on the original video images
將視頻圖像中的運(yùn)動目標(biāo)提取出來的方法有很多,圖像分割是其中的一種,但對如圖3中的背景噪聲較大的圖像,用分割的方法不容易將運(yùn)動對象準(zhǔn)確的分割出來,而利用注意機(jī)制獲得圖像的顯著圖,再將原視頻圖像和與之相應(yīng)的顯著圖二值化后做與操作后,能較準(zhǔn)確的找到運(yùn)動目標(biāo)所在的區(qū)域,為隨后的在限定區(qū)域提取特征小塊做了較好的準(zhǔn)備,同在隨機(jī)位置選取小塊相比,本方法減少了選到包含背景信息的特征小塊的概率,且在理論上更接近人類視覺機(jī)制的原理.
1.3.2 提取特征模板的方法
對每一個動作類型,我們在訓(xùn)練集的C1幀中選取一定數(shù)量的不同尺寸的特征小塊,作為該類的動作原型來存儲.這些存儲的特征模板構(gòu)成了模型的中間級特征.為獲得這些特征模板,我們提出了結(jié)合顯著區(qū)域來提取特征小塊的方法.
C1幀是由輸入的灰度視頻序列經(jīng)過一次濾波和匯聚局部最大值操作后得到的,可以看作是原灰度視頻的特征的一個概括,既C1特征中包含有原視頻序列中的運(yùn)動目標(biāo)的特征,也包含背景的特征.C1幀和S1幀一樣,都是多層次的幀,為了在C1幀中提取到更加能表征視頻中運(yùn)動信息的特征小塊,我們首先確定要提取小塊的C1幀,通過這個C1幀來找到與之對應(yīng)的視頻序列中的某一幀,然后在這一幀圖像上運(yùn)用Itti算法得到此幅圖像的顯著圖.由于視頻圖像的顯著圖的大小和C1幀圖像的大小不一致,我們對顯著圖的大小進(jìn)行了調(diào)整,使它和C1幀圖像的大小一致.最后在C1幀上選取特征小塊時(shí),我們先在顯著圖中值為“1”的區(qū)域(圖4中顯著圖的白色區(qū)域)隨機(jī)選一點(diǎn),記錄此點(diǎn)的坐標(biāo),然后在C1幀的每一層上選取相同坐標(biāo)的點(diǎn)的鄰域,鄰域的大小由小塊的尺寸決定,這就完成了一個小塊的提取.總的來說,我們利用原視頻圖像中的顯著區(qū)域,通過對應(yīng)的坐標(biāo)變換,限制在C1幀中提取小塊的區(qū)域,再在這個限定的區(qū)域里隨機(jī)選擇小塊,通過這個方法來獲得穩(wěn)定有效的特征小塊.提取小塊的過程如圖4所示.
圖4 結(jié)合顯著圖在C1的特定區(qū)域提取小塊Fig.4 Extract patches on C1 with saliencymap
在訓(xùn)練集中,對每一類動作我們分別選取大小為n×n×L的特征模板.L是由S1單元濾波器的方向和速度決定的(濾波器有4個方向及2個速度,因此L=8).
在S2階段,我們再次使用濾波器對C1階段的輸出進(jìn)行濾波,產(chǎn)生新一輪的響應(yīng)圖.此時(shí)的濾波器不再是第一層用到的時(shí)空濾波器,而是將前面提取的特征小塊和C1幀做模板匹配操作,得到了對動作原型敏感的S2特征.具體方法見公式(7),我們使用的是稀疏的標(biāo)準(zhǔn)化點(diǎn)積操作.
公式(7)表示將第i個C1i幀和第p個特征小塊Pp進(jìn)行匹配得到S2ip,C1xyi表示C1幀中以點(diǎn)(x,y)為中心的大小為s×s×L的小塊.在我們的層次化系統(tǒng)中,S2單元的作用是增加了特征的復(fù)雜度和選擇度.
C2階段,在每一個S2特征的所有位置上進(jìn)行全局最大化操作.具體操作見公式(8).
在響應(yīng)C2i(p)中,第p個元素對應(yīng)著C1i與特征小塊Pp之間最好的匹配.通過這個最大值匯聚的操作后,C2特征增加了位置不變性.C2單元最后的結(jié)果是每一幀獲得一個向量表示.
分類器是我們識別系統(tǒng)的最后的一步,是將待分對象被劃歸為某一類而使用的數(shù)學(xué)模型.在分類的階段,本文使用的是支持向量機(jī)(SVM),每個視頻的C2特征向量被用來訓(xùn)練和測試支持向量機(jī).在訓(xùn)練階段,每一幀都由它所屬的視頻被分配一個標(biāo)簽.在測試階段,測試視頻的每一幀都獲得一個預(yù)測標(biāo)簽,通過對這些預(yù)測標(biāo)簽進(jìn)行投票的方法,測試視頻得到一個表示它的動作類別的標(biāo)簽.
KTH人類動作數(shù)據(jù)庫:KTH數(shù)據(jù)庫包含六類動作一共599個視頻,包括 boxing,hand waving,hand clapping,running,jogging,walking.這些動作由25 個動作目標(biāo)分別在4個不同的環(huán)境下完成.這4個環(huán)境分別是目標(biāo)在戶外(S1),伴隨著尺度變化的目標(biāo)在戶外(S2),不同著裝的目標(biāo)在戶外(S3),目標(biāo)在有光線變化的戶內(nèi)(S4).在實(shí)驗(yàn)中,我們對KTH數(shù)據(jù)庫的劃分是:在25個運(yùn)動目標(biāo)中,隨機(jī)選擇16個目標(biāo)作為訓(xùn)練集,剩下的9個目標(biāo)為測試集.我們一共做了5次隨機(jī)劃分,最后由這5次隨機(jī)劃分的平均結(jié)果作為系統(tǒng)最終的識別率.
為與文獻(xiàn)[7]的方法做比較,本文在沒有對視頻圖像做預(yù)處理,沒有對所選特征小塊進(jìn)行特征選擇的條件下,分別在KTH 4個不同環(huán)境中進(jìn)行了實(shí)驗(yàn),表1給出了本文和文獻(xiàn)[7]作比較的結(jié)果,其中文獻(xiàn)[7]使用的特征小塊個數(shù)為在12000個隨機(jī)選取的小塊擇優(yōu)篩選的部分特征小塊,我們使用的特征小塊個數(shù)為2400.
表1 文獻(xiàn)[7]與本文的結(jié)果比較Tab.1 Compare the resultswith reference[7]
由于文獻(xiàn)[7]中是隨機(jī)選取特征小塊,導(dǎo)致許多特征小塊攜帶的信息是屬于背景的,于是文獻(xiàn)[7]首先選取大量的動作特征小塊,然后重復(fù)的使用特征選擇技術(shù)對所選小塊進(jìn)行篩選,通過實(shí)驗(yàn)驗(yàn)證,這一過程較大的影響了系統(tǒng)的運(yùn)行效率,相對于此,在表1的結(jié)果中,本文的方法直接在限定區(qū)域選取較少的特征小塊,不再進(jìn)行特征選擇操作,在一定程度上簡化了模型,提高了系統(tǒng)的速度,同時(shí)不減少小塊所攜帶的相關(guān)信息,保證了模型的識別效果.
為驗(yàn)證本文的方法能較好的避免在視頻圖像的背景上選取特征小塊,我們對選取不同個數(shù)的特征小塊分別進(jìn)行了實(shí)驗(yàn).對每一類動作,每個尺寸的小塊的個數(shù)分別選 10,20,50,100,120 和 150,既六類動作分別一共選取了 240,480,1200,2400,2880 和3600個特征小塊(例如10×4(小塊的4個尺寸)×6(6類動作)=240).
另外,為進(jìn)一步測試我們的方法,我們混合了KTH4個環(huán)境下的動作來作為一個整體的數(shù)據(jù)庫,既同一個目標(biāo)在不同環(huán)境下的動作存放于同一目錄下.表2分別比較了獨(dú)立的4個環(huán)境和混合了4個環(huán)境的數(shù)據(jù)庫下,使用結(jié)合顯著區(qū)域提取特征小塊的方法,選擇不同個數(shù)的特征小塊的結(jié)果.需要注意的是,雖然系統(tǒng)最終的識別率是5次隨機(jī)劃分的平均值,但對于不同的實(shí)驗(yàn),我們比較的是相同的劃分情況下的結(jié)果,也就是做了5次隨機(jī)劃分之后,以后的實(shí)驗(yàn)都按照這5次劃分的結(jié)果來計(jì)算.
表2 選取不同個數(shù)的特征小塊時(shí)系統(tǒng)的識別率Tab.2 Recognition rate of different patches number
圖5是對表2中選取小塊個數(shù)和系統(tǒng)識別率之間的關(guān)系分析所得的曲線圖,從圖5可見,當(dāng)選取的小塊個數(shù)較少時(shí),系統(tǒng)的識別率隨著選取特征小塊的個數(shù)的增加而增加,說明了只有選擇了足夠多的特征小塊,包含了足夠的動作特征信息,系統(tǒng)才能達(dá)到更好的識別率.同時(shí)我們可以看到,當(dāng)選取的小塊個數(shù)較多時(shí),系統(tǒng)的識別率逐漸趨于平穩(wěn),不再隨著特征小塊個數(shù)的增加而增加,表明了特征小塊所攜帶的信息達(dá)到了飽和.這說明,我們在限定的區(qū)域選取小塊個數(shù)越多,小塊的重復(fù)率越大,因此,對本方法來說,不需要為了達(dá)到更好的識別率而選取大量的特征小塊,這說明了在模型中引入了注意機(jī)制后,提高了系統(tǒng)對“視覺場景”分析的效率,更符合人眼對視覺場景的觀察過程.
由表2可知,在S1,S3和S4環(huán)境下使用結(jié)合顯著圖提取特征小塊的方法,系統(tǒng)的識別率能和文獻(xiàn)[7]中隨機(jī)選取小塊的方法達(dá)到一致或更好.但在S2環(huán)境下時(shí),識別率反而有所下降,分析其原因是由于S2環(huán)境比其他環(huán)境復(fù)雜,背景噪聲大,在S2環(huán)境原視頻圖像中提取顯著區(qū)域時(shí)容易把背景區(qū)域當(dāng)成圖像顯著區(qū)域的一部分,造成提取的特征小塊包含了一定的背景信息,影響了最終的識別率.
圖5 不同小塊個數(shù)的識別率Fig.5 Recognition rate of different patches number
本文在Jhuang的層次化動作識別模型的基礎(chǔ)上,對此模型進(jìn)行了改進(jìn):引入了視覺注意機(jī)制,去掉了視頻圖像的預(yù)處理以及對所選的特征小塊進(jìn)行特征選擇的操作,不再采用隨機(jī)選擇特征小塊的方法,而是結(jié)合視頻圖像的顯著圖限定了選取特征小塊的區(qū)域,使得所選的特征小塊盡可能多的包含其所屬動作類別的信息,在降低系統(tǒng)對手工的依賴的同時(shí),也更準(zhǔn)確模擬了人類視覺機(jī)制.這種特征描述法能在一定程度上降低我們動作識別模型的復(fù)雜度,減少系統(tǒng)對特征小塊的個數(shù)的需求.總的來說,我們?yōu)榻鉀Q仿生模型對手工的依賴性和計(jì)算量大的問題,借鑒了人類視覺系統(tǒng),在仿生模型中引入了注意機(jī)制,在提高系統(tǒng)的識別效率的同時(shí),也使得識別模型更具有仿生意義.
實(shí)驗(yàn)結(jié)果證明本文的方法能快速提取有效的特征小塊,使得我們的動作識別模型在選取的特征小塊個數(shù)較少時(shí),依然能有較好的識別率,即提高了模型的運(yùn)行速度,同時(shí)又改善了模型的識別率.但是,本文使用Itti視覺模型提取圖像顯著區(qū)域的方法只適用于背景較為簡單,運(yùn)動目標(biāo)較為突出的視頻圖像,當(dāng)背景噪聲過大時(shí),此算法容易將噪聲判斷為顯著區(qū)域,影響了顯著區(qū)域的準(zhǔn)確性.因此,下一步工作我們將改進(jìn)提取視頻圖像顯著圖的算法,使得在一定的噪聲干擾條件下,仍能準(zhǔn)確的找到運(yùn)動目標(biāo)所在區(qū)域.
參考文獻(xiàn)
[1]Blake R,Shiffrar M.Perception of human motion[J].Annu Rev Psychol,2007,58:47-73.
[2]Ranzato M,Huang F,Boureau Y,et al.Unsupervised learning of invariant feature hierarchies,with application to object recognition[C]//CVPR.Computer Vision and Pattern Recognition.New York:CVPR,2007:1-8.
[3]Serre T,RiesenhuberM.Realisticmodeling of simple and complex cell tuning in the hmax model and implications for invariant object recognition in cortex[J].Computer Sciences,2004,7(3):29-48.
[4]Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex[J].IEEE Computer Vision and Pattern Recognition,2005,6(2):994-1000.
[5]Saito H.Brain Mechanisms of Perception and Memory[M].Oxford:Oxford Univ Press,1993:121-140.
[6]Giese M , Poggio T.Neuralmechanisms for the recognition of biologicalmovements and action[J].Nat Rev Neurosci,2003,12:31-49.
[7]Decety J,Grèzes J.Neural mechanisms subserving the perception of human actions[J].Trends in Cognitive Sciences,1999,3:29-51.
[8]Simoncelli EP and Heeger DJ.A model of neural responses in visual area MT[J].Vision Research,1998,38:743 –761.
[9]Blank M,Gorelick L,Shechtman E,et al.Actions as space-time shapes[J].IEEE Computer Vision,2005,10(2):1395-1402.
[10]Jhuang H,Serre T,Wolf L,et al.A biologically inspired system for action recognition[C]//ICCV.Computer Vision.Cambridge:ICCV,2007:1-8.
[11]楊躍東,郝愛民.基于動作圖的視角無關(guān)動作識別[J].軟件學(xué)報(bào),2009,20(10):2679-2691.
[12]黃飛躍,徐光祐.視角無關(guān)的動作識別[J].軟件學(xué)報(bào),2008,19(7):1623-1634.