馬元元,李成龍,湯 進(jìn),2*,羅 斌,2
(1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.安徽省工業(yè)圖像處理與分析重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230601)
隨著平安中國(guó)、平安城市的提出,視頻監(jiān)控被廣泛應(yīng)用于各個(gè)領(lǐng)域,但是同時(shí)也帶來(lái)了一個(gè)問(wèn)題:海量的視頻監(jiān)控流使得發(fā)生突發(fā)事故后,需要耗費(fèi)大量的人力物力去搜索有效信息.若能對(duì)視頻中的行人進(jìn)行有效的外觀識(shí)別,便可顯著提高視頻監(jiān)控人員的工作效率,這對(duì)特定行人搜索、行人行為解析、視頻的檢索等問(wèn)題的研究也具有重要意義.在監(jiān)控視頻中,行人衣著是行人最重要的外觀特征,其顏色特征尤為直觀,所以準(zhǔn)確地識(shí)別行人衣著顏色是件非常有意義的工作.而目前國(guó)內(nèi)對(duì)于監(jiān)控場(chǎng)景下行人的研究?jī)H局限于行人檢測(cè)、行人分割、行人跟蹤,對(duì)行人外觀分析的研究很少,好的行人衣著識(shí)別方法更是屈指可數(shù).現(xiàn)階段,國(guó)內(nèi)外對(duì)于照片中的人物衣著識(shí)別已有比較成熟的技術(shù)[1-8],識(shí)別效果非常可觀.但是對(duì)高質(zhì)量的照片中人物衣著識(shí)別算法并不能直接應(yīng)用于視頻監(jiān)控場(chǎng)景下行人的衣著識(shí)別,這主要是存在以下兩個(gè)問(wèn)題:第一,通過(guò)視頻監(jiān)控捕獲的視頻圖像分辨率不高,對(duì)于算法中一些精細(xì)化的識(shí)別難度較大;第二,由于多數(shù)監(jiān)控?cái)z像頭安裝在室外,所以行人所處的環(huán)境復(fù)雜多變(如霧天、雨天等惡劣天氣環(huán)境下光線的變換),這將導(dǎo)致獲取的視頻圖像失真.Yang等[3]利用多圖迭代優(yōu)化分割算法分割出衣著區(qū)域,然后構(gòu)建了一個(gè)多圖模型,利用多張圖像的統(tǒng)計(jì)信息來(lái)優(yōu)化標(biāo)注結(jié)果,識(shí)別效果很好,但是速度較慢,且要求背景簡(jiǎn)單,圖像清晰.Chen等[4]提出了一種“與或圖”的組合圖模型對(duì)服裝的組合和配置進(jìn)行建模.Yamaguchi等[5]則提出了一種針對(duì)時(shí)尚照片中人物的衣著識(shí)別方法,首先估計(jì)人物姿勢(shì),再根據(jù)人物姿態(tài)去識(shí)別人物衣著,雖然具有很好的識(shí)別效果,但是同樣對(duì)照片質(zhì)量有較高的要求,只針對(duì)背景簡(jiǎn)單的單人衣著進(jìn)行識(shí)別.近期,還有一些工作專注于研究如何在高度遮擋的情況下對(duì)衣服進(jìn)行分割[6],如引入可形變組合模型對(duì)衣著的空間關(guān)系進(jìn)行建模[7],還有些識(shí)別方法通過(guò)引入基于形狀的人體模型[8]來(lái)提高衣著分割、識(shí)別的準(zhǔn)確性.論文針對(duì)如何在視頻監(jiān)控場(chǎng)景下有效識(shí)別出行人衣著顏色這個(gè)問(wèn)題進(jìn)行研究,并提出一個(gè)簡(jiǎn)單實(shí)用的可應(yīng)用于視頻監(jiān)控場(chǎng)景下的行人衣著顏色識(shí)別算法.其具體思路為:首先結(jié)合HOG(histogram of oriented gradient)和Grabcut算法分割出行人區(qū)域,然后通過(guò)外觀劃分模型將上下身衣著分開(kāi),對(duì)上下衣著區(qū)域分別取固定大小的小塊進(jìn)行分割,用KNN(K-nearest neighbor)分類器對(duì)每個(gè)小塊進(jìn)行顏色識(shí)別,得出顏色標(biāo)簽,最終通過(guò)所有小塊投票的方式來(lái)決定上下衣著的顏色.該算法的具體流程如圖1所示.
由于論文針對(duì)的是視頻監(jiān)控場(chǎng)景下行人衣著顏色識(shí)別,而在視頻圖像中,行人并不占據(jù)圖像的大部分.所以首先要確定行人的位置[9],然后通過(guò)分割算法獲得行人區(qū)域.由于只對(duì)行人進(jìn)行處理操作,所以相應(yīng)縮短了算法的處理時(shí)間,而且避免背景環(huán)境的干擾,大大提高了行人衣著顏色識(shí)別的準(zhǔn)確性.
梯度方向直方圖特征(即HOG特征),是圖像識(shí)別中最經(jīng)典也是最常用的特征之一.HOG特征結(jié)合SVM(support vector machine)分類器[10]已被廣泛應(yīng)用于圖像識(shí)別,并且在行人檢測(cè)中獲得了極大的成功.因此運(yùn)用HOG行人檢測(cè),先得到一個(gè)大致的包含行人的前景框.具體步驟如下:
步驟1 收集足夠的訓(xùn)練樣本,手動(dòng)剪裁出包含行人和不包含行人正負(fù)樣本,分別約為2 000張.
步驟2 將所有的樣本縮放到同樣的尺度大小,提取所有正樣本和負(fù)樣本的HOG特征.
步驟3 對(duì)所有正負(fù)樣本賦予樣本標(biāo)簽(正樣本賦予1,負(fù)樣本賦予0).
步驟4 創(chuàng)建兩個(gè)矩陣,矩陣A存放所有樣本的HOG特征(行數(shù)為樣本個(gè)數(shù),列數(shù)為HOG特征的維數(shù)),矩陣B存放的是矩陣A每行對(duì)應(yīng)的標(biāo)簽(即為一個(gè)列向量).
步驟5 將這兩個(gè)矩陣放進(jìn)SVM里訓(xùn)練,最后得到一個(gè)適合自己樣本集分類的分類器.
步驟6 利用訓(xùn)練好的分類器對(duì)行人進(jìn)行檢測(cè).
Grabcut是Rother Carsten等[11]提出的,它利用了圖像中的紋理顏色信息和邊界反差信息,只要用戶提供一個(gè)包含目標(biāo)的前景框就能得到比較好的分割結(jié)果.Grabcut算法主要包括彩色數(shù)據(jù)建模和通過(guò)迭代實(shí)現(xiàn)能量最小化,得到分割結(jié)果[12-14].
在通過(guò)HOG行人檢測(cè)畫出前景框之后,再用Grabcut算法對(duì)行人進(jìn)行一個(gè)精確的分割.具體步驟如下:
步驟1 首先將HOG行人檢測(cè)出的前景框擴(kuò)大1倍,取原前景框內(nèi)的像素為前景,取擴(kuò)大后的前景框與原前景框之間(藍(lán)框與紅框之間的區(qū)域,如圖2所示)的像素為背景,根據(jù)這個(gè)初始化,對(duì)前景和背景分別構(gòu)建GMM(gaussian mixture model)模型.
步驟2 求得擴(kuò)大后的前景框內(nèi)所有像素的GMM參數(shù),用最大流最小割算法進(jìn)行分割.
步驟3 返回步驟2,直到能量函數(shù)最小化收斂為止.
為了準(zhǔn)確地描述出行人衣著的顏色,在行人衣著顏色識(shí)別前需要對(duì)行人上下身進(jìn)行分割.在以前的監(jiān)控視頻場(chǎng)景下行人衣著識(shí)別方法中,前人并沒(méi)有注意到上下身衣著劃分對(duì)后期顏色識(shí)別的重要性,一般都是按照比例進(jìn)行劃分,這非常不符合實(shí)際生活中行人的穿衣類型的多樣性,所以識(shí)別結(jié)果準(zhǔn)確率不夠高.而對(duì)于衣著分割,Hu等[15]提出了一種利用約束三角刨分檢測(cè)圖像中的前景和背景,再結(jié)合Graphcuts算法的衣著分割方法,但是該方法存在以下幾方面的局限性:第一,文中默認(rèn)行人衣服為純色,袖子和身上衣服顏色是一致的;第二,該方法需要檢測(cè)人臉,若檢測(cè)失敗,將導(dǎo)致衣著分割不準(zhǔn)確;第三,該方法基于軀干檢測(cè),若軀干檢測(cè)不準(zhǔn)確,也將導(dǎo)致衣著分割不準(zhǔn)確.通過(guò)對(duì)前人的算法進(jìn)行研究,論文提出了一種基于外觀劃分模型的衣著分割方法.其具體思路為:得到大致的行人區(qū)域之后,首先根據(jù)分割行人區(qū)域?qū)?yīng)的RGB分量求出顏色變化的梯度圖,然后對(duì)顏色變化梯度圖做橫向投影分析,得到上下身衣著劃分線.為了確保劃分的準(zhǔn)確性,論文設(shè)定了劃分位置閾值,以保證劃分位置在上下身衣著分界線可能的位置.效果如圖3所示.
在分割出行人的上下身之后,傳統(tǒng)的方法是直接對(duì)上下裝分割區(qū)域提取顏色直方圖,然后放入分類器中去判別,最后給出識(shí)別結(jié)果.但由于并沒(méi)有精確分割出行人衣著,所以提取的顏色直方圖并不是單一的僅包含衣著區(qū)域的顏色特征,不能反映衣著顏色特征,這將很難保證算法的正確率.故本節(jié)運(yùn)用一種投票思想設(shè)計(jì)了一種衣著顏色識(shí)別方法.
由于上身和下身的面積不同,受光照影響程度不同,所以作者分別收集了上下身訓(xùn)練樣本,用KNN分類器分別對(duì)上下身著裝進(jìn)行顏色識(shí)別.首先,根據(jù)第1節(jié)的處理步驟,得出行人上身和下身分割圖;接著,分別對(duì)上下身取固定大小的小塊(效果如圖4所示);然后,取小塊中每個(gè)像素的RGB三通道值,求得RGB均值作為該小塊的顏色特征,用KNN分類器識(shí)別出每個(gè)小塊的顏色標(biāo)簽;最后,將每個(gè)小塊作為一個(gè)投票者,每種顏色標(biāo)簽為一個(gè)候選者,統(tǒng)計(jì)整個(gè)上身區(qū)域小塊的投票,進(jìn)行投票,顏色候選者中票數(shù)最多者便為衣服的顏色標(biāo)簽.
對(duì)于小塊的大小對(duì)實(shí)驗(yàn)結(jié)果的影響問(wèn)題,取小塊大小為3*3、3*5、5*10做了3組對(duì)比實(shí)驗(yàn),不同大小的小塊與識(shí)別的正確率如表1所示.實(shí)驗(yàn)表明小塊的大小對(duì)最終衣著顏色識(shí)別的正確率確有影響(如當(dāng)顏色為深灰色時(shí),小塊過(guò)大會(huì)將其識(shí)別為黑色;當(dāng)顏色為黑色時(shí),小塊過(guò)小則會(huì)將其識(shí)別成紫色).在論文中,小塊大小取3*5.
表1 小塊大小與正確率的關(guān)系Tab.1 The relation between the size of path and accuracy
作者在馬路邊架設(shè)了監(jiān)控?cái)z像頭,收集了2 560個(gè)行人上身已知樣本和1 135個(gè)下身已知樣本,總共分為11個(gè)顏色種類,分別為紅色、黃色、橘色、藍(lán)色、綠色、灰色、咖啡色、白色、黑色、紫色、粉色,每種顏色的上下身樣本個(gè)數(shù)如表2、3所示.為了驗(yàn)證論文方法的有效性,在pentium Dual-core(E5800)3.2GHz的CPU,2GB內(nèi)存的PC機(jī)上,以.NET為實(shí)驗(yàn)平臺(tái),使用C++編程語(yǔ)言在 Microsoft vs 2010實(shí)驗(yàn)環(huán)境下完成了驗(yàn)證實(shí)驗(yàn).
表2 各色上身樣本個(gè)數(shù)Tab.2 The number of samples with the upper part of the body
表3 各色下身樣本個(gè)數(shù)Tab.3 The number of samples with the lower part of the body
由于國(guó)內(nèi)外行人衣著顏色識(shí)別并不多[16-17],所以針對(duì)監(jiān)控場(chǎng)景下的行人衣著識(shí)別便更少.國(guó)內(nèi)胡江華等做了一些相關(guān)工作,主要是針對(duì)監(jiān)控場(chǎng)景下的行人衣著顏色識(shí)別,其他的大部分都是針對(duì)一些街拍圖片,所做的研究大多為了進(jìn)一步做服裝檢索[18-19].所以實(shí)驗(yàn)對(duì)象不同,運(yùn)用場(chǎng)景不同.胡江華等[20]首先結(jié)合形狀約束對(duì)Graphcuts分割算法進(jìn)行改進(jìn),使其能夠更加完整地分割出圖像中的行人,然后在不考慮遮擋的情況下,根據(jù)正常人的身高比例直接劃分上衣與下衣,然后提取衣著顏色特征,直接放入分類器中去做判別,最終得出上衣與下衣的顏色標(biāo)簽.
與胡江華等人所做的衣著顏色的識(shí)別方法相比,論文提出的外觀劃分模型更為合理且簡(jiǎn)單有效,不僅僅只是按比例劃分.因?yàn)樯舷律硪轮谋壤怯啥喾N因素決定的,如衣著類型、攝像機(jī)角度等,因此,單純按比例劃分很難保證上下身衣著劃分的準(zhǔn)確性,會(huì)影響后面的識(shí)別精度.而且論文在衣著識(shí)別階段采用了所有小塊投票的方式?jīng)Q定最終衣著的顏色,能夠很好地解決部分遮擋對(duì)衣著顏色識(shí)別的干擾,提高了識(shí)別的準(zhǔn)確性.表4為對(duì)比實(shí)驗(yàn)結(jié)果.實(shí)驗(yàn)表明,論文方法具有更高的準(zhǔn)確性.
表4 識(shí)別階段對(duì)比Tab.4 The correct rate’s comparision of different algorithms %
由于RGB顏色空間是受光照影響的,因此,在光照變化非常大的時(shí)候論文方法的魯棒性會(huì)降低,然而論文使用了不同光照條件下的樣本作為訓(xùn)練樣本,使得論文方法能夠克服一定的光照變化.為了驗(yàn)證該方法的有效性,作者在正常光照條件下對(duì)行人衣著進(jìn)行識(shí)別,部分實(shí)驗(yàn)結(jié)果可見(jiàn)圖5(其中:第一行圖為原圖像,第二行圖為識(shí)別結(jié)果圖).在較為昏暗的光照條件下(這里指傍晚的時(shí)候)行人的衣著顏色識(shí)別的部分實(shí)驗(yàn)結(jié)果可見(jiàn)圖6(其中:第一行圖為原圖像,第二行圖為識(shí)別結(jié)果圖).由部分實(shí)驗(yàn)結(jié)果可以看出,識(shí)別精度令人滿意.
實(shí)驗(yàn)證明,作者提出的方法是有效可行的,在收集的數(shù)據(jù)集上的上衣正確識(shí)別率可達(dá)89%,下衣識(shí)別正確率可達(dá)87%.對(duì)于一幅分辨率為90×190左右的行人檢測(cè)結(jié)果圖像,行人分割、外觀劃分和衣服識(shí)別的平均耗時(shí)為0.45秒.由于處理的圖像分辨率為1 980×1 080,因此,行人檢測(cè)算法(HOG算法)平均耗時(shí)較大,為2.55秒.具體的運(yùn)行時(shí)間如表5所示.一方面,論文是針對(duì)關(guān)鍵幀的行人衣著顏色識(shí)別問(wèn)題,該運(yùn)行時(shí)間可以滿足實(shí)際視頻監(jiān)控的需求.另一方面,可以從其他方面進(jìn)一步改善目前的算法復(fù)雜度,同時(shí)保證檢測(cè)精度,如降低圖像分辨率以及HOG算法的GPU并行化等.
表5 論文方法各階段時(shí)間Tab.5 The running time in each stage of the algorithm
在視頻監(jiān)控中,一般情況下行人之間存在遮擋的情況,但是論文方法對(duì)部分遮擋具有一定的魯棒性,如圖7中,當(dāng)行人被物體部分遮擋時(shí),只要遮擋不是很嚴(yán)重(約一半以上未被遮擋),識(shí)別結(jié)果仍然正確,表明了論文方法在部分遮擋情況下的魯棒性.對(duì)于嚴(yán)重遮擋的情況,可以通過(guò)視頻的時(shí)序信息進(jìn)行檢測(cè),根據(jù)遮擋結(jié)果來(lái)決定是否對(duì)目標(biāo)進(jìn)行識(shí)別,這是作者的下一步研究工作.
但值得注意的是,以上的較好的識(shí)別都是基于正確的行人分割和正確的上下身衣著劃分,二者任意一個(gè)出現(xiàn)錯(cuò)誤,都會(huì)導(dǎo)致識(shí)別結(jié)果出錯(cuò).例如嚴(yán)重的錯(cuò)誤分割會(huì)使得識(shí)別結(jié)果出錯(cuò),如圖8所示.這也是該方法的局限所在.
作者提出了一種新的視頻監(jiān)控中的行人衣著識(shí)別方法.首先通過(guò)HOG行人檢測(cè)算法檢測(cè)出行人,提取出包含行人的前景框;然后用Grabcut算法分割出行人的輪廓,用上下身劃分方法分出上身和下身;最后在上下身取小塊,對(duì)每個(gè)小塊的顏色進(jìn)行識(shí)別,然后通過(guò)投票的方式計(jì)算上下身的顏色標(biāo)簽.
在論文的實(shí)驗(yàn)中,行人分割花費(fèi)時(shí)間較大,且上下身劃分結(jié)果對(duì)識(shí)別精度影響較大.所以,在未來(lái)的工作中,應(yīng)著重考慮如何建立更加魯棒的外觀劃分模型以及有效的分割算法,以提高顏色識(shí)別的效率和正確率.
[1]Yamaguchi K,Kiapour M H,Berg T L.Paper doll parsing:Retrieving similar styles to parse clothing items[C]//Computer Vision(ICCV),2013IEEE International Conference on IEEE,2013:3519-3526.
[2]Kalantidis Y,Kennedy L,Li L J.Getting the look:clothing recognition and segmentation for automatic product suggestions in everyday photos[C]//Proceedings of the 3rd ACM Conference on Lnternational Conference on Multimedia Retrieval ACM,2013:105-112.
[3]Yang W,Luo P,Lin L.Clothing co-parsing by joint Image segmentation and labeling[C]//IEEE Conference on Computer Vision and Pattern Recognition,2014:407.
[4]Chen H,Xu Z J,Liu Z Q,et al.Composite templates for cloth modeling and sketching[C]//Computer Vision and Pattern Recognition,2006IEEE Computer Society Conference on IEEE,2006:943-950.
[5]Yamaguchi K,Kiapour M H,Ortiz L E,et al.Parsing clothing in fashion photographs[C]//Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on IEEE,2012:3570-3577.
[6]Wang N,Ai H.Who blocks who:Simultaneous clothing segmentation for grouping images[C]//Computer Vision(ICCV),2011IEEE International Conference on IEEE,2011:1535-1542.
[7]Hasan B,Hogg D.Segmentation using deformable spatial priors with application to clothing[C]//The British Machine Vision Conference(BMVC),2010:1-11.
[8]Bo Y,F(xiàn)owlkes C C.Shape-based pedestrian parsing[C]//Computer Vision and Pattern Recognition(CVPR),2011IEEE Conference on IEEE,2011:2265-2272.
[9]劉紅,周曉美,張震.一種改進(jìn)的三幀差分運(yùn)動(dòng)目標(biāo)檢測(cè)[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2014,38(6):55-59.
[10]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(4):743-761.
[11]Rother C,Kolmogorov V,Blake A.Grabcut:Interactive foreground extraction using iterated graph cuts[J].ACM Transactions on Graphics(TOG),2004,23(3):309-314.
[12]胡江華,王文中,羅斌,等.結(jié)合形狀約束的 Graph Cut行人分割[J].計(jì)算機(jī)應(yīng)用,2014,34(3):837-840.
[13]朱逸婷,李新華,任慧.一種改進(jìn)的分水嶺分割算法[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2013,37(3):56-60.
[14]王徐民,張曉光.視覺(jué)注意特征的變分水平集圖像分割模型[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2013,37(1):61-66.
[15]Hu Z L,Yan H,Lin X.Clothing segmentation using foreground and background estimation based on the constrained delaunay triangulation[J].Pattern Recognition,2008,41(5):1581-1592.
[16]Brown L M.Color retrieval for video surveillance[C]//Advanced Video and Signal Based Surveillance,IEEE Fifth International Conference on IEEE,2008:283-290.
[17]Borras A,Tous F,Llads J,et al.High-level clothes description based on colour-texture and structural features[J].Pattern Recognition and Image Analysis,2003(1):108-116.
[18]楊巍.基于圖像聯(lián)合分割與聯(lián)合標(biāo)注的服裝解析問(wèn)題研究[D].廣州:中山大學(xué)計(jì)算機(jī)學(xué)院,2014.
[19]Van De Weijer J,Schmid C,Verbeek J.Learning color names from real-world images[C]//Computer Vision and Pattern Recognition,CVPR'07,IEEE Conference on,IEEE,2007:1-8.
[20]胡江華.靜態(tài)圖像的行人分割及其應(yīng)用[D].合肥:安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2014.
安徽大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年5期