惠開發(fā)+皋軍
摘要:視頻概念檢測領(lǐng)域一直存在語義鴻溝難以跨越的問題。針對該問題,提出了基于多核屬性學(xué)習(xí)方法,將屬性概念引入視頻概念分類中,利用屬性的高級語義表達(dá)能力,降低語義鴻溝影響,同時(shí)結(jié)合多核學(xué)習(xí),提高多特征下屬性分類器性能。在公有數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)表明,該方法可以有效提高視頻概念檢測正確率。
關(guān)鍵詞:視頻語義;概念檢測;多核學(xué)習(xí);屬性學(xué)習(xí)
DOIDOI:10.11907/rjdk.171831
中圖分類號:TP306
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1672-7800(2017)006-0001-04
0 引言
隨著物聯(lián)網(wǎng)的發(fā)展,視頻監(jiān)控設(shè)備應(yīng)用到諸多場景中,為維護(hù)城市和諧安寧,提高人們生活質(zhì)量發(fā)揮了顯著作用。大量的視頻監(jiān)控設(shè)備產(chǎn)生了海量視頻文件,視頻的查閱、存儲(chǔ)、傳輸、歸檔和檢索問題顯現(xiàn),研究者提出了視頻語義分析[1]概念,希望利用機(jī)器自動(dòng)地檢測視頻內(nèi)容,從而減輕甚至代替人工檢測工作。
監(jiān)控視頻序列包含前景對象和背景對象,通常情況下,人們感興趣的內(nèi)容集中在運(yùn)動(dòng)的前景對象上。而前景通常包含多種概念,如人、車、物,這些語義概念又可以進(jìn)一步細(xì)化。比如人按年齡分有小孩、成人、老人,按性別分有男人和女人,按照體型分有高矮胖瘦,還可以按穿著或膚色等分類。視頻中的語義概念包含大量的高級語義特征,而目前如顏色、形狀、紋理等底層特征還停留在低級語義描述上。為跨越視頻檢測的語義鴻溝[2],本文引入屬性學(xué)習(xí)[3]方法來關(guān)聯(lián)底層視覺特征與屬性的關(guān)系。為更好地利用提取出的多種特征,引入了多核學(xué)習(xí)[4]生成合成核,并將其運(yùn)用到屬性預(yù)測模型訓(xùn)練中去。
1 多核屬性學(xué)習(xí)模型
1.1 多核學(xué)習(xí)模型
在利用屬性分類器進(jìn)行預(yù)測分類之前,首先需要對訓(xùn)練樣本提取的特征進(jìn)行學(xué)習(xí)和訓(xùn)練。由于屬性的多樣性,若僅提取單一特征則不能滿足屬性學(xué)習(xí)需求,通常情況下會(huì)對訓(xùn)練樣本提取多組特征。目前的方法是將特征向量直接拼接形成新的特征向量,也有學(xué)者將特征送入視覺詞袋,通過統(tǒng)計(jì)詞頻得到新的詞袋特征,再對新獲取的特征向量進(jìn)行訓(xùn)練。這兩種融合方法屬于前期融合,思路簡單,忽視了特征之間的差異性。因此,提出了特征后期融合方法,即多核融合學(xué)習(xí)。通過對不同特征分別產(chǎn)生核空間矩陣,計(jì)算多個(gè)核矩陣的權(quán)重系數(shù),加權(quán)求得融合后的核空間矩陣,將其送入分類器或回歸函數(shù)進(jìn)行訓(xùn)練,采用加權(quán)相加的線性求和方式獲取最終的融合核。多核融合如圖1所示。
1.3 基于多核屬性學(xué)習(xí)模型的遷移學(xué)習(xí)
遷移學(xué)習(xí)[6]一詞意指在信息大爆炸時(shí)代,新的概念不斷出現(xiàn),無法像傳統(tǒng)的機(jī)器學(xué)習(xí)那樣分類或檢測某類事物,搜集大量的訓(xùn)練樣本,并對樣本數(shù)據(jù)進(jìn)行標(biāo)注。傳統(tǒng)的學(xué)習(xí)方法是建立在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從相同的分布假定基礎(chǔ)上的,而實(shí)際情況是不同分布的概念之間存在共通的特征或?qū)傩?,通過學(xué)習(xí)現(xiàn)有的有限樣本遷移到未知領(lǐng)域。監(jiān)控視頻場景下的概念檢測屬于異構(gòu)空間場景的學(xué)習(xí)任務(wù),且監(jiān)控視頻中各個(gè)場景出現(xiàn)的概念對象具有多樣性特點(diǎn),具有使用遷移學(xué)習(xí)的需求。直接屬性預(yù)測模型(DAP)可以解決訓(xùn)練樣本和測試數(shù)據(jù)分布不同的問題。監(jiān)控場景下語義概念具多樣性和可變性,因此可以利用給定的訓(xùn)練樣本和不可預(yù)見的測試數(shù)據(jù)之間的共有屬性進(jìn)行遷移學(xué)習(xí),實(shí)現(xiàn)零樣本學(xué)習(xí)目標(biāo)。學(xué)習(xí)過程如圖3所示。
2 實(shí)驗(yàn)與結(jié)果分析
為了驗(yàn)證方法的有效性,本文設(shè)置了3組實(shí)驗(yàn):①通過迭代求解加權(quán)系數(shù),并驗(yàn)證求解算法的有效性;②設(shè)立對比實(shí)驗(yàn),以評價(jià)基于多核屬性學(xué)習(xí)的遷移學(xué)習(xí)框架性能;③評價(jià)基于多核屬性模型的視頻多概念檢測有效性。
2.1 加權(quán)系數(shù)優(yōu)化求解算法驗(yàn)證實(shí)驗(yàn)
在數(shù)據(jù)集Flower Category Database[7]上進(jìn)行加權(quán)系數(shù)求解實(shí)驗(yàn),對樣本提取3種特征,分別是1 500維的SIFT_BoW特征,140維的HOG特征,128維的HSV特征。這里需要說明的是,由于樣本圖像SIFT特征的維數(shù)不能確定,故對原始特征進(jìn)行Kmeans聚類,生成K個(gè)聚類中心,然后利用視覺詞袋模型對特征詞頻進(jìn)行統(tǒng)計(jì),最后得到K維的SIFT_BoW特征。
在核函數(shù)方面選取了高斯核:k(x,y)=exp(‖x-y‖)2[]2σ2,直方圖交叉核:k(x,y)=∑n[]i=1min(xi,yi),以及多項(xiàng)式核:k(x,y)=(x y+c)d,分別對實(shí)驗(yàn)數(shù)據(jù)集合中的樣本進(jìn)行測試。本文設(shè)計(jì)了對比實(shí)驗(yàn),將3種特征分別在3種核函數(shù)下進(jìn)行訓(xùn)練與測試,ROC曲線如圖5所示。對ROC曲線進(jìn)行分析可以發(fā)現(xiàn),相對而言Hog特征在多項(xiàng)式核中效果最佳;SIFT-BoW和HSV特征在交叉直方圖核中有不錯(cuò)的分類表現(xiàn)。分析這兩類均屬于直方圖性質(zhì),因此和交叉直方圖核有較好的融洽性;而SIFT-BoW的維數(shù)較高,在高斯核分類效果最佳,交叉直方圖核次之。因此將對Hog特征采用多項(xiàng)式核、SIFT-BoW采用高斯核、HSV采用交叉直方圖核進(jìn)行多核學(xué)習(xí)。
對核函數(shù)權(quán)重系數(shù)進(jìn)行優(yōu)化求解,迭代求解過程如圖6所示,在迭代120次后,算法開始收斂,最終得到的權(quán)重系數(shù)為[0.31,0.08,0.11]。
在求解出權(quán)重系數(shù)后,繼續(xù)設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證求解過程的正確性。對權(quán)重向量做隨機(jī)向量變換,通過設(shè)計(jì)實(shí)驗(yàn),將變換向量和原向量作為權(quán)重向量,統(tǒng)計(jì)不同向量所對應(yīng)的識(shí)別率,結(jié)果如表1所示。由表1中數(shù)據(jù)可以發(fā)現(xiàn),通過迭代求得的最優(yōu)解對比隨機(jī)產(chǎn)生的權(quán)重向量,分類準(zhǔn)確率達(dá)到86.15%,相較于隨機(jī)產(chǎn)生的10組權(quán)重向量訓(xùn)練模型,本方法模型識(shí)別率最高。
2.2 性能評價(jià)實(shí)驗(yàn)
為了驗(yàn)證基于多核屬性學(xué)習(xí)模型的遷移學(xué)習(xí)性能,本文選擇與遷移學(xué)習(xí)框架TradaBoost[7]和直接屬性模型在相同數(shù)據(jù)集上對應(yīng)不同的訓(xùn)練樣本占比錯(cuò)誤率進(jìn)行對比實(shí)驗(yàn)。在數(shù)據(jù)集方面,選取AWA[8]和Attributes of People Dataset [9]作為實(shí)驗(yàn)樣本數(shù)據(jù)。為避免實(shí)驗(yàn)過程中的偶然性,本文通過隨機(jī)分配訓(xùn)練測試樣本,并進(jìn)行10次重復(fù)實(shí)驗(yàn)取平均,最終得出實(shí)驗(yàn)結(jié)果如圖7所示。
分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),屬性學(xué)習(xí)模型在對分類目標(biāo)的共享屬性描述上,先天具有良好的遷移學(xué)習(xí)能力。結(jié)合實(shí)驗(yàn)結(jié)果圖可以發(fā)現(xiàn),直接屬性模型和基于多核屬性學(xué)習(xí)模型在樣本占比較少的情況下,比Tradaboost具有更好的遷移學(xué)習(xí)表現(xiàn),且在數(shù)據(jù)占比上升之后依然有較高的分類準(zhǔn)確率。此外,對比直接屬性模型和基于多核屬性學(xué)習(xí)模型結(jié)果可以發(fā)現(xiàn),融入了合成核空間之后,屬性學(xué)習(xí)的分類性能得到了進(jìn)一步提高,從而更好地挖掘訓(xùn)練樣本和測試樣本之間的公用屬性關(guān)聯(lián)關(guān)系,完成遷移學(xué)習(xí)任務(wù)。
2.3 有效性實(shí)驗(yàn)
驗(yàn)證基于多核屬性模型的視頻多概念檢測有效性需要考慮實(shí)際應(yīng)用場景為監(jiān)控視頻,因此選取VIRAT Video Dataset[10]數(shù)據(jù)集。該數(shù)據(jù)集為實(shí)際監(jiān)控?cái)z像頭數(shù)據(jù),前景對象包含行人、車輛、物體。參考大量的文獻(xiàn)資料,對行人對象選取 “性別膚色”、“戴眼鏡”、“戴帽子”、“帽子顏色”、“帶包”、“包顏色”、“手提包”、“背包”、“上衣顏色”、“下衣顏色”、“鞋子顏色”等12個(gè)屬性;針對車輛檢測選擇 “車輛顏色”、“車輛形狀”、“車輛大小”、“車輛輪胎數(shù)”、“有無車窗”、“車窗數(shù)量”等6個(gè)屬性;針對物體檢測,選擇 “形狀”、“顏色”、“材質(zhì)”、“紋理”、“大小”等5個(gè)屬性。
實(shí)驗(yàn)中利用背景建模算法批量提取出前景對象,而后人工建立屬性類別關(guān)聯(lián)表,隨機(jī)選取訓(xùn)練樣本,且使訓(xùn)練測試樣本比例為6:4,對兩種算法進(jìn)行對比實(shí)驗(yàn),如圖8所示。分析實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn),多核學(xué)習(xí)和直接屬性預(yù)測模型相結(jié)合,相比單純的直接屬性預(yù)測模型對視頻前景概念檢測準(zhǔn)確率更高。
3 結(jié)語
本文介紹了將多核學(xué)習(xí)與直接屬性模型結(jié)合的視頻概念檢測方法。首先建立多核學(xué)習(xí)思想,給出了不同的核函數(shù)權(quán)重系數(shù)的優(yōu)化求解方法,然后將其應(yīng)用到屬性模型分類器訓(xùn)練過程中。多核學(xué)習(xí)的引入可以更好地利用提取出的多種特征,提高模型的分類性能,并將方法運(yùn)用到視頻概念檢測中。通過實(shí)驗(yàn)分別對加權(quán)系數(shù)的優(yōu)化求解算法、基于多核屬性學(xué)習(xí)的遷移學(xué)習(xí)性能、基于多核屬性模型的視頻多概念檢測有效性進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明,本文提出的方法對視頻中多概念檢測有效。
參考文獻(xiàn):
[1] 王敏超,詹永照,茍建平,等.面向視頻語義分析的局部敏感的可鑒別稀疏表示[J].計(jì)算機(jī)科學(xué),2015,42(9):313-318.
[2] 謝毓湘,欒悉道,吳玲達(dá).多媒體數(shù)據(jù)語義鴻溝問題分析[J].武漢理工大學(xué)學(xué)報(bào):信息與管理工程版,2011,33(6):859-863.
[3] QIAN B,WANG X,CAO N,et al.Learning multiple relative attributes with humans in the loop[J].IEEE Transactions on Image Processing,2014,23(12):5573-5585.
[4] 胡湘萍.基于多核學(xué)習(xí)的多特征融合圖像分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(5):194-198.
[5] RAKOTOMAMONJY A,BACH F R,CANU S,et al.Simplemkl[J].Journal of Machine Learning Research,2008,9(3):2491-2521.
[6] 莊福振,羅平,何清,等.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(1):26-39.
[7] CHENG,YUHU,WANG,et al.Weighted multi-source trAdaboost[J].Chinese Journal of Electronics,2013(3):505-510.
[8] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.
[9] CHENG,YUHU,WANG,et al.Weighted multi-source trAdaboost[J].Chinese Journal of Electronics,2013(3):505-510.
[10] BOURDEV L,MAJI S,MALIK J.Describing people:a poselet-based approach to attribute classification[C].IEEE International Conference on Computer Vision.IEEE,2011:1543-1550.
(責(zé)任編輯:杜能鋼)