蘇晨涵
摘要:視頻本身具有一定的層次結(jié)構(gòu),不同層次會(huì)產(chǎn)生不同粒度的語(yǔ)義,而且不同粒度的語(yǔ)義之間會(huì)形成一定的層次結(jié)構(gòu)。因此,視頻語(yǔ)義提取和標(biāo)注強(qiáng)調(diào)語(yǔ)義的結(jié)構(gòu)化。為此,首先,以鏡頭為單位提取其語(yǔ)義,并組成鏡頭語(yǔ)義序列。隨后,帶有簡(jiǎn)單時(shí)序關(guān)系的鏡頭語(yǔ)義序列經(jīng)過(guò)結(jié)構(gòu)化支持向量機(jī)的分析將產(chǎn)生結(jié)構(gòu)化的視頻語(yǔ)義;最好,將連續(xù)且內(nèi)容相關(guān)的鏡頭作為一個(gè)場(chǎng)景,以視頻場(chǎng)景為基本單位利用決策樹(shù)算法C4.5根據(jù)鏡頭的語(yǔ)義信息及鏡頭之間的結(jié)構(gòu)信息完成場(chǎng)景語(yǔ)義的推理。
關(guān)鍵詞:視頻語(yǔ)義; 語(yǔ)義提??; 語(yǔ)義標(biāo)注; 結(jié)構(gòu)化關(guān)系; 結(jié)構(gòu)化支持向量機(jī)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)26-6178-03
Abstract:Video has a hierarchical structure which means that different semantic with different granularity emerge among different hierarchies. Hence, it is important to extract and annotate video semantic structurally. The method adopted in this paper is divided into three phrases. First, it extracts semantic from each shot and combines into a semantic sequence. Second, with simple time series information, Struct-SVM is employed to generate structural video semantics. Finally, after combining sequential and contented-associated shots into a scene, it employs C4.5 to reduce scene semantic with structural video semantics.
Key words:video semantic; semantic extraction; semantic annotation; structural context; Struct-SVM
視頻數(shù)據(jù)所蘊(yùn)含的語(yǔ)義信息量遠(yuǎn)遠(yuǎn)高于包括文本數(shù)據(jù)、音頻數(shù)據(jù)、圖像數(shù)據(jù)在內(nèi)的其它媒體數(shù)據(jù),而且視頻語(yǔ)義彼此依賴形成復(fù)雜的結(jié)構(gòu)關(guān)系[1-3]。隨著視頻檢索技術(shù)的發(fā)展,低粒度的、無(wú)層次的視頻語(yǔ)義標(biāo)注模型與技術(shù)已經(jīng)滿足不了用戶與檢索技術(shù)的需求。例如用戶在檢索足球視頻時(shí)輸入的關(guān)鍵詞往往不是“裁判”、“足球”等單個(gè)鏡頭中低粒度的對(duì)象語(yǔ)義,而是“進(jìn)球”、“犯規(guī)”、“任意球”等由視頻場(chǎng)景表達(dá)的高粒度的事件語(yǔ)義。為了更好地存儲(chǔ)視頻的語(yǔ)義內(nèi)容并利用其進(jìn)行視頻檢索,研究人員構(gòu)建了許多結(jié)構(gòu)化的視頻語(yǔ)義模型。結(jié)構(gòu)化的視頻語(yǔ)義模型不僅含有從不同層次中提取的語(yǔ)義,語(yǔ)義間的關(guān)系信息也是模型中的重要內(nèi)容[3]。與之相對(duì)應(yīng)的,傳統(tǒng)的低粒度的視頻語(yǔ)義標(biāo)注方法也就滿足不了視頻語(yǔ)義模型對(duì)標(biāo)注內(nèi)容的要求,這就勢(shì)必要求我們找到一種方法能夠全局地分析視頻的內(nèi)部結(jié)構(gòu),然后充分利用結(jié)構(gòu)關(guān)系信息提取視頻中不同粒度的語(yǔ)義并進(jìn)行標(biāo)注。
視頻語(yǔ)義的結(jié)構(gòu)化提取與標(biāo)注從不同層次提取視頻語(yǔ)義,并能夠?qū)⒄Z(yǔ)義間結(jié)構(gòu)化關(guān)系作為標(biāo)注內(nèi)容。結(jié)構(gòu)化的視頻語(yǔ)義豐富了視頻語(yǔ)義標(biāo)注的內(nèi)容,為進(jìn)一步管理、檢索視頻提供良好的基礎(chǔ)。但是視頻語(yǔ)義的內(nèi)部結(jié)構(gòu)復(fù)雜,視頻中的“結(jié)構(gòu)歧義”給正確提取結(jié)構(gòu)化關(guān)系造成了很大的困難。所以結(jié)構(gòu)化的視頻語(yǔ)義提取與標(biāo)注是一項(xiàng)很有意義的研究工作。
1 視頻語(yǔ)義結(jié)構(gòu)化提取與標(biāo)注框架
本文建立的視頻語(yǔ)義的結(jié)構(gòu)化提取與標(biāo)注方法分為三個(gè)階段:首先,以鏡頭為單位提取鏡頭內(nèi)的語(yǔ)義;然后,半監(jiān)督地利用鏡頭語(yǔ)義及時(shí)序信息對(duì)鏡頭之間結(jié)構(gòu)化的上下文關(guān)系進(jìn)行分析,利用結(jié)構(gòu)化信息以場(chǎng)景為單位提取場(chǎng)景語(yǔ)義;最后,將鏡頭語(yǔ)義、場(chǎng)景語(yǔ)義及語(yǔ)義間的結(jié)構(gòu)化關(guān)系作為標(biāo)注內(nèi)容對(duì)視頻進(jìn)行結(jié)構(gòu)化的語(yǔ)義標(biāo)注。因此,該方法的實(shí)現(xiàn)具有一個(gè)三層結(jié)構(gòu)的框架,其框架結(jié)構(gòu)和方法的流程如圖1所示。
2 視頻語(yǔ)義結(jié)構(gòu)化提取與標(biāo)注實(shí)現(xiàn)過(guò)程
2.1 視頻預(yù)處理
視頻預(yù)處理主要工作為:首先,對(duì)視頻進(jìn)行鏡頭分割;然后,選擇鏡頭中的某一幀作為關(guān)鍵幀代表鏡頭。
由于大部分視頻幀的默認(rèn)顏色空間是RGB顏色空間,所以首先要將顏色空間轉(zhuǎn)換為跟接近人類對(duì)視覺(jué)相似性感知的HSI顏色空間。在HIS空間計(jì)算像素的顏色變化更加簡(jiǎn)單直觀,有助于提高邊界檢測(cè)的準(zhǔn)確率和特征的提取。然后在HIS空間中采用基于塊的鏡頭分割方法,將將視頻幀分成n個(gè)塊并對(duì)相鄰幀的對(duì)應(yīng)塊進(jìn)行比較,鏡頭邊界檢測(cè)后取鏡頭內(nèi)的某一幀作為關(guān)鍵幀代表鏡頭。一般可以選擇鏡頭中間一幀作為關(guān)鍵幀。
2.2 鏡頭語(yǔ)義序列提取
鏡頭語(yǔ)義序列是分析鏡頭之間依賴關(guān)系的基本單位,正確提取鏡頭內(nèi)的語(yǔ)義信息,然后形成具有時(shí)間約束的語(yǔ)義序列是本文提出方法的重要基礎(chǔ)。提取鏡頭語(yǔ)義序列的主要工作為:1.提取鏡頭內(nèi)特定的語(yǔ)義,組成語(yǔ)義集W;2.從W選擇一個(gè)語(yǔ)義wi為關(guān)鍵語(yǔ)義代表該鏡頭;3.根據(jù)鏡頭的時(shí)序關(guān)系將每個(gè)鏡頭的關(guān)鍵語(yǔ)義組合成鏡頭關(guān)鍵語(yǔ)義序列Seq。
2.2.1 鏡頭語(yǔ)義提取
關(guān)鍵幀中的語(yǔ)義對(duì)象可以分為前景對(duì)象和背景對(duì)象。在進(jìn)行語(yǔ)義檢測(cè)時(shí)首先要對(duì)關(guān)鍵幀的前景對(duì)象進(jìn)行檢測(cè)并分離前景對(duì)象和背景對(duì)象,然后根據(jù)對(duì)象的不同使用相對(duì)應(yīng)的語(yǔ)義分析方法。前景檢測(cè)算法利用連續(xù)的若干幀像素點(diǎn)的變化來(lái)檢測(cè)前景與背景。對(duì)于攝像頭視角固定的視頻可以使用減背景法將前景與背景分離,例如監(jiān)控視頻;對(duì)于攝像頭視角轉(zhuǎn)動(dòng)的視頻通常使用光流法進(jìn)行前景檢測(cè),例如體育競(jìng)技類視頻。足球視頻在拍攝的過(guò)程中攝像頭跟蹤足球、運(yùn)動(dòng)員等目標(biāo)物,所以使用光流法對(duì)其進(jìn)行前景與背景的分割。將關(guān)鍵幀的前景與背景分開(kāi)后,然后分別對(duì)不同對(duì)象使用不同的方法提取特征。計(jì)算顏色特征后再使用Canny算子進(jìn)行紋理特征的提取。Canny算是目前公認(rèn)最好的邊緣檢測(cè)算子,提取圖像邊緣后以5。為范圍進(jìn)行劃分形成一個(gè)36維的邊緣直方圖C,同樣對(duì)得到的邊緣直方圖進(jìn)行歸一化處理,獲得36維的紋理特征向量后與顏色特征一起組成72維的特征向量。
獲取特征向量后使用支持向量機(jī)SVM對(duì)標(biāo)注后語(yǔ)義的訓(xùn)練樣本的72維特征向量進(jìn)行學(xué)習(xí),然后將訓(xùn)練后的SVM對(duì)樣本進(jìn)行分類,分類結(jié)果作為鏡頭的背景語(yǔ)義wb[∈]W。
與背景對(duì)象的語(yǔ)義相同,前景對(duì)象也需要提取其顏色和問(wèn)題特征組成72維的特征向量。但是除了顏色和紋理特征之外形狀特征也是前景對(duì)象的重要特征。常用的形狀特征有面積Ar、周長(zhǎng)Pe、長(zhǎng)寬比LW、周長(zhǎng)面積比AP等。為了克服圖像縮放造成的干擾本文選擇具有抗干擾形狀特征LW、AP及歸一化后的Ar。Ar歸一化的方法同上。這樣加上顏色和紋理特征就組成了75維的特征向量,同樣使用SVM對(duì)樣本進(jìn)行學(xué)習(xí)與分類,分類結(jié)果就是該鏡頭含有的前景語(yǔ)義wf[∈]W。
2.2.2 鏡頭語(yǔ)義序列
2.4 場(chǎng)景語(yǔ)義推理
場(chǎng)景語(yǔ)義推理是場(chǎng)景語(yǔ)義標(biāo)注框架的第三層,該階段的主要工作是對(duì)視頻的場(chǎng)景分割,然后再利用決策樹(shù)算法C4.5[8]對(duì)場(chǎng)景的語(yǔ)義進(jìn)行推理。
視頻的場(chǎng)景是由連續(xù)的而且內(nèi)容相關(guān)的鏡頭組成,根據(jù)labelled-Seq中關(guān)系信息可以很容易地得到關(guān)鍵語(yǔ)義之間的依賴關(guān)系,關(guān)鍵語(yǔ)義間的依賴關(guān)系就是鏡頭之間的依賴關(guān)系。根據(jù)鏡頭的依賴關(guān)系就能夠?qū)⒁曨l分割為若干場(chǎng)景。
視頻的場(chǎng)景是由連續(xù)的而且內(nèi)容相關(guān)的鏡頭組成,根據(jù)labelled-Seq中關(guān)系信息可以很容易地得到關(guān)鍵語(yǔ)義之間的依賴關(guān)系,關(guān)鍵語(yǔ)義間的依賴關(guān)系就是鏡頭之間的依賴關(guān)系。根據(jù)鏡頭的依賴關(guān)系就能夠?qū)⒁曨l分割為若干場(chǎng)景。
將視頻分為若干場(chǎng)景后就能夠以場(chǎng)景為單位進(jìn)行場(chǎng)景語(yǔ)義分析了。利用C4.5算法進(jìn)行場(chǎng)景語(yǔ)義推理時(shí),首先將場(chǎng)景內(nèi)各個(gè)鏡頭的語(yǔ)義集W中的語(yǔ)義作為決策屬性。但是如果僅僅只利用場(chǎng)景內(nèi)的鏡頭語(yǔ)義做為決策屬性是不夠的,還需要利用3.2.3中獲取的鏡頭間的結(jié)構(gòu)化關(guān)系信息,所以將每個(gè)語(yǔ)義的關(guān)系也作為C4.5的決策屬性。
3 結(jié)論
本文針對(duì)視頻結(jié)構(gòu)化語(yǔ)義的提取與標(biāo)注問(wèn)題,建立了三層的結(jié)構(gòu)化視頻語(yǔ)義提取與標(biāo)注框架,逐層推理語(yǔ)義,提取了不同粒度的語(yǔ)義及語(yǔ)義之間的結(jié)構(gòu)化關(guān)系。第一層,根據(jù)鏡頭關(guān)鍵幀的視覺(jué)特征提取低粒度的鏡頭語(yǔ)義;第二層,通過(guò)分析不同鏡頭語(yǔ)義的上下文關(guān)系獲取鏡頭之間的結(jié)構(gòu)化關(guān)系;第三層,利用各個(gè)鏡頭的語(yǔ)義信息及鏡頭的結(jié)構(gòu)化關(guān)系信息進(jìn)行高粒度的場(chǎng)景語(yǔ)義推理。一方面彌補(bǔ)了傳統(tǒng)只能以鏡頭為單位標(biāo)注語(yǔ)義,不能對(duì)視頻進(jìn)行多粒度的語(yǔ)義標(biāo)注的缺陷,另一方面,還能對(duì)視頻鏡頭語(yǔ)義之間彼此依賴的關(guān)系信息進(jìn)行分析并應(yīng)用于場(chǎng)景語(yǔ)義的推理。
參考文獻(xiàn):
[1] Cheng Y, Xu D, Content-based semantic associative video model [C]. 2002 6th International Conference on Signal Processing: IEEE, 2002:727-730.
[2]Yong C, De X U. Hierarchical semantic associative video model [C]. Proceedings of the 2003 International Conference on Neural Networks and Signal Processing: IEEE, 2003:1217-1220.
[3] Unel G, Donderler M E, Ulusoy O, et al. An efficient query optimization strategy for spatio-temporal queries in video databases [J]. Journal of Systems and Software, 2004, 73(1):113-131.
[4] Carneiro G, Chan A B, Moreno P J, et al. Supervised learning of semantic classes for image annotation and retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(3):394-410.
[5] Hu W, Xie N, Li L, Zeng X, et al. A survey on visual content-based video indexing and retrieval [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2011, 41(6):797-819.
[6] Jiang H, Zhang M. Tennis video shot classification based on support vector machine [C]. 2011 IEEE International Conference on Computer Science and Automation Engineering (CSAE): IEEE, 2011:757-761.
[7] Yuan X, Lai W, Mei T, et al. Automatic video genre categorization using hierarchical SVM[C]. 2006 IEEE International Conference on Image Processing: IEEE, 2006:2905-2908.
[8] Yuan Y, Song Q B, Shen J Y. Automatic video classification using decision tree method [C]. 2002 International Conference on Machine Learning and Cybernetics: IEEE, 2002:1153-1157.