王碩
【摘要】本文基于MPEG-7描述標(biāo)準(zhǔn),研究了視頻低層特征顏色、紋理和形狀等特征的提取方法。構(gòu)建了語義標(biāo)注原型系統(tǒng)的設(shè)計(jì)框架,采用LS-SVM的Tri-Training算法在效率上和樣本需求上提供了應(yīng)用的可行性。
【關(guān)鍵詞】視頻語義標(biāo)注半監(jiān)督學(xué)習(xí)Tri-SVM MPEG-7
一、相關(guān)概念
(1)視頻語義標(biāo)注的方法。視頻語義標(biāo)注分為對(duì)象層標(biāo)注、關(guān)鍵幀圖像層標(biāo)注、場(chǎng)景層標(biāo)注、視頻節(jié)目層的標(biāo)注。(2)MPEG-7媒體描述標(biāo)準(zhǔn)。MPEG-7是由國(guó)際標(biāo)準(zhǔn)化組織和國(guó)際電工委員會(huì)聯(lián)合開發(fā)的標(biāo)準(zhǔn),它提供了使用XML對(duì)多媒體元數(shù)據(jù)的一個(gè)標(biāo)準(zhǔn)化表達(dá),通過對(duì)描述文件的分析,將傳統(tǒng)文本處理技術(shù)引入視頻處理中,且可處理高級(jí)語義信息。
二、視頻的結(jié)構(gòu)化和特征
(1)鏡頭分割:重在檢測(cè)鏡頭變化的邊界。其檢測(cè)方法分為模板匹配法、直方圖方法、基于邊緣的方法和基于模型的方法。本文采用簡(jiǎn)單高效的改進(jìn)的顏色直方圖方法,但單一幀間差閾值選擇對(duì)漸變切換很難進(jìn)行,使用自適應(yīng)雙閾值鏡頭分割算法能有效改善此問題。(2)關(guān)鍵幀提取:視頻的關(guān)鍵幀提取代表鏡頭的靜態(tài)特征。常用關(guān)鍵幀選取有:鏡頭邊界法、幀平均法、基于內(nèi)容的分析方法和基于光流的運(yùn)動(dòng)分析方法。(3)場(chǎng)景邊界分割:把場(chǎng)景檢測(cè)看做一個(gè)鏡頭分組過程,關(guān)鍵在于定義鏡頭的視覺相似性。本文采用基于多特征的相似鏡頭聚類實(shí)現(xiàn)對(duì)場(chǎng)景邊界的劃分。(4)視頻低層特征。顏色特征:RGB顏色模型用三維空間中的一個(gè)點(diǎn)來表示一種顏色,每個(gè)點(diǎn)有三個(gè)分量,分別代表該點(diǎn)顏色的紅、綠、藍(lán)取值;HSV顏色模型由Munsell空間坐標(biāo)表示,由H色調(diào)、S飽和度、V亮度三個(gè)分量組成。紋理特征:MPEG-7有同構(gòu)型紋理描述子、紋理瀏覽描述子、邊緣直方圖描述子三種描述紋理圖像特征的方法。形狀特征:MPEG-7中定義了基于區(qū)域的形狀描述子,輪廓形狀描述子,三維形狀描述子。
三、基于半監(jiān)督學(xué)習(xí)協(xié)同訓(xùn)練的語義標(biāo)注
(1)LS-SVM算法。Suykens提出的最小二乘支持向量機(jī),利用等式約束條件替代了SVM中的不等式約束,使用二范數(shù)對(duì)準(zhǔn)備優(yōu)化的目標(biāo)函數(shù)進(jìn)行處理,使得最小二乘支持向量機(jī)方法的優(yōu)化問題變?yōu)橥ㄟ^Kuhn-Tucker條件轉(zhuǎn)化為求一組線性方程組解,大大降低計(jì)算量。(2)半監(jiān)督學(xué)習(xí)方法。從實(shí)際情況看大量有標(biāo)記的樣本較難獲得,未標(biāo)記的樣本易獲取。采用半監(jiān)督學(xué)習(xí)方法,即使用少量的已標(biāo)注數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)作為訓(xùn)練集,有效地解決視頻標(biāo)注訓(xùn)練樣本不足的問題。(3)基于Co-SVM和Tri-SVM的視頻語義標(biāo)注實(shí)驗(yàn)數(shù)據(jù)的比較。提取前面兩類不同特征作為互補(bǔ)樣本,采用不同核函數(shù)以增強(qiáng)分類器的互補(bǔ)性,首先提出Co-SVM算法通過分析進(jìn)一步提出改進(jìn)的Tri-SVM算法。方法是選取15個(gè)視頻片段,先對(duì)其做分割處理,得到約8000個(gè)鏡頭,每個(gè)鏡頭均勻選擇10個(gè)關(guān)鍵幀,對(duì)顏色特征,將圖片劃分為9個(gè)區(qū)域,分別進(jìn)行特征提取包括8*9=72D主顏色特征,得到特征集V1,80D邊緣直方圖特征,得到特征集V2。使用設(shè)計(jì)的手工標(biāo)注工具,對(duì)其中1000個(gè)鏡頭進(jìn)行標(biāo)注,形成標(biāo)注集,其余7000個(gè)鏡頭作為未標(biāo)注集。
四、語義標(biāo)注原型系統(tǒng)設(shè)計(jì)
基于Tri-SVM分類器的自動(dòng)語義標(biāo)注系統(tǒng)是采用Visual C++ OpenCV平臺(tái),用OpenCV完成低層特征的提取;使用開源庫中的MPEG-7 C++ Library完成MPEG-7 XML框架的解析;使用LS-SVMLab開源庫輔助完成分類器的設(shè)計(jì)。(1)主顏色描述子的提?。河蒙倭康拇砩〈麄€(gè)圖像的特征,具有維數(shù)低、檢索速度快等優(yōu)點(diǎn)。邊緣直方圖描述子的提取:采用MPEG-7邊緣直方圖描述子作為關(guān)鍵幀紋理特征描述。區(qū)域形狀描述子的提?。翰捎肕PEG-7推薦的角放射變換ART系數(shù)對(duì)圖像進(jìn)行形狀特征提取。(2)場(chǎng)景構(gòu)造模塊。系統(tǒng)對(duì)鏡頭中關(guān)鍵幀提取顏色特征、紋理特征而后對(duì)關(guān)鍵幀進(jìn)行語義分類。然后計(jì)算鏡頭語義信息的相似性。方法是提取鏡頭中關(guān)鍵幀的概念詞,并對(duì)其進(jìn)行詞頻排序,組織成關(guān)鍵幀向量。(3)手工標(biāo)注模塊。本文開發(fā)手工標(biāo)注程序,以實(shí)現(xiàn)對(duì)訓(xùn)練視頻樣本的標(biāo)注。手工標(biāo)注工具可加載視頻自動(dòng)分割模塊產(chǎn)生的XML描述文件,將鏡頭序列顯示在窗口中。(4)Tri-SVM自動(dòng)標(biāo)注框架。標(biāo)注框架中增加對(duì)標(biāo)注結(jié)果的后處理,主要是利用語義特征在視頻中分布的時(shí)間相關(guān)性和局部等特性。
五、總結(jié)與展望
本文基于MPEG-7的視頻低層特征抽取和度量方法,進(jìn)行了視頻標(biāo)注原型系統(tǒng)的設(shè)計(jì)。不足之處是對(duì)訓(xùn)練樣本的選擇有很大的優(yōu)化空間,降維過程中對(duì)特征的選擇有待進(jìn)一步完善,使用低層特征時(shí)未考慮動(dòng)態(tài)特征。
參考文獻(xiàn)
[1]鞠峰.《自動(dòng)審看MOV標(biāo)清素材全方位實(shí)踐》———第二十五屆華東電視技術(shù)年會(huì).上海,2012