邢 玲,馬 強,胡金軍
(1.河南科技大學(xué)信息工程學(xué)院,河南洛陽 471023;2.西南科技大學(xué)信息工程學(xué)院,四川綿陽 621010)
?
基于場景分割的視頻內(nèi)容語義管理機制
邢 玲1,2,馬 強2,胡金軍2
(1.河南科技大學(xué)信息工程學(xué)院,河南洛陽 471023;2.西南科技大學(xué)信息工程學(xué)院,四川綿陽 621010)
針對視頻內(nèi)容管理在不同層面存在語義鴻溝的問題,提出基于UCL(Uniform Content Locater )的視頻語義描述框架,該框架包含了三個層次的語義:內(nèi)容語義、控制語義以及物理屬性信息.而視頻場景的分割則通過視頻內(nèi)容基于時空上的相似性實現(xiàn).對于每個視頻場景,結(jié)合局部紋理復(fù)雜度、背景亮度和場景復(fù)雜度,選擇最佳參考幀(I幀)與非最佳參考幀(非I幀)以嵌入不同的語義信息:控制語義、物理屬性信息嵌入I幀,內(nèi)容語義嵌入非I幀.利用數(shù)字語義水印技術(shù)來實現(xiàn)視頻內(nèi)容的語義管理,完成語義信息和載體信號的一體傳輸和存儲.實驗中采用JM參考模型進行數(shù)字水印方法的驗證,結(jié)果表明該方法魯棒性強,且不會造成視頻資源質(zhì)量顯著下降.
視頻描述;語義管理;語義水印;場景分割;UCL
作為互聯(lián)網(wǎng)絡(luò)中最主要應(yīng)用之一的視頻業(yè)務(wù),由于其內(nèi)容具有易復(fù)制、易分發(fā)、難管理、難監(jiān)控等特性,視頻內(nèi)容的有效管理成為了近年來的研究熱點.最早提出視頻內(nèi)容語義管理機制的是由ETSI等300多家工業(yè)組織制定使用的EPG(Electronic Program Guide),它為數(shù)字視頻內(nèi)容創(chuàng)建了一組特有的表格,且使用單獨的TS流進行傳輸[1];后續(xù)的研究如基于內(nèi)容情感選項的視頻建模與檢索方法[2]、基于網(wǎng)絡(luò)對于視頻內(nèi)容的分發(fā)與存儲管理[3]、體育視頻內(nèi)容標(biāo)志鏡頭分類與管理[4].與EPG有類似的特點,這些方法都是將視頻數(shù)據(jù)和語義管理數(shù)據(jù)進行單獨傳輸和存儲,無法實現(xiàn)高效地信息一體化傳輸.
數(shù)字視頻內(nèi)容管理的困難主要集中在三個方面:(1)無內(nèi)容語義描述集,導(dǎo)致視頻內(nèi)容重復(fù)冗余度高;(2)無傳輸控制語義集,導(dǎo)致視頻傳播管控難度加大;(3)無安全語義集,造成了源端回溯不可信,缺乏認(rèn)證安全性.視頻數(shù)字水印技術(shù)的出現(xiàn)使得視頻內(nèi)容的版權(quán)信息得到了保證,且版權(quán)信息與載體同步傳輸,視頻通信效率得以提高,如基于水印的開發(fā)式視頻管理管理框架[5].但該方法輸出端只能檢測水印是否存在,以完成視頻片段的認(rèn)證,在無法獲得水印原始信息的條件下,難以達到對視頻內(nèi)容的智能管理.由于視頻資源仍然使用統(tǒng)一資源定位符(Uniform Resource Locator,URL)標(biāo)識其引用,導(dǎo)致同一內(nèi)容視頻本體因無強制語義計算而得以重復(fù)冗余發(fā)布.因此,研究可靠的視頻語義模型,結(jié)合數(shù)字水印技術(shù),將提高視頻內(nèi)容的有效管理.
本文提出了一種基于語義水印的視頻內(nèi)容管理機制.在UCL(Uniform Content Locater,UCL)的基礎(chǔ)上[6],結(jié)合視頻檢索、內(nèi)容管控等要求,提出UCL視頻語義描述框架,框架中包括內(nèi)容語義、控制語義以及物理屬性信息;結(jié)合H.264視頻具體編碼算法,采用基于場景分割的視頻語義水印算法,將控制語義、物理屬性信息和內(nèi)容語義信息分別嵌入所選視頻場景中不同的視頻幀中,以提高水印嵌入容量和水印的魯棒性.利用數(shù)字語義水印技術(shù)實現(xiàn)視頻內(nèi)容的語義管理,完成語義信息和載體信號的一體傳輸和存儲.最后基于JM10.2參考模型,對語義水印方法可見性、和魯棒性進行了驗證.
2.1 基于UCL的視頻語義描述框架
視頻數(shù)字水印信息針對不同的應(yīng)用有不同的語義要求,如針對視頻檢索,有根據(jù)節(jié)目內(nèi)容提出的語義要求,有根據(jù)節(jié)目名稱提出的語義要求;針對網(wǎng)絡(luò)可控,有對發(fā)布者、接收者、節(jié)目分級等方面的語義要求.這些多樣的語義需求,要求提出相對普適的語義模型,以實現(xiàn)內(nèi)容識別、選擇、以及業(yè)務(wù)監(jiān)管的功能.結(jié)合語義的物理特征(如摘要等純文本信息量大,且對控制語義等信息魯棒性較低),構(gòu)建基于UCL的視頻語義描述框架,如圖1所示.其中包括:內(nèi)容語義,控制語義和可選的物理屬性信息.
令視頻的UCL語義模型為U{U1x,U2y,U3z},其中U1x屬于內(nèi)容語義,為純文本信息,U2y為控制語義,為映射編碼信息,U3z為可選的物理屬性信息,為映射編碼信息,x,y,z分別為信息的元素個數(shù).U1x包括的語義信息有:摘要、作者、標(biāo)題、出版者、日期、關(guān)鍵詞、擴充項;U2y包括的語義信息有:分類、格式、時間、點擊量、語言、類型、文件大小、權(quán)限、擴充項;U3z包括的語義信息有:輪廓、存儲剪切、拷貝許可、目標(biāo)跟蹤、擴充項.語義模型U中元素的大小或多少,與視頻的具體應(yīng)用背景有關(guān),但并不影響視頻內(nèi)容的語義管理機制.
2.2 視頻場景分割
場景指一個鏡頭所包含的視頻幀序列.同一個場景,幀之間具有很強的相關(guān)性,因此可以利用這種時域和空域的相關(guān)性對一個場景進行壓縮編碼.另外,針對傳輸過程中的主動攻擊,如幀刪除、幀重組、幀平均,很難對整個場景進行完全刪除或破壞的毀滅性的攻擊.因此,論文通過利用場景分割技術(shù)來增強水印信號的魯棒性,以提高針對時間同步攻擊的自適應(yīng)抵抗力.
目前,對于視頻場景分割的研究,主要有像素比較、模板比較、直方圖等方法,但他們有些共同的弊端,如算法復(fù)雜度較高,實時性不夠強[7~11].考慮到視頻數(shù)字水印實時性和視頻解碼同步的性能需求,論文提出了基于DCT系數(shù)變化量比較方法實現(xiàn)對視頻場景的分割.由于圖像的能量主要集中在變換域的DC系數(shù)上,相對離散的像素點具有更穩(wěn)定的對應(yīng)關(guān)系.結(jié)合視頻編解碼的子塊結(jié)構(gòu),選擇針對16×16宏塊變換域DC系數(shù)做比較,如式(1):
(1)
其中D(i,a,b)表示第i幀圖像宏塊(a,b)的DC系數(shù),Var(i)表示則第i幀圖像相對于前一幀圖像的DC系數(shù)改變量,其中N=(a+b)*16.由于DC系數(shù)表示子塊圖像像素點的均值,所以用宏塊像素均值取代宏塊的整數(shù)DCT變換,從而進一步降低算法的復(fù)雜度.
空間相似性Var(i)越小,表示相鄰兩幀屬于同一場景的可能性就越大,而Var(i)值較大時,既可表示相鄰兩幀屬于不同場景,也可表示同一場景中物體運動較為劇烈或背景變化較快,因此需要進一步計算他們的時間相似性.
Var(i)本身也可表示當(dāng)前幀變化的劇烈程度,所以通過計算這種劇烈程度的放大或縮小的倍數(shù)來表示時間相似性,如式(2):
(2)
一個場景序列的第二幀相對于第一幀DC系數(shù)的改變量要小得多,Var(x,2)<β2,變換的劇烈程度顯著下降,α(x,2)<-η;同理,下一個場景的第一幀相對于上個場景的最后一幀DC系數(shù)變化值很大,Var(x-1,1)>β1,變換的劇烈程度顯著增加,α(x-1,1)>η,其中(x,2)為場景x第二幀的圖像.因此,綜合考慮空間相似性和時間相似性,一個場景分割過程的首幀F(xiàn)f和末幀F(xiàn)l的判斷式如式(3)、(4),其中η表示時間相似性的閾值,β2表示場景中第二幀圖像的空間相似性閾值,β1為下一個場景中第一幀圖像的空間相似性閾值.
Ff={i-1|α(i)<-η||Var(i)<β2}
(3)
Fl={i-1|α(i)>η||Var(i)>β1}
(4)
根據(jù)人眼的視覺特性,為了提高水印的不可見性,選擇圖像紋理復(fù)雜度高和幀間變化比較劇烈的場景嵌入視頻數(shù)字水印信息.將場景第二幀DC系數(shù)的梯度能量與第一幀DC系數(shù)改變量的乘積為場景復(fù)雜度P,如式(5),
P=T(i)×Var(i)
(5)
T(i)
(6)
其中式(6)為DC系數(shù)的梯度能量,D(i,a,b)表示第i幀圖像宏塊(a,b)的DC系數(shù),即像素均值,根據(jù)P的定義,其中i=2,即為本場景序列中的第二幀,通過對P值與閾值的比較來選擇適合嵌入水印的場景.
2.3 目標(biāo)矩陣生成
由于人眼對嵌入水印變化域的敏感性較低,所以水印信息不僅和幀內(nèi)紋理復(fù)雜度和背景亮度有關(guān),幀間變化劇烈程度也同樣影響著水印信息的不可見性.為了使水印信息更接近于噪聲信號,具有更好的不可見性,論文引入了場景復(fù)雜度,即綜合考慮背景亮度、幀內(nèi)空間復(fù)雜度、場景復(fù)雜度三要素來決定水印嵌入強度S,形成一個目標(biāo)矩陣M.
針對所選中的分割場景,首先計算圖像中每個16×l6宏塊的背景亮度、幀內(nèi)紋理復(fù)雜度,得出宏塊的局部圖像復(fù)雜度H;然后,結(jié)合場景復(fù)雜度P得到水印嵌入強度Sa,b,判斷與閾值Sth關(guān)系,當(dāng)小于閾值時,水印的目標(biāo)矩陣項Ma,b=0,表示在此宏塊不適合水印信息的嵌入;相反,Ma,b=1.在視頻解碼端根據(jù)密鑰再次生成目標(biāo)矩陣,進行視頻數(shù)字水印信息的檢測與提取.
局部圖像復(fù)雜度H的客觀描述,來自于該宏塊的灰度均值和紋理復(fù)雜度的加權(quán)組成的線性函數(shù),如式(7):
(7)
(8)
?(ea,b)=(1/ea,b)β
(9)
其中?(ea,b)為加權(quán)系數(shù),它作為修正因子來使宏塊的紋理復(fù)雜度和灰度均值在同一個數(shù)量級成線性關(guān)系,論文中取值范圍為0.5~0.8.
為了減低過多修正因子給算法帶來額外的計算復(fù)雜度,故將局部圖像復(fù)雜度Ha,b與場景復(fù)雜度P進行“×”操作得出水印嵌入強度,如式(10):
Sa,b=P×Ha,b
(10)
其中,Sa,b的值隨α1、α2和β取值而各異,從而生成不同的目標(biāo)矩陣M,因此可以將這三個參數(shù)作為水印算法中的密鑰使用.
2.4 語義水印的嵌入與提取
H.264中一個宏塊包括一個16×16亮度分量Y和兩個8×8的色差分量Cb、Cr.由于人眼對視頻的色度較敏感,故算法僅考慮亮度分量Y信息.首先,將視頻圖像的亮度分量Y分割成16×16塊,則水印目標(biāo)矩陣M的結(jié)構(gòu)為N1/16×N2/16,其中Ma,b∈{0,1},1≤a≤N1/16,1≤b≤N2/16.當(dāng)Ma,b=1表示Ya,b為水印信息的載體,然后,將Ya,b塊劃分為16個4×4子塊,對每個子塊進行整數(shù)DCT變換,如圖2所示,左上角的DCT0為DC系數(shù).
經(jīng)過DCT變換后,4×4子塊能量如圖2中的第1子帶到第7子帶逐漸遞減.其中AC高頻系數(shù)(第6、7子帶)多數(shù)為零不適合水印的嵌入,故選擇第2子帶到第5子帶的12中頻系數(shù)進行水印信息的嵌入,則嵌入規(guī)則如式(11)、(12)和式(13):
(11)
(12)
(13)
其中,DCTmean為12個中頻系數(shù)的均值,DCTmean1為第3子帶和第5子帶6個中頻系數(shù)的均值,DCTmean2為第2子帶和第4子帶6個中頻系數(shù)均值,通過調(diào)整12個中頻系數(shù)來改變DCTmean、DCTmean1和DCTmean2三者之間的關(guān)系進行水印信息(wx,y)的嵌入,即為水印信息的編碼,如式(14)和(15):
DCTmean1>DCTmean>DCTmean2,wx,y=1
(14)
DCTmean2>DCTmean>DCTmean1,wx,y=-1
(15)
本文采用基于場景的語義水印算法,故將水印信息U中的U1x內(nèi)容語義信息、U2y控制語義信息和U3z可選的物理屬性信息,采用相同的水印嵌入方案在不同的嵌入點進行水印嵌入操作,所以即使采用相同的水印嵌入方案,其生成目標(biāo)矩陣的參數(shù)P、α1、α2、β及其閾值Sth也不相同,這些都可作為密鑰以提高水印的安全性.
結(jié)合壓縮域水印嵌入量小和原始域水印魯棒性較差的各自弊端,針對H.264編碼標(biāo)準(zhǔn)和JM實驗的仿真平臺,視頻水印嵌入的流程為圖3所示.
(1)對視頻原始序列(YUV格式文件)進行UCL標(biāo)引并采用擴頻技術(shù)生成視水印語義模型信息集U,其中U1x屬于內(nèi)容語義,U2x是控制語義,U3x為可選的物理屬性信息;
(2)對視頻原始序列進行場景分割,形成基于場景的視頻信息集F,元素F(i,j,k)中的i表示場景編號,j表示幀圖像相對場景的序號,k表示在原始視頻序列中幀編號;
(3)計算視頻場景中場景復(fù)雜度,來選擇適合進行水印嵌入的場景F′(i,j,k);
(4)將場景的第y′幀作為最佳參考幀(I幀),當(dāng)一個場景的幀圖像數(shù)大于15,按照GOP標(biāo)準(zhǔn)生成I幀,其中滿足式(16),其中y表示場景中視頻幀的數(shù)量.
y′=α*15,α∈0,1,2…,y″£y
(16)
(7)將含有水印信息的I幀和B、P幀重新組合生成含水印的場景H.264壓縮碼流;
(8)結(jié)合第(4)步的最佳參考幀選擇算法,對第(3)步篩選出不適合水印嵌入的場景,借助JM編碼器進行幀內(nèi)和幀間編碼,生成未含水印的壓縮碼流.
將第(7)步和第(8)步生成的壓縮碼流進行排序整合,生成基于H.264的視頻壓縮碼流.
水印的檢測與提取在H.264解碼端完成,根據(jù)編碼端對應(yīng)的密鑰生成目標(biāo)矩陣M確定含水印的宏塊位置,對含水印的宏塊按照式(11)、(12)和(13)計算出DCTmean、DCTmean1和DCTmean2的值,以重構(gòu)水印信息,如式(17):
(17)
實驗中在VS2008開發(fā)環(huán)境中完成JM10.2最佳參考幀選擇算法的移植和優(yōu)化、原始視頻序列的場景分割、水印的嵌入和含水印的H.264碼流的解碼工作,由MatlabR2010b對原始視頻序列和含水印的視頻序列進行數(shù)據(jù)統(tǒng)計,最后針對數(shù)字水印的性能指標(biāo)得對算法進行性能評估.視頻采用標(biāo)準(zhǔn)視頻序列News、Foreman和Akiyo,所有視頻序列都是QCIF格式(176×144),YUV(4∶2∶0),序列長度均為300幀,視頻場景分割時參數(shù)選擇為η=2,β1=500,β2=50.
對于重構(gòu)視頻圖像質(zhì)量的判斷,選擇PSNR(Peak Signal to Noise Ratio)峰值信噪比作為評判標(biāo)準(zhǔn).PSNR表示視頻載體信號嵌入水印后的視頻質(zhì)量變化情況,其值越高表示其透明性越好,其計算過程如式(18):
(18)
其中max?(x,y)f2(x,y)為原始視頻圖像f上所有像素點中的最大像素值,針對8bit的灰度圖像,其最大值為255,則典型算法的PSNR值主要集中在20~40dB之間.
采用歸一化互相關(guān)系數(shù)NC(Normalized Correlation)用來度量重構(gòu)的水印和原始水印之間的相似程度,如式(19):
(19)
其中,W表示原始水印信息,W′表示提取出來的水印信息,N為水印信號的長度,通常情況下,當(dāng)NC>0.9時,認(rèn)為重構(gòu)水印是可識別的.
3.1 水印的不可見性
視頻數(shù)字水印的不可見性指確保人眼無法察覺,由于水印嵌入造成圖像質(zhì)量的下降.實驗中對Akiyo視頻第150幀和151幀圖像的原始序列圖像、壓縮后的圖像、含水印的視頻圖像量的質(zhì)量變化進行展示,其中第150幀為H.264編碼中的最佳參考幀I幀,前者采用基于壓縮域的視頻水印嵌入方案,后者為基于原始域的視頻數(shù)字水印嵌入方案.從圖4中很難察覺到由于壓縮和水印的嵌入引起視頻圖像質(zhì)量的變化.
Akiyo視頻序列壓縮后和嵌入水印后的視頻圖像前90幀的PSNR值如圖5所示.一般情況下,當(dāng)PSNR值大于30dB以上,人眼就難以辨別兩幅圖像差別.從圖5可見,Akiyo視頻原始序列壓縮后和嵌入水印后第y’(y=i*15)幀的PSNR值較高,主要是由于第y’幀在H.264視頻編碼中作為最佳參考幀,編碼準(zhǔn)確率最高.總體上兩曲線非常接近,且PSNR最小值為35.91,說明本文提出的視頻數(shù)字水印具有很好的不可見性.
3.2 水印的魯棒性
實驗中若NC>0.9,則認(rèn)為該幀內(nèi)含有水印信息,同一場景內(nèi)有一幅圖像含有水印信息,認(rèn)為該場景為水印信號的載體.實驗對象為Akiyo、News、Foreman、Sum四個視頻序列,其中Sum為前三者視頻拼接序列.對其分別統(tǒng)計視頻序列的場景數(shù)(SC),含有水印信息的場景數(shù)(SCw),檢測到水印載體場景數(shù)(DSCw),錯誤檢測到的場景數(shù)(ESCw),如表1所示.
表1 嵌入水印的場景檢查
從表1中可看出,在未受攻擊的狀態(tài)下,實驗中嵌入信息的場景都能準(zhǔn)確的檢查出來.由于在同一場景中嵌入相同內(nèi)容,故實驗中采用的水印場景檢測標(biāo)準(zhǔn)(NC>0.9)足以重構(gòu)出原水印信息.且由于采用原始域與壓縮相結(jié)合的水印算法,所以為了進一步說明一個場景中關(guān)于內(nèi)容語義水印信息的魯棒性,以News視頻序列為例,統(tǒng)計其前90幀(第90幀為第2個場景頭幀)的NC值,如圖6所示.
從圖6中可知,第y′(y=i*15)幀圖像的NC值要明顯高于其他圖像,這是由于y幀為編碼參考幀(I幀),其量化后的非零DCT系數(shù)較多,且采用基于壓縮域的水印方案,避免了由于視頻信息的頻繁解壓縮,造成的水印信息丟失.雖然非I幀域的NC值相對較低,但該域采用基于原始域的水印嵌入方案大大增加了水印信息的嵌入量,且該域的純文本水印信息(摘要、關(guān)鍵詞等)在NC>0.7的情況下不會對語義理解造成歧義,一般情況下,NC>0.6就可以重構(gòu)出水印信息.
3.3 抗噪聲攻擊能力
視頻載體信號在傳輸和處理的過程中,最常見的攻擊方式就是噪聲攻擊,因此水印算法抗噪能力是其性能評判的重要指標(biāo).實驗同樣對Foreman視頻序列的前90幀圖像分別加載了密度為0.005、0.01、0.03的椒鹽噪聲,計算出重構(gòu)視頻圖像的PSNR值和重構(gòu)水印信息的NC值,其中PSNR值如圖7所示.可以看出,相對密度為0.005、0.01、0.03的椒鹽噪聲,水印信息對視頻幀質(zhì)量的影響反而更小,說明該算法對視頻原始圖像的影響幾乎忽略不計.在密度為0.03的椒鹽噪聲下PSNR最小值為31.21,故重構(gòu)的視頻圖像相對于原始圖像的變化在人眼察覺范圍之外.
視頻數(shù)字水印信息受到不同程度的噪聲攻擊后,NC值變化情況如圖8所示.NC值出現(xiàn)很大程度的衰減,特別是非I幀(y≠i*15)中的水印信息.由于非I幀采用幀間預(yù)測編碼,只保留部分殘差信息,且該域水印信息經(jīng)過JM10.2的重壓縮編碼,使該域水印信息的NC值衰減的相對比較厲害.如在密度為0.03椒鹽噪聲下,最小NC值為第5幀(非I幀)的0.4943,但經(jīng)過對數(shù)據(jù)的統(tǒng)計發(fā)現(xiàn),在相同強度噪聲攻擊下該場景中非I幀的最大NC值為0.6357,由于同一場景內(nèi)嵌入相同的水印信息,所以即使在較高密度的噪聲攻擊下,仍然可以重構(gòu)出不影響人們觀看的水印信息.由此可見,對于噪聲攻擊,I幀的魯棒性表現(xiàn)的比較滿意,故將I幀作為控制語義信息和物理屬性語義信息的載體.
3.4 抗其它主動攻擊能力
同時對Akiyo、News、Foreman三個視頻分別進行重量化、中值濾波和幀刪除攻擊,視頻數(shù)字水印受到攻擊后的NC值如表2所示,結(jié)果為三段含水印的視頻序列前300幀中,有效NC的均值.由于同一場景中嵌入相同的水印信息,當(dāng)NC值<0.5時,視該幀水印信息為無效水印.
表2 水印信息魯棒性分析
從表2中看出,I幀中水印信息在遭受重量化、中值濾波和幀刪除等攻擊時,表現(xiàn)出較好的魯棒性.其中幀刪除攻擊對水印信息沒有任何影響,主要是幀刪除很難實現(xiàn)完全刪除整個視頻場景.
數(shù)字視頻內(nèi)容的有效管理有助于互聯(lián)網(wǎng)中視頻業(yè)務(wù)高效、可靠的開展.本文提出一種基于場景分割的視頻內(nèi)容語義管理機制,將語義模型從特性上分為三個子集:內(nèi)容語義、控制語義以及物理屬性信息;對視頻內(nèi)容按照時間與空間相似性,構(gòu)建基于DCT系數(shù)變化比較方法來實現(xiàn)視頻的場景分割;并且按照背景亮度、幀內(nèi)空間復(fù)雜度和場景復(fù)雜度三要素來決定語義水印嵌入位置即目標(biāo)矩陣,通過修改DCT中AC系數(shù)實現(xiàn)水印的嵌入.將內(nèi)容語義信息嵌入到場景中的非最佳參考幀,語義信息、物理屬性信息則嵌入到最佳參考幀,利用數(shù)字語義水印技術(shù)實現(xiàn)了視頻內(nèi)容的語義管理,完成語義信息和載體信號的一體傳輸和存儲.
[1]Basic R,Mocinic M.User′s requirements for electronic program guide (EPG) in interactive television (iTV)[A].Region 8 International symposium on video/image processing and multimedia communication[C].Zadar :IEEE,2002.457-462.
[2]Alan H,Xu L Q.Affective video content representation and modeling[J].IEEE transactions on multi-media,2005,7(1),143-154.
[3]吳宣夠,熊焰,印鳳行.樹形網(wǎng)絡(luò)中的一種有效視頻內(nèi)容分發(fā)算法[J].小型微型計算機系統(tǒng),2013,34(8):1728-1731.
Wu Xuan-gou,Xiong Yan,Yin Feng-hang.An Efficient video content distribution algorithm for tree networks[J].Journal of Chinese computer systems,2013,34(8),1728-1731.(in Chinese)
[4]朱映映,朱艷艷,文振焜.基于類型標(biāo)志鏡頭與詞袋模型的體育視頻分類[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2013,25(9),1375-1383.
Zhu Ying-ying,Zhu Yan-yan,Wen Zhen-kun.Sports video classification based on marked genre shots and bag of words model[J].Journal of computer-aided design and computer graphics,2013,25(9),1375-1383.(in Chinese)
[5]劉宇馳,等.一種開放式視頻管理框架[J].國防科技大學(xué)學(xué)報,2006(28),73-76.
Liu Yu Chi,et al.An open framework for video management[J].Journal of national university of defence technology,2006(28),73-76.(in Chinese)
[6]XING Ling,MA Qiang,ZHU Min.Tensor semantic model for an audio classification system.SCIENCE CHINA Information Sciences,2013,56(6):1-9.
[7]Yun Z,Mubarak S.A General Framework for Temporal Video Scene Segmentation[A].International Conference on Computer Vision[C].Beijing:IEEE,2005.1111-1116.
[8]Panagiotis S,Vasileios M,Ioannis K,et al.Temporal video segmentation to scenes using high-level audiovisual features[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(8),1051-8215.
[9]Zhu S H,Liu Y C.Scene Segmentation and Semantic Representation for High-Level Retrieval[J].IEEE Signal Processing Letters,2013,15,713-716.
[10]Mostafa T,Mahmood K,Shohreh K.Event Detection and Summarization in Soccer Videos Using Bayesian Network and Copula[J],IEEE Transactions on circuits and Systems for Video Technology,2014,24(2),291-304.
[11]He Hu,Ben U.Automatic object segmentation of unstructured scenes using colour and depth maps[J],IET computer vision,2014,8(1),45-53.
邢 玲 女,1978年11月生,四川攀枝花人,河南科技大學(xué)信息工程學(xué)院教授,碩士生導(dǎo)師,主要研究方向為網(wǎng)絡(luò)信息智能處理與主動服務(wù)技術(shù).
E-mail:xingling-my@163.com
馬 強 男,1982年9月生,四川綿陽人,西南科技大學(xué)信息工程學(xué)院講師,主要研究方向為多媒體安全認(rèn)證、語義計算.
E-mail:maqiang-my@163.com
胡金軍 男,1986年6月生,河南信陽人,西南科技大學(xué)信息工程學(xué)院碩士,主要研究方向為視頻編解碼、視頻質(zhì)量評估.
E-mail:hujingjun-my@163.com
A Semantic Management Mechanism for Video Resources Based on Scene Segmentation
XING Ling1,2,MA Qiang2,HU Jin-jun2
(1.SchoolofInformationEngineering,HenanUniversityofScienceandTechnology,Luoyang,Henan471023;2.SchoolofInformationEngineering,SouthwestUniversityofScienceandTechnology,Mianyang,Sichuan621010,China)
To tackle video management problem of semantics gap existing in different aspects,a video semantic description framework based on UCL (Uniform Content Locator) is proposed.The semantic description framework consists of three levels,i.e.,content,control and physical.Video to be semantically managed is divided into different scenes based on spatial-temporal similarities of frames.For every scene,the most optimal reference frame (I-frames) and non-optimal reference frames (non I-frames) are selected based on local texture complexity,background luminance and scene complexity.Content semantic are imbedded into non I-frames while control and physical semantics are imbedded into I-frames.A semantic watermarking algorithm is incorporated into the management to realize the efficient storage and transmission of video content and its video semantics.JM reference model is adopted for experiments to verify the watermarking technique and results show that the method is robust and has little side effect on video quality.
video description;semantic management;semantic watermark;scene segmentation;UCL(uniform content locater)
2014-12-17;
2015-01-30;責(zé)任編輯:郭游
國家自然科學(xué)基金(No.61171109);四川省科技廳應(yīng)用基礎(chǔ)項目(No.2014JY0215);西南科技大學(xué)科研項目(No.2014JY0215)
TN911.7
A
0372-2112 (2016)10-2357-07
??學(xué)報URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.10.011