■文/岳占峰
融合音視頻上下文時(shí)序特征的視頻片段檢測(cè)
■文/岳占峰
視頻片段的自動(dòng)檢測(cè)是智能廣告管理系統(tǒng)的重要組成部分。相比于之前的廣告視頻檢測(cè)方法只使用音視頻特征,我們提出了一種利用SVM-DP融合音視頻全局時(shí)序特征來(lái)自動(dòng)檢測(cè)疑似廣告視頻片段的方法。首先,視頻被分割為以鏡頭為單元的視頻序列,然后在以鏡頭起始點(diǎn)為中心的多維特征窗中提取具有上下文信息的音視頻特征,結(jié)合支持向量機(jī)進(jìn)行融合,獲取當(dāng)前鏡頭分別作為廣告和節(jié)目的概率值。將這些概率值作為觀察值構(gòu)建一條以鏡頭為單元、以廣告和節(jié)目為兩個(gè)狀態(tài)的馬爾科夫鏈。最后分別根據(jù)最小持續(xù)時(shí)長(zhǎng)和最大分割數(shù)目約束作為搜索的約束條件,利用動(dòng)態(tài)規(guī)劃算法進(jìn)行最優(yōu)路徑的選擇。以我國(guó)電視節(jié)目的真實(shí)視頻數(shù)據(jù)進(jìn)行實(shí)驗(yàn),證明了這種方法的有效性。
融合音視頻;山下文時(shí)序;視頻片段
當(dāng)前,大量的電視廣告視頻對(duì)我們的日常生活產(chǎn)生了很大影響。從電視節(jié)目中檢測(cè)廣告視頻片段,可以幫助觀眾跳過(guò)廣告片段,也可以從廣告視頻中獲取更多的信息。作為智能廣告管理系統(tǒng)的重要組成部分,廣告視頻片段檢測(cè)方法近幾年吸引了越來(lái)越多的注意力。
有些研究人員從定義規(guī)則的角度,采用諸如黑幀,電視臺(tái)標(biāo)的隱藏,或者幾種特征融合的方法來(lái)檢測(cè)廣告片段,但是這類方法非常依賴于這些特殊的規(guī)則,不具有通用性。后來(lái)有些學(xué)者提出基于重復(fù)視頻片段檢測(cè)的方法,這類方法利用視頻中的圖像幀指紋、聲音指紋以及高效的索引結(jié)構(gòu),取得了較好的效果。但是這類方法的缺陷是在檢測(cè)的范圍內(nèi)廣告視頻片段未必重復(fù)。
為了解決上述問(wèn)題,研究人員嘗試采用基于學(xué)習(xí)的方法和各式各樣的語(yǔ)義信息等來(lái)區(qū)分廣告片段和正常節(jié)目片段。Hua利用基于支持向量機(jī)的分類器和多種音視頻特征將每個(gè)鏡頭分為廣告鏡頭和節(jié)目鏡頭。Liu利用一個(gè)交互的全局學(xué)習(xí)方法Tri-AdaBoost進(jìn)行視頻、音頻、紋理的語(yǔ)義融合。但是,據(jù)我們所知,很少有人在利用全局時(shí)序特征方面做過(guò)深入的研究,而全局時(shí)序特征對(duì)于提升基于鏡頭的視頻檢測(cè)是非常重要的。
在本文中,我們提出了一種新的SVM-DP方法,該方法綜合利用包含上下文信息的音視頻全局時(shí)序特征來(lái)檢測(cè)廣告片段,并通過(guò)最小持續(xù)時(shí)長(zhǎng)約束(MDC)和最大分割數(shù)目約束(MSC)來(lái)描述全局時(shí)序特征。該方法首先利用音視頻特征和SVM分類器分別將每個(gè)鏡頭作為廣告和節(jié)目的概率值獲取,然后這些概率值被作為一個(gè)關(guān)于廣告片段和正常節(jié)目?jī)蓚€(gè)狀態(tài)的馬爾科夫鏈的觀察值,最后分別把MDC和MSC作為約束條件利用動(dòng)態(tài)規(guī)劃算法進(jìn)行最優(yōu)路徑選擇,獲取最優(yōu)的檢測(cè)結(jié)果。
1.1廣告音視頻特征選擇
廣告片段是一類特殊的電視視頻,其播放時(shí)間較短,但希望引起觀眾的注意,并向觀眾傳遞商品信息。因此廣告視頻的視覺特征在空間和時(shí)序變化都較正常節(jié)目更加劇烈,可從中提取邊緣變化率的均值和方差(2維)、幀間差異度的均值和方差(2維)和鏡頭頻率(1維)等特征。此外廣告片段中的音頻通常也具有區(qū)別正常節(jié)目的信息,比如持續(xù)吸引力的旋律。為此可從中提取音頻場(chǎng)景直方圖(靜音、說(shuō)話、音樂(lè)、帶背景音樂(lè)的說(shuō)話聲和環(huán)境音)(5維)。
FMPI (Image Frames Marked with Product Information,標(biāo)記產(chǎn)品信息的圖像幀)常被用來(lái)分割、識(shí)別和檢索廣告視頻。廣告視頻片段通常由許多廣告鏡頭組成,因此包含廣告標(biāo)題圖像(FMPI)的廣告鏡頭會(huì)經(jīng)常在廣告片段中出現(xiàn),而在非廣告片段中卻很少出現(xiàn)。為此,F(xiàn)MPI圖像的比率(1維)可被用來(lái)預(yù)測(cè)廣告片段是否出現(xiàn)。FMPI圖像的比率被定義為RFMPI=NFMPI/tfw,其中NFMPI表示特征窗口中FMPI圖像的個(gè)數(shù),tfw表示特征窗口的長(zhǎng)度。
1.2斐波那契序列特征窗口
眾所周知,當(dāng)區(qū)分廣告和正常視頻時(shí),當(dāng)前視頻鏡頭的上下文(neighborhoods)是非常重要的信息。為了獲取包含上下文信息的特征,音視頻特征都是從當(dāng)前鏡頭以及它周圍的一個(gè)多重滑動(dòng)特征窗中提取。特征窗從當(dāng)前鏡頭的起始時(shí)間為中心分別向兩邊擴(kuò)展。特征窗的長(zhǎng)度為F(i)*ts,i=2,...,n ,其中F(i)是斐波那契序列,ts表示時(shí)間步。因此,我們可以得到2*(n-1)+1個(gè)特征窗口。實(shí)驗(yàn)中我們?cè)O(shè)置ts=5秒,n=6,從而可得到一個(gè)121維的特征向量。
1.3基于SVM的分類器
通過(guò)訓(xùn)練SVM分類器來(lái)融合上述音視頻特征到廣告片段和正常節(jié)目片段的后驗(yàn)概率中。SVM分類器的有效性高度受限于模型參數(shù)的選擇,由于我們使用的是RBF核,所以必須優(yōu)化兩個(gè)參數(shù),C(軟間隔SVM分類器中的代價(jià)參數(shù))和γ(RBF核函數(shù)的寬度)。通過(guò)對(duì)電視視頻的分析,我們發(fā)現(xiàn)其中廣告鏡頭的數(shù)目和正常節(jié)目鏡頭的數(shù)目是非常失衡的,因此我們需要考慮三個(gè)模型參數(shù):Ccm(廣告鏡頭中的代價(jià)參數(shù)),Cgp(正常電視鏡頭的代價(jià)參數(shù))和γ。實(shí)驗(yàn)中設(shè)定Ccm=Ncm×C(Ncm+Ngp),Cgp=Ngp×C(Ncm+Ngp),其中Ncm和Ngp分別是訓(xùn)練集中廣告鏡頭數(shù)目和正常節(jié)目鏡頭的數(shù)目。此外,我們運(yùn)用了開源工具LIBSVM,最優(yōu)模型參數(shù)是通過(guò)交叉驗(yàn)證的方式獲取的。
在理想情況下,每一個(gè)鏡頭都可以被SVM分類器進(jìn)行正確的區(qū)分,這樣廣告片段就可以很容易地被標(biāo)記出來(lái)。但是,在實(shí)際過(guò)程中,由于音視頻的特征不能很好地適配模型,如果僅僅通過(guò)選擇具有最大似然值的模型結(jié)果,經(jīng)常會(huì)出現(xiàn)一些較短的誤判,從而產(chǎn)生一個(gè)有噪聲的分類結(jié)果,但是通過(guò)加入全局的時(shí)序特征,這種誤判的結(jié)果可以被消除,因?yàn)殄e(cuò)誤匹配結(jié)果持續(xù)的時(shí)間很短。由于SVM分類器產(chǎn)生的概率值被認(rèn)為是一個(gè)兩狀態(tài)(廣告片段和正常節(jié)目片段)的馬爾科夫鏈的觀察值,所以依賴于不同約束條件的動(dòng)態(tài)規(guī)劃算法可被引入解決上述問(wèn)題,其中一個(gè)約束條件是廣告片段和正常節(jié)目片段的最小持續(xù)時(shí)長(zhǎng),另一個(gè)是在給定時(shí)間點(diǎn)上的最大分割數(shù)目。
2.1最小持續(xù)時(shí)長(zhǎng)(MDC)
眾所周知,電視視頻中廣告播出在持續(xù)時(shí)長(zhǎng)和時(shí)間間隔上遵循一定的全局時(shí)序性,即廣告片段和正常節(jié)目交替出現(xiàn),并持續(xù)一小段時(shí)間。我們可利用最小持續(xù)時(shí)長(zhǎng)約束進(jìn)行搜索,并嘗試動(dòng)態(tài)規(guī)劃算法來(lái)選擇最優(yōu)的狀態(tài)轉(zhuǎn)移路徑,即在每一個(gè)鏡頭單元d最大化累計(jì)概率值Li(d)=maxk{Lk(d-1)+Tp(k,i )}+Pi(d),其中Li(d)是在鏡頭單元d,最優(yōu)狀態(tài)i的情況下的累積概率值。Tp(k,i)是從狀態(tài)k轉(zhuǎn)移到狀態(tài)i的轉(zhuǎn)移概率矩陣,Pi(d)是在鏡頭單元d狀態(tài)為i時(shí)候的概率值,i=1,2分別為廣告狀態(tài)和正常節(jié)目狀態(tài)。
同時(shí)為了完善算法,我們定義新的變量:Bi(d)是狀態(tài)回溯點(diǎn),記錄在單元點(diǎn)d處,狀態(tài)為i時(shí),在單元點(diǎn)d-1處的最優(yōu)狀態(tài),C*(d)是在單元d處的狀態(tài)標(biāo)號(hào),D是總共候選點(diǎn)的個(gè)數(shù),Hi(d)記錄了狀態(tài)轉(zhuǎn)移點(diǎn)的位置,即當(dāng)前狀態(tài)的第一個(gè)起始點(diǎn)的位置。搜索算法如下:
初始化:
遞推:
終止:
路徑回溯:
理想情況下,搜索算法中的狀態(tài)轉(zhuǎn)移矩陣Tp(k,i)是從狀態(tài)k轉(zhuǎn)移到狀態(tài)i的轉(zhuǎn)移概率矩陣。準(zhǔn)確的轉(zhuǎn)移概率值應(yīng)由大量實(shí)際數(shù)據(jù)模擬獲得,但是這種數(shù)據(jù)很難直接得到。在我們的實(shí)驗(yàn)中,我們采用最小持續(xù)時(shí)長(zhǎng)約束進(jìn)行近似模擬,主要由廣告片段最小時(shí)長(zhǎng) TCM和正常節(jié)目最小時(shí)長(zhǎng) TGP來(lái)確定。如果tde-tHbi(d)<TCM,其中tde表示在鏡頭單元點(diǎn)d處的結(jié)束時(shí)間,tHbi(d)表示在鏡頭單元點(diǎn)Hi(d)處的開始時(shí)間,那么從廣告狀態(tài)轉(zhuǎn)移到廣告狀態(tài)的概率設(shè)為0.65,從廣告狀態(tài)轉(zhuǎn)移到正常節(jié)目狀態(tài)的概率設(shè)為0.35,反之我們就將從廣告狀態(tài)到廣告狀態(tài)和從廣告狀態(tài)到正常節(jié)目狀態(tài)的轉(zhuǎn)移概率分別設(shè)為0.55、0.45。
2.2最大分割數(shù)目約束
在一段給定的視頻片段中,廣告片段和正常節(jié)目片段的總數(shù)總會(huì)存在一個(gè)最大值,因此在這種情況下,最優(yōu)的分類路徑可以通過(guò)最大化累積概率值來(lái)獲取,通過(guò)一個(gè)對(duì)分割總數(shù)目的約束條件下的動(dòng)態(tài)規(guī)劃算法實(shí)現(xiàn)。在這個(gè)算法中,對(duì)于任意兩個(gè)鏡頭單元,起始點(diǎn) db和結(jié)束點(diǎn)de構(gòu)成的單元點(diǎn)區(qū)間,它作為一個(gè)狀態(tài)序列最大的累積概率值設(shè)為,用來(lái)記錄在這個(gè)狀態(tài)下最優(yōu)的狀態(tài)索引:
其中Pi(d)是當(dāng)前鏡頭單元點(diǎn)d的觀察值。對(duì)于在區(qū)間(db,de)擁有n個(gè)分割片段的最優(yōu)路徑也就是當(dāng)結(jié)束點(diǎn)在db-1時(shí)擁有n-1個(gè)分割片段的情況。因此,在給定所有的任意兩個(gè)鏡頭單元點(diǎn)的最優(yōu)質(zhì)獲取的情況下,并且允許最大分割片段數(shù)據(jù)(Nmax)的情況下,整體的結(jié)束點(diǎn)為 de時(shí)分割數(shù)目為n時(shí)的累計(jì)概率,因此搜索算法如下:
初始化:
遞推:
終止條件:
路徑回溯:
其中D是所有候選點(diǎn)的總數(shù)目,N*是最優(yōu)的分割數(shù)目,L*是累積概率最大值,B(de)(n)記錄了當(dāng)結(jié)束點(diǎn)為 de,分割數(shù)目為n的情況下的最優(yōu)起始點(diǎn) db通過(guò)回溯B(de)(n)和可以獲得最優(yōu)的類別轉(zhuǎn)移點(diǎn)。
我們的實(shí)驗(yàn)數(shù)據(jù)由47小時(shí)的視頻數(shù)據(jù)組成,來(lái)自國(guó)內(nèi)5個(gè)電視臺(tái),其中包括12.8小時(shí)的廣告視頻數(shù)據(jù)和34.2小時(shí)的正常節(jié)目(包含新聞、體育、電視劇和娛樂(lè)節(jié)目4種節(jié)目類型)視頻數(shù)據(jù)。所有的視頻數(shù)據(jù)都被分割成5分鐘一段,數(shù)據(jù)中的邊界都通過(guò)人工手工標(biāo)注。數(shù)據(jù)一半用來(lái)訓(xùn)練,另外一半用來(lái)測(cè)試。實(shí)驗(yàn)設(shè)置廣告的持續(xù)時(shí)長(zhǎng)最小設(shè)為20秒,節(jié)目片段的最小時(shí)長(zhǎng)設(shè)為60秒,五分鐘視頻中廣告片段和節(jié)目片段的最大數(shù)目設(shè)為3。準(zhǔn)確率、召回率和F1值被用來(lái)評(píng)估實(shí)驗(yàn)結(jié)果。
使用兩段各五分鐘的視頻數(shù)據(jù)作為樣例進(jìn)行實(shí)驗(yàn),把使用音視頻特征的基于SVM分類器通過(guò)最大似然(max likelihood,ML)方法的結(jié)果作為基準(zhǔn),評(píng)估兩種約束方法MDC和MSC,測(cè)試結(jié)果如圖1所示??梢园l(fā)現(xiàn),MDC和MSC這兩種方法都可以提升分類的結(jié)果,其中MDC可以糾正許多短時(shí)的錯(cuò)誤判斷,MSC則可以消除許多的噪聲片斷。在其他的廣告片段和正常節(jié)目片段的組合形式的視頻中也得到了類似的結(jié)果。
圖1 檢測(cè)結(jié)果圖示
由于正常電視節(jié)目種類有多種多樣,為此我們構(gòu)建實(shí)驗(yàn)來(lái)驗(yàn)證在不同類型的視頻數(shù)據(jù)中該方法的有效性。從表1的結(jié)果中可以看出,該方法在所有類型的視頻數(shù)據(jù)中都能取得理想的結(jié)果,比較來(lái)說(shuō),在運(yùn)動(dòng)和娛樂(lè)類視頻數(shù)據(jù)中的結(jié)果不太完美,這大概是由于運(yùn)動(dòng)和娛樂(lè)類的節(jié)目視頻與廣告視頻相比有很多相似的音視頻特征,因?yàn)檫@些類型的視頻都有一些劇烈的相機(jī)移動(dòng)和一些標(biāo)語(yǔ)的使用。從表中可進(jìn)一步看出使用MDC和MSC約束的動(dòng)態(tài)規(guī)劃算法可以修訂這種短的誤判結(jié)果。
表1 不同類型的正常節(jié)目視頻上的F1值
更進(jìn)一步地,該方法與廣告檢測(cè)的共享軟件Comskip[10]進(jìn)行對(duì)比,結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果驗(yàn)證了我們提出的方法使用全局時(shí)序特征的有效性。另外,MSC優(yōu)于MDC的表現(xiàn)是因?yàn)镸DC不能消除一些長(zhǎng)的誤分類結(jié)果。
表2 與COMSKIP的性能對(duì)比
本文提出了一個(gè)兩階段廣告視頻片段檢測(cè)方法,該方法首先將電視視頻節(jié)目分割成以鏡頭為單元的視頻鏡頭序列,在以鏡頭起始點(diǎn)為中心的多維特征窗中提取具有上下文信息的音視頻特征,結(jié)合支持向量機(jī)進(jìn)行融合,預(yù)測(cè)當(dāng)前鏡頭分別作為廣告和節(jié)目的概率值;然后將這些概率值作為觀察值構(gòu)建一條以鏡頭為單元、以廣告和節(jié)目為兩個(gè)狀態(tài)的馬爾科夫鏈,這個(gè)馬爾科夫鏈可以合并鏡頭為一個(gè)片段;最后分別根據(jù)最小持續(xù)時(shí)長(zhǎng)和最大分割數(shù)目約束作為搜索的約束條件,利用動(dòng)態(tài)規(guī)劃算法進(jìn)行最優(yōu)路徑的選擇。在真實(shí)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明我們的方法對(duì)多種類型的視頻都是準(zhǔn)確而有效的。在后續(xù)的工作中,我們將會(huì)嘗試把MDC和MSC融合到一個(gè)統(tǒng)一的搜索過(guò)程中。
[1] R. Lienhart, C. Kuhmunch and W. Effelsberg, On the Detection and Recognition of Television Commercials,Proc of IEEE Conf. on Multimedia Computing and Systems,1997.
[2] A.Albiol, M.J.Ch, F.A.Albiol and L.Torres, Detection of TV commercials, Proc. of ICASSP, 2004.
[3] X.S. Hua, L. Lu and H.J. Zhang, Robust Learning-based TV Commercial Detection, Proc. of ICME, 2005.
[4] M. Mizutani, S. Ebadollahi and S.F. Chang, Commercial Detection in Heterogeneous Video Streams Using Fused Multi-Modal and Temporal Features, Pro. ICASSP, 2005.
[5] L.Y. Duan, J.Q. Wang, Y. Zheng, J.S. Jin, H.Q. Lu, and C.S. Xu, Segmentation, categorization, and identification of commercials from tv streams using multimodal analysis, Proc. ACM MM06, pages 202-210, 2006.
[6] J.M.Gauch and A.Shivadas, Finding and identifying unknown commercials using repeated video sequence detection, Computer Vision and Image Understanding,103(1):80C88, July 2006.
[7] J.Q. Wang, L.Y. Duan, Q.S. Liu, H.Q. Lu and J.S. Jin, Robust Commercial Retrieval in Video Streams, Proc. ICME, 2007.
[8] H.Duxans, D.Conejero and X.Anguera, Audiobased automatic management of TV commercials, Proc. ICASSP, 2009.
[9] N. Liu, Y. Zhao, Z.F. Zhu, and H.Q. Lu, Exploiting Visual-Audio-Textual Characteristics for Automatic TV Commercial Block Detection and Segmentation, IEEE Transactions on Multimedia, 13(5):961C973,October 2011.
[10] Comskip Online: http://www.kaashoek.com/comskip.
(作者單位:北京版銀科技有限責(zé)任公司)
TN941.2
A
1671-0134(2016)10-025-04
10.19483/j.cnki.11-4653/n.2016.10.006
本文由國(guó)家科技支撐計(jì)劃支持,課題名稱“數(shù)字版權(quán)資源管理系統(tǒng)研發(fā)與應(yīng)用”,課題編號(hào)2014BAH19F01