国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度時(shí)長音頻特征的暴力音頻事件檢測

2014-04-29 13:29:02徐戰(zhàn)蒼李海峰
關(guān)鍵詞:支持向量機(jī)

徐戰(zhàn)蒼 李海峰

摘要:暴力鏡頭檢測是近年來的研究熱點(diǎn)之一。早期的暴力鏡頭檢測主要依賴視頻特征,由于音頻信息具有良好的穩(wěn)定性和在不同文化和人群之間的一致性,現(xiàn)在人們越來越多地關(guān)注音頻信息的使用。本文研究使用音頻特征對電影鏡頭中的暴力音頻事件進(jìn)行檢測。本文提出了一種基于多尺度時(shí)長的特征提取方法。提取了除MFCC、LPC、能量等短時(shí)特征以外,還提取了能量均值方差、子帶能量均值和方差、幀間差分等長時(shí)特征。暴力鏡頭中出現(xiàn)較多且具有代表性的音頻事件有爆炸、尖叫、槍擊3種。本文以電影的鏡頭為識別單位,使用支持向量機(jī)分類算法實(shí)現(xiàn)了一個(gè)檢測系統(tǒng)。通過在15部好萊塢電影上的實(shí)驗(yàn),表明本文基于多尺度時(shí)長的音頻特征在暴力音頻事件檢測工作中,能夠取得較好的結(jié)果。

關(guān)鍵詞:暴力鏡頭檢測;多尺度時(shí)長特征;音頻事件檢測;支持向量機(jī)

中圖分類號: TP391 文獻(xiàn)標(biāo)識碼: A 文章編號:2095-2163(2014)04-

Violent audio event detection based on multi-scale audio features

XU Zhancang,LI Haifeng

( School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

Abstract: Violence detection is one of the hot research topic in recent years. Early work mainly depends on the video characteristic, considering the audio information has good stability and consistency between different cultures and people, people are now more and more attention to the use of audio information. This paper studies using audio features to detect violent audio event in the movie. So this paper presents a multi-scale feature extraction method. The extracted features besides MFCC, LPC, short term energy also extracted the long term feature, such as the mean and variance of energy and sub-band energy, difference between frames. The audio events appeared frequently in violence scenes are explosions, screams, gunshots. Therefore, using support vector machine classification algorithm, the paper implements a detection system, to detect the violent audio event in the movie scenes. Through experiments on 15 Hollywood movies, experiments results show that the multi-scale audio features can achieve good results in the violent audio event detection work.

Key words: Violence Detection; Multi-scale Audio Features; Audio Event Detection; Support Vector Machine (SVM)

0引言

音視頻中暴力與色情內(nèi)容的自動(dòng)分析與檢測已然成為近年來研究工作的新鮮熱點(diǎn)之一,而倍受各方關(guān)注。尤其在網(wǎng)絡(luò)發(fā)達(dá)的今天,包含過多兒童不宜觀看內(nèi)容的音視頻,如果只是依靠人工審核,即使耗費(fèi)大量的人力及財(cái)力也難以即時(shí)發(fā)現(xiàn)不良信息。本文即針對電影中所包含的音頻暴力片段進(jìn)行研究,提出了基于音頻長短時(shí)特征與統(tǒng)計(jì)特征相融合的組合量特征,由此而實(shí)現(xiàn)了一種基于音頻的長短時(shí)特征與統(tǒng)計(jì)特征融合的暴力內(nèi)容自動(dòng)分析系統(tǒng)。

對于什么是暴力,一直沒有給出過權(quán)威的定義。目前以MediaEval競賽為標(biāo)準(zhǔn)的暴力定義[1]是:“身體暴力或事故導(dǎo)致的人體傷害或疼痛?!辫b于視頻數(shù)據(jù)的直觀、特征可分性強(qiáng)等優(yōu)勢,前期暴力檢測工作的重點(diǎn)多是關(guān)注于視頻數(shù)據(jù)的分析,Chen等就使用了平均運(yùn)動(dòng)強(qiáng)度等特征檢測了打斗、流血等暴力鏡頭,平均識別率達(dá)到了85%[2]。Zhang、Chen等則使用了基于內(nèi)容的HOF特征進(jìn)行打斗場景的識別,也取得了86%的識別結(jié)果[3]。而基于暴力場景中經(jīng)常采用特定音頻事件來渲染氣氛的特點(diǎn)分析,因而即進(jìn)一步展開了對基于音頻特征暴力場景識別的有關(guān)分析與研究。其中,由于能量熵可以反映短時(shí)間內(nèi)的能量突變,Jeho和Ahmed就將其作為運(yùn)動(dòng)強(qiáng)度、火焰特征、流血特征等視頻特征的輔助性能來完成基于事件的視頻摘要提取工作[4]。為此,Theodoros等即使用了能量、過零率等八種音頻特征對固定長度的音頻段進(jìn)行了暴力與非暴力的分類[5],并且取得了90.5%的識別結(jié)果。時(shí)下大多數(shù)工作也只嘗試對一種或少量幾種暴力音頻事件進(jìn)行了檢測。例如,Huang等使用能量和基頻特征對尖叫事件進(jìn)行的檢測,最終取得了86%的識別結(jié)果[6]。Pikrakis等更使用了MFCC、能量熵、基頻等的統(tǒng)計(jì)特征進(jìn)行了槍擊的檢測,相應(yīng)地取得了90.6%的識別結(jié)果[7]。Penet又使用MFCC、能量等特征,對槍擊和爆炸產(chǎn)生的音響進(jìn)行了識別,分別取得了80%和72%的識別結(jié)果[8]。

在電影暴力內(nèi)容的分析工作中,基本單位多為鏡頭,但每個(gè)鏡頭的持續(xù)時(shí)間卻有所不同。因此,除了鏡頭內(nèi)的短時(shí)音頻特征,同時(shí)更要提取短時(shí)音頻特征的長時(shí)統(tǒng)計(jì)特征,如此才能進(jìn)一步體現(xiàn)鏡頭內(nèi)特征的變化。與其相應(yīng)地,本文即提出一種基于音頻多尺度時(shí)長特征的暴力鏡頭中音頻事件的自動(dòng)分析與檢測技術(shù)。

本文的主要結(jié)構(gòu)安排如下:第一部分為基于長時(shí)特征以及統(tǒng)計(jì)特征的音頻特征提取,對暴力音頻事件音頻特征進(jìn)行分析與提?。坏诙糠旨磳?shí)驗(yàn)結(jié)果進(jìn)行分析;最后進(jìn)行總結(jié)以及給出對下一步工作的展望。

1 多尺度時(shí)長下暴力音頻特征的定義與提取方法

電影中的聲音對電影信息表達(dá)起著至關(guān)重要的作用,尤其是在暴力鏡頭中,聲音的作用更是突出。若要對音頻事件進(jìn)行有效的識別,就需要選擇合適的特征。大多數(shù)音頻場景分析通常采用短時(shí)特征,且特征所對應(yīng)的音頻信號單元也多為定長[9-11],如MFCC、短時(shí)過零率、LPC等特征都是研究過程的常見選擇。

而電影中的鏡頭構(gòu)成場景的聲學(xué)事件多為不定長的音頻片段。并且,由于音頻事件差異性較大,使其持續(xù)的時(shí)長與特征也有本質(zhì)不同。例如爆炸聲和尖叫聲、槍擊聲在子帶能量、頻譜質(zhì)心和過零率等特征上均呈現(xiàn)不同的分布。本文中的長時(shí)特征,即為體現(xiàn)出特征在一段時(shí)間內(nèi)的變化,可通過計(jì)算相應(yīng)的統(tǒng)計(jì)信息而得到,具體來說包括了子帶能量的均值和方差、音頻能量的均值和方差、幀間的一階以及二階差分等。

1.1定時(shí)長短時(shí)音頻特征的提取

定時(shí)長短時(shí)特征,即通過對音頻信息進(jìn)行預(yù)處理、分幀之后提取的每幀的特征,包括MFCC、基頻、LPC、能量熵等?,F(xiàn)在將各個(gè)特征的提取方式依次給出,具體內(nèi)容如下:

(1) MFCC是將人耳聽覺感知特性和語音的產(chǎn)生機(jī)制相結(jié)合而來,因此將更加接近人們的聽覺認(rèn)知習(xí)慣,已經(jīng)廣泛用于音頻信息分析。在此,可劃分26個(gè)mel頻帶,mel系數(shù)選取12,這樣本文共提取12維MFCC特征。

(2) 基頻體現(xiàn)的是聲音的知覺特性,并且這種知覺特性在人們聽聞和理解不同的聲響中發(fā)揮著重要的作用。對于暴力聲音,如:尖叫、槍擊等來說,其音高均不相同,因此可以采用音高特征作為本文音頻事件的識別特征。

(3) LPC是根據(jù)理想的聲道模型計(jì)算得到的,為此根據(jù)爆炸、槍擊和尖叫所發(fā)出聲音的通道也是不同的,可應(yīng)用LPC及其倒譜系數(shù)LPCC特征來共同確定暴力音頻的聲源性質(zhì)。

(4) 能量熵。能量熵是一幀信號中的能量變化程度。通過將每幀音頻信號分為固定長度的K個(gè)大小相同的子窗口,而對于每個(gè)子窗口i均要計(jì)算其經(jīng)過標(biāo)準(zhǔn)化的能量 ,標(biāo)準(zhǔn)化過程就是將每個(gè)子窗口的能量除以整幀信號的能量,具體計(jì)算如公式(1)所示。

(1)

本文中,K=5,即每個(gè)子窗口長度為5ms,在這個(gè)時(shí)間內(nèi)的信號可定義為是穩(wěn)定的。

1.2變時(shí)長音頻特征的提取

由于音頻事件差異性較大,且持續(xù)的時(shí)長與特征多有本質(zhì)不同,只是單純提取短時(shí)特征即會造成大量信息丟失。因此本文工作中給出了根據(jù)暴力音頻持續(xù)的時(shí)間差異,分析獲得不同時(shí)間長度內(nèi)的統(tǒng)計(jì)特征,包括能量譜質(zhì)心和頻譜質(zhì)心特征、子帶能量的均值和方差、音頻能量的均值和方差、幀間的一階及二階差分等。下面將注意分列其對應(yīng)的計(jì)算模型,詳情如下。

(1) 能量譜質(zhì)心和頻譜質(zhì)心特征

頻譜質(zhì)心是功率譜分布的重心位置,能夠作為度量音頻亮度的近似指標(biāo),并且不同暴力音頻場景(尖叫、爆炸、槍擊)會有不同音頻亮度。因此頻譜質(zhì)心即是一種檢測音頻事件的有效特征。同時(shí),不同音頻事件的音頻信號頻譜在其頻譜質(zhì)心周圍的分布情況也是不同的。本文計(jì)算信號在經(jīng)過傅里葉變換后將統(tǒng)計(jì)前256個(gè)頻帶的 ,也就是頻譜質(zhì)心和能量譜質(zhì)心計(jì)算如公式(2)所示。

(2)

相應(yīng)地,當(dāng)μ=1時(shí),計(jì)算可得頻譜質(zhì)心,當(dāng)μ=2時(shí),計(jì)算得到的則是能量譜質(zhì)心。

在本文中,還將計(jì)算語音信號頻譜在其頻譜質(zhì)心周圍的的分布情況的頻譜散度(Spectral Spread, SS),其計(jì)算可見公式(3)。

(3)

(2) 歸一化子帶能量的均值和方差

子帶的能量可以反映信號的不同聲學(xué)特性。不失一般性,本文應(yīng)用數(shù)據(jù)的采樣率為8kHz。在此采樣率下,劃分了十六個(gè)頻率子帶,分別為[0-500 Hz], [500-1 000Hz], . . . , [7 500-8 000Hz],統(tǒng)計(jì)計(jì)算不同暴力音頻事件在每個(gè)子帶能量的均值和方差,再將相同子帶上的能量取均值并歸一化,使得各子帶上的能量累加和為1,從而得到能量在不同子帶上的分布。

(3) 能量均值和方差

在不同的電影中,整體的能量可能偏大或偏小。因此,為了能夠使相應(yīng)的識別效果具有一定的魯棒性,即提取了一個(gè)鏡頭內(nèi)音頻能量的均值和方差。

(4) 幀間差分

通過幀間差分提取一個(gè)鏡頭內(nèi)的特征的差異程度,體現(xiàn)鏡頭內(nèi)的一個(gè)長時(shí)的變化,本文則采用HTK中計(jì)算差分的方法,對文中提取的特征計(jì)算其一階差分和二階差分。其中,一階差分的具體計(jì)算公式如下:

(4)

式中, 表示當(dāng)前幀, 取2。

得到一幀信號的一階差分后,在一階差分的基礎(chǔ)上再進(jìn)行一重差分,就得到信號的二階差分 ,其計(jì)算公式可表述如下。

(5)

綜上所述,本文中所提取特征及維數(shù)則如表1所示。

2 實(shí)驗(yàn)結(jié)果及分析

MediaEval 2012 Workshop[1]是目前公開的、較權(quán)威的暴力檢測競賽,該競賽所使用的視頻數(shù)據(jù)主要選自Hollywood電影。本文即采用MediaEval 2012 Workshop所提供的數(shù)據(jù)庫,具體可稱作VSD(Video Scenes Dataset)。

數(shù)據(jù)的預(yù)處理,主要對音頻信號進(jìn)行預(yù)加重,并加漢明窗。本文中數(shù)據(jù)采用幀長為25ms,幀移10ms。本文所使用數(shù)據(jù)庫中包含的電影名稱以及每個(gè)電影中包含特定暴力音頻事件的鏡頭數(shù)目統(tǒng)計(jì)如表2所示。對于每一種音頻事件皆選取4/5的鏡頭特征作為訓(xùn)練,剩余的1/5作為測試集。

表 2 各部電影中包含特定音頻事件的鏡頭個(gè)數(shù)

Tab.2 The number of shots in movies

總鏡頭數(shù) 爆炸鏡頭個(gè)數(shù) 槍擊鏡頭個(gè)數(shù) 尖叫鏡頭個(gè)數(shù)

26108 923 947 1044

評測指標(biāo)采用經(jīng)典AED(Audio Event Detect)中獲得廣泛采用的評價(jià)指標(biāo),也就是Precision、Recall、F1,其計(jì)算即如公式(6)所示。

(6)

其中, 表示Precision和Recall之間的平衡因子,本文中 =1。

本文主要設(shè)計(jì)三組實(shí)驗(yàn),分別針對三種暴力音頻事件和正常音頻場景的識別、三種暴力音頻事件之間的識別以及三種暴力音頻事件和正常音頻的四類問題。其中分類器采用的則是SVM[12]。

實(shí)驗(yàn)一:針對三種暴力音頻事件和非暴力音頻的識別,即爆炸和非爆炸,槍擊和非槍擊,尖叫和非尖叫。其中設(shè)定了5折實(shí)驗(yàn),而且分別使用短時(shí)特征以及長短時(shí)特征的結(jié)合來進(jìn)行實(shí)驗(yàn),具體識別結(jié)果如表3、表4所示。

通過表3,表4可以看出,僅僅使用短時(shí)特征雖然能夠取得較好的結(jié)果,但如果能夠加入長時(shí)特征,整體的識別結(jié)果仍會得到更為顯著的提升。同時(shí),由上述實(shí)驗(yàn)結(jié)果也可以看出,Precision普遍較低。這以結(jié)果則與選取數(shù)據(jù)庫中的暴力鏡頭和非暴力鏡頭的數(shù)量差距直接相關(guān)。

實(shí)驗(yàn)二:主要針對三種暴力音頻事件的兩兩組合間的識別,以此來驗(yàn)證本文所提取的特征在不同暴力音頻事件上的各自識別效果。此處,只是選取爆炸、槍擊和尖叫的鏡頭進(jìn)行實(shí)驗(yàn)。同樣,本實(shí)驗(yàn)也是使用短時(shí)特征以及長短時(shí)特征的結(jié)合而設(shè)定了兩組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果則如表5、表6所示。

通過表5和表6可以看出,整體來說爆炸和槍擊對尖叫的區(qū)分效果較好,但爆炸和槍擊二者的區(qū)分卻要差上一些。這可能是由二者的特性所導(dǎo)致,畢竟二者在發(fā)聲上有較大的近似。只是進(jìn)一步地,通過加入長時(shí)特征,就可以將三種暴力音頻事件實(shí)現(xiàn)有效的區(qū)分。

實(shí)驗(yàn)三:四類識別。實(shí)驗(yàn)數(shù)據(jù)包括三種暴力音頻事件鏡頭的特征,以及所有不包含三種音頻事件鏡頭的特征。共四類數(shù)據(jù)。與上述實(shí)驗(yàn)一樣,采用了5折驗(yàn)證,并且使用了短時(shí)特征以及長短時(shí)特征進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如表7、表8所示。

由表7和表8可知,在進(jìn)行多類的識別時(shí),加入長時(shí)特征,也可以提高實(shí)驗(yàn)的識別效果??傮w來說,對于當(dāng)前所使用的數(shù)據(jù)庫,加以客觀條件所限,本文取得的結(jié)果已是較為理想。而且,對于處理不定長的音頻段,利用長短時(shí)特征的融合,亦可以有效地提高相應(yīng)的識別效果。

3 結(jié)束語

現(xiàn)階段對于電影中的暴力檢測研究仍屬稀少,而且已有研究基本都采用視頻數(shù)據(jù)進(jìn)行對暴力鏡頭的檢測。使用音頻進(jìn)行檢測仍尚屬罕見,尤其是暴力電影中的音頻事件(爆炸、槍擊、尖叫等)檢測。本文使用上文中所介紹的音頻特征同時(shí)對爆炸、槍擊、尖叫等三種具有代表性的暴力音頻事件進(jìn)行了檢測。取得了較好的結(jié)果:最高的為爆炸,達(dá)到了93.3%;最低的為尖叫,也達(dá)到了81%。總體來講,本文提取的特征是有效的,而且能夠產(chǎn)生較好的識別結(jié)果。大部分的暴力音頻檢測在較短的音頻段進(jìn)行和實(shí)現(xiàn),而對電影中以鏡頭為檢測粒度的工作及文獻(xiàn)還較少見到,因此,對于一個(gè)鏡頭中的音頻特征的提取和使用則是后續(xù)需要進(jìn)一步深度研究的工作內(nèi)容之一。與此同時(shí),在后續(xù)的工作中還要考慮使用其他的分類算法,以在更大程度上提高研究的識別結(jié)果。另一方面,暴力音頻事件的檢測更是對電影中暴力鏡頭檢測工作的一部分。因此,未來應(yīng)該可以與視頻特征相結(jié)合進(jìn)行暴力鏡頭檢測。

參考文獻(xiàn):

[1] DEMARTY C H, PENET C, GRAVIER G, et al. The MediaEval 2012 Affect Task: Violent Scenes Detection in Hollywood Movies. MediaEval 2012 Workshop, Pisa,Italy, October 4–5 2012.

[2] CHEN L H, HSU H W, WANG L Y, et al. Violence detection in movies[C]//Computer Graphics, Imaging and Visualization (CGIV), 2011 Eighth International Conference on. IEEE, 2011: 119-124.

[3]CHEN Y, ZHANG L, LIN B, et al. Fighting detection based on optical flow context histogram[C]//Innovations in Bio-inspired Computing and Applications (IBICA), 2011 Second International Conference on. IEEE, 2011: 95-98.

[4] NAM J, TEWFIK A H. Event-driven video abstraction and visualization[J]. Multimedia Tools Appl, 2002, 16(1-2):55–77.

[5] GIANNAKOPOULOS T, KOSMOPOULOS D, ANDREASARISTIDOU, et al.Violence content classification using audio features[C]//SETN, 2006:502–507.

[6] HUANG Weimin, et al. Scream detection for home applications[C]//Industrial Electronics and Applications (ICIEA), 2010 the 5th IEEE Conference on. IEEE, 2010.

[7] PIKRAKIS, AGGELOS, GIANNAKOPOULOS T, et al. "Gunshot detection in audio streams from movies by means of dynamic programming and bayesian networks[C]//Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008.

[8] PENET, C?DRIC, et al. Audio event detection in movies using multiple audio words and contextual Bayesian networks[C]// Content-Based Multimedia Indexing (CBMI), 2013 11th International Workshop on. IEEE, 2013.

[9] CHENG W, CHU W, WU J. Semantic context detection based on hierarchical audio models[C]// Proceedings of the 5th ACM SIGMM international Workshop on Multimedia in-formation Retrieval, 2003:109–115.

[10] NAM J, ALGHONIEMY M, TEWFIK A H.Audio-visual content-based violent scene charac-terization[C]//IEEE International Conference on Image Processing, 1998:353–357.

[11]TEMKO A, NADEU C, BIEL J I. Acoustic event detection: SVM-based system and evaluation setup in CLEAR07[M]. Multimodal Technologies for Perception of Humans. Springer Berlin Heidelberg, 2008: 354-363.

[12] CHANG C-C, LIN C-J, LIBSVM : a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1--27:27, 2011. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm

猜你喜歡
支持向量機(jī)
基于支持向量回歸機(jī)的電能質(zhì)量評估
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
基于SVM的煙草銷售量預(yù)測
動(dòng)態(tài)場景中的視覺目標(biāo)識別方法分析
論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
管理類研究生支持向量機(jī)預(yù)測決策實(shí)驗(yàn)教學(xué)研究
考試周刊(2016年53期)2016-07-15 09:08:21
巴青县| 七台河市| 东兰县| 同心县| 台中市| 麻栗坡县| 乳山市| 高清| 崇义县| 通道| 四子王旗| 孟津县| 马山县| 玛多县| 五原县| 岑溪市| 连平县| 开江县| 贵定县| 河西区| 凤山市| 青龙| 荔波县| 长垣县| 宝清县| 揭阳市| 木兰县| 长顺县| 社旗县| 门源| 双流县| 盘山县| 淳化县| 商丘市| 宝鸡市| 崇礼县| 莆田市| 获嘉县| 河南省| 东明县| 进贤县|