一種音頻情感區(qū)間劃分方法

2014-10-17 17:49:28翁子林

電腦知識(shí)與技術(shù) 2014年26期

翁子林

摘要：該文提出一種音頻情感區(qū)間劃分方法。該方法以提取音頻情感語(yǔ)義方面為目的，可以有效地劃分出視頻流中音頻通道的情感區(qū)間。首先，事先選定若干種音頻中層情感認(rèn)知類型，并采用基于分層二叉樹SVM分類算法對(duì)每個(gè)音頻段進(jìn)行中層情感認(rèn)知初分類，然后提出一種基于規(guī)則的分類結(jié)果平滑策略對(duì)初分類結(jié)果進(jìn)行平滑。最后，利用從中層認(rèn)知到高層情感感知的映射機(jī)制，將中層認(rèn)知映射到高層情感感知以識(shí)別高層情感語(yǔ)義，最終完成音頻情感區(qū)間劃分。實(shí)驗(yàn)證明，該方法對(duì)音頻情感區(qū)間劃分具有良好的效果。

關(guān)鍵詞：視頻語(yǔ)義分析；情感區(qū)間劃分；情感計(jì)算；音頻分類；分層二叉樹支持向量機(jī)

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）26-6184-03

Abstract： This paper proposes a emotion perception based division approach of audio emotional range， which starts with the audio emotional semantic analysis and works well. Firstly， several kinds of middle-level emotional cognitive type are selected in advance. An hierarchical binary tree based SVM classifier algorithm is performed to classify the middle-level emotional cognitive type initially. Next， for the purpose of finishing emotion labeling， a rule based smoothing strategy for emotional ranges is proposed to smooth the former classification results. Finally， a mapping mechanism， from middle-level cognitive types to high-level emotional perceptional types， is adopted to synchronize the high-level audio emotional perception results onto the horizontal axis of audio energy curve. Experimental results demonstrate that the proposed scheme is effective for audio emotional range division.

Key words： audio semantic analysis；emotional range division；affective computing；audio classification；binary tree based support vector machine

隨著多媒體信息的不斷涌現(xiàn)，如何自動(dòng)高效地從海量多媒體中找出用戶真正感興趣的內(nèi)容已經(jīng)成為一個(gè)亟待解決的問(wèn)題[1-2]。傳統(tǒng)的多媒體分類管理普遍采用人工手動(dòng)標(biāo)注的方式，這種方式無(wú)法適應(yīng)急速增長(zhǎng)的視頻檢索需求。這時(shí)，人們往往從語(yǔ)義分析技術(shù)入手，探索音視頻底層物理信息與高層情感的對(duì)應(yīng)關(guān)系。情感區(qū)間劃分可以為多媒體數(shù)據(jù)情感語(yǔ)義分析提供高層語(yǔ)義信息參考，輔助關(guān)鍵事件檢測(cè)[1-4]以及摘要生成[5]。音頻情感區(qū)間劃分也因此正在成為新的研究熱點(diǎn)。

聽覺信息是富含語(yǔ)義信息的，聲音和語(yǔ)言可以用來(lái)準(zhǔn)確地描述復(fù)雜的事件及其過(guò)程，可以準(zhǔn)確地推測(cè)人的情感[6]。富含語(yǔ)義的音頻信息，能夠?yàn)橐曨l的情感語(yǔ)義區(qū)間劃分提供更有價(jià)值的參考。荷蘭著名科學(xué)家Alan Hanjalic將媒體中的內(nèi)容分為三個(gè)層次[7]，如圖1所示。從圖中可以看出，由底層特征空間到高層情感的語(yǔ)義鴻溝是客觀存在的[8]?？紤]到從直接從底層信息構(gòu)建到高層情感語(yǔ)義映射模型的復(fù)雜性，該文從底層音頻特征入手，首先提取底層音頻特征作為底層感知內(nèi)容，然后采用基于分層二叉樹SVM分類算法對(duì)中層情感認(rèn)知信息進(jìn)行識(shí)別，最后利用中層情感認(rèn)知與高層情感的映射關(guān)系識(shí)別高層情感語(yǔ)義。該文還將以體育視頻為例子，簡(jiǎn)要介紹體育視頻情感區(qū)間劃分系統(tǒng)。

1 音頻情感感知問(wèn)題描述

音頻情感感知是從聽覺的角度出發(fā)，充分利用音頻富含語(yǔ)義信息的特點(diǎn)，利用機(jī)器學(xué)習(xí)等相關(guān)理論對(duì)音頻中蘊(yùn)含的高層情感語(yǔ)義內(nèi)容進(jìn)行分析，以達(dá)到感知音頻情感類型的目的。設(shè)視頻媒體的音頻幀序列為[AF：af1，af2，af3...afm]，[AF]由若干連續(xù)的視頻幀子區(qū)間[AFi：afk，afl]構(gòu)成，[AFi：afk，afl][?][AF]且[AFi?AFj=?]。音頻感知就是求出每個(gè)[AFi]所對(duì)應(yīng)的高層情感類型[ETi]。比如，在體育視頻中通過(guò)一定的音頻情感感知策略，可以感知到現(xiàn)場(chǎng)觀眾以及解說(shuō)員情緒的激動(dòng)與平靜，其中[ET=]{激昂，平靜}。

2 音頻情感區(qū)間劃分

音頻的底層特征常常被用來(lái)做高層語(yǔ)義的分析，然而底層特征往往不夠直觀而且也不符合人類的感知[9]，因此一個(gè)有效的辦法就是提取其中層認(rèn)知特征。與底層特征不同的是，中層認(rèn)知特征（比如體育視頻中的歡呼聲、擊球聲等）可以從語(yǔ)義概念的角度促進(jìn)高層事件的分析，在底層特征和高層語(yǔ)義之間起一個(gè)橋梁作用。以體育視頻為例，我們可以選擇以下富有情感感知成分的中層認(rèn)知特征：觀眾歡呼聲、觀眾鼓掌聲、解說(shuō)員精彩解說(shuō)聲，并通過(guò)音頻分類達(dá)到識(shí)別中層認(rèn)知特征的目的。這些中層認(rèn)知特征包含豐富的情感語(yǔ)義信息，能為視頻情感區(qū)間劃分提供很有價(jià)值的指導(dǎo)。該文所提出的音頻情感感知算法，對(duì)中層認(rèn)知特征進(jìn)行識(shí)別并將其映射到高層情感類型，能在一定程度上有效跨越情感語(yǔ)義鴻溝，更符合人類認(rèn)知。

2.1基于分層二叉樹SVM的音頻初分類

4 結(jié)論

本文從音頻情感語(yǔ)義的角度出發(fā)，以Hanjalic的三層情感模型為理論基礎(chǔ)，設(shè)計(jì)了一種基于音頻情感感知的視頻情感區(qū)間劃分方法，用分層二叉樹SVM算法實(shí)現(xiàn)中層認(rèn)知特征的初分類，接著利用基于規(guī)則的平滑策略對(duì)初分類結(jié)果進(jìn)行平滑。最后，利用中層認(rèn)知與高層情感感知的映射關(guān)系將中層特征抽象到高層情感語(yǔ)義層面，實(shí)現(xiàn)對(duì)音頻的情感區(qū)間劃分。該文的方法能在一定程度上跨越語(yǔ)義鴻溝，較好地實(shí)現(xiàn)對(duì)音頻情感區(qū)間的劃分。

參考文獻(xiàn)：

[1] Qian X， Liu G， Wang H， et al. Soccer video event detection by fusing middle level visual semantics of an event clip[M]//Advances in Multimedia Information Processing-PCM 2010. Springer Berlin Heidelberg， 2011： 439-451.

[2] Hanjalic A. Adaptive extraction of highlights from a sport video based on excitement modeling[J]. Multimedia， IEEE Transactions on， 2005， 7（6）： 1114-1122.

[3] Hanjalic A， Xu L Q. Affective video content representation and modeling[J]. Multimedia， IEEE Transactions on， 2005， 7（1）： 143-154.

[4] Yoo H W， Cho S B. Video scene retrieval with interactive genetic algorithm[J]. Multimedia Tools and Applications， 2007， 34（3）： 317-336.

[5] 黃慶明，鄭軼佳，蔣樹強(qiáng)，等. 基于用戶關(guān)注空間與注意力分析的視頻精彩摘要與排序[J]. 計(jì)算機(jī)學(xué)報(bào)， 2008， 31（9）： 1612-1621.

[6] Yanulevskaya V， Van Gemert J C， Roth K， et al. Emotional valence categorization using holistic image features[C]//Image Processing， 2008. ICIP 2008. 15th IEEE International Conference on. IEEE， 2008： 101-104.

[7] Hanjalic A. Content-based analysis of digital video[M]. Springer， 2004.

[8] 魏維，鄒書蓉，劉鳳玉. 多層視頻語(yǔ)義概念分析與理解[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)， 2008， 20（1）： 85-92.

[9] 邢麗媛. 基于音視頻融合的體育視頻分析及精彩排序[D]. 中國(guó)科學(xué)院研究生院， 2006.

電腦知識(shí)與技術(shù)2014年26期

電腦知識(shí)與技術(shù)的其它文章: 基于電子商務(wù)的農(nóng)副產(chǎn)品交易實(shí)時(shí)監(jiān)控系統(tǒng)研究; O2O電子商務(wù)模式在湖南省新農(nóng)村建設(shè)中的應(yīng)用探索; 可移動(dòng)設(shè)備的控制與實(shí)現(xiàn); 自控技術(shù)在城市集中供熱中的應(yīng)用; 船舶柴油機(jī)仿真技術(shù)的綜述; 基于MATLAB在線數(shù)字濾波器設(shè)計(jì)與誤差分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種音頻情感區(qū)間劃分方法