翁子林
摘要:該文提出一種音頻情感區(qū)間劃分方法。該方法以提取音頻情感語(yǔ)義方面為目的,可以有效地劃分出視頻流中音頻通道的情感區(qū)間。首先,事先選定若干種音頻中層情感認(rèn)知類型,并采用基于分層二叉樹SVM分類算法對(duì)每個(gè)音頻段進(jìn)行中層情感認(rèn)知初分類,然后提出一種基于規(guī)則的分類結(jié)果平滑策略對(duì)初分類結(jié)果進(jìn)行平滑。最后,利用從中層認(rèn)知到高層情感感知的映射機(jī)制,將中層認(rèn)知映射到高層情感感知以識(shí)別高層情感語(yǔ)義,最終完成音頻情感區(qū)間劃分。實(shí)驗(yàn)證明,該方法對(duì)音頻情感區(qū)間劃分具有良好的效果。
關(guān)鍵詞: 視頻語(yǔ)義分析;情感區(qū)間劃分;情感計(jì)算;音頻分類;分層二叉樹支持向量機(jī)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)26-6184-03
Abstract: This paper proposes a emotion perception based division approach of audio emotional range, which starts with the audio emotional semantic analysis and works well. Firstly, several kinds of middle-level emotional cognitive type are selected in advance. An hierarchical binary tree based SVM classifier algorithm is performed to classify the middle-level emotional cognitive type initially. Next, for the purpose of finishing emotion labeling, a rule based smoothing strategy for emotional ranges is proposed to smooth the former classification results. Finally, a mapping mechanism, from middle-level cognitive types to high-level emotional perceptional types, is adopted to synchronize the high-level audio emotional perception results onto the horizontal axis of audio energy curve. Experimental results demonstrate that the proposed scheme is effective for audio emotional range division.
Key words: audio semantic analysis;emotional range division;affective computing;audio classification;binary tree based support vector machine
隨著多媒體信息的不斷涌現(xiàn),如何自動(dòng)高效地從海量多媒體中找出用戶真正感興趣的內(nèi)容已經(jīng)成為一個(gè)亟待解決的問(wèn)題[1-2]。傳統(tǒng)的多媒體分類管理普遍采用人工手動(dòng)標(biāo)注的方式,這種方式無(wú)法適應(yīng)急速增長(zhǎng)的視頻檢索需求。這時(shí),人們往往從語(yǔ)義分析技術(shù)入手,探索音視頻底層物理信息與高層情感的對(duì)應(yīng)關(guān)系。情感區(qū)間劃分可以為多媒體數(shù)據(jù)情感語(yǔ)義分析提供高層語(yǔ)義信息參考,輔助關(guān)鍵事件檢測(cè)[1-4]以及摘要生成[5]。音頻情感區(qū)間劃分也因此正在成為新的研究熱點(diǎn)。
聽覺信息是富含語(yǔ)義信息的,聲音和語(yǔ)言可以用來(lái)準(zhǔn)確地描述復(fù)雜的事件及其過(guò)程,可以準(zhǔn)確地推測(cè)人的情感[6]。富含語(yǔ)義的音頻信息,能夠?yàn)橐曨l的情感語(yǔ)義區(qū)間劃分提供更有價(jià)值的參考。荷蘭著名科學(xué)家Alan Hanjalic將媒體中的內(nèi)容分為三個(gè)層次[7],如圖1所示。從圖中可以看出,由底層特征空間到高層情感的語(yǔ)義鴻溝是客觀存在的[8]??紤]到從直接從底層信息構(gòu)建到高層情感語(yǔ)義映射模型的復(fù)雜性,該文從底層音頻特征入手,首先提取底層音頻特征作為底層感知內(nèi)容,然后采用基于分層二叉樹SVM分類算法對(duì)中層情感認(rèn)知信息進(jìn)行識(shí)別,最后利用中層情感認(rèn)知與高層情感的映射關(guān)系識(shí)別高層情感語(yǔ)義。該文還將以體育視頻為例子,簡(jiǎn)要介紹體育視頻情感區(qū)間劃分系統(tǒng)。
1 音頻情感感知問(wèn)題描述
音頻情感感知是從聽覺的角度出發(fā),充分利用音頻富含語(yǔ)義信息的特點(diǎn),利用機(jī)器學(xué)習(xí)等相關(guān)理論對(duì)音頻中蘊(yùn)含的高層情感語(yǔ)義內(nèi)容進(jìn)行分析,以達(dá)到感知音頻情感類型的目的。設(shè)視頻媒體的音頻幀序列為[AF:af1,af2,af3...afm],[AF]由若干連續(xù)的視頻幀子區(qū)間[AFi:afk,afl]構(gòu)成,[AFi:afk,afl][?][AF]且[AFi?AFj=?]。音頻感知就是求出每個(gè)[AFi]所對(duì)應(yīng)的高層情感類型[ETi]。比如,在體育視頻中通過(guò)一定的音頻情感感知策略,可以感知到現(xiàn)場(chǎng)觀眾以及解說(shuō)員情緒的激動(dòng)與平靜,其中[ET=]{激昂,平靜}。
2 音頻情感區(qū)間劃分
音頻的底層特征常常被用來(lái)做高層語(yǔ)義的分析,然而底層特征往往不夠直觀而且也不符合人類的感知[9],因此一個(gè)有效的辦法就是提取其中層認(rèn)知特征。與底層特征不同的是,中層認(rèn)知特征(比如體育視頻中的歡呼聲、擊球聲等)可以從語(yǔ)義概念的角度促進(jìn)高層事件的分析,在底層特征和高層語(yǔ)義之間起一個(gè)橋梁作用。以體育視頻為例,我們可以選擇以下富有情感感知成分的中層認(rèn)知特征:觀眾歡呼聲、觀眾鼓掌聲、解說(shuō)員精彩解說(shuō)聲,并通過(guò)音頻分類達(dá)到識(shí)別中層認(rèn)知特征的目的。這些中層認(rèn)知特征包含豐富的情感語(yǔ)義信息,能為視頻情感區(qū)間劃分提供很有價(jià)值的指導(dǎo)。該文所提出的音頻情感感知算法,對(duì)中層認(rèn)知特征進(jìn)行識(shí)別并將其映射到高層情感類型,能在一定程度上有效跨越情感語(yǔ)義鴻溝,更符合人類認(rèn)知。
2.1基于分層二叉樹SVM的音頻初分類
4 結(jié)論
本文從音頻情感語(yǔ)義的角度出發(fā),以Hanjalic的三層情感模型為理論基礎(chǔ),設(shè)計(jì)了一種基于音頻情感感知的視頻情感區(qū)間劃分方法,用分層二叉樹SVM算法實(shí)現(xiàn)中層認(rèn)知特征的初分類,接著利用基于規(guī)則的平滑策略對(duì)初分類結(jié)果進(jìn)行平滑。最后,利用中層認(rèn)知與高層情感感知的映射關(guān)系將中層特征抽象到高層情感語(yǔ)義層面,實(shí)現(xiàn)對(duì)音頻的情感區(qū)間劃分。該文的方法能在一定程度上跨越語(yǔ)義鴻溝,較好地實(shí)現(xiàn)對(duì)音頻情感區(qū)間的劃分。
參考文獻(xiàn):
[1] Qian X, Liu G, Wang H, et al. Soccer video event detection by fusing middle level visual semantics of an event clip[M]//Advances in Multimedia Information Processing-PCM 2010. Springer Berlin Heidelberg, 2011: 439-451.
[2] Hanjalic A. Adaptive extraction of highlights from a sport video based on excitement modeling[J]. Multimedia, IEEE Transactions on, 2005, 7(6): 1114-1122.
[3] Hanjalic A, Xu L Q. Affective video content representation and modeling[J]. Multimedia, IEEE Transactions on, 2005, 7(1): 143-154.
[4] Yoo H W, Cho S B. Video scene retrieval with interactive genetic algorithm[J]. Multimedia Tools and Applications, 2007, 34(3): 317-336.
[5] 黃慶明, 鄭軼佳, 蔣樹強(qiáng), 等. 基于用戶關(guān)注空間與注意力分析的視頻精彩摘要與排序[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 31(9): 1612-1621.
[6] Yanulevskaya V, Van Gemert J C, Roth K, et al. Emotional valence categorization using holistic image features[C]//Image Processing, 2008. ICIP 2008. 15th IEEE International Conference on. IEEE, 2008: 101-104.
[7] Hanjalic A. Content-based analysis of digital video[M]. Springer, 2004.
[8] 魏維, 鄒書蓉, 劉鳳玉. 多層視頻語(yǔ)義概念分析與理解[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2008, 20(1): 85-92.
[9] 邢麗媛. 基于音視頻融合的體育視頻分析及精彩排序[D]. 中國(guó)科學(xué)院研究生院, 2006.