梁家欣 李海峰 馬琳
摘 要:針對傳統(tǒng)方法忽略時序信息的問題,提出了一種基于張量模型的暴力音頻分類技術。該方法首先對音頻樣本提出矩陣特征,然后把同一類型的樣本特征組成一個張量特征。采用ALS算法對張量進行分解,然后提出一個基于張量模型的分類器。實驗結果表明,張量模型的特征對暴力音頻分類問題具有一定提高效果,證明了保留時間維度上的信息是有意義的。
關鍵詞:時序信息;特征矩陣;張量;ALS分解
中圖分類號: TP391 文獻標識碼: A 文章編號:2095-2163(2015)04-
Abstract: Due to traditional method ignoring the temporal information, a new technique of audio classification based on tensor model is proposed.The method extracts the features of the audio samples in matrix form and then composes a tensor feature of the matrix feature belonged to the same category.And ALS algorithm is used to decompose the tensor, and then a classifier based on tensor feature is proposed.Experimental results show that the tensor feature has been effective on the detection of violence audio, and it proves that the temporal information is meaningful.
Keywords: Temporal Information; Feature Matrix; Tensor; ALS Algorithm
0引 言
隨著互聯(lián)網(wǎng)的發(fā)展與多媒體的普及,信息科技與網(wǎng)絡便捷給人們的生活帶來很大影響。網(wǎng)絡上的音視頻如果沒有經(jīng)過檢測,則不可避免地會有一些暴力信息流入,對于未成年等特定人群來說,這些信息會對其行為習慣等產(chǎn)生負面影響。傳統(tǒng)的方法是對用戶上傳的音視頻進行人工審核,而由于網(wǎng)絡多媒體數(shù)量大,人工方法會浪費大量人力,因此,需要一種算法可以自動識別暴力內容。音頻是多媒體信息的重要組成部分,且暴力場景中經(jīng)常采用特定音頻事件來渲染氣氛,可以在一定程度上影響視頻的暴力程度判定。因此暴力音頻的檢測是非常有必要的。
由于大多數(shù)音頻信號的特征都是基于幀粒度提取的,因此對于每一個樣本,提取的原始特征是由幀的特征序列組成的矩陣,傳統(tǒng)方法往往需要將矩陣轉換為向量特征再進行分類。簡單的做法是對每個特征的時間序列求統(tǒng)計值,一般取均值或方差等[1]。而這種方法會破壞原始數(shù)據(jù)的內在信息,只有利用高維數(shù)組,才能建立復雜模型來捕捉現(xiàn)實事物的信息。本文針對電影中所包含的音頻暴力片段,研究了基于張量模型的分類方法,提出一個新的基于張量特征的分類器,驗證了時間維度對音頻分類的意義[2]。
1張量基礎
張量是一個多維數(shù)組,即向量和矩陣的自然推廣,例如一個向量 為一階張量,一個矩陣 為二階張量。一個N階張量記作 ,并稱 為張量的第n個指標,如圖1是一個三階張量 。
1.1 張量的矩陣化
一個纖維定義為除某一個指標外,其他指標都固定而得到的向量。每個指標對應張量的一個模式。若X的第n個指標 變動而其他指標固定,則所得的 維向量稱為張量的模-n向量。例如矩陣的列是模-1纖維,行是模-2纖維,其他高階張量的纖維可以理解為“矩陣的行和列”的高階的形式。假定從張量中提出的纖維都為列向量[3]。
張量的矩陣化或者展開,是將N維數(shù)組重排序成一個矩陣的過程。設N階張量 的模式-n展開記為 ,是將模式-n纖維重排,作為展開后矩陣的列。
1.2 張量的相關計算
對于給定的成分數(shù)目,從效果來看,交替最小二乘(Alternating Least Square)是一類比較有效的算法。大量實驗證明,ALS算法在計算代價和結果質量上有著很好的權衡,并且易于實現(xiàn),保證收斂,易拓展到高階張量,內存消耗少,綜合考慮優(yōu)于其他算法[4]。
1.5 ALS算法
交替最小二乘法是基于將目標問題降為規(guī)模較小的子問題迭代求解的思想。所求的參數(shù)在不同的分組,通過固定除一組外的所有組,得到一個新的僅依賴于所留的自由變量的損失函數(shù),使之最小化。該算法用同樣的方法進行其他分組的計算。迭代計算,交替從一組到下一個,直到損失函數(shù)或參數(shù)的變化小于一個預定義的收斂準則。因為所有的步驟都是在最小二乘意義上的優(yōu)化,損失函數(shù)不可能在任何一步增加,相反,是趨于最小的[5]。
其中,初始化方法可以是隨機的或者取 的前T個奇異向量,n=1,...,N。終止條件包括,目標函數(shù)不再下降(或下降幅度小于一個閾值),系數(shù)矩陣不再改變(或變換程度小于一個閾值),目標值接近零,超過最大迭代次數(shù)。
張量分解不止是具有更多下標的矩陣分解——多重線性代數(shù)是一種結構更加豐富的線性代數(shù)。矩陣和張量具有完全不同的幾何性質,這歸結于矩陣是線性變換和二次型,而張量是多重線性映射和多元多項式。由于考慮到了多維模式的內在表達,張量分解可以挖掘更多隱藏信息[6]。
2 基于張量模型的音頻分類方法
研究用張量特征進行分類的基本思路是,對每一類樣本構建變換空間[7],把變換后的特征系數(shù)建立高斯模型,再將測試樣本的特征變換到子空間中,得到一個向量特征,求其高斯概率密度,最后由貝葉斯準則確定預測類別。
2.1 特征提取
由于暴力樣本中包含語音較少,因此沒有選用聲音質量或韻律學相關的特征,而主要提取了頻譜和能量的相關特征。所提取的特征如表1所示。
考慮到數(shù)據(jù)量較大且保留每一幀的特征并沒有較大意義,在此對相鄰幀的特征向量求均值,這樣得到的特征矩陣可以較準確地表達時序信息,更加具有意義。在實驗中,每個音頻包含n個向量特征,每個向量特征有m維,則每個音頻可以得到一個n*m的矩陣特征。假設某一類音頻數(shù)量為s,則提出所有音頻的矩陣特征后,可以得到一個s*m*n的張量特征。這樣,就得到了一個類別的張量特征[8]。
基于此,即對一個類別的張量特征進行處理,而不是對每個樣本特征進行變換,其優(yōu)點是可以利用類別的整體信息,減小由于個體差異帶來的噪聲的影響,變換后的特征更能體現(xiàn)出該類別的本質屬性。
2.2 張量特征分解
對每一類樣本的張量特征進行分解,得到三個可以近似表示原張量的矩陣,可以作為下一步分類算法的預處理。ALS算法首先要解決的問題是CP分解 中的T,而T的取值通常做法是嘗試不同的值,直至獲得滿意結果,如果有較強的應用背景和先驗信息,可以預先制定。在下面的實驗中,選取了T=1,2,3...,來選擇具有最佳效果的T值。
對某個類別的張量特征分別分解,可以得到A,B,C三個矩陣,其中,A為I*T的矩陣,B為J*T的矩陣,C為K*T的矩陣,需要的存儲空間為T*(I+J+K),而原張量需要的存儲空間為I*J*K,所需存儲空間明顯下降。這里用A,B,C三個較小的矩陣近似表示了原張量,是分類器的預處理過程。
2.3 基于張量特征的分類器設計
研究設計的分類器主要是構造兩個子空間,然后分別對這兩個子空間中的訓練樣本特征建立高斯模型,測試時求出投影后的測試樣本在兩個高斯模型中的概率密度值,較大者即為預測類別。
2.3.1 訓練過程
訓練過程的主要思想是,將預處理得到的三個矩陣進行計算,得到一個子空間和對應的系數(shù)矩陣,由于研究是對不同類別音頻的特征張量分別處理,因此會得到兩個子空間和兩個系數(shù)矩陣,然后對這兩個系數(shù)矩陣分別建立高斯模型,這個模型就是需要求取的訓練模型。求解實現(xiàn)過程如下所示:
(1)求子空間。對 做QR分解, ,此時 是大小為(KJ)*T的歸一化列正交矩陣,
(2)求系數(shù)矩陣。由于張量的展開 ( ),又 ,則 ,其中 為T*I的矩陣。因此, 是 在基 下的表示,由于 是標準正交基,若已知向量v,可求其在基 下的表示 。
這里可以理解為,先將張量展開,得到一個矩陣,接著分解為一個基矩陣和系數(shù)矩陣的乘積 。其中 是Q的列, 是H的行。原特征矩陣的每一列是每個樣本的特征,可以表示為基向量 的線性組合,其系數(shù)是H的對應列?;仃嚰醋涌臻g,而系數(shù)矩陣的每一列是原特征向量化后投影到子空間中的向量。
這兩個特征矩陣,就是經(jīng)過處理的樣本特征,每個樣本的特征由J*K的矩陣變換為大小為T的向量(I為樣本數(shù),J為特征維數(shù),K為時間),視為一個降維過程。對這兩類特征分別建立單高斯模型,
(8)
此時得到了訓練模型, 是均值, 是協(xié)方差矩陣。對每個類別都重復此過程,得到所有類別的訓練模型。
2.3.2 測試過程
測試的主要思路是,每個類別都得到一個高斯模型后,將測試樣本分別投影到這兩個子空間中,得到兩個不同空間中變換后的特征。將變換后的特征分別代入兩個高斯模型中,得到其概率密度,較大者即為預測類型。具體實現(xiàn)步驟是:
(1)將測試樣本的特征矩陣V,按列連接起來得到一個特征向量v。
(2)將該特征向量投影到某個類別的基矩陣定義的子空間上, 。
(3)把投影后的特征向量代入每個高斯模型中,得到 。
(4) 即為預測類別。
3 實驗與分析
3.1 數(shù)據(jù)集介紹
本文所使用的數(shù)據(jù)庫來自MediaEval 2013 Workshop所提供的數(shù)據(jù)庫中的部分音頻。數(shù)據(jù)庫中包含了15部Hollywood電影,其中提供了電影鏡頭的暴力和非暴力標記。這里主要選擇了5部電影,包括,Armageddon,BillyElliot,Eragon,KillBill和ReservoirDogs。音頻剪輯時,應盡量使其成為具有單一語義的片段。由于MediaEval數(shù)據(jù)庫中已提供暴力非暴力鏡頭的標注,基于該標注,盡量選取不同類型的聲音,再根據(jù)人工測聽,篩選出有代表性的,不同類別的暴力非暴力音頻進行實驗。另外,要考慮每個音頻片段的長度,太長會包含不同的聲音事件,太短則不能完整的表達語義。由之前學者研究可知,每個音頻片段的長度為2s時,具有較好的結果[9]。最后得到的數(shù)據(jù)集中,暴力音頻共300個,非暴力音頻共302個。采用4折交叉驗證的方法進行實驗。即,隨機選擇452個樣本作為訓練集,其中包括227個非暴力樣本和225個暴力樣本,其余150個樣本作為測試集,具體包括75個非暴力樣本和75個暴力樣本。
3.2 實驗過程及結果分析
音頻信號的采樣率為16kHz,預加重系數(shù)為0.97,采用漢明窗進行分幀,幀長為40ms,幀移為15ms,每幀包含640個采樣點。預處理后,對每一幀提取出上述49個特征,作為一幀的特征向量。然后將該樣本的所有幀的特征向量組成一個特征矩陣。在本實驗中,只是保留每個樣本的前129幀,即特征矩陣大小為49*129。
接下來,將對每一類樣本建立張量模型,考慮到如果保留所有幀,會增加計算量且沒有意義,因此以相鄰三幀為一組求特征向量均值,最后得到的張量特征大小為I*49*43(I是樣本大?。琓取值為1-30,分別進行實驗。結果如表2所示,當T=4時,具有較好的結果。
4 結束語
本文使用基于張量模型的分類方法對爆炸、槍擊、尖叫等具有代表性的暴力音頻事件進行了檢測,保留音頻的時間信息,構造張量特征,對每一個樣本的特征矩陣進行投影降維,并提出基于張量模型的分類方法??傮w來講,本文提取的特征及處理方法是有效的,能夠產(chǎn)生較好的識別結果。但該方法主要是研究基于幀粒度的特征,沒有考慮其他粒度特征,因此接下來的工作應考慮張量模型分類方法能否結合多粒度特征,不僅保留時間維度上的信息,還能體現(xiàn)出一個聲音事件或一個音頻樣本的高層語義特征。
參考文獻
[1] GIANNAKOPOULOS T, PIKRAKIS A, THEODORIDIS S. A multi-class audio classification method with respect to violent content in movies using Bayesian Networks[J]. Multimedia Signal Processing .mmsp .ieee Workshop on, 2007,(10):90 - 93.
[2] 張麗梅, 喬立山, 陳松燦. 基于張量模式的特征提取及分類器設計綜述[J]. 山東大學學報(工學版), 2009, (1):6-14.
[3] KOLDA T G, BADER B W. Tensor decompositions and applications.[J]. Siam Review, 2009, 51(3):455-500.
[4] FABER N, BRO R, HOPKE P K. Recent developments in CANDECOMP/PARAFAC algorithms: a critical review[J]. Chemometrics & Intelligent Laboratory Systems, 2003, 65(1):119-137.
[5] 張曉飛. 解張量分解問題的信賴域交替最小二乘法[D].南京:南京師范大學,2014.
[6] CICHOCKI A, MANDIC D, PHAN A H, et al. Tensor decompositions for signal processing applications: From two-way to multiway component analysis[J]. Signal Processing Magazine IEEE, 2015, 32(2):145 - 163.
[7] 楊立東, 王晶, 謝湘,等. 基于張量分解模型的語音信號特征提取方法[J]. 北京理工大學學報, 2013, 33(11):1172-1175
[8] BENETOS, KOTROPOULOS E, et al. Non-negative tensor factorization applied to music genre classification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2010, (8):1955-1967.
[9] EYBEN F, WENINGER F, LEHMENT N, et al. Affective video retrieval: violence detection in Hollywood movies by large-scale segmental feature extraction.[J]. Plos One, 2013, 8(12):e78506.