李 鏘,何 凝,關(guān) 欣
(天津大學(xué)電子信息工程學(xué)院,天津 300072)
基于最大最小距離法的節(jié)拍跟蹤
李 鏘,何 凝,關(guān) 欣
(天津大學(xué)電子信息工程學(xué)院,天津300072)
將端點(diǎn)檢測(cè)與聚類算法結(jié)合,提出一種基于最大最小距離法的節(jié)拍跟蹤算法.首先,將音樂信號(hào)分解成多個(gè)頻率互不重疊的子帶進(jìn)行頻譜分析,分別利用半波整流,求和得到最終的端點(diǎn)強(qiáng)度曲線.其后,根據(jù)能量譜找到起始節(jié)拍點(diǎn).最后,根據(jù)最大最小距離法并利用音樂速度與節(jié)拍的關(guān)系,對(duì)端點(diǎn)強(qiáng)度曲線峰值進(jìn)行有效聚類,識(shí)別出節(jié)拍點(diǎn).實(shí)驗(yàn)結(jié)果表明,該算法識(shí)別節(jié)拍點(diǎn)準(zhǔn)確有效,4評(píng)估指標(biāo)P-score、Cemgil、CMLc和AMLt分別達(dá)到57.355,10、38.705,37、17.152,40和47.259,12,與其他算法相比綜合性能較好.
節(jié)拍跟蹤;最大最小距離;端點(diǎn)檢測(cè);聚類
音樂速度與節(jié)拍是音樂的重要信息內(nèi)容,是音樂信息檢索領(lǐng)域的重要課題之一.節(jié)拍是驅(qū)動(dòng)音樂進(jìn)行和構(gòu)成時(shí)間框架的穩(wěn)定脈沖[1],是一個(gè)時(shí)間間隔近似相等的與人們?cè)诼犚魳窌r(shí)的拍手或跺腳過程一致的脈沖序列.
人在聽音樂時(shí)常無意識(shí)地踮腳或拍手,而計(jì)算機(jī)對(duì)這種過程的模擬,稱為節(jié)拍跟蹤,旨在從音樂音頻中提取音樂的節(jié)拍信息.Sepp?nen[2]將眾多節(jié)拍跟蹤算法分為5類:①基于規(guī)則的搜索模型,如Povel和Essens模型[3],將重音分配給起始點(diǎn),搜索最少反證的同步脈沖周期和相位;②多代理模型,如Dixon等[4]提出的從IOI(inter onset intervals)中計(jì)算和跟蹤節(jié)拍;③多振動(dòng)器模型,如Scheirer[5]采用濾波器組對(duì)音樂信號(hào)進(jìn)行處理計(jì)算節(jié)拍及速度;④過程模型,如Smith等[6]模型,通過將信號(hào)進(jìn)行連續(xù)小波分解變換計(jì)算節(jié)拍點(diǎn);⑤統(tǒng)計(jì)模型,如Cemgil等[7]模型,以MIDI為輸入,用線性動(dòng)態(tài)系統(tǒng)計(jì)算節(jié)拍點(diǎn).
大部分節(jié)拍跟蹤模型由音符端點(diǎn)檢測(cè)、端點(diǎn)強(qiáng)度曲線周期提取兩部分組成.不論哪種模型,端點(diǎn)檢測(cè)后的根本目的都是選取有效端點(diǎn)曲線的峰值,其本質(zhì)上是極值點(diǎn)是否為節(jié)拍點(diǎn)的聚類問題.因此,本文從端點(diǎn)強(qiáng)度曲線峰值點(diǎn)聚類的角度提出了基于最大最小距離(max-min distance,MMD)法的節(jié)拍跟蹤算法.
樂曲是一系列音樂事件的組合,在音樂信號(hào)中,每個(gè)音樂事件都有一個(gè)波峰與之相對(duì)應(yīng),如圖1所示,音樂節(jié)拍則隱藏在這些波峰當(dāng)中[8].
圖1 音樂音頻信號(hào)(節(jié)拍點(diǎn)標(biāo)記為白色點(diǎn))Fig.1 Music signal(beats marked as white)
本文提出的節(jié)拍跟蹤算法由端點(diǎn)檢測(cè)、起始節(jié)拍點(diǎn)檢測(cè)、每分鐘節(jié)拍數(shù)(beat per minute,BPM)特征值提取、基于最大最小距離法的峰值聚類組成.首先進(jìn)行端點(diǎn)檢測(cè)及起始節(jié)拍點(diǎn)檢測(cè),然后根據(jù)音樂速度與節(jié)拍的聯(lián)系,基于最大最小距離法對(duì)峰值進(jìn)行聚類,計(jì)算節(jié)拍點(diǎn).系統(tǒng)框圖如圖2所示.
圖2 基于最大最小距離法的節(jié)拍跟蹤模型系統(tǒng)框圖Fig.2 System chart of beat tracking model based on max-min distance means
1.1端點(diǎn)檢測(cè)
端點(diǎn)檢測(cè)在音樂信號(hào)處理中有舉足輕重的作用,一般包括3部分:時(shí)頻變換、檢測(cè)函數(shù)生成及峰值檢測(cè)[9].端點(diǎn)檢測(cè)是基于檢測(cè)音樂信號(hào)中一個(gè)或多個(gè)特性突變的函數(shù).
首先通過短時(shí)傅里葉變換,得音樂信號(hào)的頻譜為
式中:K為每幀的采樣點(diǎn)數(shù);T為信號(hào)幀數(shù);X(k,t)為第t幀的第k個(gè)采樣點(diǎn).實(shí)驗(yàn)時(shí)選用23,ms作為幀長.然后對(duì)頻譜幅度|X|做對(duì)數(shù)運(yùn)算,服從Y=lg(1+C X),常數(shù)C=1,000.其目的是調(diào)整信號(hào)動(dòng)態(tài)范圍,增強(qiáng)弱瞬態(tài)清晰度,尤其是高頻區(qū)域的弱瞬態(tài)清晰度,符合音頻強(qiáng)度的對(duì)數(shù)關(guān)系[10].
為得到端點(diǎn)強(qiáng)度曲線,計(jì)算壓縮頻譜Y的離散導(dǎo)數(shù)為
在計(jì)算時(shí),根據(jù)八度音與頻率的關(guān)系和文獻(xiàn)[5]中劃分方法,將X的頻帶劃分為互不重疊的5個(gè)子帶.本文分為0~500、500~1,250、1,250~3,125、3,125~7,812.5和7,812.5~11,025,5個(gè)子帶,每個(gè)子帶包含1個(gè)八度的寬度.
利用半波整流分別去除5個(gè)子帶的局部平均值,并去除負(fù)值,再對(duì)每個(gè)子帶結(jié)果求和得到最終的端點(diǎn)強(qiáng)度曲線Δ,音樂信號(hào)中能量突變點(diǎn)與端點(diǎn)強(qiáng)度曲線中的峰值、時(shí)頻圖中能量突變處相對(duì)應(yīng),如圖3所示,圖3(c)時(shí)頻圖中顏色亮暗表示能量大小,能量越大顏色越亮.
1.2BPM特征值提取
自相關(guān)存在于任何有規(guī)律的周期結(jié)構(gòu)中,音樂的周期性表現(xiàn)為節(jié)拍結(jié)構(gòu).通過計(jì)算音樂信號(hào)的自相關(guān)函數(shù)可確定非典型周期信號(hào)隱含的周期特征.節(jié)拍連續(xù)性表現(xiàn)為音樂的平均速度[11],單位為BPM.利用端點(diǎn)強(qiáng)度曲線Δ(t)與延遲特性,提取音樂的平均速度,即BPM特征值.
基于人耳的聽覺特性,對(duì)于BPM=120的旋律人們會(huì)更容易接受或喜歡[2],根據(jù)這一特點(diǎn),利用感知加權(quán)窗對(duì)原自相關(guān)曲線進(jìn)行濾波,濾除與該值相差較大的峰值,選出更符合人類聽覺系統(tǒng)的峰值作為節(jié)奏參考值.速度周期計(jì)算式為
式中W(τ)為高斯加權(quán)函數(shù),且有
圖3 時(shí)域音樂音頻信號(hào)、端點(diǎn)強(qiáng)度曲線及時(shí)頻圖比較Fig.3 Comparison of charts of time domain music signal,onset strength curve and time frequency diagram
式中:τ為周期變量;0τ為節(jié)奏的周期偏差中心,0τ決定權(quán)重曲線的寬度(在八度意義上的). 實(shí)驗(yàn)時(shí),設(shè)定0τ=120,τσ=0.9,使TPS(τ)取得最大值的τ即為單位周期.
由于對(duì)節(jié)奏感知的不同,同一旋律的標(biāo)記節(jié)奏有快慢之分.根據(jù)音樂片段的韻律結(jié)構(gòu),快節(jié)奏一般為慢節(jié)奏的2或3倍.考慮這一現(xiàn)象,選擇(0.33,0.5,2,3)中變量乘以單位周期,改進(jìn)音樂速度的算法為這里分別考慮2倍或3倍速度的節(jié)奏,用1/2或1/3的節(jié)奏作為相鄰測(cè)量標(biāo)準(zhǔn),計(jì)算兩種估計(jì)的相對(duì)峰值得到兩個(gè)相對(duì)權(quán)重.TPS2(τ)+TPS3(τ)取得最大值的τ,即為所求的音樂平均速度——BPM特征值.
1.3確定起始節(jié)拍點(diǎn)
在音樂信號(hào)的起始節(jié)拍點(diǎn),能量通常會(huì)發(fā)生大幅度變化,因此,找出能量突變點(diǎn),是確定起始節(jié)拍點(diǎn)的可靠依據(jù).節(jié)拍具有周期性,起始節(jié)拍點(diǎn)的確定格外重要.音樂信號(hào)的BPM值通常在60~240之間,即時(shí)間間隔為0.25~1.00,s,只需1,s的片段,便可檢測(cè)出1個(gè)節(jié)拍點(diǎn).實(shí)驗(yàn)時(shí)選取檢測(cè)片段為1~2,s.
音樂信號(hào)在10~30,ms的短時(shí)間范圍內(nèi),可以看作是準(zhǔn)穩(wěn)態(tài)過程,即具有短時(shí)性.因此可以采用短時(shí)能量法確定起始節(jié)拍點(diǎn).設(shè)時(shí)域信號(hào)為x(l)、加窗分幀處理后得到的信號(hào)為xn(m),則xn(m)滿足
式中:n=0,T′,2T′,···,T′為幀移長度;N為幀長;w(m)為矩形窗,且有
設(shè)第n幀音樂信號(hào)xn(m)的短時(shí)能量En為
計(jì)算En時(shí)采用信號(hào)的平方,表明對(duì)高電平非常敏感.因此,本文利用衡量信號(hào)幅度值變化的函數(shù),即短時(shí)平均幅度Mn取代En.Mn不會(huì)因取平方而造成較大差異,定義為
實(shí)驗(yàn)時(shí),設(shè)定幀長N=12,ms,幀移長度T′= 4,ms,相鄰幀存在66%的重疊.圖4為音樂片段的能量曲線,曲線中突變最明顯的點(diǎn),即為起始節(jié)拍點(diǎn)B0.
1.4基于最大最小距離法的峰值選取
音樂的節(jié)拍點(diǎn)出現(xiàn)在端點(diǎn)強(qiáng)度曲線Δ峰值處的可能性較高,因此需要對(duì)峰值進(jìn)行有目的的選取,這可以歸結(jié)為峰值是否為節(jié)拍點(diǎn)的聚類問題.用節(jié)拍出現(xiàn)的時(shí)間點(diǎn)表示節(jié)拍點(diǎn)位置,相鄰兩個(gè)節(jié)拍點(diǎn)之間的時(shí)間間隔稱為節(jié)拍間隔.用起始節(jié)拍點(diǎn)表示每個(gè)節(jié)拍點(diǎn)為
式中:Bi+1為第i+1個(gè)節(jié)拍點(diǎn);Br為節(jié)拍間隔.
圖4 1~2,s的音樂音頻時(shí)域片段與能量譜Fig.4 Fragment of music and energy spectrum from the first to second seconds
定義{Bn}為理論節(jié)拍點(diǎn)序列,對(duì)端點(diǎn)檢測(cè)峰值{Peakn}進(jìn)行處理,計(jì)算每個(gè)峰值與距離其最近的理論節(jié)拍點(diǎn)的偏移量為
用最大最小距離法對(duì){offsetn}進(jìn)行聚類.最大最小距離聚類算法[12]以歐氏距離為基礎(chǔ),首先辨識(shí)最遠(yuǎn)的聚類中心,然后確定其他的聚類中心,直到?jīng)]有新的中心產(chǎn)生,最后將待聚類數(shù)據(jù)按照最小距離的原則歸入對(duì)應(yīng)的分類.該算法可以解決K-means聚類問題在選取初始聚類中心時(shí)由于過于隨機(jī)而導(dǎo)致聚類中心可能出現(xiàn)分布較為集中的情形,由此提高劃分初始數(shù)據(jù)集的效率[13].
由于本文提出的MMD算法僅需區(qū)分節(jié)拍點(diǎn)與非節(jié)拍點(diǎn)兩類,為減少計(jì)算量,實(shí)驗(yàn)時(shí)以min{ offsetn}為初始聚類(候選節(jié)拍點(diǎn))中心Z1,θ設(shè)置為更接近1的數(shù).以圖4所示音樂片段為例,說明最大最小距離聚類算法,步驟如下.
步驟1待聚類數(shù)據(jù)為{offsetn},設(shè)定θ∈(0,1),min{ offsetn}為第1個(gè)聚類中心Z1,Sn中與min{ offsetn}距離最大的元素為第2個(gè)聚類中心Z2;
步驟 2分別計(jì)算{offsetn}中剩余元素xi到Z1、Z2的距離Di1、Di2,將其中較小的距離記為Di;
步驟3計(jì)算max(Di),若max(Di)>θZ1-Z2,則xi為新的聚類中心;
步驟4重復(fù)上述處理,直到?jīng)]有新的聚類中心產(chǎn)生;
步驟5不同于按照最小距離原則將所有元素歸入距離最近的聚類中心,本文對(duì)此進(jìn)行改進(jìn),僅當(dāng)Di=Di2且Di<50 ms 時(shí),才會(huì)歸入Z1類.基于人耳的聽覺特性,在聲音間隔超過1/15s≈66.67 ms,聽覺系統(tǒng)才能分辨出是兩種聲音.由于提取錯(cuò)誤或者音樂節(jié)奏的變化,端點(diǎn)強(qiáng)度曲線Δ的峰值可能在容差(50 ms)范圍內(nèi)沒有峰值,將這樣的峰值歸入節(jié)拍集合,會(huì)產(chǎn)生較大誤差.
圖5為最大最小距離法選取聚類中心示意.對(duì)于同一標(biāo)準(zhǔn)節(jié)拍點(diǎn),可能存在兩個(gè)備選元素出現(xiàn)或沒有備選元素,這里對(duì)Z1中的元素轉(zhuǎn)換為對(duì)應(yīng)峰值點(diǎn)后,進(jìn)行如下處理:
(1) 若兩峰值點(diǎn)之間的時(shí)間差小于50 ms× 2,則保留與理論節(jié)拍點(diǎn)距離最近的點(diǎn)為計(jì)算節(jié)拍點(diǎn);
(2) 若理論節(jié)拍點(diǎn)沒有峰值點(diǎn)與之對(duì)應(yīng),則該計(jì)算節(jié)拍點(diǎn)為Bi=Bi-1+Br;
經(jīng)上述過程得到的{Bn}即為節(jié)拍點(diǎn)序列.
圖5 最大最小距離法選取聚類中心示意Fig.5Schematic diagram of clustering center selection with max-min distance means
本文采用國際音樂信息檢索評(píng)測(cè)比賽(MIREX)的節(jié)拍跟蹤的測(cè)試數(shù)據(jù)庫(practice data),共計(jì)20個(gè)曲風(fēng)節(jié)奏各不相同的音樂片段.同時(shí),每個(gè)音樂片段有39或40位專家對(duì)其節(jié)拍點(diǎn)進(jìn)行了手工標(biāo)記.
在評(píng)估標(biāo)準(zhǔn)方面,最基本的節(jié)拍跟蹤評(píng)估是比較計(jì)算節(jié)拍序列與真實(shí)節(jié)拍序列的相似度.雖然已存在許多評(píng)估方法,但是目前尚未達(dá)成共識(shí),因此沒有統(tǒng)一標(biāo)準(zhǔn).本文提出的MMD聚類算法以人工標(biāo)注的節(jié)拍為標(biāo)準(zhǔn)節(jié)拍,采用文獻(xiàn)[14]中提出的P-score、Cemgil、CMLc和AMLt 4個(gè)指標(biāo)對(duì)算法的準(zhǔn)確度進(jìn)行評(píng)估.表1是MIREX2013節(jié)拍跟蹤比賽采用的DAV Dataset、MAZ Dataset和MCK Dataset 3個(gè)數(shù)據(jù)庫的平均數(shù)據(jù)(該數(shù)據(jù)源于MIREX2013節(jié)拍跟蹤結(jié)果,目前為最新結(jié)果,可在MIREX官方網(wǎng)站查看原始數(shù)據(jù)),本文將其作為所提算法的對(duì)比數(shù)據(jù).
表1 不同算法的評(píng)估指標(biāo)數(shù)據(jù)對(duì)比Tab.1 Evaluation index comparison with different algorithms
P-score:通過計(jì)算標(biāo)準(zhǔn)節(jié)拍點(diǎn)的脈沖序列與待評(píng)估節(jié)拍點(diǎn)的脈沖序列之間有限的互相關(guān)的總數(shù)評(píng)估節(jié)拍的準(zhǔn)確度.以標(biāo)注節(jié)拍間隔中值的±20%為容差,計(jì)算節(jié)拍在容差范圍內(nèi)則認(rèn)為是準(zhǔn)確的.P-score是從2006年MIREX中加入節(jié)拍跟蹤后沿用至今的評(píng)估指標(biāo),其算法如下:構(gòu)建41個(gè)長度為25,s的脈沖序列(忽略音樂片段的前5,s),采樣頻率為100,Hz,其中40個(gè)在標(biāo)準(zhǔn)節(jié)拍點(diǎn)處有單位脈沖,每一個(gè)脈沖序列記為aS[n],式中S表示該音樂片段的標(biāo)簽數(shù)(1~40),另一個(gè)序列在待評(píng)估節(jié)拍點(diǎn)處有單位脈沖,該序列記為y[ n].通過一個(gè)極小的容差窗口W計(jì)算互相關(guān)函數(shù)aS[n]和y[ n],平均40次實(shí)驗(yàn)結(jié)果,得到P-score為
式中:N′為脈沖序列aS[n]和y[ n]的長度;NP取aS[n]和y[ n]中最大的值,即
容差窗口W取標(biāo)準(zhǔn)節(jié)拍間隔的20%,其在MATLAB中表示為
本文提出的MMD算法的P-score結(jié)果如表1所示.需要指出,在文獻(xiàn)[15]中提出對(duì)標(biāo)準(zhǔn)節(jié)拍點(diǎn)進(jìn)行評(píng)估,所得P-score值在34~73之間,可見對(duì)于節(jié)拍點(diǎn)的選擇有比較大的主觀性,不同的人標(biāo)準(zhǔn)不同,這個(gè)問題在音樂領(lǐng)域可能有更合理的解釋.
Cemgil:通過計(jì)算標(biāo)準(zhǔn)節(jié)拍點(diǎn)與待評(píng)估節(jié)拍點(diǎn)的時(shí)間誤差評(píng)估節(jié)拍的準(zhǔn)確度.用高斯誤差函數(shù)來確定時(shí)間誤差,待評(píng)估節(jié)拍越接近標(biāo)準(zhǔn)節(jié)拍,該評(píng)估指標(biāo)值越高,結(jié)果如表1所示.Cemgil是4個(gè)指標(biāo)中唯一沒有容差的,因此只是單純計(jì)算每個(gè)待評(píng)估節(jié)拍與標(biāo)準(zhǔn)節(jié)拍是否相同,不同則判為0.
CMLc:通過比對(duì)待評(píng)估節(jié)拍點(diǎn)與標(biāo)準(zhǔn)節(jié)拍點(diǎn)的連續(xù)相同的比例評(píng)估節(jié)拍的準(zhǔn)確度.以當(dāng)前標(biāo)注節(jié)拍的±17.5%為容差,若待評(píng)估節(jié)拍在容差范圍內(nèi)則認(rèn)為與標(biāo)注節(jié)拍相同,當(dāng)前節(jié)拍點(diǎn)的前一個(gè)節(jié)拍點(diǎn)也要符合上述條件,才認(rèn)為是連續(xù)相同.結(jié)果如表1所示.
AMLt:與CMLc相似,但是條件更為寬泛,待評(píng)估節(jié)拍可以發(fā)生在弱拍處,也可以在標(biāo)準(zhǔn)節(jié)拍的2倍或1/2的位置.結(jié)果如表1所示.
與其他不同算法評(píng)估數(shù)據(jù)對(duì)比表明,本文提出的MMD聚類算法的P-score、Cemgil、CMLc和AMLt指標(biāo)均居于前4位,不同指標(biāo)從不同角度評(píng)估節(jié)拍跟蹤算法,可以看出本文提出的MMD算法綜合性能較穩(wěn)定.對(duì)于不同類型和風(fēng)格的音樂信號(hào),無論是否包含鼓點(diǎn),都能準(zhǔn)確模擬人的聽覺系統(tǒng)識(shí)別節(jié)拍.
從實(shí)驗(yàn)數(shù)據(jù)看來,SB5和SB6兩種基于雙向長短期記憶(BLSTM)遞歸神經(jīng)網(wǎng)絡(luò)的算法[16]的效果更好.BLSTM遞歸神經(jīng)網(wǎng)絡(luò)算法的節(jié)拍提取部分和本文提出的MMD算法類似,不同之處在于音樂速度的提取.BLSTM算法3次提取信號(hào)的幅度譜,并進(jìn)行一階差分計(jì)算.同時(shí),神經(jīng)網(wǎng)絡(luò)算法還需要進(jìn)行模型訓(xùn)練,運(yùn)行時(shí)間較長.本文提出的MMD算法則不需要訓(xùn)練數(shù)據(jù),對(duì)音樂信號(hào)僅進(jìn)行一次端點(diǎn)檢測(cè),在運(yùn)行時(shí)間和算法復(fù)雜度上均優(yōu)于BLSTM遞歸神經(jīng)網(wǎng)絡(luò)算法.
本文提出的MMD聚類算法首先對(duì)音樂信號(hào)進(jìn)行預(yù)處理,其后通過能量譜找到起始節(jié)拍,利用端點(diǎn)檢測(cè)及音樂速度與節(jié)拍的關(guān)系,基于最大最小距離法對(duì)峰值聚類,識(shí)別出節(jié)拍點(diǎn).通過P-Score、Cemgil、CMLc和AMLt 4項(xiàng)評(píng)估指標(biāo)的對(duì)比可知,本文提出的MMD聚類算法有效準(zhǔn)確.今后將繼續(xù)對(duì)MMD聚類算法進(jìn)行改進(jìn).一方面,由于人工標(biāo)記的數(shù)據(jù)獲取有一定難度,數(shù)據(jù)庫歌曲數(shù)量有限,未來將增加實(shí)驗(yàn)數(shù)據(jù)的數(shù)量和質(zhì)量,進(jìn)一步檢驗(yàn)此方法的可靠性.另一方面,通過與SB5和SB6兩種算法的對(duì)比,本文提出的MMD聚類算法還可以在端點(diǎn)檢測(cè)與BPM特征值提取部分進(jìn)行改進(jìn),以達(dá)到更好的節(jié)拍識(shí)別效果.
[1]Sethares W A,Ba?uelos D. Rhythm and Transforms[M]. Berlin:Springer,2007.
[2]Sepp?nen J. Computational Models of Musical Meter Recognition[D]. Finland:Department of Information Technology,Tampere University of Technology,2001.
[3]Povel D J,Essens P. Perception of temporal patterns[J]. Music Perception,1985,2(4):411-440.
[4]Dixon S,Cambouropoulos E. Beat tracking with musical knowledge[C]// 14th European Conference on Artificial Intelligence (ECAI 2000). Berlin,Germany,2000:626-630.
[5]Scheirer E D. Tempo and beat analysis of acoustic musical signals[J]. The Journal of the Acoustical Society of America,1998,103(1):588-601.
[6]Smith L M,Honing H. Time-frequency representation of musical rhythm by continuous wavelets[J]. Journal of Mathematics and Music,2008,2(2):81-97.
[7]Cemgil A T,Kappen B,Desain P,et al. On tempo tracking: Tempogram representation and Kalman filtering[J]. Journal of New Music Research,2000,29(4):259-273.
[8]胡建建,曾培峰,唐莉萍,等. 基于高斯低通濾波的音樂節(jié)拍提?。跩]. 東華大學(xué)學(xué)報(bào):自然科學(xué)版,2011,37(1):72-75.
Hu Jianjian,Zeng Peifeng,Tang Liping,et al. Music beat extraction based on low pass Gaussian filter[J]. Journal of Donghua University:Natural Science,2011,37(1):72-75 (in Chinese).
[9]Bello J P,Daudet L,Abdallah S,et al. A tutorial on onset detection in music signals[J]. IEEE Transactions on Speech and Audio Processing,2005,13(5):1035-1047.
[10]Grosche P,Müller M. A mid-level representation for capturing dominant tempo and pulse information in music recordings[C]//10th International Society for Information Retrieval(ISMIR 2009). Kobe,Japan,2009:189-194.
[11]陳 哲,許潔萍. 基于內(nèi)容的音樂節(jié)拍跟蹤[J]. 電子學(xué)報(bào),2009,37(B04):156-160.
Chen Zhe,Xu Jieping. Content based music beat tracking[J]. Acta Electronica Sinica,2009,37(B04):156-160 (in Chinese) .
[12]李金宗. 模式識(shí)別導(dǎo)論[M]. 北京:高等教育出版社,1994.
Li Jinzong. Guide of Pattern Recognition[ M]. Beijing:Higher Education Press,1994 (in Chinese).
[13]呂 佳. 基于最大最小距離和動(dòng)態(tài)隧道的聚類算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2010 (8):1775-1778.
Lü Jia. Clustering algorithm based on max-min distance and dynamic tunneling [J]. Computer Engineering and Design,2010 (8):1775-1778 (in Chinese).
[14]Davies M E P,Degara N,Plumbley M D. Measuring the performance of beat tracking algorithms using a beat error histogram[J]. Signal Processing Letters,IEEE,2011,18(3):157-160.
[15]Dixon S. Evaluation of the audio beat tracking system beatroot[J]. Journal of New Music Research,2007,36(1):39-50.
[16]B?ck S,Schedl M. Enhanced beat tracking with contextaware neural networks[C]//Proc of the 14th International Conference on Digital Audio Effects (DAFx-11). Paris,F(xiàn)rance,2011:DAFx-135-DAFx-139.
(責(zé)任編輯:孫立華)
Beat Tracking Based on Max-Min Distance Means
Li Qiang,He Ning,Guan Xin
(School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China)
In this paper,combining onset detection and clustering algorithm,a novel beat tracking algorithm based on max-min distance(MMD) means was proposed. First,the spectrum of music signal was decomposed into several non-overlapping sub-bands. Second,by utilizing the half-wave rectifier on these sub-bands respectively,the final onset strength curve was found. Then,the first beat was discovered based on the energy spectrum of the starting point. Finally,based on MMD means,the beats of the music signal were identified according to the relationship between music tempo and beat,together with effective clustering of curve peaks of onset strength. Experimental results proved that the proposed algorithm can track beats accurately. The four evaluation indicators of the algorithm P-score,Cemgil,CMLc and AMLt,reached 57.355,10,38.705,37,17.152,40 and 47.259,12,respectively. Compared with other algorithms,the proposed algorithm possesses better comprehensive performance.
beat tracking;max-min distance(MMD);onset detection;clustering
TP18
A
0493-2137(2015)12-1105-06
10.11784/tdxbz201406031
2014-06-11;
2014-07-30.
國家自然科學(xué)基金資助項(xiàng)目(60802049,61101225,61471263);天津大學(xué)自主創(chuàng)新基金資助項(xiàng)目(60302015).
李 鏘(1974—),男,博士,教授,liqiang@tju.edu.cn.
關(guān) 欣,guanxin@tju.edu.cn.
網(wǎng)絡(luò)出版時(shí)間:2014-10-10. 網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/doi/10.11784/tdxbz201406031.html.