基于內(nèi)容的音樂信息提取的研究對(duì)象與思路

2015-12-05 06:22:01黃鐳鄧明

廣西廣播電視大學(xué)學(xué)報(bào) 2015年4期

關(guān)鍵詞：聲學(xué)音頻旋律

黃鐳鄧明

（廣西廣播電視大學(xué)教學(xué)資源中心　廣西南寧　530023）

基于內(nèi)容的音樂信息提取的研究對(duì)象與思路

黃鐳鄧明

（廣西廣播電視大學(xué)教學(xué)資源中心廣西南寧530023）

基于內(nèi)容的音樂信息提取（Content-Based Music Information Retrieval，CBMIR）是屬于信息提?。↖nformation Retrieval）的一個(gè)分支，CBMIR從媒體內(nèi)容出發(fā)，利用音樂理論、聲學(xué)心理學(xué)、信號(hào)處理技術(shù)和機(jī)器學(xué)習(xí)方法，試圖解決數(shù)字音樂媒體急劇增長(zhǎng)背景下的音樂特征分析和語義標(biāo)定問題。文章通過對(duì)CBMIR的研究對(duì)象的分析，引出了CBMIR在特征維度、時(shí)間維度上的多層次的研究思路，并簡(jiǎn)要介紹了目前CBMIR的主流研究?jī)?nèi)容。

內(nèi)容；音樂信息；提取；機(jī)器學(xué)習(xí)

基于內(nèi)容的音樂信息提?。–ontent-Based Music Information Retrieva1，簡(jiǎn)稱CBMIR）是為了區(qū)別基于文本標(biāo)簽的音樂信息提取，屬于信息提?。↖nformation Retrieva1）領(lǐng)域的一個(gè)分支。進(jìn)入21世紀(jì)，隨著數(shù)字化多媒體的數(shù)量以爆炸性的速度膨脹，大量未經(jīng)過人工標(biāo)記的多媒體內(nèi)容，尤其是音頻內(nèi)容被創(chuàng)造出來。因此，基于內(nèi)容的音樂信息提取，就是要解決在音樂元數(shù)據(jù)缺失、錯(cuò)誤的情況下，利用音樂理論、聲學(xué)心理學(xué)、信號(hào)處理技術(shù)和機(jī)器學(xué)習(xí)方法，自動(dòng)的分析音頻內(nèi)容，完成音樂的分類、標(biāo)注、識(shí)別等各種信息提取任務(wù)的一門學(xué)問。另外一方面，音樂信息提取的任務(wù)，還涵蓋了基于文本標(biāo)簽的推薦系統(tǒng)等應(yīng)用無法完成的工作，比如對(duì)樂曲的速度、旋律進(jìn)行標(biāo)注，對(duì)音樂進(jìn)行樂譜轉(zhuǎn)寫等，或者是實(shí)現(xiàn)一些智能化的音樂交互功能，比如哼唱識(shí)別。因此，基于內(nèi)容的音樂信息提取，是一個(gè)非常有用的研究領(lǐng)域。

1　CBMIR的研究對(duì)象

音樂，既作為一個(gè)文化概念而存在，同時(shí)又是一種復(fù)雜的聲學(xué)事件，是通過多個(gè)層次來進(jìn)行描述的。一方面，作為一種信號(hào)，在低層次上，我們有必要研究和提取其聲學(xué)特征；因?yàn)橐魳钒奈幕拍?，比如流派、音樂情緒等，屬于較高級(jí)別的特征，這些特征是通過低層次聲學(xué)特征的結(jié)構(gòu)化來表示的。因此，CBMIR研究的主要對(duì)象，音樂的聲學(xué)特征及其對(duì)應(yīng)的符號(hào)表示是屬于先驗(yàn)知識(shí)的一部分，必須加以說明。以下就CBMIR所需要的一部分聲學(xué)要素進(jìn)行概括性介紹。

1.1音樂的聲學(xué)特征與符號(hào)表示

音高（pitch）

代表音符的頻率特性，與其相關(guān)的有如下幾個(gè)概念：

●基頻（fundamenta1 frequency,或f0）：決定了基音音高的頻率，樂理上把基于該頻率的振動(dòng)產(chǎn)生的音也叫做基音（fundamenta1 tone）；

●泛音（overtone）：高于基頻的任何頻率分量，樂理上指的是這些頻率分量對(duì)應(yīng)的樂音；

●和聲（harmony）：基頻的整數(shù)倍頻率分量，也稱為諧波分量；

●分音（partia1）：樂理上，將基音和泛音按高低次序排列起來,這就是“分音列”。構(gòu)成分音列的各音，叫做“分音”。聲學(xué)上就是基頻和全部泛音頻率的總稱。

音色（timbre）

一個(gè)較為一般的定義就是，除了音高與與諧波分量的能量構(gòu)成有關(guān)。音色是區(qū)分不同樂聲來源的一個(gè)重要特征。不同泛音能量密度的構(gòu)成形成了人腦對(duì)于音色的聽覺感知。音色，與其看似簡(jiǎn)單的定義相比，其實(shí)是非常復(fù)雜的一個(gè)多維特征，還需要更有效的方法對(duì)其建模。對(duì)音色的識(shí)別有助于我們分辨歌聲與背景音樂（source separation），分辨不同的樂器（instrument detection），以及分辨不同的錄音場(chǎng)景：辨識(shí)音樂是來自FM電臺(tái)或者是現(xiàn)場(chǎng)音樂會(huì)。對(duì)于樂器來說，打擊樂器是一個(gè)特例，因?yàn)轭愃乒?、镲等樂器發(fā)出的聲音是沒有基頻的，盡管如此，按照其設(shè)計(jì)的音域范圍，鼓類樂器也分為低音鼓、中音鼓和高音鼓，因此也有不同的音色。

速度（tempo）

速度一般以單位音符時(shí)值的倒數(shù)，也就是每分鐘的節(jié)拍數(shù)（BPM）來表示，速度表征一個(gè)音樂的演奏速度。速度本來是在樂譜中定義的，用來指導(dǎo)樂手演奏的速度，西方樂譜中一般以意大利語表述，但是并沒有一個(gè)準(zhǔn)確的度量，只是按照其字面上的意義來理解，例如Andante grazioso本意就是優(yōu)雅的走。

我們可以看到，這些詞匯只是一個(gè)感知上的經(jīng)驗(yàn)性的概念，沒有嚴(yán)格的約束。因此一些樂譜會(huì)嚴(yán)格的寫出單位音符的時(shí)值倒數(shù)，也就是每分鐘節(jié)拍數(shù)。比如圖1符號(hào)就是樂譜的指導(dǎo)速度（annotated tempo）：

圖1　樂譜的速度標(biāo)記示例

這個(gè)例子中表示四分之一拍的演奏速度是一分鐘120次，圖1的這個(gè)例子中的符號(hào)，表達(dá)的意思是以四分音符為一拍，每分鐘120拍。那么在這個(gè)樂譜中，一個(gè)四分音符的時(shí)值長(zhǎng)度應(yīng)該是1/120分鐘，也就是0.5秒。而我們?cè)谒俣裙烙?jì)（tempo estimation）任務(wù)中估計(jì)的一般是感知速度（perceptua1 tempo），事實(shí)上，我們用來測(cè)試算法性能的數(shù)據(jù)一般都沒有時(shí)間標(biāo)注，因此，評(píng)價(jià)任務(wù)結(jié)果的辦法一般還是與專家標(biāo)注的感知速度進(jìn)行對(duì)比。

節(jié)拍（beat）

節(jié)拍是貫穿整個(gè)音樂的等間距的脈沖信號(hào)。因此，節(jié)拍是音樂里面的最小時(shí)間單位。

節(jié)奏（rhythm）

將長(zhǎng)短相同或不同的節(jié)拍，按一定的規(guī)律組織起來叫做“節(jié)奏”。節(jié)奏，描述的是整部作品的整體的節(jié)拍。節(jié)奏、節(jié)拍、速度、拍號(hào)這幾個(gè)概念密切相關(guān)，它們與音符的時(shí)值一起，共同描述了音樂的時(shí)間特性。節(jié)奏描述了整個(gè)作品的節(jié)奏是音樂中最重要的表現(xiàn)手段之一。音樂作品中音高固然重要，但它只有和節(jié)奏結(jié)合起來才能塑造形象，表達(dá)情感。對(duì)于一段旋律，不考慮它的音高，得到的便是它的節(jié)奏。

和弦（chord）

按照一定度數(shù)關(guān)系排列起來的一組音，稱為和弦。和弦的演奏方法一般是共奏，意即這幾個(gè)聲音是同時(shí)奏響的，還有一種和弦演奏方法稱為分解和弦，顧名思義就是按照某個(gè)順序依次奏響各音。我們要為歌曲配置更優(yōu)美的和弦，使音樂更流暢，這就要用到各種變化和弦。圖2則是披頭士歌曲“Let It Be”里面音樂片段對(duì)應(yīng)和弦的一個(gè)說明：

圖2　披頭士“Let it be”的前四個(gè)小節(jié)樂譜

旋律（melody）

人們習(xí)慣上所說的旋律其實(shí)指的是曲調(diào)。而旋律則可以指任何有音高與節(jié)奏的樂音序列。旋律是構(gòu)成聲部的基礎(chǔ)，只有先構(gòu)成旋律，才能產(chǎn)生聲部（此處的聲部指某旋律在音樂中的位置），從而產(chǎn)生（復(fù)合）音響。比如四部和聲中的四個(gè)聲部在進(jìn)行中分別有各自的旋律進(jìn)行，而某一具有曲調(diào)感的旋律將作為主要旋律聲部（一般為高聲部）出現(xiàn)。主調(diào)音樂的聲部之間是相互依存的，其中只有一個(gè)聲部的旋律有曲調(diào)感，所以我們習(xí)慣的稱其為“主旋律”。復(fù)調(diào)音樂是具有獨(dú)立意義的旋律（曲調(diào)）相互結(jié)合構(gòu)成的音樂，所有聲部都具有曲調(diào)感。

音樂結(jié)構(gòu)（musicalstructure）

這里音樂結(jié)構(gòu)特征主要是對(duì)應(yīng)作曲理論里面的曲式（musica1 form）的概念，在傳統(tǒng)音樂中曲式結(jié)構(gòu)基本分為一部曲式、二部曲式、奏鳴曲式等。對(duì)音樂結(jié)構(gòu)的分析也是音樂信息提取任務(wù)里面的一種，主要是通過音樂分段（music segmentation），分析各部分的音樂相似性，最終得到音樂的機(jī)構(gòu)。

音樂理論是一門復(fù)雜龐大的學(xué)科，而音樂信息提取既需要借助樂理作為其先驗(yàn)知識(shí)，又要與樂理研究在重點(diǎn)上有所區(qū)分。畢竟作為面向用戶的一種應(yīng)用領(lǐng)域，音樂信息提取的任務(wù)并不總是需要借助完備的樂理知識(shí)才能順利完成任務(wù)的，就好比一個(gè)未經(jīng)過正規(guī)音樂訓(xùn)練的人仍然能夠歌唱或者欣賞和理解音樂一樣。

1.2數(shù)字音樂的載體

作為可以為計(jì)算機(jī)所處理的信號(hào)，數(shù)字化音樂的載體可以大致分為符號(hào)格式（symbo1ic format）和音頻格式（audio format）兩種：目前研究中采用的符號(hào)格式一般是MIDI格式，音頻格式主要是基于PCM編碼的wav格式和mp3格式。這些選擇也是由可獲取的音樂媒體資源的數(shù)量來決定。

2　CBMIR的研究思路

CBMIR的研究思路，在于將研究對(duì)象如何看待。作為信息提取的分支，CBMIR的研究對(duì)象是音樂，而同處于信息提取研究范疇的媒體信息例如文本、圖像、視頻和語音與其存在一些相似的地方，都需要借助統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的相關(guān)技術(shù)處理分類和模式識(shí)別問題。但是音樂欣賞，作為一種較為獨(dú)立的人類活動(dòng)，在信息的接收方式和闡釋方法，以及關(guān)注點(diǎn)上，都存在較大的不同。

2.1音樂信息，同與不同

從包含的內(nèi)容來看，音樂本身傳遞的信息是非常難以描述的。文本、圖像和視頻，或者語音信號(hào)傳遞的信息都有明確的語義，文本作為自然語言，可以直接為人所理解，被認(rèn)為是最接近信息的最終符號(hào)化表達(dá)的一種媒體類型；圖像或視頻，從不同的維度描述了一個(gè)場(chǎng)景，或者事件，語音內(nèi)容則是文本的直接反映，這些類型的媒體都有明確的語義傳達(dá)。相比較之下，音樂能夠表達(dá)的語義是最模糊，最難以描述的。西方古典音樂幾百年的作曲理論詳盡的研究過不同的調(diào)性組合和和聲類型，發(fā)現(xiàn)了音樂的心理學(xué)色彩，因此我們可以通過演奏一段“哀傷”的音樂，或者一段“緊張”的音樂，來表達(dá)這樣的情緒，標(biāo)題音樂（musica a programma）也有這樣的作用，然而這些語義信息是相對(duì)來說較為模糊的、抽象的，而大量的音樂，尤其是現(xiàn)代主義作品，是抽象、晦澀的。

從表現(xiàn)形式來看，音樂是一個(gè)非常復(fù)雜的概念，這個(gè)概念比語音信號(hào)、圖像更為復(fù)雜。首先同樣為聲學(xué)信號(hào)，音樂信號(hào)的來源和構(gòu)成比語音更加復(fù)雜多變。因?yàn)橐魳繁旧砀咏粋€(gè)文化概念，音樂包含了許多種類，比如爵士樂、古典音樂、流行、搖滾、民族音樂等；音樂既有純?nèi)寺暤模热绺窭呃镌亣@（Gregorian chant）等類型，也有純器樂的如大部分交響樂、室內(nèi)樂，既有單一樂器獨(dú)奏的，也有交響樂等多種樂器齊奏的；還有各種電子音樂。此外，即便是同一首作品，甚至同一個(gè)人演奏或演唱，音樂上的差別都會(huì)很大，更加別提不同的配樂、不同的樂器（種類、品牌的不同帶來的不同聲學(xué)特性）、不同的聲學(xué)場(chǎng)景、不同的演奏方法（顫音、即興等藝術(shù)加工手段）等等差異導(dǎo)致的聲學(xué)復(fù)雜性。

由于語音識(shí)別任務(wù)的需求主要在于完成語音到文本符號(hào)的轉(zhuǎn)換，因此，許多算法和商業(yè)語音識(shí)別應(yīng)用往往可以忽略掉許多聲學(xué)信息，比如音調(diào)、音色等信息，給語音識(shí)別任務(wù)帶來了極大的便利；而音樂信息提取恰恰就是要去刻畫、分析這些聲學(xué)特征。

2.2從多維度，多時(shí)隙的結(jié)構(gòu)化模型來理解音樂

音色，配器（orchestration），錄制聲場(chǎng)等特征主要是與聲音的聽感有關(guān)系，并屬于短程（short-term）特征——可以通過十幾毫秒內(nèi)的聲音信號(hào)來特取獲得。在一些音樂類型里，這種特征變化是微小而漸進(jìn)的。因此，盡管音樂是一種時(shí)間的函數(shù)，這幾種特征可以認(rèn)為是時(shí)不變的，可以通過截取小段音樂片段進(jìn)行分析取得。這種短程特征常用于音樂流派分類任務(wù)（genre c1assification）。

節(jié)奏、旋律與和聲這幾種特征則是由調(diào)、各種聲音事件（音符的起訖、留白、節(jié)拍的強(qiáng)弱變化、樂器或者人聲的加入和退出）在時(shí)間軸上組合而成，描述的是一種中程（midd1e-term）的信息。因?yàn)椴煌奈幕Q生的音樂具有不同的作曲風(fēng)格和規(guī)律，因此這種中程特征結(jié)合短程特征，也可以用于流派分類等任務(wù)，而一種稱為自動(dòng)樂譜轉(zhuǎn)寫（auto music transcription）的音樂信息提取任務(wù)則包含了對(duì)上述特征的提取要求[1][2]。

音樂結(jié)構(gòu)特征則是建立在短程特征和中程特征上的結(jié)構(gòu)性表達(dá)，并且也具有更寬的時(shí)間跨度，屬于一種長(zhǎng)程特征。音樂結(jié)構(gòu)或者說曲式的分析是面向?qū)I(yè)人士的應(yīng)用，因?yàn)闆]有受過音樂專業(yè)訓(xùn)練的普通聆聽者，缺少對(duì)曲式、樂曲風(fēng)格的理解，通常也不具備主動(dòng)式聆聽（active 1istening）的情境，也沒有分析曲式的需求。

音樂的特征是具有結(jié)構(gòu)性的，分析音樂，必須在橫向上結(jié)合時(shí)間維度上多個(gè)層次進(jìn)行分析，同時(shí)在縱向上，需要結(jié)合各種音樂特征完成對(duì)音樂的分析。因此可以說CBMIR的研究對(duì)象是多維度、多層次的。不同的提取任務(wù)著眼于不同的維度，而近年來有將深度學(xué)習(xí)（deep 1earning）和CBMIR相結(jié)合的學(xué)者提出的mu1tisca1e-1earning的方法[3]，就是試圖同時(shí)將多個(gè)維度上的信息同時(shí)建模。

2.3傳統(tǒng)的CBMIR研究流程以及可能的改進(jìn)方向

盡管CBMIR領(lǐng)域的應(yīng)用類型非常多樣，傳統(tǒng)的CBMIR方法流程大致可以分為兩步階段：作為流程前端的特征提取階段和作為后端的語義理解階段。通過借助音樂領(lǐng)域知識(shí)和復(fù)雜的信號(hào)處理技巧，手工設(shè)計(jì)各種算法如MFCC，Constant-Q將音樂的信號(hào)的屬性提取出來，這種通過被提取出來的屬性一般稱為描述元（descriptor）或者特征（feature）。

這些統(tǒng)計(jì)量隨后作為后端模式識(shí)別機(jī)的輸入，并利用諸如統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)的各種淺結(jié)構(gòu)模型如支持向量機(jī)（Support Vector Machine,SVM）貝葉斯網(wǎng)絡(luò)（Bayesian Network）、條件隨機(jī)域（Conditiona1 Random Fie1ds）等進(jìn)行各種分類和識(shí)別任務(wù)。

這種傳統(tǒng)的CBMIR模式具有以下不足之處[4]：

●利用手工設(shè)計(jì)出來的尋找音樂特征，是一項(xiàng)對(duì)信號(hào)處理要求非常高的、繁重的工作?？紤]到音樂的高維度特點(diǎn)，加上多信號(hào)的卷積增加了信號(hào)處理的難度，尋找到針對(duì)特定任務(wù)有較好效果的特征并不是一件容易的事情，且當(dāng)應(yīng)用需求改變的時(shí)候，特征也要重新調(diào)整，因此也不具有可持續(xù)性。

●淺結(jié)構(gòu)處理架構(gòu)的采用。淺結(jié)構(gòu)對(duì)真實(shí)音樂信號(hào)的潛在的復(fù)雜度的建模顯得力不從心，這個(gè)是由于低階模型自身的原因造成的，而長(zhǎng)期以來一直采用淺模型的原因主要是算法復(fù)雜度和計(jì)算開銷上的限制造成的。一方面，設(shè)計(jì)有效的深度模型的計(jì)算模型的工作一直到有效的深度模型訓(xùn)練方法的出現(xiàn)才開始獲得長(zhǎng)足發(fā)展。而分布式計(jì)算理論和計(jì)算機(jī)硬件的同時(shí)發(fā)展也對(duì)深度模型的采用起到了相應(yīng)的支撐作用。

●短時(shí)分析無法獲取高階信息。盡管音樂的語義特征的結(jié)構(gòu)性是一個(gè)普遍共識(shí)，但是如何將短時(shí)隙上分析得到的特征進(jìn)行組合來表示更長(zhǎng)程的信息，一直以來學(xué)術(shù)界進(jìn)行了不斷嘗試，比如將短時(shí)參數(shù)組合成更高維的特征向量的shing1ing方法[5]，或者丟棄特征的時(shí)間結(jié)構(gòu)特性，將一部分特征看出一族，在該函數(shù)族空間上建模的BoF方法[6]，或者更直接的就是借鑒早期語音識(shí)別的常用方法，仍只處理短時(shí)特征，利用后端的例如最大似然方法（Maximum Like1ihood）將高層語義加入進(jìn)行分類。以上這些方法各有利弊，也只獲得了有限的應(yīng)用。

針對(duì)上述不足，Dixon、Humprey、Die1eman等人提出了利用深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練任務(wù)自適應(yīng)的、結(jié)構(gòu)化的音樂信號(hào)特征[7][8]，通過將特征生成和模式分類結(jié)合成一個(gè)整體，改變了傳統(tǒng)的基于內(nèi)容的音樂信息提取的研究模式，代表了未來一種可能的發(fā)展方向。

3　CBMIR的研究?jī)?nèi)容

CBMIR的研究?jī)?nèi)容包含但不僅限于：基于音頻的音樂流派分類（Audio Genre C1assification）、音頻起點(diǎn)檢測(cè)（Audio Onset Detection）、基于音頻的演繹版本辨識(shí)（Audio Cover Song Identification）、哼唱識(shí)別（Query by Singing/Humming）、多基頻估計(jì)與跟蹤（Mu1tip1e Fundamenta1 Frequency Estimation&Tracking）、基于音頻的和弦估計(jì)（Audio Chord Estimation）、基于音頻的旋律提?。ˋudio Me1ody Extraction）、基于音頻的節(jié)拍跟蹤（Audio Beat Tracking）、基于音頻的音樂相似性與提?。ˋudio Music Simi1arity and Retrieva1）、結(jié)構(gòu)劃分（Structura1 Segmentation）等。以下將就部分任務(wù)進(jìn)行一些簡(jiǎn)要介紹。

3.1基于音頻的音樂流派分類（Audio GenreClassification）

基于音頻的音樂流派分類，就是通過分析給定的音頻樣本，將音頻所屬的音樂流派進(jìn)行正確歸類。音樂流派分類可能是音樂信息提取領(lǐng)域得到最廣泛和深度研究的一個(gè)子領(lǐng)域。流派分類的難度主要在于音樂流派分類體系本身就是存在一定的交叉性、模糊性和不定性。一般來說，學(xué)術(shù)界傾向于將音樂流派看作一個(gè)具有樹狀層次結(jié)構(gòu)的體系[9]。

3.2哼唱識(shí)別（QuerybySinging/Humming）

哼唱識(shí)別就是試驗(yàn)者通過麥克風(fēng)提供一段哼唱旋律，算法能夠根據(jù)該音頻檢索數(shù)據(jù)庫里面的曲目，作為音樂信息提取領(lǐng)域在應(yīng)用領(lǐng)域最早的探索之一，哼唱識(shí)別經(jīng)歷了研究的高潮和低潮。一方面的原因在于，這種應(yīng)用有限的應(yīng)用價(jià)值，以及使用者在提供哼唱樣本的質(zhì)量上差異過大，造成系統(tǒng)的識(shí)別率一直很難達(dá)到商業(yè)應(yīng)用的要求[10]。

3.3基于音頻的演繹版本辨識(shí)（AudioCover SongIdentification）

基于音頻的演繹版本辨識(shí)任務(wù)就是給出一個(gè)檢索音頻，要求對(duì)比數(shù)據(jù)庫中的曲目，找到該檢索音頻對(duì)應(yīng)的曲目的不同演繹版本，本質(zhì)上屬于音樂的相似性檢測(cè)問題[11]。由于一首歌曲的不同演繹版本存在各種可能，比如制作、配器、流派、演唱者／演奏者等，因此，如何描述不同演繹版本的相似性，是一個(gè)非常重要的問題。

3.4基于音頻的節(jié)拍跟蹤（AudioBeat Tracking）

基于音頻的節(jié)拍跟蹤就是需要找到樂曲全部節(jié)拍所在的時(shí)間點(diǎn)，這個(gè)任務(wù)在幾乎大多數(shù)節(jié)奏明顯的流行音樂里面問題都不大，但是對(duì)于例如古典浪漫主義鋼琴曲目則仍然是具有挑戰(zhàn)性的任務(wù)。音樂節(jié)拍與人感知到的、可以利用敲擊等方式跟隨的節(jié)奏通常不是一回事，盡管這一點(diǎn)經(jīng)常被混淆。與其相關(guān)的一個(gè)任務(wù)就是速度提取，事實(shí)上許多算法可以同時(shí)完成這兩個(gè)任務(wù)。而在線的節(jié)拍跟蹤（on1ine beat tracking）也是該領(lǐng)域的另一個(gè)方向。有關(guān)這個(gè)領(lǐng)域的一些算法也有相關(guān)的參考文獻(xiàn)[12]?；谝纛l的節(jié)拍跟蹤的算法評(píng)測(cè)仍然是與手工標(biāo)注的評(píng)測(cè)集進(jìn)行比較，節(jié)拍跟蹤的應(yīng)用場(chǎng)景主要是手勢(shì)控制。

4　CBMIR的其他問題

近年來，機(jī)器學(xué)習(xí)領(lǐng)域有一個(gè)研究方向異軍突起，這就是基于神經(jīng)網(wǎng)絡(luò)理論的方法，統(tǒng)稱為深度學(xué)習(xí)。深度學(xué)習(xí)在自然語言理解、圖像識(shí)別和語音識(shí)別領(lǐng)域取得了廣泛的、巨大的成功，因而近年來也有越來越多的學(xué)者將深度學(xué)習(xí)方法引入到音樂信息提取領(lǐng)域，并取得了部分成果[13][14][15]。

基于音頻的音樂信息提取研究，不但要求研究算法的準(zhǔn)確性，召回率，在基于分類和相似性的任務(wù)中，還要研究算法的效率問題。因?yàn)榛谝纛l的數(shù)據(jù)檢索和信息提取是一個(gè)較為低效的過程。不但分類和識(shí)別算法本身需要處理的是音樂信號(hào)，在信號(hào)處理方面有一定的計(jì)算開銷，在遍歷匹配的時(shí)候也會(huì)產(chǎn)生巨大的開支，這個(gè)問題在商業(yè)應(yīng)用領(lǐng)域變得由為重要。因此，如何建立音頻的特征索引，如何高效的檢索音頻數(shù)據(jù)，是CBMIR領(lǐng)域的另一個(gè)研究重點(diǎn)[16]，由于篇幅所限在此就不再展開了。

［1］ M.Piszcza1ski and B.A.Ga11er,“Computer ana1ysis and transcription of performed music：A project report,”Comput Hum,vo1.13,no.3,pp.195-206,Ju1.1979.

［2］ A.Dessein,A.Cont,and G.Lemaitre,“ Rea1-timePo1yphonicMusicTranscriptionwith Non-negative Matrix Factorization and Beta-divergence,”in Proceedings of the 11th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2010,Utrecht,Nether1ands,August 9-13,2010,2010, pp.489-494.

［3］ P.Hame1,S.Lemieux,Y.Bengio,and D. Eck,“Tempora1 Poo1ing and Mu1tisca1e Learning for Automatic Annotation and Ranking of Music Audio,”in Proceedings of the 12th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2011,Miami,F1orida,USA,October 24-28,2011,2011,pp.729 -734.

［4］E.J.Humphrey,J.P.Be11o,and Y.LeCun,“Feature Learning And Deep Architectures：New Directions For Music Informatics,”Journa1 of Inte11igent Information Systems,vo1.41,no.3,pp.461-481,Dec. 2013.

［5］ M.Casey,C.Rhodes,and M.S1aney,“Ana1ysis of minimum distances in high-dimensiona1 musica1 spaces,” Audio,Speech,and Language Processing,IEEE Transactions on,vo1.16,no.5,pp.1015 -1028,2008.

［6］S.Die1eman,P.Brake1,and B.Schrauwen,“Audio-based Music C1assification with a Pretrained Convo1utiona1 Network,”in 12th Internationa1 Society for Music Information Retrieva1 Conference,Miami (F1orida),USA,2011,pp.669-674.

［7］G.Tzanetakis and P.Cook,“Musica1 genre c1assification of audio signa1s,” Speech and Audio Processing,IEEE transactions on,vo1.10,no.5,pp.293 -302,2002.

［8］Eugene Weinstein,“Query By Humming：A Survey,”2005.

［9］ J.Serrà,E.Gómez,and P.Herrera,“Audio Cover Song Identification and Simi1arity：Background,Approaches,Eva1uation,and Beyond,”in Advances in Music Information Retrieva1,Z.W.Ra's and A.A.Wieczorkowska,Eds.Springer Ber1in Heide1berg, 2010,pp.307-332.

［10］ M.F.McKinney,D.Moe1ants,M.E. Davies,and A.K1apuri,“Eva1uation of audio beat tracking and music tempo extraction a1gorithms,”Journa1 of New Music Research,vo1.36,no.1,pp.1-16,2007.

［11］H.Lee,P.Pham,Y.Largman,and A.Y. Ng,“Unsupervised Feature Learning For Audio C1assification Using Convo1utiona1 Deep Be1ief Networks,”in Advances in Neura1 Information Processing Systems 22,Y.Bengio,D.Schuurmans,J.D.Lafferty,C.K.I. Wi11iams,and A.Cu1otta,Eds.Curran Associates,Inc., 2009,pp.1096-1104.

［12］F.Eyben,S.B?ck,B.W.Schu11er,and A. Graves,“Universa1 Onset Detection with Bidirectiona1 Long Short-Term Memory Neura1 Networks,”in Proceedings of the 11th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2010,Utrecht, Nether1ands,August 9-13,2010,2010,pp.589-594.

［13］S.B?ck and M.Sched1,“Po1yphonic piano note transcription with recurrent neura1 networks,”in 2012 IEEE Internationa1 Conference on Acoustics, Speech and Signa1 Processing,ICASSP 2012,Kyoto, Japan,March 25-30,2012,2012,pp.121-124.

［14］W.Jeon,C.Ma,and Y.M.Cheng,“An Efficient Signa1-Matching Approach to Me1ody Indexing and Search Using Continuous Pitch Contours and Wave1ets,” in Proceedings of the 10th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2009,Kobe Internationa1 Conference Center, Kobe,Japan,October 26-30,2009,2009,pp.681-86.

［責(zé)任編輯何一輝］

G434

1008-7656（2015）04-0080-06

2015-09-23

黃鐳，廣西廣播電視大學(xué)教學(xué)資源中心助理研究員，碩士，研究方向：遠(yuǎn)程信息技術(shù)；鄧明，廣西廣播電視大學(xué)教育技術(shù)中心助理工程師，研究方向：遠(yuǎn)程信息技術(shù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于內(nèi)容的音樂信息提取的研究對(duì)象與思路

1 CBMIR的研究對(duì)象

2 CBMIR的研究思路

3 CBMIR的研究?jī)?nèi)容

4 CBMIR的其他問題

1　CBMIR的研究對(duì)象

2　CBMIR的研究思路

3　CBMIR的研究?jī)?nèi)容

4　CBMIR的其他問題