朱樂
摘 要:本文針對數(shù)字音樂資源中基于音樂內(nèi)容的標示形式、檢索關(guān)鍵技術(shù)、音樂特征提取算法等問題進行研究,通過比較各種音樂內(nèi)容標示方法的特點和優(yōu)缺點,給出音樂內(nèi)容特征提取算法。
關(guān)鍵詞:數(shù)字音樂;音樂旋律;音樂輪廓;音樂節(jié)奏
0 引言
在當今網(wǎng)絡(luò)時代,數(shù)字化音樂已成為音樂存在的主要方式。數(shù)字音樂比傳統(tǒng)的磁記錄音樂等能夠更好地利用現(xiàn)有的大量音樂資源,來滿足人們的娛樂、教育、商業(yè)等各類需求。由于每年都有大量的音樂作品產(chǎn)生,如何能夠有效地利用這些音樂資源尋找到需要的信息,就成為一項十分具有現(xiàn)實意義的工作。傳統(tǒng)情況下,人們是按照音樂的標識信息來查詢需要的音樂資料。例如,當人們需要查詢一首樂曲時,必須知道音樂的名稱,或是作曲者、演奏者等相關(guān)音樂標志信息,否則就得通過瀏覽整個數(shù)據(jù)庫來查找樂曲。音樂標識的信息具有復(fù)雜性,顯然,通過音樂標識信息來尋找資源方法的效率也是很低的。目前,基于內(nèi)容分析的音樂表示逐漸得到了廣泛的重視,已經(jīng)被證明是非常有效的音樂分類方法,而基于音樂內(nèi)容的查詢方式是有效利用音樂資源的關(guān)鍵技術(shù)。
眾所周知,音樂旋律是利用調(diào)式關(guān)系和節(jié)奏以及節(jié)拍關(guān)系組合起來的,通過具有獨立性的許多音的單聲部進行。從某種意義上講,音樂的主要特征就是旋律。旋律體現(xiàn)了音樂的全部思想或主要思想,它被認為是音樂的基礎(chǔ)和靈魂。旋律的一個簡單的定義是單調(diào)的連續(xù)的音階序列。目前的技術(shù)所考慮的旋律是簡單的,是很容易哼唱的,比如流行音樂、鄉(xiāng)村音樂中的旋律。一般意義上,旋律是音調(diào)和節(jié)奏的組合。有關(guān)文獻對音樂的記憶特性進行了研究,Dowling指出,旋律的輪廓比對精確的旋律更易于記憶。旋律的輪廓是指旋律音調(diào)的起伏的整體形狀,即相鄰音符的起伏。假定音樂的輪廓和音階是分開存儲在我們的大腦中的,而旋律的輪廓是主要的、印象深刻的部分。相同的旋律輪廓可以映射到不同的音階上。Edworthy在文獻中也提出了類似的觀點。
基于上述觀點,有以下幾種音樂內(nèi)容的標示方法:基于節(jié)奏、基于音樂輪廓、基于音樂旋律以及綜合方法。這些方法都可以進行基于內(nèi)容的查詢,各有利弊。
1 基于內(nèi)容的音樂標示方法
1.1 基于音樂輪廓的標示法
眾所周知,音調(diào)高低對于旋律表示是一種很重要的信息。一般情況下,研究者利用3層(+/-/0)方法來表達音樂旋律的輪廓。符號“+”表示現(xiàn)有音符與前面音符相比,音調(diào)提高;符號“-”表示現(xiàn)有音符與他前面音符相比,音調(diào)減小;符號“0”表示現(xiàn)有音符與它前面音符相比,音調(diào)不變。例如,旋律422143325可用符號0-0-+-0-+表示。旋律的音調(diào)輪廓描述了相對音調(diào)的變化,但是它忽略了音樂的節(jié)奏信息,也忽略了音調(diào)的精確變化,因此旋律的音調(diào)輪廓表示方法丟失了很多重要信息。這種表示方法比較簡單,雖然能夠減少搜索空間,但搜索精度不高。在對某個大型數(shù)據(jù)庫進行檢索時,可能查找到過多的檢索結(jié)果,冗余信息量大,不利于精確得到需要的結(jié)果。為了提高檢索準確性,則需要輸入較長的標識信息,此時要求用戶對歌曲有更多的記憶長度。
1.2 基于節(jié)奏的標示法
音樂是聲音在時間上的藝術(shù)。任何聲音在時間上都具有一定的長度,節(jié)奏就是音樂的時間標示。無論是古典音樂還是通俗音樂,都通過一定的節(jié)奏來標示。利用節(jié)奏來標示音樂內(nèi)容的方法,將忽略音樂音調(diào)特性。與基于音樂輪廓的內(nèi)容標示方法相比,基于節(jié)奏的標示較為復(fù)雜。不同的樂曲可能具有相同的節(jié)奏,因此,利用此方法仍不能精確檢索需要的結(jié)果。同時,這個方法在音樂內(nèi)容標示中忽略了音樂旋律的根本特性:音調(diào)特性。
1.3 基于主題的標示法
在一段音樂旋律中,相同的旋律主題可能反復(fù)出現(xiàn),利用旋律主題的重復(fù)特性來標示音樂可以提高標示的精簡程度,減小信息存儲量和檢索時需要的數(shù)據(jù)量。由于音樂旋律的主題是復(fù)雜多樣的,從一首樂曲中自動提取出旋律主題非常困難。旋律主題的發(fā)展還有許多其他特性,例如變化、擴展、緊縮,將影響旋律主題的標示。
1.4 綜合標示法
以上3種方法從不同的方面對音樂內(nèi)容進行了標示,但是反映的特性單一,在實際檢索時效果不盡理想,采用旋律綜合表示法可相應(yīng)解決上述問題。
所謂旋律的綜合標示法是利用“T、P、B”來表示旋律,T表示樂曲的時間記號,它是可變的;P表示基音輪廓量,它的取值范圍依賴于輪廓等級數(shù),例如0、-、+、-=、++;B的第一個值標示第一個音符的位置,B中的值隨著音符的變化而逐步增加。
2 音樂特征提取算法
一般情況下,可以從兩種音樂格式中提取旋律,一是聲音音樂數(shù)據(jù),主要是指基于波形形式的WAV、MP4,另一種格式是符號音樂數(shù)據(jù),如樂譜和MID。從復(fù)雜的多聲部波形音樂數(shù)據(jù)中自動提取各個聲部信息是很復(fù)雜的,目前還沒有很好的方法解決這個問題。在大部分情況下,數(shù)字音樂資源是對符號音樂數(shù)據(jù)即MIDI格式的音樂進行處理。MIDI文件絕大多數(shù)包含一個獨立的單聲部音軌。這些音軌有著特定的名字,如Melody、Vocal、Lead、String。MIDI的整體抽取操作是基于音軌特征來實現(xiàn)的。具體而言,首先要選擇含有Melody、Vocal、Lead和String的音軌作為主要音軌,如果沒有包含上述名字的音軌則將第一個音軌作為主要音軌。判斷第一個音軌的條件是滿足音符數(shù)大于某一值,從主要音軌中獲取音調(diào)序列,然后對音調(diào)序列進行處理,以獲得最終特征。
基于以上的分析,下面提出了提取音樂特征的算法,見圖1。
3 結(jié)語
本文主要研究了數(shù)字音樂資源中基于內(nèi)容的音樂檢索關(guān)鍵技術(shù)、音樂內(nèi)容的標示形式、基于特征的提取算法等問題,并且通過比較各種音樂內(nèi)容標示方法的特點和優(yōu)缺點,給出了筆者的音樂內(nèi)容特征提取算法。
參考文獻:
[1] 張晶.基于Web的音樂哼唱檢索關(guān)鍵技術(shù)研究[D].西北大學,2008.
[2] 高為杰·陳丹布.曲式分析基礎(chǔ)教程[M].北京:高等教育出版社,2009.
[3] 孫儷.哼唱檢索中特征提取研究[D].北京郵電大學,2012.
[4] 劉亞瓊.淺析歌曲旋律與音樂形象的關(guān)系——旋律線的探索[J].中國體衛(wèi)藝教育論壇,2008(08).