基于內(nèi)容的音樂語義特征描述方法

2013-09-19 10:29張二芬徐淮杰

電子設(shè)計(jì)工程 2013年1期

張二芬，徐淮杰

（河海大學(xué) 計(jì)算機(jī)與信息學(xué)院，江蘇南京 211100）

音樂是能夠代表人們情感、個(gè)人風(fēng)格、精神狀況以及有關(guān)人性的其他方面的一種交流方式。盡管很多時(shí)候，對(duì)于同一首歌，不同的聽眾會(huì)給出不同的關(guān)鍵詞來描述，然而聽眾還是常常試圖使用關(guān)鍵詞來描述他們聽到的歌曲。使用關(guān)鍵詞的描述確實(shí)能夠反應(yīng)音樂的一些內(nèi)容，比如音樂的旋律、風(fēng)格、表演樂器和用途等[1]。而且，對(duì)于聽眾來說，人們并不關(guān)心也不熟悉音樂的較底層音頻特征，而對(duì)于較高層的關(guān)鍵詞比較熟悉也比較感興趣。根據(jù)這一觀點(diǎn)，本文提出一種方法，能夠找到音樂的低層特征和高層語義描述之間的聯(lián)系，給出音樂的豐富的關(guān)鍵詞的描述，這將在音樂的相似度比較、基于內(nèi)容的音樂檢索及推薦等方面提供很大的方便。

1 總體設(shè)計(jì)

該方法實(shí)現(xiàn)的總體結(jié)構(gòu)圖如圖1所示，這里的每一個(gè)音樂文件都要經(jīng)過短時(shí)窗的特征提取，組成一系列音頻特征向量，關(guān)鍵詞的選擇即是選取將要訓(xùn)練的語義關(guān)鍵詞，并找到與關(guān)鍵詞相關(guān)的歌曲，將這些歌曲作為訓(xùn)練集。這里的參數(shù)模型GMM是針對(duì)要進(jìn)行訓(xùn)練的每一個(gè)關(guān)鍵詞，取得關(guān)于其在音頻特征空間上的一種分布，每一個(gè)分布使用混合高斯模型（GMM）建模。每一個(gè)關(guān)鍵詞的GMM的參數(shù)估計(jì)是由和此關(guān)鍵詞相關(guān)的一系列歌曲組成的音頻內(nèi)容來估計(jì)。通過GMM的參數(shù)估計(jì)，得到歌曲的關(guān)鍵詞的概率分布，從而得到語義特征向量，完成基于內(nèi)容的音樂語義特征描述。

圖1 總體結(jié)構(gòu)圖Fig.1 Structure diagram of the overall structure

2 音樂特征提取

音樂是一種重要的音頻類型，具有節(jié)奏、旋律和調(diào)性等要素，是人聲、樂器等發(fā)聲體配合所構(gòu)成的聲音。除了聲波形式以外，音樂還可以用樂譜來進(jìn)行表示，基于聲波形式的信號(hào)可以得到音樂的低層特征。特征提取是指尋找原始音頻信號(hào)的表達(dá)形式，提取能夠代表原始信號(hào)的數(shù)據(jù)[2]。一般采用的技術(shù)路線有2條：1）從疊加音頻幀中提取特征，其原因在于音頻信號(hào)是短時(shí)平穩(wěn)的，所以在短時(shí)提取的特征比較穩(wěn)定。2）從音頻片段中提取，因?yàn)槿魏握Z義都有時(shí)間延續(xù)性，在長(zhǎng)時(shí)間刻度內(nèi)提取的音頻特征可以更好地反映音頻所蘊(yùn)含的語義信息，一般是提取音頻幀的統(tǒng)計(jì)特征作為音頻片段特征，特征參數(shù)提取圖如圖2所示。

圖2 特征參數(shù)提取圖Fig.2 Diagram of the extracting of characteristic parameters

文中對(duì)基于音頻幀的低層特征進(jìn)行了如下內(nèi)容的提取。

1）節(jié)奏（tempo）音樂的節(jié)奏是一個(gè)廣義詞，包括音樂中與時(shí)間有關(guān)的所有因素，它指音樂運(yùn)動(dòng)中音的長(zhǎng)短、強(qiáng)弱的變化規(guī)律，比如語義關(guān)鍵詞標(biāo)注為 happy，excting，powerful等關(guān)鍵詞，相應(yīng)的tempo值比較高，相反，語義關(guān)鍵詞標(biāo)注為sad，tender，sleeping等關(guān)鍵詞，相應(yīng)的 tempo值比較低。

2）旋律清晰度（pulseclarity）估算旋律清晰度，揭示了節(jié)拍的強(qiáng)度，強(qiáng)度越強(qiáng)，能量越大，信息量就越大。這一特征對(duì)于關(guān)鍵詞標(biāo)注為流派的genre-pop，genre-soul，genre-rock等的區(qū)分性意義很大。

3）主調(diào)（mode）估計(jì)音樂的主要感覺，返回 major和minor的值，如果值大于0，且越大于0，預(yù)測(cè)的就是 major越多，反之值越小于0，minor越多，主要表征的是音樂信號(hào)的頻率信息。

4）調(diào)性（key）主要包括7個(gè)與主因有固定關(guān)系的音色的調(diào)因系統(tǒng)（如E大調(diào)）。在西方音樂中，調(diào)性一直是音樂的結(jié)構(gòu)基礎(chǔ)。

5）清晰度（keyclarity）調(diào)性的清晰程度，找到最好的調(diào)。

6）音調(diào)中心（tonalcentroid）是在色譜圖的基礎(chǔ)上加入了和弦結(jié)構(gòu)信息（五度循環(huán)圈）得到的六維信息，主要表征的是音樂信號(hào)的頻率信息，能夠檢測(cè)和弦的變化，反應(yīng)音樂的旋律特征。

7）調(diào)強(qiáng)度（keystrength）計(jì)算key的強(qiáng)度。

在提取特征參數(shù)過程中，首先將音樂文件轉(zhuǎn)換成單聲道wav格式的音頻，每段音樂的位速是256 kbps，采樣大小是16位，采樣頻率為16 kHz，音頻格式為PCM。參考MIRtoolbox工具包[3]，提取時(shí)間采用的是幀長(zhǎng)5 s，幀移0.5 s，提取以上所述特征參數(shù)，得到1維的節(jié)奏（tempo），1維的旋律清晰度（pulseclarity），1維的主調(diào) （mode），1維的音調(diào)（key），1維的音調(diào)清晰度（keyclarity），6維的音調(diào)中心（tonalcentroid），24維的調(diào)強(qiáng)度（keystrength），最終組成一個(gè)35維的長(zhǎng)時(shí)特征矢量，這個(gè)步驟是在matlab環(huán)境下進(jìn)行的。每首歌曲用一個(gè)txt文檔保存其按幀提取出來的的特征矢量。

3 音樂的語義特征標(biāo)注

如何描述音樂的語義特征是一個(gè)關(guān)鍵問題。隨著生活條件的提高，人們?cè)絹碓阶⒅鼐衿肺兜呐囵B(yǎng)，在不同的場(chǎng)合人們將需求不同的音樂，對(duì)音樂的用途提出了越來越明確以及細(xì)致的要求，這就要求我們能夠?qū)σ魳愤M(jìn)行全面的剖析和描述。本文使用 Computer Audio Lab 500（CAL500）數(shù)據(jù)集[1]。其具體做法是，通過用戶一邊試聽音樂一邊對(duì)音樂進(jìn)行關(guān)鍵詞標(biāo)注的方法，對(duì)語義標(biāo)簽給出了一個(gè)清晰的定義集本。這些語義詞包括18種表示情感的標(biāo)注，如emotion-happy，notemotion-happy等；36種表示流派的標(biāo)注，如 genre-pop，genrerock等；29種音樂器具的標(biāo)注，如instrument-bass，instrumentpiano等，等等。這個(gè)數(shù)據(jù)集要反應(yīng)出語義詞與歌曲之間聯(lián)系的程度，因此對(duì)于每一首歌，在給出一系列關(guān)鍵詞標(biāo)簽的同時(shí)，也給出了標(biāo)簽對(duì)應(yīng)的分值。這樣每一首歌，都由一個(gè)數(shù)值向量來表示，其數(shù)值分布在0到1之間，0表示這首歌與這個(gè)關(guān)鍵詞不相關(guān)，1表示極其相關(guān)。

對(duì)于接下來要做的模型的訓(xùn)練，要進(jìn)行關(guān)鍵詞的選擇，即選擇要進(jìn)行訓(xùn)練的關(guān)鍵詞，找出這個(gè)關(guān)鍵詞分值大于0的這些歌曲，作為訓(xùn)練集，生成基于關(guān)鍵詞的模板。

4 實(shí) 驗(yàn)

4.1 混合高斯模型（Gaussian Mixture Models，GMM）原理

GMM[4]訓(xùn)練的過程，首先需要進(jìn)行樣本的選擇。對(duì)于每一個(gè)單詞來說，要進(jìn)行一個(gè)GMM的訓(xùn)練，訓(xùn)練樣本集的選擇即是與這個(gè)單詞相關(guān)的歌曲。這里選擇單詞標(biāo)注值大于0的歌曲作為訓(xùn)練樣本集，實(shí)驗(yàn)中，500首歌中隨機(jī)選擇85%作為訓(xùn)練集，剩下的15%作為測(cè)試集。

高斯混合模型由M個(gè)多維的高斯概率密度函數(shù)線性加權(quán)求和構(gòu)成，可以用公式表示如下：

其中X是N維音頻信號(hào)特征矢量，M是混合高斯模型的階數(shù)，pi（X）是高斯混合模型分量，βi是對(duì)應(yīng)高斯混合分量pi（X）的加權(quán)因子。

在獲得了音樂的低層特征之后，GMM的訓(xùn)練即是估計(jì)模型的參數(shù)，即通過最大似然估計(jì)法，給定訓(xùn)練矢量集的情況下，尋找合適的模型參數(shù)，使得GMM的似然函數(shù)最大[5-6]。

高斯混合模型的似然函數(shù)表達(dá)式如：

其中 X 為訓(xùn)練矢量集，X={x1，x2，…，xn}。

對(duì)于高斯混合模型的階數(shù)M的選擇，一般情況是M選取的大一些比較好，但也并不是M越大越好，況且隨著M的增大，對(duì)于訓(xùn)練的時(shí)間成本也造成很大了影響。文中使用M為9的混合高斯模型進(jìn)行訓(xùn)練，得到基于關(guān)鍵詞的模板的均值和方差以及對(duì)應(yīng)的權(quán)重。

4.2 語義特征向量的形成

經(jīng)過GMM的訓(xùn)練得到詞匯庫中每一個(gè)關(guān)鍵詞的均值和方差，接下來使用貝葉斯法則去計(jì)算每一個(gè)關(guān)鍵詞的先驗(yàn)概率[1]。i），根據(jù)全概率公式得到

這樣可得

使用公式（5）可以計(jì)算出每一個(gè)單詞在一首歌里出現(xiàn)的概率。對(duì)于一首歌，將得到這首歌的所有關(guān)鍵詞模型的概率向量，在這里將這個(gè)概率向量稱為語義特征向量，這樣完成了由低層音頻特征向高層語義特征的一個(gè)映射。語義特征分布圖如圖3所示，這里是對(duì)于air_sexy_boy.wav這首歌的詞匯庫中關(guān)鍵詞的語義特征向量分布，圖中還標(biāo)注出了對(duì)于這首歌描述的8個(gè)最大概率的關(guān)鍵詞。

5 結(jié) 論

文中提出的基于內(nèi)容的音樂語義特征描述方法，采用提取音樂豐富的較低層音頻特征，訓(xùn)練基于語義關(guān)鍵詞的GMM模型，不僅給夠?qū)Ω枨M(jìn)行語義關(guān)鍵詞的描述，而且還能夠給出關(guān)鍵詞的程度。對(duì)于一首歌來說，使用語義特征分布來代表一首歌是十分有意義的，這將對(duì)于音樂的檢索或是推薦分析工作都提供了很大的方便。使用語義特征向量來表征一首歌，一方面給出了底層音頻特征到高層語義特征的映射關(guān)系，彌補(bǔ)了語義空缺；另一方面，將音頻信息轉(zhuǎn)化成更易于處理的數(shù)值信息，這對(duì)于音樂的相似度比較，提供了一個(gè)很好的入口。

圖3 語義特征分布圖Fig.3 Diagram of the Semantic features distribution

[1]Turnbull D，Barrington L，Torres D，et al.Lanckriet.Towards Musical Query-by-Semantic Description Using the CAL500 Data Set[EB/OL][2012-8-10].http://cosmal.ucsd.edu/cal/pubs/MusicQBSD_SIGIR07.pdf

[2]韓紀(jì)慶，鄭鐵然，鄭貴濱.音頻信息檢索理論與技術(shù)[M].北京:科學(xué)出版社，2011.

[3]Lartillot O.MIRtoolbox1.3.2 User’s Manual[M].Finland：Finnish Center of Excellence in Interdisciplinary Music Research University of Jyvaskyla，2011.

[4]Reynolds A，Rose C.Robust text-independent speaker identification using caussian mixture speaker Models[J].IEEE Transactions on Speech and Audio Processing，1995，3（1）:72-83.

[5]Steve Young，Dan Kershaw，Julian Odell，et al.The HTK Book for HTK Version3.4[M].Cambridge University Engineering Department（CUED），2009.

[6]Timo Sorsa and Jyri Huopaniemi Nokia Research Center.Speech and Audio Systems Laboratory.Melodic Resolution in Music Retrieval[EB/OL][2012-8-10].http://ismir2001.ismir.net/posters/sorsa.pdf.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡