国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聽覺圖像的音樂流派自動分類

2013-05-10 06:42:26李秋穎
關(guān)鍵詞:古典音樂流派耳蝸

李 鏘,李秋穎,關(guān) 欣

(天津大學(xué)電子信息工程學(xué)院,天津 300072)

面對互聯(lián)網(wǎng)上海量的音樂數(shù)據(jù),對音樂信息的檢索顯得尤為重要.目前絕大多數(shù)音樂數(shù)據(jù)庫除了可以根據(jù)音樂名稱或者藝術(shù)家姓名建立索引以外,還可以利用音樂的流派信息建立索引.現(xiàn)有的音樂流派分類方法大多是在音樂數(shù)字符號的基礎(chǔ)上提取音樂的音色、節(jié)奏和音高等內(nèi)容,這些特征主要包括短時傅里葉變換(short time Fourier transform,STFT)系數(shù)、美爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)、線性預(yù)測系數(shù)(linear prediction coefficients,LPC)、過零率(zero-crossings ratio)、最強(qiáng)節(jié)拍(strong beat)和最強(qiáng)節(jié)拍力度(strength of strong beat)[1-3]等,也有使用網(wǎng)絡(luò)上對音樂進(jìn)行標(biāo)注的標(biāo)簽和音樂專家對音樂的評價作為特征進(jìn)行音樂流派分類的.

聽覺圖像模型(auditory image model,AIM)[4]是劍橋大學(xué)Roy Patterson實驗室開發(fā)的通過模擬人耳耳蝸的結(jié)構(gòu)特征,將一維聲音信號轉(zhuǎn)化為二維聽覺圖像的時域模型.根據(jù)聲音聽覺圖像的不同,可用來區(qū)分聲音的元音和輔音[5],監(jiān)測深海中障礙物的大小[6],進(jìn)行聲音排序(sound ranking)[7],還能對復(fù)合音中的音強(qiáng)度進(jìn)行分析[8].Ness等[9]曾在聽覺圖像的基礎(chǔ)上進(jìn)行了古典作曲家分類和音樂情感分類的研究,但沒有進(jìn)行音樂流派的分類.

本文首先利用聽覺圖像模型將音頻信號轉(zhuǎn)化為聽覺圖像,再采用尺度不變特征轉(zhuǎn)換(scale invariant feature transformation,SIFT)[10-11]和空間金字塔匹配(space pyramid matching,SPM)[12]方法提取聽覺圖像的特征向量進(jìn)行音樂流派分類,分類結(jié)果優(yōu)于同樣基于人耳耳蝸結(jié)構(gòu)提取的美爾頻率倒譜系數(shù)的分類結(jié)果.

1 聽覺圖像模型

聽覺圖像模型,通過模擬人耳的聽覺系統(tǒng),經(jīng)過耳蝸預(yù)處理、基底膜活動、神經(jīng)活動模式、頻點短時整合,最后得到穩(wěn)定的聽覺圖像,具體過程如下所述.

耳蝸預(yù)處理(pre-cochlear processsing,PCP)過程就是利用帶通濾波器來模擬外耳和中耳對音頻信號的濾波功能.以一首古典音樂為例,其原始音頻波形如圖1(a)所示,經(jīng)PCP預(yù)處理后的波形如圖1(b)所示,濾除超出人耳聽覺頻帶范圍的信號,便于后續(xù)分析.

圖1 耳蝸預(yù)處理波形Fig.1 Wave figures for PCP

基底膜活動(basilar membrane motion,BMM)部分就是仿照人耳耳蝸對音頻信號的處理過程建立的耳蝸功能模塊.根據(jù)耳蝸基底膜上不同位置的細(xì)胞對不同頻率聲音的選擇過程,將一維音頻信號轉(zhuǎn)換成多通道(multi-channel)的不同頻帶上的波形信號.動態(tài)壓縮的 Gammachirp(dynamic compressive Gammachirp,dcGC)濾波器級聯(lián)結(jié)構(gòu)和如圖 2所示的極零點濾波器級聯(lián)結(jié)構(gòu)(pole-zero filter cascade,PZFC)[13]都可以模擬人耳不同位置基膜上聲音信號的幅度和時延.

圖2 極零點濾波器級聯(lián)結(jié)構(gòu)Fig.2 Structure chart of PZFC

圖 2中的自動增益環(huán)路對應(yīng)于腦干中橄欖復(fù)合體的傳出神經(jīng)元對耳蝸外纖毛細(xì)胞活動的控制.半波整流器用于保持所有帶通信號的能量和精細(xì)時間結(jié)構(gòu).以一首古典音樂為例,采用極零點濾波器的BMM 過程如圖 3所示,其中圖 3(a)為原始音頻信號,圖 3(b)為將原始音頻轉(zhuǎn)換為等效矩形帶寬(equivalent rectangular bandwidth,ERB)刻度下不同頻帶的波形.將時域濾波器中心頻率f轉(zhuǎn)換為 ERB刻度下的頻率關(guān)系式為

圖3 將音頻信號轉(zhuǎn)化為多通道信號的BMM過程Fig.3 Multi-channel figure for BMM

神經(jīng)活動模式(neural activity pattern,NAP)模擬耳蝸內(nèi)耳毛細(xì)胞,將BMM模塊的響應(yīng)信號進(jìn)行半波整流、壓縮和低通濾波,轉(zhuǎn)換為耳蝸的神經(jīng)活動.半波整流用于模擬內(nèi)耳毛細(xì)胞的響應(yīng)過程.壓縮是為了模擬人耳耳蝸的壓縮功能,對輸入和輸出信號起到平滑的作用.低通濾波是為了減少隨著頻率增加和鎖相環(huán)所造成的損失.以一首古典音樂為例的NAP圖如圖 4所示,增強(qiáng)了 BMM 的頻譜信息和短時信息.

圖4 由BMM轉(zhuǎn)換為NAP的過程Fig.4 Figure for NAP from BMM

頻點短時整合(strobe temporal integration,STI)是基于人耳的聲音感知原理,利用頻點檢測技術(shù)檢測出每條通道的峰值.以一首古典音樂為例的單通道頻點檢測過程如圖5所示.

圖5 單一通道的頻點檢測過程Fig.5 STI on a single channel

穩(wěn)定的聽覺圖(stabilized auditory image,SAI)依據(jù)聽覺皮層的二維結(jié)構(gòu)及在聽覺神經(jīng)系統(tǒng)中的各種映射方式,將聽覺神經(jīng)上的信號轉(zhuǎn)換為二維滑動圖.具體而言,即將由STI得到的波形顯著峰值作為觸發(fā)選通信號,與各通道的信號進(jìn)行短時互相關(guān)運算,完成觸發(fā)式時域融合,得到最終的聽覺圖像.將時域NAP信號轉(zhuǎn)換成時間間隔和頻率維度上的穩(wěn)定聽覺圖信號,以一首古典音樂為例的聽覺圖如圖 6所示,右側(cè)部分是信號在頻率上的分布,下側(cè)部分是在時間間隔上的分布.

圖 7是將聽覺圖用圖像的形式表現(xiàn)出來的聽覺圖像,可以看出聽覺圖像的模式及其紋理結(jié)構(gòu),通過觀察不同流派的音樂聽覺圖像,發(fā)現(xiàn)不同流派的聽覺圖像在圖像模式及紋理走向上都是不同的,提取圖像的紋理結(jié)構(gòu)特征可以作為音樂流派分類的基礎(chǔ).

圖6 穩(wěn)定聽覺圖Fig.6 Stabilized auditory image

圖7 用圖像的形式表示的聽覺圖Fig.7 Image form of SAI

2 聽覺圖像的音樂流派自動分類

2.1 特征提取

本文采用尺度不變特征轉(zhuǎn)換和金字塔匹配方法提取圖像特征.因為尺度不變特征轉(zhuǎn)換可以更全面地提取圖像的局部信息,能夠更準(zhǔn)確地描述圖像所包含的特征.先將圖像劃分成相互重疊的圖像塊,提取各圖像塊的 SIFT描述符,然后對提取的 SIFT描述符進(jìn)行稀疏編碼,用少量的非零值表示 SIFT描述符,再根據(jù)不同的空間金字塔匹配方法,對聽覺圖像在不同刻度上進(jìn)行映射,這樣就將局部特征整合到整體特征,用整體特征表示聽覺圖像更全面.

空間金字塔匹配方法主要有3種,即均方根值法(the square root of mean squared statistics)Sqrt、絕對值均值法(the mean of absolute values)Abs和最大絕對值法(max pooling)max,如式(2)~(4)所示.

式中:uij為SIFT描述符向量中第i行第j列的元素;M為劃分的區(qū)域內(nèi)SIFT描述符的個數(shù);zj為映射后的向量的第 j個元素.

2.2 分類方法

對于音樂流派的自動分類,本文采用線性支持向量機(jī)的分類方法.臺灣大學(xué)林智仁副教授等開發(fā)設(shè)計的 LibSVM 中對于高維度的特征向量,線性支持向量機(jī)效果最佳.

3 實驗及結(jié)果分析

3.1 實驗環(huán)境及參數(shù)選擇

本文實驗采用國內(nèi)外音樂流派分類研究中常用的 GTZAN數(shù)據(jù)庫,其中包括藍(lán)調(diào)、古典、鄉(xiāng)村、迪斯科、嘻哈、爵士、電子、流行、雷鬼和搖滾10種音樂流派的1,000首音樂,采樣頻率為22.05,kHz.實驗中每首音樂選取時間長度為5,s的音樂片段對其進(jìn)行聽覺圖像轉(zhuǎn)換,AIM 的設(shè)置與文獻(xiàn)[8,14]相同,PZFC 中濾波器的頻率范圍選取為 40.00~0.85sf/2,Hz(sf為采樣頻率),每秒選取 50幀.為了能夠更好地描述音樂信息,計算總幀數(shù)的圖像均值作為每首音樂的聽覺圖像.對于動態(tài)壓縮的Gammachirp聽覺濾波器頻率范圍選取 40~16,000,Hz,通道數(shù)選擇 50和 75兩種情況.通過比較模擬人耳耳蝸的PZFC和dcGC濾波器級聯(lián)結(jié)構(gòu),選擇更適合音樂流派分類的濾波器.

不同聽覺濾波器在相同圖像塊大小(圖像塊大小分別為 16×16、32×32和 64×64),映射方法選擇max,采用線性支持向量機(jī)作為分類器,音樂流派的分類正確率如表 1中每列所示.相同的聽覺濾波器在不同圖像塊大小、相同的 max映射方法和線性支持向量機(jī)分類器下,音樂流派分類正確率如表1中每行所示.相同的聽覺濾波器在相同的 16×16圖像塊、相同的線性分類器、不同的映射方法下,音樂流派分類正確率如表2中每行所示.

由表1和表2可見,采用音樂聽覺圖像對音樂流派進(jìn)行分類最好的設(shè)置是聽覺濾波器選擇 PZFC,圖像塊大小選擇 16×16,增大圖像塊的大小反而會降低正確率.3種空間金字塔匹配方法中,選取最大絕對值法能夠達(dá)到最好的實驗效果.

表1 采用不同濾波器在不同圖像塊大小下的分類正確率Tab.1 Accuracy of different filters and different sizes of images

表2 采用不同濾波器在不同的映射方法下的音樂流派分類正確率Tab.2 Accuracy of different filters and different methods for mapping

下面討論在最佳分類效果下各流派的具體分類效果.采用PZFC聽覺濾波器,圖像塊大小選取16×16,匹配方法選擇最大絕對值法,分類器選擇線性支持向量機(jī)的音樂流派分類結(jié)果如表3所示.

表3 最佳參數(shù)下各音樂流派分類結(jié)果Tab.3 Accuracy with the best parameters

以表 3中的古典音樂為例,92%的古典音樂被認(rèn)為是古典音樂,2%的被誤判為鄉(xiāng)村音樂,2%的被誤判為迪斯科,2%的被誤判為爵士,2%的被誤判為雷鬼,故古典音樂分類的正確率為 92%.由表 3可知,古典、爵士和電子音樂的分類效果比較好,而搖滾音樂的正確率最低,因為古典、爵士和電子音樂的聽覺圖像的紋理特征和亮度特征較明顯,而搖滾音樂的聽覺圖像的紋理特征不明顯,容易誤判為其他流派的音樂.

3.2 結(jié)果分析

Tzanetakis等[3]用單一特征集在高斯分類器下的分類結(jié)果如表4所示,如5維的音階特征的正確率為23.0%,6維的節(jié)拍特征的正確率為 28.0%,9維的短時傅里葉變換特征的正確率為45.0%,10維基于人耳耳蝸結(jié)構(gòu)得到的 MFCC特征的分類效果只有47.0%.所有特征集的總和才只能得到 59.0%的正確率,而本文基于模擬人耳耳蝸結(jié)構(gòu)得到的聽覺圖像的流派分類效果可以達(dá)到62.6%,高于MFCC的分類效果,也高于任意其他單一特征集的分類效果,甚至比使用總特征集的效果還要好.

表4 采用不同特征集的分類正確率Tab.4 Accuracy for different feature sets

Genussov等[15]將“模糊映射(diffusion maps)”理論引入音樂流派自動分類系統(tǒng),在從音樂符號中提取出的音色特征的基礎(chǔ)上,選取3種不同規(guī)格的數(shù)據(jù)庫驗證實驗效果,古典&電子是選取 GTZAN中古典和電子兩種音樂流派的數(shù)據(jù)作為兩類分類的數(shù)據(jù)庫,5種流派庫是GTZAN中藍(lán)調(diào)、古典、電子、流行和雷鬼 5種音樂流派的數(shù)據(jù)庫.本文也采用同樣的數(shù)據(jù)庫,將基于聽覺圖像的分類效果與采用“模糊映射”前后的音色特征的分類正確率作比較,比較結(jié)果如表5所示.由表 5所示,在 3種不同的數(shù)據(jù)庫下,采用聽覺圖像對音樂流派進(jìn)行分類,優(yōu)于基于“模糊映射”的音色特征的分類正確率.

Deshpande等[16]采用的數(shù)據(jù)庫是 52首爵士、53首古典和52首搖滾音樂組成的數(shù)據(jù)庫,在MFCC和STFT的頻譜圖的基礎(chǔ)上,對圖像提取其紋理信息,采用 K-NN分類器(k=3)時得到最好的實驗結(jié)果是75.00%,在同樣規(guī)格的數(shù)據(jù)庫下基于聽覺圖像可以得到 77.35%的正確率,高于 MFCC和 STFT的頻譜圖提取特征的分類效果.

表5 不同規(guī)格數(shù)據(jù)庫下的分類正確率Tab.5 Accuracy in different databases

通過以上比較結(jié)果可知,相較于 MFCC,聽覺圖像能夠更好地模擬人耳耳蝸的結(jié)構(gòu),便于音樂流派的分類.基于聽覺圖像的音樂流派分類結(jié)果優(yōu)于單一特征集的分類效果.

4 結(jié) 語

本文將聽覺圖像引入音樂流派自動分類系統(tǒng),用尺度不變特征轉(zhuǎn)換和空間金字塔匹配方法提取圖像特征向量,優(yōu)于同樣模擬人耳耳蝸的 MFCC特征集,也優(yōu)于任意單一特征集的分類效果.Gjerdigen和Perrot曾做過一個實驗,用 1,年的時間訓(xùn)練 52名心理學(xué)專業(yè)的大學(xué)生去聽音樂,培養(yǎng)他們的樂感,對于250,ms的音樂片段的音樂,對音樂流派判斷結(jié)果的正確率為 40.0%左右.本文從音樂中提取聽覺圖像的采樣點僅為 35,ms的時間長度,卻能達(dá)到62.6%的正確率.

[1] Aucouturier J J,Pachet F. Representing musical genre:A state of the art[J].Journal of New Music Research,2003,32(1):83-93.

[2] Tzanetakis G,Cook P. Marsyas:A framework for audio analysis[J]. Organised Sound,1999,4(3):169-175.

[3] Tzanetakis G,Cook P. Musical genre classification of audio signals[J].IEEE Transactions on Speech and Audio Processing,2002,10(5):293-302.

[4] Bleeck S,Ives T,Patterson R D. Aim-mat:The auditory image model in MATLAB[J].Acta Acustica United with Acustica,2004,90(4):781-787.

[5] Patterson R D. Auditory images:How complex sounds are represented in the auditory system[J].Journal of the Acoustical Society of America,2000,21(4):183-190.

[6] Fox P D,Bleeck S,White P R,et al. Initial results on size discrimination of similar underwater objects using a human hearing model[C]//Proceedings of the Institute of Acoustics. St Albans,UK,2007,29(6):233-239.

[7] Rehn M,Lyon R F,Bengio S,et al. Sound ranking using auditory sparse-code representations[C]//ICML2009:Workshop on Sparse Method for Music Audio.Montreal,Canada,2009:118-120.

[8] Timothy I D,Patterson R D. Pitch strength decreases as F0 and harmonic resolution increase in complex tones composed exclusively of high harmonics[J].Journal of the Acoustical Society of America,2008,123(5):2670-2679.

[9] Ness S R,Walters T,Lyon R F.Auditory Sparse Coding[M]. Boca Raton,F(xiàn)L,USA:Music Data Mining,CRC Press,2011.

[10] Lowe D G. Object recognition from local scale-invariant features[C]//International Conference on Computer Vision. Corfu,Greece,1999:1150-1157.

[11] Lowe D G. Distinctive image features from scaleinvariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[12] Yang Jianchao,Yu Kai,Gong Yihong,et al. Linear spatial pyramid matching using sparse coding for image classif i cation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Miami,F(xiàn)L,USA,2009:1794-1801.

[13] Lyon R F. Machine hearing:An emerging field[J].IEEE Signal Processing Magazine,2010,27(5):131-139.

[14] Lyon R F,Rehn M,Bengio S,et al. Sound retrieval and ranking using sparse auditory representations[J].Neural Computation,2010,9(22):2390-2416.

[15] Genussov M,Cohen L. Musical genre classif i cation of audio signals using geometric methods[C]//18th European Signal Processing Conference(EUSIPCO-2010).Aalborg,Denmark,2010:497-501.

[16] Deshpande H,Nam U,Singh R. Classification of music signals in the visual domain[C]//Proceedings of the COST G-6 Conference on Digital Audio Effects(DAFX-01). Linerick,Ireland,2001:DAFX-1-DAFX-4.

猜你喜歡
古典音樂流派耳蝸
耳蝸微音器電位臨床操作要點
影視中的古典音樂
容軒讀印——明代流派印(下)
藝術(shù)品(2018年5期)2018-06-29 02:15:04
古典音樂廣播節(jié)目的通俗化表達(dá)探析
新聞傳播(2018年5期)2018-05-30 07:02:51
集大成的交響樂《英雄》:兼談怎樣聽古典音樂
歌劇(2017年7期)2017-09-08 13:09:37
海洋玉髓鑒賞收藏的“十大流派”
寶藏(2017年7期)2017-08-09 08:15:15
關(guān)于戲曲流派概念及推出新流派的思考
戲曲研究(2017年4期)2017-05-31 07:39:24
學(xué)我者生,似我者死——論京劇表演新流派的創(chuàng)立
戲曲研究(2017年4期)2017-05-31 07:39:24
DR內(nèi)聽道像及多層螺旋CT三維重建對人工耳蝸的效果評估
豚鼠耳蝸Hensen細(xì)胞脂滴的性質(zhì)與分布
沛县| 库伦旗| 枞阳县| 遂昌县| 祁门县| 泰来县| 岗巴县| 荔浦县| 河曲县| 安塞县| 岱山县| 苍溪县| 大埔区| 上虞市| 丹江口市| 梁河县| 嘉峪关市| 顺平县| 南昌市| 新沂市| 烟台市| 黄浦区| 淳安县| 虎林市| 巴林右旗| 沿河| 武山县| 镇雄县| 栾川县| 乌海市| 乐业县| 曲沃县| 百色市| 昌平区| 鄢陵县| 定结县| 洪泽县| 大埔区| 乌拉特后旗| 越西县| 永川市|