国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時(shí)頻圖像特征用于聲場(chǎng)景分類(lèi)

2017-12-01 03:32:45高敏尹雪飛陳克安
聲學(xué)技術(shù) 2017年5期
關(guān)鍵詞:時(shí)頻識(shí)別率直方圖

高敏,尹雪飛,陳克安

?

時(shí)頻圖像特征用于聲場(chǎng)景分類(lèi)

高敏1,尹雪飛1,陳克安2

(1. 西北工業(yè)大學(xué)電子信息學(xué)院,陜西西安 710129;2.西北工業(yè)大學(xué)航海學(xué)院,陜西西安 710072)

為解決根據(jù)音頻流識(shí)別聲場(chǎng)景的問(wèn)題,對(duì)音頻信號(hào)進(jìn)行恒Q變換,得到其時(shí)頻表達(dá)圖像,然后進(jìn)行濾波平滑等處理,隨之提取能夠表述信號(hào)譜能量變化方向信息的梯度直方圖特征,以及能夠捕捉信號(hào)譜紋理信息的局部二值模式特征,輸入具有線性核函數(shù)的支持向量機(jī)分類(lèi)器,對(duì)不同聲場(chǎng)景數(shù)據(jù)進(jìn)行分類(lèi)實(shí)驗(yàn)。結(jié)果表明,相對(duì)于傳統(tǒng)的時(shí)頻域特征和梅爾頻率倒譜系數(shù)特征,所提出的特征基本能夠捕捉到給定聲場(chǎng)景具有區(qū)分度的信息,所得分類(lèi)率更高,且兩者的互補(bǔ)作用使得聯(lián)合特征分類(lèi)效果達(dá)到最優(yōu),該方法為聲信號(hào)特征提取貢獻(xiàn)了一種新思路。

聲場(chǎng)景;恒Q變換;梯度直方圖;局部二值模式

0 引言

將語(yǔ)義標(biāo)簽和音頻流相關(guān)聯(lián)以標(biāo)識(shí)產(chǎn)生聲音的聲環(huán)境,此問(wèn)題被稱(chēng)為聲場(chǎng)景分類(lèi)(Acoustic Scene Classification,ASC)[1],它是計(jì)算聽(tīng)覺(jué)場(chǎng)景分析背景下最困難的任務(wù)之一。此種分類(lèi)任務(wù)在機(jī)器聽(tīng)聲領(lǐng)域非常重要,其應(yīng)用包括語(yǔ)境識(shí)別服務(wù)、智能可穿戴設(shè)備、機(jī)器人導(dǎo)航系統(tǒng)和音頻的歸檔管理等。

聲場(chǎng)景分類(lèi)是一個(gè)相當(dāng)復(fù)雜的問(wèn)題,因?yàn)橐粋€(gè)特定場(chǎng)景的錄音可能由大量的單個(gè)聲事件組成,但其中只有少數(shù)聲事件提供了有關(guān)該場(chǎng)景的信息[2]。因此,現(xiàn)在關(guān)于ASC的工作主要集中在提取聲信號(hào)特征的方法上[3-6],人們期望,所提取的特征能夠捕捉到一些給定聲事件具有區(qū)分度的信息。單獨(dú)的時(shí)域或頻域特征識(shí)別效果較差,而時(shí)頻表達(dá)可將聲信號(hào)在二維平面上可視化,反映了其時(shí)頻結(jié)構(gòu)信息,有利于克服通過(guò)特征融合途徑獲得時(shí)頻聯(lián)合信息的弊端,避免了融合過(guò)程中特征間的彼此抑制。因此,可以借鑒圖像處理領(lǐng)域發(fā)展較為成熟的識(shí)別方法,對(duì)聲音時(shí)頻表達(dá)圖像進(jìn)行識(shí)別,從而達(dá)到聲識(shí)別的目的。圖像處理中的梯度直方圖(Histogram of Oriented Gradient,HOG)特征,可以描述時(shí)頻表達(dá)圖像的形狀,捕捉聲音譜能量變化的方向信息;局部二值模式(Local Binary Pattern,LBP)可以描述其局部紋理特征,捕捉譜能量的緩慢變化或周期性變化信息。兩者組合更具有互補(bǔ)作用,有利于進(jìn)一步提高特征的效能。

本文選取不同聲場(chǎng)景的錄音作為研究對(duì)象,用恒Q變換來(lái)表達(dá)信號(hào),并將HOG、LBP以及兩者的聯(lián)合特征應(yīng)用于聲信號(hào)的時(shí)頻表達(dá)圖像,輸入到多類(lèi)別支持向量機(jī)分類(lèi)器進(jìn)行分類(lèi)實(shí)驗(yàn),最后和傳統(tǒng)的時(shí)頻域及梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)特征分類(lèi)結(jié)果進(jìn)行比較,并對(duì)結(jié)果進(jìn)行分析。

1 數(shù)據(jù)來(lái)源

鑒于聲場(chǎng)景數(shù)據(jù)集缺乏共享機(jī)制,公開(kāi)數(shù)據(jù)集十分有限,本文所用數(shù)據(jù)一是來(lái)自于文獻(xiàn)[7]所提供的D-case數(shù)據(jù),該文獻(xiàn)提供了一套由專(zhuān)業(yè)錄音師進(jìn)行錄制的高質(zhì)量標(biāo)準(zhǔn)化、室內(nèi)外場(chǎng)景數(shù)目均衡的開(kāi)源錄音樣本,一共包含10種不同聲場(chǎng)景,錄音采樣率為44.1 kHz,總共有3 000 s,每5 s的錄音作為一個(gè)樣本,一共有600個(gè)樣本。數(shù)據(jù)二是由文獻(xiàn)[8]公開(kāi)提供的EA數(shù)據(jù),它是由Ma等人于2000年在East Anglia大學(xué)收集的,一共包含10種聲場(chǎng)景,采樣頻率為22.1 kHz,總共2 400 s,每5 s錄音作為一個(gè)樣本,一共有480個(gè)樣本。

2 信號(hào)的時(shí)頻表達(dá)

由于聲場(chǎng)景信號(hào)的非平穩(wěn)特性,希望其時(shí)頻表達(dá)體現(xiàn)出短時(shí)局部窗函數(shù)內(nèi)信號(hào)的功率譜,通??紤]基于小波或基于短時(shí)傅里葉變換的方式,本文利用恒Q變換[9-10](Constant-Q Transform,CQT)表達(dá)信號(hào),該方法在1990年被提出,一般用于語(yǔ)音和音樂(lè)信號(hào)的分析和處理。與短時(shí)傅里葉變換不同,該變換用時(shí)變的窗函數(shù)在對(duì)數(shù)刻度上進(jìn)行頻率分析,頻率分辨率與人的聽(tīng)覺(jué)系統(tǒng)幾乎一致,時(shí)頻局部化描述能力更強(qiáng),文獻(xiàn)[6]已經(jīng)證明它對(duì)于聲場(chǎng)景分類(lèi)中基于圖像的特征提取方法更為有效。從濾波器的角度分析,CQT是中心頻率與帶寬的比為定值Q的一組濾波器,可以在低頻獲得較高的頻率分辨率,在高頻獲得較高的時(shí)間分辨率。

一個(gè)八度內(nèi)的頻率分布并非均勻,而是呈指數(shù)分布。

對(duì)信號(hào)進(jìn)行恒Q變換后,為了獲得不依賴(lài)于信號(hào)長(zhǎng)度和采樣頻率的特征,對(duì)CQT矩陣進(jìn)行雙三次插值處理,調(diào)整得到像素為512*512的時(shí)頻表達(dá)圖像,該圖像保留了聲場(chǎng)景的時(shí)頻結(jié)構(gòu)信息。其次,由于對(duì)信號(hào)噪聲缺少先驗(yàn)知識(shí),所以利用均值濾波來(lái)平滑時(shí)頻表達(dá)圖像,其目的是減小圖像中局部的強(qiáng)變化。圖1及圖2所示為地鐵聲場(chǎng)景的時(shí)域波形和處理后的CQT時(shí)頻圖。

圖1 地鐵聲場(chǎng)景中信號(hào)波形圖

圖2 地鐵聲場(chǎng)景中信號(hào)CQT時(shí)頻圖

3 特征提取

3.1 梯度直方圖

特征提取的主要目標(biāo)是,捕捉時(shí)頻結(jié)構(gòu)的形狀信息,并期望捕捉到的時(shí)頻結(jié)構(gòu)信息和其所屬聲場(chǎng)景特性有關(guān)。計(jì)算視覺(jué)領(lǐng)域[5]的研究表明,局部形狀信息可以通過(guò)梯度密度和方向來(lái)表示。梯度直方圖基本上給出了圖像局部區(qū)域關(guān)于梯度方向出現(xiàn)次數(shù)的信息,因此,它們能夠描述該區(qū)域的形狀。

計(jì)算圖像的HOG主要基于以下步驟[11]:

(2) 將圖像分成無(wú)重疊的單元(cell)。

(3) 統(tǒng)計(jì)給定單元中各梯度方向的出現(xiàn)次數(shù)。

(4) 最終根據(jù)相鄰單元直方圖范數(shù),對(duì)每個(gè)單元直方圖進(jìn)行歸一化。

合并的根本思想是將局部區(qū)域的特征進(jìn)行合并,變?yōu)榱硪粋€(gè)更低維的特征,但它仍保持了與鄰近區(qū)域的相關(guān)性。這種合并有助于獲得更穩(wěn)健的信息。主要考慮以下的合并方法[12]:

(1) 隨時(shí)間邊緣化合并:平均時(shí)頻表達(dá)中沿時(shí)間軸的所有直方圖,其結(jié)果是在特征向量中喪失了所有的時(shí)域信息。

(2) 隨頻率邊緣化合并:平均時(shí)頻表達(dá)中沿頻率軸的所有直方圖,其結(jié)果是在特征向量中喪失了所有的頻域信息。

(3) 分塊合并:對(duì)相鄰的單元進(jìn)行分塊,合并其中所有的特征,塊尺寸的大小由用戶(hù)自己定義。

對(duì)于上述圖2所示的時(shí)頻圖,計(jì)算每個(gè)8*8像素單元,具有8個(gè)方向的梯度直方圖,結(jié)果如圖3所示。可以看出,HOG正確捕捉到了信號(hào)功率譜變化的方向。

圖3 地鐵聲場(chǎng)景中信號(hào)梯度直方圖

3.2 局部二值模式

局部二值模式用于描述圖像的局部紋理特征,在時(shí)頻圖像中表現(xiàn)為捕捉譜能量的緩慢變化或周期性變化信息[13]。其核心思想是,設(shè)定一個(gè)像素窗口,用窗口內(nèi)中心像素的灰度值作為閾值,與其鄰域相比較,得到的二進(jìn)制碼稱(chēng)為一種模式并作為該局部的紋理特征。

計(jì)算圖像的LBP特征[14]主要基于以下步驟:

(1) 對(duì)整個(gè)時(shí)頻圖使用LBP算子標(biāo)記所有的像素。

(2) 將時(shí)頻圖劃分成若干相等的單元。

(3) 統(tǒng)計(jì)每個(gè)單元LBP值出現(xiàn)的概率以得到直方圖。

(4) 最后將每個(gè)單元的統(tǒng)計(jì)直方圖連接成為一個(gè)特征向量,也就是整幅圖的LBP紋理特征向量。

LBP等價(jià)模式算子見(jiàn)公式(7)

本文對(duì)上述512*512的時(shí)頻圖,單元?jiǎng)澐譃?4*64大小,采用LBP等價(jià)模式算子,通過(guò)3*3鄰域內(nèi)的8個(gè)采樣點(diǎn)計(jì)算得到8*8*59=3 776維特征向量,其中某一單元的LBP直方圖如圖4所示。

圖4 地鐵聲場(chǎng)景中信號(hào)LBP直方圖

4 實(shí)驗(yàn)結(jié)果比對(duì)及分析

支持向量機(jī)(Support Vector Machine,SVM)已普遍用于各種數(shù)據(jù)的分類(lèi),且表現(xiàn)出良好的分類(lèi)性能[15],用具有高斯核函數(shù)和線性核函數(shù)的SVM算法,每類(lèi)聲場(chǎng)景選取1/2的訓(xùn)練樣本進(jìn)行訓(xùn)練,其余用做測(cè)試,采用十折交叉驗(yàn)證方式進(jìn)行分類(lèi)實(shí)驗(yàn)。

HOG特征的梯度方向考慮有符號(hào)和無(wú)符號(hào)兩種,沿頻率和時(shí)間方向相鄰的64個(gè)單元進(jìn)行合并可得到1 536維特征向量,使用具有線性核函數(shù)的SVM在本文數(shù)據(jù)集上進(jìn)行分類(lèi),結(jié)果如表1所示。不同的合并方式對(duì)分類(lèi)結(jié)果有較大影響,隨頻率邊緣化合并的效果最差,因?yàn)樵摲椒▉G失了關(guān)于頻譜內(nèi)容的所有信息;隨時(shí)間邊緣化合并特征中缺乏時(shí)間信息,但獲得了較好的分類(lèi)精度,這是因?yàn)槁晥?chǎng)景的頻譜內(nèi)容比時(shí)間內(nèi)容更具有區(qū)分性,大多數(shù)的聲場(chǎng)景總體上是時(shí)不變的,盡管某些短時(shí)聲事件,可能攜帶了具有區(qū)分性的信息,但多數(shù)聲場(chǎng)景的周期性模式可進(jìn)行全局性分析[5],促進(jìn)分類(lèi)效果;分塊合并方式可以達(dá)到最高分類(lèi)精度,該方式的顯著趨勢(shì)是:隨著頻率邊緣化合并減小,時(shí)間邊緣化合并增加,分類(lèi)精度先提高,后降低。在分塊大小為32*2時(shí),分類(lèi)精度達(dá)到最高。

表1 不同合并方式的分類(lèi)效果

使用上述分塊方式效果最好的HOG特征、LBP特征及兩者聯(lián)合特征在三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),另外為了評(píng)估本文所用算法的識(shí)別性能,還用到對(duì)信號(hào)進(jìn)行分幀后得到的時(shí)頻域特征[16-17],將其標(biāo)記為T(mén)FF,包括零交點(diǎn)比率(Zero-Crossing Rate,ZCR)、譜質(zhì)心(Spectral Centroid,SC)、譜下降值(Spectral Roll-Off,SRO)、譜通量(Spectral Flux,SF)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC),一共是1+1+1+1+12=16維,其次考慮到應(yīng)用于聲場(chǎng)景識(shí)別效果較為突出的特征之一是MFCC[18],本文將MFCC及其一階二階差分進(jìn)行平均,得到每幀信號(hào)39維特征向量也用作進(jìn)行比較的基準(zhǔn)特征,這些特征能夠很好地描述信號(hào)的動(dòng)態(tài)性能。

用以上特征在三個(gè)數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),所得識(shí)別率如表2所示。觀察可知不同核函數(shù)得到的識(shí)別率不同,總體來(lái)看線性核函數(shù)效果較好,更適用于本文所提取的特征向量。聯(lián)合特征得到的識(shí)別率最高,其次是HOG特征和LBP特征,時(shí)頻域特征效果最差。分析其原因,一方面,傳統(tǒng)的時(shí)頻域特征不能很好地捕捉到聲音信號(hào)時(shí)頻結(jié)構(gòu)中關(guān)于形狀和演變的相關(guān)特征,MFCC的本質(zhì)是捕捉了信號(hào)功率譜中的非線性信息[5],該信息并非聲場(chǎng)景中具有區(qū)分性的信息,而時(shí)頻表達(dá)的HOG和LBP特征卻可以提供具有強(qiáng)區(qū)分性的信號(hào)譜能量變化的局部方向信息及周期性變化信息,且兩者具有互補(bǔ)作用,使得聯(lián)合特征識(shí)別率更高。另一方面,由于大多數(shù)聲場(chǎng)景具有一定的周期性模式,因此可以忽略其中短時(shí)的單個(gè)聲事件所攜帶的信息而進(jìn)行全局性分析,HOG和LBP特征計(jì)算過(guò)程中將圖像分割成單元的步驟,恰恰使得它們對(duì)于小的時(shí)間和頻率平移是不變的,這有助于識(shí)別效果。

表2 不同特征的分類(lèi)效果(%)

另外本文數(shù)據(jù)的實(shí)驗(yàn)結(jié)果優(yōu)于公開(kāi)的D-case數(shù)據(jù),其主要原因:一是錄制同類(lèi)場(chǎng)景音頻所選取的場(chǎng)景個(gè)數(shù)有限(場(chǎng)景的多樣性不如D-case數(shù)據(jù)),例如公園場(chǎng)景一共選取了四個(gè)不同的城市公園進(jìn)行錄制,這可能導(dǎo)致場(chǎng)景類(lèi)內(nèi)差距較??;二是測(cè)試集和訓(xùn)練集所包含的不同音頻片段可能來(lái)自于同一個(gè)錄音文件,它們之間的時(shí)間相關(guān)性使得分類(lèi)率有所提高。

用Matlab 8.0版本進(jìn)行仿真實(shí)驗(yàn),對(duì)每個(gè)樣本得到TFF特征的維數(shù)是16*332,MFCC特征的維數(shù)是39*332(其中332表示幀個(gè)數(shù)),LBP特征的維數(shù)是3 776,以及HOG特征的維數(shù)是1 536,因此相對(duì)而言,后兩種特征所占用的內(nèi)存空間更小。在D-case數(shù)據(jù)集上計(jì)算每種特征所消耗的時(shí)間如表3所示,由表3可知,本文所提出的三種特征由于計(jì)算過(guò)程復(fù)雜,因此時(shí)間復(fù)雜度較高,可見(jiàn)識(shí)別率的提高是以增加計(jì)算時(shí)間為代價(jià)。

表3 幾種特征計(jì)算時(shí)間對(duì)比

在D-case數(shù)據(jù)集上用LBP_HOG特征對(duì)聲場(chǎng)景進(jìn)行分類(lèi),得到的識(shí)別率混淆矩陣如表4所示,其中橫向?yàn)轭A(yù)測(cè)類(lèi)標(biāo)簽,縱向?yàn)閷?shí)際類(lèi)標(biāo)簽,從中可注意到,與其他場(chǎng)景具有顯著差異的公共汽車(chē)和繁華街區(qū)能夠被精確地識(shí)別,較為相似的場(chǎng)景如公園和寧?kù)o街區(qū),地鐵和地鐵站臺(tái)出現(xiàn)一些混淆現(xiàn)象,但總體的識(shí)別率達(dá)到83.67%,比文獻(xiàn)[1]所提出的定量遞歸分析聯(lián)合MFCC特征所獲得的最高識(shí)別率83.2%高出0.47%,平均識(shí)別率達(dá)到84.23%,高出1%左右,說(shuō)明本文所提特征能夠很好地捕捉到不同聲場(chǎng)景中的區(qū)分性信息。

表4 分類(lèi)結(jié)果混淆矩陣

5 總結(jié)

本文首先對(duì)不同聲場(chǎng)景的聲信號(hào)進(jìn)行恒Q變換得到其時(shí)頻表達(dá),在此基礎(chǔ)上用圖像處理中的梯度直方圖特征和局部二值模式提取信號(hào)譜能量變化的局部信息,輸入支持向量機(jī)分類(lèi)器,與傳統(tǒng)的時(shí)頻特征和MFCC特征進(jìn)行比較,結(jié)果證明,所提出的基于聲音信號(hào)時(shí)頻表達(dá)圖像所提取的特征能夠很好地捕捉到聲場(chǎng)景中具有區(qū)分度的信息,且兩者聯(lián)合特征具有互補(bǔ)作用,效果更好。

[1] Barchiesi D, Giannoulis D, Dan S, et al. Acoustic scene classification: classifying environments from the sounds they produce[J]. IEEE Signal Processing Magazine, 2015, 32(3): 16-34.

[2] Stowell D, Giannoulis D, Benetos E, et al. Detection and classification of acoustic scenes and events[J]. IEEE Transactions on Multimedia, 2015, 17(10): 1733-1746.

[3] Ghoraani B, Krishnan S. Time–frequency matrix feature extraction and classification of environmental audio signals[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(7): 2197-2209.

[4] Cotton C V, Ellis D P W. Spectral vs. spectro-temporal features for acoustic event detection[C]//Applications of Signal Processing to Audio and Acoustics, IEEE Workshop on. IEEE, 2011, 69-72.

[5] Roma G, Nogueira W, Herrera P. Recurrence quantification analysis features for environmental sound recognition[J]. Bmc Public Health, 2013, 9(22): 1-4.

[6] Bisot V, Serizel R, Essid S, et al. Acoustic scene classification with matrix factorization for unsupervised feature learning[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, 2016, 6445-6449.

[7] Giannoulis D, Stowell D, Benetos E, et al. A database and challenge for acoustic scene classification and event detection[C]// European Signal Processing Conference, 2013, 1-5.

[8] Ma L, Smith D J, Milner B P. Context awareness using environmental noise classification[C]//European Conference on Speech Communication and Technology, Eurospeech, 2003, 1-4.

[9] Sch?rkhuber C, Klapuri A, Holighaus N, et al. A matlab toolbox for efficient perfect reconstruction time-frequency transforms with log-frequency resolution[C]//Aes Conference on Semantic Audio, 2014, 1-8.

[10] Sch?rkhuber C, Klapuri A, Sontacchi A. Audio pitch shifting using the constant-Q transform[J]. Journal of the Audio Engineering Society, 2013, 61(7/8): 562-572.

[11] Minetto R, Thome N, Cord M, et al. An effective gradient-based descriptor for single line text regions[J]. Pattern Recognition, 2013, 46(3): 1078-1090.

[12] Boureau Y L, Ponce J, Lecun Y. A theoretical analysis of feature pooling in vision algorithms[C]//Proc. International Conference on Machine Learning, 2010, 328-33.

[13] Kobayashi T, Ye J. Acoustic feature extraction by statistics based local binary pattern for environmental sound classification[C]// IEEE International Conference on Acoustics, Speech and Signal Processing, 2014, 3052-3056.

[14] Felzenszwalb P F, Girshick R B, Mcallester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Software Engineering, 2010, 32(9): 1627-45.

[15] Tan L N, Alwan A, Kossan G, et al. Dynamic time warping and sparse representation classification for birdsong phrase classification using limited training data[J]. J. Acoust. Soc. Am., 2015, 137(3): 1069-80.

[16] Karbasi M, Ahadi S M, Bahmanian M. Environmental sound classification using spectral dynamic features[C]//IEEE Communications and Signal Processing, 2011, 1-5.

[17] 陳克安. 環(huán)境聲的聽(tīng)覺(jué)感知與自動(dòng)識(shí)別[M]. 北京: 科學(xué)出版社, 2014. CHEN Kean. Auditory perception and automatic recognition of environmental sound[M]. Beijing:Science Press, 2014.

[18] Chakrabarty D, Elhilali M. Exploring the role of temporal dynamics in acoustic scene classification[J]. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2015, 10(11): 1-5.

Time-frequency representation based feature extraction for audio scene classification

GAO Min1, YIN Xue-fei1, CHEN Ke-an2

(1. School of Electronics and Information, Northwestern Polytechnical University, Xi’an 710129,Shaanxi, China; 2. School of Marine Science and Technology, Northwestern Polytechnical University, Xi’an 710072, Shaanxi,China)

To recognize audio scene in a complex environment according to an audio stream, a constant-Q transform is chosen to obtain the time-frequency representation (TFR) of the signal. Due to the lack of prior knowledge on the signal and noise, a mean filtering is used to smooth the TFR image, then the features based on the histogram of gradients (HOG) of the TFR image are extracted, which can reflect the local direction of variation (both in time and frequency) of the signal power spectrum. Consequently the Local Binary Pattern (LBP) feature is considered, which captures the texture information of the signal. As for the classification algorithm, support vector machine with linear kernel function is used. Classification experiment has been done on the data of different acoustic scenes. Compared with the classical audio features such as MFCCs, the proposed features capture the discriminative power of a given audio scene to show good performance in classification, and the combined features achieve the best results. It is valuable in the field of feature extraction of acoustic signal.

acoustic scene classification; constant-Q transform; histogram of oriented gradient; local binary pattern

TN911.72

A

1000-3630(2017)-05-0399-06

10.16300/j.cnki.1000-3630.2017.05.001

2016-11-04;

2017-03-15

國(guó)家自然科學(xué)基金資助項(xiàng)目(11574249、11074202)

高敏(1991-), 女, 山西運(yùn)城人, 碩士研究生, 研究方向?yàn)樾盘?hào)與信息處理。

高敏, E-mail: 253191300@mail.nwpu.edu.cn

猜你喜歡
時(shí)頻識(shí)別率直方圖
統(tǒng)計(jì)頻率分布直方圖的備考全攻略
符合差分隱私的流數(shù)據(jù)統(tǒng)計(jì)直方圖發(fā)布
基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
用直方圖控制畫(huà)面影調(diào)
提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
高速公路機(jī)電日常維護(hù)中車(chē)牌識(shí)別率分析系統(tǒng)的應(yīng)用
基于直方圖平移和互補(bǔ)嵌入的可逆水印方案
基于時(shí)頻分析的逆合成孔徑雷達(dá)成像技術(shù)
對(duì)采樣數(shù)據(jù)序列進(jìn)行時(shí)頻分解法的改進(jìn)
浦东新区| 赣榆县| 宜兰县| 武功县| 来凤县| 常山县| 佛冈县| 柏乡县| 松阳县| 昌都县| 墨竹工卡县| 清丰县| 施甸县| 巴中市| 天镇县| 巴彦淖尔市| 南阳市| 虹口区| 饶河县| 平潭县| 卢湾区| 酒泉市| 玉溪市| 方正县| 铜山县| 怀柔区| 垫江县| 无锡市| 丰宁| 荥阳市| 策勒县| 太康县| 和静县| 顺义区| 沭阳县| 广安市| 商洛市| 石柱| 连州市| 襄汾县| 米泉市|