国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種自適應(yīng)諧波疊加的復(fù)調(diào)音樂(lè)主旋律提取新方法

2020-06-03 10:55何甜田何培宇陳杰梅
關(guān)鍵詞:基頻人聲諧波

何甜田, 何培宇, 陳杰梅

(四川大學(xué)電子信息學(xué)院, 成都 610065)

1 引 言

隨著近年來(lái)數(shù)字音樂(lè)產(chǎn)業(yè)的不斷發(fā)展,人們對(duì)獲取音樂(lè)信息的需求也與日俱增.旋律是音樂(lè)的靈魂和基礎(chǔ),可以表達(dá)出音樂(lè)的情感意義.旋律通常是指一個(gè)單音的基頻序列[1],但是大多數(shù)音樂(lè)中,同一時(shí)刻的聲音通常來(lái)自多個(gè)不同聲源,此類(lèi)音樂(lè)稱(chēng)之為復(fù)調(diào)音樂(lè).主旋律提取的目的就是在復(fù)調(diào)音樂(lè)中自動(dòng)地判別出主導(dǎo)聲源的人聲或者器樂(lè)的旋律.它可以廣泛地應(yīng)用于哼唱識(shí)別、語(yǔ)音合成[2]、內(nèi)容推薦[3]、制作醫(yī)療音樂(lè)[4]等.

主旋律提取問(wèn)題的提出起源于上世紀(jì)九十年代,在2004年Goto[5]首次提出了對(duì)復(fù)調(diào)音樂(lè)的主旋律提取方法.他提出計(jì)算信號(hào)的短時(shí)幅度譜,并用加權(quán)混合模型對(duì)其進(jìn)行建模,然后計(jì)算每幀中具有最大期望概率的基頻,構(gòu)成主旋律.Salamon[6]提出了能量映射疊加與構(gòu)建音高輪廓線的方法,將線性頻域轉(zhuǎn)換到了音樂(lè)適用的對(duì)數(shù)域,使得音高提取更加精準(zhǔn).Ono等人[7]提出了一種諧波與擊打聲源分離算法(Harmonic Percussive Source Separation, HPSS),該算法可以分離在時(shí)間上平滑連續(xù)的和弦分量和在頻率上平滑連續(xù)的沖擊分量.上述算法雖然各有優(yōu)點(diǎn),但大多依賴(lài)能量譜的準(zhǔn)確性,且無(wú)法準(zhǔn)確區(qū)分人聲與伴奏.

因此,本文采用了諧波與擊打聲源分離作為預(yù)處理,將分離后的聲源作為輸入.自適應(yīng)改變壓縮因子的值,對(duì)諧波進(jìn)行疊加,在達(dá)到最小穩(wěn)定方差時(shí)構(gòu)建顯著度函數(shù)進(jìn)行多基頻估計(jì),構(gòu)建基頻片段.然后通過(guò)對(duì)訓(xùn)練集提取聲學(xué)特征,生成隨機(jī)森林模型[8].檢測(cè)人聲存在段映射到基頻片段上,選取顯著度最大頻率作為主旋律.實(shí)驗(yàn)結(jié)果表明,在高信噪比情況下整體準(zhǔn)確率有顯著提升.

2 相關(guān)樂(lè)理基礎(chǔ)介紹

2.1 基頻與諧波

一般的聲音都是由發(fā)音體發(fā)出的一系列頻率、振幅各不相同的振動(dòng)復(fù)合而成的.這些振動(dòng)中有一個(gè)頻率最低的振動(dòng),由它發(fā)出的音就是基音,基音的頻率稱(chēng)為基頻.諧波存在于基頻的整數(shù)倍處,也會(huì)有較大的能量.正是不同的諧波分布導(dǎo)致了相同基頻的不同發(fā)聲體的具體音色不同.

2.2 十二平均律

十二平均律是世界上通用的一種音樂(lè)定律方法,它將一個(gè)八度的音按照頻率等比例地分成十二等份,每一等份稱(chēng)為一個(gè)半音.前后兩個(gè)半音間的頻率倍數(shù)關(guān)系滿(mǎn)足:

(1)

為了方便計(jì)算,本文將所有頻率值轉(zhuǎn)換為十二平均律中的音階.目前國(guó)際標(biāo)準(zhǔn)音是A4,轉(zhuǎn)換為物理頻率是440 Hz,對(duì)應(yīng)的midi音符是69.一個(gè)半音又定義為100音分,文中均以音分為最小單位.具體轉(zhuǎn)換方式如下.

(2)

2.3 音樂(lè)數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)

2.3.1 音樂(lè)數(shù)據(jù)集 本文實(shí)驗(yàn)中使用的音樂(lè)數(shù)據(jù)集是來(lái)自國(guó)際音樂(lè)信息檢索評(píng)測(cè)比賽中主旋律提取專(zhuān)用的MIR-1K數(shù)據(jù)集.該數(shù)據(jù)集專(zhuān)為歌聲分離研究而設(shè)計(jì),包含有1 000首歌曲片段,還包含手動(dòng)記錄的半音音高、有聲幀、無(wú)聲幀、歌詞等.歌曲由非專(zhuān)業(yè)的8位女性和11位男性演唱.因此本文所針對(duì)的均為主導(dǎo)旋律為人聲的提取.

2.3.2 評(píng)價(jià)標(biāo)準(zhǔn) 評(píng)價(jià)標(biāo)準(zhǔn)旨在全面體現(xiàn)主旋律提取算法的性能,主要分為以下5個(gè)指標(biāo).

(1) 人聲召回率(Voicing Recall Rate, VRR):提取序列中人聲幀占標(biāo)簽序列中人聲幀的比例.

(2) 人聲虛警率(Voicing False Alarm Rate, VFAR): 提取序列中將非人聲幀誤判為人聲幀的比例.

(3) 音高準(zhǔn)確率(Raw Pitch Accuracy, RPA): 標(biāo)簽序列中人聲幀的音高與相應(yīng)幀的提取序列逐幀比較,音高差值小于50音分則為正確.

(4) 音色準(zhǔn)確率(Raw Chroma Accuracy, RCA): 計(jì)算方法與RPA大致相同,對(duì)比時(shí)忽略八度錯(cuò)誤.

(5) 總體正確率(Overall Accuracy, OA): 提取序列與標(biāo)簽序列所有幀逐幀比較,音高差值小于50音分則為正確.

3 主旋律提取

本節(jié)主要詳細(xì)介紹了主旋律提取每一步驟的具體過(guò)程,其主要流程如圖1所示.

圖1 主旋律提取流程圖Fig.1 Melody extraction flow chart

3.1 預(yù)處理

由于數(shù)據(jù)集的流行歌曲均為高度混疊的復(fù)調(diào)音樂(lè),我們很難從中判別出單一的主旋律.為了降低伴奏帶來(lái)的影響,文中采用了文獻(xiàn)[7]提到的HPSS算法進(jìn)行預(yù)處理.對(duì)于以人聲為主旋律的音樂(lè),能有效地篩除掉音樂(lè)中平緩的和弦伴奏與節(jié)奏感強(qiáng)的擊打伴奏,從而增強(qiáng)人聲主旋律信號(hào).

3.2 多基頻估計(jì)

3.2.1 傳統(tǒng)諧波和方法 諧波理論認(rèn)為人對(duì)聲信號(hào)的感知是由基頻及其一系列諧波共同組成.在頻譜上也可以觀察到在信號(hào)基頻的整數(shù)倍處有明顯的能量增強(qiáng),總體呈現(xiàn)梳狀結(jié)構(gòu).根據(jù)這些特點(diǎn),Hermes等人[9]提出了諧波和方法.

(1) 將信號(hào)降采樣后進(jìn)行短時(shí)傅里葉變換(STFT),得到其頻譜S(f,t);

(2) 計(jì)算諧波和:

(3)

其中,h為壓縮因子,取0.84,作用是使高階諧波對(duì)基頻產(chǎn)生的影響更小;N為最大諧波次數(shù),表示在最大諧波頻率范圍內(nèi)出現(xiàn)基頻倍數(shù)諧波的次數(shù);H(f0,t)為頻率在t時(shí)刻f0點(diǎn)處的分諧波疊加譜,也稱(chēng)為顯著度函數(shù).在理想范圍內(nèi)取分諧波譜能量最大的頻率點(diǎn)作為t時(shí)刻的基頻.

3.2.2 自適應(yīng)諧波疊加方法 經(jīng)過(guò)實(shí)驗(yàn)表明,直接由諧波和方法得到的基頻序列容易出現(xiàn)半頻或倍頻錯(cuò)誤.造成該錯(cuò)誤主要有兩點(diǎn)原因:(1) 是疊加的壓縮因子h或諧波疊加次數(shù)N取值不當(dāng).當(dāng)壓縮因子h取值過(guò)大或者諧波疊加次數(shù)N過(guò)多,低頻處能量就會(huì)過(guò)大,容易出現(xiàn)半頻錯(cuò)誤;反之則出現(xiàn)倍頻錯(cuò)誤;(2) 是某一頻段處存在較強(qiáng)的伴奏或者噪聲.盡管預(yù)處理可以去除部分伴奏和噪聲,但殘余部分仍會(huì)造成基頻判別不準(zhǔn)確,直接選取能量最大頻率點(diǎn)判定基頻存在一定誤差.

因此,本文提出了一種自適應(yīng)諧波疊加的方法,根據(jù)基頻序列的方差特征及其變化趨勢(shì)自適應(yīng)改變壓縮因子h.給定h一個(gè)初始值為零,根據(jù)式(3)計(jì)算整體頻譜顯著度,選取顯著度最大頻率點(diǎn)作為當(dāng)前幀基頻值,計(jì)算所有幀基頻序列的方差.改變h的值,若當(dāng)方差第一次趨于穩(wěn)定且前后差值小于設(shè)定閾值后,則選定此時(shí)的h為該歌曲諧波疊加的壓縮因子.計(jì)算過(guò)程如下.

fk=f0|Hk=max(Hk)

(4)

(5)

(6)

(7)

其中,k為h的迭代次數(shù),M為該歌曲所有幀數(shù);μk為第k次迭代中所有幀的基頻序列均值;σk2為第k次迭代中所有幀的基頻序列方差.步長(zhǎng)α設(shè)置為0.1,閾值q設(shè)置為0.03.

實(shí)驗(yàn)表明,大于5倍的諧波乘壓縮因子后不會(huì)對(duì)顯著函數(shù)造成太大影響,且5倍以?xún)?nèi)的諧波和基本包含了所有需要的諧波信息.因此,將諧波疊加次數(shù)N的值固定為5,節(jié)約計(jì)算成本.同時(shí)基頻的選擇不再局限于最大能量頻率點(diǎn).通過(guò)分諧波疊加得到整個(gè)頻譜的顯著度函數(shù),在理想基頻范圍100~500 Hz內(nèi)選出多個(gè)候選頻率,作為后續(xù)處理的輸入.

以歌曲Ani_3_03.wav為例,圖2展示了其自適應(yīng)諧波疊加的顯著函數(shù),顏色越亮處說(shuō)明該頻率顯著度越高.

圖2 Ani_3_03.wav的顯著函數(shù)Fig.2 The saliency function of Ani_3_03.wav

3.3 多音高跟蹤

3.3.1 選擇候選基頻 在選取候選基頻之前,首先對(duì)顯著度函數(shù)進(jìn)行處理,只保留峰值點(diǎn)及其鄰近兩點(diǎn)頻率分量,目的是減少非峰值點(diǎn)的干擾,濾除環(huán)境噪聲.本文將所有峰值點(diǎn)歸為候選基頻和補(bǔ)充基頻兩類(lèi).計(jì)算所有峰值點(diǎn)顯著度的均值μ和標(biāo)準(zhǔn)差σ,公式如下.

(8)

(9)

其中,P為該幀峰值點(diǎn)的個(gè)數(shù).將顯著度高于μ-τσ的峰值點(diǎn)歸為候選基頻,其余峰值點(diǎn)歸為補(bǔ)充基頻.實(shí)驗(yàn)表示,τ取0.9時(shí)效果最好.

3.3.2 構(gòu)建基頻片段 Justin Salamon在文獻(xiàn)[5]中提到了構(gòu)建基頻片段的方法.

(1) 前后向搜索候選基頻,使得一個(gè)基頻點(diǎn)僅屬于一個(gè)基頻片段,且在時(shí)間上連續(xù)傳遞,在頻率上平滑變化.

(2) 對(duì)所有基頻片段的特征進(jìn)行分類(lèi)提取,濾除能量、標(biāo)準(zhǔn)差較小的基頻片段.

本文在此基礎(chǔ)上還計(jì)算了能熵比特征[10],并濾除能熵比較小的基頻片段.譜熵反應(yīng)了聲源在頻域幅值分布的“無(wú)序性”,對(duì)于噪聲和和弦伴奏譜熵較大,能量較小.計(jì)算公式如下.

(10)

(11)

(12)

(13)

其中,E(n)為基頻片段的能量;prob(n)為每個(gè)頻率分量的歸一化譜概率密度函數(shù);H(n)為基頻片段的譜熵.以歌曲Ani_3_03.wav為例,圖3展示了通過(guò)上述方法構(gòu)建的基頻片段.

圖3 Ani_3_03.wav的基頻片段Fig.3 The fundamental frequency segment of Ani_3_03.wav

3.3.3 八度錯(cuò)誤檢測(cè) 八度錯(cuò)誤是指將音高錯(cuò)判為高八度或者低八度的音階.對(duì)于基頻片段,檢測(cè)及糾正八度錯(cuò)誤的步驟如下.

(1) 尋找時(shí)間上重合且音高差值在一個(gè)八度(1200音分)左右的兩條基頻片段;

(2) 按照所有基頻片段的能量加權(quán)計(jì)算每個(gè)時(shí)間幀的平均音高P0;

(3) 逐幀計(jì)算兩條八度錯(cuò)誤對(duì)音高與P0的差值,刪除差值較大的基頻片段.

得到正確基頻片段后,按照顯著度從大到小排序,每幀取一個(gè)基頻值,組合得到完整的基頻序列.以歌曲Ani_3_03.wav為例,圖4展示了通過(guò)濾除八度錯(cuò)誤片段后得到的主旋律序列.

圖4 Ani_3_03.wav濾除八度錯(cuò)誤后的主旋律序列

Fig.4 The melody sequence of Ani_3_03.wav after eliminating eight-degree errors

3.4 實(shí)驗(yàn)結(jié)果及分析

本章實(shí)驗(yàn)采用MIR1K數(shù)據(jù)集,隨機(jī)標(biāo)記500首歌曲標(biāo)記為測(cè)試集,另500首歌曲將在后續(xù)實(shí)驗(yàn)標(biāo)記為訓(xùn)練集使用.測(cè)試歌曲由主旋律與伴奏以0 dB的信噪比進(jìn)行混合,分別計(jì)算使用傳統(tǒng)諧波和方法與使用自適應(yīng)諧波疊加方法在測(cè)試集上提取主旋律,結(jié)果指標(biāo)參數(shù)如表1所示.

表1 傳統(tǒng)諧波和方法與自適應(yīng)諧波疊加方法對(duì)比

Tab.1 Comparison of traditional harmonic sum method and adaptive harmonic superposition method

方法VRR/%VFAR/%RPA/%RCA/%OA/%傳統(tǒng)諧波和81.6340.7964.0364.3661.52自適應(yīng)諧波疊加78.0134.3664.2864.8763.63

觀察結(jié)果可以發(fā)現(xiàn),自適應(yīng)諧波疊加方法構(gòu)造的顯著函數(shù)為后續(xù)主旋律提取結(jié)果的準(zhǔn)確性帶來(lái)了有效的提升.但是總體人聲召回率較低、虛警率較高導(dǎo)致了整體準(zhǔn)確率不佳.因?yàn)閿?shù)據(jù)集中歌曲演唱者是非專(zhuān)業(yè)的,并且演唱環(huán)境較為嘈雜,人聲的能量不夠突出,就顯著度而言并不占優(yōu)勢(shì),所以在能量篩選的過(guò)程中容易出現(xiàn)誤判.因此在后續(xù)章節(jié)中討論了人聲檢測(cè)的重要性.

4 人聲檢測(cè)

4.1 聲學(xué)特征提取

4.1.1 Mel頻率倒譜系數(shù)及其MSDC系數(shù) 人對(duì)聲音的聽(tīng)覺(jué)感知是非線性的,人耳就是一個(gè)特殊的濾波器組,在低頻段分布較密,在高頻段分布稀疏.學(xué)者根據(jù)人耳的特性設(shè)計(jì)了Mel濾波器組來(lái)模擬耳蝸模型,并提出了Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)[11].

實(shí)驗(yàn)中采用的是24階的Mel濾波器組,取2~14位系數(shù)構(gòu)成MFCC特征.同時(shí)取當(dāng)前幀MFCC系數(shù)與上一幀MFCC系數(shù)的差值,加上原始的13位MFCC系數(shù)組成MSDC特征,該特征不僅僅局限于當(dāng)前幀,具有一定的動(dòng)態(tài)性.

4.1.2 對(duì)數(shù)頻域能量系數(shù) 對(duì)數(shù)頻域能量系數(shù)(Log Frequency Power Coefficient, LFPC)[12]取50~8000 Hz范圍劃分成12個(gè)對(duì)數(shù)域上等距的子帶,代表了子帶上能量的分布情況.計(jì)算公式如下.

(14)

其中,Xt2(k)是第t幀第k個(gè)頻率分量的能量;Bm是第m個(gè)子帶的頻率范圍;Nm是該子帶內(nèi)所有頻率分量的個(gè)數(shù).

4.1.3 線性預(yù)測(cè)系數(shù) 在人聲中占據(jù)大部分能量的都是濁音,而濁音的產(chǎn)生可以等效為單位脈沖序列激勵(lì)聲道管,該過(guò)程為線性時(shí)不變系統(tǒng).一個(gè)濁音的采樣值可以通過(guò)過(guò)去若干濁音采樣值的線性組合來(lái)逼近,在取得最小均方誤差時(shí),能夠決定唯一的一組線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient,LPC)[13].該特征反應(yīng)了人聲前后時(shí)間點(diǎn)的關(guān)聯(lián)性.

4.1.4 頻譜對(duì)比度特征 頻譜對(duì)比度特征(Spectrum Contrast Features, SCF)[14]將頻譜劃分為6個(gè)對(duì)數(shù)域上等距的子帶,計(jì)錄每個(gè)子帶內(nèi)能量峰谷值及其差值.譜峰主要對(duì)應(yīng)諧波分量,譜谷主要對(duì)應(yīng)非諧波分量和噪聲,該特征反應(yīng)了諧波與非諧波分量的分布情況.

(15)

(16)

其中,xk為頻譜按照能量降序排列;x′k為頻譜按照能量升序排列;α為寬度因子,取值為0.02,表示峰谷值是取附近幾點(diǎn)的平均值而定,目的是防止毛刺干擾等.

4.1.5 頻譜形狀特征 頻譜形狀特征(Spectrum Shape Features, SSF)是通過(guò)每幀頻譜的形狀反應(yīng)頻率分量及能量分布的總體概況.Geoffroy Peeters在文獻(xiàn)[15]中提到可以將頻譜形狀特征作為判別是否存在人聲的依據(jù),并且提出了8種特征共同作為一組頻譜形狀特征向量,包括:譜質(zhì)心、散度、偏度、峭度、衰減度、滾降頻率、譜平坦度、譜突出度.

4.2 隨機(jī)森林

上世紀(jì)八十年代Breiman等人發(fā)明分類(lèi)樹(shù)的算法,實(shí)現(xiàn)數(shù)據(jù)進(jìn)行分類(lèi)或回歸.2001年Bierman又把分類(lèi)樹(shù)組合成隨機(jī)森林,即有放回地隨機(jī)采集多個(gè)訓(xùn)練樣本,生成多個(gè)分類(lèi)樹(shù),每個(gè)分類(lèi)結(jié)果都由多個(gè)分類(lèi)樹(shù)共同投票決定.比起其他常見(jiàn)的分類(lèi)方法,如GMM分類(lèi)器、SVM[16]分類(lèi)器等,隨機(jī)森林采集部分樣本和抽取部分特征尋找最優(yōu)解,不容易陷入過(guò)擬合,對(duì)數(shù)據(jù)適應(yīng)能力強(qiáng),且實(shí)現(xiàn)簡(jiǎn)單.本文通過(guò)利用隨機(jī)森林模型對(duì)上述特征進(jìn)行學(xué)習(xí),然后對(duì)信號(hào)進(jìn)行分類(lèi).

根據(jù)3.4節(jié)實(shí)驗(yàn)分類(lèi)完成的MIR1K數(shù)據(jù)集,將已標(biāo)記的500首訓(xùn)練集中的歌曲及對(duì)應(yīng)的人聲標(biāo)簽送入模型進(jìn)行訓(xùn)練.每棵決策樹(shù)通過(guò)有放回地選取不同部分特征進(jìn)行判決,對(duì)照人工標(biāo)注結(jié)果訓(xùn)練模型.訓(xùn)練完成后將另500首歌曲送入模型,綜合多棵決策樹(shù)判決結(jié)果給出該幀是否屬于人聲幀的比例,并與人工標(biāo)注結(jié)果進(jìn)行對(duì)比.

4.3 實(shí)驗(yàn)結(jié)果及分析

4.3.1 人聲特征分類(lèi)結(jié)果 本實(shí)驗(yàn)的目的是驗(yàn)證隨機(jī)森林模型對(duì)不同人聲特征組合分類(lèi)結(jié)果的正確性.實(shí)驗(yàn)中樹(shù)的數(shù)量N取100.表2展示了不同特征組合情況下的人聲檢測(cè)分類(lèi)結(jié)果.最優(yōu)的特征組合為MSDC+LFPC,正確率達(dá)到了83.28%.

表2 不同特征組合下人聲檢測(cè)的結(jié)果

Tab.2 The results of voice detection with different feature combinations

特征組合VRR/%VFAR/%OA/%MFCC91.3950.2779.92MSDC92.0151.5479.97LFPC90.7840.6082.03LPC92.5276.8272.13SSF92.1165.1675.22SCF88.8844.4379.64MFCC+LPC92.8151.0480.61MFCC+LFPC91.7439.3983.12MSDC+LFPC91.2137.3583.28MFCC+SCF91.4444.8481.44MFCC+SCF+LFPC91.6638.7083.22

4.3.2 映射主旋律提取結(jié)果 將第三節(jié)用自適應(yīng)諧波疊加提取到的主旋律序列,通過(guò)MSDC+LFPC特征組合得到的隨機(jī)森林模型,對(duì)每一幀信號(hào)進(jìn)行人聲檢測(cè)分類(lèi).根據(jù)分類(lèi)結(jié)果將人聲幀提取的主旋律保留,非人聲幀的主旋律置零.若人聲幀提取的主旋律為零,則提取顯著函數(shù)中該幀能量最大的頻率分量補(bǔ)充到主旋律中.

表3是映射主旋律序列的結(jié)果.相比第三章實(shí)驗(yàn)結(jié)果,總體準(zhǔn)確率由63.63%提升到了73.25%,召回率明顯提升,但虛警率還是較高.原因是在訓(xùn)練集中人聲幀數(shù)量遠(yuǎn)大于非人聲幀,生成的隨機(jī)森林模型分類(lèi)結(jié)果更傾向于人聲幀.為了降低虛警率,我們?cè)谥暗挠成浣Y(jié)果基礎(chǔ)上再進(jìn)行過(guò)濾和平滑處理,主要包括過(guò)濾能量較小點(diǎn)、刪除頻率突變點(diǎn)和補(bǔ)充頻率缺失點(diǎn).

表3 人聲檢測(cè)直接映射主旋律序列結(jié)果

Tab.3 Melody sequences results of voice detection by direct mapping

VRR/%VFAR/%RPA/%RCA/%OA/%91.2037.2677.0777.2373.25

圖5是歌曲Ani_3_03.wav最終提取序列與標(biāo)簽序列對(duì)比結(jié)果.為了方便比較,圖中將標(biāo)簽序列人為降低了500音分呈現(xiàn).從圖中不難看出,提取的主旋律序列與標(biāo)簽序列基本一致,表明了提出方法的有效性.表4展示了數(shù)據(jù)集所有音樂(lè)主旋律最終提取結(jié)果,并與2018年MIREX主旋律提取的算法KN3[17]、LS1[18]進(jìn)行對(duì)比.實(shí)驗(yàn)分別采用主旋律與伴奏聲以0、 -5、 5 dB三種不同信噪比情況進(jìn)行混合提取.

在0 dB情況下經(jīng)過(guò)平滑過(guò)濾后的總體正確率從73.25%提升到了76.20%.通過(guò)結(jié)合機(jī)器學(xué)習(xí)的方法,將聲學(xué)特征運(yùn)用到了人聲檢測(cè),能有效地減小虛警率.在高信噪比的條件下,人聲與伴奏的特征差異更加明顯,有助于分類(lèi)結(jié)果的準(zhǔn)確性.此時(shí)的虛警率達(dá)到最低7.09%,總體準(zhǔn)確率達(dá)到最高85.04%.

圖5 Ani_3_03.wav的提取旋律與標(biāo)簽序列對(duì)比Fig.5 Comparison of melodyextracted from Ani_3_03.wav and label sequences

表4 本文方法與其它方法結(jié)果對(duì)比

5 結(jié) 論

主旋律提取是音樂(lè)信號(hào)處理的一大重要分支.本文提出了一種自適應(yīng)諧波疊加方法構(gòu)建顯著函數(shù),并從中得到候選基頻組成了基頻片段.對(duì)多種聲學(xué)特征組合進(jìn)行分析,結(jié)合了隨機(jī)森林模型進(jìn)行人聲檢測(cè).實(shí)驗(yàn)表明在高信噪比情況下主導(dǎo)旋律為人聲的音樂(lè)集上取得更好效果.因此,本文的主旋律提取方法對(duì)后續(xù)旋律發(fā)展、音樂(lè)分類(lèi)、音樂(lè)合成等具有一定的借鑒意義.

猜你喜歡
基頻人聲諧波
關(guān)于電力電網(wǎng)中產(chǎn)生諧波的分析探討
語(yǔ)音同一認(rèn)定中音段長(zhǎng)度對(duì)基頻分析的影響
基于時(shí)域的基頻感知語(yǔ)音分離方法?
基于波動(dòng)量相關(guān)性分析的多諧波源責(zé)任劃分方法
阿卡貝拉人聲合唱團(tuán)的基本訓(xùn)練研究
多艙段航天器振動(dòng)基頻分配速算方法
電力系統(tǒng)諧波檢測(cè)研究現(xiàn)狀及發(fā)展趨勢(shì)
電力系統(tǒng)諧波狀態(tài)估計(jì)研究綜述
愛(ài)樂(lè)之城
蒙古長(zhǎng)調(diào)《富饒遼闊的阿拉善》聲學(xué)特征分析