国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向巴松演奏音樂(lè)的精準(zhǔn)音頻樂(lè)譜比對(duì)方法研究

2022-07-23 10:34連志成程皓楠張加萬(wàn)
關(guān)鍵詞:置信度樂(lè)譜音符

連志成,程皓楠,張加萬(wàn)*

(1.天津大學(xué)智能與計(jì)算學(xué)部,天津 300350;2.中國(guó)傳媒大學(xué)媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100024)

1 引言

音頻樂(lè)譜比對(duì)是一種將音頻信號(hào)與對(duì)應(yīng)的樂(lè)譜符號(hào)進(jìn)行對(duì)齊的方法,是音樂(lè)信息檢索(Music Information Retrieval,MIR)領(lǐng)域的重要研究課題之一。隨著數(shù)字音樂(lè)的發(fā)展,數(shù)字樂(lè)譜和器樂(lè)演奏音頻的數(shù)量不斷積累,建立數(shù)字樂(lè)譜和真實(shí)世界音樂(lè)演奏音頻之間的對(duì)應(yīng)和同步關(guān)系逐漸成為數(shù)字音樂(lè)發(fā)展的關(guān)鍵環(huán)節(jié)之一。

近年來(lái),國(guó)內(nèi)外研究人員在音樂(lè)演奏、音樂(lè)分析、音樂(lè)教育等領(lǐng)域展開(kāi)了一系列音頻樂(lè)譜比對(duì)方法技術(shù)的探索。針對(duì)不同樂(lè)器類型[1]、音樂(lè)形式[2]、性能要求[3]以及結(jié)構(gòu)變化[4],提出了多種音頻樂(lè)譜比對(duì)方法。根據(jù)面向的器樂(lè)類型,現(xiàn)有方法可以分為面向通用樂(lè)器(或樂(lè)器組)演奏的音頻樂(lè)譜比對(duì)方法和面向特定樂(lè)器(或樂(lè)器組)演奏的音頻樂(lè)譜比對(duì)方法[5]。面向通用樂(lè)器的音頻樂(lè)譜比對(duì)方法基于不同器樂(lè)演奏場(chǎng)景的音樂(lè)共性特征求解音頻到樂(lè)譜符號(hào)對(duì)齊的過(guò)程[6,7]。這類方法可以有效應(yīng)對(duì)音樂(lè)演奏中固有的真實(shí)演奏音樂(lè)偏離樂(lè)譜的問(wèn)題,但由于不同樂(lè)器的自身特點(diǎn)和演奏方式存在較大差異,面向通用樂(lè)器演奏的音頻樂(lè)譜比對(duì)方法在處理特定樂(lè)器時(shí)往往存在低精度問(wèn)題。

在面向特定樂(lè)器的音頻樂(lè)譜比對(duì)方法中,早期研究人員對(duì)具有硬起音、易發(fā)音特點(diǎn)的樂(lè)器展開(kāi)探索,在鋼琴[8-12]、小提琴[1]等樂(lè)器的音頻樂(lè)譜比對(duì)中已經(jīng)取得較好的對(duì)齊結(jié)果。但是,針對(duì)巴松這類發(fā)音較難的軟起音管樂(lè)器[13,14](如圖1所示),如何構(gòu)建精準(zhǔn)音頻樂(lè)譜比對(duì)方法,仍是這一領(lǐng)域亟待解決的難題?,F(xiàn)有方法難以實(shí)現(xiàn)面向巴松的音頻樂(lè)譜對(duì)齊高比對(duì)精準(zhǔn)度,主要面臨以下三方面困難與挑戰(zhàn):

圖1 巴松結(jié)構(gòu)示意圖

(1)軟起音、發(fā)音難等器樂(lè)特性。巴松發(fā)音主要為軟起音,這導(dǎo)致音符的起始位置往往難以精準(zhǔn)確定[15-18],為音符級(jí)高精度音頻樂(lè)譜對(duì)齊造成障礙。

(2)連音、吐音、顫音等豐富的演奏方式。多樣化的演奏方式是導(dǎo)致巴松音頻樂(lè)譜對(duì)齊困難的主要原因[19],例如吐音導(dǎo)致的非預(yù)期靜默片段和顫音導(dǎo)致的音符內(nèi)頻率周期性變化導(dǎo)致演奏音頻偏離樂(lè)譜,從而提升了比對(duì)難度。

(3)缺乏曲式完備的巴松音頻數(shù)據(jù)集。巴松演奏音樂(lè)的曲式多樣,不同曲式的音樂(lè)存在速度、演奏方式上的較大差異。然而現(xiàn)有的巴松音頻樂(lè)譜數(shù)據(jù)集相對(duì)匱乏,缺乏細(xì)致的曲式分類,導(dǎo)致相同方法在不同曲式中的比對(duì)結(jié)果精度存在較大差距。

針對(duì)上述問(wèn)題,本文提出了一種由粗到精、逐層細(xì)化的分段式音頻樂(lè)譜比對(duì)方法(如圖2所示)。討論順序大致如下:第2章構(gòu)造了首個(gè)由巴松獨(dú)奏音頻和對(duì)應(yīng)樂(lè)譜組成的包含多曲式分類的BSAMS(Bassoon Solo Audio Midi Score)數(shù)據(jù)集;第3章提出了一種基于DTW(Dynamic Time Warping)的基準(zhǔn)點(diǎn)與候選點(diǎn)生成算法,實(shí)現(xiàn)音符位置的粗略估計(jì),設(shè)計(jì)了一種基于SVM(Support Vector Machine)的點(diǎn)對(duì)篩選算法,提高了音頻樂(lè)譜在音符層次匹配的準(zhǔn)確度;第4章通過(guò)BSAMS數(shù)據(jù)集對(duì)不同類型音樂(lè)進(jìn)行實(shí)驗(yàn)驗(yàn)證。

圖2 算法整體流程

2 BSAMS數(shù)據(jù)集構(gòu)建

針對(duì)巴松演奏數(shù)據(jù)集相對(duì)匱乏且類別不夠全面的問(wèn)題,本節(jié)設(shè)計(jì)并構(gòu)建了巴松獨(dú)奏音頻和對(duì)應(yīng)MIDI樂(lè)譜的BSAMS數(shù)據(jù)集。構(gòu)建的巴松演奏數(shù)據(jù)集應(yīng)滿足兩方面需求:(1)體現(xiàn)巴松演奏特點(diǎn)。由于巴松的曲目形式豐富,演奏方式多樣,因此需要構(gòu)建一個(gè)可以體現(xiàn)巴松演奏特點(diǎn)的數(shù)據(jù)集,同時(shí)區(qū)分曲目的形式和速度。(2)音頻與樂(lè)譜音符精準(zhǔn)對(duì)應(yīng)標(biāo)注。數(shù)據(jù)集用于音頻樂(lè)譜比對(duì)方法的研究,要求該數(shù)據(jù)集的巴松獨(dú)奏錄音音頻有精準(zhǔn)的音符起始點(diǎn)標(biāo)注以及和樂(lè)譜中的音符的對(duì)應(yīng)關(guān)系。

為了滿足第一個(gè)要求,首先通過(guò)對(duì)現(xiàn)有巴松演奏曲目的分析和整理,找到巴松演奏的五個(gè)重要的音樂(lè)片段曲式類別:練習(xí)片段、樂(lè)曲旋律片段、樂(lè)隊(duì)片段和協(xié)奏曲片段。因?yàn)榘退稍诮豁憳?lè)中使用場(chǎng)景居多,樂(lè)隊(duì)片段占據(jù)相對(duì)最主要的部分,可以將樂(lè)隊(duì)片段進(jìn)行細(xì)分為:中國(guó)交響曲目的樂(lè)隊(duì)片段和外國(guó)交響曲目的樂(lè)隊(duì)片段。本文按照這六個(gè)類別劃分,分別找到每個(gè)類別中具有代表性的巴松曲目演奏片段,并按照音樂(lè)片段的速度快慢和大致的演奏難度為每個(gè)片段進(jìn)行了相應(yīng)的標(biāo)簽標(biāo)注,按照速度分為快速、中速和慢速,其次針對(duì)巴松的演奏方式,考慮到研究的重點(diǎn)為巴松的音符級(jí)研究,將標(biāo)簽分類為:連音、吐音、連音和吐音三種演奏方式,并將每個(gè)帶有上述演奏方式的曲目分別進(jìn)行相應(yīng)的標(biāo)簽標(biāo)注。

針對(duì)第二個(gè)需求,在樂(lè)譜方面采用MIDI編曲軟件編寫(xiě)得到巴松MIDI樂(lè)譜。巴松演奏錄音音頻方面,錄制音頻的采樣率為22050 Hz,錄制音頻格式為雙聲道WAV格式。音頻樂(lè)譜對(duì)齊的標(biāo)注方式為手工標(biāo)注,首先標(biāo)注音頻中每個(gè)音符的起始位置,然后提取樂(lè)譜中的每個(gè)音符,將兩者的一一相互對(duì)應(yīng)關(guān)系記錄于文件中。

具體來(lái)說(shuō),BSAMS數(shù)據(jù)集包含了18個(gè)不同的曲目片段和32對(duì)音頻樂(lè)譜對(duì),共計(jì)1118個(gè)音符。圖3中的餅狀圖展示了BSAMS數(shù)據(jù)集中的音頻樂(lè)譜對(duì)的曲目類型分布、速度分布、難度分布。綜上,本文所構(gòu)建數(shù)據(jù)集包含巴松獨(dú)奏音階琶音片段、樂(lè)曲旋律片段、中國(guó)曲目樂(lè)隊(duì)片段、外國(guó)曲目樂(lè)隊(duì)片段和協(xié)奏曲片段,并具有速度、演奏方式標(biāo)簽以及音頻樂(lè)譜精準(zhǔn)對(duì)齊標(biāo)注標(biāo)簽。本節(jié)構(gòu)建的BSAMS數(shù)據(jù)集滿足了體現(xiàn)巴松特點(diǎn)和用于音符級(jí)音頻樂(lè)譜比對(duì)研究的要求,為后續(xù)展開(kāi)的算法設(shè)計(jì)工作提供了良好的數(shù)據(jù)支撐。

圖3 BSAMS數(shù)據(jù)集曲目片段分布統(tǒng)計(jì)圖

3 精準(zhǔn)音頻樂(lè)譜比對(duì)方法

3.1 基于DTW的基準(zhǔn)點(diǎn)生成算法

本節(jié)提出了一種基準(zhǔn)點(diǎn)生成算法,將巴松演奏的音頻和樂(lè)譜進(jìn)行粗略的對(duì)齊,對(duì)于樂(lè)譜中的每一個(gè)音符,在對(duì)應(yīng)錄音音頻中找到其粗略估計(jì)的音符起始位置。首先基于音頻到音頻對(duì)齊的思路,基于DTW算法找到MIDI轉(zhuǎn)錄音頻和演奏音頻之間的粗略對(duì)齊,以確定演奏音頻中的粗略估計(jì)的音符起始位置作為基準(zhǔn)點(diǎn)。

首先將MIDI轉(zhuǎn)錄合成為音頻信號(hào),同時(shí)基于MIDI協(xié)議標(biāo)記出合成音頻信號(hào)中每個(gè)音符的起始時(shí)間,基于DTW算法求解兩段音頻之間的時(shí)間點(diǎn)對(duì)匹配路徑。具體算法流程如下:

(1)初始化MIDI合成音頻的音符起始點(diǎn)時(shí)間序列tmidi,每512個(gè)采樣點(diǎn)取1幀為音符起始幀,得到音符起始點(diǎn)的幀序列集合nmidi。

(2)經(jīng)DTW算法得到對(duì)齊序列p,q,該序列為MIDI合成音頻和演奏音頻之間的非遞減幀序列,對(duì)給定的i∈{1,…,F},p[i]與q[i]形成匹配對(duì),F(xiàn)為音頻幀序列的幀數(shù)。

(3)對(duì)于每個(gè)nmidi[k]找到最大范圍對(duì)應(yīng)的[ik1,ik2],使得p[ik1]=nmidi[k]且p[ik2]=nmidi[k]作為給定MIDI合成音頻幀對(duì)應(yīng)的匹配下標(biāo)范圍,其中k為給定樂(lè)譜中的音符數(shù)目。

(4)由每個(gè)MIDI音符起始點(diǎn)得到的匹配演奏音頻中的幀范圍(q[ik1],q[ik2]),通過(guò)對(duì)應(yīng)演奏音頻中的時(shí)間點(diǎn)(taudio[k1],taudio[k2])計(jì)算給定范圍對(duì)應(yīng)的時(shí)間軸中間點(diǎn)tbase[k]=(taudio[k1]+taudio[k2])/2作為基準(zhǔn)點(diǎn),得到演奏音頻的粗略估計(jì)音符起始點(diǎn),即基準(zhǔn)點(diǎn)序列tbase。

為使該過(guò)程得到的基準(zhǔn)點(diǎn)序列盡量準(zhǔn)確,需要對(duì)DTW的參數(shù)基于BSAMS數(shù)據(jù)集進(jìn)行優(yōu)化,主要參數(shù)包括特征向量和向量距離計(jì)算函數(shù)。特征向量主要考慮梅爾倒譜系數(shù)特征、chroma_stft特征、chroma_cqt特征以及chroma_cens特征;向量距離計(jì)算主要考慮歐式距離和余弦距離。經(jīng)實(shí)驗(yàn),最終確定選取的特征為chroma_cqt色度特征。

本節(jié)得到的演奏音頻中的音符起始基準(zhǔn)點(diǎn)序列一方面作為粗略的音頻樂(lè)譜對(duì)齊結(jié)果,另一方面為后續(xù)候選點(diǎn)的篩選范圍提供參考。

3.2 基于起音檢測(cè)的候選點(diǎn)生成算法

為了解決音頻的精準(zhǔn)音符起始位置問(wèn)題,本節(jié)結(jié)合巴松自身的器樂(lè)特點(diǎn),找到音符起始點(diǎn)的相對(duì)準(zhǔn)確位置,為進(jìn)一步精準(zhǔn)對(duì)齊提供向后迭代所需數(shù)據(jù)。本節(jié)提出了一種基于音符起始點(diǎn)的檢測(cè)算法,生成盡量靠近音符真實(shí)起始點(diǎn)的點(diǎn)位作為候選點(diǎn)。

考慮到巴松的音符演奏特征在一定程度上屬于軟起音,即音符起始位置的能量上升過(guò)程有較長(zhǎng)且緩慢的能量上升過(guò)程,該過(guò)程相對(duì)于具有明顯硬起音的鋼琴而言較長(zhǎng),而相對(duì)軟起音特點(diǎn)明顯的小提琴等樂(lè)器較短,且演奏過(guò)程中有些音符可能會(huì)使用自然顫音的演奏方式,即在演奏某個(gè)音符時(shí)該音符會(huì)出現(xiàn)周期性的頻率變化,因而需要采用適當(dāng)?shù)钠鹨魴z測(cè)算法以提高檢測(cè)的準(zhǔn)確程度,抑制誤檢的發(fā)生。在起音檢測(cè)算法中,基于能量的起音檢測(cè)算法對(duì)硬起音效果較好,對(duì)軟起音效果欠佳;結(jié)合相位的起音檢測(cè)算法對(duì)軟起音有一定的改進(jìn)效果,但難以解決顫音的問(wèn)題;基于頻譜通量的起音檢測(cè)可以有效應(yīng)對(duì)軟起音的問(wèn)題,在一定程度上可以抑制顫音的誤檢。因而本文采取基于頻譜通量的起音檢測(cè)算法。為了適應(yīng)巴松的音符起始特點(diǎn),將起音檢測(cè)得到函數(shù)曲線提取的峰值點(diǎn),以及經(jīng)過(guò)回溯得到峰值點(diǎn)附近的低點(diǎn)共同作為候選點(diǎn)。具體算法如下:

(1)首先基于以下公式計(jì)算音頻特定頻率成分能量變化的幅度即頻譜通量(即譜波動(dòng)):

其中,n為音頻幀,m為頻域中兩個(gè)離散譜線之間的間隔,X為反映頻率成分能量的函數(shù)。H為半波整流函數(shù),由以下公式得到:

在實(shí)驗(yàn)中,選取參數(shù)μ=1,選取梅爾倒譜系數(shù)特征作為頻譜成分能量的計(jì)算方式。

(2)通過(guò)峰值提取算法處理上一步得到的頻譜通量曲線。峰值提取公式如下:

實(shí)驗(yàn)設(shè)定pre_max和post_max大小為30 ms,pre_avg為100 ms,post_avg取值為70 ms,combinition_width取值為30 ms,其中δ為可調(diào)參數(shù),實(shí)驗(yàn)選取δ=0.07作為參數(shù)值,最終得到點(diǎn)集{npeak}。

(3)對(duì)點(diǎn)集{npeak}中的每個(gè)點(diǎn),當(dāng)n>1循環(huán)向前迭代n:=n-1,若SF(n)>SF(n-1)重復(fù)此循環(huán),直至n=1或SF(n)≤SF(n-1),得到點(diǎn)集{nback-track}。

(4)將點(diǎn)集{npeak}和{nback_track}合并,得到集合{ncandidate}:={npeak}?{nback_track}。該集合為候選點(diǎn)幀集合,將候選點(diǎn)的幀轉(zhuǎn)換為音頻中對(duì)應(yīng)的時(shí)間并將集中的點(diǎn)排序最終得到候選點(diǎn)的時(shí)間序列tcandidate。

3.3 基于SVM的點(diǎn)對(duì)篩選算法

在得到巴松演奏音頻中的基準(zhǔn)點(diǎn)序列和候選點(diǎn)序列后,需進(jìn)一步對(duì)得到的候選點(diǎn)序列進(jìn)行篩選,從而得到更精確的音符起始位置。本節(jié)提出了一種基于SVM的點(diǎn)對(duì)篩選算法,首先計(jì)算得到樂(lè)譜中某一音符起始點(diǎn)和演奏音頻中某一點(diǎn)的匹配置信度。然后,基于匹配置信度分別計(jì)算樂(lè)譜中每個(gè)音符起始點(diǎn)潛在匹配候選點(diǎn),并依據(jù)置信度進(jìn)行篩選。

首先,設(shè)計(jì)了基于支持向量機(jī)SVM模型的點(diǎn)對(duì)匹配相似度度量算法。主要步驟分為特征向量的構(gòu)建、數(shù)據(jù)正負(fù)集構(gòu)建和SVM模型的訓(xùn)練三部分。在特征向量的構(gòu)建方面,總體上采取通過(guò)比對(duì)演奏音頻中給定的點(diǎn)和MIDI合成音頻中給定的點(diǎn),以及附近小范圍內(nèi)的音頻之間的相似性,以得到點(diǎn)對(duì)的相似性特征。

具體來(lái)說(shuō),對(duì)MIDI合成音頻中的音符起始點(diǎn),截取其附近的音頻序列,同時(shí)截取演奏音頻中候選點(diǎn)附近的音頻序列,將兩個(gè)序列進(jìn)行預(yù)處理和比對(duì),構(gòu)建多個(gè)特征向量。DTW算法可以較好地度量?jī)蓚€(gè)給定時(shí)間序列之間的相似度,且不要求兩條時(shí)間序列等長(zhǎng)?;谝韵缕骄鵇TW路徑距離公式計(jì)算MDD(Mean DTW Distance):

其中X和Y為音頻幀序列,L為匹配路徑長(zhǎng)度,p和q為由公式(5)計(jì)算得到的匹配路徑。

基于公式(4),計(jì)算6類特征值,構(gòu)建特征向量,具體計(jì)算如下:

其中XM[]為MIDI合成音頻的幀序列,XA[]為演奏音頻的幀序列,n1為MIDI合成音頻中待比對(duì)的音符起始點(diǎn)在音頻中所在幀,SC()為截取音頻中的非靜默片段并拼接的函數(shù),n2為演奏音頻中待比對(duì)的點(diǎn)在音頻中所在幀的序號(hào),ns為固定短窗幀數(shù),選取 ns=5,nt為固定長(zhǎng)窗幀數(shù),選取nt=10,nln為由MIDI協(xié)議獲取合成音頻中音符起始點(diǎn)以左的音符或休止符的時(shí)長(zhǎng)對(duì)應(yīng)幀數(shù),nrn為音符起始點(diǎn)以右的音符的時(shí)長(zhǎng)對(duì)應(yīng)幀數(shù),nal為由合成音頻中nln按合成音頻時(shí)長(zhǎng)和演奏音頻的時(shí)長(zhǎng)的比例得到的近似幀數(shù),即:

其中,Len為取音頻長(zhǎng)度的函數(shù),Trim為截去輸入音頻開(kāi)頭和結(jié)尾的靜音片段的函數(shù),l為最高不超過(guò)的響度分貝值,取l=20dB。

在特征向量設(shè)計(jì)的過(guò)程中,需重點(diǎn)研究以下幾方面內(nèi)容:

(1)從音頻幀的角度,設(shè)計(jì)特征比對(duì)MIDI中音符起始點(diǎn)和演奏音頻中給定點(diǎn)之間的附近一個(gè)小區(qū)間(選取20幀,步長(zhǎng)512,對(duì)應(yīng)時(shí)間0.46s)的音頻相似度,對(duì)應(yīng)特征1。

(2)從音符模型的角度,設(shè)計(jì)特征比對(duì)音頻中給定點(diǎn)左右的等長(zhǎng)音頻區(qū)間的相似度,以供參考該點(diǎn)處于音符中還是音符的端點(diǎn)(選取5幀,步長(zhǎng)512,對(duì)應(yīng)時(shí)間0.12s),若該點(diǎn)處于音符中或靜默片段則左右音頻區(qū)間相似度較高。對(duì)應(yīng)特征2。

(3)從音符的角度,設(shè)計(jì)特征比對(duì)臨近音符的相似度。取MIDI合成音頻和演奏音頻左右兩邊相鄰的音符長(zhǎng)度,同時(shí)取對(duì)應(yīng)演奏音頻中相應(yīng)的音頻長(zhǎng)度,分別對(duì)比左音符(或休止符)、右音符、左右音符的相似度,分別對(duì)應(yīng)特征3、4、5。

(4)結(jié)合巴松演奏多吐音的特點(diǎn),對(duì)相鄰音符音頻片段做先刪去靜默片段再拼接的操作,以降低吐音造成的靜音階段在MIDI合成音頻中無(wú)法對(duì)應(yīng)造成的影響。同時(shí)將MIDI合成音頻做同樣操作以處理左音符為休止符的情況。

在得到特征向量后,進(jìn)一步構(gòu)造訓(xùn)練SVM的數(shù)據(jù)集。在時(shí)間軸上,將所有手工標(biāo)注的音頻樂(lè)譜點(diǎn)對(duì)作為正集,將與標(biāo)注點(diǎn)相鄰的兩個(gè)點(diǎn),以及標(biāo)注點(diǎn)與左相鄰點(diǎn)的中點(diǎn)、標(biāo)注點(diǎn)與右相鄰點(diǎn)的中點(diǎn),共四個(gè)點(diǎn)與MIDI中音符起始點(diǎn)分別構(gòu)成四組點(diǎn)對(duì)作為數(shù)據(jù)集的負(fù)集。

最后,采用SVM模型對(duì)得到的數(shù)據(jù)進(jìn)行訓(xùn)練。SVM模型是一種二分類模型,其主要思想是找到數(shù)據(jù)空間中的一個(gè)可以將所有數(shù)據(jù)樣本劃開(kāi)的超平面,并且使得樣本集中所有數(shù)據(jù)到這個(gè)超平面的距離最短。具體來(lái)說(shuō),通過(guò)采用在空間中尋找間隔最大化的分離超平面的方式,對(duì)樣本進(jìn)行分類,同時(shí)通過(guò)樣本點(diǎn)到超平面的距離可以反映其屬于相應(yīng)類別的概率。由于SVM在小樣本訓(xùn)練集上能夠得到比其它算法好很多的結(jié)果,因此采取SVM模型,模型的輸入為提取到的特征向量,采用高斯核函數(shù),并通過(guò)網(wǎng)格搜索來(lái)優(yōu)化參數(shù),模型輸出為二分類:點(diǎn)對(duì)匹配或不匹配,并得到類別對(duì)應(yīng)的概率作為置信度。

具體來(lái)說(shuō),模型的參數(shù)是基于網(wǎng)格搜索得到的,最終采取徑向基核函數(shù),設(shè)置參數(shù)懲罰系數(shù)為0.8,參數(shù)核函數(shù)系數(shù)為0.5,類別比重設(shè)置正負(fù)權(quán)重之比為3.8∶1,得到的SVM分類準(zhǔn)確率為0.81。最終基于樣本點(diǎn)到SVM模型決策超平面的距離得到概率值,用以判別音頻和樂(lè)譜點(diǎn)對(duì)的匹配置信度。

在得到音頻和樂(lè)譜點(diǎn)對(duì)的匹配置信度后,對(duì)每個(gè)樂(lè)譜中的音符找到對(duì)應(yīng)演奏音頻中一定范圍內(nèi)的候選點(diǎn),通過(guò)SVM模型度量該音符在MIDI合成音頻中音符的起始點(diǎn)和范圍內(nèi)的所有候選點(diǎn)形成的點(diǎn)對(duì)之間的匹配置信度,將得到的置信度由高到低排序,采用置信度最高的點(diǎn)對(duì)作為篩選結(jié)果。其中,演奏音頻中的范圍由基準(zhǔn)點(diǎn)序列確定。具體算法流程如下:

(1)對(duì)每個(gè)音符的MIDI合成音頻起始點(diǎn)tmidi[k],通過(guò)其對(duì)應(yīng)基準(zhǔn)點(diǎn)tbase[k],確定候選點(diǎn)的選取邊界范圍(tbase[k-1],tbase[k+1])。找到所有滿足以下邊界范圍的tbase[k-1]≤tcandidate≤tbase[k+1]候選點(diǎn),得到該音符用于匹配篩選的候選點(diǎn)集合{tcandidate_match}。

(2)根據(jù)訓(xùn)練的SVM模型分別計(jì)算候選點(diǎn)集合{tcandidate_match}中每個(gè)點(diǎn)與音符的MIDI合成音頻起始點(diǎn)t[k]的匹配置信度。

(3)將置信度從大到小排序得到MIDI合成音頻音符起始點(diǎn)tmidi[k]的最高置信度匹配點(diǎn)tcandidate_match,若該tcandidate_match點(diǎn)在與其進(jìn)行匹配置信度計(jì)算的所有MIDI合成音頻音符起始點(diǎn)中也有最高的匹配置信度,即雙向最高匹配置信度,則該點(diǎn)即為的tmidi[k]的匹配點(diǎn)tmatch[k],若范圍內(nèi)無(wú)雙向最高置信度的候選點(diǎn)或無(wú)候選點(diǎn),則設(shè)置tbase[k]為tmidi[k]的匹配點(diǎn)tmatch[k]。

(4)將所有篩選出的匹配點(diǎn)按照順序排列得到匹配點(diǎn)序列tmatch,與音符的MIDI合成音頻起始點(diǎn)tmidi一起,構(gòu)成音頻樂(lè)譜匹配點(diǎn)對(duì)。

綜上所述,本節(jié)為音頻樂(lè)譜中點(diǎn)對(duì)精心構(gòu)建了用于表征音頻相似度的特征向量,并訓(xùn)練了SVM模型,將輸出的匹配概率用于衡量置信度,得到了獲取點(diǎn)對(duì)匹配置信度的算法。通過(guò)篩選出當(dāng)前最佳的音頻樂(lè)譜音符起始位置匹配點(diǎn)對(duì),已得到較為精準(zhǔn)的巴松音頻樂(lè)譜對(duì)齊結(jié)果。但該結(jié)果仍舊存在一些問(wèn)題,需要通過(guò)進(jìn)一步的算法進(jìn)行修正。

3.4 匹配修正算法

雖然已得到較精準(zhǔn)的針對(duì)巴松演奏的音頻樂(lè)譜對(duì)齊結(jié)果,然而該結(jié)果仍舊存在問(wèn)題:(1)起音檢測(cè)算法存在一定偏差,可能存在錯(cuò)檢或漏檢的現(xiàn)象,導(dǎo)致候選點(diǎn)集不夠全面和準(zhǔn)確,導(dǎo)致求得的匹配點(diǎn)存在偏差。(2)基于SVM模型得到的點(diǎn)對(duì)匹配置信度存在一定偏差,可能導(dǎo)致匹配失誤的情況,導(dǎo)致求得的匹配點(diǎn)存在偏差。(3)巴松的演奏過(guò)程中存在部分音符發(fā)音困難的情況,在正確演奏的情況下也有可能出現(xiàn)音頻和樂(lè)譜的偏離,導(dǎo)致求得的匹配點(diǎn)存在偏差。

針對(duì)以上三點(diǎn)問(wèn)題,本節(jié)提出一種基于音樂(lè)規(guī)律的匹配修正算法。由于在音樂(lè)演奏實(shí)踐中,大部分情況下臨近音符之間的速度不會(huì)出現(xiàn)較大變化,因而臨近的音符之間,音符起始點(diǎn)的時(shí)間差值之比可近似看作相鄰音符之間時(shí)值之比。基于上述音樂(lè)特點(diǎn),設(shè)計(jì)以下算法:

(1)對(duì)1<k<K的點(diǎn),按照以下公式計(jì)算得到每個(gè)點(diǎn)的λ值λk:

(2)理論上若無(wú)音樂(lè)節(jié)奏變化和其他偏差的理想狀態(tài),對(duì)所有k,λk值應(yīng)等于1。當(dāng)存在音樂(lè)節(jié)奏變化和上述偏差問(wèn)題時(shí),設(shè)定閾值λlow=.5,λhigh=2,若λlow<λk<λhigh,則判斷為正常,可獲取每個(gè)超出正常范圍的最長(zhǎng)音頻段。

(3)對(duì)每個(gè)非正常的音頻段,截取MIDI合成音頻[tmidi[i-1],tmidi[j+1]]段的音頻,以及演奏音頻[tmatch[i-1],tmatch[j+1]]段的音頻,由以下公式得到其匹配點(diǎn)tmatch:

其余正常匹配點(diǎn)的匹配結(jié)果保持不變,得到最終的音頻樂(lè)譜匹配點(diǎn)。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 算法參數(shù)驗(yàn)證

為了驗(yàn)證基準(zhǔn)點(diǎn)生成算法中DTW算法采用的主要特征,在BSAMS數(shù)據(jù)集上對(duì)色度特征和梅爾倒譜特征進(jìn)行對(duì)比,最終選取基于CQT變換的色度特征chroma_cqt作為DTW算法提取的算法特征。實(shí)驗(yàn)結(jié)果如表1所示,對(duì)比不同特征的對(duì)齊準(zhǔn)確率和平均每個(gè)音符對(duì)齊的時(shí)間偏差,采用chroma_cqt特征向量時(shí),準(zhǔn)確率最高,且平均音符時(shí)間偏差最小,因而采用chroma_cqt作為用于巴松音頻樂(lè)譜粗對(duì)齊DTW算法采用的特征向量,以得到較準(zhǔn)確的基準(zhǔn)點(diǎn)和初步對(duì)齊結(jié)果。

表1 特征參數(shù)選取驗(yàn)證結(jié)果(容錯(cuò)0.1s)

4.2 音頻樂(lè)譜比對(duì)準(zhǔn)確度對(duì)比

為了驗(yàn)證本方法的對(duì)齊準(zhǔn)確度,從BSAMS數(shù)據(jù)集中每個(gè)曲目抽取一首音頻樂(lè)譜對(duì)進(jìn)行對(duì)齊測(cè)試,得到以下整體測(cè)試結(jié)果。表2中分別列出了傳統(tǒng)DTW算法和本方法在BSAMS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。本方法相較傳統(tǒng)DTW算法曲目對(duì)齊準(zhǔn)確率在容錯(cuò)時(shí)間為0.1s情況下整體提升32.5%,平均時(shí)間偏差整體下降35.6%。

表2 本文提出方法對(duì)比傳統(tǒng)DTW算法對(duì)齊準(zhǔn)確率比較

為進(jìn)一步對(duì)比,對(duì)本文三個(gè)部分算法所得準(zhǔn)確率和偏差分別進(jìn)行實(shí)驗(yàn),其中階段一為基準(zhǔn)點(diǎn)生成算法,階段二為候選點(diǎn)篩選算法,階段三為匹配修正算法。按照曲目所屬類別(曲目類型、速度和演奏方式)進(jìn)行歸納分析,如圖4所示。首先根據(jù)曲目類型進(jìn)行分析,如圖4(a)所示,對(duì)每個(gè)曲目類型對(duì)應(yīng)的音頻樂(lè)譜對(duì)進(jìn)行測(cè)試,得到各算法階段平均準(zhǔn)確度和音符平均時(shí)間偏差變化的折線圖??梢园l(fā)現(xiàn)本算法對(duì)各個(gè)類型曲目都有明顯的對(duì)齊準(zhǔn)確度和精準(zhǔn)度提升,協(xié)奏曲片段整體由于難度大,音符類型、速度節(jié)奏變化多,效果不夠理想,但對(duì)比第一階段采用的通用對(duì)齊算法仍有一定提升。練習(xí)片段、中外樂(lè)隊(duì)片段、旋律片段大體上可以實(shí)現(xiàn)較高的精準(zhǔn)度。

圖4(b)展示了根據(jù)曲目速度分類的對(duì)齊準(zhǔn)確率和時(shí)間偏差結(jié)果??梢杂^察到,對(duì)于慢速和中速的巴松獨(dú)奏曲目片段,本算法有比較好的表現(xiàn)和效果,可以達(dá)到較高準(zhǔn)確率。對(duì)于速度較快的曲目由于音符較為密集,效果不夠理想。

針對(duì)不同演奏方式,如圖4(c)所示,對(duì)每個(gè)曲目難度對(duì)應(yīng)的音頻樂(lè)譜對(duì)進(jìn)行測(cè)試,得到各算法階段平均準(zhǔn)確度和音符平均時(shí)間偏差變化的折線圖??梢钥闯霰痉椒▽?duì)連音演奏和吐音演奏的巴松音樂(lè)具有同樣顯著的提升效果。

圖4 BSAMS數(shù)據(jù)集中不同曲目比對(duì)準(zhǔn)確度結(jié)果

綜上所述,本文提出的面向巴松的音頻樂(lè)譜比對(duì)算法,與傳統(tǒng)方法相比,對(duì)各種曲目類型的準(zhǔn)確率和精準(zhǔn)度均實(shí)現(xiàn)了大幅提升,在BSAMS數(shù)據(jù)集的中低速度和中低難度的曲目片段中,實(shí)現(xiàn)了音頻樂(lè)譜的精準(zhǔn)對(duì)齊。

5 總結(jié)與展望

音頻樂(lè)譜對(duì)齊是MIR領(lǐng)域的重要課題和基礎(chǔ)任務(wù),本文針對(duì)現(xiàn)有巴松演奏音頻樂(lè)譜對(duì)齊方法精準(zhǔn)度較低的問(wèn)題,提出了一種面向巴松演奏的精準(zhǔn)音頻樂(lè)譜比對(duì)方法。構(gòu)建了首個(gè)由巴松獨(dú)奏音頻和對(duì)應(yīng)樂(lè)譜組成的包含多曲式的BSAMS數(shù)據(jù)集,手工標(biāo)注了音符起始時(shí)間和音符對(duì)應(yīng)關(guān)系。并基于BSAMS數(shù)據(jù)集,設(shè)計(jì)了一種由粗到精、逐層細(xì)化的分段式精準(zhǔn)音頻樂(lè)譜比對(duì)方法。首先基于DTW和音符起始點(diǎn)檢測(cè),設(shè)計(jì)了一種基準(zhǔn)點(diǎn)和候選點(diǎn)生成算法,得到粗略估計(jì)的對(duì)齊;其次,提出了一種基于SVM模型的音頻樂(lè)譜點(diǎn)對(duì)篩選算法,得到精準(zhǔn)匹配的音符起始點(diǎn);最后,設(shè)計(jì)了一種基于音樂(lè)理論的匹配修正算法,進(jìn)行對(duì)齊結(jié)果的修正。通過(guò)在BSAMS數(shù)據(jù)集上對(duì)不同類型音樂(lè)進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文提出的方法相比于傳統(tǒng)通用音頻樂(lè)譜比對(duì)方法在精準(zhǔn)度上有顯著提升。

未來(lái)的工作考慮以下三點(diǎn)內(nèi)容:首先,當(dāng)前算法在面對(duì)高難度快速巴松樂(lè)曲時(shí),實(shí)現(xiàn)精準(zhǔn)音頻樂(lè)譜對(duì)齊仍舊較為困難,為提升此類型曲目的對(duì)齊準(zhǔn)確度,需要設(shè)計(jì)更加具有針對(duì)性的方法。其次,各種樂(lè)器都有各自的樂(lè)器特性和演奏特色,基于各種樂(lè)器的自身屬性設(shè)計(jì)更加合適的方法以提高準(zhǔn)確度,是值得探索的研究方向。最后,考慮到音頻樂(lè)譜比對(duì)技術(shù)的應(yīng)用場(chǎng)景,基于面向巴松的音頻樂(lè)譜比對(duì)方法,開(kāi)發(fā)精準(zhǔn)音符起始點(diǎn)標(biāo)注系統(tǒng),以為MIR領(lǐng)域的研究提供更為豐富的數(shù)據(jù)集。

猜你喜歡
置信度樂(lè)譜音符
基于數(shù)據(jù)置信度衰減的多傳感器區(qū)間估計(jì)融合方法
山之高
一種基于定位置信度預(yù)測(cè)的二階段目標(biāo)檢測(cè)方法
一串快樂(lè)的音符
樂(lè)譜:放飛夢(mèng)想
美妙音符
青春音符
一毛學(xué)琴記——樂(lè)譜失蹤
基因密碼樂(lè)譜
校核、驗(yàn)證與確認(rèn)在紅外輻射特性測(cè)量中的應(yīng)用
于都县| 彝良县| 玉环县| 方山县| 定西市| 韶山市| 仙游县| 卓尼县| 平邑县| 乳源| 安义县| 隆子县| 大石桥市| 潜江市| 兴业县| 陇川县| 邯郸市| 正蓝旗| 登封市| 云梦县| 平邑县| 万年县| 凌源市| 若羌县| 万宁市| 鄱阳县| 响水县| 阿克陶县| 历史| 枝江市| 瓦房店市| 武定县| 喀喇沁旗| 类乌齐县| 无锡市| 钟祥市| 比如县| 宣武区| 阿拉善左旗| 甘肃省| 仁怀市|