劉紅梅
(阿克蘇職業(yè)技術(shù)學(xué)院 人文藝術(shù)學(xué)院,新疆 阿克蘇 843000)
隨著人們生活水平不斷的提高,對(duì)音樂(lè)需求更加廣泛,同時(shí)隨著聲樂(lè)技術(shù)不斷的成熟,出現(xiàn)了許多音曲,樂(lè)曲節(jié)拍具有多樣性,如何對(duì)樂(lè)曲節(jié)拍進(jìn)行準(zhǔn)確識(shí)別,是當(dāng)前音樂(lè)研究領(lǐng)域中的一個(gè)重要課題[1-3]。
針對(duì)樂(lè)曲節(jié)拍識(shí)別問(wèn)題,許多學(xué)者和研究機(jī)構(gòu)進(jìn)行了廣泛、深入的研究,提出許多有效的樂(lè)曲節(jié)拍識(shí)別方法[4-6]。樂(lè)曲節(jié)拍識(shí)別與語(yǔ)音識(shí)別具有一定的相似性,識(shí)別原理大致相同,如基于卷積神經(jīng)網(wǎng)絡(luò)的樂(lè)曲節(jié)拍識(shí)別方法等[7-9]。在實(shí)際應(yīng)用中,這些樂(lè)曲節(jié)拍識(shí)別方法還存在許多不足,如樂(lè)曲節(jié)拍識(shí)別的精度低,經(jīng)常出現(xiàn)誤識(shí)現(xiàn)象,拒識(shí)率相當(dāng)高,難以滿足樂(lè)曲節(jié)拍識(shí)別的實(shí)際要求[10-12]。
音頻指紋是一種重要的語(yǔ)音信號(hào)特征,其可以描述樂(lè)曲節(jié)拍類型,為了提高樂(lè)曲節(jié)拍識(shí)別精度,克服當(dāng)前樂(lè)曲節(jié)拍識(shí)別過(guò)程中存在的不足,提出基于音頻指紋技術(shù)的樂(lè)曲節(jié)拍識(shí)別系統(tǒng),并與當(dāng)前其它樂(lè)曲節(jié)拍識(shí)別系統(tǒng)進(jìn)行了對(duì)比測(cè)試。結(jié)果表明,本文系統(tǒng)得到了理想的樂(lè)曲節(jié)拍識(shí)別結(jié)果,樂(lè)曲節(jié)拍誤識(shí)率低于對(duì)比系統(tǒng),驗(yàn)證了本文系統(tǒng)的優(yōu)越性。
一個(gè)完整的樂(lè)曲節(jié)拍識(shí)別系統(tǒng)包括硬件部分和軟件部分,其中硬件部分是樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的基礎(chǔ),而軟件部分是樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的靈魂,兩部分協(xié)調(diào)工作完成樂(lè)曲節(jié)拍識(shí)別。
基于音頻指紋技術(shù)的樂(lè)曲節(jié)拍識(shí)別系統(tǒng)硬件結(jié)構(gòu)如圖1所示。
圖1 樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的硬件結(jié)構(gòu)
主要包括:樂(lè)曲節(jié)拍信號(hào)采集模塊、樂(lè)曲節(jié)拍信號(hào)的存儲(chǔ)和傳輸模塊,樂(lè)曲節(jié)拍識(shí)別模塊。樂(lè)曲節(jié)拍信號(hào)通過(guò)傳感器進(jìn)行采集,通過(guò)TMS320VC5402 微處理器對(duì)樂(lè)曲節(jié)拍信號(hào)進(jìn)行放大處理,將放大處理后的樂(lè)曲節(jié)拍信號(hào)輸入到存儲(chǔ)器保存起來(lái),同時(shí)將樂(lè)曲節(jié)拍信號(hào)數(shù)據(jù)根據(jù)計(jì)算機(jī)能夠識(shí)別的形式存儲(chǔ)到樂(lè)曲數(shù)據(jù)庫(kù)中,其中樂(lè)曲節(jié)拍識(shí)別模塊是最為關(guān)鍵的部分,其直接影響樂(lè)曲節(jié)拍識(shí)別結(jié)果的好壞,本文采用音頻指紋算法的樂(lè)曲節(jié)拍識(shí)別技術(shù)。
由于樂(lè)曲節(jié)拍信號(hào)具有一定的特殊性,為了防止樂(lè)曲節(jié)拍信號(hào)被放大處理產(chǎn)生變形現(xiàn)象,處理器的電路采用二級(jí)阻容耦合模式。一級(jí)電路為射極跟隨電路,其主要用于去除樂(lè)曲節(jié)拍信號(hào)中的噪聲,保證輸入與輸出信號(hào)的相位不發(fā)生變化,將未失真信號(hào)輸入到下一級(jí)電路進(jìn)行處理;二級(jí)電路為共射極放大電路,主要用于對(duì)樂(lè)曲節(jié)拍信號(hào)進(jìn)行放大處理,同時(shí)使放大后的樂(lè)曲節(jié)拍信號(hào)不發(fā)生變形。
在進(jìn)行樂(lè)曲節(jié)拍識(shí)別時(shí),首先要建立樂(lè)曲節(jié)拍識(shí)別的指紋數(shù)據(jù)庫(kù),對(duì)于待識(shí)別的樂(lè)曲節(jié)拍信號(hào),計(jì)算其與數(shù)據(jù)庫(kù)中指紋的匹配度,根據(jù)匹配度得到樂(lè)曲節(jié)拍識(shí)別結(jié)果[12]。
1.2.1 提取樂(lè)曲節(jié)拍信號(hào)的指紋
對(duì)于待識(shí)別的樂(lè)曲節(jié)拍信號(hào),通過(guò)以下步驟提取其指紋。
Step1:采集待識(shí)別的樂(lè)曲節(jié)拍信號(hào),對(duì)原始樂(lè)曲節(jié)拍信號(hào)進(jìn)行一定的預(yù)處理,去掉無(wú)用的信號(hào),保留有用的樂(lè)曲節(jié)拍信號(hào)。
Step2:對(duì)預(yù)處理后的樂(lè)曲節(jié)拍信號(hào)進(jìn)行分幀處理,第i幀音頻信號(hào)為g(i),所有幀的樂(lè)曲節(jié)拍信號(hào)采樣周期和幀的長(zhǎng)度是一致的。
Step3:對(duì)分幀的樂(lè)曲節(jié)拍信號(hào)進(jìn)行復(fù)倒譜轉(zhuǎn)換,第2i-1,2i,2i+1幀樂(lè)曲節(jié)拍信號(hào)之間的關(guān)系可以描述為式(1)。
(1)
其中,N表示幀數(shù)量。
Step4:提取樂(lè)曲節(jié)拍的指紋系數(shù)p*(i),具體計(jì)算為式(2)。
(2)
Step4:將樂(lè)曲節(jié)拍的指紋系數(shù)與閾值t進(jìn)行比較,根據(jù)比較結(jié)果得到一個(gè)由1和0組成的指紋序列如式(3)。
(3)
1.2.2 基于指紋的樂(lè)曲節(jié)拍識(shí)別
數(shù)據(jù)庫(kù)中的樂(lè)曲節(jié)拍指紋集合為H={H1,H2,…,Hn},對(duì)于待識(shí)別的樂(lè)曲節(jié)拍,其指紋序列為P={P1,P2,…,Pn},為了找到一種映射方式可以對(duì)p進(jìn)行估計(jì),從而實(shí)現(xiàn)并置運(yùn)算,最終得到式(4)。
p=ω1+ω2+…+ωn
(4)
其中,ωi表示樂(lè)曲節(jié)拍信號(hào)的子串[13]。
為了指紋數(shù)據(jù)庫(kù)構(gòu)建立q-grams子串,一個(gè)串長(zhǎng)度為n串包括n-q+1個(gè)q-grams子串。如當(dāng)q=2時(shí),存在5個(gè)q-grams子串,分別為poss、ossi、ssib、sibl、ible,把它們的值作為待識(shí)別樂(lè)曲節(jié)拍的指紋索引值,計(jì)算樂(lè)曲節(jié)拍指紋子串匹配的數(shù)量,根據(jù)打分方式得到數(shù)據(jù)庫(kù)的樂(lè)曲節(jié)拍序列和待識(shí)別樂(lè)曲節(jié)拍的匹配分值,選擇分值最高序列作為初始列,具體打分方式為式(5)。
(5)
其中,p(i)和h(i)為目標(biāo)序列和源序列的索引值。
為了獲得樂(lè)曲節(jié)拍指紋最優(yōu)匹配結(jié)果,需要找到樂(lè)曲節(jié)拍指紋最長(zhǎng)的公用子串,根據(jù)最長(zhǎng)公用子串的軌跡,就可以找到最長(zhǎng)子串在樂(lè)曲節(jié)拍源序列中的位置。
綜合上述分析可知,基于音頻指紋的樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的工作流程如圖2所示。
圖2 基于音頻指紋的樂(lè)曲節(jié)拍識(shí)別流程
為測(cè)試基于音頻指紋的樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的性能,使用采樣頻率是23 kHz、分辨率是17 bit、8 s長(zhǎng)的MP3音樂(lè)文件實(shí)施測(cè)試,此音樂(lè)文件中有多種某類型樂(lè)曲。樂(lè)曲節(jié)拍原始指紋和待識(shí)別的樂(lè)曲節(jié)拍音頻指紋分別為H(i)、P(i),具體計(jì)算如式(6)、式(7)。
(6)
(7)
首先對(duì)樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的魯棒性進(jìn)行測(cè)試,當(dāng)前樂(lè)曲節(jié)拍受到外界環(huán)境影響的主要因素包括:重采樣、低通濾波、重量化等,對(duì)于各種影響因素,采用信噪比和互相關(guān)系數(shù)評(píng)價(jià)樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的性能,結(jié)果如圖3和圖4所示。
圖3 本文系統(tǒng)的采集信號(hào)信噪比
圖4 本文系統(tǒng)的提取指紋相關(guān)系數(shù)
對(duì)圖3和圖4的結(jié)果進(jìn)行分析可以知道,本文系統(tǒng)的信噪比高,而且原始指紋信息和提取指紋信息之間的互相關(guān)系數(shù)高,它們兩者之間的相似度比較高,這表明,外界因素對(duì)本文樂(lè)曲節(jié)拍識(shí)別系統(tǒng)的干擾比較小,具備較顯著的魯棒性,可以獲得理想的樂(lè)曲節(jié)拍信號(hào)。
測(cè)試本文系統(tǒng)的樂(lè)曲節(jié)拍識(shí)別精度,識(shí)別精度的計(jì)算如式(8)。
(8)
選擇6種樂(lè)曲作為測(cè)試對(duì)象,它們分別為:交響曲、協(xié)奏曲、圓舞曲、進(jìn)行曲、浪漫曲、奏鳴曲,為了使數(shù)字更為直觀清晰,對(duì)6種樂(lè)曲的詳細(xì)情況分別以圖和表形式進(jìn)行描述,測(cè)試對(duì)象分布如圖5所示。
圖5 6種樂(lè)曲的數(shù)量詳細(xì)分布
本文系統(tǒng)對(duì)樂(lè)曲節(jié)拍中有效音頻信號(hào)識(shí)別錯(cuò)誤數(shù)如表1所示。
表1 本文系統(tǒng)的樂(lè)曲節(jié)拍識(shí)別錯(cuò)誤數(shù)
分析表1可知,本文系統(tǒng)僅對(duì)奏鳴曲的節(jié)拍識(shí)別存在錯(cuò)誤,其它5種樂(lè)曲節(jié)拍識(shí)別結(jié)果不存在錯(cuò)誤,證明了本文系統(tǒng)的有效性。
本文系統(tǒng)對(duì)樂(lè)曲節(jié)拍識(shí)別精度計(jì)算結(jié)果如圖6所示。
圖6 本文系統(tǒng)的樂(lè)曲節(jié)拍識(shí)別精度
從圖6可以發(fā)現(xiàn),本文系統(tǒng)樂(lè)曲節(jié)拍識(shí)別精度很高,完全可以滿足樂(lè)曲節(jié)拍識(shí)別的實(shí)際應(yīng)用要求。
對(duì)于采樣、低通濾波、重量化環(huán)境,統(tǒng)計(jì)本文系統(tǒng)的樂(lè)曲節(jié)拍識(shí)別精度,結(jié)果如圖7所示。
圖7 不同因素影響下的樂(lè)曲節(jié)拍識(shí)別精度
從圖7可以發(fā)現(xiàn),在重采樣、低通濾波、重量化條件下,本文系統(tǒng)的樂(lè)曲節(jié)拍識(shí)別精度仍然很高,獲得了理想的樂(lè)曲節(jié)拍識(shí)別結(jié)果。
為了分析本文系統(tǒng)的樂(lè)曲節(jié)拍指紋提取效果,計(jì)算樂(lè)曲節(jié)拍指紋漏識(shí)率(ERROR),如式(9)。
ERROR=(δ-γ)×100%
(9)
式中,γ和δ分別表示提取和實(shí)際指紋數(shù)量。
樂(lè)曲節(jié)拍的實(shí)際指紋數(shù)量變化曲線如圖8所示。
圖8 樂(lè)曲節(jié)拍的指紋實(shí)際數(shù)量
計(jì)算本文系統(tǒng)的樂(lè)曲節(jié)拍指紋漏識(shí)率,具體如圖9所示。
圖9 本文系統(tǒng)的樂(lè)曲節(jié)拍指紋漏識(shí)率
對(duì)圖9樂(lè)曲節(jié)拍的指紋漏識(shí)率進(jìn)行分析可以發(fā)現(xiàn),本文系統(tǒng)的樂(lè)曲節(jié)拍的指紋漏識(shí)率極低,甚至可以忽略不計(jì),可以有效提取樂(lè)曲節(jié)拍的指紋。
樂(lè)曲節(jié)拍識(shí)別是當(dāng)前研究的熱點(diǎn),其識(shí)別結(jié)果可以為樂(lè)曲智能創(chuàng)作提供有價(jià)值的參考信息,為了改善樂(lè)曲節(jié)拍識(shí)別效果,提出基于音頻指紋技術(shù)的樂(lè)曲節(jié)拍識(shí)別系統(tǒng),并通過(guò)仿真實(shí)驗(yàn)可知:無(wú)論有噪無(wú)噪環(huán)境,本文系統(tǒng)都可以獲得較高精度的樂(lè)曲節(jié)拍識(shí)別結(jié)果,對(duì)噪聲具有一定的魯棒性,樂(lè)曲節(jié)拍識(shí)別漏識(shí)率低,解決了當(dāng)前樂(lè)曲節(jié)拍識(shí)別過(guò)程中存在的問(wèn)題,具有較高的實(shí)際應(yīng)用價(jià)值。