樂器輔助學習器音調(diào)保持算法的設計與實現(xiàn)

2020-01-11 01:07靳思雨韓宇龍吳秉坤苗洪睿黨柳邵淑穎宗天禹

工業(yè)技術創(chuàng)新 2020年6期

靳思雨韓宇龍吳秉坤苗洪睿黨柳邵淑穎宗天禹

摘? ?要：多普勒效應的存在，使得音頻在加速或減速播放時，音調(diào)變得尖銳或低沉，無法滿足很多場景的應用需求。以樂器輔助學習器為研究對象，兼顧考慮軟件復雜程度和硬件實現(xiàn)成本，優(yōu)選時間域的剪貼法，設計2倍速和1/2倍速下的音調(diào)保持算法;以有限時長二胡樂曲為例，采用改變音頻速度時變調(diào)的普通算法和音調(diào)保持算法進行音頻處理，并對處理結果進行對比分析。研究發(fā)現(xiàn)，普通算法2倍速（或1/2倍速）處理得到的音頻頻率范圍明顯拓寬（或收窄），同時在原始頻率范圍內(nèi)的高頻（或低頻）段出現(xiàn)了1～2個顯著的頻率分量，為音調(diào)變尖銳（或低沉）提供了理論證據(jù)。音調(diào)保持算法基本達到了預期效果，實現(xiàn)了“變速不變調(diào)”，并且處理步驟簡單、易于硬件集成，為樂器輔助學習器等產(chǎn)品的音效處理模塊提供了開發(fā)思路。

關鍵詞：音調(diào)保持算法;多普勒效應;樂器輔助學習器;時間域;剪貼法;變速不變調(diào)

中圖分類號：TN912? ? 文獻標識碼：A? ? 文章編號：2095-8412 （2020） 06-121-06

工業(yè)技術創(chuàng)新 URL： http：//gyjs.cbpt.cnki.net? ? DOI： 10.14103/j.issn.2095-8412.2020.06.022

引言

在播放音頻時，我們常有這樣的遭遇：如果加快播放速度，聲音的音調(diào)就會變得尖銳刺耳;相反，如果降低播放速度，聲音的音調(diào)就會變得粗而低沉。這是由多普勒效應造成的，該效應在醫(yī)學、交通和航天等領域同樣普遍存在。但是，該效應在很多應用場景中并不受到期待，人們往往希望聲音在播放速度發(fā)生改變后，音調(diào)仍然保持原樣。比如樂器的初學者往往希望將一些優(yōu)秀曲目的音頻放慢到幾分之一倍速，以方便聆聽和模仿，或者將自己演奏的音頻錄下來慢速播放，以便發(fā)現(xiàn)演奏過程中存在的問題;再比如外語學習者在練習聽力時，也許希望減慢或加快聽力資料的播放，以適應自身的學習狀況等。在這些應用場景下，如果聲音的音調(diào)發(fā)生扭曲，就會嚴重影響聲音聆聽者的體驗。

在音調(diào)規(guī)整方面，早期的研究論文大多關注算法模型的改進和參數(shù)的選擇等，而現(xiàn)在的大量研究則聚焦于語音增強[1-2]。這些研究往往并不針對特定的應用場景，不具針對性。本文旨在專門對樂器輔助學習器的音調(diào)保持功能進行研究。這是因為隨著人們生活質(zhì)量的提高，人們對樂器學習的需求和要求也越來越高，樂器輔助學習器作為輔助學習樂器的工具，在將音頻加速或減速播放時保持音調(diào)不變，是其應具有的基礎且重要的功能之一。為樂器輔助學習器設計音調(diào)保持算法，初衷就是要“變速不變調(diào)”，提升樂器初學者的學習體驗，解決音調(diào)扭曲帶來的產(chǎn)品痛點。

1? 基本原理與算法比選

1.1? 音調(diào)變化的基本原理

音調(diào)是人類相對主觀的一種感受。聲音中的基頻決定了音調(diào)的高低，頻率越高，音調(diào)就會越高;頻率降低，音調(diào)就會變得更加厚重。諧波分布決定了音樂的音色，而單位時間內(nèi)的節(jié)拍數(shù)決定了音樂的快慢。所以，聲音的“速”和“調(diào)”是兩個不同的概念。變速不變調(diào)就是指改變播放速度的大小，同時保持基頻不變。但二者不是相互獨立的，一方的改變會影響另一方，不能完全割裂開來。

音頻的音調(diào)保持技術是一種時域修正技術，即在保證音頻中音調(diào)、音色等特征不改變的情況下，對播放時長進行伸縮。

1.2? 音調(diào)保持的常見算法

音調(diào)保持算法有三大類：時域法、頻域法、參量法。

剪貼法和同步波形疊加法是時域法中兩種最常用的方法。

剪貼法是時域法中最為基礎的一種方式。首先將音樂劃分為若干連續(xù)不重疊的幀，然后重復這些幀，使得播放速度變慢;或舍棄一些幀，讓播放速度變快。這種方法原理和操作都很簡單，但在疊加或舍棄幀時會導致相鄰兩幀之間波形不連續(xù)，即使得基音發(fā)生斷裂，音頻質(zhì)量變差。

為減輕基音斷裂現(xiàn)象，Roucos等提出了同步波形疊加法（SOLA）[3-8]。如圖1所示，該算法有分解、合成兩階段。分解階段對原始信號進行分幀，在分幀的同時進行加窗平滑處理。合成階段又分成兩步：第一步，確定初步合成重疊距離。在保證第1幀不變的前提下，移動之后的各幀，調(diào)整相鄰兩幀的距離為Ss。第二步，確定最終合成幀的起始位置。在已合成的第m幀第Ss個采樣點的某個鄰域[-Kmax， Kmax]內(nèi)，移動搜索與分解階段第m幀信號的波形相關性最大的位置Km。因為其與疊加部分波形最為相似，因此也就減小了基音斷裂，但由于不能精確控制音頻處理以后的時間，故容易造成音頻的疊加。

頻域法可以基于短時傅里葉變換原理，利用最小均方誤差原則，通過在時域?qū)ふ乙粋€最為靠近理想變速信號頻譜的短時傅里葉變換幅度譜，實現(xiàn)變速不變調(diào)。

參量法需要首先對語音信號建立模型，然后根據(jù)需要修改模型的參數(shù)。相位聲碼器通過帶通濾波器將語音分解成無數(shù)個正弦信號，然后對幅度和相位進行時域壓擴，再合成之，從而實現(xiàn)變速不變調(diào)。

考慮到軟件復雜程度和硬件實現(xiàn)成本，本文采用時間域的剪貼法實現(xiàn)變速過程中的音調(diào)保持。

2? 音調(diào)保持的軟件實現(xiàn)

根據(jù)章節(jié)1.2對剪貼法的介紹，構建軟件實現(xiàn)過程，如圖2所示。

圖2所示的處理過程也可稱為等間隔抽樣法，或直線等距抽樣法，即把總體所有單元排列成一條直線，設總體的單元數(shù)為N，所抽樣的樣本單元數(shù)為n，計算出系統(tǒng)抽樣的間隔k，其中k的計算公式為

（1）

如果N不能夠被n整除，就取k為最接近的整數(shù)（假設為L）。這實際就是把一條長度為N的直線分成n條線段，每條線段包含有k個單元。抽樣時，如圖3所示，先在第一條線段的1～k個單元中隨機抽取一個隨機數(shù)i，擇選第i單元作為第1個樣本單元，然后每隔L個單元抽取一個單元，這樣就一共抽取了n個樣本單元.

這樣的規(guī)則使得初始樣本一旦確定，其他的樣本單元也就隨之確定了。另外，當

（2）

成立時，無論采用哪種方法，總體單元的入樣率都是1/k，即實現(xiàn)了等概率抽樣。

總之，在剪貼法中可以用等概率抽樣的方法對音頻中的某一分段進行重復或丟棄，從而達到變速不變調(diào)。

2.1? 2倍速處理

2倍速的處理對象為一段時長為90 s的二胡樂曲片段，處理步驟如下。

第一步：分幀處理，取N=90，因為樂曲時長為90 s;

第二步：取k=0.05，也就是將音頻按照每0.05 s進行劃分;

第三步：按照式（1）計算得出樣本單元數(shù)，即n=N/k=90/0.05=1 800;

第四步：重新分組，即把相鄰的每兩個樣本單元不重復地分為一個大組，1 800個樣本單元由此變成了900個大組;

第五步：丟棄后原序組合，即丟棄每一個大組中兩段音頻中的后一段，這樣每一大組的時間減少一半，再按照抽取前的順序，將每個大組保留的音頻再次組合起來。

這樣得到的音頻片段，時間自然縮短了一半。由于只進行了抽取，并未明顯改變音頻的頻率，因此音調(diào)也就不會發(fā)生大的改變。

人耳由于具有自動填充的功能，因此很難分辨等間隔出現(xiàn)的0.05 s的音頻缺失。

2.2? 1/2倍速處理

1/2倍速處理同樣使用剪貼法，但分幀后的重新組合與2倍速有所不同，下面是具體處理流程。

第一步至第三步：方法和數(shù)據(jù)均同2倍速;

第四步：復制插入后按原序組合，不同于2倍速的丟棄，1/2倍速分幀后的每一個樣本單元，都以自身為模板進行復制，再將復制后的音頻片段直接接續(xù)組合到被復制的原音頻樣本之后，這樣得到的組合音頻的時間拉長為原來的2倍。

由于第四步只是對原有音頻片段進行復制，故頻率不會有明顯變化，音調(diào)也會基本保持不變。

如果要進行更高倍速的快放和慢放，同樣可以使用剪貼法。只需記?。嚎旆艑謳髞G棄，慢放則是分幀后重復，至于如何分幀，則要視情況與需求的不同而定。

這里還需要強調(diào)的是：時間劃分得過細或過粗都會影響最終的效果。時間劃分得過細，間隔就會過多，拼接后產(chǎn)生基音斷裂的情況就會越多，這會經(jīng)常引起刺耳的噪音;反之，時間劃分得過粗，丟棄或重復的音頻片段過長，人耳無法進行自動填充，導致聽到的音頻效果面目全非。k=0.05是經(jīng)過大量測試后優(yōu)選的較為合適的時間劃分值。

3? 結果與討論

3.1? 測試結果

對于處理后音頻相比原音頻的變化，有三個方法可以鑒別：實際聽覺評價、時域波形分析和頻域波形分析。本節(jié)列出了同一個音頻，在普通情況（即改變音頻速度變調(diào)的情況）和變速不變調(diào)情況下所產(chǎn)生的時域譜和頻域譜。

當以2倍速播放時，原音頻、普通2倍速和不變調(diào)2倍速的時頻域波形及對比如圖4所示。

從圖4a～4c的時域波形可以清楚地看到：時長為90 s的原音頻經(jīng)過普通2倍速和不變調(diào)2倍速的處理后，時間均變?yōu)?5 s，達到了2倍速的目的。

為了更加明顯地觀察音頻處理后的變化，將三個音頻的頻域波形綜合在一起，如圖4d所示?？梢院苊黠@地看出，原音頻和變速不變調(diào)的2倍速音頻的頻率全部集中在3 kHz以內(nèi);而經(jīng)過普通2倍速的處理以后，一部分能量出現(xiàn)在5.5 kHz左右，增加了約2.5 kHz（近一倍），同時在3 kHz附近出現(xiàn)了一個比較明顯的頻率分量，這些都使音調(diào)變得尖銳刺耳在情理之中了。對比原音頻和不變調(diào)2倍速的頻譜，二者近似程度更高，盡管也不可避免地產(chǎn)生了一些音調(diào)的變化，但已基本能滿足變速不變調(diào)的要求。

1/2倍速處理的情況與2倍速類似，只是音頻時間由原來的90 s變?yōu)?80 s。限于篇幅，僅給出頻域的對比圖，如圖5所示。不難看出，原音頻頻率主要集中在3 kHz以內(nèi)，而普通1/2倍速音頻的頻率范圍卻少了約一半，主要集中在1 kHz～1.5 kHz之間;同時，普通1/2倍速音頻在100 Hz以內(nèi)出現(xiàn)了2個比較明顯的頻率分量，這就使得聲音聽起來顯得更慢且低沉，音調(diào)變化明顯。而經(jīng)過不變調(diào)處理后的音頻，依舊保持著與原音頻相近的頻率，失真有限，聲音聽上去只是速度變慢而已。

3.2? 討論與引申

由章節(jié)3.1展示的結果可知，利用時域剪貼法進行2倍速和1/2倍速處理，基本實現(xiàn)了音調(diào)保持的目的。如果要進一步實現(xiàn)4倍速或1/4倍速處理，也可以用同樣的方法直接實現(xiàn)，或者連續(xù)調(diào)用2次2倍速或1/2倍速的處理程序。這種方法的優(yōu)點是實現(xiàn)步驟少，實現(xiàn)成本低，且易于在硬件平臺上集成，適用于對產(chǎn)品成本敏感且對音頻處理質(zhì)量要求不是很高的場合。

但是，如果繼續(xù)以時域剪貼法進行更高或更低倍速下的音調(diào)保持處理，音頻中信息的損失也會隨之加大，這時可以結合使用同步波形疊加法或其他更為復雜的改進處理方法。

當然，音調(diào)保持只是音效處理的情景之一，后續(xù)還可以進一步探索在放慢或加速樂曲時，保持相對強弱、頻率和音色等特征不變的處理算法。

4? 結束語

對于學習樂器或聲樂的人，通過樂器輔助學習器，隨時能得到一份學習者能理解的練習效果評估明細單，對提高學習效果和質(zhì)量都大有裨益。

但是，如何對音效及其處理結果進行量化和精確評價，是很有挑戰(zhàn)性的工作。目前的評價體系還是以質(zhì)化為主，結論依賴人的實際感受，容易受到測試者的生理、心理還有環(huán)境等的影響，不僅費時費力，也很難保證客觀和公正。后續(xù)研究可以在這方面努力突破。

基金項目：

2020年北京市級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目

參考文獻

[1] 周俊，陳硯圃，譚薇，等. 語音時長規(guī)整SOLA算法的最佳參數(shù)選擇[J]. 微電子學與計算機， 2007（24）： 54-58， 62.

[2] 鄭展恒，曾慶寧. 語音增算法的研究與改進[J]. 現(xiàn)代電子技術， 2020（43）： 27-30.

[3] MOULINES E， LAROCHE J. Non-parametric technique for pitch-scale and time-scale modification of speech[J]. Speech Communication， 1995， 16（2）： 175-205.

[4] LAELOR B， FAGAM A D. A novel high quality efficient algorithm for time-scale modification of speech[C]// Proc of the 6th European Conference on Speech Communication and Technology， Budapest， Hungary， 1999： 231-235.

[5] 楊洪柏，陳蕾蕾，李戰(zhàn)偉. 基于短時傅里葉變換的音頻變速算法及其DSP實現(xiàn)[J]. 微型機與應用， 2013（16）： 42-44， 47.

[6] 郭華帥，王暉，李傳珍. 音頻原聲變速軟件的設計與應用[J]. 廣播與電視技術， 2008（1）： 51-54.

[7] 劉剛，張琴珠. 語音變速不變調(diào)軟體化處理方法[J]. 計算機應用與軟件， 2005（7）： 47-48， 96.

[8] 楊波，傅汝林，張知易. 一種改進的客觀音質(zhì)評價方法[J]. 成都理工大學學報（自然科學版）， 2004， 31（1）： 108-110.

[9] 胡冰心. 錄音設備音質(zhì)評價系統(tǒng)的研究[D]. 北京：北京化工大學， 2015.

作者簡介：

靳思雨（1998—），通信作者，女，漢族，北京人，碩士在讀。研究方向：信號處理。

E-mail： 497817035@qq.com

（收稿日期：2020-11-16）

工業(yè)技術創(chuàng)新2020年6期

工業(yè)技術創(chuàng)新的其它文章: 纖維鋅礦Cu2ZnSnS4納米晶的微波法制備與性能研究; 玻纖含量對玻纖增強尼龍66復合材料性能的影響; 用于行星齒輪支架加工的核心零件智能生產(chǎn)線; 船用發(fā)動機V型缸體精鏜孔組合機床研制; CPC1600閥控充液型液力偶合器研發(fā)及應用; 球面管接頭零件快換工裝設計與應用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

樂器輔助學習器音調(diào)保持算法的設計與實現(xiàn)