一種有效的語音變調(diào)算法研究

2016-12-07 06:30:44梅鐵民吳麗君

沈陽理工大學(xué)學(xué)報(bào) 2016年4期

關(guān)鍵詞：基音音調(diào)語速

梅鐵民，吳麗君，張景

(1.沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院，沈陽 110159；2.河海大學(xué) 水利水電學(xué)院，南京 210098)

一種有效的語音變調(diào)算法研究

梅鐵民1，吳麗君1，張景2

(1.沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院，沈陽 110159；2.河海大學(xué) 水利水電學(xué)院，南京 210098)

在語音信號(hào)處理中，語音變調(diào)技術(shù)是一項(xiàng)非常重要的內(nèi)容。目前采用較多的算法為同步疊加固定合成算法(Synchronized Overlap-Add Fixed Synthesis,SOLA-FS)。該算法簡單，但存在著變調(diào)范圍小、音質(zhì)差等弊端。為了改善變調(diào)語音的音質(zhì)，提高語音清晰度，在SOLA-FS算法的基礎(chǔ)上，提出了一種不改變原語音的采樣率，而在播放時(shí)采用設(shè)定的采樣率播放的方法實(shí)現(xiàn)語音變調(diào)。實(shí)驗(yàn)結(jié)果表明，相對(duì)于SOLA-FS算法，新方法明顯地改善了語音在連接點(diǎn)處相位不連續(xù)的問題，具有更好的變調(diào)效果。

語音變調(diào)；SOLA-FS算法；采樣率；語音信號(hào)

語音變調(diào)技術(shù)是在不改變語音可懂度并保持語速不發(fā)生變化的前提下，按照某種算法對(duì)給定語音的音調(diào)高低進(jìn)行調(diào)整。隨著信息技術(shù)和多媒體技術(shù)的迅速發(fā)展，音視頻信息越來越多，正常的音頻素材己經(jīng)遠(yuǎn)遠(yuǎn)滿足不了人們對(duì)語音的特殊需求，例如在動(dòng)漫影視中，需要給一些奇人怪物配上表現(xiàn)其特點(diǎn)的奇聲怪調(diào)；又如廣播電臺(tái)熱線節(jié)目，為了保護(hù)被采訪人的隱私，必要時(shí)需要對(duì)他們的聲音加以修飾，這些都要用到語音變調(diào)技術(shù)[1]。因此，通過語音變調(diào)可以達(dá)到保護(hù)說話人隱私的目的，或者給人們提供某種娛樂效果，具有很實(shí)際的研究價(jià)值。

目前主要有兩類比較成熟的語音變調(diào)方法：一類是時(shí)域插值拼接方法，例如同步疊加固定合成法(SOLA-FS);另一類是頻域算法，例如相位聲碼器法(phase-vocoder)[2]。時(shí)域處理算法的優(yōu)點(diǎn)是算法簡單，在變調(diào)范圍較小時(shí)效果較好，變調(diào)語音自然度高，但是要想進(jìn)行較大尺度的變調(diào)，由于誤差累加效應(yīng)的存在，變調(diào)后語音質(zhì)量很差，所以要想進(jìn)行較大尺度的變調(diào)就只能運(yùn)用頻域算法。但頻域算法要進(jìn)行時(shí)頻變換和估計(jì)相位，還要計(jì)算語音變調(diào)前后的真實(shí)頻率變化，較大的計(jì)算量導(dǎo)致變調(diào)效率不高，而且變調(diào)后語音不自然，有類似于敲打金屬的聲音。目前普遍采用的變調(diào)方法為SOLA-FS算法[3]，該變調(diào)方法在功能上能實(shí)現(xiàn)語音變調(diào)，但在該方法的時(shí)長規(guī)整階段往往存在數(shù)據(jù)段間銜接點(diǎn)處相位不連續(xù)的問題，使得聲音有明顯的金屬聲和較大噪音。

本文在SOLA-FS的基礎(chǔ)上提出了一種不改變采樣率而改變其播放速率來實(shí)現(xiàn)語音變調(diào)的方法，它既能較好地實(shí)現(xiàn)語音變調(diào)的功能，又改善了銜接點(diǎn)處不連續(xù)的問題。仿真結(jié)果表明，相對(duì)于SOLA-FS算法，新的算法具有較好的變調(diào)效果。

1 同步疊加固定合成算法

首先，簡單介紹SOLA-FS算法。該變調(diào)方法包括采樣率變換和時(shí)長規(guī)整兩步。通過在語音信號(hào)數(shù)據(jù)點(diǎn)之間線性插入新的數(shù)據(jù)點(diǎn)，或者在原語音信號(hào)上等間隔抽取一些數(shù)據(jù)點(diǎn)來達(dá)到增加或減少采樣點(diǎn)的目的。若將插值和抽取相結(jié)合，則可以實(shí)現(xiàn)任意倍頻率的變調(diào)。降調(diào)時(shí)，進(jìn)行A倍插值，B倍抽取(A>B)，使得原始數(shù)據(jù)變長，如果仍然以原始采樣率播放，則語速變慢，若想保持語速不變，必須對(duì)變調(diào)后的信號(hào)進(jìn)行時(shí)長規(guī)整；同理，升調(diào)時(shí)(A

圖1 語音變調(diào)時(shí)的時(shí)長規(guī)整

圖中：W為幀長度；S為幀位移；h為合成幀位移；Kmax為尋找相關(guān)性的最大允許位移；L為交叉漸變區(qū)域長度。

在進(jìn)行時(shí)長規(guī)整時(shí)，首先將語音段中的前W個(gè)數(shù)值作為第一幀取出來，直接存入目標(biāo)地址中，組成輸出序列。然后根據(jù)幀位移S的值，從第S+1個(gè)點(diǎn)開始取出下一幀語音(W個(gè)點(diǎn))，然后將這幀語音最前面的L(=W-h)個(gè)點(diǎn)與輸出序列最后的L個(gè)點(diǎn)進(jìn)行比較，得出它們之間的相關(guān)性，并記錄下來。將整個(gè)分析窗口向右平移一個(gè)點(diǎn)，再對(duì)新序列中的前L個(gè)點(diǎn)與輸出序列中的后L個(gè)點(diǎn)進(jìn)行比較，同時(shí)記錄下他們的相關(guān)性。這樣重復(fù)做Kmax次，取出相關(guān)性最大的那種情況，將這種情況下，所截取的語音序列的前L個(gè)點(diǎn)與輸出序列的最后L個(gè)點(diǎn)按既定的方式進(jìn)行疊加，再將W個(gè)點(diǎn)的窗口中剩余的h個(gè)點(diǎn)存入到輸出序列中，至此完成了一輪語音幀的疊加操作[5]。按照同樣的方法再對(duì)下一輪語音幀進(jìn)行處理，直至完成全部語音，實(shí)現(xiàn)變調(diào)。

在SOLA-FS語音變調(diào)方法中，幀與幀之間存在重疊，并通過左右平移，尋找對(duì)應(yīng)段間的相關(guān)性最大值，找出最佳移位點(diǎn)，從而盡量使幀間過渡自然、平滑。但由于該方法的局限性，即使在語音幀為準(zhǔn)周期的濁音段時(shí)，有時(shí)也不能找準(zhǔn)最佳移位點(diǎn)，使變調(diào)后的輸出語音在幀與幀之間的銜接點(diǎn)處仍然存在相位不連續(xù)的問題，所以聽起來會(huì)有很明顯的噪音[6]，直接影響語音變調(diào)的質(zhì)量。針對(duì)SOLA-FS算法存在的問題，提出一種改進(jìn)算法。

2 對(duì)SOLA-FS的改進(jìn)算法

在SOLA-FS算法中，是按照采樣率變換、時(shí)間規(guī)整的順序進(jìn)行的[7]。在新算法中，將把這個(gè)順序顛倒過來，即先進(jìn)行時(shí)間規(guī)整，然后進(jìn)行采樣率變換。事實(shí)上，采樣率變換這一步完全可以省略掉，并不需要進(jìn)行采樣率變換，而是在播放時(shí)用設(shè)定的變調(diào)采樣率來播放就可以達(dá)到變調(diào)目的。此外，這樣做不僅可以減少語音變調(diào)的計(jì)算量，還有另外的好處，即當(dāng)用原始采樣率播放變調(diào)語音時(shí)，相當(dāng)于保持音調(diào)不變的情況下對(duì)原始語音進(jìn)行語速變換，即升調(diào)語音在原始采樣率下播放相當(dāng)于降低語速(音調(diào)不變)；降調(diào)語音在原始采樣率下播放相當(dāng)于提升語速(音調(diào)不變)。當(dāng)把語音變調(diào)(語速不變)過程看成是語音變速(音調(diào)不變)過程時(shí)，語音變調(diào)算法設(shè)計(jì)更為直觀：即通過改變語音中每個(gè)音素的持續(xù)時(shí)間來實(shí)現(xiàn)語音變調(diào)。

由于對(duì)音頻進(jìn)行處理時(shí)，采用分段處理方法，在各個(gè)分段的銜接處處理不好的話，會(huì)出現(xiàn)一些不連續(xù)點(diǎn)，產(chǎn)生一些高頻噪音，這是導(dǎo)致變調(diào)語音質(zhì)量下降的主要原因。為此，在變調(diào)過程中，盡量解決由銜接點(diǎn)處不連續(xù)帶來的噪音是提高變調(diào)語音質(zhì)量所要解決的關(guān)鍵問題。

下面將分別就語音升調(diào)、降調(diào)過程進(jìn)行詳細(xì)描述，原理如圖2所示。

語音升調(diào)與語音降調(diào)的波形變換過程本質(zhì)上是一致的，可看做是在原始采樣率下拉長語音中每個(gè)音素的持續(xù)時(shí)間。在不改變語音采樣率的情況下，首先對(duì)語音信號(hào)進(jìn)行分幀，把每一幀語音看成是一個(gè)音素。復(fù)制每幀語音末尾的一段來達(dá)到拉長音素持續(xù)時(shí)間的目的。在濁音段，為了保證復(fù)制段語音與原語音幀銜接時(shí)相位的連續(xù)性，復(fù)制段語音的長度應(yīng)是該濁音段語音基音周期的整數(shù)倍。這涉及到兩個(gè)問題，其一是如何確定對(duì)原語音的分幀長度；其二是如何確定復(fù)制段語音的最優(yōu)長度[8]。

圖2 變調(diào)時(shí)各參數(shù)示意圖

圖中：L為段長度；n為每段抻出來的長度或每段去掉的長度；h為尋找相關(guān)性的最大允許位移；L′為變調(diào)后的長度。

其次，在確定出原始語音的分幀長度后，為了保證語音變調(diào)處理時(shí)相位的連續(xù)性，需要確定復(fù)制段語音的最優(yōu)長度，即一個(gè)基音周期。本文采用相關(guān)函數(shù)法尋找每幀語音(濁音段)最后一段k點(diǎn)語音與它緊鄰的前一段k點(diǎn)語音的最大相關(guān)性，由此確定出復(fù)制段語音的最優(yōu)長度(當(dāng)k取不同值時(shí)，只有當(dāng)k等于基音周期時(shí)，這兩段的相關(guān)性才達(dá)到最大)。k的取值范圍以長度n為中心，前后移動(dòng)h個(gè)點(diǎn)(通?？扇=30)，則尋找相關(guān)性的最大允許位移為(n-h)～(n+h)。相鄰兩個(gè)基因周期的互相關(guān)函數(shù)值如圖3所示，最大互相關(guān)系數(shù)max(r)=0.53692。設(shè)置一個(gè)移動(dòng)區(qū)間h，而不是直接選擇設(shè)定好的長度，這是因?yàn)橥粋€(gè)人在不同情態(tài)下發(fā)聲的基音周期不同，加之基音周期還受到單詞發(fā)音音調(diào)的影響，因此每段語音基音周期并不完全一樣，會(huì)有所不同。在清音段非準(zhǔn)周期的情況下，則直接將設(shè)定好的長度n確定為復(fù)制段語音的最優(yōu)長度[8]。

尋找復(fù)制語音段最優(yōu)長度的過程如下：

用xm(n)表示第m幀語音信號(hào)，用x(n)表示原始信號(hào)的序列。那么兩者的關(guān)系可以用下面的等式表示:

式中，xk=[xm(L-k),xm(L-k+1),…,xm(L-1)]Τ，

yk=[xm(L-2k),xm(L-2k+1),…,

xm(L-k-1)]Τ。

語音降調(diào)過程與升調(diào)過程相反，是刪除原語音幀中的一段語音，使新語音幀變短。當(dāng)對(duì)原語音降m個(gè)半音時(shí)，變調(diào)系數(shù)為γ=2-m/12。

通過以上處理，變調(diào)語音長度是原語音長度的γ倍。播放時(shí)，若原播放頻率為f0，則變調(diào)后播放頻率為fs=γ·f0。

圖3 相鄰兩個(gè)基音周期的互相關(guān)函數(shù)圖

3 仿真結(jié)果分析

實(shí)驗(yàn)中，所用的音頻為一英文女聲錄音，采樣頻率為16000Hz，變調(diào)系數(shù)為1.3，即相當(dāng)于音調(diào)升高約5個(gè)半音。設(shè)定幀長L=191，仿真結(jié)果見圖4～圖6。

圖4中的波形由上至下依次為語音升調(diào)、原語音、語音降調(diào)的時(shí)域波形，從圖4可以看出，變調(diào)前后的時(shí)域波形，能量的整體包絡(luò)基本不變，因此，變調(diào)只是對(duì)語音信號(hào)的音高特征做了調(diào)整，并不改變語音信號(hào)的內(nèi)容。

圖4 新算法變調(diào)后語音與原語音時(shí)域?qū)Ρ葓D

圖5、圖6分別為相同內(nèi)容的語音幀用不同的方法變調(diào)后仿真出的結(jié)果。圖5為SOLA-FS算法升調(diào)后的語音波形(已經(jīng)過采樣率變換)與原信號(hào)時(shí)域波形對(duì)比圖，從圖5可以看出，SOLA-FS變調(diào)后的語音在波形上有明顯的相位不連續(xù)處(如圖5中1和2所示)，所以導(dǎo)致變調(diào)語音產(chǎn)生高頻噪音，聽上去會(huì)有“咔嚓咔嚓”的噪音。

圖5 SOLA-FS算法變調(diào)后的語音與原信號(hào)時(shí)域?qū)Ρ葓D

圖6為新算法變調(diào)后的語音波形(未經(jīng)采樣率變換)與原信號(hào)時(shí)域波形對(duì)比圖，圖6變調(diào)后的語音波形沒有明顯相位不連續(xù)處，所以在播放時(shí)沒有刺耳的高頻噪音，相對(duì)SOLA-FS算法，新的算法較好地實(shí)現(xiàn)了語音變調(diào)功能，大大改善了銜接點(diǎn)處相位不連續(xù)的問題，使得變調(diào)語音在音質(zhì)上得到了較大提高。

圖6 新算法變調(diào)后的語音與原信號(hào)時(shí)域?qū)Ρ葓D

綜上所述，新的算法比SOLA-FS算法更具優(yōu)勢，因?yàn)镾OLA-FS算法比較的是重疊段的相似度，而新算法比較的是緊鄰部分即語音幀中相鄰兩個(gè)基音周期的相似度。相對(duì)而言，相鄰兩個(gè)基音周期的相關(guān)性更大。

4 變調(diào)效果主觀評(píng)價(jià)

為進(jìn)一步評(píng)估兩種變調(diào)方法的效果，進(jìn)行變調(diào)結(jié)果的主觀測聽實(shí)驗(yàn)。選擇10個(gè)不同內(nèi)容的男聲句子和10個(gè)不同內(nèi)容的女聲句子，采樣率均為16kHz，采用SOLA-FS算法和新算法，分別對(duì)這20句男女聲句子進(jìn)行變調(diào)系數(shù)γ為0.8、1.2、1.5的變調(diào)處理，然后請(qǐng)10位沒有任何語音變調(diào)背景知識(shí)的學(xué)生來對(duì)兩種方法的變調(diào)結(jié)果進(jìn)行測聽，并對(duì)變調(diào)效果作出主觀評(píng)價(jià)。測聽時(shí)將同一變調(diào)系數(shù)下，同一句子對(duì)應(yīng)不同變調(diào)方法的音頻文件隨機(jī)傳輸給測聽者，測聽者選擇其中自然度較好的一個(gè)，每個(gè)變調(diào)系數(shù)下的男聲女聲句子共需要做10×10=100次選擇。測聽完成后，計(jì)算出在3個(gè)變調(diào)系數(shù)下，不同變調(diào)方法自然度評(píng)價(jià)的一個(gè)百分?jǐn)?shù)：

男女聲變調(diào)效果主觀測聽結(jié)果如圖7和圖8所示。

圖7 男聲變調(diào)效果主觀評(píng)估統(tǒng)計(jì)圖

圖8 女聲變調(diào)效果主觀評(píng)估統(tǒng)計(jì)圖

從圖7、圖8可以看出，對(duì)于男聲和女聲的變調(diào)效果，新的變調(diào)方法比SOLA-FS算法有明顯的優(yōu)勢。另外，還可以看出男聲升調(diào)時(shí)的效果要好于降調(diào)，分析其原因，可能是因?yàn)槟新曉谝粽{(diào)上要比女聲低，再進(jìn)一步對(duì)其進(jìn)行降調(diào)，會(huì)有失真。因此由圖7可以看出，男聲的變調(diào)系數(shù)為γ=0.8時(shí)，新的變調(diào)方法所體現(xiàn)出的優(yōu)勢不如升調(diào)明顯。同理，女聲音頻在變調(diào)系數(shù)為1.5時(shí)優(yōu)勢不如前兩個(gè)變調(diào)系數(shù)明顯?？傮w上來講，新的變調(diào)方法是一種效果更好的變調(diào)方法，在改變音調(diào)的同時(shí)，也獲得了較好的自然度。

5 結(jié)束語

在SOLA-FS算法的基礎(chǔ)上，提出了一種不改變原信號(hào)采樣率，而是在播放時(shí)采用設(shè)定的變調(diào)采樣率播放的方法，實(shí)現(xiàn)語音音調(diào)的升高或降低。新算法把語音變調(diào)過程看成是語音變速過程，通過改變語音中每個(gè)音素的持續(xù)時(shí)間，實(shí)現(xiàn)語音變調(diào)。同時(shí)，針對(duì)由分段處理帶來的相位不連續(xù)問題，新算法通過相關(guān)函數(shù)法，使得復(fù)制段或刪除段語音的最優(yōu)長度為一個(gè)基音周期，明顯改善了上述問題，具有更好的變調(diào)效果。但是，改進(jìn)的算法也存在一定缺陷，需要做進(jìn)一步研究。

[1]賴振興，樊曉龍，秦榮林.具有語音變調(diào)功能的通話裝置及其語音變調(diào)方法：中國，200510023519[P].2005-01-24.

[2]F A R Nascimento,F J Fraga.New methods for improvement of sinusoidal transform vocoders[C]//IEEE International Conference on Multimedia and Expo.Taipei,2004:1159-1162.

[3]蔡杰，葉梧，馮穗力.一種基于SOLA的數(shù)字音頻變調(diào)算法及其在TMS320C6713上的實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用，2006(12)：28-31.

[4]張曉蕊，田嵐.語音變調(diào)方法分析及音效評(píng)估[J].山東大學(xué)學(xué)報(bào):工學(xué)版，2011,41(1):1-6.

[5]張曉蕊.語音變調(diào)算法研究及其在語音合成中的應(yīng)用[D].濟(jì)南:山東大學(xué)，2011.

[6]LI Ke，LIU Jia.SOLA based on zero-crossing Point[C]//The Proceedings of the Multi-conference on Computational Engineering in Systems Applications.Beijing,2006:110-112.

[7]JEAN Laroche.Improved Phase Vocoder Time-Scale Modification of Audio[J].IEEE Transactions on Speech and Audio Processing,1997，7(3):323-332.

[8]許雪瓊，于小清.改進(jìn)波形相似疊加算法的音頻時(shí)長調(diào)整[J].應(yīng)用科學(xué)學(xué)報(bào)，2009，27(5):514-519.

[9]王曉影.一種有效的語音信號(hào)變調(diào)算法及其實(shí)時(shí)實(shí)現(xiàn)[J].數(shù)據(jù)采集與處理，1998，3(1):42-45.

(責(zé)任編輯：馬金發(fā))

An Efficient Algorithm for Pitch-scale Modification

MEI Tiemin1,WU Lijun1,ZHANG Jing2

(1.Shenyang Ligong University,Shenyang 110159,China;2.Hohai University,Nanjing 210098,China)

Pitch-scale modification technology is an important researching topic in speech signal processing.As all of the algorithms concerned,SOLA-FS is widely used for its simplicity.But there are also some disadvantages,for example,small pitch-scale modification range,poor quality,and so on.In order to improve the pitch-scale modification range and quality,a new algorithm is proposed,on the basis of SOLA-FS,which does not change the original speech sampling rate during speech wave transform.But the modified speech will be played with a new sampling rate.Experimental results show that the new method improves the phase discontinuity at connection point obviously and gives a better tone effect compared with the SOLA-FS algorithm.

pitch-scale modification;SOLA-FS algorithm;sample rate;speech signal

2015-09-09

梅鐵民(1964—)，男，教授，博士，研究方向：自適應(yīng)信號(hào)處理。

1003-1251(2016)04-0016-05

TN911

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種有效的語音變調(diào)算法研究

1 同步疊加固定合成算法

2 對(duì)SOLA-FS的改進(jìn)算法

3 仿真結(jié)果分析

4 變調(diào)效果主觀評(píng)價(jià)

5 結(jié)束語