国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種有效的語音變調(diào)算法研究

2016-12-07 06:30:44梅鐵民吳麗君
關(guān)鍵詞:基音音調(diào)語速

梅鐵民,吳麗君,張 景

(1.沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院, 沈陽 110159;2.河海大學(xué) 水利水電學(xué)院, 南京 210098)

?

一種有效的語音變調(diào)算法研究

梅鐵民1,吳麗君1,張 景2

(1.沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院, 沈陽 110159;2.河海大學(xué) 水利水電學(xué)院, 南京 210098)

在語音信號(hào)處理中,語音變調(diào)技術(shù)是一項(xiàng)非常重要的內(nèi)容。目前采用較多的算法為同步疊加固定合成算法(Synchronized Overlap-Add Fixed Synthesis,SOLA-FS)。該算法簡單,但存在著變調(diào)范圍小、音質(zhì)差等弊端。為了改善變調(diào)語音的音質(zhì),提高語音清晰度,在SOLA-FS算法的基礎(chǔ)上,提出了一種不改變原語音的采樣率,而在播放時(shí)采用設(shè)定的采樣率播放的方法實(shí)現(xiàn)語音變調(diào)。實(shí)驗(yàn)結(jié)果表明,相對(duì)于SOLA-FS算法,新方法明顯地改善了語音在連接點(diǎn)處相位不連續(xù)的問題,具有更好的變調(diào)效果。

語音變調(diào);SOLA-FS算法;采樣率;語音信號(hào)

語音變調(diào)技術(shù)是在不改變語音可懂度并保持語速不發(fā)生變化的前提下,按照某種算法對(duì)給定語音的音調(diào)高低進(jìn)行調(diào)整。隨著信息技術(shù)和多媒體技術(shù)的迅速發(fā)展,音視頻信息越來越多,正常的音頻素材己經(jīng)遠(yuǎn)遠(yuǎn)滿足不了人們對(duì)語音的特殊需求,例如在動(dòng)漫影視中,需要給一些奇人怪物配上表現(xiàn)其特點(diǎn)的奇聲怪調(diào);又如廣播電臺(tái)熱線節(jié)目,為了保護(hù)被采訪人的隱私,必要時(shí)需要對(duì)他們的聲音加以修飾,這些都要用到語音變調(diào)技術(shù)[1]。因此,通過語音變調(diào)可以達(dá)到保護(hù)說話人隱私的目的,或者給人們提供某種娛樂效果,具有很實(shí)際的研究價(jià)值。

目前主要有兩類比較成熟的語音變調(diào)方法:一類是時(shí)域插值拼接方法,例如同步疊加固定合成法(SOLA-FS);另一類是頻域算法,例如相位聲碼器法(phase-vocoder)[2]。時(shí)域處理算法的優(yōu)點(diǎn)是算法簡單,在變調(diào)范圍較小時(shí)效果較好,變調(diào)語音自然度高,但是要想進(jìn)行較大尺度的變調(diào),由于誤差累加效應(yīng)的存在,變調(diào)后語音質(zhì)量很差,所以要想進(jìn)行較大尺度的變調(diào)就只能運(yùn)用頻域算法。但頻域算法要進(jìn)行時(shí)頻變換和估計(jì)相位,還要計(jì)算語音變調(diào)前后的真實(shí)頻率變化,較大的計(jì)算量導(dǎo)致變調(diào)效率不高,而且變調(diào)后語音不自然,有類似于敲打金屬的聲音。目前普遍采用的變調(diào)方法為SOLA-FS算法[3],該變調(diào)方法在功能上能實(shí)現(xiàn)語音變調(diào),但在該方法的時(shí)長規(guī)整階段往往存在數(shù)據(jù)段間銜接點(diǎn)處相位不連續(xù)的問題,使得聲音有明顯的金屬聲和較大噪音。

本文在SOLA-FS的基礎(chǔ)上提出了一種不改變采樣率而改變其播放速率來實(shí)現(xiàn)語音變調(diào)的方法,它既能較好地實(shí)現(xiàn)語音變調(diào)的功能,又改善了銜接點(diǎn)處不連續(xù)的問題。仿真結(jié)果表明,相對(duì)于SOLA-FS算法,新的算法具有較好的變調(diào)效果。

1 同步疊加固定合成算法

首先,簡單介紹SOLA-FS算法。該變調(diào)方法包括采樣率變換和時(shí)長規(guī)整兩步。通過在語音信號(hào)數(shù)據(jù)點(diǎn)之間線性插入新的數(shù)據(jù)點(diǎn),或者在原語音信號(hào)上等間隔抽取一些數(shù)據(jù)點(diǎn)來達(dá)到增加或減少采樣點(diǎn)的目的。若將插值和抽取相結(jié)合,則可以實(shí)現(xiàn)任意倍頻率的變調(diào)。降調(diào)時(shí),進(jìn)行A倍插值,B倍抽取(A>B),使得原始數(shù)據(jù)變長,如果仍然以原始采樣率播放,則語速變慢,若想保持語速不變,必須對(duì)變調(diào)后的信號(hào)進(jìn)行時(shí)長規(guī)整;同理,升調(diào)時(shí)(A

圖1 語音變調(diào)時(shí)的時(shí)長規(guī)整

圖中:W為幀長度;S為幀位移;h為合成幀位移;Kmax為尋找相關(guān)性的最大允許位移;L為交叉漸變區(qū)域長度。

在進(jìn)行時(shí)長規(guī)整時(shí),首先將語音段中的前W個(gè)數(shù)值作為第一幀取出來,直接存入目標(biāo)地址中,組成輸出序列。然后根據(jù)幀位移S的值,從第S+1個(gè)點(diǎn)開始取出下一幀語音(W個(gè)點(diǎn)),然后將這幀語音最前面的L(=W-h)個(gè)點(diǎn)與輸出序列最后的L個(gè)點(diǎn)進(jìn)行比較,得出它們之間的相關(guān)性,并記錄下來。將整個(gè)分析窗口向右平移一個(gè)點(diǎn),再對(duì)新序列中的前L個(gè)點(diǎn)與輸出序列中的后L個(gè)點(diǎn)進(jìn)行比較,同時(shí)記錄下他們的相關(guān)性。這樣重復(fù)做Kmax次,取出相關(guān)性最大的那種情況,將這種情況下,所截取的語音序列的前L個(gè)點(diǎn)與輸出序列的最后L個(gè)點(diǎn)按既定的方式進(jìn)行疊加,再將W個(gè)點(diǎn)的窗口中剩余的h個(gè)點(diǎn)存入到輸出序列中,至此完成了一輪語音幀的疊加操作[5]。按照同樣的方法再對(duì)下一輪語音幀進(jìn)行處理,直至完成全部語音,實(shí)現(xiàn)變調(diào)。

在SOLA-FS語音變調(diào)方法中,幀與幀之間存在重疊,并通過左右平移,尋找對(duì)應(yīng)段間的相關(guān)性最大值,找出最佳移位點(diǎn),從而盡量使幀間過渡自然、平滑。但由于該方法的局限性,即使在語音幀為準(zhǔn)周期的濁音段時(shí),有時(shí)也不能找準(zhǔn)最佳移位點(diǎn),使變調(diào)后的輸出語音在幀與幀之間的銜接點(diǎn)處仍然存在相位不連續(xù)的問題,所以聽起來會(huì)有很明顯的噪音[6],直接影響語音變調(diào)的質(zhì)量。針對(duì)SOLA-FS算法存在的問題,提出一種改進(jìn)算法。

2 對(duì)SOLA-FS的改進(jìn)算法

在SOLA-FS算法中,是按照采樣率變換、時(shí)間規(guī)整的順序進(jìn)行的[7]。在新算法中,將把這個(gè)順序顛倒過來,即先進(jìn)行時(shí)間規(guī)整,然后進(jìn)行采樣率變換。事實(shí)上,采樣率變換這一步完全可以省略掉,并不需要進(jìn)行采樣率變換,而是在播放時(shí)用設(shè)定的變調(diào)采樣率來播放就可以達(dá)到變調(diào)目的。此外,這樣做不僅可以減少語音變調(diào)的計(jì)算量,還有另外的好處,即當(dāng)用原始采樣率播放變調(diào)語音時(shí),相當(dāng)于保持音調(diào)不變的情況下對(duì)原始語音進(jìn)行語速變換,即升調(diào)語音在原始采樣率下播放相當(dāng)于降低語速(音調(diào)不變);降調(diào)語音在原始采樣率下播放相當(dāng)于提升語速(音調(diào)不變)。當(dāng)把語音變調(diào)(語速不變)過程看成是語音變速(音調(diào)不變)過程時(shí),語音變調(diào)算法設(shè)計(jì)更為直觀:即通過改變語音中每個(gè)音素的持續(xù)時(shí)間來實(shí)現(xiàn)語音變調(diào)。

由于對(duì)音頻進(jìn)行處理時(shí),采用分段處理方法,在各個(gè)分段的銜接處處理不好的話,會(huì)出現(xiàn)一些不連續(xù)點(diǎn),產(chǎn)生一些高頻噪音,這是導(dǎo)致變調(diào)語音質(zhì)量下降的主要原因。為此,在變調(diào)過程中,盡量解決由銜接點(diǎn)處不連續(xù)帶來的噪音是提高變調(diào)語音質(zhì)量所要解決的關(guān)鍵問題。

下面將分別就語音升調(diào)、降調(diào)過程進(jìn)行詳細(xì)描述,原理如圖2所示。

語音升調(diào)與語音降調(diào)的波形變換過程本質(zhì)上是一致的,可看做是在原始采樣率下拉長語音中每個(gè)音素的持續(xù)時(shí)間。在不改變語音采樣率的情況下,首先對(duì)語音信號(hào)進(jìn)行分幀,把每一幀語音看成是一個(gè)音素。復(fù)制每幀語音末尾的一段來達(dá)到拉長音素持續(xù)時(shí)間的目的。在濁音段,為了保證復(fù)制段語音與原語音幀銜接時(shí)相位的連續(xù)性,復(fù)制段語音的長度應(yīng)是該濁音段語音基音周期的整數(shù)倍。這涉及到兩個(gè)問題,其一是如何確定對(duì)原語音的分幀長度;其二是如何確定復(fù)制段語音的最優(yōu)長度[8]。

圖2 變調(diào)時(shí)各參數(shù)示意圖

圖中:L為段長度;n為每段抻出來的長度或每段去掉的長度;h為尋找相關(guān)性的最大允許位移;L′為變調(diào)后的長度。

其次,在確定出原始語音的分幀長度后,為了保證語音變調(diào)處理時(shí)相位的連續(xù)性,需要確定復(fù)制段語音的最優(yōu)長度,即一個(gè)基音周期。本文采用相關(guān)函數(shù)法尋找每幀語音(濁音段)最后一段k點(diǎn)語音與它緊鄰的前一段k點(diǎn)語音的最大相關(guān)性,由此確定出復(fù)制段語音的最優(yōu)長度(當(dāng)k取不同值時(shí),只有當(dāng)k等于基音周期時(shí),這兩段的相關(guān)性才達(dá)到最大)。k的取值范圍以長度n為中心,前后移動(dòng)h個(gè)點(diǎn)(通??扇=30),則尋找相關(guān)性的最大允許位移為(n-h)~(n+h)。相鄰兩個(gè)基因周期的互相關(guān)函數(shù)值如圖3所示,最大互相關(guān)系數(shù)max(r)=0.53692。設(shè)置一個(gè)移動(dòng)區(qū)間h,而不是直接選擇設(shè)定好的長度,這是因?yàn)橥粋€(gè)人在不同情態(tài)下發(fā)聲的基音周期不同,加之基音周期還受到單詞發(fā)音音調(diào)的影響,因此每段語音基音周期并不完全一樣,會(huì)有所不同。在清音段非準(zhǔn)周期的情況下,則直接將設(shè)定好的長度n確定為復(fù)制段語音的最優(yōu)長度[8]。

尋找復(fù)制語音段最優(yōu)長度的過程如下:

用xm(n)表示第m幀語音信號(hào),用x(n)表示原始信號(hào)的序列。那么兩者的關(guān)系可以用下面的等式表示:

式中,xk=[xm(L-k),xm(L-k+1),…,xm(L-1)]Τ,

yk=[xm(L-2k),xm(L-2k+1),…,

xm(L-k-1)]Τ。

語音降調(diào)過程與升調(diào)過程相反,是刪除原語音幀中的一段語音,使新語音幀變短。當(dāng)對(duì)原語音降m個(gè)半音時(shí),變調(diào)系數(shù)為γ=2-m/12。

通過以上處理,變調(diào)語音長度是原語音長度的γ倍。播放時(shí),若原播放頻率為f0,則變調(diào)后播放頻率為fs=γ·f0。

圖3 相鄰兩個(gè)基音周期的互相關(guān)函數(shù)圖

3 仿真結(jié)果分析

實(shí)驗(yàn)中,所用的音頻為一英文女聲錄音,采樣頻率為16000Hz,變調(diào)系數(shù)為1.3,即相當(dāng)于音調(diào)升高約5個(gè)半音。設(shè)定幀長L=191,仿真結(jié)果見圖4~圖6。

圖4中的波形由上至下依次為語音升調(diào)、原語音、語音降調(diào)的時(shí)域波形,從圖4可以看出,變調(diào)前后的時(shí)域波形,能量的整體包絡(luò)基本不變,因此,變調(diào)只是對(duì)語音信號(hào)的音高特征做了調(diào)整,并不改變語音信號(hào)的內(nèi)容。

圖4 新算法變調(diào)后語音與原語音時(shí)域?qū)Ρ葓D

圖5、圖6分別為相同內(nèi)容的語音幀用不同的方法變調(diào)后仿真出的結(jié)果。圖5為SOLA-FS算法升調(diào)后的語音波形(已經(jīng)過采樣率變換)與原信號(hào)時(shí)域波形對(duì)比圖,從圖5可以看出,SOLA-FS變調(diào)后的語音在波形上有明顯的相位不連續(xù)處(如圖5中1和2所示),所以導(dǎo)致變調(diào)語音產(chǎn)生高頻噪音,聽上去會(huì)有“咔嚓咔嚓”的噪音。

圖5 SOLA-FS算法變調(diào)后的語音與原信號(hào)時(shí)域?qū)Ρ葓D

圖6為新算法變調(diào)后的語音波形(未經(jīng)采樣率變換)與原信號(hào)時(shí)域波形對(duì)比圖,圖6變調(diào)后的語音波形沒有明顯相位不連續(xù)處,所以在播放時(shí)沒有刺耳的高頻噪音,相對(duì)SOLA-FS算法,新的算法較好地實(shí)現(xiàn)了語音變調(diào)功能,大大改善了銜接點(diǎn)處相位不連續(xù)的問題,使得變調(diào)語音在音質(zhì)上得到了較大提高。

圖6 新算法變調(diào)后的語音與原信號(hào)時(shí)域?qū)Ρ葓D

綜上所述,新的算法比SOLA-FS算法更具優(yōu)勢,因?yàn)镾OLA-FS算法比較的是重疊段的相似度,而新算法比較的是緊鄰部分即語音幀中相鄰兩個(gè)基音周期的相似度。相對(duì)而言,相鄰兩個(gè)基音周期的相關(guān)性更大。

4 變調(diào)效果主觀評(píng)價(jià)

為進(jìn)一步評(píng)估兩種變調(diào)方法的效果,進(jìn)行變調(diào)結(jié)果的主觀測聽實(shí)驗(yàn)。選擇10個(gè)不同內(nèi)容的男聲句子和10個(gè)不同內(nèi)容的女聲句子,采樣率均為16kHz,采用SOLA-FS算法和新算法,分別對(duì)這20句男女聲句子進(jìn)行變調(diào)系數(shù)γ為0.8、1.2、1.5的變調(diào)處理,然后請(qǐng)10位沒有任何語音變調(diào)背景知識(shí)的學(xué)生來對(duì)兩種方法的變調(diào)結(jié)果進(jìn)行測聽,并對(duì)變調(diào)效果作出主觀評(píng)價(jià)。測聽時(shí)將同一變調(diào)系數(shù)下,同一句子對(duì)應(yīng)不同變調(diào)方法的音頻文件隨機(jī)傳輸給測聽者,測聽者選擇其中自然度較好的一個(gè),每個(gè)變調(diào)系數(shù)下的男聲女聲句子共需要做10×10=100次選擇。測聽完成后,計(jì)算出在3個(gè)變調(diào)系數(shù)下,不同變調(diào)方法自然度評(píng)價(jià)的一個(gè)百分?jǐn)?shù):

男女聲變調(diào)效果主觀測聽結(jié)果如圖7和圖8所示。

圖7 男聲變調(diào)效果主觀評(píng)估統(tǒng)計(jì)圖

圖8 女聲變調(diào)效果主觀評(píng)估統(tǒng)計(jì)圖

從圖7、圖8可以看出,對(duì)于男聲和女聲的變調(diào)效果,新的變調(diào)方法比SOLA-FS算法有明顯的優(yōu)勢。另外,還可以看出男聲升調(diào)時(shí)的效果要好于降調(diào),分析其原因,可能是因?yàn)槟新曉谝粽{(diào)上要比女聲低,再進(jìn)一步對(duì)其進(jìn)行降調(diào),會(huì)有失真。因此由圖7可以看出,男聲的變調(diào)系數(shù)為γ=0.8時(shí),新的變調(diào)方法所體現(xiàn)出的優(yōu)勢不如升調(diào)明顯。同理,女聲音頻在變調(diào)系數(shù)為1.5時(shí)優(yōu)勢不如前兩個(gè)變調(diào)系數(shù)明顯??傮w上來講,新的變調(diào)方法是一種效果更好的變調(diào)方法,在改變音調(diào)的同時(shí),也獲得了較好的自然度。

5 結(jié)束語

在SOLA-FS算法的基礎(chǔ)上,提出了一種不改變原信號(hào)采樣率,而是在播放時(shí)采用設(shè)定的變調(diào)采樣率播放的方法,實(shí)現(xiàn)語音音調(diào)的升高或降低。新算法把語音變調(diào)過程看成是語音變速過程,通過改變語音中每個(gè)音素的持續(xù)時(shí)間,實(shí)現(xiàn)語音變調(diào)。同時(shí),針對(duì)由分段處理帶來的相位不連續(xù)問題,新算法通過相關(guān)函數(shù)法,使得復(fù)制段或刪除段語音的最優(yōu)長度為一個(gè)基音周期,明顯改善了上述問題,具有更好的變調(diào)效果。但是,改進(jìn)的算法也存在一定缺陷,需要做進(jìn)一步研究。

[1]賴振興,樊曉龍,秦榮林.具有語音變調(diào)功能的通話裝置及其語音變調(diào)方法:中國,200510023519[P].2005-01-24.

[2]F A R Nascimento,F J Fraga.New methods for improvement of sinusoidal transform vocoders[C]//IEEE International Conference on Multimedia and Expo.Taipei,2004:1159-1162.

[3]蔡杰,葉梧,馮穗力.一種基于SOLA的數(shù)字音頻變調(diào)算法及其在TMS320C6713上的實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2006(12):28-31.

[4]張曉蕊,田嵐.語音變調(diào)方法分析及音效評(píng)估[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2011,41(1):1-6.

[5]張曉蕊.語音變調(diào)算法研究及其在語音合成中的應(yīng)用[D].濟(jì)南:山東大學(xué),2011.

[6]LI Ke,LIU Jia.SOLA based on zero-crossing Point[C]//The Proceedings of the Multi-conference on Computational Engineering in Systems Applications.Beijing,2006:110-112.

[7]JEAN Laroche.Improved Phase Vocoder Time-Scale Modification of Audio[J].IEEE Transactions on Speech and Audio Processing,1997,7(3):323-332.

[8]許雪瓊,于小清.改進(jìn)波形相似疊加算法的音頻時(shí)長調(diào)整[J].應(yīng)用科學(xué)學(xué)報(bào),2009,27(5):514-519.

[9]王曉影.一種有效的語音信號(hào)變調(diào)算法及其實(shí)時(shí)實(shí)現(xiàn)[J].數(shù)據(jù)采集與處理,1998,3(1):42-45.

(責(zé)任編輯:馬金發(fā))

An Efficient Algorithm for Pitch-scale Modification

MEI Tiemin1,WU Lijun1,ZHANG Jing2

(1.Shenyang Ligong University,Shenyang 110159,China;2.Hohai University,Nanjing 210098,China)

Pitch-scale modification technology is an important researching topic in speech signal processing.As all of the algorithms concerned,SOLA-FS is widely used for its simplicity.But there are also some disadvantages,for example,small pitch-scale modification range,poor quality,and so on.In order to improve the pitch-scale modification range and quality,a new algorithm is proposed,on the basis of SOLA-FS,which does not change the original speech sampling rate during speech wave transform.But the modified speech will be played with a new sampling rate.Experimental results show that the new method improves the phase discontinuity at connection point obviously and gives a better tone effect compared with the SOLA-FS algorithm.

pitch-scale modification;SOLA-FS algorithm;sample rate;speech signal

2015-09-09

梅鐵民(1964—),男,教授,博士,研究方向:自適應(yīng)信號(hào)處理。

1003-1251(2016)04-0016-05

TN911

A

猜你喜歡
基音音調(diào)語速
國學(xué)周周讀
國學(xué)周周讀
春的呼喚
新航空(2024年3期)2024-06-03 22:25:26
國學(xué)周周讀
國學(xué)周周讀
基于基音跟蹤的語音增強(qiáng)研究
劉濤《音調(diào)未定的儒家——2004年以來關(guān)于孔子的論爭·序》
名作欣賞(2017年25期)2017-11-06 01:40:12
樂理小知識(shí)
小演奏家(2014年11期)2014-12-17 01:18:52
一種改進(jìn)的基音周期提取算法
決定音調(diào)高低的因素
汉源县| 惠州市| 新乐市| 三河市| 南郑县| 龙门县| 林西县| 都江堰市| 海淀区| 定南县| 云南省| 台湾省| 成武县| 丹棱县| 英吉沙县| 澎湖县| 崇文区| 新闻| 张北县| 哈密市| 华池县| 策勒县| 神农架林区| 仪陇县| 金寨县| 垣曲县| 石棉县| 吉林市| 新化县| 邳州市| 泸水县| 广德县| 都安| 内黄县| 什邡市| 贵阳市| 子长县| 德化县| 长兴县| 和龙市| 多伦县|