李亞文
(商洛學院電子信息與電氣工程學院,陜西商洛726000)
基于LPC的語音信號特征參數(shù)提取算法研究
李亞文
(商洛學院電子信息與電氣工程學院,陜西商洛726000)
提出了一種基于LPC的語音信號特征參數(shù)提取的算法思想,對原始的語音信號進行線性預測建模,估計預算模型參數(shù),提取LPC系數(shù),分析LPC倒譜并計算預測誤差。實驗結(jié)果表明,該算法能較好的提取語音信號的特征參數(shù),且預測重構(gòu)的語音信號誤差較小,易于建模的實現(xiàn),為語音信號處理提供了一種特征參數(shù)提取的方法。
LPC;系統(tǒng)函數(shù);預測誤差;倒譜系數(shù)
LPC(linear predictive coding)又稱線性預測編碼,隨著計算技術(shù)和語音通信技術(shù)的不斷發(fā)展,促使人們對語音信號處理技術(shù)的發(fā)展寄予更高的期望,而線性預測編碼模型是低速高質(zhì)量語音編碼最常用的一種方法。LPC技術(shù)起源于1966年,日本的電話電報公司的S.Saito和F.Itakura描述了一種自動音素識別的方法[1],第一次使用了針對語音編碼的最大似然估計實現(xiàn)。70年代中期,Potter等提出了“visible speech”的概念,指出了語譜圖對語音信號有很強的描述能力,在語音編碼中可以分析其語音幀的語譜圖,1969年Itakura與Saito提出了partial correlation的概念,May Glen Culler建議進行短時譜語音壓縮;1976年,在美國聲學協(xié)會年會上,B.S.Atal展示了第一個LPC語音編碼器[2],會議還通過ARPANET在Culler-Harrison、ISI、SRI與LL之間以3 500位/秒的速度實現(xiàn)語音編碼[2-3];1978年,BBN的Vishwanath etal.開發(fā)了第一個變速LPC算法。我國的線性預測編碼技術(shù)起步較晚,1980年流行的Spell教育玩具中對語音編碼采用P=10階的預測器進行線性預測編碼[3],目前,線性預測模型算法是一種最有效的語音處理技術(shù)[4],尤其是對于低速傳輸?shù)恼Z音通信中,能提取非常精確的語音幀參數(shù),因此可以實現(xiàn)高質(zhì)量的語音通信,備受青睞,得到了廣泛的應(yīng)用。
離散線性時間系統(tǒng)輸出的樣本可以用其輸入樣本值和過去的輸出樣本值的線性組合,即線性預測值來逼近。為了使得預測的均方值最小滿足最佳預測,一般常用自相關(guān)法和協(xié)方差法對矢量系數(shù)預測,能確定唯一對應(yīng)的預測器系數(shù)[5]。確定離散系統(tǒng)的零極點模型,它有兩種特例:全極點模型,又稱自回歸模型,這時預測器只根據(jù)輸出過去的樣本進行預測;全零點模型,又稱滑動平均模型,這時預測器只根據(jù)輸入樣本進行預測。由于全極點模型最易計算,且在語音信號特征提取時不考慮鼻音和部分擦音時,聲道的傳輸函數(shù)是一個全極點函數(shù)[6],因此應(yīng)用較多。
為了保證最佳線性預測,預測均方誤差較小,對原始的語音信號s(n)進行模型參數(shù)估計,建立線性時不變因果穩(wěn)定系統(tǒng)的全極點系統(tǒng)模型H(z),預測器根據(jù)輸出過去的樣本值進行預測當前樣本值,LPC分析的P階線性預測就是利用P個取樣值來線性表示當前的取樣值S(n),若設(shè)過去P個取樣值為{S(n-1),S(n-2),…,S(n-p)},則可以利用其加權(quán)之和表示預測信號Sn(n):
其中式(1)中加權(quán)系數(shù)αk也稱為預測系數(shù)[7],則預測誤差可以表示為:
要使預測最佳,則要使短時平均預測誤差[7]最小有:
最小的ε可表示為:
為了提高線性預測的準確度,使得均方誤差較小,此時的預測模型為最佳的形式,提取的LPC預測系數(shù)誤差也就較小,重構(gòu)的語音信號質(zhì)量較高。
2.1 算法思想
語音信號進行線性預測的基本算法思想是:將模擬的語音信號經(jīng)過取樣、量化和編碼后轉(zhuǎn)化為數(shù)字語音信號,以提高其抗干擾特性,而線性預測是在取樣中將模擬信號在時間上離散化用過去時間上的若干抽樣值去近似線性組合表示當前的抽樣值,為了使重構(gòu)的語音信號與原始的語音信號的預測均方誤差達到最小,從而能較好的提取特征參數(shù),需要預測估計LPC系數(shù),而每組LPC系數(shù)[8]能描述該幀語音特征的矢量,可以得到若干個幀語音信號的特征矢量參數(shù),是進行語音信號預測重構(gòu)的必要條件。
得到
2.2 實現(xiàn)流程
本文實驗中加載了一段原始的語音信號fmt.wav,在matlab中編程實現(xiàn)LPC系數(shù)的計算,通過建立正則方程分析LPC倒譜并計算預測誤差,最后在預測重構(gòu)語音信號,具體的語音信號特征提取實現(xiàn)流程如圖1所示。
圖1 語音信號特征提取實現(xiàn)流程圖
實驗中加載了一段原始的語音信號fmt.wav,在matlab中編程讀入原始語音信號并分析語譜圖如圖2所示。為了較好的預測語音信號,選取較高的預測階數(shù)N=50,對原始的語音信號進行線性預測編碼,并計算預測誤差,如圖3所示為原始語音信號的預測時域波形和預測誤差波形;在matlab中編程使用最佳線性預測的算法思想進行LPC參數(shù)提取,分析原始語音信號的特征參數(shù),計算短時譜和LPC譜,如圖4所示為時域的短時譜和LPC譜;為了使語音信號在聲道中傳輸?shù)南到y(tǒng)函數(shù)H(z)為最小相移函數(shù),可使用LPC倒譜分析并進行線性預測,因此在重構(gòu)預測語音信號時誤差較小,圖5顯示了原始的語音信號的LPC倒譜和預測誤差的倒譜。
圖2 原始語音信號波形和語譜圖
圖3 原始語音預測波形和預測誤差
圖4 短時譜和LPC譜
圖5 語音信號LPC倒譜和預測誤差倒譜
最后通過計算的LPC系數(shù)預測原始語音信號,如圖6所示為N=50階的LPC計算過程,應(yīng)用LPC系數(shù)重構(gòu)預測原始的語音信號,如圖7所示為原始的語音信號和預測的語音信號語譜圖的對比。
圖6 LPC系數(shù)的計算
圖7 原始語音語譜圖和預測語音語譜圖
本文提出了基于LPC算法思想的語音信號特征參數(shù)提取,在語音信號處理中為了提高其抗干擾能力和傳輸中的保密性,要對其進行抽樣、量化和編碼。抽樣的過程就是用過去若干個取樣值的線性組合來逼近原始的抽樣值,使得重構(gòu)的語音信號與原始的語音信號的預測均方誤差達到最小,從而能較好的提取特征參數(shù)。本文在matlab中提取N=50階預測的LPC系數(shù),并重構(gòu)和預測原始的語音信號,通過實驗仿真對比發(fā)現(xiàn)原始的語音信號語譜圖和預測的語音信號的語譜圖很近似,實驗結(jié)果表明,該算法思想對于語音信號的預測誤差較小,可行性較強,值得推廣,為以后語音信號處理和語音通信技術(shù)的發(fā)展提供了理論基礎(chǔ)。
[1]付強,易克初.語音信號的Bark子波變換及其在語音識別中的應(yīng)用[J].電子學報,2000,28(10):102-105.
[2]王京輝.語音信號處理技術(shù)研究[D].濟南:山東大學,2008:5-8.
[3]何彬.基于語音識別和語音合成的漢語語音轉(zhuǎn)換技術(shù)研究[D].昆明:云南大學,2013:21-25.
[4]楊立東,王晶,謝湘,等.基于張量分解模型的語音信號特征提取方法[J].北京理工大學學報,2013,33(11):1171-1175.
[5]李亞文.基于離散變換域的語音合成算法研究[J].商洛學院學報,2013,27(6):49-52.
[6]季云云,楊震.基于自相關(guān)觀測的語音信號壓縮感知[J].信號處理,2011,27(2):207-214..
[7]張震,王化清.語音信號特征提取中Mel倒譜系MFCC的改進算法[J].計算機工程與應(yīng)用,2008,44(22):54-58.
[8]張君昌,李艷艷.基于小波變換的魯棒性語音特征提取新方法[J].計算機仿真,2010,27(8):355-358.
[9]張子鋒,胡建中.基于短時傅里葉變換的滾珠絲杠副絲杠滾道故障定位研究[J].機電工程,2015,32(4):484-487.
[10]王安娜,王勤萬,劉俊芳,等.改進的語音特征提取方法及其應(yīng)用[J].計算機工程,2008,34(5):196-200.
[11]王民,李弼程,屈丹.基于最小方差無失真響應(yīng)譜的語音特征提取[J].信息工程大學學報,2008,9(3):334-338.
(責任編輯:李堆淑)
A LPC-based New Algorithm Research of Extracting Feature Parameters of Speech Signal
LI Ya-wen
(College of Electronic Information and Electrical Engineering,Shangluo University,Shangluo726000,Shaanxi)
An algorithm idea of linear predictive coding in speech feature coefficients extraction is proposed,with linear prediction modeling with the original speech signal,estimation of budget model parameters,extraction of linear predictive coding coefficient,analysis of linear predictive coding cepstrum and calculating of the predictive error.The experiment result snows that the proposed algorithm is invisible and maneuverable to extract the feature parameters,and precision of the reconstruction speech signal with the less prediction error,a new method of extracting the feature parameters is proposed for speech signal processing.
linear predictive coding;system function;prediction error;cepstrum coefficient
TN912.3
A
1674-0033(2015)04-0025-04
10.13440/j.slxy.1674-0033.2015.04.007
2015-05-13
商洛學院科研基金項目(14SKY001)
李亞文,女,陜西華縣人,碩士,講師