徐皓波,于鳳芹
(江南大學物聯(lián)網(wǎng)工程學院,江蘇無錫214122)
基于改進循環(huán)觀測的線性預測語音壓縮感知
徐皓波,于鳳芹
(江南大學物聯(lián)網(wǎng)工程學院,江蘇無錫214122)
利用語音信號線性預測殘差的稀疏性特點可對語音信號進行壓縮感知,但需要信號的線性預測系數(shù)來構(gòu)造稀疏變換矩陣,從而增加預測系數(shù)傳輸?shù)臄?shù)據(jù)量。為此,提出將線性預測系數(shù)存入對角陣向量中構(gòu)造循環(huán)矩陣,由此得到循環(huán)觀測矩陣,再對語音信號進行觀測。提取該循環(huán)矩陣中的線性預測系數(shù)構(gòu)造殘差域稀疏變換矩陣,利用正交匹配追蹤算法對觀測信號進行重構(gòu)。仿真實驗結(jié)果表明,與傳統(tǒng)線性預測方法相比,該方法減少了3.9%以上的數(shù)據(jù)量,且比將高斯隨機矩陣作為觀測矩陣的方法具有更高的幀平均重構(gòu)信噪比。
線性預測;壓縮感知;循環(huán)觀測;殘差域稀疏變換;正交匹配追蹤;重構(gòu)信噪比
壓縮感知是近年來興起的一種信號處理技術(shù),它利用信號在某個變換域的稀疏性,將原始信號的全部信息投影在隨機觀測矩陣上,得到一個維數(shù)較小的觀測向量,通過優(yōu)化算法最終恢復原信號[1]。信號的稀疏性是壓縮感知的前提和基礎(chǔ),直接關(guān)系著壓縮程度和恢復效果[2]。由于語音信號在DCT域是近似稀疏的,目前有關(guān)DCT域語音壓縮感知進行了廣泛的研究。文獻[3]利用語音信號的線性預測殘差具有一定的稀疏性,提出基于線性預測的語音壓縮感知方法,重構(gòu)效果比DCT域方法更好。文獻[4]提出用差分變換提高線性預測殘差的稀疏性,從而提高重構(gòu)效果。文獻[5]提出使用線性預測模型和DFT模型組成的融合字典,為每幀語音提供最適合的原子,獲得更好的重構(gòu)質(zhì)量。使用線性預測方法進行語音的壓縮感知時,需要利用每幀語音的線性預測系數(shù)來構(gòu)造稀疏變換矩陣,額外傳輸每幀信號的預測系數(shù)增加了數(shù)據(jù)量。文獻[6]提出用訓練語音的預測系數(shù)聚類構(gòu)造過完備字典,從而不需要測試語音預測系數(shù)。而文獻[7]提出若前后兩幀相關(guān)性較強則可以使用前幀語音的預測系數(shù)代替后幀,從而減少預測系數(shù)的計算和傳輸。減少傳輸線性預測系數(shù)對線性預測語音壓縮感知十分關(guān)鍵。
本文以線性預測壓縮感知方法為基礎(chǔ),以減少線性預測系數(shù)的數(shù)據(jù)傳輸量為出發(fā)點,對分幀后的各幀語音信號進行線性預測分析;將預測系數(shù)平均分布在循環(huán)矩陣特征值向量中,利用傅里葉變換的性質(zhì)構(gòu)造循環(huán)矩陣,從而實現(xiàn)對語音信號的循環(huán)觀測;從循環(huán)矩陣中提取出各幀信號的線性預測系數(shù)來構(gòu)造對應(yīng)的稀疏變換矩陣,減少預測系數(shù)的額外傳輸;通過OMP正交匹配追蹤算法[8]重構(gòu)信號。
2.1 壓縮感知基本原理
2.2 基于線性預測的稀疏表示
線性預測分析利用了若干個語音取樣的過去值的加權(quán)線性組合來逼近語音取樣的現(xiàn)在值。通過使實際語音抽樣和線性預測抽樣之間差值的平方和達到最小值,能夠唯一決定一組線性組合的加權(quán)系數(shù),即線性預測系數(shù)。對于一個語音信號取樣值x(n),在一定的線性預測系數(shù)ai下,可以根據(jù)信號過去p個取樣值的線性組合來逼近:
其中,e(n)為線性預測分析的殘差。
由于殘差e=[e(1),e(2),…,e(N)]T是通過最小均方誤差準則得出的,理想情況下殘差包含很多零值,具有稀疏性,因此可以利用殘差域?qū)φZ音信號進行稀疏表示。假設(shè)語音信號表示為:x=[x(1),x(2),…, x(N)]T,利用線性預測系數(shù)可以構(gòu)成一個矩陣A:
使得e=Ax,則語音信號可以表示為xx=A-1e。根據(jù)線性預測分析理論,濁音的殘差是以基音周期為周期的單位脈沖序列,有較好的稀疏性,而清音稀疏性較差[4]。
2.3 預測系數(shù)循環(huán)矩陣的構(gòu)造
為了使壓縮感知更具實用性,文獻[11]利用結(jié)構(gòu)化的Toeplitz和循環(huán)矩陣來構(gòu)造觀測,通過對矩陣的分析研究證明了其可行性。假設(shè)矩陣C是一個基本的循環(huán)矩陣,由于循環(huán)矩陣的特殊結(jié)構(gòu),只需矩陣的一列元素就能獲得矩陣全部的信息,大大節(jié)省了存儲計算成本。根據(jù)傅里葉變換的應(yīng)用延伸,可由傅里葉變換矩陣F和對角陣Λ=diag(λ)通過公式C=F-1ΛF得到一個N×N維的循環(huán)矩陣[12]。
然后從循環(huán)矩陣中隨機抽取M行組成一個M× N的矩陣,即可作為壓縮感知中的觀測矩陣。在利用傅里葉變換構(gòu)造循環(huán)矩陣時,特征值對角陣元素直接影響循環(huán)矩陣中的元素,從而影響到循環(huán)觀測矩陣能否滿足投影采樣時所需的非相關(guān)性,一般對角陣中元素通常使用正負1的伯努利分布。因此,構(gòu)造循環(huán)觀測矩陣只需要傳輸一個長度為N的隨機分布向量,由此得到N×N維的循環(huán)矩陣,再得到M×N的觀測矩陣。而在傳統(tǒng)的線性預測語音壓縮感知研究中,如何減少預測系數(shù)的傳輸一直是研究的重點,無論是訓練過完備字典還是利用幀間相關(guān)特性對預測系數(shù)進行重復利用,都在預測系數(shù)本身考慮。本文卻是從另一個角度,利用傅里葉變換構(gòu)造循環(huán)矩陣的性質(zhì),將各幀語音的線性預測系數(shù)存入特征值對角陣Λ=diag(λ),即確定對角陣固定位置的取值為一個線性預測系數(shù),該對角陣各特征值組成的向量如下式所示:
通過包含預測系數(shù)的對角陣構(gòu)造循環(huán)矩陣,從而對語音進行循環(huán)觀測。確定預測系數(shù)在對角陣中的位置,就可以由循環(huán)矩陣中還原出線性預測系數(shù),減少了構(gòu)造稀疏變換矩陣時預測系數(shù)的數(shù)據(jù)量。
本文關(guān)于循環(huán)觀測改進的線性預測語音壓縮感知的具體步驟如下:
(1)將語音信號進行分幀處理,對各幀信號進行線性預測分析,得到預測系數(shù)ai。
(2)將預測系數(shù)ai以固定位置賦值于呈正負1的伯努利分布的向量λ=[λ0,λ1,…,λN-1]中。
(3)由傅里葉變換矩陣F和對角陣Λ=diag(λ)通過公式C=F-1ΛF得到一個包含預測系數(shù)信息的N×N維循環(huán)矩陣。從N×N維方陣中隨機抽取M行構(gòu)成M×N維的矩陣的循環(huán)觀測矩陣Φ。
(4)由循環(huán)矩陣C反推出該幀信號的線性預測系數(shù),構(gòu)造出對應(yīng)該幀的殘差變換矩陣A。
(5)各幀信號x(i)經(jīng)過循環(huán)觀測矩陣Φ投影得到觀測y(i),通過OMP算法重構(gòu)信號,字典為D=ΦA(chǔ)-1,得到殘差系數(shù)e的估計e′,從而得到x(i)的重構(gòu)x′(i)=A-1e′。
(6)由各幀信號合成得到原始語音的重構(gòu)。
實驗1主要研究了語音信號在線性預測殘差域下稀疏性及重構(gòu)效果。給定一段16 kHz的男聲發(fā)音為“大發(fā)”的漢語語音,從其中的韻母a和聲母f中分別截取一幀信號分別代表濁音和清音,幀長為320個采樣點。圖1所示為該2幀信號時域波形及其在線性預測殘差域下的稀疏系數(shù)分布。
圖1 濁音幀與清音幀的時域波形及線性殘差域稀疏性
觀察圖1發(fā)現(xiàn)濁音幀的時域波形具有明顯的周期性,且振幅較大,在線性預測殘差域上展現(xiàn)出較好的稀疏性;而清音幀的時域波形類似于白噪聲,且振幅較小,沒有明顯的周期性,在線性預測殘差域上稀疏性較差。對整段語音線性預測殘差域的稀疏表示下進行壓縮感知重構(gòu),使用高斯隨機矩陣進行觀測,壓縮比r=M/N分別取0.8和0.6,線性預測系數(shù)取10階,利用OMP算法進行恢復,以各幀重構(gòu)信噪比進行比較。
圖2所示為基于線性預測語音壓縮感知方案的各幀信噪比情況。觀察圖2發(fā)現(xiàn)部分幀的重構(gòu)信噪比急劇下降,分析語音可以發(fā)現(xiàn)這些幀都屬于清音幀,稀疏性較差,故重構(gòu)質(zhì)量不佳。但由于語音的重要信息大多數(shù)都在濁音部分,清音重構(gòu)雖然存在較大誤差也可以忽略;濁音幀部分重構(gòu)信噪比則相對比較理想。而隨著壓縮比的提高,各幀信噪比也相應(yīng)提高。
圖2 不同壓縮比線性預測殘差域的各幀重構(gòu)信噪比
實驗2研究了在線性預測語音壓縮感知下使用高斯隨機矩陣和預測系數(shù)循環(huán)觀測矩陣的重構(gòu)效果及傳送數(shù)據(jù)量。首先對語音進行分幀,對各幀語音進行10階的線性預測分析,得到預測系數(shù),再由預測系數(shù)構(gòu)造循環(huán)矩陣,從而得到循環(huán)觀測矩陣,分別以不同壓縮比進行觀測,計算各幀信號的重構(gòu)信噪比,然后得到幀平均重構(gòu)信噪比。圖3為不同壓縮比下使用2種觀測矩陣的平均重構(gòu)信噪比情況。
圖3 2種觀測矩陣的幀平均重構(gòu)信噪比
表1為預測階數(shù)為10時不同壓縮比下節(jié)省數(shù)據(jù)量的比例,數(shù)據(jù)量=(觀測數(shù)目 +預測階數(shù))×幀數(shù)。
表1 各壓縮比和減少的數(shù)據(jù)量比例
預測系數(shù)循環(huán)觀測在大多數(shù)壓縮比情形下平均重構(gòu)信噪比均高于高斯隨機矩陣觀測,不僅提高重構(gòu)效果,還從另一角度減少了傳遞預測系數(shù)的步驟,突破了傳統(tǒng)線性預測的語音壓縮感知的局限,減少數(shù)據(jù)量比例達到3.9%以上,增強了實用性。
本文提出使用包含預測系數(shù)信息的循環(huán)矩陣構(gòu)造觀測,在構(gòu)造觀測矩陣的同時可以提取預測系數(shù),不需要額外地傳輸預測系數(shù),提高了線性預測壓縮感知方法的實用性。仿真實驗結(jié)果證明了線性預測的語音壓縮感知方法有較好的重構(gòu)效果;使用預測系數(shù)循環(huán)矩陣構(gòu)造觀測,不僅減少了預測系數(shù)的傳遞,而且比起高斯隨機矩陣有更高的平均信噪比。因此,選擇一種合適的稀疏表示直接關(guān)系到信號的重構(gòu)效果,而尋找更為有效快速的重構(gòu)算法也是今后研究的重點。
[1] Donoho D.Compressed Sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[2] Candes E J,Romberg J.Sparsity and Incoherence in Compressive Sampling[J].Inverse Problems,2007,23 (3):969-985.
[3] Giacobello D,Christensen M G,Murthi M N.Retrieving Sparse Patterns Using a Compressed Sensing Framework: Applications to Speech Coding Based on Sparse Linear Prediction[J].IEEE Signal Processing Letters,2010,17 (1):103-106.
[4] 高 悅,陳硯圃,閔 剛,等.基于線性預測分析和差分變換的語音信號壓縮感知[J].電子與信息學報, 2012,34(6):1408-1413.
[5] Wang Yue,Xu Zhixing,Li Gang,et al.Compressed Sensing Framework for Speech Signal Synthesis Using a Hybrid Dictionary[C]//Proc.of the 4th International Congress on Image and Signal Processing.[S.l.]:IEEE Press,2011:2400-2403.
[6] 孫林慧,楊 震,季云云,等.基于過完備線性預測字典的壓縮感知語音重構(gòu)[J].儀器儀表學報,2012,33 (4):743-749.
[7] 趙 翠,周 遙,毛鑫萍,等.基于線性預測的自適應(yīng)語音壓縮感知[J].杭州電子科技大學學報,2012,32 (4):13-16.
[8] Pati Y C,Rezaifar R K.Orthogonal Matching Pursuit: Recursive Function Approximation with Applications to Wavelet Decomposition[C]//Proc.of the 27th Annual Asilomar Conference in Signals,Systems and Computers.Pacific Grove,USA:[s.n.],1993:40-44.
[9] Tsaig Y,Donoho D.Extensions of Compressed Sensing[J].Signal Processing,2006,86(3):533-548.
[10] Emmanuel C,Terence T.Near Optimal Signal Recovery from Random Projections:Universal Encoding Strategies[J].IEEE Transactions on Information Theory,2006,52 (12):5406-5425.
[11] Holger R. Circulant and Toeplitz Matrices in CompressedSensing[C]//Proc.ofSPARS'09.Saint Malo,France:[s.n.],2009.
[12] Rao K R,Kim D N,Hwang J J.Fast Fourier Transform: Algorithms and Applications[M].Arlington,USA: Springer,2010:34-37.
編輯 顧逸斐
Linear Predictive Speech Compressed Sensing Based on Improved Circulant Observation
XU Haobo,YU Fengqin
(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)
The sparsity of the linear predictive residual of speech signal can be used in the speech compressed sensing, but needs the predictive coefficients of the signal to build sparse transformational matrix increasing the data.This paper proposes to save the linear predictive coefficients into diagonal matrix in order to build circulant matrix,and measures the speech signal in circulant way,extracts the linear predictive coefficients from circulant matrix to build sparse transformational matrix in residual domain,and reconstructs the speech with Orthogonal Matching Pursuit(OMP) algorithm.Simulation experimental result shows that,using circulant measure built by predictive coefficients decreases 3.9%data more than the original linear predictive method,and has higher reconstruction signal to noise ratio per-frame than the Gaussian random matrix as measure matrix.
linear prediction;compressed sensing;circulant observation;sparse transformation in residual domain; Orthogonal Matching Pursuit(OMP);reconstruction signal to noise ratio
1000-3428(2014)11-0278-04
A
TN911.7
10.3969/j.issn.1000-3428.2014.11.055
國家自然科學基金資助項目(61075008)。
徐皓波(1988-),男,碩士研究生,主研方向:語音信號處理;于鳳芹,教授。
2013-10-10
2013-11-29E-mail:xhb316@qq.com
中文引用格式:徐皓波,于鳳芹.基于改進循環(huán)觀測的線性預測語音壓縮感知[J].計算機工程,2014,40(11):278-281.
英文引用格式:Xu Haobo,Yu Fengqin.Linear Predictive Speech Compressed Sensing Based on Improved Circulant Observation[J].Computer Engineering,2014,40(11):278-281.