陳 益,李文鈞
(杭州電子科技大學(xué) 電子信息學(xué)院,浙江 杭州 310018)
上世紀(jì)以來(lái),奈奎斯特采樣定理[1]支配著所有的信息傳輸、處理及存儲(chǔ)。若要不失真地重構(gòu)出原信號(hào),采樣頻率必須不小于奈奎斯特頻率的兩倍[2]。但由于采樣頻率越來(lái)越高,計(jì)算量越來(lái)越大,導(dǎo)致硬件的處理速度難以滿足現(xiàn)代人對(duì)信息處理的要求。
2006年美國(guó)斯坦福大學(xué)的Donoho和Candes從信號(hào)的分解和逼近理論提出了壓縮感知(Compressed Sensing,CS)[3]。壓縮感知理論認(rèn)為:若信號(hào)在某一個(gè)變換域上是可壓縮的或者稀疏的,則可利用一個(gè)與它的變換基不相關(guān)的觀測(cè)矩陣將其變換而得到的高維度的信號(hào)投影到一個(gè)低維度的空間上,根據(jù)少量的觀測(cè)值,通過(guò)求解其優(yōu)化性的問(wèn)題,并可從少量的投影中以非常高的概率重構(gòu)出原始信號(hào)。
目前,壓縮感知理論在許多領(lǐng)域獲得廣泛的應(yīng)用研究,如醫(yī)學(xué)圖像處理、CS雷達(dá)、圖像采集設(shè)備開發(fā)等。目前,針對(duì)語(yǔ)音信號(hào)的CS理論研究尚處于剛起步的階段。Gemmeke和Granen利用CS技術(shù)原理對(duì)有噪聲的環(huán)境下的語(yǔ)音信號(hào)進(jìn)行識(shí)別,實(shí)驗(yàn)證明,識(shí)別系統(tǒng)的抗噪聲性能得到很大提高,顯示出CS技術(shù)在語(yǔ)音信號(hào)處理中的巨大前景[4]。進(jìn)一步說(shuō),如果利用CS技術(shù)進(jìn)行采樣,所需采樣的數(shù)據(jù)量將大為減少,再結(jié)合有損編碼技術(shù),即可以實(shí)現(xiàn)更低碼率上的高質(zhì)量語(yǔ)音編碼。
本文提出基于正交匹配追蹤算法(OMP)[5]的壓縮感知重構(gòu)算法實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)進(jìn)行信號(hào)重構(gòu)。仿真實(shí)驗(yàn)表明,相比于傳統(tǒng)的壓縮感知的重構(gòu)算法,本方法對(duì)含噪語(yǔ)音的去噪效果也會(huì)更好,重構(gòu)語(yǔ)音的效果會(huì)更高。
壓縮感知以信號(hào)的稀疏表示為基礎(chǔ),通過(guò)求解欠定線性方程組的最優(yōu)化問(wèn)題進(jìn)而來(lái)實(shí)現(xiàn)對(duì)信號(hào)重構(gòu),觀測(cè)矩陣、稀疏變換基和恢復(fù)算法是其三大要素。壓縮感知是一種新的能夠在采樣的同時(shí)實(shí)現(xiàn)壓縮目的的技術(shù)。其壓縮的采樣過(guò)程可以分成3個(gè)步驟,其理論框圖如圖1所示。
首先,如果一個(gè)信號(hào)X∈RN在某個(gè)正交基上或者是在一個(gè)緊框架ψ上是能夠被壓縮的或者是稀疏的,就可以求出它的變換的系數(shù)θ=ψTX,θ是ψ的等價(jià)或逼近性的稀疏性示[6];
其次,設(shè)計(jì)構(gòu)造一個(gè)既平穩(wěn)又與變換基ψ不相干的,而且是M×N維度的觀測(cè)型的矩陣Φ,對(duì)θ進(jìn)行觀測(cè)可以得到一個(gè)觀測(cè)矩陣Y=Φθ=ΦψTX,此過(guò)程也可以表示:信號(hào)X通過(guò)矩陣ACS進(jìn)行的非自適應(yīng)性的觀測(cè):Y=ACSX,其中ACS=ΦψT,ACS稱為CS信息算子[7];
min‖ψX‖0s.t.ACSX=Y
(1)
圖1 壓縮感知理論框圖
圖1中,第一步、第二步為低速壓縮采樣Y=ACSX。壓縮感知(CS)理論主要涉及以下幾個(gè)關(guān)鍵性的問(wèn)題:(1)對(duì)于信號(hào)X∈RN,怎樣去找到某個(gè)緊框架ψ或者是正交基,使其在變換基ψ上的表示是稀疏性的,即信號(hào)的稀疏性的表示問(wèn)題;(2)構(gòu)造一個(gè)平穩(wěn)且與變換基ψ不相關(guān)的M×N維度的觀測(cè)矩陣Φ,確保稀疏向量θ從N維降到M維時(shí),其重要的信息不會(huì)被破壞,即信號(hào)的低速型采樣的問(wèn)題[8];(3)關(guān)于如何設(shè)計(jì)快速性的重構(gòu)算法,從線性觀測(cè)Y=ACSX中恢復(fù)信號(hào),也即信號(hào)的重構(gòu)問(wèn)題。
本文先以原始語(yǔ)音信號(hào)為例,如圖2所示。通過(guò)Matlab實(shí)現(xiàn)了生成用于算例的語(yǔ)音觀測(cè)信號(hào)圖,圖3所示為基于Matlab的壓縮感知算法實(shí)現(xiàn)的原測(cè)試信號(hào)觀測(cè)結(jié)果圖。線性預(yù)測(cè)(Linear Prodiction,LP)分析是語(yǔ)音信號(hào)處理的核心技術(shù)之一。在語(yǔ)音編碼、識(shí)別以及合成等語(yǔ)音處理領(lǐng)域都有廣泛應(yīng)用。在AR(Autog Ressive)模型中,由于有語(yǔ)音樣點(diǎn)之間存在相關(guān)性的原因,所以一個(gè)語(yǔ)音信號(hào)的抽樣值x(n)可以用過(guò)去的p個(gè)取樣值的線性組合來(lái)逼近
(2)
其中,ai是預(yù)測(cè)系數(shù);e(n)是自回歸濾波器的激勵(lì)。通過(guò)最小均方誤差(Least Mean Square,LMS)準(zhǔn)則,可以使得語(yǔ)音信號(hào)采樣值與線性預(yù)測(cè)值最小,也可以確定唯一的一組線的預(yù)測(cè)系數(shù){ai}。由上式可以得到LP分析殘差e(n)為
(3)
可以將殘差寫成向量的形式e=Tx。其中
(4)
由上述LP分析可知,濁音殘差信號(hào)e是以基音周期為周期重復(fù)的單位脈沖的序列,也即殘差信號(hào)僅在基音周期的整數(shù)倍的位置上才會(huì)有較大的幅值。這進(jìn)一步說(shuō)明了,矩陣T確實(shí)是去除了語(yǔ)音信號(hào)x在相鄰樣點(diǎn)之間的相關(guān)性,所以此時(shí)將矩陣T稱為分析矩陣。語(yǔ)音信號(hào)也可近似的表示為
x=R-1e=He
(5)
其中,H為分析矩陣T的逆矩陣T-1,將殘差信號(hào)e映射到語(yǔ)音信號(hào)域進(jìn)而實(shí)現(xiàn)信號(hào)的重構(gòu),所以將H矩陣稱為合成矩陣。本文語(yǔ)音信號(hào)具有較好的稀疏性,而清音信號(hào)卻不具有稀疏性。這是因?yàn)榍逡魩臍埐钚盘?hào)確是一個(gè)高斯白噪聲序列,如圖2所示。
圖2 一維語(yǔ)音信號(hào)的原始波形
圖3 原測(cè)試信號(hào)觀測(cè)結(jié)果圖
圖3中的每幀語(yǔ)音是以26次觀測(cè)為例。因?yàn)檎Z(yǔ)音的絕大部分能量都集中在濁音部分,而清音的能量比較小,因此,清音幀的非稀疏性對(duì)語(yǔ)音信號(hào)在H上的壓縮感知的性能的影響并不大。而基于Matlab的壓縮感知算法可以進(jìn)而實(shí)現(xiàn)原測(cè)試信號(hào)所對(duì)應(yīng)稀疏信號(hào)稀疏度圖,如圖4所示。
圖4 對(duì)應(yīng)稀疏信號(hào)稀疏度圖
利用FFT稀疏化方法對(duì)語(yǔ)音信號(hào)局部信號(hào)(1001~1005)稀疏化表示,圖5為稀疏化表示圖。再基于DCT稀疏化方法對(duì)語(yǔ)音信號(hào)局部信號(hào)(1001~1005)稀疏化表示,得到圖6稀疏化表示示意圖。
圖5 FFT基對(duì)語(yǔ)音信號(hào)局部信號(hào)稀疏化表示圖
圖6 DCT基對(duì)語(yǔ)音信號(hào)局部信號(hào)稀疏化表示圖
Candes在其2006年發(fā)表的論文中證明了,只要信號(hào)是可壓縮的或在某個(gè)變換域是稀疏的,就能以非常低的頻率即M?N的采樣信號(hào)近乎無(wú)損地重構(gòu)出原信號(hào)?;诰€性預(yù)測(cè)(LP)分析的語(yǔ)音信號(hào)的壓縮感知模型如圖7所示。
圖7 算法原理
對(duì)經(jīng)漢明窗和矩形窗分幀的語(yǔ)音信號(hào),分別利用LP分析的技術(shù)和CS技術(shù),提取線性預(yù)測(cè)系數(shù)向量α和觀測(cè)向量y。語(yǔ)音信號(hào)的重構(gòu)可以以線性預(yù)測(cè)系數(shù)向量α和觀測(cè)向量y為已知的條件,利用解優(yōu)化問(wèn)題的方法來(lái)進(jìn)一步實(shí)現(xiàn)語(yǔ)音信號(hào)在H域上的信號(hào)重構(gòu)[9]。
語(yǔ)音信號(hào)壓縮可以分為兩個(gè)階段:第一階段,對(duì)語(yǔ)音信號(hào)進(jìn)行觀測(cè),得到觀測(cè)向量y;第二階段,通過(guò)線性分析來(lái)獲取每幀語(yǔ)音信號(hào)的p個(gè)線性的預(yù)測(cè)系數(shù),用于構(gòu)造合成矩陣H[10]。
語(yǔ)音信號(hào)的重構(gòu)就是一個(gè)解優(yōu)化問(wèn)題的過(guò)程,也即通過(guò)求解L1的優(yōu)化問(wèn)題來(lái)進(jìn)一步獲得語(yǔ)音信號(hào)在稀疏域上的稀疏系數(shù),利用已經(jīng)合成的矩陣再將稀疏性的系數(shù)投影到語(yǔ)音的信號(hào)域,從而可以達(dá)到實(shí)現(xiàn)信號(hào)的再次重構(gòu),其原理如式(6)和式(7)所示。
(6)
(7)
本文使用的算例對(duì)象是語(yǔ)音(鈴聲)信息,是以216次觀測(cè)為例,觀測(cè)矩陣Φ為M×N的隨機(jī)高斯矩陣。本文主要研究語(yǔ)音信號(hào)在H上的CS性能和不同的變換矩陣上的重構(gòu)語(yǔ)音信號(hào)的信噪比以及分段的信噪比,并且給出了重構(gòu)語(yǔ)音信號(hào)的主觀性上的評(píng)價(jià)。重構(gòu)語(yǔ)音信號(hào)的質(zhì)量的客觀評(píng)價(jià)的方法為
其中,M為原始語(yǔ)音信號(hào)的總幀數(shù)。
如圖8所示,除了兩端的重構(gòu)語(yǔ)音與原始語(yǔ)音有一定的誤差外,基本實(shí)現(xiàn)了語(yǔ)音信號(hào)的精確重構(gòu),這是為進(jìn)一步獲取線性預(yù)測(cè)系數(shù),引入自相關(guān)函數(shù)時(shí)引起了誤差所導(dǎo)致。為了能夠盡可能多的去降低兩端誤差,在線性預(yù)測(cè)階段使用兩端具有平滑過(guò)渡特性的漢明窗[11],在壓縮感知(CS)的觀測(cè)階段使用可以確保語(yǔ)音信號(hào)時(shí)域特性的矩形窗。本文利用DCT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換圖(觀測(cè)次數(shù)為216次),如圖9所示。
圖8 利用DCT基時(shí)局部信號(hào)CS恢復(fù)結(jié)果與原信號(hào)比對(duì)圖
圖9 利用DCT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換圖
圖9給出了語(yǔ)音信號(hào)在利用DCT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換圖。從圖中可以看出,語(yǔ)音信號(hào)在利用FFT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換時(shí),隨著觀測(cè)次數(shù)增加,信號(hào)的恢復(fù)誤差也在不斷衰減,因此得到的恢復(fù)信號(hào)也更加精確;反之,得到的恢復(fù)信號(hào)會(huì)越來(lái)越差,甚至得不到恢復(fù)信號(hào)。
圖10 利用FFT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換圖
圖10給出了利用FFT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換圖,從圖中可以看出,隨著觀測(cè)次數(shù)的增加,信號(hào)的恢復(fù)誤差呈階梯型遞減,這表明得到的恢復(fù)信號(hào)精度越來(lái)越高。反之,得到的恢復(fù)信號(hào)會(huì)越來(lái)越差,甚至得不到恢復(fù)信號(hào)。對(duì)比圖9和圖10,可以得到,語(yǔ)音信號(hào)在利用DCT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換,相比于其在利用FFT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換更好,因?yàn)樵谛枰_(dá)到同樣恢復(fù)誤差的情況下,語(yǔ)音信號(hào)在利用DCT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換所需要的感測(cè)次數(shù),明顯小于語(yǔ)音信號(hào)在利用FFT基時(shí)CS恢復(fù)語(yǔ)音信號(hào)局部信號(hào)誤差隨觀測(cè)次數(shù)變換。經(jīng)過(guò)上述處理可以進(jìn)一步得到利用DCT基時(shí)語(yǔ)音信號(hào)局部信號(hào)CS恢復(fù)結(jié)果與原信號(hào)比對(duì)圖,如圖11所示。
圖11 恢復(fù)結(jié)果與原信號(hào)比對(duì)圖
從圖11可以看出,利用DCT基時(shí)的語(yǔ)音信號(hào)的局部恢復(fù)信號(hào)可以近乎無(wú)失真的還原出原語(yǔ)音信號(hào),效果良好。
語(yǔ)音信號(hào)重構(gòu)是語(yǔ)音信號(hào)處理的重要內(nèi)容,利用正交匹配追蹤算法(OMP)對(duì)語(yǔ)音信號(hào)重構(gòu)進(jìn)行設(shè)計(jì),取得較好的效果,具有較高的應(yīng)用價(jià)值,值得進(jìn)一步深入研究。
[1] 李卓凡,閆敬文.壓縮感知及應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2015.
[2] Donoho D L.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(2):489-509.
[3] 許小冬.基于壓縮感知理論的圖像重構(gòu)算法研究[D].蘭州:西北師范大學(xué),2015.
[4] 沈丹丹.基于壓縮感知的語(yǔ)音編碼研究[D].南京:南京郵電大學(xué),2012.
[5] Donoho D.Compressed Sensing[J].IEEE Transactions on Information Theory,2006,52(4):128-136.
[6] 金堅(jiān),谷源濤,梅順良.壓縮采樣技術(shù)及其應(yīng)用[J].電子與信息學(xué)報(bào),2010,32(2):470-475.
[7] 馬小薇.基于壓縮感知的OMP圖像重構(gòu)算法改進(jìn)[J].電子科技,2015,28(4):51-53.
[8] 石光明,劉丹華,高大化,等.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1070-1081.
[9] Donoho D,Tsaig Y.Compressed sensing[J].Signal Processing,2006,86(3):533-548.
[10] Candes E.Sparsity in compressive sampling[J].Inverse Problem,2007(3):969-985.
[11] 韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.