基于線性預(yù)測(cè)的自適應(yīng)語(yǔ)音壓縮感知

2012-11-26 09:01毛鑫萍馬永陽(yáng)

杭州電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2012年4期

趙翠，周遙，毛鑫萍，馬永陽(yáng)

(浙江工業(yè)大學(xué)信息工程學(xué)院，浙江杭州310023)

0 引言

壓縮感知(Compressed Sensing，CS)，是近年來(lái)興起的信號(hào)壓縮采樣技術(shù)，利用信號(hào)的稀疏性或可壓縮性，采用非自適應(yīng)采樣技術(shù)將原始信號(hào)的信息投影在少量觀測(cè)數(shù)據(jù)中，在采樣過(guò)程中同時(shí)實(shí)現(xiàn)壓縮［1，2］。由于CS理論的特性，其在語(yǔ)音信號(hào)處理領(lǐng)域的應(yīng)用有著巨大前景。CS理論應(yīng)用的一個(gè)重要前提和基礎(chǔ)是稀疏性，只有選擇合適的基才能保證信號(hào)的稀疏度，從而保證信號(hào)的重構(gòu)性能。因此構(gòu)造語(yǔ)音信號(hào)的稀疏變換基是CS應(yīng)用于語(yǔ)音處理的重要前提。中外一些文獻(xiàn)從不同角度研究了適合語(yǔ)音的稀疏變換基，如基于PCA構(gòu)造冗余字典，混合字典等［3-5］，為語(yǔ)音信號(hào)壓縮感知的應(yīng)用提供了思路和方法。本文主要利用線性預(yù)測(cè)(Linear Prediction，LP)技術(shù)［6］，研究適合語(yǔ)音壓縮感知的稀疏變換基。與文獻(xiàn)5中直接構(gòu)造每幀語(yǔ)音的稀疏變換基不同，本文基于幀間的相關(guān)性，提出了自適應(yīng)LP基，大大降低了傳輸量，同時(shí)保證了重構(gòu)性能。

1 壓縮感知理論

壓縮感知理論認(rèn)為，如果信號(hào)在某一變換域上是稀疏的，那么就可以用此信號(hào)在某投影域上的觀測(cè)集合來(lái)近似無(wú)損地重構(gòu)原始信號(hào)［7］。給定長(zhǎng)度為N的實(shí)值信號(hào)x∈RN，如果該信號(hào)在某一個(gè)正交基或緊框架 Ψ:Ψ= [ψ1，ψ2，…，ψN]上的變換系數(shù)是稀疏的，即x可以表示成:

式中，s是信號(hào)x在Ψ上的變換系數(shù)向量，而且只有K(K?N)個(gè)非零元素，因此x稱為在Ψ域上K-稀疏。如果用一個(gè)與稀疏變換基Ψ不相關(guān)的觀測(cè)矩陣Φ∈RM×N(M?N):Φ=［φ1，φ2，…，φN］將原始信號(hào)投影到低維空間，得到觀測(cè)集合y∈RM:

那么就可以利用優(yōu)化求解方法從觀測(cè)集合中精確或高概率地重構(gòu)原始信號(hào)x。對(duì)于給定的觀測(cè)集合y，觀測(cè)矩陣Φ和稀疏變換基Ψ，CS的重構(gòu)算法就是利用0-范數(shù)解決優(yōu)化問(wèn)題:

然而實(shí)際上，式3的求解是一個(gè)NP難題，根據(jù)文獻(xiàn)1指出，在Φ和Ψ不相關(guān)的情況下，將1-范數(shù)代替0-范數(shù)會(huì)產(chǎn)生同等解。因此可以將式3的優(yōu)化問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題進(jìn)行求解:

目前，追蹤貪婪算法、凸松弛法和組合算法是3類主要的CS重構(gòu)算法。

2 自適應(yīng)語(yǔ)音壓縮感知

LP是語(yǔ)音信號(hào)處理的一個(gè)核心技術(shù)，廣泛地應(yīng)用于語(yǔ)音壓縮、識(shí)別等各方面。由于語(yǔ)音樣點(diǎn)之間的相關(guān)性，LP的基本思想就是過(guò)去的p個(gè)語(yǔ)音樣點(diǎn)的線性組合來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值x(n)，預(yù)測(cè)的殘差用e(n)表示:

式中，{ai}是LP系數(shù)集，LP分析是求解LP系數(shù)集使得殘差e(n)在某個(gè)預(yù)定的準(zhǔn)則下最小。設(shè)一段語(yǔ)音信號(hào)x，語(yǔ)音幀長(zhǎng)為N，則根據(jù)式5，第k幀語(yǔ)音信號(hào)xk和其對(duì)應(yīng)殘差信號(hào)rk可以用下式表示:

式中，xk[x((k-1) N+1) x((k-1) N+2)…x( kN)]T表示一段語(yǔ)音信號(hào) x的第 k幀，ek?[e((k-1) N+1) e((k-1) N+2)…e( kN)]T，Ak由xk的 LP系數(shù)集 ak={aki}構(gòu)成:

式中，Ψk為Ak的逆矩陣，稱為L(zhǎng)P基。因?yàn)檎Z(yǔ)音信號(hào)經(jīng)過(guò)LP后其殘差信號(hào)近似于稀疏信號(hào)，所以第k幀信號(hào)xk在Ψk上被認(rèn)為是稀疏的。然而根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特點(diǎn)，有些連續(xù)的語(yǔ)音幀之間存在很大的相關(guān)性，當(dāng)前語(yǔ)音幀的LP基可以用前一幀的LP基代替，而不影響當(dāng)前語(yǔ)音幀的稀疏性。此時(shí)當(dāng)前語(yǔ)音幀無(wú)需LP分析，也無(wú)需傳輸自身的LP系數(shù)ak。然而又由于語(yǔ)音的非平穩(wěn)性，有些語(yǔ)音段的相鄰幀相關(guān)性很小，此時(shí)當(dāng)前語(yǔ)音幀則需要LP分析，構(gòu)造使得當(dāng)前幀稀疏的LP基。通過(guò)此方法構(gòu)造的稀疏變換基，稱為自適應(yīng)LP基。根據(jù)前面的分析，構(gòu)造自適應(yīng)語(yǔ)音壓縮感知框架，如圖1所示。

式6可以改寫(xiě)為:

圖1 自適應(yīng)語(yǔ)音壓縮感知框架

圖1中Rk表示相鄰兩幀語(yǔ)音xk和xk-1之間的相關(guān)性:

3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)主要研究語(yǔ)音在自適應(yīng)LP基下的CS性能，并與非自適應(yīng)LP基及DCT基方案下的CS性能進(jìn)行比較，根據(jù)平均幀信噪比來(lái)測(cè)試重構(gòu)語(yǔ)音性能:

式中，Nf表示幀數(shù)表示第k幀重構(gòu)語(yǔ)音。實(shí)驗(yàn)中采取一段采樣率為16kHz的語(yǔ)音信號(hào)，幀長(zhǎng)N=320，LP的階數(shù)p=10，LP系數(shù)集ak采用網(wǎng)格結(jié)構(gòu)的burg算法求解，相關(guān)性的閾值TR=0.7。觀測(cè)矩陣Φ采用一致球形矩陣，M=80，重構(gòu)算法采用正交匹配追蹤算法，該重構(gòu)算法的循環(huán)終止條件設(shè)置為:重構(gòu)稀疏向量的非零個(gè)數(shù)lK=40，或誤差滿足error≤10e-7。

3幀和30幀語(yǔ)音信號(hào)的CS重構(gòu)語(yǔ)音的波形比較，如圖2、3所示。圖2、3(a)表示原始語(yǔ)音信號(hào)，圖2、3(b)表示采用自適應(yīng)LP基的重構(gòu)語(yǔ)音，圖2、3(c)表示采用非自適應(yīng)LP基的重構(gòu)語(yǔ)音，圖2、3(d)表示采用DCT基的重構(gòu)語(yǔ)音。各方案所對(duì)應(yīng)的重構(gòu)性能和所需傳輸LP系數(shù)組數(shù)如表1所示，表1中的(a)(b)(c)(d)如前所述。

表1 自適應(yīng)LP基與非自適應(yīng)LP基及DCT基的比較

從表1中可以看出，連續(xù)的3幀語(yǔ)音信號(hào)很相似，即相關(guān)性很大，后兩幀信號(hào)直接使用第一幀的LP基的自適應(yīng)重構(gòu)性能與使用自身生成的LP基的非自適應(yīng)重構(gòu)性能類似，而且減少了傳輸量。30幀的語(yǔ)音信號(hào)采用自適應(yīng)LP基的重構(gòu)性能與采用非自適應(yīng)LP基大致相同，而且減少了12組LP系數(shù)組的傳輸，在保持重構(gòu)性能不變的同時(shí)，降低了傳輸量。雖然DCT基是固定的，但其重構(gòu)語(yǔ)音與采用自適應(yīng)LP基的方法相比，性能較差。

4 結(jié)束語(yǔ)

本文從自適應(yīng)的角度研究了壓縮感知在語(yǔ)音信號(hào)中的應(yīng)用。根據(jù)語(yǔ)音信號(hào)經(jīng)過(guò)線性預(yù)測(cè)后的殘差信號(hào)近似稀疏的特點(diǎn)，構(gòu)造LP基作為壓縮感知的稀疏變換基。同時(shí)利用語(yǔ)音信號(hào)連續(xù)幀之間的相關(guān)性，構(gòu)造了自適應(yīng)LP基。本文提出的基于幀結(jié)構(gòu)的自適應(yīng)LP基與非自適應(yīng)方法相比，減少了傳輸量，同時(shí)保持了非自適應(yīng)方法的重構(gòu)性能，且遠(yuǎn)優(yōu)于采用DCT基的重構(gòu)性能。這在語(yǔ)音信號(hào)的編碼速率和合成語(yǔ)音質(zhì)量方面有很大的作用。

［1］ Donoho D L.Compressed sensing［J］.IEEE Trans on Inf Theory，2006，52(4):1 289-1 306.

［2］ Candes E，Romberg J，Tao T.Robust uncertainty principles:Exact signal reconstruction from highly in complete frequency information［J］.IEEE Trans on Inf Theory，2006，52(2):489-509.

［3］季云云，楊震.基于主分量分析的語(yǔ)音信號(hào)壓縮感知［J］.信號(hào)處理，2011，27(7):1 057-1 062.

［4］ Giacobello D，Christensen MG，MurthiM N，et al.Retrieving sparse patterns using a compressed sensing framework:Applications to speech coding based on sparse linear prediction［J］.IEEE Signal Processing Letters，2009，17(1):103-106.

［5］ Wang Y，Xu Z X，LiG，et al.Compressed sensing framework for speech signal synthesis using a hybrid dictionary［C］.Shanghai:Image and Signal Processing，2011:2 400-2 403.

［6］王洪，唐凱.低速率語(yǔ)音編碼［M］.北京:國(guó)防工業(yè)出版社，2006:20-25.