趙 翠,周 遙,毛鑫萍,馬永陽(yáng)
(浙江工業(yè)大學(xué)信息工程學(xué)院,浙江杭州310023)
壓縮感知(Compressed Sensing,CS),是近年來(lái)興起的信號(hào)壓縮采樣技術(shù),利用信號(hào)的稀疏性或可壓縮性,采用非自適應(yīng)采樣技術(shù)將原始信號(hào)的信息投影在少量觀測(cè)數(shù)據(jù)中,在采樣過(guò)程中同時(shí)實(shí)現(xiàn)壓縮[1,2]。由于CS理論的特性,其在語(yǔ)音信號(hào)處理領(lǐng)域的應(yīng)用有著巨大前景。CS理論應(yīng)用的一個(gè)重要前提和基礎(chǔ)是稀疏性,只有選擇合適的基才能保證信號(hào)的稀疏度,從而保證信號(hào)的重構(gòu)性能。因此構(gòu)造語(yǔ)音信號(hào)的稀疏變換基是CS應(yīng)用于語(yǔ)音處理的重要前提。中外一些文獻(xiàn)從不同角度研究了適合語(yǔ)音的稀疏變換基,如基于PCA構(gòu)造冗余字典,混合字典等[3-5],為語(yǔ)音信號(hào)壓縮感知的應(yīng)用提供了思路和方法。本文主要利用線性預(yù)測(cè)(Linear Prediction,LP)技術(shù)[6],研究適合語(yǔ)音壓縮感知的稀疏變換基。與文獻(xiàn)5中直接構(gòu)造每幀語(yǔ)音的稀疏變換基不同,本文基于幀間的相關(guān)性,提出了自適應(yīng)LP基,大大降低了傳輸量,同時(shí)保證了重構(gòu)性能。
壓縮感知理論認(rèn)為,如果信號(hào)在某一變換域上是稀疏的,那么就可以用此信號(hào)在某投影域上的觀測(cè)集合來(lái)近似無(wú)損地重構(gòu)原始信號(hào)[7]。給定長(zhǎng)度為N的實(shí)值信號(hào)x∈RN,如果該信號(hào)在某一個(gè)正交基或緊框架 Ψ:Ψ= [ψ1,ψ2,…,ψN]上的變換系數(shù)是稀疏的,即x可以表示成:
式中,s是信號(hào)x在Ψ上的變換系數(shù)向量,而且只有K(K?N)個(gè)非零元素,因此x稱為在Ψ域上K-稀疏。如果用一個(gè)與稀疏變換基Ψ不相關(guān)的觀測(cè)矩陣Φ∈RM×N(M?N):Φ=[φ1,φ2,…,φN]將原始信號(hào)投影到低維空間,得到觀測(cè)集合y∈RM:
那么就可以利用優(yōu)化求解方法從觀測(cè)集合中精確或高概率地重構(gòu)原始信號(hào)x。對(duì)于給定的觀測(cè)集合y,觀測(cè)矩陣Φ和稀疏變換基Ψ,CS的重構(gòu)算法就是利用0-范數(shù)解決優(yōu)化問(wèn)題:
然而實(shí)際上,式3的求解是一個(gè)NP難題,根據(jù)文獻(xiàn)1指出,在Φ和Ψ不相關(guān)的情況下,將1-范數(shù)代替0-范數(shù)會(huì)產(chǎn)生同等解。因此可以將式3的優(yōu)化問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題進(jìn)行求解:
目前,追蹤貪婪算法、凸松弛法和組合算法是3類主要的CS重構(gòu)算法。
LP是語(yǔ)音信號(hào)處理的一個(gè)核心技術(shù),廣泛地應(yīng)用于語(yǔ)音壓縮、識(shí)別等各方面。由于語(yǔ)音樣點(diǎn)之間的相關(guān)性,LP的基本思想就是過(guò)去的p個(gè)語(yǔ)音樣點(diǎn)的線性組合來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值x(n),預(yù)測(cè)的殘差用e(n)表示:
式中,{ai}是LP系數(shù)集,LP分析是求解LP系數(shù)集使得殘差e(n)在某個(gè)預(yù)定的準(zhǔn)則下最小。設(shè)一段語(yǔ)音信號(hào)x,語(yǔ)音幀長(zhǎng)為N,則根據(jù)式5,第k幀語(yǔ)音信號(hào)xk和其對(duì)應(yīng)殘差信號(hào)rk可以用下式表示:
式中,xk[x((k-1) N+1) x((k-1) N+2)…x( kN)]T表示一段語(yǔ)音信號(hào) x的第 k幀,ek?[e((k-1) N+1) e((k-1) N+2)…e( kN)]T,Ak由xk的 LP系數(shù)集 ak={aki}構(gòu)成:
式中,Ψk為Ak的逆矩陣,稱為L(zhǎng)P基。因?yàn)檎Z(yǔ)音信號(hào)經(jīng)過(guò)LP后其殘差信號(hào)近似于稀疏信號(hào),所以第k幀信號(hào)xk在Ψk上被認(rèn)為是稀疏的。然而根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特點(diǎn),有些連續(xù)的語(yǔ)音幀之間存在很大的相關(guān)性,當(dāng)前語(yǔ)音幀的LP基可以用前一幀的LP基代替,而不影響當(dāng)前語(yǔ)音幀的稀疏性。此時(shí)當(dāng)前語(yǔ)音幀無(wú)需LP分析,也無(wú)需傳輸自身的LP系數(shù)ak。然而又由于語(yǔ)音的非平穩(wěn)性,有些語(yǔ)音段的相鄰幀相關(guān)性很小,此時(shí)當(dāng)前語(yǔ)音幀則需要LP分析,構(gòu)造使得當(dāng)前幀稀疏的LP基。通過(guò)此方法構(gòu)造的稀疏變換基,稱為自適應(yīng)LP基。根據(jù)前面的分析,構(gòu)造自適應(yīng)語(yǔ)音壓縮感知框架,如圖1所示。
式6可以改寫(xiě)為:
圖1 自適應(yīng)語(yǔ)音壓縮感知框架
圖1中Rk表示相鄰兩幀語(yǔ)音xk和xk-1之間的相關(guān)性:
實(shí)驗(yàn)主要研究語(yǔ)音在自適應(yīng)LP基下的CS性能,并與非自適應(yīng)LP基及DCT基方案下的CS性能進(jìn)行比較,根據(jù)平均幀信噪比來(lái)測(cè)試重構(gòu)語(yǔ)音性能:
式中,Nf表示幀數(shù)表示第k幀重構(gòu)語(yǔ)音。實(shí)驗(yàn)中采取一段采樣率為16kHz的語(yǔ)音信號(hào),幀長(zhǎng)N=320,LP的階數(shù)p=10,LP系數(shù)集ak采用網(wǎng)格結(jié)構(gòu)的burg算法求解,相關(guān)性的閾值TR=0.7。觀測(cè)矩陣Φ采用一致球形矩陣,M=80,重構(gòu)算法采用正交匹配追蹤算法,該重構(gòu)算法的循環(huán)終止條件設(shè)置為:重構(gòu)稀疏向量的非零個(gè)數(shù)lK=40,或誤差滿足error≤10e-7。
3幀和30幀語(yǔ)音信號(hào)的CS重構(gòu)語(yǔ)音的波形比較,如圖2、3所示。圖2、3(a)表示原始語(yǔ)音信號(hào),圖2、3(b)表示采用自適應(yīng)LP基的重構(gòu)語(yǔ)音,圖2、3(c)表示采用非自適應(yīng)LP基的重構(gòu)語(yǔ)音,圖2、3(d)表示采用DCT基的重構(gòu)語(yǔ)音。各方案所對(duì)應(yīng)的重構(gòu)性能和所需傳輸LP系數(shù)組數(shù)如表1所示,表1中的(a)(b)(c)(d)如前所述。
表1 自適應(yīng)LP基與非自適應(yīng)LP基及DCT基的比較
從表1中可以看出,連續(xù)的3幀語(yǔ)音信號(hào)很相似,即相關(guān)性很大,后兩幀信號(hào)直接使用第一幀的LP基的自適應(yīng)重構(gòu)性能與使用自身生成的LP基的非自適應(yīng)重構(gòu)性能類似,而且減少了傳輸量。30幀的語(yǔ)音信號(hào)采用自適應(yīng)LP基的重構(gòu)性能與采用非自適應(yīng)LP基大致相同,而且減少了12組LP系數(shù)組的傳輸,在保持重構(gòu)性能不變的同時(shí),降低了傳輸量。雖然DCT基是固定的,但其重構(gòu)語(yǔ)音與采用自適應(yīng)LP基的方法相比,性能較差。
本文從自適應(yīng)的角度研究了壓縮感知在語(yǔ)音信號(hào)中的應(yīng)用。根據(jù)語(yǔ)音信號(hào)經(jīng)過(guò)線性預(yù)測(cè)后的殘差信號(hào)近似稀疏的特點(diǎn),構(gòu)造LP基作為壓縮感知的稀疏變換基。同時(shí)利用語(yǔ)音信號(hào)連續(xù)幀之間的相關(guān)性,構(gòu)造了自適應(yīng)LP基。本文提出的基于幀結(jié)構(gòu)的自適應(yīng)LP基與非自適應(yīng)方法相比,減少了傳輸量,同時(shí)保持了非自適應(yīng)方法的重構(gòu)性能,且遠(yuǎn)優(yōu)于采用DCT基的重構(gòu)性能。這在語(yǔ)音信號(hào)的編碼速率和合成語(yǔ)音質(zhì)量方面有很大的作用。
[1] Donoho D L.Compressed sensing[J].IEEE Trans on Inf Theory,2006,52(4):1 289-1 306.
[2] Candes E,Romberg J,Tao T.Robust uncertainty principles:Exact signal reconstruction from highly in complete frequency information[J].IEEE Trans on Inf Theory,2006,52(2):489-509.
[3] 季云云,楊震.基于主分量分析的語(yǔ)音信號(hào)壓縮感知[J].信號(hào)處理,2011,27(7):1 057-1 062.
[4] Giacobello D,Christensen MG,MurthiM N,et al.Retrieving sparse patterns using a compressed sensing framework:Applications to speech coding based on sparse linear prediction[J].IEEE Signal Processing Letters,2009,17(1):103-106.
[5] Wang Y,Xu Z X,LiG,et al.Compressed sensing framework for speech signal synthesis using a hybrid dictionary[C].Shanghai:Image and Signal Processing,2011:2 400-2 403.
[6] 王洪,唐凱.低速率語(yǔ)音編碼[M].北京:國(guó)防工業(yè)出版社,2006:20-25.
[7] 石光明,劉丹華,高大化,等.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1 070-1 081.