楊超 劉云飛 徐向旭 朱弘 劉傳輝
關(guān)鍵詞: 編碼算法; 預(yù)測(cè)編碼; 矢量編碼; 語音質(zhì)量; 波形編碼; 碼率
中圖分類號(hào): TN911.3?34 ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2018)24?0128?04
Speech signal encoding algorithm based on predictive coding and vector coding
YANG Chao1, LIU Yunfei2, XU Xiangxu3, ZHU Hong4, LIU Chuanhui1
(1. Naval Aviation University, Yantai 264001, China; 2. Naval Aviation University Qingdao Branch, Qingdao 266041, China;
3. Unit 92635 of Chinese People′ Liberation Army, Qingdao 266041, China; 4. Unit 91602 of Chinese People′ Liberation Army, Shanghai 200082, China)
Abstract: A speech signal encoding algorithm combining the linear predictive coding, SOM neural network vector coding and Huffman coding is proposed in this paper to reduce the coding compression rate on the premise of guaranteeing a good voice quality after decoding recovery, so as to reduce the storage space of speech signals. A speech signal codec experiment was carried out by means of Matlab software programming. The experimental results show that the algorithm not only retains the advantages of good decoding voice quality and simplicity that the waveform coding algorithm has, but also has a smaller compression rate than the common waveform coding algorithm. The code rate of the coding algorithm reaches 12.8 kbit/s, smaller than 32 kbit/s, which is the code rate of the waveform coding standard G.721 using the ADPCM coding algorithm, and also the minimum code rate of waveform coding.
Keywords: encoding algorithm; predictive coding; vector coding; voice quality; waveform coding; code rate
語音編碼基于人類語音的產(chǎn)生模型,通過減少信號(hào)的冗余度和模仿人的聽覺特性來達(dá)到低碼率下的高質(zhì)量編碼[1]。由于人類對(duì)通信的需求,語音編碼一直處于發(fā)展?fàn)顟B(tài),相對(duì)于音頻編碼,其發(fā)展也較為成熟。
Homer Dudley是新澤西“貝爾實(shí)驗(yàn)室”的一名物理學(xué)家,他于1939年發(fā)明了聲碼器,用來進(jìn)行語音信號(hào)的采集、分析與合成。第二次世界大戰(zhàn)期間,聲碼器發(fā)揮了舉足輕重的作用,在通信領(lǐng)域有著關(guān)鍵的應(yīng)用。早在 1972 年,ITU?T就發(fā)布A/μ率 64 kbit/s,脈沖編碼調(diào)制(Pulse?Code Modulation,PCM)語音編碼標(biāo)準(zhǔn)G.711,并作為第一個(gè)數(shù)字電話系統(tǒng),配置于世界上不同的公共電話交換網(wǎng)絡(luò)[2]。20世紀(jì) 80 年代,隨著人們對(duì)語音產(chǎn)生原理的深入了解,提出語音發(fā)聲的源?系統(tǒng)模型,使得語音編碼得到了突飛猛進(jìn)的發(fā)展。最早的基于源?系統(tǒng)模型的編碼標(biāo)準(zhǔn)是于 1982 年提出的,編碼速率為 2.4 kbit/s的LPC?10聲碼器[3]。1992年ITU?T頒布了以低延遲碼激勵(lì)線性預(yù)測(cè)為核心的G.728,1996年頒布的基于共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)編碼的G.729語音編碼器[2]。之后又陸續(xù)發(fā)展了G.723.1和利用變步長(zhǎng)ADPCM的G.722.1等。G.718 超寬帶編碼算法也于 2010 年標(biāo)準(zhǔn)化。這類嵌入式混合編碼的共同點(diǎn)是核心層采用了 CELP 技術(shù),并通過在各增強(qiáng)層對(duì)低層編碼殘差進(jìn)行分級(jí)處理來實(shí)現(xiàn)碼流分層嵌套、編碼質(zhì)量逐級(jí)遞增,有效解決了因互聯(lián)網(wǎng)通信中的分組丟失導(dǎo)致合成語音感知上的不連續(xù)現(xiàn)象[4]。目前語音編碼技術(shù)分為三類:波形編碼、參數(shù)編碼以及混合編碼?;謴?fù)的語音質(zhì)量由好到差的排列情況是:波形編碼、混合編碼、參數(shù)編碼。參數(shù)編碼恢復(fù)的語音失真度較大,混合編碼效果較參數(shù)編碼的好,但是算法復(fù)雜。為此,本文提出一種波形編碼,旨在恢復(fù)的語音效果好于混合編碼,碼率低于之前的波形編碼算法。
語音線性預(yù)測(cè)編碼(Linear Prediction Coding,LPC)的基本思路是,利用已知過去的若干個(gè)語音信號(hào)的線性組合對(duì)當(dāng)前的語音采樣值進(jìn)行逼近(預(yù)測(cè)),使其線性預(yù)測(cè)值在最小方均誤差意義上等于語音的當(dāng)前采樣值,再將預(yù)測(cè)值和當(dāng)前采樣值相減,得到預(yù)測(cè)誤差,最后對(duì)預(yù)測(cè)誤差編碼。計(jì)算公式如下:
從過去的[p]個(gè)值:[x(n-1)],[x(n-2)],…,[x(n-p)]來推算當(dāng)前的預(yù)測(cè)值:
[x(n)=i=1paix(n-i)] (1)
預(yù)測(cè)器的預(yù)測(cè)誤差為:
[e(n)=x(n)-x(n)=x(n)-i=1paix(n-i)] (2)
由于語音信號(hào)前后具有較強(qiáng)的相關(guān)性,所以,在統(tǒng)計(jì)意義上說,預(yù)測(cè)誤差值的變化范圍小于當(dāng)前采樣值的變化范圍,因而可以用更少的碼元來表示。
矢量量化就是把需要量化的數(shù)值每n個(gè)作為一組,任何一組的n個(gè)數(shù)值都可以看成n維空間的一個(gè)點(diǎn),構(gòu)成一個(gè)n維矢量X。由于n維空間的每一維都是模擬量(或連續(xù)量),所以n維空間也是一個(gè)連續(xù)空間,即使每一維的最大值是有限制的,但它包含的矢量數(shù)目是無窮多的。矢量量化要做的工作就是將此n維連續(xù)空間劃分為有限個(gè)區(qū)間,在每一個(gè)區(qū)間找一個(gè)代表矢量,凡是落在本區(qū)間的所有的矢量都用該代表矢量來表示,這就是矢量量化的基本方法[4?6]。
矢量量化過程中,X′和X兩個(gè)矢量的接近程度可以有多種衡量方法,最常用的誤差測(cè)度是均方誤差,相當(dāng)于兩者之間的歐幾里德距離,即:
[d(X,X′)=1ni=1n(xi-x′i)] (3)
人類的神經(jīng)系統(tǒng)是迄今為止最復(fù)雜也是科學(xué)史上最智能的系統(tǒng),即使是最先進(jìn)的計(jì)算機(jī)與人腦神經(jīng)系統(tǒng)比起來也要遜色不少。人腦神經(jīng)系統(tǒng)可實(shí)現(xiàn)自動(dòng)學(xué)習(xí)、模式識(shí)別和分類歸納等功能。人工神經(jīng)網(wǎng)絡(luò)就是利用一些簡(jiǎn)單的自適應(yīng)原件及其層次組織的大規(guī)模并行聯(lián)結(jié)構(gòu)組成的網(wǎng)絡(luò),目的在于模仿人腦神經(jīng)網(wǎng)絡(luò)的工作模式來處理客觀數(shù)據(jù)[7]。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本單元,它一般是一個(gè)多輸入單輸出的非線性結(jié)構(gòu)體。
神經(jīng)元的結(jié)構(gòu)如圖1所示。
圖1中:[ui]是神經(jīng)元的內(nèi)部狀態(tài);[θi]為閾值;[xj]為輸入信號(hào);[wji]表示從[uj]到[ui]連接的權(quán)值;[si]為外部用來調(diào)節(jié)神經(jīng)元的初始狀態(tài)輸入信號(hào)。
模型可以用以下公式表述:
[σi=jwjixj+si-θiui=f(σi)yi=g(ui)=h(σi), ?h(σi)=(g?f)(σi)] (4)
人工神經(jīng)元的信息處理過程為:先對(duì)輸入信號(hào)和神經(jīng)元接聯(lián)的內(nèi)積運(yùn)算,然后將結(jié)果通過激活函數(shù),再經(jīng)過閾值函數(shù)判決,若輸出值大于閾值門限,則神經(jīng)元被激活,否則該神經(jīng)元處于抑制狀態(tài)[8?10]。網(wǎng)絡(luò)的學(xué)習(xí)本質(zhì)就是神經(jīng)元根據(jù)既定規(guī)則和輸出模式自動(dòng)地調(diào)節(jié)權(quán)值和閾值,以達(dá)到最終穩(wěn)定的神經(jīng)元狀態(tài)。
Kohonen自組織映射算法是由T.Kohonen提出的無監(jiān)督的學(xué)習(xí)方式,自組織映射神經(jīng)網(wǎng)絡(luò)SOM就是利用這一算法的人工神經(jīng)網(wǎng)絡(luò)。這種神經(jīng)網(wǎng)絡(luò)的輸出層為按一定規(guī)則排列的二維矩陣,網(wǎng)絡(luò)神經(jīng)元局部連接,輸入層與輸出層間通過權(quán)值構(gòu)成全連接。進(jìn)行學(xué)習(xí)時(shí),輸出層二維網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)輸入層的特定模式的節(jié)點(diǎn)形成特殊反應(yīng),隨著輸入節(jié)點(diǎn)的變化,輸出節(jié)點(diǎn)也從一個(gè)節(jié)點(diǎn)轉(zhuǎn)到相應(yīng)領(lǐng)域,這樣不僅能實(shí)現(xiàn)分類識(shí)別,還能掌握輸入的整體分布。
本文提出的編碼方案是線性預(yù)測(cè)編碼、基于SOM神經(jīng)網(wǎng)絡(luò)的矢量編碼及Huffman編碼的聯(lián)合編碼法。具體方法是,將1列語音采樣信號(hào)按照奇偶順序轉(zhuǎn)換成2列,分別對(duì)每列信號(hào)進(jìn)行預(yù)測(cè),得到誤差值,同時(shí)對(duì)2列信號(hào)的誤差值進(jìn)行基于自組織神經(jīng)網(wǎng)絡(luò)的矢量編碼;恢復(fù)語音時(shí),譯碼過程與編碼過程相反,最后對(duì)譯碼數(shù)據(jù)用切比雪夫Ⅰ型濾波器濾波。
壓縮率的計(jì)算公式為:
[壓縮率=編碼后二進(jìn)制碼總位數(shù)初始信號(hào)二進(jìn)制碼總位數(shù)×100%] (5)
信噪比的計(jì)算公式為:
[SNR=10lg(PsPn)] (6)
式中:原始信號(hào)的功率為[Ps];語音的噪聲功率[Pn]。
實(shí)驗(yàn)中,選取一段2 s的女聲朗讀英文的語音信號(hào)為處理對(duì)象。該語音信號(hào)采樣率為16 kHz,量化位數(shù)為8,單通道。采用10階線性預(yù)測(cè)公式計(jì)算預(yù)測(cè)值,進(jìn)而計(jì)算誤差,SOM神經(jīng)網(wǎng)絡(luò)的碼本數(shù)為15,碼本訓(xùn)練次數(shù)為300次。濾波器的通帶截止頻率設(shè)置在6 000 Hz,阻帶截止頻率設(shè)為7 800 Hz,通帶波紋設(shè)為0.5 dB,阻帶衰減設(shè)為10 dB。人耳的主觀感覺是,恢復(fù)的語音信號(hào)與原始語音信號(hào)相比基本沒有差別。圖2為女聲朗讀英文的語音信號(hào)時(shí)域恢復(fù)情況,其中圖2a)為原始語音信號(hào)時(shí)域波形圖,圖2b)為對(duì)原始信號(hào)解碼和濾波計(jì)算后得到的恢復(fù)的語音信號(hào)的時(shí)域波形圖。
從圖2a)和圖2b)兩幅波形圖對(duì)比可知,與原始語音信號(hào)波形相比,恢復(fù)的語音信號(hào)基本沒有變化,只是個(gè)別時(shí)間點(diǎn)上語音強(qiáng)度略低,這是由于語音信號(hào)的高頻部分略有不同造成的。圖3為女聲朗讀英文的語音信號(hào)頻域恢復(fù)情況,圖3a)為原始語音信號(hào)頻譜圖,圖3b)為對(duì)原始信號(hào)經(jīng)過解碼和濾波計(jì)算后得到的恢復(fù)語音信號(hào)頻譜圖。由圖3a)和圖3b)兩幅頻譜圖對(duì)比可得,恢復(fù)的語音信號(hào)頻譜與原始語音信號(hào)頻譜基本一致,4 000 Hz以后的高頻段略有不同,但是人耳在這個(gè)頻段范圍不敏感[8]。這與人的主觀感覺結(jié)果相一致。計(jì)算得到的信噪比為10.12 dB,壓縮率為19.97%,碼率為12.8 kbit/s。這個(gè)碼率小于采用ADPCM編碼算法的波形編碼標(biāo)準(zhǔn)G.721的碼率32 kbit/s,同時(shí)也小于采用LD?CELP編碼算法的混合編碼G.728的碼率16 kbit/s。
本文提出一種預(yù)測(cè)編碼、SOM自主神經(jīng)網(wǎng)絡(luò)矢量編碼和Huffman編碼的聯(lián)合編碼算法,并在譯碼時(shí)用切比雪夫Ⅰ型濾波器對(duì)譯碼信號(hào)進(jìn)行濾波。實(shí)驗(yàn)結(jié)果表明,本文提出的編碼算法,譯碼語音質(zhì)量良好,碼率小于采用ADPCM編碼算法的波形編碼標(biāo)準(zhǔn)G.721的碼率32 kbit/s;在保留譯碼語音質(zhì)量較好和算法較簡(jiǎn)單波形編碼算法的優(yōu)點(diǎn)[9]的同時(shí),本算法甚至可以達(dá)到小于采用LD?CELP編碼算法的混合編碼G.728的碼率16 kbit/s,從而可以減少語音信號(hào)的存儲(chǔ)空間和傳輸帶寬[10]。
注:本文通訊作者為劉云飛。
參考文獻(xiàn)
[1] 吳家安.現(xiàn)代語音編碼技術(shù)[M].北京:科學(xué)出版社,2008.
WU Jiaan. Modern speech coding technology [M]. Beijing: Science Press, 2008.
[2] 李曉明.語音與音頻信號(hào)的通用編碼方法研究[D].北京:北京工業(yè)大學(xué),2014.
LI Xiaoming. Research on universal coding method for speech and audio signals [D]. Beijing: Beijing University of Technology, 2014.
[3] 梁冬蕾.音頻語音聯(lián)合編碼算法研究[D].西安:西安電子科技大學(xué),2010.
LIANG Donglei. Research on audio and speech joint coding algorithm [D]. Xian: Xidian University, 2010.
[4] YANG Chao, DONG Shikun. Image compression method based on vector quantization [J]. Journal of Naval Aeronautical and Astronautic University, 2011(1): 11?14.
[5] 楊超,賀一君,任建存,等.碼本均衡矢量編碼算法[J].現(xiàn)代電子技術(shù),2016,39(13):38?40.
YANG Chao, HE Yijun, REN Jiancun, et al. Codebook equilibrium algorithm for vector coding [J]. Modern electronics technique, 2016, 39(13): 38?40.
[6] MAKHOUL J, ROUCOS S, GISH H. Vector quantization in speech coding [J]. Proceedings of the IEEE, 2005, 73(11): 1551?1588.
[7] 錢海軍.基于BP神經(jīng)網(wǎng)絡(luò)的圖像壓縮的Matlab實(shí)現(xiàn)[J].電腦開發(fā)與應(yīng)用,2011,24(12):77?79.
QIAN Haijun. Image compression based on BP neural network using Matlab [J]. Computer development & applications, 2011, 24(12): 77?79.
[8] 王龍,杜敦偉,呂曉軍,等.基于SVM和SOM的雷達(dá)目標(biāo)識(shí)別[C]//第十屆中國智能交通年會(huì)優(yōu)秀論文集.北京:電子工業(yè)出版社,2015:511?515.
WANG Long, DU Dunwei, L? Xiaojun, et al. Radar target recognition based on SVM and SOM [C]// Proceedings of 10th Annual Conference of China Intelligent Transportation Systems Association. Beijing: Publishing House of Electronics Industry, 2015: 511?515.
[9] 楊晨,閆薇.利用SOM網(wǎng)絡(luò)模型進(jìn)行聚類研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(2):44?45.
YANG Chen, YAN Wei. Research on the clustering by using SOM network model [J]. Network security technology & application, 2014(2): 44?45.
[10] 鄒瑜,帥仁俊.基于改進(jìn)的SOM神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(9):2533?2537.
ZOU Yu, SHUAI Renjun. Improved segmentation algorithm of medical images based on SOM neural network [J]. Computer engineering and design, 2016, 37(9): 2533?2537.