楊超 劉云飛 徐向旭 朱弘 芮天予
摘 ?要: 2維PV編碼算法是一種將線性預(yù)測(cè)編碼、SOM神經(jīng)網(wǎng)絡(luò)2維矢量編碼以及Huffman編碼相結(jié)合的語音信號(hào)編碼算法。為了在保證譯碼恢復(fù)的語音質(zhì)量良好的前提下,進(jìn)一步減小編碼的壓縮率,以減小語音信號(hào)的存儲(chǔ)空間,提出一種增加2維PV編碼中矢量量化維數(shù)的高維PV編碼算法。并利用Matlab軟件編程進(jìn)行2維、4維和8維PV算法的語音信號(hào)編解碼實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在保證譯碼恢復(fù)聲音質(zhì)量良好的條件下,增加2維PV編碼算法的量化矢量維數(shù),可以減小碼率,其中8維PV編碼算法的碼率最小為5.94 Kb/s,小于采用ADPCM編碼算法的波形編碼標(biāo)準(zhǔn)G.721的碼率32 Kb/s(波形編碼的最小碼率),甚至小于采用LD?CELP編碼算法的混合編碼G.728的碼率16 Kb/s。文中提出的編碼算法在語言壓縮編碼方面將具有較高的研究價(jià)值和很好的應(yīng)用前景。
關(guān)鍵詞: 語音編碼; 編碼算法; 矢量編碼; 預(yù)測(cè)誤差編碼; 壓縮編碼; 神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TN912.3?34; TN911.3 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)11?0032?04
Abstract: The 2D PV coding algorithm is a speech signal encoding algorithm, in which the linear prediction coding, SOM neural network 2D vector coding and Huffman coding are combined. In order to further reduce the compression rate of coding and save the storage space of speech signal, a high?dimensional PV coding algorithm to increase the dimension of vector quantization in 2 dimensional PV coding is proposed while guaranteeing the speech quality of decoding recovery. The speech signal codec experiments of 2D, 4D and 8D PV algorithms are carried out with Matlab software programming. The experimental results show that the code rate can be reduced by increasing the quantization vector dimension of the 2D PV coding algorithm while maintaining the perfect sound quality of the decoding recovery; the code rate (5.94 Kb/s) of the 8D PV coding algorithm is lowest, which is less than 32 Kb/s of the waveform coding standard G.721 got by ADPCM encoding algorithm, and even less than 16 Kb/s of the mixed coding G.728 got by LD?CELP encoding algorithm. The proposed coding algorithm has high research value and wide application prospect in language compression coding.
Keywords: speech coding; coding algorithm; vector coding; prediction error coding; compression coding; neural network
0 ?引 ?言
語音編碼基于人類語音的產(chǎn)生模型,通過減少信號(hào)的冗余度和模仿人的聽覺特性達(dá)到低碼率下的高質(zhì)量編碼[1]。早在1972年,ITU?T就發(fā)布A/μ率64 Kb/s,脈沖編碼調(diào)制(Pulse?Code Modulation,PCM)語音編碼標(biāo)準(zhǔn)G.711,并作為第一個(gè)數(shù)字電話系統(tǒng),配置于世界上不同的公共電話交換網(wǎng)絡(luò)[2]。1982年提出基于源?系統(tǒng)模型的編碼標(biāo)準(zhǔn),編碼速率為2.4 Kb/s的LPC?10聲碼器[3]。1992年ITU?T頒布了以低延遲碼激勵(lì)線性預(yù)測(cè)為核心的G.728,1996年頒布基于共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)編碼的G.729語音編碼器[2]。之后又陸續(xù)發(fā)展了G.723.1和利用變步長ADPCM的G.722.1等。G.718超寬帶編碼算法也于2010年標(biāo)準(zhǔn)化。這類嵌入式混合編碼的共同點(diǎn)是核心層采用CELP技術(shù)[3]。目前語音編碼技術(shù)分為三類:波形編碼、參數(shù)編碼以及混合編碼。恢復(fù)的語音質(zhì)量由好到差的排列情況是波形編碼、混合編碼、參數(shù)編碼。參數(shù)編碼恢復(fù)的語音失真度較大,混合編碼效果較參數(shù)編碼的好,但是算法復(fù)雜。基于預(yù)測(cè)編碼、SOM自主神經(jīng)網(wǎng)絡(luò)矢量編碼和Huffman編碼進(jìn)行聯(lián)合編碼,并在譯碼時(shí)用切比雪夫Ⅰ型濾波器對(duì)譯碼信號(hào)進(jìn)行濾波的編譯碼算法(下文簡稱2維PV算法),編碼算法譯碼語音質(zhì)量良好,碼率小于采用ADPCM編碼算法的波形編碼標(biāo)準(zhǔn)G.721的碼率32 Kb/s(波形編碼的最小碼率),從而可以減少語音信號(hào)的存儲(chǔ)空間和傳輸帶寬。本文將改變2維PV算法中量化矢量的維數(shù),研究量化維數(shù)對(duì)壓縮率和碼率的影響,旨在尋找進(jìn)一步提高語音信號(hào)壓縮率,減小碼率的算法。
1 ?線性預(yù)測(cè)編碼
語音線性預(yù)測(cè)編碼(Linear Prediction Coding,LPC)的基本思路是利用已知的過去的若干個(gè)語音信號(hào)的線性組合對(duì)當(dāng)前的語音采樣值進(jìn)行逼近(預(yù)測(cè)),使其線性預(yù)測(cè)值在最小均方誤差意義上等于語音的當(dāng)前采樣值,再將預(yù)測(cè)值和當(dāng)前采樣值相減,得到預(yù)測(cè)誤差,最后對(duì)預(yù)測(cè)誤差編碼。計(jì)算公式如下:
由于語音信號(hào)前后具有較強(qiáng)的相關(guān)性,所以,在統(tǒng)計(jì)意義上說,預(yù)測(cè)誤差值的變化范圍小于當(dāng)前采樣值的變化范圍,因而可以用更少的碼元來表示。
2 ?基于自組織神經(jīng)網(wǎng)絡(luò)SOM的矢量量化
矢量量化就是把需要量化的數(shù)值每[n]個(gè)作為一組,根據(jù)它與每個(gè)碼本的接近程度進(jìn)行量化和編碼[4?6]。矢量量化過程中,[X]和[X]兩個(gè)矢量的接近程度可以有多種衡量方法,最常用的誤差測(cè)度是均方誤差,相當(dāng)于兩者之間的歐幾里德距離,即:
人工神經(jīng)網(wǎng)絡(luò)就是利用一些簡單的自適應(yīng)單元及其層次組織的大規(guī)模并行聯(lián)結(jié)構(gòu)造組成的網(wǎng)絡(luò),目的在于模仿人腦神經(jīng)網(wǎng)絡(luò)的工作模式來處理客觀數(shù)據(jù)[7]。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本單元,它一般是一個(gè)多輸入單輸出的非線性結(jié)構(gòu)體。
神經(jīng)元的結(jié)構(gòu)如圖1所示。
圖1中,[ui]是神經(jīng)元的內(nèi)部狀態(tài),[θi]為閾值,[xj]為輸入信號(hào),[wji]表示從[uj]到[ui]連接的權(quán)值,[si]為外部用來調(diào)節(jié)神經(jīng)元的初始狀態(tài)輸入信號(hào)。
網(wǎng)絡(luò)的學(xué)習(xí)本質(zhì)就是神經(jīng)元根據(jù)既定規(guī)則和輸出模式自動(dòng)調(diào)節(jié)權(quán)值和閾值,以達(dá)到最終的穩(wěn)定的神經(jīng)元狀態(tài)[8?10]。
Kohonen自組織映射算法是由T.Kohonen提出的無監(jiān)督學(xué)習(xí)方式,自組織映射神經(jīng)網(wǎng)絡(luò)SOM就是利用這一算法的人工神經(jīng)網(wǎng)絡(luò)。這種神經(jīng)網(wǎng)絡(luò)的輸出層為按一定規(guī)則排列的2維矩陣,網(wǎng)絡(luò)神經(jīng)元局部連接,輸入層與輸出層間通過權(quán)值構(gòu)成全連接。進(jìn)行學(xué)習(xí)時(shí),輸出層2維網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)輸入層特定模式的節(jié)點(diǎn)形成特殊反應(yīng),隨著輸入節(jié)點(diǎn)的變化,輸出節(jié)點(diǎn)也從一個(gè)節(jié)點(diǎn)轉(zhuǎn)到相應(yīng)領(lǐng)域,這樣不僅能實(shí)現(xiàn)分類識(shí)別,還能掌握輸入的整體分布。
3 ?2維PV算法
圖2是2維PV算法編碼部分程序流程圖。首先,將1列語音采樣信號(hào)按照奇偶順序轉(zhuǎn)換成2列,即將原序號(hào)為[2n-1]的信號(hào)組成新的第1列,原序號(hào)為[2n]的信號(hào)組成新的第2列,其中[n]為正整數(shù)。每列信號(hào)分別按照線性預(yù)測(cè)編碼原理進(jìn)行預(yù)測(cè),計(jì)算當(dāng)前的預(yù)測(cè)值和誤差值,共得到2個(gè)誤差值,將該2個(gè)誤差值組成一組2維矢量,進(jìn)行基于自組織神經(jīng)網(wǎng)絡(luò)的矢量編碼;恢復(fù)語音時(shí),譯碼過程與編碼過程相反得到誤差值,同時(shí)對(duì)兩列信號(hào)的誤差值進(jìn)行基于自組織神經(jīng)網(wǎng)絡(luò)的矢量編碼;最后對(duì)譯碼數(shù)據(jù)用切比雪夫Ⅰ型濾波器濾波。
4 ?高維PV算法實(shí)驗(yàn)結(jié)果與分析
本課題將改變2維PV算法中量化矢量的維數(shù),研究量化維數(shù)對(duì)壓縮率和碼率的影響,旨在尋找進(jìn)一步提高語音信號(hào)壓縮率,減小碼率的算法??紤]到碼本編碼效率,一般維數(shù)選為[2n],[n]為正整數(shù)。實(shí)驗(yàn)中,選取量化維數(shù)分別為2維、4維和8維的編碼算法進(jìn)行實(shí)驗(yàn)。
4維PV算法是將1列語音采樣信號(hào)按照語音信號(hào)的采樣序號(hào),由1列依次轉(zhuǎn)化為4列,即將原序號(hào)為[4(n-1)+1]的信號(hào)組成第1列,將原序號(hào)為[4(n-1)+2]的信號(hào)組成第2列,原序號(hào)為[4(n-1)+3]的信號(hào)組成第3列,原序號(hào)為[4n]的信號(hào)組成第4列,其中[n]為正整數(shù)。每列信號(hào)各自分別按照線性預(yù)測(cè)編碼原理,計(jì)算當(dāng)前的預(yù)測(cè)值和誤差值,4列信號(hào)各自算得一個(gè)誤差值,共得到4個(gè)誤差值,將該4個(gè)誤差值組成一組4維矢量,進(jìn)行基于自組織神經(jīng)網(wǎng)絡(luò)的矢量編碼;恢復(fù)語音時(shí),譯碼過程與編碼過程相反,最后按照編碼的逆過程,將4列譯碼信號(hào)轉(zhuǎn)化為1列譯碼后的數(shù)據(jù),并用切比雪夫Ⅰ型濾波器濾波。由2維PV編碼算法和4維PV編碼算法類推,可知8維PV編碼算法原理。
實(shí)驗(yàn)中,選取一段5 s語音信號(hào)為處理對(duì)象,分別用2維PV、4維PV和8維PV算法對(duì)這個(gè)樣本進(jìn)行編碼和譯碼。其中,語音信號(hào)采樣率為8 kHz,量化位數(shù)為8。采用10階線性預(yù)測(cè)公式計(jì)算預(yù)測(cè)值。濾波器的通帶截止頻率為2 500 Hz,阻帶截止頻率為3 500 Hz,通帶波紋為0.3 dB,阻帶衰減設(shè)為1.6 dB。表1~表3分別是用2維PV、4維PV和8維PV算法對(duì)所選樣本進(jìn)行編碼和譯碼的計(jì)算結(jié)果。其中,恢復(fù)聲音質(zhì)量“良”,表示譯碼恢復(fù)的聲音噪聲較小,音色變化很小,能清楚分辨內(nèi)容;恢復(fù)聲音質(zhì)量“差”,表示譯碼恢復(fù)的聲音噪聲很大,音色有變化,勉強(qiáng)能分辨內(nèi)容。
比較表1~表3可以看出,在恢復(fù)聲音噪聲較小、音色變化很小、能清楚分辨內(nèi)容的情況下,8維PV編碼算法可以得到最小的碼率。
圖3是8維64碼矢的譯碼語音恢復(fù)情況。從圖中可以看出,譯碼恢復(fù)信號(hào)在時(shí)域和頻域都保持了原始語音信號(hào)的基本特征和形狀。從表3和圖3可以看出,用高于2維PV算法的8維64碼矢,可以在保證語音信號(hào)質(zhì)量良好的情況下,達(dá)到低于2維的5.94 Kb/s的碼率。這個(gè)碼率小于采用ADPCM編碼算法的波形編碼標(biāo)準(zhǔn)G.721的碼率32 Kb/s,同時(shí)也小于采用LD?CELP編碼算法的混合編碼G.728的碼率16 Kb/s。
5 ?結(jié) ?論
2維PV編碼算法是一種預(yù)測(cè)編碼、SOM自主神經(jīng)網(wǎng)絡(luò)2維矢量編碼和Huffman編碼的聯(lián)合編碼,并在譯碼時(shí)用切比雪夫Ⅰ型濾波器對(duì)譯碼信號(hào)進(jìn)行濾波的算法。本文將2維PV算法中量化矢量的維數(shù)增加,研究了量化維數(shù)對(duì)壓縮率和碼率的影響,對(duì)同一語音樣本分別用2維PV編碼算法、4維PV編碼算法和8維PV編碼算法進(jìn)行編碼運(yùn)算。計(jì)算結(jié)果表明,在保證譯碼恢復(fù)聲音質(zhì)量良好的條件下,增加2維PV編碼算法的量化矢量維數(shù),可以減小碼率,其中8維PV編碼算法的碼率最小,為5.94 Kb/s。在保留了譯碼語音質(zhì)量較好和算法較簡單這些波形編碼算法優(yōu)點(diǎn)的同時(shí),8維64碼矢的PV算法甚至可以達(dá)到小于采用LD?CELP編碼算法的混合編碼G.728的碼率16 Kb/s,從而可以減少語音信號(hào)的存儲(chǔ)空間和傳輸帶寬。
參考文獻(xiàn)
[1] 吳家安.現(xiàn)代語音編碼技術(shù)[M].北京:科學(xué)出版社,2008:255?285.
WU Jiaan. Modern speech coding technology [M]. Beijing: Science Press, 2008: 255?285.
[2] 李曉明.語音與音頻信號(hào)的通用編碼方法研究[D].北京:北京工業(yè)大學(xué),2014.
LI Xiaoming. Research on universal coding method for speech and audio signals [D]. Beijing: Beijing University of Technology, 2014.
[3] 梁冬蕾.音頻語音聯(lián)合編碼算法研究[D].西安:西安電子科技大學(xué),2010.
LIANG Donglei. Research on joint audio and audio coding algorithm [D]. Xian: Xidian University, 2010.
[4] 楊超,賀一君,任建存,等.碼本均衡矢量編碼算法[J].現(xiàn)代電子技術(shù),2016,39(13):38?40.
YANG Chao, HE Yijun, REN Jiancun, et al. Codebook equilibrium algorithm for vector coding [J]. Modern electronics technique, 2016, 39(13): 38?40.
[5] YANG Chao, DONG Shikun. Image compression method based on vector quantization [J]. Journal of Naval Aeronautical and Astronautic University, 2011(1): 11?14.
[6] MARHOUL J, ROUCOS S, GISH H. Vector quantization in speech coding [J]. Proceeding of the IEEE, 1985, 73(11): 1551?1588.
[7] 錢海軍.基于BP神經(jīng)網(wǎng)絡(luò)的圖像壓縮的Matlab實(shí)現(xiàn)[J].電腦開發(fā)與應(yīng)用,2011(12):77?79.
QIAN Haijun. Image compression based on BP neural network using Matlab [J]. Computer development and application, 2011(12): 77?79.
[8] 王龍,杜敦偉,白艷萍.基于SVM和SOM的雷達(dá)目標(biāo)識(shí)別[J].科技視界,2015(16):505?509.
WANG Long, DU Dunwei, BAI Yanping. Radar target recognition based on SVM and SOM [J]. Science & technology vision, 2015(16): 505?509.
[9] 楊晨,閆薇.利用SOM網(wǎng)絡(luò)模型進(jìn)行聚類研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(2):44?45.
YANG Chen, YAN Wei. Research on the clustering by using SOM network model [J]. Network security technology and applications, 2014(2): 44?45.
[10] 鄒瑜,帥仁俊.基于改進(jìn)的SOM神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016(9):2533?2537.
ZOU Yu, SHUAI Renjun. Improved segmentation algorithm of medical images based on SOM neural network [J]. Computer engineering and design, 2016(9): 2533?2537.