孫 燕,姜占才,潘春花
(1.青海民族大學計算機學院,青海西寧 810007; 2.青海師范大學物理系,青海西寧 810008)
語音自組織特征映射神經(jīng)網(wǎng)絡矢量量化算法
孫 燕1,姜占才2,潘春花1
(1.青海民族大學計算機學院,青海西寧 810007; 2.青海師范大學物理系,青海西寧 810008)
針對數(shù)字語音信號分幀提取MFCC參數(shù),MFCC是Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)。Mel頻率是基于人耳聽覺特性提出的,它與Hz頻率呈非線性對應關系,利用它們之間的這種關系,計算得到Hz頻譜特征。將每幀的MFCC作為矢量進行自組織特征映射神經(jīng)網(wǎng)絡矢量量化及LBG矢量量化,通過實驗對二者進行比較。仿真結果表明,自組織特征映射神經(jīng)網(wǎng)絡矢量量化算法得到的碼書比LBG算法具有量化誤差小、碼本尺寸小的特點,進而可以節(jié)省存儲空間。實驗結果表明,文中方法具有一定的實用性。
LBG算法;自組織特征映射神經(jīng)網(wǎng)絡;MFCC參數(shù);矢量量化
矢量量化是將若干個采樣信號構成一組,形成一個矢量,然后對此矢量進行量化。矢量量化可以壓縮數(shù)據(jù),但也帶來了信息的損失。矢量量化需要解決三個問題:碼書設計、碼字搜索、碼字索引分配。矢量量化最本質的核心是碼書設計。
碼書設計有多種算法,主要分為四類:LBG[1]算法(也叫GLA改進算法);矢量量化算法;由數(shù)學理論衍生出的全局優(yōu)化技術的碼書設計算法,如隨機場下隨機松弛算法、模擬退火算法、遺傳算法和指導性搜索算法;由模糊數(shù)學作為理論基礎的模糊聚類的碼書設計算法[2]。
傳統(tǒng)的LBG矢量量化是硬聚類算法[3]。該算法可以使量化誤差達到最小,并聚類為一個矢量中心集,只能判別為一個類,當聚類的樣本尺寸巨大,最終的存儲量非常大。自組織特征映射神經(jīng)網(wǎng)絡(Self-Organizing Feature Maps,SOFM)通過對外界輸入信號特征的無監(jiān)督競爭學習,自組織形成不同的區(qū)域,不需要目標輸出,網(wǎng)絡根據(jù)提供的學習樣本自學習,由輸入樣本的特性自組織映射,對輸入樣本進行排序和分類,從而形成碼書。由SOFM形成的碼書不僅對初始碼書不敏感,還因為使用了鄰域概念保證收斂到全局最優(yōu),是一種可行的矢量量化算法。
LBG算法是傳統(tǒng)算法。它是一種基于初始碼書的迭代算法。具體步驟如下:
步驟 1:給定初始碼書為 C(0)={,,…,},令迭代次數(shù)的初始值n=0。在給定的平均失真→∞ 下,其下降閾值為ε(0<ε<1)。
步驟2:訓練矢量集X根據(jù)最優(yōu)劃分原則將初始碼書中的碼字C(n)作為質心,劃分矢量集為N個胞腔R(n)={,,…,}。其中,滿足= {v|d(v)=d(v),v∈X}。
步驟3:計算平均失真。
步驟4:根據(jù)矢量量化誤差達到最小的矢量中心集條件,計算各胞腔的質心。由這N個新質心y(n+1)j,j=0,1,…,N-1形成新碼書C(n+1),置n=n+1,轉步驟2,直到≤ ε停止計算。
自組織特征映射(Self-Organizing Feature Maps)神經(jīng)網(wǎng)絡[4-7]是一種競爭性神經(jīng)網(wǎng)絡,是由芬蘭學者Kohonen提出的。基本思想是:對一個一個神經(jīng)網(wǎng)絡提供學習樣本,神經(jīng)網(wǎng)絡自動學習,將學習樣本根據(jù)不同的響應特性分成不同區(qū)域,神經(jīng)網(wǎng)絡完成自動的分類和排序。它一般是由輸入層和競爭層構成的網(wǎng)絡,輸入層由k個輸入神經(jīng)元組成,競爭層由N個輸出神經(jīng)元組成,輸入層和競爭層的各個神經(jīng)元實現(xiàn)全互連接。
SOFM神經(jīng)網(wǎng)絡的算法如下:
步驟1:對輸入層建立初始優(yōu)勝鄰域Nj*(0);它的學習率η=0;總的迭代次數(shù)為T,并將小隨機數(shù)賦予輸出層的各權向量之后進行歸一化處理,得到w^(j),j =1,2,…,m。
步驟2:輸入層隨機選取一個輸入模式并進行歸一化處理,得到X^(p),p∈{1,2,…,P}。
步驟3:搜索最優(yōu)節(jié)點計算X^(p)與w^(j)的點積,j= 1,2,…,m,從中選出點積最大的最優(yōu)節(jié)點j*。
步驟4:以優(yōu)勝鄰域Nj*(t)的j*為中心,確定t時刻的權值調整鄰域范圍。一般情況下初始鄰域Nj*(0)較大,在訓練過程中Nj*(t)隨訓練時間t逐漸縮小。
步驟5:利用式(2)對Nj*(t)內的所有節(jié)點進行權值調整:
其中,η(t,N)是在訓練時間t時刻,鄰域內第j個神經(jīng)元與獲勝神經(jīng)元j*之間的拓撲距離為N的函數(shù)。
步驟6:令t=t+1,返回步驟2,直到t=T為止。
根據(jù)SOFM理論,將語音進行SOFM量化,流程見圖1。
語音SOFM矢量量化原理是將原始的一段語音進行預處理分幀,為了增加幀與幀之間的連續(xù)性,經(jīng)過海明窗將語音信號經(jīng)過快速傅里葉變換到頻域,再經(jīng)過20個三角帶通濾波器得到平滑的消除諧波的突顯語音共振峰的對數(shù)能量,帶入離散余弦變換的對數(shù)得到MFCC參數(shù),進入到SOFM創(chuàng)建的網(wǎng)絡訓練得到聚類結果,SOFM創(chuàng)建網(wǎng)絡可調用相應的函數(shù)完成,即得到語音SOFM矢量量化的碼本。
相同點:SOFM[8-9]和LBG都是從某個區(qū)域內獲得最佳質心,從碼書設計對比二者是等價的。
不同點:分類發(fā)生的地方不同;由訓練矢量學習的特征傳遞給碼書的方式不同。LBG算法主要是將輸入矢量聚類為新質心作為下次迭代開始的碼書[10]。SOFM是通過更新特征域碼書矢量,將鄰域內的矢量更新作為新碼書,對初始碼書不敏感[11-12]。
LBG算法有3個主要缺點:
(1)由此算法得出的碼書自適應性差,初始碼書沒有隨機性;
(2)迭代的區(qū)域劃分過程,搜索算法和求最近碼字距離的時間復雜度和空間復雜度很大;
(3)初始碼書的選擇影響算法的收斂速度和最終碼書的性能。
而SOFM在更新碼書時使用了鄰域概念[12],避免了LBG算法存在的缺點。
文中的初始矢量碼本[13-14]是在實驗室條件下錄制的語音經(jīng)過分幀、海明窗、快速FFT變換、三角帶通濾波器、對數(shù)、離散余弦變換六步得到的MFCC參數(shù),其碼本尺寸為20×622。其中,碼本的大小和選擇的語音大小,每幀的幀長,及帶通濾波器的個數(shù)有關[15]。
實驗中語料為短詩;數(shù)字語音的各種參數(shù)為采樣率8 kHz、PCM編碼;分幀提取語音MFCC參數(shù),毎幀的MFCC參數(shù)即為一矢量,建立大小為20×622的碼本訓練樣本集。
利用模糊聚類確定區(qū)域邊界中心改進LBG算法對語音參數(shù)MFCC矢量量化進行仿真實驗。
仿真結果如圖2~5所示。其中,圖2是原始語音;圖3是MFCC參數(shù)按每2行所有列畫出的空間分布圖;圖4是神經(jīng)網(wǎng)絡每個類別自組織形成的個數(shù);圖5是訓練后網(wǎng)絡權值分布圖。用這個權值作為矢量量化的結果,碼本大小為20×30,可以看到由SOFM訓練的碼本尺寸大大縮減了。
6.1 編碼失真
通??梢杂梅逯敌旁氡?PSNR)來描述矢量量化的編碼失真。它是原失真測度與被處理失真測度之間的均方誤差相對于(2n-1)2的對數(shù)值,PSNR值越大,就代表失真越少。PSNR定義如下:
其中,MSE是均方誤差。
6.2 實驗數(shù)據(jù)
表1給出了仿真實驗在迭代過程中LBG算法和SOFM算法的PSNR比較。
通過表1可知,SOFM比LBG的PSNR還要高,比傳統(tǒng)LBG算法的量化誤差小、碼本尺寸小,SOFM較傳統(tǒng)LBG算法具有更好的性能。
針對數(shù)字語音信號分幀提取MFCC參數(shù),將每幀的MFCC作為矢量進行自組織特征映射神經(jīng)網(wǎng)絡矢量量化及LBG矢量量化。仿真實驗結果表明,自組織特征映射神經(jīng)網(wǎng)絡矢量量化算法得到的碼書比LBG算法具有量化誤差小、碼本尺寸小的特點,進而減少了存儲量,具有一定的實用性。
[1] Linde Y,Buzo A,Gray R M.An algorithm for vector quantizerdesign[J].IEEE Transactions on Communications,1980,28 (1):84-95.
[2] 孫圣和,陸哲明.矢量量化技術及應用[M].北京:科學出版社,2002.
[3] Shen F,Hasegawa O.An adaptive incremental LBG for vector quantization[J].Neural Networks,2006,19:694-704.
[4] Hagan M T,Demuth H B.神經(jīng)網(wǎng)絡設計[M].戴 葵,譯.北京:機械工業(yè)出版社,2002.
[5] Amerijckx C,Legaty J D,Verle-Ysen M.Image compression using self organizing maps[J].Systems Analysis Model Simulation,2003,43(11):1529-1543.
[6] Seo S,Oberayer K.Self organizing maps and clustering methods for matrix data[J].Neural Networks,2004,17:1211-1230.
[7] Lau K W,Yin H,Hubbard S.Kernel self-organizing maps for classification[J].Neurocomputing,2006,69:2033-2040.
[8] McAulie J D,Atlas L E,Rivera C.A comparison of the LBG algorithm and Kohonen neural network paradigm for image vector quantization[C]//Proc of ICASSP.[s.l.]:[s.n.],1990:2293-2296.
[9] Nasrabadi N M,King R A.Image coding using vector quantization:a review[J].IEEE Transactions on Communications,1988,36(8):957-971.
[10]Lancini R,Tubaro S.Adaptive vector quantization for picture coding using neural networks[J].IEEE Transactions on Communications,1995,43(2):534-544.
[11]王茂芝,徐文皙.LBG算法對初始碼書敏感的實驗性能分析[J].物探化探計算技術,2004,26(4):375-378.
[12]Huang H,Chen S H.Fast encoding algorithm for VQ-based image coding[J].Electronics Letters,1990,26:1618-1619.
[13]Ra S W,Kim J K.A fast mean-distance-ordered partial codebook search algorithm for image vector quantization[J].IEEE Transactions on Circuits and Systems-II:Analog and Digital Signal Processing,1993,40(9):576-579.
[14]Chang C C,Chang R F,Lee W T,et al.Fast algorithms for vector quantization[J].Journal of Information Science and Engineering,1996,12(4):593-602.
[15] Chang C C,Lee W T,Chen T S.Two improved codebook search methods of vector quantization based on orthogonal checking and fixed range search[J].Journal of Electronic Imaging Representation,1997,8(1):27-37.
A Speech Vector-quantization Algorithm of Self-organizing Feature Maps Neural Network
SUN Yan1,JIANG Zhan-cai2,PAN Chun-hua1
(1.Computer Department of Qinghai University for Nationalities,Xining 810007,China; 2.Department of Physics,Qinghai Normal University,Xining 810008,China)
MFCC parameter is extracted from digital speech frame,and MFCC is Mel Frequency Cepstrum Coefficients.Mel frequency is proposed based on human auditory characteristics,and it reflects nonlinear relationship with Hz frequency.The Hz frequency spectrum characteristics is calculated by their relationship.The MFCC of each frame is taken as vector for vector quantization of self-organizing feature maps neural network and LBG,and they are compared by experiment.Simulation shows that the self-organizing feature maps neural network algorithm has smaller quantization error and code size than LBG algorithm,saving the space of memory.The experiment demonstrates the method is feasible.
LBG algorithm;SOFMNN;MFCC;VQ
TP391
A
1673-629X(2016)09-0175-03
10.3969/j.issn.1673-629X.2016.09.039
2015-04-30
2015-08-12< class="emphasis_bold">網(wǎng)絡出版時間:
時間:2016-08-23
青海省自然科學基金(2013-Z-920)
孫 燕(1973-),女,副教授,碩士,研究方向為語音處理和語音編碼。
http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1343.020.html