基于多分類器融合的語音識別方法研究

2011-02-26 08:20王國胤

重慶郵電大學學報(自然科學版) 2011年4期

孔浩，楊勇，王國胤

(重慶郵電大學計算機科學與技術研究所，重慶 400065)

0 引言

語音識別是語音信號處理的一個重要研究方向，也是模式識別的一個分支，它涉及生理學、語言學、計算機科學、通信科學等諸多領域，是實現(xiàn)人機交互的重要手段。語音識別的系統(tǒng)實現(xiàn)通常包括預處理、特征提取、建立模板庫、以及分類器的設計等幾個步驟。計算機通過對音頻采集工具獲得的語音信息進行分析，求取能夠反映語音本質的一系列語音特征，最后使用分類器與訓練模板進行比對得出識別結果。顯然，在此過程中，分類器的設計是語音識別系統(tǒng)性能好壞的關鍵。目前用于語音識別的分類方法有:采用判別函數或準則的方法;隱馬爾科夫(hidden merkovmodel，HMM)模型的方法;人工神經網絡(artificial neural network，ANN)的方法;支持向量機(support vectormachine，SVM)的方法等。

從機器學習的角度看，各種學習器(分類器)由于自身的差異往往會導致不同的分類結果，其分類性能也不盡相同，而沒有一種分類算法能對所有的應用都取得很好的結果。將多個分類器得到的分類信息進行綜合處理，得出最終的分類結果，稱為多分類器融合［1］。由于分類器融合的方法可以綜合不同分類器的特點，從而避免了單一分類器可能存在片面性的問題，因此，分類器的組合往往可以比單一分類器得到更好的結果。目前，多分類器融合的方法已經廣泛應用于機器學習、模式識別等領域。文獻［2］采用數據融合的方法對SVM進行改進，并成功地應用于語音識別系統(tǒng)中，取得了較好的效果;文獻［3］將HMM和ANN 2種分類器組合，彌補了各自分類器的不足，從而提高了情感語音識別的分類效果;文獻［4］提出將一種基于分類高斯混合模型和神經網絡融合用于說話人識別，獲得較好的識別性能。

本文提出了一種基于多分類器融合的語音識別方法，利用加權評分的投票策略，對幾種分類器進行融合，旨在綜合單一分類器的特點，獲得更好的識別效果。

1 語音特征提取與選擇

語音特征參數的提取是在對語音信息進行分幀處理后，每幀特征參數構成一個矢量序列，矢量序列經過壓縮以后成為語音的模板。特征參數的選取對識別效果有很大的影響，它是語音識別系統(tǒng)成功與否的關鍵，它的好壞直接影響到語音識別的精度。

通過對語音信號的分析可以獲得語音識別所需要的語音特征。根據分析方法的不同可以將語音信號分析分為模型分析方法和非模型分析方法。模型分析方法是指根據語音信號產生的數學模型來分析和提取表征這些模型的特征參數，比如，共振峰特征估計、線性預測模型;而非模型分析法又包含了時域分析、頻域分析、倒譜域分析等。本文首先提取振幅能量，基音周期，共振峰，MFCC，LPCC這5種不同類別共29個特征參數的組合，如表1所示。

再利用基于Rough理論的屬性約簡算法——基于條件熵的屬性約簡算法(CEBARKNC)［5］對提取到的特征進行約簡，最終得到一組特征序列。選擇到的特征序列即為最終用于語音分類的識別參數，如表2所示。

表2 特征選擇后的特征序列Tab.2 Feature array after Feature selection

2 多分類器融合

單分類器的識別往往是從單一的角度來認識待識別樣本，如果能夠將這些不同特性的分類器進行有效的融合，則能夠從更全面的角度認識待識別樣本，從而得到更好的識別效果。多分類器融合是目前模式識別領域的一個研究熱點。

2.1 成員分類器

成員分類器選擇的目的就是使各個分類器能夠互補優(yōu)勢，從而構造出最佳分類器。因此，成員分類器之間應該具有理論上的差異性，這樣才可能得到較好的融合結果。本文選取 SVM［6］、徑向基函數(radial basis function，RBF)神經網絡［7］、貝葉斯網絡［8］作為成員分類器。

2.1.1 SVM

SVM是針對小樣本的機器學習理論。它是統(tǒng)計學習理論的一種實現(xiàn)方式，它將樣本學習精度和學習空間復雜度之間采取了一種折中，從而使所得模型對與未知樣本具有好的推廣泛化能力。與傳統(tǒng)基于經驗風險最小化原則方法不同，SVM運用結構風險最小化原則來實現(xiàn)分類，將分類問題簡化成為一個風險最小化問題。

2.1.2 RBF神經網絡

RBF神經網絡是一種局部逼近的多層前向神經網絡，具有算法簡單、收斂快、逼近效果好、泛化能力強的特點。RBF是通過非線性基函數的線性組合實現(xiàn)從輸入空間到輸出空間的非線性轉換。RBF神經網絡是一個3層網絡，其中，輸入輸出由線性神經元組成，隱層節(jié)點是高斯核函數。該函數能對輸入產生局部響應，從而將輸入空間劃分為若干小的局部區(qū)間，已達到分類的目的。

2.1.3 貝葉斯網絡

基于概率推理的貝葉斯網絡是為了解決不定性和不完整性問題而提出的，它是一種概率網絡，而貝葉斯公式是這個概率網絡的基礎。一個貝葉斯網絡是一個有向無環(huán)圖，由代表變量節(jié)點及連接這些節(jié)點的有向邊構成。通過對節(jié)點的抽象便可以應用于各種問題，廣泛用于不確定性決策、數據分析以及智能推理等領域。

2.2 多分類器融合方法

分類器的融合就是要把多個不同的分類器結合，從而形成一個集成化的分類器，即將多個分類器的判定結果通過一定規(guī)則合并為最終輸出結果。目前多分類器融合的方法有很多，如投票法、證據理論方法、神經網絡方法、模糊積分方法等。本文提出的分類器系統(tǒng)結構如圖1所示。

圖1 語音識別系統(tǒng)結構流程圖Fig.1 System flowchart for speech recognition

常用的分類器決策融合采用相對多數投票的原則，即少數服從多數，半數以上通過作為規(guī)則進行判別，并最終得到結果。然而基本的投票表決法原則并沒有考慮到不同的分類器具有不同分類性能，投票過程中自然也無法體現(xiàn)性能高的基本分類器的優(yōu)勢，因此，本文采用一種加權評分的投票策略對SVM，RBF神經網絡與貝葉斯網絡3種分類器進行融合。

加權投票的思想主要是根據基本分類器的不同性能，使其在投票時擁有的表決權有所不同，往往精度高的分類器，就會有比較大的權值。本文首先將提取到的特征分別通過3種分類器，從而得到初步的識別結果，即各個分類器對待識別樣本的分類預測所得到的3個類別。然后用加權投票的思想對這3個類別進行分析:如果3個類別相同，則將待識別樣本歸為此類;如果其中2個類別相同，那么將類別相同的2個權值之和與不同類別的權值進行比較，以確定兩者較大的值為分類結果;如果3個類別都不相同，那么將權值最高的分類器所識別的結果作為融合后的結果。

令SVM，RBF神經網絡以及貝葉斯網絡分類器為集合 F={x1，x2，x3}，其權值分別為 α1，α2，α3，分別代表3種分類器對最終融合的重要程度。識別樣本分為n類，即集合G={g1，g2，…，gn}。其中，α1，α2，α3權值的獲得對融合效果有非常重要的作用，根據單個分類器本身的識別效果不同，本文從整體訓練樣本中提取若干樣本作為校驗集，通過求取校驗集的識別率來確定3種分類器的權值參數。設SVM，RBF神經網絡，貝葉斯網絡對校驗集的識別率分別為 P1，P2，P3，則設

3 實驗及其分析

本文采用自建語音樣本庫，其中3男2女，每人發(fā)音10次，發(fā)音內容為數字0～9，共得到500個短句。通過特征提取，獲得500個樣本的特征序列，每個樣本有29階語音特征。所提取的樣本庫的內容合成一個二維表，構成了一個決策表系統(tǒng)。其中，29階語音特征作為條件屬性，語音的類別即0～9作為決策屬性。經過基于Rough集方法的特征選擇算法，得到用于多分類器融合的12階特征，分別為振幅能量 +第二共振峰 +8階的 MFCC+2階的LPCC。

實驗一將提取到的12階特征參數分別導入SVM，RBF神經網絡，貝葉斯網絡3種分類器。其中，導入各個分類器的訓練集與測試集完全一致，都是以4:1的訓練集與測試集比例分割數據，因此，訓練集為375個，測試樣本為125個。由于在本文中各個分類器的權值是由校驗集來確定的，在整個樣本空間中，同樣選擇125個校驗樣本。并首先由訓練集和校驗集確定3種分類器，其權值分別為α1，α2，α3，然后，再將測試樣本分別導入分類器得到初步的識別結果，如表3所示。

表3 一組測試樣本導入單一分類器的識別結果Tab.3 Recognition results for single classifier

將表3的信息代入本文提出的算法，發(fā)現(xiàn)融合后的誤識樣本僅剩52，90，則得到98.4%的理想識別率。其中，編號為40的樣本，雖然有2個分類器都是誤識，但是由于誤識的結果不一樣，RBF神經網絡將其誤識為第4類，而貝葉斯網絡將其誤識為第0類，造成3個分類器產生3個不同結果。而根據本文提出算法以及對各個分類器設置的權值，可以得到此測試樣本的正確歸屬類別，進一步證明了本文提出的加權投票的語音識別方法的有效性。

實驗二用四交叉驗證對數據集進行測試，結果如表4所示。

表4 各種分類器平均識別率Tab.4 Average recognition rate of differenf classifiers

根據多次的樣本測試，發(fā)現(xiàn)本文融合算法的識別率對于每個單一分類器的識別率都有著顯著的提高，說明本方法能夠達到綜合各個分類器特點的作用，從而彌補了單一分類器可能存在的片面性問題。

4 結論

SVM，RBF神經網絡以及貝葉斯網絡作為分類器有著自身不同的特點，通過加權評分的投票決策，3種分類器進行了有效的融合，得到了單一分類器之間的性能互補，從而使識別結果有了顯著提升。通過實驗表明，本文將提出的基于多分類器加權融合的方法用于語音識別是有效的。

［1］DUIN R，TAX D.Experiments with classifier combining rules.In Proceedings of the 1st International Workshop on Multiple Classifier Systems(MCSC2000)［M］.Italy:Cagliari，2000:16－19.

［2］蔡鐵，朱杰.一種基于類融合向量的支持向量機及其在語音識別系統(tǒng)中的應用［J］.電路與系統(tǒng)學報，2005，6(10):106－110.

CAITie，ZHU Jie.An improved support vectormachine based on class－fusion vectors and application in speech recognition system［J］.Journal of Circuits And Systems，2005，6(10):106－110.

［3］羅毅.一種基于HMM和ANN的語音情感識別分類器［J］.微計算機信息，2007，12－1(23):218－219.

LUO Yi.A Human Speech Emotion Recognition Classifier based on Hidden Markov Model and Artificial Neural Network［J］.Control＆ Automation，2007，12－1(23):218－219.

［4］黃偉，戴蓓蒨，李輝.基于分類高斯混合模型和神經網絡融合的與文本無關的說話人識別［J］.模式識別與人工智能，2003，16(4):423－428.

HUANGWei，DAIBei－qian，LIHui.Text－independent Speaker Recognition Based On Classify Gaussian Mixture Model And Neural Net Fusion［J］.Pattern Recognition And Artificial Intelligence，2003，16(4):423－428.

［5］王國胤，于洪，楊大春.基于條件信息熵的決策表約簡［J］. 計算機學報，2002，27(12):89－94.

WANG Guo－yin，YU Hong，YANG Da－chun.Decision Table Reduction based on Conditional Information Entropy［J］.Chinese Journal of Computers，2002，27(12):89－94.

［6］CHRISTOPHER JC.Burges.A tutorial on support vector machines for pattern recognition［J］.Data Mining and Knowledge，1998，2(2):121－167.

［7］林嘉宇，劉熒.用于語音信號非線性建模的RBF神經網絡的訓練方法及其性能［J］.信號處理，2001，17(4):322－328.

LIN Jia－yu，LIU Ying.Training Methods and the Performances of RBFNeural Networks for Non－linear Modeling of Speech Signals［J］.SignalIGNAL Processing，2001，17(4):322－328.

［8］陳英武，高妍方.貝葉斯網絡擴展研究綜述［J］.控制與決策，2008，23(10):1081－1086.

CHEN Ying－wu，GAO Yan－fang.Survey of extended Bayesian networks［J］.Control And Decision，2008，23(10):1081－1086.

(編輯:劉勇)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡