陳偉+田一明+王喜太+陳曉振
摘要:針對(duì)應(yīng)用傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中訓(xùn)練速度慢、容易陷入局部最優(yōu)解的問(wèn)題。該文提出了基于粒子群優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型。首先對(duì)不同噪聲條件和詞匯量下的語(yǔ)音樣本進(jìn)行特征提取,然后利用PSO算法對(duì)BP神經(jīng)網(wǎng)絡(luò)輸出權(quán)值和閾值參數(shù)進(jìn)行優(yōu)化,最后利用獲得的PSO-BP模型對(duì)不同詞匯量下的語(yǔ)音樣本進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明PSO-BP模型對(duì)語(yǔ)音的識(shí)別率明顯高于未經(jīng)參數(shù)優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)分類器,并且對(duì)高噪聲具有更好的魯棒性。
關(guān)鍵詞:語(yǔ)音識(shí)別;BP神經(jīng)網(wǎng)絡(luò);粒子群算法;參數(shù)優(yōu)化
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)01-0187-02
1 概述
語(yǔ)音識(shí)別是基于語(yǔ)音信號(hào)處理和模式識(shí)別技術(shù)下產(chǎn)生的一種能夠?qū)崿F(xiàn)人機(jī)交互的關(guān)鍵技術(shù)[1]。語(yǔ)音識(shí)別技術(shù)能夠?qū)崿F(xiàn)機(jī)器對(duì)人類的語(yǔ)言信息的識(shí)別、基本理解以及做出相應(yīng)動(dòng)作響應(yīng)。目前,語(yǔ)音識(shí)別技術(shù)已經(jīng)在醫(yī)療機(jī)器人、國(guó)防、家庭服務(wù)等領(lǐng)域得到廣泛應(yīng)用。隨著計(jì)算機(jī)技術(shù)的發(fā)展,語(yǔ)音識(shí)別研究進(jìn)一步走向深入, 具有代表性的是以HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的成功應(yīng)用。滕云等[2]比較了循環(huán)神經(jīng)網(wǎng)絡(luò)以及多層感知器在語(yǔ)音識(shí)別中的準(zhǔn)確性問(wèn)題。夏妍妍等[3]提出了一種基于RBF神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法,但是此種方法訓(xùn)練速度較慢。楊景花等[4]提出一種人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合的語(yǔ)音識(shí)別方法,該方法主要通過(guò)學(xué)習(xí)的方法對(duì)神經(jīng)網(wǎng)絡(luò)模型的權(quán)重進(jìn)行求取,以達(dá)到較好的識(shí)別效果。斯蕓蕓等[5]利用遺傳算法對(duì)小波神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,不僅縮短了對(duì)語(yǔ)音的識(shí)別時(shí)間,還提高了網(wǎng)絡(luò)訓(xùn)練速度和語(yǔ)音的識(shí)別率。以上研究均通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音進(jìn)行識(shí)別,但是采用常規(guī)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),常會(huì)出現(xiàn)網(wǎng)絡(luò)早熟、訓(xùn)練時(shí)間過(guò)長(zhǎng)等問(wèn)題,限制了其在語(yǔ)音識(shí)別實(shí)際中的應(yīng)用范圍。BP神經(jīng)網(wǎng)絡(luò)的參數(shù)對(duì)其性能有重要的影響,本文利用PSO算法的全局所及搜索以及局部細(xì)致搜索的能力,對(duì)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化。利用所獲得PSO-BP模型,應(yīng)用在語(yǔ)音識(shí)別問(wèn)題中,通過(guò)實(shí)驗(yàn)證證明了本文所提方法能夠提高網(wǎng)絡(luò)的訓(xùn)練速度以及識(shí)別率。
2 基本算法
2.1 BP神經(jīng)網(wǎng)絡(luò)
BP 神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)包括輸入層、輸出層以及隱含層。BP 神經(jīng)網(wǎng)絡(luò)通過(guò)梯度下降法對(duì)權(quán)值和閾值經(jīng)行不斷地調(diào)整,使得最終得到網(wǎng)絡(luò)模型的實(shí)際輸出值和期望輸出值的均方誤差值最小。其訓(xùn)練過(guò)程包括以下步驟:
a) 對(duì)網(wǎng)絡(luò)經(jīng)行初始化。這包括確定網(wǎng)絡(luò)輸入層節(jié)點(diǎn)數(shù)n、隱含層節(jié)點(diǎn)數(shù)l、輸出層節(jié)點(diǎn)數(shù)m,輸入層與隱含層、隱含層與輸出層神經(jīng)元之間的連接權(quán)值ωij,ωjk,隱含層閾值α,輸出層閾值b。
b) 隱含層輸出hj的計(jì)算。
e) 閾值更新。根據(jù)網(wǎng)絡(luò)輸出和期望輸出,對(duì)aj和bk進(jìn)行更新。
f) 判斷算法是否滿足性能要求,若沒(méi)有滿足則返回步驟(b)繼續(xù)迭代。
2.2 粒子群優(yōu)化算法
粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法是一種仿生優(yōu)化算法。PSO算法中每個(gè)粒子知道自己的位置方向和距離最優(yōu)解最近的粒子的位置,在搜索過(guò)程中,動(dòng)態(tài)調(diào)整粒子位置和速度,直到找到全局最優(yōu)解。每個(gè)粒子由本身的位置向量pi和速度向量vi表示,這些粒子可以記住它們?cè)谶\(yùn)動(dòng)過(guò)程中的局部最優(yōu)位置p*i和整個(gè)粒子群的全局最優(yōu)位置p*g,粒子的速度和位置通過(guò)迭代進(jìn)行更新,如下式所示:
其中ω是慣性因子,該參數(shù)隨著更新代數(shù)的增長(zhǎng)而逐漸降低,c1是用于調(diào)整粒子自身經(jīng)驗(yàn)的學(xué)習(xí)因子,c2是用于調(diào)整粒子社會(huì)經(jīng)驗(yàn)的學(xué)習(xí)因子,兩個(gè)參數(shù)均為正數(shù)。r1和r2在[0, 1]內(nèi)均勻取值,用來(lái)保持粒子的多樣性。當(dāng)新一代粒子產(chǎn)生后,需要計(jì)算并且同時(shí)更新粒子的適應(yīng)度函數(shù)f (x),粒子的局部最優(yōu)位置p*i(t+1)按式(8)。同時(shí)需要考慮更新整個(gè)粒子群的全局最優(yōu)位置p*g。
2.3 粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)參數(shù)
通過(guò)PSO算法,能夠得到使BP神經(jīng)網(wǎng)絡(luò)誤差最小的權(quán)值和閾值的最優(yōu)值,用于BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別。PSO 優(yōu)化BP神經(jīng)網(wǎng)絡(luò)主要包括種群初始化、尋找初始極值、迭代尋優(yōu)等操作,其具體步驟為:
a) 初始化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值;設(shè)置粒子群參數(shù),包括種群規(guī)模、迭代次數(shù)、慣性因子等;
b) 初始化所有粒子的速度和位置并計(jì)算樣本中每個(gè)粒子對(duì)應(yīng)的適應(yīng)度值;對(duì)粒子的速度和位置進(jìn)行更新;
c) 直到滿足迭代條件,利用輸出的權(quán)值和閾值對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
3 實(shí)驗(yàn)方法及結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)及特征
本文的實(shí)驗(yàn)數(shù)據(jù)為孤立詞語(yǔ)音庫(kù),采樣信號(hào)頻率為11.025kHz,幀長(zhǎng)N=256點(diǎn),幀移M=128點(diǎn)。數(shù)據(jù)庫(kù)包含20個(gè)人在不同信噪比下的語(yǔ)音數(shù)據(jù)來(lái)做實(shí)驗(yàn),其中包括15dB、20dB、25dB、30dB以及無(wú)噪聲數(shù)據(jù)。實(shí)驗(yàn)中采用ZCPA作為特征提取方法,經(jīng)過(guò)處理后得到1024維語(yǔ)音向量作為BP神經(jīng)網(wǎng)絡(luò)的輸入,網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)與特征向量的維數(shù)相一致,網(wǎng)絡(luò)的輸出節(jié)點(diǎn)數(shù)為待分類的模式識(shí)別數(shù),即為待識(shí)別的詞匯數(shù)。
3.2 網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)設(shè)置
BP神經(jīng)網(wǎng)絡(luò)輸入節(jié)點(diǎn)數(shù)目為1024,輸出層節(jié)點(diǎn)數(shù)根據(jù)待識(shí)別詞匯數(shù)而不同,隱藏層的神經(jīng)元節(jié)點(diǎn)數(shù)根據(jù)公式來(lái)確定。輸入層與隱含層之間采用S型函數(shù),隱含層與輸出層之間采用S型函數(shù)。在PSO算法中,設(shè)置種群數(shù)量為80,最大迭代次數(shù)為200,兩個(gè)學(xué)習(xí)因子c1=1.5,c2=1.5,最大最小慣性權(quán)重ωmax=1.2,ωmin=0.7。
3.3 實(shí)驗(yàn)結(jié)果及分析
表1給出了BP神經(jīng)網(wǎng)絡(luò)模型、PSO-BP模型在不同詞匯量以及不同噪聲條件下對(duì)語(yǔ)音識(shí)別的實(shí)驗(yàn)結(jié)果。從表1可以看出在不同詞匯量下,本文所建立的PSO-BP模型在識(shí)別效果上均要比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)要好,傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)在處理詞匯量較小的語(yǔ)音識(shí)別問(wèn)題時(shí),表現(xiàn)與PSO-BP性能較小,但隨著詞匯量的增大,BP模型的識(shí)別性能下降明顯,與PSO-BP差距明顯加大。其次,本文所提方法在處理不同等級(jí)噪聲的語(yǔ)音識(shí)別問(wèn)題時(shí),相對(duì)于BP模型具有更高的魯棒性。因此可以分析出,通過(guò)粒子群算法對(duì)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)經(jīng)行優(yōu)化有利于增強(qiáng)達(dá)詞匯量下的識(shí)別效果并且提高高噪聲下的識(shí)別魯棒性。
表2給出了BP神經(jīng)網(wǎng)絡(luò)模型、PSO-BP模型在不同詞匯量以及不同噪聲條件下對(duì)語(yǔ)音識(shí)別的時(shí)間測(cè)試結(jié)果。從表2可見,噪聲對(duì)兩種模型的識(shí)別時(shí)間影響較大,當(dāng)詞匯量為10并且不存在噪聲的情況下,對(duì)應(yīng)兩種識(shí)別模型的最短識(shí)別時(shí)間。在同一詞匯量不同噪聲條件下,本文提出的方法與BP神經(jīng)網(wǎng)絡(luò)的識(shí)別時(shí)間消耗相差并不明顯,但是在同一噪聲不同詞匯量時(shí),本文所提方法在識(shí)別時(shí)間上較傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)明顯。這表明參數(shù)優(yōu)化對(duì)于BP神經(jīng)網(wǎng)絡(luò)處理復(fù)雜的語(yǔ)音識(shí)別問(wèn)題有著較為重要的意義。
4 結(jié)論
目前,以BP神經(jīng)網(wǎng)絡(luò)為代表的人工神經(jīng)網(wǎng)絡(luò)模型已廣泛應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,然而由于語(yǔ)音識(shí)別問(wèn)題的特殊性,一般的BP神經(jīng)網(wǎng)絡(luò)往會(huì)出現(xiàn)網(wǎng)絡(luò)訓(xùn)練時(shí)間過(guò)長(zhǎng)、過(guò)早出現(xiàn)最優(yōu)解等問(wèn)題。BP神經(jīng)網(wǎng)絡(luò)其性能很大程度上取決于其參數(shù)的合理組合與選擇,因此,本文提出利用PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,克服了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)參數(shù)選擇方法中很難精確找到最優(yōu)參數(shù)的缺點(diǎn)。通過(guò)實(shí)驗(yàn)表明PSO-BP模型比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)模型有更好的語(yǔ)音識(shí)別效果,并且對(duì)噪聲的魯棒性也得到了提高。
參考文獻(xiàn):
[1] 張正麗.基于復(fù)合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[D].貴陽(yáng):貴州大學(xué), 2015.
[2] 滕云,賀春林,岳淼.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[J].重慶師范大學(xué)學(xué)報(bào):自然科學(xué)版, 2010, 27(4):73-76.
[3] 夏妍妍,黃健,尹麗華.基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別[J].大連海事大學(xué)學(xué)報(bào),2007, 33(增刊):157-159.
[4] 楊景花,王雙喜,周思方.基于神經(jīng)網(wǎng)絡(luò)的智能語(yǔ)音識(shí)別研究[J].微型機(jī)與應(yīng)用,2016, 35(17):52-54.
[5] 斯蕓蕓,徐道連,周卓然.基于遺傳算法和小波神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[J].微型機(jī)與應(yīng)用, 2011,30(16):68-71.endprint