国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DBM-LSTM的多特征語音情感識別

2020-03-07 12:48:00張雪英黃麗霞李寶蕓
計算機工程與設(shè)計 2020年2期
關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)特征提取神經(jīng)元

高 帆,張雪英,黃麗霞,李寶蕓

(太原理工大學 信息與計算機學院,山西 太原 030024)

0 引 言

語音是人與人之間交流的手段,同時也是傳遞情感的媒介,因此語音漸漸成為了人機交互中大多數(shù)研究者所期待的最方便、自然的交互方式。語音情感識別(speech emotion recognition,SER)過程如圖1所示,包括預處理、特征提取和情感識別模塊。這3部分的性能對識別系統(tǒng)的性能都有一定影響。本文的研究主要針對后兩項,即特征提取和識別模型構(gòu)建。目前,傳統(tǒng)的語音情感識別特征有韻律特征、Mel頻率倒譜系數(shù)(mel-frequency cepstral coefficients,MFCC)[1]等;識別模型主要有支持向量機(support vector machine,SVM)[2]和深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)[3]等。

圖1 語音情感識別

SER使用傳統(tǒng)特征和識別模型雖然取得了一些進展,但是語音信號本質(zhì)是非平穩(wěn)信號,使用傳統(tǒng)方法進行情感認知存在一定的局限性。因此本文提取情感語音信號的韻律、MFCC、非線性屬性

[4]

和非線性幾何特征

[5]

,使用深度信念網(wǎng)絡(luò)

[6]

(deep belief network,DBN)的基本單元深度受限玻爾茲曼機(deep-restricted Boltzmann machine,DBM)進行特征融合與降維,通過加入非線性特征和融合網(wǎng)絡(luò)有效地改善了傳統(tǒng)的單一特征在表達情感信息方面的不足。最后以長短時記憶單元

[7]

(long-short term memory,LSTM)作為識別模型,彌補了傳統(tǒng)模型非線性變換能力和表征能力弱的缺陷。我們將本文提出的基于深度學習的特征提取和識別網(wǎng)絡(luò)稱為基于DBM-LSTM的混合神經(jīng)網(wǎng)絡(luò),通過實驗驗證了該模型的有效性。

1 特征提取與識別模型

構(gòu)建多特征融合模型和識別網(wǎng)絡(luò)是本文的關(guān)鍵。首先,由文獻[8]可知受限玻爾茲曼機(restricted Boltzmann machine,RBM)擅長學習數(shù)據(jù)的高層特征,RBM堆疊形成DBM,DBM具有多層非線性變換結(jié)構(gòu),能夠完成復雜非線性函數(shù)的模擬。其次,由文獻[7]可知LSTM善于對時間序列分析,而且具有長時記憶功能,能夠有效利用前后幀相關(guān)信息進行分析。

1.1 深度受限玻爾茲曼機

RBM結(jié)構(gòu)如圖2所示,其工作原理是基于能量函數(shù)使用對比散度快速學習算法[9](contrastive divergence,CD)對特征進行重構(gòu),形成新的特征向量,該特征向量充分描述了特征的相關(guān)性??梢晫优c隱藏層分別用v和h表示,偏置分別用a和b表示,W代表權(quán)重矩陣,對于狀態(tài) (v,h),能量公式為

(1)

圖2 RBM結(jié)構(gòu)

LSTM通過特殊的設(shè)計克服了RNN的梯度消失問題,它不僅能夠存儲較長一段時間的有用信息,而且能夠優(yōu)化時間序列的分類任務(wù)[10]。語音信號就是由一系列時間幀構(gòu)成的,因此將LSTM用在語音識別中應(yīng)該能展現(xiàn)出比傳統(tǒng)模型更優(yōu)異的性能。LSTM單元展開如圖4所示,其中各個門的輸出按式(6)進行更新

(2)

傳統(tǒng)RBM服從伯努利-伯努利分布(Bernoulli-Bernoulli),是一種二值分布(0-1分布)。Bernoulli型節(jié)點難以模擬情感語音等非二值分布數(shù)據(jù),因此本文使用高斯-伯努利分布(Gaussian-Bernoulli)的RBM,自下而上逐層堆疊,下層輸出作為上層輸入形成DBM,結(jié)構(gòu)如圖3所示。該方法通過引入高斯噪聲來模擬真實數(shù)據(jù),其能量函數(shù)與條件概率為

(3)

(4)

識別網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,這是一個多層LSTM加一層softmax層結(jié)構(gòu),神經(jīng)元數(shù)目及網(wǎng)絡(luò)層數(shù)見表4。

圖3 DBM結(jié)構(gòu)

二是加快完善流域水利規(guī)劃體系。進一步完善流域綜合規(guī)劃體系,海河流域綜合規(guī)劃獲得國務(wù)院批復,獨流減河口綜合整治規(guī)劃治導線調(diào)整報告、拒馬河流域綜合規(guī)劃通過水規(guī)總院審查,流域水中長期供求規(guī)劃、滹沱河、薊運河、灤河等工程規(guī)劃取得階段性成果。

(5)

步驟1 初始化(Initialization)

LSTM識別網(wǎng)絡(luò)能夠綜合考慮時序問題前后幀特征之間的關(guān)聯(lián)性,網(wǎng)絡(luò)當前時刻的輸入是將當前幀與前后相鄰幾幀的特征連接起來;當前時刻的輸出是由當前時刻的輸入和前一時刻的輸出共同決定。最終,LSTM層的輸出通過softmax層,輸出每一類情感的概率。

(2) 指定參數(shù)k。

綜上所述,在新課程教學改革的背景下,借助信息技術(shù)開展教學,鍛煉學生的綜合能力以及綜合素養(yǎng)已經(jīng)成為教師新的教學重點。在開展數(shù)學教學的過程中,結(jié)合微課教學手段能夠有效地激發(fā)學生的學習熱情以及學習欲望,促進學生學習質(zhì)量以及自主學習能力的提升,使其能夠主動自主學習,進而促進學生的全面發(fā)展。

(4) 初始化權(quán)值W,偏置a、b,高斯標準方差σ。

步驟2 訓練(Training)

(1) 調(diào)用CD-k算法訓練每一個RBM。

本文主要采取以下3種優(yōu)化方式:

(3) 將多個RBM連接構(gòu)成DBM,上一個RBM的隱藏層即為下一個RBM的可視層,上一個RBM的輸出層即為下一個RBM的輸入層。

(4) 最后一個RBM的隱層輸出向量h即為輸入特征的深層表示。

1.2 長短時記憶單元

當給定可視層(或隱藏層)的所有神經(jīng)元狀態(tài),則隱藏層(或可視層)的某個神經(jīng)元被激活(狀態(tài)為1)的概率表示為

(6)

圖4 LSTM單元基本結(jié)構(gòu)

2 基于DBM-LSTM的情感語音識別

本文首先將原始特征經(jīng)過主成分分析(principal component analysis,PCA)后輸入DBM。然后DBM通過多次特征重構(gòu)將能量、基頻、頻譜等低層次特征的統(tǒng)計特征映射為更適合情感識別的深度特征。最后為充分利用LSTM分析時間序列的優(yōu)勢,將深度特征輸入到多層的LSTM中進行識別。

2.1 DBM特征提取

DBM輸入特征見表1,網(wǎng)絡(luò)每一層的輸出為下一層的輸入,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,這是一個多層RBM疊加,其中每一個子塊都是四層結(jié)構(gòu),其神經(jīng)元數(shù)目見表2。

表1 輸入特征

輸入特征變化見表3,特征提取按以下步驟進行:

第一步將經(jīng)過PCA處理的韻律特征、MFCC特征、非線性幾何特征、非線性屬性特征輸入到DBM-1層中進行第一次深度融合與降維,得到隱層輸出為特征1、特征2、特征3、特征4。

圖5 DBM網(wǎng)絡(luò)結(jié)構(gòu)

表2 DBM網(wǎng)絡(luò)結(jié)構(gòu)

第二步根據(jù)特征的屬性,將特征1與特征2,特征3與特征4分別線性拼接,輸入DBM-2層進行第二次深度融合與降維,得到隱層輸出特征5與特征6。

第三步將特征5與特征6線性拼接,輸入DBM-3層進行第三次深度融合與降維,得到隱層輸出融合特征。

2.2 LSTM識別網(wǎng)絡(luò)

vi和hj分別表示可視層與隱藏層第i個神經(jīng)元和第j個神經(jīng)元的狀態(tài),ai和bj分別表示其偏置,Wij表示可視層中第i個神經(jīng)元與隱藏層中第j個神經(jīng)元之間的連接權(quán)重,σ是高斯函數(shù)的標準方差,W,a,b,σ所構(gòu)成的參數(shù)集合為θ=(W,a,b,σ)。

表3 特征變化

圖6 LSTM網(wǎng)絡(luò)結(jié)構(gòu)

LSTM層特征類型神經(jīng)元數(shù)目融合特征(70,80,60,5)

第三,本文主要使用了dropout[11]技術(shù)來防止訓練過程中的過擬合,在DBM和LSTM層均使用了dropout。它主要通過在每個訓練批次中忽略掉一半的特征檢測單元,減少特征檢測單元的相互作用,讓某些神經(jīng)元的激活值以一定的概率p停止工作,這樣可以使模型的泛化能力更強,不會依賴某些局部特征。

2.3 基于均方誤差和交叉熵的代價函數(shù)

目前神經(jīng)網(wǎng)絡(luò)使用最廣泛的代價函數(shù)是均方誤差代價函數(shù)和交叉熵(crsoss-entropy)代價函數(shù),人們在設(shè)計模型的時候希望輸入數(shù)據(jù)通過識別模型能最大程度地映射為其所屬的標簽,最后一層神經(jīng)元的輸出與目標值越接近越好,由此人們引入了均方誤差損失函數(shù),表達式如式(7)所示。xi代表第i個語音數(shù)據(jù),y代表第i個語音數(shù)據(jù)對應(yīng)的標簽,a代表第i個語音數(shù)據(jù)輸入到網(wǎng)絡(luò)中的實際輸出值,n代表數(shù)據(jù)的總數(shù) (1≤i≤N)

(7)

使用仿真軟件,輸入擴孔鉆頭的結(jié)構(gòu)參數(shù)、鉆進參數(shù)及巖石參數(shù),將擴孔鉆頭的切削齒和井壁離散化,如圖4所示,再模擬、分析在導向鉆井及復合鉆井等條件下新型擴孔鉆頭的切削力學性能與穩(wěn)定性能。

(8)

2.4 優(yōu)化方式

綜上所述,將任務(wù)打包[10]發(fā)布可以讓會員同時接到多個由公司設(shè)計好的最優(yōu)任務(wù)包,能夠讓會員在最短的時間內(nèi)完成較多的任務(wù).并且將任務(wù)打包發(fā)布可以將單個任務(wù)價格適當調(diào)低,既能保證會員的收入又能減少公司的費用.通過對原定價模型的修改使一些“冷門”任務(wù)得以完成,將任務(wù)的執(zhí)行情況進行了優(yōu)化,提高了任務(wù)的完成度.

第一,DBM和LSTM層主要使用反向傳播算法 (backward propagation,BP)進行梯度計算。BP算法擁有較強的非線性映射能力,可以不斷地調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù),以達到最符合期望的輸出。

乞求皮特發(fā)慈悲的想法讓我怒從膽邊生,沖動之下,我抬腳朝皮特的側(cè)身踢去。事與愿違,他抓住我的腳,向前一拽,我一下失去了平衡,背部著地,仰面朝天狠狠地摔在地上,只好把腳抽回來,掙扎著站起身。

(1) 給定訓練集x。

3 實 驗

3.1 數(shù)據(jù)集

本文使用柏林技術(shù)學院W.Sendlmeier教授課題組錄制的EMO-DB柏林情感數(shù)據(jù)庫進行驗證,主要情感包括悲傷、憤怒、高興、害怕、中性等5類情感,數(shù)據(jù)構(gòu)成見表5。

表5 數(shù)據(jù)庫

3.2 特征選取

本文在課題組之前的研究成果背景下,主要使用4類180維特征進行語音情感識別,由于初次提取后的特征存在一定信息冗余,本文對其進行了PCA融合降維。

3.3 網(wǎng)絡(luò)參數(shù)設(shè)置

本文以DBM-LSTM網(wǎng)絡(luò)結(jié)構(gòu)為例,通過多次實驗確定網(wǎng)絡(luò)參數(shù):minibatch為32,學習率為0.001,dropout為0.09-0.11,當輸入為融合特征時最大迭代次數(shù)30-100次,參數(shù)取值情況見表6,情感識別結(jié)果隨參數(shù)變化情況如圖7所示。

表6 訓練參數(shù)

圖7 參數(shù)對識別結(jié)果影響變化曲線

為了驗證本文提出的DBM-LSTM結(jié)構(gòu)的有效性,本文設(shè)置了多組對比實驗,其中對比實驗網(wǎng)絡(luò)結(jié)構(gòu)包括SVM,DNN。

3.4 實驗分析及結(jié)果

表7統(tǒng)計了4類特征在第一次深度提取前后分別通過SVM、DNN、LSTM等分類器的識別結(jié)果。

由表7可知,在單一特征的對比中特征2(MFCC特征深度提取后)取得了最優(yōu)的識別結(jié)果,表8將其與兩特征融合(特征5、特征6)和四特征融合(融合特征)進行了對比。

表7 深度提取前后實驗結(jié)果對比

對數(shù)據(jù)進行可視化處理如圖8所示,經(jīng)分析得出以下結(jié)論。

圖8 情感識別結(jié)果對比折線

第一,由表7可知,經(jīng)過DBM第一次深度融合降維后的特征,在各分類器上都表現(xiàn)出了更好的性能,其中通過LSTM分類器時獲得了最優(yōu)的性能,且高于傳統(tǒng)分類器SVM。

第二,由圖8可知,融合特征在各分類器上的識別結(jié)果均高于最優(yōu)單一特征(特征2)。由此可知,DBM-LSTM有助于多特征融合,且融合后的特征性能更優(yōu)。

4 結(jié)束語

針對傳統(tǒng)單一特征在語音情感識別過程中表征能力不足和傳統(tǒng)識別模型非線性變換能力較差的問題,本文提出了一種基于DBM-LSTM的混合神經(jīng)網(wǎng)絡(luò),DBM主要用于情感語音的深層特征提取和多特征融合,LSTM主要用于情感語音識別,成功解決了多情感分類的難題。結(jié)果顯示,在輸入特征相同的情況下,與傳統(tǒng)識別模型相比,DBM-LSTM模型在處理情感語音信號的分類問題上具有更好的性能。本研究尚未引入腦電信號作為輔助信號進行語音情感識別,同時在今后的研究過程中,擬利用不同情感之間的關(guān)聯(lián)性改進LSTM網(wǎng)絡(luò)的代價函數(shù)。

猜你喜歡
網(wǎng)絡(luò)結(jié)構(gòu)特征提取神經(jīng)元
《從光子到神經(jīng)元》書評
自然雜志(2021年6期)2021-12-23 08:24:46
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
Bagging RCSP腦電特征提取算法
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習
知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
復雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進展
基于二次型單神經(jīng)元PID的MPPT控制
毫米波導引頭預定回路改進單神經(jīng)元控制
武安市| 辛集市| 新田县| 临泽县| 彰化县| 东丽区| 平罗县| 湛江市| 花垣县| 大丰市| 祁门县| 乐清市| 香格里拉县| 蒙阴县| 鄂伦春自治旗| 板桥市| 陈巴尔虎旗| 富顺县| 东丰县| 永定县| 株洲市| 周口市| 平顶山市| 康定县| 筠连县| 龙海市| 元谋县| 萝北县| 潞城市| 渝中区| 招远市| 石楼县| 道孚县| 历史| 瑞金市| 米易县| 尼勒克县| 林州市| 重庆市| 平武县| 阆中市|