朱應(yīng)俊 周文君 朱 川 馬建敏
(復(fù)旦大學(xué)航空航天系 上海 200433)
語聲情感識(shí)別(Speech emotion recognition,SER)已在娛樂產(chǎn)品的情感交互、遠(yuǎn)程教育的情感反饋、智能座艙的情緒監(jiān)測(cè)中得到廣泛應(yīng)用。在應(yīng)用中,通過建立語聲信號(hào)的聲學(xué)特征與情感的映射關(guān)系,對(duì)語聲的情感進(jìn)行分類?;趩我惶卣鞯腟ER 模型因受到特征信息量不足的制約而影響識(shí)別準(zhǔn)確率。隨著對(duì)語聲情感特征研究的逐步深入,通過對(duì)多種語聲特征進(jìn)行融合以消除特征中的冗余信息并提升識(shí)別準(zhǔn)確率的方法受到越來越多的關(guān)注,已形成了特征級(jí)、中間層級(jí)、決策級(jí)等融合方式。
對(duì)語聲情感特征進(jìn)行特征級(jí)的融合可以在增加信息量并提高識(shí)別準(zhǔn)確率的同時(shí)有效減小特征維度。Liu等[1]使用基于相關(guān)性分析和Fisher 準(zhǔn)則的特征選擇方法,去除來自同一聲源且具有較高相關(guān)性的冗余特征。Cao等[2]也提出了基于Spearman 相關(guān)性分析和隨機(jī)森林特征選擇的方法提取相關(guān)性最弱的特征以進(jìn)行融合?;诰W(wǎng)絡(luò)中間層進(jìn)行的融合則利用神經(jīng)網(wǎng)絡(luò)將原始特征轉(zhuǎn)化為高維特征表達(dá),以獲取不同模態(tài)數(shù)據(jù)在高維空間的融合表示。Cao等[3]在話語級(jí)別的情感識(shí)別中使用門控記憶單元(Gated memory unit,GMU)來獲取語聲信號(hào)的靜態(tài)與動(dòng)態(tài)特征融合后的情感中間表示。Zhang等[4]提出了基于塊的時(shí)間池化策略用于融合多個(gè)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)模型學(xué)習(xí)到的片段級(jí)情感特征,得到固定長(zhǎng)度的話語級(jí)情感特征。語聲特征的融合還可基于多個(gè)模型在其輸出階段進(jìn)行決策級(jí)融合以集成其情感分類結(jié)果[5]。Noh等[6]使用基于驗(yàn)證準(zhǔn)確度的指數(shù)加權(quán)平均法則組成了分級(jí)投票決策器對(duì)多個(gè)CNN 模型的決策結(jié)果進(jìn)行融合。Yao等[7]使用基于置信度的決策級(jí)融合整合了在多任務(wù)學(xué)習(xí)中獲得的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)、CNN 和深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)。
注意力機(jī)制可用于自動(dòng)計(jì)算輸入數(shù)據(jù)對(duì)輸出數(shù)據(jù)的貢獻(xiàn)大小,近年來也在語聲識(shí)別相關(guān)領(lǐng)域得到了較多運(yùn)用。Bahdanau等[8]將注意力機(jī)制應(yīng)用于RNN 和n-gram 語言模型,建立了端到端的序列模型。Mirsamadi等[9]將基于局部注意力機(jī)制的加權(quán)時(shí)間池化策略用于RNN 模型,以學(xué)習(xí)與情感相關(guān)的短時(shí)幀級(jí)特征。Kwon[10]使用特殊的擴(kuò)張CNN 從輸入的過渡語聲情感特征中提取空間信息并生成空間注意力圖以對(duì)特征進(jìn)行加權(quán)。
在已有對(duì)語聲特征融合及注意力機(jī)制在SER任務(wù)中應(yīng)用研究的基礎(chǔ)上,通過對(duì)語聲信號(hào)進(jìn)行預(yù)加重和分幀加窗等處理,得到基于譜特征和時(shí)序特征的前端網(wǎng)絡(luò),利用壓縮-激勵(lì)(Squeeze-andexcitation,SE)通道注意力機(jī)制對(duì)前端網(wǎng)絡(luò)中間層進(jìn)行融合,有效利用不同前端網(wǎng)絡(luò)在SER 任務(wù)中的優(yōu)勢(shì)提高情感識(shí)別準(zhǔn)確率。通過在漢語情感數(shù)據(jù)集中的對(duì)比實(shí)驗(yàn),對(duì)前端網(wǎng)絡(luò)選擇的合理性和SE 通道注意力機(jī)制用于對(duì)前端網(wǎng)絡(luò)中間層進(jìn)行融合的有效性進(jìn)行驗(yàn)證。
本文判斷語聲信號(hào)情感類別的SER 模型如圖1所示,該模型由3個(gè)模塊組成:前端網(wǎng)絡(luò)模塊、注意力機(jī)制融合模塊和后端網(wǎng)絡(luò)分類模塊。前端網(wǎng)絡(luò)模塊對(duì)輸入的語聲信號(hào)進(jìn)行預(yù)加重和分幀加窗等處理后,提取梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)和逆梅爾倒譜系數(shù)(Inverted MFCC,IMFCC)作為譜特征,把譜特征輸入到二維卷積神經(jīng)網(wǎng)絡(luò)(Two dimensional CNN,2D-CNN)得到MFCC 2D-CNN 和IMFCC 2D-CNN;提取散射卷積網(wǎng)絡(luò)系數(shù)(Scattering convolution network coefficients,SCNC)作為時(shí)序特征,把時(shí)序特征輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)中得到SCNC LSTM。注意力機(jī)制融合模塊引入SE 通道注意力機(jī)制,將MFCC 2D-CNN、IMFCC 2D-CNN 和SCNC LSTM 前端網(wǎng)絡(luò)中提取的中間層進(jìn)行加權(quán)融合得到融合深度特征(Fusion deep feature,FDF)。后端分類模塊基于DNN構(gòu)建分類器,依據(jù)輸入的FDF映射輸出情感分類結(jié)果。
圖1 SER 模型結(jié)構(gòu)Fig.1 Structure of SER model
MFCC 和IMFCC譜特征中不同頻譜區(qū)間的頻譜能量分布體現(xiàn)著不同情感狀態(tài)下的聲道形狀和發(fā)聲狀態(tài)[11],其中計(jì)算MFCC 特征時(shí)使用的Mel三角濾波器模擬了人耳聽覺的非線性機(jī)制,更加關(guān)注于語聲信號(hào)的低頻部分而對(duì)中高頻的變化不夠敏感[12];IMFCC特征則通過IMel 濾波器在高頻區(qū)域分布更加密集來獲取更多高頻信息[13]。Hz 頻率與Mel 頻率及IMel 頻率之間的定量關(guān)系可分別表示為[14]
其中,f表示Hz 頻率,fMel和fIMel分別為Mel 頻率及IMel頻率。
將語聲信號(hào)的功率譜通過Mel 及IMel 三角濾波器,并將對(duì)數(shù)能量帶入離散余弦變換(Discrete cosine transform,DCT)以消除相關(guān)性,可計(jì)算得到語聲信號(hào)的MFCC 系數(shù)及IMFCC 系數(shù)。還引入其一階二階差分項(xiàng)作為動(dòng)態(tài)特征以體現(xiàn)語聲情感的時(shí)域連續(xù)性[15]。特征差分項(xiàng)dt的實(shí)現(xiàn)如下:
其中,ct表示MFCC或IMFCC倒譜系數(shù),st表示一階導(dǎo)數(shù)的時(shí)間差。將一階差分結(jié)果重復(fù)帶入即可得到二階差分,最終可計(jì)算得到帶有差分項(xiàng)的MFCC及IMFCC特征。
為了利用CNN 在提取特征矩陣的局部空間相關(guān)性信息方面的優(yōu)勢(shì)[16],本文搭建了改進(jìn)Alexnet的2D-CNN,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)圖如圖2 所示,網(wǎng)絡(luò)卷積部分的結(jié)構(gòu)參數(shù)如表1 所示。卷積層使用了ReLU 激活函數(shù),并進(jìn)行了L2 正則化,正則化參數(shù)為0.02。在完成卷積運(yùn)算后,使用扁平化層(Flatten)對(duì)卷積特征進(jìn)行降維,輸入到節(jié)點(diǎn)數(shù)分別為2048 和512的兩層全連接層對(duì)特征進(jìn)行整合,并由6 個(gè)節(jié)點(diǎn)的Softmax 分類層得到情感分類結(jié)果。將MFCC和IMFCC特征分別輸入2D-CNN 訓(xùn)練得到MFCC 2D-CNN前端網(wǎng)絡(luò)和IMFCC 2D-CNN前端網(wǎng)絡(luò)。
表1 2D-CNN 前端網(wǎng)絡(luò)卷積層參數(shù)Table 1 Parameters of convolutional layers in 2D-CNN front-end network
圖2 基于MFCC 與IMFCC 的2D-CNN 前端網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 2D-CNN front-end network structure based on MFCC and IMFCC
在反向傳播過程中,為了應(yīng)對(duì)由樣本量過少及訓(xùn)練數(shù)據(jù)分布不均衡導(dǎo)致的網(wǎng)絡(luò)性能下降的問題,本文引入了Focal loss損失函數(shù)[17],通過給難分類樣本(Hard example)較大的權(quán)重,給易分類樣本(Easy example)較小的權(quán)重,來放大難分類樣本的損失并抑制易分類樣本的損失,從而使網(wǎng)絡(luò)聚焦于難分類樣本的學(xué)習(xí),提高分類準(zhǔn)確率。Focal loss 損失函數(shù)Lfl的計(jì)算如下:
其中,pt表示分類器預(yù)測(cè)的概率值,γ為權(quán)重放大因子,αt是類別權(quán)重。為了增大2D-CNN 前端網(wǎng)絡(luò)對(duì)難分類樣本的權(quán)重,將γ取為4,因?yàn)閿?shù)據(jù)集中各類情感樣本數(shù)目相同,將αt設(shè)置為1。
本文引入了由不變散射卷積網(wǎng)絡(luò)(Invariant scattering convolution network,ISCN)自動(dòng)提取的SCNC 特征[18]作為時(shí)序特征。將語聲幀視作短時(shí)平穩(wěn)信號(hào),輸入由多層小波散射變換與取模算子級(jí)聯(lián)得到的ISCN 中,提取其散射系數(shù)作為SCNC 特征,該特征能夠最小化信號(hào)的平移和形變的影響,具有較強(qiáng)的變形穩(wěn)定性,且保留用于分類的高頻信息,故在網(wǎng)絡(luò)中間層對(duì)特征進(jìn)行融合時(shí)能夠維持分類魯棒性[19]。
對(duì)語聲信號(hào)進(jìn)行的小波變換可表示為{x ?ψλ}λ,其中指數(shù)λ=2-jr給出了帶通濾波器ψλ的頻率位置,?表示卷積運(yùn)算,對(duì)于語聲信號(hào)僅計(jì)算λ在r ∈[0,π)范圍內(nèi)所對(duì)應(yīng)的路徑。沿路徑p=(λ1,λ2,···,λm) 迭代進(jìn)行小波變換和取模運(yùn)算可求得小波變換系數(shù):
其中,對(duì)于每條路徑p,S[p]x(u)是窗口位置u的函數(shù),將式(5)代入其中即可得到計(jì)算m階加窗散射系數(shù)的公式如下:
為了提高特征的高頻分辨率,將分幀加窗后的語聲片段輸入由5 層小波變換和取模算子級(jí)聯(lián)得到的ISCN 中,以提取網(wǎng)絡(luò)的加窗散射系數(shù)作為SCNC特征。
LSTM 相較于CNN 可以更好地處理時(shí)間序列的任務(wù),同時(shí)LSTM 解決了RNN 的長(zhǎng)時(shí)依賴問題[20],并避免了反向傳播過程中的梯度消失[21]。本文搭建了基于SCNC 特征的LSTM 前端網(wǎng)絡(luò),網(wǎng)絡(luò)由LSTM 層和3 層全連接層組成,為對(duì)應(yīng)每幀語聲提取到的32維的SCNC特征,LSTM層設(shè)置了32個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)通過126 個(gè)時(shí)間步進(jìn)行更新[22]。單個(gè)節(jié)點(diǎn)的結(jié)構(gòu)如圖3所示。
圖3 單個(gè)LSTM 節(jié)點(diǎn)的內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of LSTM node
在LSTM 節(jié)點(diǎn)中,Xt表示SCNC 特征沿時(shí)間軸的輸入,Ct表示由當(dāng)前輸入產(chǎn)生的細(xì)胞待更新的狀態(tài),由輸入門it和遺忘門ft決定當(dāng)前細(xì)胞狀態(tài)要如何更新,細(xì)胞狀態(tài)的迭代公式為
ht表示當(dāng)前節(jié)點(diǎn)輸出的隱藏狀態(tài),由輸出門ot和當(dāng)前細(xì)胞狀態(tài)計(jì)算得到,使用tanh 函數(shù)作為激活函數(shù),其計(jì)算如下:
將LSTM 網(wǎng)絡(luò)層輸出的全部隱藏狀態(tài)H使用Flatten 層降維后輸入到節(jié)點(diǎn)數(shù)分別為1024 和256的全連接層進(jìn)行特征整合,激活函數(shù)為ReLU 函數(shù),全連接層后使用了Dropout 函數(shù)以抑制過擬合,Dropout 率為0.3,并由6 個(gè)節(jié)點(diǎn)的Softmax 分類層得到情感分類結(jié)果。將SCNC特征輸入LSTM以訓(xùn)練得到SCNC LSTM 前端網(wǎng)絡(luò)。
在SER 任 務(wù) 中,MFCC 2D-CNN 和IMFCC 2D-CNN 前端網(wǎng)絡(luò)更加關(guān)注譜特征中的語聲能量信息,而SCNC LSTM 前端網(wǎng)絡(luò)則側(cè)重于語聲的時(shí)序性信息。為了發(fā)揮兩類網(wǎng)絡(luò)的優(yōu)勢(shì),本文將前端網(wǎng)絡(luò)模型視作特征提取器,分別提取了MFCC 2D-CNN 與IMFCC 2D-CNN 前端網(wǎng)絡(luò)最后一層卷積層的輸出,提取了SCNC LSTM 前端網(wǎng)絡(luò)的隱藏狀態(tài)H。前端網(wǎng)絡(luò)的中間層深度特征作為話語級(jí)的特征表示,由于不同網(wǎng)絡(luò)中的深度特征對(duì)情感分類的貢獻(xiàn)程度不同,本文引入SE 通道注意力機(jī)制,利用SE Block對(duì)各前端網(wǎng)絡(luò)中間層權(quán)重進(jìn)行調(diào)整[23],融合過程如圖4所示。
圖4 SE 通道注意力機(jī)制融合過程Fig.4 SE channel attention mechanism workflow
SE 通道注意力機(jī)制的實(shí)現(xiàn)通過兩步完成。第一步為Squeeze 操作,對(duì)應(yīng)于圖4 中的全局平均池化,其實(shí)現(xiàn)如下:
其中,壓縮函數(shù)Fsq在特征維度上對(duì)中間層矩陣uc進(jìn)行壓縮降維,將H ×W ×C的多通道特征降為1×1×C的C維向量,以表征網(wǎng)絡(luò)中間層的全局信息。第二步的Excitation 操作對(duì)全局平均池化后生成的zc依次進(jìn)行了全連接、ReLU 激活、全連接、Sigmoid 激活,得到代表各通道重要性的權(quán)重矩陣,其表達(dá)式為
其中,δ為線性激活函數(shù),W1與W2為兩個(gè)全連接層,σ為Sigmoid激活函數(shù)。
將Excitation 操作后求得的權(quán)重矩陣s與前端網(wǎng)絡(luò)中間層矩陣相乘可得到FDF矩陣,從而實(shí)現(xiàn)由多通道的聯(lián)合深度特征(Joint deep feature,JDF)向FDF的轉(zhuǎn)變。
利用SE 通道注意力機(jī)制融合前端網(wǎng)絡(luò)中間層得到了FDF矩陣作為話語級(jí)的情感特征,輸入基于DNN的后端網(wǎng)絡(luò)分類器進(jìn)行SER,網(wǎng)絡(luò)共有5 層全連接層,節(jié)點(diǎn)數(shù)分別為2048、512、256、64,激活函數(shù)均為ReLU 函數(shù),最后由Softmax 分類層輸出得到多分類預(yù)測(cè)矩陣,取概率最大的一類作為最終的情感預(yù)測(cè)結(jié)果。在網(wǎng)絡(luò)中使用了Dropout 來抑制過擬合,其中Dropout 率為0.2。為了研究基于SE 通道注意力機(jī)制的網(wǎng)絡(luò)中間層融合方式對(duì)每一類情感的識(shí)別效果,將DNN 后端網(wǎng)絡(luò)的分類結(jié)果基于混淆矩陣進(jìn)行輸出表示。
實(shí)驗(yàn)部分首先通過消融實(shí)驗(yàn)對(duì)語聲特征的維度選擇及前端網(wǎng)絡(luò)設(shè)計(jì)的合理性進(jìn)行了驗(yàn)證,其次通過與前端融合和中間層非計(jì)權(quán)融合的對(duì)比實(shí)驗(yàn)驗(yàn)證了SE 通道注意力機(jī)制用于網(wǎng)絡(luò)中間層融合的有效性,最后通過與參考文獻(xiàn)中融合方式的對(duì)比實(shí)驗(yàn)對(duì)基于SE 通道注意力機(jī)制的網(wǎng)絡(luò)融合方式在SER任務(wù)中的準(zhǔn)確率與時(shí)間復(fù)雜度進(jìn)行了分析。
實(shí)驗(yàn)選用的CPU 型號(hào)為11th Gen Intel Core i5-11400,搭配4666 MHz 頻率的雙通道DDR4 內(nèi)存,容量共32 GB,用于深度學(xué)習(xí)加速的GPU 型號(hào)為NVIDIA GeForce RTX3060,顯存容量為12 GB,開發(fā)使用的語言版本為Python 3.8.3,使用的深度學(xué)習(xí)框架為Tensorflow 2.4.0。
本文實(shí)驗(yàn)基于中國(guó)科學(xué)院自動(dòng)化研究所錄制的漢語情感語料庫的部分?jǐn)?shù)據(jù)進(jìn)行,該數(shù)據(jù)子集包含了來自4 位說話者的1200 條語聲,其情感傾向包括生氣(Anger)、悲傷(Sad)、害怕(Fear)、開心(Happy)、中性(Neutral)、驚訝(Surprise),語聲的采樣率為16000 Hz。實(shí)驗(yàn)中,將語聲片段的時(shí)長(zhǎng)統(tǒng)一為2 s 共32000個(gè)采樣點(diǎn),對(duì)其進(jìn)行加窗分幀操作后可得到126 個(gè)語聲幀。求得各語聲特征維度如表2所示。
表2 語聲特征及維度Table 2 Speech features and its dimension
為消除數(shù)據(jù)集劃分方式對(duì)網(wǎng)絡(luò)性能的影響,將中國(guó)科學(xué)院自動(dòng)化研究所語聲情感數(shù)據(jù)集進(jìn)行隨機(jī)排序,并按照80%、10%、10%的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。取五折交叉驗(yàn)證后的各情感平均分類準(zhǔn)確率(Average ACC)和宏F1 得分(Macro-F1 Score)作為網(wǎng)絡(luò)性能的評(píng)價(jià)指標(biāo)。
為驗(yàn)證前端網(wǎng)絡(luò)設(shè)置及對(duì)應(yīng)特征維度選擇的合理性,實(shí)驗(yàn)分別對(duì)比了:(1) 基于一維譜特征1D-MFCC 與1D-IMFCC 的1D CNN前端網(wǎng)絡(luò)。(2) 基于三維譜特征3D-MFCC 與3D-IMFCC 的3D-CNN前端網(wǎng)絡(luò)。(3)使用平均池化(Ave-pool)層的2D-CNN前端網(wǎng)絡(luò)。(4) 基于16維與64維SCNC特征的LSTM 前端網(wǎng)絡(luò)。(5) 基于32維SCNC特征的2D-CNN前端網(wǎng)絡(luò)。為驗(yàn)證在網(wǎng)絡(luò)中間層進(jìn)行融合相較于特征級(jí)融合的優(yōu)勢(shì),實(shí)驗(yàn)對(duì)比了兩類前端融合方式:(1) 前端特征級(jí)注意力機(jī)制融合。(2) 前端特征級(jí)非計(jì)權(quán)融合。除此之外,還比較了對(duì)網(wǎng)絡(luò)中間層進(jìn)行非計(jì)權(quán)融合后的網(wǎng)絡(luò)性能。
為了進(jìn)一步驗(yàn)證SE 通道注意力機(jī)制用于網(wǎng)絡(luò)中間層融合的適用性,還和文獻(xiàn)[2]中基于隨機(jī)森林特征選擇算法的前端融合、文獻(xiàn)[3]中基于GMU 的分層網(wǎng)絡(luò)中間層融合和文獻(xiàn)[7]中基于置信度的后端融合方式進(jìn)行了比較分析,并取預(yù)測(cè)測(cè)試集的總耗時(shí)作為時(shí)間復(fù)雜度指標(biāo)進(jìn)行討論。
不同維度語聲特征在對(duì)應(yīng)前端網(wǎng)絡(luò)中的分類結(jié)果如表3 中所示。由表3 可知基于二維MFCC特征的2D-CNN 前端網(wǎng)絡(luò)相較于基于一維及三維MFCC 特征的前端網(wǎng)絡(luò)取得了更高的平均準(zhǔn)確率和宏F1 得分;基于二維IMFCC 特征的2D-CNN 前端網(wǎng)絡(luò)亦優(yōu)于基于一維與三維IMFCC 特征的前端網(wǎng)絡(luò);且最大池化在2D-CNN 前端網(wǎng)絡(luò)中的效果好于平均池化。對(duì)比16 維與64 維的SCNC 特征可知,基于32 維SCNC 特征的LSTM 前端網(wǎng)絡(luò)性能更好,且優(yōu)于基于SCNC特征的2D-CNN前端網(wǎng)絡(luò)。
表3 三類語聲特征在不同前端網(wǎng)絡(luò)中的分類結(jié)果Table 3 Classification results of three SER features in different front-end networks
分析可知,對(duì)于二維MFCC 和IMFCC 特征,2D-CNN 前端網(wǎng)絡(luò)可有效利用特征矩陣中的頻譜能量信息進(jìn)行分類。而最大池化相較于平均池化,對(duì)特征矩陣中的紋理信息更加敏感,更有利于對(duì)區(qū)分性信息的提取。對(duì)于SCNC 特征,LSTM 前端網(wǎng)絡(luò)能夠更好地學(xué)習(xí)序列中的時(shí)間相關(guān)性,由5 層ISCN提取的32維SCNC 特征則可較好地保留用于分類的高頻信息。
將本文所選的3 類前端網(wǎng)絡(luò)的分類結(jié)果表示為混淆矩陣,如圖5 所示,其中對(duì)角線數(shù)據(jù)表示網(wǎng)絡(luò)對(duì)每類情感的識(shí)別準(zhǔn)確率。觀察混淆矩陣可知,3 類前端網(wǎng)絡(luò)對(duì)“中性(Neutral)”與“憤怒(Angry)”兩類情感的識(shí)別準(zhǔn)確率顯著高于其余情感類別。
圖5 三類前端網(wǎng)絡(luò)的分類混淆矩陣Fig.5 Confusion matrix for three front-end networks
基于SE 通道注意力機(jī)制的網(wǎng)絡(luò)中間層融合方式對(duì)比前端融合方式與中間層非計(jì)權(quán)融合方式的情感分類結(jié)果如表4 所示,觀察可知,前端特征級(jí)的拼接融合或注意力機(jī)制融合相較于單一特征僅能使情感分類的平均準(zhǔn)確率小幅提升,這證明了前端融合特征泛化能力有限,無法充分利用多種語聲特征的優(yōu)勢(shì)。而基于網(wǎng)絡(luò)中間層進(jìn)行非計(jì)權(quán)拼接融合后的準(zhǔn)確率相較于特征級(jí)融合有了顯著提高,但其表現(xiàn)依舊差于采用SE 通道注意力機(jī)制的融合方式。這證明了基于網(wǎng)絡(luò)中間層進(jìn)行的融合優(yōu)于特征級(jí)的融合,也進(jìn)一步驗(yàn)證了基于SE 通道注意力機(jī)制進(jìn)行融合的有效性。不同融合方式取得的分類混淆矩陣分別如圖6 所示,觀察可知后端分類網(wǎng)絡(luò)均在“中性”情感上取得了最高的識(shí)別準(zhǔn)確率,這也證明了前端網(wǎng)絡(luò)在某一類情感識(shí)別中的優(yōu)勢(shì)在融合后可以得到保留。
表4 不同網(wǎng)絡(luò)融合方式的對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative test results of different network fusion methods
圖6 不同網(wǎng)絡(luò)融合方式的分類混淆矩陣Fig.6 Confusion matrix for different network fusion methods
文獻(xiàn)[2–3,7]中不同階段的融合方式在測(cè)試集上的平均準(zhǔn)確率和預(yù)測(cè)耗時(shí)如表5 所示。觀察數(shù)據(jù)可知,基于隨機(jī)森林特征選擇算法的特征融合方式[2]所用預(yù)測(cè)時(shí)間最短,這也體現(xiàn)了傳統(tǒng)機(jī)器學(xué)習(xí)方法在預(yù)測(cè)效率上的優(yōu)勢(shì)。基于置信度的后端決策級(jí)融合方式[7]在使用多類語聲特征獲得較高的準(zhǔn)確率的同時(shí)耗費(fèi)了最長(zhǎng)的預(yù)測(cè)時(shí)間。而基于GMU的網(wǎng)絡(luò)中間層融合方式[3]對(duì)動(dòng)靜態(tài)譜特征進(jìn)行融合則可兼顧識(shí)別效率與準(zhǔn)確率。本文相較于融合方式[3]在譜特征的基礎(chǔ)上增加了時(shí)序特征,使用SE通道注意力機(jī)制用于網(wǎng)絡(luò)中間層融合,平均準(zhǔn)確率提高了5.39%,預(yù)測(cè)耗時(shí)則僅增加0.015 s。對(duì)比實(shí)驗(yàn)證明了本文基于通道注意力機(jī)制的融合網(wǎng)絡(luò)用于SER 任務(wù)時(shí),通過對(duì)多種語聲特征和分類網(wǎng)絡(luò)的有效利用,可以實(shí)現(xiàn)更高的平均識(shí)別準(zhǔn)確率。
表5 融合方式的準(zhǔn)確率與復(fù)雜度對(duì)比Table 5 Accuracy and complexity comparison
本文把SE 通道注意力機(jī)制用于對(duì)基于譜特征的和時(shí)序特征的前端網(wǎng)絡(luò)的中間層融合,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,多特征分類相較于單一特征分類在情感識(shí)別準(zhǔn)確率上具有明顯的優(yōu)勢(shì);中間層融合的多特征融合方式優(yōu)于前端特征級(jí)的融合方式;利用SE 通道注意力機(jī)制對(duì)前端網(wǎng)絡(luò)中間層進(jìn)行融合,能有效利用不同前端網(wǎng)絡(luò)在SER 任務(wù)中的優(yōu)勢(shì)提高情感識(shí)別準(zhǔn)確率。