国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策邊界優(yōu)化域自適應(yīng)的跨庫(kù)語(yǔ)音情感識(shí)別

2023-02-24 05:00:52傅洪亮陶華偉
計(jì)算機(jī)應(yīng)用 2023年2期
關(guān)鍵詞:源域范數(shù)語(yǔ)音

汪 洋,傅洪亮,陶華偉*,楊 靜,謝 躍,趙 力

(1.糧食信息處理與控制教育部重點(diǎn)實(shí)驗(yàn)室(河南工業(yè)大學(xué)),鄭州 450001;2.南京工程學(xué)院 信息與通信工程學(xué)院,南京 211167;3.東南大學(xué) 信息科學(xué)與工程學(xué)院,南京 210096)

0 引言

情感是人類智能的重要組成部分,賦予計(jì)算機(jī)從人類的語(yǔ)音信號(hào)中識(shí)別情感狀態(tài)的能力,是當(dāng)前人工智能、模式識(shí)別、認(rèn)知科學(xué)等領(lǐng)域的研究熱點(diǎn)[1]。目前大多數(shù)語(yǔ)音情感識(shí)別方法都是在單一語(yǔ)音庫(kù)上進(jìn)行,然而在許多實(shí)際應(yīng)用中,測(cè)試語(yǔ)音數(shù)據(jù)的語(yǔ)種、發(fā)音風(fēng)格、錄制環(huán)境等,往往與訓(xùn)練語(yǔ)音數(shù)據(jù)存在極大的差異,導(dǎo)致訓(xùn)練過(guò)的模型在測(cè)試數(shù)據(jù)上識(shí)別性能下降[2],這是典型的跨庫(kù)語(yǔ)音情感識(shí)別問(wèn)題。因此,開發(fā)更具魯棒性的、能更好適應(yīng)測(cè)試數(shù)據(jù)變化的語(yǔ)音情感識(shí)別系統(tǒng)至關(guān)重要。

近年來(lái),研究者們從特征處理以及特征分布對(duì)齊角度,提出了許多跨庫(kù)語(yǔ)音情感識(shí)別算法,Zhang 等[3]提出一種遷移稀疏判別子空間學(xué)習(xí)(Transfer Sparse Discriminant Subspace Learning,TSDSL)方法,引入判別性學(xué)習(xí)和范數(shù)懲罰,學(xué)習(xí)不同語(yǔ)音庫(kù)間的域不變特征,并利用最近鄰圖以減小域間差異;Luo 等[4]介紹了一種基于非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)的跨庫(kù)語(yǔ)音情感識(shí)別方法,使用最大均值差異(Maximum Mean Discrepancy,MMD)同時(shí)最小化兩個(gè)語(yǔ)料庫(kù)的邊際分布和條件分布差異;Zhang等[5]提出了一種聯(lián)合分布自適應(yīng)回歸(Joint Distribution Adaptive Regression,JDAR)方法,聯(lián)合考慮訓(xùn)練和測(cè)試語(yǔ)音數(shù)據(jù)之間的邊際和條件概率分布來(lái)學(xué)習(xí)回歸矩陣,降低不同庫(kù)之間的特征分布偏差。隨著深度學(xué)習(xí)的發(fā)展,相關(guān)方法被提出,用于學(xué)習(xí)源域和目標(biāo)域間的可鑒別特征:Deng 等[6]提出了半監(jiān)督自編碼器進(jìn)行共性情感特征學(xué)習(xí),提升跨庫(kù)語(yǔ)音情感識(shí)別性能;Gideon 等[7]使用對(duì)抗域自適應(yīng)的方法,讓模型在不同數(shù)據(jù)集中學(xué)到的表征相近,提高模型的泛化能力;Lee[8]提出一個(gè)基于三聯(lián)體網(wǎng)絡(luò)的新框架來(lái)學(xué)習(xí)跨多個(gè)語(yǔ)料庫(kù)的更廣義的特征;Abdelwahab 等[9]使用對(duì)抗性多任務(wù)訓(xùn)練來(lái)提取訓(xùn)練域和測(cè)試域之間的共同表示;Liu 等[10]基于深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取模型和MMD 算法提取更具魯棒性的語(yǔ)音特征,以獲得更好的跨語(yǔ)料庫(kù)識(shí)別性能。上述方法雖取得了一定的效果,但仍存在部分問(wèn)題。在傳統(tǒng)降維方法中,對(duì)于情感變化緩慢的語(yǔ)音信號(hào),易丟失情感信息,而深度域自適應(yīng)方法則會(huì)導(dǎo)致無(wú)標(biāo)簽的目標(biāo)域語(yǔ)音庫(kù)樣本可鑒別性降低,致使模型決策邊界數(shù)據(jù)密度大,降低識(shí)別性能。

通過(guò)對(duì)以上問(wèn)題的分析,本文提出了一種基于決策邊界優(yōu)化域自適應(yīng)(Decision Boundary Optimized Domain Adaptation,DBODA)的跨庫(kù)語(yǔ)音情感識(shí)別方法。首先,在特征處理階段,使用一維卷積神經(jīng)網(wǎng)絡(luò)(One-Dimensional Convolutional Neural Network,1D-CNN)作為特征處理網(wǎng)絡(luò),在保留特征原有情感信息的同時(shí),深入挖掘相鄰情感特征之間的潛在相關(guān)性,提升特征表征能力;其次,提出一種基于最大化核范數(shù)及均值差異(Maximum Nuclear-norm and Mean Discrepancy,MNMD)的域自適應(yīng)算法,在減小域間差異的同時(shí),可以有效緩解深度域自適應(yīng)方法面臨的決策邊界數(shù)據(jù)密度較大的問(wèn)題,增強(qiáng)無(wú)標(biāo)簽數(shù)據(jù)的可鑒別性,繼而提升跨庫(kù)語(yǔ)音情感識(shí)別性能。

1 基于決策邊界優(yōu)化域自適應(yīng)的跨庫(kù)語(yǔ)音情感識(shí)別

1.1 跨庫(kù)語(yǔ)音情感識(shí)別模型

基于決策邊界優(yōu)化域自適應(yīng)(DBODA)的跨庫(kù)語(yǔ)音情感識(shí)別模型整體框架如圖1 所示。使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征處理,經(jīng)過(guò)softmax 層獲得樣本屬于各個(gè)類別的概率,利用源域分類損失反向傳播訓(xùn)練模型。為了讓模型從源域遷移到目標(biāo)域,減小域間差異,將經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)處理的源域特征和目標(biāo)域特征送入MNMD 模塊,執(zhí)行特征分布對(duì)齊操作,最后利用源域分類損失和特征分布對(duì)齊損失聯(lián)合回傳,對(duì)模型進(jìn)行優(yōu)化,在1.2 節(jié)和1.3 節(jié)對(duì)特征處理和最大化核范數(shù)及均值差異進(jìn)行詳細(xì)介紹。

圖1 基于決策邊界優(yōu)化域自適應(yīng)的跨庫(kù)語(yǔ)音情感識(shí)別框架Fig.1 Cross-corpus speech emotion recognition framework based on decision boundary optimized domain adaptation

1.2 特征處理

現(xiàn)有研究[11-12]顯示,相較于傳統(tǒng)降維方法或深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),卷積神經(jīng)網(wǎng)絡(luò)在保留特征原有情感信息的同時(shí)能有效提升特征表征能力,因此本文采用一維卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音特征進(jìn)行處理,網(wǎng)絡(luò)模型如圖2所示。

圖2 一維卷積神經(jīng)網(wǎng)絡(luò)框架Fig.2 Framework of 1D-CNN

使用4 個(gè)一維卷積層構(gòu)成前端特征處理網(wǎng)絡(luò),由于降采樣層的使用會(huì)存在特征信息丟失的風(fēng)險(xiǎn),因此僅在每個(gè)一維卷積層之后加入BatchNorm 層,將源域語(yǔ)音庫(kù)和目標(biāo)域語(yǔ)音庫(kù)的特征分布?xì)w一化,防止網(wǎng)絡(luò)過(guò)擬合的同時(shí)能提升特征表征的泛化性,使用ReLU(Rectified Linear Unit)激活函數(shù),在簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置下進(jìn)一步提升特征處理速度。與傳統(tǒng)降維方法或DNN 相比,卷積神經(jīng)網(wǎng)絡(luò)對(duì)全局特征進(jìn)行處理,且單個(gè)卷積層上的多卷積核提取了多個(gè)局部表示,深入挖掘相鄰特征間的關(guān)聯(lián)性,更好地保留了情感信息。網(wǎng)絡(luò)中各層的參數(shù)如表1 所示(n為卷積核數(shù),k為卷積核尺寸,s為步長(zhǎng),b為批次,f為特征維度);經(jīng)全連接層將特征維度映射為情感類別后,應(yīng)用softmax 層將五類情感的預(yù)測(cè)輸出為[0,1]的概率,將源域的分類結(jié)果與標(biāo)簽做交叉熵,得到源域的分類損失為:

表1 一維卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)Tab.1 Model parameters of 1D-CNN

其中:B表示訓(xùn)練過(guò)程中的批次大小;yic取值為1 或0,當(dāng)樣本屬于第c類情感類型則yic取1,否則取0;表示樣本屬于第c類情感類型的預(yù)測(cè)概率。

1.3 最大化核范數(shù)及均值差異

經(jīng)過(guò)有效的特征處理,跨庫(kù)語(yǔ)音情感識(shí)別仍面臨一個(gè)核心問(wèn)題,即減小源域語(yǔ)音庫(kù)和目標(biāo)域語(yǔ)音庫(kù)間的特征分布差異,在相關(guān)研究[4-5,10,13]中,MMD 方法已被廣泛用于域間差異度量,將源域和目標(biāo)域特征映射到樣本空間上的連續(xù)函數(shù),求兩個(gè)特征分布映射后的函數(shù)值均值,作差得到兩個(gè)分布對(duì)應(yīng)函數(shù)的均值差異,可表達(dá)為如下形式:

其中:H 為再生核希爾伯特空間,Φ為映射函數(shù),Ds代表源域的特征分布,Dt代表目標(biāo)域的特征分布。

然而最新研究[14]表明在利用MMD 進(jìn)行域級(jí)特征分布對(duì)齊時(shí),會(huì)使得特征一般化,丟失類間特性,大量的目標(biāo)域樣本在經(jīng)過(guò)特征分布對(duì)齊后,聚集在模型的決策邊界上,導(dǎo)致目標(biāo)域特征的可鑒別性下降。為了提升目標(biāo)域特征的鑒別性,受批核范數(shù)最大化[15]工作的啟發(fā),本文提出了最大化核范數(shù)及均值差異(MNMD),改進(jìn)后的損失函數(shù)可以表示為:

其中:F表示特征處理網(wǎng)絡(luò);xs和xt分別表示源域和目標(biāo)域樣本特征;‖·‖*代表求解核范數(shù)。

將兩個(gè)域的特征映射函數(shù)Φ相減,得到的特征分布差異回傳,促進(jìn)模型從源域遷移至目標(biāo)域。在此過(guò)程中,對(duì)于有標(biāo)簽的源域語(yǔ)音庫(kù),最小化其分類損失,以優(yōu)化特征處理網(wǎng)絡(luò)。在無(wú)標(biāo)簽的目標(biāo)域語(yǔ)音庫(kù)上,最大化情感預(yù)測(cè)概率矩陣的核范數(shù),優(yōu)化模型決策邊界。目標(biāo)域情感預(yù)測(cè)概率矩陣P∈RB×C可以表示為如下形式:

其中:Pi,j為將樣本i預(yù)測(cè)為情感類型j的概率;B為批次大小,C為情感類別數(shù),B和C也分別代表了預(yù)測(cè)概率矩陣P的行數(shù)和列數(shù)。

MNMD 通過(guò)最大化P的核范數(shù),約束其Frobenius 范數(shù)[16],以使得其香農(nóng)熵減小,消除預(yù)測(cè)不確定性,提升目標(biāo)域樣本可鑒別性,其約束關(guān)系如下:

其中:‖P‖*、‖P‖F(xiàn)、H(P)分別表示情感預(yù)測(cè)概率矩陣的核范數(shù)、Frobenius 范數(shù)和香農(nóng)熵。最大化核范數(shù)時(shí),可以降低香農(nóng)熵,使得情感預(yù)測(cè)概率Pi,j趨近于0 或1 時(shí),則預(yù)測(cè)的不確定性下降,模型決策邊界得到優(yōu)化。

此外,MNMD 能夠在提升目標(biāo)域情感特征鑒別性的同時(shí)保證預(yù)測(cè)的多樣性,情感預(yù)測(cè)概率矩陣的秩可以近似為其預(yù)測(cè)類別數(shù),其核范數(shù)為矩陣秩的凸包絡(luò)[15],則最大化其核范數(shù)可以有效保證情感預(yù)測(cè)的多樣性,避免了熵最小化導(dǎo)致的模型優(yōu)化偏移。因此MNMD 很好地緩解了模型從源域語(yǔ)音庫(kù)遷移到目標(biāo)域語(yǔ)音庫(kù)過(guò)程中,低鑒別性的目標(biāo)域樣本高密度堆積于決策邊界上的問(wèn)題。

2 實(shí)驗(yàn)設(shè)置及結(jié)果分析

2.1 語(yǔ)音情感庫(kù)及語(yǔ)音特征提取

2.1.1 語(yǔ)音情感庫(kù)

為了評(píng)估所提模型的性能,選用Berlin 語(yǔ)音情感庫(kù)[17]、eNTERFACE 語(yǔ)音情感庫(kù)[18]和CASIA 漢語(yǔ)語(yǔ)音情感庫(kù)[19]進(jìn)行了大量的實(shí)驗(yàn)。Berlin 庫(kù)是由柏林工業(yè)大學(xué)錄制的德語(yǔ)情感語(yǔ)音庫(kù),也是語(yǔ)音情感識(shí)別中使用最為廣泛的語(yǔ)音庫(kù)之一,由10 位演員對(duì)10 個(gè)語(yǔ)句進(jìn)行7 種情感的模擬得到,經(jīng)過(guò)聽辨測(cè)試后保留了535 條最為有效的語(yǔ)音;eNTERFACE 庫(kù)是一個(gè)視聽情感數(shù)據(jù)集,包含6 種情感,由來(lái)自14 個(gè)國(guó)家的42位受試者用英語(yǔ)進(jìn)行錄制,共有1 287 條語(yǔ)音;CASIA 漢語(yǔ)情感語(yǔ)料庫(kù)由中國(guó)科學(xué)院自動(dòng)化所錄制,共包括4 個(gè)專業(yè)發(fā)音人,1 200 條公開語(yǔ)音,6 種情感。

2.1.2 語(yǔ)音特征提取

參考文獻(xiàn)[3,5]的實(shí)驗(yàn)設(shè)置,選取IS10 情感挑戰(zhàn)賽的規(guī)定特征集[20]作為模型輸入,其中共有1 582 維特征,包含34個(gè)基本的低級(jí)描述符(Low-Level Descriptors,LLDs),即梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)、線譜對(duì)(Line Spectrum Pair,LSP)和34 個(gè)相應(yīng)的delta 系數(shù),基于這些低級(jí)描述符,應(yīng)用21 個(gè)統(tǒng)計(jì)函數(shù)得到1 428 維特征,此外,對(duì)4 個(gè)基于音高的低級(jí)描述符與其相應(yīng)的delta 系數(shù),應(yīng)用19 個(gè)統(tǒng)計(jì)函數(shù),得到152 維特征,將音高的開始與持續(xù)時(shí)間作為最后2 個(gè)特征,構(gòu)成1 582 維語(yǔ)音特征。為了保持和其他研究者的一致性以及實(shí)驗(yàn)的可復(fù)現(xiàn)性,本文使用openSMILE 開源工具[21]對(duì)原始語(yǔ)音進(jìn)行特征提取。

2.2 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)指標(biāo)選取

實(shí)驗(yàn)根據(jù)3 個(gè)語(yǔ)音情感庫(kù)設(shè)計(jì)了6 組跨庫(kù)語(yǔ)音情感識(shí)別任務(wù),每組跨庫(kù)語(yǔ)音情感識(shí)別任務(wù)選取訓(xùn)練語(yǔ)音庫(kù)和測(cè)試語(yǔ)音庫(kù)的共同情感進(jìn)行評(píng)估,具體任務(wù)設(shè)置如表2 所示。

表2 跨庫(kù)語(yǔ)音情感識(shí)別任務(wù)設(shè)置Tab.2 Cross-corpus speech emotion recognition task setting

在6 個(gè)任務(wù)中,將e2B、B2e、C2e、e2C、C2B、B2C 的學(xué)習(xí)率和batchsize 分別設(shè)置為{0.001,0.01,0.01,0.01,0.01,0.001}與{16,16,16,16,16,16},迭代輪次設(shè)置為2 000。采用非加權(quán)平均召回率(Unweighted Average Recall,UAR)作為評(píng)價(jià)指標(biāo),對(duì)不同模型的識(shí)別效果進(jìn)行評(píng)估。

2.3 實(shí)驗(yàn)結(jié)果及分析

2.3.1 香農(nóng)熵驗(yàn)證實(shí)驗(yàn)

為了驗(yàn)證模型是否降低了預(yù)測(cè)概率矩陣的香農(nóng)熵,有效提升預(yù)測(cè)樣本鑒別性,將MMD 和MNMD 在6 組跨庫(kù)識(shí)別任務(wù)中迭代訓(xùn)練1 000 輪的熵值變化繪制如圖3。

圖3 MMD和MNMD在迭代訓(xùn)練中的香農(nóng)熵變化比較Fig.3 Comparison of Shannon entropy change of MMD and MNMD during iterative training

圖中陰影部分和曲線分別表示熵值變化的95%置信區(qū)間與其擬合曲線。從圖中可以看出,在6 組跨庫(kù)識(shí)別任務(wù)中,相較于MMD,MNMD 都有效降低了預(yù)測(cè)概率矩陣的香農(nóng)熵,特別是在e2B、C2e 和B2C 任務(wù)中,極大地提升了目標(biāo)域樣本的鑒別性,降低了預(yù)測(cè)的不確定度,證實(shí)了最大化核范數(shù)能有效緩解決策邊界目標(biāo)域樣本密度高的問(wèn)題。

2.3.2 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證模型的合理性,清晰地觀察所提域自適應(yīng)方法的效果和對(duì)MMD 改進(jìn)后的提升,實(shí)驗(yàn)設(shè)置了消融模型進(jìn)行對(duì)比,分別為:

1)O-CNN(Only CNN):不使用任何域自適應(yīng)手段,直接將源域訓(xùn)練后的模型應(yīng)用于目標(biāo)域。

2)CNN+MMD:使用1D-CNN 和原始的MMD 分別進(jìn)行特征提取和源域目標(biāo)域的特征分布對(duì)齊。

3)CNN+MNMD:即所提模型DBODA。

將各個(gè)模型在實(shí)驗(yàn)中迭代訓(xùn)練得到的準(zhǔn)確率(UAR)繪制成箱形圖,如圖4 所示。

通過(guò)圖4 中對(duì)各消融實(shí)驗(yàn)?zāi)P驮诓煌蝿?wù)中的識(shí)別率分析可以看出,在全部的6 個(gè)跨庫(kù)語(yǔ)音情感識(shí)別任務(wù)中,相較于原始的深度學(xué)習(xí)方法,使用MMD 減小域間差異,都獲得了一定的性能提升;同時(shí),所提MNMD 經(jīng)過(guò)對(duì)MMD 的改進(jìn)在各任務(wù)上都獲得了最優(yōu)的識(shí)別結(jié)果,在e2B 任務(wù)中獲得了最大的識(shí)別率均值提升,并在e2B、B2e 和C2B 任務(wù)中顯著提升了模型識(shí)別的穩(wěn)定性。將消融實(shí)驗(yàn)中各模型的準(zhǔn)確率列于表3,可以看出,所提模型的識(shí)別性能在6 個(gè)跨庫(kù)識(shí)別任務(wù)中均獲得了最優(yōu)表現(xiàn),平均識(shí)別率相較于其他消融實(shí)驗(yàn)?zāi)P头謩e領(lǐng)先5.42 和4.29 個(gè)百分點(diǎn),消融實(shí)驗(yàn)結(jié)果證實(shí)了DBODA的合理性。為進(jìn)一步說(shuō)明所提MNMD 在對(duì)MMD 進(jìn)行優(yōu)化后,能夠有效降低決策邊界上的數(shù)據(jù)密度,在e2B 和B2e 任務(wù)中,將CNN+MMD 模型和DBODA 模型訓(xùn)練后的特征使用t-SNE 繪制為特征分布圖如圖5,可以看出DBODA 模型處理后的特征獲得了更好的特征分布對(duì)齊效果,類間數(shù)據(jù)密度低,實(shí)現(xiàn)了對(duì)決策邊界的優(yōu)化。

表3 消融實(shí)驗(yàn)中各模型的UAR 單位:%Tab.3 UAR of each model in ablation experiment unit:%

圖4 不同任務(wù)中各模型的箱形圖Fig.4 Box plots of each model in different tasks

圖5 e2B和B2e任務(wù)中的特征分布Fig.5 Distribution of features in tasks e2B and B2e

2.3.3 與其他算法對(duì)比

為了驗(yàn)證所提模型在跨庫(kù)語(yǔ)音情感識(shí)別領(lǐng)域的先進(jìn)性,將它與基線及最新算法進(jìn)行性能對(duì)比,這幾種算法分別為:

1)支持向量機(jī)(Support Vector Machine,SVM)。選擇線性核函數(shù),C值設(shè)置為0.1。

2)遷移稀疏判別子空間學(xué)習(xí)(TSDSL)[3]。引入鑒別性學(xué)習(xí)和?1,2范數(shù)正則化,學(xué)習(xí)鑒別性特征并構(gòu)造了最近鄰圖作為距離度量手段,以提升源域和目標(biāo)域的相似度。

3)聯(lián)合分布自適應(yīng)回歸(JDAR)[5]。通過(guò)聯(lián)合考慮訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音間的邊際概率分布和條件概率分布來(lái)學(xué)習(xí)回歸矩陣,緩解特征分布偏差。

4)域?qū)股窠?jīng)網(wǎng)絡(luò)(Domain Adversarial Neural Network,DANN)[9]。特征提取器采用了四層隱層DNN 結(jié)構(gòu),情感分類器和域鑒別器均使用兩層隱層DNN結(jié)構(gòu)。

5)深度域自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(Deep Domain?Adaptive Convolutional Neural Network,DDACNN)[10]。模型采用經(jīng)典LeNet架構(gòu),嘗試在不同全連接層使用MMD以對(duì)齊特征分布,最終在第一層全連接層納入MMD獲得了最優(yōu)識(shí)別結(jié)果。

6)深度自編碼器子域自適應(yīng)(Depth Autoencoder Subdomain Adaptation,DASA)[22]。使用自編碼器進(jìn)行特征處理,在編碼和解碼階段均使用五層隱層DNN 結(jié)構(gòu),并結(jié)合子域自適應(yīng)實(shí)現(xiàn)細(xì)粒度的特征分布對(duì)齊。

將與傳統(tǒng)算法及特征降維算法的識(shí)別精度(UAR)對(duì)比列于表4,與深度域自適應(yīng)算法的識(shí)別精度(UAR)對(duì)比列于表5。

表4 與傳統(tǒng)算法及特征降維算法的UAR對(duì)比 單位:%Tab.4 UAR comparison with traditional and feature reduction algorithms unit:%

表5 與深度域自適應(yīng)算法的UAR對(duì)比 單位:%Tab.5 UAR comparison with deep domain adaption algorithms unit:%

可以看出,在全部的6 個(gè)任務(wù)中,相較于傳統(tǒng)算法及特征降維算法,所提模型在e2B、B2e、C2e、e2C 和B2C 任務(wù)上的識(shí)別率分別領(lǐng)先了4.25~20.99、3.19~8.86、3.42~10.98、4.79~9.89、4.44~5.64 個(gè)百分點(diǎn),平均識(shí)別率領(lǐng)先3.8~11.01 個(gè)百分點(diǎn),展現(xiàn)出了卷積神經(jīng)網(wǎng)絡(luò)良好的特征處理能力。相較于深度域自適應(yīng)算法,所提模型在e2B、B2e、C2e、e2C 和B2C 任務(wù)上的識(shí)別率分別領(lǐng)先了0.32~3.06、1.22~6.82、4.58~7.5、0.69~5.39、0.15~4.94 個(gè)百分點(diǎn),平均識(shí)別率領(lǐng)先1.68~5.48個(gè)百分點(diǎn),體現(xiàn)了所提算法經(jīng)過(guò)對(duì)原有域自適應(yīng)算法改進(jìn)后,跨庫(kù)語(yǔ)音情感識(shí)別模型的泛化性得到了提升。但在C2B任務(wù)中識(shí)別率低于最先進(jìn)算法,從圖3(b)中也可看出,使用MMD進(jìn)行域?qū)R,也能在該任務(wù)上有效降低香農(nóng)熵,實(shí)現(xiàn)與MNMD相近的效果,說(shuō)明MNMD 的普適性需進(jìn)一步優(yōu)化??傮w而言,所提決策邊界優(yōu)化域自適應(yīng)模型在對(duì)齊源域和目標(biāo)域特征分布的同時(shí),緩解了使用MMD進(jìn)行域?qū)R帶來(lái)的鑒別性喪失問(wèn)題,提升了目標(biāo)域樣本的鑒別性,優(yōu)化了模型決策邊界,提升了模型識(shí)別性能。

3 結(jié)語(yǔ)

為了解決跨庫(kù)語(yǔ)音情感識(shí)別問(wèn)題,本文提出一種新的基于決策邊界優(yōu)化域自適應(yīng)(DBODA)模型,旨在將源域語(yǔ)音庫(kù)學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到目標(biāo)域語(yǔ)音庫(kù),新的域自適應(yīng)方法MNMD 在進(jìn)行源域與目標(biāo)域特征分布對(duì)齊的同時(shí),考慮了目標(biāo)域樣本的鑒別性和預(yù)測(cè)多樣性,在3 個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)驗(yàn)證了模型的性能提升。在后續(xù)的研究中,將針對(duì)域自適應(yīng)導(dǎo)致目標(biāo)域樣本鑒別性下降的問(wèn)題,進(jìn)一步改進(jìn)域自適應(yīng)算法,增強(qiáng)泛化性,將模型應(yīng)用于更多的語(yǔ)音情感庫(kù)中。

猜你喜歡
源域范數(shù)語(yǔ)音
多源域適應(yīng)方法綜述
基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
魔力語(yǔ)音
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對(duì)方正在輸入……
基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
一類具有準(zhǔn)齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
六枝特区| 禄丰县| 辛集市| 精河县| 绥化市| 许昌县| 莱芜市| 涟水县| 两当县| 马山县| 稷山县| 安义县| 丁青县| 彩票| 交城县| 周宁县| 邹城市| 庄浪县| 墨玉县| 河津市| 高雄市| 汉源县| 合江县| 铜梁县| 星子县| 延庆县| 万州区| 句容市| 陕西省| 东阳市| 房产| 柳江县| 克拉玛依市| 阿克苏市| 利津县| 娱乐| 湖州市| 福清市| 神池县| 怀安县| 额敏县|