国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模糊認知圖的語音情感識別研究

2017-09-04 14:09張衛(wèi)張雪英孫穎
現(xiàn)代電子技術(shù) 2017年15期

張衛(wèi)+張雪英+孫穎

摘 要: 利用模糊認知圖構(gòu)建一種新的情感語音識別網(wǎng)絡(luò),該網(wǎng)絡(luò)將權(quán)值矩陣分為兩部分:一部分是特征與情感類別之間的權(quán)值,使用實數(shù)編碼遺傳算法學習;另一部分是情感類別與類別之間的權(quán)值,使用PAD三維情感模型學習。從數(shù)學和心理學兩方面對模糊認知圖的權(quán)值進行學習。針對國際公認的柏林情感語音庫(EMO?DB)以及本實驗室錄制的情感語音庫(TYUT)進行仿真實驗,驗證了方法的有效性,并與BP神經(jīng)網(wǎng)絡(luò)進行對比,實驗結(jié)果表明該方法有較高的識別率。

關(guān)鍵詞: 模糊認知圖; 實數(shù)編碼遺傳算法; PAD; 語音情感識別

中圖分類號: TN911.7?34; TP391.4 文獻標識碼: A 文章編號: 1004?373X(2017)15?0025?04

Abstract: The fuzzy cognitive maps (FCM) is used to construct a new speech emotion recognition network. The weight matrix is divided into two parts in the network. One is the weight between the characteristic and emotional classification, and learned with real?coded genetic algorithm (RCGA). The other is the weight between the emotional categories, and learned with the PAD three?dimensional emotion model. The weights of FCM are learned in the aspects of mathematics and psychology. The simulation experiments were carried out for the internationally recognized Berlin Emotional Speech Database (EMO?DB) and emotional speech database TYUT recorded in this laboratory to verify the effectiveness of the method. The effectiveness is compared with that of the BP neural network. The experimental results show that the method has high recognition rate.

Keywords: fuzzy cognitive map; real?coded genetic algorithm; PAD; speech emotion recognition

0 引 言

語音情感識別是從采集到的語音信號中提取表達情感的聲學特征,并找出這些聲學特征與人類情感的映射關(guān)系[1]。計算機的語音情感識別方法是計算機情感智能的重要部分,是實現(xiàn)自然人機交互的關(guān)鍵前提,具有很高的研究價值。用于語音情感識別的方法很多,比如,人工神經(jīng)網(wǎng)絡(luò)方法(ANN)[2]以及支持向量機(SVM)[3]等。這些模型都是基于數(shù)學和物理建模的分類方法,基本未涉及人類的認知過程。情感辨識作為一種認知過程,具有模糊性和復雜性,僅用信號處理的方法建模是不完善的。1986年,Kosko提出了模糊認知圖(Fuzzy Cognitive Maps,F(xiàn)CM)[4],這種網(wǎng)絡(luò)建立方便,表現(xiàn)問題直觀,且通過有限次循環(huán)可終止于一個固定點或極限環(huán),從而使網(wǎng)絡(luò)達到穩(wěn)定狀態(tài),并且在因果關(guān)系的描述上引入了模糊測度,使得FCM能夠更自然、更直接地表達人類習慣的邏輯含義。FCM是通過更新概念節(jié)點狀態(tài)值和概念間的因果關(guān)系來模擬系統(tǒng)動態(tài)行為。概念間的權(quán)值的學習算法尤為重要。PAD三維情感模型[5]是由Mehrabian提出用來測量情感的一個工具,它可以從心理學角度很好地反映人類情感的相互關(guān)系。本文利用FCM構(gòu)建了一種新的語音情感識別網(wǎng)絡(luò),結(jié)合遺傳算法和PAD情感模型提出一種新的權(quán)值學習方法。

1 模糊認知圖

1.1 基本原理

FCM是模糊邏輯和神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物。它使用概念描述系統(tǒng)的不同方面和它們的行為,通過相互作用的概念表示系統(tǒng)的動態(tài)性。由于它直觀的表達能力和強大的推理能力以及與神經(jīng)網(wǎng)絡(luò)、圖論等領(lǐng)域的密切聯(lián)系,使得它的應用極為廣泛,目前FCM已被用于心理學實驗的情感預測[6]、軟件發(fā)展項目建模[7]、圖像膚色檢測[8]、醫(yī)學[9?10]等方面。

FCM是在認知圖(Cognitive Maps,CM)中加入模糊推理機制得來的,是一種有向圖。如圖1所示。

圖1描述了一個帶有5個節(jié)點和9條帶權(quán)弧的FCM。其中節(jié)點是概念,它可為系統(tǒng)的事件、目標、感情以及趨勢等,用來反映系統(tǒng)的屬性、特征、質(zhì)量和狀態(tài)。具有一定的狀態(tài)值,狀態(tài)值是[-1,1]區(qū)間上的模糊值,表示概念狀態(tài)存在的程度。概念和之間的因果關(guān)系由值表示(即權(quán)值),有三種類型的因果關(guān)系:

模糊認知圖概念之間的權(quán)的集合由矩陣表示,如圖1所示的FCM的權(quán)矩陣為:

1.2 推理機制

FCM概念節(jié)點狀態(tài)值的計算是通過式(3)得到的:

式中:為第次迭代;為概念節(jié)點在時刻的狀態(tài)值;為概念節(jié)點在時刻的狀態(tài)值;為在時刻對的關(guān)聯(lián)權(quán)值;為激活函數(shù),它可以是sigmoid函數(shù),雙曲正切函數(shù)或是線性閾值函數(shù);為特征序列長度。

在系統(tǒng)中,最初由初始條件決定FCM中節(jié)點的類型、數(shù)量和權(quán)重。概念的值表示相應的物理值,分配好概念的值和權(quán),F(xiàn)CM就能通過學習算法到達三種基本狀態(tài):固定平衡點、有限環(huán)和混沌狀態(tài)。當模糊認知圖到達一個固定平衡點或有限環(huán)時,系統(tǒng)達到穩(wěn)定或平衡狀態(tài)。

2 模糊認知圖情感語音識別網(wǎng)絡(luò)構(gòu)造

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

FCM是一個動態(tài)系統(tǒng),通過更新節(jié)點間的狀態(tài)值和節(jié)點間的因果關(guān)系即權(quán)值來模擬系統(tǒng)的動態(tài)行為。

FCM情感語音識別系統(tǒng)的流程圖如圖2所示,首先對情感語音信號預處理并提取特征;其次將情感語音信號分為訓練樣本和測試樣本,訓練樣本通過一定的學習算法獲得FCM分類模型的權(quán)值矩陣再將測試樣本輸入到FCM分類模型中,得到其所屬類別。

構(gòu)建的FCM情感語音識別網(wǎng)絡(luò)模型見圖3。與傳統(tǒng)的FCM網(wǎng)絡(luò)不同,F(xiàn)CM情感語音識別網(wǎng)絡(luò)把節(jié)點分為輸入節(jié)點和輸出節(jié)點兩類。情感語音特征對應輸入節(jié)點,用表示。情感類別對應的是輸出節(jié)點,用表示。FCM情感識別網(wǎng)絡(luò)將充分考慮類節(jié)點之間、類節(jié)點與特征之間的因果關(guān)系及相互影響,形成一個權(quán)矩陣來模擬其分類動態(tài)行為。

圖3描述的網(wǎng)絡(luò)權(quán)值矩陣結(jié)構(gòu)如下所示:

由圖3及式(3)可知,基于FCM情感語音識別網(wǎng)絡(luò),在時刻的輸出為:

即特征項的節(jié)點值不變,只是更新類別項的節(jié)點值。

根據(jù)構(gòu)造的FCM情感語音識別網(wǎng)絡(luò),權(quán)值矩陣可分為兩部分:特征與類別間的關(guān)系權(quán)值記為類別與類別間的權(quán)值記為。

則權(quán)值矩陣可簡化為:

下面具體介紹關(guān)系權(quán)值的計算方法。

2.2 學習算法

2.2.1 關(guān)系權(quán)值的學習算法

獲得FCM權(quán)值的學習方法分為兩類:一類是由領(lǐng)域?qū)<医o出的經(jīng)驗值;另一類則是依據(jù)系統(tǒng)的歷史數(shù)據(jù)自動學習得到。由于完全憑專家的經(jīng)驗值構(gòu)建FCM模型存在諸多缺陷。所以近年來學者們開始研究如何從歷史數(shù)據(jù)中學習FCM權(quán)值的方法。由于遺傳算法的簡單性和強大的搜索能力,2005年P(guān)edrycz等人提出了一種實數(shù)編碼遺傳算法(Real?coded Genetic Algorithm,RCGA)學習FCM權(quán)值的方法[11]。在進行FCM權(quán)值學習之前首先需要由專家指出FCM系統(tǒng)中的初始值及概念節(jié)點數(shù)量和因果關(guān)系。

假定語音情感特征的維度為本文所選情感類別為三類,由式(4)的權(quán)值矩陣可定義RCGA中每一條染色體為:

式中表示到的關(guān)聯(lián)權(quán)值。

FCM模型的誤差計算公式為:

式中:是第條訓練樣例的節(jié)點在第次迭代后FCM模型的輸出值;是第條訓練樣例的節(jié)點在第次迭代前FCM模型的輸入值;是輸入樣本數(shù);是迭代次數(shù);是FCM模型的節(jié)點數(shù)。

式中參數(shù)是事先設(shè)定的正整數(shù)。該適應函數(shù)將數(shù)值標準化到(0,1]區(qū)間,適應性函數(shù)值越接近于1,表示系統(tǒng)模擬值與實際值誤差越小。

2.2.2 關(guān)系權(quán)值的學習算法

從心理學角度來看,人類的情感是可以相互轉(zhuǎn)變的,情感和情感之間存在一定的相互關(guān)系。由Mehrabian提出的PAD三維情感模型[4]是測量情感的一個工具。該模型認為情感具有愉悅度、激活度和優(yōu)勢度三個維度,其中P代表愉悅度(Pleasure?displeasure),表示個體情感狀態(tài)的正負特性;A代表激活度(Arousal?nonarousal),表示個體的神經(jīng)生理激活水平;D代表優(yōu)勢度(Dominance?submissiveness),表示個體對情景和他人的控制狀態(tài)。研究表明,利用P,A,D三個維度可有效地解釋人類的情感及其相互關(guān)系。

情感類別間的關(guān)系權(quán)值根據(jù)PAD三維模型中情感的值[12]來計算得到。以P,A,D作為情感空間的坐標軸,建立三維空間,如圖4所示。利用空間距離的遠近來映射類間的關(guān)系以確定情感類之間的權(quán)值。

利用歐式距離計算兩兩情感之間的距離:

式中:表示兩點的空間距離;分別表示點在PAD三維空間的坐標。

這里兩兩情感間的關(guān)系權(quán)值通過式(11)確定,情感類別的距離越大,其相互影響關(guān)系越小。

3 情感識別實驗及結(jié)果分析

3.1 語音情感數(shù)據(jù)庫

本文所用的情感語音庫包括兩種:一是由本實驗室錄制的TYUT情感語音庫;二是來源于柏林實驗室的德語情感語音庫EMO?DB[13]。

3.1.1 TYUT情感語音庫

TYUT情感語音庫由本實驗室采用 CoolEdit Pro 2.0錄制,采樣率為11.025 kHz,單聲道,量化精度為16 b,文件保存為標準wav格式,并使用不同的文件名對情感種類進行標識。包括高興、生氣和中立3種情感狀態(tài)。該語音庫由實驗室中年齡在22歲~24歲之間的27名同學通過表演的方式錄制完成,其中包括男生14名,女生13名,該語音庫中的語音樣本共11句,包括6句漢語和5句英文。采用主觀辨聽實驗對所有錄制語句進行選擇。最終選出883句語句,組成了TYUT情感語音庫。

3.1.2 EMO?DB情感語音庫

EMO?DB情感語音庫由男、女專業(yè)演員各5名用德語發(fā)音錄制得到。其中語句內(nèi)容包含日常生活用語的5個短句和5個長句,共包括悲傷、厭惡、討厭、害怕、高興、生氣、中立7種情感狀態(tài)。具有較高的情感自由度,并且沒有任何特定的情感傾向。錄音完成后同樣采用主觀辨聽實驗對所有錄制語句進行選擇,最后經(jīng)過辨聽測試一共保留了535句。所有語句均采用16 kHz采樣率,6 b量化精度,并以wav格式保存文件。

3.2 語音情感識別及結(jié)果分析

本文所選情感語音特征是前期工作中所提取的一種新語音情感特征[14]。TYUT情感語音庫包含漢語和英語兩種語種,各語種包含3種情感(高興、生氣、中立)。為了與TYUT語音庫一致,同樣從德語語音庫中選取3種情感(高興、生氣、中立)。利用以上兩個語音庫驗證本文所構(gòu)建的FCM情感語音識別網(wǎng)絡(luò)的可行性。各語音庫中情感的識別結(jié)果如表1所示。

從表1可以看出,基于FCM情感分類模型對2個數(shù)據(jù)庫語音情感都具有很好的區(qū)分性,3種不同語種的情感數(shù)據(jù)庫的平均識別率都達到了70%以上,而且德語情感語音庫的識別率為84.06%,由此可以證明此情感分類模型的可行性和有效性。

不同分類模型對情感語音庫各情感的識別率如表2~表4所示。

從表2~表4中可以看到,所構(gòu)建的FCM分類模型對于不同語種的情感數(shù)據(jù)庫的各類情感的平均識別率都比BP網(wǎng)絡(luò)的平均識別率有所提高,對于中文庫來說,F(xiàn)CM平均識別率比BP提高了4.44%。英文語音庫,平均識別率提高了5.55%。德語語音庫識別結(jié)果最好,比BP網(wǎng)絡(luò)提高18.84%。不同分類器對各情感語音庫的平均識別率見圖5。實驗結(jié)果證明本文所構(gòu)建的FCM分類模型可以用于情感語音分類并且得到了較高的識別率。

4 結(jié) 語

本文利用FCM構(gòu)造了一個新情感語音識別網(wǎng)絡(luò),并用實數(shù)編碼遺傳算法和PAD情感理論學習FCM權(quán)值。選用TYUT和EMO?DB兩種情感語音庫,包括中文,英文,德語三種語言,將前期工作中提取的語音情感特征輸入到FCM情感分類模型中進行驗證,得到了很好的識別結(jié)果,與BP網(wǎng)絡(luò)相比,平均識別率都有較大的提高,證明本文所構(gòu)造的FCM情感語音識別模型能夠很好地對情感進行分類。下一步工作就是嘗試多類情感的識別,并進一步完善FCM情感語音識別網(wǎng)絡(luò)。

參考文獻

[1] VERVERIDIS D, KOTROPOULOS C. Emotional speech recognition: resources, features, and methods [J]. Speech communication, 2006, 48(9): 1162?1181.

[2] 石瑛,胡學鋼.基于神經(jīng)網(wǎng)絡(luò)的語音情感識別[J].計算機工程與應用,2008,44(24):191?193.

[3] 張石清,趙知勁.支持向量機應用于語音情感識別的研究[J].聲學技術(shù),2008,27(1):87?95.

[4] KOSKO B. Fuzzy cognitive maps [J]. International journal of man?machine studies, 1986, 24(1): 65?75.

[5] MEHRABIAN A, RUSSELL J A. An approach to environmental psychology [M]. Cambridge: APA, 1974.

[6] SALMERON J L. Fuzzy cognitive maps for artificial emotions forecasting [J]. Applied soft computing, 2012, 12(12): 3704?3710.

[7] STACH W, KURGAN L. Modeling software development project using fuzzy cognitive maps [C]// Proceedings of the 4th ASERC Workshop on Quantitative and Soft Software Engineering. Banff: ASERC, 2004: 55?61.

[8] 熊霞,桑慶兵.基于模糊認知圖的圖像壓縮域膚色檢測方法[J].計算機工程,2012,38(5):208?210.

[9] DOUALI N, CSABA H, DE ROO J, et al. Diagnosis support system based on clinical guidelines: comparison between case?based fuzzy cognitive maps and Bayesian networks [J]. Computer methods and programs in biomedicine, 2014, 113(1): 133?143.

[10] N?POLES G, GRAU I, BELLO R, et al. Two?steps learning of fuzzy cognitive maps for prediction and knowledge discovery on the HIV?1 drug resistance [J]. Expert systems with applications, 2014, 41(3): 821?830.

[11] STACH W, KURGAN L, PEDRYCZ W, et a1. Genetic lear?ning of fuzzy cognitive maps [J]. Fuzzy sets and systems, 2005, 153(3): 371?401.

[12] 劉燁,陶霖密,傅小蘭.基于情緒圖片的PAD情感狀態(tài)模型分析[J].中國圖象圖形學報2009,14(5):753?758.

[13] KGW. Berlin database of emotional speech [EB/OL]. [2012?05?01]. http://pascal.kgw.tu?berlin.de/emodb/index?1280.html.

[14] 張衛(wèi),張雪英,孫穎.基于HHT邊際Teager能量譜的語音情感識別[C]//第十二屆全國人機語音通訊學術(shù)會議(NCMMSC2013)論文集.貴陽:中國中文信息學會語音信息專業(yè)委員會,2013:187?191.

南投市| 观塘区| 清徐县| 房产| 舞阳县| 东城区| 上高县| 房山区| 海盐县| 黔江区| 花莲县| 徐汇区| 广饶县| 邓州市| 郧西县| 清新县| 荔浦县| 乐东| 六枝特区| 岳池县| 桑植县| 高安市| 岢岚县| 华阴市| 泸溪县| 垣曲县| 成都市| 包头市| 昌邑市| 嘉义县| 枞阳县| 喜德县| 马边| 龙泉市| 灵宝市| 乐昌市| 马山县| 海丰县| 京山县| 汾西县| 富蕴县|