金升菊
摘要:語(yǔ)音情感計(jì)算是人工智能領(lǐng)域中語(yǔ)音識(shí)別研究主要問(wèn)題,也是社會(huì)計(jì)算中一個(gè)前沿的新興交叉學(xué)科問(wèn)題。該文主要討論機(jī)器學(xué)習(xí)稀疏表示在語(yǔ)音情感計(jì)算中的應(yīng)用問(wèn)題。在國(guó)際公開的語(yǔ)音情感數(shù)據(jù)庫(kù)上研究了語(yǔ)音情感特征提取和識(shí)別算法,同時(shí)還討論語(yǔ)音情感識(shí)別技術(shù)應(yīng)用問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該文建議的稀疏表示語(yǔ)音情感識(shí)別算法較傳統(tǒng)的稀疏表示具有較大競(jìng)爭(zhēng)力。
關(guān)鍵詞:感情計(jì)算;語(yǔ)音;稀疏表示;范數(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)26-0171-02
1 概述
情感是否可計(jì)算屬哲學(xué)終極問(wèn)題,其衍生的情感能否計(jì)算?如果能,那么計(jì)算什么?如何計(jì)算?計(jì)算方法是否可行可靠?計(jì)算結(jié)果有何價(jià)值等等一系列問(wèn)題[1]。雖然部分學(xué)者認(rèn)為情感是人體專有的屬性,但是隨著人工智能的發(fā)展越來(lái)越多學(xué)者更加傾向于認(rèn)同情感是可以計(jì)算的[2]。在情感計(jì)算對(duì)象、計(jì)算方法、計(jì)算方法可行性可靠性以及計(jì)算結(jié)果價(jià)值等都有著廣泛的研究[3-7]。
情感計(jì)算屬自然科學(xué)與人文社會(huì)融合交叉的新興領(lǐng)域,融合了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)理邏輯、計(jì)算機(jī)科學(xué)、神經(jīng)科學(xué)以及哲學(xué)、心理學(xué)、認(rèn)知科學(xué)、法學(xué)、社會(huì)學(xué)等學(xué)科知識(shí)。情感計(jì)算的奠基人Minsky認(rèn)為通過(guò)計(jì)算算法可以將人的生理、表情、語(yǔ)言、姿態(tài)以及文字表達(dá)的情感進(jìn)行測(cè)量與處理。也可以理解為情感計(jì)算是研發(fā)能感知、識(shí)別和理解人的情感并再進(jìn)一步根據(jù)情感做出智能、靈敏、友好反應(yīng)的軟件系統(tǒng),讓計(jì)算機(jī)擁有如同人類一樣擁有觀察、識(shí)別和理解情感并做出相應(yīng)的決策。
目前為止,情感計(jì)算的對(duì)象可以分為人臉表情計(jì)算、人體姿態(tài)分析、語(yǔ)音情感和文本情感等。人臉表情計(jì)算通過(guò)對(duì)不同情感狀態(tài)的人臉特征進(jìn)行分析和識(shí)別,從而確定人的情感狀態(tài),語(yǔ)音情感計(jì)算通過(guò)提取語(yǔ)音情感特征相關(guān)參數(shù)從而設(shè)計(jì)出情感分類器分析語(yǔ)音的情感,主要應(yīng)用于情感語(yǔ)音的合成方面[8-9]。人體姿態(tài)情感計(jì)算通常分為手勢(shì)和身體姿勢(shì)的情感識(shí)別,用于仿生代理或者機(jī)器人設(shè)計(jì)?;谖谋痉治龅那楦杏?jì)算,又稱文本情感分析(Sen?timent Analysis)是指利用自然語(yǔ)言處理和文本挖掘的相關(guān)技術(shù)識(shí)別出文本所帶有的情感傾向的過(guò)程。雖然人工智能已經(jīng)高速發(fā)展,但目前為止計(jì)算機(jī)只能識(shí)別“說(shuō)了什么”, “誰(shuí)說(shuō)的”和“怎樣說(shuō)”也有著部分研究成果,至于“帶著什么情緒說(shuō)的”以及“話中需要表達(dá)的更深一步蘊(yùn)意是什么”。研究“帶著什么情緒說(shuō)的”屬于語(yǔ)音情感識(shí)別內(nèi)容。
2 稀疏表示
稀疏表示是一種通過(guò)基本信號(hào)的線性組合來(lái)表達(dá)大部分或者全部的原始信號(hào)的方法。其中,這些基本信號(hào)被稱作原子,是從過(guò)完備字典中選出來(lái)的;而過(guò)完備字典則是由個(gè)數(shù)超過(guò)信號(hào)維數(shù)的原子聚集而來(lái) [10]。可見,任一信號(hào)在不同的原子組下有不同的稀疏表示。假設(shè)一個(gè)[M×N]的矩陣表示數(shù)據(jù)集[X]由[M]個(gè)數(shù)據(jù)樣本構(gòu)成,每個(gè)數(shù)據(jù)樣本的維度是[N];表示為[X∈RM×N],其中[Xi∈RN]。在文本情感計(jì)算中,通常情況下[X]是稠密的,也即是即[Xij≠0]。 稀疏表示的基本含義是尋找一個(gè)系數(shù)矩陣[A∈RK×N]以及一個(gè)字典矩陣[B∈RM×K]使得[BA]盡量逼近[X],且[A]盡可能的稀疏,A便是X的稀疏表示。假設(shè)[RN]中存在[L]個(gè)子空間,第[j]個(gè)子空間的維度為[dj],相應(yīng)的數(shù)據(jù)子空間表示為[Sj]?,F(xiàn)假設(shè)用[Q=[q1,q2,…,qL]]表示相應(yīng)的子空間集合。
3.3 語(yǔ)音情感計(jì)算結(jié)果
在柏林EMO-DB德語(yǔ)情感語(yǔ)音庫(kù)的535個(gè)樣本中,本文對(duì)7中情感狀態(tài)進(jìn)行綜合實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
在535個(gè)測(cè)試樣本中,平均識(shí)別率為94.95%。
4 結(jié)束語(yǔ)
本文通過(guò)稀疏表示算法在國(guó)際公開語(yǔ)音情感數(shù)據(jù)集柏林EMO-DB德語(yǔ)情感語(yǔ)音庫(kù)的535個(gè)樣本進(jìn)行了實(shí)驗(yàn),達(dá)到了平均94.95%的情感計(jì)算結(jié)果。雖然取得一定成果但仍存在不足,例如實(shí)驗(yàn)數(shù)據(jù)集雖然國(guó)際公開但仍較微小,下一步將引入更大的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),同時(shí)在稀疏表示上進(jìn)行優(yōu)化以提高語(yǔ)音情感計(jì)算效果。
參考文獻(xiàn):
[1] 李佳源.情感計(jì)算的研究現(xiàn)狀與認(rèn)知困境[J].自然辯證法通訊,2012,34(2):23-28+125.
[2] 張迎輝,林學(xué)誾.情感可以計(jì)算——情感計(jì)算綜述[J].計(jì)算機(jī)科學(xué),2008(5):5-8.
[3] 趙力,黃程韋.實(shí)用語(yǔ)音情感識(shí)別中的若干關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2014,29(2):157-170.
[4] 韓文靜,李海峰,阮華斌,馬琳.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.
[5] 王薇,楊麗萍,魏麗,劉艷.語(yǔ)音情感特征的提取與分析[J].實(shí)驗(yàn)室研究與探索,2013,32(7):91-94+191.
[6] 李書玲,劉蓉,張?chǎng)虤J,劉紅.基于改進(jìn)型SVM算法的語(yǔ)音情感識(shí)別[J].計(jì)算機(jī)應(yīng)用,2013,33(7):1938-1941.
[7] 黃程韋,趙艷,金赟,于寅驊,趙力.實(shí)用語(yǔ)音情感的特征分析與識(shí)別的研究[J].電子與信息學(xué)報(bào),2011,33(1):112-116.
[8] 趙臘生,張強(qiáng),魏小鵬.語(yǔ)音情感識(shí)別研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2009,26(2):428-432.
[9] 林奕琳,韋崗,楊康才.語(yǔ)音情感識(shí)別的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報(bào),2007(1):90-98.
[10] 周志華,機(jī)器學(xué)習(xí)[M],北京:清華大學(xué)出版社,2015.
[通聯(lián)編輯:梁書]