吉祥 仝小敏 戴永恒
摘要:視頻情感識(shí)別是計(jì)算機(jī)視覺(jué)的研究熱點(diǎn),由于認(rèn)識(shí)到人類本身才是情感產(chǎn)生的源頭,近來(lái),利用人類自身的大腦響應(yīng)等生理特征對(duì)視頻所包含的情感進(jìn)行識(shí)別,即隱性情感識(shí)別成為研究重點(diǎn)。然而,目前利用腦電圖信號(hào)對(duì)音樂(lè)視頻愉悅度的識(shí)別率仍不能令人滿意,原因在于未能從大量的腦電圖數(shù)據(jù)中獲取到有效的分類特征。為了進(jìn)一步提高識(shí)別準(zhǔn)確率,在DEAP數(shù)據(jù)庫(kù)中,不采用傳統(tǒng)的腦電圖時(shí)域和頻域特征,而是利用數(shù)據(jù)標(biāo)準(zhǔn)化以及特征選擇方法從腦電圖時(shí)間序列信號(hào)中直接提取有效特征,從而提取到腦電圖信號(hào)中具有較高分類能力的特征,并將得到的腦電圖特征用于音樂(lè)視頻分類實(shí)驗(yàn)中,結(jié)果表明,相對(duì)于傳統(tǒng)方法,可以大大提高腦電圖信號(hào)對(duì)音樂(lè)視頻愉悅度識(shí)別率。
關(guān)鍵詞:視頻情感分類;腦電圖特征;視頻愉悅度
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
0 引言
視頻情感識(shí)別是為了識(shí)別視頻中包含的積極、消極等情感,按照不同的情感類型將視頻進(jìn)行分類,視頻情感識(shí)別在視頻推薦、視頻分類、廣告設(shè)計(jì)等領(lǐng)域有重要的研究?jī)r(jià)值,人類作為情感產(chǎn)生的本源,研究者期望利用被試(即參與實(shí)驗(yàn)的志愿者)觀看視頻時(shí)自身的大腦響應(yīng)等生理特征對(duì)視頻的情感進(jìn)行分類,該研究方向稱為視頻的隱性情感標(biāo)注[1],近來(lái)成為研究的熱點(diǎn),情感識(shí)別涉及情感類別定義、大腦響應(yīng)等生理特征采集實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)采集、處理、特征提取、視頻分類等內(nèi)容,屬于新興的交叉學(xué)科。作為視頻情感識(shí)別的一個(gè)指標(biāo)[213],視頻愉悅度被用來(lái)評(píng)價(jià)視頻的積極和消極程度,視頻愉悅度識(shí)別算法研究近年來(lái)受到研究者的關(guān)注,例如,文獻(xiàn)[4]采集了32個(gè)被試觀看40個(gè)音樂(lè)視頻時(shí)的腦電圖信號(hào)[5],為后續(xù)研究者提供了數(shù)據(jù)庫(kù)DEAP,對(duì)視頻愉悅度進(jìn)行了初步的探索,文獻(xiàn)[6J對(duì)DEAP數(shù)據(jù)庫(kù)中的腦電圖信號(hào)分別提取了時(shí)域特征和頻域特征,分別利用這兩類特征對(duì)音樂(lè)視頻的愉悅度進(jìn)行了分類,得到了較好的分類準(zhǔn)確率,時(shí)域特征和頻域特征分別為70.84%和69.82%。
然而,目前腦電圖特征的分類準(zhǔn)確率還有待提高,大量腦電圖時(shí)間序列中蘊(yùn)含著潛在的分類信息,這些信息需要利用合理的數(shù)據(jù)處理方式提取出來(lái),從而大大提高現(xiàn)有的分類準(zhǔn)確率。因此,本文沒(méi)有像文獻(xiàn)[4][6]那樣,提取腦電圖信號(hào)的時(shí)域和頻域特征,而是直接中大量的腦電圖時(shí)間序列中提取特征,通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化和特征選擇方法,得到了分類準(zhǔn)確率更高的特征。
本文方法旨在直接從腦電圖信號(hào)中提取更有效特征,首先,在DEAP數(shù)據(jù)庫(kù)中,針對(duì)每個(gè)被試每個(gè)腦電圖通道所對(duì)應(yīng)的40個(gè)視頻的數(shù)據(jù)按列標(biāo)準(zhǔn)化,使得腦電圖數(shù)據(jù)范圍一致,利于后續(xù)處理;其次,采用mRMR特征選擇方法對(duì)每個(gè)被試的每個(gè)腦電圖通道的時(shí)間序列數(shù)據(jù)直接進(jìn)行特征選擇,從而挖掘出時(shí)間序列中潛藏的具有較強(qiáng)情感分類能力的特征;最后,針對(duì)每個(gè)被試的每個(gè)腦電圖通道,利用選擇得到的特征對(duì)40個(gè)視頻進(jìn)行視頻愉悅度分類,得到40個(gè)視頻的愉悅度分類準(zhǔn)確率,將每個(gè)腦電圖通道的分類準(zhǔn)確率進(jìn)行平均作為該被試對(duì)40個(gè)視頻的最后分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)的提取腦電圖信號(hào)的時(shí)域和頻域特征,直接從腦電圖時(shí)間序列中提取特征可以挖掘出更有效的分類特征,從而大大提高音樂(lè)視頻愉悅度的分類準(zhǔn)確率。
1 DEAP數(shù)據(jù)庫(kù)
DEAP數(shù)據(jù)庫(kù)中[4],32位被試分別觀看了40段音樂(lè)電視視頻,其中包括16位男士,16位女士,這些被試的健康水平都符合測(cè)試的要求,沒(méi)有精神病史及腦神經(jīng)損傷,測(cè)試前具備良好的精神狀態(tài),聽力和視力均正常。實(shí)驗(yàn)時(shí)每個(gè)被試都被告知了實(shí)驗(yàn)注意事項(xiàng),實(shí)驗(yàn)過(guò)程保持環(huán)境安靜和不被打擾,確保被試可以注意力集中的進(jìn)行實(shí)驗(yàn)。每段音樂(lè)電視的時(shí)長(zhǎng)為60秒,這40段音樂(lè)視頻通過(guò)情感標(biāo)注和評(píng)估網(wǎng)站獲取。在被試觀看音樂(lè)電視的同時(shí),采集被試的32通道腦電圖信號(hào),采用的是符合國(guó)際標(biāo)準(zhǔn)的32導(dǎo)電極腦電圖,最后得到每個(gè)被試的40段音樂(lè)視頻的生理信號(hào),信號(hào)組成為40x32x8064,表示每個(gè)被試的40段音樂(lè)視頻x32個(gè)生理信號(hào)采集通道x8064長(zhǎng)度的采集信號(hào)。8064表示每個(gè)采集通道在60秒時(shí)長(zhǎng)內(nèi)的響應(yīng)信號(hào)向量,采集實(shí)驗(yàn)如圖1所示。
每個(gè)被試在觀看每個(gè)視頻的時(shí)候?qū)λ^看的視頻進(jìn)行愉悅度標(biāo)注,從而得到每個(gè)被試對(duì)每個(gè)視頻的愉悅度標(biāo)注結(jié)果,標(biāo)注時(shí)愉悅度等級(jí)為1到9,級(jí)別越低說(shuō)明視頻越消極,級(jí)別越高說(shuō)明視頻越積極,被試根據(jù)視頻內(nèi)容進(jìn)行評(píng)級(jí),最后得到每個(gè)被試對(duì)40個(gè)視頻的愉悅度標(biāo)注結(jié)果。這些標(biāo)注結(jié)果被分為兩個(gè)類別,一類是小于等于5的被定為愉悅度低的類別,視頻標(biāo)簽被置為-1,第二類是大于5的被定為愉悅度高的類別,視頻標(biāo)簽被置為1。本文將對(duì)視頻愉悅度進(jìn)行二分類研究,提高腦電圖信號(hào)在音樂(lè)視頻愉悅度二分類問(wèn)題中的準(zhǔn)確率。
2 大腦特征選擇
特征選擇是為了從數(shù)據(jù)中選取能夠有效區(qū)分不同愉悅度視頻的特征,但是目前的數(shù)據(jù)處理方法得到的腦電圖特征分類準(zhǔn)確率還有待提高,原因在于現(xiàn)有腦電圖時(shí)域和頻域信號(hào)的分類能力有限,數(shù)據(jù)中隱藏的辨識(shí)特征沒(méi)有得到的挖據(jù),有效特征產(chǎn)生了丟失,其實(shí),腦電圖時(shí)間序列中包含人類識(shí)別視頻情感的特征,蘊(yùn)藏著豐富的情感分類特征,因此,相對(duì)于傳統(tǒng)的時(shí)域和頻域特征,本文直接對(duì)腦電圖信號(hào)進(jìn)行預(yù)處理和特征提取,避免有效分類特征的丟失,從而挖掘出腦電圖中包含的更有效的情感分類特征。
對(duì)于每個(gè)被試的每個(gè)腦電圖采集通道,對(duì)其觀看40視頻的腦電圖初始信號(hào)Data進(jìn)行標(biāo)準(zhǔn)化,將數(shù)據(jù)范圍調(diào)整一致,便于后續(xù)特征選擇方法進(jìn)行處理。其中Data= 40×8064,40表示每個(gè)被試觀看的40個(gè)音樂(lè)視頻,8064為1分鐘內(nèi)每個(gè)通道采集的數(shù)據(jù)長(zhǎng)度,對(duì)Data按列進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,公式如下:
其中,j表示Data的第j列數(shù)據(jù),μ(Data(j))表示Data第j列數(shù)據(jù)的平均值,δ(Data(j))表示Data第j列數(shù)據(jù)的標(biāo)準(zhǔn)差。
對(duì)于單個(gè)被試的每個(gè)腦電圖通道數(shù)據(jù),我們分別利用mRMR特征選擇方法進(jìn)行特征選擇,選擇出每個(gè)通道最有區(qū)分能力的特征。mRMR特征算法目的是為了選取與分類最相關(guān)的特征,同時(shí)特征之間的冗余度最小,符合腦電圖信號(hào)特征提取的需求,mRMR定義了如下兩個(gè)函數(shù)實(shí)現(xiàn)最大相關(guān)和最小冗余[7][8][9]:
3 音樂(lè)視頻愉悅度分類
對(duì)每個(gè)被試的每個(gè)腦電圖通道,利用mRMR特征選擇算法對(duì)每個(gè)通道的腦電圖信號(hào)進(jìn)行特征選擇,然后將每個(gè)通道提取的腦電圖特征用于該被試的40個(gè)視頻的愉悅度分類,得到每個(gè)被試每個(gè)腦電圖通道數(shù)據(jù)對(duì)40個(gè)視頻的愉悅度分類準(zhǔn)確率,最后計(jì)算每個(gè)被試40個(gè)通道的平均分類準(zhǔn)確率作為該被試對(duì)40個(gè)視頻的分類準(zhǔn)確率。
和文獻(xiàn)[6]中一樣,實(shí)驗(yàn)中我們采用4折交叉驗(yàn)證,即將40個(gè)視頻的腦電圖數(shù)據(jù)分為4份,每次采用3份作為訓(xùn)練集,剩余l(xiāng)份作為測(cè)試集,采用SVM[10]作為分類器,重復(fù)4次,保證每份數(shù)據(jù)都被測(cè)試過(guò),將4次測(cè)試結(jié)果進(jìn)行平均,得到該被試的某個(gè)通道對(duì)40個(gè)視頻的分類準(zhǔn)確率。4本文算法
5 實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)數(shù)據(jù)共有32個(gè)被試(Sl至S32表示1到32個(gè)參加腦電圖測(cè)試實(shí)驗(yàn)的志愿者)的腦電圖信號(hào),每個(gè)被試觀看40個(gè)音樂(lè)視頻,腦電圖采集通道個(gè)數(shù)為32,每個(gè)被試觀看每個(gè)視頻時(shí)產(chǎn)生32×8064數(shù)據(jù),32表示每個(gè)被試擁有32個(gè)腦電圖采集通道,8064為1分鐘內(nèi)每個(gè)通道采集的數(shù)據(jù)長(zhǎng)度,針對(duì)每個(gè)被試觀看40個(gè)視頻時(shí)采集的每個(gè)通道的腦電圖信號(hào),按列進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,然后利用mRMR算法對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行特征選擇,得到每個(gè)被試每個(gè)通道針對(duì)40個(gè)視頻的腦電圖特征,利用每個(gè)通道的腦電圖特征對(duì)40個(gè)視頻進(jìn)行分類,然后計(jì)算32個(gè)通道的平均分類準(zhǔn)確率,作為該被試對(duì)40個(gè)音樂(lè)視頻的分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如表1所示。其中,Sl到S32表示第1個(gè)被試到第32個(gè)被試。
傳統(tǒng)方法對(duì)DEAP數(shù)據(jù)庫(kù)中的腦電圖信號(hào),提取腦電圖信號(hào)的6種時(shí)域特征(均值、標(biāo)準(zhǔn)差、原始信號(hào)的一階、二階差分平均絕對(duì)值、標(biāo)準(zhǔn)化信號(hào)的一階、二階差分平均絕對(duì)值),頻域特征(對(duì)腦電圖信號(hào)進(jìn)行快速傅里葉變換后,得到五個(gè)頻帶的傅里葉變換,對(duì)于每個(gè)頻帶,以每一個(gè)腦電信號(hào)上的平均能量作為特征)。
傳統(tǒng)方法中時(shí)域和頻域特征在32個(gè)被試中的分類準(zhǔn)確率如表1所示,采用時(shí)域特征時(shí)32名被試的平均分類準(zhǔn)確率達(dá)到了70.84%,被試最高分類準(zhǔn)確率為82.5%,采用頻域特征的平均分類準(zhǔn)確率為69.82%,被試最高分類準(zhǔn)確率為85%。相對(duì)于傳統(tǒng)方法,本文算法的32個(gè)被試平均分類準(zhǔn)確率為86.2%,比傳統(tǒng)的時(shí)域特征提高了15.36%,比傳統(tǒng)的頻域特征提高了16.38%,本文方法被試最高分類準(zhǔn)確率為91.9%,比傳統(tǒng)的時(shí)域特征被試最高分類準(zhǔn)確率提高了9.4%,比傳統(tǒng)的頻域特征被試最高分類準(zhǔn)確率提高了6.9%,由此可見,本文算法實(shí)驗(yàn)結(jié)果遠(yuǎn)高于傳統(tǒng)算法的準(zhǔn)確率,可知,有效的數(shù)據(jù)處理方法可以充分獲取數(shù)據(jù)中的識(shí)別能力強(qiáng)的特征,從而大幅提高識(shí)別準(zhǔn)確率。
6 結(jié)語(yǔ)
使計(jì)算機(jī)具有人類的情感識(shí)別能力一直人工智能領(lǐng)域的熱點(diǎn)和難點(diǎn),近來(lái),很多研究者探索將人類觀看視頻時(shí)大腦的響應(yīng)用于訓(xùn)練計(jì)算機(jī)對(duì)視頻情感的識(shí)別,為了提高基于腦電圖信號(hào)對(duì)視頻情感的識(shí)別能力,提出了一個(gè)基于腦電圖的音樂(lè)視頻愉悅度識(shí)別算法,相對(duì)于傳統(tǒng)提取腦電圖中的頻域和時(shí)域特征,直接從腦電圖時(shí)間序列信號(hào)中提取特征,采用數(shù)據(jù)標(biāo)準(zhǔn)化和mRMR特征選擇方法,挖掘到了更具分辨能力的特征,從而得到了更高的音樂(lè)視頻愉悅度分類準(zhǔn)確率。由此可知,合理的數(shù)據(jù)處理方式能夠挖掘數(shù)據(jù)中潛藏的信息,從而得到的更好的效果,從而為人類生理特征用于視頻情感識(shí)別提供了有效的解決方法。
參考文獻(xiàn)
[1]
PANTIC M,VINCIARELLI A.Implicit human-centered taggingESocial Sciencesl [J]. IEEE Signal Processing Magazine,IEEE, 2009, 26(6):173-180.
[2] ARIFIN S,CHEUNG P Y K.A novel probahilistic approach t。modeling the pleasure-arousal-dominance content of the vide。based on "working memory" [C]. Intemational Conference onSemantic Computing,IEEE, 2007:147-154.
[3] HANJALIC A,XU L Q.Affective video content representationand modeling [J].IEEE Transactions on Multiruedia,IEEE,2005,7(1):l43-154.
[4] KOELSTRA S,MUHL C,SOLEYMANI M,et a/.Deap:a databasefor emotion analysis; using physiological signals [J].IEEE Trans-actions on Aifective Computing,IEEE,2012,3(1):18-31.
[5]
WANC S,ZHU Y,WU G,et al.Hyhrid video eruotional taggingusing users' EEG and video content [J]. Multimedia Tools andApplications, Springer, 2014, 72(2):1257-1283.
[6]黃檸檬,基于腦電圖的情緒識(shí)別[D].廣州:華南理工大學(xué),2016.
[7] PENC H,LONG F,DINC C.Feature Selection Based on Mutu-al Information: Criteria of Max-Depenclency, Max- Relevance,and Min-Redundancy [J]. IEEE Transactions on Pattem Analy-sis and Machine and Intelligence,2005,27(8):1226-1238.
[8] FAN X B,LI X.Minirruzing Prohing Cost with mRMR FeatureSelection in Network Monitoring [J]. IEEE Comruunications Let-ters, 2017, PP(99):1-1.
[9] 11 B Q,ZHENC L.L,F(xiàn)ENC K Y,et at.Prediction of Linear B—Cell Epitopes with ruRMR Feature Selection and Analysis [J].Current Bioinformatics, 2016, 11(1):22-31.
[10] VAN GESTEL T,SUYKENS J A K,LANCKRIET C,et al.Mul-ticlass LS -SVMs: moderated outputs and coding -decodingschemes EJl.Neural Processing Letters,Kluwer Academic Puh-lishers,2002,15(1):45-58.