馮 宇 孫 曉 楊 飛 邵 磊 汪 萌,2
(1.安徽醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院 合肥 230009)
(2.合肥綜合性國家科學(xué)中心人工智能研究院 合肥 230088)
(3.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院 合肥 230009)
(4.陜西警官職業(yè)學(xué)院 西安 710021)
人格是指個(gè)體在對(duì)人、對(duì)事、對(duì)己等方面的社會(huì)適應(yīng)中行為上的內(nèi)部傾向性和心理特征的總和,其描述的是一種穩(wěn)定的心理狀態(tài),而非情緒那般在短時(shí)間內(nèi)可不斷變化。而對(duì)人格的研究,其應(yīng)用領(lǐng)域非常廣泛,在個(gè)人就業(yè)以及人力資源領(lǐng)域,人格測試可以幫助我們認(rèn)清自己的真實(shí)人格特點(diǎn),以選擇最適合自己的崗位進(jìn)行就業(yè),而從企業(yè)單位的方面,對(duì)求職者的人格測試也有助于確定求職者的人格是否能夠勝任相應(yīng)的職位。而學(xué)術(shù)界在人格描述模式上,形成了比較一致的共識(shí),即人格的大五模式[1~2],大五人格模型(BFPM)提供了一個(gè)更普遍的人格模型,由于其統(tǒng)一的測試,它被廣泛應(yīng)用于臨床和健康心理學(xué)的研究中。NEO-PI-R[3]為BFPM 提供了一個(gè)統(tǒng)一的評(píng)估,并包含了100 多個(gè)問題。而通過這種問卷的方法去評(píng)估大五人格,將耗費(fèi)極大的人力和物力資源,因此希望提出一種更快捷的,基于純粹的視覺特征的人格評(píng)估方法。
本文提出了以下貢獻(xiàn):1)將TimeSformer[4]首次應(yīng)用在人格預(yù)測特征提取領(lǐng)域,并提出了一種基于對(duì)抗學(xué)習(xí)的提取與性別特征無關(guān)的方法,以減輕性別因素對(duì)于特征提取器提取的特征有效性造成的干擾。2)提出了一種多粗細(xì)粒度損失結(jié)構(gòu)的網(wǎng)絡(luò)框架,以對(duì)視線注視方向進(jìn)行估計(jì),進(jìn)一步得到注視分布以及視線序列特征,這在人格評(píng)估中也發(fā)揮了重要作用。
在過去的自動(dòng)人格評(píng)估研究中,面部特征和人格評(píng)估的相關(guān)性已經(jīng)得到充分證明。Donald F等[5]通過對(duì)面部結(jié)構(gòu)和線索進(jìn)行分析推斷出了部分人格特質(zhì),孫曉等[6]通過對(duì)面部非興趣區(qū)域的模型通道剪枝成功預(yù)測了大五人格分值,并在基于視覺特征上的方法上取得了0.9165的平均精度,S.Aslan[7]等通過注意力機(jī)制以及誤差一致性約束將圖像與其他模態(tài)的特征融合并加權(quán)得到最佳特征組合,獲得了0.9172的大五人格平均預(yù)測精度。
近些年的許多實(shí)驗(yàn)研究表明,從視線估計(jì)以及眼動(dòng)追蹤數(shù)據(jù)中可以自動(dòng)推斷出個(gè)性特征信息。例如,Sabrina Hoppe 等[8]利用眼動(dòng)儀采集大學(xué)生日常校園生活中的眼動(dòng)數(shù)據(jù),隨后使用完善的調(diào)查問卷評(píng)估了他們的人格特質(zhì),使用隨機(jī)森林訓(xùn)練人格分類器,并可靠地預(yù)測了大五人格中的四個(gè),但受制于樣本規(guī)模太小,而導(dǎo)致無法選用更高級(jí)可靠的預(yù)測分類模型;Lepri 等[9]利用在小組會(huì)議中記錄眾人的行為,并與視線注意力結(jié)合,建立了外向性人格預(yù)測模型。John F 等[10]的研究也表明了凝視行為擁有著可以與人格特質(zhì)聯(lián)系起來的個(gè)體差異,特別是神經(jīng)質(zhì)性、外傾性、開放性與眼球運(yùn)動(dòng)的參數(shù)有著密切關(guān)系。
考慮到自動(dòng)人格評(píng)估的復(fù)雜性,需要一種有效的方法通過從視頻中挖掘更多的有用信息來提高模型的性能。除了原始的圖片幀外,本文單獨(dú)對(duì)面部部分進(jìn)一步地提取特征,并使用基于TranSformer[11]的視頻理解框架TimeSformer[4],對(duì)視頻應(yīng)用分開的時(shí)空注意力機(jī)制來提取其時(shí)空特征,此外提出了一種基于對(duì)抗學(xué)習(xí)[12]的提取性別特征無關(guān)的方法,對(duì)特征提取器進(jìn)一步加以約束,以減輕性別因素對(duì)于特征提取器提取的特征有效性造成的干擾。
除了上述傳統(tǒng)的面部特征外,視線估計(jì)與眼動(dòng)也是人格評(píng)估的一種重要特征,但此前眼動(dòng)儀信息采集的低效率限制了視線估計(jì)的應(yīng)用,對(duì)此本文提出了一種多粗細(xì)粒度損失結(jié)構(gòu)的網(wǎng)絡(luò)框架,以對(duì)視線注視方向進(jìn)行估計(jì),進(jìn)一步得到注視分布以及視線序列特征。然后,將這兩種人格模型融合,得到了一種高效率、高準(zhǔn)確率的基于純粹視覺特征的大五人格預(yù)測模型。
心理學(xué)界已有大量研究證實(shí)了人格和眼睛行為之間存在聯(lián)系[13~14]。然而,由于眼動(dòng)儀的高成本,使用眼動(dòng)儀獲取大量人格數(shù)據(jù)集的代價(jià)巨大。本文采用基于深度學(xué)習(xí)的視線估計(jì)方法,來獲得被試者相對(duì)于相機(jī)坐標(biāo)系的視線注視方向,由此進(jìn)一步得到注視分布熱力圖以及視線的序列特征。
本文使用視線估計(jì)公共數(shù)據(jù)集MPIIFaceGaze[15]來訓(xùn)練注視方向估計(jì)的模型,這是注視估計(jì)領(lǐng)域的權(quán)威數(shù)據(jù)集之一,數(shù)據(jù)集中有15 位志愿者,每位志愿者3000 份樣本,每份樣本皆包括圖片以及注視方向的標(biāo)簽等信息。基于該數(shù)據(jù)集,本文提出了一種多級(jí)粗細(xì)粒度損失結(jié)構(gòu)的網(wǎng)絡(luò)框架,以對(duì)視線注視方向進(jìn)行預(yù)測,模型中的Backbone采用resnet50,每張輸入圖像經(jīng)過Backbone 得到提取出的特征,并分別連接不同F(xiàn)C 層,每個(gè)FC 層擁有不同的分類尺度,分別計(jì)算自己的交叉熵?fù)p失,F(xiàn)C 層將輸入特征映射到不同粗細(xì)粒度的角度區(qū)間后,通過Softmax 得到歸一化特征,并分兩支,一方面計(jì)算MSELoss,另一方面計(jì)算交叉熵?fù)p失,而后求和,得到最終的損失。
視線注視方向估計(jì)模型的結(jié)構(gòu)圖如圖1所示。
圖1 多粗細(xì)粒度損失結(jié)構(gòu)的視線注視估計(jì)模型
這里的多粗細(xì)分類結(jié)構(gòu)可以看作是一種參數(shù)共享,每個(gè)分支都是相關(guān)的分類任務(wù),這種結(jié)構(gòu)有助于減少過擬合的風(fēng)險(xiǎn),此外在粗細(xì)分類網(wǎng)絡(luò)上還可以避免出現(xiàn)極端情況下的錯(cuò)誤概率,使預(yù)測結(jié)果更加穩(wěn)定,這種粗細(xì)粒度的分類網(wǎng)絡(luò)可以很容易地添加到以前的框架中,在不需要額外計(jì)算資源的情況下提高性能,每個(gè)角度的最終損失計(jì)算公式如式(1)所示:
式中,α,β為回歸系數(shù),y為視線注視角的真實(shí)值,y*為注視角的模型預(yù)測值,Loss為綜合損失。
采用上述模型獲取視頻每一幀圖像的注視方向后,進(jìn)一步得到體現(xiàn)視線空間統(tǒng)計(jì)特征的注視分布熱力圖,為了使視線分布熱力圖在人格預(yù)測模型的輸入中遵循一致的分布,在距離視頻中的人物1m 遠(yuǎn)的平面上確定一組點(diǎn)的注視分布,結(jié)合視線估計(jì)模型輸出的兩個(gè)視線注視角Pitch、Yaw,計(jì)算出視線在此平面上的注視點(diǎn)坐標(biāo),并使用注視點(diǎn)坐標(biāo)附近的80鄰域填充,以確保獲得224*224的非稀疏矩陣。
視線的注視分布熱力圖體現(xiàn)了視頻的總體空間統(tǒng)計(jì)特征,但對(duì)視頻來說,其時(shí)域特征同樣重要,為了抽象出有效的時(shí)間維度信息,本文選取了視線注視俯仰角Pitch、偏轉(zhuǎn)角Yaw、頭部姿態(tài)俯仰角Pitch、偏轉(zhuǎn)角Yaw 以及翻滾角Roll,加上頭部中心點(diǎn)在畫面的坐標(biāo)位置信息,對(duì)每一幀圖像皆提取這7維特征作為視線時(shí)域模型的輸入。
圖2(a)為80 鄰域填充示意圖,圖2(b)、(c)展示了體現(xiàn)注視空間分布特征的注視分布熱力圖,圖2(d)為體現(xiàn)時(shí)域特征的視線序列結(jié)構(gòu)特征圖。
圖2 注視分布熱力圖與注視序列特征示意圖
圖3 基于TimeSformer和對(duì)抗學(xué)習(xí)的大五人格預(yù)測模型
由于面部特征的性別二態(tài)性,以及某些人格特征(特別是外向性)[16~17]對(duì)不同性別的表現(xiàn)差異很大,大五人格的面部預(yù)測模型應(yīng)該針對(duì)男性和女性的面孔分別進(jìn)行訓(xùn)練和驗(yàn)證,而事實(shí)上,此前的眾多大五人格預(yù)測模型中,少有特別考慮到性別對(duì)人格預(yù)測結(jié)果的影響,我們猜測,這是因?yàn)獒槍?duì)性別的特別訓(xùn)練和驗(yàn)證將會(huì)導(dǎo)致訓(xùn)練集樣本量劇減,這對(duì)于本就難以大量獲得的人格評(píng)估樣本來說,顯得難以接受,但也導(dǎo)致那些在特征空間中相差不大的特征,伴隨著性別的差異,對(duì)大五人格模型預(yù)測的結(jié)果也會(huì)產(chǎn)生負(fù)面的影響。在這種情況下,受鄭壯強(qiáng)等[18]通過引入個(gè)體身份判別器進(jìn)而提取與身份無關(guān)的面部特征的原理啟發(fā),我們?cè)O(shè)計(jì)并提出了性別判別器,通過特征提取器與性別判別器之間的對(duì)抗訓(xùn)練,使特征提取器可以提取與性別無關(guān)的面部特征表示。
其結(jié)構(gòu)分為特征提取器F,性別判別器GD 和人格預(yù)測器P 三個(gè)部分,F(xiàn) 從輸入圖像中提取面部特征,GD 本質(zhì)是個(gè)性別分類器,通過F 和GD 之間的對(duì)抗訓(xùn)練以及F 和P 之間的聯(lián)合訓(xùn)練,提取性別無關(guān)的面部特征。以下用T={x,y}N表示N個(gè)訓(xùn)練樣本,其中x表示輸入圖像,y={y1,y2,y3,y4,y5}表示真實(shí)的標(biāo)簽,s∈{0,1} 表示性別的類別,P*(s|F(x))是模型定義的給定特征F(x)下s的分布,P(s)是s的邊緣分布。
在綜合了訓(xùn)練開銷以及性能之后,本文選擇了TimeSformer 作為特征提取器,相比于3D 卷積神經(jīng)網(wǎng)絡(luò),其訓(xùn)練速度快,推理時(shí)間大幅度縮短。
每個(gè)視頻均采用稀疏隨機(jī)采樣8 幀作為視頻理解模型的輸入,且考慮到人臉部分對(duì)人格預(yù)測的重要性,使用Arcsoft的人臉檢測模塊單獨(dú)截取面部圖片,并同樣采樣8幀作為并行的模型輸入。
性別判別器GD在模型中起到優(yōu)化特征提取的作用,它的本質(zhì)是一個(gè)性別分類器,當(dāng)性別分類器的分類結(jié)果與全部個(gè)體的性別邊緣分布一致時(shí),可以認(rèn)為當(dāng)前面部特征表示與性別標(biāo)簽無明顯相關(guān)性。
優(yōu)化特征提取器F 的參數(shù)時(shí),需要固定性別判別器GD,盡可能減小提取的面部特征與性別標(biāo)簽之間的相關(guān)性,即最小化P(s)和P*(s|F(x))之間的差異,由于P(s)無法直接得到,可以使用訓(xùn)練集中性別的經(jīng)驗(yàn)分布PE(x)來代替P(s),因此可以得到特征提取器的交叉熵?fù)p失如下式,si指第i 個(gè)樣本的性別標(biāo)簽。
優(yōu)化性別判別器GD 的參數(shù)時(shí),需要固定特征提取器F 的參數(shù),并希望GD 可以盡可能發(fā)現(xiàn)提取的特征與性別標(biāo)簽之間的相關(guān)性,即最小化P*(s|F(x))和P(s|F(x))之間的差異,其中P(s|F(x))是給定特征F(x)的條件下個(gè)體性別標(biāo)簽的one-hot類型的分布。由此可以得到性別判別器的損失:
在獲得了特征提取器提取的面部特征后,利用由兩個(gè)線性層組成的人格預(yù)測器進(jìn)行大五人格回歸任務(wù),并使用均方差損失計(jì)算得到人格回歸任務(wù)的損失LossP,再與特征提取器的損失,即式(2)所示LossF合并為L=LossP+αLossF,而性別判別器的損失即式(3)所示LossD,使用小批次的隨機(jī)梯度下降更新網(wǎng)絡(luò)權(quán)重,通過整個(gè)網(wǎng)絡(luò)的交替訓(xùn)練,使特征提取器逐步獲得提取與性別無關(guān)的面部特征表示的能力。
最終的大五人格預(yù)測模型結(jié)構(gòu)如圖4 所示,人臉預(yù)測模塊與視線預(yù)測模塊得到的特征進(jìn)行拼接,從而預(yù)測得到最終的大五人格分值。
圖4 多通道的大五人格預(yù)測模型
圖5 人格視頻數(shù)據(jù)集中的一些圖片幀
本文使用ECCV ChaLearn LAP 2016 比賽數(shù)據(jù)集,這是自動(dòng)人格評(píng)估領(lǐng)域最為重要的權(quán)威數(shù)據(jù)集,其中有10000 個(gè)標(biāo)注了大五人格標(biāo)簽的視頻,8000 個(gè)視頻作為訓(xùn)練集和驗(yàn)證集,剩余2000 個(gè)視頻作為測試集,每個(gè)視頻大約有15s 的長度。每個(gè)視頻的標(biāo)簽由5 個(gè)范圍在[0,1]的連續(xù)值組成,分別對(duì)應(yīng)大五人格的五種特質(zhì),而對(duì)人格預(yù)測任務(wù)的評(píng)估,則需要計(jì)算所有特質(zhì)的平均預(yù)測精度,每種特質(zhì)的預(yù)測精度定義如下:
其中,pi是每種特質(zhì)的預(yù)測分值,ti是每種特質(zhì)的真實(shí)分值,tˉ是所有所有視頻數(shù)據(jù)集每種特質(zhì)的平均預(yù)測分值,Nt為視頻數(shù)據(jù)集的總數(shù)。
為驗(yàn)證對(duì)抗學(xué)習(xí)模塊的有效性,探究了不同的特征提取模塊在每一次迭代中,對(duì)大五人格評(píng)估任務(wù)的預(yù)測精度影響,分別使用TSM[19],TimeSformer以及包含對(duì)抗學(xué)習(xí)模塊的TimeSformer-GD 進(jìn)行比較。結(jié)果如圖6所示。
圖6 不同特征提取器的平均準(zhǔn)確率
可以發(fā)現(xiàn),相比TSM,TimeSformer 取得了更好的結(jié)果,且模型收斂速度也有所提升,而包含對(duì)抗學(xué)習(xí)模塊的TimeSformer-GD 雖然起始準(zhǔn)確率略低,但隨著迭代次數(shù)的增加,準(zhǔn)確率逐漸超過TimeSformer,這表明隨著迭代次數(shù)的增加,對(duì)抗學(xué)習(xí)模塊開始在人格評(píng)估任務(wù)的特征提取工作中起到正向的作用。而對(duì)于人格預(yù)測器和特征提取器的聯(lián)合損失中超參數(shù)α的取值,α取值為0.5時(shí),人臉模塊得到最佳的預(yù)測精度。如表1 中人臉模塊實(shí)驗(yàn)結(jié)果所示。
表1 各個(gè)模塊分別使用不同的模型的結(jié)果
如表1 實(shí)驗(yàn)結(jié)果所示,對(duì)于視線模塊的注視分布特征和視線序列特征,使用ResNet 和LSTM 的模型取得了最佳的效果,而在表2 的實(shí)驗(yàn)結(jié)果中,可以注意到人臉模塊在整個(gè)模型中也發(fā)揮了重要作用,最終本文的融合模型的平均預(yù)測精度超越了以往所有的基于視覺特征的大五人格模型。
表2 使用不同組合模型的平均預(yù)測精度
最后,如表3 所示,將本文基于視覺特征的融合模型與現(xiàn)有模型進(jìn)行了比較。
表3 不同模型的平均預(yù)測精度對(duì)比
由于對(duì)視覺特征充分的應(yīng)用,以及緩解了面部特征的性別二態(tài)性,本文的方法超越了以往所有基于視覺特征的模型,僅次于孫曉等[22]多模態(tài)的融合模型,平均精度為0.9196,比當(dāng)前最高的基于視覺特征的模型高0.3%。
對(duì)于傳統(tǒng)的基于人格量表的人格評(píng)估方法的低效率問題,以及現(xiàn)有的多模態(tài)的深度學(xué)習(xí)人格評(píng)估方法對(duì)高質(zhì)量的多模態(tài)輸入的獲取難度大的問題,本文提出的基于純粹的視覺特征的人格評(píng)估方法,有效地解決了這些問題。
最后,總結(jié)本文以下兩項(xiàng)主要貢獻(xiàn)。首先,將TimeSformer 首次應(yīng)用在人格預(yù)測特征提取領(lǐng)域,并提出了一種基于對(duì)抗學(xué)習(xí)的提取性別特征無關(guān)的方法,以減輕性別因素對(duì)于特征提取器提取的特征有效性造成的干擾。其次,提出了一種多粗細(xì)粒度損失結(jié)構(gòu)的網(wǎng)絡(luò)框架,以對(duì)視線注視方向進(jìn)行估計(jì),進(jìn)一步得到注視分布以及視線序列特征,這在人格評(píng)估中也發(fā)揮了重要作用。
未來計(jì)劃將基于對(duì)抗學(xué)習(xí)來優(yōu)化特征提取器的思想應(yīng)用在更多的領(lǐng)域,此外可以進(jìn)一步地挖掘視線在人格評(píng)估領(lǐng)域中的深層次作用,以獲得更好的大五人格預(yù)測結(jié)果。