王坤俠 余萬成 胡玉霞
摘要 人臉表情識別是心理學(xué)領(lǐng)域的一個重要研究方向,可應(yīng)用于交通、醫(yī)療、安全和刑事調(diào)查等領(lǐng)域。針對卷積神經(jīng)網(wǎng)絡(luò)(CNN)在提取人臉表情全局特征的局限性,提出了一種嵌入混合注意力機(jī)制的Swin Transformer人臉表情識別方法,以Swin Transformer為主干網(wǎng)絡(luò),在模型Stage3的融合層(Patch Merging)中嵌入了混合注意力模塊,該方法能夠有效提取人臉面部表情的全局特征和局部特征。首先,層次化的Swin Transformer模型可有效獲取深層全局特征信息。其次,嵌入的混合注意力模塊結(jié)合了通道和空間注意力機(jī)制,在通道維度和空間維度上進(jìn)行特征提取,從而讓模型能夠更好地提取局部位置的特征信息。同時,采用遷移學(xué)習(xí)方法對模型網(wǎng)絡(luò)權(quán)重進(jìn)行初始化,進(jìn)而提高模型的精度和泛化能力。所提方法在FER2013、RAF-DB和JAFFE這3個公共數(shù)據(jù)集上分別達(dá)到了73.63%、87.01%和98.28%的識別準(zhǔn)確率,取得了較好的識別效果。
關(guān)鍵詞 表情識別;Transformer;注意力機(jī)制;遷移學(xué)習(xí)
Facial expression recognition in Swin Transformer byembedding hybrid attention mechanism
Abstract Facial expression recognition is an important research domain in psychology that can be applied to many fields such as transportation, medical care, security, and criminal investigation. Given the limitations of convolutional neural networks (CNN) in extracting global features of facial expressions, this paper proposes a Swin Transformer method embedded with a hybrid attention mechanism for facial expression recognition. Using the Swin Transformer as the backbone network, a hybrid attention module is embedded in the fusion layer (Patch Merging) in the model of Stage3, which can effectively extract global and local features from facial expressions.Firstly, the hierarchical Swin Transformer model can effectively obtain deep global features.Secondly, the embedded hybrid attention module combines channel and spatial attention mechanisms to extract features in the channel dimension and spatial dimension, which can attain better local features. At the same time, this article uses the transfer learning method to initialize the model network weights, thereby improving the recognition performance and generalization ability.The proposed method achieved recognition accuracies of 73.63%, 87.01%, and 98.28% on three public datasets (FER2013, RAF-DB, and JAFFE)respectively, achieving good recognition results.
Keywords expression recognition; Transformer; attention mechanism; transfer learning
人臉表情是人類傳遞情感和意圖最直接有效的方式之一。人臉表情識別(facial expression recognition, FER)可以通過機(jī)器分析識別人臉圖像中的不同表情種類[1]。在人臉表情識別過程中,特征提取尤為重要,一種好的特征提取方法將有效提高表情識別的準(zhǔn)確率。在使用深度學(xué)習(xí)技術(shù)進(jìn)行面部表情特征提取時,目前大多數(shù)研究工作傾向于使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行特征提?。?-4]。一些經(jīng)典的CNN模型,例如ResNet[3]在圖像分類任務(wù)中取得了較好的效果。文獻(xiàn)[4]在ResNet基礎(chǔ)上提出了NA-Resnet模型,該模型利用NA模塊提取表面特征來輔助人臉表情識別。
卷積神經(jīng)網(wǎng)絡(luò)具有共享卷積核和平移不變性等優(yōu)點,但CNN模型對于全局上下文信息的建模能力相對較弱,不能很好地提取全局特征。Transformer[5]中的自注意力機(jī)制能有效獲取全局信息,并且可以通過多頭自注意力機(jī)制將所獲得的特征信息映射到多個空間,從而增強(qiáng)模型的全局感知能力。目前,研究人員已將Transformer廣泛應(yīng)用在計算機(jī)視覺領(lǐng)域[6],并取得了較好的效果。在2020年,Google團(tuán)隊提出的Vision Transformer(ViT)模型[7]在圖像分類領(lǐng)域取得了顯著的成果。ViT是一種基于Transformer架構(gòu)的圖像分類模型,它將圖像分割成小的圖塊,然后通過將這些圖塊轉(zhuǎn)換為序列傳入Transformer中進(jìn)行特征提取。然而ViT需要在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,并需要更多的算力資源支持,為了解決ViT的訓(xùn)練困難特性,PVT[8]、CvT[9]和Swin Transformer[10]等模型都采用了不同的優(yōu)化策略。同時,許多研究人員也將Transformer成功應(yīng)用于人臉表情識別,并取得了較好的效果。其中,文獻(xiàn)[11]介紹了PACVT人臉表情識別模型,該模型通過利用PAU模塊提取局部特征,同時采用Transformer提取全局特征, 最后將這2種特征進(jìn)行融合, 用于人臉表情識別任務(wù)。 文獻(xiàn)[12]提出了FST-MWOS人臉表情識別模型,該模型以Swin Transformer為基礎(chǔ),加入了多重權(quán)重優(yōu)化機(jī)制,以提高模型識別精度。 文獻(xiàn)[13]將自監(jiān)督學(xué)習(xí)與Vision Transformer進(jìn)行聯(lián)合預(yù)訓(xùn)練, 提出了SSF-ViT模型用于人臉表情識別。
此外,注意力機(jī)制能夠有效地提取局部特征信息。近年來,隨著注意力機(jī)制的流行,出現(xiàn)了多種類型的注意力機(jī)制[14],如空間注意力機(jī)制STN[15]、通道注意力機(jī)制ECA-Net[16]和混合注意力機(jī)制CBAM[17]等。其中,通道注意力機(jī)制ECA-Net致力于對通道維度特征進(jìn)行自適應(yīng)的重要性加權(quán),以增強(qiáng)網(wǎng)絡(luò)對重要通道信息的關(guān)注,從而提高特征提取的能力??臻g注意力機(jī)制STN則專注于對特征圖的空間變換和注意力調(diào)整。通過對空間位置的顯式建模,STN可以對模型感興趣區(qū)域進(jìn)行準(zhǔn)確地提取和調(diào)整,從而增強(qiáng)對局部特征的提取能力。混合注意力模塊CBAM結(jié)合了通道和空間注意力機(jī)制,使得模型網(wǎng)絡(luò)能夠同時在通道維度和空間維度上進(jìn)行特征提取和加權(quán)。注意力網(wǎng)絡(luò)也在人臉表情識別得到應(yīng)用,文獻(xiàn)[18]提出了空時注意力網(wǎng)絡(luò)用于表情識別。
為更有效地提取人臉表情特征,本文將Transformer與注意力機(jī)制相結(jié)合,提出了一種嵌入混合注意力機(jī)制的Swin Transformer人臉表情識別方法。該方法在Swin Transformer網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行了改進(jìn),在模型的內(nèi)部Patch Merging層中嵌入了混合注意力模塊CBAM,并利用遷移學(xué)習(xí)的方法對權(quán)重進(jìn)行初始化,以提高模型訓(xùn)練的速度和人臉表情識別的準(zhǔn)確度。
1 模型設(shè)計
1.1 Swin Transformer模型
經(jīng)典的Transformer架構(gòu)對N個token進(jìn)行自注意力計算,模型的計算復(fù)雜度為O(N2),而Swin Transformer采用了一種分而治之的優(yōu)化思想,將模型的計算復(fù)雜度降低為O(N)。因此,本文中選用了Swin Transformer作為人臉表情識別模型的骨干網(wǎng)絡(luò)。同時,層次化的Swin Transformer模型能夠從多種尺寸和維度的特征圖中提取特征信息,該模型主要由4個Stage組成,如圖1所示。在Swin Transformer模型中,主要由Patch Merging層和Swin Transformer Block串聯(lián)組成。Patch Merging層能夠根據(jù)設(shè)定的下采樣倍率對人臉表情特征圖進(jìn)行下采樣操作,在該層中嵌入注意力模塊,可以有效地提取多維度的人臉表情特征信息。
在Swin Transformer Block中,核心部分包括窗口多頭自注意力(W-MSA)和移動窗口多頭自注意力(SW-MSA),具體結(jié)構(gòu)如圖2所示。W-MSA能夠?qū)⒆宰⒁饬Φ挠嬎阆拗圃诖翱趦?nèi),從而可以有效地降低模型內(nèi)部的計算量,但這種方式會存在一個明顯的問題,窗口之間的連接缺失可能會導(dǎo)致全局信息的丟失,并限制模型對全局特征的建模能力。因此,在SW-MSA中引入了基于移動窗口機(jī)制的跨窗口操作,以增加窗口之間的信息交互。在窗口移位和分割之后,使用循環(huán)移位和反向循環(huán)移位處理窗口的數(shù)量增大和大小不一致問題。通過這種方法,可以實現(xiàn)相鄰窗口之間的信息交互,從而擴(kuò)大模型的全局感受野,獲取圖像更高層的語義信息。這樣能夠更好地提取人臉表情的全局語義特征,使得模型在表情識別任務(wù)中能夠更加準(zhǔn)確地識別不同的表情種類。
1.2 CBAM注意力機(jī)制
CBAM注意力機(jī)制能夠幫助模型更加關(guān)注人臉表情的重要特征信息,并忽略目標(biāo)周圍的干擾因素,從而提高人臉表情識別模型的準(zhǔn)確性。CBAM注意力模塊是一種混合型注意力機(jī)制,由2個獨(dú)立部分組成:通道注意力模塊和空間注意力模塊。通過引入通道和空間注意力機(jī)制,CBAM能夠自適應(yīng)地調(diào)整不同通道和空間位置上的特征權(quán)重,使得模型能夠更好地捕捉和利用局部特征信息。相比于只有單通道注意力機(jī)制的SE-Net[19],CBAM能夠取得更好的識別效果,CBAM總體網(wǎng)絡(luò)框架如圖3所示。
通道注意力模塊首先對輸入的特征圖進(jìn)行全局平均池化(AvgPool)和最大池化(MaxPool)操作,分別得到描述特征Fc_avg和Fc_max。然后,這2個特征經(jīng)過共享多層感知機(jī)進(jìn)行特征相加操作,并通過Sigmoid函數(shù)進(jìn)行處理,得到Mc(F)。最后,將通道權(quán)重系數(shù)Mc(F)與輸入的特征圖F進(jìn)行相乘,得到通道注意力特征圖F′。如式(5)、(6)所示。
空間注意力模塊再對輸入的特征圖F′進(jìn)行平均池化和最大池化操作,分別得到描述特征Fs_avg和Fs_max。然后,將這2個特征進(jìn)行橫向拼接聚合,傳入大小為7×7的卷積核進(jìn)行操作(f 7×7)。接著,將得到的結(jié)果經(jīng)過Sigmoid(σ)操作,得到Ms(F′)。最后,通過將空間權(quán)重系數(shù)Ms(F′)與輸入的特征圖F′進(jìn)行相乘,得到混合注意力特征圖F″。如式(7)、(8)所示。
1.3 嵌入混合注意力機(jī)制的Swin Transformer模型
基于上述的Swin Transformer模型和CBAM混合注意力模塊,本文提出了嵌入混合注意力機(jī)制的Swin Transformer人臉表情識別模型。該模型以Swin Transformer作為骨干網(wǎng)絡(luò),并嵌入了CBAM混合注意力模塊。具體結(jié)構(gòu)如圖4所示。
在該模型中,先將人臉表情圖像通過Patch Partition層將圖像分割成多個Patch。然后,通過Stage1中的Liner Embedding層,將劃分好的Patch進(jìn)行線性映射后傳入Swin Transformer Block中,以便更好地提取特征信息。特征提取完成后再輸入到下一個Stage。本文在Stage3中的Patch Merging層嵌入了混合注意力模塊CBAM,該模塊的嵌入能夠有效地提升模型對局部特征的捕捉能力,并且能夠抑制特征周圍不必要區(qū)域的影響,從而加強(qiáng)模型的感知能力并提高人臉表情識別的準(zhǔn)確率。本文模型的主要思想是利用Transformer模型提取全局特征信息,并運(yùn)用混合注意力機(jī)制獲取局部特征信息,進(jìn)而在模型訓(xùn)練中對全局特征和局部特征進(jìn)行融合,以實現(xiàn)對人臉表情特征更精準(zhǔn)的識別。
為了將Swin Transformer模型更好地應(yīng)用于人臉表情分類任務(wù),本文對模型結(jié)構(gòu)進(jìn)行了微調(diào)。在模型頂層中添加了LayerNorm層、自適應(yīng)平均池化層、全連接層和Softmax層。
2 實驗與結(jié)果分析
2.1 數(shù)據(jù)集介紹
為了驗證本文模型的有效性,我們選用了3個被廣泛應(yīng)用的公共數(shù)據(jù)集和1個私有數(shù)據(jù)集作為實驗數(shù)據(jù)集。公共數(shù)據(jù)集包括FER2013數(shù)據(jù)集[20]、JAFFE數(shù)據(jù)集[21]和RAF-DB數(shù)據(jù)集[22]。其中,所選的數(shù)據(jù)集包含了自然環(huán)境下的人臉表情數(shù)據(jù)集和實驗室環(huán)境下的標(biāo)準(zhǔn)人臉表情數(shù)據(jù)集。圖5展示了這3個公共數(shù)據(jù)集中各類表情的部分圖像樣本。
1)FER2013數(shù)據(jù)集。該數(shù)據(jù)集樣本數(shù)量較大,包含真實人臉表情圖像和卡通人物表情圖像,具有豐富的樣本。該數(shù)據(jù)集共包含35 887張表情圖像。
2)JAFFE數(shù)據(jù)集。該數(shù)據(jù)集的圖像來源于實驗室環(huán)境中的10名日本女性,她們按照指示做出了多種不同種類的表情,所采集的表情圖像較為清晰,具有很高的識別率。該數(shù)據(jù)集共包含213張圖像,每個人展示7種表情。
3)RAF-DB數(shù)據(jù)集。該數(shù)據(jù)集共有29 672張人臉表情圖像,圖像質(zhì)量相對較高,收集的人臉表情都來源于自然場景,因此表情更自然,更加接近真實人臉的表情。本文的實驗主要研究該數(shù)據(jù)集中的7類基本表情圖像。
2.2 實驗環(huán)境
本文實驗基于PyTorch 1.7.0框架進(jìn)行訓(xùn)練和測試。實驗環(huán)境如下:Ubuntu18.04,Cuda版本為11.0,顯卡為NVIDIA RTX 3080 Ti(12 GiB)。在實驗中,首先將人臉表情圖像的大小縮放到224×224,并進(jìn)行數(shù)據(jù)增強(qiáng)操作,包括隨機(jī)旋轉(zhuǎn)、圖像對比度增強(qiáng)等。在訓(xùn)練過程中,批量大小設(shè)為32,損失函數(shù)選用交叉熵?fù)p失函數(shù),并使用AdamW優(yōu)化器進(jìn)行模型的反向傳播優(yōu)化,同時設(shè)置權(quán)重衰減為5E-2,以幫助控制模型的復(fù)雜度并提高泛化性能。
2.3 評價標(biāo)準(zhǔn)
在圖像分類任務(wù)中,通常使用準(zhǔn)確率、混淆矩陣和召回率等指標(biāo)來評估分類模型的性能。對于本文的人臉表情識別任務(wù),為了更好地評估模型和每個表情類別的識別精度,可以采用準(zhǔn)確率和混淆矩陣作為評價標(biāo)準(zhǔn),準(zhǔn)確率(Accuracy,式中簡記RACC)的計算公式為
式中:NTP和NTN代表模型正確預(yù)測的正例和負(fù)例的樣本數(shù)量;NFP和NFN分別代表模型錯誤預(yù)測的正例和負(fù)例的樣本數(shù)量。通過混淆矩陣,可以更直觀地展示每個表情類別的預(yù)測結(jié)果。混淆矩陣中的對角線元素表示模型正確分類的樣本數(shù)量,即真正例NTP和真負(fù)例NTN。對角線上的值越高,說明模型的分類效果越好。而非對角線上的元素表示模型錯誤分類的樣本數(shù)量,即假正例NFP和假負(fù)例NFN。
2.4 CBAM嵌入位置驗證
為了驗證CBAM混合注意力模塊在不同Stage中對最終識別效果的影響,本文將CBAM模塊嵌入到Swin Transformer模型的不同Stage中,并進(jìn)行對比實驗。由于不同Stage中的特征圖尺寸和維度不同,CBAM模塊所處理的特征圖信息也會有所差異,這可能就會對模型最終的識別效果產(chǎn)生影響。為了評估這種影響,本文在3個不同階段分別嵌入了CBAM模塊,以及在3個階段中都嵌入了CBAM模塊進(jìn)行了對比實驗。實驗結(jié)果詳見表1。
在3個公共數(shù)據(jù)集(JAFFE、RAF-DB、FER-2013)和1個私有數(shù)據(jù)集上進(jìn)行對比實驗的結(jié)果表明,將混合注意力模塊CBAM嵌入到Stage3中Patch Merging層所獲得的實驗效果最好,平均準(zhǔn)確率達(dá)到了80.54%,模型的參數(shù)量為48.814×106。因此,本文選擇在Stage3中嵌入混合注意力模塊更具有一定的科學(xué)性及有效性。
2.5 消融實驗
為了驗證在模型中嵌入CBAM混合注意力模塊的有效性,本文進(jìn)行了消融實驗,分別在JAFFE、RAF-DB、FER2013以及1個私有數(shù)據(jù)集上進(jìn)行了實驗驗證,對比了有無嵌入混合注意力模塊對實驗結(jié)果的影響,具體實驗結(jié)果詳見表2。通過表2可以看出,嵌入混合注意力模塊的模型在3個公共數(shù)據(jù)集和1個私有數(shù)據(jù)集上的識別準(zhǔn)確率均有所提升。
相較于未嵌入混合注意力模塊的情況,將CBAM混合注意力模塊嵌入Swin Transformer中,能夠有效提高模型對人臉表情的識別精度。圖6展示了在JAFFE數(shù)據(jù)集上,有無嵌入CBAM混合注意力模塊的混淆矩陣驗證結(jié)果。從圖6中能夠觀察到對于高興、厭惡和驚訝等表情類別,模型的識別準(zhǔn)確率都有所提升。
同時,本文在數(shù)據(jù)集規(guī)模較大的FER2013數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并將訓(xùn)練好的預(yù)訓(xùn)練權(quán)重與在ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重進(jìn)行了對比。結(jié)果表明,不同的預(yù)訓(xùn)練數(shù)據(jù)集會對模型的表情識別精度產(chǎn)生影響。在實驗過程中,我們發(fā)現(xiàn)使用FER2013數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重可以有效地提高模型對表情識別的準(zhǔn)確率,具體實驗結(jié)果詳見表3。
2.6 方法比較
為了進(jìn)一步驗證本文方法的有效性,與其他多種網(wǎng)絡(luò)模型進(jìn)行了比較。表4展示了本文方法與其他模型在RAF-DB和FER2013數(shù)據(jù)集上的對比結(jié)果。在RAF-DB數(shù)據(jù)集上,本文方法與RAN[23]、Twins[24]、POSTER[25]和SPWFA-SE[26]等算法模型進(jìn)行了比較;在FER2013數(shù)據(jù)集上,本文方法與MoEffNet[27]、Efficient-CapsNet[28]、Auto-FERNet[29]和Inception-V3[30]等模型進(jìn)行了比較。通過實驗對比,本文方法在RAF-DB和FER2013這2個公共數(shù)據(jù)集上的準(zhǔn)確率明顯優(yōu)于表4中其他算法模型。
2.7 可視化實驗結(jié)果
為了更直觀地展示嵌入CBAM混合注意力模塊后的效果,本文采用了Grad-CAM[31]技術(shù),用于生成分類網(wǎng)絡(luò)中最后一層的熱力圖。圖7展示了本文在7類不同表情上的熱力圖效果。熱力圖能夠驗證網(wǎng)絡(luò)對圖像區(qū)域的關(guān)注程度,顏色越鮮艷則意味著該區(qū)域的內(nèi)容對于網(wǎng)絡(luò)的識別越重要。這些可視化實驗結(jié)果表明,嵌入CBAM混合注意力模塊后,模型能夠?qū)⒆⒁饬性诒砬樘卣鞯闹攸c區(qū)域,從而更精準(zhǔn)地識別人臉表情種類。
3 結(jié)語
針對人臉表情識別,本文提出了一種嵌入混合注意力機(jī)制的Swin Transformer人臉表情識別方法。該方法在模型的Patch Merging層中嵌入了CBAM混合注意力模塊,并通過遷移學(xué)習(xí)方法進(jìn)行訓(xùn)練。相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),Swin Transformer能夠更好地獲取圖像的全局語義信息。同時,CBAM模塊的嵌入能夠使模型更多地關(guān)注局部的重要表情特征信息,并抑制無用信息的干擾,將有限的計算資源聚焦分配給權(quán)重較大的重要區(qū)域,從而加快模型的收斂速度并提高表情識別性能。實驗結(jié)果表明,在模型的Stage3中嵌入CBAM混合注意力模塊能夠取得最佳效果。最后,本文所提出的方法在FER2013、RAF-DB和JAFFE數(shù)據(jù)集上分別獲得了73.63%、87.01%和98.28%的準(zhǔn)確率。在之后的研究中,可以考慮采用更輕量級結(jié)構(gòu)的Transformer模型,以解決模型過大和參數(shù)量過多等問題。
參考文獻(xiàn)
[1] 李珊,鄧偉洪.深度人臉表情識別研究進(jìn)展[J].中國圖象圖形學(xué)報,2020,25(11):2306-2320.
LI S,DENG W H. Deep facial expression recognition: A survey[J].Journal of Image and Graphics,2020,25(11):2306-2320.
[2] ADYAPADY R R, ANNAPPA B. A comprehensive review of facial expression recognition techniques[J]. Multimedia Systems, 2023, 29(1): 73-103.
[3] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.
[4] QI Y F, ZHOU C Y, CHEN Y X. NA-Resnet: Neighbor Block and optimized attention module for global-local feature extraction in facial expression recognition[J].Multimedia Tools and Applications, 2023, 82(11): 16375-16393.
[5] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach:ACM, 2017: 6000-6010.
[6] MA T L, MAO M Y, ZHENG H H, et al. Oriented object detection with transformer[EB/OL].(2021-06-06)[2023-09-20].http:∥arxiv.org/abs/2106.03146.
[7] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL].(2021-06-03)[2023-09-20].http:∥arxiv.org/abs/2010.11929.
[8] WANG W H, XIE E Z, LI X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]∥2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 548-558.
[9] WU H P, XIAO B, CODELLA N, et al. CvT: Introducing convolutions to vision transformers[C]∥2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 22-31.
[10]LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[C]∥2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992-10002.
[11]LIU C, HIROTA K, DAI Y P. Patch attention convolutional vision transformer for facial expression recognition with occlusion[J]. Information Sciences, 2023, 619(C): 781-794.
[12]FENG H Q, HUANG? W K, ZHANG D H, et al. Fine-tuning swin transformer and multiple weights optimality-seeking for facial expression recognition[J]. IEEE Access, 2023, 11: 9995-10003.
[13]CHEN X C, ZHENG X W, SUN K, et al. Self-supervised vision transformer-based few-shot learning for facial expression recognition[J]. Information Sciences, 2023, 634(C): 206-226.
[14]祁宣豪,智敏.圖像處理中注意力機(jī)制綜述[J].計算機(jī)科學(xué)與探索,2024,18(2):345-362.
QI X H,ZHI M.Review of attention mechanisms in image processing[J].Journal of Frontiers of Computer Science and Technology,2024,18(2):345-362.
[15]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]∥Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 2. Montreal:ACM, 2015: 2017-2025.
[16]WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11531-11539.
[17]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]∥ European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 3-19.
[18]馮曉毅,黃東,崔少星,等.基于空時注意力網(wǎng)絡(luò)的面部表情識別[J].西北大學(xué)學(xué)報(自然科學(xué)版),2020,50(3):319-327.
FENG X Y,HUANG D,CUI S X.Spatial-temporal attention network forfacial expression recognition[J].Journal of Northwest University(Natural Science Edition).2020,50(3):319-327.
[19]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.
[20]GOODFELLOW I J, ERHAN D, CARRIER P L, et al. Challenges in representation learning: A report on three machine learning contests[C]∥The 20th International Conference on Neural Information Processing. Daegu: Springer, 2013:117-124.
[21]LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with Gabor wavelets[C]∥Proceedings Third IEEE International Conference on Automatic Face and Gesture Recognition. Nara: IEEE, 2002: 200-205.
[22]LI S, DENG W H, DU J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2584-2593.
[23]WANG K, PENG X J, YANG J F, et al. Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Transactions on Image Processing, 2020, 29: 4057-4069.
[24]CHU X X, TIAN Z, WANG Y Q, et al. Twins: Revisiting the design of spatial attention in vision transformers[EB/OL].(2021-09-30)[2023-09-20].http:∥arxiv.org/abs/2104.13840.
[25]ZHENG C, MENDIETA M, CHEN C. POSTER: A pyramid cross-fusion transformer network for facial expression recognition[C]∥2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). Paris:IEEE, 2023: 3138-3147.
[26]LI Y J, LU G M, LI J X, et al. Facial expression recognition in the wild using multi-level features and attention mechanisms[J]. IEEE Transactions on Affective Computing, 2023,14(1):451-462.
[27]SINGH R, SHARMA H, MEHTA N K, et al. Efficientnet for human fer using transfer learning[J].ICTACT Journal on Soft Computing, 2023,13(1): 2792-2797.
[28]WANG K X, HE R X, WANG S, et al. The Efficient-CapsNet model for facial expression recognition[J].Applied Intelligence, 2023,53(13): 16367-16380.
[29]LI S Q, LI W, WEN S P, et al. Auto-FERNet: A facial expression recognition network with architecture search[J]. IEEE Transactions on Network Science and Engineering, 2021, 8(3): 2213-2222.
[30]MEENA G, MOHBEY K K, KUMAR S. Sentiment analysis on images using convolutional neural networks based Inception-V3 transfer learning approach[J]. International Journal of Information Management Data Insights, 2023, 3(1): 100174.
[31]SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]∥2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 618-626.