馬利莊,吳飛,毛啟容,王鵬杰,陳玉瓏
1. 上海交通大學(xué),上海 200240; 2.浙江大學(xué),杭州 310058;3. 江蘇大學(xué),鎮(zhèn)江 212013; 4.大連民族大學(xué),大連 116600
公共安全與社會(huì)治理是國(guó)家發(fā)展的核心需求,習(xí)近平總書(shū)記指出疫情中“始終把人民群眾的生命安全放在首位”。疫情的爆發(fā)使得社會(huì)治理面臨更為嚴(yán)峻的挑戰(zhàn):需要攻克高精度的人物身份核實(shí)、高效的人物行為分析以及人群跨時(shí)空流動(dòng)的跟蹤溯源等技術(shù)難題,以防止社區(qū)大規(guī)模騷亂與城市中各類犯罪。其核心是利用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)復(fù)雜場(chǎng)景中視覺(jué)信息進(jìn)行提取,并對(duì)其中的“人物—行為—場(chǎng)景”及三者的關(guān)聯(lián)關(guān)系進(jìn)行充分的視覺(jué)表達(dá)、識(shí)別與理解,對(duì)于提高社會(huì)管理與治理水平,促進(jìn)行業(yè)健康有序發(fā)展,具有重要作用。
復(fù)雜場(chǎng)景實(shí)時(shí)人物識(shí)別主要包括人物的身份檢索與核實(shí)、人群跨時(shí)空流動(dòng)的跟蹤溯源以及大規(guī)模復(fù)雜場(chǎng)景實(shí)時(shí)人物識(shí)別等,是對(duì)復(fù)雜場(chǎng)景中人類活動(dòng)進(jìn)行視覺(jué)理解的重要基礎(chǔ)。人物識(shí)別的挑戰(zhàn)主要在于面具遮擋攻擊等多樣性攻擊,會(huì)影響身份識(shí)別安全;時(shí)空信息跨度大,會(huì)影響跨年齡人臉識(shí)別精度(特別是千萬(wàn)級(jí)規(guī)模的檢索);場(chǎng)景復(fù)雜多變、要求系統(tǒng)的高魯棒性和適應(yīng)多樣性環(huán)境等問(wèn)題,需要研究高安全的遠(yuǎn)程核身、超精準(zhǔn)的人臉識(shí)別技術(shù),以及高效的行為分析和場(chǎng)景語(yǔ)義理解等技術(shù)。
對(duì)個(gè)體行為進(jìn)行分析,并理解群體交互規(guī)則是復(fù)雜場(chǎng)景人物視覺(jué)領(lǐng)域的關(guān)鍵組成部分。其中,個(gè)體行為分析主要包括視頻行人重識(shí)別、視頻動(dòng)作識(shí)別,群體交互理解主要包括視頻問(wèn)答、視頻對(duì)話。視頻網(wǎng)絡(luò)可記錄個(gè)體/群體在多源攝像機(jī)中的影像信息,因此多相機(jī)環(huán)境下的群體分割、群體跟蹤、群體行為分析和異常行為檢測(cè)等研究是人物行為理解的關(guān)鍵,已經(jīng)成為當(dāng)前國(guó)際國(guó)內(nèi)的熱點(diǎn)學(xué)術(shù)問(wèn)題。但是,真實(shí)場(chǎng)景中多相機(jī)所記錄的個(gè)體行為/群體交互異常復(fù)雜,對(duì)真實(shí)場(chǎng)景結(jié)構(gòu)、個(gè)體行為和群體交互進(jìn)行聯(lián)合建模來(lái)提高多相機(jī)、多目標(biāo)行為理解性能,仍然具有極大的挑戰(zhàn)性。
視頻網(wǎng)絡(luò)中個(gè)體和群體行為理解主要依賴于攝像機(jī)所捕獲的場(chǎng)景、個(gè)體和群體等視覺(jué)信息。然而在復(fù)雜場(chǎng)景下,個(gè)體行為分析和群體交互理解往往需要視覺(jué)信息以外的人類知識(shí)與先驗(yàn)常識(shí)。特別是,隨著互聯(lián)網(wǎng)中用戶產(chǎn)生數(shù)據(jù)日漸增多,如何利用眾包數(shù)據(jù)來(lái)提升視覺(jué)計(jì)算性能也吸引了眾多學(xué)者,以此產(chǎn)生了視覺(jué)問(wèn)答與對(duì)話和視覺(jué)語(yǔ)言導(dǎo)航兩個(gè)重點(diǎn)任務(wù)。這類任務(wù)對(duì)眾包數(shù)據(jù)中內(nèi)隱知識(shí)進(jìn)行辨識(shí),在個(gè)體行為分析和群體交互理解中形成綜合利用知識(shí)與先驗(yàn)的數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)模式,建立數(shù)據(jù)驅(qū)動(dòng)和知識(shí)指導(dǎo)的視覺(jué)計(jì)算新方法,具有廣闊的應(yīng)用前景。
此外,人物表情可以理解為人的臉部微動(dòng)作,表情識(shí)別能夠?qū)崿F(xiàn)人物的情感捕捉與理解,從而更好地支持人機(jī)協(xié)同的學(xué)習(xí)模式,是人物視覺(jué)理解技術(shù)的重要研究方向。情感計(jì)算在人工智能與人機(jī)交互相關(guān)研究中的地位日益凸顯,目前,國(guó)內(nèi)外已經(jīng)在人臉表情識(shí)別、表情合成等方面取得了初步成果。
本文重點(diǎn)圍繞復(fù)雜場(chǎng)景實(shí)時(shí)人物識(shí)別、個(gè)體行為分析與群體交互理解、視覺(jué)語(yǔ)音情感識(shí)別與合成、綜合利用知識(shí)與先驗(yàn)的機(jī)器學(xué)習(xí)模式,深入闡述面向復(fù)雜場(chǎng)景的任務(wù)視覺(jué)理解技術(shù)及應(yīng)用,匯總國(guó)內(nèi)外的相關(guān)成果,并對(duì)該領(lǐng)域的前沿進(jìn)展進(jìn)行總結(jié)與展望。
面向復(fù)雜場(chǎng)景的人物視覺(jué)理解技術(shù)是實(shí)現(xiàn)社會(huì)治理智慧化的核心技術(shù)。針對(duì)復(fù)雜場(chǎng)景中的大規(guī)模視覺(jué)媒體數(shù)據(jù),需要充分識(shí)別感知、分析理解其中的人物、行為和場(chǎng)景,挖掘其內(nèi)在關(guān)聯(lián),探索“人物—行為—場(chǎng)景”的三位一體視覺(jué)表達(dá)與理解的科學(xué)問(wèn)題。其中,面向大規(guī)模復(fù)雜場(chǎng)景的人物視覺(jué)理解面臨數(shù)據(jù)量更大、場(chǎng)景更為復(fù)雜以及效果需求更高等技術(shù)挑戰(zhàn)。人物的人臉檢索與分析,以及場(chǎng)景中的人物分析則是核心和基礎(chǔ)。因此,本文圍繞遠(yuǎn)程核身中高精度人臉驗(yàn)證、魯棒的活體檢測(cè)和快速的系統(tǒng)響應(yīng)等核心問(wèn)題,從人臉預(yù)處理、檢測(cè)與配準(zhǔn)、人臉驗(yàn)證和人臉活體檢測(cè)4個(gè)方面進(jìn)行現(xiàn)狀綜述,分析了人物視覺(jué)理解技術(shù)應(yīng)用的社會(huì)影響,并進(jìn)行了相關(guān)風(fēng)險(xiǎn)評(píng)估。
受限于實(shí)際應(yīng)用中移動(dòng)設(shè)備的圖像采集能力,人臉圖像的畫(huà)質(zhì)可能十分低下,造成人臉采集的光照環(huán)境、人臉姿態(tài)和表情等的不可控。這些因素都有可能造成人臉識(shí)別系統(tǒng)性能的急劇下降?,F(xiàn)有的研究分別從人臉圖像增強(qiáng)、光照處理、姿態(tài)矯正和表情歸一化等方面對(duì)人臉進(jìn)行預(yù)處理,提升識(shí)別質(zhì)量。
1)人臉圖像畫(huà)質(zhì)增強(qiáng)。針對(duì)人臉識(shí)別系統(tǒng)中由模糊產(chǎn)生的人臉圖像的降質(zhì)問(wèn)題,主要的難點(diǎn)在于推測(cè)表示模糊過(guò)程的點(diǎn)擴(kuò)散函數(shù)(point spread function,PSF),而從單幅圖像推測(cè)點(diǎn)擴(kuò)散函數(shù)是一個(gè)不適定的問(wèn)題,因此可以從一個(gè)包含多個(gè)人物的模糊人臉圖像訓(xùn)練集學(xué)習(xí)得到先驗(yàn)信息來(lái)得到PSF函數(shù),并利用該P(yáng)SF對(duì)輸入圖像進(jìn)行去模糊。在此基礎(chǔ)上,結(jié)合模糊不變的描述子來(lái)進(jìn)一步處理人臉圖像的模糊問(wèn)題,能夠提升人臉識(shí)別系統(tǒng)的準(zhǔn)確率;基于集合論的特征方法,可以解決人臉識(shí)別中的模糊和光照變化問(wèn)題;通過(guò)估計(jì)人臉圖像中的運(yùn)動(dòng)模糊和大氣模糊,可以自動(dòng)嵌入到實(shí)時(shí)的人臉識(shí)別系統(tǒng)中;利用基于樣例的個(gè)人照片增強(qiáng)方法,可以自動(dòng)地對(duì)輸入圖片進(jìn)行全局和特定人臉的矯正;同時(shí)進(jìn)行人臉圖像的盲卷積和識(shí)別,通過(guò)追求識(shí)別時(shí)人臉表示的稀疏性,迭代地求解圖像去模糊,實(shí)現(xiàn)圖像的復(fù)原和人臉的識(shí)別。
2)人臉光照預(yù)處理。人臉識(shí)別一大挑戰(zhàn)是不同光照環(huán)境會(huì)造成圖像差異,大的光照變化,如陰陽(yáng)臉,會(huì)嚴(yán)重影響人臉識(shí)別系統(tǒng)的性能。對(duì)光照處理的現(xiàn)有工作大致可以分為兩類:主動(dòng)式和被動(dòng)式。前者通過(guò)一些硬件設(shè)備來(lái)獲取對(duì)光照不敏感的圖像或3D信息;后者通過(guò)各種方法來(lái)減小或消除不同光照的影響,包括對(duì)光照進(jìn)行建模、提取光照不變的特征以及對(duì)圖像進(jìn)行光照平衡處理等。
基于模型的方法要求光照條件已知或者對(duì)象的形狀和反射特性已知,理論性強(qiáng),需要通過(guò)數(shù)學(xué)理論結(jié)合光度學(xué)理論,給光照變化建立統(tǒng)一的模型,如Shashua和Riklin-Raviv(2001)在假定人臉為朗伯體模型且不存在陰影的情況下,引入商圖像(quotient image, QI)的概念,以消除圖像中的光照變化。提取對(duì)光照不敏感特征的方法,需要在光照條件變化不大的情況下才能獲得較好的識(shí)別效果。該方法需在目標(biāo)識(shí)別的特征提取階段找到光照不敏感特征或圖像表達(dá),并以此作為特征矢量進(jìn)行目標(biāo)識(shí)別,如Ahonen等人(2006)將局部二值模式(local binary pattern, LBP)引入人臉識(shí)別中,通過(guò)提取不同區(qū)域的局部特征和直方圖統(tǒng)計(jì)特征來(lái)進(jìn)行人臉識(shí)別,一定程度上降低了光照對(duì)識(shí)別率的影響?;趫D像處理技術(shù)的方法包括直方圖均衡化、對(duì)數(shù)變換、Gamma 灰度校正(Shan等,2003)、自商相位(Wang等,2004)和相位圖(Savvides等,2004)等,這些方法以其簡(jiǎn)單有效性在實(shí)際中廣泛應(yīng)用。
人臉檢測(cè)與配準(zhǔn)在計(jì)算機(jī)視覺(jué)技術(shù)中有著廣泛的應(yīng)用價(jià)值。人臉檢測(cè)的困難主要來(lái)自兩個(gè)方面:雜亂背景中人臉視覺(jué)上的顯著變化;人臉?biāo)锌赡艿奈恢煤痛笮?duì)應(yīng)的解空間巨大。前者要求人臉檢測(cè)算法可以準(zhǔn)確地解決二分類問(wèn)題,而后者對(duì)應(yīng)于時(shí)間效率要求。人臉配準(zhǔn)目前在視頻方面的相關(guān)研究仍較少,視頻前后幀中人臉特征點(diǎn)定位的抖動(dòng)現(xiàn)象較嚴(yán)重。人臉姿態(tài)的多樣性、表情變化將引起人臉特征點(diǎn)的變化、人臉光照的變化以及人臉遮擋問(wèn)題,也增加了人臉特征點(diǎn)定位的難度、降低人臉3維重建的精度以及影響人臉識(shí)別的準(zhǔn)確率。深度學(xué)習(xí)是近年人工智能領(lǐng)域取得的最重要突破之一,為解決不同人臉姿態(tài)、光照變化和人臉遮擋等問(wèn)題,建立準(zhǔn)確性更高、更魯棒的人臉配準(zhǔn)算法具有重要的意義。
1)人臉檢測(cè)。人臉檢測(cè)是人臉識(shí)別系統(tǒng)的重要步驟。目前人臉檢測(cè)算法可以準(zhǔn)確地檢測(cè)正面人臉圖像,但在非受控環(huán)境下的人臉檢測(cè)中,姿態(tài)變化、表情夸張和極端光照條件等,都會(huì)導(dǎo)致人臉圖像視覺(jué)上的巨大改變,從而顯著地降低人臉檢測(cè)的魯棒性。傳統(tǒng)的人臉檢測(cè)方法主要基于人工設(shè)計(jì)的特征。自從具有開(kāi)創(chuàng)意義的Viola-Jones人臉檢測(cè)方法(Wang,2014)提出以來(lái),便出現(xiàn)了許多用于實(shí)時(shí)人臉檢測(cè)的方法。利用樹(shù)結(jié)構(gòu)模型來(lái)進(jìn)行人臉檢測(cè),可以同時(shí)實(shí)現(xiàn)姿態(tài)估計(jì)和人臉特征點(diǎn)定位;基于部分的可變形模型(deformable part-based model)(Yan等,2014),可以實(shí)現(xiàn)較高的人臉檢測(cè)準(zhǔn)確率。與這些基于模型的方法不同,也可以通過(guò)圖像檢索來(lái)檢測(cè)人臉,形成一個(gè)增強(qiáng)的基于范例的人臉檢測(cè)子,并達(dá)到很好的結(jié)果。
基于深度學(xué)習(xí)的人臉檢測(cè),深度卷積神經(jīng)網(wǎng)絡(luò)提供了強(qiáng)大的特征提取能力,可以獲取體現(xiàn)人臉本質(zhì)的特征表示?;诰矸e神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的檢測(cè)方法之一是R-CNN(region CNN) (He等,2017;Girshick,2015),采用“基于區(qū)域的識(shí)別”模式,在VOC(visual object classes) 2012上實(shí)現(xiàn)了最好的結(jié)果。通過(guò)單個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)所有可能方向的人臉,即多視角人臉檢測(cè);利用級(jí)聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò),分別以不同分辨率對(duì)輸入圖像進(jìn)行處理,在低分辨率階段快速地拒絕多數(shù)非人臉圖像塊,最終在高分辨率階段準(zhǔn)確地判斷是否為人臉;根據(jù)人臉空間結(jié)構(gòu)獲取人臉各子塊的響應(yīng)分?jǐn)?shù),從而進(jìn)行人臉檢測(cè);利用可變形部分模型(deformable part models)(Yan等,2014)和深度金字塔提取有效的人臉特征,可以很好地檢測(cè)非受控條件下各種大小和姿態(tài)的人臉。
2)人臉配準(zhǔn)。人臉配準(zhǔn)是人臉檢索與分析中的一個(gè)關(guān)鍵技術(shù)之一。人臉配準(zhǔn)主要完成人面部特征點(diǎn)的定位, 包括面部整體輪廓關(guān)鍵點(diǎn),以及面部五官輪廓的位置關(guān)鍵點(diǎn),如眼角、嘴角、眼球中心和鼻尖等。傳統(tǒng)人臉檢測(cè)的代表性的方法是Cootes等人(1995)提出的主動(dòng)形狀模型(active shape model,ASM)。在ASM算法提出后,很多研究人員也對(duì)該模型進(jìn)行了改進(jìn),提出了很多改進(jìn)方法,如利用混合高斯模型對(duì)變形參數(shù)進(jìn)行建模,來(lái)處理非線性的形狀變化;通過(guò)核主成分分析(kernel principal component analysis, Kernel PCA)和支持向量機(jī)(support vector machine,SVM)來(lái)處理非線性的模型變化;基于Lucas-Kanade算法的反向組合AAM(active appearance model)算法(Cootes等,2001);基于SDM(supervised descent method)算法將人臉配準(zhǔn)視為非線性最小二乘法的優(yōu)化問(wèn)題(Xiong和de la Torre,2013)以及基于尺度不變特征變換(scale invariant feature transform,SIFT)特征采用線性回歸來(lái)預(yù)測(cè)形狀增量(Lindeberg,2012)。傳統(tǒng)方法性能的好壞很大程度上取決于初始形狀或參數(shù)的選取,對(duì)未見(jiàn)樣例的泛化能力較弱。
基于深度學(xué)習(xí)的人臉配準(zhǔn)方法,在人臉特征點(diǎn)定位的準(zhǔn)確性上比傳統(tǒng)方法大大提升。與ASM、AAM相比,CLM (constrained local model)(Cristinacce和Cootes,2006)算法綜合考慮了人臉關(guān)鍵點(diǎn)之間的位置關(guān)系。采用級(jí)聯(lián)的多個(gè)卷積網(wǎng)絡(luò)來(lái)估計(jì)人臉關(guān)鍵點(diǎn)的位置;通過(guò)使用級(jí)聯(lián)自編碼網(wǎng)絡(luò)提升判別能力來(lái)進(jìn)行人臉配準(zhǔn)(Cao等,2012)。為了實(shí)現(xiàn)復(fù)雜場(chǎng)景下的多姿態(tài)人臉配準(zhǔn),伍凱等人(2017) 在級(jí)聯(lián)回歸的基礎(chǔ)上提出了與初始形狀無(wú)關(guān)的改進(jìn)的級(jí)聯(lián)回歸算法。
近年來(lái),由于廣泛的社會(huì)實(shí)際需求和人臉識(shí)別數(shù)據(jù)集LFW(labeled faces in the wild)的發(fā)布,非受控條件下的人臉驗(yàn)證技術(shù)得到大量研究,并取得了可喜成就。僅在過(guò)去的一兩年中,人臉驗(yàn)證的準(zhǔn)確率就獲得大幅度提高,在LFW上測(cè)試的準(zhǔn)確率從95%左右提高到99%左右,達(dá)到乃至超過(guò)了人類自身的表現(xiàn)(97.53%)。目前,人臉驗(yàn)證較優(yōu)的算法分為兩類:廣度模型(wide model)和深度模型(deep model)。好的模型必須有足夠的容量來(lái)表示人臉復(fù)雜的變化模式。高維LBP是一個(gè)典型的廣度模型,其通過(guò)將人臉變換到非常高維的空間使復(fù)雜的人臉流形變平。CNN是目前最先進(jìn)的深度模型,廣泛應(yīng)用于人臉識(shí)別和圖像分析。
1)廣度模型。許多人臉驗(yàn)證方法用高維的、超完備的人臉描述子表示人臉。將每幅人臉圖像編碼為26 K的基于學(xué)習(xí)的描述子,然后對(duì)LE(learning-based)描述子用PCA降維,再計(jì)算LE描述子之間的L2范數(shù)距離;在多尺度下對(duì)密集的人臉關(guān)鍵特征點(diǎn)提取了100 K的局部二值模式描述子,然后再用PCA降維后采用聯(lián)合貝葉斯進(jìn)行人臉驗(yàn)證;在尺度和空間上密集地計(jì)算1.7 M的尺度不變特征變換(SIFT)描述子,將密集的SIFT特征編碼為Fisher向量,并學(xué)習(xí)以區(qū)分性的降維為目的的線性映射;將1.2 M的協(xié)方差矩陣對(duì)象描述子和軟直方圖局部二值模式描述子組合,學(xué)習(xí)稀疏的馬氏距離。一些研究人員針對(duì)身份關(guān)聯(lián)的低層次特征進(jìn)行了深入研究。利用屬性和微笑分類器來(lái)檢測(cè)人臉屬性,并度量與參照人臉的相似度;通過(guò)SVM分類器對(duì)來(lái)自于不同的兩個(gè)人的臉進(jìn)行分類,學(xué)習(xí)好的分類器的輸出為特征。SVM為淺的結(jié)構(gòu),且提取的特征是低層次的。
2)深度模型。盡管可以從廣度和深度兩個(gè)方向增加模型的復(fù)雜度,但是在同樣數(shù)目參數(shù)的情況下,深度模型比廣度模型更有效。普通電腦對(duì)廣度模型提取的高維特征處理起來(lái)較困難,而深度模型每一層的特征維數(shù)相對(duì)而言小得多,使得其內(nèi)存消耗是可以接受的。而且,廣度模型為人工的設(shè)計(jì)特征,是非常費(fèi)力、啟發(fā)式的,依賴經(jīng)驗(yàn)和運(yùn)氣,且調(diào)節(jié)需要大量的時(shí)間。而深度模型為無(wú)監(jiān)督特征學(xué)習(xí),自動(dòng)提取特征,不需要人參與。一些深度模型被用來(lái)進(jìn)行人臉驗(yàn)證或人臉辨認(rèn)。采用暹羅網(wǎng)絡(luò)(siamese network)進(jìn)行深度度量學(xué)習(xí),采用兩個(gè)完全相同的子網(wǎng)絡(luò)分別對(duì)兩個(gè)輸入提取特征,并對(duì)兩個(gè)子網(wǎng)絡(luò)的輸出計(jì)算距離作為差異度,其子網(wǎng)絡(luò)為深度卷積神經(jīng)網(wǎng)絡(luò);采用卷積深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征,然后使用信息論度量學(xué)習(xí)和線性SVM進(jìn)行人臉驗(yàn)證;采用多個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)高層次的人臉相似特征,并訓(xùn)練受限玻爾茲曼機(jī)分類器進(jìn)行人臉驗(yàn)證。在過(guò)去的一兩年中,基于深度學(xué)習(xí)的人臉驗(yàn)證技術(shù)突飛猛進(jìn)。Facebook提出了“DeepFace”(Taigman等,2014),將3D模型和姿勢(shì)變換用于預(yù)處理,采用SFC(social face classification)數(shù)據(jù)庫(kù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),對(duì)于單個(gè)網(wǎng)絡(luò)在LFW上的測(cè)試,準(zhǔn)確率達(dá)到97.00%;采用多尺度網(wǎng)絡(luò)的方式,訓(xùn)練7個(gè)神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率達(dá)到97.35%,已經(jīng)與人類自身的表現(xiàn)97.53%非常接近。DeepID通過(guò)多尺度、多個(gè)神經(jīng)網(wǎng)絡(luò)提取高維特征,結(jié)合聯(lián)合貝葉斯對(duì)人臉對(duì)進(jìn)行分類,準(zhǔn)確率為97.45%;DeepID2利用辨認(rèn)信號(hào)和驗(yàn)證信號(hào),兩者共同對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,最后用SVM將7個(gè)聯(lián)合貝葉斯似然比融合,進(jìn)行分類,準(zhǔn)確率達(dá)到99.15%,使人臉驗(yàn)證技術(shù)上了一個(gè)新的臺(tái)階。
關(guān)于頻域和紋理的方法均是基于單幀的活體檢測(cè)方法;利用直接拍攝真人與拍攝照片在多方面存在的差別,來(lái)區(qū)分真人與照片;利用攝像頭的焦距變化進(jìn)行多次拍攝,由于各部分的深度不同,在一定范圍內(nèi),不同的焦距拍出照片的清晰部位會(huì)有所不同來(lái)進(jìn)行活體檢測(cè);通過(guò)分析3維物體與2維平面所產(chǎn)生的光流場(chǎng)屬性差異,來(lái)進(jìn)行人臉活體檢測(cè);利用背景一致性檢測(cè),對(duì)于防止視頻偽裝攻擊也是非常重要的;通過(guò)圖像失真分析的活體檢測(cè)方法,解決活體檢測(cè)算法泛化能力差的問(wèn)題;利用從單幅圖像提取14種圖像質(zhì)量特征,可應(yīng)用于實(shí)時(shí)場(chǎng)景的低復(fù)雜度的活體檢測(cè)算法,來(lái)區(qū)分真實(shí)和假冒的人臉圖像;通過(guò)尋找由數(shù)字化網(wǎng)格的重疊產(chǎn)生的莫列波紋來(lái)進(jìn)行活體檢測(cè)。
基于運(yùn)動(dòng)分析的活體檢測(cè)試圖區(qū)分3D和2D人臉之間的運(yùn)動(dòng)模式。其假設(shè)為真實(shí)的(活的)人臉是3維結(jié)構(gòu),而偽造攻擊的人臉是2維圖像。這些圖像可以打印在紙上或在屏幕上顯示。運(yùn)動(dòng)分析通常依賴于從視頻序列中計(jì)算出光流。通過(guò)用SVM對(duì)唇動(dòng)進(jìn)行分類和分析唇讀來(lái)進(jìn)行活體檢測(cè)。傳統(tǒng)的人工設(shè)計(jì)特征,如LBP、LBP-TOP(local binary pattern histograms from three orthogonal planes)等,在抵御偽造的圖像或視頻的攻擊方面取得了一定進(jìn)展,但這些特征還無(wú)法捕獲真實(shí)人臉與假臉間最具有判別力的信息。利用深度卷積神經(jīng)網(wǎng)絡(luò)以有監(jiān)督的方式學(xué)習(xí)具有強(qiáng)判別力的特征。結(jié)合一些數(shù)據(jù)預(yù)處理操作,算法可大幅提升人臉活體檢測(cè)系統(tǒng)的性能。相比當(dāng)時(shí)最先進(jìn)的算法,新算法在中國(guó)科學(xué)院自動(dòng)化研究所(Institute of Automation, Chinese Academy of Sciences, CASIA)數(shù)據(jù)庫(kù)和REPLAY-ATTACK數(shù)據(jù)庫(kù)上的半錯(cuò)誤率相對(duì)下降70%。同時(shí),在這兩個(gè)數(shù)據(jù)庫(kù)上的交叉測(cè)試結(jié)果,表明該方法具有很好的泛化能力。
視頻個(gè)體行為分析主要包括視頻行人重識(shí)別、視頻動(dòng)作識(shí)別,下面分別介紹相關(guān)研究和進(jìn)展。
視頻行人重識(shí)別(person re-identification)是利用計(jì)算機(jī)視覺(jué)技術(shù)判斷視頻序列中是否存在目標(biāo)行人的技術(shù)。給定一行人視頻及其中目標(biāo)人物,提供多個(gè)監(jiān)控設(shè)備拍攝得到的視頻序列,檢索跨設(shè)備下含目標(biāo)行人的視頻。行人重識(shí)別技術(shù)可以彌補(bǔ)單一攝像頭的視覺(jué)局限,在現(xiàn)實(shí)場(chǎng)景有著眾多應(yīng)用,如失蹤者尋找,嫌疑人跟蹤等。
Wojciech等人(2005)最早進(jìn)行跨攝像頭的多目標(biāo)跟蹤研究,旨在解決當(dāng)某一攝像頭視頻丟失特定行人目標(biāo)后,如何在其他攝像頭中再次查找該目標(biāo)的問(wèn)題。在此基礎(chǔ)上,Gheissari等人(2006)首次定義視頻行人重識(shí)別概念。
2.1.1 處理過(guò)程及方法
視頻行人重識(shí)別問(wèn)題一般按照3個(gè)階段流程進(jìn)行處理。首先對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處,包括提取視頻幀的圖像特征、采用行人檢測(cè)模型對(duì)人物進(jìn)行邊界框標(biāo)注和處理光照變化等噪音問(wèn)題。然后對(duì)指定行人進(jìn)行特征提取,得到行人外觀的穩(wěn)定目標(biāo)特征。最后找到一種有效的距離度量方法,使視頻中同目標(biāo)更相似的行人在特征空間中距目標(biāo)特征更近。
1)視頻數(shù)據(jù)預(yù)處理。已有的眾多方法依賴視頻幀的顏色特征,因此場(chǎng)景中光照變化導(dǎo)致的圖像顏色變化會(huì)嚴(yán)重影響模型的性能。針對(duì)這一問(wèn)題,可從多個(gè)方向進(jìn)行研究,如提取對(duì)光照變化具有魯棒性的圖像特征(Farenzena等,2010);研究正常圖像和光照變化圖像間的聯(lián)系,過(guò)濾光照變化的影響(Ma等,2014);采用合適的視頻預(yù)處理方法,使視頻幀顏色變化平緩(Anjum等,2019)。
2)特征提取。隨著深度學(xué)習(xí)的發(fā)展,視頻特征提取也從早期的手工標(biāo)記變成使用深度學(xué)習(xí)模型提取,模型主要提取兩類特征。(1)時(shí)空特征,時(shí)間特征為視頻幀序間的關(guān)聯(lián),空間特征為每一視頻幀中不同位置的圖像特征。(2)局部特征,早期研究對(duì)每一視頻幀只提取一個(gè)全局圖像特征,不考慮局部區(qū)域特征。隨著研究的發(fā)展,行人識(shí)別數(shù)據(jù)集越來(lái)越復(fù)雜,因此需要引入視頻幀中復(fù)雜局部特征。實(shí)際研究中行人數(shù)據(jù)集會(huì)存在不可避免的遮擋問(wèn)題,行人身體的每個(gè)區(qū)域均可能被其他行人或環(huán)境物體(如車和指示牌)遮擋,這將導(dǎo)致行人外觀的巨大變化。針對(duì)這一問(wèn)題,最簡(jiǎn)單的做法是丟棄遮擋幀,如 Li等人(2018)選擇使用時(shí)間注意模型從其他所有未丟棄幀中學(xué)習(xí)有用信息。但丟棄幀會(huì)影響視頻的時(shí)間特征,并且被丟棄的幀中可能包含其他有用信息,因此,Hou等人(2019)對(duì)于部分遮擋的視頻幀提出STCnet(spatial-temporal completion network)方法進(jìn)行恢復(fù),充分利用視頻每一幀的信息。
3)距離度量。找到一個(gè)合適的度量函數(shù)類計(jì)算行人特征向量間的距離,使模型經(jīng)訓(xùn)練后能將行人特征投影到一個(gè)最優(yōu)的表征空間,其中具有相同行人特征的視頻間距盡可能小,不同行人視頻間距盡可能大。實(shí)際處理的視頻為流式數(shù)據(jù),視頻幀源源不斷加入現(xiàn)有數(shù)據(jù)當(dāng)中,因此,距離度量函數(shù)不僅需計(jì)算出最終特征向量間的距離,還需在新數(shù)據(jù)輸入時(shí),對(duì)現(xiàn)有距離進(jìn)行更新。針對(duì)這一點(diǎn),Navaneet等人(2019)對(duì)新加入的數(shù)據(jù)提出排名損失,既保證現(xiàn)有距離不斷更新,也防止質(zhì)量差的視頻影響模型的性能。
識(shí)別視頻中的動(dòng)作是視頻理解任務(wù)中一個(gè)充滿挑戰(zhàn)而又具有較高實(shí)際應(yīng)用價(jià)值的任務(wù)。視頻內(nèi)容和背景更加復(fù)雜多變,不同的動(dòng)作類別之間具有相似性,而相同的類別在不同環(huán)境下又有著不同的特點(diǎn)。此外,由于拍攝造成的遮擋、抖動(dòng)和視角變化等也為動(dòng)作識(shí)別帶來(lái)了困難。在實(shí)際應(yīng)用中,精確的動(dòng)作識(shí)別有助于輿情監(jiān)控、廣告投放以及很多其他視頻理解相關(guān)的任務(wù)。
學(xué)習(xí)視頻中幀與幀之間的時(shí)序關(guān)系,尤其是長(zhǎng)距離的時(shí)序關(guān)系,本身就比較難。不同類型的動(dòng)作變化快慢和持續(xù)時(shí)長(zhǎng)有所不同,不同的人做同一個(gè)動(dòng)作的方式也存在不同,同時(shí)相機(jī)拍攝角度和相機(jī)自身的運(yùn)動(dòng)也會(huì)對(duì)識(shí)別帶來(lái)挑戰(zhàn)。此外,不是視頻中所有的幀對(duì)于動(dòng)作識(shí)別都有相同的作用,有許多幀存在信息冗余。
2.2.1 基于人工特征的視頻動(dòng)作識(shí)別
早期的動(dòng)作識(shí)別主要基于興趣點(diǎn)的檢測(cè)和表示。早期主要采用梯度直方圖、時(shí)空興趣點(diǎn)檢測(cè)(Laptev,2005)以及光流直方圖(Laptev等,2008)等方法,都是用于提取圖像和時(shí)序的特征表示。與圖像相比,視頻蘊(yùn)含了大量的運(yùn)動(dòng)信息,為了更好地利用運(yùn)動(dòng)信息,Wang和Schmid(2013)提出密集軌跡的動(dòng)作識(shí)別視頻表示方法,提取和追蹤密集光流中每個(gè)像素特征,編碼后進(jìn)行分類。然而,當(dāng)面臨大規(guī)模數(shù)據(jù)集時(shí),這些特征缺乏一定的靈活性和可擴(kuò)展性。
2.2.2 3D卷積的動(dòng)作識(shí)別
視頻是由一系列圖像幀組成的,圖像分類模型已經(jīng)相對(duì)成熟。如何進(jìn)行視頻分類?一種直觀的想法是將圖像分類的模型直接運(yùn)用到視頻分類中。先把視頻各幀提取出來(lái),每幀圖像各自前饋(feedforward)一個(gè)圖像分類模型,不同幀的圖像分類模型之間相互共享參數(shù)。得到每幀圖像的特征之后,對(duì)各幀圖像特征進(jìn)行匯合(pooling),例如采用平均匯合,得到固定維度的視頻特征,最后經(jīng)過(guò)一個(gè)全連接層和Softmax激活函數(shù)進(jìn)行分類以得到視頻的類別預(yù)測(cè)。
另一種直觀的想法是先把視頻逐幀拆分為圖像,每幀圖像各自用一個(gè)圖像分類模型得到幀級(jí)別的特征,然后用某種匯合方法從幀級(jí)別特征得到視頻級(jí)別特征,最后進(jìn)行分類預(yù)測(cè),其中的匯合方法包括: 平均匯合、NetVLAD(net vector of local aggregated descriptors)、NetFV(net Fisher vector)和RNN3D (3D recurrent neural network)卷積等。另外,也可以借助一些傳統(tǒng)算法來(lái)補(bǔ)充時(shí)序關(guān)系,例如,雙流法利用光流顯式地計(jì)算幀之間的運(yùn)動(dòng)關(guān)系,TDD(trajectory-pooled deep-convolutional descriptor)利用iDT(improved dense trajectories)計(jì)算的軌跡進(jìn)行匯合等?;?D卷積的動(dòng)作識(shí)別方法一個(gè)優(yōu)點(diǎn)是可以快速吸收?qǐng)D像分類領(lǐng)域的最新成果,通過(guò)改變骨架網(wǎng)絡(luò),新的圖像分類模型可以十分方便地遷移到基于2D卷積的動(dòng)作識(shí)別方法中。
2.2.3 基于3D卷積的動(dòng)作識(shí)別
4維視頻比3維圖像多了1維,圖像使用的是2D卷積,則視頻使用的是3D卷積。因此可以設(shè)計(jì)對(duì)應(yīng)的3D卷積神經(jīng)網(wǎng)絡(luò),從視頻片段中同時(shí)學(xué)習(xí)圖像特征和相鄰幀之間復(fù)雜的時(shí)序特征,最后利用學(xué)到的高層級(jí)特征進(jìn)行分類。相比于2D卷積,3D卷積可以學(xué)習(xí)到視頻幀之間的時(shí)序關(guān)系。
Tran等人(2015)首次提出了在視頻動(dòng)作識(shí)別中使用3維神經(jīng)網(wǎng)絡(luò)C3D(3-dimensional convolutional networks)代替2維的神經(jīng)網(wǎng)絡(luò)。由于ResNet在圖像識(shí)別任務(wù)中取得的較好效果,可以將2D卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展為對(duì)應(yīng)的3D卷積神經(jīng)網(wǎng)絡(luò),Hara等人(2018)提出了基于三維網(wǎng)絡(luò)的ResNet。deep mind團(tuán)隊(duì)提出了I3D (inflated 3D ConvNets) (Carreira和Zisserman,2017),具體方法是利用2D網(wǎng)絡(luò)權(quán)重展開(kāi)作為3D網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重,同時(shí)借助大規(guī)模的Kinetics數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,在基準(zhǔn)數(shù)據(jù)集上效果得到明顯提升。
3D卷積+RNN、ARTNet(appearance-and-relation network)、Non-Local和SlowFast等從不同角度學(xué)習(xí)視頻幀之間的時(shí)序關(guān)系。此外,多網(wǎng)格訓(xùn)練和X3D等對(duì)3D卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù)進(jìn)行調(diào)整,使網(wǎng)絡(luò)更加精簡(jiǎn)和高效。
2.2.4 基于雙流的神經(jīng)網(wǎng)絡(luò)
直接將用于圖像分類的神經(jīng)網(wǎng)絡(luò)用于視頻分類會(huì)忽略視頻的時(shí)序特征,而時(shí)序特征對(duì)于視頻分類尤為重要。鑒于此,研究者提出了基于雙流的動(dòng)作識(shí)別方法。
Simonyan和Zisserman(2014)提出了一個(gè)融合網(wǎng)絡(luò),首次將視頻分成空間和時(shí)間兩個(gè)部分,分別將RGB圖像和光流圖像送入兩支神經(jīng)網(wǎng)絡(luò)并融合最終分類結(jié)果。利用雙流神經(jīng)網(wǎng)絡(luò),可以同時(shí)得到視頻中人或物體外表和運(yùn)動(dòng)的信息,在當(dāng)時(shí)各個(gè)基準(zhǔn)數(shù)據(jù)集上取得了領(lǐng)先的識(shí)別水平。盡管該方法取得了不錯(cuò)的效果,但仍存在以下缺點(diǎn):1)視頻的預(yù)測(cè)還是依據(jù)從視頻中抽取的部分樣本,對(duì)于長(zhǎng)視頻來(lái)說(shuō),在特征學(xué)習(xí)中還是會(huì)損失時(shí)序信息;2)在訓(xùn)練時(shí),從視頻中抽取片段樣本時(shí)由于是均勻抽取,存在錯(cuò)誤標(biāo)簽的現(xiàn)象(即指定動(dòng)作并不存在該樣本片段中);3)在光流使用前,需要對(duì)視頻預(yù)先做光流的抽取操作。
此外,仍有很多研究者在探索其他更有效的視頻動(dòng)作識(shí)別方法,如基于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)的識(shí)別框架,基于對(duì)抗神經(jīng)網(wǎng)絡(luò)(generative adversarial network, GAN)的框架等。雖然目前動(dòng)作識(shí)別已經(jīng)取得了快速的發(fā)展,但距離人類識(shí)別水平仍有很大的差距,在實(shí)際應(yīng)用中也面臨著各種復(fù)雜的問(wèn)題。期待在今后的研究中能夠出現(xiàn)更具有可擴(kuò)展性、魯棒性的算法和框架。
視頻網(wǎng)絡(luò)中個(gè)體和群體行為理解主要依賴于攝像機(jī)所捕獲的場(chǎng)景、個(gè)體和群體等視覺(jué)信息,從這些視覺(jué)信息出發(fā),進(jìn)行語(yǔ)義理解。然而在復(fù)雜場(chǎng)景下,個(gè)體行為分析和群體交互理解往往需要視覺(jué)信息以外的人類知識(shí)與先驗(yàn)常識(shí)。因此建立融入知識(shí)的數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)模型,建立數(shù)據(jù)驅(qū)動(dòng)和知識(shí)指導(dǎo)相互結(jié)合的視覺(jué)計(jì)算新方法成為一個(gè)新的研究熱點(diǎn)。
本節(jié)著重介紹將先驗(yàn)知識(shí)和知識(shí)圖譜引入數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)的視覺(jué)分析任務(wù)。
視頻問(wèn)答(VideoQA)根據(jù)視頻內(nèi)容自動(dòng)回答自然語(yǔ)言問(wèn)題,廣泛應(yīng)用于在線教育、場(chǎng)景分析和視頻內(nèi)容檢索等場(chǎng)景。具體地,視頻問(wèn)答通過(guò)理解視頻和文本問(wèn)題中的語(yǔ)義信息,以及它們的語(yǔ)義相關(guān)性,預(yù)測(cè)給定問(wèn)題的正確答案。視頻問(wèn)答是一項(xiàng)十分復(fù)雜的任務(wù),應(yīng)用了許多人工智能技術(shù),包括對(duì)象檢測(cè)(Lin等,2017)和分割 (Maninis等,2019)、特征提取 (Wong等,2017)、內(nèi)容理解 (Lu等,2020)和分類 (Anjum等,2019) 等。視頻問(wèn)答打破了視覺(jué)和語(yǔ)言的語(yǔ)義鴻溝,從而促進(jìn)了視覺(jué)理解和人機(jī)交互。
視覺(jué)問(wèn)答是一個(gè)復(fù)雜的問(wèn)題,因?yàn)槠渫评磉^(guò)程中往往額外需要視頻幀中不存在的信息,例如常識(shí)或有關(guān)視頻幀的特定知識(shí),因此,一系列工作探索如何將知識(shí)、先驗(yàn)融入到視覺(jué)問(wèn)答任務(wù)中。
Wu等人(2016)提出了一種視覺(jué)問(wèn)答方法,該方法將圖像內(nèi)容表示與知識(shí)圖譜中的信息相結(jié)合,以回答基于圖像的問(wèn)題。相比基于神經(jīng)網(wǎng)絡(luò)的主要方法,該方法能回答比以前更復(fù)雜的問(wèn)題,即使圖像本身不包含整個(gè)答案。具體地,該方法通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)建圖像表示,并將其與來(lái)自知識(shí)圖譜的文本信息融合。融合信息和查詢問(wèn)題通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò),產(chǎn)生視覺(jué)問(wèn)答答案。伍凱等人(2017)進(jìn)一步將該思想擴(kuò)展到圖像描述任務(wù),并在基準(zhǔn)數(shù)據(jù)集上也達(dá)到了最優(yōu)效果。當(dāng)前的視覺(jué)問(wèn)答數(shù)據(jù)集以及基于它們構(gòu)建的模型專注于僅通過(guò)直接分析問(wèn)題和圖像即可回答的問(wèn)題。Wang等人(2018a)介紹基于事實(shí)的視頻問(wèn)答數(shù)據(jù)集(fact-based visual question answering, FVQA),主要包含需要外部信息才能回答的問(wèn)題,需要并支持更深層次的推理。FVQA通過(guò)附加的〈圖像, 問(wèn)題, 答案, 支持事實(shí)〉元組擴(kuò)展了傳統(tǒng)的〈圖像, 問(wèn)題, 答案〉三元組視覺(jué)問(wèn)答數(shù)據(jù)集。基于FVQA 數(shù)據(jù)集,Ramnath和Hasegawa-Johnson(2021)提出了一種新穎的問(wèn)答架構(gòu),能夠?qū)Σ煌暾闹R(shí)圖譜進(jìn)行推理。該方法使用知識(shí)圖譜嵌入進(jìn)行圖譜補(bǔ)全,用圖像即圖譜表示視頻幀,采用協(xié)同注意力進(jìn)行知識(shí)融合。為了視覺(jué)問(wèn)答推理的可解釋性,Wang等人(2017)描述了一種視覺(jué)問(wèn)答方法,能夠根據(jù)從大規(guī)模知識(shí)庫(kù)中提取的信息對(duì)圖像進(jìn)行基于語(yǔ)義結(jié)構(gòu)化解析的可解釋推理。通過(guò)引入與問(wèn)題對(duì)象及圖像對(duì)象相關(guān)的開(kāi)放領(lǐng)域知識(shí),Zhang等人(2021a)提出了一個(gè)融合知識(shí)ConceptNet的視覺(jué)問(wèn)答網(wǎng)絡(luò)。Marino等人(2021)利用兩種類型的知識(shí)表示和推理:一是來(lái)自基于Transformer模型無(wú)監(jiān)督語(yǔ)言預(yù)訓(xùn)練的隱性知識(shí);二是在知識(shí)庫(kù)中編碼的顯式符號(hào)知識(shí)?,F(xiàn)有的可解釋和顯式的視覺(jué)推理方法只能根據(jù)視覺(jué)證據(jù)進(jìn)行推理,很少考慮視覺(jué)場(chǎng)景之外的知識(shí)。為了解決視覺(jué)推理方法和現(xiàn)實(shí)世界圖像的語(yǔ)義復(fù)雜性之間的知識(shí)差距,Zhang等人(2021b)提出了第1個(gè)結(jié)合外部知識(shí)的顯式視覺(jué)推理方法。具體來(lái)說(shuō),該方法提出了一個(gè)知識(shí)注入網(wǎng)絡(luò)幫助顯式推理,該網(wǎng)絡(luò)包含來(lái)自外部的實(shí)體和謂詞的新圖節(jié)點(diǎn),用以豐富場(chǎng)景圖語(yǔ)義的知識(shí)庫(kù)。GraphRelate模塊隨后在該場(chǎng)景圖進(jìn)行高階關(guān)系推理。VQA(visual question answering)模型僅根據(jù)人工標(biāo)注的樣本進(jìn)行訓(xùn)練,很容易對(duì)特定的問(wèn)題樣式或被詢問(wèn)的圖像內(nèi)容過(guò)擬合,使得VQA模型無(wú)法學(xué)習(xí)到問(wèn)題的多樣性?,F(xiàn)有方法解決這個(gè)問(wèn)題主要通過(guò)引入一個(gè)輔助任務(wù),例如視覺(jué)基礎(chǔ)、循環(huán)一致性或去偏差。Kil等人(2021)發(fā)現(xiàn)VQA 的許多“未知”其實(shí)已經(jīng)隱式暗含在數(shù)據(jù)集中。例如,詢問(wèn)不同圖像中同一物體的問(wèn)題很可能是同一句子的改寫(xiě);圖像中檢測(cè)到或標(biāo)注的對(duì)象的數(shù)量已經(jīng)提供了回答“多少”的問(wèn)題?;谶@些發(fā)現(xiàn),提出了一個(gè)簡(jiǎn)單的數(shù)據(jù)增強(qiáng)方法。該方法將這些“已知”知識(shí)轉(zhuǎn)化為 VQA 的訓(xùn)練樣本,實(shí)驗(yàn)顯示這些增強(qiáng)樣本可以顯著提高VQA模型的性能。以上知識(shí)分別來(lái)自單一模態(tài),嵌入到統(tǒng)一的語(yǔ)義空間需要通過(guò)聯(lián)合學(xué)習(xí)。為了緩解這一困難,Zhu等人(2015)提出了多模態(tài)數(shù)據(jù)庫(kù),首先構(gòu)建了一個(gè)大規(guī)模的多模態(tài)知識(shí)庫(kù),該知識(shí)庫(kù)結(jié)合了視覺(jué)、文本和結(jié)構(gòu)化數(shù)據(jù),以及它們之間的各種關(guān)系。FVQA(fact-based visual question answering)現(xiàn)有解決方案在沒(méi)有細(xì)粒度選擇的情況下聯(lián)合嵌入了各種信息,這會(huì)引入意想不到的噪音,影響最后推理的答案。Zhu等人(2020b)通過(guò)包含視覺(jué)、語(yǔ)義和事實(shí)特征的多層多模態(tài)異構(gòu)圖來(lái)描繪圖像?;谠摱嗄B(tài)圖表示,一種模態(tài)感知異構(gòu)圖卷積網(wǎng)絡(luò)也被提出,用以從不同層中捕捉到與給定問(wèn)題最相關(guān)的證據(jù)。為了鼓勵(lì)開(kāi)發(fā)面向后者的模型,Agrawal等人(2018)提出了一個(gè)新的設(shè)置。其中對(duì)于每個(gè)問(wèn)題類型,訓(xùn)練集和測(cè)試集都有不同的答案先驗(yàn)分布。在這個(gè)新設(shè)置下,現(xiàn)有VQA模型的性能顯著下降。為此,Agrawal等人(2018)同時(shí)提出了一種新穎的視覺(jué)問(wèn)答模型(grounded visual question answering model, GVQA),該模型專門(mén)設(shè)計(jì)架構(gòu)中的歸納偏差,用于克服訓(xùn)練數(shù)據(jù)中的先驗(yàn)來(lái)防止模型“作弊”,使模型能夠更穩(wěn)健地概括不同的答案分布。隨著B(niǎo)ERT(bidirectional encoder representation from Transformers)在文本預(yù)訓(xùn)練中的成功,視覺(jué)問(wèn)答中也逐漸開(kāi)始采用這種預(yù)訓(xùn)練—微調(diào)范式。Gardères等人(2020)提出一種基于圖像視覺(jué)、預(yù)訓(xùn)練文本表示以及知識(shí)圖譜(knowledge graph, KG)表示的多模態(tài)概念感知算法ConceptBert,學(xué)習(xí)聯(lián)合概念—視覺(jué)—語(yǔ)言的統(tǒng)一嵌入,用以回答需要常識(shí)或來(lái)自外部結(jié)構(gòu)化事實(shí)的問(wèn)題。
視覺(jué)對(duì)話旨在根據(jù)圖像和對(duì)話歷史生成每個(gè)問(wèn)題的答案(Chen等,2020b)。盡管最近取得了進(jìn)展,對(duì)于需要先驗(yàn)及事實(shí)知識(shí)的邏輯推理,現(xiàn)有復(fù)雜場(chǎng)景下的視覺(jué)對(duì)話方法仍然有不足之處。基于此,一系列工作嘗試將先驗(yàn)及事實(shí)知識(shí)融入到視覺(jué)對(duì)話中。Qi等人(2020)通過(guò)引入因果知識(shí)改進(jìn)視覺(jué)對(duì)話系統(tǒng)。通過(guò)檢查模型和數(shù)據(jù)背后的因果關(guān)系,Qi等人(2020)發(fā)現(xiàn)研究者忽略了視覺(jué)對(duì)話中的兩個(gè)因果關(guān)系。原則1建議:應(yīng)該刪除對(duì)話歷史對(duì)答案模型的直接輸入,否則會(huì)引入有害的捷徑偏差;原則2建議:歷史、問(wèn)題和答案存在未觀察到的混雜因子,導(dǎo)致訓(xùn)練數(shù)據(jù)產(chǎn)生虛假相關(guān)性。視覺(jué)對(duì)話模型的標(biāo)準(zhǔn)訓(xùn)練范式是最大似然估計(jì) (maximum likelihood estimation, MLE)。然而,基于MLE的生成模型往往會(huì)產(chǎn)生安全和通用的回復(fù),例如,“我不知道”。相比之下,判別式對(duì)話模型在回復(fù)的自動(dòng)度量、多樣性和信息量方面的表現(xiàn)優(yōu)于生成式對(duì)話模型。為了聯(lián)合生成模型的實(shí)用性和判別式對(duì)話模型的強(qiáng)大性能,Lu等人(2021)訓(xùn)練端到端生成視覺(jué)對(duì)話模型,其中生成式對(duì)話模型接收來(lái)自判別式對(duì)話模型的梯度作為從生成式對(duì)話模型采樣的序列的感知(而非對(duì)抗性)損失,實(shí)現(xiàn)從判別式對(duì)話模型到生成式對(duì)話模型的知識(shí)轉(zhuǎn)移。預(yù)訓(xùn)練—微調(diào)范式也開(kāi)始應(yīng)用到視覺(jué)對(duì)話領(lǐng)域。Murahari等人(2020)采用最近提出的 ViLBERT(vision-and-language bidirectional encoder representation from Transformers)模型,在圖像描述(Wu等,2018)和視覺(jué)問(wèn)答(Wu等,2016;Wang等,2018a)數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練, 并在VisDial數(shù)據(jù)集上進(jìn)行微調(diào), 使得視覺(jué)對(duì)話能夠利用相關(guān)視覺(jué)語(yǔ)言數(shù)據(jù)集蘊(yùn)含的知識(shí)。為了促進(jìn)人機(jī)協(xié)同學(xué)習(xí),Vries等人(2016)提出視覺(jué)對(duì)話猜謎游戲GuessWhat?!。GuessWhat?!包含生成問(wèn)題的提問(wèn)者和回答圖像中有關(guān)目標(biāo)對(duì)象的問(wèn)題的預(yù)言(oracle)。根據(jù)發(fā)問(wèn)者和Oracle之間的對(duì)話歷史,猜測(cè)者對(duì)目標(biāo)對(duì)象做出最終猜測(cè)。之前的工作僅在 GuessWhat?!上學(xué)習(xí)3方智能體的單獨(dú)視覺(jué)語(yǔ)言編碼,為了彌補(bǔ)這些差距,Tu等人(2021)利用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型 VilBERT學(xué)習(xí)共享和先驗(yàn)的視覺(jué)語(yǔ)言表示知識(shí)。
視覺(jué)語(yǔ)言導(dǎo)航 (visual language navigation, VLN) (Wu等,2021)將自然語(yǔ)言與視覺(jué)聯(lián)系起來(lái),在非結(jié)構(gòu)化、看不見(jiàn)的環(huán)境中進(jìn)行導(dǎo)航任務(wù),吸引了越來(lái)越多來(lái)自計(jì)算機(jī)視覺(jué)(computer vision, CV)和自然語(yǔ)言處理(natural language processing, NLP) 領(lǐng)域研究人員的興趣。在復(fù)雜開(kāi)放環(huán)境中進(jìn)行視覺(jué)語(yǔ)言導(dǎo)航,同樣需要額外的常識(shí)、事實(shí)知識(shí)等。Gao等人(2021)針對(duì)真實(shí)場(chǎng)景下的遠(yuǎn)程物體定位導(dǎo)航任務(wù)(REVERIE),提出了一種新穎的跨模態(tài)知識(shí)推理 (cross-modal knowledge reasoning, CKR) 模型。CKR基于Transformer架構(gòu),學(xué)習(xí)生成場(chǎng)景記憶標(biāo)記并利用這些信息豐富的歷史線索進(jìn)行環(huán)境探索。通過(guò)結(jié)合常識(shí)知識(shí),一個(gè)基于知識(shí)的實(shí)體關(guān)系推理模塊可以用來(lái)學(xué)習(xí)房間和對(duì)象實(shí)體之間的內(nèi)外部相關(guān)性,以便智能體在每個(gè)視點(diǎn)采取適當(dāng)?shù)男袆?dòng)。Hong等人(2020)認(rèn)為人類能夠在看不見(jiàn)的環(huán)境中進(jìn)行導(dǎo)航并定位目標(biāo)對(duì)象,主要是由于先驗(yàn)知識(shí)(或經(jīng)驗(yàn))和視覺(jué)線索的結(jié)合。因此,Hong等人(2020)建議通過(guò)構(gòu)建神經(jīng)圖網(wǎng)絡(luò),將外部學(xué)習(xí)的對(duì)象關(guān)系先驗(yàn)知識(shí)集成到視覺(jué)導(dǎo)航模型中,具體地,他們對(duì)actor-critic 強(qiáng)化學(xué)習(xí)算法中的價(jià)值函數(shù)進(jìn)行分解,以一種降低模型復(fù)雜性并提高模型泛化的新方式將先驗(yàn)合并到 critic中。視覺(jué)語(yǔ)言導(dǎo)航中一個(gè)關(guān)鍵挑戰(zhàn)是將當(dāng)前指令與智能體感知的當(dāng)前視覺(jué)信息進(jìn)行對(duì)齊。大多數(shù)現(xiàn)有的工作使用軟注意力對(duì)單個(gè)詞來(lái)定位下一個(gè)動(dòng)作所需的指令。然而,不同的詞在句子中具有不同的功能(例如,修飾語(yǔ)傳達(dá)屬性、動(dòng)詞傳達(dá)動(dòng)作)。短語(yǔ)結(jié)構(gòu)等語(yǔ)法信息可以幫助智能體定位指令的重要部分。因此,Mahdi等人(2020)提出從依存樹(shù)派生的語(yǔ)法信息來(lái)增強(qiáng)指令與當(dāng)前視覺(jué)場(chǎng)景之間的對(duì)齊。預(yù)先定義位置的視覺(jué)對(duì)話導(dǎo)航需要昂貴的對(duì)話標(biāo)注,并且不方便真實(shí)的人機(jī)交流與協(xié)作。視覺(jué)語(yǔ)言導(dǎo)航的多模態(tài)訓(xùn)練數(shù)據(jù)通常是有限的且標(biāo)注代價(jià)高,因此, Zhu等人(2021)提出了第1個(gè)用于視覺(jué)語(yǔ)言導(dǎo)航 (visual language navigation, VLN) 任務(wù)的預(yù)訓(xùn)練—微調(diào)方法。通過(guò)對(duì)大量圖像—文本—?jiǎng)幼魅M進(jìn)行自監(jiān)督學(xué)習(xí)方式的訓(xùn)練,視覺(jué)語(yǔ)言導(dǎo)航預(yù)訓(xùn)練模型提供視覺(jué)環(huán)境和語(yǔ)言指令的通用表示,并且可以很容易地用做現(xiàn)有的VLN 框架的插件。大多數(shù)視覺(jué)語(yǔ)言導(dǎo)航方法采用指令中的單詞以及和每個(gè)離散的全景視圖作為編碼的最小單位。然而,這需要模型根據(jù)相同的輸入視圖匹配不同的名詞(例如,電視、桌子)。Qi等人(2021)提出了一個(gè)對(duì)象感知的順序BERT,以相同的細(xì)粒度層次編碼視覺(jué)感知和語(yǔ)言指令。該模型能夠識(shí)別每個(gè)可導(dǎo)航位置的相對(duì)方向(例如,左/右/前/后)以及當(dāng)前和最終導(dǎo)航目標(biāo)的房間類型(例如臥室、廚房)。多模態(tài)BERT已經(jīng)應(yīng)用到許多視覺(jué)語(yǔ)言任務(wù)。然而,它在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中的應(yīng)用仍然有限。原因之一是難以將需要依賴歷史的注意力和決策的BERT架構(gòu)應(yīng)用到VLN的部分可觀察的馬爾可夫決策過(guò)程。為此,Hong等人(2021)提出了一個(gè)時(shí)間感知的循環(huán)BERT模型。具體來(lái)說(shuō),該BERT模型具有循環(huán)函數(shù)并且保留智能體的跨模態(tài)狀態(tài)信息。
情感是人類日常人際交往的重要組成部分,在人機(jī)交互、行為分析等方面起著至關(guān)重要的作用。通過(guò)對(duì)用戶情感進(jìn)行正確認(rèn)知并做出快速、正確的反饋,實(shí)現(xiàn)計(jì)算機(jī)更“擬人化”地應(yīng)用于日常生活。下面分別介紹表情識(shí)別和合成的相關(guān)研究。
3.4.1 復(fù)雜場(chǎng)景表情識(shí)別
人臉表情識(shí)別的定義是:計(jì)算機(jī)捕獲面部相關(guān)樣本信息,設(shè)計(jì)算法提取人臉情感表征,再進(jìn)行情感分析和分類。在計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域,人臉表情識(shí)別有著廣泛的應(yīng)用,并涉及計(jì)算機(jī)圖形學(xué)、心理學(xué)等多個(gè)研究領(lǐng)域的知識(shí),吸引了國(guó)內(nèi)外學(xué)者的關(guān)注并投入研究。人臉表情識(shí)別的流程一般分為3個(gè)部分:人臉圖像預(yù)處理、人臉情感表征提取和表情識(shí)別。
1)人臉圖像預(yù)處理方法。圖像預(yù)處理主要分為3個(gè)模塊:人臉檢測(cè)、數(shù)據(jù)增強(qiáng)和人臉歸一化。人臉檢測(cè)的目的是從樣本中定位出人臉區(qū)域并剔除人臉無(wú)關(guān)區(qū)域,常用的方法包含剛性模型和形變模型 (Zafeiriou等,2015)。數(shù)據(jù)增強(qiáng)的目的是擴(kuò)充帶標(biāo)簽的樣本數(shù)量參與到模型訓(xùn)練,主要包括旋轉(zhuǎn)、縮放、位移、加噪聲以及顏色抖動(dòng)等方式。姿態(tài)以及光照是復(fù)雜環(huán)境下人臉表情樣本中存在的普遍影響因素。人臉歸一化包含對(duì)尺度、姿態(tài)以及光照的處理。在預(yù)處理過(guò)程中,將圖像中大幅度變化的非正臉姿態(tài)歸一化為標(biāo)準(zhǔn)姿態(tài)空間中的正臉姿態(tài)(Zhang等,2020a)。光照歸一化的目的是一定程度上減輕人臉表情樣本的類內(nèi)差異,具體做法一般將檢測(cè)到的人臉區(qū)域進(jìn)行統(tǒng)一光照處理。
2)人臉情感表征提取方法。人臉情感表征通常分為兩類:學(xué)習(xí)型特征和手工特征(Li等,2020)。學(xué)習(xí)型特征一般通過(guò)深度網(wǎng)絡(luò)提取后與情感分類集成在統(tǒng)一模型中。手工特征的提取和情感分類是兩個(gè)單獨(dú)進(jìn)行的過(guò)程,即在提取情感特征之后,再將提取到的特征作為識(shí)別模型的輸入進(jìn)行情感識(shí)別。
復(fù)雜環(huán)境下光照和姿態(tài)變化是影響分類性能的兩大主要障礙(Tan等,2021),學(xué)習(xí)并控制魯棒的情感表征是人臉表情識(shí)別領(lǐng)域面臨的重要挑戰(zhàn)。近年已有大量研究者設(shè)計(jì)不同的算法解決此類任務(wù)(Tang等,2020,2021;Shao等,2021b)。其中,馬利莊團(tuán)隊(duì)(Shao等,2021a)提出了自適應(yīng)調(diào)整人臉區(qū)域重要性的區(qū)域注意力網(wǎng)絡(luò),設(shè)計(jì)區(qū)域偏置損失,建模局部區(qū)域與全局面部信息,學(xué)習(xí)顯著情感特征。區(qū)域注意力網(wǎng)絡(luò)由3部分組成:情感特征提取模塊、自注意力機(jī)制模塊和關(guān)系注意力機(jī)制模塊。
3)表情識(shí)別方法。表情識(shí)別的目的是通過(guò)表情識(shí)別算法,對(duì)提取的人臉情感表征進(jìn)行理解與分析,獲取樣本對(duì)應(yīng)的情感類別。根據(jù)不同的情感表征提取方法,表情識(shí)別的方法通常分為兩類:基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的人臉表情識(shí)別常用模型包括支持向量機(jī)SVM、貝葉斯模型,回歸模型和K最近鄰(K-nearest neighbors, KNN)等。
3.4.2 人臉表情合成
人臉表情合成是指利用人臉情感表征,合成大量任意表情下的人臉表情圖像。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)(Otberdout等,2022)作為主流模型廣泛用于合成大量人臉表情圖像。Yan等人(2020)提出了一種將表情合成和表情識(shí)別集成到一個(gè)統(tǒng)一框架中的方法。首先,對(duì)人臉表情合成生成對(duì)抗網(wǎng)絡(luò)(facial expression synthesis generative adversarial network, FESGAN)進(jìn)行預(yù)訓(xùn)練,合成具有不同表情的人臉樣本。為了增加訓(xùn)練圖像的多樣性,F(xiàn)ESGAN首先從先驗(yàn)知識(shí)中學(xué)習(xí)并合成具有新的身份標(biāo)識(shí)信息的人臉圖像。其次,將表情合成與表情識(shí)別集成到統(tǒng)一框架中,結(jié)合預(yù)先訓(xùn)練得到的FESGAN共同訓(xùn)練人臉表情識(shí)別網(wǎng)絡(luò)。Zhang等人(2020b)提出了基于多任務(wù)協(xié)同分析的魯棒人臉表情識(shí)別方法。該方法聯(lián)合了人臉關(guān)鍵點(diǎn)檢測(cè)、人臉合成以及人臉表情識(shí)別3個(gè)任務(wù),共享情感特征、幾何特征以及生成數(shù)據(jù)。具體地,為了生成具有任意姿態(tài)和表情的人臉圖像,從人臉圖像中分離出屬性(姿態(tài)和表情),從而得到足夠的訓(xùn)練樣本來(lái)輔助人臉表情識(shí)別和人臉合成任務(wù)。同時(shí),人臉表情識(shí)別任務(wù)促使生成的人臉圖像看起來(lái)更接近真實(shí)樣本以及人臉對(duì)齊可以為人臉合成提供有效的幾何特征。
畫(huà)質(zhì)增強(qiáng)處理技術(shù)的研究主要集中在分辨率增強(qiáng)和去運(yùn)動(dòng)模糊,學(xué)者們提出了一些有效的畫(huà)質(zhì)增強(qiáng)算法。卿來(lái)云等人(2006)基于球面諧波(Basri和 Jacobs,2003)理論,提出了新的光照補(bǔ)償算法;Zhang等人(2021a)利用視頻的前后幀相關(guān)性,引入視頻加速的一些手段,以提高視頻處理時(shí)畫(huà)質(zhì)增強(qiáng)算法的效率。
在人臉圖像預(yù)處理的高效方法方面,已有的人臉光照預(yù)處理方法包括:直方圖均衡化、基于小波的歸一化和基于離散余弦變換的歸一化等。其中直方圖均衡化是這類方法中使用最多的手段,中心思想是把原始圖像的灰度直方圖從比較集中于某個(gè)區(qū)間轉(zhuǎn)變成在全部范圍內(nèi)均勻分布。直方圖均衡化就是對(duì)圖像進(jìn)行非線性拉伸,重新分配圖像像素值,使一定灰度范圍內(nèi)的像素?cái)?shù)量大致相同。經(jīng)過(guò)實(shí)驗(yàn)表明,這種方法的優(yōu)點(diǎn)是它對(duì)所有環(huán)境下的圖片,即使是已經(jīng)控制過(guò)光照條件的圖像數(shù)據(jù),均有提升效果。
早期國(guó)內(nèi)對(duì)人臉檢測(cè)問(wèn)題的研究很多,清華大學(xué)(Lyu等,2000;盧春雨 等,1999;周杰 等,2000;梁路宏 等,1999;Ai等,2000),北京工業(yè)大學(xué)(Miao 等,1999;邢昕 等,2000),中國(guó)科學(xué)院計(jì)算技術(shù)研究所(劉明寶 等,1998)和中國(guó)科學(xué)院自動(dòng)化研究所(Wang和Tan,2000)都有人員從事人臉檢測(cè)相關(guān)的研究。馬利莊團(tuán)隊(duì)2014年11月的人臉檢測(cè)技術(shù)在FDDB(face detection dataset and benchmark)評(píng)測(cè)數(shù)據(jù)庫(kù)上達(dá)到世界領(lǐng)先水平(見(jiàn)圖1)。但這些方法或者為淺層模型,或者是基于人工設(shè)計(jì)的特征,對(duì)調(diào)參過(guò)程要求很高,而且泛化能力較弱。
圖1 不同人臉檢測(cè)算法在FDDB數(shù)據(jù)集上的性能比較(來(lái)自2014年11月FDDB官網(wǎng)榜單數(shù)據(jù))Fig.1 Quantitative comparison results on FDDB face detection dataset(results from FDDB benchmark in Nov.2014)
在人臉驗(yàn)證領(lǐng)域,馬利莊團(tuán)隊(duì)研發(fā)的人臉驗(yàn)證技術(shù)Tencent-BestImage在LFW上取得了99.65%的識(shí)別率(2015年6月),多次刷新世界紀(jì)錄(見(jiàn)圖2)。目前百度、Google等公司更是將識(shí)別準(zhǔn)確率推升到99.7%以上的新高度。圍繞人臉檢測(cè)、人物特征理解以及場(chǎng)景分析所展開(kāi)的研究,在顯著性檢測(cè)、圖像增強(qiáng)、人臉識(shí)別與驗(yàn)證、人臉配準(zhǔn)、3維人體姿態(tài)估計(jì)和超高清渲染等技術(shù)均達(dá)到國(guó)際一流水平。
圖2 不同算法在LFW數(shù)據(jù)集上的ROC曲線Fig.2 ROC curves of different algorithms on the LFW dataset
在活體檢測(cè)領(lǐng)域,進(jìn)入到深度學(xué)習(xí)時(shí)代,許多方法(Feng等,2016;Li等,2016;Yang等,2014)將活體檢測(cè)問(wèn)題視為二分類問(wèn)題并利用卷積神經(jīng)網(wǎng)絡(luò)解決問(wèn)題。為了避免過(guò)擬合問(wèn)題(Liu等,2018;Shao等,2019;Liu等,2019;Yang等,2019;Yu等,2020)可以使用額外的監(jiān)督,例如深度圖,反射圖或者rPPG (remote photoplethysmography)信號(hào),來(lái)提升網(wǎng)絡(luò)效果。Liu等人(2018)首次使用深度圖作為真實(shí)人臉和特征攻擊的判別特征?;谳o助信息,已有方法從解耦的角度對(duì)特征進(jìn)行了進(jìn)一步的規(guī)整(Zhang等,2020c;Liu等,2020)。
4.2.1 視頻行人重識(shí)別
1)距離度量方法。Zhu等人(2018)提出了SI2DL(simultaneous intra-video and inter-video distance learning)方法,對(duì)于單個(gè)視頻內(nèi)的視覺(jué)特征使相互間距離盡可能小,對(duì)于不同視頻,使同類視覺(jué)特征間距離盡可能小,使不同類特征間距離盡可能大,以此進(jìn)行不同行人視頻的分類。Zhang等人(2019)引入均值—體(mean-body),定義一個(gè)新的視頻內(nèi)的特征差異損失來(lái)處理同一視頻內(nèi)時(shí)空特征間的變化。
2)行人不對(duì)齊和姿態(tài)變化。由于背景雜波和位置不對(duì)齊導(dǎo)致的圖像不對(duì)齊現(xiàn)象普遍存在于現(xiàn)有行人重識(shí)別數(shù)據(jù)集中,此外,由于拍攝角度變化、路徑變化以及行為變化等原因會(huì)導(dǎo)致行人姿態(tài)變化,這兩個(gè)問(wèn)題會(huì)嚴(yán)重影響模型性能。Chen等人(2019)提出STSN(pose-guided spatial transformer sub-network)方法。對(duì)于圖像不對(duì)齊問(wèn)題,將輸入圖像的Transformer參數(shù)回歸后,經(jīng)仿射變換(affine transformation)轉(zhuǎn)換為對(duì)齊的圖像。為減輕姿態(tài)變化影響,挑選具有最大Transformer貢獻(xiàn)值的幀作為關(guān)鍵幀來(lái)訓(xùn)練模型。姿態(tài)估計(jì)對(duì)齊方法需要額外的姿態(tài)標(biāo)注,Wu等人(2019)引入姿態(tài)估計(jì)模型對(duì)行人重識(shí)別數(shù)據(jù)集進(jìn)行處理,利用半監(jiān)督方法避免人工標(biāo)注。
3)遮擋問(wèn)題。一般情況下,視頻中只會(huì)有部分時(shí)間存在人物遮擋問(wèn)題,Zhou等人(2017)提出通過(guò)時(shí)間注意模型來(lái)選擇視頻中特征最穩(wěn)定、最具區(qū)別性的幀,并基于此進(jìn)行特征學(xué)習(xí)。
4.2.2 視頻動(dòng)作識(shí)別
1)基于3D卷積的動(dòng)作識(shí)別。由于3D卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量和計(jì)算量比2D卷積神經(jīng)網(wǎng)絡(luò)大了很多,不少研究工作專注于對(duì)3D 卷積進(jìn)行低秩近似,TSM(temparal shift module)對(duì)2D卷積進(jìn)行改造以近似3D卷積的效果(Lin等,2019),Qiu等人(2017)也提出了用2維模擬3維神經(jīng)網(wǎng)絡(luò)的偽3D網(wǎng)絡(luò)(P3D)。
2)基于雙流的神經(jīng)網(wǎng)絡(luò)。在Simonyan和Zisserman(2014)提出了雙流網(wǎng)絡(luò)之后,有許多研究針對(duì)雙流網(wǎng)絡(luò)這種框架進(jìn)行了一些改進(jìn),例如TSN(temporal segment network)(Wang等,2016)是一種可以捕捉較長(zhǎng)時(shí)序的網(wǎng)絡(luò)結(jié)構(gòu)。Xu等人(2019)提出了基于密集擴(kuò)張網(wǎng)絡(luò)的框架,并探討了空間和時(shí)間分支的不同融合方式。
人臉表情識(shí)別在情感分析與識(shí)別中具有關(guān)鍵作用。在人類交流過(guò)程中,面部表情傳達(dá)信息的比重高達(dá)55%。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,人臉表情識(shí)別領(lǐng)域引起了廣泛的關(guān)注并產(chǎn)生了大量研究成果,然而,該領(lǐng)域仍然存在大量挑戰(zhàn)。比如帶可靠標(biāo)簽的表情樣本較少、復(fù)雜環(huán)境下出現(xiàn)大幅度面部遮擋、非正臉姿態(tài)問(wèn)題以及情感標(biāo)簽存在不確定性等問(wèn)題。為了緩解表情數(shù)據(jù)庫(kù)規(guī)模不大的問(wèn)題,研究者們提出的方案主要包括:利用遷移學(xué)習(xí)方法將物體識(shí)別模型或者人臉識(shí)別模型遷移到表情識(shí)別任務(wù)中(Zhi等,2019),利用半監(jiān)督方法對(duì)數(shù)據(jù)庫(kù)中沒(méi)有標(biāo)簽的表情進(jìn)行標(biāo)注(Liu等,2021b),以及利用生成對(duì)抗網(wǎng)絡(luò)方法生成更多樣本(Xie等,2021)等。為了緩解面部區(qū)域遮擋和大幅度姿態(tài)對(duì)人臉表情識(shí)別產(chǎn)生的影響,借助局部塊注意力機(jī)制來(lái)學(xué)習(xí)情感顯著局部信息是比較高效的方法(Zhao等,2021c;Wang等,2020b;Wang等,2021c),或者利用多任務(wù)學(xué)習(xí)促進(jìn)人臉表情的特征學(xué)習(xí)(Chen等,2021;Zhang等,2020b)。表情標(biāo)簽不確定的問(wèn)題主要表現(xiàn)為:存在模棱兩可的人臉表情、低質(zhì)量的表情圖片,以及標(biāo)注者的主觀性導(dǎo)致在標(biāo)注情感標(biāo)簽時(shí)存在歧義。為了解決此類問(wèn)題,研究者們嘗試在多個(gè)數(shù)據(jù)庫(kù)上利用深度學(xué)習(xí)模型預(yù)測(cè)情感標(biāo)簽分布,輔助訓(xùn)練挖掘潛在標(biāo)簽來(lái)提升模型的魯棒性,以及結(jié)合注意力機(jī)制與重新標(biāo)注樣本來(lái)抑制表情標(biāo)簽不確定的樣本(Chen等,2020a;Wang等,2020a)。
隨著人工智能的發(fā)展,類人機(jī)器人富有情感表現(xiàn)力的表情合成也成為情感計(jì)算領(lǐng)域的研究熱點(diǎn)之一。面部表情合成即是利用計(jì)算機(jī)技術(shù)生成帶有表情的人臉圖像。由于面部表情的多樣性以及類人機(jī)器人硬件設(shè)計(jì)的復(fù)雜性,如何實(shí)現(xiàn)類人機(jī)器人對(duì)人類表情自然而真實(shí)的模擬仍然是類人機(jī)器人領(lǐng)域所面臨的難點(diǎn)之一。目前國(guó)內(nèi)主流的方法是借助輔助信息在生成對(duì)抗網(wǎng)絡(luò)中進(jìn)行面部表情合成(Zhao等,2021b;Wang等,2019;Yu等, 2021)。其中,輔助信息包括但不限于面部運(yùn)動(dòng)單元信息(Zhao等,2021b)、表情識(shí)別標(biāo)簽信息(Wang等,2019)以及身份信息(Yu等,2021)等。
4.4.1 融入知識(shí)的視覺(jué)問(wèn)答
外部知識(shí)融入的VQA模型訓(xùn)練嚴(yán)重依賴于作為監(jiān)督信息的真實(shí)知識(shí)事實(shí),在訓(xùn)練過(guò)程中遺漏這些真實(shí)知識(shí)事實(shí)將導(dǎo)致無(wú)法產(chǎn)生正確的答案。為了解決這一問(wèn)題,Li等人(2020)提出了一種知識(shí)圖增強(qiáng)模型,該模型不需要額外監(jiān)督的真實(shí)知識(shí)事實(shí), 即可對(duì)外部知識(shí)圖進(jìn)行上下文感知知識(shí)聚合。具體地,該模型能夠檢索給定視覺(jué)圖像和文本問(wèn)題的上下文感知知識(shí)子圖,并學(xué)習(xí)聚合有用的圖像和問(wèn)題相關(guān)知識(shí),然后利用該知識(shí)來(lái)提高回答視覺(jué)問(wèn)題的準(zhǔn)確性。視覺(jué)問(wèn)答(VQA)需要對(duì)圖像和自然語(yǔ)言問(wèn)題的聯(lián)合理解,其中許多問(wèn)題無(wú)法直接或明確地回答視覺(jué)內(nèi)容,但需要結(jié)構(gòu)化的人類推理從視覺(jué)內(nèi)容確認(rèn)的知識(shí)。Su等人(2018)提出了視覺(jué)知識(shí)記憶網(wǎng)絡(luò)(visual knowledge memory networks,VKMN),將結(jié)構(gòu)化的人類知識(shí)和深度視覺(jué)特征無(wú)縫地整合到端到端學(xué)習(xí)框架中的記憶網(wǎng)絡(luò)中。與其他利用外部知識(shí)的VQA方法相比,VKMN首先將視覺(jué)內(nèi)容與知識(shí)事實(shí)聯(lián)合嵌入到視覺(jué)知識(shí)特征中。其次,VKMN從問(wèn)答數(shù)據(jù)中擴(kuò)展出多個(gè)知識(shí),并使用標(biāo)簽數(shù)據(jù)將其聯(lián)合嵌入存儲(chǔ)對(duì)記憶網(wǎng)絡(luò)中。類似地,Yu等人(2020)也將FVQA表示為多層多模態(tài)異構(gòu)圖,并將基于知識(shí)的視覺(jué)問(wèn)答,形式化為從多模態(tài)信息中獲取補(bǔ)充證據(jù)的循環(huán)推理過(guò)程。該推理過(guò)程由一系列基于記憶的推理步驟組成,每個(gè)步驟包含基于圖的讀取、更新和控制模塊,對(duì)視覺(jué)和語(yǔ)義信息進(jìn)行并行推理。通過(guò)多次堆疊模塊,聯(lián)合考慮所有概念來(lái)推斷全局最優(yōu)答案。除了上述人類知識(shí),研究者也對(duì)先驗(yàn)知識(shí)對(duì)視覺(jué)問(wèn)答的影響進(jìn)行研究。許多研究發(fā)現(xiàn),當(dāng)今的視覺(jué)問(wèn)答模型在很大程度上受到訓(xùn)練數(shù)據(jù)中表面相關(guān)性的驅(qū)動(dòng),并且缺乏足夠的圖像基礎(chǔ)。Jing等人(2020)提出了一種新的基于語(yǔ)言注意力的VQA方法,學(xué)習(xí)解耦的問(wèn)題語(yǔ)言學(xué)表示,并利用這些表示推理克服語(yǔ)言先驗(yàn)的答案。Lao等人(2021)指出目前的視覺(jué)問(wèn)答研究主要挑戰(zhàn)之一是模型對(duì)語(yǔ)言先驗(yàn)的過(guò)度依賴(以及對(duì)視覺(jué)模態(tài)的忽視)。為了緩解這個(gè)問(wèn)題,通過(guò)重新調(diào)整標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù),Lao等人(2021)提出了一種新穎的基于語(yǔ)言先驗(yàn)的損失函數(shù)(LP-focal loss)。具體來(lái)說(shuō),LP-focal loss僅使用問(wèn)題分支來(lái)捕獲每個(gè)答案候選者的語(yǔ)言偏見(jiàn)。在計(jì)算訓(xùn)練損失時(shí),LP-focal loss動(dòng)態(tài)地為有偏見(jiàn)的答案分配較低的權(quán)重,從而減少訓(xùn)練數(shù)據(jù)中有偏樣本的貢獻(xiàn)。
4.4.2 融入知識(shí)的視覺(jué)對(duì)話
Zhao等人(2021)提出結(jié)構(gòu)化知識(shí)感知網(wǎng)絡(luò)(structured knowledge-aware network, SKANet),該網(wǎng)絡(luò)包含多模態(tài)融合模塊、圖像知識(shí)感知模塊和描述知識(shí)感知模塊。圖像和描述知識(shí)感知模塊從ConceptNet 構(gòu)建常識(shí)知識(shí)圖,用以應(yīng)對(duì)復(fù)雜的場(chǎng)景。Jiang等人(2020)認(rèn)為對(duì)話問(wèn)題、視覺(jué)知識(shí)和文本知識(shí)的拼接整合操作,信息檢索能力有限,無(wú)法縮小跨模態(tài)信息之間的異構(gòu)語(yǔ)義鴻溝。為此,Jiang等人(2020)提出知識(shí)橋圖網(wǎng)絡(luò)(knowledge-bridge graph network, KBGN)模型,通過(guò)使用圖網(wǎng)絡(luò)在細(xì)粒度上橋接視覺(jué)和文本知識(shí)之間的跨模態(tài)語(yǔ)義關(guān)系鴻溝,并通過(guò)自適應(yīng)信息選擇模式檢索所需的知識(shí)。此外,從模態(tài)內(nèi)實(shí)體和模態(tài)間橋梁中可以清楚地得出視覺(jué)對(duì)話的推理線索。Wang等人(2020c)提出利用預(yù)訓(xùn)練BERT語(yǔ)言模型,建立一個(gè)簡(jiǎn)單而有效的統(tǒng)一框架視覺(jué)對(duì)話Transformer,即VD-BERT。該模型的統(tǒng)一之處在于其使用單流Transformer編碼器捕獲圖像和多輪對(duì)話之間的所有交互,以及同時(shí)支持通過(guò)相同的架構(gòu)進(jìn)行答案排序和答案生成。
4.4.3 融入知識(shí)的視覺(jué)語(yǔ)言導(dǎo)航
Gao等人(2021)認(rèn)為場(chǎng)景之間的關(guān)系、物體對(duì)象以及方向線索對(duì)于智能體解釋復(fù)雜指令并正確感知環(huán)境至關(guān)重要。為了捕捉和利用這些關(guān)系,他們提出了一種新穎的語(yǔ)言和視覺(jué)實(shí)體關(guān)系圖來(lái)建模文本和視覺(jué)之間的模態(tài)間關(guān)系,以及模態(tài)內(nèi)視覺(jué)實(shí)體之間的關(guān)系。同時(shí),一種用于傳播的圖中語(yǔ)言元素和視覺(jué)實(shí)體之間的信息的消息傳遞算法也被結(jié)合起來(lái)確定智能體下一步要采取的行動(dòng)。Li等人(2021)提出了一種自我激勵(lì)的交流智能體,該智能體能自適應(yīng)地學(xué)習(xí)是否與人類交流以及與人類交流什么以獲得指導(dǎo)信息,以實(shí)現(xiàn)對(duì)話無(wú)注釋導(dǎo)航和增強(qiáng)現(xiàn)實(shí)世界中看不見(jiàn)的環(huán)境的可轉(zhuǎn)移性。傳統(tǒng)視覺(jué)語(yǔ)言導(dǎo)航方法只利用交叉模態(tài)中的視覺(jué)和語(yǔ)言特征,卻忽略了環(huán)境中包含的豐富的語(yǔ)義信息(如隱含的導(dǎo)航圖或子軌跡語(yǔ)義)。為此,Zhu等人(2020a)提出具有4個(gè)自監(jiān)督的輔助推理導(dǎo)航框架(AuxRN),該框架能利用來(lái)自環(huán)境中的額外語(yǔ)義信息進(jìn)行訓(xùn)練。AuxRN有4個(gè)推理目標(biāo):解釋前面的動(dòng)作、估計(jì)導(dǎo)航進(jìn)度、預(yù)測(cè)下一個(gè)方向以及評(píng)估軌跡一致性。這些額外的訓(xùn)練信號(hào)有助于智能體獲得語(yǔ)義表示知識(shí),以便推理其活動(dòng)并建立深入的環(huán)境感知。
在面向復(fù)雜場(chǎng)景的人物視覺(jué)理解技術(shù)及應(yīng)用的相關(guān)研究中,大規(guī)模場(chǎng)景實(shí)時(shí)人物識(shí)別、個(gè)體行為分析與群體交互理解、視覺(jué)語(yǔ)音情感識(shí)別與合成、知識(shí)引導(dǎo)和數(shù)據(jù)驅(qū)動(dòng)是實(shí)現(xiàn)數(shù)字化、智能化生活與信息化服務(wù)不可或缺的重要環(huán)節(jié),對(duì)于維護(hù)社會(huì)治理與公共安全、提升產(chǎn)業(yè)效率、促進(jìn)智慧城市建設(shè)具有重要作用。其中,人臉檢索和分析與大規(guī)模場(chǎng)景實(shí)時(shí)人物識(shí)別是面向公共安全、互聯(lián)網(wǎng)金融和社交網(wǎng)絡(luò)等領(lǐng)域的關(guān)鍵基礎(chǔ)問(wèn)題,近年來(lái)取得極大進(jìn)展,但仍存在著具有面具遮擋攻擊等多樣性,影響身份識(shí)別安全;時(shí)空信息跨度大,影響跨年齡人臉識(shí)別精度;場(chǎng)景復(fù)雜多變,要求系統(tǒng)的高魯棒性、適應(yīng)多樣性環(huán)境等問(wèn)題。為進(jìn)一步進(jìn)行技術(shù)推廣、促進(jìn)產(chǎn)業(yè)升級(jí),仍需要針對(duì)訓(xùn)練數(shù)據(jù)稀缺、深度學(xué)習(xí)難解釋以及復(fù)雜環(huán)境存在各種非受控因素等問(wèn)題進(jìn)行深入研究,從而高效和魯棒地實(shí)現(xiàn)人臉檢索和分析與大規(guī)模場(chǎng)景實(shí)時(shí)人物識(shí)別。
在個(gè)體行為分析與群體交互理解方面,雖然近幾年視頻行人重識(shí)別取得了重大發(fā)展,但還是面臨著諸多挑戰(zhàn)。例如在真實(shí)場(chǎng)景下,行人重識(shí)別會(huì)遇到跨攝像頭導(dǎo)致的姿態(tài)變化、視角變化等問(wèn)題,導(dǎo)致行人外觀的巨大變化;此外,視頻行人重識(shí)別方法雖然在一定程度上解決了部分遮擋的問(wèn)題,但是丟棄遮擋圖像的解決思路并不理想;光照變化會(huì)進(jìn)一步降低行人重識(shí)別模型的性能。雖然目前動(dòng)作識(shí)別已經(jīng)取得了長(zhǎng)足的發(fā)展,但距離人類識(shí)別水平仍有很大的差距,在實(shí)際應(yīng)用中也面臨著各種復(fù)雜的問(wèn)題。其中,訓(xùn)練視頻模型所需的計(jì)算資源遠(yuǎn)超圖像,使得視頻模型的訓(xùn)練時(shí)長(zhǎng)和訓(xùn)練所需的硬件資源開(kāi)銷巨大,導(dǎo)致模型的驗(yàn)證和迭代速度減慢。因此,將數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)和知識(shí)引導(dǎo)邏輯推理方法進(jìn)行結(jié)合,研究泛化能力更強(qiáng)的算法和框架是未來(lái)重要的研究方向。此外,數(shù)據(jù)集規(guī)模制約了動(dòng)作識(shí)別領(lǐng)域的發(fā)展,仍需要進(jìn)一步完善。
與此同時(shí),人工智能的發(fā)展帶動(dòng)著情感計(jì)算逐步達(dá)到更高水平,然而同其他高端科技一樣,在到達(dá)一定階段后,情感計(jì)算也迎來(lái)了技術(shù)的“瓶頸期”。比如,在表情識(shí)別中,真實(shí)世界人臉表情數(shù)據(jù)標(biāo)注不足、表情數(shù)據(jù)類別不平衡、數(shù)據(jù)偏差大以及標(biāo)注不一致等問(wèn)題成為制約表情識(shí)別的主要因素。針對(duì)以上問(wèn)題,未來(lái)發(fā)展除了要討論方法的精度也要關(guān)注方法的耗時(shí)以及存儲(chǔ)消耗。如何引入新技術(shù)解決小樣本和不平衡分類問(wèn)題、如何有效利用多類表情模型協(xié)同工作以及如何將表情信息與其他模態(tài)信息結(jié)合到一個(gè)高層框架中提供互補(bǔ)信息來(lái)增強(qiáng)模型的魯棒性是表情識(shí)別領(lǐng)域未來(lái)的重點(diǎn)研究方向;如何構(gòu)建情感表現(xiàn)力更豐富、情感控制度量更標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù),如何利用深度學(xué)習(xí)方法(如少樣本甚至單樣本、零樣本學(xué)習(xí)方法)來(lái)緩解可靠數(shù)據(jù)問(wèn)題,如何在端到端的神經(jīng)網(wǎng)絡(luò)中融合更多的個(gè)性化、場(chǎng)景化的信息以合成更擬人化的情感信息是人臉表情合成領(lǐng)域的重要研究方向。
綜上所述,面向復(fù)雜場(chǎng)景的人物視覺(jué)理解技術(shù)及應(yīng)用在服務(wù)人類社會(huì)的經(jīng)濟(jì)活動(dòng)、建設(shè)智慧城市等方面具有重大意義。期待人物視覺(jué)理解技術(shù)在人物—行為—場(chǎng)景3要素關(guān)聯(lián)的視覺(jué)理解方面取得進(jìn)展,同時(shí)在標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)、模型計(jì)算資源以及模型魯棒可解釋性方面進(jìn)一步完善。
致 謝本文由中國(guó)圖象圖形學(xué)學(xué)會(huì)動(dòng)畫(huà)與數(shù)字娛樂(lè)專業(yè)委員會(huì)組織撰寫(xiě),該專委會(huì)更多詳情請(qǐng)見(jiàn)鏈接:http://www.csig.org.cn/detail/2387。