国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

模擬真實(shí)場(chǎng)景的場(chǎng)景流預(yù)測(cè)

2022-07-03 04:23梅海藝朱翔昱馬喜波
圖學(xué)學(xué)報(bào) 2022年3期
關(guān)鍵詞:光流解碼物體

梅海藝,朱翔昱,雷 震,高 瑞,馬喜波

模擬真實(shí)場(chǎng)景的場(chǎng)景流預(yù)測(cè)

梅海藝1,2,3,朱翔昱2,3,雷 震2,3,高 瑞1,馬喜波2,3

(1. 山東大學(xué)控制科學(xué)與工程學(xué)院,山東 濟(jì)南 250061;2. 中國科學(xué)院自動(dòng)化研究所,北京 100190;3. 中國科學(xué)院大學(xué)人工智能學(xué)院,北京 100049)

人工智能發(fā)展至今正逐漸進(jìn)入認(rèn)知時(shí)代,計(jì)算機(jī)對(duì)真實(shí)物理世界的認(rèn)知與推理能力亟待提高。有關(guān)物體物理屬性與運(yùn)動(dòng)預(yù)測(cè)的現(xiàn)有工作多局限于簡(jiǎn)單的物體和場(chǎng)景,因此嘗試拓展常識(shí)推理至仿真場(chǎng)景下物體場(chǎng)景流的預(yù)測(cè)。首先,為了彌補(bǔ)相關(guān)領(lǐng)域數(shù)據(jù)集的短缺,提出了一個(gè)基于仿真場(chǎng)景的數(shù)據(jù)集ModernCity,從常識(shí)推理的角度出發(fā)還原了現(xiàn)代都市的街邊景象,并提供了包括RGB圖像、深度圖、場(chǎng)景流數(shù)據(jù)和語義分割圖在內(nèi)的多種標(biāo)簽;此外,設(shè)計(jì)了一個(gè)物體描述子解碼模型(ODD),通過物體屬性輔助預(yù)測(cè)場(chǎng)景流。通過消融實(shí)驗(yàn)證明,該模型可以在仿真的場(chǎng)景下通過物體的屬性準(zhǔn)確地預(yù)測(cè)物體未來的運(yùn)動(dòng)趨勢(shì),通過與其他SOTA模型的對(duì)比實(shí)驗(yàn)驗(yàn)證了該模型的性能及ModernCity數(shù)據(jù)集的可靠性。

常識(shí)推理;場(chǎng)景流;仿真場(chǎng)景;物體物理屬性;運(yùn)動(dòng)預(yù)測(cè)

現(xiàn)實(shí)世界被物理規(guī)律包圍著,每個(gè)物體都有其獨(dú)特的物理屬性,不同物體不停移動(dòng)并相互交互組成了物理世界。人類擁有對(duì)世界的基本認(rèn)知能力,通過學(xué)習(xí)和觀察可以估計(jì)出物體的一些屬性,并根據(jù)這些屬性預(yù)測(cè)出物體將來的運(yùn)動(dòng)趨勢(shì),例如行人在過馬路時(shí)會(huì)通過觀察估計(jì)出馬路上車輛的體積、重量、位置、前進(jìn)方向等,并判斷其未來的運(yùn)動(dòng)趨勢(shì)。隨著深度學(xué)習(xí)掀起的第三次人工智能浪潮[1],以神經(jīng)網(wǎng)絡(luò)為核心的機(jī)器學(xué)習(xí)算法快速發(fā)展,大規(guī)模的數(shù)據(jù)讓越來越多的人工智能任務(wù)成為可能,也有不少研究者將精力投入到常識(shí)學(xué)習(xí)中;認(rèn)知與推理是人工智能的一個(gè)重要研究領(lǐng)域,推理物理世界中的常識(shí)是其中重要的一環(huán);在理解并認(rèn)知物理世界后,機(jī)器可以對(duì)物體的運(yùn)動(dòng)進(jìn)行預(yù)測(cè),對(duì)異常狀況做出判斷,幫助機(jī)器人自主移動(dòng)等,這也是邁向強(qiáng)人工智能所必須解決的問題。

本文從預(yù)測(cè)物體的運(yùn)動(dòng)速度出發(fā),使用物體的屬性預(yù)測(cè)該物體下一時(shí)刻的三維速度,旨在探索人工智能理解物體的物理屬性并預(yù)測(cè)物體運(yùn)動(dòng)趨勢(shì)的可能性,并將其作為推理物理常識(shí)的基本問題。物體的屬性被抽象為一個(gè)特征向量,且被稱為物體描述子(object descriptor),物體的三維速度由場(chǎng)景流(scene flow)表示。本文將問題聚焦至在仿真場(chǎng)景下進(jìn)行場(chǎng)景流預(yù)測(cè),現(xiàn)有的研究工作多局限于簡(jiǎn)單的物體與物理場(chǎng)景,例如在純色背景下預(yù)測(cè)簡(jiǎn)單幾何體的運(yùn)動(dòng)趨勢(shì),在設(shè)計(jì)時(shí)少有算法從常識(shí)推理的角度出發(fā);本文向真實(shí)邁進(jìn),在仿真的場(chǎng)景下對(duì)復(fù)雜的物體進(jìn)行場(chǎng)景流預(yù)測(cè)。為解決現(xiàn)有數(shù)據(jù)集在該領(lǐng)域的短缺,本文首先提出了一個(gè)基于仿真場(chǎng)景的數(shù)據(jù)集ModernCity,提供RGB圖像、深度圖、場(chǎng)景流和語義分割圖等標(biāo)簽;該數(shù)據(jù)集的設(shè)計(jì)從常識(shí)推理出發(fā),還原了現(xiàn)代都市的街邊景象,場(chǎng)景中的所有物體均遵循嚴(yán)格的物理規(guī)律。此外,還提出了物體描述子解碼模型(object descriptor decoder,ODD),負(fù)責(zé)提取場(chǎng)景中物體的屬性并通過神經(jīng)網(wǎng)絡(luò)將這些屬性解碼為場(chǎng)景流;ODD模型生成的場(chǎng)景流提供給基準(zhǔn)模型作為迭代初始值,填補(bǔ)缺失的局部和全局信息,生成更加準(zhǔn)確的場(chǎng)景流預(yù)測(cè)結(jié)果?;鶞?zhǔn)模型的設(shè)計(jì)參考了主流的光流估計(jì)模型。通過實(shí)驗(yàn)證明ODD模型可以幫助基準(zhǔn)模型對(duì)場(chǎng)景流進(jìn)行預(yù)測(cè),證明該模型可以在仿真的場(chǎng)景下通過物體的屬性準(zhǔn)確地預(yù)測(cè)物體未來的運(yùn)動(dòng)趨勢(shì)。

1 相關(guān)研究

近年來,物理場(chǎng)景理解得到了研究人員的廣泛關(guān)注[2-29],隨著分類[30-38]、定位[39-41]、分割[42-43]等計(jì)算機(jī)視覺基礎(chǔ)任務(wù)研究的不斷完善,研究者們開始嘗試突破計(jì)算機(jī)視覺的傳統(tǒng)目標(biāo),其中一個(gè)任務(wù)是預(yù)測(cè)動(dòng)態(tài)場(chǎng)景中物體的運(yùn)動(dòng)趨勢(shì);該任務(wù)有2種解決方法:①基于像素的方法[13-17],直接從像素中進(jìn)行特征提取,預(yù)測(cè)每個(gè)像素未來的情況,由于圖像中靜態(tài)背景的占比往往更大,即圖像中有很多冗余信息,這使得基于像素的算法往往缺乏泛化性;②基于物體屬性的方法[7-8],將圖像中的物體及其屬性進(jìn)行分解,建立物體間的交互關(guān)系并進(jìn)行預(yù)測(cè),可以更好地挖掘有效信息,泛化能力更強(qiáng)。

常識(shí)學(xué)習(xí)領(lǐng)域也有一些工作旨在通過物體的屬性對(duì)物理場(chǎng)景進(jìn)行理解[2-5],與從常識(shí)推理角度出發(fā)的常識(shí)學(xué)習(xí)方法不同的是,其算法是從物理規(guī)律出發(fā)進(jìn)行設(shè)計(jì)的。文獻(xiàn)[2]使用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)學(xué)習(xí)物體的物理屬性,并利用這些屬性解決結(jié)果預(yù)測(cè)等任務(wù);文獻(xiàn)[3]使用物體檢測(cè)算法生成物體區(qū)域,并使用CNN對(duì)區(qū)域內(nèi)的物體進(jìn)行特征提取,得到一個(gè)特征向量來表示該物體的物理狀態(tài),然后將其放入物理引擎中預(yù)測(cè)未來的運(yùn)動(dòng);文獻(xiàn)[4]設(shè)計(jì)了一種即插即用的模塊Slot Attention,旨在與其他神經(jīng)網(wǎng)絡(luò)進(jìn)行連接,生成以物體為中心的特征表示,并運(yùn)用到預(yù)測(cè)任務(wù)上;類似的,文獻(xiàn)[5]提出了一個(gè)框架,可以提取潛在物體的屬性,并通過這些屬性對(duì)動(dòng)力學(xué)進(jìn)行預(yù)測(cè)。

上述工作均局限于簡(jiǎn)單場(chǎng)景,即在單一的背景(通常是純色)下預(yù)測(cè)固定的簡(jiǎn)單幾何體的運(yùn)動(dòng),且少有算法在設(shè)計(jì)時(shí)從常識(shí)推理的角度出發(fā)。本文將場(chǎng)景擴(kuò)展至仿真場(chǎng)景,將物體擴(kuò)展至現(xiàn)實(shí)生活中的實(shí)際物體(如人類、動(dòng)物、車輛等),物體的運(yùn)動(dòng)趨勢(shì)使用場(chǎng)景流表示,在此基礎(chǔ)上還提出了基于物體描述子的場(chǎng)景流預(yù)測(cè)模型(ODD模型),如圖1所示。該模型由2個(gè)階段組成:①使用ODD模型先對(duì)場(chǎng)景中的物體進(jìn)行特征提取,得到物體描述子后將其解碼為場(chǎng)景流;②將ODD模型得到的場(chǎng)景流作為初始值代入基準(zhǔn)模型中,預(yù)測(cè)得到場(chǎng)景流的預(yù)測(cè)結(jié)果。ODD模型使用反卷積神經(jīng)網(wǎng)絡(luò),對(duì)物體屬性進(jìn)行解碼生成場(chǎng)景流;基準(zhǔn)模型的設(shè)計(jì)參考了主流的光流估計(jì)模型[44-47]。

圖1 算法模型框架

2 場(chǎng)景流預(yù)測(cè)

在光源的照射下,連續(xù)運(yùn)動(dòng)的物體在成像平面上有一系列投影,根據(jù)運(yùn)動(dòng)物體的投影位移和時(shí)間差可以計(jì)算出該物體在投影平面上每個(gè)像素的二維運(yùn)動(dòng)速度,即光流(optical flow)。場(chǎng)景流(scene flow)是將物體的運(yùn)動(dòng)由二維拓展至三維,在平面二維速度的基礎(chǔ)上增加物體與投影平面間的垂直距離變化,即深度(depth)的變化。

為方便計(jì)算,本文將軸的位移簡(jiǎn)化為深度值在某一像素位置的變化,即該點(diǎn)所在像素位置的深度值變化,而非該點(diǎn)在軸方向的位移,簡(jiǎn)化后為

綜上,本文的任務(wù)場(chǎng)景流預(yù)測(cè)可以描述為:給定2張連續(xù)RGB-D圖像P,P+1,輸出P+1未來的場(chǎng)景流。

3 數(shù)據(jù)集

不同于傳統(tǒng)方法,深度學(xué)習(xí)方法需要大量包含真實(shí)標(biāo)簽的數(shù)據(jù)作為基礎(chǔ)對(duì)模型進(jìn)行訓(xùn)練,而場(chǎng)景流、光流的真實(shí)標(biāo)簽很難獲得,因?yàn)楝F(xiàn)實(shí)世界中正確的像素關(guān)聯(lián)無法輕易獲取。表1列舉了現(xiàn)有的數(shù)據(jù)集;現(xiàn)有的數(shù)據(jù)集缺少真實(shí)/仿真場(chǎng)景,且物體的運(yùn)動(dòng)未嚴(yán)格考慮物理規(guī)律;為彌補(bǔ)其不足,本文從常識(shí)推理和物理規(guī)律的角度出發(fā),提出了新的數(shù)據(jù)集ModernCity,以推動(dòng)向真實(shí)的物理場(chǎng)景推理邁進(jìn)。

表1 現(xiàn)有的數(shù)據(jù)集與本文提出的ModernCity數(shù)據(jù)集之間的比較

注:ü表示數(shù)據(jù)集提供了此類型的標(biāo)簽;?表示未提供

3.1 現(xiàn)有的數(shù)據(jù)集

(1) MPI Sintel數(shù)據(jù)集[48]源自開源的3D動(dòng)畫電影,提供了光流的稠密真實(shí)標(biāo)簽以及視差圖,訓(xùn)練集中包含25個(gè)場(chǎng)景,1 064張圖像。作者花費(fèi)了大量時(shí)間來驗(yàn)證標(biāo)簽的準(zhǔn)確性,使其具有很高的可信度;但其數(shù)據(jù)量不大,不是真實(shí)場(chǎng)景,且物體的運(yùn)動(dòng)并未嚴(yán)格遵循物理規(guī)律。

(2) KITTI數(shù)據(jù)集在2012年被提出[49],并在2015年被擴(kuò)展[50],其由立體相機(jī)在真實(shí)的道路場(chǎng)景拍攝組成,光流標(biāo)簽和視差圖是由一個(gè)3D激光掃描儀結(jié)合汽車的運(yùn)動(dòng)數(shù)據(jù)得到的。然而激光僅能為場(chǎng)景中的靜態(tài)部分提供一定距離和高度的稀疏數(shù)據(jù),運(yùn)動(dòng)的物體以及稠密的標(biāo)簽是近似獲得的,且其數(shù)據(jù)量太小。

(3) Scene Flow數(shù)據(jù)集[51]是迄今最大的光流、場(chǎng)景流數(shù)據(jù)集,其使用Blender生成虛擬數(shù)據(jù),提供真正的場(chǎng)景流標(biāo)簽,包含F(xiàn)lyingThings3D,Monkaa和Driving 3個(gè)子數(shù)據(jù)集,訓(xùn)練集中包括34 801對(duì)雙目圖像。大規(guī)模的數(shù)據(jù)讓深度學(xué)習(xí)估計(jì)光流成為可能,該數(shù)據(jù)集極大地推動(dòng)了相關(guān)算法的發(fā)展;然而其未遵循物理規(guī)律,物理間的運(yùn)動(dòng)是隨機(jī)生成的。

3.2 ModernCity

如上節(jié)所述,現(xiàn)有的數(shù)據(jù)集在設(shè)計(jì)時(shí)均專注于光流/場(chǎng)景流估計(jì),而常識(shí)推理方面未被顧及。Sintel數(shù)據(jù)集為卡通風(fēng)格的圖像,與真實(shí)場(chǎng)景差別很大;KITTI數(shù)據(jù)集雖然取自于真實(shí)場(chǎng)景,但其稠密的場(chǎng)景流標(biāo)簽是近似得到的,且數(shù)據(jù)量過??;Scene Flow數(shù)據(jù)集雖然規(guī)模龐大,但與真實(shí)場(chǎng)景相差甚遠(yuǎn),且不符合常識(shí)推理。

為解決常識(shí)推理在數(shù)據(jù)集方面的短缺,本文提出一個(gè)基于仿真場(chǎng)景的數(shù)據(jù)集ModernCity,使用Unreal Engine 4批量生成虛擬數(shù)據(jù),該數(shù)據(jù)集包含有光流的稠密真實(shí)標(biāo)簽、深度圖及語義分割信息,圖像分辨率1280×720,訓(xùn)練集中包含14個(gè)場(chǎng)景,4 144張RGB-D圖像,其中一個(gè)實(shí)例如圖2所示。

圖2 ModernCity數(shù)據(jù)集的一個(gè)實(shí)例((a)RGB圖像;(b)稠密光流;(c)深度圖像;(d)語義信息)

場(chǎng)景的設(shè)計(jì)從常識(shí)推理出發(fā),目標(biāo)是還原現(xiàn)實(shí)生活中的場(chǎng)景。本文將范圍縮小至現(xiàn)代都市的街邊景象,包含有人物、寵物、車輛、飛機(jī)、鳥類以及雜物等;不同的物體有不同運(yùn)動(dòng)方式和運(yùn)動(dòng)軌跡,物體間存在物理關(guān)系,被碰撞時(shí)會(huì)遵循物理規(guī)律進(jìn)行運(yùn)動(dòng),例如雜物被拋擲時(shí)會(huì)沿拋物線做落體運(yùn)動(dòng)。上述的情況均是為常識(shí)推理服務(wù)。基于上述的規(guī)則,本文搭建了一個(gè)大型虛擬城市,如圖3所示。不同的場(chǎng)景取自虛擬城市的不同角落,并在視角上盡可能覆蓋了不同的高度與俯仰角,與現(xiàn)實(shí)世界城市中不同路段的監(jiān)控?cái)z像頭相似,如圖4所示。場(chǎng)景的布置和鏡頭的擺放等方面本文參考了Sintel數(shù)據(jù)集[48]。測(cè)試集與訓(xùn)練集的視角間不存在重疊,并對(duì)不同場(chǎng)景中人物、物體的運(yùn)動(dòng)軌跡進(jìn)行單獨(dú)設(shè)計(jì),盡量擴(kuò)大生成內(nèi)容的差異性。

圖3 虛擬城市示意圖

圖4 不同場(chǎng)景的視角示意圖

此外,為保證數(shù)據(jù)的準(zhǔn)確性,在數(shù)據(jù)和真實(shí)標(biāo)簽生成參考了UnrealCV[52],光流、深度圖、語義信息的數(shù)值經(jīng)過了嚴(yán)格的驗(yàn)證。

4 物體描述子解碼模型ODD

認(rèn)知與推理物理世界是一個(gè)復(fù)雜的過程,以人類認(rèn)識(shí)世界的方式為參考,人們往往從物體的角度出發(fā)認(rèn)知世界:①發(fā)現(xiàn)物體,并確定物體在世界中的位置;②分辨物體的種類,并推測(cè)其物理屬性,例如質(zhì)量、密度、摩擦力等;③根據(jù)物體的屬性預(yù)測(cè)其未來一段時(shí)間內(nèi)的狀態(tài)(運(yùn)動(dòng)軌跡、形態(tài)變化等)。本文以此為指導(dǎo),設(shè)計(jì)了基于物體屬性的模型對(duì)場(chǎng)景流進(jìn)行預(yù)測(cè)。

為了表示物體的屬性,本文將物體屬性抽象為特征向量并由神經(jīng)網(wǎng)絡(luò)進(jìn)行提取,這些特征向量被稱為物體描述子(object descriptor);此外本文提出了ODD模型(如圖1上半部分所示)對(duì)物體描述子進(jìn)行解碼,為場(chǎng)景中的每個(gè)物體進(jìn)行運(yùn)動(dòng)速度的預(yù)測(cè)。

4.1 物體描述子

每個(gè)物體都具有自己的屬性,如物體的質(zhì)量、密度、摩擦力、位置、姿態(tài)、運(yùn)動(dòng)情況、物體的種類、是否有生命(決定了是否可以自主移動(dòng))等;為表示物體的屬性,本文將物體的屬性抽象為一個(gè)維的特征向量,稱為物體描述子,向量中的數(shù)值可以是具有實(shí)際物理意義的、顯式的,也可以是抽象的、隱式的。

物體描述子可以是人工標(biāo)注的(對(duì)物體的屬性進(jìn)行標(biāo)簽標(biāo)注),也可以是通過算法提取得到的特征向量。本文采用CNN作為特征提取算法對(duì)物體屬性進(jìn)行提取。CNN具有很強(qiáng)的特征提取能力[53]:淺層卷積核負(fù)責(zé)提取低級(jí)的、具體的特征,例如物體的邊緣信息;中層的卷積核負(fù)責(zé)提取中級(jí)特征,例如物體的紋理信息;深層的卷積核負(fù)責(zé)提取高級(jí)的、抽象的特征,這些特征往往沒有具體的物理意義,但可以高度概括物體的屬性。神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力,不同物體間所提取出的特征差異巨大,這些特征可以很好地表征物體的屬性,而且提取出的屬性通常比人工設(shè)計(jì)的屬性更加全面,這也是近年來深度學(xué)習(xí)迅猛發(fā)展的重要因素之一[54]。

4.2 解碼模型

本文設(shè)計(jì)了一種基于物體描述子的解碼模型,主體使用反卷積層構(gòu)建神經(jīng)網(wǎng)絡(luò),將維的物體描述子o解碼為場(chǎng)景流。由于物體描述子是一個(gè)特征向量,將其解碼為場(chǎng)景流的過程中需要不斷進(jìn)行上采樣(upsampling)以推斷其空間信息,不斷豐富物體場(chǎng)景流的細(xì)節(jié)。反卷積(deconvolution)可以對(duì)輸入信號(hào)進(jìn)行上采樣,其參數(shù)是由學(xué)習(xí)得到的,相比一些插值的方法(最近鄰插值等),反卷積可以根據(jù)不同物體的特征更好地推斷空間信息,生成更準(zhǔn)確的場(chǎng)景流預(yù)測(cè)結(jié)果。

如圖5所示,解碼模型將物體描述子進(jìn)行解碼,輸出該物體輪廓范圍內(nèi)的速度信息。該模型可以根據(jù)物體的性質(zhì)做出不同的預(yù)測(cè),例如無生命的物體(紅色線框的箱子)傾向于靜止,而有自主意識(shí)的物體(藍(lán)色線框的人類和綠色線框的犬類)則傾向于運(yùn)動(dòng)。這說明該解碼模型能一定程度上理解每個(gè)物體的屬性,并根據(jù)前后2幀中屬性的變化推測(cè)下一幀中每個(gè)物體的運(yùn)動(dòng)速度。這與人們認(rèn)知中人類對(duì)常識(shí)的理解近似,可以認(rèn)為ODD模型有一定的常識(shí)推理能力。

圖5 解碼模型的預(yù)測(cè)結(jié)果

4.3 作為基準(zhǔn)模型的初始值

解碼模型的輸入只有物體描述子,其缺乏圖像中的背景等全局信息,導(dǎo)致在單獨(dú)使用該模型時(shí)泛化能力較差,如圖6所示。預(yù)測(cè)的場(chǎng)景流中的物體輪廓大致正確,但存在明顯的鋸齒,邊緣細(xì)節(jié)較差,運(yùn)動(dòng)速度的方向與大小也預(yù)測(cè)得并不理想。

圖6 光流結(jié)果對(duì)比((a) ODD模型預(yù)測(cè)結(jié)果;(b)真實(shí)結(jié)果)

因此本文在使用ODD模型時(shí),將其輸出作為基準(zhǔn)模型的迭代初始值,如圖1所示。解碼模型負(fù)責(zé)根據(jù)物體屬性輸出的結(jié)果,作為初始值為基準(zhǔn)模型提供一定的局部信息,在基準(zhǔn)模型預(yù)測(cè)全局結(jié)果時(shí)可以向更加正確的方向進(jìn)行迭代,且局部信息會(huì)在迭代中不斷增強(qiáng),使得最終的預(yù)測(cè)結(jié)果在全局和局部都得到一定的改進(jìn)。將基準(zhǔn)模型和ODD模型進(jìn)行結(jié)合后可以增強(qiáng)場(chǎng)景流的準(zhǔn)確度,豐富預(yù)測(cè)結(jié)果的細(xì)節(jié),例如人物的腿部、遠(yuǎn)處的人物等。

4.4 損失函數(shù)

5 基準(zhǔn)模型

鑒于場(chǎng)景流與光流之間的相似之處,本文從光流模型出發(fā),對(duì)現(xiàn)有的光流估計(jì)模型進(jìn)行修改,以作為場(chǎng)景流預(yù)測(cè)基準(zhǔn)模型。經(jīng)過多年的研究,光流估計(jì)逐漸由傳統(tǒng)迭代法轉(zhuǎn)變?yōu)樯疃葘W(xué)習(xí)方法,深度學(xué)習(xí)算法從最初的FlowNet[44],F(xiàn)lowNet2[45],發(fā)展為PWC-Net[46],再到如今的RAFT[47](recurrent all-pairs field transforms)。本文參考RAFT模型設(shè)計(jì)了預(yù)測(cè)場(chǎng)景流基準(zhǔn)模型,該模型的基本結(jié)構(gòu)如圖1下半部分所示,其由3個(gè)主要部分構(gòu)成:①特征編碼網(wǎng)絡(luò);②視覺相似度;③迭代更新。RAFT模型巧妙地將特征匹配與迭代更新進(jìn)行了融合,兼顧了局部特征與全局特征。

5.1 特征編碼網(wǎng)絡(luò)

5.2 視覺相似度

其中

圖7 計(jì)算相似度張量C((a)特征圖M t;(b)特征圖M t+1)

基于相似度張量,定義一個(gè)相似度查詢操作,通過索引的方式提取相似度張量進(jìn)而建立一個(gè)相似度特征圖。具體地,定義p=(,)為M中任意一點(diǎn),p+1=(′,′)為M+1中的一點(diǎn),通過p映射得到

其中,1(,)和2(,)分別為點(diǎn)p的場(chǎng)景流在軸和軸方向的位移,在每個(gè)點(diǎn)p+1周圍定義一個(gè)領(lǐng)域點(diǎn)集,即

5.3 迭代更新

更新步驟的核心組成是一個(gè)基于GRU (gated recurrent unit)單元的門控激活單元[55],輸入為相似度特征圖、場(chǎng)景流f-1和上下文特征圖H(P+1),輸出為場(chǎng)景流的更新差值Δ。該算法旨在模擬優(yōu)化算法,通過有界激活函數(shù)鼓勵(lì)其收斂至固定點(diǎn),基于此目標(biāo)對(duì)更新步驟進(jìn)行訓(xùn)練,使序列收斂到固定點(diǎn)ff。計(jì)算過程為

6 實(shí)驗(yàn)與分析

為驗(yàn)證本文提出的物體描述子解碼模型ODD的有效性,使用ModernCity數(shù)據(jù)集設(shè)計(jì)了若干組實(shí)驗(yàn)。

6.1 評(píng)價(jià)指標(biāo)

EPE的值越小,光流/場(chǎng)景流的準(zhǔn)確度越高。

6.2 實(shí)現(xiàn)細(xì)節(jié)

6.3 訓(xùn)練細(xì)節(jié)

為了驗(yàn)證ODD模型的有效性,在ModernCity數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)現(xiàn)工具為PyTorch[58],模型中所有的參數(shù)都是隨機(jī)初始化的。訓(xùn)練時(shí)使用AdamW優(yōu)化器[59],學(xué)習(xí)率為1×10-4,最大迭代次數(shù)為1 000 000次,批大小(batch size)為6,梯度裁剪至[-1,1]的范圍。此外在訓(xùn)練RAFT模型時(shí),對(duì)于每次迭代f-1+Δ,本文遵循文獻(xiàn)[60]建議,f-1反向傳播的梯度置零,僅將Δ的梯度進(jìn)行回傳。

訓(xùn)練策略上,本文采用了分步訓(xùn)練的方式:①訓(xùn)練基準(zhǔn)模型:對(duì)基準(zhǔn)模型進(jìn)行單獨(dú)訓(xùn)練,設(shè)基準(zhǔn)模型中場(chǎng)景流的迭代初始值0=0;②聯(lián)合訓(xùn)練:對(duì)ODD模型與基準(zhǔn)模型中的GRU單元進(jìn)行聯(lián)合訓(xùn)練,對(duì)訓(xùn)練后的基準(zhǔn)模型中的特征編碼網(wǎng)絡(luò)E和上下文網(wǎng)絡(luò)H進(jìn)行參數(shù)固定,此時(shí)基準(zhǔn)模型中場(chǎng)景流的迭代初始值0由ODD模型提供。

6.4 消融實(shí)驗(yàn)

為了驗(yàn)證提出的ODD模型是否有效,以及物體描述子是否可以幫助常識(shí)學(xué)習(xí),本文設(shè)計(jì)了表2的消融實(shí)驗(yàn)。表中的第一行是單獨(dú)使用基準(zhǔn)模型的情況,其中場(chǎng)景流的迭代初始值0= 0;第二行是使用ODD模型的輸出作為基準(zhǔn)模型的迭代初始值?;鶞?zhǔn)模型+ODD模型相比基準(zhǔn)模型EPE指標(biāo)提升5%,該結(jié)果從定量的角度出發(fā),對(duì)模型的有效性上進(jìn)行了證明。從圖8可知,基準(zhǔn)模型+ODD模型明顯優(yōu)于基準(zhǔn)模型的預(yù)測(cè)結(jié)果,物體輪廓、局部細(xì)節(jié)與場(chǎng)景流的數(shù)值都更加準(zhǔn)確。結(jié)合4.2節(jié)中分析ODD模型能一定程度地理解每個(gè)物體的屬性,并根據(jù)前后兩幀中屬性的變化推測(cè)出每個(gè)物體的運(yùn)動(dòng)速度。圖5和圖8從定性的角度出發(fā),證明ODD模型有一定的常識(shí)推理能力。

表2 消融實(shí)驗(yàn)結(jié)果

圖8 消融實(shí)驗(yàn)對(duì)比圖

上述實(shí)驗(yàn)表明ODD模型可以通過物體屬性幫助物體運(yùn)動(dòng)的預(yù)測(cè),說明物體描述子可以一定程度上幫助常識(shí)推理,證明本文從人類認(rèn)識(shí)世界的方式(從物體的角度認(rèn)識(shí)世界)出發(fā)有一定的合理性。

6.5 對(duì)比實(shí)驗(yàn)

為驗(yàn)證本文所提出算法的性能及數(shù)據(jù)集的可靠性,表3在ModernCity場(chǎng)景流預(yù)測(cè)任務(wù)中使用不同的SOTA模型進(jìn)行對(duì)比,結(jié)果表明本文提出的模型效果最好,可以從常識(shí)推理的角度出發(fā),更準(zhǔn)確地預(yù)測(cè)場(chǎng)景流。

表3 對(duì)比實(shí)驗(yàn)結(jié)果

7 結(jié) 論

本文從使用物理屬性預(yù)測(cè)物體的三維運(yùn)動(dòng)速度出發(fā),將之前相關(guān)工作擴(kuò)展至仿真的情景,提出新的數(shù)據(jù)集ModernCity以彌補(bǔ)相關(guān)數(shù)據(jù)集的短缺;設(shè)計(jì)了ODD模型,并通過實(shí)驗(yàn)結(jié)果證明ODD模型具有在仿真場(chǎng)景下通過物體屬性預(yù)測(cè)運(yùn)動(dòng)的能力,為常識(shí)學(xué)習(xí)向真實(shí)邁進(jìn)做出了貢獻(xiàn)。

[1] 唐杰. 淺談人工智能的下一個(gè)十年[J]. 智能系統(tǒng)學(xué)報(bào), 2020, 15(1): 187-192.

TANG J. On the next decade of artificial intelligence[J]. CAAI Transactions on Intelligent Systems, 2020, 15(1): 187-192 (in Chinese).

[2] WU J J, LIM J J, ZHANG H Y, et al. Physics 101: learning physical object properties from unlabeled videos[C]//The 27th British Machine Vision Conference. New York: BMVA Press, 2016: 1-12.

[3] WU J J, LU E, KOHLI P, et al. Learning to see physics via visual de-animation[C]//The 31th International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 153-164.

[4] LOCATELLO F, WEISSENBORN D, UNTERTHINER T, et al. Object-centric learning with slot attention[EB/OL]. [2021-07-03]. https://arxiv.org/abs/2006.15055.

[5] ZHENG D, LUO V, WU J J, et al. Unsupervised learning of latent physical properties using perception-prediction networks[EB/OL]. [2021-05-30]. https://arxiv.org/abs/1807. 09244.

[6] ZHANG R Q, WU J J, ZHANG C K, et al. A comparative evaluation of approximate probabilistic simulation and deep neural networks as accounts of human physical scene understanding[EB/OL]. [2021-08-01]. https://arxiv.org/abs/ 1605.01138.

[7] CHANG M B, ULLMAN T, TORRALBA A, et al. A compositional object-based approach to learning physical dynamics[EB/OL]. [2021-04-28]. https://arxiv.org/abs/1612. 00341.

[8] BATTAGLIA P W, PASCANU R, LAI M, et al. Interaction networks for learning about objects, relations and physics[C]// The 30th International Conference on Neural Information Processing Systems. New York: ACM Press, 2016: 4502-4510.

[9] GUPTA A, EFROS A A, HEBERT M. Blocks world revisited: image understanding using qualitative geometry and mechanics[C]//2010 European Conference on Computer Vision. Cham: Springer International Publishing, 2010: 482-496.

[10] SHAO T J, MONSZPART A, ZHENG Y Y, et al. Imagining the unseen[J]. ACM Transactions on Graphics, 2014, 33(6): 1-11.

[11] EHRHARDT S, MONSZPART A, MITRA N J, et al. Learning A physical long-term predictor[EB/OL]. [2021-06-14]. https:// arxiv.org/abs/1703.00247.

[12] PINTEA S L, VAN GEMERT J C, SMEULDERS A W M. Déjà Vu: motion prediction in static images[C]//The 13th European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 172-187.

[13] LERER A, GROSS S, FERGUS R. Learning physical intuition of block towers by example[EB/OL]. [2021-05-07]. https:// arxiv.org/abs/1603.01312.

[14] PINTO L, GANDHI D, HAN Y F, et al. The curious robot: learning visual representations via physical interactions[C]// The 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 3-18.

[15] AGRAWAL P, NAIR A, ABBEEL P, et al. Learning to poke by poking: experiential learning of intuitive physics[EB/OL]. [2021-06-19]. https://arxiv.org/abs/1606.07419.

[16] FRAGKIADAKI K, AGRAWAL P, LEVINE S, et al. Learning visual predictive models of physics for playing billiards[EB/OL]. [2021-08-01]. https://arxiv.org/abs/1511. 07404.

[17] MOTTAGHI R, RASTEGARI M, GUPTA A, et al. “What happens if ···” learning to predict the effect of forces in images[C]//The 14th European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 269-285.

[18] HAMRICK J B, BALLARD A J, PASCANU R, et al. Metacontrol for adaptive imagination-based optimization[EB/OL]. [2021-07-15]. https://arxiv.org/abs/1705.02670.

[19] JIA Z Y, GALLAGHER A C, SAXENA A, et al. 3D reasoning from blocks to stability[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(5): 905-918.

[20] MOTTAGHI R, BAGHERINEZHAD H, RASTEGARI M, et al. Newtonian image understanding: unfolding the dynamics of objects in static images[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3521-3529.

[21] ZHENG B, ZHAO Y B, YU J, et al. Scene understanding by reasoning stability and safety[J]. International Journal of Computer Vision, 2015, 112(2): 221-238.

[22] BATTAGLIA P W, HAMRICK J B, TENENBAUM J B. Simulation as an engine of physical scene understanding[J]. Proceedings of the National Academy of Sciences of the United States of America, 2013, 110(45): 18327-18332.

[23] FINN C, GOODFELLOW I, LEVINE S. Unsupervised learning for physical interaction through video prediction[C]// The 30th International Conference on Neural Information Processing Systems. New York: ACM Press, 2016: 64-72.

[24] WALKER J, GUPTA A, HEBERT M. Dense optical flow prediction from a static image[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2443-2451.

[25] JI D H, WEI Z, DUNN E, et al. Dynamic visual sequence prediction with motion flow networks[C]//2018 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2018: 1038-1046.

[26] L?WE S, GREFF K, JONSCHKOWSKI R, et al. Learning object-centric video models by contrasting sets[EB/OL]. [2021-06-13]. https://arxiv.org/abs/2011.10287.

[27] LI Y Z, WU J J, TEDRAKE R, et al. Learning particle dynamics for manipulating rigid bodies, deformable objects, and fluids[EB/OL]. [2021-04-28]. https://arxiv.org/abs/1810. 01566.

[28] CHAABANE M, TRABELSI A, BLANCHARD N, et al. Looking ahead: anticipating pedestrians crossing with future frames prediction[C]//2020 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2020: 2286-2295.

[29] DING D, HILL F, SANTORO A, et al. Attention over Learned Object Embeddings Enables Complex Visual Reasoning[C]// Advances in Neural Information Processing Systems. New York: Curran Associates, Inc., 2021.

[30] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.

[31] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[32] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-05-20]. https://arxiv.org/abs/1409.1556.

[33] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[34] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.

[35] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

[36] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4724-4733.

[37] LIU X, YANG X D. Multi-stream with deep convolutional neural networks for human action recognition in videos[C]// The 25th International Conference on Neural Information Processing. Cham: Springer International Publishing, 2018: 251-262.

[38] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[EB/OL]. [2021-06-10]. https://arxiv.org/abs/1608. 00859.

[39] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[40] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-07-19]. https://arxiv.org/abs/ 1804.02767.

[41] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[EB/OL]. [2021-07-15]. https://arxiv.org/ abs/1512.02325.

[42] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2980-2988.

[43] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich: Springer, 2015: 234-241.

[44] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2758-2766.

[45] ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: evolution of optical flow estimation with deep networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1647-1655.

[46] SUN D Q, YANG X D, LIU M Y, et al. PWC-net: CNNs for optical flow using pyramid, warping, and cost volume[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8934-8943.

[47] TEED Z, DENG J. RAFT: recurrent all-pairs field transforms for optical flow[EB/OL]. [2021-08-19]. https://arxiv.org/abs/ 2003.12039.

[48] BUTLER D J, WULFF J, STANLEY G B, et al. A naturalistic open source movie for optical flow evaluation[C]//2012 European conference on Computer Vision. Heidelberg: Springer, 2012: 611-625.

[49] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: The KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.

[50] MENZE M, GEIGER A. Object scene flow for autonomous vehicles[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3061-3070.

[51] MAYER N, ILG E, H?USSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4040-4048.

[52] QIU W C, ZHONG F W, ZHANG Y, et al. UnrealCV: virtual worlds for computer vision[C]//The 25th ACM International Conference on Multimedia. New York: ACM Press, 2017: 1221-1224.

[53] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//2014 European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 818-833.

[54] O’MAHONY N, CAMPBELL S, CARVALHO A, et al. Deep learning vs. traditional computer vision[C]//2019 Computer Vision Conference. Cham: Springer International Publishing, 2019: 128-144.

[55] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder–decoder for statistical machine translation[C]//The 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1724-1734.

[56] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.

[57] CHEN X L, FANG H, LIN T Y, et al. Microsoft COCO captions: data collection and evaluation server[EB/OL]. [2021-06-09]. http://de.arxiv.org/pdf/1504.00325.

[58] PASZKE A, GROSS S, CHINTALA S, et al. Pytorch: an imperative style, high-performance deep learning library[EB/OL]. [2021-07-20]. https://arxiv.org/abs/1912.01703.

[59] LOSHCHILOV I, HUTTER F. Decoupled weight decay regulariza[2021-06-15]. https://arxiv.org/abs/1711.05101.

[60] HOFINGER M, BULò S R, PORZI L, et al. Improving optical flow on a pyramid level[M]//The 16th European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 770-786.

Scene flow prediction with simulated real scenarios

MEI Hai-yi1,2,3, ZHU Xiang-yu2,3, LEI Zhen2,3, GAO Rui1, MA Xi-bo2,3

(1.School of Control Science and Engineering, Shandong University, Jinan Shandong 250061, China;2. Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;3. School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 100049, China)

Artificial intelligence is stepping into the age of cognition, the ability of cognizing and inferring the physical world for machines needs to be improved. Recent works about exploring the physical properties of objects and predicting the motion of objects are mostly constrained by simple objects and scenes. We attempted to predict the scene flow of objects in simulated scenarios to extend common sense cognizing. First, due to the lack of data in the related field, a dataset calledbased on simulated scenarios is proposed, which contains the street scene of modern cities designed from the perspective of cognizing common sense, and provides RGB images, depth maps, scene flow, and semantic segmentations. In addition, we design an object descriptor decoder (ODD) to predict the scene flow through the properties of the objects. The model we proposed is proved to have the ability to predict future motion accurately through the properties of objects in simulated scenarios by experiments. The comparison experiment with other SOTA models demonstrates the performance of the model and the reliability of the ModernCity dataset.

common sense cognizing; scene flow; simulated scenarios; properties of objects; motion prediction

TP 391

10.11996/JG.j.2095-302X.2022030404

A

2095-302X(2022)03-0404-10

2021-09-14;

2021-12-21

14 September,2021;

21 December,2021

國家重點(diǎn)研究計(jì)劃項(xiàng)目(2016YFA0100900,2016YFA0100902);NSFC-山東聯(lián)合基金項(xiàng)目(U1806202);國家自然科學(xué)基金項(xiàng)目(81871442,61876178,61806196,61976229,61872367);中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)項(xiàng)目(Y201930)

National Key Research Programs of China (2016YFA0100900, 2016YFA0100902); Natural Science Foundation of China Under Grant (U1806202); Chinese National Natural Science Foundation Projects (81871442, 61876178, 61806196, 61976229, 61872367); Youth Innovation Promotion Association CAS (Y201930)

梅海藝(1997?),男,碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)和深度學(xué)習(xí)等。E-mail:haiyimei@mail.sdu.edu.cn

MEI Hai-yi (1997?), master student. His main research interests cover computer vision, computer graphics and deep learning, etc. E-mail:haiyimei@mail.sdu.edu.cn

高 瑞(1975?),男,教授,博士。主要研究方向?yàn)榛旌蟿?dòng)力系統(tǒng)、最優(yōu)控制理論、分子生物學(xué)數(shù)學(xué)建模、系統(tǒng)生物學(xué)等。Email:gaorui@sdu.edu.cn

GAO Rui (1975?), professor, Ph.D. His main research interests cover hybrid power systems, optimal control theory, molecular biology mathematical modeling, systems biology, etc. E-mail:gaorui@sdu.edu.cn

猜你喜歡
光流解碼物體
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
基于改進(jìn)Cycle-GAN的光流無監(jiān)督估計(jì)方法
《解碼萬噸站》
一種多尺度光流預(yù)測(cè)與融合的實(shí)時(shí)視頻插幀方法
基于自適應(yīng)紋理復(fù)雜度的仿生視覺導(dǎo)航方法研究
深刻理解物體的平衡
解碼eUCP2.0
NAD C368解碼/放大器一體機(jī)
Quad(國都)Vena解碼/放大器一體機(jī)
揭開物體沉浮的秘密
宜阳县| 汤原县| 长海县| 台山市| 奉新县| 临沂市| 呼伦贝尔市| 浙江省| 葵青区| 青海省| 遵义市| 黄山市| 青河县| 云梦县| 三都| 如东县| 丹棱县| 山东| 浑源县| 枣强县| 平泉县| 沙河市| 张掖市| 桦甸市| 闸北区| 乡宁县| 南皮县| 拉孜县| 长沙县| 杨浦区| 富蕴县| 浦北县| 平潭县| 吐鲁番市| 大田县| 温宿县| 资阳市| 营口市| 南汇区| 罗源县| 漳平市|