国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)深度學(xué)習(xí)的汽車(chē)虛擬駕駛環(huán)境生成方法

2024-01-08 01:42張書(shū)生祝雪峰葉乾
計(jì)算機(jī)輔助工程 2023年4期
關(guān)鍵詞:樣式編碼器光照

張書(shū)生, 祝雪峰,2, 葉乾

(1.大連理工大學(xué) 汽車(chē)工程學(xué)院,遼寧 大連 116024; 2.大連理工大學(xué)寧波研究院,浙江 寧波 315000)

0 引 言

安全性是汽車(chē)工業(yè)中必須要考慮的關(guān)鍵問(wèn)題,開(kāi)發(fā)高標(biāo)準(zhǔn)的自動(dòng)駕駛車(chē)輛更需要大量的行駛測(cè)試,而傳統(tǒng)的道路行駛測(cè)試需要花費(fèi)數(shù)十年甚至上百年的時(shí)間[1]。針對(duì)這一問(wèn)題,目前主流的解決方案是使用虛擬駕駛模擬器進(jìn)行道路仿真試驗(yàn),即使用代理模型通過(guò)虛擬駕駛環(huán)境進(jìn)行自動(dòng)駕駛研究。虛擬駕駛環(huán)境可根據(jù)環(huán)境狀況與車(chē)輛進(jìn)行互動(dòng),同時(shí)可為行人檢測(cè)提供技術(shù)支持[2]。虛擬駕駛環(huán)境需滿足2個(gè)技術(shù)要求:首先,從環(huán)境感知、導(dǎo)航與控制方面測(cè)試和驗(yàn)證自動(dòng)駕駛車(chē)輛的性能;其次,生成大量標(biāo)記的訓(xùn)練數(shù)據(jù),這對(duì)深度學(xué)習(xí)尤其是計(jì)算機(jī)視覺(jué)方面的應(yīng)用至關(guān)重要。

目前,虛擬駕駛環(huán)境的搭建方法主要分為3類(lèi):人工建模法、數(shù)據(jù)驅(qū)動(dòng)法和神經(jīng)網(wǎng)絡(luò)合成法。人工建模法基于計(jì)算機(jī)圖形學(xué)、物理規(guī)律和機(jī)器人運(yùn)動(dòng)規(guī)劃技術(shù),通過(guò)人工方式進(jìn)行駕駛環(huán)境建模。該方法可自由調(diào)控光照和各物理場(chǎng),但是存在圖像仿真度不高、物體樣式有限等問(wèn)題。數(shù)據(jù)驅(qū)動(dòng)法使用攝像機(jī)、激光雷達(dá)等各類(lèi)傳感器對(duì)實(shí)景進(jìn)行掃描,從而自動(dòng)構(gòu)建虛擬駕駛環(huán)境。其使用的環(huán)境背景布局和圖像直接取自實(shí)景,因此該方法圖像仿真度極高,但是存在調(diào)控靈活度不夠、無(wú)法改變光照和大氣條件等問(wèn)題。此外,實(shí)地取景步驟復(fù)雜,需要極大的工作量。神經(jīng)網(wǎng)絡(luò)合成法將場(chǎng)景語(yǔ)義布局轉(zhuǎn)換為現(xiàn)實(shí)逼真的圖像,因此仿真度高,但存在調(diào)控靈活度不夠的問(wèn)題。

近年來(lái),深度學(xué)習(xí)逐漸應(yīng)用于汽車(chē)性能分析?;谏疃葘W(xué)習(xí)的圖像樣式轉(zhuǎn)換技術(shù)為實(shí)現(xiàn)虛擬駕駛環(huán)境大氣與光照條件的可控性研究提供可能,通過(guò)語(yǔ)義布局即可生成現(xiàn)實(shí)仿真圖像。本文研究基于深度學(xué)習(xí)的汽車(chē)虛擬駕駛環(huán)境圖像生成方法,同時(shí)通過(guò)將不同時(shí)刻(光照條件)下的日間行車(chē)圖像轉(zhuǎn)換為夜晚行車(chē)圖像,設(shè)計(jì)虛擬駕駛環(huán)境圖像的模態(tài)控制方法。

1 汽車(chē)虛擬駕駛環(huán)境多模態(tài)轉(zhuǎn)換

假設(shè)x1∈χ1和x2∈χ2為來(lái)自2個(gè)不同圖像域的圖像。在無(wú)監(jiān)督的圖像轉(zhuǎn)換過(guò)程中,樣本分別從邊緣分布p(x1)和p(x2)中提取,而不是提取自聯(lián)合分布p(x1,x2)。本文目標(biāo)是通過(guò)訓(xùn)練后的圖像轉(zhuǎn)換模型p(x1→2|x1)和p(x2→1|x2),預(yù)測(cè)2個(gè)條件概率分布p(x2|x1)和p(x1|x2),其中x1→2是將x1翻譯至χ2產(chǎn)生的樣本,x2→1是將x2翻譯至χ1產(chǎn)生的樣本。一般情況下,p(x2|x1)和p(x1|x2)是復(fù)雜的多模態(tài)分布,確定性編譯模型不能很好地適用于這種情況。

1.1 部分共享的隱空間

1.2 模型原理

本文模型的學(xué)習(xí)過(guò)程示意見(jiàn)圖1。翻譯模型由每個(gè)域χi(i=1,2)的編碼器Ei和解碼器Gi組成。每個(gè)自動(dòng)編碼器的隱碼被分解為內(nèi)容碼ci和樣式碼si,(ci,si)=(Ec,i(xi),Es,i(xi))=Ei(xi)。

圖 1 模型學(xué)習(xí)過(guò)程示意

圖像到圖像的轉(zhuǎn)換通過(guò)交換編碼器-解碼器對(duì)執(zhí)行,見(jiàn)圖1下半部分。圖像到圖像轉(zhuǎn)換模型由2個(gè)自動(dòng)編碼器組成,每個(gè)域各有1個(gè)。每個(gè)自動(dòng)編碼器的隱碼由1個(gè)內(nèi)容隱碼c和1個(gè)樣式隱碼s組成。模型使用對(duì)抗目標(biāo)(點(diǎn)線)進(jìn)行訓(xùn)練,確保翻譯后的圖像與目標(biāo)域中的真實(shí)圖像不可區(qū)分。同時(shí),模型使用雙向重建目標(biāo)(虛線)進(jìn)行訓(xùn)練,以重建圖像和隱碼。雖然先驗(yàn)分布是單模態(tài)的,但由于解碼器的非線性,輸出圖像分布可以是多模態(tài)的。損失函數(shù)包括雙向重建損失和對(duì)抗性損失。雙向重建損失確保編碼器和解碼器功能完全反向;對(duì)抗性損失確保翻譯圖像與目標(biāo)域中圖像的分布相同。

2 模型實(shí)例

所研究的自動(dòng)編碼器架構(gòu)見(jiàn)圖2,由內(nèi)容編碼器、樣式編碼器和聯(lián)合解碼器組成。

圖 2 自動(dòng)編碼器架構(gòu)

2.1 內(nèi)容編碼器和樣式編碼器

內(nèi)容編碼器由若干個(gè)對(duì)輸入進(jìn)行下采樣的跨步卷積層和若干個(gè)處理卷積層信息的殘差塊組成[3],所有卷積層的輸出都經(jīng)過(guò)實(shí)例標(biāo)準(zhǔn)化(IN)[4]。樣式編碼器包含若干個(gè)跨步卷積層以及后面的全局平均池化層和全連接層,為保留重要樣式信息而不在樣式編碼器中使用IN層。

解碼器使用多層感知機(jī)(MLP)從樣式隱碼生成一組自適應(yīng)實(shí)例標(biāo)準(zhǔn)化(AdaIN)層參數(shù)。內(nèi)容隱碼由具有AdaIN層的殘差塊處理,通過(guò)上采樣和卷積層解碼到圖像空間。

2.2 解碼器

解碼器根據(jù)其內(nèi)容和樣式隱碼重建輸入圖像,采用一組殘差塊處理內(nèi)容隱碼,最終通過(guò)若干個(gè)上采樣和卷積層產(chǎn)生重建圖像。參考在標(biāo)準(zhǔn)化層中使用仿射變換參數(shù)表示樣式的研究?jī)?nèi)容,對(duì)殘差塊配備AdaIN層[5],其參數(shù)由多層感知器從樣式隱碼動(dòng)態(tài)生成,具體信息為

(1)

式中:AdaIN()表示AdaIN層參數(shù);z為先前卷積層的激活;γ和β為MLP生成的參數(shù);μ()和σ()為通道平均值和標(biāo)準(zhǔn)偏差。

2.3 域不變的感知損失

感知損失通常定義為輸出和參考圖像在VGG特征空間[6]中的距離。采用域不變特性可以更為顯著地感知損失,以便使用輸入圖像作為參考。在計(jì)算距離前,對(duì)輸入VGG的圖像提前執(zhí)行IN處理,以便刪除原始特征均值和方差。這其中包含許多特定于域的信息,域不變的感知損失能加速對(duì)高分辨率數(shù)據(jù)集的訓(xùn)練。

域不變的感知損失實(shí)驗(yàn)圖像對(duì)比見(jiàn)圖3。在參考數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證[7],隨機(jī)抽取2組圖像對(duì),其中:圖3(a)為來(lái)自不同域(夏季和冬季)的同一場(chǎng)景圖像,圖3(b)為來(lái)自相同域的不同場(chǎng)景圖像。

(a)同一場(chǎng)景圖像對(duì)

不使用和使用IN計(jì)算距離的感知距離(無(wú)量綱)-圖像對(duì)數(shù)量直方圖見(jiàn)圖4。在使用IN的情況下,即使來(lái)自不同的域,同一場(chǎng)景的圖像對(duì)仍具有明顯更小的感知距離。因此,在計(jì)算距離前應(yīng)采用IN操作使得特征距離更具有域不變特性。

(a)不使用IN

2.4 神經(jīng)網(wǎng)絡(luò)架構(gòu)

搭建網(wǎng)絡(luò)架構(gòu):c7s1-k表示具有k個(gè)濾波器、卷積核大小為7×7、步幅為1的層;dk表示具有k個(gè)濾波器、卷積核大小為4×4、步幅為2的層;Rk表示包含2層核心大小為3×3卷積層的殘差塊;uk表示放大倍數(shù)為2的最近鄰上采樣層,其后是具有k個(gè)濾波器、卷積核大小為5×5、步幅為1的層;GAP表示全局平均池化層;fck表示具有k個(gè)濾波器的全連接層。IN應(yīng)用于內(nèi)容編碼器,AdaIN應(yīng)用于解碼器。在生成器中使用ReLU激活函數(shù),在辨別器中使用Leaky ReLU激活函數(shù),函數(shù)自變量小于0的部分斜率為0.2。

(1)生成器架構(gòu)組成如下:內(nèi)容編碼器為c7s1-64、d128、d256、R256、R256、R256、R256;樣式編碼器為c7s1-64、d128、d256、d256、d256、GAP、fc8;解碼器為R256、R256、R256、R256、u128、u64、c7s1-3。

(2)辨別器架構(gòu)為d64、d128、d256、d512。

3 模型訓(xùn)練

3.1 數(shù)據(jù)集

Cityscapes是一個(gè)大規(guī)模城市街景數(shù)據(jù)集,其中包含從50個(gè)不同城市的街道場(chǎng)景中錄制的一組不同的立體視頻,除去20 000幀粗糙注釋幀外,還有5 000幀的高質(zhì)量注釋幀圖像(見(jiàn)圖5),用于訓(xùn)練語(yǔ)義視覺(jué)算法并評(píng)估其在城市場(chǎng)景識(shí)別任務(wù)中的性能。本文圖像合成實(shí)驗(yàn)使用高質(zhì)量像素級(jí)的注釋數(shù)據(jù)集和無(wú)標(biāo)簽的視頻數(shù)據(jù)集,圖片像素重新插值為256×256。

圖 5 Cityscapes高質(zhì)量注釋幀圖像(部分)

Comma2k19是由Comma AI提供的自動(dòng)駕駛數(shù)據(jù)集,見(jiàn)圖6。該數(shù)據(jù)集是在美國(guó)加利福尼亞280高速公路的加利福尼亞圣若澤與舊金山之間的20 km路段上采集的,累計(jì)拍攝時(shí)長(zhǎng)33 h,共有2 019段視頻,每段時(shí)長(zhǎng)1 min,視頻分辨率為1 164×874。本文將其分辨率縮小為292×224,用于模態(tài)控制實(shí)驗(yàn)。

圖 6 Comma2k19數(shù)據(jù)集視頻幀(部分)

3.2 評(píng)估標(biāo)準(zhǔn)

3.2.1 主觀評(píng)價(jià)

自動(dòng)駕駛車(chē)輛最終要在真實(shí)環(huán)境中使用,虛擬駕駛環(huán)境的圖像不僅需要在細(xì)節(jié)風(fēng)格上保持真實(shí)性,環(huán)境中的內(nèi)容物體也需要在邏輯上符合現(xiàn)實(shí)。為此,在評(píng)價(jià)模型輸出的真實(shí)性時(shí)進(jìn)行主觀評(píng)價(jià)。將一個(gè)輸入圖像和經(jīng)過(guò)網(wǎng)絡(luò)編譯后的生成圖像展現(xiàn)給評(píng)價(jià)人員,然后要求評(píng)價(jià)人員在有限的時(shí)間內(nèi)選擇哪張圖像是真實(shí)圖像。為每個(gè)評(píng)價(jià)人員隨機(jī)生成15個(gè)相關(guān)問(wèn)題,共計(jì)100位評(píng)價(jià)人員參與該項(xiàng)調(diào)查。

3.2.2 LPIPS距離

LPIPS由圖像深度特征之間的加權(quán)歐式距離給出,相關(guān)研究已經(jīng)證明其與人類(lèi)感知具有很高的相似性[8]。為量化評(píng)價(jià)圖像轉(zhuǎn)換的多樣性,計(jì)算在相同輸入情況下轉(zhuǎn)換輸出圖像之間的平均LPIPS距離。使用100個(gè)輸入圖像,并對(duì)每個(gè)輸入抽取10個(gè)輸出對(duì)作為樣本,總共有1 000個(gè)輸出樣本。

3.2.3 圖像質(zhì)量量化評(píng)價(jià)

在模態(tài)控制實(shí)驗(yàn)中,為評(píng)價(jià)多模態(tài)圖像的質(zhì)量,對(duì)每個(gè)輸入圖像抽取10個(gè)輸出作為樣本,共取100張輸入圖像。實(shí)驗(yàn)還需要評(píng)價(jià)在執(zhí)行光照條件控制任務(wù)時(shí)樣式隱碼重建損失、內(nèi)容隱碼重建損失和圖像重建損失對(duì)生成圖像質(zhì)量的影響。采用GAN辨別器作為圖像質(zhì)量量化評(píng)價(jià)標(biāo)準(zhǔn),其中辨別器取自在Comma數(shù)據(jù)集上訓(xùn)練后的模型。對(duì)于白天到夜晚轉(zhuǎn)換,使用夜晚域的辨別器;對(duì)于夜晚到白天轉(zhuǎn)換,使用白天域的辨別器。評(píng)價(jià)標(biāo)準(zhǔn)為辨別器判斷為真實(shí)圖像的百分比。

3.3 實(shí)驗(yàn)分析

3.3.1 圖像合成實(shí)驗(yàn)

實(shí)驗(yàn)?zāi)康氖呛铣勺詣?dòng)駕駛環(huán)境圖像。神經(jīng)網(wǎng)絡(luò)可根據(jù)輸入的街景圖像語(yǔ)義布局生成真實(shí)的街景圖像。實(shí)驗(yàn)使用Cityscapes數(shù)據(jù)集,將街景圖像與其語(yǔ)義標(biāo)簽作為2個(gè)域供網(wǎng)絡(luò)訓(xùn)練。本文模型與CG建模法主觀評(píng)價(jià)的結(jié)果對(duì)比見(jiàn)表1。英特爾的CARLA[9]、微軟的Airsim[10]、谷歌的Carcraft以及GTA5游戲是用于自動(dòng)駕駛代理訓(xùn)練的主流虛擬環(huán)境。本文在上述人工建模環(huán)境中進(jìn)行駕駛模擬,截取引擎蓋視角的圖像用于比較。

表 1 本文模型與CG建模法主觀評(píng)價(jià)結(jié)果對(duì)比

從表1的數(shù)據(jù)可以看出,雖然本文方法生成圖像被認(rèn)為更真實(shí)的比例僅有39.76%,但是人工建模法的圖像所獲得的評(píng)價(jià)為0,即完全沒(méi)有被認(rèn)為是真實(shí)圖像。相較于人工建模法,本文的方法可以在很大程度上改善生成圖像的真實(shí)性。

同時(shí),將本模型與其他神經(jīng)網(wǎng)絡(luò)合成法進(jìn)行對(duì)比,當(dāng)使用相同的語(yǔ)義分割標(biāo)簽作為輸入時(shí),預(yù)測(cè)的主觀評(píng)價(jià)結(jié)果對(duì)比見(jiàn)表2。所研究模型真實(shí)性評(píng)價(jià)排名第二,效果較好,生成的圖像示例見(jiàn)圖7。

表 2 本文模型與其他神經(jīng)網(wǎng)絡(luò)合成法主觀評(píng)價(jià)結(jié)果對(duì)比

圖 7 本文模型生成的圖像示例

在圖7中,第一、二列圖像為輸入模型的語(yǔ)義布局,第三、四列為對(duì)應(yīng)的合成圖像。所生成的圖像在訓(xùn)練集中并未出現(xiàn)過(guò),但其圖像內(nèi)容合理、符合現(xiàn)實(shí)邏輯,可適用于自動(dòng)駕駛模型的訓(xùn)練和測(cè)試。

3.3.2 模態(tài)控制實(shí)驗(yàn)

采用實(shí)驗(yàn)的方法證明所設(shè)計(jì)模型對(duì)圖像模態(tài)進(jìn)行控制的能力。虛擬駕駛環(huán)境的光照條件是重要屬性,對(duì)自動(dòng)駕駛算法影響很大。實(shí)驗(yàn)選取光照控制條件作為模態(tài)控制的可變因素,使用Comma2k19行車(chē)視頻作為數(shù)據(jù)集,每隔25幀采樣一次作為訓(xùn)練數(shù)據(jù)。完成優(yōu)化的神經(jīng)網(wǎng)絡(luò)能在不同光照的駕駛環(huán)境下進(jìn)行白天與夜晚的圖像轉(zhuǎn)換,并能可控渲染白天和黑夜不同時(shí)間段的光照。

定量分析本文模型及其3個(gè)變體,分別去除圖像重建損失、內(nèi)容隱碼重建損失和樣式隱碼重建損失,結(jié)果見(jiàn)表3。在沒(méi)有樣式隱碼重建損失的情況下,模型輸出的多樣性降低,與無(wú)圖像重建的損失相比,完整網(wǎng)絡(luò)前提下的圖像多樣性損失略低,但圖像質(zhì)量得到大幅提升,達(dá)到較好的平衡。

表 3 光照條件轉(zhuǎn)換圖像量化分析結(jié)果

白天轉(zhuǎn)夜晚行車(chē)圖像示例見(jiàn)圖8和9。本文模型成功地將白天行車(chē)圖像轉(zhuǎn)換為夜晚行車(chē)圖像。在給定白天行車(chē)輸入圖像情況下,通過(guò)輸入不同的樣式隱碼,能控制轉(zhuǎn)換生成夜晚圖像的光照條件。神經(jīng)網(wǎng)絡(luò)輸出結(jié)果表現(xiàn)出多模態(tài)特性,本文實(shí)驗(yàn)取其中3種光照條件的結(jié)果作為示例。輸出的樣式1與剛?cè)胍沟墓庹障嗨?遠(yuǎn)方天空微亮,由遠(yuǎn)及近亮度逐漸降低,前方車(chē)輛尾燈亮起,路面出現(xiàn)車(chē)輛大燈照射效果;樣式2與有鹵素路燈照明路面的光照相似,整體色調(diào)偏暖;樣式3與深夜無(wú)路燈道路的光照條件相似,在車(chē)燈照射范圍外的景物漆黑一片。雖然圖片中的光照條件經(jīng)歷大幅變化,但是車(chē)道、車(chē)輛、樹(shù)木和天空的位置、形狀與布局都保持不變。

(a)原圖

(a)原圖

4 結(jié)束語(yǔ)

面向虛擬駕駛環(huán)境生成,提出基于多模態(tài)深度學(xué)習(xí)的虛擬駕駛環(huán)境圖像生成方法。該模型屬于無(wú)監(jiān)督方法,可實(shí)現(xiàn)由語(yǔ)義布局合成全新模擬真實(shí)駕駛環(huán)境圖像,并且在不影響圖像內(nèi)容的基礎(chǔ)上控制圖像模態(tài)。

在合成圖像真實(shí)性的主觀測(cè)試中,本文方法的結(jié)果優(yōu)于傳統(tǒng)建模法,同時(shí)在深度學(xué)習(xí)方法中也處于領(lǐng)先地位。本文方法可在多模態(tài)圖像轉(zhuǎn)換分析中提升圖像質(zhì)量及其多樣性,為自動(dòng)駕駛虛擬環(huán)境平臺(tái)搭建提供技術(shù)參考。未來(lái)將結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),使視頻中相隔較遠(yuǎn)的圖像幀具有較好的連續(xù)性。

猜你喜歡
樣式編碼器光照
CPMF-I 取樣式多相流分離計(jì)量裝置
節(jié)能環(huán)保 光照萬(wàn)家(公益宣傳)
CPMF-I 取樣式多相流分離計(jì)量裝置
節(jié)能環(huán)保光照萬(wàn)家(公益宣傳)
取樣式多相流分離計(jì)量裝置
春光照瑤鄉(xiāng)
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
這是巴黎發(fā)布的新樣式
察雅县| 崇文区| 灌阳县| 浠水县| 大同市| 祁连县| 四会市| 海伦市| 小金县| 措美县| 丰原市| 五台县| 定南县| 英山县| 武隆县| 仁怀市| 汕尾市| 从化市| 西华县| 湛江市| 桦川县| 吉林省| 台北县| 田林县| 克山县| 谢通门县| 梓潼县| 宜兴市| 五家渠市| 体育| 广宁县| 泰兴市| 娄底市| 迁西县| 宁乡县| 阿荣旗| 济源市| 保康县| 奉节县| 宁远县| 建宁县|