国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于動態(tài)適應(yīng)的交叉?zhèn)螛撕炞詣玉{駛語義分割算法

2022-07-25 09:42操,曹旺,王
現(xiàn)代計算機 2022年9期
關(guān)鍵詞:卷積交叉語義

秦 操,曹 旺,王 靜

(四川大學(xué)電子信息學(xué)院,成都 610065)

0 引言

隨著人們對幸福生活的需求日益增長,科技水平不斷提高,人們對于出行方式有了更多期待,交通工具由傳統(tǒng)的依賴人力的駕駛方式逐漸開始轉(zhuǎn)向機器輔助人類,甚至有著逐漸由人工智能替代人力的趨勢。然而,傳統(tǒng)的駕駛方式在很長一段時間仍然沒有被取代,其可靠性在復(fù)雜狀況下往往更令人信服。受制于勞動力短缺、成本上漲,自動駕駛技術(shù)目前在物流倉儲,園區(qū)交通中落地更多。為了解放社會生產(chǎn)力于機械重復(fù)的駕駛流程,發(fā)展和提升現(xiàn)有的技術(shù)手段來解決上述問題,讓其變得更可靠成為了人們的關(guān)注點。

自動駕駛是一個綜合了周圍狀況感知、決策機制和控制系統(tǒng)等方面的綜合軟硬件系統(tǒng),集成了很多方面的技術(shù)。目前,主要通過圖像捕捉設(shè)備來捕獲二維圖像,或者采用激光雷達來采集點云數(shù)據(jù)等信息讓系統(tǒng)來完成環(huán)境感知的任務(wù),通過多途徑增加信息量,以便更好地完成物體檢測、識別、分類、定位。例如對路上行動中行人和車輛的識別,車道線的檢測,交通指示牌內(nèi)容的識別,以及對障礙物的檢測等。決策機制主要負責(zé)處理在機動行駛過程中的軌跡,根據(jù)模型部署前的規(guī)則指導(dǎo)機動車行進,完成如避讓障礙物的規(guī)劃類型的任務(wù)??刂葡到y(tǒng)主要基于決策系統(tǒng)規(guī)劃好的行駛方式,對動力系統(tǒng)、轉(zhuǎn)向系統(tǒng)、制動系統(tǒng)進行綜合控制,實現(xiàn)對車輛速度、行駛方向等狀態(tài)的自適應(yīng)調(diào)節(jié),保證行駛過程中的安全性和穩(wěn)定性。

本文主要研究內(nèi)容為周圍環(huán)境感知的圖像處理部分,屬于計算機視覺學(xué)科內(nèi)容,通過提出在算法系統(tǒng)部署前優(yōu)化方案,讓決策系統(tǒng)處在自動駕駛在實際應(yīng)用場景中,更好地理解其應(yīng)該對整體軟硬件系統(tǒng)作出的指導(dǎo)。當(dāng)系統(tǒng)復(fù)雜程度上升,對泛化能力的要求增強時,同時增大自動駕駛系統(tǒng)訓(xùn)練時交通場景的數(shù)據(jù)量是極有必要的。由于通過無人車采集到的原始數(shù)據(jù)需要通過人力標注的方式來讓自動駕駛系統(tǒng)理解其面對的圖像的語義內(nèi)容,這個過程通常耗時、費力,如果僅僅依靠大量勞動力來對數(shù)據(jù)進行清洗、篩選和標注,在數(shù)據(jù)集大小快速增長的情況下幾乎不可能對其進行一一詳實的標注,這使得自動駕駛系統(tǒng)部署成本居高不下。因此,對缺少人工標注的真實場景數(shù)據(jù)進行有效的利用,是當(dāng)前迫切需要解決的問題。

1 相關(guān)工作

圖像的語義分割在計算機視覺領(lǐng)域是一項基本的識別任務(wù)。語義分割的訓(xùn)練數(shù)據(jù)通常需要像素級別的人工標注,和其他類型的視覺任務(wù)相比,例如圖像分類和目標檢測,成本通常更高。采用半監(jiān)督的訓(xùn)練方式使用少量標注數(shù)據(jù)和額外的為標注數(shù)據(jù)來進行語義分割模型的學(xué)習(xí)過程是一種切實可行的解決方案。

在現(xiàn)代的基于深度學(xué)習(xí)的語義分割方法中,最普遍使用的是基于全卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。對于語義分割模型的研究,主要從三個方面展開:分辨率提升,上下文信息挖掘和分割邊緣的優(yōu)化。

為了解決語義分割中手動對圖像進行像素級別的標注昂貴又費時的問題,目前面向自動駕駛場景的語義分割往往采用半監(jiān)督的方式來幫助模型進行學(xué)習(xí),以此充分利用無標注數(shù)據(jù)的價值。在半監(jiān)督語義分割中,一致性約束被廣泛使用。它利用網(wǎng)絡(luò)在不同擾動情況下的預(yù)測結(jié)果有著相似的結(jié)果,比如:通過對輸入的圖像進行增強,或者對特征進行一定程度的改變,自訓(xùn)練也在半監(jiān)督語義分割中得到了廣泛的研究。通過在有標注數(shù)據(jù)上訓(xùn)練過的模型對無標注數(shù)據(jù)生成的分割結(jié)果圖,將其作為偽標簽對另一模型進行分割結(jié)果的監(jiān)督就是通過一致性約束對模型進行訓(xùn)練的方法。

2 本文方法

本文使用了一種簡單但有效的半監(jiān)督語義分割算法,其網(wǎng)絡(luò)結(jié)構(gòu)是兩個結(jié)構(gòu)相同但獨立進行參數(shù)初始化的分割網(wǎng)絡(luò),將同一張圖片同時輸入兩個網(wǎng)絡(luò),利用彼此輸出的分割結(jié)果作為偽標簽交叉指導(dǎo)訓(xùn)練過程。另一方面,和常見的半監(jiān)督學(xué)習(xí)方式相比,本文的方法在兩個語義分割網(wǎng)絡(luò)上都進行了反向傳播操作,而不是僅僅在對輸入進行了增強的分支上。

2.1 多尺度特征提取模塊

本文采用了帶有空洞卷積模塊(見圖2)的DeepLab v3 分割頭作為完成下游任務(wù)的模塊來完成圖像的分割任務(wù)。空洞卷積是一種在需要多尺度特征時被廣泛使用的模塊,可以通過人為控制參數(shù)的方式精確控制由深度卷積神經(jīng)網(wǎng)絡(luò)提取的特征的分辨率,同時調(diào)整卷積核的大小來改變感受野的變化,以此捕捉多尺度信息。

圖2 空洞卷積示意圖

如公式(1)所示,假設(shè)輸入為二維信息,輸出為,卷積核為,是輸入和輸出上的位置,膨脹系數(shù)為。膨脹系數(shù)在數(shù)值上等于采樣操作的步長,其意義是在輸入的信息的每個空間維度上,和在本應(yīng)連續(xù)的卷積核取值之間插入-1個零值的上采樣卷積核進行卷積操作。

2.2 半監(jiān)督訓(xùn)練損失函數(shù)

假設(shè)給定一組有標簽數(shù)據(jù)D,總共存在張有標注的圖片數(shù)據(jù),另外還有一個共由張無標注數(shù)據(jù)組成的數(shù)據(jù)集D,半監(jiān)督語義分割的任務(wù)主要是通過同時利用有標注和無標注的數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練,使其能夠完成對于場景中不同種類物體的分割任務(wù)。

如圖1所示,圖中的網(wǎng)絡(luò)結(jié)構(gòu)由兩條平行的分割網(wǎng)絡(luò)構(gòu)成:

圖1 語義分割網(wǎng)絡(luò)結(jié)構(gòu)圖

其中,和分別代表著兩個網(wǎng)絡(luò)的權(quán)重參數(shù),和分別表示兩個網(wǎng)絡(luò)在進行Softmax 歸一化之后的輸出結(jié)果。兩個網(wǎng)絡(luò)擁有相同的結(jié)構(gòu),有著相同的輸入圖像,但在隨機初始化的過程中產(chǎn)生了差異。

當(dāng)輸入圖片為有標注圖像時,數(shù)據(jù)流動方向如圖1 中虛線框外上下分支所示,網(wǎng)絡(luò)1 與網(wǎng)絡(luò)2 分別對輸入生成分割結(jié)果與,將網(wǎng)絡(luò)各自的分割結(jié)果與ground truth 作對比,并通過計算得到損失函數(shù),將損失函數(shù)回傳給網(wǎng)絡(luò),指導(dǎo)網(wǎng)絡(luò)參數(shù)更新。

當(dāng)輸入的圖像為無標注圖像時,數(shù)據(jù)流動方向如圖1虛線框內(nèi)無監(jiān)督部分所示,兩個網(wǎng)絡(luò)分別對輸入生成f()和f(),代表網(wǎng)絡(luò)對圖片預(yù)測的One-hot編碼的結(jié)果圖,也叫偽分割結(jié)果圖。在每個像素點的位置,生成的One-hot編碼結(jié)果是從其對應(yīng)位置的置信度向量計算得到的。

對網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)包含兩方面:通過有標注圖像進行訓(xùn)練得到的Loss,用L表示,以及在無表述數(shù)據(jù)集上通過交叉?zhèn)螛撕炗?xùn)練方式得到的Loss,記作L。

有監(jiān)督訓(xùn)練中得到的L,由兩個平行網(wǎng)絡(luò)針對輸入的圖像輸出的分割結(jié)果分別與ground truth 進行標準的逐像素交叉熵求得,如公式(4)所示:

在公式中,l是交叉熵損失函數(shù),分別代表著面向不同網(wǎng)路的同一個ground truth,和分別代表輸入圖像的寬度和高度。

通過交叉?zhèn)螛撕灧绞降玫降膿p失函數(shù),通過互相回傳至另一支網(wǎng)絡(luò)對學(xué)習(xí)過程進行指導(dǎo)。以網(wǎng)絡(luò)1 舉例,將網(wǎng)絡(luò)2 逐像素計算得到的One-hot 編碼的分割結(jié)果作為偽標簽分割結(jié)果,作為網(wǎng)絡(luò)1的真實標簽對其自身得到的分割概率圖求交叉熵損失,指導(dǎo)自身學(xué)習(xí),對于網(wǎng)絡(luò)2來說同理。

對無標簽數(shù)據(jù)利用交叉?zhèn)螛撕灧绞接?xùn)練得到的損失函數(shù)可以寫作:

有標簽的數(shù)據(jù)同樣會通過無監(jiān)督方式丟棄標簽進行無標簽訓(xùn)練,因此通過交叉?zhèn)螛撕灧绞接?xùn)練得到的損失函數(shù)可以表示為:

綜上所述,整個訓(xùn)練過程的損失函數(shù)可以寫作公式(7),表示權(quán)重參數(shù):

2.3 動態(tài)適應(yīng)模塊

當(dāng)智能系統(tǒng)涉及到分類任務(wù)時,通常需要通過獲取海量經(jīng)過標注的數(shù)據(jù)才能達到良好的性能和效果。能夠收集到一個正確標注的數(shù)據(jù)集通常因為很多因素并不總是易事,例如對醫(yī)學(xué)圖像標注的過程往往需要耗費大量人力和時間,而就算有了輔助算法幫助人類進行數(shù)據(jù)集的標注,完全正確地對數(shù)據(jù)進行這個過程仍然是無法保證的,甚至是讓領(lǐng)域內(nèi)的專家來標注圖像也是一樣。

通常情況下,深度神經(jīng)網(wǎng)絡(luò)對標簽噪聲有一定的魯棒性,但是其對數(shù)據(jù)進行過擬合的趨勢很容易讓網(wǎng)絡(luò)在面對噪聲的情況下變得十分脆弱。因此,將標簽噪聲納入設(shè)計算法并設(shè)法有效地減弱或者消除對網(wǎng)絡(luò)訓(xùn)練帶來的負面效果顯得很有必要。

針對交叉熵損失函數(shù)魯棒性的研究表明,交叉熵損失函數(shù)在涉及到分類任務(wù)時,如果存在著標簽噪聲的情況,網(wǎng)絡(luò)的穩(wěn)定性會受到很大影響。由于語義分割是對每個像素點進行分類的密集型預(yù)測任務(wù),相似的問題和挑戰(zhàn)也同樣存在于語義分割中。

另外,在半監(jiān)督學(xué)習(xí)的語義分割框架中,最終學(xué)習(xí)進行對比時會用到偽標簽,而生成的偽標簽也許由于網(wǎng)絡(luò)還未充分得到訓(xùn)練,整體性能較弱,導(dǎo)致結(jié)果中包含置信度較低的區(qū)域。

為了避免在利用偽標簽進行訓(xùn)練時網(wǎng)絡(luò)對標簽噪聲過擬合,本文提出了一種動態(tài)適應(yīng)的篩選模塊來優(yōu)化語義分割網(wǎng)絡(luò)。根據(jù)網(wǎng)絡(luò)在不同訓(xùn)練階段的狀態(tài),它會根據(jù)每個像素點在分類結(jié)果的置信程度分配自適應(yīng)的程度。此外,針對結(jié)果不太可靠的區(qū)域,本文還引入了反向交叉熵損失。

如公式(8)所示,是像素位置的指示,代表的是對于當(dāng)前網(wǎng)絡(luò)分支像素分類結(jié)果的預(yù)測,y代表著另一側(cè)網(wǎng)絡(luò)對對應(yīng)位置上像素生成的偽標簽,w表示動態(tài)權(quán)重,其值為當(dāng)前網(wǎng)絡(luò)分支預(yù)測值在Softmax 之后在種類別中的最大值。

通過這種方式,本文利用網(wǎng)絡(luò)的預(yù)測值來評估訓(xùn)練過程中無監(jiān)督分支對于分割結(jié)果的置信程度。如果置信程度非常高,就將動態(tài)權(quán)重置為1,按照普通交叉熵損失函數(shù)進行網(wǎng)絡(luò)訓(xùn)練;但如果置信程度非常低,我們可以將偽標簽視作是不可靠的,因此引入公式(8)中的第二項來減輕標簽噪聲對網(wǎng)絡(luò)訓(xùn)練造成的干擾。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集及預(yù)處理

為了使視覺深度學(xué)習(xí)算法順利落地,網(wǎng)絡(luò)對于復(fù)雜條件下的城市街景的視覺理解程度成為了重要的賦能因素。受益于大規(guī)模的數(shù)據(jù)集,在深度學(xué)習(xí)背景下的目標檢測工作從成熟的數(shù)據(jù)集中受益頗多。而對于城市街道的語義分割任務(wù),在Cityscape之前并沒有可以充分反映現(xiàn)實世界中城景街道復(fù)雜性的數(shù)據(jù)集。Cityscape 數(shù)據(jù)集是一個可以應(yīng)用于像素和實例級別分割任務(wù)的大型數(shù)據(jù)集,每張圖片的分辨率為2048×1024,總共有5000 張包含高質(zhì)量像素級標注的圖像,另外還有20000張可以用作弱標注數(shù)據(jù)的粗標注圖片。

3.2 評價指標

對于語義分割任務(wù),一般有四種評價算法性能的指標:像素精度、均像素精度、頻權(quán)交并比和均交并比。在這四種評價指標中,均交并比(Mean Intersection over Union,MIoU)最簡潔直觀,是圖像分割精度評估的一個常用重要指標。它將不同類別的預(yù)測結(jié)果與真實值的交集以及并集相除,在求和之后取得平均值。本文中的實驗采用作為對模型性能的評價標準,如公式(10)所示:

P表示假正例,P表示假負例,P表示真正例的數(shù)量。

3.3 實驗細節(jié)

為了訓(xùn)練和測試本文算法,實驗使用了四張NVIDIA GTX 2080Ti 顯卡以及4 顆E5-2620 CPU 核心,具體實驗軟件環(huán)境包括Python3.6,PyTorch1.0.0,CUDA10.2,訓(xùn)練開始前首先對數(shù)據(jù)集進行預(yù)處理。為了與現(xiàn)行方法進行比較,我們與GCT一文中對數(shù)據(jù)集進行劃分和測試的操作保持一致,將Cityscape 數(shù)據(jù)集劃分為兩個隨機采樣的子集,分別將1/8 抽取出來作為有標注的訓(xùn)練集,而剩下的就都作為沒有標注的訓(xùn)練集。

本文算法中的特征提取網(wǎng)絡(luò)部分使用了同一個在ImageNet 上預(yù)訓(xùn)練的網(wǎng)絡(luò),而對各自的分割頭進行隨機參數(shù)初始化。訓(xùn)練過程中,采用了隨機梯度下降優(yōu)化器,對學(xué)習(xí)率調(diào)整采用的是多項式衰減策略,如公式(11)所示:

由于使用了模型并行計算加速訓(xùn)練,初始學(xué)習(xí)率為0.02。

3.4 結(jié)果分析

在使用相同比例的有標注數(shù)據(jù),訓(xùn)練周期相同的條件下,對Cityscapes 城市街景數(shù)據(jù)集進行語義分割的性能測試,計算各種模型的預(yù)測性能。我們對以下幾種網(wǎng)絡(luò)模型進行測試對比:

(1)Baseline 為以Imagenet 數(shù)據(jù)集上預(yù)訓(xùn)練后的Resnet-50作為骨干網(wǎng)絡(luò),使用DeeplabV3+的分割頭在所有有標注訓(xùn)練集圖像上進行訓(xùn)練和測試得到的結(jié)果。

(2)ClassMix在無標注數(shù)據(jù)中采樣兩張圖像,分別記為A和B,使用分割模型分別進行預(yù)測,在A 的預(yù)測結(jié)果中通過argmax 生成預(yù)測結(jié)果,隨機選取一般預(yù)測標簽作為Mask,將A 圖中區(qū)域合并到B圖中。

(3)CutMix-Seg使用同數(shù)據(jù)集中其他圖像快剪切粘貼到訓(xùn)練樣本上,同時真實標簽也成比例地疊加到圖像塊區(qū)域。

(4)SDA使用了優(yōu)化的強增強方式,利用設(shè)計歸一化層的方式防止特征偏移。

為了證明本文提出的DA(Dynamic Adaption)模塊的有效性,同時在數(shù)據(jù)集上進行了消融實驗,結(jié)果如圖3所示。第一列表明是否加入DA 模塊,第二列為其在每個語義類別上的平均交并比指標,用于衡量分割模型的準確度。

圖3 分割結(jié)果可視化

從表1可以看出,在實驗結(jié)果中,相較于不添加DA 模塊的算法,平均交并比指標提升了1.85%,這證明了模塊的有效性。

表1 在Cityscapes數(shù)據(jù)集上的消融實驗結(jié)果對比

各種網(wǎng)絡(luò)模型的預(yù)測結(jié)果如表2所示。

表2 不同模型的分割結(jié)果對比

從表2 可以看出,本文方法在Cityscape 數(shù)據(jù)集上的評估指標顯著優(yōu)于其他對比方法,平均交并比指標最多提升了12.43%。

4 結(jié)語

本文提出了一種面向自動駕駛場景的基于動態(tài)適應(yīng)策略的半監(jiān)督語義分割模型,模型同時使用有標注和無標注數(shù)據(jù)對網(wǎng)絡(luò)進行訓(xùn)練,提高了算法在實際落地過程中的可行性;在交叉?zhèn)螛撕灥挠?xùn)練過程中,利用針對應(yīng)用場景很可能遇到的標簽噪聲問題對損失函數(shù)進行優(yōu)化,引入了對抗噪聲的反向交叉熵損失函數(shù)項,以改善網(wǎng)絡(luò)性能表現(xiàn);通過使用平行的雙網(wǎng)絡(luò)結(jié)構(gòu),提升了網(wǎng)絡(luò)特征提取部分對于數(shù)據(jù)集圖片的特征提取。與現(xiàn)有方法相比,本文的方法提升了分割結(jié)果準確率。

猜你喜歡
卷積交叉語義
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準確測定
韓國語“容入-離析”關(guān)系表達及認知語義解釋
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計數(shù)
“六法”巧解分式方程
卷積神經(jīng)網(wǎng)絡(luò)概述
連數(shù)
連一連
連星星
高邑县| 敦煌市| 渭源县| 米林县| 连平县| 荣成市| 沽源县| 海丰县| 巴里| 镇安县| 乐业县| 象山县| 兴安县| 屏东市| 赤峰市| 齐齐哈尔市| 清原| 永宁县| 平遥县| 大丰市| 青岛市| 海盐县| 呼伦贝尔市| 杭锦后旗| 平遥县| 都匀市| 汕尾市| 游戏| 满城县| 綦江县| 喀喇沁旗| 星座| 桐城市| 巴东县| 仲巴县| 开原市| 海伦市| 莲花县| 长汀县| 黎川县| 余干县|