国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義一致性約束與局部-全局感知的多模態(tài)3D視覺定位

2024-08-17 00:00羅寒馬浩統(tǒng)劉杰嚴(yán)華雷印杰

摘 要:3D多模態(tài)數(shù)據(jù)稀缺,使得傳統(tǒng)方法進(jìn)行監(jiān)督訓(xùn)練時(shí)文本與視覺特征缺乏語義一致性。同時(shí)傳統(tǒng)方法還易忽視局部關(guān)系與全局信息,從而導(dǎo)致性能不佳。針對(duì)上述問題,提出了一種基于語義一致性約束與局部-全局感知的多模態(tài)3D視覺定位方法。首先,該方法通過蒸餾2D預(yù)訓(xùn)練視覺語言模型知識(shí),幫助3D模型提取到點(diǎn)云-文本語義一致性特征;其次設(shè)計(jì)了局部-全局感知模塊,不斷補(bǔ)充增強(qiáng)候選目標(biāo)特征,以更精確匹配目標(biāo)。在現(xiàn)有的3D視覺定位數(shù)據(jù)集ScanRefer上進(jìn)行的實(shí)驗(yàn)表明,該方法在Acc@0.25 IoU和Acc@0.5 IoU兩個(gè)指標(biāo)上分別達(dá)到了50.53%和37.67%,超越了現(xiàn)有大多數(shù)3D視覺定位算法,證實(shí)了該方法的有效性。

關(guān)鍵詞:3D視覺定位;多模態(tài);特征一致性約束;局部關(guān)系;全局位置信息

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-040-2203-06

doi: 10.19734/j.issn.1001-3695.2023.09.0515

Semantic consistency constrain and local-global aware multi-modal 3D visual grounding

Abstract:The scarcity of 3D multimodal data results in a lack of semantic consistency between text and visual features during supervised training using traditional methods. Meanwhile, traditional methods also overlook local relationships and global information, resulting in poor performance. To address the above issues, this paper proposed a semantic consistency constrain and local-global aware multi-modal 3D visual grounding method. Firstly, the method helped the 3D model extract point cloud-text semantic consistency features by distilling 2D pre-trained visual language model knowledge. Secondly, it designed a local-global aware module to continuously supplement and enhanced candidate target features to match targets more accurately. Experiments conducted on the ScanRefer dataset show that the proposed method achieves 50.53% and 37.67% in terms of Acc@0.25 IoU and Acc@0.5 IoU and exceeds most existing 3D visual grounding methods, confirming the effectiveness of the method.

Key words:3D visual grounding; multi-modal; feature alignment; local relationship; global location information

0 引言

視覺定位(visual grounding,VG)[1]旨在基于與目標(biāo)物體相關(guān)的語言查詢并定位出圖像或視頻中的相應(yīng)區(qū)域,現(xiàn)常應(yīng)用于自動(dòng)駕駛等領(lǐng)域。目前在二維計(jì)算機(jī)視覺任務(wù)中,VG已取得了較大的進(jìn)展。隨著三維傳感器的飛速發(fā)展,三維視覺數(shù)據(jù)能夠提供比二維數(shù)據(jù)更全面豐富的信息,因此VG也逐漸拓展到了三維領(lǐng)域。3D-VG與2D-VG相比,場(chǎng)景更大、物體數(shù)量更多,同時(shí)要求模型具有更強(qiáng)的空間結(jié)構(gòu)信息捕獲能力,這對(duì)現(xiàn)有VG方法帶來了更大的挑戰(zhàn)。

目前已有的3D-VG方法[2, 3]大多分為兩個(gè)階段:第一階段的目標(biāo)是訓(xùn)練好一個(gè)三維物體檢測(cè)器,從三維點(diǎn)云中提取候選目標(biāo)物體特征并回歸出預(yù)測(cè)框,同時(shí)再訓(xùn)練好語言模型對(duì)文本描述信息進(jìn)行編碼;第二階段則關(guān)注點(diǎn)云-語言兩種模態(tài)特征的交互融合,從候選目標(biāo)物體中唯一地選出文本信息所描述的物體。這些方法雖然能正確預(yù)測(cè)大多數(shù)目標(biāo),但仍存在以下三點(diǎn)問題:

a)3D視覺語言數(shù)據(jù)集較為匱乏,導(dǎo)致現(xiàn)有方法由訓(xùn)練得到的模型提取的視覺與語言特征存在語義間隙(semantic gap)。

b)與圖像相比,3D場(chǎng)景物體數(shù)量多,現(xiàn)有方法在點(diǎn)云-語言交互融合過程中缺乏對(duì)局部區(qū)域物體間關(guān)系的關(guān)注,導(dǎo)致模型不易從多個(gè)相同語義類別的物體中準(zhǔn)確定位出目標(biāo)。

c)3D場(chǎng)景大且復(fù)雜,目標(biāo)的全局位置信息對(duì)匹配過程十分重要,而傳統(tǒng)算法大多忽略了對(duì)目標(biāo)全局位置信息的捕捉,使得模型難以區(qū)分多個(gè)在不同位置的同類物體。

為了解決上述問題,本文提出了基于語義一致性約束與局部-全局感知的多模態(tài)3D視覺定位方法MM-VG。針對(duì)問題a),本文將二維視覺語言預(yù)訓(xùn)練模型引入3D-VG任務(wù),通過蒸餾的方式完成二維視覺語言預(yù)訓(xùn)練模型的知識(shí)遷移,以及在圖像文本對(duì)齊的特征空間中嵌入點(diǎn)云模態(tài)的特征,以此消除點(diǎn)云與語言特征間的語義間隙。針對(duì)問題b)c),本文分別設(shè)計(jì)了局部與全局感知模塊。局部感知模塊能從局部區(qū)域捕獲相鄰物體間關(guān)系,用于增強(qiáng)候選目標(biāo)特征。全局感知模塊在融合候選目標(biāo)與語言特征進(jìn)行推理時(shí)引入多分辨率場(chǎng)景特征,補(bǔ)充了檢測(cè)過程中丟失的全局位置信息。兩模塊結(jié)合能從位置與關(guān)系兩個(gè)角度對(duì)目標(biāo)特征進(jìn)行補(bǔ)充增強(qiáng),提升復(fù)雜場(chǎng)景下,尤其是有多個(gè)相同類別實(shí)例的情況下模型的定位效果。

與現(xiàn)有大多數(shù)方法相比,MM-VG有以下幾個(gè)顯著的優(yōu)勢(shì):

a)MM-VG通過蒸餾2D大型視覺語言預(yù)訓(xùn)練模型知識(shí),使模型提取的視覺語言特征有更強(qiáng)的語義一致性;

b)MM-VG利用局部感知模塊,關(guān)注部分區(qū)域中相近物體間關(guān)系,以增強(qiáng)候選目標(biāo)特征;

c)MM-VG使用了一種新的全局感知模塊,利用點(diǎn)云中多分辨率的全局場(chǎng)景特征,以消除定位結(jié)果的歧義;

d)與現(xiàn)有大多數(shù)3D-VG算法將2D預(yù)訓(xùn)練特征和3D數(shù)據(jù)融合作為視覺輸入不同,MM-VG使用多模態(tài)對(duì)齊,使得訓(xùn)練好的模型在推理階段僅需3D數(shù)據(jù)作為視覺輸入,并在ScanRefer數(shù)據(jù)集上實(shí)驗(yàn),取得了50.53%的Acc@0.25 IoU和37.67%的Acc@0.5 IoU。

1 相關(guān)工作

1.1 2D視覺定位

2D-VG的目的是在圖像中根據(jù)文本描述定位感興趣的區(qū)域,定位結(jié)果由二維邊界框表示。傳統(tǒng)算法主要分為兩階段方法與單階段方法。其中兩階段方法[4~6]的第一階段是使用預(yù)訓(xùn)練的目標(biāo)檢測(cè)器生成候選目標(biāo),第二階段則是通過識(shí)別感興趣的區(qū)域來匹配最相關(guān)的候選目標(biāo),并根據(jù)這些區(qū)域特征與文本特征的相似度對(duì)區(qū)域進(jìn)行排序。而單階段方法[7,8]去除了兩階段框架中的候選目標(biāo)生成階段,并將語言特征密集融合到每個(gè)像素點(diǎn)或塊中,以生成多模態(tài)融合特征,用于回歸邊界框。

2D-VG的方法更多地關(guān)注圖像中目標(biāo)間的關(guān)系,例如:Yang等人[9]使用圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)上下文關(guān)系與文本描述之間的一致性;Yu等人[10]提出了MAttNet,利用注意力機(jī)制來捕獲視覺與語言模態(tài)間關(guān)系。此類方法僅能處理信息量較少且規(guī)則的圖像,對(duì)于場(chǎng)景更大的3D點(diǎn)云,需要模型擁有更全面的空間理解能力。因此本文提出了全局感知模塊,針對(duì)性地捕獲點(diǎn)云中的空間位置關(guān)系。

1.2 3D視覺定位

隨著深度學(xué)習(xí)技術(shù)在三維點(diǎn)云上的廣泛應(yīng)用,3D-VG任務(wù)受到更多學(xué)者的關(guān)注。然而2D-VG不能直接應(yīng)用于3D-VG。首先,三維點(diǎn)云點(diǎn)數(shù)遠(yuǎn)超圖像像素點(diǎn)數(shù),因此將每個(gè)點(diǎn)作為候選點(diǎn)進(jìn)行計(jì)算開銷太大;其次,由于3D場(chǎng)景規(guī)模大且復(fù)雜,難以全面捕獲所有物體間的關(guān)系;此外,三維點(diǎn)云是無序稀疏的,而2D-VG方法的輸入僅能為規(guī)則矩陣。

近年來,研究者針對(duì)3D-VG提出了許多基于神經(jīng)網(wǎng)絡(luò)的算法。目前,主流的3D-VG方法仍然遵循2D-VG中兩階段的范式,即提出候選目標(biāo)與視覺語言融合匹配。例如, Chen等人[3]提出的ScanRefer依次將提出的候選目標(biāo)點(diǎn)云特征和語言特征直接拼接,從而把3D-VG轉(zhuǎn)換為對(duì)候選目標(biāo)物體的二分類任務(wù)。 Huang等人[11]提出了TGNN,首次在3D-VG任務(wù)中引入圖神經(jīng)網(wǎng)絡(luò)建模物體間關(guān)系。He等人[12]提出的Tr441919c798474fb1ca1a776f464a6814ansrefer3D以及Zhao等人[13]提出的3DVG-Transformer進(jìn)一步利用Transformer的注意力機(jī)制,實(shí)現(xiàn)了點(diǎn)云-語言兩種模態(tài)特征的交互式融合。Yuan等人[14]提出的Instancerefer利用預(yù)訓(xùn)練模型已經(jīng)分割好的實(shí)例與語言交互融合,并從屬性、位置和關(guān)系三個(gè)方面進(jìn)行綜合篩選。此外,Yang等人[15]提出了SAT,在訓(xùn)練階段將2D模態(tài)與3D模態(tài)特征對(duì)齊,推理預(yù)測(cè)階段無須2D輸入。Luo等人[16]提出的3D-SPS跳出了傳統(tǒng)二階段的框架,結(jié)合語言進(jìn)行漸進(jìn)式逐點(diǎn)篩選,單階段地定位目標(biāo)。但由于3D數(shù)據(jù)噪聲大、數(shù)據(jù)量相對(duì)較少,以上方法在訓(xùn)練時(shí),視覺與語言特征語義上存在較大間隙,且更多關(guān)注物體屬性特征,物體間的關(guān)系提取不準(zhǔn)確,導(dǎo)致定位性能下降。

1.3 視覺語言預(yù)訓(xùn)練模型

目前視覺語言預(yù)訓(xùn)練模型[17, 18]已經(jīng)得到了深入的研究。例如CLIP(contrastive language-image pre-training)[19] 使用大規(guī)模數(shù)據(jù)(4億文本-圖像對(duì))進(jìn)行訓(xùn)練,基于海量數(shù)據(jù),CLIP模型學(xué)習(xí)到了更多通用的視覺語義信息。目前在二維領(lǐng)域,語言和圖像理解任務(wù)方法很大程度上得益于大規(guī)模視覺語言數(shù)據(jù)集的預(yù)訓(xùn)練,從而能夠提取有意義的圖像-文本對(duì)特征,提升模型預(yù)測(cè)性能。例如在圖像分割領(lǐng)域,Ghiasi等人[20]提出了OpenSeg,基于CLIP模型完成圖像的開放詞匯分割。

相比之下在三維領(lǐng)域,由于數(shù)據(jù)集采集困難,難以訓(xùn)練高性能大模型,所以大多數(shù)3D視覺語言任務(wù)都利用二維視覺語言模型進(jìn)行跨模態(tài)預(yù)訓(xùn)練。例如Huang等人[21]提出的CLIP2Point,通過縮小圖像與點(diǎn)云兩域之間的差距,成功遷移CLIP完成3D點(diǎn)云任務(wù)的預(yù)訓(xùn)練。Zhu等人[22]引入了形狀投影模塊,用于生成圖像深度圖,以此建立圖像到點(diǎn)云的映射。但現(xiàn)有遷移方法大多針對(duì)單個(gè)三維物體點(diǎn)云,而3D-VG任務(wù)需要模型對(duì)整個(gè)場(chǎng)景進(jìn)行理解。為此,本文提出了一種場(chǎng)景級(jí)的對(duì)齊方案用于解決這一問題。

2 本文方法

2.1 模型結(jié)構(gòu)

N為候選目標(biāo)數(shù)量。最后利用檢測(cè)器,從候選目標(biāo)特征中回歸出N個(gè)候選邊界框。

為從局部關(guān)系與全局位置角度上區(qū)分同一類物體的不同實(shí)例,在融合點(diǎn)云-語言兩種模態(tài)特征進(jìn)行匹配的階段中,本文首先采用局部感知模塊(local-aware module,LAM)對(duì)候選目標(biāo)特征FP進(jìn)行特征增強(qiáng),接著采用全局感知模塊(global-aware module,GAM)將得到的增強(qiáng)候選目標(biāo)特征F′P、場(chǎng)景點(diǎn)特征圖Fs與文本特征Τ三者融合,生成候選邊界框的最終置信度得分O={oi}Ni=1。最后置信度得分最高的邊界框?qū)⒈灰暈槎ㄎ唤Y(jié)果。本文重點(diǎn)研究如何蒸餾2D視覺語言預(yù)訓(xùn)練模型知識(shí),以完成視覺語言特征對(duì)齊(2.2節(jié)),以及如何利用局部區(qū)域目標(biāo)間的關(guān)系(2.3節(jié))與全局場(chǎng)景信息(2.4節(jié))區(qū)分候選目標(biāo),以更精確地匹配定位目標(biāo)。

2.2 多模態(tài)語義一致性約束模塊

為解決問題a),即消除視覺與語言特征間的語義間隙,使模型提取的3D特征與文本特征在語義上達(dá)成一致性,以提升檢測(cè)與文本匹配效果,本文設(shè)計(jì)了多模態(tài)語義一致性約束模塊。 本文的關(guān)鍵思想是通過蒸餾2D預(yù)訓(xùn)練視覺語言模型知識(shí),完成點(diǎn)云、圖像與文本三模態(tài)特征的語義對(duì)齊。為了實(shí)現(xiàn)這一目標(biāo),在2.2.1節(jié)中本文先建立3D點(diǎn)與多視角圖像像素之間的關(guān)聯(lián),并使用CLIP視覺編碼器求出像素特征,再根據(jù)關(guān)聯(lián)關(guān)系與像素特征構(gòu)造出虛擬點(diǎn)云特征;在2.2.2節(jié)中,本文將虛擬點(diǎn)云特征作為偽標(biāo)簽來監(jiān)督來訓(xùn)練3D編碼器,使其能提取與CLIP特征空間語義一致的特征。

2.2.1 多視角圖像特征點(diǎn)云構(gòu)建

2.2.2 多模態(tài)特征對(duì)齊

如圖3所示,由于提取的圖像特征已通過預(yù)訓(xùn)練,與文本特征在語義上一致,而2.2.1節(jié)中又將圖像特征映射為虛擬點(diǎn)云特征,所以為實(shí)現(xiàn)點(diǎn)云、圖像、文本三模態(tài)特征對(duì)齊,只需將虛擬點(diǎn)云特征與點(diǎn)云特征對(duì)齊。

通過最小化上述損失函數(shù),模型能夠?qū)⑷S點(diǎn)云特征提取到與CLIP相同的特征空間中,以完成點(diǎn)云、圖像、文本三模態(tài)特征對(duì)齊,最終實(shí)現(xiàn)點(diǎn)云-語言特征的語義一致。

2.3 局部感知模塊

在生成候選目標(biāo)階段中,得到的候選目標(biāo)特征更多是包含目標(biāo)屬性特征,而缺少物體間關(guān)系特征。考慮到文本描述的關(guān)系更多是在相近物體間,本文受Swin Transformer[27]啟發(fā),提出了局部感知模塊。在該模塊中,首先將候選目標(biāo)特征分塊,捕獲局部感知目標(biāo)間關(guān)系,從而增強(qiáng)候選目標(biāo)特征,使其能更好地進(jìn)行跨模態(tài)匹配。

如圖4所示,首先將候選目標(biāo)特征FP分塊,具體地,先計(jì)算場(chǎng)景中所有點(diǎn)坐標(biāo)的均值(即中心點(diǎn)):

使用子區(qū)域的好處在于:文本描述中所出現(xiàn)的物體關(guān)系以相鄰為主,例如“There is a wooden chair near the table.”。因此整個(gè)場(chǎng)景的關(guān)系建立是冗余的,而局部區(qū)域關(guān)系建立更有效率。通過局部感知模塊,本文從點(diǎn)云場(chǎng)景的不同子區(qū)域中捕獲目標(biāo)間關(guān)系,即局部關(guān)系信息。利用此關(guān)系信息,模型能夠在匹配階段排除部分同類干擾物體,極大程度上解決了問題b)。

2.4 全局感知模塊

在融合多模態(tài)特征進(jìn)行匹配的階段中,本文基于注意力機(jī)制提出了全局感知模塊,以在常規(guī)的候選目標(biāo)特征與文本特征交互過程中額外引入多分辨率全局特征。引入該特征能夠使模型從不同分辨率的角度挖掘目標(biāo)位OUhqIv3ke6iJvoly56w1yA==置信息,以達(dá)到消除目標(biāo)邊界框與其他相似候選目標(biāo)邊界框間歧義的目的。

其中:Ffuse為輸出的融合特征。

本文在具體實(shí)現(xiàn)過程中堆疊了三個(gè)全局感知模塊,如圖6所示。三個(gè)模塊的不同之處在于輸入的場(chǎng)景點(diǎn)特征圖分別為3D骨干網(wǎng)絡(luò)PointNet++的不同中間層特征,以捕獲不同分辨率大小的全局信息,其特征圖點(diǎn)數(shù)分別為256,512,1 024。最后,將全局感知模塊的輸出Ffuse送入全連接層,并用softmax函數(shù)激活后得到候選邊界框的最終置信度得分O。

O=softmax(MLP(Ffuse))(10)

全局感知模塊在候選目標(biāo)特征與文本特征匹配階段額外引入了全局場(chǎng)景信息。通過多個(gè)注意力模塊,候選目標(biāo)特征融入了與其對(duì)應(yīng)的位置特征,并和文本中對(duì)應(yīng)的位置信息相匹配,從位置上減小了同類物體的干擾,很好地解決了問題c)。

2.5 網(wǎng)絡(luò)訓(xùn)練與推理

其中:λ為各項(xiàng)損失權(quán)重,根據(jù)經(jīng)驗(yàn)性調(diào)整分別取值為1、0.3、10、1。在訓(xùn)練階段通過最小化上述損失函數(shù),本文模型可以回歸出場(chǎng)景目標(biāo)邊界框,并精確匹配文本描述目標(biāo)。在推理階段,模型無須輸入多視角圖像即可完成視覺定位。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

ScanRefer數(shù)據(jù)集是一個(gè)包含800個(gè)ScanNet[28]場(chǎng)景且具有51 583個(gè)描述的3D視覺定位數(shù)據(jù)集。平均每個(gè)場(chǎng)景有13.81個(gè)對(duì)象和64.48個(gè)文本描述。根據(jù)ScanNet官方的設(shè)置,本文將數(shù)據(jù)分成訓(xùn)練集與驗(yàn)證集,分別有36 665和9 508個(gè)樣本。實(shí)驗(yàn)在訓(xùn)練集上進(jìn)行訓(xùn)練,并在驗(yàn)證集上進(jìn)行結(jié)果分析。

在數(shù)據(jù)預(yù)處理階段,將點(diǎn)數(shù)采樣到40 000,為減輕過擬合,本實(shí)驗(yàn)中將點(diǎn)云在x、y、z軸上隨機(jī)旋轉(zhuǎn)[-5°,5°],點(diǎn)云尺度隨機(jī)縮放0.9~1.1倍。對(duì)于語言支路,首先采用CLIP的文本詞分器將單詞轉(zhuǎn)換為單詞特征向量;接著隨機(jī)掩碼化25%的單詞特征向量以防止過擬合;最后將得到的單詞特征向量作為語言輸入。

3.2 實(shí)驗(yàn)環(huán)境與實(shí)施細(xì)節(jié)

本文實(shí)驗(yàn)硬件配置為8卡NVIDIA A10, 24 GB 顯存,AMD EPYC 7282 16-Core, 256 GB RAM。實(shí)驗(yàn)在Ubuntu 20.04.1系統(tǒng)下進(jìn)行,采用深度學(xué)習(xí)框架PyTorch 1.8。

訓(xùn)練過程中各超參數(shù)設(shè)置如下:采用Adam[29]優(yōu)化器,權(quán)重衰減系數(shù)為0.000 01,采用學(xué)習(xí)率余弦衰減,初始學(xué)習(xí)率為0.002,訓(xùn)練300個(gè)epoch, batch size大小為8。

3.3 評(píng)價(jià)指標(biāo)

對(duì)于ScanRefer數(shù)據(jù)集,本文采用的評(píng)估指標(biāo)是Acc@0.25 IoU和Acc@0.5 IoU,分別代表預(yù)測(cè)目標(biāo)邊界框與目標(biāo)邊界框標(biāo)簽的交并比(IoU)大于0.25和0.5的百分比。除總體精度之外,實(shí)驗(yàn)還從unique和multiple兩個(gè)子集上進(jìn)行評(píng)估。如果目標(biāo)物體是場(chǎng)景中同類物體的唯一實(shí)例,則該目標(biāo)物體被歸類為unique,否則分類為multiple。

3.4 實(shí)驗(yàn)結(jié)果與分析

3.4.1 定量實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證MM-VG方法的有效性,本文在ScanRefer數(shù)據(jù)集上進(jìn)行了定量實(shí)驗(yàn),并與當(dāng)前先進(jìn)方法的定位性能作對(duì)比,結(jié)果如表1所示。對(duì)比方法包括基于分割的兩階段方法TGNN[11]和InstanceRefer[14],基于檢測(cè)的兩階段方法ScanRefer[3]、SAT[15]和3DVG-Transformer[13]以及單階段漸進(jìn)式匹配方法3D-SPS[16]。

從表中可以看到,MM-VG在總體精度指標(biāo)Acc@0.25與Acc@0.5上均超過了其他六種方法,由此表明本文方法提取的多模態(tài)特征有更好的語義一致性,從而能夠在多模態(tài)交互融合階段提高匹配精度。但是在unique子集實(shí)驗(yàn)結(jié)果中,Acc@0.5低于3D-SPS與InstanceRefer。這是由于unique子集中的實(shí)例都是不同類別的,對(duì)多模態(tài)融合匹配階段性能要求低,所以檢測(cè)器性能對(duì)最終結(jié)果影響大。InstanceRefer依賴于預(yù)訓(xùn)練3D實(shí)例分割模型,因此在邊界框生成階段得到的框的IoU值更高,3D-SPS[16]漸進(jìn)式方法更加關(guān)注物體屬性信息而非全局關(guān)系信息,且在訓(xùn)練階段會(huì)訓(xùn)練多個(gè)檢測(cè)器,回歸的邊界框更為準(zhǔn)確。本文方法更多解決多個(gè)相同類別的實(shí)例造成的混淆問題,所以在對(duì)同類物體的唯一實(shí)例進(jìn)行推理時(shí),性能略低于上述兩種方法。

但實(shí)際情況中,同類物體往往具有多個(gè)實(shí)例,在multiple子集實(shí)驗(yàn)結(jié)果中,MM-VG在Acc@0.25與Acc@0.5上分別超過3D-SPS 3.26%與2.22%,這是由于本文方法更能挖掘復(fù)雜點(diǎn)云場(chǎng)景的全局信息,建模不同實(shí)例間的關(guān)系,證明了本文方法在3D視覺定位任務(wù)上的有效性。值得說明的是,與3D-SPS等方法在推理階段的輸入中加入2D特征不同,本文方法推理時(shí)只需將3D點(diǎn)云作為輸入,仍能取得較好的性能,體現(xiàn)了本文方法的優(yōu)勢(shì)。

3.4.2 定性實(shí)驗(yàn)結(jié)果分析

圖7展示了本文方法與3DVG-Transformer[13]及ground truth(真值標(biāo)簽)在ScanRefer數(shù)據(jù)集上的可視化結(jié)果對(duì)比。從圖7(a)(b)可以發(fā)現(xiàn),3DVG-Transformer將 Sofa與Cart錯(cuò)誤定位到了Fan與Shelf,而本文方法則精準(zhǔn)定位出了正確結(jié)果,說明了本文方法有更強(qiáng)的多模態(tài)語義一致性;從圖7(c)~(e)中可以發(fā)現(xiàn),在同一場(chǎng)景中有多個(gè)類別相同的實(shí)例時(shí),3DVG-Transformer無法較好地區(qū)分它們,而本文方法能夠很好地根據(jù)局部關(guān)系與全局位置信息區(qū)分這些實(shí)例,體現(xiàn)了本文方法的優(yōu)越性。

3.5 消融實(shí)驗(yàn)

3.5.1 不同模塊貢獻(xiàn)消融實(shí)驗(yàn)

本文針對(duì)提出的多模態(tài)語義一致性約束模塊(MSCCM)、局部感知模塊(LAM)和全局感知模塊(GAM)三個(gè)模塊,以Acc@0.25與Acc@0.5作為評(píng)價(jià)指標(biāo),在ScanRefer驗(yàn)證集上進(jìn)行了六組消融實(shí)驗(yàn),結(jié)果如表2所示。

由1、4組和3、6組以及5、7組實(shí)驗(yàn)分析可得,MAM模塊通過將點(diǎn)云、圖像、文本三模態(tài)的語義特征對(duì)齊,能顯著提高3D視覺定位的性能。由1、2組和3、5組實(shí)驗(yàn)分析可知,LAM模塊能挖掘局部特征間的關(guān)系,從而增強(qiáng)模型對(duì)于局部細(xì)節(jié)特征的捕獲能力,取得更佳的3D視覺定位性能。對(duì)比1、3組和4、6組實(shí)驗(yàn)可得,GAM模塊引入全局位置信息,單獨(dú)使用能提升視覺定位效果,但是在與MAM模塊一同使用時(shí),效果提升不明顯,分析原因可能是,用于知識(shí)遷移的2D預(yù)訓(xùn)練模型中包含了全局信息,這與GAM模塊引入的全局信息部分重疊。

3.5.2 特征對(duì)齊點(diǎn)數(shù)消融實(shí)驗(yàn)

在多模態(tài)語義一致性約束模塊中,本文對(duì)采用多少點(diǎn)數(shù)進(jìn)行特征對(duì)齊(即3D backbone最后一層上采樣到多少個(gè)點(diǎn))進(jìn)行了消融實(shí)驗(yàn),具體結(jié)果如表3所示。從表3可以看到,當(dāng)采樣點(diǎn)數(shù)較少時(shí),模型性能隨著用于對(duì)齊的點(diǎn)數(shù)的增加而提升。但當(dāng)采樣點(diǎn)數(shù)與原始點(diǎn)云點(diǎn)數(shù)保持一致時(shí)效果并未得到提升,分析可能的原因是產(chǎn)生了過擬合現(xiàn)象,且運(yùn)行時(shí)間大大增加。根據(jù)實(shí)驗(yàn)效果,本文最終采用2 024作為特征對(duì)齊的點(diǎn)數(shù)。

4 結(jié)束語

本文提出了一種基于語義一致性約束與局部-全局感知的多模態(tài)3D視覺定位方法MM-VG,通過蒸餾2D預(yù)訓(xùn)練視覺語言模型知識(shí),幫助3D模型進(jìn)行點(diǎn)云場(chǎng)景編碼,相比現(xiàn)有方法,MM-VG提取的特征點(diǎn)云-文本語義一致性更強(qiáng)。除此之外,本文設(shè)計(jì)了局部與全局感知模塊,先從局部增強(qiáng)候選目標(biāo)特征,再融合候選目標(biāo)、場(chǎng)景與語言三者特征,以深度挖掘場(chǎng)景信息,達(dá)到精確匹配物體邊界框的目的。在ScanRefer數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),在Acc@0.25 IoU和Acc@0.5 IoU兩個(gè)指標(biāo)上分別達(dá)到了50.53%和37.67%,超越了現(xiàn)有大多數(shù)3D視覺定位算法,證實(shí)了MM-VG的有效性。

在本文方法中,知識(shí)遷移所用的2D預(yù)訓(xùn)練視覺語言模型還可應(yīng)用于零樣本與開放集等各種更具挑戰(zhàn)性的任務(wù)[30,31]中。在未來的研究中,可考慮遷移2D視覺語言預(yù)訓(xùn)練大模型完成零樣本或無須文本(language-free)[32]的3D場(chǎng)景理解任務(wù)。

參考文獻(xiàn):

[1]Hu Ronghang,Xu Huazhe,Rohrbach M,et al. Natural language object retrieval[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 4555-4564.

[2]Achlioptas P,Abdelreheem A,Xia Fei,et al. ReferIt3D: neural listeners for fine-grained 3D object identification in real-world scenes[C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 422-440.

[3]Chen D Z,Chang A X,Niener M. ScanRefer: 3D object localization in RGB-D scans using natural language[C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 202-221.

[4]Liu Daqing,Zhang Hanwang,Zha Z J,et al. Learning to assemble neural module tree networks for visual grounding [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4672-4681.

[5]Wang Peng,Wu Qi,Cao Jiewei,et al. Neighbourhood watch: referring expression comprehension via language-guided graph attention networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 1960-1968.

[6]Yang Sibei,Li Guanbin,Yu Yizhou. Cross-modal relationship inference for grounding referring expressions[C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 4140-4149.

[7]Deng Jiajun,Yang Zhengyuan,Chen Tianlang,et al. TransVG: end-to-end visual grounding with transformers [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 1749-1759.

[8]Liao Yue,Liu Si,Li Guanbin,et al. A real-time cross-modality correlation filtering method for referring expression comprehension [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2020: 10877-10886.

[9]Yang Sibei,Li Guanbin,Yu Yizhou. Dynamic graph attention for referring expression comprehension[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4643-4652.

[10]Yu Licheng,Lin Zhe,Shen Xiaohui,et al. MAttNet: modular attention network for referring expression comprehension[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 1307-1315.

[11]Huang Pinhao,Lee H H,Chen H T,et al. Text-guided graph neural networks for referring 3D instance segmentation[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 1610-1618.

[12]He Dailan,Zhao Yusheng,Luo Junyu,et al. TransRefer3D: entity-and-relation aware transformer for fine-grained 3D visual grounding[C]// Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press,2021: 2344-2352.

[13]Zhao Lichen,Cai Daigang,Sheng Lu,et al. 3DVG-Transformer: relation modeling for visual grounding on point clouds[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 2908-2917.

[14]Yuan Zhihao,Yan Xu,Liao Yinghong,et al. InstanceRefer: cooperative holistic understanding for visual grounding on point clouds through instance multi-level contextual referring[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 1771-1780.

[15]Yang Zhengyuan,Zhang Songyang,Wang Liwei,et al. SAT: 2D semantics assisted training for 3D visual grounding[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 1836-1846.

[16]Luo Junyu,F(xiàn)u Jiahui,Kong Xianghao,et al. 3D-SPS: single-stage 3D visual grounding via referred point progressive selection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 16433-16442.

[17]張浩宇,王天保,李孟擇,等. 視覺語言多模態(tài)預(yù)訓(xùn)練綜述[J]. 中國(guó)圖象圖形學(xué)報(bào),2022,27(9): 2652-2682.(Zhang Haoyu,Wang Tianbao,Li Mengze,et al. Comprehensive review of visual-language-oriented multimodal pre-training methods[J]. Journal of Image and Graphics,2022,27(9): 2652-2682.)

[18]吳友政,李浩然,姚霆,等. 多模態(tài)信息處理前沿綜述: 應(yīng)用、融合和預(yù)訓(xùn)練[J]. 中文信息學(xué)報(bào),2022,36(5): 1-20.(Wu Youzheng,Li Haoran,Yao Ting,et al. A survey of multimodal information processing frontiers: application,fusion and pre-training[J]. Journal of Chinese Information Processing,2022,36(5): 1-20.)

[19]Radford A,Kim J W,Hallacy C,et al. Learning transferable visual models from natural language supervision[C]// Proc of International Conference on Machine Learning. [S.l.]: PMLR,2021: 8748-8763.

[20]Ghiasi G,Gu Xiuye,Cui Yin,et al. Scaling open-vocabulary image segmentation with image-level labels[C]// Proc of European Confe-rence on Computer Vision. Cham: Springer,2022: 540-557.

[21]Huang Tianyu,Dong Bowen,Yang Yunhan,et al. Clip2point: transfer clip to point cloud classification with image-depth pre-training[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2023: 22100-22110.

[22]Zhu Xiangyang,Zhang Renrui,He Bowei,et al. PointCLIP V2: adapting clip for powerful 3D open-world learning[EB/OL].(2022-11-21). https://arxiv.org/abs/2211.11682.

[23]Qi C R,Yi Li,Su Hao,et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 5105-5114.

[24]Qi C R,Litany O,He Kaiming,et al. Deep Hough voting for 3D object detection in point clouds[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 9276-9285.

[25]Yan Ming,Li Zhongtong,Yu Xinyan,et al. An end-to-end deep lear-ning network for 3D object detection from RGB-D data based on hough voting[J]. IEEE Access,2020,8: 138810-138822.

[26]Dai A,Niener M. 3DMV: joint 3D-multi-view prediction for 3D semantic scene segmentation[C]// Proc of European Conference on Computer Vision. Cham: Springer,2018: 452-468.

[27]Liu Ze,Lin Yutong,Cao Yue,et al. Swin Transformer: hierarchical vision transformer using shifted windows[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 9992-10002.

[28]Dai A,Chang A X,Savva M,et al. ScanNet: richly-annotated 3D reconstructions of indoor scenes [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 2432-2443.

[29]Kingma D P,Ba J. Adam: a method for stochastic optimization [EB/OL].(2017-01-30). https://arxiv.org/abs/1412.6980.

[30]Gu Xiuye,Lin T Y,Kuo Weicheng,et al. Open-vocabulary object detection via vision and language knowledge distillation [EB/OL].(2022-05-12). https://arxiv.org/abs/2104.13921.

[31]白靜,袁濤,范有福. ZS3D-Net: 面向三維模型的零樣本分類網(wǎng)絡(luò)[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2022,34(7): 1118-1126.(Bai Jing,Yuan Tao,F(xiàn)an Youfu. ZS3D-Net: zero-shot classification network for 3D models[J]. Journal of Computer-Aided Design & Computer Graphics,2022,34(7): 1118-1126.)

[32]Wang Zihao,Liu Wei,He Qian,et al. CLIP-GEN: language-free training of a text-to-image generator with clip[EB/OL].(2022-03-01). https://arxiv.org/abs/2203.00386.