摘要:針對生成對抗網(wǎng)絡(luò)(GAN)需要大量訓(xùn)練數(shù)據(jù)及點(diǎn)云數(shù)據(jù)稀缺且獲取難度大的問題,提出一種基于少量數(shù)據(jù)集的三維點(diǎn)云生成模型。該模型首先通過重采樣和水平旋轉(zhuǎn)的方法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),使第一級網(wǎng)絡(luò)能夠生成具有多樣性的低分辨率點(diǎn)云;其次通過確保低分辨率點(diǎn)云與高分辨率點(diǎn)云之間的對應(yīng)關(guān)系,實(shí)現(xiàn)點(diǎn)云的超分辨率生成;最后實(shí)現(xiàn)生成具有多樣性的高分辨率點(diǎn)云。實(shí)驗(yàn)結(jié)果表明,在ShapeNetPart(ShapeNetPartSegmentationDataset)數(shù)據(jù)集上,該模型的JS散度相較于Tree\|GAN的JS散度下降了0.416,證明其性能優(yōu)于Tree\|GAN。
關(guān)鍵詞:GAN;少量點(diǎn)云數(shù)據(jù);重采樣;數(shù)據(jù)增強(qiáng);超分辨率
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A
0引言(Introduction)
點(diǎn)云生成是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn),它彌補(bǔ)了二維圖像無法直接捕捉現(xiàn)實(shí)世界中物體的深度信息,不適用于需要深度和位置信息的場景。當(dāng)前,三維數(shù)據(jù)集在機(jī)器人導(dǎo)航[1]、自動駕駛汽車[2\|3]、增強(qiáng)現(xiàn)實(shí)[4]和醫(yī)療保健[5\|6]等領(lǐng)域得到廣泛應(yīng)用。原始點(diǎn)云憑借其緊湊且高效的數(shù)據(jù)表示形式越來越受歡迎,日益成為捕捉物體的復(fù)雜細(xì)節(jié)的首選方法。作為三維信息的一種直接體現(xiàn),點(diǎn)云數(shù)據(jù)集在需要精確描繪物體形狀和結(jié)構(gòu)的應(yīng)用中展現(xiàn)出不可替代的價(jià)值,其應(yīng)用前景廣闊。然而,與圖像數(shù)據(jù)集相比,點(diǎn)云數(shù)據(jù)集存在數(shù)據(jù)稀缺和獲取困難等問題。因此,探索一種創(chuàng)新方法,即利用有限的點(diǎn)云數(shù)據(jù)訓(xùn)練生成模型,進(jìn)而生成更多的具有多樣性的點(diǎn)云數(shù)據(jù)。這一方法的成功實(shí)現(xiàn),將有望突破點(diǎn)云數(shù)據(jù)應(yīng)用的瓶頸,推動相關(guān)領(lǐng)域技術(shù)的快速發(fā)展。
1方法介紹(Methodsintroduction)
在自然圖像處理中,SHAHAM等[7]提出了一種用于單張自然圖像訓(xùn)練的生成模型SinGAN。該模型可以捕捉給定圖像內(nèi)部各個(gè)區(qū)塊的分布,生成帶有與給定圖像中的視覺內(nèi)容相同的高質(zhì)量且具有多樣性的新圖像。
受SinGAN思想的啟發(fā),針對點(diǎn)云數(shù)據(jù)稀缺問題,本文提出了一種基于少量點(diǎn)云數(shù)據(jù)訓(xùn)練學(xué)習(xí)的生成模型。該模型由兩個(gè)生成器和兩個(gè)判別器構(gòu)成,生成器和判別器是一一對應(yīng)的。點(diǎn)云的分辨率也就是點(diǎn)云中所包含的點(diǎn)的數(shù)量,在不同分辨率下,模型分別部署了一個(gè)生成器以及一個(gè)與之匹配的判別器,通過彼此之間的博弈,學(xué)習(xí)不同分辨率下的給定點(diǎn)云數(shù)據(jù)服從的分布,在推理階段生成具有多樣性的點(diǎn)云數(shù)據(jù)。本文貢獻(xiàn)主要體現(xiàn)在兩個(gè)方面:①通過對給定的輸入點(diǎn)云數(shù)據(jù)進(jìn)行重采樣和水平旋轉(zhuǎn)操作,實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),達(dá)到增加訓(xùn)練數(shù)據(jù)樣本數(shù)量的目的;②通過保證低分辨率點(diǎn)云與高分辨率點(diǎn)云之間的對應(yīng)關(guān)系,經(jīng)過訓(xùn)練實(shí)現(xiàn)點(diǎn)云的超分辨率生成。
2相關(guān)研究(Relatedresearch)
近年來,基于生成對抗網(wǎng)絡(luò)(GAN)的點(diǎn)云生成模型受到廣泛關(guān)注。GAN是一種生成式模型,由GOODFELLOW等[8]于2014年提出,現(xiàn)已成為人工智能領(lǐng)域的熱門研究方向。近期,深度神經(jīng)網(wǎng)絡(luò)在生成3D數(shù)據(jù)的應(yīng)用引起了學(xué)術(shù)界的廣泛關(guān)注,并催生了多種解決方案,包括從圖像生成點(diǎn)云[9\|10]、從圖像生成體素[11]、從圖像生成網(wǎng)格[12],以及從點(diǎn)云生成點(diǎn)云[13]、從點(diǎn)云生成體素[14]等。生成的3D數(shù)據(jù)已廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,如圖像分割[15]、分類[16]、目標(biāo)檢測[17\|18]和特征提?。?9]等,取得了顯著的成果。
當(dāng)前,生成對抗網(wǎng)絡(luò)(GAN)在自然圖像處理中的應(yīng)用日益廣泛,例如PolaritySampling[20]方法通過控制預(yù)訓(xùn)練的深度生成網(wǎng)絡(luò),有效提升了生成圖像質(zhì)量和多樣性;特征統(tǒng)計(jì)混合正則化[21](FeatureStatisticsMixingRegularization,F(xiàn)SMR),將FSMR添加到基于增強(qiáng)的GAN方法時(shí),能進(jìn)一步提高圖像的質(zhì)量。此外,GAN還成功應(yīng)用于發(fā)型編輯(HairCLIP)[22]、風(fēng)格遷移(EFDM[23]和DualStyleGAN[24])及人臉屬性編輯(結(jié)合Transformer的TransEditor[25])等領(lǐng)域,并實(shí)現(xiàn)了更高分辨率圖像的生成(Styleformer[26])。然而,這些方法都無法應(yīng)用到點(diǎn)云中,這主要?dú)w因于點(diǎn)云數(shù)據(jù)的無序性和非結(jié)構(gòu)化特性,為GAN在點(diǎn)云領(lǐng)域的應(yīng)用帶來了挑戰(zhàn)。
在3D方面,GAN的應(yīng)用同樣展現(xiàn)出巨大的潛力與創(chuàng)新,例如有用于生成逼真合理的虛擬形象姿勢的FLAG[27];有通過學(xué)習(xí)一個(gè)統(tǒng)一的局部翹曲函數(shù),將多個(gè)相同的預(yù)定義先驗(yàn)信息(即均勻分布在規(guī)則三維網(wǎng)格上的點(diǎn)集)翹曲成由局部結(jié)構(gòu)感知語義驅(qū)動的三維形狀的WarpingGAN[28];LIU等[29]提出了一種用于點(diǎn)云上采樣的Pufa\|gan;還有研究將自注意力與推理樹結(jié)構(gòu)相結(jié)合,基于此構(gòu)建成的點(diǎn)云生成器SG\|GAN[30];特別值得一提的是Tree\|GAN[31],為了實(shí)現(xiàn)多類3D點(diǎn)云生成的先進(jìn)性能,它引入了樹結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(TreeGCN)作為Tree\|GAN的生成器。因?yàn)門reeGCN在樹中執(zhí)行圖卷積,所以它可以使用祖先信息提高特征的表示能力。因此,Tree\|GAN在精度和計(jì)算效率方面優(yōu)于其他基于GAN的點(diǎn)云生成方法。然而,GAN作為生成模型,也面臨著一定的挑戰(zhàn)。其中,對訓(xùn)練數(shù)據(jù)數(shù)量的需求是一個(gè)顯著的問題。當(dāng)訓(xùn)練數(shù)據(jù)過少時(shí),GAN的生成效果往往會受到影響,導(dǎo)致生成的樣本質(zhì)量不佳。
在自然圖像方面,有用于從單張自然圖像中學(xué)習(xí)的無條件生成模型(SinGAN)。在SinGAN中,提出了一種可以從單張自然圖像中學(xué)習(xí)的無條件生成模型,這個(gè)模型被訓(xùn)練用來捕獲圖像內(nèi)部塊的分布,能夠生成與作為訓(xùn)練樣本的圖像具有相同視覺內(nèi)容的高質(zhì)量、多樣化的樣本。SinGAN包含一個(gè)由全卷積GAN組成的金字塔,每個(gè)生成器負(fù)責(zé)學(xué)習(xí)圖像中不同尺度的區(qū)塊分布,這樣就可以生成任意大小和寬高比的新樣本,這些新樣本具有顯著的多樣性,與此同時(shí)還保持了訓(xùn)練圖像的全局結(jié)構(gòu)和細(xì)微紋理。SinGAN可以只使用單張自然圖像所構(gòu)成的訓(xùn)練集生成具有多樣性的新圖像樣本,但是將其直接用于點(diǎn)云生成仍然存在一定問題。由于點(diǎn)云數(shù)據(jù)與自然圖像不同,它是非結(jié)構(gòu)化數(shù)據(jù),具有無序性,無法像自然圖像這類結(jié)構(gòu)化數(shù)據(jù)一樣進(jìn)行分塊操作,所以對于整體模型的設(shè)計(jì)思路要做相應(yīng)的改進(jìn),通過改進(jìn)后的模型可以實(shí)現(xiàn)使用少量點(diǎn)云數(shù)據(jù)生成具有多樣性的點(diǎn)云數(shù)據(jù)的目的,解決了GAN存在的需要訓(xùn)練數(shù)據(jù)數(shù)量大且獲取困難的問題。
3模型設(shè)計(jì)(Modeldesign)
本文提出了一個(gè)由樹結(jié)構(gòu)生成網(wǎng)絡(luò)和判別器構(gòu)成的金字塔型生成模型,該生成模型有兩層,每一層都由一組互相對應(yīng)的生成器和判別器構(gòu)成,通過生成器和判別器彼此之間的博弈,學(xué)習(xí)到不同分辨率下的點(diǎn)云所服從的分布規(guī)律,然后將生成得到的點(diǎn)云作為輸入送入下一層,以此獲得信息更加豐富的點(diǎn)云,通過這種方式生成具有多樣性的點(diǎn)云數(shù)據(jù)。
3.1樹結(jié)構(gòu)生成網(wǎng)絡(luò)原理
Tree\|GAN的生成器是一種典型的樹結(jié)構(gòu)生成網(wǎng)絡(luò),它的輸入是從高斯分布采樣得到的一個(gè)點(diǎn)。在生成器的每一層級中,通過分支(Branching)操作和圖卷積(GraphConv)操作生成第l組點(diǎn)pl,之前所有層級生成的點(diǎn)都被存儲并附加到當(dāng)前層級的樹結(jié)構(gòu)中,樹從根節(jié)點(diǎn)開始,通過分支操作分裂成子節(jié)點(diǎn),并通過圖卷積操作修改節(jié)點(diǎn)。分支操作是一種增加點(diǎn)總數(shù)的過程,類似于2D卷積中的上采樣操作。
為了增強(qiáng)傳統(tǒng)GCN的性能,Tree\|GAN提出了一種用樹結(jié)構(gòu)增強(qiáng)的新型GCN(即TreeGCN)。TreeGCN通過將信息從節(jié)點(diǎn)的祖先傳遞給節(jié)點(diǎn)的后代,為分層GCN引入了樹結(jié)構(gòu)。TreeGCN的主要獨(dú)特特征是每個(gè)節(jié)點(diǎn)是通過引用樹中其祖先的值而不是其鄰居的值來更新其值,本文提出的樹狀圖卷積(TreeGCN)公式定義如下:
3.2損失函數(shù)
本文引入WGAN\|GP[32]的目標(biāo)函數(shù),生成器的損失函數(shù)Lgen定義如下:
其中:D為判別器,G為生成器,Z為潛碼z所服從的潛在分布,這里采用的是正態(tài)分布N(0,I)。
判別器的損失函數(shù)Ldisc定義如下:
其中:G(z)為生成器所生成的點(diǎn)云;x為真實(shí)的點(diǎn)云樣本;R表示真實(shí)的數(shù)據(jù)分布,并且使用了梯度懲罰的方法;x〖DD(-1*2〗[HT5]^〖DD)〗是從真假點(diǎn)云中采樣的;λgp為梯度懲罰項(xiàng)的常系數(shù)。
3.3整體網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的網(wǎng)絡(luò)結(jié)構(gòu)建立在樹結(jié)構(gòu)生成網(wǎng)絡(luò)和判別器的基礎(chǔ)上,通過由粗到精的方式生成點(diǎn)云,具體生成方式如下:第一級網(wǎng)絡(luò)的生成器得到一個(gè)來自高斯分布中采樣得到的點(diǎn)的輸入,然后生成低分辨率的點(diǎn)云數(shù)據(jù),將這個(gè)點(diǎn)云數(shù)據(jù)作為輸入送入第二級網(wǎng)絡(luò)后,得到1024個(gè)點(diǎn)的點(diǎn)云樣本。
由于訓(xùn)練樣本的數(shù)量較少,為了解決這個(gè)問題,本文使用了如下方法:在第一級網(wǎng)絡(luò)中,使用重采樣和水平旋轉(zhuǎn)的方法增加訓(xùn)練樣本的數(shù)量。第一級網(wǎng)絡(luò)對應(yīng)的是低分辨率的點(diǎn)云樣本,此時(shí)對于一個(gè)點(diǎn)云樣本先進(jìn)行重復(fù)采樣,然后進(jìn)行水平旋轉(zhuǎn)可以生成多個(gè)不同的樣本數(shù)據(jù)。在第二級網(wǎng)絡(luò)中,面臨著重采樣方法不適用和點(diǎn)云樣本數(shù)量有限的問題,因此使用水平旋轉(zhuǎn)方法,并建立低分辨率點(diǎn)云與高分辨率點(diǎn)云之間的對應(yīng)關(guān)系,使用低分辨率點(diǎn)云生成高分辨率點(diǎn)云,從而保證生成點(diǎn)云的多樣性。
整個(gè)網(wǎng)絡(luò)是逐級訓(xùn)練的,完成對第一級網(wǎng)絡(luò)的訓(xùn)練之后,再開始進(jìn)行第二級網(wǎng)絡(luò)的訓(xùn)練,整體的訓(xùn)練階段流程圖如圖1所示。
3.4生成器網(wǎng)絡(luò)結(jié)構(gòu)
第一級網(wǎng)絡(luò)所用的生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,它是一種樹結(jié)構(gòu)生成網(wǎng)絡(luò),其生成方式是先從高斯分布中采樣得到一個(gè)點(diǎn)作為輸入(也就是根節(jié)點(diǎn)),然后通過圖樹分支操作分成多個(gè)節(jié)點(diǎn),例如從(1,256)的點(diǎn)變成(2,256)的點(diǎn),通過圖卷積操作實(shí)現(xiàn)點(diǎn)的特征通道數(shù)的變化,例如從(1,96)變成(1,256),經(jīng)過多次圖樹分支操作和圖卷積操作,最終實(shí)現(xiàn)從(1,96)的根節(jié)點(diǎn)變成(128,3)的點(diǎn)云樣本。
第二級網(wǎng)絡(luò)中用于點(diǎn)云生成的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。從圖3中可以看出,與第一級網(wǎng)絡(luò)的不同之處在于生成器之前加入了一個(gè)特征池化層(關(guān)于特征池化層的具體細(xì)節(jié)在后面的小節(jié)中進(jìn)行描述)。由于第一級網(wǎng)絡(luò)生成的是點(diǎn)云數(shù)據(jù),所以需要保證第二級網(wǎng)絡(luò)能夠滿足點(diǎn)云的置換不變性,因此加入特征池化層。
3.5特征池化層
從圖1中可以看到,在第二級網(wǎng)絡(luò)使用的生成器前加入了一個(gè)特征池化層,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。特征池化層是由幾個(gè)多層感知機(jī)(MLP)和一個(gè)最大池化層組成的,這里加入特征池化層的目的是實(shí)現(xiàn)點(diǎn)云的置換不變性,提取它的一個(gè)全局特征。通過多層感知機(jī)將每一點(diǎn)都映射到高維空間,在更高維空間對數(shù)據(jù)做對稱性操作(這里選用的是最大池化操作)。在三維點(diǎn)的表達(dá)中,采用高維空間不可避免地會引入信息冗余,但也正是因?yàn)樾畔⒌娜哂嘈?,通過進(jìn)行對稱性操作之后,可以減少信息的損失,保留足夠的點(diǎn)云信息。在得到輸入點(diǎn)云的全局特征以后,將其輸入生成器,通過分支(Branching)操作和圖卷積(GraphConv)操作生成特征信息更加豐富的點(diǎn)云。
3.6訓(xùn)練算法流程
整個(gè)網(wǎng)絡(luò)是逐級訓(xùn)練的,訓(xùn)練完一級網(wǎng)絡(luò)以后,再開始訓(xùn)練下一級網(wǎng)絡(luò)。第一級網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)是經(jīng)過重采樣和水平旋轉(zhuǎn)操作后得到的,它的輸入是從高斯分布中采樣得到的一個(gè)點(diǎn),經(jīng)過訓(xùn)練以后,可以實(shí)現(xiàn)通過輸入從高斯分布中采樣得到的點(diǎn),生成具有多樣性的低分辨率的點(diǎn)云樣本。
第二級網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)是通過水平旋轉(zhuǎn)操作后得到的,訓(xùn)練時(shí)所用的輸入數(shù)據(jù)是對經(jīng)過水平旋轉(zhuǎn)后的點(diǎn)云進(jìn)行最遠(yuǎn)點(diǎn)采樣獲得,同時(shí)要保證它們之間的對應(yīng)關(guān)系。經(jīng)過訓(xùn)練以后,實(shí)現(xiàn)輸入低分辨率點(diǎn)云后能夠生成對應(yīng)的高分辨率點(diǎn)云。
4實(shí)驗(yàn)結(jié)果與分析(Experimentalresultsandanalysis)
4.1數(shù)據(jù)集及訓(xùn)練平臺
使用ShapeNetPart數(shù)據(jù)集對本文提出的模型進(jìn)行訓(xùn)練和評估。ShapeNetPart是一個(gè)包含16個(gè)類別的豐富數(shù)據(jù)集,其中訓(xùn)練集含有12137個(gè)樣本,驗(yàn)證集1870個(gè),測試集2874個(gè),總計(jì)樣本量達(dá)到16881個(gè)。該數(shù)據(jù)集中,樣本呈現(xiàn)出不均衡特性,如Table類別有5263個(gè)樣本,而Earphone類別只有69個(gè)樣本??紤]到每個(gè)樣本只包含2048個(gè)點(diǎn),屬于小數(shù)據(jù)集,本文從桌子類別的數(shù)據(jù)集中隨機(jī)挑選了40個(gè)樣本經(jīng)過最遠(yuǎn)點(diǎn)采樣得到對應(yīng)的1024個(gè)點(diǎn)的新樣本,作為訓(xùn)練集用于模型訓(xùn)練。實(shí)驗(yàn)平臺為搭載GeForceRTX3090GPU的服務(wù)器,配置環(huán)境為Python3.8和Tensorflow2.4\|gpu。
4.2評價(jià)指標(biāo)
本文使用JS散度(Jensen\|ShannonDivergence)評估生成點(diǎn)云的質(zhì)量,JS散度是在歐幾里得三維空間的邊緣分布上定義的,假設(shè)條件為軸對齊的點(diǎn)云數(shù)據(jù)和環(huán)境空間中的規(guī)范體素網(wǎng)格,可以測量點(diǎn)云A與點(diǎn)云B占據(jù)相似位置的程度。通過分別計(jì)算點(diǎn)云A和點(diǎn)云B中每個(gè)體素內(nèi)的點(diǎn)數(shù),獲得經(jīng)驗(yàn)分布(PA,PB)之間的JSD:
其中:M=〖SX(〗1〖〗2〖SX)〗(PA+PB),D(·‖·)是兩個(gè)分布之間的KL散度(Kullback\|Leiblerdivergence),KL散度是一個(gè)用來衡量兩個(gè)概率分布之間相似性的度量指標(biāo),計(jì)算公式如下:
4.3參數(shù)設(shè)置
本文對生成器和判別器網(wǎng)絡(luò)都使用了Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為α=10-4,其他系數(shù)分別為β1=0.001和β2=0.99。在生成器中,使用LeakyReLU(α=0.2)作為沒有批歸一化的非線性函數(shù)。損失函數(shù)中梯度懲罰系數(shù)設(shè)置為10,判別器每次迭代更新2次,生成器每次迭代更新一次。潛在向量z∈R96從正態(tài)分布N(0,I)中采樣以作為第一級網(wǎng)絡(luò)的輸入,TreeGCN的循環(huán)項(xiàng)有K=10個(gè)支持。判別器的網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)如表1所示。
4.4生成新點(diǎn)云可視化結(jié)果
因?yàn)閷?shí)現(xiàn)了數(shù)據(jù)增強(qiáng),并且采用由粗到精的生成方式生成點(diǎn)云,所以在少量訓(xùn)練集的情況下也能生成具有多樣性的點(diǎn)云,模型可以學(xué)習(xí)得到點(diǎn)云服從的概率分布。而且,由于輸入第一級網(wǎng)絡(luò)的潛碼是隨機(jī)采樣得到的,所以會生成得到訓(xùn)練集中所沒有的新的點(diǎn)云,使用的訓(xùn)練集和生成的新點(diǎn)云可視化結(jié)果如圖5所示。
4.5與Tree\|GAN模型的對比實(shí)驗(yàn)
針對GAN在訓(xùn)練過程中需要大量數(shù)據(jù)的問題,當(dāng)使用較少的訓(xùn)練集用于模型訓(xùn)練時(shí),模型往往因訓(xùn)練不足而生成質(zhì)量不佳的點(diǎn)云,這一現(xiàn)象在Tree\|GAN模型的生成結(jié)果中尤為明顯。本文提出的方法使用了重采樣和水平旋轉(zhuǎn)操作,實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng),保證了訓(xùn)練數(shù)據(jù)數(shù)量的充足性,同時(shí)采用了由粗到精的方法生成點(diǎn)云,保證了最終生成的點(diǎn)云的質(zhì)量及多樣性。在針對“桌子”這一類別進(jìn)行2000個(gè)epoch后,兩個(gè)模型所生成的點(diǎn)云可視化結(jié)果對比如圖6所示。
從圖6展示的可視化結(jié)果可以看出,當(dāng)使用較少的訓(xùn)練集進(jìn)行訓(xùn)練時(shí),Tree\|GAN的生成效果并不理想,具體表現(xiàn)為生成的點(diǎn)云質(zhì)量不好,點(diǎn)的分布不均勻,并且整體點(diǎn)云缺乏顯著的多樣性。相比之下,本文提出的方法在經(jīng)過相同的周期訓(xùn)練后生成了相對高質(zhì)量的點(diǎn)云,點(diǎn)的分布相對均勻,并且具有顯著的多樣性。
除了比較兩個(gè)模型最終生成點(diǎn)云的可視化結(jié)果,實(shí)驗(yàn)還使用了JS散度分別評估最終生成點(diǎn)云的質(zhì)量,本文選擇在“桌子”這一類別上訓(xùn)練2000個(gè)epoch并進(jìn)行評價(jià)指標(biāo)的對比,對比結(jié)果如表2所示。
從表2中的對比結(jié)果中可以看出,在使用少量訓(xùn)PnIJgtZ+B2U0Pon5/3J4Vw==練集并且經(jīng)過相同訓(xùn)練周期的情況下,使用本文提出的方法生成的點(diǎn)云的質(zhì)量要比使用Tree\|GAN生成的點(diǎn)云的質(zhì)量好,JSD相比Tree\|GAN下降了0.416,更加接近真實(shí)點(diǎn)云的概率分布。
4.6消融實(shí)驗(yàn)
本文的生成器用到的損失函數(shù)是WGAN\|GP的目標(biāo)函數(shù),然而在圖像超分辨率領(lǐng)域,它的生成器損失函數(shù)是基于均方誤差(MeanSquareError,MSE)的,通過MSE進(jìn)行逐像素點(diǎn)計(jì)算,以此衡量生成的圖像與參考圖像之間的相似度。參考圖像超分辨率的損失函數(shù),對本文模型的第二級網(wǎng)絡(luò)使用的生成器的損失函數(shù)進(jìn)行修改,加入均方誤差(RootMeanSquareError,RMSE),通過RMSE進(jìn)行逐點(diǎn)計(jì)算,以此衡量兩組點(diǎn)云之間的相似程度,增加生成點(diǎn)云的質(zhì)量,使之更加接近真實(shí)點(diǎn)云的概率分布。
因此,對初始的生成器損失函數(shù)進(jìn)行修改,加入了RMSE,并在同一個(gè)數(shù)據(jù)集上訓(xùn)練2000個(gè)epoch后進(jìn)行評價(jià)指標(biāo)的對比,對比結(jié)果如表3所示。
從表3對比結(jié)果中可以看出,在生成器損失函數(shù)中加入RMSE之后,模型經(jīng)過訓(xùn)練最終生成的點(diǎn)云與真實(shí)點(diǎn)云更加相似,JSD評價(jià)指標(biāo)下降了0.2,更加接近真實(shí)點(diǎn)云的概率分布。
5結(jié)論(Conclusion)
本文提出了一種基于少量數(shù)據(jù)集的三維點(diǎn)云生成模型,使用重采樣和水平旋轉(zhuǎn)方法實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng),保證了訓(xùn)練數(shù)據(jù)充分,同時(shí)由于采用了由粗到精的方法生成點(diǎn)云,保證了最終生成的點(diǎn)云的質(zhì)量和多樣性。在ShapeNetPart數(shù)據(jù)集的“桌子”這一類別上與Tree\|GAN進(jìn)行了生成點(diǎn)云的可視化結(jié)果對比以及JSD評價(jià)指標(biāo)的對比,結(jié)果均表明本文提出的方法在使用較少訓(xùn)練集的情況下生成的點(diǎn)云質(zhì)量優(yōu)于Tree\|GAN。后續(xù)將針對網(wǎng)絡(luò)進(jìn)行持續(xù)改進(jìn),嘗試對生成點(diǎn)云的特征進(jìn)行控制,例如特征混合等。
參考文獻(xiàn)(References)
[1]WANGXX,MIZUKAMIY,TADAM,etal.Navigationofamobilerobotinadynamicenvironmentusingapointcloudmap[J].Artificiallifeandrobotics,2021,26(1):10\|20.
[2]CHENSH,LIUBA,F(xiàn)ENGC,etal.3Dpointcloudprocessingandlearningforautonomousdriving:impactingmapcreation,localization,andperception[J].IEEEsignalprocessingmagazine,2021,38(1):68\|86.
[3]PARKJ,KIMC,KIMS,etal.PCSCNet:fast3DsemanticsegmentationofLiDARpointcloudforautonomouscarusingpointconvolutionandsparseconvolutionnetwork[J].Expertsystemswithapplications,2023,212:118815.
[4]ZHOUJQ,XUH,MAZ,etal.Sparsepointcloudgenerationbasedonturntable2Dlidarandpointcloudassemblyinaugmentedrealityenvironment[C]∥I2MTC.ProceedingsoftheIEEEInternationalInstrumentationandMeasurementTechnologyConference.Glasgow:IEEE,2021:1\|6.
[5]CHENRJ,LUMY,SHABANM,etal.Wholeslideimagesare2Dpointclouds:Context\|awaresurvivalpredictionusingpatch\|basedgraphconvolutionalnetworks[C]∥MICCAI.ProceedingsoftheMICCAIMedicalImageComputingandComputerAssistedIntervention.Strasbourg:MICCAI,2021:339\|349.
[6]KAMENCAYP,SINKOM,HUDECR,etal.Improvedfeaturepointalgorithmfor3Dpointcloudregistration[C]∥TSP.Proceedings&jrznSLlazfbPbU45bzRHl0spAmZnyu17o8eVtEpVKuU=nbsp;oftheIEEEInternationalConferenceonTelecommunicationsandSignalProcessing.Budapest:IEEE,2019:517\|520.
[7]SHAHAMTR,DEKELT,MICHAELIT.Singan:learningagenerativemodelfromasinglenaturalimage[C]∥MORTENSENE.ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.NewYork:IEEE,2019:4570\|4580.
[8]GOODFELLOWI,POUGET\|ABADIEJ,MIRZAM,etal.Generativeadversarialnets[J].Advancesinneuralinformationprocessingsystems,2014,27.
[9]LIJX,LEEGH.DeepI2P:image\|to\|pointcloudregistrationviadeepclassification[C]∥BRENDELW.Proceedingsofthe2021IEEE/CVFConferenceonComputerVisionandPatternRecognition.Nashville:IEEE,2021:15960\|15969.
[10]LIUFM,LIUX.Voxel\|based3Ddetectionandreconstructionofmultipleobjectsfromasingleimage[J].Advancesinneuralinformationprocessingsystems,2021,34:2413\|2426.
[11]RUKHOVICHD,VORONTSOVAA,KONUSHINA.Imvoxelnet:imagetovoxelsprojectionformonocularandmulti\|viewgeneral\|purpose3Dobjectdetection[C]∥WACV.ProceedingsoftheIEEE/CVFWinterConferenceonApplicationsofComputerVision.Waikoloa:IEEE,2022:2397\|2406.
[12]WANGYY,XUJG,SUNYF.End\|to\|endtransformerbasedmodelforimagecaptioning[J].ProceedingsoftheAAAIconferenceonartificialintelligence,2022,36(3):2585\|2594.
[13]YANGYQ,F(xiàn)ENGC,SHENYR,etal.Foldingnet:pointcloudauto\|encoderviadeepgriddeformation[C]∥BRENDELW.ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity:IEEE,2018:206\|215.
[14]ZHOUY,TUZELO.Voxelnet:end\|to\|endlearningforpointcloudbased3Dobjectdetection[C]∥BRENDELW.ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity:IEEE,2018:4490\|4499.
[15][JP3]繆永偉,劉家宗,孫瑜亮,等.基于類別\|實(shí)例分割的室內(nèi)點(diǎn)云場景修復(fù)補(bǔ)全[J].計(jì)算機(jī)學(xué)報(bào),2021,44(11):2189\|2202.
[16]CHARLESRQ,HAOS,MOKC,etal.PointNet:deeplearningonpointsetsfor3Dclassificationandsegmentation[C]∥2017IEEEConferenceonComputerVisionandPatternRecognition.IEEE,2017:77\|85.
[17]鐘宇,張靜,張華,等.基于目標(biāo)檢測的機(jī)器人手眼標(biāo)定方法[J].計(jì)算機(jī)工程,2022,48(3):100\|106.
[18]LIZL,QUZ,ZHOUY,etal.Diversitymatters:fullyexploitingdepthcluesforreliablemonocular3Dobjectdetection[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:2791\|2800.
[19]DAIJJ,WEIMQ,XIEQ,etal.Aircraftseamfeatureextractionfrom3Drawpointcloudviahierarchicalmulti\|structurefitting[J].Computer\|aideddesign,2021,130:102945.
[20]HUMAYUNAI,BALESTRIEROR,BARANIUKR.Polaritysampling:qualityanddiversitycontrolofpre\|trainedgenerativenetworksviasingularvalues[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:10641\|10650.
[21]KIMJ,CHOIY,UHY.Featurestatisticsmixingregularizationforgenerativeadversarialnetworks[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:11294\|11303.
[22]WEITY,CHENDD,ZHOUWB,et al.Hairclip:designyourhairbytextandreferenceimage[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:18072\|18081.
[23]ZHANGYB,LIMH,LIRH,etal.Exactfeaturedistributionmatchingforarbitrarystyletransferanddomaingeneralization[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:8035\|8045.
[24]YANGS,JIANGLM,LIUZW,etal.Pastichemaster:exemplar\|basedhigh\|resolutionportraitstyletransfer[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:7693\|7702.
[25]XUYB,YINYQ,JIANGLM,etal.Transeditor:transformer\|baseddual\|spaceganforhighlycontrollablefacialediting[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:7683\|7692.
[26]PARKJ,KIMY.Styleformer:transformerbasedgenerativeadversarialnetworkswithstylevector[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:8983\|8992.
[27]ALIAKBARIANS,CAMERONP,BOGOF,etal.Flag:flow\|based3Davatargenerationfromsparseobservations[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:13253\|13262.
[28]TANGYZ,QIANY,ZHANGQJ,etal.WarpingGAN:warpingmultipleuniformpriorsforadversarial3Dpointcloudgeneration[C]∥DANAK.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.NewOrleans:IEEE,2022:6397\|6405.
[29]LIUH,YUANH,HOUJH,etal.PUFA\|GAN:afrequency\|awaregenerativeadversarialnetworkfor3Dpointcloudupsampling[J].IEEEtransactionsonimageprocessing:apublicationoftheieeesignalprocessingsociety,2022,31:7389\|7402.
[30]LIYS,BACIUG.SG\|GAN:adversarialself\|attentionGCNforpointcloudtopologicalpartsgeneration[J].IEEEtransactionsonvisualizationandcomputergraphics,2022,28(10):3499\|3512.
[31]SHUDW,PARKSW,KWONJ.3Dpointcloudgenerativeadversarialnetworkbasedontreestructuredgraphconvolutions[C]∥MORTENSENE.ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.NewYork:IEEE,2019:3859\|3868.
[32]GULRAJANII,AHMEDF,ARJOVSKYM,etal.Improvedtrainingofwassersteingans[C]∥NIPS.Proceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems(NIPS'17).NewYork:CurranAssociatesInc.,2017:5769\|5779.
作者簡介:
張淵杰(1998\|),男,碩士生。研究領(lǐng)域:人工智能,點(diǎn)云處理。
沈洋(1975\|),男,博士,教授。研究領(lǐng)域:深度學(xué)習(xí),點(diǎn)云分析,圖像處理。
許浩(1988\|),男,博士,講師。研究領(lǐng)域:深度學(xué)習(xí)與優(yōu)化方法,計(jì)算機(jī)圖像處理。
包艷霞(1980\|),女,博士,講師。研究領(lǐng)域:優(yōu)化算法理論,人工智能。
應(yīng)震(1975\|),男,本科,工程師。研究領(lǐng)域:圖形圖像處理。