胡啟慧,蔡英鳳,王 海,陳 龍,董釗志,劉擎超
(1.江蘇大學(xué)汽車工程研究院,鎮(zhèn)江 212013;2.江蘇大學(xué)汽車與交通工程學(xué)院,鎮(zhèn)江 212013;3.南京金龍客車制造有限公司,南京 211200)
智能汽車作為改善交通安全、交通堵塞、能源短缺等問題的有效解決方案,有效的軌跡預(yù)測是智能汽車科學(xué)決策和安全控制的重要前提。目前智能汽車的軌跡預(yù)測大多基于周邊的多個(gè)車輛目標(biāo)來建模,但在城市等復(fù)雜駕駛場景中,智能汽車的相鄰交通參與者不僅包括車輛,而是由不同形狀、動力學(xué)、行為和類型的交通參與者組成,包括車輛、行人、自行車等,同時(shí)還受到道路幾何結(jié)構(gòu)、交通標(biāo)識、交通規(guī)則等車道環(huán)境的約束。因此,如何在預(yù)測過程中充分結(jié)合駕駛場景中的車道環(huán)境約束和其他異構(gòu)多目標(biāo)的交互影響,與周邊環(huán)境進(jìn)行合理交互是提高軌跡預(yù)測精度的關(guān)鍵所在。
目前,國內(nèi)外學(xué)者對軌跡預(yù)測問題進(jìn)行了深入研究,所用方法大體上分為3 類,包括基于傳統(tǒng)物理模型的方法、基于車輛機(jī)動性的方法和基于深度學(xué)習(xí)的方法。其中基于物理模型的方法考慮車輛運(yùn)動學(xué)和動力學(xué)的影響來預(yù)測未來的軌跡,如Lefèvre等[1]將車輛特性(例如質(zhì)量和軸距)、環(huán)境條件(例如速度限制和道路類型)和控制輸入(例如加速度、速度和轉(zhuǎn)向)考慮在內(nèi)。這些方法通常側(cè)重基于對象先前的運(yùn)動來分析對象,且未考慮不同交通參與者的明確意圖和操縱,無法適應(yīng)具有復(fù)雜車輛交互的交通。進(jìn)而,一些學(xué)者提出使用機(jī)動識別和行為預(yù)測兩個(gè)階段對交通參與者的行為進(jìn)行建模。例如,Aoude 等[2]在車道變換場景中,預(yù)定義左車道變換、右車道變換和車道保持3 種機(jī)動,然后基于行為預(yù)測模型第一步中的機(jī)動結(jié)果,生成規(guī)劃結(jié)果。然而大多數(shù)基于機(jī)動的交通參與者行為模型都是單獨(dú)的,而沒有考慮交通參與者之間的影響和互動,且如果他們推斷出錯(cuò)誤的機(jī)動類型或計(jì)算成本非常高,則無法準(zhǔn)確預(yù)測交通代理的意圖。因此隨著深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力,基于深度學(xué)習(xí)的軌跡預(yù)測表現(xiàn)出良好的效果。如Alahi 等[3]提出基于社會共享機(jī)制的社交池捕捉個(gè)體之間的動態(tài)交互。文獻(xiàn)[4]中在此基礎(chǔ)上開始預(yù)測多條軌跡的不確定性。Bi 等[5]將車輛的動力學(xué)特征與神經(jīng)網(wǎng)絡(luò)結(jié)合來表征目標(biāo)之間的交互。為更加定量地建模交互,Jain等[6]將social層依照社交圖的原理改進(jìn)為圖結(jié)構(gòu)和LSTM的形式,可以基于網(wǎng)絡(luò)中節(jié)點(diǎn)和邊緣的組合對交通參與者之間的交互建模為圖形結(jié)構(gòu)。Grip++網(wǎng)絡(luò)[7]使用動態(tài)圖和靜態(tài)圖結(jié)合的方式編碼目標(biāo)之間的交互,以求捕捉事變的交互關(guān)系。Yu 等[8]使用流行的Transformer[9]架構(gòu)分別對空間交互和時(shí)間連續(xù)性進(jìn)行建模。同時(shí),一些方法采用高精地圖矢量化編碼的方式來表達(dá)目標(biāo)與靜態(tài)環(huán)境的交互,如Zhao等[10-11]提出使用地圖對象和代理軌跡的分層Vectornet表示編碼場景上下文。每個(gè)分量都表示為一系列向量,然后由本地圖形網(wǎng)絡(luò)進(jìn)行處理。生成的特征通過完全連接的圖形網(wǎng)絡(luò)進(jìn)行全局聚合。LaneGCN 方法[12]從高清地圖中提取車道圖,并使用圖卷積網(wǎng)絡(luò)計(jì)算車道特征。這些特征與融合網(wǎng)絡(luò)中的代理和其他車道特征相結(jié)合。然而,這些方法只考慮了對同構(gòu)多車輛與環(huán)境之間的交互,沒有考慮場景中包含更多異構(gòu)目標(biāo)的情況,且這些方法在構(gòu)建交互關(guān)系時(shí)忽略了不同個(gè)體的影響權(quán)值,相同權(quán)重劃分并不利于智能汽車做出安全可靠的運(yùn)動決策。
在大多數(shù)城市交通環(huán)境下,目標(biāo)的軌跡預(yù)測主要針對包含多類不同動力學(xué)形態(tài)目標(biāo)的復(fù)雜交通環(huán)境而設(shè)計(jì)的軌跡預(yù)測模型,相比現(xiàn)有方法,異構(gòu)多目標(biāo)場景下的預(yù)測需要同時(shí)考慮不同目標(biāo)之間的動力學(xué)差異、目標(biāo)之間的交互作用和道路結(jié)構(gòu)的約束,其核心和難點(diǎn)在于對異構(gòu)關(guān)系的提取和建模上。目前一些方法考慮到包含異構(gòu)目標(biāo)場景下的軌跡預(yù)測。Chandra 等[13]提出了一種由LSTM 和CNN 混合的TraPhic 網(wǎng)絡(luò)用于軌跡預(yù)測,隱含地解釋了具有不同動力學(xué)和行為的動態(tài)代理間的異構(gòu)交互,設(shè)置代理的影響范圍為半橢圓,LSTM通過閾值內(nèi)的目標(biāo)代理和鄰域內(nèi)的交互代理創(chuàng)建交互地圖。這種方案計(jì)算成本高,且使用CNN 匯集附近代理的隱藏狀態(tài)會丟失某些運(yùn)動信息,限制了模型所能達(dá)到的精度。為克服這種缺陷,Ma 等[14]提出了另一種方案,從實(shí)例層和類別層分別分析代理之間的復(fù)雜交互,其中實(shí)例層用于捕獲交通中每個(gè)個(gè)體的移動和交互,類別層用于學(xué)習(xí)屬于相同類別個(gè)體的移動模式,因?yàn)橥愇矬w的移動速度、個(gè)體間交互方式較接近,因此這種同時(shí)提取類別運(yùn)動特征和個(gè)體運(yùn)動特征的方法能取得一個(gè)更好的結(jié)果。該方案的性能優(yōu)于TraPhic,但由于鄰域中的每個(gè)流量代理都使用LSTM,因此其計(jì)算成本仍然很高。另一方面,這些模型的輸入輸出表示都是在固定大小和固定空間組織的數(shù)據(jù)上呈現(xiàn)的,不具有很好的泛化性,即不能靈活地適應(yīng)代理的數(shù)量和類型,以及模型在不同場景下的可轉(zhuǎn)移性。
因此,針對軌跡預(yù)測中交互關(guān)系提取存在的不足,本文綜合考慮異構(gòu)目標(biāo)類別之間的差異性、個(gè)體之間的交互性和道路結(jié)構(gòu)的約束性,提出一種基于層次圖注意的異構(gòu)多目標(biāo)軌跡預(yù)測模型(HGATP)。該模型將多因素的異構(gòu)交互關(guān)系表征為目標(biāo)-類別-地圖之間的層次圖,其中類別層對不同異構(gòu)目標(biāo)的行駛狀態(tài)參數(shù)獨(dú)立編碼,并通過注意力機(jī)制求得不同類目標(biāo)之間的差異權(quán)值,此權(quán)值作用于目標(biāo)層中由各獨(dú)立目標(biāo)所構(gòu)建的異構(gòu)圖,來表征異構(gòu)目標(biāo)之間的對不同對象的差異性互動,地圖層則通過矢量化的方式構(gòu)建拓?fù)潢P(guān)系后添加選擇性采樣機(jī)制和目標(biāo)層實(shí)現(xiàn)交互,以此滿足不同運(yùn)動模式對象對地圖的差異性關(guān)注。通過異構(gòu)圖來提取交互關(guān)系彌補(bǔ)了常規(guī)交互對異構(gòu)交互關(guān)系提取不充分的問題,同時(shí)添加層次圖之間的注意力機(jī)制更加準(zhǔn)確地捕捉不同因素之間的依賴關(guān)系的差異,不僅提升了算法訓(xùn)練時(shí)的收斂速度,也提高了異構(gòu)多目標(biāo)軌跡預(yù)測的精確性和可解釋性,更加適用于復(fù)雜場景中的軌跡預(yù)測。
經(jīng)典的車輛軌跡預(yù)測問題可以表述為一個(gè)基于目標(biāo)車輛歷史軌跡信息預(yù)測其在未來場景中軌跡信息的問題。具體來講,將目標(biāo)車歷史軌跡信息表示為X=[p(1),p(2),…,p(th)],未來預(yù)測時(shí)刻tf段的目標(biāo)車軌跡信息=f(X),其中p(t)=[x(t),y(t)],指目標(biāo)車在時(shí)刻t的位置坐標(biāo)信息,th指歷史觀測時(shí)間段,tf指未來預(yù)測時(shí)間段。
本文將此問題擴(kuò)展為綜合考慮周邊多類目標(biāo)和靜態(tài)交通道路信息的多目標(biāo)軌跡預(yù)測問題。具體來講,本文假設(shè)自車所在的場景中有N個(gè)周邊目標(biāo),即交互目標(biāo)的集合表示為X={X1,X2,…,XN},每一個(gè)目標(biāo)Xi在時(shí)刻t時(shí)的運(yùn)動狀態(tài)表示為=,即用目標(biāo)的質(zhì)心坐標(biāo)(x,y)、速度v、加速度a和偏航角θ等微觀運(yùn)動參數(shù)表示。此外,本文目標(biāo)所處交通場景的道路信息表示為M=[lid,lcen,lturn,lcon,linter],其中l(wèi)id指車道序列號,lcen指車道中心線序列點(diǎn),lturn指車道轉(zhuǎn)向情況,lcon指車道是否有交通控制,linter指車道是否是交叉口。因此本文的預(yù)測問題表示為
式中Yi包含目標(biāo)i在未來時(shí)刻t(t∈(tobs,tobs+tf))時(shí)的運(yùn)動狀態(tài),表示為=[,]。
本文所提模型主要由3 部分組成,分別是多目標(biāo)特征編碼網(wǎng)絡(luò)、層次圖注意聚合網(wǎng)絡(luò)和多目標(biāo)預(yù)測網(wǎng)絡(luò)。首先,多目標(biāo)特征編碼網(wǎng)絡(luò)構(gòu)建異構(gòu)目標(biāo)之間的交互圖和車道的拓?fù)潢P(guān)系圖,并對不同類目標(biāo)之間獨(dú)立編碼來保留不同對象之間的差異性。然后,層次圖注意聚合網(wǎng)絡(luò)分別對編碼獲得的不同類對象進(jìn)行圖注意力機(jī)制的運(yùn)算,將得到的不同目標(biāo)之間的關(guān)注度作用于異構(gòu)目標(biāo)之間的交互圖上來加強(qiáng)表征異構(gòu)對象之間的交互,同時(shí)使用縮放點(diǎn)積注意力對編碼的車道特征進(jìn)行針對異構(gòu)目標(biāo)的選擇性采樣,完成各目標(biāo)之間的特征聚合。最后,將聚合后的特征傳入預(yù)測網(wǎng)絡(luò),輸出多個(gè)異構(gòu)對象的未來軌跡。模型整體架構(gòu)圖如圖1所示。
圖1 HGATP模型整體框架圖
1.2.1 多目標(biāo)特征編碼網(wǎng)絡(luò)
(1)層次圖的構(gòu)建
異構(gòu)目標(biāo)交互圖:本文首先對多目標(biāo)之間的交互關(guān)系構(gòu)建交互圖,表示為有向圖G=,其中V={V1,V2,…,VN}表示場景中的N個(gè)目標(biāo),每個(gè)節(jié)點(diǎn)包含時(shí)刻t時(shí)目標(biāo)的位置、速度、加速度、偏航角和類別信息,即=。而節(jié)點(diǎn)之間的連邊主要包括時(shí)間連邊和空間連邊,如圖2 所示。其中時(shí)間連邊由各個(gè)目標(biāo)在不同幀之間的狀態(tài)演變組成,也就是任一目標(biāo)的歷史運(yùn)動信息,而空間連邊是指不同目標(biāo)在相同時(shí)間幀內(nèi)的特征交互關(guān)系。具體來講,如果目標(biāo)i位于目標(biāo)j預(yù)設(shè)的鄰域范圍內(nèi),便認(rèn)為存在由i指向j的空間連邊,表示為={Eid,Eattr,Etype}?V×V,即空間連邊包含對應(yīng)目標(biāo)id 之間的連接信息、特征(x,y,v,a,θ)之間的屬性差值信息和串聯(lián)的特征類別嵌入,且這些邊都屬于有向邊。通過這些信息所構(gòu)建的有向圖不僅包含了每個(gè)目標(biāo)間的交互信息,還包含了每個(gè)類別的信息,因此可以使用其來建立類別和目標(biāo)之間分層的互動。
圖2 異構(gòu)目標(biāo)交互圖
車道矢量拓?fù)鋱D:本文參考LaneGCN[12]中直接從矢量化地圖表征車輛行駛環(huán)境的思想,將HD 地圖編碼為有向圖G(V,E),來捕獲車輛代理和地圖信息的拓?fù)浜烷L期依賴關(guān)系。具體來講,使用車道中心線作為節(jié)點(diǎn)V,即將車道中心線均勻采樣為一系列鳥瞰點(diǎn),每個(gè)點(diǎn)用車道中心線點(diǎn)序列的中點(diǎn)表示,且同時(shí)具有方向?qū)傩院臀恢脤傩?。為確保每個(gè)節(jié)點(diǎn)代表長度相似的車道段,將較長的車道中心線劃分為固定長度的較小片段,并將其離散為一組N個(gè)車道段的集合,如圖3 所示。每個(gè)片段對應(yīng)于圖中的一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)V表示為一系列特征向量:
圖3 車道矢量拓?fù)鋱D
式中、和表示第n段道路片段的位置和偏航。
車道節(jié)點(diǎn)之間的邊考慮3 種類型,分別為后續(xù)邊、前連邊和相鄰邊[15]。其中,后續(xù)邊Esuc指沿車道將節(jié)點(diǎn)連接到下一個(gè)節(jié)點(diǎn)的邊,如果車道在交叉口分叉,則給定節(jié)點(diǎn)可以有多個(gè)后續(xù)節(jié)點(diǎn)。同理,如果兩個(gè)或多個(gè)車道合并,則多個(gè)節(jié)點(diǎn)可以具有相同的后續(xù)節(jié)點(diǎn)。前連邊Epre則剛好相反,考慮當(dāng)前節(jié)點(diǎn)的前段相連邊是為考慮目標(biāo)車附近車輛的影響和意外情況的出現(xiàn)。同時(shí)為考慮變道情況的出現(xiàn),本文還定義了相鄰車道節(jié)點(diǎn)之間的相鄰邊Eprox。因此,節(jié)點(diǎn)之間的拓?fù)溥B邊信息使用鄰接矩陣來表達(dá):
式中Ai∈RN×N,若Ai,jk=1 說明nodej和nodek之間存在第i種鄰居關(guān)系。
(2)特征編碼
對于異構(gòu)目標(biāo)的特征表示,之前的研究大多使用同一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs 來表征,沒有考慮到不同對象之間的運(yùn)動差異。但實(shí)際上,不同類別的目標(biāo)速度、常規(guī)安全距離和對彼此的反應(yīng)都大不相同[16],比如車輛對行人的安全距離比自行車對行人的安全距離要大得多,二者對于前方出現(xiàn)的行人的反應(yīng)也大不相同,汽車相對自行車更為謹(jǐn)慎,會更快速地做出反應(yīng)。因此對于不同類型的目標(biāo),本文考慮獨(dú)立的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來提取動態(tài)特征,常用的處理時(shí)序數(shù)據(jù)的RNN 有門控遞歸網(wǎng)絡(luò)(GRU)和長短時(shí)記憶網(wǎng)絡(luò)(LSTM),由于GRU 相比LSTM 更加高效,計(jì)算也更加簡便,本文在實(shí)施時(shí)采用GRU來實(shí)現(xiàn)目標(biāo)節(jié)點(diǎn)特征的編碼,即分別使用3 個(gè)GRU編碼器編碼周邊車輛軌跡、行人的軌跡和自行車的軌跡,分別輸出車輛編碼hcar、行人編碼hped和自行車編碼hbic。
而對于矢量地圖的拓?fù)浠幋a,本文使用LaneGCN[12]中的圖卷積算法進(jìn)行編碼。首先對構(gòu)建的車道節(jié)點(diǎn)進(jìn)行車道段的局部特征編碼,本文用全連接實(shí)現(xiàn)一條車道的信息聚合:
式中:vi是第i個(gè)節(jié)點(diǎn)的坐標(biāo),即第i個(gè)車道段的中心坐標(biāo);分別表示此車道段的起始點(diǎn)。聚合后的xi表示節(jié)點(diǎn)特征矩陣X的第i行,表示第i個(gè)車道節(jié)點(diǎn)的輸入特征。然后同樣使用LonvConv 算子獲取車道間的拓?fù)浣Y(jié)構(gòu),將交互車道圖G(包括車道節(jié)點(diǎn)X和車道連邊情況A)輸入圖卷積網(wǎng)絡(luò)中,表示為
式中:Ai和Wi指第i種車道的鄰居連接方式(即i∈{相鄰})對應(yīng)的鄰接矩陣和權(quán)重矩陣;X指節(jié)點(diǎn)特征矩陣;kc是卷積層第c個(gè)膨脹大小。
1.2.2 層次圖注意聚合網(wǎng)絡(luò)
(1)目標(biāo)-類別注意
注意力模塊源于人類的視覺注意力機(jī)制,人類通常利用有限的注意力從大量的信息源中獲取對自己最有效的信息[17]。對于異構(gòu)多目標(biāo)的交互來說,當(dāng)前設(shè)置的異構(gòu)圖僅設(shè)置了不同節(jié)點(diǎn)之間的差異,沒有體現(xiàn)不同類別對節(jié)點(diǎn)之間的互動影響。因此,本文設(shè)置目標(biāo)-類別之間的注意模塊來捕捉異構(gòu)目標(biāo)之間的互動,由于異構(gòu)目標(biāo)之間圖關(guān)系的構(gòu)建,首先對類別之間設(shè)置圖形注意力模塊[18]來獲取不同類之間的彼此關(guān)注度,然后將此關(guān)注度作用于前文構(gòu)建的異構(gòu)圖上來捕捉異構(gòu)目標(biāo)之間的交互。
對于不同類型的權(quán)值,上文編碼得到了各自的編碼特征,在此基礎(chǔ)上獲取每個(gè)類別編碼的投影以作為類別嵌入,然后求取任意兩個(gè)類別間的注意力分?jǐn)?shù),表示為
式中:hc表示各類目標(biāo)的編碼特征(即前文節(jié)點(diǎn)經(jīng)由GRU 編碼之后的hcar、hped和hbic);?表示線性層;Aci,cj表示ci類目標(biāo)對于cj類目標(biāo)的注意力分?jǐn)?shù);||表示不同rc的級聯(lián);ac是學(xué)習(xí)的注意力權(quán)值向量;δ(?)表示非線性激活層。
獲取的類別間的注意力分?jǐn)?shù)A主要用于為異構(gòu)圖的邊值添加類別權(quán)值,使之更合理地表征不同目標(biāo)對彼此的關(guān)注度。具體而言,對前文構(gòu)建的異構(gòu)圖連邊分別進(jìn)行投影之后與類別間注意分?jǐn)?shù)Aci,cj進(jìn)行點(diǎn)乘:
(2)目標(biāo)-車道注意
目標(biāo)的移動除受自身動力學(xué)約束和其他參與者的交互影響外,道路結(jié)構(gòu)帶來的約束也不容忽視[19]。例如行人更關(guān)注人行道,車隊(duì)中較慢的車輛更可能換道等。因此,本文在地圖編碼時(shí)像其他針對單目標(biāo)的預(yù)測研究一樣,選擇地圖矢量化編碼來表征其影響。但在異構(gòu)目標(biāo)中,不同類型的目標(biāo)由于其運(yùn)動模式大不相同,對于地圖的關(guān)注度也有很大差異。比如在同時(shí)移動的相同時(shí)間內(nèi),車輛走過的地圖極大可能遠(yuǎn)超過行人步行的距離,如果只使用固定尺寸的地圖,將遺漏掉車道對于不同目標(biāo)移動的許多約束[20]。因此,本文對目標(biāo)-地圖之間進(jìn)行縮放點(diǎn)積注意力模塊來對地圖進(jìn)行更新選擇。
將編碼之后的各類節(jié)點(diǎn)特征級聯(lián)操作作為Query 值,矢量化編碼之后的車道特征作為Key 和Value值來進(jìn)行注意力運(yùn)算,更新后的地圖節(jié)點(diǎn)編碼是通過將注意力層的輸出與原始節(jié)點(diǎn)編碼連接起來獲得的:
1.2.3 多目標(biāo)預(yù)測網(wǎng)絡(luò)
本文的預(yù)測網(wǎng)絡(luò)由LSTM 和全連接網(wǎng)絡(luò)組成。對于類別為c的N個(gè)目標(biāo)來說,異構(gòu)多目標(biāo)狀態(tài)表示為異構(gòu)代理的節(jié)點(diǎn)編碼向量hc、相鄰目標(biāo)節(jié)點(diǎn)的交互邊狀態(tài)編碼ei,j和目標(biāo)選擇更新后的車道編碼特征3 部分的級聯(lián)結(jié)果。將異構(gòu)多目標(biāo)狀態(tài)作為預(yù)測網(wǎng)絡(luò)的輸入,分別使用3個(gè)LSTM 預(yù)測不同類型的軌跡,3 個(gè)LSTM 共享相同的結(jié)構(gòu),將被訓(xùn)練成不同的權(quán)重。
本文使用Python編程語言和PyTorch庫實(shí)現(xiàn),其中模型使用Adam 優(yōu)化器來加速模型的學(xué)習(xí)速度,將Adam 優(yōu)化器的學(xué)習(xí)率設(shè)定為0.001,使訓(xùn)練能夠更準(zhǔn)確地找到全局最優(yōu)點(diǎn)。每次都將模型訓(xùn)練為回歸任務(wù),將損失函數(shù)設(shè)置為預(yù)測值與真實(shí)值之間的MSE損失,計(jì)算如下:
式中:表示軌跡真值;i表示序列長度;j表示輸出數(shù)據(jù)維度。
本文在交互數(shù)據(jù)集 nuScenes[21]和INTERACTION[22]上分別進(jìn)行模型訓(xùn)練和驗(yàn)證。nuScenes 數(shù)據(jù)集是一個(gè)在波士頓和新加坡收集的自動駕駛汽車數(shù)據(jù)集,共包含1 000 個(gè)場景,每個(gè)場景20 s,帶有地面實(shí)況注釋和高清地圖。車輛具有手動注釋的3D 邊界框,這些邊界框以2 Hz 采樣,預(yù)測任務(wù)是利用過去2 s 的物體歷史和地圖來預(yù)測接下來的6 s。由于nuScenes 豐富的場景和注釋詳細(xì)的高精地圖,本文在此數(shù)據(jù)集上進(jìn)行了部分驗(yàn)證,但官方提供的是預(yù)測單目標(biāo)車輛的軌跡,因此為驗(yàn)證多目標(biāo)的效果,本文同時(shí)在INTERACTION 數(shù)據(jù)集上進(jìn)行了驗(yàn)證。INTERACTION 數(shù)據(jù)集包含來自世界各地的高度互動的城市場景中不同交通參與者(即車輛和行人)的自然軌跡,記錄的場景可分為3 個(gè)部分:并道、十字路口、環(huán)島場景。預(yù)測任務(wù)是利用過去1 s 的目標(biāo)歷史軌跡和地圖來預(yù)測未來的3 s,10 Hz 的采樣頻率。數(shù)據(jù)集的劃分本文使用兩個(gè)數(shù)據(jù)集的官方劃分標(biāo)準(zhǔn)。
從平均位移誤差(ADE)和最終位移誤差(FDE)兩方面對預(yù)測性能進(jìn)行評價(jià)。其中ADE 是整個(gè)時(shí)間步長上預(yù)測軌跡與地面真實(shí)值之間的平均L2 距離,F(xiàn)DE 定義為預(yù)測軌跡端點(diǎn)與地面真值之間的位移誤差。對于nuScenes 數(shù)據(jù)集的標(biāo)準(zhǔn)來說,文中預(yù)測了同一目標(biāo)的多模軌跡,因此在評價(jià)指標(biāo)上略有差異,使用K條軌跡的最小ADE 和最小FDE 作為度量,即使用minADE和minFDE。計(jì)算結(jié)果如下:
式中:(,)為時(shí)刻τ目標(biāo)的預(yù)測軌跡;(,)為時(shí)刻τ的地面真實(shí)軌跡;Tf為預(yù)測范圍。
將現(xiàn)有的異構(gòu)目標(biāo)軌跡預(yù)測模型GRIP、Trajectron++和本文提出的HGATP 及一些基線模型進(jìn)行定量和定性分析,典型模型和HGATP 變體如下所示。
(1)GRIP[7]:通過引入固定圖和可訓(xùn)練圖來模擬時(shí)刻變化的異構(gòu)目標(biāo)交互,沒有考慮靜態(tài)車道環(huán)境和異構(gòu)目標(biāo)之間差異的影響,使用GCN 網(wǎng)絡(luò)提取代理之間的交互特征,并同時(shí)預(yù)測多個(gè)目標(biāo)的軌跡。
(2)Trajectron++[23]:通過編碼語義地圖有效地整合高維數(shù)據(jù),并將動力學(xué)約束融入到基于學(xué)習(xí)的多智能體軌跡預(yù)測方法中的通用方法。
(3)HGATP-GCN:本方法的一種只考慮目標(biāo)個(gè)體之間的變體交互。在本方法中只按照目標(biāo)間空間距離構(gòu)建交互,用GCN 提取交互特征,不考慮其他因素的影響。
(4)HGATP-NoMap:本方法的一種不考慮車道約束的變體方法。在本方法中,只使用目標(biāo)和類別之間的交互,即使用了類別和目標(biāo)之間的注意力模塊,并將權(quán)值與目標(biāo)連接邊點(diǎn)乘來加強(qiáng)交互圖的方法。
(5)HGATP-NoCat:本方法的一種不考慮類別交互的變體方法。在本方法中,舍棄類別之間的權(quán)重值,考慮目標(biāo)和車道之間的注意。
(6)HGATP:作為本文的主要方法,不僅考慮目標(biāo)個(gè)體之間時(shí)空的交互,同時(shí)添加類別層的權(quán)值強(qiáng)化異構(gòu)圖,并考慮車道對目標(biāo)的約束。
2.2.1 定量分析
對比GRIP、Trajectron++、本文所提方法HGATP和nuScenes數(shù)據(jù)集榜單上的其他先進(jìn)模型的性能如表1 所示。由于nuScenes 數(shù)據(jù)集上針對單一目標(biāo)預(yù)測多模軌跡,因此本文計(jì)算了同時(shí)預(yù)測5 條軌跡和10 條軌跡時(shí)的6 s 平均位移誤差(ADE)和對應(yīng)置信度最高軌跡的最終位移誤差(FDE),單位為m。與不考慮目標(biāo)之間的差異和地圖的GRIP相比,本文所提模型在預(yù)測多條軌跡時(shí),ADE的誤差減小約23%,對應(yīng)最高置信度的軌跡FDE 減小約22%,這意味著本文模型同時(shí)考慮諸多因素是合理的。而與考慮動力學(xué)和地圖的Trajectron++方法相比,ADE 和FDE 也都有所提升,說明本文方法在考慮相同因素時(shí)設(shè)置的結(jié)構(gòu)有一定優(yōu)勢。此外,與先進(jìn)模型SG-Net[24]和Lapred[25]的對比結(jié)果表明,在預(yù)測較少模態(tài)軌跡時(shí),本文方法均取得較小的誤差,而在多模預(yù)測時(shí),本文方法預(yù)測效果相比Lapred 略差,這可能與本模型在異構(gòu)目標(biāo)關(guān)系的構(gòu)建有關(guān),如不同運(yùn)動類別的行人和車輛在進(jìn)行多模軌跡預(yù)測時(shí)可能表現(xiàn)了更多的可能性。
表1 幾種模型在nuScenes數(shù)據(jù)集上驗(yàn)證結(jié)果的對比
表2 中對比了本文所提模型與一些基線模型和INTERACTION 數(shù)據(jù)集上的其他先進(jìn)模型的實(shí)驗(yàn)結(jié)果。但由于INTERACTION 數(shù)據(jù)集榜單的排名限制,將所有模型復(fù)現(xiàn)并在選擇的3 個(gè)典型場景(如圖6 可視路段)中進(jìn)行對比,以求更加公平地進(jìn)行驗(yàn)證。其中,Seq2Seq 為只使用GRU 無差別編碼目標(biāo)并解碼多目標(biāo)的基線,GCN 為考慮目標(biāo)之間固定交互圖的多目標(biāo)預(yù)測基線,HEAT 模型[20]構(gòu)建異構(gòu)對象之間的邊緣增強(qiáng)圖,同時(shí)選擇門控機(jī)制選擇地圖。由于INTERACTION 數(shù)據(jù)集規(guī)定的預(yù)測任務(wù)為利用過去1 s 時(shí)間的歷史軌跡預(yù)測未來3 s 時(shí)間的一條確定性軌跡,因此本文使用未來3 s 內(nèi)單模態(tài)軌跡的ADE 和FDE 指標(biāo)在INTERACTION 數(shù)據(jù)集上進(jìn)行測試。結(jié)果表明,本文所提模型的ADE 和FDE 較基線模型都有較大提升,說明本模型在同時(shí)預(yù)測多個(gè)目標(biāo)時(shí)也能很好地提升預(yù)測精度。另外,在與典型的GRIP 和Trajectron++模型相比,本模型在平均誤差數(shù)據(jù)上依然保持較好的預(yù)測精度。在與榜單先進(jìn)模型HEAT 模型相比,本文所提模型在ADE 的效果優(yōu)于該模型,但FDE 的效果略差,說明本模型在短時(shí)間的預(yù)測效果較好,但終點(diǎn)預(yù)測存在改進(jìn)之處。
表2 基線模型在INTERACTION 數(shù)據(jù)集上驗(yàn)證結(jié)果的對比
為驗(yàn)證所提模型的各組件對最終結(jié)果的影響,本文在INTERACTION 數(shù)據(jù)集上分別驗(yàn)證了本模型的幾種變體。如圖4 所示,分別計(jì)算不同變體在預(yù)測3 s軌跡時(shí)的預(yù)測誤差,由于數(shù)據(jù)集將目標(biāo)中的自行車和行人目標(biāo)歸為一類,因此評估了兩類目標(biāo)的誤差。
圖4 HGATP及變體在INTERACTION 上的對比實(shí)驗(yàn)
2.2.2 測試效果
圖5 和圖6 為本文所提模型分別在nuScenes 和INTERACTION 兩個(gè)數(shù)據(jù)集上的可視化效果。如圖5 所示,在預(yù)測單目標(biāo)車輛的nuScenes 數(shù)據(jù)集上,目標(biāo)車的預(yù)測軌跡與車道結(jié)構(gòu)有緊密聯(lián)系,直道上的預(yù)測效果更貼合真實(shí)軌跡,而交叉口的預(yù)測軌跡則展現(xiàn)了較好的多模態(tài)性,匹配不同軌跡的置信度,更能體現(xiàn)預(yù)測的安全性。除此之外,可以看出不同軌跡也捕捉到可能的速度差異。在INTERACTION 數(shù)據(jù)集上,有環(huán)島、并道和路口3 種場景,圖6 的第1、3、5 行展示道路實(shí)際場景和目標(biāo)的真實(shí)軌跡,對應(yīng)的第2、4、6 行為預(yù)測結(jié)果。結(jié)果顯示,在路口的場景中,大多數(shù)目標(biāo)直線行駛,預(yù)測效果最好,環(huán)島場景中大部分目標(biāo)預(yù)測效果較準(zhǔn),但一些轉(zhuǎn)彎弧度較大的目標(biāo)誤差較大,這與并道場景中顯示的結(jié)果類似,其原因可能是忽視了車道的曲率和目標(biāo)的速度方向,從而影響了模型在這些場景中的效果。
圖5 nuScenes數(shù)據(jù)集上模型預(yù)測效果
圖6 INTERACTION 數(shù)據(jù)集上模型預(yù)測效果
提出基于層次圖注意的異構(gòu)多目標(biāo)軌跡預(yù)測方法,通過構(gòu)建目標(biāo)-類別-車道之間的層次圖來表征交互場景,有效地考慮不同因素之間影響異構(gòu)多目標(biāo)軌跡預(yù)測的時(shí)空交互,為進(jìn)一步突出各因素對交互的影響力大小,進(jìn)行層次之間的注意力權(quán)值運(yùn)算來加強(qiáng)異構(gòu)圖的交互表示,最后傳遞給LSTM 網(wǎng)絡(luò)進(jìn)行軌跡解碼重構(gòu)。本方法將不同運(yùn)動模式的目標(biāo)對交互的不同反應(yīng)考慮到實(shí)際影響中,有效解決了對異構(gòu)多目標(biāo)個(gè)體的差異化建模?;贗NTERACTION 和nuScenes 數(shù)據(jù)集上的對比實(shí)驗(yàn)驗(yàn)證了所提方法在異構(gòu)場景中預(yù)測單目標(biāo)和多目標(biāo)時(shí)都有優(yōu)異的效果。未來將考慮異構(gòu)目標(biāo)的動力學(xué)因素建模差異性交互,使建模更具有可解釋性,同時(shí)車道曲率、信號裝置等更多道路約束也將被更充分地考慮,以進(jìn)一步提升預(yù)測精度。