張迅,李錦江
(1.同濟大學軟件學院,上海 200000;2.北京科技大學機械工程學院,北京 100000)
自動駕駛是當今熱門研究領域,面臨許多技術挑戰(zhàn)。無人車在行駛時需要依賴感知識別系統(tǒng)對周圍的環(huán)境(道路、行人、車輛等)進行感知,為接下來的基于深度學習及人工智能的駕駛決策及控制提供依據。系統(tǒng)要感知檢測的事物種類繁多,且容易受到天氣、環(huán)境等因素的干擾。如果自動駕駛的算法不能在大量可靠的數據上進行適量的、有效的訓練,那么,當其被投入實際使用后,就可能造成不可預估的后果。因此,為了推動這一領域的后續(xù)研究與發(fā)展,自動駕駛相關數據集應運而生,科研工作者圍繞眾多數據集做了很多開創(chuàng)性的工作。本文在現(xiàn)有文獻基礎上,從數據集內容、采集方法、是否進行標注和標注方法等方面,針對不同的自動駕駛數據集進行總結與對比,為研究自動駕駛場景感知、行為決策及控制算法奠定基礎。
從采集內容、采集設備及方法、標注及標注方法等方面對數據集進行介紹。典型數據集包括KITTI、Apollo、BDD100K、nuScenes、CityScapes 和HDD 等。
KITTI 數據集包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數據,每張圖像中最多達15 輛車和30 個行人。整個數據集由389 對立體圖像和光流圖(包括194 對訓練圖像和195 對測試圖像),39.2km 視覺測距序列以及超過200k 的3D 標注物體的圖像組成,采樣頻率為10Hz,總共約3TB。
Apollo 為百度推出的交通場景解析數據集,包括上萬幀的高分辨率RGB 視頻和與其對應的逐像素語義標注。26 個語義類提供了總共17062 張圖像和相對應的語義標注與深度信息,用于設計算法和訓練模型。
BDD100K 為目前規(guī)模最大、兼具內容復雜性與多樣性的公開駕駛數據集,包含了10 萬段高清視頻,每段視頻約40s時長,分辨率為720p,幀率為30fps。每個視頻的第10s 對關鍵幀進行采樣,得到10 萬張圖片(1280×720),并進行標注。數據集覆蓋了晴天、多云等6 種天氣;公路、城市街道等6 種場景;黎明/黃昏、白天、夜晚3 個階段,還有對目標遮擋和截斷情況標注。
nuScenes 包含1000 個場景,每個場景20 秒長,并用23 個類別和8 個屬性的3D 邊界框完全注釋。
Cityscapes 數據集主要針對城市景觀進行采集,由50個不同城市的街道上錄制的大量不同的立體視頻序列組成,總計25000 張圖像。
HDD 為日本本田研究所駕駛數據集,主要用于研究在現(xiàn)實生活環(huán)境中學習駕駛員的行為。該數據集包括了104小時真實人類駕駛數據總計150GB(1280×720 分辨率、30fps),包括GPS、圖像、激光雷達、汽車導航、司機駕駛行為等方面的信息。
KITTI 數據集使用標準旅行車進行收集,配備有兩種顏色和兩種灰度的PointGrey Flea2 攝像機、Velodyne HDL-64E 3D 激光掃描儀以及帶有RTK 校正信號的GPS/IMU 定位單元和運行實時數據庫的功能強大的計算機。以不同速率工作的攝像頭、激光雷達、GPS 等傳感器置于同一坐標系下;最小化產生基礎事實需要的監(jiān)督數量,為每個基準選擇適當的序列和框架,以及為每個任務開發(fā)指標。
Apollo 數據集的采集使用了裝備有RIEGL VMX-1HA 移動測繪系統(tǒng)的中尺寸多功能越野車來進行。該系統(tǒng)包括兩個LiDAR 傳感器(每秒500 條掃描線,覆蓋420 米內的360 度視角)、一部INS/GNSS 單元以及兩個前向相機(VMX-CS6,3384×2710)。數據的采集頻率為每米一張圖像。
BDD100K 數據集是伯克利大學AI 實驗室在Nexar 協(xié)助下完成的,數據獲取自成千上萬的普通司機,主要由相機、GPS 和IMU 采集。
nuScenes 的采集主要依靠激光雷達和相機。使用諸如激光筆和標定目標板之類的工具將每個傳感器的外在坐標表示為相對于自我框架,即耳軸的中點。特點是可以產生良好的數據對齊。
Cityscapes 數據收集使用了汽車級22 厘米基線立體聲相機,1/3 的CMOS 2 MP 傳感器,以及幀率為17Hz 的滾動快門,產生16 位線性顏色深度的高動態(tài)范圍(HDR)圖像,每個16位立體聲圖像對隨后被剝離和校正。
HDD 數據集的收集使用了三個攝像頭、一個水平激光雷達、一個汽車動力運動分析器和一個汽車控制器區(qū)域網絡(CAN)。
文獻[2]中自行設計了一個圖片標注系統(tǒng),該標注系統(tǒng)是一個通用、可擴展的注釋工具,適用于數據庫中所需的各種注釋,如邊界框、語義實例分割和車道檢測等。該注釋工具可完成的工作包括框注釋、區(qū)域注釋等,同時,具備高可擴展性。標注包括圖像標記、物體檢測、車道、可駕駛區(qū)域、語義實例分割等。
Cityscapes 數據集中,5000 幅圖像具有高質量的像素級注釋;另外,20000 幅圖像具有粗略注釋,以支持利用大量弱標記數據的方法。
HDD 數據集對駕駛場景做了目標方向行為、刺激驅動行為、原因、關注,4 層注釋方案,使用ELAN 軟件進行。
上述數據集中,KITTI 是誕生最早的一個較為全面且合理的數據集,所以率先成為了該領域的一個基準,后續(xù)的許多研究都是通過從KITTI 中進行抽取或改良來獲取實驗用數據的。Apollo 數據集作為在中國國內誕生的數據集,在收集的數據量上有所突破,為國內自動駕駛領域做出了杰出貢獻。BDD100K 在數據量最大最全面,數據種類的多樣性也幾乎能覆蓋所有的自動駕駛場景;nuScenes 以場景劃分為標志的多模態(tài)3D 數據集,是第一個包含雷達數據的自動駕駛數據集;CityScapes 數據集致力于捕捉真實城市內部交通場景的可變性和復雜性,數據量不大,更為精簡;HDD 數據集專注于自動駕駛系統(tǒng)在現(xiàn)實生活環(huán)境中學習真實駕駛員的行為,一種新的注釋方法用于從未經修剪的數據序列中理解駕駛員行為。
總之,數據量、數據種類與制作數據集的目的為數據集之間的主要差別,目的在于針對自動駕駛場景感知、行為決策及控制算法等的不同應用。
綜上所述,現(xiàn)有數據集主要基于計算機視覺相關,為自動駕駛提供廣泛真實的駕車場景,模擬行車復雜環(huán)境,進行先進安全特性的研究。數據集主要由靜態(tài)單圖像組成,通過使用“邊界框”來識別和跟蹤道路內和周圍環(huán)境的常見物體。接下來,需要更精確、像素級的道路物體表示,以及通過連續(xù)視頻駕駛場景的鏡頭?;谝曨l的駕駛場景感知提供的數據流將更接近動態(tài)的真實駕駛情況,可進一步促使自動駕駛中機器學習、場景理解和行為預測的進步。