文/溫泉 衣麗君 李敏
基于深度學(xué)習(xí)的駕駛場(chǎng)景數(shù)據(jù)應(yīng)用
文/溫泉 衣麗君 李敏
真實(shí)駕駛場(chǎng)景是智能網(wǎng)聯(lián)汽車(chē)開(kāi)發(fā)、測(cè)試及相關(guān)技術(shù)發(fā)展的基礎(chǔ)條件及關(guān)鍵支撐,可為相關(guān)研究的開(kāi)展提供重要理論依據(jù),而目前,我國(guó)有關(guān)真實(shí)道路場(chǎng)景數(shù)據(jù)的相關(guān)研究比較匱乏。本文首先研究搭建Tensorflow框架用以處理視覺(jué)感知任務(wù)的深度學(xué)習(xí)平臺(tái),然后基于真實(shí)駕駛場(chǎng)景數(shù)據(jù),研究智能車(chē)輛視覺(jué)感知駕駛環(huán)境所依賴的核心算法與網(wǎng)絡(luò)模型,采用卷積神經(jīng)網(wǎng)絡(luò)MultiNet實(shí)現(xiàn)真實(shí)交通環(huán)境中行駛車(chē)道的分割和目標(biāo)物的檢測(cè)。
駕駛場(chǎng)景 智能網(wǎng)聯(lián)汽車(chē) 深度學(xué)習(xí)道路分割 目標(biāo)物檢測(cè)
就汽車(chē)行業(yè)而言,無(wú)人駕駛迅速發(fā)展,已經(jīng)成為汽車(chē)行業(yè)未來(lái)的發(fā)展方向。深度學(xué)習(xí)算法憑借其強(qiáng)大學(xué)習(xí)能力和處理復(fù)雜環(huán)境的能力,正逐漸被用于無(wú)人駕駛中的環(huán)境感知和行駛決策過(guò)程,并成為汽車(chē)大腦的主流選擇。本文首先基于專業(yè)的深度學(xué)習(xí)庫(kù)Tensorflow搭建處理深度感知任務(wù)的深度學(xué)習(xí)平臺(tái),研究真實(shí)駕駛場(chǎng)景道路分割、目標(biāo)車(chē)輛識(shí)別等卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)真實(shí)駕駛場(chǎng)景的智能感知。
深度學(xué)習(xí)目前在業(yè)界已經(jīng)得到了廣泛的應(yīng)用。至今也已有數(shù)種深度學(xué)習(xí)框架,如 TensorFlow、Caffe、Theano、Torch、MXNet等框架都能夠支持深度神經(jīng)網(wǎng)絡(luò)模型。TensorFlow最初由Google Brain團(tuán)隊(duì)的研究員和工程師研發(fā),目前已成為GitHub上最受歡迎的機(jī)器學(xué)習(xí)項(xiàng)目。TensorFlow主要特性有以下幾點(diǎn):
采用圖計(jì)算模型,支持High-Level的API,支持Python、C++、Go、Java接口。
支持CPU和GPU的運(yùn)算,支持臺(tái)式機(jī)、服務(wù)器、移動(dòng)平臺(tái)的計(jì)算。
支持從研究團(tuán)隊(duì)快速遷移學(xué)習(xí)模型到生產(chǎn)團(tuán)隊(duì)。
采用了多線程,隊(duì)列技術(shù)以及分布式訓(xùn)練模型,實(shí)現(xiàn)了在多CPU、多GPU的環(huán)境下分布式訓(xùn)練模型。
通過(guò)對(duì)Tensorflow框架的特點(diǎn)、架構(gòu)、常用接口、網(wǎng)絡(luò)模型的層次結(jié)構(gòu)和軟硬件部署等多個(gè)方面的研究,基于ubuntu16.0操作系統(tǒng),部署cuda 8.0并行計(jì)算平臺(tái)和cuDNN 5.0 GPU計(jì)算加速庫(kù),搭建Tensorflow 1.1深度學(xué)習(xí)平臺(tái)。
深度學(xué)習(xí)在無(wú)人駕駛中的應(yīng)用涉及到多個(gè)環(huán)節(jié),其中卷積神經(jīng)網(wǎng)絡(luò)算法在圖像識(shí)別領(lǐng)域應(yīng)用成熟,可用于提高環(huán)境感知中的圖像識(shí)別的準(zhǔn)確度,已經(jīng)成為無(wú)人駕駛感知部分必不可少的技術(shù)研究點(diǎn)。
本文基于開(kāi)源的MultiNet卷積網(wǎng)絡(luò),對(duì)真實(shí)的駕駛場(chǎng)景數(shù)據(jù)進(jìn)行道路分割與目標(biāo)檢測(cè)研究。該模型被設(shè)計(jì)為encoder-decoder架構(gòu),在每項(xiàng)任務(wù)中使用一個(gè)VGG編碼器和幾個(gè)獨(dú)立解碼器。權(quán)重初始化通過(guò)ImageNet上預(yù)先訓(xùn)練的VGG權(quán)重對(duì)編碼器進(jìn)行初始化。使用單位分布隨機(jī)初始化檢測(cè)和分類解碼器權(quán)重。道路分割解碼器的卷積層也使用VGG權(quán)重進(jìn)行初始化,并且轉(zhuǎn)置卷積層被初始化以執(zhí)行雙線性上采樣。目標(biāo)識(shí)別解碼器在推理速度和檢測(cè)性能上基于Faster-RCNN改進(jìn)得到。MultiNet的實(shí)時(shí)存檔速度和分割性能都處于最先進(jìn)水平。
道路分割和目標(biāo)檢測(cè)都可以轉(zhuǎn)換為圖像分類相關(guān)的語(yǔ)義任務(wù),自從AlexNet網(wǎng)絡(luò)模型出現(xiàn)后,大多數(shù)現(xiàn)代圖像分類方法都開(kāi)始利用深度學(xué)習(xí)算法。深度學(xué)習(xí)實(shí)現(xiàn)的目標(biāo)檢測(cè)首先圈定目標(biāo)區(qū)域,然后對(duì)目標(biāo)區(qū)域進(jìn)行評(píng)估。而卷積神經(jīng)網(wǎng)絡(luò)則在圖像分割中應(yīng)用更為廣泛。MultiNet聯(lián)合圖像分割和目標(biāo)檢測(cè)語(yǔ)義任務(wù),建立聯(lián)合的深度架構(gòu),實(shí)現(xiàn)端到端的訓(xùn)練,多重任務(wù)共享編碼器,獨(dú)享解碼器。編碼器由VGG16網(wǎng)絡(luò)模型的前13層組成。目標(biāo)檢測(cè)解碼器由一個(gè)卷積層、一個(gè)全連接層和softmax層構(gòu)成,形成基于回歸的檢測(cè)系統(tǒng)。分割解碼器在VGG網(wǎng)絡(luò)模型基礎(chǔ)上加以改進(jìn),將VGG的全連接層轉(zhuǎn)換為卷積層,最后三個(gè)轉(zhuǎn)換卷積層進(jìn)行上采樣得到。MultiNet模型通過(guò)KITTI數(shù)據(jù)集訓(xùn)練,在測(cè)試集中分割和識(shí)別表現(xiàn)都非常好,實(shí)現(xiàn)了不同任務(wù)類似語(yǔ)義之間的遷移學(xué)習(xí)。
圖1
圖2:可視化分割輸出
無(wú)人駕駛的環(huán)境感知包括車(chē)道線、車(chē)輛、行人、交通標(biāo)志等目標(biāo)的自動(dòng)檢測(cè)。卷進(jìn)神經(jīng)網(wǎng)絡(luò)應(yīng)用于真實(shí)駕駛場(chǎng)景的道路分割和目標(biāo)識(shí)別研究,可加深駕駛場(chǎng)景環(huán)境要素的理解,助力無(wú)人駕駛技術(shù)的進(jìn)一步完善。
[1]喬維高.無(wú)人駕駛汽車(chē)的發(fā)展現(xiàn)狀及方向[J].上海汽車(chē),2007(07):40-43
[2]余志生.汽車(chē)?yán)碚揫M].北京:機(jī)械工業(yè)出版社,2009.
[3]R.B.Girshick,J.Donahue,T. Darrell, and J.Malik. Rich feature hierarchies for accurate object detection and semantic segmentation.CoRR, abs/1311.2524,2013.
作者單位中國(guó)汽車(chē)技術(shù)研究中心 天津市 300000