面向深度學(xué)習(xí)的彈載圖像處理異構(gòu)加速現(xiàn)狀分析

2021-08-23 02:36陳棟田宗浩

航空兵器 2021年3期

陳棟田宗浩

摘要：本文分析了深度學(xué)習(xí)算法向工程應(yīng)用轉(zhuǎn)化存在的問題，結(jié)合陸軍智能彈藥的特點(diǎn)和發(fā)展趨勢(shì)，分別從深度學(xué)習(xí)模型壓縮、量化，硬件平臺(tái)加速設(shè)計(jì)以及異構(gòu)加速框架設(shè)計(jì)等方面進(jìn)行研究，提出了面向深度學(xué)習(xí)的彈載圖像處理異構(gòu)加速體系，實(shí)現(xiàn)從算法開發(fā)到硬件異構(gòu)移植的流程化設(shè)計(jì)。隨后，利用DeePhi Tech的異構(gòu)加速框架DNNDK對(duì)Yolo v3模型進(jìn)行壓縮、量化，權(quán)重壓縮率90%以上，模型參數(shù)壓縮率80%以上，實(shí)現(xiàn)了Yolo v3的輕量化設(shè)計(jì)。在DPU硬件加速架構(gòu)的基礎(chǔ)上，實(shí)現(xiàn)算法向彈載嵌入式平臺(tái)的移植，其功耗和識(shí)別檢測(cè)效率滿足彈載圖像處理的要求。

關(guān)鍵詞：彈載圖像;深度學(xué)習(xí);FPGA;脈動(dòng)陣列;Winograd卷積

中圖分類號(hào)：TJ760; TP18? 文獻(xiàn)標(biāo)識(shí)碼： A? 文章編號(hào)：1673-5048（2021）03-0010-08

0 引? 言

萬物互聯(lián)時(shí)代的到來為部隊(duì)裝備智能化建設(shè)帶來了新的機(jī)遇，信息和微電子等前沿技術(shù)在軍事領(lǐng)域的廣泛應(yīng)用催生出大批精良的新式裝備，使得傳統(tǒng)的作戰(zhàn)理念發(fā)生翻天覆地的變化。對(duì)炮兵來說，彈藥的智能化水平主要體現(xiàn)在目標(biāo)自主識(shí)別、跟蹤及毀傷，完全依靠彈上的控制系統(tǒng)獨(dú)立完成作戰(zhàn)任務(wù)，并且命中精度和抗干擾能力更強(qiáng)。目前，國(guó)內(nèi)外對(duì)精確制導(dǎo)彈藥的研究主要集中在衛(wèi)星、激光、雷達(dá)以及圖像等幾種模式。其中，衛(wèi)星制導(dǎo)精度依賴于目標(biāo)的定位精度，激光制導(dǎo)需要前沿觀察所在彈丸工作末期給予激光指引，與雷達(dá)制導(dǎo)同屬被動(dòng)制導(dǎo)，易于被敵發(fā)現(xiàn)，而圖像制導(dǎo)利用圖像傳感器采集目標(biāo)反射或輻射的可見光信息形成圖像，抗干擾能力強(qiáng)，不易被目標(biāo)發(fā)現(xiàn)，通過充分挖掘圖像中的信息實(shí)現(xiàn)目標(biāo)的自主識(shí)別、定位和毀傷[1]。

隨著深度學(xué)習(xí)（Deep Learning， DL）算法被應(yīng)用到社會(huì)的各行各業(yè)，卷積神經(jīng)網(wǎng)絡(luò)[2]（Convolution Neural Network， CNN）突破傳統(tǒng)人工挖掘圖像特征導(dǎo)致目標(biāo)識(shí)別準(zhǔn)確率低的瓶頸，通過多隱層的網(wǎng)絡(luò)結(jié)構(gòu)、良好的數(shù)據(jù)集訓(xùn)練、深度挖掘圖像的特征信息，大幅度提升了目標(biāo)識(shí)別的準(zhǔn)確率。隨后，各種基于CNN的改進(jìn)模型被不斷提出，在提升目標(biāo)識(shí)別準(zhǔn)確率的同時(shí)網(wǎng)絡(luò)層次逐步加深，這也對(duì)計(jì)算平臺(tái)的計(jì)算、存儲(chǔ)以及功耗提出了更高要求。彈丸內(nèi)部空間小、作用時(shí)間短，嵌入式硬件平臺(tái)的處理速度成為制約深度學(xué)習(xí)算法向彈載平臺(tái)部署的關(guān)鍵因素。為此，需要在深度學(xué)習(xí)算法和硬件異構(gòu)平臺(tái)加速兩個(gè)方面進(jìn)行研究，滿足彈載圖像目標(biāo)檢測(cè)實(shí)時(shí)性的要求，推動(dòng)圖像制導(dǎo)彈藥的智能化發(fā)展。

1 智能化圖像制導(dǎo)彈藥關(guān)鍵技術(shù)分析

1.1 圖像制導(dǎo)彈藥智能化需求分析

深度學(xué)習(xí)未得到廣泛應(yīng)用之前，圖像制導(dǎo)彈藥主要利用手工特征提取、圖像模板匹配等方法對(duì)目標(biāo)進(jìn)行識(shí)別檢測(cè)，依賴人的先驗(yàn)知識(shí)，不能從本質(zhì)上刻畫圖像的特征，識(shí)別準(zhǔn)確率低，檢測(cè)速度慢;而未來作戰(zhàn)樣式復(fù)雜多變，非接觸、突發(fā)性戰(zhàn)爭(zhēng)成為主要特點(diǎn)，戰(zhàn)爭(zhēng)爆發(fā)后指揮員可能并不明確敵目標(biāo)的主要特征，很難做到制導(dǎo)彈藥的準(zhǔn)確識(shí)別和精確打擊，傳統(tǒng)意義上的圖像制導(dǎo)彈藥會(huì)更依賴于人的主觀判斷識(shí)別目標(biāo)，在瞬息萬變的戰(zhàn)場(chǎng)環(huán)境下可能錯(cuò)失最佳攻擊時(shí)間。深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力，通過監(jiān)督或非監(jiān)督的學(xué)習(xí)方式進(jìn)行訓(xùn)練，逐層、自動(dòng)地學(xué)習(xí)目標(biāo)的特征表示，通過將底層特征抽象形成高層特征，實(shí)現(xiàn)待檢測(cè)目標(biāo)本質(zhì)的描述。利用前期學(xué)習(xí)到的各種目標(biāo)特征信息，彈載處理器對(duì)采集到的圖像進(jìn)行深度挖掘、推理與融合，判斷目標(biāo)類別、

位置，自主控制彈丸命中目標(biāo)，實(shí)現(xiàn)“感知-判斷-決策-行動(dòng)”的新型作戰(zhàn)樣式，自主完成偵察與打擊任務(wù)，如圖1所示。

由圖1看出，傳統(tǒng)圖像制導(dǎo)彈藥將采集的圖像信息回傳至地面站進(jìn)行處理，嚴(yán)重依賴于人的先驗(yàn)知識(shí)，并且對(duì)未知、不確定目標(biāo)往往做不到首發(fā)命中。此外，彈丸作用時(shí)間短，任務(wù)不可逆，數(shù)據(jù)量龐大的圖像信息回傳至地面站處理過程中存在較大時(shí)延，滿足不了系統(tǒng)實(shí)時(shí)性要求;而智能圖像制導(dǎo)彈藥極大釋放人的作用，利用學(xué)習(xí)到的目標(biāo)特征自主完成識(shí)別打擊任務(wù)，僅需要指揮員對(duì)彈藥決策信息進(jìn)行輔助修正，降低誤判率。由于整個(gè)處理過程在彈載平臺(tái)自主實(shí)現(xiàn)，降低了數(shù)據(jù)傳輸對(duì)帶寬的壓力，大大降低系統(tǒng)延遲，增強(qiáng)制導(dǎo)彈藥的響應(yīng)時(shí)間。

1.2 智能圖像制導(dǎo)彈藥目標(biāo)檢測(cè)算法分析

彈體在空中運(yùn)動(dòng)復(fù)雜，彈載圖像受彈體姿態(tài)的影響產(chǎn)生各種變化，例如圖像旋轉(zhuǎn)變化、圖像尺度變化以及戰(zhàn)場(chǎng)環(huán)境因素帶來的目標(biāo)遮擋等非本質(zhì)性變化，這些影響因素給圖像特征提取及目標(biāo)檢測(cè)帶來嚴(yán)峻的挑戰(zhàn)。CNN的最大特點(diǎn)為權(quán)值共享和局部連接，相比淺層網(wǎng)絡(luò)和傳統(tǒng)手工特征提取算法能更簡(jiǎn)潔緊湊地提取特征，具備對(duì)特征旋轉(zhuǎn)、平移、縮放等畸變的不變性。隨著深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域深入研究，出現(xiàn)越來越多的新理論、新方法，基于候選區(qū)域的方法和基于回歸思想的端到端的方法相互借鑒[3-4]，不斷融合，取得了很好的效果。

基于候選區(qū)域的目標(biāo)檢測(cè)算法（兩階段法）通過Selective Search[5]和Edge Boxes[6]等算法提取圖像中的候選區(qū)域（Region proposal），在此基礎(chǔ)上對(duì)候選區(qū)域進(jìn)行分類和位置校準(zhǔn)。例如R-CNN算法采用Selective Search方法對(duì)圖像進(jìn)行分割劃分、整合，得到不同大小的候選區(qū)域，利用CNN在候選區(qū)域上進(jìn)行特征提取，顯著提升了目標(biāo)檢測(cè)的準(zhǔn)確率。由于R-CNN算法對(duì)輸入圖像大小要求嚴(yán)格，圖像縮放操作損失部分有用信息，并且其在提取候選區(qū)域時(shí)存在大量的重復(fù)運(yùn)算，嚴(yán)重影響算法的檢測(cè)速度和效果。為解決R-CNN對(duì)輸入圖像尺寸敏感問題，基于空間金字塔池化層（Spatial Pyramid Pooling， SPP）的SPP-Net算法[7]以及Fast R-CNN算法[8]被提出，利用不同的池化窗口將圖像映射到同一維度，保存完整的圖像信息，檢測(cè)精度得到提升。但對(duì)于候選區(qū)域的操作仍然消耗大量的時(shí)間，算法的實(shí)時(shí)性問題仍未解決。Faster R-CNN算法[9]利用一個(gè)全卷積網(wǎng)絡(luò)RPN（Region Proposal Network）提取圖像特征，將候選區(qū)域從2 000多個(gè)降到300個(gè)，提升了算法檢測(cè)速度。但其網(wǎng)絡(luò)中的多次下采樣操作使圖像紋理細(xì)節(jié)特征損失較多，對(duì)小目標(biāo)的識(shí)別檢測(cè)準(zhǔn)確率較低。為此，一些基于高層特征和低層特征融合的算法被用于提升小目標(biāo)檢測(cè)精度，如超特征網(wǎng)絡(luò)HyperNet（Hyper Feature Net）[10]、多尺度特征金字塔網(wǎng)絡(luò)FPN（Feature Pyramid Networks）[11]等，在降低候選區(qū)域數(shù)量的同時(shí)保證對(duì)小目標(biāo)的檢測(cè)精度。雖然基于候選區(qū)域的目標(biāo)檢測(cè)算法精度和速度不斷提升，但是由于RPN結(jié)構(gòu)的存在，其檢測(cè)速度從本質(zhì)上受到限制，難以滿足彈載平臺(tái)對(duì)于檢測(cè)算法實(shí)時(shí)性的要求。

基于回歸的檢測(cè)算法（單階段法）不需要產(chǎn)生候選區(qū)域，即給定輸入圖像，直接在圖像的多個(gè)位置上回歸出這個(gè)位置的目標(biāo)邊框以及目標(biāo)類別，在保證一定準(zhǔn)確率的前提下，速度得到極大提升。例如文獻(xiàn)[12]提出的Yolo算法，可以通過對(duì)圖像的直接檢測(cè)確定目標(biāo)的邊界框和類別，檢測(cè)速度提高到45 f/s，但其對(duì)緊鄰目標(biāo)和小目標(biāo)的檢測(cè)效果不佳。近年來，Yolo系列算法通過BN操作、殘差網(wǎng)絡(luò)特征融合等算法改進(jìn)，使得模型檢測(cè)精度和速度大幅度提升，并且對(duì)小目標(biāo)的適應(yīng)性增強(qiáng)，模型的規(guī)模也在不斷減小，如Yolo v2/v3[13]，Tiny-Yolo，SlimYolo[14]等。同樣，SSD算法及其改進(jìn)模型[15-16]在Faster R-CNN算法anchor機(jī)制下，針對(duì)小目標(biāo)檢測(cè)進(jìn)行了拓展研究，提高了模型的檢測(cè)精度和速度，如DSSD，DSOD，RSSD等。結(jié)合彈載圖像的特點(diǎn)以及深度學(xué)習(xí)在目標(biāo)檢測(cè)中的發(fā)展趨勢(shì)，基于Yolo系列的算法在衛(wèi)星[17]、無人機(jī)以及彈載平臺(tái)[18-19]目標(biāo)識(shí)別檢測(cè)中得到成功應(yīng)用。為此，本文擬在彈載平臺(tái)部署單階段目標(biāo)檢測(cè)算法，實(shí)現(xiàn)目標(biāo)的快速識(shí)別和定位，為決策和人工輔助修正過程留出充足的響應(yīng)時(shí)間。

隨著網(wǎng)絡(luò)結(jié)構(gòu)的不斷加深和改進(jìn)，模型的檢測(cè)精度不斷提高，但是隨之帶來的是龐大的數(shù)據(jù)量問題，尤其是訓(xùn)練得到的參數(shù)信息會(huì)隨著網(wǎng)絡(luò)的深度呈指數(shù)增加，這給在邊緣部署深度學(xué)習(xí)算法帶來了嚴(yán)峻挑戰(zhàn)。對(duì)于嵌入式設(shè)備而言，存儲(chǔ)空間、計(jì)算資源、能耗以及體積限制了理論模型向工程實(shí)現(xiàn)的轉(zhuǎn)換，輕量化模型設(shè)計(jì)成為解決此問題的重要途徑。早在1989年深度學(xué)習(xí)模型還沒有被廣泛應(yīng)用之前，LeCun教授就在文獻(xiàn)[20]中提出剔除神經(jīng)網(wǎng)絡(luò)中不重要參數(shù)信息思想，達(dá)到壓縮模型尺寸的作用，當(dāng)前很多深度學(xué)習(xí)模型剪枝算法都是基于文獻(xiàn)[20]提出的OBD方法的改進(jìn)。深度學(xué)習(xí)模型壓縮技術(shù)在于減少參數(shù)冗余而不會(huì)損失較大的預(yù)測(cè)精度，關(guān)鍵技術(shù)難點(diǎn)為壓縮量化指標(biāo)的確定，其研究主要集中在精細(xì)化的模型設(shè)計(jì)、量化、Low-Rank分解、模型/通道剪枝以及遷移學(xué)習(xí)等方面，相關(guān)研究均在特定模型中取得較好的壓縮效果，如圖2所示。

模型精細(xì)化設(shè)計(jì)將卷積核分解成多個(gè)小卷積核組合，優(yōu)化模型結(jié)構(gòu)的同時(shí)大大減少網(wǎng)絡(luò)參數(shù)。量化是通過降低權(quán)重參數(shù)的比特位數(shù)進(jìn)行模型壓縮，例如將32 bit浮點(diǎn)權(quán)重轉(zhuǎn)換為8 bit整型以及權(quán)重二值化、三值化等，在保證模型精度的同時(shí)，極大提高了計(jì)算效率，降低了內(nèi)存占用率。模型訓(xùn)練出的權(quán)重矩陣中很多信息是冗余的，Low-Rank分解是用若干小矩陣表達(dá)出大矩陣包含的信息，并且不損失模型精度，大大降低模型的計(jì)算復(fù)雜度和內(nèi)存開銷。模型剪枝分為結(jié)構(gòu)化、非結(jié)構(gòu)化以及中間隱層剪枝，其核心思想是通過判定指標(biāo)確定模型節(jié)點(diǎn)、通道以及參數(shù)的重要程度，剔除對(duì)模型精度影響不大的部分，并通過再訓(xùn)練對(duì)模型進(jìn)行微調(diào)。根據(jù)剪枝再訓(xùn)練過程又可分為永久剪枝和動(dòng)態(tài)剪枝，其中永久剪枝完全依賴于訓(xùn)練模型的權(quán)重信息，裁剪完成后不再參與訓(xùn)練過程。但是對(duì)于網(wǎng)絡(luò)模型來說，某些權(quán)重信息是對(duì)后面權(quán)重參數(shù)的重要補(bǔ)充，永久裁剪后極大降低模型的精度，動(dòng)態(tài)裁剪就是將這些誤裁剪的節(jié)點(diǎn)重新恢復(fù)回來，降低重要參數(shù)被裁剪的風(fēng)險(xiǎn)。遷移學(xué)習(xí)來源于Teacher-Student方法，在結(jié)構(gòu)復(fù)雜、泛化性好、精度高的Teacher模型基礎(chǔ)上“引導(dǎo)”結(jié)構(gòu)簡(jiǎn)單、參數(shù)量少的Student模型訓(xùn)練，得到和Teacher模型精度相近的結(jié)果。

1.3 智能圖像制導(dǎo)彈藥硬件異構(gòu)加速研究

對(duì)于彈載嵌入式平臺(tái)而言，硬件是支撐，軟件是靈魂，結(jié)構(gòu)復(fù)雜的深度學(xué)習(xí)算法離不開硬件平臺(tái)強(qiáng)勁的計(jì)算能力?？紤]到彈載應(yīng)用環(huán)境、作戰(zhàn)任務(wù)的特殊性，智能圖像制導(dǎo)彈藥的軟硬件系統(tǒng)要滿足實(shí)時(shí)性、低功耗以及體積小等各方面要求。

1.3.1 彈載硬件處理器分析

彈載硬件處理器是智能圖像制導(dǎo)彈藥的控制中心，完成圖像采集、目標(biāo)檢測(cè)以及制導(dǎo)控制等功能。國(guó)內(nèi)外鮮有將人工智能技術(shù)應(yīng)用到彈載平臺(tái)，其根本原因在于高性能處理器和彈載應(yīng)用環(huán)境的適配問題，傳統(tǒng)制導(dǎo)彈藥大多利用CPU和DSP等處理器完成簡(jiǎn)單的數(shù)據(jù)采集、控制等功能，目標(biāo)檢測(cè)等復(fù)雜算法在PC端實(shí)現(xiàn)，存在較高時(shí)延，因此高性能硬件處理器成為制約彈藥智能化發(fā)展的首要因素。

目前，面向AI的高性能硬件處理器可以分為CPU，GPU，F(xiàn)PGA，ASIC以及由其組成的多核結(jié)構(gòu)等。其中，CPU的順序執(zhí)行架構(gòu)決定其在大規(guī)模數(shù)值計(jì)算中存在較大時(shí)延，不能滿足彈載任務(wù)對(duì)實(shí)時(shí)性的要求;GPU包含大量的計(jì)算核心，很適合加速并行程度很高的深度學(xué)習(xí)算法，但GPU的功耗較大，空間狹小的彈載平臺(tái)不可能提供足夠的能耗供GPU工作;與通用處理器CPU和GPU相比，專用處理器ASIC為特定任務(wù)定制化的芯片，能獲得高效的處理速度和較低的功耗。例如Google的TPU（Tensor Processing Unit，張量處理器）[39]、國(guó)內(nèi)寒武紀(jì)芯片[40]、IBM的TrueNorth以及華為2018年推出的達(dá)芬奇架構(gòu)的昇騰（Ascend 310/910）AI處理器等[41]。由于ASIC針對(duì)特定任務(wù)量身定做，靈活性差，并且缺少統(tǒng)一的軟硬件開發(fā)平臺(tái)，算法移植難度大，無疑提高了智能彈藥研發(fā)的周期和門檻。現(xiàn)場(chǎng)可編程門陣列（Field Programmable Gate Array， FPGA）是一種計(jì)算密集型器件，能夠支持各種數(shù)據(jù)類型精度，例如FP32，INT8及二進(jìn)制等，芯片上提供許多專用的算術(shù)計(jì)算單元、邏輯資源模塊、片內(nèi)的存儲(chǔ)資源、外圍I/O接口等，其可編程特性可以方便地重新配置數(shù)據(jù)路徑，無論是大規(guī)模并行、適度并行、流水線連續(xù)或者混合形式，都能獲得較好的計(jì)算能力和效率，更容易滿足彈載平臺(tái)計(jì)算、效率、時(shí)延和靈活性需求。另外，隨著深度學(xué)習(xí)模型計(jì)算復(fù)雜度的提高，單一處理器的計(jì)算能力遠(yuǎn)不能滿足需求。伴隨著各硬件處理器制造工藝水平的發(fā)展，多核化、高效能、混合異構(gòu)等成為高性能處理器的發(fā)展趨勢(shì)，充分利用各自的性能優(yōu)勢(shì)進(jìn)行數(shù)據(jù)處理，可以更好地提升系統(tǒng)的算力。

考慮到彈載任務(wù)的特殊性以及對(duì)功耗和硬件體積等限制，基于CPU+FPGA的異構(gòu)體系逐漸成為智能彈藥實(shí)現(xiàn)深度學(xué)習(xí)推理過程的主選方案。例如文獻(xiàn)[42]研究了基于FPGA的彈載圖像數(shù)字采集系統(tǒng)，大大降低圖像采集時(shí)延;文獻(xiàn)[43]將SIFT跟蹤算法移植到FPGA平臺(tái)，實(shí)現(xiàn)高于25 f/s的跟蹤速度;文獻(xiàn)[44]實(shí)現(xiàn)了多種深度學(xué)習(xí)模型在Zynq-7000系列、Zynq UltraScale+MpSoC系列等硬件平臺(tái)的移植工作，為彈載平臺(tái)部署提供了理論基礎(chǔ)。

在FPGA上實(shí)現(xiàn)深度學(xué)習(xí)算法加速，主要考慮計(jì)算模塊、控制模塊以及數(shù)據(jù)傳輸模塊的設(shè)計(jì)，其中，計(jì)算模塊主要是對(duì)卷積運(yùn)算的硬件加速，是整個(gè)硬件加速設(shè)計(jì)的核心環(huán)節(jié);控制模塊是整個(gè)加速單元的控制系統(tǒng)，負(fù)責(zé)系統(tǒng)參數(shù)同步、初始化以及啟動(dòng)各子模塊;數(shù)據(jù)傳輸模塊主要負(fù)責(zé)片上緩存和片外內(nèi)存間的數(shù)據(jù)調(diào)度。各模塊之間協(xié)調(diào)工作，實(shí)現(xiàn)各個(gè)功能的流水線設(shè)計(jì)，高效利用硬件資源，滿足彈載FPGA異構(gòu)平臺(tái)對(duì)實(shí)時(shí)性和功耗的要求。

1.3.2 卷積計(jì)算硬件加速

在深度學(xué)習(xí)模型中，卷積計(jì)算量對(duì)模型的性能至關(guān)重要，對(duì)卷積運(yùn)算進(jìn)行優(yōu)化可以從根源上降低模型的計(jì)算復(fù)雜度，其計(jì)算復(fù)雜度表示為[45]

O[n， k，? p， q]=∑C-1c=0∑R-1r=0∑S-1s=0F[k， c， r， s]·

D0[n， c， g（p， u， R， r， pad_h），

g（q， v， S， s， pad_w）]（1）

式中：F為卷積核;D為輸入數(shù)據(jù);R和S為卷積核的行列;u， v為卷積核在行列方向的滑動(dòng)步長(zhǎng);pad_h和pad_w為輸入數(shù)據(jù)擴(kuò)張大小，并且n∈[0， N），k∈[0， K），p∈[0， P），q∈[0， Q），N為每個(gè)batch的輸入圖像個(gè)數(shù)，K為輸出特征圖的個(gè)數(shù)，P和Q為輸出特征圖的行列，與輸入圖像的行列、滑動(dòng)步長(zhǎng)以及擴(kuò)張大小有關(guān)。

目前，主流的深度學(xué)習(xí)硬件加速單元通常采用向量?jī)?nèi)積[46]、二維陣列及Winograd卷積[47]方式實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)中的矩陣和向量操作。向量?jī)?nèi)積是將輸入和權(quán)重參數(shù)轉(zhuǎn)換成矩陣乘法形式，利用循環(huán)展開和循環(huán)分片實(shí)現(xiàn)數(shù)據(jù)的并行流水線設(shè)計(jì)，其計(jì)算復(fù)雜度為O（n3），數(shù)據(jù)映射結(jié)構(gòu)如圖3所示。

向量?jī)?nèi)積方法將卷積過程轉(zhuǎn)換為矩陣運(yùn)算，在FPGA硬件實(shí)現(xiàn)過程中利用乘法器和加法器實(shí)現(xiàn)矩陣運(yùn)算中的乘加操作，圖4為FPGA實(shí)現(xiàn)向量?jī)?nèi)積的硬件單元。

由圖4可以分析出，向量?jī)?nèi)積在FPGA硬件平臺(tái)中實(shí)現(xiàn)簡(jiǎn)單，通過多線程并行處理增加計(jì)算過程的吞吐量，但是計(jì)算過程中消耗大量的乘法器，數(shù)據(jù)復(fù)用程度低，數(shù)據(jù)存取過程帶來較大時(shí)延;另外，對(duì)于規(guī)模較小的網(wǎng)絡(luò)，矩陣計(jì)算單元算力難以發(fā)揮，造成硬件資源浪費(fèi)。

研究表明，數(shù)據(jù)存取的速度遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)處理的速度，硬件系統(tǒng)的計(jì)算能力很大程度上受限于訪存能力。1982年，Kung提出脈動(dòng)陣列理論[39]，利用多個(gè)同構(gòu)的PE單元并行實(shí)現(xiàn)數(shù)據(jù)復(fù)用，通過流水線設(shè)計(jì)使數(shù)據(jù)不斷向“下游”PE流動(dòng)，增加數(shù)據(jù)在處理單元中的利用率，其數(shù)據(jù)計(jì)算結(jié)構(gòu)如圖5所示。

從圖5中可以看出，脈動(dòng)陣列中的PE單元實(shí)現(xiàn)簡(jiǎn)單，每個(gè)PE依據(jù)預(yù)定的計(jì)算規(guī)則和周圍的PE進(jìn)行數(shù)據(jù)交互，大大提高了數(shù)據(jù)的復(fù)用率，在消耗較少內(nèi)存帶寬的同時(shí)，保證了數(shù)據(jù)運(yùn)算大吞吐率。但是，脈動(dòng)陣列實(shí)現(xiàn)卷積運(yùn)算時(shí)，需要將數(shù)據(jù)讀入到緩沖區(qū)，占用大量的內(nèi)存單元，同時(shí)為了實(shí)現(xiàn)數(shù)據(jù)的有序“流動(dòng)”，需要對(duì)數(shù)據(jù)進(jìn)行格式調(diào)整，額外增加了其他計(jì)算消耗。

向量?jī)?nèi)積和二維脈動(dòng)陣列進(jìn)行卷積運(yùn)算需要大量的乘加累積運(yùn)算，算法復(fù)雜度均為O（n3）。2017年，文獻(xiàn)[47]提出了基于FPGA的Winograd算法去實(shí)現(xiàn)卷積運(yùn)算，利用加法器代替乘法器減少大量卷積計(jì)算中的乘法操作，降低運(yùn)算復(fù)雜度，提高運(yùn)算速度。對(duì)于一維和二維Winograd卷積計(jì)算，文獻(xiàn)[47]給出了相應(yīng)的推理證明，如下所示：

Y=AT[（Gg）⊙（BTd）]（2）

Y=AT[[GgGT]⊙[BTdB]]A（3）

式（2）和式（3）分別為一維、二維的Winograd卷積計(jì)算。其中：g為卷積核;d為輸入信號(hào);G為卷積核矩陣;BT為輸入轉(zhuǎn)置矩陣;AT為輸出轉(zhuǎn)置矩陣;⊙為點(diǎn)乘運(yùn)算。計(jì)算過程如圖6所示。

由圖6可以看出，Winograd卷積計(jì)算充分利用了向量?jī)?nèi)積和脈動(dòng)陣列兩者的優(yōu)勢(shì)，并利用加法器代替?zhèn)鹘y(tǒng)矩陣計(jì)算中大量的乘法操作，實(shí)現(xiàn)快速卷積計(jì)算，其一維和二維的計(jì)算復(fù)雜度分別可以表示為O（n）和O（n2），大大降低算法的復(fù)雜度。

通過分析可知，任何一個(gè)卷積硬件加速架構(gòu)都有各自的優(yōu)勢(shì)，當(dāng)硬件平臺(tái)資源充足時(shí)，可以采用易于實(shí)現(xiàn)、吞吐量大的加速方案，而當(dāng)資源不足時(shí)，要合理劃分硬件資源對(duì)卷積進(jìn)行優(yōu)化設(shè)計(jì)，實(shí)現(xiàn)硬件資源的高效利用。

1.3.3 智能彈藥異構(gòu)加速體系設(shè)計(jì)

由于彈載嵌入式平臺(tái)加速深度學(xué)習(xí)模型主要考慮推理過程，因此，可以在線下利用GPU訓(xùn)練搭建好的網(wǎng)絡(luò)模型，獲得最優(yōu)的權(quán)重參數(shù)，再通過模型量化、剪枝等方法實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化設(shè)計(jì)，最后結(jié)合硬件平臺(tái)資源分布，合理設(shè)計(jì)硬件加速單元，實(shí)現(xiàn)深度學(xué)習(xí)模型向嵌入式硬件平臺(tái)的高效移植，其設(shè)計(jì)流程如圖7所示。

其中，模型輕量化設(shè)計(jì)和硬件加速單元設(shè)計(jì)是智能彈藥異構(gòu)設(shè)計(jì)的關(guān)鍵環(huán)節(jié)。結(jié)合深度學(xué)習(xí)模型卷積層、池化層、激活函數(shù)以及全連接層的特征，設(shè)計(jì)標(biāo)準(zhǔn)化的壓縮模型，以適應(yīng)針對(duì)不同彈載任務(wù)的深度學(xué)習(xí)算法。此外，充分分析各處理器在執(zhí)行深度學(xué)習(xí)算法中卷積運(yùn)算、數(shù)據(jù)共享、指令控制以及任務(wù)調(diào)度中的性能，設(shè)定優(yōu)先級(jí)，讓最合適的單元執(zhí)行相關(guān)任務(wù)，使得在硬件資源有限條件下獲得高效的加速性能。

2 基于DPU的Yolo v3異構(gòu)加速設(shè)計(jì)

文中1.1節(jié)對(duì)智能圖像制導(dǎo)彈藥任務(wù)的特殊性、不可逆性等特點(diǎn)進(jìn)行了詳細(xì)分析，為在戰(zhàn)爭(zhēng)中掌握主動(dòng)權(quán)，基于深度學(xué)習(xí)的識(shí)別檢測(cè)算法既要準(zhǔn)確率高，又要速度快。通過對(duì)當(dāng)前目標(biāo)檢測(cè)算法性能分析，Yolo v3在檢測(cè)速度和識(shí)別準(zhǔn)確率方面都表現(xiàn)出極佳的性能。為此，本文采用Yolo v3實(shí)現(xiàn)戰(zhàn)場(chǎng)目標(biāo)的識(shí)別檢測(cè)。

為加快深度學(xué)習(xí)模型向彈載嵌入式平臺(tái)移植，利用深鑒科技的DNNDK（Deep Neural Network Development Kit）編譯器[48]對(duì)深度學(xué)習(xí)模型進(jìn)行編譯加速。DNNDK面向深度學(xué)習(xí)異構(gòu)計(jì)算平臺(tái)DPU（Deep-Learning Processor Unit）[49]，涵蓋卷積神經(jīng)網(wǎng)絡(luò)推理階段的模型壓縮、編譯優(yōu)化和高效運(yùn)行時(shí)支持等各種功能，為深度學(xué)習(xí)模型在DPU異構(gòu)平臺(tái)上的應(yīng)用提供了全棧式編譯環(huán)境，如圖8所示。

由圖8可以看出，DNNDK編譯器為線下訓(xùn)練好的模型提供了針對(duì)DPU硬件加速架構(gòu)的全棧式編譯環(huán)境，可以實(shí)現(xiàn)深度學(xué)習(xí)算法性能分析、壓縮以及DPU異構(gòu)計(jì)算等。其中，DECENT工具將訓(xùn)練好的模型實(shí)現(xiàn)高效壓縮，并且不會(huì)帶來太大的精度損失;DNNC編譯器將深度學(xué)習(xí)模型和DPU指令一一映射，實(shí)現(xiàn)計(jì)算負(fù)載和內(nèi)存訪問的高效結(jié)合;N2Cube為深度學(xué)習(xí)模型在DPU硬件加速平臺(tái)實(shí)現(xiàn)資源分配、任務(wù)調(diào)度以及系統(tǒng)驅(qū)動(dòng)等提供了多種輕量級(jí)接口函數(shù)，以便實(shí)現(xiàn)對(duì)硬件資源的充分利用。為此，利用DNNDK來實(shí)現(xiàn)Yolo v3在嵌入式硬件平臺(tái)的移植、實(shí)現(xiàn)。

首先，實(shí)驗(yàn)使用Tensorflow框架，在1塊16 GB的Nvidia GTX1080Ti GPU上完成Yolo v3和Tiny-Yolo v3模型的訓(xùn)練[13]，數(shù)據(jù)集采用公開的無人機(jī)目標(biāo)檢測(cè)VisDrone2018-Det[14]數(shù)據(jù)集和彈載相機(jī)采集的實(shí)景沙盤圖像。其中，VisDrone2018-Det數(shù)據(jù)集為無人機(jī)俯視視角拍攝的不同光照、環(huán)境以及密度條件下的場(chǎng)景圖像，包含行人、汽車、摩托車等10類目標(biāo)，訓(xùn)練集圖片6 471張，驗(yàn)證集圖像548張，測(cè)試集圖像1 580張;彈載相機(jī)

采集的實(shí)景沙盤圖像包含火炮、自行火炮、遠(yuǎn)程火箭炮、坦克和步戰(zhàn)車等5類目標(biāo)，并通過翻轉(zhuǎn)、旋轉(zhuǎn)和亮度增強(qiáng)等手段對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充，目標(biāo)圖像共2 000張，其中訓(xùn)練集1 600張，驗(yàn)證集100張，測(cè)試集300張。

模型訓(xùn)練過程中將兩種方式收集的數(shù)據(jù)集整合，共15類目標(biāo)，10 599張圖片，輸入圖像大小裁剪為416×416，模型參數(shù)設(shè)置為：學(xué)習(xí)率0.001，動(dòng)量0.9，權(quán)重衰減率0.000 5，每批次處理圖像32張，經(jīng)過不斷迭代訓(xùn)練后，模型的損失函數(shù)基本維持不變，得到訓(xùn)練好的權(quán)重參數(shù)。利用測(cè)試集對(duì)訓(xùn)練好的Yolo v3和Tiny-Yolo v3模型進(jìn)行測(cè)試，其在Nvidia GTX1080Ti GPU平臺(tái)上的檢測(cè)幀率、mAP和功耗如表1所示。隨后，在上述模型訓(xùn)練結(jié)果的基礎(chǔ)上，利用DNNDK編譯器對(duì)訓(xùn)練模型的權(quán)重參數(shù)進(jìn)行量化、壓縮，并將量化后的模型轉(zhuǎn)化為可在FPGA上執(zhí)行的底層文件，選用zcu104硬件平臺(tái)[48]實(shí)現(xiàn)Yolo v3和Tiny-Yolo v3的目標(biāo)識(shí)別檢測(cè)。

上述四個(gè)模型分別在兩種數(shù)據(jù)集測(cè)試樣本上的識(shí)別檢測(cè)結(jié)果如圖9所示。

通過表1和圖9的分析發(fā)現(xiàn)，深度學(xué)習(xí)模型經(jīng)過DNNDK編譯器壓縮、編譯后，參數(shù)量和權(quán)重大大減少，雖然基于DPU硬件加速后的深度學(xué)習(xí)模型存在漏檢和檢測(cè)位置偏移問題，但是其精度損失微乎其微，并且這些性能損失可以人工輔助修正，而其在FPGA上的低功耗性能為深度學(xué)習(xí)模型在邊緣設(shè)備部署帶來更大的優(yōu)勢(shì)。

3 結(jié) 束語

本文分析了深度學(xué)習(xí)算法向智能圖像制導(dǎo)彈藥目標(biāo)識(shí)別、檢測(cè)和跟蹤等工程實(shí)現(xiàn)中存在的突出問題，從深度學(xué)習(xí)模型壓縮、高性能處理器、卷積硬件加速等方面進(jìn)行研究，提出了面向深度學(xué)習(xí)的彈載圖像處理異構(gòu)體系模型。針對(duì)圖像制導(dǎo)彈藥的任務(wù)需求，選擇準(zhǔn)確、快速的目標(biāo)識(shí)別檢測(cè)算法，通過模型輕量化設(shè)計(jì)減少模型冗余參數(shù)，利用合適的卷積加速理論實(shí)現(xiàn)深度學(xué)習(xí)模型在硬件平臺(tái)的移植。本文利用深鑒科技提出的DNNDK編譯器，實(shí)現(xiàn)了Yolo v3算法在zcu104硬件平臺(tái)的移植，模型參數(shù)壓縮率80%以上，權(quán)重?cái)?shù)據(jù)壓縮率90%以上，檢測(cè)速度滿足彈載平臺(tái)實(shí)時(shí)檢測(cè)的要求，為智能圖像制導(dǎo)彈藥工程實(shí)現(xiàn)提供了設(shè)計(jì)參考。

參考文獻(xiàn)：

[1] 錢立志. 電視末制導(dǎo)炮彈武器系統(tǒng)關(guān)鍵技術(shù)研究[D]. 合肥：中國(guó)科學(xué)技術(shù)大學(xué)， 2006.

Qian Lizhi. Research on the Key Technology of TV Terminal Guided Artillery Weapon System[D]. Hefei：? University of Science and Technology of China， 2006. （in Chinese）

[2] Krizhevsky A， Sutskever I， Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]∥Advances in Neural Information Processing Systems， 2012， 25（2）：? 1097-1105.

[3] 趙永強(qiáng)，饒?jiān)?董世鵬，等. 深度學(xué)習(xí)目標(biāo)檢測(cè)方法綜述[J]. 中國(guó)圖象圖形學(xué)報(bào)， 2020， 25（4）：? 629-654.

Zhao Yongqiang， Rao Yuan， Dong Shipeng， et al. Survey on Deep Learning Object Detection[J]. Journal of Image and Graphics， 2020， 25（4）：? 629-654. （in Chinese）

[4] 阮激揚(yáng). 基于YOLO的目標(biāo)檢測(cè)算法設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京：? 北京郵電大學(xué)， 2019.

Ruan Jiyang. Design and Implementation of Target Detection Algorithm Based on YOLO[D]. Beijing：? Beijing University of Posts and Telecommunications， 2019. （in Chinese）

[5] Uijlings J R R， van de Sande K E A， Gevers T， et al. Selective Search for Object Recognition[J]. International Journal of Compu-ter Vision， 2013， 104（2）：? 154-171.

[6] Zitnick C L， Dollár P. Edge Boxes：? Locating Object Proposals from Edges[C]∥Proceedings of the 13th European Conference on Computer Vision， 2014：? 391-405.

[7] He K M， Zhang X Y， Ren S Q， et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2015， 37（9）：? 1904-1916.

[8] Girshick R. Fast R-CNN[C]∥Proceedings of the 2015 IEEE International Conference on Computer Vision， 2015： 1440-1448.

[9] Ren S Q， He K M， Girshick R， et al. Faster R-CNN：? Towards Real-Time Object Detection with Region Proposal Networks[C]∥ Proceedings of the 28th International Conference on Neural Information Processing Systems， 2015： 91-99.

[10] Shrivastava A， Gupta A， Girshick R. Training Region-Based Object Detectors with Online Hard Example Mining[C]∥ Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition， 2016： 761-769.

[11] Lin T Y， Dollar P， Girshick R， et al. Feature Pyramid Networks for Object Detection[C]∥Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition， 2017：? 936-944.

[12] Redmon J， Divvala S， Girshick R， et al. You Only Look Once：? Unified， Real-Time Object Detection[C]∥ Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition， 2016：? 779-788.

[13] Redmon J， Farhadi A. YOLOv3：? An Incremental Improvement [EB/OL]. （2018-04-08） [2020-06-01]. https： ∥arxiv. xilesou. top/pdf/1804. 02767. pdf.

[14] Zhang P Y， Zhong Y X， Li X Q， et al. SlimYOLOv3：? Narrower， Faster and Better for Real-Time UAV Applications[EB/OL]. （2019-07-25） [2020-06-01]. https： ∥arxiv. org/ftp/arxiv/papers/1907/1907. 11093. pdf.

[15] Fu C Y， Liu W， Ranga A， et al. DSSD： Deconvolutional Single Shot Detector[EB/OL]. （2017-01-23） [2020-06-01]. https： ∥arxiv. org/pdf/1701. 06659. pdf.

[16] Shen Z Q， Liu Z， Li J G， et al. DSOD： Learning Deeply Supervised Object Detectors from Scratch[C]∥Proceedings of the 2017 IEEE International Conference on Computer Vision， 2017： 1937-1945.

[17] 喻鈞，康秦瑀，陳中偉，等. 基于全卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像海面目標(biāo)檢測(cè)[J]. 彈箭與制導(dǎo)學(xué)報(bào)， 2020， 35（6）：? 24-31.

Yu Jun， Kang Qinyu， Chen Zhongwei， et al. Sea Surface?? Target Detection in Remote Sensing Images Based on Full Convolution Neural Network[J]. Journal of Projectiles， Rockets， Missiles and Guidance， 2020， 35（6）：? 24-31. （in Chinese）

[18] 侯凱強(qiáng)，李俊山，王雪博，等. 彈載人工智能目標(biāo)識(shí)別算法的嵌入式實(shí)現(xiàn)方法研究[J]. 制導(dǎo)與引信， 2019， 40（3）：? 40-45.

Hou Kaiqiang， Li Junshan， Wang Xuebo， et al. Research on Embedded Implementation Method of Missile-Borne Artifical Intelligence Target Recognition Algorithms[J]. Guidance & Fuze， 2019， 40（3）：? 40-45. （in Chinese）

[19] 楊傳棟，劉楨，馬翰宇，等. 一種基于改進(jìn)YOLOv3的彈載圖像多目標(biāo)檢測(cè)方法[J]. 彈箭與制導(dǎo)學(xué)報(bào)， 2020， 22（6）： 1-6.

Yang Chuandong， Liu Zhen， Ma Hanyu， et al. A Multi-Target Detection Method for Missile-Borne Images Based on Improved YOLOv3[J]. Journal of Projectiles， Rockets， Missiles and Guidance， 2020， 22（6）： 1-6. （in Chinese）

[20] LeCun Y， Denker J S， Sollar S A. Optimal Brain Damage[C]∥Advances in Neural Information Processing Systems， 1990：? 598–605.

[21] Iandola F N， Han S， Moskewicz M W， et al. SqueezeNet：? AlexNet-Level Accuracy with 50× Fewer Parameters and <0.5 MB Model Size[EB/OL]. （2016-11-04）[2020-06-01]. https： ∥arxiv. org/abs/1602. 07360.

[22] Qin Z， Zhang Z N， Chen X T， et al. FD-MobileNet：? Improved MobileNet with a Fast Downsampling Strategy[C]∥25th IEEE International Conference on Image Processing， 2018：? 1363-1367.

[23] Chollet F. Xception：? Deep Learning with Depthwise Separable Convolutions[EB/OL]. （2017-04-04）[2020-06-01]. https： ∥arxiv. org/abs/1610. 02357.

[24] Wang S J， Cai H R， Bilmes J， et al. Training Compressed Fully-Connected Networks with a Density-Diversity Penalty[J]. International Conference on Learning Representations， 2017：? 1121-1132.

[25] Dettmers T. 8-Bit Approximations for Parallelism in Deep Learning[EB/OL]. （2016-02-19）[2020-06-01]. https： ∥arxiv. org/abs/1511. 04561.

[26] Li F F， Zhang B， Liu B. Ternary Weight Networks[EB/OL]. （2016-11-19）[2020-06-01]. https： ∥arxiv. org/abs/1605. 04711.

[27] Courbariaux M， Hubara I， Soudry D， et al. Binarized Neural Networks：? Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1[EB/OL]. （2016-04-17）[2020-06-01]. https： ∥arxiv. org/abs/1602. 02830.

[28] Lebedev V， Ganin Y， Rakhuba M， et al. Speeding-Up Convolutional Neural Networks Using Fine-Tuned CP-Decomposition[EB/OL]. （2015-04-24）[2020-06-01]. https： ∥arxiv. org/abs/1412. 6553.

[29] Zhang X Y， Zou J H， He K M， et al. Accelerating Very Deep Convolutional Networks for Classification and Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2016， 38（10）：? 1943-1955.

[30] Kim Y D， Park E， Yoo S， et al. Compression of Deep Convolutional Neural Networks for Fast and Low Power Mobile Applications[EB/OL]. （2015-11-20）[2020-06-01]. https： ∥arxiv. org/abs/1511. 06530.

[31] Novikov A， Podoprikhin D， Osokin A， et al. Tensorizing Neural Networks[EB/OL]. （2015-11-20）[2020-06-01]. https：∥arxiv. org/abs/1509. 06569.

[32] Hu H Y， Peng R， Tai Y W， et al. Network Trimming：? A Data-Driven Neuron Pruning Approach towards Efficient Deep Architectures[EB/OL]. （2016-07-12）[2020-06-01]. https： ∥arxiv. org/abs/1607. 03250.

[33] Li H， Kadav A， Durdanovic I， et al. Pruning Filters for Efficient ConvNets[EB/OL]. （2017-03-10） [2020-06-01]. https： ∥arxiv. org/abs/1608. 08710.

[34] Molchanov P， Tyree S， Karras T， et al. Pruning Convolutional Neural Networks for Resource Efficient Inference[EB/OL]. （2016-11-19）[2020-06-01]. https： ∥arxiv. org/abs/1611. 06440.

[35] Anwar S， Hwang K， Sung W. Structured Pruning of Deep Convolutional Neural Networks[J]. ACM Journal on Emerging Techno-logies in Computing Systems， 2017， 13（3）：? 1-18.

[36] Moya Rueda F， Grzeszick R， Fink G A. Neuron Pruning for Compressing Deep Networks Using Maxout Architectures[EB/OL]. （2017-07-21）[2020-06-01]. https： ∥arxiv. org/abs/1707. 06838.

[37]? Yim J， Joo D， Bae J， et al. A Gift from Knowledge Distillation：? Fast Optimization， Network Minimization and Transfer Learning [C]∥IEEE Conference on Computer Vision and Pattern Recognition， 2017：? 7130-7138.

[38] Hinton G， Vinyals O， Dean J. Distilling the Knowledge in a Neural Network[EB/OL]. （2015-03-09）[2020-06-01]. https： ∥arxiv. org/abs/1503. 02531.

[39]? Jouppi N P， Young C， Patil N， et al. In-Datacenter Performance Analysis of a Tensor Processing Unit[EB/OL]. （2017-04-16）[2020-06-01]. https： ∥arxiv. org/abs/1704. 04760.

[40]? Chen T S， Du Z D， Wang J， et al. DianNao：? A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning[J]. ACM Sigarch Notices， 2014， 49（4）： 269-284.

[41] 梁曉峣. 昇騰AI處理器架構(gòu)與編程：深入理解CANN技術(shù)原理及應(yīng)用[M]. 北京：? 清華大學(xué)出版社， 2019.

Liang Xiaoyao. Shengteng AI Processor Architecture and Programming：Deep Understanding the Technology Principle and Application of CANN [M]. Beijing：? Tsinghua University Press， 2019. （in Chinese）

[42] 高陽. 彈載數(shù)字圖像采集系統(tǒng)研究[D]. 太原：? 中北大學(xué)， 2017.

Gao Yang. Research on Digital Image Acquisition System for Missile[D]. Taiyuan： ?North University of China， 2017. （in Chinese）

[43] 邱曉冬. 基于FPGA的SIFT圖像匹配系統(tǒng)實(shí)現(xiàn)與優(yōu)化[D]. 南京：? 東南大學(xué)， 2019.

Qiu Xiaodong. Implementation and Optimization of SIFT Algorithm Based on FPGA [D]. Nanjing：? Southeast University， 2019. （in Chinese）

[44]? XILINX White Paper. Vitis AI Library User Guide [EB/OL]. （2019-10-01）[2020-06-01]. https： ∥www. xilinx. com/support/documentation/ai_inference/v1_6/ug1354-xilinx-ai-sdk. pdf.

[45] Dukhan M. The Indirect Convolution Algorithm[EB/OL]. （2019-07-03）[2020-06-01]. https： ∥arxiv. org/abs/1907. 02129.

[46] Chetlur S， Woolley C， Vandermersch P， et al. CuDNN：? Efficient Primitives for Deep Learning[EB/OL]. （2014-11-18）[2020-06-01]. https： ∥arxiv. org/abs/1410. 0759.

[47] Liang Y， Lu L Q， Xiao Q C， et al. Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems， 2020， 39（4）： 857-870.

[48]? XILINX White Paper. DNNDK User Guide [EB/OL]. （2019-08-13） [2020-06-01]. https： ∥www. xilinx. com/support/documentation/sw_manuals/ai_inference/v1_6/ug1327-dnndk-user-guide. pdf.

[49] XILINX White Paper. Zynq DPU v3.2 Product Guide [EB/OL]. （2020-03-01）[2020-06-01]. https： ∥www. xilinx. com/support/documentation/ip_documentation/dpu/v3_2/pg338-dpu. pdf.

Research on Heterogeneous Acceleration of Deep

Learning Method for Missile-Borne Image Processing

Chen Dong， Tian Zonghao*

（Laboratory of Guidance Control and Information Perception Technology of High Overload Projectiles，

Army Academy of Artillery and Air Defense of PLA， Hefei 230031， China）

Abstract：

The problem existing in the transformation of? deep learning algorithm to engineering application is analyzed. Combining with the? characteristics and development trends of army intelligent ammunition， the missile-borne image processing heterogeneous accelerate system for deep learning is put forward based on the research of compression， quantitative and hardware heterogeneous acceleration， realizing heterogeneous hardware design. The DNNDK is used to compress and quantify the Yolo v3 model. The weight and parameter compression rate are more than 90% and 80%， realizing the lightweight design of Yolo v3. Based on the DPU hardware acceleration architecture， the algorithm is transplanted to the missile-borne embedded platform， and its power consumption and detection efficiency meet the requirements of missile-borne image processing.

Key words： missile-borne image; deep learning; FPGA; systolic array; Winograd convolution

收稿日期：2020-06-01

基金項(xiàng)目：軍隊(duì)“十三五”預(yù)研基金項(xiàng)目（301070103）

作者簡(jiǎn)介：陳棟（1983-），男，安徽合肥人，副教授，博士，研究方向?yàn)樾滦蛷椝幖夹g(shù)研究與運(yùn)用、武器系統(tǒng)運(yùn)用與保障工程。

通訊作者：田宗浩（1991-），男，河北晉州人，博士研究生，研究方向?yàn)橹悄軓椝?、圖像處理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向深度學(xué)習(xí)的彈載圖像處理異構(gòu)加速現(xiàn)狀分析