張利平
(中國(guó)西南電子技術(shù)研究所,成都 610036)
?
多核DSP的雷達(dá)數(shù)據(jù)處理平臺(tái)設(shè)計(jì)
張利平
(中國(guó)西南電子技術(shù)研究所,成都 610036)
雷達(dá)數(shù)據(jù)處理平臺(tái)是雷達(dá)的重要組成部分,在現(xiàn)代雷達(dá)中通常用來(lái)分析和融合雷達(dá)信號(hào)處理回傳的目標(biāo)信息,通過一系列復(fù)雜計(jì)算,將處理后的目標(biāo)信息送給雷達(dá)綜顯進(jìn)行顯示。給出了以TMS320C6678為核心構(gòu)建硬件平臺(tái)的設(shè)計(jì)方案。通過實(shí)際測(cè)試,驗(yàn)證了平臺(tái)的性能和工作的正確性。
雷達(dá);數(shù)據(jù)處理平臺(tái);嵌入式多核;TMS320C6678
現(xiàn)代雷達(dá)已經(jīng)被賦予了新的作戰(zhàn)使命,不再單純地作為目標(biāo)探測(cè)的工具。在雷達(dá)的衍生應(yīng)用中,需要處理雷達(dá)二次信息,如速度、航跡、機(jī)型、敵我屬性、空情態(tài)勢(shì)及各種人機(jī)交互信息[1]。在某些特定的雷達(dá)應(yīng)用中,可能還需要顯示數(shù)字地圖或雷達(dá)SAR圖像。要實(shí)現(xiàn)這些功能,就需要數(shù)據(jù)處理平臺(tái)對(duì)大量的回波信息進(jìn)行復(fù)雜算法分析,并送出處理結(jié)果。TI公司推出的高性能多核DSP芯片TMS320C6678,可以構(gòu)建現(xiàn)代雷達(dá)的數(shù)據(jù)處理平臺(tái),其優(yōu)異的性能滿足現(xiàn)代雷達(dá)的大型數(shù)據(jù)處理算法搭建要求。該平臺(tái)多核并行處理的優(yōu)勢(shì)也可以擴(kuò)展到如雷達(dá)組網(wǎng)、信號(hào)處理、大型數(shù)據(jù)鏈等多種應(yīng)用,具有廣闊的市場(chǎng)前景。
TMS320C6678是TI公司推出的高性能8核DSP芯片,采用了KeyStone架構(gòu),支持定點(diǎn)和浮點(diǎn)運(yùn)算。其優(yōu)勢(shì)是片內(nèi)整合了豐富的協(xié)處理器、高性能I/O和大量的運(yùn)算資源,內(nèi)部結(jié)構(gòu)框圖如圖1所示[2]。
由圖1可知,TMS320C6678是一個(gè)高度集成的多核DSP芯片,并且還具有以下特點(diǎn)[3-4]:
(1) 芯片集成8核DSP處理器,單核最高頻率達(dá)1.25 GHz;
(2) 采用KeyStone高性能架構(gòu)體系,將協(xié)處理器和I/O均融合到DSP核中,增強(qiáng)了芯片的擴(kuò)展性和適應(yīng)性;
(3) 增強(qiáng)型C66x內(nèi)核,融合定點(diǎn)和浮點(diǎn)處理能力;
圖1 TMS320C6678的內(nèi)部結(jié)構(gòu)
(4) 具備Semaphore硬件仲裁模塊和資源共享機(jī)制,有利于多核協(xié)調(diào)訪問共享資源,降低數(shù)據(jù)讀寫沖突的可能性;
(5) 豐富的外部接口功能,通過擴(kuò)展后可以適應(yīng)不同的接口需求。
系統(tǒng)硬件總體框圖如圖2所示。
圖2 數(shù)據(jù)處理平臺(tái)系統(tǒng)搭建框圖
考慮到后續(xù)模塊的通用性和擴(kuò)展性,將數(shù)據(jù)處理平臺(tái)設(shè)計(jì)為標(biāo)準(zhǔn)XMC結(jié)構(gòu),即通過最小系統(tǒng)的構(gòu)建方式引出所有外部的接口,方便后續(xù)大系統(tǒng)的自由搭建。數(shù)據(jù)處理平臺(tái)的硬件設(shè)計(jì)部分主要包括電源模塊、內(nèi)存模塊、網(wǎng)絡(luò)和存儲(chǔ)模塊、時(shí)序配置模塊等。
2.1 電源模塊
電源處理是決定硬件平臺(tái)是否穩(wěn)定的重要因素之一。XMC標(biāo)準(zhǔn)架構(gòu)可以給模塊提供+3.3V和+5V的電壓,因此數(shù)據(jù)處理平臺(tái)所需的其余電源均由電源轉(zhuǎn)換芯片提供。為實(shí)現(xiàn)相關(guān)硬件功能,數(shù)據(jù)處理平臺(tái)還需要+2.5V、+1.8V、+1.5V、+1V和+0.75V等5種電源。各電源分配如表1所示[6]。
表1 數(shù)據(jù)處理平臺(tái)電源分配表
TMS320C6678啟動(dòng)時(shí)對(duì)各電源的上電時(shí)序有嚴(yán)格要求。因此,將各電源的輸出穩(wěn)定信號(hào)和輸入使能信號(hào)接入CPLD進(jìn)行控制,保證上電后DSP能正常工作。上電時(shí)序如圖3所示。
2.2 內(nèi)存模塊
DDR3即第3代雙倍數(shù)據(jù)率同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器,是電子設(shè)備工程聯(lián)合委員會(huì)開發(fā)的新一代內(nèi)存技術(shù)標(biāo)準(zhǔn),其I/O總線時(shí)鐘頻率范圍為800~2400 MHz。
圖3 上電時(shí)序示意圖
相較于DDR2標(biāo)準(zhǔn),DDR3在功耗、工作頻率和穩(wěn)定性等方面都有較大的提高。在本次設(shè)計(jì)中,采用四片美光公司的512M內(nèi)存,通過級(jí)聯(lián)的方式,提供總共2G的系統(tǒng)存儲(chǔ)容量。內(nèi)存模塊連接拓?fù)鋱D如圖4所示[5]。
圖4 內(nèi)存模塊連接拓?fù)鋱D
DDR3總線數(shù)據(jù)傳輸速率很高,傳輸電平低,易受到外界信號(hào)干擾,因此在設(shè)計(jì)時(shí)需嚴(yán)格遵循其布局、布線規(guī)則,保證信號(hào)傳輸質(zhì)量。本次設(shè)計(jì)的布線規(guī)則如表2所示。數(shù)據(jù)組布線示意圖如圖5所示。
圖5 數(shù)據(jù)組布線示意圖
表2 DDR3總線布線規(guī)則
在DDR3應(yīng)用中,需要將控制線上拉電阻到VTT,防止信號(hào)線終端產(chǎn)生反射。在本次設(shè)計(jì)中,考慮到印制板設(shè)計(jì)時(shí)可能產(chǎn)生的容差,將控制、命令和地址類信號(hào)進(jìn)行RT端接(即上拉到VTT),確保信號(hào)完整性。
2.3 網(wǎng)絡(luò)和存儲(chǔ)模塊
TMS320C6678 DSP芯片自帶網(wǎng)絡(luò)協(xié)處理器,支持2個(gè)物理網(wǎng)口擴(kuò)展,增強(qiáng)了使用的靈活性。結(jié)合MARVELL的外圍物理層控制芯片88E1111,可以搭建完整的網(wǎng)絡(luò)通信架構(gòu)。
88E1111自帶SGMII接口,與DSP互聯(lián)時(shí)無(wú)需增加額外的驅(qū)動(dòng)芯片。在本設(shè)計(jì)中,將88E1111的配置引腳接入CPLD進(jìn)行控制,既節(jié)約了配置電阻的布板面積又方便了配置。88E1111需要提供一個(gè)20 MHz的時(shí)鐘輸入,因此在外部接入一個(gè)晶體。需要注意的是,與DSP互聯(lián)的數(shù)據(jù)收發(fā)差分對(duì),需要在接收端端接一個(gè)100 nF的電容,隔離直流分量進(jìn)行AC耦合。
考慮到數(shù)據(jù)處理平臺(tái)在不同雷達(dá)平臺(tái)中的功能擴(kuò)展,在存儲(chǔ)模塊中同時(shí)使用了
NOR FLASH和NAND FLASH。NOR FLASH的容量較小,可以用來(lái)存儲(chǔ)系統(tǒng)啟動(dòng)程序和部分小容量參數(shù)信息。NAND FLASH容量較大,可以存儲(chǔ)大量的系統(tǒng)參數(shù)信息并實(shí)時(shí)記錄試驗(yàn)數(shù)據(jù)[7]。
2.4 時(shí)序配置模塊
在數(shù)據(jù)處理平臺(tái)中,采用XILINX公司COOLRUNNER系列的CPLD:XC2C256-7FT256I,來(lái)做系統(tǒng)啟動(dòng)的配置和各I/O接口的轉(zhuǎn)換,實(shí)現(xiàn)各種時(shí)序配置功能。該款CPLD包含4個(gè)BANK,每個(gè)BANK均可以獨(dú)立配置I/O電壓。由于TMS320C6678的I/O端口電壓為1.8 V,其余芯片I/O端口電壓為3.3 V,將BANK1和BANK3設(shè)定為3.3 V輸出,BANK2和BANK4為1.8 V輸出,這樣就省掉了由于電壓不一致而必須添加的驅(qū)動(dòng)芯片,節(jié)約了布板面積,提高了系統(tǒng)的穩(wěn)定性。CPLD模塊的連接框圖如6所示。
圖6 CPLD模塊連接框圖
TMS320C6678的8個(gè)內(nèi)核相互獨(dú)立。因此,當(dāng)在進(jìn)行軟件開發(fā)時(shí),為了最大限度地發(fā)揮其多核的效能,需要運(yùn)用到核間同步的機(jī)制。核間同步的方式主要有以下4種[8]:
(1) 變量監(jiān)聽模式:在軟件中通過監(jiān)測(cè)volatile類型的變量變化情況,實(shí)現(xiàn)多核同步;
(2) 中斷模式:多核之間通過中斷的方式,實(shí)現(xiàn)同步;
(3) 事件通知模式:基于SYS/BIOS的多核同步通信模式;
(4) 消息傳遞模式:通過消息隊(duì)列的方式,在傳遞同步信息的同時(shí),可以傳遞少量參數(shù)信息。
4種同步方式各有優(yōu)劣,表3從幾個(gè)方面進(jìn)行了比較。
表3 核間同步模式分析表模式SYS/BIOS
3.2 多核DSP軟件開發(fā)框架搭建
許諾向丁小慧坦白,自己是在結(jié)婚之后,才明白婚姻的真正價(jià)值,不是花好月圓時(shí)的錦上添花,而是他走在人生的陰暗面時(shí),有她的扶持,當(dāng)他寂寞的時(shí)候,有她愿意陪著他無(wú)所事事。是她對(duì)他的好,讓他想變得更好,也讓他愛上了她。
在多核DSP軟件開發(fā)過程中,最重要的是均衡各核之間的任務(wù)量,即通過合理的軟件框架劃分,最大限度地發(fā)揮8核的并行處理效能,以便用最短時(shí)間完成數(shù)據(jù)處理工作。雷達(dá)的設(shè)計(jì)思路不一樣,相同的數(shù)據(jù)處理算法需遵循的開發(fā)架構(gòu)也不一致,并沒有固定的映射關(guān)系。以下主要通過分析兩種常用的軟件框架介紹搭建軟件框架的思路。
3.2.1 數(shù)據(jù)流框架
數(shù)據(jù)流框架即是流水線模式,是通過對(duì)算法處理流程的劃分讓每個(gè)核依次執(zhí)行固定任務(wù),最后一個(gè)核輸出處理結(jié)果的形式。使用這種框架,內(nèi)核之間對(duì)數(shù)據(jù)的處理是有先后順序的,必須等前一個(gè)核處理完數(shù)據(jù)下一個(gè)核才能開始工作。使用數(shù)據(jù)流框架的關(guān)鍵在于算法處理時(shí)間的均勻劃分。不合適的劃分會(huì)導(dǎo)致某一個(gè)核數(shù)據(jù)處理時(shí)間過長(zhǎng),最終影響雷達(dá)系統(tǒng)的性能。當(dāng)數(shù)據(jù)充滿流水線順序執(zhí)行時(shí),總體任務(wù)執(zhí)行性能會(huì)得到較大提升。數(shù)據(jù)流框架處理流程如圖7所示。
圖7 數(shù)據(jù)流框架處理流程圖
主從框架即是使用其中一個(gè)核進(jìn)行集中控制,創(chuàng)建多線程,將任務(wù)分流給其余核執(zhí)行的過程。使用主從框架,必須有操作系統(tǒng)支持。這種方式對(duì)簡(jiǎn)單任務(wù)是適用的。當(dāng)執(zhí)行復(fù)雜任務(wù)時(shí),難點(diǎn)在于如何均衡各從核之間的任務(wù)執(zhí)行效率。只有能保證負(fù)載均衡和共享資源能夠及時(shí)使用,才能實(shí)現(xiàn)整個(gè)軟件的并行工作。
主從框架處理流程如圖8所示。
圖8 主從框架處理流程圖
4.1 數(shù)據(jù)吞吐速率測(cè)試
在雷達(dá)的SAR圖像處理過程中,需要在DSP和存儲(chǔ)器之間進(jìn)行大數(shù)據(jù)的交互。數(shù)據(jù)吞吐的時(shí)間損耗即是一個(gè)關(guān)鍵指標(biāo)。因此,著重對(duì)平臺(tái)大數(shù)據(jù)搬移時(shí)間進(jìn)行了測(cè)試,使用SRIO高速傳輸接口。測(cè)試結(jié)果如表4所示。
表4 數(shù)據(jù)傳輸速率測(cè)試表
在測(cè)試過程中發(fā)現(xiàn),負(fù)載數(shù)據(jù)越小,傳輸?shù)乃俾试铰?。多核之間的LL2數(shù)據(jù)傳輸速率明顯高于與外部DDR3的數(shù)據(jù)交互。因此,在實(shí)際軟件設(shè)計(jì)過程中,頻繁使用的數(shù)據(jù)應(yīng)盡量在LL2之間進(jìn)行交互,并盡量減少小塊數(shù)據(jù)的傳輸,提高雷達(dá)系統(tǒng)數(shù)據(jù)實(shí)時(shí)處理能力。
4.2 功耗測(cè)試
在8核滿負(fù)荷工作時(shí),數(shù)據(jù)處理平臺(tái)平均功耗約為15 W。通過外接散熱片方式,傳導(dǎo)散熱,即可正常工作。
隨著現(xiàn)代雷達(dá)技術(shù)的飛速發(fā)展,多核DSP的雷達(dá)數(shù)據(jù)處理平臺(tái)也將成為發(fā)展趨勢(shì)。本文介紹的即是其中一種應(yīng)用于雷達(dá)設(shè)備中的多核DSP數(shù)據(jù)處理平臺(tái)的設(shè)計(jì)方法。該平臺(tái)以TI公司的多核DSP處理器TMS320C6678為核心,具有高性能、可擴(kuò)展和低功耗等優(yōu)點(diǎn)。此數(shù)據(jù)處理平臺(tái)已經(jīng)成功應(yīng)用于某型號(hào)雷達(dá)設(shè)備中。本系統(tǒng)的研制成功也為開發(fā)下一代的雷達(dá)多核數(shù)據(jù)處理平臺(tái)的研究提供了借鑒。
[1] 西北電訊工程學(xué)院《雷達(dá)系統(tǒng)》編寫組.雷達(dá)系統(tǒng)[M].北京:國(guó)防工業(yè)出版社,1980:64.
[2] Texas Instruments.TMS320C6678 Multicore Fixed and Floating-Point Digital Signal Processor[M].Texas,U.S.A,2012:11-63,92-208.
[3] Texas Instruments.C66x CPU and Instruction Set Reference Guide[M].Texas,U.S.A,2012:14-20.
[4] David Bell,Greg Wood.Multicore Programing Guide[M].Texas,U.S.A,2012:11-43.
[5] Micron Technology.1GB_DDR3_X4X8X16_D1[M].DDR3 SDRAM,2010:1-10.
[6] Texas Instruments.TMS320C6000 Optimizing Compiler v7.4 Users Guide[M].Texas,U.S.A,2012:11-27.
[7] Texas Instruments.KeyStone Architecture Gigabit Ethernet(GbE) Switch Subsystem User Guide[M].Texas,U.S.A,2013:20-34.
[8] 蘇保禹.基于TI-C6678的多核DSP圖像處理系統(tǒng)研究[D].中國(guó)科學(xué)院研究生院(光電技術(shù)研究所)碩士學(xué)位論文,2014:41-53.
Design of radar data processing platform with multicore DSP
ZHANG Li-ping
(China Southwest Research Institute of Electronics Technology, Chengdu 610036)
The radar data processing platform, as an important part of the radar, is generally used to analyze and fuse the target information sent back from the radar signal processor in modern radars. The target information processed is sent to the terminal display console for display after a series of complicated calculation. The design scheme of building the hardware platform is given with the TMS320C6678 as the core. The performance of the platform and the correctness of the work are verified through the actual test.
radar; data processing platform; embedded multicore; TMS320C6678
2016-09-10;
2016-10-03
張利平(1982-),男,工程師,研究方向:各種嵌入式平臺(tái)的開發(fā)和顯示系統(tǒng)的研究。
TN957.52
A
1009-0401(2016)04-0032-05