莊躍遷
(中國西南電子技術(shù)研究所,成都610036)
隨著彈載裝備的不斷快速發(fā)展,尤其是對彈載裝備賦予的戰(zhàn)技指標(biāo)要求越來越高的情況下,針對基于彈載平臺研發(fā)的信號處理機的要求也在不斷提高。與地面、艦載、機載等產(chǎn)品的不同之處在于,彈載產(chǎn)品由于其特殊的功能指標(biāo)及環(huán)境條件,作為其核心單機的信號處理機必須滿足高處理性能、小型化等要求,同時兼顧功耗、散熱、可靠性、成本和模塊化等因素。
傳統(tǒng)的彈載信號處理機的核心處理器多采用幾百MHz的單核或雙核定/浮點處理器,而目前,彈載信號處理機對數(shù)字信號處理器的處理性能要求已經(jīng)達到數(shù)十Gflop到數(shù)百Gflop,多核心浮點處理器的應(yīng)用已經(jīng)勢在必行。彈載信號處理機對數(shù)據(jù)傳輸要求也達到了數(shù)Gbit/s到數(shù)十Gbit/s,并且通常彈載信號處理機都具有非常嚴(yán)苛的體積要求。因此,如何設(shè)計高速高密度大容量處理能力的彈載處理機,實現(xiàn)高效的多核心并行處理、高速的大規(guī)模數(shù)據(jù)傳輸,是彈載信號處理機亟需面對和解決的問題。
目前,彈載裝備已經(jīng)涵蓋了雷達導(dǎo)引頭、電子干擾機、電子偵察、通信等多個專業(yè)領(lǐng)域,而信號處理機作為不同領(lǐng)域的通用核心設(shè)備,其研發(fā)將更加具有重要意義。設(shè)計滿足工程化需求的彈載小型化高速信號處理機已經(jīng)迫在眉睫。本文對彈載小型化高速信號處理機的設(shè)計方案、模塊組成進行了介紹,并重點分析了處理機設(shè)計中解決的關(guān)鍵技術(shù)。
典型的彈載信號處理機需要完成包括信號采樣、信號預(yù)處理、信號處理、數(shù)據(jù)處理、接口控制、模塊管理在內(nèi)的多項功能。其中,信號采樣完成對多路中頻寬帶模擬信號的模數(shù)轉(zhuǎn)換;信號預(yù)處理完成對中頻信號的數(shù)字下變頻、濾波等功能;信號處理完成信號處理機的核心算法;數(shù)據(jù)處理完成對信號處理結(jié)果的后處理工作;接口控制負(fù)責(zé)信號處理機內(nèi)部模塊之間的接口和信號處理機對外的接口的管理及控制;模塊管理功能實現(xiàn)對信號處理機各模塊狀態(tài)的實時檢測。
圖1是彈載小型化高速信號處理機的設(shè)計框圖。根據(jù)對彈載處理機功能要求的分析,將彈載處理機劃分為3個主要模塊:多通道采樣及預(yù)處理模塊、信號處理模塊、主控模塊。多通道采樣及預(yù)處理模塊完成對信號采樣和信號預(yù)處理功能;信號處理模塊完成信號處理和數(shù)據(jù)處理功能;主控模塊完成接口控制和模塊管理功能。各模塊之間通過底板互聯(lián)。
圖1 處理機設(shè)計框圖Fig.1 Block diagram of computer design
同時,在處理機設(shè)計時,為提高模塊的可復(fù)用性能,降低開發(fā)難度,提高研發(fā)效率,將處理機設(shè)計劃分為三個層次,從下至上分別是硬件層、驅(qū)動層和應(yīng)用層。
多通道采樣及預(yù)處理模塊采用ADC+FPGA的構(gòu)架方式,圖2是模塊的設(shè)計框圖。
圖2 多通道采樣及預(yù)處理模塊設(shè)計框圖Fig.2 Block diagram of the multi- channel sampling and preprocessing module
ADC采用TI公司的產(chǎn)品ADS5474,其輸入帶寬最高可達1.4 GHz,轉(zhuǎn)換速率最大可達400 Msample/s,采樣位寬為14 bit。ADC采樣電路設(shè)計要求高質(zhì)量低相位噪聲的采樣時鐘,時鐘信號的孔徑抖動對ADC的性能影響較大,因此選用ADCLK854時鐘分配器將單端時鐘轉(zhuǎn)換為差分時鐘,該驅(qū)動器具有極低的100 fs的抖動時間。
FPGA采用Xilinx公司的XC6VLX240T,其配置FLASH為Platform flash XL。FPGA的GTX接口是一種高速串行接口,在方案中設(shè)計為3.125 Gbit/s波特率的全雙工串行收發(fā),提供8B/10B、用戶定義FPGA邏輯或無編碼選項,收發(fā)器可以支持多種協(xié)議。FPGA外掛4 Gbit DDR3 SDRAM存儲器。
在驅(qū)動層,信號預(yù)處理FPGA接口軟件由時鐘管理模塊、ADC接口管理模塊、DDR存儲器控制模塊、FLASH存儲器控制模塊、GTX接口管理模塊、同步信號管理模塊、RS422總線管理模塊、CAN總線管理模塊、I/O管理模塊等組成。
在應(yīng)用層,F(xiàn)PGA完成對中頻模擬信號的數(shù)字下變頻和濾波等功能。應(yīng)用軟件不是本文討論重點,在此處不再贅述。
圖3是信號處理模塊的設(shè)計框圖。信號處理模塊采用FPGA+DSP的構(gòu)架方式,其中FPGA同樣采用Xilinx公司的XC6VLX240T,DSP采用TI公司的TMS320C6678多核心DSP處理器。DSP外掛4片128 MByte的 DDR3存儲器、1片32 MByte的 Nor Flash存儲器,并通過 SRIO、GPIO、URAT、SPI與 FPGA進行連接。時鐘緩沖器采用ON公司的NB6N14SMNG,將晶振提供的125 MHz時鐘多路分發(fā)到FPGA和DSP,作為GTX和SRIO高速串行總線的工作時鐘。
圖3 信號處理模塊設(shè)計框圖Fig.3 Block diagram of signal processing module
在驅(qū)動層,信號處理FPGA接口軟件與信號預(yù)處理FPGA接口軟件類似,只是增加了SRIO接口管理模塊,同時裁剪了ADC接口管理模塊。
為解決多核心協(xié)同工作問題并提高DSP的工作效率,設(shè)計了多核心DSP框架軟件。軟件從下至上包含了BSP板級支持包、DSP管理框架、API用戶界面三個部分,BSP板級支持包根據(jù)TI公司提供的底層驅(qū)動函數(shù)庫進行封裝;DSP管理框架包括了多核管理、資源管理、存儲管理、數(shù)據(jù)通信等部分,實現(xiàn)了多核心之間的行為同步、資源共享,提高了存儲器的訪問效率,并有效管理了DSP片內(nèi)外的數(shù)據(jù)傳輸;API用戶界面對下層的DSP管理框架進行封裝,為上層用戶程序提供簡潔的API函數(shù),使用戶在不需要了解底層硬件的情況下進行調(diào)用。
在應(yīng)用層,F(xiàn)PGA和DSP協(xié)同完成信號處理、數(shù)據(jù)處理算法的實現(xiàn)。
主控模塊主要負(fù)責(zé)處理機接口控制和模塊管理,通過DSP實現(xiàn)流程管理,通過FPGA實現(xiàn)接口通信。DSP采用TI公司的TMS320C6414T處理器,外掛2片16 MByte SDRAM、1片16 MByte Nor Flash,并通過EMIF總線以及GPIO、INT(中斷信號4個)與FPGA進行連接。FPGA采用 XILINX公司的XC4VLX60 FPGA及相應(yīng)的FLASH配置芯片XCF32PVO48C。主控模塊的設(shè)計框圖如圖4所示。
圖4 主控模塊設(shè)計框圖Fig.4 Block diagram of main control module
在驅(qū)動層,主控FPGA接口軟件由時鐘管理模塊、同步RS422管理、異步RS422管理、CAN總線管理、SPI總線管理、LVDS總線管理、I2C總線管理、EMIF總線管理、看門狗復(fù)位、自檢及健康管理等組成。主控DSP驅(qū)動軟件由CPU初始化函數(shù)、中斷初始化函數(shù)、片上 PLL驅(qū)動函數(shù)、EMIF驅(qū)動函數(shù)、SDRAM驅(qū)動函數(shù)、GPIO驅(qū)動函數(shù)、SPI驅(qū)動函數(shù)、Timers驅(qū)動函數(shù)、DMA驅(qū)動函數(shù)等組成。
在應(yīng)用層主控模塊將實現(xiàn)接口控制和模塊管理的整個工作流程。
受限于彈載平臺,彈載處理機通常具有非常嚴(yán)苛的結(jié)構(gòu)要求。但與此同時,對彈載處理機處理性能的要求卻越來越高。由此帶來的就是高速高密度電路設(shè)計、小型化、散熱等問題。
(1)高速高密度電路仿真技術(shù)
傳統(tǒng)的低頻電路設(shè)計通常依賴于廠商提供的器件資料和研發(fā)人員自身的設(shè)計經(jīng)驗,以規(guī)避可能出現(xiàn)的電路設(shè)計問題和電磁兼容問題。
彈載處理機的信號處理模塊由高性能的FPGA、DSP等處理芯片及相關(guān)電路組成,其中FPGA工作頻率為300 MHz,DSP 主頻最高為1.25 GHz,GTX和SRIO總線的數(shù)據(jù)率更是高達3.125 Gbit/s。此外,多通道采樣及預(yù)處理模塊由復(fù)雜的模擬采樣電路和高速數(shù)字電路組成,設(shè)計難度較大。同時,彈載處理機對模塊體積也有非常嚴(yán)苛的要求。因此,只有采用有效的電路仿真手段,在設(shè)計階段進行信號完整性仿真,預(yù)先發(fā)現(xiàn)可能存在的電磁兼容問題,才能提高高速高密度電路設(shè)計的成功率,降低設(shè)計成本并縮短開發(fā)周期[1]。在彈載處理機設(shè)計過程中,采用Candence電路設(shè)計工具進行高速數(shù)?;旌想娐贩抡?,解決了電源紋波對時鐘信號的影響和信號線間串?dāng)_兩個關(guān)鍵技術(shù)問題。
通過仿真發(fā)現(xiàn),由于DSP核電壓濾波電容的寄生電感(ESL)和寄生電阻(ESR)值較大,導(dǎo)致其對電源紋波的濾除性能較差,使DSP的內(nèi)部鎖相環(huán)無法穩(wěn)定工作。通過選用ESL和ESR較小的陶瓷電容,可有效濾除電源紋波,降低對時鐘信號的干擾,保證DSP的正常工作。經(jīng)仿真后發(fā)現(xiàn)電源紋波降低了一個數(shù)量級。
在完成信號處理模塊的PCB布線之后,通過仿真發(fā)現(xiàn)某控制信號受鄰近時鐘信號干擾較為嚴(yán)重。在對該控制信號附近進行鋪地處理后再次仿真發(fā)現(xiàn)干擾已降低到可忍受程度。
(2)采樣一致性技術(shù)
高速多通道采樣帶來了信號幅度一致性和相位一致性的問題。對于幅度一致性要求,通過在ADC之前增加線性保持和放大電路實現(xiàn)對信號的調(diào)理。采用寬帶運算放大器完成ADC變換前信號的放大與保持,可降低在寬帶情況下不同頻率信號的畸變,同時減少多路信號之間的幅度差。運算放大器在系統(tǒng)允許的條件下雖然會帶來一定的插損,但相對變壓器組而言對不同頻率信號間的幅度一致性更好,不同通道間的延遲也更加穩(wěn)定一致。對相位一致性要求,則選擇具有相位一致性調(diào)整功能的ADC,通過FPGA實現(xiàn)對ADC采樣信號相位的調(diào)整,實現(xiàn)多路信號的同步。
(3)散熱技術(shù)
高密度高性能電路帶來的最嚴(yán)峻的問題就是散熱。以TMS320C6678為核心的處理電路,其工作溫度和功耗成為相互加速的因子。如果不采取有效的散熱措施,上電后DSP的溫度將會迅速升高,最后發(fā)生雪崩效應(yīng),導(dǎo)致DSP功耗過高,工作溫度超過芯片結(jié)溫,輕則出現(xiàn)程序跑飛的情況,嚴(yán)重將會損壞硬件電路。而彈載情況下通常是不能采用強制對流的方式進行散熱的,因此必須通過結(jié)構(gòu)仿真,設(shè)計具有良好散熱效果的冷板及機箱,才能保證處理機的正常工作。通過仿真表明,采用某鎢基合金材料制作的冷板,具有較好的導(dǎo)冷散熱效果,可保證DSP正常工作。
TMS320C6678是業(yè)界目前最高性能的定、浮點DSP,它的出現(xiàn)雖然帶來處理能力的提高,但是由于體系結(jié)構(gòu)復(fù)雜,給軟件設(shè)計人員帶來很大負(fù)擔(dān):首先必須花時間了解復(fù)雜的芯片體系結(jié)構(gòu),然后花大量的時間精力去實現(xiàn)多核間的行為同步、資源同步、數(shù)據(jù)通信和各種底層驅(qū)動(平臺初始化、PCIE、RapidIO、Hyperlink、UDP、NorFlash、GPIO、UART)等功能,最后才能專注于自己的算法或應(yīng)用開發(fā)。為了將研發(fā)人員從底層驅(qū)動、多核體系結(jié)構(gòu)中解放出來,將主要精力花在應(yīng)用開發(fā)或算法實現(xiàn)上,本處理機設(shè)計方案提出C6678框架軟件的設(shè)計理念,如圖5所示。
圖5 TMS320C6678框架軟件Fig.5 Framework software of TMS320C6678
為滿足實時性要求,C6678框架軟件不采用任何操作系統(tǒng),但為多核心DSP開發(fā)引入嵌入式操作系統(tǒng)[2-4]的設(shè)計理念,使應(yīng)用軟件開發(fā)人員在編寫應(yīng)用軟件(或者具體算法)時,無需考慮多核的體系架構(gòu),只需將軟件或算法科學(xué)地劃分為多個任務(wù),然后調(diào)用本框架軟件的提供的系統(tǒng)資源(比如任務(wù)資源、信號量資源、事件標(biāo)志組資源、多核同步資源、互斥訪問資源、消息郵箱資源、內(nèi)存?zhèn)鬏斮Y源)、驅(qū)動資源(平臺初始化、PCIE、RapidIO、Hyperlink、UDP、NorFlash、GPIO、UART)和平臺配置文件,即可在應(yīng)用層快速搭建所需環(huán)境,提高應(yīng)用軟件或算法的編寫效率。
C6678框架軟件主要集成了多核間同步與通信、常用底層驅(qū)動和軟件平臺配置文件,并通過大量測試確保此平臺的穩(wěn)定性。在用戶設(shè)計一個復(fù)雜系統(tǒng)時,使用此平臺將大大提高效率和可靠性。
彈載處理機的性能指標(biāo)主要體現(xiàn)在處理性能和數(shù)據(jù)傳輸兩個方面。
表1是針對某SAR圖像處理算法,分別采用傳統(tǒng)彈載處理機和彈載小型化高速信號處理機,完成信號處理及數(shù)據(jù)傳輸?shù)暮臅r統(tǒng)計。
表1 耗時統(tǒng)計Table1 Time consuming statistics ms
圖6所示是采用高性能示波器對模塊間高速GTX總線進行測試的結(jié)果,數(shù)據(jù)速率為3.125 Gbit/s。由圖可見,眼圖質(zhì)量很好,數(shù)據(jù)傳輸?shù)男r灲Y(jié)果也表明誤碼率低于10-12。
圖6 GTX總線測試結(jié)果Fig.6 Test result of GTX bus
多項測試表明,彈載小型化高速信號處理機的處理性能、數(shù)據(jù)傳輸能力均比傳統(tǒng)彈載信號處理機有很大提高,可滿足彈載多領(lǐng)域的項目需求。
彈載小型化高速信號處理機具有高性能的采樣和信號處理能力、高速超大容量的數(shù)據(jù)傳輸能力,經(jīng)過性能指標(biāo)的測試和工程項目的驗證,可滿足裝備的需求。
多功能、多任務(wù)、高性能、微小型化、低功耗將是未來彈載信號處理機的發(fā)展方向。進一步的研究重點將包括基于多通道采樣的陣列信號處理技術(shù)、高速光纖網(wǎng)絡(luò)傳輸技術(shù)等,以滿足不斷提升的彈載處理機的性能需求。
[1]Montrose M.電磁兼容的印制板電路板設(shè)計[M].呂英華,于學(xué)萍,張金玲,等,譯.北京:機械工業(yè)出版社,2013.Montrose M.Printed Circuit Board Degisn Techniques for EMC Compliance[M].Translated by LYU Yinghua,YU Xueping,ZHANG Jinling,et al.Beijing:Mechanical Industry Press of China,2013.(in Chinese)
[2]周本海,喬建忠,林樹寬.基于多核處理器的動態(tài)共享緩存分配算法[J].東北大學(xué)學(xué)報(自然科學(xué)版),2011,32(1):44 -47.ZHOU Benhai,QIAO Jianzhong,LIN Shukuan.Research on the Dynamic Allocation Algorithmof Shared Cache for Multi- core Processor[J].Journal of Northeastern University(Natural Science),2011,32(1):44 -47.(in Chinese)
[3]張駿,樊曉椏,劉松鶴.多核、多線程處理器的低功耗設(shè)計技術(shù)研究[J].計算機科學(xué),2007,34(10):301 -305.ZHANG Jun,F(xiàn)AN Xiaoya,LIU Songhe.Research of Low Power Degisn Techniques for Multi-Core and Multithreading Microprocessor[J].Computer Science,2007,34(10):301 -305.(in Chinese)
[4]徐帆,沈立,王志英.基于多核平臺的多線程動態(tài)優(yōu)化框架[J].計算機工程與科學(xué),2011,33(5):48-53.XU Fan,SHEN Li,WANG Zhiying.A Dynamic Optimization Framework for Multi-Threads Based on Multi-Core Platforms[J].ComputerEngineering & Science,2011,33(5):48 -53.(in Chinese)