基于BWDSP100的高性能FFT實(shí)現(xiàn)

2016-03-13 02:11

雷達(dá)科學(xué)與技術(shù) 2016年5期

(中國電子科技集團(tuán)公司第三十八研究所孔徑陣列與空間探測安徽省重點(diǎn)實(shí)驗(yàn)室，安徽合肥 230088)

0 引言

隨著數(shù)字技術(shù)的發(fā)展，基于時(shí)頻域二維處理的算法以其優(yōu)越的性能逐漸成為信號(hào)處理算法的主流，時(shí)域-頻域間的相互轉(zhuǎn)換成為數(shù)字信號(hào)處理中重要的一環(huán)。自從20世紀(jì)60年代庫利圖基發(fā)展出快速傅里葉變換(FFT)以來，F(xiàn)FT一直是時(shí)頻域轉(zhuǎn)換的首要工具。正是基于對(duì)FFT運(yùn)算在諸多領(lǐng)域中廣泛應(yīng)用的重視， Freescale, TI, ADI等國際主流DSP芯片廠家紛紛采用FFT運(yùn)行時(shí)間作為表征芯片性能的重要參數(shù)。對(duì)于一款高性能DSP而言，如何實(shí)現(xiàn)高效FFT運(yùn)算是芯片走向?qū)嵱玫闹匾画h(huán)[1-2]。

1 芯片介紹

BWDSP100芯片(即“魂芯一號(hào)”)是中國電子科技集團(tuán)公司第三十八研究所自主研發(fā)的一款高性能、超標(biāo)量浮點(diǎn)運(yùn)算DSP芯片。該處理器融合了多種現(xiàn)代芯片設(shè)計(jì)理念并加以擴(kuò)展，充分發(fā)揮并行處理的優(yōu)勢(shì)和特點(diǎn)，可以滿足大數(shù)據(jù)量、實(shí)時(shí)性要求高的數(shù)字信號(hào)處理、數(shù)據(jù)處理等工程應(yīng)用要求?；谠撔酒睦走_(dá)信號(hào)處理機(jī)已經(jīng)完成設(shè)計(jì)，并在雷達(dá)數(shù)字陣列的大規(guī)模數(shù)字波束形成(DBF)中得到應(yīng)用[3-5]。

BWDSP100采用宏作為基本處理模塊。其片內(nèi)擁有4個(gè)處理宏(X/Y/Z/T)，每個(gè)宏擁有4個(gè)乘法累加器、8個(gè)ALU運(yùn)算器、2個(gè)移位器、1個(gè)特定運(yùn)算單元及64個(gè)32位寄存器，內(nèi)嵌28 Mbit SRAM(24 Mbit數(shù)據(jù)空間，4 Mbit程序空間)，單宏單周期內(nèi)能夠完成8次浮點(diǎn)加減法及4次浮點(diǎn)乘法運(yùn)算。同時(shí)它也支持32位和16位定點(diǎn)運(yùn)算?？紤]到取數(shù)效率，BWDSP100內(nèi)部擁有3個(gè)結(jié)構(gòu)相同、相互獨(dú)立工作的地址發(fā)生器(U/V/W)，可以通過來自譯碼器的立即數(shù)或者來自通用寄存器組的數(shù)據(jù)，對(duì)地址發(fā)生器的內(nèi)部寄存器進(jìn)行初始化。地址發(fā)生器利用這些初始化信息作為地址計(jì)算所需的基地址和偏移量。整個(gè)芯片內(nèi)部架構(gòu)如圖1所示。

圖1 BWDSP100內(nèi)部架構(gòu)

BWDSP100內(nèi)部24 Mbit數(shù)據(jù)空間采用SRAM搭建而成，不存在Cache命中問題。整個(gè)存儲(chǔ)部件分為3組(memory block)，分別稱為B0，B1，B2，每組又由8個(gè)獨(dú)立存儲(chǔ)器組成，每個(gè)存儲(chǔ)器的存儲(chǔ)容量為32 K×32 bit。因而器件內(nèi)部數(shù)據(jù)存儲(chǔ)器總數(shù)為3×8=24個(gè)。這樣的配置可以保證存儲(chǔ)單元在數(shù)據(jù)傳輸高峰情況下能夠同時(shí)提供兩組256 bit的數(shù)據(jù)給執(zhí)行核，與此同時(shí)接收一組從執(zhí)行內(nèi)核送過來的256 bit的數(shù)據(jù)。BWDSP100與ADI公司TS201設(shè)計(jì)性能比較如表1所示。不考慮讀寫帶寬的前提下，BWDSP100的性能是TS201的8倍。

表1 BWDSP100與TS201的性能比較

2 算法選擇

對(duì)于FFT算法來說，其數(shù)學(xué)表達(dá)雖然一致，但具體實(shí)現(xiàn)架構(gòu)卻千差萬別。針對(duì)硬件特點(diǎn)選擇合適的處理算法會(huì)讓實(shí)際程序在處理性能、實(shí)用性等方面得到較大的提升。以ADI公司的TigerSHARC系列芯片為例，雖然TS201與TS101保持了指令向下兼容，但是同樣的1 024點(diǎn)FFT，TS101的運(yùn)行周期數(shù)為9 872，TS201的運(yùn)行周期數(shù)卻為12 170。在針對(duì)TS201的內(nèi)部DRAM存儲(chǔ)新特性改用SingLeton算法優(yōu)化后，ADI提供的新程序1 024點(diǎn)FFT運(yùn)行周期數(shù)為9 419，運(yùn)算性能得到了明顯提升。

因此，為了滿足設(shè)計(jì)指標(biāo)，必須針對(duì)BWDSP100結(jié)構(gòu)特點(diǎn)對(duì)FFT算法架構(gòu)進(jìn)行選擇，這樣才可能貼近工程實(shí)際需要，充分發(fā)揮芯片特點(diǎn)，給出真正反映芯片性能的測試結(jié)果。

2.1 頻域分解與時(shí)域分解

FFT算法可以分為頻域分解(DIF)與時(shí)域分解(DIT)兩種結(jié)構(gòu)形式。兩種結(jié)構(gòu)的區(qū)別在于：頻域分解是在兩點(diǎn)DFT之后有旋轉(zhuǎn)因子，時(shí)域分解是在兩點(diǎn)DFT的節(jié)點(diǎn)之前有旋轉(zhuǎn)因子。很顯然，如果在第一級(jí)蝶形運(yùn)算中加入適當(dāng)?shù)男D(zhuǎn)因子，時(shí)域分解法的乘法系數(shù)可以完成對(duì)輸入數(shù)據(jù)實(shí)部虛部的不等加權(quán)；如果在最后一級(jí)蝶形運(yùn)算中加入適當(dāng)?shù)男D(zhuǎn)因子，頻域分解法的乘法系數(shù)可以實(shí)現(xiàn)對(duì)輸出數(shù)據(jù)實(shí)部虛部的不等加權(quán)。從工程上看，時(shí)域分解法的不等加權(quán)既可以實(shí)現(xiàn)對(duì)前方數(shù)字化通道不一致的補(bǔ)償，也可以實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)取共軛從而方便復(fù)用FFT程序得到IFFT的共軛結(jié)果。此時(shí)只要對(duì)輸出結(jié)果取共軛就可以得到正常IFFT結(jié)果。相較于另外編寫一套IFFT函數(shù)，復(fù)用FFT程序可以進(jìn)一步減小程序體積，因此，基于BWDSP100的FFT標(biāo)準(zhǔn)函數(shù)采用時(shí)域分解FFT算法實(shí)現(xiàn)。

2.2 原位算法與非原位算法

原位(in-place)FFT運(yùn)算是指在不附加緩沖的情況下，F(xiàn)FT的輸入及輸出結(jié)果可以在同一地址空間。非原位(not-in-place)FFT運(yùn)算則指在不附加緩沖的情況下，輸入及輸出結(jié)果必須在不同地址空間。很明顯，相較于非原位FFT運(yùn)算，原位FFT占用的存儲(chǔ)空間更少。

原位FFT必須通過位反序才能獲得正確結(jié)果。2的n階FFT需要進(jìn)行n位的位反序。記某數(shù)s的二進(jìn)制表現(xiàn)形式為(Sn-1Sn-2…S0)，則其對(duì)應(yīng)的逆序數(shù)S為(S0S1…Sn-1)。相應(yīng)的s稱為原序數(shù)。將按原序排列的某個(gè)矢量改為按逆序排列的過程稱為位反序操作。顯然，對(duì)于連續(xù)原序數(shù)系列來說，其對(duì)應(yīng)的逆序數(shù)序列必定非連續(xù)。在原位FFT實(shí)現(xiàn)中，如果單獨(dú)增加一級(jí)位反序處理必然會(huì)降低程序效率，最好的辦法是將位反序操作與蝶形運(yùn)算結(jié)合起來，在運(yùn)算中完成位反序。非原位FFT可以通過調(diào)整運(yùn)算架構(gòu)避免位反序操作。這種調(diào)整的代價(jià)是要么輸入地址的數(shù)據(jù)在運(yùn)算中被改寫，要么必須增加額外緩沖。

位反序?qū)Τ绦蛐实挠绊懺谟趦牲c(diǎn)：計(jì)算逆序數(shù)導(dǎo)致的計(jì)算延遲和逆序本身引發(fā)取數(shù)不連續(xù)所導(dǎo)致的讀寫速度下降。現(xiàn)代DSP(包括BWDSP100芯片)大都具有逆序取數(shù)功能，逆序數(shù)的計(jì)算延遲可忽略不計(jì)；逆序循環(huán)可以保證取數(shù)的局部連續(xù)性，改善逆序讀寫帶寬。逆序循環(huán)的實(shí)質(zhì)在于提取s的最低m個(gè)比特與最高m個(gè)比特單獨(dú)進(jìn)行逆序交換。由于最低m個(gè)比特的順序標(biāo)號(hào)具有連續(xù)性，表現(xiàn)在存儲(chǔ)上即具有地址臨近的特點(diǎn)，所以采用逆序循環(huán)算法后可以連續(xù)讀寫以充分利用芯片帶寬。同時(shí)由于逆序數(shù)與原序數(shù)間互為逆序，因此這種部分逆序交換的結(jié)果必然具有封閉性(即循環(huán)性)[6-7]。如果處理芯片內(nèi)部寄存器足夠，可以對(duì)循環(huán)體涉及到的數(shù)據(jù)進(jìn)行暫存和重組，從而實(shí)現(xiàn)原位FFT。實(shí)際編程中為提升效率而引入了多級(jí)合并，此時(shí)BWDSP100芯片內(nèi)部寄存器數(shù)量不足以支持這種暫存和重組操作?；谛蕛?yōu)先的考慮，最終選擇了基于逆序循環(huán)的帶位反序操作的非原位算法。在不增加額外緩沖的前提下，輸入地址的數(shù)據(jù)在運(yùn)算后也可以保留下來。其算法架構(gòu)如圖2所示。

圖2 8點(diǎn)時(shí)域分解原位FFT算法架構(gòu)

3 算法實(shí)現(xiàn)

3.1 運(yùn)算能力與IO能力的匹配

如前所述，BWDSP100芯片具有非常強(qiáng)大的浮點(diǎn)運(yùn)算功能，其單核單周期內(nèi)能夠完成8次浮點(diǎn)加減法及4次浮點(diǎn)乘法運(yùn)算。與之相比，BWDSP100芯片的數(shù)據(jù)吞吐能力略顯不足，其單核單周期可以讀取兩個(gè)浮點(diǎn)復(fù)數(shù)(64 bit×2)，存儲(chǔ)一個(gè)浮點(diǎn)復(fù)數(shù)(32 bit×1)。

FFT基本運(yùn)算為形如(a+bj)±(c+dj)×(Wr+Wij)的蝶形運(yùn)算。單個(gè)蝶形運(yùn)算的運(yùn)算量是4次浮點(diǎn)乘法和6次浮點(diǎn)加減法，對(duì)應(yīng)芯片I/O能力的要求是讀取3個(gè)浮點(diǎn)型復(fù)數(shù)(兩個(gè)運(yùn)算數(shù)、一個(gè)旋轉(zhuǎn)因子)，存儲(chǔ)兩個(gè)浮點(diǎn)型復(fù)數(shù)(兩個(gè)運(yùn)算結(jié)果)。與BWDSP100芯片能力相比，BWDSP100可以在單周期內(nèi)完成單個(gè)蝶形計(jì)算，但是無法在單周期內(nèi)完成相應(yīng)的IO操作。為了充分發(fā)揮芯片的運(yùn)算性能，必須進(jìn)行多階合并。如果進(jìn)行兩階合并的話，兩個(gè)周期內(nèi)要求芯片的I/O能力降低為：讀取4個(gè)復(fù)數(shù)(兩個(gè)運(yùn)算數(shù)、兩個(gè)旋轉(zhuǎn)因子)，存儲(chǔ)2個(gè)復(fù)數(shù)(兩個(gè)運(yùn)算結(jié)果)，BWDSP100芯片可以滿足這一要求。由于此時(shí)乘法運(yùn)算能力已經(jīng)全部應(yīng)用完畢，更多階數(shù)的合并并不能帶來更大的得益，反而造成程序復(fù)雜度增加。因此，兩階合并是比較合理的選擇。

兩階合并帶來的問題是FFT長度被強(qiáng)制要求為2的偶數(shù)次方，這在很多應(yīng)用場合使用十分不便。觀察圖2可以發(fā)現(xiàn)，時(shí)域分解FFT算法的前兩級(jí)均為特殊旋轉(zhuǎn)因子(第一級(jí)為全1，第二級(jí)為1和-j)，這樣單個(gè)蝶形運(yùn)算只需要進(jìn)行4次加減法。前后兩級(jí)蝶形運(yùn)算合并后共8次加減法，即使考慮到不等加權(quán)帶來的4次乘法，兩級(jí)運(yùn)算一個(gè)周期即可完成。于是再次遇到了數(shù)據(jù)吞吐能力不足的問題。繼續(xù)延用前面所提的多階合并辦法解決這個(gè)問題。多階合并的最大限制由芯片運(yùn)算核所擁有的內(nèi)部存儲(chǔ)器個(gè)數(shù)給出。由于BWDSP100芯片單核擁有64個(gè)內(nèi)部存儲(chǔ)器，合并階數(shù)最高可以達(dá)到四階。采用判斷處理的辦法。對(duì)于偶數(shù)階，采用四階合并；對(duì)于奇數(shù)階，采用三階合并。這樣既解除了FFT長度必須為2的偶數(shù)次方限制，又提高了程序的運(yùn)行效率。

3.2 充分發(fā)揮IO帶寬

2.2節(jié)已經(jīng)指出采用逆序循環(huán)可以充分發(fā)揮芯片的IO帶寬。本節(jié)將對(duì)其具體實(shí)現(xiàn)作出說明。

在第1節(jié)已經(jīng)指出，BWDSP100內(nèi)部數(shù)據(jù)存儲(chǔ)器分為3組，每組由8個(gè)32 bit獨(dú)立存儲(chǔ)器組成，合并為一組256 bit數(shù)據(jù)提供給4個(gè)執(zhí)行核，每個(gè)核從中可以獲得64 bit數(shù)據(jù)。8個(gè)32 bit獨(dú)立存儲(chǔ)器地址分布如圖3所示。

圖3 8個(gè)32 bit獨(dú)立存儲(chǔ)器地址分布圖

如果拼成256 bit數(shù)據(jù)的幾個(gè)地址落到了同一個(gè)存儲(chǔ)器就會(huì)發(fā)生地址沖突。此時(shí)，程序流水會(huì)被打斷，只有當(dāng)沖突的數(shù)據(jù)按周期全部讀寫至各獨(dú)立存儲(chǔ)器的緩存后，程序才會(huì)繼續(xù)執(zhí)行。

流水打斷會(huì)對(duì)讀寫帶寬產(chǎn)生極大的影響，為了解決這個(gè)問題，在程序編制中應(yīng)該盡量保證一組所取數(shù)據(jù)存放在不同存儲(chǔ)器中。BWDSP100的位反序取數(shù)指令如下所示[6]：

{x,y,z,t}Rs+1:s=br(C)[Un+=Um,Uk]

{x,y,z,t}Rs+1:s=br(C)[Vn+=Vm,Vk]

{x,y,z,t}Rs+1:s=br(C)[Wn+=Wm,Wk]

指令中的br前綴代表位反序?qū)ぶ?，前綴br后的立即數(shù)C代表位反序的位數(shù)，它決定了指令中的哪些位元需要反序。例如指令br(7)[U0+=U1,U2]=R1:0，反序控制參數(shù)值為7，表明將地址的[7:0]位進(jìn)行反序操作。它產(chǎn)生的4 對(duì)地址是：[反序(U0)]、[反序(U0)+1]；[反序(U0)+2×U2]、[反序(U0)+2×U2+1]；[反序(U0)+2×2×U2]、[反序(U0)+2×2×U2+1]；[反序(U0)+3×2×U2]、[反序(U0)+3×2×U2+1]。4對(duì)地址所取得的數(shù)據(jù)依次存放到4個(gè)執(zhí)行核X/Y/Z/T的R1和R0中去。而基地址寄存器U0 將被修改為[U0+U1] ，用不反序的U0 值進(jìn)行基地址的自增。

可以看出，若U2設(shè)置為1，則指令所涉及到的4對(duì)地址連續(xù)，可以保證分布在8個(gè)獨(dú)立存儲(chǔ)器中，不會(huì)發(fā)生地址沖突。如果限制輸入數(shù)據(jù)地址為8的邊界(即低3位為000)，再將增量U1設(shè)置為8，則連續(xù)的4對(duì)取數(shù)地址可以等效為FFT逆序數(shù)的最低2 bit單獨(dú)進(jìn)行逆序交換的逆序循環(huán)，如圖4所示。

圖4 最低2 bit單獨(dú)逆序交換取數(shù)圖

圖中*號(hào)表示任意取值。可以看出，將s的最低2 bit轉(zhuǎn)化為地址基址U0后，采用4組地址發(fā)生器即可實(shí)現(xiàn)對(duì)所有逆序地址的連續(xù)內(nèi)存訪問，完全規(guī)避了地址沖突的風(fēng)險(xiǎn)。完成核間數(shù)據(jù)交換后，就可以得到正確順序的處理結(jié)果。根據(jù)逆序循環(huán)原理，該處理結(jié)果同樣占據(jù)輸出地址空間的4段連續(xù)內(nèi)存，保證了輸出存儲(chǔ)時(shí)的數(shù)據(jù)帶寬。需要注意的是，由于復(fù)數(shù)占據(jù)了2個(gè)地址，因此實(shí)際逆序地址計(jì)算中逆序位數(shù)為FFT階次n加2。要求輸入FFT數(shù)據(jù)地址的第n+1位必須為0以保證取數(shù)首址的正確。

在編程實(shí)現(xiàn)時(shí)發(fā)現(xiàn)，由于在這種三級(jí)/四級(jí)合并的編程中，已經(jīng)盡可能地發(fā)揮了BWDSP100的處理能力，再加入核間數(shù)據(jù)交換操作，其單個(gè)周期的并發(fā)指令數(shù)、ALU資源等都將成為瓶頸。而如果為此增加額外指令周期則影響了程序效率。

仔細(xì)研究圖2所示算法架構(gòu)，可以看出：在后面的處理中，除最后兩級(jí)外，其余各級(jí)順序讀入的4個(gè)運(yùn)算核的數(shù)據(jù)剛好分處在4個(gè)不同的FFT組內(nèi)。各組旋轉(zhuǎn)因子完全相同，運(yùn)算步驟完全相同，編程十分方便。最后兩級(jí)中可以進(jìn)行高兩位和低兩位的逆序交換，從而完成整個(gè)逆序操作。由于最后兩級(jí)BWDSP100的運(yùn)算任務(wù)并不飽滿(芯片支持單周期完成8次加減法實(shí)際只需要6次加減法)，這種交換操作可以在不影響效率的前提下插入原程序中運(yùn)行，問題得到了圓滿的解決。由于需要最后兩級(jí)完成交換操作，程序能夠?qū)崿F(xiàn)的最小FFT點(diǎn)數(shù)為32點(diǎn)，基本可以滿足工程實(shí)現(xiàn)需要。

3.3 提高程序的通用性

FFT運(yùn)算所需要的位反序位數(shù)由FFT的長度決定。設(shè)FFT長度N為2的n次階，則FFT運(yùn)算所需的位反序位數(shù)為n，如果考慮到復(fù)數(shù)占據(jù)了2個(gè)地址，則BWDSP100位反序取數(shù)指令中位反序的位數(shù)需要設(shè)置為n+2。前面指出，BWDSP100的位反序取數(shù)指令中位反序的位數(shù)為固定常數(shù)，這就意味著一種FFT位反序只能處理對(duì)應(yīng)點(diǎn)數(shù)的FFT。如果在實(shí)際應(yīng)用中需要多種長度的FFT，就需要配備多種位反序操作。這樣既增大了程序體積也降低了程序效率。

記原序數(shù)s的二進(jìn)制表現(xiàn)形式為(Sn-1Sn-2…S0)，如果對(duì)其尾部添加m個(gè)零，記為s*(Sn-1Sn-2…S00m-1…0100)，則其對(duì)應(yīng)的逆序數(shù)S*為(0001…0m-1S0S1…Sn-1)?？梢钥闯?，對(duì)新的原序數(shù)s*進(jìn)行n+mbit位反序后得到的新的逆序數(shù)S*與原來的逆序數(shù)S數(shù)值相等。采用這樣的辦法，可以將原本位數(shù)不同的位反轉(zhuǎn)操作統(tǒng)一擴(kuò)充到固定點(diǎn)數(shù)，對(duì)應(yīng)需要修改的是原序數(shù)的遞增量。而BWDSP100指令中該遞增量是可變的。設(shè)新的固定位反轉(zhuǎn)位數(shù)為n+m，則新的遞增量由原來的20改變?yōu)?m。BWDSP100芯片內(nèi)部數(shù)據(jù)地址空間分配如圖5所示。

圖5 BWDSP100內(nèi)部數(shù)據(jù)地址空間分配

從圖5可以看出，BWDSP100內(nèi)部數(shù)據(jù)Cache分為了3塊，每塊256K字。從地址角度看共18 bit。對(duì)于位反序取數(shù)指令{x,y,z,t}Rs+1:s=br(C)[Un+=Um,Uk]，Uk取1，固定位反序位數(shù)C應(yīng)該取17?？紤]到一個(gè)復(fù)數(shù)數(shù)據(jù)需占有2個(gè)字地址空間，Um的值應(yīng)該為2(17-r)，式中r為FFT階數(shù)。

由于芯片內(nèi)部有X/Y/Z/T 4個(gè)運(yùn)算核，所取數(shù)據(jù)將分落到這4個(gè)核中，為避免在前面的四級(jí)合并中因逆序而進(jìn)行數(shù)據(jù)交換，考慮保留前后各2 bit地址到最后交換。將此2 bit考慮后，Um的值為2(19-r)。

這樣修改后，新的程序可以適應(yīng)各種2的整數(shù)次冪FFT處理。同時(shí)，由于對(duì)原序數(shù)尾部添0，逆序數(shù)對(duì)應(yīng)頭部填充了多個(gè)0，而BWDSP100指令中直接將計(jì)算得到的逆序數(shù)作為取數(shù)地址，因此帶來的限制是輸入FFT數(shù)據(jù)必須放在3個(gè)內(nèi)部數(shù)據(jù)塊的某一首地址。在實(shí)際工程應(yīng)用中，這個(gè)限制條件對(duì)于可以進(jìn)行絕對(duì)地址操作的BWDSP100而言比較容易實(shí)現(xiàn)。

4 測試結(jié)果

程序編制完成后，在BWDSP100評(píng)估板上進(jìn)行了基于硬件的實(shí)際性能測試，與TS201芯片比較結(jié)果如表2所示。

表2 BWDSP100與TS201 復(fù)數(shù)FFT周期數(shù)比較

從表2可以看出，BWDSP100的1 024點(diǎn)FFT性能達(dá)到TS201的8倍，滿足原設(shè)計(jì)指標(biāo)。2 048點(diǎn)FFT由于程序前端只進(jìn)行了三階合并，性能有所下降。從4 096點(diǎn)開始，BWDSP100采用SRAM的優(yōu)勢(shì)開始體現(xiàn)，較TS201性能有了較大的提升。

5 結(jié)束語

基于BWDSP100硬件特點(diǎn)，本文有針對(duì)性地給出了FFT算法實(shí)現(xiàn)中遇到的問題及解決辦法。與國際成熟的DSP相比，最終FFT性能達(dá)到了設(shè)計(jì)理論要求。盡管本文基于特定平臺(tái)，但文中給出的方法對(duì)BWDSP100應(yīng)用及其他芯片F(xiàn)FT實(shí)現(xiàn)均有一定的參考作用。

[1] 袁琪,楊康,周建江,等. 大點(diǎn)數(shù)FFT算法C6678多核DSP的并行實(shí)現(xiàn)[J]. 電子測量技術(shù), 2015, 38(2):74-80.

[2] 張杰,顧乃杰,張明. 龍芯3B處理器上FFT算法向量化研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2015, 36(7):1639-1643.

[3] 史鴻聲,穆文爭,劉麗. 基于“魂芯一號(hào)”的雷達(dá)信號(hào)處理機(jī)設(shè)計(jì)[J]. 雷達(dá)科學(xué)與技術(shù), 2012, 10(2):161-164.

SHI Hongsheng, MU Wenzheng, LIU Li. Design of Radar Signal Processor Based on HunXin-1 Chip[J]. Radar Science and Technology, 2012, 10(2):161-164.(in Chinese)

[4] 許德剛. 基于BWDSP100處理器的無源雷達(dá)信號(hào)處理系統(tǒng)[J]. 艦船電子對(duì)抗, 2015, 38(2):72-75.

[5] 賈光帥,洪一,劉小明,等. 基于“魂芯一號(hào)”的自適應(yīng)截位浮點(diǎn)乘法實(shí)現(xiàn)[J]. 雷達(dá)科學(xué)與技術(shù), 2015, 13(3):324-327.

JIA Guangshuai, HONG Yi, LIU Xiaoming, et al. Implementation of Adaptive Truncation of Floating-Point Multiplier Based on BWDSP100 Processor[J]. Radar Science and Technology, 2015, 13(3):324-327.(in Chinese)

[6] 方志紅,張長耀. 逆序循環(huán)在原位FFT中的應(yīng)用[C]∥全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議, 合肥:中國科學(xué)技術(shù)大學(xué)出版社, 2010:43-46.

[7] 方志紅,張長耀,俞根苗. 利用逆序循環(huán)實(shí)現(xiàn)FFT運(yùn)算中倒序算法的優(yōu)化[J]. 信號(hào)處理, 2004, 20(5):533-535.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡