(中國電子科技集團(tuán)公司第三十八研究所孔徑陣列與空間探測安徽省重點(diǎn)實(shí)驗(yàn)室, 安徽合肥 230088)
隨著數(shù)字技術(shù)的發(fā)展,基于時(shí)頻域二維處理的算法以其優(yōu)越的性能逐漸成為信號(hào)處理算法的主流,時(shí)域-頻域間的相互轉(zhuǎn)換成為數(shù)字信號(hào)處理中重要的一環(huán)。自從20世紀(jì)60年代庫利圖基發(fā)展出快速傅里葉變換(FFT)以來,F(xiàn)FT一直是時(shí)頻域轉(zhuǎn)換的首要工具。正是基于對(duì)FFT運(yùn)算在諸多領(lǐng)域中廣泛應(yīng)用的重視, Freescale, TI, ADI等國際主流DSP芯片廠家紛紛采用FFT運(yùn)行時(shí)間作為表征芯片性能的重要參數(shù)。對(duì)于一款高性能DSP而言,如何實(shí)現(xiàn)高效FFT運(yùn)算是芯片走向?qū)嵱玫闹匾画h(huán)[1-2]。
BWDSP100芯片(即“魂芯一號(hào)”)是中國電子科技集團(tuán)公司第三十八研究所自主研發(fā)的一款高性能、超標(biāo)量浮點(diǎn)運(yùn)算DSP芯片。該處理器融合了多種現(xiàn)代芯片設(shè)計(jì)理念并加以擴(kuò)展,充分發(fā)揮并行處理的優(yōu)勢(shì)和特點(diǎn),可以滿足大數(shù)據(jù)量、實(shí)時(shí)性要求高的數(shù)字信號(hào)處理、數(shù)據(jù)處理等工程應(yīng)用要求?;谠撔酒睦走_(dá)信號(hào)處理機(jī)已經(jīng)完成設(shè)計(jì),并在雷達(dá)數(shù)字陣列的大規(guī)模數(shù)字波束形成(DBF)中得到應(yīng)用[3-5]。
BWDSP100采用宏作為基本處理模塊。其片內(nèi)擁有4個(gè)處理宏(X/Y/Z/T),每個(gè)宏擁有4個(gè)乘法累加器、8個(gè)ALU運(yùn)算器、2個(gè)移位器、1個(gè)特定運(yùn)算單元及64個(gè)32位寄存器,內(nèi)嵌28 Mbit SRAM(24 Mbit數(shù)據(jù)空間,4 Mbit程序空間),單宏單周期內(nèi)能夠完成8次浮點(diǎn)加減法及4次浮點(diǎn)乘法運(yùn)算。同時(shí)它也支持32位和16位定點(diǎn)運(yùn)算??紤]到取數(shù)效率,BWDSP100內(nèi)部擁有3個(gè)結(jié)構(gòu)相同、相互獨(dú)立工作的地址發(fā)生器(U/V/W),可以通過來自譯碼器的立即數(shù)或者來自通用寄存器組的數(shù)據(jù),對(duì)地址發(fā)生器的內(nèi)部寄存器進(jìn)行初始化。地址發(fā)生器利用這些初始化信息作為地址計(jì)算所需的基地址和偏移量。整個(gè)芯片內(nèi)部架構(gòu)如圖1所示。
圖1 BWDSP100內(nèi)部架構(gòu)
BWDSP100內(nèi)部24 Mbit數(shù)據(jù)空間采用SRAM搭建而成,不存在Cache命中問題。整個(gè)存儲(chǔ)部件分為3組(memory block),分別稱為B0,B1,B2,每組又由8個(gè)獨(dú)立存儲(chǔ)器組成,每個(gè)存儲(chǔ)器的存儲(chǔ)容量為32 K×32 bit。因而器件內(nèi)部數(shù)據(jù)存儲(chǔ)器總數(shù)為3×8=24個(gè)。這樣的配置可以保證存儲(chǔ)單元在數(shù)據(jù)傳輸高峰情況下能夠同時(shí)提供兩組256 bit的數(shù)據(jù)給執(zhí)行核,與此同時(shí)接收一組從執(zhí)行內(nèi)核送過來的256 bit的數(shù)據(jù)。BWDSP100與ADI公司TS201設(shè)計(jì)性能比較如表1所示。不考慮讀寫帶寬的前提下,BWDSP100的性能是TS201的8倍。
表1 BWDSP100與TS201的性能比較
對(duì)于FFT算法來說,其數(shù)學(xué)表達(dá)雖然一致,但具體實(shí)現(xiàn)架構(gòu)卻千差萬別。針對(duì)硬件特點(diǎn)選擇合適的處理算法會(huì)讓實(shí)際程序在處理性能、實(shí)用性等方面得到較大的提升。以ADI公司的TigerSHARC系列芯片為例,雖然TS201與TS101保持了指令向下兼容,但是同樣的1 024點(diǎn)FFT,TS101的運(yùn)行周期數(shù)為9 872,TS201的運(yùn)行周期數(shù)卻為12 170。在針對(duì)TS201的內(nèi)部DRAM存儲(chǔ)新特性改用SingLeton算法優(yōu)化后,ADI提供的新程序1 024點(diǎn)FFT運(yùn)行周期數(shù)為9 419,運(yùn)算性能得到了明顯提升。
因此,為了滿足設(shè)計(jì)指標(biāo),必須針對(duì)BWDSP100結(jié)構(gòu)特點(diǎn)對(duì)FFT算法架構(gòu)進(jìn)行選擇,這樣才可能貼近工程實(shí)際需要,充分發(fā)揮芯片特點(diǎn),給出真正反映芯片性能的測試結(jié)果。
FFT算法可以分為頻域分解(DIF)與時(shí)域分解(DIT)兩種結(jié)構(gòu)形式。兩種結(jié)構(gòu)的區(qū)別在于:頻域分解是在兩點(diǎn)DFT之后有旋轉(zhuǎn)因子,時(shí)域分解是在兩點(diǎn)DFT的節(jié)點(diǎn)之前有旋轉(zhuǎn)因子。很顯然,如果在第一級(jí)蝶形運(yùn)算中加入適當(dāng)?shù)男D(zhuǎn)因子,時(shí)域分解法的乘法系數(shù)可以完成對(duì)輸入數(shù)據(jù)實(shí)部虛部的不等加權(quán);如果在最后一級(jí)蝶形運(yùn)算中加入適當(dāng)?shù)男D(zhuǎn)因子,頻域分解法的乘法系數(shù)可以實(shí)現(xiàn)對(duì)輸出數(shù)據(jù)實(shí)部虛部的不等加權(quán)。從工程上看,時(shí)域分解法的不等加權(quán)既可以實(shí)現(xiàn)對(duì)前方數(shù)字化通道不一致的補(bǔ)償,也可以實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)取共軛從而方便復(fù)用FFT程序得到IFFT的共軛結(jié)果。此時(shí)只要對(duì)輸出結(jié)果取共軛就可以得到正常IFFT結(jié)果。相較于另外編寫一套IFFT函數(shù),復(fù)用FFT程序可以進(jìn)一步減小程序體積,因此,基于BWDSP100的FFT標(biāo)準(zhǔn)函數(shù)采用時(shí)域分解FFT算法實(shí)現(xiàn)。
原位(in-place)FFT運(yùn)算是指在不附加緩沖的情況下,F(xiàn)FT的輸入及輸出結(jié)果可以在同一地址空間。非原位(not-in-place)FFT運(yùn)算則指在不附加緩沖的情況下,輸入及輸出結(jié)果必須在不同地址空間。很明顯,相較于非原位FFT運(yùn)算,原位FFT占用的存儲(chǔ)空間更少。
原位FFT必須通過位反序才能獲得正確結(jié)果。2的n階FFT需要進(jìn)行n位的位反序。記某數(shù)s的二進(jìn)制表現(xiàn)形式為(Sn-1Sn-2…S0),則其對(duì)應(yīng)的逆序數(shù)S為(S0S1…Sn-1)。相應(yīng)的s稱為原序數(shù)。將按原序排列的某個(gè)矢量改為按逆序排列的過程稱為位反序操作。顯然,對(duì)于連續(xù)原序數(shù)系列來說,其對(duì)應(yīng)的逆序數(shù)序列必定非連續(xù)。在原位FFT實(shí)現(xiàn)中,如果單獨(dú)增加一級(jí)位反序處理必然會(huì)降低程序效率,最好的辦法是將位反序操作與蝶形運(yùn)算結(jié)合起來,在運(yùn)算中完成位反序。非原位FFT可以通過調(diào)整運(yùn)算架構(gòu)避免位反序操作。這種調(diào)整的代價(jià)是要么輸入地址的數(shù)據(jù)在運(yùn)算中被改寫,要么必須增加額外緩沖。
位反序?qū)Τ绦蛐实挠绊懺谟趦牲c(diǎn):計(jì)算逆序數(shù)導(dǎo)致的計(jì)算延遲和逆序本身引發(fā)取數(shù)不連續(xù)所導(dǎo)致的讀寫速度下降。現(xiàn)代DSP(包括BWDSP100芯片)大都具有逆序取數(shù)功能,逆序數(shù)的計(jì)算延遲可忽略不計(jì);逆序循環(huán)可以保證取數(shù)的局部連續(xù)性,改善逆序讀寫帶寬。逆序循環(huán)的實(shí)質(zhì)在于提取s的最低m個(gè)比特與最高m個(gè)比特單獨(dú)進(jìn)行逆序交換。由于最低m個(gè)比特的順序標(biāo)號(hào)具有連續(xù)性,表現(xiàn)在存儲(chǔ)上即具有地址臨近的特點(diǎn),所以采用逆序循環(huán)算法后可以連續(xù)讀寫以充分利用芯片帶寬。同時(shí)由于逆序數(shù)與原序數(shù)間互為逆序,因此這種部分逆序交換的結(jié)果必然具有封閉性(即循環(huán)性)[6-7]。如果處理芯片內(nèi)部寄存器足夠,可以對(duì)循環(huán)體涉及到的數(shù)據(jù)進(jìn)行暫存和重組,從而實(shí)現(xiàn)原位FFT。實(shí)際編程中為提升效率而引入了多級(jí)合并,此時(shí)BWDSP100芯片內(nèi)部寄存器數(shù)量不足以支持這種暫存和重組操作?;谛蕛?yōu)先的考慮,最終選擇了基于逆序循環(huán)的帶位反序操作的非原位算法。在不增加額外緩沖的前提下,輸入地址的數(shù)據(jù)在運(yùn)算后也可以保留下來。其算法架構(gòu)如圖2所示。
圖2 8點(diǎn)時(shí)域分解原位FFT算法架構(gòu)
如前所述,BWDSP100芯片具有非常強(qiáng)大的浮點(diǎn)運(yùn)算功能,其單核單周期內(nèi)能夠完成8次浮點(diǎn)加減法及4次浮點(diǎn)乘法運(yùn)算。與之相比,BWDSP100芯片的數(shù)據(jù)吞吐能力略顯不足,其單核單周期可以讀取兩個(gè)浮點(diǎn)復(fù)數(shù)(64 bit×2),存儲(chǔ)一個(gè)浮點(diǎn)復(fù)數(shù)(32 bit×1)。
FFT基本運(yùn)算為形如(a+bj)±(c+dj)×(Wr+Wij)的蝶形運(yùn)算。單個(gè)蝶形運(yùn)算的運(yùn)算量是4次浮點(diǎn)乘法和6次浮點(diǎn)加減法,對(duì)應(yīng)芯片I/O能力的要求是讀取3個(gè)浮點(diǎn)型復(fù)數(shù)(兩個(gè)運(yùn)算數(shù)、一個(gè)旋轉(zhuǎn)因子),存儲(chǔ)兩個(gè)浮點(diǎn)型復(fù)數(shù)(兩個(gè)運(yùn)算結(jié)果)。與BWDSP100芯片能力相比,BWDSP100可以在單周期內(nèi)完成單個(gè)蝶形計(jì)算,但是無法在單周期內(nèi)完成相應(yīng)的IO操作。為了充分發(fā)揮芯片的運(yùn)算性能,必須進(jìn)行多階合并。如果進(jìn)行兩階合并的話,兩個(gè)周期內(nèi)要求芯片的I/O能力降低為:讀取4個(gè)復(fù)數(shù)(兩個(gè)運(yùn)算數(shù)、兩個(gè)旋轉(zhuǎn)因子),存儲(chǔ)2個(gè)復(fù)數(shù)(兩個(gè)運(yùn)算結(jié)果),BWDSP100芯片可以滿足這一要求。由于此時(shí)乘法運(yùn)算能力已經(jīng)全部應(yīng)用完畢,更多階數(shù)的合并并不能帶來更大的得益,反而造成程序復(fù)雜度增加。因此,兩階合并是比較合理的選擇。
兩階合并帶來的問題是FFT長度被強(qiáng)制要求為2的偶數(shù)次方,這在很多應(yīng)用場合使用十分不便。觀察圖2可以發(fā)現(xiàn),時(shí)域分解FFT算法的前兩級(jí)均為特殊旋轉(zhuǎn)因子(第一級(jí)為全1,第二級(jí)為1和-j),這樣單個(gè)蝶形運(yùn)算只需要進(jìn)行4次加減法。前后兩級(jí)蝶形運(yùn)算合并后共8次加減法,即使考慮到不等加權(quán)帶來的4次乘法,兩級(jí)運(yùn)算一個(gè)周期即可完成。于是再次遇到了數(shù)據(jù)吞吐能力不足的問題。繼續(xù)延用前面所提的多階合并辦法解決這個(gè)問題。多階合并的最大限制由芯片運(yùn)算核所擁有的內(nèi)部存儲(chǔ)器個(gè)數(shù)給出。由于BWDSP100芯片單核擁有64個(gè)內(nèi)部存儲(chǔ)器,合并階數(shù)最高可以達(dá)到四階。采用判斷處理的辦法。對(duì)于偶數(shù)階,采用四階合并;對(duì)于奇數(shù)階,采用三階合并。這樣既解除了FFT長度必須為2的偶數(shù)次方限制,又提高了程序的運(yùn)行效率。
2.2節(jié)已經(jīng)指出采用逆序循環(huán)可以充分發(fā)揮芯片的IO帶寬。本節(jié)將對(duì)其具體實(shí)現(xiàn)作出說明。
在第1節(jié)已經(jīng)指出,BWDSP100內(nèi)部數(shù)據(jù)存儲(chǔ)器分為3組,每組由8個(gè)32 bit獨(dú)立存儲(chǔ)器組成,合并為一組256 bit數(shù)據(jù)提供給4個(gè)執(zhí)行核,每個(gè)核從中可以獲得64 bit數(shù)據(jù)。8個(gè)32 bit獨(dú)立存儲(chǔ)器地址分布如圖3所示。
圖3 8個(gè)32 bit獨(dú)立存儲(chǔ)器地址分布圖
如果拼成256 bit數(shù)據(jù)的幾個(gè)地址落到了同一個(gè)存儲(chǔ)器就會(huì)發(fā)生地址沖突。此時(shí),程序流水會(huì)被打斷,只有當(dāng)沖突的數(shù)據(jù)按周期全部讀寫至各獨(dú)立存儲(chǔ)器的緩存后,程序才會(huì)繼續(xù)執(zhí)行。
流水打斷會(huì)對(duì)讀寫帶寬產(chǎn)生極大的影響,為了解決這個(gè)問題,在程序編制中應(yīng)該盡量保證一組所取數(shù)據(jù)存放在不同存儲(chǔ)器中。BWDSP100的位反序取數(shù)指令如下所示[6]:
{x,y,z,t}Rs+1:s=br(C)[Un+=Um,Uk]
{x,y,z,t}Rs+1:s=br(C)[Vn+=Vm,Vk]
{x,y,z,t}Rs+1:s=br(C)[Wn+=Wm,Wk]
指令中的br前綴代表位反序?qū)ぶ?,前綴br后的立即數(shù)C代表位反序的位數(shù),它決定了指令中的哪些位元需要反序。例如指令br(7)[U0+=U1,U2]=R1:0,反序控制參數(shù)值為7,表明將地址的[7:0]位進(jìn)行反序操作。它產(chǎn)生的4 對(duì)地址是:[反序(U0)]、[反序(U0)+1];[反序(U0)+2×U2]、[反序(U0)+2×U2+1];[反序(U0)+2×2×U2]、[反序(U0)+2×2×U2+1];[反序(U0)+3×2×U2]、[反序(U0)+3×2×U2+1]。4對(duì)地址所取得的數(shù)據(jù)依次存放到4個(gè)執(zhí)行核X/Y/Z/T的R1和R0中去。而基地址寄存器U0 將被修改為[U0+U1] ,用不反序的U0 值進(jìn)行基地址的自增。
可以看出,若U2設(shè)置為1,則指令所涉及到的4對(duì)地址連續(xù),可以保證分布在8個(gè)獨(dú)立存儲(chǔ)器中,不會(huì)發(fā)生地址沖突。如果限制輸入數(shù)據(jù)地址為8的邊界(即低3位為000),再將增量U1設(shè)置為8,則連續(xù)的4對(duì)取數(shù)地址可以等效為FFT逆序數(shù)的最低2 bit單獨(dú)進(jìn)行逆序交換的逆序循環(huán),如圖4所示。
圖4 最低2 bit單獨(dú)逆序交換取數(shù)圖
圖中*號(hào)表示任意取值。可以看出,將s的最低2 bit轉(zhuǎn)化為地址基址U0后,采用4組地址發(fā)生器即可實(shí)現(xiàn)對(duì)所有逆序地址的連續(xù)內(nèi)存訪問,完全規(guī)避了地址沖突的風(fēng)險(xiǎn)。完成核間數(shù)據(jù)交換后,就可以得到正確順序的處理結(jié)果。根據(jù)逆序循環(huán)原理,該處理結(jié)果同樣占據(jù)輸出地址空間的4段連續(xù)內(nèi)存,保證了輸出存儲(chǔ)時(shí)的數(shù)據(jù)帶寬。需要注意的是,由于復(fù)數(shù)占據(jù)了2個(gè)地址,因此實(shí)際逆序地址計(jì)算中逆序位數(shù)為FFT階次n加2。要求輸入FFT數(shù)據(jù)地址的第n+1位必須為0以保證取數(shù)首址的正確。
在編程實(shí)現(xiàn)時(shí)發(fā)現(xiàn),由于在這種三級(jí)/四級(jí)合并的編程中,已經(jīng)盡可能地發(fā)揮了BWDSP100的處理能力,再加入核間數(shù)據(jù)交換操作,其單個(gè)周期的并發(fā)指令數(shù)、ALU資源等都將成為瓶頸。而如果為此增加額外指令周期則影響了程序效率。
仔細(xì)研究圖2所示算法架構(gòu),可以看出:在后面的處理中,除最后兩級(jí)外,其余各級(jí)順序讀入的4個(gè)運(yùn)算核的數(shù)據(jù)剛好分處在4個(gè)不同的FFT組內(nèi)。各組旋轉(zhuǎn)因子完全相同,運(yùn)算步驟完全相同,編程十分方便。最后兩級(jí)中可以進(jìn)行高兩位和低兩位的逆序交換,從而完成整個(gè)逆序操作。由于最后兩級(jí)BWDSP100的運(yùn)算任務(wù)并不飽滿(芯片支持單周期完成8次加減法實(shí)際只需要6次加減法),這種交換操作可以在不影響效率的前提下插入原程序中運(yùn)行,問題得到了圓滿的解決。由于需要最后兩級(jí)完成交換操作,程序能夠?qū)崿F(xiàn)的最小FFT點(diǎn)數(shù)為32點(diǎn),基本可以滿足工程實(shí)現(xiàn)需要。
FFT運(yùn)算所需要的位反序位數(shù)由FFT的長度決定。設(shè)FFT長度N為2的n次階,則FFT運(yùn)算所需的位反序位數(shù)為n,如果考慮到復(fù)數(shù)占據(jù)了2個(gè)地址,則BWDSP100位反序取數(shù)指令中位反序的位數(shù)需要設(shè)置為n+2。前面指出,BWDSP100的位反序取數(shù)指令中位反序的位數(shù)為固定常數(shù),這就意味著一種FFT位反序只能處理對(duì)應(yīng)點(diǎn)數(shù)的FFT。如果在實(shí)際應(yīng)用中需要多種長度的FFT,就需要配備多種位反序操作。這樣既增大了程序體積也降低了程序效率。
記原序數(shù)s的二進(jìn)制表現(xiàn)形式為(Sn-1Sn-2…S0),如果對(duì)其尾部添加m個(gè)零,記為s*(Sn-1Sn-2…S00m-1…0100),則其對(duì)應(yīng)的逆序數(shù)S*為(0001…0m-1S0S1…Sn-1)??梢钥闯?,對(duì)新的原序數(shù)s*進(jìn)行n+mbit位反序后得到的新的逆序數(shù)S*與原來的逆序數(shù)S數(shù)值相等。采用這樣的辦法,可以將原本位數(shù)不同的位反轉(zhuǎn)操作統(tǒng)一擴(kuò)充到固定點(diǎn)數(shù),對(duì)應(yīng)需要修改的是原序數(shù)的遞增量。而BWDSP100指令中該遞增量是可變的。設(shè)新的固定位反轉(zhuǎn)位數(shù)為n+m,則新的遞增量由原來的20改變?yōu)?m。BWDSP100芯片內(nèi)部數(shù)據(jù)地址空間分配如圖5所示。
圖5 BWDSP100內(nèi)部數(shù)據(jù)地址空間分配
從圖5可以看出,BWDSP100內(nèi)部數(shù)據(jù)Cache分為了3塊,每塊256K字。從地址角度看共18 bit。對(duì)于位反序取數(shù)指令{x,y,z,t}Rs+1:s=br(C)[Un+=Um,Uk],Uk取1,固定位反序位數(shù)C應(yīng)該取17??紤]到一個(gè)復(fù)數(shù)數(shù)據(jù)需占有2個(gè)字地址空間,Um的值應(yīng)該為2(17-r),式中r為FFT階數(shù)。
由于芯片內(nèi)部有X/Y/Z/T 4個(gè)運(yùn)算核,所取數(shù)據(jù)將分落到這4個(gè)核中,為避免在前面的四級(jí)合并中因逆序而進(jìn)行數(shù)據(jù)交換,考慮保留前后各2 bit地址到最后交換。將此2 bit考慮后,Um的值為2(19-r)。
這樣修改后,新的程序可以適應(yīng)各種2的整數(shù)次冪FFT處理。同時(shí),由于對(duì)原序數(shù)尾部添0,逆序數(shù)對(duì)應(yīng)頭部填充了多個(gè)0,而BWDSP100指令中直接將計(jì)算得到的逆序數(shù)作為取數(shù)地址,因此帶來的限制是輸入FFT數(shù)據(jù)必須放在3個(gè)內(nèi)部數(shù)據(jù)塊的某一首地址。在實(shí)際工程應(yīng)用中,這個(gè)限制條件對(duì)于可以進(jìn)行絕對(duì)地址操作的BWDSP100而言比較容易實(shí)現(xiàn)。
程序編制完成后,在BWDSP100評(píng)估板上進(jìn)行了基于硬件的實(shí)際性能測試,與TS201芯片比較結(jié)果如表2所示。
表2 BWDSP100與TS201 復(fù)數(shù)FFT周期數(shù)比較
從表2可以看出,BWDSP100的1 024點(diǎn)FFT性能達(dá)到TS201的8倍,滿足原設(shè)計(jì)指標(biāo)。2 048點(diǎn)FFT由于程序前端只進(jìn)行了三階合并,性能有所下降。從4 096點(diǎn)開始,BWDSP100采用SRAM的優(yōu)勢(shì)開始體現(xiàn),較TS201性能有了較大的提升。
基于BWDSP100硬件特點(diǎn),本文有針對(duì)性地給出了FFT算法實(shí)現(xiàn)中遇到的問題及解決辦法。與國際成熟的DSP相比,最終FFT性能達(dá)到了設(shè)計(jì)理論要求。盡管本文基于特定平臺(tái),但文中給出的方法對(duì)BWDSP100應(yīng)用及其他芯片F(xiàn)FT實(shí)現(xiàn)均有一定的參考作用。
[1] 袁琪,楊康,周建江,等. 大點(diǎn)數(shù)FFT算法C6678多核DSP的并行實(shí)現(xiàn)[J]. 電子測量技術(shù), 2015, 38(2):74-80.
[2] 張杰,顧乃杰,張明. 龍芯3B處理器上FFT算法向量化研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2015, 36(7):1639-1643.
[3] 史鴻聲,穆文爭,劉麗. 基于“魂芯一號(hào)”的雷達(dá)信號(hào)處理機(jī)設(shè)計(jì)[J]. 雷達(dá)科學(xué)與技術(shù), 2012, 10(2):161-164.
SHI Hongsheng, MU Wenzheng, LIU Li. Design of Radar Signal Processor Based on HunXin-1 Chip[J]. Radar Science and Technology, 2012, 10(2):161-164.(in Chinese)
[4] 許德剛. 基于BWDSP100處理器的無源雷達(dá)信號(hào)處理系統(tǒng)[J]. 艦船電子對(duì)抗, 2015, 38(2):72-75.
[5] 賈光帥,洪一,劉小明,等. 基于“魂芯一號(hào)”的自適應(yīng)截位浮點(diǎn)乘法實(shí)現(xiàn)[J]. 雷達(dá)科學(xué)與技術(shù), 2015, 13(3):324-327.
JIA Guangshuai, HONG Yi, LIU Xiaoming, et al. Implementation of Adaptive Truncation of Floating-Point Multiplier Based on BWDSP100 Processor[J]. Radar Science and Technology, 2015, 13(3):324-327.(in Chinese)
[6] 方志紅,張長耀. 逆序循環(huán)在原位FFT中的應(yīng)用[C]∥全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議, 合肥:中國科學(xué)技術(shù)大學(xué)出版社, 2010:43-46.
[7] 方志紅,張長耀,俞根苗. 利用逆序循環(huán)實(shí)現(xiàn)FFT運(yùn)算中倒序算法的優(yōu)化[J]. 信號(hào)處理, 2004, 20(5):533-535.