摘 "要: 隨著無線通信技術(shù)的發(fā)展,實現(xiàn)多輸入多輸出(MIMO)系統(tǒng)檢測性能與復雜度之間的最優(yōu)權(quán)衡日益困難,深度學習DL為此提供了新方向。文中提出基于片上網(wǎng)絡(NoC)的多核動態(tài)可重構(gòu)架構(gòu)MCDBP,以提高基于DL的MIMO檢測算法的性能,并增強架構(gòu)的可編程性和擴展性。MCDBP通過集成輕量級計算內(nèi)核及片上網(wǎng)絡互連,并行處理矢量?矩陣乘法、常數(shù)?矢量乘法、矢量點積、矢量加法等大多數(shù)深度展開網(wǎng)絡的基本運算,有效提高復雜MIMO檢測性能。架構(gòu)的創(chuàng)新在于可重構(gòu)的處理元件PE設計,可以依據(jù)DL驅(qū)動的MIMO檢測需求動態(tài)調(diào)整。該設計對基于DL的MIMO檢測算法共性進行深入分析,支持多種基本運算模式,展現(xiàn)極高靈活性。實驗結(jié)果顯示,MCDBP在執(zhí)行基于DL的MIMO檢測算法時,與通用CPU相比,可以實現(xiàn)12.66~22.98的加速比,算法性能有所提高,可以適應不同應用場景。
關(guān)鍵詞: 無線通信; MIMO檢測; 深度學習; 數(shù)據(jù)驅(qū)動網(wǎng)絡; 模型驅(qū)動網(wǎng)絡; NoC; 可重構(gòu); 多核架構(gòu)
中圖分類號: TN47?34 " " " " " " " " " " " " " " 文獻標識碼: A " " " " " " " " " " " "文章編號: 1004?373X(2024)21?0001?06
Dynamically reconfigurable NoC?based multi?core architecture for MIMO detection
FAN Wenjie1, 2, ZHOU Muye1, 2, ZHU Lingxiao1, 2, LI Shiping3, CHEN Kai1, 3, DENG Songfeng4,
HE Guoqiang1, 3, FENG Shuyi4, SONG Wenqing1, 2, LI Li1, FU Yuxiang2
(1. School of Electronic Science and Engineering, Nanjing University, Nanjing 210023, China;
2. School of Integrated Circuits, Nanjing University, Suzhou 215163, China; 3. Jiangsu Huachuang Microsystems Co., Ltd., Nanjing 211899, China;
4. Shanghai Aerospace Electronic Technology Research Institute, Shanghai 201100, China)
Abstract: With the advancement of wireless communication technologies, achieving the optimal balance between the detection performance and complexity of multiple?input multiple?output (MIMO) systems is increasingly challenging. Deep learning (DL) offers a new direction for this. This paper presents a multi?core dynamic reconfigurable architecture based on network on chip (NoC). This architecture, termed MCDBP (multi?core architecture for dynamic baseband processing), strives to enhance the performance for DL?based MIMO detection algorithms and the architecture′s programmability and scalability. The MCDBP leverages integrated lightweight computing cores and NoC interconnects to process the fundamental operations of deep unfolded networks in parallel, such as vector?matrix multiplication (VMM), constant?vector multiplication (CVM), vector dot product (VDP), and vector addition (VA), so as to improve the performance of complex MIMO detection significantly. The innovation of the architecture lies in the reconfigurable design of the processing elements (PEs), and the architecture can be adjusted according to different DL?based MIMO detection algorithms dynamically. This design is grounded in a thorough analysis of the commonalities of DL?based MIMO detection algorithms, showcasing extreme flexibility in supporting multiple fundamental operational modes. Experimental results indicate that, in comparison with the general?purpose CPU, MCDBP can achieve an acceleration ratio of 12.66~22.98 when implementing DL?based MIMO detection algorithms. It can be seen that the performance of the algorithm is improved, so the algorithm can adapt to different application scenarios.
Keywords: wireless communication; MIMO detection; deep learning; data?driven network; model?driven network; NoC; reconfigurable; multi?core architecture
0 "引 "言
多輸入多輸出(Multiple?Input Multiple?Output, MIMO)系統(tǒng)通過利用時間、頻率資源、多用戶和多天線等多個維度,在當前的無線通信系統(tǒng)中實現(xiàn)了更高的性能和能效[1]。由于采用了多輸入多輸出處理技術(shù),基站可以在蜂窩系統(tǒng)中同時發(fā)送或接收來自多個用戶的數(shù)據(jù)。發(fā)射機和接收機配備了數(shù)十或數(shù)百根天線,這也使得MIMO系統(tǒng)的信號處理成為一項復雜的任務。
最佳聯(lián)合MIMO檢測問題是一個非確定性多項式時間難問題(NP?hard)[2]和非凸問題。文獻[3]介紹了幾種流行的多輸入多輸出檢測算法。其中,最大似然(ML)檢測器是最優(yōu)檢測器,但需要進行窮舉搜索,計算時間隨天線數(shù)量呈指數(shù)增長,因此在大型多輸入多輸出系統(tǒng)中部署不切實際。因此,人們更加關(guān)注性能可接受、復雜度低的近優(yōu)檢測器[3?7]。線性多輸入多輸出檢測算法,如迫零(ZF)[3]、最小均方誤差(MMSE)[3]等,復雜度較低,但通常需要復雜的矩陣求逆來確定檢測器的系數(shù),其性能受到限制。其他近優(yōu)檢測算法也存在問題,如當用戶數(shù)量和調(diào)制階數(shù)增加時,近似信息傳遞(AMP)的復雜性也會增加[4]。半正定松弛(SDR)算法[5]處理的符號映射有限,并且在實際應用中速度更慢。
近年來,深度學習(Deep Learning, DL)被應用于許多領域,并為多輸入多輸出檢測帶來了新方法。深度學習在多輸入多輸出檢測中的應用可分為兩類:數(shù)據(jù)驅(qū)動法和模型驅(qū)動法[8]。數(shù)據(jù)驅(qū)動法直接從大量數(shù)據(jù)中學習特征并訓練網(wǎng)絡[9?11],然而,這種方法面臨著需要收集大量數(shù)據(jù)和訓練時間密集等挑戰(zhàn);模型驅(qū)動法利用深度學習優(yōu)化現(xiàn)有的未確定參數(shù),或在現(xiàn)有模型中引入補充參數(shù)[12?15],在模型驅(qū)動法中需要深度學習的參數(shù)比數(shù)據(jù)驅(qū)動法少得多,從而減少了訓練時間。
如今,為了適應無線通信技術(shù)的快速發(fā)展,不少針對特定MIMO檢測算法設計的ASIC芯片被提了出來[16?19],以滿足更短的執(zhí)行時間、更低的延遲、更高的帶寬和更低的能耗等需求。對于本文面向的基于DL的MIMO檢測算法,由于采用深度學習方法訓練的神經(jīng)網(wǎng)絡包含多個計算并行度,這使得多核片上互聯(lián)網(wǎng)絡(Network on Chip, NoC)成為一種合適的架構(gòu)。NoC提供了充足的帶寬,多核架構(gòu)帶來了遠高于傳統(tǒng)單核架構(gòu)的計算能力,可以實現(xiàn)更低的MIMO檢測延遲。另外,不同的MIMO檢測方法有不同的優(yōu)勢、劣勢,適合于不同的應用場景。為了使提出的架構(gòu)更加靈活,適應不同的應用場景,本文采用可重構(gòu)的處理單元(Processing Element, PE)設計。
本文提出的用于MIMO檢測的基于NoC的多核動態(tài)可重構(gòu)架構(gòu)(Multi?core Architecture for Dynamic Baseband Processing, MCDBP)的主要貢獻如下:
1) 采用多核NoC架構(gòu)加速基于深度學習的MIMO檢測網(wǎng)絡的執(zhí)行,通過利用這些網(wǎng)絡中存在的并行度,與通用CPU相比,可以實現(xiàn)12.66~22.98的加速比。
2) 分析了不同模型驅(qū)動網(wǎng)絡的共性,基于這些共性,提出一種可重構(gòu)的處理單元設計,處理單元可以配置成不同的模式,以適應不同的應用場景。
1 "多輸入多輸出檢測
1.1 "問題描述
考慮到一個有[N]個發(fā)射天線和[M]個接收天線的多輸入多輸出系統(tǒng),發(fā)送符號向量寫為[x∈CN×1]??梢缘玫浇邮招盘朳y]如下:
[y=Hx+n] (1)
式中:[H∈CM×N]是信道矩陣;[n∈CM×1]是加性高斯白噪聲(Additive White Gaussian Noise, AWGN)。
在深度學習中,運算總是在實值域中進行的,因此考慮等效的實值表示如下:
[y=Hx+n] (2)
在式(2)中,實部和虛部被分開考慮,有[x=]
[RT(x),IT(x)T],[y=RT(y),IT(y)T],[n=RT(n),IT(n)T],
以及[H=R(H)-I(H)I(H)R(H)]。
為了從接收信號[y]中恢復信號[x],學者們提出了許多多輸入多輸出檢測方法。線性多輸入多輸出檢測算法,如迫零(ZF)[3]、最小均方誤差(MMSE)[3],復雜度較低,但通常需要復雜的矩陣求逆來確定檢測器的系數(shù)。當用戶數(shù)量和調(diào)制階數(shù)增加時,近似信息傳遞(AMP)等近似最優(yōu)檢測器的復雜度也會增加[4],半正定松弛(SDR)[5]處理的符號映射有限,而且在實際應用中速度更慢。
1.2 "基于深度學習方法
如今,隨著越來越多的研究關(guān)注深度學習在多輸入多輸出檢測中的應用,提出了許多基于深度學習的多輸入多輸出檢測技術(shù),這些技術(shù)可分為數(shù)據(jù)驅(qū)動法和模型驅(qū)動法兩類。數(shù)據(jù)驅(qū)動法[9?11]直接從大量數(shù)據(jù)中學習特征并訓練網(wǎng)絡。根據(jù)通用近似定理,經(jīng)過充分的數(shù)據(jù)訓練后,神經(jīng)網(wǎng)絡有能力近似任何連續(xù)函數(shù)[20]。文獻[9]構(gòu)建了一個用于多輸入多輸出檢測的全連接多層網(wǎng)絡。文獻[10]提出了三種用于多輸入多輸出檢測的網(wǎng)絡,分別是基于深度神經(jīng)網(wǎng)絡(DNN)、卷積神經(jīng)網(wǎng)絡(CNN)和循環(huán)神經(jīng)網(wǎng)絡(RNN)。文獻[11]利用帶有監(jiān)督訓練的DNN解決了聯(lián)合多輸入多輸出檢測和信道解碼問題。
模型驅(qū)動方法[9,12?15,21]使用深度學習來優(yōu)化參數(shù)或在現(xiàn)有模型中添加一些參數(shù),這些方法利用現(xiàn)有的數(shù)學模型對訓練時間和數(shù)據(jù)集提出了更低的要求。通過巧妙地展開現(xiàn)有的迭代算法,模型驅(qū)動網(wǎng)絡由許多相同的層組成,算法的迭代次數(shù)決定了網(wǎng)絡的層數(shù)。例如,DetNet的結(jié)構(gòu)就是通過將投影梯度下降算法的迭代展開成網(wǎng)絡而獲得的[9]。文獻[21]將DetNet簡化為稀疏連接神經(jīng)網(wǎng)絡,即ScNet。文獻[12]基于文獻[6]中提出的迭代算法構(gòu)建了一個模型驅(qū)動網(wǎng)絡。文獻[13]基于非精確交替乘法(ADMM)算法[7],提出了非精確ADMM網(wǎng)絡。JC?Net結(jié)構(gòu)是通過展開阻尼雅可比檢測器并為每層添加三個可訓練參數(shù)而設計的[14]。GS?Net在現(xiàn)有高斯?賽德爾檢測模型的基礎上增加了一些可學習的參數(shù),并展開了高斯?賽德爾檢測方法的迭代過程[15]。
考慮到模型驅(qū)動方法結(jié)合了深度學習和傳統(tǒng)數(shù)學模型的優(yōu)點,對訓練時間和數(shù)據(jù)集的要求較低,本文的工作主要集中在模型驅(qū)動方法的實現(xiàn)上。
2 "用于MIMO檢測的可重構(gòu)NoC設計
本節(jié)將介紹用于多輸入多輸出檢測的可重構(gòu)NoC架構(gòu)MCDBP。該多核架構(gòu)充分利用了基于深度學習的網(wǎng)絡中的并行性維度,采用可重構(gòu)處理單元設計,使所提出的架構(gòu)更加靈活,能夠適應不同的應用場景。不同的多輸入多輸出檢測方法有不同的優(yōu)點、缺點和應用場景,例如文獻[12]中的網(wǎng)絡針對多用戶干擾消除進行了優(yōu)化,而文獻[13]中的網(wǎng)絡可以解調(diào)高階調(diào)制符號。本文總結(jié)了不同深度展開網(wǎng)絡所涉及的操作,結(jié)果如表1所示。
從表1可以得出:矢量?矩陣乘法(Vector?Matrix Multiplication, VMM)、常數(shù)?矢量乘法(Constant?Vector Multiplication, CVM)、矢量點積(Vector Dot Product, VDP)、矢量加法(Vector Addition, VA)是大多數(shù)深度展開網(wǎng)絡的基本運算,也就是說,這些網(wǎng)絡可以分解為這四種基本運算。所有這些操作都涉及多個維度,因此可以并行化,并行化策略將在第2.2節(jié)中介紹。進一步細分,所有這些操作都由乘法和加法組成,這意味著它們都可以由乘累加單元(Multiplier and Accumulation, MAC)完成。基于這一觀點,設計了下文所述的可重構(gòu)處理單元,它可以配置為上述四種基本模式。
2.1 "可重構(gòu)處理單元設計
可重構(gòu)處理單元的可重構(gòu)性體現(xiàn)在其內(nèi)部結(jié)構(gòu)和功能的動態(tài)可配置性。
1) 計算陣列的多模式配置:計算陣列由多個乘累加單元(MAC)構(gòu)成,可根據(jù)需要進行控制,完成不同的計算任務。
2) 配置寄存器:通過配置寄存器,可在運行時調(diào)整處理單元的功能,以匹配特定的處理需求。
3) 后處理單元:處理單元完成計算后,后處理單元可以進行激活函數(shù)、量化處理等,其行為也可以根據(jù)需要進行配置,以支持不同的網(wǎng)絡層需求。
4) 迭代計數(shù)器:通過設置迭代計數(shù)器的迭代次數(shù),以適應不同深度展開網(wǎng)絡的網(wǎng)絡層數(shù)需求。
可重構(gòu)處理單元的基本結(jié)構(gòu)如圖1所示。
可重構(gòu)處理單元的主要組件包括:
1) 輸入緩沖區(qū):用于存儲輸入激活。
2) 計算陣列:完成乘積計算,并可配置為不同模式,計算陣列的基本單元是一組MAC。
3) 配置寄存器:存儲配置參數(shù),控制計算陣列的模式,并完成整體時序控制。
4) 迭代計數(shù)器:記錄迭代次數(shù),當?shù)嫈?shù)器達到設定的層數(shù)時,計算終止。
5) 權(quán)重緩沖區(qū):用于存儲權(quán)重。
6) 后處理單元:負責完成每輪計算的后處理操作,如截斷和激活函數(shù)。
7) 網(wǎng)絡接口:完成路由包的打包和解包。
對于深度展開網(wǎng)絡,將其分解為基本操作,每個操作將映射到一組處理單元上。這些處理單元將根據(jù)配置寄存器的設置配置計算陣列的模式。映射過程將在第2.2節(jié)中討論。
2.2 "模型驅(qū)動網(wǎng)絡的映射算法
本節(jié)介紹將模型驅(qū)動的多輸入多輸出檢測網(wǎng)絡映射到NoC平臺的過程,并介紹本文使用的映射算法。
從第1.2節(jié)的介紹中可以了解到,模型驅(qū)動網(wǎng)絡通?;诂F(xiàn)有的迭代算法,這意味著模型驅(qū)動網(wǎng)絡中的不同層具有相同的架構(gòu)??梢詫⒕W(wǎng)絡的不同層映射到相同的處理單元上,以時分復用的方式完成整個網(wǎng)絡的計算,即只需將一層映射到NoC平臺的處理單元上,然后迭代利用這些處理單元完成其他各層的計算。每個處理單元將負責該層的一個基本操作。要開始下一層的計算,產(chǎn)生輸出的處理單元需要將輸出傳送給接收輸入的處理單元,不同操作之間的依賴關(guān)系構(gòu)成了不同處理單元之間的數(shù)據(jù)流。
圖2展示了將文獻[12]中提出的網(wǎng)絡映射到NoC平臺的示例,圖2a)展示了文獻[12]中提出的網(wǎng)絡一層的流程圖。圖2b)將原始模型轉(zhuǎn)換為基本操作,原始模型可細分為9個基本操作。在圖2c)中,圖2b)中的基本操作被映射到處理單元上,每個處理單元下的數(shù)字與圖2b)中的操作相對應。
在并行化策略方面,采用輸出并行策略。不同配置模式下的并行維度如下:
//矢量?矩陣乘法PE級
parallel_for p1=[0:P1):
//矢量?矩陣乘法MAC級
for p2=[0:P2):
parallel_for p3=[0:P3):
for k=[0:K):
p=(p1*P2+p2)*P3+p3;
O[p]+=I[k]*W[k,p];
//矢量點積PE級
parallel_for p1=[0:P1):
//矢量點積MAC級
for p2=[0:P2):
parallel_for p3=[0:P3):
p=(p1*P2+p2)*P3+p3;
O[p]=I1[p]*I2[p];
//矢量加法PE級
parallel_for p1=[0:P1):
//矢量加法MAC級
for p2=[0:P2):
parallel_for p3=[0:P3):
for k=[0:K):
p=(p1*P2+p2)*P3+p3;
O[p]+=Ik[p];
//常數(shù)?矢量乘法PE級
parallel_for p1=[0:P1):
//常數(shù)?矢量乘法MAC級
for p2=[0:P2):
parallel_for p3=[0:P3):
p=(p1*P2+p2)*P3+p3;
O[p]=C*I[p];
對于PE級,不同的輸出將在不同的PE中同時計算。對于MAC級,在每個PE中,MAC陣列將以組內(nèi)串行、組間并行的方式計算輸出。
與傳統(tǒng)的神經(jīng)網(wǎng)絡映射問題相比,模型驅(qū)動網(wǎng)絡映射問題更為復雜,其產(chǎn)生輸出的處理單元仍需將輸出傳送給接收輸入的處理單元,不同操作之間的依賴關(guān)系會產(chǎn)生類似ResNet的殘差連接。如何找到一個能帶來低通信延遲的良好映射是一個更大的挑戰(zhàn)。在這項工作中,本文基于文獻[22]中提出的GAMMA算法進行映射,這是一種基于遺傳算法(GA)的方法,專門針對硬件映射問題而設計。
3 "實驗結(jié)果
3.1 "實現(xiàn)細節(jié)
本節(jié)將提供所提出的可重構(gòu)NoC平臺在不同模型下的實驗結(jié)果。本文的仿真是基于CNN?Noxim[23]進行的,這是一種基于NoC的周期精確卷積神經(jīng)網(wǎng)絡仿真器。本文修改了CNN?Noxim中的處理單元模塊,以支持模型驅(qū)動網(wǎng)絡中的上述四種基本操作。同時,采用了2.2節(jié)中介紹的映射策略,以減少NoC中的通信延遲。
不同操作類型的處理單元有不同的計算時間。VMM的計算時間見式(3)。CVM、VDP和VA的計算時間見式(4)。
[TVMM=Nin×Nout+NMAC-1NMAC+Nout+NMAC-1modNMAC+1] (3)
[Tother=Nout+NMAC-1NMAC+Nout+NMAC-1modNMAC+1] (4)
式中:[Nin]代表輸入維度的長度;[Nout]代表輸出維度的長度;[NMAC]代表計算陣列中的MAC數(shù)量。
表2列出了配置參數(shù)。其中,分組規(guī)模決定了[Nout]的最大值。
3.2 "性 "能
將文獻[12]中的網(wǎng)絡、ADMMNet[13]和DetNet[9]三種模型驅(qū)動網(wǎng)絡映射到NoC平臺,使用的MIMO規(guī)模為32×32,比較這些網(wǎng)絡的總執(zhí)行時間。
將MCDBP與CPU的性能進行對比。CPU的算力為486.4 GFLOPs,多核架構(gòu)MCDBP對應的算力為1 TOPs,表3顯示了三個神經(jīng)網(wǎng)絡的實驗結(jié)果。與CPU相比,多核架構(gòu)MCDBP在文獻[12]提出的網(wǎng)絡中可以實現(xiàn)12.66的加速比,在ADMM網(wǎng)絡中可以實現(xiàn)14.65的加速比,在DetNet中為22.98。從圖中可以得出另一個結(jié)論,DetNet比其他模型驅(qū)動網(wǎng)絡更耗時,這是由于DetNet的架構(gòu)更為復雜。
3.3 "資源開銷
對可重構(gòu)處理單元進行了硬件實現(xiàn),使用Synopsys Design Compiler在28 nm工藝下進行了綜合,最終得到在1 GHz的頻率下面積為0.047 mm2、功耗為9.95 mW,8×8的MCDBP多核架構(gòu)的面積為3.563 mm2,功耗為0.724 W。
4 "結(jié) "語
本文重點討論了模型驅(qū)動多輸入多輸出檢測網(wǎng)絡的硬件加速問題,利用這些網(wǎng)絡中的并行維度將它們配置到多核NoC架構(gòu)MCDBP中。分析了不同模型驅(qū)動網(wǎng)絡的共性,基于這些共性,提出了一種可重新配置的處理單元設計,以適應不同的應用場景。與通用CPU相比,本文提出的架構(gòu)可以實現(xiàn)12.66~22.98的加速比。
注:本文通訊作者為傅玉祥、李麗、宋文清。
參考文獻
[1] GOLDSMITH A, JAFAR S A, JINDAL N, et al. Capacity limits of MIMO channels [J]. IEEE journal on selected areas in communications, 2003, 21(5): 684?702.
[2] VERDú S. Computational complexity of optimum multiuser detection [J]. Algorithmica, 1989, 4(3): 303?312.
[3] ALBREEM M A M, JUNTTI M J, SHAHABUDDIN S. Massive MIMO detection techniques: A survey [J]. IEEE communications surveys amp; tutorials, 2019, 21(4): 3109?3132.
[4] ZENG J, LIN J, WANG Z F. Low complexity message passing detection algorithm for large?scale MIMO systems [J]. IEEE wireless communications letters, 2018, 7(5): 708?711.
[5] LUO Z Q, MA W K, SO A M C, et al. Semidefinite relaxation of quadratic optimization problems [J]. IEEE signal processing magazine, 2010, 27(3): 20?34.
[6] MANDLOI M, BHATIA V. Low?complexity near?optimal iterative sequential detection for uplink massive MIMO systems [J]. IEEE communications letters, 2017, 21(3): 568?571.
[7] BOYD S P, PARIKH N, CHU E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers [J]. Foundations and trends in machine learning, 2011, 3(1): 1?122.
[8] YANG S S, HANZO L. Fifty years of MIMO detection: The road to large?scale MIMOs [J]. IEEE communications surveys amp; tutorials, 2015, 17(4): 1941?1988.
[9] SAMUEL N, DISKIN T, WIESEL A. Learning to detect [J]. IEEE transactions on signal processing, 2019, 67(10): 2554?2564.
[10] BAEK M S, KWAK S, JUNG J Y, et al. Implementation metho?dologies of deep learning?based signal detection for conventional MIMO transmitters [J]. IEEE transactions on broadcas?ting, 2019, 65(3): 636?642.
[11] WANG T T, ZHANG L H, LIEW S C. Deep learning for joint MIMO detection and channel decoding [C]// 30th IEEE Annual International Symposium on Personal, Indoor and Mobile Radio Communications. New York: IEEE, 2019: 1?7.
[12] LIAO J Y, ZHAO J H, GAO F F, et al. A model?driven deep learning method for massive MIMO detection [J]. IEEE communications letters, 2020, 24(8): 1724?1728.
[13] KIM M, PARK D. Learnable MIMO detection networks based on inexact ADMM [J]. IEEE transactions on wireless communications, 2021, 20(1): 565?576.
[14] CAO Q, LI F, LI T, et al. Adaptive signal detection method based on model?driven for massive MIMO systems [C]// 2021 13th International Conference on Wireless Communications and Signal Processing (WCSP). New York: IEEE, 2021: 1?5.
[15] WANG Q, HAI H, PENG K Z, et al. A learnable Gauss?Seidel detector for MIMO detection [C]// 2020 IEEE/CIC International Conference on Communications in China (ICCC). New York: IEEE, 2020: 107?111.
[16] HAN K N, HU J H, CHEN J N, et al. A high performance massive MIMO detector based on log?domain belief?propagation [C]// 2015 IEEE 11th International Conference on ASIC (ASICON). New York: IEEE, 2015: 1?4.
[17] LI Z Q, LIN L Y, CHEN Y, et al. Implementation of a pipeline division?free MMSE MIMO detector that support soft?input and soft?output [C]// 2017 23rd Asia?Pacific Conference on Communications (APCC). New York: IEEE, 2017: 1?5.
[18] SUIKKANEN E, JUNTTI M J. ASIC implementation and performance comparison of adaptive detection for MIMO?OFDM system [C]// 49th Asilomar Conference on Signals, System and Computers. New York: IEEE, 2015: 1632?1636.
[19] ATTARI M, SáNCHEZ J R, LIU L. A floating?point 16 × 16 SVD accelerator for beyond?5G large intelligent surfaces [C]// IEEE 66th International Midwest Symposium on Circuits and Systems (MWSCAS). New York: IEEE, 2023: 967?971.
[20] CYBENKO G. Approximation by superpositions of a sigmoidal function [J]. Mathematics of Control, Signals, and Systems, 1989, 22(2): 303?314.
[21] GAO G L, DONG C, NIU K. Sparsely connected neural network for massive MIMO detection [C]// 2018 International Conference on Innovative Computing and Cloud Computing. [S.l.: s.n.], 2018: 397?402.
[22] KAO S C, KRISHNA T. GAMMA: Automating the HW mapping of DNN models on accelerators via genetic algorithm [C]// Proceedings of the 39th IEEE/ACM International Conference on Computer?aided Design. New York: IEEE, 2020: 1?9.
[23] CHEN K C J, WANG T Y. NN?Noxim: High?level cycle?accurate NoC?based neural networks simulator [C]// 2018 11th International Workshop on Network on Chip Architectures (NoCArc). New York: IEEE, 2018: 1?5.
作者簡介:范文杰(2000—),男,江蘇南京人,碩士研究生,研究方向為集成電路設計。
周牧也(1998—),男,江蘇連云港人,碩士研究生,研究方向為集成電路設計。
朱凌曉(2000—),男,江蘇南通人,碩士研究生,研究方向為集成電路設計。
李世平(1987—),男,安徽安慶人,研究員級高級工程師,研究方向為集成電路設計。
陳 "鎧(1979—),男,江蘇南京人,高級工程師,研究方向為集成電路設計。
鄧松峰(1979—),男,山東青島人,研究員,研究方向為星上數(shù)據(jù)處理。
何國強(1977—),男,江蘇常州人,研究員級高級工程師,研究方向為集成電路設計。
馮書誼(1984—),男,湖南岳陽人,研究員,研究方向為遙感圖像處理。
宋文清(2000—),女,山東泰安人,博士研究生,研究方向為集成電路設計。
李 "麗(1975—),女,黑龍江雙鴨山人,教授,研究方向為集成電路設計。
傅玉祥(1990—),男,江蘇南京人,博士研究生,副教授,研究方向為集成電路設計。