王俊
關(guān)鍵詞:系統(tǒng)級(jí)芯片;5G NR;4G LTE;BB;DSP
1引言
近10年來,4G&5G通信技術(shù)的飛速發(fā)速極大地提升了通信效率,改變了日常的通信生活方式。5G相比于4G,其空口帶寬更大、天線數(shù)更多、調(diào)制階數(shù)更高,空口速率更是提升到10倍以上,帶寬與多天線等通信技術(shù)對(duì)基站的物理層信號(hào)處理能力提出了更高的要求。目前,市場(chǎng)上的5G網(wǎng)側(cè)基帶芯片基本被國(guó)外芯片廠商壟斷,如NXP,Qualcomm,Intel,Xilinx等,國(guó)內(nèi)設(shè)備商華為和中興也有自研的5G基帶SoC芯片,但不對(duì)其他設(shè)備商銷售。因此,國(guó)內(nèi)的小站設(shè)備商獲得4G&5G基帶商用SoC芯片的選擇范圍很小,若要選擇純國(guó)產(chǎn)的基帶SoC芯片更是不可能。因此,研制一款能部分替代國(guó)外小站基帶芯片的國(guó)產(chǎn)商用SoC芯片便提上了日程。
2項(xiàng)目概況
該基帶SoC芯片OC8010是可用于4G&5G小基站或自定義軟件無線電(SDR)方案中的基帶處理芯片。芯片遵循3GPP[1]Rel-15和Rel-16,并有足夠軟化資源以支持后續(xù)版本的演進(jìn),同時(shí)兼顧功耗、性能、面積的平衡性?;鶐幚碇饕闪?個(gè)高效能的協(xié)議與控制處理器ARM A72 CPU、4G和SG雙模通信基帶處理硬件加速器、4個(gè)高性能的專為SG優(yōu)化過的CEVA XC-12矢量DSP等。另外,芯片上還集成了豐富的前傳與中傳高速接口、低速外設(shè)接口等。在這些加速器和矢量處理器的輔助下,用戶可以實(shí)現(xiàn)高吞吐率的多種無線通信系統(tǒng)。
芯片設(shè)計(jì)專門考慮了一些低功耗設(shè)計(jì),這些設(shè)計(jì)有助于其在各種通信場(chǎng)景下獲取高性能和低功耗特性。另外,芯片的研發(fā)、生產(chǎn)、封裝和測(cè)試都在國(guó)內(nèi),是國(guó)產(chǎn)自主可控的SDR基帶處理芯片。
OC8010是一個(gè)異構(gòu)多核基帶SoC,軟硬件架構(gòu)更加復(fù)雜,在芯片設(shè)計(jì)中需應(yīng)對(duì)這幾個(gè)方面的挑戰(zhàn):更加復(fù)雜的數(shù)據(jù)通信和任務(wù)調(diào)度:龐大的抽象的系統(tǒng)架構(gòu),以實(shí)現(xiàn)清晰、高效的硬件與軟件設(shè)計(jì);協(xié)調(diào)好SoC上的硬件加速、DSP和CPU等各種異構(gòu)并行處理資源;提供豐富有效的片上調(diào)試功能;在性能、靈活性、功耗、面積等方面折中。
3SoC芯片系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
OC8010SoC上的基帶處理資源主要包括物理層信號(hào)處理、物理層控制、前傳后中傳接口等子系統(tǒng),BB SoC芯片架構(gòu)圖如圖1所示。其中,物理層信號(hào)處理子系統(tǒng)主要由芯片上的L1硬件加速器(L1 Accelerator)與矢量DSP(L1 Processor)構(gòu)成;物理層控制子系統(tǒng)主要由ARMCPU構(gòu)成;接口子系統(tǒng)包含前傳(分布式單元DU與遠(yuǎn)端單元RU) CPRI或eCPRI接口,與中傳(中央單元CU與分布式單元DU)PCIe或ETH接口。
OC8010基帶SoC芯片上有豐富的計(jì)算資源,有符合3GPP的比特級(jí)編譯碼加速器,以及OFDM波形前端LowPHY處理加速器,片上有多達(dá)近萬億MAC運(yùn)算能力的矢量4個(gè)DSP核,可以滿足用戶差異化的信道估計(jì)與均衡算法設(shè)計(jì),或者用戶自定義的專用通信系統(tǒng)基帶信號(hào)處理。其可以應(yīng)用于4G&5G小基站的基帶處理,如圖2所示,OC8010可以分別完成全部的L1 High-PHY與LowPHY處理,或是只完成High-PHY的處理,需要外接NPU進(jìn)行L2/L3協(xié)議棧處理,外接DFE芯片完成中射頻處理等。
該芯片基帶處理器中的運(yùn)算資源靈活可配,可以根據(jù)波形基帶處理的復(fù)雜度,采用1套或2套運(yùn)算資源完成單?;螂p模并發(fā)波形處理。以單模5GNR為例,可以支持的典型規(guī)格為FRl-TDD,BW= 100 MHz.SCS=30 kHz.2小區(qū)4T4R,并可以實(shí)現(xiàn)DL 4 Gbps,上行2 Gbps的峰值吞吐量。若4G&5G雙模并發(fā)配置下,則可以同時(shí)支持SGNR FRl-TDD,BW=100 MHz.SCS= 30 kHz@ 4T4R 1小區(qū).4G LTE BW= 20 MHz,SCS=15 kHz@ 4T4R 3小區(qū)的規(guī)格。
4SoC芯片主要功能模塊設(shè)計(jì)
4.1CPU子系統(tǒng)模塊設(shè)計(jì)
Cortex-A72處理器是ARM公司于2015推出,并為高性能,低功耗的處理器實(shí)現(xiàn)了ARMv8-A體系結(jié)構(gòu)。其廣泛應(yīng)用于高端智能手機(jī)、大屏移動(dòng)設(shè)備、企業(yè)網(wǎng)絡(luò)設(shè)備、服務(wù)器、無線基臺(tái)、數(shù)字電視等領(lǐng)域。OC8010芯片集成了4個(gè)ARM Cortex-A72核,L1和L2緩存子系統(tǒng)等。具體如表1所列。
ARM 72 11存儲(chǔ)器系統(tǒng)由獨(dú)立的指令緩存(I-Cache)與數(shù)據(jù)緩存(D-Cache)構(gòu)成[2]。
A72 11指令緩存系統(tǒng)具有以下特點(diǎn):(1)固定的Cache line為64字節(jié);(2)每16位采用奇偶校驗(yàn)保護(hù);(3)指令緩存按物理索引和物理標(biāo)記(PIPT)方式工作;(4)采用LRU(Least Recently Used)緩存替換策略;(5)支持內(nèi)存自檢測(cè)試MBIST(Memory Built-InSelf Test)。
A72 11數(shù)據(jù)緩存系統(tǒng)具有以下特點(diǎn):(1)固定的Cache line為64字節(jié);(2)每32位采用ECC保護(hù);(3)數(shù)據(jù)緩存按物理索引和物理標(biāo)記(PIPT)方式工作;(4)支持對(duì)正常內(nèi)存的亂序、推測(cè)性、非阻塞性加載請(qǐng)求和對(duì)設(shè)備內(nèi)存的非推測(cè)性、非屏蔽性加載請(qǐng)求;(5)采用LRU緩存替換策略;(6)硬件預(yù)取器,生成針對(duì)L1數(shù)據(jù)緩存和L2數(shù)據(jù)緩存的預(yù)??;(7)支持內(nèi)存自檢測(cè)試MBIST(Memory Built-In Self Test)。
在4個(gè)Cortex-A72核的共同作用下,CPU子系統(tǒng)可以確保在每個(gè)時(shí)隙(slot)內(nèi)完成小基站多小區(qū)多用戶的處理要求。CPU子系統(tǒng)主要負(fù)責(zé)物理層處理的控制功能,完成L2與L1之間的FAPI(SCF222:PHYAPI Specification)請(qǐng)求消息參數(shù)的解析、FAPI響應(yīng)消息的準(zhǔn)備發(fā)送、配置物理信道(如PDSCH,PDCCH,PBCH,PUSCH,PUCCH,PRACH等)的參數(shù)、調(diào)度L1硬件加速器與L1 DSP矢量處理器完成物理層發(fā)送和接收處理等。
4.2DSP子系統(tǒng)模塊設(shè)計(jì)
片上集成了4個(gè)高性能矢量CEVA XC12 DSP核。XC12是CEVA的第4代矢量處理器IP,它能夠進(jìn)行客戶配置和擴(kuò)展,應(yīng)用范圍較廣,可用于蜂窩網(wǎng)絡(luò)的5G-NR和4G-LTE,智能手機(jī)或其他終端,如Wi-Fi UE和CPE等,提供極低功耗、Gbps級(jí)的無線調(diào)制解調(diào)器功能,以便于客戶實(shí)現(xiàn)高吞吐率的寬帶無線通信系統(tǒng)。
CEVA-XC12 DSP架構(gòu)突破了以下關(guān)鍵技術(shù)。
(1)全新微架構(gòu)滿足超高頻率和超低功耗要求——能夠在10nm內(nèi)以1.8 GHz頻率運(yùn)作,與前代產(chǎn)品CEVA-XC4500相比,功耗降低50%。
(2)具有大規(guī)模計(jì)算能力,以維持高數(shù)據(jù)速率——配備4矢量處理器引擎,每秒運(yùn)算次數(shù)接近1萬億次(TOP)。
(3)全新獨(dú)特的高精度算法——支持高達(dá)256×256維矩陣高效運(yùn)算。
(4)用于加速基帶信號(hào)處理組件的全新專用指令和算法庫(kù)——為先進(jìn)的256和1024 QAM解調(diào)提供創(chuàng)新支持。
(5)新型核間數(shù)據(jù)流接口——允許在內(nèi)核或加速器之間達(dá)到超低傳輸延遲。
為了提升DSP的性能,OC8010對(duì)一些關(guān)鍵電路采取了優(yōu)化方案,如縮短了分頻電路的路徑延時(shí),并將片上DSP的最高時(shí)鐘頻率提至800 MHz~1GHz。
4.3加速器模塊設(shè)計(jì)
OC8010芯片集成了寬帶通信系統(tǒng)常用的硬件加速器。在這些硬件加速器的輔助下,可以實(shí)現(xiàn)高吞吐率的4G,SG及用戶自定義無線通信信號(hào)處理加速,如圖3所示為OC8010芯片基帶處理軟硬件劃分,片上的硬件加速器主要包括編譯碼、均衡、Low-PHY等加速器子系統(tǒng)。
4.3.1編譯碼加速器子系統(tǒng)
該加速器子系統(tǒng)由LDPC和Polar、卷積、Turbo等加速器構(gòu)成,LDPC和Polar編碼和譯碼器遵循3GPP38.212 Rel-16規(guī)范,主要用于SGNR的編譯碼處理以及Turbo和卷積編碼。譯碼加速器遵循3GPP 36.212Rel-10規(guī)范,主要用于4G LTE的編譯碼加速處理。
業(yè)務(wù)信道編碼器主要完成TB CRC、CB分割、CBCRC、LDPC/Turbo編碼、速率匹配、CB級(jí)聯(lián)等處理;業(yè)務(wù)信道譯碼器主要完成CB分割、解速率匹配、HARQ合并、LDPC/Turbo譯碼、CB CRC、CB級(jí)聯(lián)、TB CRC等處理。表2為典型配置下(LDPC與Turbo譯碼均為8次迭代)的業(yè)務(wù)信道編譯碼器最大吞吐量性能(@ 600 MHz時(shí)鐘頻率)。
4.3.2均衡加速器子系統(tǒng)
均衡加速器子系統(tǒng)支持最小均方誤差干擾抑制(MMSE-IRC)算法,因該算法良好的性能與復(fù)雜性而被業(yè)界廣泛應(yīng)用。MMSE-IRC算法對(duì)于基站檢測(cè)位于相鄰小區(qū)間環(huán)境中的用戶來說是必不可少的,與MMSE-MRC算法相比,它能夠減少區(qū)間干擾和降低高斯噪聲的影響,進(jìn)而提升了接收機(jī)的均衡性能。
OC8010的均衡加速器可支持自適應(yīng)MMSE-IRC和MMSE-MRC算法,可使接收機(jī)在不同信道環(huán)境下均能獲得最好的均衡性能。圖4為該加速器的功能示意圖。
該均衡加速器可以支持PUSCH均衡處理,在典型配置下的處理能力為:完成每個(gè)上行slot全部均衡處理時(shí)間小于1個(gè)3GPP定義的時(shí)隙(slot)。這里的典型配置為2個(gè)SGNR FRl-TDD小區(qū),每小區(qū)273PRB(BW100MHz,SCS=30 kHz),4接收天線,2Layer等。
4.3.3時(shí)頻域轉(zhuǎn)換LowPHY加速器子系統(tǒng)
該加速器主要完成OFDM波形變換:Tx Low-PHY主要完成數(shù)據(jù)重排、IFFT、加CP、相位補(bǔ)償(5G)等處理;Rx Low-PHY主要完成去CP、相位補(bǔ)償(5G)、7.SkShift( LTE)、FFT、數(shù)據(jù)重排等處理。LowPHY加速器功能示意圖如圖5所示。
該LowPHY加速器的典型處理能力為2個(gè)SGNRFRl-TDD小區(qū),每小區(qū)4T4R,BW=100 MHz,SCS=30 kHz。
4.4存儲(chǔ)器模塊設(shè)計(jì)
在異構(gòu)多核系統(tǒng)芯片中,數(shù)據(jù)的存儲(chǔ)、傳輸與交換需要更加高效的存儲(chǔ)架構(gòu),從而導(dǎo)致存儲(chǔ)與計(jì)算之間的矛盾更加突出?;鶐盘?hào)在處理高密集計(jì)算類應(yīng)用時(shí),如何設(shè)計(jì)高效的片上共享存儲(chǔ)器對(duì)發(fā)揮SoC整體性能有重要作用。
OC8010基帶芯片上的處理單元之間需要大量的數(shù)據(jù)交互,通過仔細(xì)分析基帶接收與發(fā)送信號(hào)處理的數(shù)據(jù)流,得到幾種典型場(chǎng)景下的數(shù)據(jù)流模型(Trafficmode),包括但不限于模塊間的數(shù)據(jù)吞吐量、數(shù)據(jù)緩存大小、處理單元數(shù)據(jù)的并發(fā)。
OC8010上的共享緩存具有如下系統(tǒng)特性:(1)緩存大小為10 MB字節(jié);(2)分成8個(gè)Bank,每個(gè)Bank1.25 MB字節(jié);(3)每個(gè)Bank均為2端器存儲(chǔ)器,支持對(duì)同一個(gè)Bank不同地址地同時(shí)讀與寫;(4)支持任務(wù)隊(duì)列以及每個(gè)端口優(yōu)先級(jí)可配;(5)多個(gè)端口訪問權(quán)重可配,支持帶權(quán)重的輪詢(WRR)訪問機(jī)制;(6)每個(gè)port支持基于“緊急”的防餓死機(jī)制等。
4.5總線模塊設(shè)計(jì)
總線結(jié)構(gòu)及互連設(shè)計(jì)直接影響芯片總體性能的發(fā)揮,OC8010片上總線選用ARM的CoreLink NIC系列主流商用總線,將系統(tǒng)中的ARM CPU處理器、CEVA DSP、加速器、PCIe等高速外設(shè)、12C等低速外設(shè)、存儲(chǔ)器(SRAM,ROM,DDR)等所有系統(tǒng)組件連接起來,允許這些組件之間進(jìn)行互聯(lián)互通,并且易于軟件編程使用。系統(tǒng)分析與評(píng)估了片上的通信帶寬、吞吐率、QOS、功耗使用、安全性以及成本等因素后,最終通過片上切分為多個(gè)總線區(qū)域進(jìn)行互聯(lián),參見圖1。
4.6高速接口模塊設(shè)計(jì)
4G只有前傳和回傳2個(gè)部分,在SG網(wǎng)絡(luò)中則演變?yōu)槿齻€(gè)部分,AAU連接DU部分稱為SG前傳(Fronthaul),中傳(Middlehaul)指DU(處理L1物理層)連接CU(處理L2/L3協(xié)議棧)部分,而回傳(Backhaul)是CU和核心網(wǎng)之間的通信承載,如圖6所示?;鶐oC處于BBU中的DU部分,相關(guān)的接口只涉及前傳與中/后傳。
前傳接口:OC8010上的eCPRI用于O-DU High-PHY和O-RU Low-PHY之間通過以太網(wǎng)傳輸頻域IQ數(shù)據(jù),接口遵循O-RAN聯(lián)盟的前傳接口規(guī)范,同時(shí)支持OTIC的相關(guān)標(biāo)準(zhǔn)。支持5G物理層功能按Option8(CPRI)和Option7-x(eCPRI)接口切分方式與RU對(duì)接,芯片可編程配置處理前傳接口的CPRI/eCPRI協(xié)議數(shù)據(jù)和用戶自定義數(shù)據(jù),CPRI/eCPRI接口均支持發(fā)送與接收數(shù)據(jù)的壓縮與解壓縮,支持的壓縮算法如塊浮點(diǎn)(Block Float-Point)、塊縮放(Block-scaling)、律(I -law)等,能夠滿足4G&5G多應(yīng)用場(chǎng)景下的定制化需求。
中后傳接口:DU與CU之間的中傳接口采用PCIe Gen4(向下兼容Gen3)或ETH (10GE),該接口主要實(shí)現(xiàn)L1與L2的通信。
5SoC芯片的可靠性設(shè)計(jì)
5.1高可靠的冗余電路設(shè)計(jì)
對(duì)于內(nèi)存軟錯(cuò)誤(soft errors),錯(cuò)誤修正碼(ECC)技術(shù)在SRAM電路中得到了廣泛的應(yīng)用,通過對(duì)輸人數(shù)據(jù)進(jìn)行編碼并在內(nèi)存中添加額外的冗余存儲(chǔ)位來提高內(nèi)存的容錯(cuò)性。對(duì)于硬錯(cuò)誤(hard errors),內(nèi)置自檢(built-in self-test,BIST)技術(shù)是內(nèi)存測(cè)試技術(shù)的主流,內(nèi)置自修復(fù)(built-in self-repair,BISR)技術(shù)應(yīng)運(yùn)而生,用于處理硬錯(cuò)誤的修復(fù)。通過BISR的修復(fù),可極大地提高芯片的優(yōu)良率以及降低芯片的成本。ECC電路和BISR電路分別用于軟誤差和硬誤差的修復(fù)。以上兩種冗余電路技術(shù)在OC8010芯片上都已被采用,用來提升芯片的可靠性以適應(yīng)不同的工作環(huán)境。
5.2高可靠復(fù)位電路設(shè)計(jì)
為確保芯片系統(tǒng)中電路穩(wěn)定可靠工作,復(fù)位電路是必不可少的一部分。例如,電路在工作中受到干擾后,容易出現(xiàn)CPU程序“跑飛”而盲目運(yùn)行,甚至出現(xiàn)死機(jī)現(xiàn)象,芯片上的復(fù)位電路則能夠糾正系統(tǒng)錯(cuò)誤,以確保系統(tǒng)正常工作。
高可靠復(fù)位電路主要應(yīng)用場(chǎng)景包括如下幾個(gè)部分。
系統(tǒng)啟動(dòng):從芯片上電復(fù)位開始至CPU加載完Uboot這一階段,復(fù)位電路進(jìn)行的PLL配置、時(shí)鐘切換等應(yīng)用。
子系統(tǒng)初始化:片上子系統(tǒng)由復(fù)位釋放到正常工作這一階段,復(fù)位電路對(duì)應(yīng)的初始化操作。
子系統(tǒng)重啟:子系統(tǒng)在正常工作日寸,可根據(jù)需求重新啟動(dòng)。包括CPU、DSP以及各類硬件加速器等子系統(tǒng)重啟等。
異常情況處理:應(yīng)對(duì)異常觸發(fā)的場(chǎng)景,復(fù)位電路對(duì)應(yīng)的操作。
5.3多工作模式設(shè)計(jì)實(shí)現(xiàn)低功耗
OC8010芯片從一開始的系統(tǒng)設(shè)計(jì)階段就引入了低功耗設(shè)計(jì),在系統(tǒng)和架構(gòu)設(shè)計(jì)層從性能和功耗方面進(jìn)行軟硬件劃分,通過軟硬件協(xié)同仿真,將最佳性能/功耗比作為確定片上軟硬劃分的依據(jù),以及將不同的子系統(tǒng)功能單獨(dú)分割開,方便后續(xù)芯片的實(shí)現(xiàn)等。
在RTL設(shè)計(jì)階段采用的主要方法如下。
(1)門控時(shí)鐘技術(shù)(Clock gating),根據(jù)設(shè)計(jì)將暫時(shí)不用的模塊的時(shí)鐘信號(hào)通過一個(gè)控制信號(hào)關(guān)斷( gating)住,降低該模塊的時(shí)鐘信號(hào)翻轉(zhuǎn)率,從而降低芯片功耗。
(2)電源門控(power gating),可通過靜態(tài)配置的方式,將芯片中某個(gè)區(qū)域的供電電源關(guān)掉。
(3)支持動(dòng)態(tài)頻率(Dynamic Frequency Scaling)調(diào)節(jié)等,如支持每個(gè)DSP核可單獨(dú)配置持降頻至1/2和1/4。
另外,根據(jù)系統(tǒng)中各個(gè)模塊的用途,以及IP自身支持的低功耗方案,將SoC劃分為不同的功率域,系統(tǒng)級(jí)的功率域如圖7所示。
針對(duì)不同的功率域子系統(tǒng),以及每個(gè)子系統(tǒng)內(nèi)部模塊都可以進(jìn)行精細(xì)的低功耗設(shè)置,如可以對(duì)部分CPU/DSP核或者某個(gè)加速器進(jìn)行關(guān)斷,從而有助于在各種通信場(chǎng)景下獲取高性能和低功耗特性。
6結(jié)束語(yǔ)
寬帶無線通信基帶芯片的設(shè)計(jì)是一個(gè)復(fù)雜的系統(tǒng)工程,只有少數(shù)幾家國(guó)外芯片巨頭可提供成熟的解決方案。本文介紹了國(guó)產(chǎn)OC8010商用小基站基帶芯片的設(shè)計(jì)與實(shí)現(xiàn)方案,提出了支持4G&5G雙模并發(fā)的基帶芯片解決方案,設(shè)計(jì)中解決了基帶芯片處理數(shù)據(jù)量大、算法復(fù)雜度高、可靠性要求高、低功耗等問題,滿足了商用4G&5G的大容量要求。該芯片方案有助于相關(guān)人員了解目前小基站基帶芯片的現(xiàn)狀,并為類似基帶芯片設(shè)計(jì)提供指導(dǎo)。