国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多核微處理器體系結(jié)構(gòu)級功耗模型分析

2019-08-13 03:17:22陳卓劉暢侯申郭陽
關(guān)鍵詞:體系結(jié)構(gòu)模擬器功耗

陳卓,劉暢,侯申,郭陽

(1.陸軍研究院作戰(zhàn)保障研究所,無錫江蘇,214000;2.湖南大學(xué)信息科學(xué)與工程學(xué)院,湖南長沙,410083;3.信息工程大學(xué)基礎(chǔ)系,河南洛陽,471003;4.國防科技大學(xué)計算機(jī)學(xué)院,湖南長沙,410083)

隨著集成電路發(fā)展到深亞微米及納米工藝后,單片芯片上集成的晶體管數(shù)目可達(dá)幾十億個,使得高性能微處理器進(jìn)入超大存儲容量、眾多高速IO 接口的多核心時代,新型體系結(jié)構(gòu)不斷出現(xiàn),處理能力大大提升[1-3]。高性能微處理器的性能與集成度在按照摩爾定律高速發(fā)展時,“功耗墻”成為棘手的問題[4-7]。現(xiàn)代的通用處理器功耗峰值已經(jīng)高達(dá)上百瓦,例如,Alpha 21364 功耗為100 W,AMD Opteron 功耗為90 W,Intel Itanium 2 功耗超過100 W,能效比成為微處理器的重要設(shè)計指標(biāo)[8-10]。低功耗設(shè)計已成為微處理器設(shè)計的關(guān)鍵,而精確的功耗評估是進(jìn)行低功耗設(shè)計的基礎(chǔ)[11-12]。一方面,由于微處理器主頻和規(guī)模的大幅提升以及集成電路工藝向納米級發(fā)展,微處理器的設(shè)計復(fù)雜度大大提升,設(shè)計周期大大增加[13-14],所以,迫切需要在設(shè)計的各個階段就能精確評估功耗,盡早確定能滿足目標(biāo)體系結(jié)構(gòu)、性能指標(biāo)要求的工藝,從而達(dá)到縮短設(shè)計周期的目的。另一方面,微處理器的功耗與芯片的體系結(jié)構(gòu)、主頻、規(guī)模、工藝等因素密切相關(guān)[15],在設(shè)計的各個階段(特別是設(shè)計的早期階段)進(jìn)行較為精確的功耗評估變得十分困難,因此,如何根據(jù)功耗評估結(jié)果來確定工藝需求是CPU(中央處理器,central processing unit)工程實現(xiàn)的重要前提,在設(shè)計的開始階段就能確定工藝需求,對CPU 的成功研制將起到事半功倍的效果。許多學(xué)者對高性能微處理器在體系結(jié)構(gòu)、低功耗設(shè)計與評估、新工藝等方面展開了大量的分析與研究,取得了許多研究成果。LIU等[13]通過參數(shù)化RTL(寄存器轉(zhuǎn)換級電路,register transfer level)和物理反標(biāo)的方法對處理器的基本單元進(jìn)行建模分析,針對門級網(wǎng)表對處理器進(jìn)行模擬功耗研究。HUANG等[16]則是將電路級參數(shù)封裝在模型內(nèi)部,通過體系結(jié)構(gòu)屬性和特征尺寸來估算電容,從而進(jìn)行功耗分析建模。以往的這些研究主要注重低功耗設(shè)計在RTL 和電路級的功耗評估,缺少對多核心處理器、體系結(jié)構(gòu)層次性能、功耗、工藝等進(jìn)行綜合模擬的研究[17-20]。本文作者采用FT-SHSim模擬工具對主流的微處理器核心模型SMT 和MSS 建模,在體系結(jié)構(gòu)級對功耗和工藝進(jìn)行綜合評估的模擬實驗,得到不同微處理器結(jié)構(gòu)的工藝需求和不同工藝下可以實現(xiàn)的處理器性能及規(guī)模,使得微處理器設(shè)計的早期階段就能夠考慮工藝需求,從而實現(xiàn)提高設(shè)計質(zhì)量、縮短設(shè)計周期、加快設(shè)計收斂的目的。

1 體系結(jié)構(gòu)級工藝模擬器FT-SHSim

1.1 FT-SHSim結(jié)構(gòu)與工作原理

FT-SHSim 工藝模擬器的結(jié)構(gòu)如圖1所示。該模擬器通過XML(可擴(kuò)展標(biāo)記語言,extensible markup language)的接口與性能模擬器交互,使用XML 解釋器解釋處理XML 接口文件。接口文件中可以指定靜態(tài)的微體系結(jié)構(gòu)參數(shù),也可以傳遞由性能模擬器產(chǎn)生的動態(tài)行為統(tǒng)計結(jié)果的參數(shù)。模擬器還可以基于XML 的接口實時返回運(yùn)行功耗結(jié)果給性能模擬器,使得性能模擬器可以獲得功耗甚至溫度,并且該模擬器提供體系結(jié)構(gòu)和工藝級的完整層次化模型。XML接口還可以包含電路實現(xiàn)風(fēng)格以及工藝參數(shù)。

模擬器的核心組件包括:1) 層次化功耗、面積和時序模型;2)決定電路級實現(xiàn)的優(yōu)化器;3)用于分析功耗、面積和時序的內(nèi)部芯片的表示。大部分內(nèi)部芯片表示的參數(shù)(如高速緩沖存儲器(Cache)容量、核發(fā)射寬度)是直接通過輸入?yún)?shù)設(shè)定的。模擬器的層次化結(jié)構(gòu)能夠完成基于器件工藝在低層次建模,而體系結(jié)構(gòu)設(shè)計師只需要關(guān)注高層次體系結(jié)構(gòu)配置。電路級優(yōu)化器關(guān)注2 種主要的規(guī)則結(jié)構(gòu):互連和陣列。例如,通過指定片上互連的頻率、等分帶寬或者Cache塊的容量、相聯(lián)度、數(shù)量,工具自動確定實現(xiàn)細(xì)節(jié),如金屬層的選擇、互連信號線的間距或者Cache塊字線、位線的長度。

圖1 FT-SHSim體系結(jié)構(gòu)級工藝模擬器結(jié)構(gòu)圖Fig.1 Simulator structure of FT-SHSim architecture level process

模擬器的工作流程分為2個階段:初始化階段和計算階段。在初始化階段,需要指定靜態(tài)配置,包括體系結(jié)構(gòu)、電路以及工藝所有3個層次的參數(shù)。體系結(jié)構(gòu)參數(shù)包括核的數(shù)量、路由器的數(shù)量、共享末級Cache的參數(shù)、核發(fā)射寬度、亂序(OoO,out of order)重命名策略、OoO 調(diào)度策略、硬件線程數(shù)量等。電路級參數(shù)指定電路實現(xiàn)技術(shù),如執(zhí)行某一個陣列用基于觸發(fā)器的單元實現(xiàn)還是基于SRAM(靜態(tài)隨機(jī)存取存儲器,static random-access memory)的單元實現(xiàn)、片上路由器是否使用雙泵(double-pumped)交叉開關(guān)等。工藝級參數(shù)包括器件類型和互連,器件類型包括高 性 能(HP,high performance)、低standby 電 源(LSTP,low standby power)、低操作電源(LOP,low operation power)。靜態(tài)配置還包括一些優(yōu)化選項,例如最大面積偏差、最大功耗偏差和優(yōu)化函數(shù)。所有的靜態(tài)配置設(shè)置完畢后,模擬器開始進(jìn)行初始化階段。

初始化階段完成后得到按照用戶配置要求的微處理器芯片的一個描述,然后模擬器開始功耗計算階段。模擬器在精確的功耗和面積建?;A(chǔ)上,對每一個處理器部件優(yōu)化電路級結(jié)構(gòu)以滿足時序約束,然后判斷該部件的功耗和面積是否在最佳值允許的偏差范圍內(nèi)。在所有滿足功耗和面積最佳范圍的配置中,模擬器采用1個優(yōu)化函數(shù)報告最終的功耗和面積。

1.2 模擬器功耗模型分析

CMOS電路的功耗主要由3個部分組成:動態(tài)功耗、短路電流功耗和漏流功耗,即

式(1)中右邊第1項為動態(tài)功耗,表征消耗在電路切換狀態(tài)時對負(fù)載電容充電和放電,其中C為總的負(fù)載電容,Vdd為電源電壓,ΔV為電源切換時的擺幅,fclk為時鐘頻率;Ishortcircuit為短路電流,Ileakage為漏流。C取決于每一個IC 組件的電路設(shè)計和版圖,模擬器對于規(guī)則結(jié)構(gòu)(如存儲陣列和連線)采用分析模型計算負(fù)載電容,對于隨即邏輯結(jié)構(gòu)(如ALU(算術(shù)邏輯部件運(yùn)算器,arithmetic logical unit))采用經(jīng)驗?zāi)P陀嬎阖?fù)載電容?;顒有砸蜃应帘硎驹?個時鐘周期內(nèi)被充電的電容占總電容的比例。模擬器從體系結(jié)構(gòu)模擬以及電路屬性得到的訪問統(tǒng)計信息來計算活動性因子α。

式(1)中右邊第2項為短路電流功耗,為CMOS電路中上拉器件和下拉器件在短時間內(nèi)導(dǎo)通的消耗,它通常占總動態(tài)功耗的10%左右。電路在切換時,產(chǎn)生動態(tài)功耗和短路電流功耗。電路的固有屬性決定了短路電流功耗在動態(tài)功耗中所占的比例,該比例是Vdd與Vth比例的強(qiáng)函數(shù)。

式(1)中右邊第3項為靜態(tài)功耗,為電路中晶體管上的漏流所消耗。漏流取決于晶體管的寬度和器件的局部狀態(tài)。存在2種漏流:亞閾漏流和柵漏流。亞閾漏流是關(guān)斷狀態(tài)下的晶體管存在從源到漏極的小電流。柵漏流是通過晶體管柵級泄露的電流,隨器件狀態(tài)的變化而變化。為了對電路模塊中的多個晶體管進(jìn)行建模,需要考慮每一個晶體管的邏輯狀態(tài),再把每一個靜態(tài)管的漏流相加。假設(shè)1個電路處于一種邏輯狀態(tài)s,所有消耗亞閾漏流的晶體管有效寬度表示為Wsub(s);類似地,打開和關(guān)斷的晶體管柵漏流有效寬度表示為Wgon(s)和Wgoff(s)。設(shè)電路處于狀態(tài)s的概率為Pr(s),所有可能狀態(tài)下的總漏流可以用下式表示:

在模擬器中,計算每一個基本電路塊不同狀態(tài)下的漏流。即使在同一個狀態(tài)同一個電路塊中,亞閾漏流和柵漏流也具有不同的漏流路徑。器件打開時的柵漏流也與關(guān)斷時的柵漏流有很大不同。由于關(guān)斷狀態(tài)柵漏流遠(yuǎn)小于打開狀態(tài)下的柵漏流,因此,模擬器忽略關(guān)斷狀態(tài)下的柵漏流。

2 模擬模型的建立

2.1 SMT和MSS模型的建立

SMT允許1個時鐘周期內(nèi)發(fā)射多個線程的多條指令執(zhí)行,能夠同時利用程序的TLP(線程級并行,thread level parallelism) 和 ILP( 指 令 層 并 行,instruction level parallelism),提高處理器發(fā)射槽以及功能部件的利用率。而MSS 對通用處理器的指令數(shù)目和尋址方式都進(jìn)行了精簡,使其實現(xiàn)更容易,指令并行執(zhí)行程度更好,編譯器的效率更高,它只要求硬件執(zhí)行有限且常用的指令,大部分復(fù)雜的操作則使用成熟的編譯技術(shù),由簡單指令合成,對提高核心數(shù)量和處理器性能有很大的幫助。這2種處理器核心的多核處理器體系結(jié)構(gòu)參數(shù)配置如表1所示。

處理器核心數(shù)目范圍為16~1 024 個,頻率分別設(shè)置為1.0,1.5,2.0,2.5和4.0 GHz。每一個處理器核包含1個32 kB的一級指令Cache(L1I Cache)和1個32 kB 的一級數(shù)據(jù)Cache(L1D Cache)。對于片上L2 Cache,分別模擬2 種配置:配置1 為不同核心數(shù)量下,L2 Cache 等比配置,256 kB/bank,bank 數(shù)等于核心數(shù);配置2類似于GPU,L2 Cache不隨核心數(shù)變化,全芯片配置768 kB L2 Cache。片上互連網(wǎng)絡(luò)采用2D Mesh 結(jié)構(gòu)。片上存儲控制器(MC)數(shù)量隨核心數(shù)增加而增加,具體對應(yīng)關(guān)系如下:16 和32 核處理器配置MC 數(shù)為4 個;64 和128 核處理器配置MC 數(shù)為8 個;256 和512 核處理器配置MC 數(shù)為16 個;1 024 核處理器配置MC 數(shù)為32 個。網(wǎng)絡(luò)接口(NIU)數(shù)量配置為2個,PCIe接口數(shù)量配置為1個。

表1 處理器體系結(jié)構(gòu)參數(shù)配置Table 1 Processor architecture parameter configuration

處理器核心的主要參數(shù)配置如表2所示。在處理器核心配置中,每一個核包含2 個ALU 單元和1 個FPU 單元,每一個核有2 條整數(shù)流水線和1 條浮點流水線,流水線深度為8級。

2.2 工藝參數(shù)配置

工藝相關(guān)的特性參數(shù)配置包括工藝節(jié)點(Core_Tech_Node)、 互 連 類 型 (Interconnect_Projection_Type)、器件類型(Tevice_Type)以及是否使用長溝器件類型(Longer_Channel_Device)。在模型中,選取5種工藝節(jié)點即最小線寬為90,65,40,28和22 nm,覆蓋了國內(nèi)成熟以及國際主流、先進(jìn)工藝節(jié)點。對于互連類型,模擬器可以提供2種:激進(jìn)互連類型( aggressive wire technology)和保守互連類型(conservative wire technology),考慮高性能多核微處理器的高性能要求,在模型中選取激進(jìn)互連類型。對于器件類型,模型中將包括3 種類型:HP,LSTP 以及LOP的功耗建模,分別對這3種器件類型進(jìn)行模擬對比,比較不同器件類型實現(xiàn)下處理器的面積與功耗。

3 模擬實驗與結(jié)果分析

3.1 SMT建模分析

SMT 建模完成后,分別對L2 Cache 等比配置和固定配置進(jìn)行分析,選取5種工藝節(jié)點即最小線寬為90,65,40,28和22 nm,查看SMT處理器在5種工藝下峰值功耗隨核心數(shù)增加的變化趨勢。從圖2和圖3可以看出:隨著工藝節(jié)點向前推進(jìn),處理器消耗的總功耗會降低;而隨著核心數(shù)增加,總體功耗會隨之上漲。即使采用模擬器中最先進(jìn)的22 nm工藝,實現(xiàn)128 核SMT 處理器峰值功耗也分別達(dá)到143 W 和116 W。

圖2 L2 Cache等比配置SMT峰值功耗Fig.2 L2 Cache equal ratio configuration SMT peak power consumption

圖3 L2 Cache固定配置SMT峰值功耗Fig.3 L2 Cache fixed configuration SMT peak power consumption

表2 處理器核心主要參數(shù)配置Table 2 Main parameters of processor core configuration

圖4所示為L2 Cache等比配置下SMT處理器在5種工藝的不同器件類型實現(xiàn)下的峰值功耗對比。從圖4可見:在最小線寬為90 nm工藝下,采用LSTP器件實現(xiàn)峰值功耗最高,采用HP 器件實現(xiàn)次之,采用LOP 器件實現(xiàn)最低;在最小線寬為65,40 和28 nm工藝下,采用HP器件實現(xiàn)峰值功耗最高,采用LSTP器件實現(xiàn)次之,采用LOP 器件實現(xiàn)最低;在最小線寬為22 nm 工藝下,采用LOP 器件實現(xiàn)峰值功耗最高,采用HP 器件實現(xiàn)次之,采用LSTP 器件實現(xiàn)最低。從圖4可知:HP 和LOP 器件在每個工藝節(jié)點向前推進(jìn)時功耗有明顯幅度下降,但LSTP器件在只前期工藝有明顯下降,而到了28 nm以后,功耗不僅沒有下降,反而有微小上升,也就是說,低功耗技術(shù)的實現(xiàn)不能依賴于工藝節(jié)點。

圖5所示為L2 Cache 固定配置下SMT,MSS 以及CSS處理器在5種工藝的不同器件類型實現(xiàn)下的峰值功耗對比。數(shù)據(jù)趨勢與L2 Cache 等比配置相同,但峰值功耗低于L2 Cache等比配置的峰值功耗。

模擬結(jié)果表明:隨著核心數(shù)增加,峰值功耗急劇增加,對封裝及散熱的實現(xiàn)提出嚴(yán)峻挑戰(zhàn)。如要求峰值功耗控制在100 W左右,對于40 nm工藝,可以實現(xiàn)32核規(guī)模的SMT處理器,峰值功耗約為95 W;對于28 nm 工藝,可以實現(xiàn)64 核規(guī)模的SMT 處理器,峰值功耗約為120 W;對于22 nm 工藝,可以實現(xiàn)128核規(guī)模的SMT處理器,峰值功耗約為150 W。

圖4 L2 Cache等比配置時不同工藝器件類型的峰值功耗對比Fig.4 Peak power comparison for different process device types with L2 cache equal ratio configuration

圖5 L2 Cache固定配置時不同工藝器件類型的峰值功耗對比Fig.5 Peak power comparison for different process device types with L2 cache fixed configuration

3.2 MSS建模分析

MSS 建模完成后,分別對L2 Cache 等比配置和固定配置進(jìn)行分析,選取5種工藝節(jié)點即最小線寬為90,65,40,28和22 nm,查看MSS處理器在5種工藝下峰值功耗隨核心數(shù)增加的變化趨勢,結(jié)果如圖6和圖7所示。從圖6和圖7可以看出:隨著工藝節(jié)點向前推進(jìn),處理器消耗的總功耗降低;而隨著核心數(shù)增加,總體功耗會隨之上漲。采用最先進(jìn)的22 nm工藝,實現(xiàn)64 核MSS 處理器峰值功耗分別達(dá)到176 W和161 W。

圖6 L2 Cache等比配置MSS峰值功耗Fig.6 L2 Cache equal ratio configuration MSS peak power consumption

圖7 L2 Cache固定配置MSS峰值功耗Fig.7 L2 Cache fixed configuration MSS peak power consumption

圖8 L2 Cache等比配置MSS漏流功耗Fig.8 L2 Cache equal ratio configuration MSS leakage consumption

圖9 L2 Cache固定配置MSS漏流功耗Fig.9 L2 Cache fixed configuration MSS leakage consumption

圖8和圖9所示分別為L2 Cache等比配置和固定配置下MSS處理器在5種工藝下漏流功耗數(shù)據(jù)以及隨核心數(shù)增加的變化趨勢。從圖8可知:隨著工藝節(jié)點向前推進(jìn),MSS 漏流功耗呈開口向下的拋物線變化趨勢,而且漏流功耗占總體功耗比重較大,即使采用22 nm 工藝實現(xiàn)的64 核MSS 處理器,其漏流功耗也分別達(dá)到96 W和85 W,分別占全芯片功耗的55%和53%。

模擬結(jié)果表明:隨著核心數(shù)增加,峰值功耗急劇增加,對封裝及散熱的實現(xiàn)提出嚴(yán)峻挑戰(zhàn)。如要求峰值功耗控制在150 W左右,對于40 nm工藝,可以實現(xiàn)16 核規(guī)模的MSS 處理器,峰值功耗約為110 W;對于28 nm工藝,可以實現(xiàn)32核規(guī)模的MSS處理器,峰值功耗約為140 W;對于22 nm工藝,可以實現(xiàn)64核規(guī)模的處理器,峰值功耗約為170 W。在納米級工藝下,漏流功耗占總功耗的比重越來越大,甚至成為主導(dǎo)部分。因此,在高性能多核處理器設(shè)計中,在以往重點注重降低動態(tài)功耗的設(shè)計流程中,必須考慮降低靜態(tài)功耗的設(shè)計和選擇新工藝,如高K 金屬柵、SOI(絕緣襯底上硅,silicon-on-insulator)等新技術(shù)和新工藝的運(yùn)用。

4 結(jié)論

1)采用體系結(jié)構(gòu)級工藝模擬器FT-SHSim 對典型CPU架構(gòu)SMT和MSS進(jìn)行大量模擬實驗,給出不同工藝、不同器件類型下實現(xiàn)不同規(guī)模處理器的峰值功耗和靜態(tài)功耗。隨著核心數(shù)的增大,峰值功耗將達(dá)到數(shù)千瓦,單位面積的功耗將遠(yuǎn)超過目前的散熱能力。按照目前100 W 左右的峰值功耗要求,對于40,28和22 nm工藝,分別可以實現(xiàn)32核、64核和128核規(guī)模的SMT處理器,可以實現(xiàn)16核、32核和64核規(guī)模的MSS 處理器。此外,在納米級工藝條件下處理器的靜態(tài)功耗所占比重達(dá)到50%以上,在高性能處理器的設(shè)計時,必須大量采用降低靜態(tài)功耗的新技術(shù)和新工藝。

2) 隨著集成電路工藝進(jìn)入納米時代,片上集成度不斷提高,功耗和面積成為制約高性能微處理器設(shè)計的重要因素,在體系結(jié)構(gòu)設(shè)計階段應(yīng)考慮工藝需求與可實現(xiàn)性。

猜你喜歡
體系結(jié)構(gòu)模擬器功耗
了不起的安檢模擬器
盲盒模擬器
劃船模擬器
揭開GPU功耗的面紗
個人電腦(2016年12期)2017-02-13 15:24:40
數(shù)字電路功耗的分析及優(yōu)化
電子制作(2016年19期)2016-08-24 07:49:54
基于粒計算的武器裝備體系結(jié)構(gòu)超網(wǎng)絡(luò)模型
作戰(zhàn)體系結(jié)構(gòu)穩(wěn)定性突變分析
“功耗”說了算 MCU Cortex-M系列占優(yōu)
電子世界(2015年22期)2015-12-29 02:49:44
基于DODAF的裝備體系結(jié)構(gòu)設(shè)計
IGBT模型優(yōu)化及其在Buck變換器中的功耗分析
辽阳县| 旬邑县| 三河市| 健康| 和静县| 宁陵县| 英超| 德庆县| 兰西县| 娄底市| 和田县| 周口市| 达孜县| 土默特左旗| 收藏| 滦平县| 通榆县| 崇仁县| 惠安县| 泰安市| 仁化县| 柘城县| 大兴区| 乳源| 盐池县| 额尔古纳市| 南靖县| 红桥区| 仪陇县| 利津县| 麻阳| 进贤县| 斗六市| 涟源市| 深州市| 平乐县| 威宁| 溧水县| 舒兰市| 肥东县| 尚志市|