褚廷斌,黃樂(lè)天,閻 波
(電子科技大學(xué),四川 成都 610036)
通信瓶頸和能耗密度的爆發(fā)性增長(zhǎng)是現(xiàn)代的單片多核處理器(CMP)設(shè)計(jì)面臨的兩項(xiàng)重大挑戰(zhàn)。片上網(wǎng)絡(luò)(NoC)是一種高度靈活、可擴(kuò)展性極強(qiáng)的片上互連方式,可極大地提高通信帶寬,有效緩解片上通信瓶頸問(wèn)題[1]。相比傳統(tǒng)總線而言,片上網(wǎng)絡(luò)雖然提高了傳輸帶寬,然而其能耗問(wèn)題并沒(méi)有根本解決。如MIT的RAW多核處理器以及Intel的80核Teraflop芯片,其片上網(wǎng)絡(luò)的能耗約占整個(gè)芯片能耗的 30~40%[2-3];在 2011年計(jì)算機(jī)輔助設(shè)計(jì)國(guó)際會(huì)議上,Chris Malachowsky,Nvidia的創(chuàng)始人之一,指出未來(lái)芯片內(nèi)數(shù)據(jù)交換的能量消耗將遠(yuǎn)遠(yuǎn)超過(guò)計(jì)算操作的能量消耗[4]。因此,對(duì)片上網(wǎng)絡(luò)的能耗進(jìn)行有效的管理和優(yōu)化,提高片上通信的能量效率,對(duì)于整個(gè)芯片的性能有著極其重要的意義。
此前面向NoC的能耗優(yōu)化主要采用分布式電壓頻率調(diào)控,這樣可以提高DVFS的自由度,然而這樣的設(shè)計(jì)帶來(lái)了極大的硬件復(fù)雜度,并且由于不同頻率域間的同步,增加了片上通信的延時(shí)和能耗開(kāi)銷(xiāo)[5]。
SHANG L等人展開(kāi)了NoC領(lǐng)域DVFS研究的開(kāi)創(chuàng)性工作,他們根據(jù)一段時(shí)間內(nèi)鏈路的流量大小對(duì)每條鏈路進(jìn)行電壓頻率調(diào)節(jié)[6];MISHRA A K等人提出了對(duì)每個(gè)路由器的電壓頻率調(diào)節(jié)方法,通過(guò)監(jiān)測(cè)路由器輸入緩存中的數(shù)據(jù)包大小以及上游路由器的擁塞情況來(lái)改變每個(gè)路由器的電壓頻率[7];GUANG L等人提出了一種層次化的片上網(wǎng)絡(luò)能耗管理架構(gòu),主要是通過(guò)監(jiān)測(cè)每個(gè)路由器的緩存信息來(lái)設(shè)置電壓頻率,即當(dāng)緩存占用率超過(guò)(低于)預(yù)先設(shè)定的閾值,就提高(降低)一個(gè)電壓頻率等級(jí)[8]。
然而這些方法都忽略了這樣一個(gè)事實(shí),即CMP上程序?qū)τ贜oC的服務(wù)需求并不總是跟網(wǎng)絡(luò)的流量相關(guān)。如圖1所示,程序 Blacksholes比Radiosity的網(wǎng)絡(luò)平均注入率更高,然而NoC頻率對(duì)程序Radiosity的性能影響更大,說(shuō)明不能單純通過(guò)網(wǎng)絡(luò)流量大小來(lái)調(diào)節(jié)NoC的頻率。此外,基于NoC互連的CMP系統(tǒng)中片上緩存是按地址行交替分布在不同緩存塊中,導(dǎo)致不同節(jié)點(diǎn)的數(shù)據(jù)訪問(wèn)流量較為平衡,分布式的控制對(duì)于CMP這種架構(gòu)并不十分有效[9]。
圖1 程序性能與NoC頻率、網(wǎng)絡(luò)流量大小關(guān)系
因此對(duì)于面向CMP的片上網(wǎng)絡(luò)能耗優(yōu)化更適合于全局控制的方法。然而將NoC作為一個(gè)整體進(jìn)行控制,需要一種有效的全局監(jiān)控手段,同時(shí)需要適當(dāng)?shù)谋O(jiān)測(cè)參數(shù)以準(zhǔn)確地反映出程序?qū)τ贜oC的服務(wù)需求,然后再根據(jù)合適的DVFS控制算法進(jìn)行電壓頻率的設(shè)置。
如圖2所示,一個(gè)典型的基于NoC互連的CMP系統(tǒng)主要包括處理器及其私有緩存、片上路由器以及LLC(Last Level Cache)Bank。LLC在邏輯上是一個(gè)整體,屬于全局共享緩存,然而在物理上它們分布在不同的節(jié)點(diǎn),各個(gè)節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)接口與路由器相連。
圖2 系統(tǒng)整體架構(gòu)
在本文設(shè)計(jì)的系統(tǒng)中各節(jié)點(diǎn)均配置一個(gè)本地代理監(jiān)測(cè)單元(Local Agent),用于收集每個(gè)節(jié)點(diǎn)的性能參數(shù)。而獨(dú)立的功耗管理單元(Power Management Unit,PMU)負(fù)責(zé)將各個(gè)本地代理收集到的性能參數(shù)進(jìn)行分析和計(jì)算,并最終控制片外的電壓調(diào)節(jié)模塊(VRM)和時(shí)鐘模塊(PLL)來(lái)改變NoC的電壓和頻率。
在CMP中,程序的執(zhí)行時(shí)間主要包括處理器執(zhí)行時(shí)間以及訪存延時(shí)。NoC作為訪存的通信介質(zhì),其工作頻率的大小直接影響訪存延時(shí),那么程序的平均訪存次數(shù)反映了其對(duì)于NoC的服務(wù)需求大小。因此,每個(gè)本地監(jiān)測(cè)通過(guò)3個(gè)性能計(jì)數(shù)器收集程序的訪存信息,包括私有緩存缺失計(jì)數(shù)器、LLC缺失計(jì)數(shù)器以及指令計(jì)數(shù)器。當(dāng)每個(gè)控制周期到達(dá)時(shí),本地監(jiān)測(cè)單元負(fù)責(zé)將監(jiān)測(cè)的性能參數(shù)打包發(fā)送給PMU所在的節(jié)點(diǎn),然后重置性能計(jì)數(shù)器。
PMU負(fù)責(zé)將每個(gè)路由節(jié)點(diǎn)的信息進(jìn)行處理,把所有的緩存缺失數(shù)相加并除以總的指令數(shù),計(jì)算平均每指令產(chǎn)生的緩存缺失數(shù) MPI(Miss Per Instruction)。
通過(guò)對(duì)大量應(yīng)用程序的訓(xùn)練測(cè)試,得到不同MPI和NoC頻率下程序的性能損失,如圖3所示。不難看出,當(dāng)MPI值很小時(shí),NoC頻率對(duì)程序的性能影響很小,因此可以降低NoC頻率以節(jié)省能耗。
圖3 MPI、NoC頻率與性能損失關(guān)系
可通過(guò)一個(gè)簡(jiǎn)單的基于查找表的DVFS控制方法實(shí)現(xiàn)對(duì)NoC頻率的控制,實(shí)現(xiàn)這一方法最為關(guān)鍵的是確定不同電壓頻率等級(jí)間MPI值的分割邊界。利用支持向量機(jī)(SVM)算法將兩種頻率下的數(shù)據(jù)點(diǎn)進(jìn)行最大間距分割,很容易得到兩種頻率之間的分界值(如圖3)。采用同樣的方法可以確定其他頻率之間的分割邊界。最終的控制表如表1所示。
表1 DVFS控制表
根據(jù)不同的應(yīng)用場(chǎng)景和平臺(tái)配置,采用同樣的方法可以訓(xùn)練出不同的控制表,以滿足不同場(chǎng)合中對(duì)性能與能耗的不同需求。該表可以被編程下載到PMU內(nèi)部保存,PMU將計(jì)算出的MPI值進(jìn)行查表即可得到對(duì)應(yīng)的NoC電壓和頻率。由此可見(jiàn),該控制方案十分簡(jiǎn)單,可快速地對(duì)程序的訪存行為變化進(jìn)行自適應(yīng)調(diào)節(jié),進(jìn)而對(duì)NoC的能量效率進(jìn)行優(yōu)化。
為了評(píng)估和驗(yàn)證提出的全局DVFS方案,本文采用基于SimpleScalar的全系統(tǒng)仿真平臺(tái)構(gòu)建圖2所示的片上多核系統(tǒng)。該平臺(tái)集成的PoPNet和ORION可模擬片上網(wǎng)絡(luò)的時(shí)序行為,并統(tǒng)計(jì)其能量消耗。此外,可通過(guò)設(shè)置不同的配置參數(shù)以模擬不同微體系結(jié)構(gòu)的CMP系統(tǒng)。本次實(shí)驗(yàn)中主要的配置參數(shù)如表2所示。
表2 仿真器配置參數(shù)表
為測(cè)試控制算法性能,從PARSEC和SPLASH2測(cè)試集中選擇了6個(gè)典型的并行程序,通過(guò)仿真器分別對(duì)這6個(gè)應(yīng)用程序進(jìn)行了詳細(xì)的時(shí)序與能耗仿真,實(shí)現(xiàn)并比較了下面3種不同的DVFS方案:
(1)BaseLine:無(wú) DVFS,NoC運(yùn)行在最高頻率,作為其他方案的比較基準(zhǔn);
(2)Global DVFS:本文提出的基于程序訪存行為的全局DVFS方案;
(3)Local DVFS:GUANG L等人提出的分布式 DVFS方案,監(jiān)測(cè)路由器輸入緩存的占用大小設(shè)置電壓和頻率,在每條鏈路中添加了同步緩存并增加了一級(jí)流水線延時(shí)。
圖4顯示了不同DVFS方案下片上網(wǎng)絡(luò)的歸一化(以BaseLine為1)能量消耗情況。從圖中可以看出,GUANG L采用的分布式DVFS方案可以達(dá)到平均約30%的能量節(jié)省,而全局DVFS方案所達(dá)到的能量節(jié)省約45%,比分布式的方案可節(jié)省能量15%以上。
圖4 不同程序的歸一化能耗
圖5比較了不同方法下程序的歸一化執(zhí)行時(shí)間。不難看出,由于對(duì)NoC的頻率調(diào)節(jié),程序的執(zhí)行時(shí)間會(huì)或多或少地增加,分布式的方案造成程序執(zhí)行時(shí)間的增加約為8%,而全局DVFS方案平均增加了僅5%的執(zhí)行時(shí)間。
圖5 不同程序的歸一化執(zhí)行時(shí)間
本文提出了一種用于片上網(wǎng)絡(luò)能耗優(yōu)化的全局DVFS方案,通過(guò)監(jiān)控平均每指令產(chǎn)生的緩存缺失數(shù)來(lái)動(dòng)態(tài)調(diào)節(jié)片上網(wǎng)絡(luò)的電壓和頻率。實(shí)驗(yàn)結(jié)果表明,該方案可以達(dá)到平均45%的能耗節(jié)省,而僅僅帶來(lái)約5%的性能損失。相比于分布式控制方案,全局控制方案實(shí)現(xiàn)簡(jiǎn)單,軟硬件代價(jià)低,對(duì)能耗的優(yōu)化效果更加明顯,在未來(lái)的片上多處理器設(shè)計(jì)中具有很高的實(shí)用價(jià)值。
[1]DALLY W J,TOWLES B.Principles and practices of interconnection networks[M].Morgan Kaufmann,2003.
[2]WANG H,PEH L S,MALIK S.Power-driven design of router micro-architectures in on-chip networks[C].In MICRO,2003:105-116.
[3]VANGAL S,HOWARD J,RUHI G,et al.An 80-tile 1.28TFLOPS network-on-chip in 65 nm CMOS[C].In Proc.Solid-State Circuits Conf.,2007:98-589.
[4]ABTS D,MARTY M R,WELLS P M,et al.Energy proportional data center networks[C].In ISCA,2010:338-347.
[5]ROTEM E,MENDELSON A,GINOSAR R,et al.Multiple clock and voltage domains for chip multi processors[C].In MICRO,2009:459-468.
[6]SHANG L,PEH L,JHA N K.Power-efficient interconnection networks:dynamic voltage scaling with links[J].IEEE Computer Architecture Letters,2002,1(1):6.
[7]MISHRA A K,DAS R,EACHEMPATI S,et al.A case for dynamic frequency tuning in on-chip networks[C].In MICRO,2009:292-303.
[8]GUANG L,NIGUSSIE E,RANTALA P,et al.Hierarchical agent monitoring design approach towards self-aware parallel systems-on-chip[J].ACM Trans.Embedd.Comput.Syst.,2010,9(3):1-25.
[9]CHEN X,XU Z,KIM H,et al.In-network monitoring and control policy for dvfs of cmp networks-on-chip and last level caches[C].In NOCS,2012:43-50.