国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

性能更強(qiáng)、核心更多、更為靈活

2021-09-10 08:30:20張平
微型計(jì)算機(jī) 2021年15期
關(guān)鍵詞:功耗內(nèi)存條目

張平

帶有SEV的Cortex-X1?Neoverse V1架構(gòu)解讀

Neoverse V1架構(gòu)是ARM奧斯汀設(shè)計(jì)中心的產(chǎn)品,Cortex-X1也是出自他們之手。因此從塊結(jié)構(gòu)來(lái)看,NeoverseV1和Cortex-X1有一些相似之處。

Neoverse V1的微架構(gòu):更寬、更強(qiáng)

ARM對(duì)Neoverse V1的定位是面向大型設(shè)備、機(jī)器學(xué)習(xí)、要求性能的云計(jì)算等場(chǎng)合。Neoverse V1最大的特點(diǎn)在于加入了2x256b的SEV計(jì)算能力,并且支持目前在A I計(jì)算中被廣泛應(yīng)用的bFloat16。在設(shè)計(jì)取向上,NeoverseV1更看重性能,而非功耗或者芯片面積,畢竟它面向的是對(duì)性能有要求的市場(chǎng)。相比之下,Neoverse N系列則是面向?qū)γ客咛匦阅苊舾械?G設(shè)備和云計(jì)算場(chǎng)合。

在架構(gòu)改進(jìn)上,Neoverse V1采用了新的微架構(gòu),并專門(mén)為HPC和服務(wù)器市場(chǎng)進(jìn)行了針對(duì)性優(yōu)化,性能水平得以全面提升。Neoverse V1在微架構(gòu)上首次加入了SE V指令集,增強(qiáng)了功能、安全性和性能。在架構(gòu)可伸縮性方面,Neoverse V1可以在有限的系統(tǒng)資源下實(shí)現(xiàn)性能功耗的管理。

在架構(gòu)指令集方面,Neoverse V1是基于Armv8.4設(shè)計(jì)的,并且加入了Armv8.5和Armv8.6的特性—后兩者的大部分內(nèi)容都是面向H P C市場(chǎng)的。可能考慮到研發(fā)時(shí)間的問(wèn)題,它并沒(méi)有引入前段時(shí)間發(fā)布的Armv9,不得不說(shuō)是一個(gè)遺憾。

在性能方面,Neoverse V1相比Neoverse N1,在7nm或者5nm工藝下整體性能提升高達(dá)50%。雖然提升幅度很大,但是實(shí)際上后者相比NeoverseV1在架構(gòu)設(shè)計(jì)上要落后2代,因此這樣的性能差距還算正常。

Neoverse V1采用了超過(guò)11級(jí)的超短流水線設(shè)計(jì),前端為8個(gè)發(fā)射寬度,搭配15寬度的隊(duì)列單元。在功能單元方面,Neoverse V1擁有2個(gè)專用的分支預(yù)測(cè)單元。后端執(zhí)行方面則擁有4個(gè)64bit的整數(shù)執(zhí)行ALU和2個(gè)256bit的S V E單元,也可以執(zhí)行4x128b i t的NENO浮點(diǎn)運(yùn)算。寫(xiě)回方面,它擁有3個(gè)讀取/加載地址單元,以及3個(gè)讀取數(shù)據(jù)、2個(gè)存儲(chǔ)數(shù)據(jù)的流水線。從前端到后端,分別是8發(fā)射的指令拾取、5~ 8寬度的解碼和重命名、分支預(yù)測(cè)、初次和二次整數(shù)執(zhí)行單元(包括MUL、DI V、CRC等)、浮點(diǎn)單元、地址計(jì)算以及讀取和存儲(chǔ)數(shù)據(jù)等。

Neoverse V1和Cortex-X1很相似,比如都采用了相同的短流水線設(shè)計(jì),在分支預(yù)測(cè)方面都做出了一定的加強(qiáng),以避免分支預(yù)測(cè)錯(cuò)誤帶來(lái)的分支預(yù)測(cè)懲罰。實(shí)際上從Cortex-A76開(kāi)始,A R M的奧斯汀團(tuán)隊(duì)在架構(gòu)設(shè)計(jì)方面一直保持相對(duì)穩(wěn)定。因此Neoverse V1相比Neoverse N1,其頻率并沒(méi)有太大的變化(流水線級(jí)數(shù)沒(méi)有大幅度增加),性能提升主要來(lái)自架構(gòu)規(guī)模的提升和IPC的增加。

在前端方面。Neoverse V1針對(duì)服務(wù)器和HPC的應(yīng)用場(chǎng)合做出了改變。首先是針對(duì)較大的指令運(yùn)行時(shí)的指令足跡進(jìn)行了優(yōu)化,這意味著這些復(fù)雜的指令能夠更為高效地在NeoverseV1中執(zhí)行并輸出結(jié)果。其次是分支預(yù)測(cè)方面的改進(jìn),比如更快的解耦獲取帶寬,新的設(shè)計(jì)采用了2x32b的方案,是之前方案的2倍;L2 BTB目前可以容納超過(guò)8K個(gè)條目,增加了33%的容量;L0級(jí)別的nano BTB增加到了96個(gè)條目,是之前設(shè)計(jì)的6倍,更大的nano BTB可以避免0循環(huán)的氣泡出現(xiàn)。第三則是前端的代碼區(qū)域(coderegions)的追蹤并發(fā)性能是前代產(chǎn)品的2倍。最后則是提升了“早期”分支管道中重定向性能,其帶來(lái)了更低的延遲并避免了代價(jià)高昂的后期預(yù)測(cè)錯(cuò)誤。在經(jīng)過(guò)改進(jìn)后,Neoverse V1的分支預(yù)測(cè)性能相比前代產(chǎn)品降低了90%的分支預(yù)測(cè)錯(cuò)誤,減少了50%的前段失速,效果明顯。

在中核部分,Neoverse V1也進(jìn)行了很多改進(jìn),主要是增加寬度和深度。首先它加入了全新的Mop緩存,這個(gè)緩存的作用主要是為L(zhǎng)0指令解碼提供了3K的隊(duì)列深度,并且還擁有較高的指令拾取帶寬。Mop緩存每周期可以完成8個(gè)指令的存取,相比前代產(chǎn)品翻倍,相關(guān)指令緩存的帶寬從之前每周期4寬度提升至5寬度,也帶來(lái)了性能的增加。Mop緩存還擁有更低的解碼管道延遲,現(xiàn)在整個(gè)過(guò)程只需要占據(jù)1個(gè)周期。其次是新指令的加入,目前新指令可以提高整個(gè)執(zhí)行過(guò)程的性能、效能和密度。第三則是亂序執(zhí)行窗口方面,Neoverse V1的亂序執(zhí)行窗口相比Neoverse N1直接翻倍,達(dá)到了256條目,還附帶了壓縮設(shè)計(jì)。值得一提的是,Neoverse V1的ROB條目可執(zhí)行數(shù)量實(shí)際上已經(jīng)超越了Cortex-X1,后者的ROB條目只有224個(gè)。在并行性方面,Neoverse V1還增加了指令和內(nèi)存方面的并行性。最后則是整個(gè)中核執(zhí)行部分的加強(qiáng),包括分支指令執(zhí)行部分從1個(gè)提升至2個(gè),ALU從之前的3個(gè)提升至4個(gè),新引入復(fù)雜ALU,可以執(zhí)行復(fù)雜計(jì)算。ARM宣稱針對(duì)中核整數(shù)部分的改進(jìn),可以帶來(lái)25%的性能提升。

在浮點(diǎn)計(jì)算方面,由于SEV的引入,中核部分也發(fā)生了很大的變化。Neoverse V1借助SEV指令集,可以執(zhí)行2x256bi t的浮點(diǎn)計(jì)算,也可以執(zhí)行4x128bit的浮點(diǎn)計(jì)算—這是NENO的規(guī)格。另外Neoverse V1還大幅度加強(qiáng)了機(jī)器學(xué)習(xí)的性能,它的2個(gè)SEV單元能夠支持包括bF16,int8在內(nèi)的機(jī)器學(xué)習(xí)常用數(shù)據(jù)格式,大大提高了整個(gè)內(nèi)核在機(jī)器學(xué)習(xí)和推理方面的能力。如果在矢量計(jì)算中,Neoverse V1每周期性能可以達(dá)到16、32、128、256,相比此前的產(chǎn)品整體效能大幅提升。

最后再來(lái)看看后端的設(shè)計(jì)。Neoverse V1的后端主要是增加了更多的帶寬和智能功能。其采用了第三代LDAGU流水線設(shè)計(jì),整體性能相比前代產(chǎn)品增加了50%。另外LD和ST數(shù)據(jù)帶寬也有顯著提升,其中LD部分帶寬提升至3x16B,提升幅度為50%。新增的LD(SEV)部分每周期可移植性2x32B的數(shù)據(jù)操作,ST部分從之前的每周期16B提升至每周期32B。其余改變還包括更大的LD/ST緩沖區(qū),新加入的內(nèi)存級(jí)并行和分布式結(jié)構(gòu)。在未完成的外部?jī)?nèi)存事務(wù)條目方面,從之前的48提升至了96,這帶來(lái)了更好的延遲容忍。MMU部分也從之前的1.2K條目提升至2K條目,提升了67%。ARM的數(shù)據(jù)顯示,后端部分帶寬的改進(jìn)帶來(lái)了45%的性能提升。

后端的L2部分,Neoverse V1也進(jìn)行了優(yōu)化。L2延遲在1MB塊內(nèi)降低到了1個(gè)周期,之前的架構(gòu)則需要10個(gè)周期才能夠完成操作,此外還包括額外的數(shù)據(jù)預(yù)取覆蓋和新的L2替換政策。在可伸縮性和效能改進(jìn)方面,Neoverse V1應(yīng)用了動(dòng)態(tài)拾取功能。這個(gè)功能主要是適應(yīng)系統(tǒng)變化并優(yōu)化不同的系統(tǒng)(包括延遲、帶寬、擁塞),帶來(lái)更好的公平性并提高整體吞吐量等,尤其是在減少L2互聯(lián)流量方面起到了重要的作用。另外,Neoverse V1還引入了新的時(shí)間預(yù)取器,它能夠隨著時(shí)間的推移,鎖定任意訪問(wèn)模式并識(shí)別相同模式的后續(xù)數(shù)據(jù),直接將后續(xù)數(shù)據(jù)拉入計(jì)算流程。經(jīng)過(guò)上述改進(jìn),其降低了15% L2或者SLC的填充時(shí)間,減少了50%的L2數(shù)據(jù)流量,這能很有效地改善處理器內(nèi)部的數(shù)據(jù)使用效率,提升整個(gè)架構(gòu)的效能。

Neoverse V1的平臺(tái):增強(qiáng)的電源管理和平臺(tái)管理機(jī)制

Neoverse V1在整個(gè)處理器平臺(tái)的特性方面也做出了很多改進(jìn)。它能夠支持MPAM或者M(jìn)ax Power MitigationMechanism(最大功耗緩解機(jī)制)。這個(gè)技術(shù)是一個(gè)新細(xì)粒度(大約100個(gè)時(shí)鐘周期)的電源管理機(jī)制,可以平滑內(nèi)核的電源行為,使得平臺(tái)電源供應(yīng)商不需要考慮最惡劣的電源供應(yīng)情況,并且允許所有的處理器核心以最高頻率運(yùn)行。在這種情況下,ARM還提供了三種電源配置方案,分別針對(duì)節(jié)流功耗、節(jié)流帶寬和矢量負(fù)載、節(jié)流矢量和浮點(diǎn)負(fù)載這三種情況。

相比x86處理器在最大TDP下進(jìn)行頻率波動(dòng)不同的是,ARM的處理器更愿意在更多時(shí)間內(nèi)保持最高頻率,但是實(shí)際的功耗則是遠(yuǎn)低于T D P功耗,這就需要使用MPAM這類技術(shù)來(lái)將部分內(nèi)核模塊節(jié)流以盡可能高地提高處理器的頻率。在一般產(chǎn)品中,實(shí)現(xiàn)這個(gè)目標(biāo)的方法還包括微架構(gòu)內(nèi)部的調(diào)度節(jié)流,核心減慢調(diào)度指令速度來(lái)平滑具有高執(zhí)行周期的工作負(fù)載中的高功率需求,尤其是在加入了SEV指令集的情況下。

在MPAM加入后,Neoverse V1可以在更大的系統(tǒng)范圍內(nèi)進(jìn)行統(tǒng)籌和交互,比如多個(gè)VM負(fù)載或者進(jìn)程在同一個(gè)系統(tǒng)上運(yùn)行的時(shí)候,內(nèi)存分區(qū)和監(jiān)控功能有助于提高服務(wù)質(zhì)量并降低進(jìn)程之間的干擾。不過(guò)這些功能需要軟硬件合作和實(shí)施,一旦成功,能夠?yàn)樵朴?jì)算等場(chǎng)合帶來(lái)非常顯著的效能提升。

再來(lái)看看Neoverse V1的CBusy功能,所謂CBusy是指Completer Busy,在這個(gè)功能中,CPU內(nèi)核在基于反饋的基礎(chǔ)上,和整個(gè)片上網(wǎng)格交互連接,CPU可以根據(jù)整體片上網(wǎng)格情況和系統(tǒng)內(nèi)存負(fù)載改變內(nèi)存預(yù)取器的優(yōu)先級(jí)。這個(gè)功能和前文介紹的動(dòng)態(tài)預(yù)取功能相關(guān),可以實(shí)現(xiàn)兩全其美的性能提升:要么在帶寬可用的情況下更好地預(yù)取提高每個(gè)內(nèi)核的性能,要么在系統(tǒng)高負(fù)載下進(jìn)行保守的預(yù)取來(lái)確保數(shù)據(jù)傳輸?shù)膸?。ARM宣稱這個(gè)功能設(shè)計(jì)可以帶來(lái)15%的性能提升。

首個(gè)企業(yè)級(jí)Armv9指令集架構(gòu):Neoverse N2

接下來(lái),我們?cè)賮?lái)看看NeoverseN 2的平臺(tái)和微架構(gòu)的相關(guān)內(nèi)容。Neoverse N2是首個(gè)企業(yè)級(jí)的、采用Armv9指令集的微架構(gòu)。和NeoverseV1有所不同的是,Neoverse N2并不是追求極端性能的微架構(gòu),而是面向平衡的P PA的產(chǎn)品,也就是在面積、性能和功耗之間取得最佳的平衡。

從架構(gòu)設(shè)計(jì)來(lái)看的話,NeoverseN2和Neoverse N1有一定的繼承關(guān)系。Neoverse N2的設(shè)計(jì)目標(biāo)是為面向云計(jì)算到邊緣計(jì)算的設(shè)備,提供更好的可伸縮性和每瓦特性能,滿足電力和空間的限制等。

Neoverse N2擁有三大新的特性,包括IPC提升40%從而帶來(lái)性能大躍進(jìn)、全面的架構(gòu)升級(jí)以及增強(qiáng)的伸縮性等。更具體來(lái)看的話,Neoverse N2采用了基于Armv9的全新微架構(gòu),全面提升了性能和真實(shí)服務(wù)器場(chǎng)合的性能負(fù)載、PPA和Neoverse N1維持基本不變,同時(shí)還帶來(lái)了更好的每瓦特性能。

在具體架構(gòu)細(xì)節(jié)方面,ARM沒(méi)有給出太多內(nèi)容。不過(guò)ARM宣稱NeoverseN2的前端采用了5發(fā)射設(shè)計(jì),其ROB條目只有160余條,相比NeoverseV1的256條目要減少不少,此外還支持2x128b的SVE、NENO和浮點(diǎn)計(jì)算等。從這些內(nèi)容可以看出,NeoverseN2的確是一個(gè)面向PPA最優(yōu)化的微架構(gòu),并不像NeoverseV1那樣追求極致性能。

另外在“智能”方面,ARM宣稱Neoverse N2繼承了很多Neoverse N1的“智能”功能,包括智能的分支預(yù)測(cè)、智能的數(shù)據(jù)預(yù)取、智能的替換策略等。另外,Neoverse N2的前端設(shè)計(jì)和Neoverse V1非常接近,比如都有增強(qiáng)的分支預(yù)測(cè)部分,同時(shí)都引入了Mop緩存,不過(guò)Neoverse N2的Mop緩存只支持1.5K的條目,相比Neoverse V1的3K條目要少不少。

在電源管理方面,Neoverse N2類似Neoverse V1的加強(qiáng)版本。ARM宣稱Neoverse N2可以根據(jù)工作負(fù)載改變CPU微架構(gòu),以便在不影響性能的前提下降低功耗等。

總的來(lái)說(shuō),由于Neoverse N2發(fā)布的時(shí)候Armv9指令集還未上市,因此ARM對(duì)其沒(méi)有太多介紹。從它的性能和特性來(lái)說(shuō),重點(diǎn)關(guān)注的主要是40%的IPC提升和PPA最優(yōu)化設(shè)計(jì),這一點(diǎn)究竟是如何做到的,本刊還將繼續(xù)關(guān)注。

NeoverseV1和NeoverseN2的性能預(yù)測(cè)

了解了Neoverse V1和Neoverse N2的架構(gòu)內(nèi)容之后,接下來(lái)就是大家最關(guān)心的性能、面積和功耗等信息。我們先回顧一下ARM之前在Neoverse N1上做出的性能預(yù)測(cè)和最終的實(shí)際性能情況。

ARM在2019年發(fā)布了N eover seN1,當(dāng)時(shí)ARM給出的性能參數(shù)指標(biāo)是Neoverse N1的核心在2.6GHz~3.1GHz頻率下,搭配512K B或者1M B L2緩存,使用臺(tái)積電7n m工藝,核心面積大約在1.12mm2~1.4mm2,功耗大約在1.0~1.8W,在64核心的配置下可以在SPECint_2017測(cè)試中獲得190分的成績(jī),功耗控制在大約105W左右。而在實(shí)際產(chǎn)品實(shí)現(xiàn)上,其芯片的面積和預(yù)測(cè)值大約有10%的偏差,最終性能也達(dá)到了預(yù)測(cè)的要求。

以此來(lái)分析Neoverse V1的話,它可以在頻率以及其他配置和NeoverseN1相同的情況下,I P C提升48%,或者達(dá)到Neoverse N1 1.5倍的性能。在能耗比方面,Neoverse V1的性能功耗比實(shí)際上是Neoverse N1的0.7倍到1倍,最終能耗數(shù)值應(yīng)該是NeoverseN1的1.5倍到2.4倍,這是非常重要的數(shù)據(jù)。在芯片面積方面,Neoverse V1是Neoverse N1的1.7倍,這和前述的Neoverse V1核心規(guī)模更大直接相關(guān)。ARM還展示了采用Neoverse V1架構(gòu)的芯片參考設(shè)計(jì)。比如在5n m工藝下?lián)碛?6個(gè)內(nèi)核,頻率2.7GHz。雖然Neoverse V1的微架構(gòu)本身可以提升至更高的頻率,但是實(shí)際上擁有超多內(nèi)核的產(chǎn)品受限于功耗,將導(dǎo)致其很難達(dá)到更高的頻率,需要做出平衡。

目前,已經(jīng)有廠商采用NeoverseV1推出具體產(chǎn)品,比如SiPearl的Rhea芯片,它使用了臺(tái)積電的N6工藝(7nm工藝的改進(jìn)版本),擁有72個(gè)NeoverseV1核心,相比官方方案,Rhea芯片的內(nèi)核數(shù)量大幅度提升,這意味著如果SiPearl想讓其達(dá)到官方設(shè)定的頻率的話,那么TDP功耗就會(huì)大幅度提升。因此,相比目前頂級(jí)的80核心Altra芯片,Rhea芯片保持在250W以內(nèi)的TDP是非常困難的。

接下來(lái)再看Neoverse N2,相比Neoverse V1,Neoverse N2實(shí)際上是一個(gè)更“合適”的設(shè)計(jì),如果企業(yè)不追求最后那10%的極限性能的話—因?yàn)镹eoverse N2相比Neoverse V1只損失了大約10%的IPC,且其目標(biāo)功耗值僅為Neoverse N1的1.45倍,因此其性能功耗比應(yīng)該是Neoverse N1的0.96倍。面積方面,Neoverse N2則是Neoverse N1的1.3倍。

一般來(lái)說(shuō),Neoverse N2的性能似乎相比Neoverse N1是線性增加的,當(dāng)然功率也是這樣。雖然在性能功耗比方面來(lái)說(shuō)并不是很好的改進(jìn),但這種情況往往意味著在頻率和最終性能目標(biāo)方面,Neoverse N2需要更先進(jìn)的工藝節(jié)點(diǎn),以便實(shí)際使用微架構(gòu)的企業(yè)能夠?qū)崿F(xiàn)相關(guān)功能并帶來(lái)更為顯著的IPC和性能改進(jìn)。

不過(guò)實(shí)際產(chǎn)品設(shè)計(jì)需要考慮更多的因素,比如Ampere Altra,在這款產(chǎn)品上很多CPU核心都沒(méi)有被充分利用,因此整個(gè)芯片甚至運(yùn)行在TDP功耗之下。如果Neoverse N2的架構(gòu)能夠在這種工作負(fù)載中提高性能的話,并且能夠?qū)崿F(xiàn)更高的效率,即使不考慮工藝方面的因素,Neoverse N2的使用也意味著性能的提升。

此外,在絕對(duì)IPC提升方面,ARM還給出了更多的性能數(shù)據(jù)。對(duì)于Neoverse V1而言,IPC的改進(jìn)中位數(shù)大約在50%左右,在SPEC CPU測(cè)試中基本上能夠達(dá)到這個(gè)數(shù)字。ARM還特別強(qiáng)調(diào),如果應(yīng)用能夠很好地使用SVE或者加寬的矢量執(zhí)行寬度的話,那么性能提升還會(huì)更為顯著,ARM給出的數(shù)據(jù)是100%~125%的提升幅度。

相比之下,Neoverse N2的IPC性能增幅中位數(shù)為32%,SPEC CPU性能測(cè)試的增幅約為40%,如果是頂級(jí)方案,那么IPC增幅也能夠超過(guò)50%,不過(guò)相比Neoverse V1還是略遜一籌。

最后,ARM還展示了NeoverseN2、NeoverseN1和NeoverseV1的SPECCPU2017的測(cè)試數(shù)據(jù)估計(jì)值??梢钥闯?,NeoverseN2相比NeoverseN1的改進(jìn)是比較均勻的,一般都在20%~50%之間,只有少數(shù)例外。相比之下NeoverseV1的性能增幅更為明顯一些。不過(guò)在部分測(cè)試中,NeoverseV1的性能是不如NeoverseN2的,主要是因?yàn)镹eoverseN2是新的微架構(gòu),采用的是Armv9指令集,相比之下NeoverseV1更老一些,部分優(yōu)化特性只有NeoverseN2才有,因此NeoverseN2在這部分實(shí)現(xiàn)了反超。

CMN-700 Mesh架構(gòu):更大、更靈活

ARM在5年前發(fā)布了CMN-600互聯(lián)網(wǎng)絡(luò)架構(gòu),這是ARM構(gòu)建片上SoC的基礎(chǔ)架構(gòu),ARM在之前也對(duì)其進(jìn)行了更新,比如r2版本引入了更大的緩存和CCIX功能等。

現(xiàn)在,ARM終于發(fā)布了全新的CMN-700Mesh架構(gòu),它具有了全新的可擴(kuò)展性、更強(qiáng)的性能以及靈活性等。相比前代產(chǎn)品,CMN-700極大地?cái)U(kuò)展了片上SoC可以擁有的核心數(shù)量、緩存容量、節(jié)點(diǎn)數(shù)量、內(nèi)存支持以及接口等,使得廠商能夠更容易地設(shè)計(jì)出核心數(shù)量更多以及性能更強(qiáng)的SoC產(chǎn)品。

CMN-700支持最多單個(gè)處理器擁有最多256個(gè)內(nèi)核,整個(gè)系統(tǒng)擁有最多512個(gè)內(nèi)核,這個(gè)數(shù)量是上代CMN-600產(chǎn)品的4倍。此外,片上系統(tǒng)緩存(SystemLevelCache,簡(jiǎn)稱為SLC)的容量也從之前的最大128MB提升至512MB,節(jié)點(diǎn)數(shù)量提升至最多12x12也就是144個(gè),每個(gè)核心的內(nèi)存接口數(shù)量提升至最多40個(gè),CCIX設(shè)備接口的數(shù)量提升至每核心32個(gè)。

雖然最大內(nèi)核數(shù)量增加至256個(gè),不過(guò)這256個(gè)核心也需要通過(guò)128個(gè)RN-F節(jié)點(diǎn)實(shí)現(xiàn),每個(gè)節(jié)點(diǎn)通過(guò)CAL(ComponentAggregationLayer)來(lái)實(shí)現(xiàn)2個(gè)核心布局。ARM此前也曾經(jīng)有過(guò)類似的配置,比如CMN-600最多只支持64個(gè)核心,但實(shí)際上最終產(chǎn)品擁有80個(gè)核心。ARM也提到,64個(gè)核心是指最多可以連接到RN-F的原生核心,如果用戶通過(guò)CAL或者DSU(DynamiQ共享單元)連接,則可以容納更多的核心。雖然Ampere公司從未解釋過(guò)他們是如何布局更多核心的,但是ARM的解釋?xiě)?yīng)該是實(shí)現(xiàn)更多核心的唯一路徑。

除了128個(gè)RN-F之外,CMN-700還支持最多128個(gè)HN-F主節(jié)點(diǎn),也就是系統(tǒng)級(jí)緩存所在的節(jié)點(diǎn)。ARM宣稱每個(gè)芯片的最大緩存可達(dá)512MB,也就是個(gè)每節(jié)點(diǎn)4MB。相比之下,上代產(chǎn)品也就是CMN-600只支持最多128MB,這和ARM之前公布的設(shè)計(jì)手冊(cè)內(nèi)容存在矛盾,比如ARM曾提到在64個(gè)節(jié)點(diǎn)上每個(gè)節(jié)點(diǎn)最多可以容納4MB的緩存,最多可以容納256MB。有關(guān)這里的矛盾,ARM還沒(méi)有給出更多的解釋。

無(wú)論如何,考慮到緩存高昂的成本和巨大的面積,一般來(lái)說(shuō)用戶不會(huì)在自己的產(chǎn)品中使用如此巨大的緩存。比如目前的Graviton2和AltraQ芯片在其網(wǎng)狀設(shè)計(jì)中只有32MB的SLC。除了緩存容量外,在Mesh架構(gòu)中的HN-F節(jié)點(diǎn)還包含尺寸較大的Snoop過(guò)濾器緩存。ARM公司宣稱,在通常情況下,Snoop過(guò)濾器至少需要1.5倍于核心的聚合獨(dú)占緩存大小,這意味著如果有80個(gè)核心,每個(gè)核心1MBL2緩存,除了32MB的SLC緩存外,至少在Mesh網(wǎng)絡(luò)上需要120MB的Snoop過(guò)濾器緩存。這就解釋了為什么AMD的SLC緩存比較小,因?yàn)锳MD使用L2的影子標(biāo)簽來(lái)實(shí)現(xiàn)一致性,IOD核心則使用CCD的L3緩存的影子標(biāo)簽。相比之下,ARM在這里的設(shè)計(jì)顯得面積效率不高。

另外,Mesh結(jié)構(gòu)中最大的內(nèi)存控制器,也就是CHISN-F節(jié)點(diǎn)已經(jīng)從16個(gè)端口大幅度增加到40個(gè)端口。因?yàn)锳RM設(shè)想在這些新的設(shè)計(jì)中采用更廣泛的混合內(nèi)存系統(tǒng)結(jié)構(gòu)和設(shè)計(jì)方案。CCI X端口也從之前的4個(gè)增加至32個(gè),這對(duì)一些分散部署的小芯片方案來(lái)說(shuō)至關(guān)重要。

再來(lái)看看內(nèi)存方面。CMN-700現(xiàn)在不僅允許最終產(chǎn)品增加更多的DDR內(nèi)存控制器,還會(huì)集成HBM內(nèi)存。比如前文提到的R h ea芯片,使用了4個(gè)HBM2E堆棧和4~6個(gè)DDR內(nèi)存控制器。CMN-700的特點(diǎn)是能夠處理此類內(nèi)存并正確管理跨異構(gòu)內(nèi)存架構(gòu)的流量和帶寬。

ARM表示Mesh結(jié)構(gòu)中的橫截面帶寬增加了三倍,這是通過(guò)更高的Mesh頻率實(shí)現(xiàn)的。不僅如此,CMN-700允許節(jié)點(diǎn)之間的網(wǎng)格通道加倍。Mesh通道依舊采用了256b寬度,帶有專用的讀寫(xiě)端口,所以雙倍設(shè)計(jì)則是每個(gè)方向都可以實(shí)現(xiàn)2x256b的帶寬。目前Mesh網(wǎng)絡(luò)的頻率大約是2GHz,雙通道的12x12網(wǎng)絡(luò)將帶來(lái)3TB/s的橫截面帶寬。在整個(gè)界面路由方面,目前這一代只支持2D路由。

最后再來(lái)看看有關(guān)CCIX 2.0的內(nèi)容。CCIX 2.0對(duì)于未來(lái)的多芯片和多插座設(shè)計(jì)非常重要,因?yàn)樗试S不使用PCIe交易層和物理層,轉(zhuǎn)而采用更封閉的通用鏈接層和PHY。這主要是為了避免上一代類似設(shè)計(jì)的缺陷,那就是在多插座系統(tǒng)中要跨越所有不同的層和協(xié)議,將帶來(lái)巨大的延遲懲罰。現(xiàn)在,CMN-700和CCIX 2.0連接有望解決那些非常高的延遲。值得注意的是,ARM現(xiàn)在的方案仍然需要在AMBA CHI和CCIX 2.0之間進(jìn)行轉(zhuǎn)換,雖然它比我們?cè)贑CIX 1.1實(shí)現(xiàn)中看到的表現(xiàn)要好得多,但它的性能可能仍然比不上英特爾和A M D解決方案中的完全本地協(xié)議處理。

最終的性能預(yù)測(cè)

最后我們來(lái)看看ARM針對(duì)Neoverse N2和Neoverse V1做出的最終實(shí)現(xiàn)預(yù)測(cè)。該預(yù)測(cè)和之前單純的理論推測(cè)不同,和實(shí)際產(chǎn)品相關(guān),比如采用的工藝或者最終頻率、性能等。

ARM給出第一個(gè)關(guān)鍵信息是,如果采用臺(tái)積電5nm工藝制造的話,NeoverseN2的最終實(shí)現(xiàn)面積、功率等應(yīng)該和采用臺(tái)積電7nm工藝制造的NeoverseN1基本相當(dāng),但是IPC性能提升了40%,頻率提升了10%。當(dāng)然,在這里需要臺(tái)積電實(shí)現(xiàn)N5相當(dāng)于N7工藝40%的功耗降低目標(biāo),這個(gè)目標(biāo)定得非常高,因?yàn)楝F(xiàn)在N5工藝的產(chǎn)品比如蘋(píng)果A14或者華為海思麒麟9000,和N7P相比,采用N5的它們僅僅帶來(lái)了10%的功率優(yōu)勢(shì),即使是N7P比N7有15%的優(yōu)勢(shì),也意味著N5只有26%的優(yōu)勢(shì),這顯然還不能滿足NeoverseN2的需求。

不過(guò)ARM也宣稱,即使到現(xiàn)在,Neoverse N1的部分效能和功能都沒(méi)有完全發(fā)揮,ARM希望累積更多的經(jīng)驗(yàn)和實(shí)踐,以便在下一代N5節(jié)點(diǎn)上實(shí)現(xiàn)更出色的性能和效能。

ARM還給出了一些數(shù)據(jù)用于對(duì)比NeoverseN2、NeoverseV1與“傳統(tǒng)”處理器的性能,所謂的“傳統(tǒng)”處理器是指24核心的至強(qiáng)8268和64核心的EPYC7742。另外,ARM還評(píng)估了2021年“傳統(tǒng)”處理器可以達(dá)到的性能,給出的參照物是40核心的IceLake和64核心的EPYC7003。ARM的數(shù)據(jù)顯示,在更多核心的情況下,NeoverseV1和NeoverseN2都能帶來(lái)顯著高于這些產(chǎn)品的性能。

另外,在單線程性能方面,ARM也給出一些評(píng)估,其認(rèn)為Neoverse內(nèi)核的性能是高于“傳統(tǒng)”核心的。不過(guò)ARM的數(shù)據(jù)考察的是在云環(huán)境下,這種情況下處理器運(yùn)行在虛擬CPU的模式下,AMD和英特爾SMT的設(shè)計(jì)自然會(huì)在性能上表現(xiàn)沒(méi)那么出色。不過(guò)在實(shí)際應(yīng)用中,很多云供應(yīng)商并不區(qū)分虛擬CPU環(huán)境中的真實(shí)CPU核心和SMT核心,因此Amazon的Gravition2m6g實(shí)例在性能功耗比、性能線程等方面遠(yuǎn)遠(yuǎn)優(yōu)于AMD和英特爾產(chǎn)品。

總的來(lái)看,ARM在Neoverse N2和Neoverse V1的架構(gòu)設(shè)計(jì)上還是值得期待的,唯一的問(wèn)題就是在5nm工藝下它能否達(dá)到如此高的性能功耗比提升,因?yàn)檫@關(guān)乎ARM新一代產(chǎn)品最終的效能。

猜你喜歡
功耗內(nèi)存條目
“春夏秋冬”的內(nèi)存
《詞詮》互見(jiàn)條目述略
Can we treat neurodegenerative diseases by preventing an age-related decline in microRNA expression?
揭開(kāi)GPU功耗的面紗
數(shù)字電路功耗的分析及優(yōu)化
電子制作(2016年19期)2016-08-24 07:49:54
“功耗”說(shuō)了算 MCU Cortex-M系列占優(yōu)
電子世界(2015年22期)2015-12-29 02:49:44
IGBT模型優(yōu)化及其在Buck變換器中的功耗分析
基于內(nèi)存的地理信息訪問(wèn)技術(shù)
對(duì)縣級(jí)二輪修志采用結(jié)構(gòu)體式的思考
黑龍江史志(2010年4期)2010-08-15 00:46:01
上網(wǎng)本為什么只有1GB?
威信县| 金门县| 旬阳县| 黔东| 双柏县| 安乡县| 抚远县| 三台县| 巴彦淖尔市| 雷波县| 克山县| 东安县| 杂多县| 东海县| 屯昌县| 英吉沙县| 阿拉善右旗| 临沭县| 衡东县| 大关县| 峨边| 稻城县| 织金县| 平安县| 沽源县| 东海县| 津南区| 玉林市| 铜鼓县| 平湖市| 惠水县| 万安县| 深水埗区| 孟州市| 昭苏县| 和林格尔县| 富源县| 靖宇县| 武陟县| 桐柏县| 益阳市|