国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

更多核心,更高效率 英特爾全新第三代至強(qiáng)可擴(kuò)展處理器解讀

2021-06-20 08:58徐昌宇袁怡男
微型計(jì)算機(jī) 2021年10期
關(guān)鍵詞:指令集英特爾內(nèi)存

徐昌宇 袁怡男

英特爾在企業(yè)級(jí)處理器產(chǎn)品市場(chǎng)上擁有非常明顯的優(yōu)勢(shì)地位,即使是在最近幾年AMD發(fā)布Zen 2、Zen 3架構(gòu)的相關(guān)服務(wù)器處理器產(chǎn)品之后,這種優(yōu)勢(shì)地位依舊很穩(wěn)固。這是因?yàn)橛⑻貭柕钠髽I(yè)級(jí)解決方案是建立在一整套面向企業(yè)用戶(hù)的解決方案之上,擁有非常深的技術(shù)護(hù)城河。2021年4月,英特爾發(fā)布了最新面向雙路市場(chǎng)的第三代至強(qiáng)可擴(kuò)展處理器,其全新的生產(chǎn)工藝、新增的功能技術(shù)以及平臺(tái)的整體情況,都值得我們進(jìn)一步了解。

英特爾在2021年4月7日發(fā)布了全新的第三代至強(qiáng)可擴(kuò)展處理器的雙路型號(hào)。相比之前發(fā)布的14nm制程、面向四路和八路市場(chǎng)的CooperLake系列處理器,新的Ice Lake-SP僅面向單路和雙路市場(chǎng),因此更為主流,也更受普通企業(yè)和行業(yè)用戶(hù)關(guān)注。雖然定位不同,其擴(kuò)展能力相比四路和八路產(chǎn)品存在差異,但從產(chǎn)品和規(guī)格角度來(lái)看,全新的第三代至強(qiáng)可擴(kuò)展處理器由于涉及制程、核心架構(gòu)和規(guī)格的變化,堪稱(chēng)英特爾近幾年至強(qiáng)可擴(kuò)展系列處理器中變化最大的一代。(若無(wú)特殊說(shuō)明,下文所指的第三代至強(qiáng)可擴(kuò)展處理器均為最新發(fā)布的10nm 工藝的雙路型號(hào)。)

綜述:第三代至強(qiáng)可擴(kuò)展處理器的功能、特性

根據(jù)英特爾的介紹,第三代至強(qiáng)可擴(kuò)展處理器采用10nm工藝制造、最大核心數(shù)量從前代產(chǎn)品的28個(gè)提升至40個(gè);全新的Sunny Cove架構(gòu)帶來(lái)了大約20%的IPC提升;綜合性能大約是上代產(chǎn)品的1.46倍(整數(shù)、浮點(diǎn)Stream TRIAD和Linpack測(cè)試的平均值)、AI性能大約是上代產(chǎn)品的1.74倍;和5年前的產(chǎn)品相比,綜合性能大約是其2.56倍。

在功能方面,第三代至強(qiáng)可擴(kuò)展處理器是目前唯一的、面向數(shù)據(jù)中心市場(chǎng)且擁有AI加速計(jì)算能力的處理器產(chǎn)品(支持Deep Learning Boost功能),并且還帶來(lái)包括安全特性、SpeedSelect、AVX-512以及英特爾OneAPI在內(nèi)的諸多功能。內(nèi)存方面,新處理器最高支持6TB內(nèi)存、每顆處理器最高可支持8個(gè)插槽,內(nèi)存容量是上代產(chǎn)品的2.6倍、支持最多64個(gè)PCIe4.0通道,支持傲騰內(nèi)存、傲騰SSD以及SSD產(chǎn)品,支持英特爾80系列網(wǎng)絡(luò)設(shè)備以及英特爾Agilex FPGA加速等。

根據(jù)不同目標(biāo)市場(chǎng),英特爾宣稱(chēng)第三代至強(qiáng)可擴(kuò)展處理器的相關(guān)性能分別是:云計(jì)算綜合性能是前代產(chǎn)品(下同)的1.5倍、5G領(lǐng)域則是1.62倍、IoT市場(chǎng)是1.56倍、HPC是1.57倍、AI計(jì)算高達(dá)1.74倍。英特爾特別提到了AI計(jì)算性能,在英特爾設(shè)定的對(duì)比條件下,在圖像識(shí)別性能上,新處理器是AMD EPYC 7763 (64核心、Zen 3架構(gòu))的25倍,甚至在20個(gè)比較主流的AI和ML工作負(fù)載中,第三代至強(qiáng)可擴(kuò)展處理器的性能可達(dá)AMD EPYC7763的1.5倍,甚至是英偉達(dá)A100 GPU的1.3倍。軟件方面,英特爾提到利用TensorFlow架構(gòu)優(yōu)化ResNet50模型后,新的處理器性能提升了10倍;利用Scikit-Learn優(yōu)化SVC/kNN后,新的處理器性能提升了高達(dá)100倍等。

在安全特性方面,英特爾在2013年就推出了名為SGX (SoftwareGuard eXtensions,軟件保護(hù)擴(kuò)展)的軟件保護(hù)解決方案,并一直在業(yè)內(nèi)不斷地推廣和應(yīng)用這個(gè)擴(kuò)展平臺(tái)的相關(guān)技術(shù),目前已經(jīng)有數(shù)百家企業(yè)采用SGX相關(guān)技術(shù)進(jìn)行數(shù)據(jù)保護(hù)和安全控制。在新的第三代至強(qiáng)可擴(kuò)展處理器上,英特爾帶來(lái)兩個(gè)全新的技術(shù)用于加強(qiáng)安全性,一個(gè)是全內(nèi)存加密技術(shù),可以實(shí)現(xiàn)內(nèi)存的批量加密,從而對(duì)整個(gè)內(nèi)存空間起到保護(hù)作用。另一個(gè)則是平臺(tái)固件恢復(fù)技術(shù),用于防御和維護(hù)底層固件,提高系統(tǒng)安全性。在筆者將英特爾透露的基本綜述部分梳理清楚后,接下來(lái)本文將進(jìn)一步深入分析第三代至強(qiáng)可擴(kuò)展處理器架構(gòu)的相關(guān)內(nèi)容。

面向服務(wù)器和數(shù)據(jù)中心設(shè)計(jì):第三代至強(qiáng)可擴(kuò)展處理器架構(gòu)解讀

作為面向服務(wù)器和數(shù)據(jù)中心的產(chǎn)品,第三代至強(qiáng)可擴(kuò)展處理器在設(shè)計(jì)方面和普通的民用處理器存在很大差異。比如針對(duì)服務(wù)器方面,英特爾就需要針對(duì)標(biāo)量、數(shù)據(jù)并行、低延遲高帶寬、芯片上的節(jié)點(diǎn)選擇和調(diào)配上進(jìn)行優(yōu)化。因?yàn)獒槍?duì)數(shù)據(jù)中心,需要對(duì)性能一致性、數(shù)據(jù)計(jì)算的彈性以及高效率等方面進(jìn)行優(yōu)化。

有鑒于此,英特爾在第三代至強(qiáng)可擴(kuò)展處理器上主要對(duì)4個(gè)方面做出優(yōu)化。一是在微架構(gòu)方面,采用全新的Sunny Cove架構(gòu),同時(shí)加入新的ISA指令集。二是在內(nèi)存方面,英特爾針對(duì)企業(yè)越來(lái)越高的內(nèi)存帶寬需求,對(duì)處理器的內(nèi)存控制器設(shè)置進(jìn)行了比較重大的改革。三是在I/0方面,英特爾將本代處理器升級(jí)至支持64通道PCIe 4.0總線(xiàn),相比上代產(chǎn)品大幅提升了外部IO帶寬。最后則是處理器內(nèi)部和外部的擴(kuò)展方面,英特爾通過(guò)擴(kuò)展獨(dú)特的Mesh架構(gòu),保證了緩存、內(nèi)存和內(nèi)核之間的延遲保持平均和一致。

英特爾給出了簡(jiǎn)單的雙路IceLake-SP處理器的雙路搭配的架構(gòu)圖。從圖中可以看出,雙路處理器分別通過(guò)三個(gè)UPI通道實(shí)現(xiàn)互聯(lián),每個(gè)處理器都擁有8個(gè)內(nèi)存通道,每個(gè)通道有2個(gè)DIMM,其中一個(gè)DIMM可以選擇使用傲騰或者DDR4內(nèi)存,另一個(gè)DIMM只能支持DDR4內(nèi)存。處理器通過(guò)DMI總線(xiàn)和代號(hào)為“Lewisburg R”的芯片組進(jìn)行連接。對(duì)雙路系統(tǒng)而言,處理器可以選擇任意一個(gè)和芯片組連接,這可能需要根據(jù)廠商設(shè)計(jì)的情況而定。

計(jì)算微架構(gòu):大幅度升級(jí)的Sunny Cove

英特爾之前的處理器核心微架構(gòu)都和工藝制程捆綁,比如14nm工藝就一直使用Skylake微架構(gòu)。在14nm工藝和Skylake微架構(gòu)鏖戰(zhàn)數(shù)年之后,英特爾終于在2019年發(fā)布了全新的Sunny Cove架構(gòu),并開(kāi)始推動(dòng)微架構(gòu)和工藝制程解綁。最終在2021年得以實(shí)現(xiàn),今年英特爾先是在桌面發(fā)布了第十一代酷睿系列處理器,采用了Sunny Cove微架構(gòu)的14nm版本CypressCove之后,終于將Sunny Cove架構(gòu)引入至強(qiáng)平臺(tái),這也是今天本文談?wù)摰牡谌翉?qiáng)可擴(kuò)展處理器。

由于Sunny Cove微架構(gòu)在本刊之前的文章中介紹過(guò)多次,所以在本文中只做簡(jiǎn)單介紹??偟膩?lái)看,SunnyCove微架構(gòu)在下列四個(gè)方面做出了增強(qiáng):一是前端更高的容量和改進(jìn)的分支預(yù)測(cè);二是執(zhí)行部分更大的分配單元、更大的結(jié)構(gòu)和更多的執(zhí)行資源;三是TLB的增強(qiáng)、單線(xiàn)程執(zhí)行和預(yù)取的增強(qiáng);四是更大的L2緩存和更高的向量吞吐能力。上述所有的改進(jìn)加起來(lái),帶來(lái)了Ice Lake核心相比上代核心大約20%的IPC性能增強(qiáng)。

指令集結(jié)構(gòu):全新指令集加入

在全新的微架構(gòu)之外,是全新計(jì)算體系架構(gòu),這里主要是指英特爾針對(duì)矢量計(jì)算、并行計(jì)算加入的大量全新指令集。其中包括針對(duì)密碼學(xué)、大數(shù)算術(shù)(主要是AVX 512整數(shù)的IFMA操作)、矢量AES和矢量Carry less乘法指令、有關(guān)伽羅華域(Galois Field)的一些新指令集、有關(guān)SHA壓縮和解壓縮的一些指令集以及特殊的SIMD、有關(guān)比特代數(shù)的一些指令集以及VBMI矢量操作的指令集等。

由于這些指令集過(guò)于底層,因此大家不需要太過(guò)于關(guān)心其中的具體內(nèi)容。英特爾給出了一個(gè)比較直觀地對(duì)比就是在采用的新的指令集后,一些具體計(jì)算的加速情況。通過(guò)矢量CLMUL指令集、矢量AES指令集、VPMADD52指令集、SHA擴(kuò)展指令集、GFNI指令集的加持以及相關(guān)軟件和算法的支持, Ice Lake相比Cascade Lake每個(gè)核心能夠帶來(lái)最高5.63倍的性能增幅(RSA Sign 2048)、最低也有1.5倍(ZUC),其余的平均可以帶來(lái)大約3~4倍的增幅,總的來(lái)看,所有10個(gè)測(cè)試最終可以帶來(lái)大約3.264倍的性能提升,這個(gè)幅度已經(jīng)相當(dāng)驚人了。

當(dāng)然,在實(shí)際的最終應(yīng)用中,只是更換硬件平臺(tái)也許暫時(shí)不太可能會(huì)有這么高的提升。但是考慮到目前很多軟件已經(jīng)開(kāi)始支持這些指令集,以及英特爾軟件部門(mén)會(huì)針對(duì)大客戶(hù)做很多優(yōu)化,最終大客戶(hù)應(yīng)該也會(huì)獲得不錯(cuò)的性能收益。后文英特爾還對(duì)此給出了一些數(shù)據(jù)。

提升存儲(chǔ)效率:緩存、內(nèi)存和IO

緩存、內(nèi)存和1O部分的改進(jìn)也是本次第三代至強(qiáng)可擴(kuò)展處理器的重點(diǎn)。英特爾給出的資料顯示,新處理器的共享LLC緩存提升至之前產(chǎn)品的1.5倍,帶來(lái)了新的緩存Hemispheremode模式,這個(gè)模式可以允許CPU對(duì)緩存交錯(cuò)存取,并且將緩存的訪(fǎng)問(wèn)進(jìn)行一定程度的限制,從而起到降低延遲的作用。此外還有一些其他有關(guān)延遲、帶寬和SoC擴(kuò)展的改進(jìn),但是英特爾并未詳細(xì)提及。內(nèi)存方面,目前第三代至強(qiáng)可擴(kuò)展處理器支持8通道DDR4 3200內(nèi)存,在內(nèi)存控制器方面做出了改進(jìn),降低了延遲并提高了帶寬。外部IO方面,第三代至強(qiáng)可擴(kuò)展處理器現(xiàn)在擁有64個(gè)PCIe 4.0通道, CPU之間的UPI鏈路擁有3條,單條速率為11.2GT/s,另外還有一些延遲的降低。

英特爾還給出了有關(guān)第三代至強(qiáng)可擴(kuò)展處理器對(duì)比之前第二代產(chǎn)品的帶寬、延遲的相關(guān)測(cè)試數(shù)據(jù)。一般來(lái)說(shuō),在啟用處理器更多內(nèi)存通道并獲得更高內(nèi)存帶寬的時(shí)候,內(nèi)存的延遲會(huì)顯著提升。但是,在新的第三代至強(qiáng)可擴(kuò)展處理器上,當(dāng)數(shù)據(jù)占用內(nèi)存帶寬的數(shù)值逐漸提升的時(shí)候,相對(duì)應(yīng)的延遲數(shù)值上升幅度要比前代產(chǎn)品的上升幅度更低。非常典型的情況是,當(dāng)至強(qiáng)8280處理器在內(nèi)存帶寬占用率剛剛達(dá)到至強(qiáng)8380處理器大約一半的情況下,其對(duì)應(yīng)的延遲值就上升至300ns,此時(shí)至強(qiáng)8380的延遲僅為約100ns,而最終至強(qiáng)8380在內(nèi)存帶寬翻倍的情況下,延遲也僅僅提升至400ns。另外的一組數(shù)據(jù)帶來(lái)了相似的結(jié)果。這證明英特爾在新一代處理器的緩存、內(nèi)存和I0方面的改善是極其有效的。

英特爾還提及了一些有關(guān)SoC層面的改進(jìn),其中包含無(wú)縫的電源管理架構(gòu)、片上架構(gòu)更改以提高整個(gè)系統(tǒng)的性能一致性以及最重要的緩解了AVX512啟用時(shí)頻率降低的情況。英特爾用Intel Data Plane DevelopmentKit (DPDK) BasicFwd應(yīng)用程序做了測(cè)試,第二代產(chǎn)品的延遲速率大約在21ns左右,在第三代至強(qiáng)可擴(kuò)展處理器上,這個(gè)數(shù)據(jù)降低至大約7~8ns,效果極為顯著。

更低的延遲:緩存和內(nèi)存性能表現(xiàn)

英特爾在第三代至強(qiáng)可擴(kuò)展處理器做了一個(gè)非常巨大的改變,通過(guò)Mesh架構(gòu)將處理器的核心數(shù)量大幅度提升至40個(gè),相比之前產(chǎn)品的28個(gè),大約提升了40%。在同一個(gè)架構(gòu)基礎(chǔ)上提升如此多的核心數(shù)量還是非??鋸埖摹R虼?,本文在下一部分將詳細(xì)研究一下有關(guān)英特爾Mesh架構(gòu)的內(nèi)容。

英特爾在發(fā)布會(huì)上對(duì)新的處理器的Mesh架構(gòu)內(nèi)容頗為語(yǔ)焉不詳,不過(guò)給出了第三代至強(qiáng)可擴(kuò)展處理器和AMD EPYC處理器的相關(guān)延遲情況的對(duì)比。在緩存延遲方面,英特爾表示第三代至強(qiáng)可擴(kuò)展處理器要強(qiáng)于AMD產(chǎn)品,尤其是在L3緩存方面。這個(gè)數(shù)據(jù)非常有意思,大家不妨參考我們列出的表格。

值得注意的是,第三代至強(qiáng)可擴(kuò)展處理器在L1、L2、L3訪(fǎng)問(wèn)上的延遲呈現(xiàn)常態(tài)遞增的狀態(tài),比如其L1和L2緩存的延遲周期略高于AMD EPYC7003系列處理器,但是在L3緩存上卻有兩種極端的情況。AMD處理器在32MB以?xún)?nèi)的數(shù)據(jù)命中延遲上是比英特爾新處理器小得多的,但如果是訪(fǎng)問(wèn)32MB以外的數(shù)據(jù),那么AMD處理器的命中延遲則遠(yuǎn)大于英特爾第三代至強(qiáng)可擴(kuò)展處理器。

此外,如果L3數(shù)據(jù)訪(fǎng)問(wèn)需要跨插座,那么AMD處理器的延遲(本地處理器訪(fǎng)問(wèn)2S系統(tǒng)的其他處理器)也會(huì)大幅度超出英特爾產(chǎn)品。在這里,英特爾給出的L3延遲數(shù)據(jù)可能是參考均值。因?yàn)镸esh架構(gòu)下,英特爾的每一個(gè)處理器核心(Core)都有一個(gè)本地小型L3緩存,但是L3緩存又和Mesh架構(gòu)緊密相連,對(duì)CPU的每一個(gè)Core來(lái)說(shuō),訪(fǎng)問(wèn)自己的L3肯定是最快的,英特爾沒(méi)有說(shuō)明訪(fǎng)問(wèn)遠(yuǎn)距離L3的延遲情況,考慮到Mesh架構(gòu)片上通訊的高效率,我們猜測(cè)這里的延遲應(yīng)該綜合考慮了所有情況。

這里的數(shù)據(jù)不僅僅意味著延遲和控制問(wèn)題,實(shí)際上它代表著AMD和英特爾兩個(gè)廠商在設(shè)計(jì)思路和整體架構(gòu)上的巨大差異。我們?cè)谙挛脑龠M(jìn)一步詳細(xì)解讀。

內(nèi)存方面,英特爾也給出了一些數(shù)據(jù)。這些數(shù)據(jù)顯示AMD的內(nèi)存延遲要比英特爾產(chǎn)品高一些,顯然這是因?yàn)锳MD采用Chiplet架構(gòu),而英特爾的內(nèi)存控制器在Mesh的節(jié)點(diǎn)上,跨插座的話(huà),AMD延遲也會(huì)更大。容量層面,英特爾因?yàn)橹С职硫v,所以可以做到總?cè)萘扛蟆?/p>

深挖: 40核心的Mesh架構(gòu)探秘

英特爾在多核心處理器的架構(gòu)上使用過(guò)數(shù)個(gè)架構(gòu),包括非常有名的環(huán)形總線(xiàn)。其特點(diǎn)是延遲隨著核心數(shù)量提高而提高,因此最終承載核心數(shù)量的能力是有限的。在英特爾的實(shí)際產(chǎn)品中,環(huán)形總線(xiàn)最多承載了28個(gè)核心。如果要進(jìn)一步擴(kuò)展更多核心的話(huà),英特爾發(fā)現(xiàn)需要放棄環(huán)形總線(xiàn),于是后來(lái)改用了網(wǎng)狀總線(xiàn),也就是本文提到的Mesh總線(xiàn)。

英特爾首次使用Mesh總線(xiàn)是在已經(jīng)退市的至強(qiáng)融核處理器中,這種處理器有72個(gè)內(nèi)核,因此環(huán)形總線(xiàn)是不可能為其工作的,在這個(gè)處理器中所有的內(nèi)核溝通都依靠新的Mesh總線(xiàn)。相比環(huán)形總線(xiàn),Mesh總線(xiàn)相當(dāng)于為每一個(gè)處理器核心都增加了所有方向的數(shù)據(jù)溝通接口,形成了一個(gè)網(wǎng)格狀分布,網(wǎng)格的交叉則落點(diǎn)在處理器的單個(gè)核心上。根據(jù)英特爾給出的資料,Mesh總線(xiàn)和整個(gè)SoC架構(gòu)是由不同的功能片(Tile)組成,這些功能片形形色色,包括UPI、PCIe總線(xiàn)控制器、內(nèi)存控制器、DMA和CBDMA、CPU核心以及CHA、SF和LLC等。其中CHA(Caching and Home Agent)是指緩存功能和本地代理, SF (Snoop Filter)是指Snoop過(guò)濾器,LLC (Last Level Cache)是指未級(jí)緩存,也就是L3緩存。

在這里我們可以看到, Mesh架構(gòu)將處理器的每個(gè)核心以“分布式”的方式分散為片,英特爾只需要通過(guò)Mesh架構(gòu)將不同的片組織起來(lái)即可。舉例來(lái)說(shuō),在Mesh架構(gòu)下,通過(guò)一個(gè)CHA/SF/LCC片搭配一個(gè)CPU核心片,就可以組成一個(gè)節(jié)點(diǎn),幾乎包含了一個(gè)處理器除了外部IO以外的所有功能。然后再為這個(gè)節(jié)點(diǎn)設(shè)置好本地CMS (Converged/CommonMesh Stop,信息Mesh站)就可以?huà)旖釉贛esh網(wǎng)絡(luò)中了。CMS主要是用于監(jiān)聽(tīng)、過(guò)濾、接收不同地方的信息,并且還要幫助其他處理器實(shí)現(xiàn)信息的轉(zhuǎn)發(fā)。CMS站直接和處理器的LLC部分連接,并且和自己上方、下方、左方、右方四個(gè)方向的CMS站連接(如果有)。由于這種網(wǎng)絡(luò)連接的形態(tài),外加位于同一芯片上,因此可以實(shí)現(xiàn)非常低的延遲。對(duì)CPU來(lái)說(shuō),在操作上也不需要區(qū)分L3的位置,只需要將需求交給Mesh網(wǎng)絡(luò)即可通過(guò)片上通信高速地轉(zhuǎn)發(fā)和尋找得到信息。

英特爾首次啟用Mesh網(wǎng)絡(luò)是在Skylake-SP處理器上,這款處理器擁有最多28個(gè)核心。為了區(qū)分不同的市場(chǎng)并獲得更好的良率,英特爾將其分為10個(gè)核心以下的LCC產(chǎn)品、18個(gè)核心以下的HCC產(chǎn)品以及擁有28個(gè)核心的XCC產(chǎn)品,所有類(lèi)型的產(chǎn)品都采用的是Mesh網(wǎng)絡(luò)連接。其最大的XCC產(chǎn)品采用6×6的模塊化設(shè)計(jì),頂部6個(gè)單元分別是3個(gè)PCIe控制器片、2個(gè)UPI片、一個(gè)混合了PCIe、DMI和CBDMA功能的混合片。下部的CPU采用6×5設(shè)計(jì),總計(jì)30個(gè)單元,其中2個(gè)單元被內(nèi)存控制器占用,所以最大核心數(shù)為28個(gè)。從Skylake-SP開(kāi)始到上一代Cascade Lake SP,英特爾一直維持這樣的架構(gòu),基本沒(méi)有大的變化。在這種設(shè)計(jì)下,根據(jù)英特爾Mesh通信先豎向查找、后橫向查找的工作模式,最遠(yuǎn)的通路是最左下角的CPU核心至最右上角的PCIe控制器,它們進(jìn)行數(shù)據(jù)傳輸過(guò)程如果包含自己的節(jié)點(diǎn)的話(huà),那么就需要經(jīng)過(guò)11個(gè)節(jié)點(diǎn)。

在最新的第三代至強(qiáng)可擴(kuò)展處理器也就是Ice Lake SP上,英特爾為了擁有更多的核心,擴(kuò)展了Mesh架構(gòu)的布局。全新的Ice Lake SP采用的是8x7結(jié)構(gòu),橫向有8個(gè)片,縱向有7個(gè)片。頂部和最下部包含了所有的IO接口模塊,另外還包含了三個(gè)占位符(Dummy)和4個(gè)處理器核心以及緩存。和上代產(chǎn)品有所不同的是,本代產(chǎn)品的IO功能片分列在整個(gè)Mesh陣列的,上端和下端,這可能是考慮到處理器通訊的便捷性,不用都集中在某一個(gè)方向進(jìn)行數(shù)據(jù)傳輸,降低產(chǎn)生數(shù)據(jù)鏈路熱點(diǎn)的可能性。

Ice Lake SP的CPU core Mesh架構(gòu)的橫向深度最多為8、縱向深度最多為6,從規(guī)格.上來(lái)看的話(huà)是一個(gè)8×6的設(shè)計(jì),相比上代CPU部分6×5(整體為6×6)的設(shè)計(jì)擴(kuò)大了不少。不過(guò)Mesh的特點(diǎn)在于內(nèi)部?jī)蓛苫ヂ?lián),在Ice Lake SP上,Mesh路徑最遠(yuǎn)的通路應(yīng)該是左上角的CPU核心向右下角的PCIe控制器傳遞數(shù)據(jù),整個(gè)傳輸過(guò)程如果包含自己的節(jié)點(diǎn)的話(huà),需要經(jīng)過(guò)13個(gè)節(jié)點(diǎn),比上一代節(jié)點(diǎn)增加了2個(gè),增加的實(shí)際延遲每多一個(gè)節(jié)點(diǎn)大約會(huì)增加10ns左右。而且,由于Ice LakeSP的Mesh架構(gòu)中IO節(jié)點(diǎn)分布在整個(gè)架構(gòu)的上下兩側(cè),所以一般來(lái)說(shuō)CPU核心會(huì)通過(guò)靠近自己的IO片進(jìn)行通訊,因此,相比上代產(chǎn)品,延遲增加也很有限。

英特爾在Ice Lake SP上展示了Mesh架構(gòu)的強(qiáng)大生命力,尤其是進(jìn)步擴(kuò)大芯片規(guī)模后并沒(méi)有增加太多延遲。不過(guò),在Ice Lake SP上,其CPU核心數(shù)量上還是遠(yuǎn)遠(yuǎn)落后于AMDEPCY 7003系列的單顆最高64核心。為什么英特爾不進(jìn)一步擴(kuò)大Mesh架構(gòu)的規(guī)模呢?我們推測(cè)原因可能有幾方面:一方面,每擴(kuò)大一圈網(wǎng)格,都會(huì)繼續(xù)增加總體延遲。目前Mesh架構(gòu)下,英特爾自己的數(shù)據(jù)都顯示;其L3延遲情況是略差于AMD在32MBL3以?xún)?nèi)的數(shù)值的,這可能和Mesh總線(xiàn)本身的運(yùn)行特性有關(guān),如果繼續(xù)增加Mesh的規(guī)模,遠(yuǎn)距離通訊帶來(lái)的延遲是否還會(huì)繼續(xù)增加?是否延遲增加后會(huì)帶來(lái)性能損失或者對(duì)整個(gè)處理器的性能平衡帶來(lái)影響呢?相信英特爾自己的實(shí)驗(yàn)室是有結(jié)論的。另外,由于Mesh架構(gòu)里還要留節(jié)點(diǎn)布置PCIe、UPI等1/0節(jié)點(diǎn),也就是說(shuō),即使是增加到8x8的規(guī)模,也達(dá)不到64個(gè)核心。在按目前英特爾透露的只言片語(yǔ)來(lái)看,下一代至強(qiáng)可擴(kuò)展處理器的核心數(shù)量規(guī)模也僅為50多個(gè)核心。

如果進(jìn)一步將網(wǎng)格擴(kuò)大兩圈至9×9呢?那么不但有延遲的問(wèn)題,還有制程方面的限制。因?yàn)榧词故怯⑻貭柆F(xiàn)在的10nm制程工藝,Ice LakeSP的40核心產(chǎn)品的芯片面積都超過(guò)了600平方毫米。進(jìn)一步擴(kuò)大面積來(lái)獲取更多的核心也許會(huì)導(dǎo)致良率下滑。畢竟芯片面積已經(jīng)足夠大了,所以英特爾下一代產(chǎn)品也未必會(huì)用簡(jiǎn)單擴(kuò)圈的方式來(lái)增加核心。在這種情況下,為了確保產(chǎn)品良率并細(xì)分市場(chǎng),英特爾都會(huì)推出LCC、HCC和XCC三種不同類(lèi)型的芯片,但是在本次Ice Lake SP發(fā)布會(huì)上英特爾沒(méi)有提到這個(gè)內(nèi)容,不過(guò),英特爾展示的部分資料顯示依舊有28核心的配置。因此,Ice Lake SP可能有10核心、18核心、28核心、40核心等多個(gè)芯片以對(duì)應(yīng)不同的市場(chǎng)。不過(guò)這樣的情況可能在下一代英特爾至強(qiáng)處理器上會(huì)發(fā)生變化。一些消息顯示,2021年底英特爾新的、代號(hào)為“Sapphire Rapids”的至強(qiáng)處理器將改用MCM多芯片封裝的方式,目前的消息是每個(gè)小芯片最多14個(gè)核心,4個(gè)MCM共計(jì)56個(gè)核心,CPU的微架構(gòu)將采用新一代的GoldenCove,工藝采用10nm SuperFin的改進(jìn)版本,TDP功耗預(yù)計(jì)為400W。新的處理器可能還會(huì)一起封裝HBM2高帶寬內(nèi)存,同時(shí)也支持DDR5內(nèi)存。如果這個(gè)消息最終被確認(rèn)為真的,那證明英特爾將在下一代處理器上放棄Mesh架構(gòu),改用類(lèi)似Chiplet的小芯片架構(gòu),不過(guò)具體如何排布整個(gè)芯片系統(tǒng)、是否采用獨(dú)立的IO芯片以及如何匹配HBM2緩存和DDR5內(nèi)存等,還有待英特爾進(jìn)一步揭秘。

可信計(jì)算和安全

在第三代至強(qiáng)可擴(kuò)展處理器發(fā)布會(huì)上,英特爾還介紹了有關(guān)可信計(jì)算的內(nèi)容。這部分內(nèi)容主要是指SGX帶來(lái)的一些新的功能,包括:在操作系統(tǒng)、驅(qū)動(dòng)、BIOS、VMM或者SMM被破壞的情況下還能防止進(jìn)一步的軟件攻擊,在攻擊者控制系統(tǒng)或平臺(tái)的情況下持續(xù)提供數(shù)據(jù)保護(hù),防止包括內(nèi)存總線(xiàn)窺探、內(nèi)存篡改、RAM內(nèi)“冷啟動(dòng)”等攻擊,基于硬件認(rèn)證提供的有效的代碼和數(shù)字簽名等。這部分內(nèi)容并不是本文的重點(diǎn),因此就不展開(kāi)講述了。

性能:再度超越

和所有發(fā)布會(huì)最后的部分一樣,英特爾也帶來(lái)了大量的性能對(duì)比數(shù)據(jù)用于證明新的產(chǎn)品比舊的好,我們來(lái)簡(jiǎn)單來(lái)看一下。英特爾選擇第三代至強(qiáng)可擴(kuò)展處理器對(duì)比第二代、第一代至強(qiáng)可擴(kuò)展處理器以及早期的至強(qiáng)E5等產(chǎn)品。從數(shù)據(jù)來(lái)看,第三代至強(qiáng)可擴(kuò)展處理器在整數(shù)測(cè)試也就是IntegerSPECrate2017_int_base的測(cè)試中最高可達(dá)第二代產(chǎn)品的1.5倍、第一代產(chǎn)品的1.6倍、至強(qiáng)E5v4和至強(qiáng)E5v3的2.34和2.85倍。在浮點(diǎn)測(cè)試Floating PointSPECrate2017_fp_base中的性能是之前產(chǎn)品的1.52、1.62、2.6、3.8倍。其余的還包括內(nèi)存帶寬測(cè)試、LINPACK測(cè)試以及Geomen測(cè)試,新的第三代產(chǎn)品都以相當(dāng)高的幅度領(lǐng)先了前代對(duì)手。其余的一些數(shù)據(jù)還包括對(duì)比DDIO、AVX-512測(cè)試、IntelCrypto Acceleration、 DL Boost開(kāi)關(guān)前后的數(shù)據(jù),這證明新的處理器在功能和特性上都有非常大的進(jìn)步。

另外值得注意的是,英特爾特別使用第三代至強(qiáng)可擴(kuò)展處理器的頂級(jí)型號(hào)也就是至強(qiáng)白金8380(40核心)的雙路系統(tǒng)和AMD EPYC 7763(64核心)雙路系統(tǒng),運(yùn)行了有關(guān)AVX-512的高性能計(jì)算、AVX-512的云計(jì)算以及支持DL Boost的AI計(jì)算后給出了相關(guān)性能的對(duì)比。這些測(cè)試顯示,英特爾產(chǎn)品在性能中最少能夠取得相對(duì)AMD產(chǎn)品1.18倍的性能增幅,最多可以取得25倍的性能增幅。這顯示了英特爾在指令集、軟件支持以及行業(yè)方面的巨大優(yōu)勢(shì)。當(dāng)然,這樣的比較對(duì)AMD來(lái)說(shuō)略顯不公,因?yàn)锳MD目前尚不支持這些指令集,但兩家是有專(zhuān)利互相授權(quán)的,所以AMD未來(lái)會(huì)支持也不一定,就好像現(xiàn)在AMD也支持AVX256。不過(guò),至少目前來(lái)說(shuō),如果用戶(hù)和市場(chǎng)有這類(lèi)專(zhuān)項(xiàng)需求,英特爾還是優(yōu)勢(shì)十分明顯的。

邁向新的計(jì)算時(shí)代

在本文的最后,我們?cè)賮?lái)總結(jié)一下相關(guān)的內(nèi)容。第三代至強(qiáng)可擴(kuò)展處理器相比前代產(chǎn)品的提升是:

1.CPU核心數(shù)量從前代產(chǎn)品的最多28個(gè)提升至最多40個(gè), CPU架構(gòu)采用了最新的Sunny Cove;

2.L1、L2和L3緩存容量受益于全新的Sunny Cove架構(gòu),得到了顯著提升;

3. PCIe通道從之前的最多48個(gè)增加至最多64個(gè),且升級(jí)至PCIe 4.0標(biāo)準(zhǔn);

4.支持的最大內(nèi)存容量提升至4TB,前代為3TB;

5.支持全新的SGX Enclave安全特性;

6.處理器插槽的數(shù)據(jù)傳輸帶寬增加了7%;

7.支持DDR4-3200和傲騰DCPMM 200系列;

8.性?xún)r(jià)比的提升;

9.當(dāng)然,還是有一些變?nèi)醯臄?shù)據(jù):比如單核心最高頻率降低了,從之前的最高4GHz降低至3.4GHz;

10.多核心最高頻率也降低了,從之前最高3.3GHz降低至3GHz。

11.TDP增加了大約32%,從最高205W提升至270W,其實(shí)對(duì)應(yīng)芯片數(shù)量增加的規(guī)模和頻率降低的規(guī)模來(lái)看,這是符合預(yù)期的。

總的來(lái)說(shuō),憑借全新的10nm工藝全新的Sunny Cove架構(gòu)、全新的指令集支持、全新的安全控制技術(shù)以及擴(kuò)展的Mesh架構(gòu)等技術(shù)升級(jí),10nm工藝的英特爾第三代至強(qiáng)可擴(kuò)展處理器產(chǎn)品實(shí)力力大增,將給競(jìng)爭(zhēng)對(duì)手帶來(lái)更多的壓力。

TIPS AMD EYPC 7003系列處理器簡(jiǎn)介

本文在這里也簡(jiǎn)單解釋一下英特爾提到的AMDEYPC7003系列處理器在需要緩存的數(shù)據(jù)超過(guò)32MBL3緩存規(guī)模會(huì)導(dǎo)致延遲暴增的問(wèn)題。根據(jù)AMD之前發(fā)布會(huì)的資料,AMDEPYC 7003系列處理器采用的是Chiplet設(shè)計(jì),分為IO芯片和CCD芯片。每個(gè)CPU芯片擁有8個(gè)CPU核心和每個(gè)CPU核心綁定的L1、L2緩存,以及所有8個(gè)CPU核心共享32MB L3緩存。整個(gè)處理器擁有8個(gè)CCD芯片和1個(gè)IO芯片。

因此當(dāng)同一個(gè)CCD芯片上的CPU核心訪(fǎng)問(wèn)本地緩存的時(shí)候,延遲是非常小的,甚至小于英特爾的Mesh架構(gòu),這是因?yàn)橥粋€(gè)CCD芯片上的CPU核心可以訪(fǎng)問(wèn)全部32MB緩存。但是,如果不同CCD芯片之間存在緩存訪(fǎng)問(wèn)的話(huà),整個(gè)訪(fǎng)問(wèn)路徑就需要跨過(guò)IO核心,延遲更接近于不同CPU插槽之間的訪(fǎng)問(wèn)延遲,比如AMD在這種情況下延遲高達(dá)112ns,接近英特爾跨插槽的延遲118ns。在不同插槽之間存在數(shù)據(jù)訪(fǎng)問(wèn)時(shí),AMD方案需要跨越兩個(gè)IO芯片才能得到數(shù)據(jù),因此延遲更高,高達(dá)209ns。這就是Chiplet這類(lèi)架構(gòu)設(shè)計(jì)的弱點(diǎn)之一。當(dāng)然,AMD也會(huì)考慮對(duì)此架構(gòu)進(jìn)行優(yōu)化,將緩存數(shù)據(jù)優(yōu)先放在最靠近的L3緩存中。畢竟32MB的緩存也足夠大。按AMD的統(tǒng)計(jì)數(shù)據(jù),很少有應(yīng)用程序的緩存數(shù)據(jù)能夠占滿(mǎn)這么大的空間。

AMD采用Chiplet的架構(gòu)設(shè)計(jì)也有自己獨(dú)特的優(yōu)勢(shì)。那就是更容易擴(kuò)展核心數(shù)量且更方便制造、成本更低。在更容易擴(kuò)展核心數(shù)量方面,目前AMD推出64核心的處理器,采用了8個(gè)CPU芯片(被稱(chēng)為CCD),這8個(gè)CCD配合一個(gè)IO核心就實(shí)現(xiàn)了CPU核心數(shù)量上對(duì)競(jìng)爭(zhēng)對(duì)手的碾壓。并且有消息稱(chēng),下一代產(chǎn)品AMD會(huì)將單個(gè)CCD中的CPU核心數(shù)量提升至12個(gè),這樣一來(lái)AMD就可以獲得96核心的處理器。

至于AMD為什么不使用更多的CCD來(lái)連接搭配IO芯片,主要的原因可能還是目前CPU的PCB基板已經(jīng)無(wú)法容納更多的芯片布線(xiàn)了。AMD的Chiplet方案只需要分開(kāi)生產(chǎn)面積較小的CCD和IO芯片,其中CCD的面積僅為73平方毫米,幾乎只有英特爾完整CPU芯片的大約1/9。而AMD使用8顆芯片的總面積也只有約580平方毫米。從工藝良品率的角度來(lái)看,8顆73平方毫米芯片的生產(chǎn)難度要遠(yuǎn)遠(yuǎn)低于生產(chǎn)一顆560平方毫米的芯片,即使算上I0芯片的460平方毫米(12nm工藝制造,成本不高),AMD在總面積接近1000平方毫米的情況下,有可能成本上相對(duì)英特爾一個(gè)600平方毫米的芯片還更便宜。

TIPS環(huán)形總線(xiàn)架構(gòu)介紹

環(huán)形總線(xiàn)架構(gòu)在現(xiàn)在來(lái)看依舊是以一個(gè)非常經(jīng)典且實(shí)用的設(shè)計(jì),在核心數(shù)量較低的時(shí)候,能夠非常好地滿(mǎn)足核心內(nèi)部的數(shù)據(jù)互通問(wèn)題。而環(huán)形總線(xiàn)的發(fā)展也經(jīng)歷了單環(huán)、雙環(huán)和多環(huán)等多個(gè)階段。

當(dāng)早期核心數(shù)量較少(小于10個(gè))時(shí),英特爾使用單環(huán)來(lái)連接CPU核心、內(nèi)存控制器、PCIe總線(xiàn)控制器、PCU等所有部件并通過(guò)路由器的方法互相通信,此時(shí)如果某個(gè)核心的數(shù)據(jù)需要到達(dá)另一個(gè)核心,那么只需要將其發(fā)送至環(huán)并且在環(huán)上傳輸即可。雖然可能由于核心的距離等存在一定的延遲,但是在當(dāng)時(shí)的技術(shù)條件下也是非常不錯(cuò)的設(shè)計(jì)方案。不過(guò),在核心數(shù)量進(jìn)一步增加后(小于20個(gè)),由于單環(huán)存在方向性,因此距離較遠(yuǎn)的核心通信延遲就開(kāi)始變高。對(duì)于這類(lèi)產(chǎn)品,英特爾使用了兩個(gè)方向相反的雙環(huán),中間用GrossBar連接。雙環(huán)通信進(jìn)一步擴(kuò)展了環(huán)狀總線(xiàn)可以容納的核心數(shù)量,但是兩個(gè)不同環(huán)之間通信延遲會(huì)增加。

在雙環(huán)通信之后,處理器的核心數(shù)量進(jìn)一步提升至30個(gè)左右時(shí),單獨(dú)依靠雙環(huán)就顯得非常難以為繼了。因此,英特爾將處理器核心數(shù)量進(jìn)行了劃分,10個(gè)和10個(gè)以下的核心數(shù)量成為一種產(chǎn)品,被稱(chēng)為L(zhǎng)CC,采用單環(huán)通信; 10到20個(gè)之間核心數(shù)量的產(chǎn)品采用的是雙環(huán)通信,被稱(chēng)為HCC;在20到30個(gè)核心的產(chǎn)品上,英特爾設(shè)計(jì)了1個(gè)單環(huán)和1組雙環(huán),并將兩個(gè)環(huán)用Crossbar連接起來(lái),被稱(chēng)為XCC。此時(shí)兩個(gè)不同環(huán)的處理器發(fā)送數(shù)據(jù)需要先發(fā)送至當(dāng)前處理器的環(huán)站,再上環(huán)后送至Crossbar,然后再下站至另一個(gè)環(huán),最后進(jìn)入目標(biāo)處理器的環(huán)站。這意味著大幅度增加了數(shù)據(jù)傳輸延遲,兩個(gè)不同環(huán)的處理器被認(rèn)為是片上“非均勻內(nèi)存訪(fǎng)問(wèn)(NUMA)”,但是英特爾聲稱(chēng)其利用相關(guān)的內(nèi)存感知技術(shù),盡可能將數(shù)據(jù)保留在本地核心所需的環(huán)內(nèi),避免出現(xiàn)跨環(huán)訪(fǎng)問(wèn)數(shù)據(jù)延遲過(guò)高的情況。

猜你喜歡
指令集英特爾內(nèi)存
外部高速緩存與非易失內(nèi)存結(jié)合的混合內(nèi)存體系結(jié)構(gòu)特性評(píng)測(cè)
3DNow指令集被Linux淘汰
英特爾攜手一汽集團(tuán),引領(lǐng)汽車(chē)行業(yè)全新變革
“春夏秋冬”的內(nèi)存
英特爾擴(kuò)充FPGA可編程加速卡產(chǎn)品組合
實(shí)時(shí)微測(cè)量系統(tǒng)指令集及解析算法
英特爾開(kāi)源幫霍金“說(shuō)話(huà)”軟件
什么是AMD64
好平板有強(qiáng)芯 英特爾Bay Trail芯片解析
基于覆蓋率驅(qū)動(dòng)的高性能DSP指令集驗(yàn)證方法