徐昌宇
8月19日,2021年英特爾架構(gòu)日大會正式召開。架構(gòu)日是英特爾向外界展示其新技術(shù)和新產(chǎn)品的例行窗口,今年的大會內(nèi)容更是特別豐富,英特爾幾乎傾囊而出,將自己在消費級CPU、GPU、服務(wù)器CPU、并行計算產(chǎn)品以及各類配套軟硬件技術(shù)方面的積累都向外界進(jìn)行了詳細(xì)介紹,可謂是“干貨滿滿”。本文將選擇一部分重要,且和普通消費者關(guān)系比較密切的內(nèi)容進(jìn)行詳細(xì)介紹。
此次發(fā)布會堪稱近年來英特爾最重要、內(nèi)容最詳實、涉及面最廣以及影響力最大的技術(shù)發(fā)布會。英特爾在會上提出了針對標(biāo)量、矢量、矩陣、空間四大基礎(chǔ)計算架構(gòu)相關(guān)的處理器和封裝、互聯(lián)技術(shù)、內(nèi)存技術(shù)、軟件技術(shù)和架構(gòu)等六大關(guān)鍵技術(shù)領(lǐng)域的創(chuàng)新。
在這些技術(shù)背后,英特爾的目標(biāo)是在2025年實現(xiàn)相對于現(xiàn)在產(chǎn)品1000倍的性能提升?!?000倍”這個數(shù)字聽起來非常不可思議,但實際上英特爾指出,計算機(jī)系統(tǒng)的性能提升是一個乘數(shù)關(guān)系,如果上述處理器和封裝、互聯(lián)技術(shù)、內(nèi)存技術(shù)、軟件技術(shù)和架構(gòu)的每一個部分(處理器和封裝算作一個部分)都實現(xiàn)4倍的性能提升,最終整個系統(tǒng)在理想情況下就將實現(xiàn)4的5次方的|生能提升,也就是1024倍,這也就是1000倍性能提升的來源。
為了達(dá)到這個目標(biāo),英特爾在2021年帶來了11個全新的產(chǎn)品和技術(shù),其中大量創(chuàng)新性技術(shù)英特爾還是首次給予詳細(xì)介紹。
此次發(fā)布會的重頭戲自然非Alder Lake莫屬,它是英特爾采用“大、小核心混合”設(shè)計的產(chǎn)品,搭載基于Gracemont架構(gòu)的能效核以及基于Golden Cove架構(gòu)的性能核,下面我們就先來看看這兩種架構(gòu)都有哪些技術(shù)亮點。需要提醒大家的是,英特爾的本次發(fā)布會全程采用直播方式進(jìn)行,并且對處理器的大量新技術(shù)介紹已經(jīng)非常詳細(xì),部分不是很重要的內(nèi)容,本文就不做深入講解,而是重點向大家展示一些背后的技術(shù)、重要的設(shè)計和有趣的對比,感興趣的讀者不妨在閱讀本文的同時觀看英特爾的發(fā)布會視頻,效果更佳。
全新的能效核:英特爾Gracemont架構(gòu)解析
英特爾在小核心(也就是高性能功耗比核心)上的研發(fā)有非常深厚的技術(shù)積累。早在2008年,英特爾就面向當(dāng)時流行的上網(wǎng)本等產(chǎn)品發(fā)布了Atom系列處理器。該系列處理器一直以來并不以性能為第一優(yōu)先目標(biāo),而是更注重能耗控制,早期的產(chǎn)品在架構(gòu)設(shè)計方面采用的是較為簡單且節(jié)約面積的雙發(fā)射、順序執(zhí)行架構(gòu),性能有限。不過隨著生產(chǎn)工藝的發(fā)展,英特爾開始在這個系列中加入更多的資源和功能。
2019年,英特爾推出了當(dāng)時最新的Tremont架構(gòu)。Tremont產(chǎn)品在內(nèi)部架構(gòu)上做出很多調(diào)整,前端包括2個3寬度的解碼單元,在理想條件下可以實現(xiàn)6發(fā)射寬度——這可是x86處理器首個6發(fā)射產(chǎn)品,同期SunnyCove只有5發(fā)射。Tremont后端執(zhí)行部分采用亂序設(shè)計并加強(qiáng)計算資源等。得益于規(guī)模加強(qiáng),在CINEBENCH R20和R15兩款測試軟件中,Tremont基本上都能達(dá)到了Skylake或Zen 2架構(gòu)性能的80%~95%——這實際上和很多人印象中“該系列性能孱弱”的認(rèn)知是完全不一致的。
在Tremont之后,今年英特爾發(fā)布的產(chǎn)品就是本文的主角之一:Gracemont。在英特爾之前的路線圖中,Gracemont是Tremont的繼承者,隸屬于Atom家族。不過本次發(fā)布會上,Gracemont有了一個全新的名稱:Efficient x86 Core,也就是效能x86核心。前文講解了這么多關(guān)于Tremont的內(nèi)容,主要是簡單描述英特爾這個系列架構(gòu)的發(fā)展歷史,并引入
五大部分和三大特性:Gracemont的宏觀結(jié)構(gòu)
英特爾在本次發(fā)布會上明確指出,Gracemont采用了高度可伸縮的架構(gòu)以滿足未來十年高效率吞吐數(shù)據(jù)的需求。鑒于此,Gracemont需要滿足下列四個目標(biāo):
1.極高的能效比
2.芯片尺寸較小且可大幅度擴(kuò)展
3.支持矢量和AI計算
4.具有極寬的頻率范圍
通過仔細(xì)觀察英特爾的設(shè)計目標(biāo)我們可以發(fā)現(xiàn),Gracemont對能耗比、擴(kuò)展能力有較高要求。另外和之前的Atom系列產(chǎn)品不同的是,Gracemont加入針對高級矢量擴(kuò)展、AI計算方面的支持,這一點是非常特殊的。一般來說,小核心架構(gòu)通常避免加入類似矢量計算這樣的計算密集型設(shè)計,因為小核心架構(gòu)的內(nèi)部設(shè)計和資源布局不適合運行這些內(nèi)容。然而,英特爾在Gracemont中加入矢量計算的內(nèi)容,顯示出它并非單純偏向于能耗比考慮,其架構(gòu)設(shè)計時考慮更多的是達(dá)到使用中的平衡。最終,Gracemont既可以在低電壓、低頻率下以極低的功耗運行,可以應(yīng)用在包括一體機(jī)、ATM機(jī)、機(jī)頂盒、平板設(shè)備這類對功耗非常敏感的設(shè)備上,同時它也能以極高的頻率和性能來面對高功耗負(fù)載。
這使得英特爾在Gracemont架構(gòu)的設(shè)計階段就必須兼顧這兩者。事實上這是有一定難度的,畢竟要提升性能功耗比,往往就會使用較短的流水線,但是要提高頻率,流水線級數(shù)又不能太短,英特爾在這里的平衡是非常獨到的。
在架構(gòu)設(shè)計部分,Gracemont被劃分為五大區(qū)域,分別是前端、亂序執(zhí)行引擎、標(biāo)量引擎、矢量引擎和內(nèi)存系統(tǒng)。英特爾提到,Gracemont的設(shè)計特點是更深且按需要長度解碼的前端、更寬的后端、大量執(zhí)行端口以及為Intel7工藝進(jìn)行的全面優(yōu)化。
前端:3+3的解碼器設(shè)計,相比上代大幅度加強(qiáng)的架構(gòu)
先來看看Gracemont前端設(shè)計的基本情況。Gracemont的前端設(shè)計實際上和之前的Tremont存在很高的相似性,但又顯而易見地進(jìn)行了極大加強(qiáng)。從架構(gòu)簡圖來看,前端設(shè)計包含雙IP Queue,緊跟著64KB的指令緩存,接下來則是Bypass(旁路)模塊和本次介紹的重點OD-ILD (on-demand instruction length decoder,按需指令長度解碼器)。接下來數(shù)據(jù)會進(jìn)入指令數(shù)據(jù)(instruction data)單元后,再被送入兩個3寬度的解碼器,最后進(jìn)入微指令隊列(uop queue)中。此外,在分支預(yù)測方面,Gracemont擁有I-TLB和I-cache Tag,另外還有大幅度加強(qiáng)的分支預(yù)測單元。
僅從架構(gòu)圖來對比,我們可以看出在前端設(shè)計方面,Gracemont相比Tremont有顯著加強(qiáng)。Tremont缺乏的單元包括OD-ILD、Bypass、uop queue。在分支預(yù)測單元部分,Tremont只有指令拾取和分支預(yù)測單元,這相比Gracemont大幅度加強(qiáng)的分支預(yù)測單元來說還是弱了一些。那么,Gracemont增加的這些單元都有哪些作用呢?
從宏觀角度來看,Gracemont前端增加的部分大幅提升了有效指令流的吞吐量,這與Gracemont整體設(shè)計目標(biāo)和后端規(guī)模提升是相匹配的。首先,Gracemont加入更大的指令緩存,其指令緩存容量為64KB,相比Tremont的32KB指令緩存實現(xiàn)容量翻倍,這也是目前所有x86處理器中使用的容量最大的指令緩存,這種設(shè)計可以存儲更多的指令,在提高效率的同時還能降低內(nèi)存頻繁讀寫,以降低能耗。
Gracemont的OD-ILD單元是本次設(shè)計的一個亮點。我們知道,x86本身指令編碼非常頻繁且不固定長度,在最壞的情況下,經(jīng)過編碼的指令長度可達(dá)15個字節(jié),對這么長的指令預(yù)解碼是一個非常耗費資源的線性操作,并且同樣由于x86指令長度不等長,處理器也不可能在這個指令預(yù)解碼完成之前就去尋找下一條指令。一般來說,處理器要知道一個指令編碼包含什么內(nèi)容、有多長,是否和后續(xù)指令相關(guān),基本上要處理完指令的一大部分內(nèi)容,這非常耗費時間和資源。因此,對高性能x86處理器而言,設(shè)計人員會設(shè)計一個較大的微操作緩存,將大量指令解碼的信息存儲在微操作緩存中,下一次遇到同樣的指令就不用解碼,直接從微操作緩存中取出預(yù)解碼信息或者指令解碼的結(jié)果就可以了。
不過微操作緩存的成本不低,實際效能也受到很多因素影響,所以如果不是特別追求性能的高性能核心,一般也不會使用。因此,Gracemont和之前的Tremont都沒有微操作緩存,每次遇到相同的指令都需要重新解碼,但這仍然存在一定的優(yōu)化空間——Gracemont加入了一個名為OD-ILD也就是按需指令長度解碼器的單元。該單元的作用是可以生成預(yù)解碼信息(預(yù)解碼信息包含指令的長度和邊界等內(nèi)容),并且存儲在64KB的指令緩存中。這使得系統(tǒng)第二次遇到類似的代碼時可以直接提出之前的預(yù)解碼信息,節(jié)省時間和周期,也能夠起到大幅度提升解碼器效率的作用。當(dāng)然,雖然英特爾在這里的設(shè)計看起來像是一個“沒有物理緩存的微操作緩存”,但OD-ILD配合旁路單元、指令緩存存儲的只是預(yù)解碼信息,與真正的微操作緩存還是存在性能差距的。
再來看看Gracemont的分支預(yù)測部分。Gracemont的分支預(yù)測器現(xiàn)在可以支持所有緩存級別,它增加了可以存儲5000個條目的分支目標(biāo)緩存,并且可以根據(jù)長期歷史數(shù)據(jù)對分支預(yù)測進(jìn)行優(yōu)化,生成準(zhǔn)確的指令信息。這種設(shè)計還能盡早發(fā)現(xiàn)錯誤的內(nèi)容,并且進(jìn)行優(yōu)化和糾正。英特爾認(rèn)為,包括網(wǎng)絡(luò)瀏覽、數(shù)據(jù)庫和數(shù)據(jù)包處理等任務(wù)都會受益于這個分支預(yù)測器的加強(qiáng)。實際上,英特爾之前在Tremont上就采用了大幅度加強(qiáng)的、酷睿級別的分支預(yù)測器,在Gracemont上則是進(jìn)一步擴(kuò)大規(guī)模,并提高性能。
Gracemont的第三個亮點則是繼承于Tremont的雙3寬度的解碼器。根據(jù)之前英特爾的介紹,在最理想的情況下,Gracemont的雙3寬度解碼器能夠?qū)崿F(xiàn)每周期解碼6條指令,并且保持和一些較窄的解碼器相同的能耗。不僅如此,英特爾還為Gracemont加入了硬件驅(qū)動的負(fù)載平衡器,它可以將長鏈的順序指令直接插入切換點,保證兩個解碼器能并行工作。此外,Gracemont還為前端加入了微指令隊列單元,這樣可以實現(xiàn)指令排序進(jìn)入后端執(zhí)行部分,效能更高。
后端:更大的規(guī)模,更強(qiáng)悍的性能
在后端部分,Gracemont的3個重要特性是5個寬度的分配(allocation)和8個寬度的退回(retire)、256條目的亂序執(zhí)行窗口以及17個執(zhí)行窗口。接下來我們一起來詳細(xì)了解這部分內(nèi)容。
首先來看亂序執(zhí)行窗口大小。在Gracemont上,這個數(shù)據(jù)是256條目,超過Skylake和Zen 2的224條目,和Zen 3站在同一水平線上,更大的亂序執(zhí)行窗口搭配更多的后端單元有助于更高效率地填充指令。顯然,隨著處理器性能越來越強(qiáng),未來亂序執(zhí)行窗口還會進(jìn)一步增大下去。
高達(dá)17個執(zhí)行窗口是Gracemont最重要的改進(jìn)之一。在上代產(chǎn)品Tremont上,這個數(shù)據(jù)僅為7。不過Tremont很多執(zhí)行單元都是多功能的,但更多端口、更強(qiáng)大的后端設(shè)計也意味著Gracemont在性能方面可以達(dá)到更高的高度。最終性能評價方面,理論上Gracemont在很多方面都能達(dá)到前代Tremont的翻倍或者更高。比如Gracemont的整數(shù)性能每周期可以解析或完成兩個分支,這是Tremont的兩倍,矢量方面相當(dāng)于擁有3個支持SIMD的ALU,比Tremont多1個,并且兩個獨立的FADD和FMUL管道可以每周期完成兩個獨立的加法和乘法計算,也在Tremont的基礎(chǔ)上實現(xiàn)翻倍。在指令集支持方面,Gracemont基本達(dá)到了Haswell架構(gòu)的水平。根據(jù)英特爾的介紹,Gracemont可以支持AVX2指令集,并且加入了為AI加速設(shè)計的AVX-VNNI指令集,以及一些新的安全或側(cè)信道技術(shù),比如控制流執(zhí)行技術(shù)等,從這個角度來看,Gracemont在執(zhí)行端和ISA方面的設(shè)計還是非常充裕的。
緩存與內(nèi)存子系統(tǒng):最大4MB L2設(shè)計
Gracemont的緩存與內(nèi)存子系統(tǒng)得到重大的改進(jìn)。在端口方面,Gracemont的AGU端口現(xiàn)在增加至4個,這意味著每個周期可以完成兩個加載和兩個存儲,總計4個操作。在之前的Tremont上,由于只有兩個端口,每個周期要么完成兩個加載或存儲,要么1個加載和1個存儲,整體效能比Gracemont差了不少。在緩存方面,后端擁有32KB數(shù)據(jù)緩存,其指針追蹤延遲為3個周期,此外還支持64個outstanding misses(和緩存未命中后的工作機(jī)制有關(guān))。
一般情況下,緩存未命中就要去下一級存儲單元中查找信息(一般是L2或者內(nèi)存),在這個過程中,對流水線來說緩存是不可以訪問的,除非查找到信息并返回,這就意味著數(shù)據(jù)查找的過程會浪費大量時間。outstanding misses改變了這種死板的工作流程,它允許即使緩存未命中要去內(nèi)存查找信息,流水線還可以繼續(xù)使用緩存并查找其他的信息。Gracemont目前支持64個outstanding misses,部分同類型的處理器一般只支持20個左右。因此在緩存未命中時,Gracemont應(yīng)該能展示出更好的性能。
在L2緩存方面,英特爾的數(shù)據(jù)顯示,一個集群中的4個Gracemont核心將共享最多4MB L2緩存,其延遲為17個周期。共享的L2支持每個內(nèi)核每周期64字節(jié)的讀寫操作,英特爾認(rèn)為這樣的設(shè)計足以滿足Gracemont這類能效比核心的需求。另外,Gracemont的L2緩存也支持64次outstanding misses,但需要在所有4個核心中共享。
性能:超越Skylake約8%
英特爾給出了一些Gracemont的性能數(shù)據(jù)。數(shù)據(jù)顯示,使用Intel 7工藝的Gracemont對比使用14nm工藝的Skylake,在1CIT的情況下,Gracemont要么同等性能降低大約40%功耗,要么同等功耗提升40%的性能。另一個比較值得關(guān)注的則是多線程測試,使用Intel7工藝的4C4T的Gracemont集群,對比14nm工藝的Skylake 2C4T配置,要么同等性能的Gracemont集群降低大約80%功耗,要么Gracemont集群在功耗更低的情況下,提供超出2C4T Skylake配置的性能高達(dá)80%以上。
在這里需要注意的是工藝。由于工藝不同,單個Skylake核心的面積和擁有4個Gracemont的集群幾乎一樣大。一些第三方數(shù)據(jù)顯示,在CINEBENCH R20測試中,Gracemont的單核心性能大約是478,相比之下Skylake架構(gòu)的酷睿i7-6700K大約是443,這意味著Gracemont的單核心性能大約比Skylake的某個版本高出了8%??紤]到前文曾提到Tremont的性能大約是Skyla ke的80%~95%,那么在綜合測試中,Gracemont可能獲得了相對Tremont大約30%左右的性能提升。
Golden Cove架構(gòu)解析
從發(fā)展歷程來看,Golden Cove是Willow Cove的繼承者,但是相比Willow Cove,Golden Cove是一個顯然更寬、更深和更聰明的架構(gòu),英特爾宣稱Golden Cove的設(shè)計目標(biāo)就是實現(xiàn)更高速度、更低延遲和更優(yōu)秀的單線程性能。其重要特點包括對大型代碼和大數(shù)據(jù)量計算的優(yōu)化、新增的AI協(xié)處理器以及新增的細(xì)粒度功率管理智能功耗控制器等。
英特爾將Golden Cove分為8個部分來介紹,分別是前端(指令拾?。?、微指令排序、亂序執(zhí)行單元、矢量引擎、標(biāo)量引擎、全新的矩陣擴(kuò)展單元以及全新的PM控制器,最后則是內(nèi)存單元。值得注意的是,面向消費市場和企業(yè)級市場的Golden Cove存在一定差異,比如消費市場就全部禁用AMX(矩陣擴(kuò)展單元),只有企業(yè)級市場的Sapphire Rapids才有這項功能。
前端:首個6發(fā)射x86處理器
縱觀英特爾數(shù)年來的架構(gòu)設(shè)計,他們對前端的改動是非常慎重的。尤其對于高性能核心來說,前端的設(shè)計就像龍頭,有牽一發(fā)而動全身的影響。回顧歷史,從2006年發(fā)布的Conroe架構(gòu)開始,英特爾就維持了前端“1個復(fù)雜解碼+3個簡單解碼”的4發(fā)射的設(shè)計,一直到2014年的Broadwell,8年沒有變化。之后英特爾在2015年發(fā)布的Skylake上做出改動,它采用了新的“1個復(fù)雜解碼+4個簡單解碼”的5發(fā)射前端,然后一直沿用到Sunny Cove,這—次又維持了大約7年。
現(xiàn)在,英特爾在Golden Cove上再次增加了1個簡單解碼器,變成“1個復(fù)雜解碼器+5個簡單解碼器”的設(shè)計。Golden Cove現(xiàn)在實現(xiàn)了6發(fā)射的前端,這是x86處理器設(shè)計中第一個真正意義上的6發(fā)射前端,也是目前x86處理器設(shè)計的難點。英特爾似乎解決了這一技術(shù)難題,但也有一定代價——Golden Cove在微架構(gòu)遇到錯誤的預(yù)測時會增加一個周期,從之前的16周期上升至17周期,但英特爾沒有透露新增了一個解碼器會對性能帶來多少直接提升以及新增解碼器工作的細(xì)節(jié)內(nèi)容。一些比較明顯的改善是:在前端發(fā)射寬度增加至6個寬度以后,前端獲得帶寬也從之前的每周期16字節(jié)翻倍到32字節(jié)。
另外,英特爾在前端解碼方面也并非全部依賴6寬度的解碼器。英特爾提到,在80%的時間內(nèi),前端解碼器都受制于時鐘門控。在這種情況下,微指令緩存起到?jīng)Q定性作用??紤]到前端更大、更寬,英特爾大幅度增加了微指令緩存的性能和寬度。新的微指令緩存輸出的能力從之前的每周期傳遞6個微指令提升至8個,并且現(xiàn)在可以存儲的條目數(shù)量從之前的2.25K提升到4K,這些改變都大幅增加了命中率和帶寬。其中,條目數(shù)量的提升可以大幅提高微指令緩存的使用效率,這和AMD在Zen2、Zen 3架構(gòu)中的做法是基本類似的。在微指令隊列方面,在單線程的情況下,新的設(shè)計能夠提升144條目的隊列,是之前的70條目的兩倍多。在雙線程的情況下,每個線程都可以獲取72條目,相比之前的70條目略微提升。
最后再來看看前端的指令TLB和指令緩存部分。對于4K TLB,新的設(shè)計可以容納256條目,是之前128條目的兩倍。對2M/4M較大的TLB,新的設(shè)計可以容納32條目,也是之前16條目的兩倍,尤其是2M/4M TLB的改進(jìn),帶來了較大代碼效率的顯著提升。另外,L1指令緩存的容量沒有提升,依舊是32KB,但是增強(qiáng)了代碼預(yù)取功能。分支目標(biāo)緩沖區(qū)的條目也從之前的5K提升到了12K,這是迄今為止x86處理器中最大的分支目標(biāo)緩沖區(qū)條目(Zen 3為6.5K,Cortex-A77為8K),這對現(xiàn)代處理器來說是非常重要的。英特爾還提到自己在分支目標(biāo)緩沖區(qū)加入了機(jī)器學(xué)習(xí)算法,可以智能地擴(kuò)大或縮小規(guī)模,能夠自動關(guān)閉部分緩沖區(qū)以節(jié)約電能。
總的來說,上述所有針對分支預(yù)測的改進(jìn)都能夠提升分支預(yù)測的效率,隱藏未命中延遲,提高分支預(yù)測的準(zhǔn)確性以減少跳轉(zhuǎn)的誤預(yù)測,最終實現(xiàn)性能上的提升。
亂序執(zhí)行:更寬、更深、更聰明
在中核也就是OoO引擎方面,Golden Cove也有很大的變化。由于前段的解碼從之前的5個寬度進(jìn)化至6個寬度,因此中核也隨之改進(jìn)至6個寬度,每周期能夠維持6 IPC的微指令發(fā)射規(guī)模,相比前代進(jìn)一步提升。另外,英特爾宣稱他們在分配階段執(zhí)行了一些簡單的指令,減少了需要發(fā)送到后端執(zhí)行的內(nèi)容,可以節(jié)約后端執(zhí)行資源,但并未透露太多。
在亂序執(zhí)行窗口方面,Golden Cove的重新排序緩沖區(qū)(ROB)容量從之前Sunny Cove的352大幅度提升至512,這比AMD的Zen 3架構(gòu)大了一倍有余,僅低于蘋果的Firestrom微架構(gòu)(630)。一般意義上,增加ROB的容量超過一定范圍后會帶來邊際遞減的效果,且同時會大幅度增加功耗。不過蘋果的案例說明還是有方法可以實現(xiàn)性能的大幅度提升,英特爾應(yīng)該也找到了這個關(guān)鍵之處才有信心大幅度增加ROB數(shù)量。亂序執(zhí)行的后端部分則是執(zhí)行窗口,Golden Cove現(xiàn)在擁有12個執(zhí)行窗口,相比之前的產(chǎn)品增加了2個。這部分內(nèi)容下文還有詳述。
全面加強(qiáng)的執(zhí)行引擎部分
英特爾在執(zhí)行引擎部分分為三個模塊,它們分別是矢量引擎、標(biāo)量引擎和全新的高級矩陣擴(kuò)展(英文簡稱AMX)。
在標(biāo)量引擎方面,Golden Cove新添加了10號端口用作ALU和LEA計算,因此現(xiàn)在有00、01、05、06、10五個端口可以實現(xiàn)標(biāo)量計算。值得注意的是,所有這五個執(zhí)行端口后的功能管道都是復(fù)合設(shè)計的。經(jīng)過增加一個新的端口后,Golden Cove的標(biāo)量執(zhí)行端口現(xiàn)在堪稱x86中最寬的。
在矢量單元方面,Golden Cove在端口01和05上添加了2個新的FADD功能,相比之前的FMA單元,F(xiàn)ADD的效率更高且延遲更低。另外,F(xiàn)MA單元現(xiàn)在可以支持FP16和復(fù)數(shù)計算了,05端口的FMA單元可以執(zhí)行AVX512計算。英特爾特別指出,F(xiàn)ADD執(zhí)行浮點加法只需要3個周期,在一些背對背浮點計算(back-to-back floating-point)中,這個周期可以降低至2個。相比之下,上代執(zhí)行浮點計算的FMA在端口00和01上有4周期延遲,05上有6個周期的延遲。相比Gracemont和GoldenCove前端上的改進(jìn),英特爾在后者執(zhí)行單元的改進(jìn)似乎顯得比較保守,這可能是英特爾在內(nèi)部資源方面做出又—次平衡的結(jié)果。
緩存與內(nèi)存子系統(tǒng):提高并行性
為了配合前端、中核和執(zhí)行單元的改進(jìn),Golden Cove的緩存與內(nèi)存子系統(tǒng)也進(jìn)行了改進(jìn),變得更寬和更深了。對L1緩存而言,新增的11號端口增加了一組AGU和讀取單元,這樣每周期可以加載的次數(shù)從兩次提升到了3次,其中,對于256bit的數(shù)據(jù)也就是AVX2 256,每周期可以加載3次,提升了50%;對于512bit的數(shù)據(jù)也就是AVX 512,每周期可以加載兩次。
英特爾還提到L1的深度方面的改進(jìn),但是沒有具體的數(shù)據(jù),其主要變化在于加載緩沖區(qū)和存儲緩沖區(qū)尺寸的提升,這些改變都更有利于提升內(nèi)存級并行的性能。智能化方面,新的設(shè)計降低了讀取延遲,并實現(xiàn)了更快速的內(nèi)存消歧——所謂內(nèi)存消歧,是指亂序執(zhí)行微處理器不按照程序順序執(zhí)行內(nèi)存訪問,而是使用為處理器內(nèi)部的數(shù)字邏輯和真實的依賴關(guān)系等,這種技術(shù)能夠?qū)崿F(xiàn)更大的指令集并行。
在L2的改進(jìn)方面,由于英特爾的一個架構(gòu)要同時面向消費市場和企業(yè)級市場,因此在L2的設(shè)計上存在一些差異。對于消費市場而言,L2緩存每核心為1.25MB,考慮到企業(yè)級市場對性能要求更為敏感,L2緩存提升至每核心2MB。在性能方面,L2緩存將并行處理的未命中指令數(shù)量從之前的32提升至48。在智能化處理方面,L2緩存現(xiàn)在加入諸如基于反饋的預(yù)取節(jié)流、全行寫入帶寬預(yù)測優(yōu)化、基于多模式的路徑預(yù)取器等功能。
最后再來看一些有關(guān)新的PM(Power Management)控制器的內(nèi)容。英特爾對宣稱可通過內(nèi)核自主、細(xì)粒度和電源管理技術(shù),實現(xiàn)額外的性能。對于新的PM控制器,英特爾稱它可以將監(jiān)控的間隔從毫秒級提升至微秒級,并根據(jù)實際應(yīng)用行為來加強(qiáng)功耗預(yù)算利用率,最終可以提升性能。這里展示出英特爾對處理器核心和內(nèi)部結(jié)構(gòu)更為精細(xì)的電源控制,能夠在更短的時間內(nèi)瞬間提升處理器部分結(jié)構(gòu)的頻率和電源供應(yīng),以實現(xiàn)更好的性能,這是智能化電源管理的重要突破。
性能:綜合提升19%
英特爾對Golden Cove的性能做出了一個預(yù)覽,其平均性能提升19%,對比的是Alder Lake的性能核與Rocket Lake的Crypress Cove架構(gòu),兩者頻率都鎖定在IS0 3.3GHz。從數(shù)據(jù)可以看出,Golden Cove在一小部分測試項目中告負(fù)于Crypress Cove,但是在其他所有剩余的項目中都領(lǐng)先Crypress Cove,最大領(lǐng)先幅度達(dá)到60%,平均領(lǐng)先幅度為19%,這是英特爾近年來代際提升中最大的數(shù)值之一。Golden Cove如此高的性能提升,應(yīng)該主要歸功于前端的大幅度加強(qiáng),包括6個寬度的發(fā)射單元、微指令提高了25%的輸出寬度以及更深的亂序執(zhí)行緩沖區(qū)等。但是在后端執(zhí)行資源方面Golden Cove改進(jìn)沒有那么明顯,這很可能是英特爾下一代架構(gòu)要做的事情。
AVX 512:Alder Lake不再支持
在談?wù)撚布€程調(diào)度器之前,在ISA方面還有一些內(nèi)容需要厘清?,F(xiàn)在英特爾明確宣布,面向消費級市場的Alder Lake將不再支持AVX 512。其主要原因是Gracemont僅支持AVX2,即使Golden Cove支持AVX 512,那么在最終組合成Alder Lake的時候,也必須關(guān)閉Golden Cove的AVX 512功能以實現(xiàn)ISA的一致性。否則的話,兩個不同核心中的任務(wù)將無法遷移。
不過在Golden Cove的架構(gòu)設(shè)計中,英特爾加入FMA 512的支持,另外還加入專門的AMX模塊。但是為了保持不同架構(gòu)處理器的ISA一致性,英特爾最終決定將Alder Lake的GoldenCove核心中的AVX 512功能徹底關(guān)閉,同時禁用AMX功能。這意味著消費者購買的Alder Lake處理器中的一部分晶體管和功能模塊是不工作的。另外,由于Alder Lake不支持AVX 512,轉(zhuǎn)而支持AVX 2,所以英特爾還將之前專門為AVX 512設(shè)計的VNNI以及VNNI2版本“降級”為AVX2版本,現(xiàn)在Alder Lake的能效核和性能核都能運行AVX2版本的VNNI,這意味著即使是以AVX2的形式,不少常見的AI加速功能也能夠正常執(zhí)行了o
英特爾硬件線程控制器:軟硬兼施的高效率多核心方案
Alder Lake實際上是英特爾第二代異構(gòu)多核處理器,前文也提到過第一代產(chǎn)品Lakefield無論在技術(shù)還是市場上的表現(xiàn)最終都不夠令人滿意?,F(xiàn)在,Alder Lake將同時使用能效核和性能核,這里就有很多值得深入探尋的內(nèi)容。
一般來說,現(xiàn)有的絕大部分多核心產(chǎn)品,無論是ARM還是RISC-V或者其他架構(gòu),他們多核心設(shè)計中的不同架構(gòu)核心要么分別負(fù)責(zé)不同類型的工作,要么受控于一個整體的分配系統(tǒng)。比如ARM的DynamIQ,或者高性能核心用作控制器,其他的一些核心用作并行計算器等。
不過這些操作在桌面端,尤其是x86市場上這樣的情況還比較少見。桌面處理器的調(diào)度器是在SMT同步多線程技術(shù)引入后出現(xiàn)的。由于SMT技術(shù)的引入,一個處理器核心將擁有兩個或兩個以上的線程,所以需要加入線程調(diào)度器以正確識別不同線程的工作負(fù)載情況,然后再安排相應(yīng)的計算任務(wù)。此外,能耗控制相關(guān)的技術(shù)也被引入用于優(yōu)化整個處理器在多線程下的能耗比,這對移動設(shè)備來說是非常有用的。后期隨著處理器核心越來越多,x86核心會引入相關(guān)的控制系統(tǒng)。不過總的來說,由于每個線程是基本一樣的,其架構(gòu)設(shè)計還不是很復(fù)雜和困難。
在Alder Lake上,這種情況發(fā)生了較大變化。Alder Lake的能效核不支持SMT技術(shù),性能核則支持,這意味著擁有三類不同的線程需要管理:能效核的線程、性能核的線程和性能核的SMT線程。如此一來,系統(tǒng)就需要更仔細(xì)地判斷每一個線程的差異,確保將適合的工作任務(wù)放置在正確的線程上。
為此,英特爾通過軟件和硬件這兩個方面來進(jìn)行處理。先來看軟件,也就是Windows 11方面。微軟在新的Windows 11中引入更智能的線程調(diào)度程序(調(diào)度器)。在Windows 10和之前的操作系統(tǒng)中,對任務(wù)優(yōu)先級的判斷是通過操作系統(tǒng)調(diào)度器進(jìn)行分析,從而推斷線程的性能情況,但是對正在發(fā)生的操作則沒有真正的基本了解。在Windows 11中,微軟配合英特爾加入了新的技術(shù),來理解不同的性能模式和指令集的運行情況,然后根據(jù)這些內(nèi)容來評估哪些線程可能需要更高的性能等級或者降級。微軟宣稱,操作系統(tǒng)調(diào)度器現(xiàn)在可以對線程優(yōu)先級、所屬是前端還是后臺應(yīng)用等進(jìn)行綜合考慮,屬于前端的應(yīng)用會被調(diào)高到性能核以滿足用戶需求。不過部分諸如內(nèi)存復(fù)制、回調(diào)循環(huán)等復(fù)雜、但性能要求很高的應(yīng)用在后臺運行時,操作系統(tǒng)的調(diào)度器就可能無法正確判斷情況了,此時就需要依賴英特爾內(nèi)置的硬件線程控制器。
硬件方面,英特爾在處理器內(nèi)的線程控制器中嵌入了一個微處理器,這個微處理器可以主動監(jiān)控每個線程在做什么以及它需要哪些性能指標(biāo),具體監(jiān)控的數(shù)據(jù)包括加載、存儲、分支的比例、平均內(nèi)存訪問時間、模型和指令類型。此外,這個控制器還可以監(jiān)測哪些指令在耗電、比如AVX-VNNI或者其他AVX2指令,它會為這些指令加入特殊的標(biāo)記。如果當(dāng)前沒有足夠的性能核或者由于功耗、散熱的原因,部分線程需要降級的話,線程控制器也會對當(dāng)前所有運行的線程進(jìn)行監(jiān)控,對那些可以優(yōu)先降級處理的線程進(jìn)行標(biāo)記。操作系統(tǒng)的調(diào)度器會實時監(jiān)控線程控制器的信息,然后根據(jù)線程控制器的標(biāo)記,升級或者降級部分線程,或者根據(jù)線程控制器的信息以及操作系統(tǒng)本身對線程的判斷,綜合做出決定。
英特爾表示,線程控制器的最小操作時間可以是30us,而傳統(tǒng)的操作系統(tǒng)可能需要100ms才能做出同類型但不一定正確的操作。此外,英特爾還給出了有關(guān)硬件線程控制器的更多信息。在一般情況下,操作系統(tǒng)剛啟動的時候,第一個線程會被直接交由性能核處理,直到所有的性能核都被占滿后,再轉(zhuǎn)移給能效核。需要注意的是,對SMT核心而言,英特爾目前的設(shè)計是如果有16個線程進(jìn)入,這16個線程的8個會被分配到性能核,剩余的8個并不是進(jìn)入性能核的SMT線程,而是進(jìn)入能效核。相比SMT線程而言,能效核的|生能顯然要高出很多,但是這也增加了測試的復(fù)雜性。
在能耗方面,硬件線程控制器還有一些獨特的功能,比如在電池供電或者節(jié)能模式下,線程會優(yōu)先派往能效核。另外,操作系統(tǒng)的調(diào)度程序也會根據(jù)硬件控制器的信息,更積極地決定掛起或者關(guān)閉某些核心以節(jié)省電量,比如所有操作任務(wù)都指向能效核心的話,所有性能核都會進(jìn)入休眠狀態(tài)。此外,Windows 11還擴(kuò)展了Power Throttling API,讓開發(fā)人員能夠為其線程明確指定服務(wù)質(zhì)量屬性,EcoQos分類也可以告知操作系統(tǒng)的調(diào)度器相關(guān)軟件的信息。
Alder Lake:初露崢嶸
在介紹完有關(guān)核心架構(gòu)和硬件線程調(diào)度器的內(nèi)容后,接下來我們再來了解一下Alder Lake的相關(guān)信息。由于本次發(fā)布會偏向于架構(gòu)和技術(shù),因此英特爾沒有給出Alder Lake在型號和性能方面的內(nèi)容,整體介紹更偏向于技術(shù)和架構(gòu)。
Alder Lake是英特爾在多核心處理器發(fā)展歷史上一個全新的嘗試。英特爾宣稱Alder Lake帶來了單一可擴(kuò)展的架構(gòu),能夠滿足從9W到125W不同的TDP功耗需求。另外,其核心架構(gòu)采用了全新的設(shè)計,加入了大量新的技術(shù)支持,比如DDR5、PCIe 5.0、雷電4接口和Wi-Fi 6E等。從硬件規(guī)格來看,Alder Lake目前分為三個類型:桌面型、移動型和超輕薄型。其中,桌面型采用了新的Socket 1700接口,和之前的LGA 115x系列完全不同,前者觸點更多、面積更大。相比之下,移動型和超輕薄型就小很多,這兩者都采用BGA封裝,移動型使用的是BGA Type 3,封裝尺寸為50mm×25mm×1.3mm。超輕薄型更小,采用的是BGA Type 4 HDI封裝,尺寸僅為28.5mm×19mm×1.1mm,更適合面積狹窄且輕薄的設(shè)備使用。
Alder Lake本身采用模塊化設(shè)計,其基本模塊分為五類,分別是:CPU核心的效能CPU核心和性能CPU核心;功能模塊的顯示模塊、IPU(圖像處理單元)模塊、GNA 3.0(高斯神經(jīng)加速器)模塊、PCIe控制器、TBT(雷電接口)模塊;核芯顯卡方面有兩個規(guī)格,分別是96EU搭配媒體功能模塊,這是用于移動設(shè)備的,對桌面設(shè)備而言則是32EU搭配媒體功能模塊;存儲方面則是LCC模塊和內(nèi)存模塊;最后則是SoC的部分。利用這些模塊化設(shè)計,Alder Lake針對桌面、移動和超輕薄設(shè)備帶來了不同的配置方案。
針對桌面市場,英特爾沒有在處理器內(nèi)部集成雷電接口和圖像處理單元,這意味著桌面處理器如果想要使用雷電接口,那就需要額外配置芯片或者從主板芯片組引出。另外,3款處理器都加入GAN 3.0單元,這意味著一些小型的AI計算可以不動用CPU核心就能夠完成。對大家最關(guān)心的臺式機(jī)處理器而言,頂級型號的Alder Lake處理器最終擁有8個能效核、8個性能核、24個線程、最高30MB非包容性L3緩存。
內(nèi)存方面,Alder Lake支持的規(guī)格很多,包括DDR5 4800、DDR4 3200、LPDDR5 5200以及LPDDR4X4266等。英特爾確認(rèn)Alder Lake中的內(nèi)存控制器將支持所有展示出來的規(guī)格,這意味著主板上布局何種內(nèi)存將取決于主板廠商,比如為一些ITX主板加入LPDDR5的內(nèi)存支持,對一些高性價比產(chǎn)品來說,加入DDR4 3200內(nèi)存支持等。
英特爾特別提到,Alder Lake的桌面版本將支持動態(tài)電壓頻率擴(kuò)展以及“增強(qiáng)的超頻功能”,后者的具體內(nèi)容現(xiàn)不得而知,但應(yīng)該會給超頻玩家更多可調(diào)的參數(shù)和范圍。
在PCIe控制器方面,Alder Lake支持20個PCIe通道,其中16條PCIe 5.0通道,剩余的4條是PCIe 4.0通道。PCIe 4.0 x4-般會用于高性能SSD。PCIe 5.0x16可以被拆分為2個PCIe 5.0 x8以支持更多的獨立設(shè)備。另外,芯片組方面,Alder Lake的芯片組將額外提供12個PCIe 4.0通道和1 6個PCIe 3.O通道,這將使得大量的設(shè)備可以通過芯片組實現(xiàn)高速連接,比如10Gbps的網(wǎng)卡或者PCIe 4.0的SSD。不過英特爾并未透露芯片組和CPU之間的連接帶寬,如果這個帶寬不夠的話,那么芯片組的擴(kuò)展性將會受到嚴(yán)重影響。筆者期待其連接帶寬最好相當(dāng)于PCIe 5.0x4(可能性很小),如果是PCIe 4.0 x4的話,也很不錯了。
在SoC層級,英特爾還給出了一些信息。Alder Lake內(nèi)部處理器核心之間的連接保留了Tiger lake上出現(xiàn)過的計算總線(Compute Fabric),其帶寬最高可達(dá)1000GB/s,并且可以動態(tài)調(diào)整。這個計算總線采用的是雙環(huán)、寬帶設(shè)計,當(dāng)任務(wù)較少的時候,英特爾可以選擇禁用其中的一個以節(jié)約能耗,畢竟計算總線整體功耗相當(dāng)高,是整個處理器中主要的功率消耗來源之一。內(nèi)存總線(Memory Fabric)方面,英特爾給出的數(shù)據(jù)是204G B/s,這個數(shù)據(jù)實際上遠(yuǎn)超雙通道DDDR5 4800的帶寬,所以這里可能是考慮到多個模塊同時讀取內(nèi)存的需求。IO總線方面,英特爾給出的數(shù)據(jù)是64GB/s,基本就是PCIe 5.0 x16的帶寬了。
目前的消息顯示,Alder Lake的整體設(shè)計還是非常卓越的,無論是模塊化設(shè)計、內(nèi)部互聯(lián)以及外部帶寬方面,都站在現(xiàn)有技術(shù)的高點。目前僅存的就是具體的產(chǎn)品劃分和規(guī)格問題了,比如酷睿i3、酷睿i5等處理器有多少個性能核和能效核等。這些問題只有等待接下來Alder Lake上市時才有更多內(nèi)容了。