現(xiàn)在我們都知道,在絕大多數(shù)情況下處理器的性能與核心數(shù)量成正比,多核“吊打”單核就是天經(jīng)地義。然而,如何在1顆芯片里塞進(通過封裝技術(shù))更多核心?這個問題曾一度困擾著整個半導(dǎo)體行業(yè)。
將時間的指針撥回到1995年P(guān)entium Pro的誕生前夜,受當(dāng)年落后制程工藝(350nm~500nm)的拖累,別說在1顆芯片內(nèi)實現(xiàn)雙核設(shè)計,就連高速二級緩存單元都無法同時與運算核心在1顆晶圓顆粒內(nèi)共存。因此,當(dāng)時英特爾的解決思路是使用2顆晶圓顆粒,分別用于制造運算核心與高速二級緩存(L2),再將它們一起封裝進1塊CPU的基板上,最終造出了Pentium Pro(圖1)。而這種將雙晶圓“膠合”在一起的設(shè)計,就是“膠水雙核”概念的最早來源。
在未來的時間里,英特爾將“ 膠水”設(shè)計進一步發(fā)揚光大—— 先是將2個單核心整合封裝的“奔騰D”(Penti um D)雙核處理器,再到將2個雙核心整合封裝的Core 2 Quad四核處理器(圖2),“膠水”的工藝和配方不斷成熟,這種“膠合”在一起的多核處理器的表現(xiàn)也有所改善。
當(dāng)然,這種由膠水粘貼出來的多核處理器依舊飽受爭議,在當(dāng)年曾一度掀起了“真假雙核”和“真假四核”的討論,大體結(jié)論是“真多核”性能大多領(lǐng)先“假多核”,以至于一提到“膠水多核”大家就一臉鄙夷。
時至今日,類似的“膠水”技術(shù)仍在處理器領(lǐng)域混得風(fēng)生水起,只是它已經(jīng)不僅限于單純的CPU運算單元,而是可以“膠合”更多模塊。
所謂的“膠水”,主要指的就是MCM(Multichip Module,多芯片模塊)技術(shù),它能將多顆芯片和其他單元組裝在同一塊多層互連基板上,然后進行封裝,從而形成高密度和高可靠性的微電子組件。
繼Pentium Pro、PentiumD和Core 2 Quad之后,英特爾還利用MCM技術(shù)先后將CPU和GPU(圖3)、CPU和PCH(圖4)、CPU和eDRAM緩存(圖5)打包組合。
AMD也沒閑著。進入Zen架構(gòu)時代之后,AMD在Ry zen銳龍及EPYC霄龍?zhí)幚砥魃弦惨肓薓CM技術(shù)(官方稱為CCX多核架構(gòu)),它們可以在一塊基板上封裝多個CPU Die,每個CPU Die最多可集成8核心16線程的CPU和32MB三級緩存等單元。想擁有更多的物理核心和性能,只需搭配不同數(shù)量的CPU Die即可(圖6)。類似的“膠水多核”還見于英特爾最新的Cascade Lake-AP 48核處理器,其本質(zhì)是由兩個24核的Cascade Lake處理器通過MCM技術(shù)組合而來,也并非原生48核。
雖然在歷史上“膠水多核”的名聲非常不好,但這項技術(shù)在今天卻有著浴火重生的態(tài)勢。究其原因,還是摩爾定律逐漸失效,提升頻率和增加核心之路變得越發(fā)艱難。
理論上講,將CPU、GPU、緩存、I/O等控制器打包到同一塊晶圓芯片上(單片電路)最是完美(圖7),但在半導(dǎo)體工藝逐漸逼近物理極限的情況下,既想要更多的核心,還要更高的主頻,集成包括CPU、PCH、I/O單元、DDR內(nèi)存控制器、PCIe控制器和IF控制器在內(nèi)的所有常見功能模塊,成本還不能太高——純屬做夢!
因此,在現(xiàn)有工藝的水平上,最經(jīng)濟可行的解決方案,唯有異構(gòu)MCM之路。然而,處理器基板的面積有限,表面多顆芯片之間的通訊還存在延遲的隱患,這就需要處理器廠商優(yōu)化封裝技術(shù),并引入更高速的總線接口。
想將不同的功能模塊單元膠合在同一塊基板上看起來很容易,但現(xiàn)實情況卻是困難重重(圖8)。比如,不是所有功能模塊都需要最先進的工藝,CPU和GPU用7nm,內(nèi)存控制器14nm就足夠了。但是,想將這些不同工藝的芯片融合在一起,還要降低成本和保證良品率,這可不是傳統(tǒng)2D封裝技術(shù)能搞定的,于是就有了2.5D封裝技術(shù)。
在2. 5D封裝技術(shù)上,知名的方案主要以臺積電的“InFO”(整合型扇出)和英特爾“EMIB”(嵌入式多芯片互連橋接)為主,前者能以較低成本的有機封裝來連接芯片,但在密度上不如EMI B。此外。AMD曾在Fur y X顯卡首次商業(yè)化的HBM顯存技術(shù)將GPU核心與H B M 核心整合在一個底座上,新一代銳龍?zhí)幚砥鞑捎玫?nmCPU Die和14nm I/O Die單元分離設(shè)計(圖9),也都是利用了2.5D封裝技術(shù)。
我們可以將以英特爾EMIB為代表的2.5D封裝技術(shù)理解為“平面版”的樂高積木,可以在一個固定大小的平面上,橫向固定不同樣式和大小的積木塊。在處理器領(lǐng)域,這些積木塊就變成了由不同工藝打造的不同功能模塊,比如7nm工藝的CPU、10nm的GPU、14nm的I/O單元、22nm的通訊單元等等。EM I B的意義就在于能將不同制程的芯片組合在同一基板的封裝之中,同時它還具有正常的封裝良品率、不需要額外的工藝、設(shè)計簡單等優(yōu)點(圖10)。英特爾和AMD攜手打造的“KabyLake-G”平臺處理器(整合Cof fe e Lake-H架構(gòu)的C PU、AMD Ve ga架構(gòu)的GPU以及4GBHBM2顯存)以及Stratix 10 FPGA就是EMIB技術(shù)的首次預(yù)演。
問題來了,2. 5D封裝技術(shù)可以容納多少功能模塊取決于基板大小,對于絕大多數(shù)處理器的芯片尺寸而言,空間總是不夠用的。此時,就需要一種類似“立體版”的樂高積木了,可以像蓋樓一般將所有需要的功能模塊一層層地縱向疊加累積起來。
提起芯片的堆疊,可能很多朋友都會想到智能手機——幾乎所有的新款手機都會選擇將內(nèi)存芯片覆蓋在處理器芯片上以節(jié)省主板空間(圖11),疊放還能讓處理器和內(nèi)存間的引線長度最短,從而降低線路噪音、訪問延遲、電力損耗。手機領(lǐng)域的這種內(nèi)存和處理器“疊羅漢”的設(shè)計即PoP(元件堆疊裝配),它屬于最初級的3D封裝技術(shù),屬于一種在多成品芯片之間的“堆疊”+焊接。
真正的“3D封裝”,應(yīng)該是一種晶圓對晶圓(Wafer-On-Wafer)無凸起的鍵合(Bonding)3DIC制程技術(shù)。目前符合這一標(biāo)準(zhǔn)的技術(shù),主要以臺積電旗下的“SoIC”,以及英特爾主推的“Foveros”的3D封裝技術(shù)為主。
先來看看臺積電的SoIC技術(shù),它是基于CoWoS與多晶圓堆疊技術(shù)開發(fā)的新一代創(chuàng)新封裝技術(shù),利用硅穿孔(TSV)技術(shù)將多種不同性質(zhì)的臨近芯片整合在一起(圖12),用于結(jié)合的機密材料(號稱價值十億美元)能直接透過微小的孔隙溝通多層的芯片,在減小厚度的同時還能增加多倍以上的性能。
英特爾Foveros技術(shù)的原理是通過TSV和微凸塊(Micro-Bumps)技術(shù),堆疊其他的晶圓芯片和微芯片。它可以讓只能在EMIB封裝技術(shù)中以平面分布的功能模塊縱向立體地摞在一起,在犧牲一點點厚度的前提下就可進一步壓縮處理器基板的尺寸(圖13)。以引言中提到的Lakefield處理器為例,它在12mm×12mm的面積里就集成了1個10nm制程的SunnyCove架構(gòu)CPU大核、4個10nm制程的Tremont架構(gòu)CPU小核、以及LPD DR4內(nèi)存控制器、L2和L3緩存以及Gen11 GPU單元(圖14)。
作為目前最高級的“膠水”,3D封裝技術(shù)能在更小尺寸的芯片里就整合更多的功能模塊。然而,在制程工藝已逼近物理極限,異構(gòu)計算大行其道,更多不同類型的芯片需要集成在一起的大環(huán)境下,無論SoIC還是Foveros似乎都還有所不足。
為了實現(xiàn)基于封裝技術(shù)就能在更小尺寸的基板上打造出集成多類型小芯片的SoC系統(tǒng)級單芯片的夢想,英特爾祭出了“終極膠水”——將2 . 5D封裝EMI B和3D封裝Foveros技術(shù)優(yōu)勢集于一身的“Co-EMIB”方案(圖15),它能在將多芯片橫向拼接的同時,還能在任意芯片的表面繼續(xù)“蓋高樓”,并通過全方位互連(ODI)技術(shù)、裸片間接口(MDIO)技術(shù)和硅通孔(TSV)技術(shù)解決多芯片矩陣之間互聯(lián)通訊和延遲等問題。
總之,在異構(gòu)計算時代,“膠水多核”已經(jīng)不再是招人嘲笑的對象,而是一種符合歷史發(fā)展潮流的必然選擇。只是,借助封裝技術(shù)將更多芯片靈活地“打包”后,需要面臨更為嚴(yán)苛的散熱問題,開發(fā)人員需要更加精心地考慮系統(tǒng)的結(jié)構(gòu)(甚至影響系統(tǒng)的物理結(jié)構(gòu)和芯片的核心架構(gòu)),以適應(yīng)、調(diào)整各個熱點。
回到正題上來,前文提到的Lakef ield其實已經(jīng)不再是單純的處理器,而是一套完整的SoC,在指甲蓋大小的芯片里就融合了過去需要布滿整塊主板的功能模塊。除了成就這一輝煌的Foveros 3D封裝技術(shù),Lakef i eld全新的大小核架構(gòu)也值得引起我們的關(guān)注。
提起“ 大小核”,相信很多讀者朋友都會想到ARM領(lǐng)域的Big. Little技術(shù)。為了讓智能手機的處理器(準(zhǔn)確來說也是SoC)可同時兼顧高性能和低功耗的特性,ARM于2011年提出了Big.Little概念,允許SoC采用一組高性能“大”(Big)CPU集群和一組高效率“小”(Lit tle)CPU集群的組合,三星在CES2013大會上發(fā)布的Exynos5Octa(4×Cortex-A15+4×Cor tex-A7)就是首款基于Big.Lit tle技術(shù)設(shè)計的八核處理器。
2017年,ARM在發(fā)布COrtex-A75和CO rtex-A55架構(gòu)的同時再度祭出了DynamIQ技術(shù),作為Big.Little的補充,它允許芯片廠根據(jù)需求和成本預(yù)算進行更為靈活的核心搭配,實現(xiàn)2+6、1+7等不同的核心配置方式,可以充分發(fā)揮芯片廠的想象力(圖16)。比如,高通驍龍855采用了1+3+4、麒麟990采用了2+2+4的三叢CPU集群,玩大型游戲大核出力、主流游戲中核參與、日常操作小核足矣,從而實現(xiàn)了趨于完美的能效比表現(xiàn)。
PC領(lǐng)域的X86架構(gòu)處理器其實也總在想辦法平衡性能與功耗之間的矛盾,只是長期以來的解決思路都是通過TDP加以調(diào)節(jié),并輔以靈活的主頻升降機制(圖17)。比如,面向臺式機的酷睿i7-970 0主打頂級性能,擁有65W的TDP,基礎(chǔ)頻率就高達3.0GHz,睿頻加速頻率更是可以達到4.7GHz。面向二合一設(shè)備的Y系列酷睿i7-10510Y的TDP只有7W,將基礎(chǔ)頻率降到1. 2G Hz以節(jié)省功耗,并通過4.5GHz睿頻加速來應(yīng)對短時間內(nèi)的高負載工作環(huán)境。
然而,這種調(diào)節(jié)機制的表現(xiàn)并不經(jīng)濟。還是以i7-10510Y為例,它運行在1.2GHz的主頻時性能驟降,浪費了太多的性能和資源;加速到4.5GHz時的瞬間功耗可能會突破40W,發(fā)熱和功耗將難以控制,最終妥協(xié)的結(jié)果就是只能在最高主頻下堅持幾秒左右。
于是,英特爾LakefieldSoC借著最新10nm制程工藝以及Foveros 3D封裝技術(shù),開展了X86架構(gòu)處理器的“大小核”之旅,在一個晶圓芯片內(nèi)就集成了1顆Sunny Cove架構(gòu)(與第十代酷睿Ice Lake平臺處理器同源)的大核,以及4顆Tremont架構(gòu)的小核,成為了英特爾歷史上第一款5 核混合架構(gòu)的Big.Little處理器(圖18)。
Sunny Cove是英特爾目前最先進的核心架構(gòu),這一點從10nm版的第十代酷睿處理器的實際表現(xiàn)就已得到了證明,哪怕只有單核心也足以應(yīng)對日常較高負載的辦公和娛樂環(huán)境。Tremont則是昔日“Atom”(凌動)家族的后裔(圖19),最近幾年主要被英特爾用于奔騰和賽揚品牌,主打足夠的性能和更低的功耗。
和上代Goldmont Plus架構(gòu)相比,Tremont架構(gòu)在ISA(指令集架構(gòu))、微架構(gòu)、安全性、電量管理等方面均有所提升,其中IPC(每周期指令數(shù))性能更是提升了30%。Tremont獨特的6路前置集群(雙3路集群)亂序執(zhí)行處理單元可以更高效地為后端提供高吞吐量,每個核心都內(nèi)配備獨立的1.5MB二級緩存,并新增三級緩存,整數(shù)和矢量單元執(zhí)行效率也大大提升。
換句話說,LakefieId SoC中的Sunny Cove核心就是移動處理器中的Cortex-A77,而Tremont核心就是COrtex-A55。
作為第一批武裝英特爾Lakefield SoC的設(shè)備,微軟Sur face Neo和三星Galaxy Book S都屬于極致輕薄的偏概念型的產(chǎn)品(圖20),本身也不是專注于發(fā)燒級性能的存在,而是幫助用戶進行一場“說走就走的旅行”。Lakef ieldSoC超小的尺寸可以幫設(shè)備進一步瘦身,其特色的“大小核”架構(gòu)也能更好地兼顧性能和功耗,在滿足輕度娛樂和中度辦公之余獲得更少的發(fā)熱和更持久的續(xù)航,而這些,不恰好就是3D封裝和大小核技術(shù)的終極目標(biāo)嗎?