李實
處理器的單核心性能在許多應(yīng)用場合中都很重要,但是隨著現(xiàn)有條件下單核心性能接近天花板,以及多線程應(yīng)用和并行計算的興起,在服務(wù)器、超級計算機等設(shè)備上,更多的核心和更強悍的多線程性能變得備受關(guān)注。尤其是針對那些計算任務(wù)并不重,但是對分發(fā)性能要求特別高的數(shù)據(jù)中心來說,更多的核心和線程意味著它可以響應(yīng)更多的訪問需求,也意味著更大的商業(yè)市場規(guī)模。在這種情況下,一些廠商開始推出基于非x86架構(gòu)的超多核心處理器,搭配SM丁多線程技術(shù),帶來了令人耳目一新的技術(shù)與產(chǎn)品。
說起超多核心處理器,如今風(fēng)頭正盛的要數(shù)AMD了,擁有64核心的銳龍線程撕裂者3990X利用其多核心加上128線程的優(yōu)勢規(guī)格,輕松拿下了當(dāng)下x86處理器的性能桂冠。雖然AMD依靠這款處理器一步登頂,但是從市場和技術(shù)的角度來看,在x86架構(gòu)的應(yīng)用中,64個物理核心很可能是x86處理器在短期內(nèi)發(fā)展的極限了。那么,更多核心的處理器發(fā)展方向在哪里呢?答案是ARM,這個在移動計算上大放光彩的架構(gòu),目前也逐步進(jìn)入服務(wù)器市場,并且聯(lián)合多家廠商推出了更多核心的處理器產(chǎn)品。
這是一款擁有96核心384線程的處理器
ARM以及相關(guān)架構(gòu)產(chǎn)品進(jìn)入服務(wù)器領(lǐng)域已經(jīng)有數(shù)年時間了,不過由于缺乏事實上的領(lǐng)導(dǎo)者,因此整個產(chǎn)品規(guī)劃和發(fā)展都顯得比較混亂,廠商更傾向于根據(jù)自己的客戶和市場情況定制相應(yīng)的處理器架構(gòu),各家廠商之間也存在無序競爭的狀態(tài)。在這些年,既有不少失敗后倒下的公司,也興起了很多有創(chuàng)意的產(chǎn)品。其中不得不提的是Cavium,這家企業(yè)是ARM在服務(wù)器芯片領(lǐng)域的開拓者之,,但最終被美滿電子(Marvell)收購。這次收購讓美滿電子獲得了一個完整的服務(wù)器處理器研發(fā)產(chǎn)品線和數(shù)代相關(guān)產(chǎn)品。
美滿電子旗下的第一代ARM架構(gòu)服務(wù)器產(chǎn)品被稱為Thunder X,這款產(chǎn)品在設(shè)計和運行上存在一些問題,比如阻塞的L1緩存、高延遲的L2緩存以及高延遲的DRAM,此外還有低負(fù)載下運行功耗較高的問題??梢哉f,Thunder X在很大程度上是一款試水之作,并沒有大規(guī)模流向市場。第二代產(chǎn)品被稱為Thunder X2,這代產(chǎn)品發(fā)布于2018年,此時ARM上的Linux生態(tài)逐漸成熟,不再需要專門的Linux內(nèi)核和其他工具配合,軟硬件表現(xiàn)上更為出色。實際運行下來,雖然ThunderX2還存在一些問題,比如分支密集型代碼的運行速度較慢,其中涉及L3緩存未命中以及DRAM延遲較高等問題,但是Thunder X2在大部分應(yīng)用和測試中的表現(xiàn)還是很出色的,甚至在部分測試中展現(xiàn)出當(dāng)時服務(wù)器市場上最出色的每單位價格性能。從這一代產(chǎn)品開始,Thunder X系列處理器真正進(jìn)六了“可用“的商業(yè)化狀態(tài)。
2020年,美滿電子又發(fā)布了全新Thunder X3。這款處理器屬于丁hunderX家族微體系架構(gòu)的后續(xù)產(chǎn)品,采用7nm工藝制造,加入了4路SMT等關(guān)鍵特性,還通過全新定義的微體系架構(gòu)提高了處理器的IPC、時鐘頻率以及更多的內(nèi)核數(shù)量。現(xiàn)T在Thunder X3能在單路系統(tǒng)中最多提供96個核心和384個線程,這是令人驚訝的數(shù)據(jù)。
在處理器研發(fā)背景方面,美滿電子提到,因為現(xiàn)在越來越多的應(yīng)用程序開始向云端遷移,并且這些應(yīng)用程序不但在工作性質(zhì)方面發(fā)生了變化,而且整個工作負(fù)載的模式和生態(tài)系統(tǒng)也在改變,客戶開始更加注重自定義軟件堆棧并擴展這些應(yīng)用程序。這意味著客戶不一定只注重單核心、單線程性能,還更加看中總吞吐量和功率效率等。
和其他ARM服務(wù)器芯片研發(fā)廠商一樣,大家都看到了x86架構(gòu)在這,方面缺乏執(zhí)行能力和相關(guān)產(chǎn)品,這也很好地反映了英特爾在過去幾年的失誤,尤其是在超多核心處理器方面,當(dāng)然x86總體而言還是具有更高的性能。出現(xiàn)這一問題的原因是x86的相關(guān)產(chǎn)品需要適應(yīng)廣泛的市場目標(biāo),從消費者端一直延伸至服務(wù)器端,最終使得x86的相關(guān)產(chǎn)品在所有客戶的手中都無法達(dá)到最出色的性能和效果。在這,點上,Thunder X3采用的方案能夠很好地避免這個問題,尤其是在電源效率和能耗控制方面,并且能夠帶來更高的系統(tǒng)總吞吐量。
在產(chǎn)品研發(fā)周期方面,美滿電子的產(chǎn)品研發(fā)周期是2年,比如 2016年推出Thunder X,2018年推出ThunderX2,今年也就是2020年則是丁hunderX3亮相。隨后到2022年,美滿電子還準(zhǔn)備推出Thunder X4,其性能表現(xiàn)應(yīng)該更讓人期待。
奪人眼球的強悍規(guī)格
從規(guī)格來看,Thunder X3是一個非常有雄心的設(shè)計,其擁有多達(dá)96個支持ARM v8.3指令集的自定義內(nèi)核,內(nèi)核運行頻率最高為3GHz,最終芯片的TDP值為100W~240W,具體數(shù)據(jù)取決于廠商配置方案。
不過目前美滿電子還沒有提供Thunder X3內(nèi)核設(shè)計的相關(guān)資料,因此只有一些寬泛的的數(shù)據(jù)可供展示。比如美滿電子宣稱,Thunder X3的IPC相比上代產(chǎn)品提高了25%,單線程性能則提高了60%以上,套接字級別的性能提高了超過3倍,由于增加了SIMD單元,其浮點性能甚至可以提高5倍。
說起浮點性能,美滿電子表示Thunder X3的主要特點是擁有4個128位的SIM。執(zhí)行單元。就數(shù)據(jù)寬度而言,這相當(dāng)于一個x86 AVX-512單元,這和AMD Rome架構(gòu)擁有的2個256bit的SIMD單元以及英特爾Xeon內(nèi)置的AVX-512向量執(zhí)行單元的吞吐能力處在同一個水平線上。當(dāng)然,英特爾最高端的Xeon處理器可以擴展至2個AVX-512單元,在浮點性能上依舊傲視群雄??紤]到SIMD單元發(fā)熱量和功耗都比較高,在全速運轉(zhuǎn)時ThunderX3的頻率會降低至2.2GHz~2.6GHz(根據(jù)處理器可用的散熱和功率余量而定),這個情況在英特爾或者AMD的處理器上也同樣存在。
Thunder X3另一個特點是SMT。和英特爾、AMD設(shè)計2路SMT不同的是,Thunder X3擁有4r,SMT,這類設(shè)計之前只在IBM Power系列處理器中出現(xiàn)過。從技術(shù)角度來看,SMT的設(shè)計一般不需要在處理器內(nèi)部架構(gòu)上做出太多改變,其需要添加的是處理器在一個周期內(nèi)從多個線程中獲取指令的能力,以及與之匹配的更大寄存器劍牛來保護(hù)來自多個線程的數(shù)據(jù)。在這里,多于一個線程的指令可以在任何指定的流水線階段中同時執(zhí)行。設(shè)計人員可以根據(jù)芯片設(shè)計目的支持2個到8個并發(fā)線程。但是,更多的線程需要考慮處理器內(nèi)部是否有足夠多的資源。一般來說,一個線程并不會占據(jù)處理器流水線上的所有資源,這就為其他線程留下了空間。不過太多線程的加入而沒有充足資源的話,也不會憑空帶來性能的提升。當(dāng)然,在設(shè)計合理的情況下,SMT是隱藏內(nèi)存延遲、提高效率以及增加硬件吞吐量的好力法。在加入了4路SMT后,Thunder X3在最高配置方案下?lián)碛?6個處理器核心和384個線程,這是過去、現(xiàn)在和未來一段時間內(nèi)服務(wù)器市場上出現(xiàn)的最多線程數(shù)量的單路處理器,并且很可能短時間內(nèi)也沒有其他廠商來挑戰(zhàn)。
在處理器的內(nèi)部拓?fù)浣Y(jié)構(gòu)方面,美滿電子沒有更多資料披露,但是暗示這款處理器的CPU內(nèi)核之間擁有統(tǒng)一的低延遲設(shè)計。另外,處理器可以配置單路或者雙路,如果是雙路配置的話,插槽間使用第三代CCIP(Cavium Cache CoherentInterconnect)進(jìn)行連接,兩個插槽之間一共有24個通道,每個通道28Gbit/s,插槽之間的帶寬總計是84GB/s。內(nèi)存方面,Thunder X3支持8個DDR43200內(nèi)存控制器,考慮到如此多的處理器核心,實際上8通道DDR4內(nèi)存也只是剛剛夠用。外部連接方面,Thunder X3擁有64個PCle 4.0通道,這在服務(wù)器處理器上不算多,AMD的Rome提供了128個PCle 4.0通道,剛好是Thunder X3的2倍。
美滿電子目前只披露了上述內(nèi)容,更多詳細(xì)的架構(gòu)情況還需要等待。不過在商業(yè)宣傳上,美滿電子倒是早早地給出了Thunder X3的大量性能數(shù)據(jù)并宣稱其能抗衡市場上的主要競爭對手。
抗衡競爭對手ThunderX3的性能改進(jìn)情況
美滿電子在考慮Thunder X3的競爭對手時,選擇了AMD Rome和英特爾Cascade Lake-SP,其中AMD Rome是AMD最新的服務(wù)器產(chǎn)品,采用Zen 2架構(gòu)和7nm工藝,后者是14nm工藝制造,最多28核心56線程。
在目標(biāo)云測試項目中,ThunderX3展示了顯著超越兩個競爭對手的性能。相比英特爾,Thunder X3依靠更多的核心帶來了更強大的吞吐量,相比AMD Rome,Thunder X3的4路SMT發(fā)揮了很強的作用,也超出了AMD的相關(guān)產(chǎn)品。不過,在一些執(zhí)行和計算綁定的到乍負(fù)載中,Thunder X3則輸給了競字權(quán)寸手,因為4路SMT在這里很難發(fā)揮作用。
在HPC市場上,Thunder X3和競爭對手的優(yōu)勢在于更高的內(nèi)存帶寬、更好的能效比和更多的線程。美滿電子給出的數(shù)據(jù)顯示Thunder X3在浮點測試、內(nèi)存帶寬中取得了勝利,這主要是增加的SIMD單元、更多通道的內(nèi)存控制器帶來的優(yōu)勢,尤其是內(nèi)存延遲比AMD Rome要低一些。但是,考慮到上市時間,Thunder X3在2020年年底上市的時候,可能面對的將是采用了Zen 3架構(gòu)的AMD Milan服務(wù)器處理器,那個時候鹿死誰手就不好說了:
ARM在云端市場的應(yīng)用是越來越廣泛了。Thunder X2此前就成功打辦廠些超大規(guī)模公司中進(jìn)行了部署,比如微軟的zure云就使用了一部分Thunder X2處理器。Thunder X3的優(yōu)勢在于虛擬機市場,因為4路SMT的原因,Thunder X3單處理器擁有最多的線程。不過考慮到4路SMT支持的虛擬機方案,單路性能表現(xiàn)可能會很糟糕,這是否真的能夠成為一個優(yōu)勢,還需要抒一個問號。
最后則是每瓦特性能了。目前美滿電子宣稱Thunder X3的每瓦特性能高出英特爾和AM。的產(chǎn)品不少,美滿電子的數(shù)據(jù)是平均不同的工作負(fù)載后,Thunder X3的每瓦特性能比AMD的Rome還高30%??紤]到ARM架構(gòu)以及Thunder X3的處理器規(guī)模,這樣的效能數(shù)值是非常不錯的。不過ThunderX3相比同樣是超多核心處理器的亞馬遜自研64核心Graviton 2,或霍冰Itra基于ARM Neoverse N1架構(gòu)的64核心處理器的表現(xiàn)是否還會領(lǐng)先,將成為一個有趣的話題。尤其是后者肯定會成為Thunder X3的競字取寸手。不過,Altra的處理器還沒有正式以可用狀態(tài)發(fā)布,因此性能對比暫時無從談起。從架構(gòu)和特性來看,Thunder X3有可能在浮點性能上略勝一籌,并且在諸如數(shù)據(jù)平面的工作中,借助4路SMT,也可能獲得不錯的性能優(yōu)勢。
總結(jié)一下,雖然目前美滿電子尚未準(zhǔn)備好或者還沒有來得及給出Thunder X3的全部介紹,不過初步來看,Thunder X3在技術(shù)和應(yīng)用中表現(xiàn)應(yīng)該符合預(yù)期,有望在服務(wù)器市場形成一定的競爭力。接下來的幾個月,美滿電子還會發(fā)布Thunder X3的相關(guān)信息和架構(gòu)設(shè)計等內(nèi)容,本刊也會持續(xù)關(guān)注。
史上核心最多Tachyum128核心Prodigy處理器
本來Thunder X3在拿下了現(xiàn)有“最多線程處理器“桂冠的同時,還有希望沖擊“最多核心單處理器“的稱號。不過,它被一家來自斯洛伐克的創(chuàng)業(yè)公司搶走了這家名為Tachyum的芯片研發(fā)公司推出的名為Prodigy的處理器,以單處理器集成128個核心的數(shù)據(jù),成為目前最多核心數(shù)量的單處理器。
從歷史背景來看,很少有創(chuàng)業(yè)公司能夠擁有如此強大技術(shù)能力,但是Tachyum卻是一個例外。它的創(chuàng)始人Radoslav Danilak擁有25年的半導(dǎo)體行業(yè)經(jīng)驗,之前創(chuàng)立了SandForce,在被希捷收購后,又創(chuàng)立了Skyera,然后被西部數(shù)據(jù)收購。也正是這兩次并購給他帶來了不少資本,包括資金。隨后,Radoslav DanilaktiIJ羅馬尼亞創(chuàng)立了Tachyum,還獲得了羅馬尼亞政府1700萬美元的創(chuàng)業(yè)扶持資金。它的第一款產(chǎn)品就是Prodigy,全個全球最多核心的處理器產(chǎn)品。言歸正傳,下面我們就來一起看看這個128核心的處理器都有哪些特別之處。
全球首個通用處理器 通吃各類任務(wù)
和之前的Thunder X3資料較少有所不同的是,Tachyum對Prodigy的相關(guān)信息披露得比較齊全,包括產(chǎn)品定位、規(guī)格、架構(gòu)等。在Tachyum的定義中,Prodigy并不是一個傳統(tǒng)處理器,而是被定位為“通用處理器“(universal processor),設(shè)計目標(biāo)是面向服務(wù)器、AI、超算等市場。Tachyum宣稱Prodigy擁有實時模擬人腦大小的神經(jīng)網(wǎng)絡(luò)功能,并且整體架構(gòu)融合了CPU和GPU的優(yōu)勢,還是全球首個將通用處理器、高性能計算、AI人工智能、DML深度機械學(xué)習(xí)、可解釋人工智能(Explainable AI)、生物人工智能(Bio AI)和其他AI學(xué)科所需要的計算任務(wù)結(jié)合在一起的處理器,本身基于并行多處理器環(huán)境和可簡化的編程模型等,能夠高效適應(yīng)不同場合的不同工作任務(wù)。
Prodigy采用的工藝是臺積電的7nm工藝,采用85mm邊長的正方形FCBGA封裝,實際芯片面積會更小一些,也小于AMD采用SP3接口的線程撕裂者的封裝尺寸。產(chǎn)品型號方面,Prodigy擁有4個型號,分別是T216、T432、T864和T16128,其中后幾位數(shù)字表明了處理器中包含的核心數(shù)量,比如T864就是有64個核心,T16128則是由128個核心。相關(guān)規(guī)格方面,本文列表如下:
以Prodigy最高端的T6128為例,這款處理器集成了128個核心,64bit架構(gòu),支持512bit向量計算,支持Al和ML向量和矩陣加速,在4GHz頻率下每周期執(zhí)行4個指令(4發(fā)射設(shè)計),支持虛擬化和高級RAS功能。緩存方面,T6128的指令緩存為32KB,支持ECC,數(shù)據(jù)緩存為32KB,支持ECC,最后一級緩存為64MB,支持DECTED ECC校驗。內(nèi)存方面擁有12個DDR5內(nèi)存通道,但是每個通道只支持1個DIMM,DDR5內(nèi)存頻率最高支持4800MT/s,最大容量支持512GB內(nèi)存。IO方面,支持4006網(wǎng)絡(luò)接口和48個PCle 5.0通道,擁有36個控制器。性能參數(shù)方面,這款處理器最高支持262TFLOPS的AI計算性能和16TFLOPS的HPC計算性能,后者應(yīng)該是指雙精度計算能力。
除了上述信息外,Tachyum沒有給出有關(guān)Prodigy使用的指令集的信息,但是宣稱其無論是單線程性能還是多線程應(yīng)用,都比英特爾的至強處理器更出色,但是又比ARM相關(guān)產(chǎn)品要更小巧。
Prodigy核心架構(gòu)解析
雖然Tachyurn沒有公布有關(guān)Prodigy使用了什么指令集,但還是公開了包括緩存、指令拾取、執(zhí)行、內(nèi)存等諸多架構(gòu)細(xì)節(jié)信息,值得一看。
先來看Prodigy的核心設(shè)計。Prodigy處理器采用了三級緩存設(shè)計,其中一級數(shù)據(jù)聯(lián)合緩存和指令聯(lián)合緩存都采用了2-way方案,容量均為16KB。需要指出的是,Prodigy在架構(gòu)圖中的緩存信息和產(chǎn)品公布的緩存信息存在差異。具體來說,產(chǎn)品公布的一級緩存采用的是32KB+32KB的設(shè)計,而架構(gòu)解析中顯示采用的是16KB+16KB的方案。目前暫時不知道誰是正確值,也有可能是Prodigy在隨后的設(shè)計中調(diào)整了容量。接下來,L2緩存采用4-way方案,容量為256KB,TLB采用了2-way方案,容量為256個條目隊列,L3緩存是每個緩存片擁有512KB,這應(yīng)該和整個緩存區(qū)域設(shè)計相關(guān)了。
在執(zhí)行方面,Prodigy的處理器核心包含了1個讀取單元、1個讀寫單元和1個寫單元,執(zhí)行方面包含了3個整數(shù)和地址ALU,2個移位器和2個分支單元。計算方面,Prodigy的核心設(shè)計了2個512bit的向量/矩陣的整數(shù)/)-點乘加單元,以及月個512bit向量ALU搭配1個移位器l移位單元。從這個酉己置信息來看,Prodigy的核心設(shè)計計算能力非常強大,尤其是2個512bit的向量/矩陣的整數(shù)/浮點乘加單元和3個512bit向量ALU,是高性能處理器都不多見的高計算密集核心設(shè)計方案,強如AMD Zen 2或者英特爾Cascade Lake-SP,也只有相當(dāng)于1 I' AVX-512的浮點計算單元。當(dāng)然,目前還不是很清楚Prodigy在計算楊自設(shè)計方面的細(xì)節(jié),但僅就規(guī)模來看還是頗為令人驚訝7o其他一些特性還包括執(zhí)行部分允許盡早生成地址以減少負(fù)載使用延遲,控制方面支持暫時掛起推測存儲并不提交緩沖區(qū)直到分支預(yù)測完成等功能,相當(dāng)完善。
核心流水線設(shè)計方面,P「。digy采用了9級整數(shù)流水線和14級向量/矩陣乘加流水線,數(shù)據(jù)存儲配置采用了上文提到的一個256條目的2-wayTLB,搭配1個讀取單元、1個讀寫單元和1個寫單元,此外還有包括整數(shù)ALU,整數(shù)移位、分支預(yù)測單元、向量/矩陣乘加單元、整數(shù)向量單元以及相關(guān)緩存控制器、Mesh網(wǎng)絡(luò)接口等。Prodigy在示意圖中還很貼心地為這些單元標(biāo)記了次序和深度,值得稱贊。
Prodigy在指令拾取和分支方面的設(shè)計也很出色。除了上文介紹的部分內(nèi)容外,Prodigy會在硬件分支預(yù)測失敗后,每周期重新填充64byte的數(shù)據(jù)。拾取方面,每個時鐘周期可姍良據(jù)不同的類型和需求,拾取4、8,12或者16bit的數(shù)據(jù),另外還允許在指令排序之前進(jìn)行拾取操作,寬度為12個入口。分支預(yù)測方面,每個時鐘周期最多可以執(zhí)行2個條件分支,當(dāng)遇到分支錯誤的時候,數(shù)據(jù)延遲或者流水線刷新周期會控制在7個時鐘周期以內(nèi),分支預(yù)測期也加入了修復(fù)錯誤分支預(yù)測的功能,但是暫時沒有明確其操作原理。進(jìn)一步來看分支預(yù)測單元,整個Prodigy的分支預(yù)測單元包含了靜態(tài)和動態(tài)兩個部分,大多數(shù)分支預(yù)測只有不高于1個周期的耗費,靜態(tài)分支預(yù)測需要耗費2個周期,分支預(yù)測器采用的是基于全局歷史的方案,支持1024個條目的分支預(yù)測緩存和16個條目的分支目標(biāo)微緩存。整個分支預(yù)測也加入了循環(huán)、堆棧預(yù)測等方法來加強效能。
在向量和矩陣計算方面,除了前文的內(nèi)容外,Prodigy能夠支持IEEE雙精度、單精度和半精度FPU,AI計算方面采用的是8位浮點算法。矩陣計算方面,Prodigy的方案最終功耗相比可比方案能夠降低4倍之多,能夠支持16bit的Int/FP 8x8矩陣或者FP64、FP32格式的4×4矩陣計算。在未來進(jìn)一步優(yōu)化后,矩陣計算的性能還能夠提高至現(xiàn)在的2倍。
內(nèi)存方面,Prodigy在核心的數(shù)據(jù)網(wǎng)絡(luò)上采用的是Mesh架構(gòu),每個核心的每個周期、每個方向都可以傳遞32byte的數(shù)據(jù),整個網(wǎng)絡(luò)設(shè)計采用了低延遲和請求/響應(yīng)的網(wǎng)絡(luò)特性,采用更為公平的數(shù)據(jù)傳遞仲裁方案,數(shù)據(jù)傳輸以全時鐘周期計算的話,支持每周期一跳,并且支持ECC校驗保護(hù)。內(nèi)存控制器方面,Prodigy同時支持DDR和DDR5,也支持ECC。但是,在Prodigy的資料中顯示,8個內(nèi)存控制器中的2個可以任選DDR4/5內(nèi)存支持,另外3個支持DDR4。不過,Prodigy沒有說剩余的3個控制器支持什么規(guī)格的內(nèi)存,猜測可能是只支持DDR5。這里存在一個疑問,那就是作為一個高端處理器,在內(nèi)存支持上如此紛雜。一般來說這類處理器要么全部支持、要么全部不支持,類似Prodigy這樣根據(jù)控制器/通道來選擇支持內(nèi)存類型的不多見,目前還不確定是筆誤還是設(shè)計人員有特殊考量。
另外,整個處理器還加入了2個HBM3控制器,支持8GB、16GB和32GB等不同的HBM3方案,同樣支持ECC。HMB3可以用作DRAM的緩存或者內(nèi)存,或者干脆不使用。在Mesh網(wǎng)絡(luò)之外,Prodigy還擁有一個內(nèi)部的IO環(huán)狀總線,將所有的內(nèi)存控制器、PCle控制器、網(wǎng)絡(luò)接口以及處理器Mesh網(wǎng)絡(luò)連接在一起。這個環(huán)狀總線的速度是每周期IO到DRAM為32byte,其設(shè)計和英特爾的Ring Bus基本類似,只不過Prodigy的核心更多,加入了Mesh網(wǎng)絡(luò)予以加強。不過,同時使用環(huán)形總線和Mesh網(wǎng)絡(luò),在晶體管耗費上可能存在一些問題,這還需要進(jìn)一步去考量相關(guān)因素。
最后來看軟件方面,Prodigy目前可以支持FPGA模擬器、蜘牛模擬器、二進(jìn)制翻譯器、C/C++/Fortran編譯器、調(diào)試器和配置文件、TensorFlow編譯器等諸多現(xiàn)有環(huán)境,當(dāng)然操作系統(tǒng)只支持Linux。
替代英特爾至強和AMDEPYC,Prodigy能成功嗎?
目前Prodigy的處理器只流片了64核心版本以及針對AI和HPC的版本。根據(jù)Tachyum的計劃,Prodigy T864將用于取代單雙路的至強E7和至強E5或者相對應(yīng)的AMD產(chǎn)品,32核心的Prodigy T432將用于取代至強E5、至強E3以及至強E系列。
從Prodigy的設(shè)計來看,這款處理器亮點頗多,比如Mesh和環(huán)形總線的網(wǎng)絡(luò)互聯(lián)架構(gòu),強大的浮點、矩陣運算單元,較出色的分支預(yù)測單元和多級緩存設(shè)計。但是,這款處理器的設(shè)計和其宣稱的市場覆蓋情況還是存在一定差異的。處理器設(shè)計上最高效率的往往是專精的定制化產(chǎn)品,兼容性和目標(biāo)市場越大,包袱就越多。作為業(yè)內(nèi)老手,Prodigy處理器的Tachyum公司不可能不知道這,點,但是在宣傳和產(chǎn)品方案上,我們依舊看到了大量類似的宣傳。目前尚不知道這款產(chǎn)品是否真的有宣傳白勺那樣出色,還是只是紙上談兵,我們還需要等待后續(xù)發(fā)展。