張平
GTC是英偉達(dá)一年一度的技術(shù)盛會。在今年4月13日的GTC上,英偉達(dá)CEO黃仁勛依舊在廚房、依舊穿著皮衣面向全球用戶進(jìn)行著網(wǎng)絡(luò)直播。不過和2020年“端出來”一整盤A100相關(guān)GPU不同的是,今年的GTC2021,黃仁勛“端”出來的是ARM架構(gòu)的CPU、數(shù)據(jù)加速DPU以及面向汽車駕駛的SoC等產(chǎn)品。尤其是CPU的發(fā)布,迎來業(yè)內(nèi)一片討論熱潮。這一次英偉達(dá)打算做什么?ARM架構(gòu)的CPU登場,意味著英偉達(dá)計劃和英特爾正面廝殺了嗎?
英偉達(dá)一直是—銳意擴(kuò)張的企業(yè)。從GPU起家,隨后進(jìn)入圖形計算、視覺計算市場,在多年耕耘后,終于乘上了AI計算的東風(fēng)?,F(xiàn)在的英偉達(dá)已經(jīng)發(fā)展成為一家以人工智能計算為主,控制了大部分視覺計算市場和資源,并逐漸進(jìn)入服務(wù)器、HPC市場的超大規(guī)模企業(yè)。其股票也從早期的數(shù)美元,一路暴漲至近期的600美元左右,公司市值也已經(jīng)逼近4000億美元,遠(yuǎn)遠(yuǎn)超過市值2800億美元,擁有全產(chǎn)業(yè)鏈、全系列制造技術(shù)的英特爾,風(fēng)頭無兩。
這些數(shù)據(jù)和成就的背后,英偉達(dá)銳意進(jìn)取的態(tài)度和不斷擴(kuò)張的商業(yè)手段是關(guān)鍵。就在最近的2020年,英偉達(dá)宣布將收購ARM,希望借此進(jìn)入移動GPU、移動CPU以及ARM相關(guān)處理器市場并掌控移動計算和其延伸產(chǎn)業(yè)的發(fā)展方向。雖然這頊?zhǔn)召從壳氨话绹?、英國企業(yè)在內(nèi)的多家企業(yè)明確反對,卻也沒有影響到英偉達(dá)和ARM越來越深入的合作,并且合作的結(jié)果很快也顯現(xiàn)出來。
在筆者看來,在2021年的GTC大會上,英偉達(dá)的最大新聞并不是發(fā)布了DPU和全新面向汽車行業(yè)的SoC,而是帶來了代號為“Grace”的CPU廣品(后文間稱GraceCPU)。這款產(chǎn)品將用在英偉達(dá)即將推出的數(shù)據(jù)中心產(chǎn)品中,并搭配英偉達(dá)下一代GPU產(chǎn)品,實現(xiàn)英偉達(dá)在數(shù)據(jù)中心、HPC以及計算設(shè)備上的CPU+GPU“大一統(tǒng)”。
GraceCPU的發(fā)布,在業(yè)界迅速掀起了巨大的波瀾。英偉達(dá)的股價從發(fā)布會之前的550美元左右一舉沖上了630美元。與此對應(yīng)的是英特爾的股價大跌7%,AMD的股價也受到了影響。部分市場分析人士也認(rèn)為英偉達(dá)的GraceCPU是對英特爾的正面沖擊。那么,事實真的是如此嗎?英特爾是否真的危險了呢?
GraceCPU:從發(fā)布會說起
要明確GraceCPU的影響,可以從現(xiàn)有的資料和情況進(jìn)行分析。在GTC2021上,英偉達(dá)提到GraceCPU將用于“計算領(lǐng)域的細(xì)分市場”;GraceCPU采用的是“ArmNeoverse”內(nèi)核,其CPU在SPECrate2017_int_base基準(zhǔn)測試中的分?jǐn)?shù)超過了300分;GraceCPU和GPU的連接部分則采用了第四代NVLink,CPU到GPU的帶寬超過900GB/S;內(nèi)存則采用的是LPDDR5。英偉達(dá)表示,GraceCPU將搭配英偉達(dá)的GPU,配合瑞士國家計算中心建造一個算力可達(dá)20Exaflops的超算。另外,美國洛斯阿拉莫斯國家實驗室也在考慮使用GraceCPU和GPU搭建全新的超算系統(tǒng)。
根據(jù)英偉達(dá)在本次大會后發(fā)布的白皮書,我們可以進(jìn)一步分析:GraceCPU所使用的“ArmNeoverse”應(yīng)該不是現(xiàn)在ARM發(fā)布的版本,而是采用下一代Armv9指令集的新Neoverse架構(gòu),這也和GraceCPU計劃在2023年初上市在時間上相吻合。結(jié)合ARM在前段時間剛剛公布了全新的Armv9架構(gòu),可以確定GraceCPU肯定將引入Armv9指令集新加的大量功能。根據(jù)ARM官方內(nèi)容,Armv9指令集主要是增強(qiáng)面向矢量、機(jī)器學(xué)習(xí)和數(shù)字信號處理器的相關(guān)內(nèi)容,這和英偉達(dá)在GraceCPU上的訴求是高度相似的。
另外,英偉達(dá)在隨后的新聞稿中也提到,GraceCPU是高度專業(yè)化的、面向巨型人工智能和HPC的產(chǎn)品,可以訓(xùn)練擁有超過一萬億個參數(shù)的NLP模型。英偉達(dá)還提到“今天最大的人工智能模型包括數(shù)十億個參數(shù),并且每兩個半月翻一番。訓(xùn)練它們需要一種新的CPU可以與GPU緊密結(jié)合,消除系統(tǒng)瓶頸”。
俗話說,聽話聽音。雖然英偉達(dá)在發(fā)布會上并沒有透露太多GraceCPU的信息,但是英偉達(dá)還是帶來了很多關(guān)鍵點,比如GraceCPU面向的是一個比較窄且專業(yè)的領(lǐng)域、對帶寬的需求是極其巨大,其本身性能表現(xiàn)比較2021年的產(chǎn)品還是可以的,已經(jīng)逼近AMDEPYC7763這種當(dāng)前x86架構(gòu)下最強(qiáng)的CPU,但考慮其2023年才發(fā)布,這個訴求也并不夸張。顯然,GraceCPU是用來幫助英偉達(dá)解決一個棘手問題的產(chǎn)物,解決這個問題可能并不會針對誰,但它帶來的影響和余波卻真的會影響到現(xiàn)在的行業(yè)格局。
AI計算:核心的問題是帶寬
那么,英偉達(dá)需要解決的問題是什么?我們繼續(xù)來看GTC2021上黃仁勛的演講。在演講中,黃仁勛特別提到,英偉達(dá)并不否認(rèn)x86設(shè)備存在的意義,英偉達(dá)依舊認(rèn)為x86設(shè)備擁有靈活的擴(kuò)展性和對各類設(shè)備的支持,x86依然是目前HPC或者服務(wù)器應(yīng)用場合的重點。不過問題來了,英偉達(dá)認(rèn)為x86設(shè)備目前存在一些困難,其中比較典型的就是帶寬不足。
英偉達(dá)的例證顯示,目前x86設(shè)備的核心是x86CPU,x86CPU通過內(nèi)存控制器連接DDR4內(nèi)存,最新的英特爾至強(qiáng)處理器可以實現(xiàn)8通道DDR4內(nèi)存連接,其帶寬大約為200GB/S,但是和GPU連接的帶寬只能依靠PCIe4.0×16,帶寬大約只有16GB/S(雙向32GB/S),同時GPU本地內(nèi)存(顯存)的帶寬在使用HBM2的情況下大約可以達(dá)到2000GB/S。在這種情況下,當(dāng)一個巨大的AI計算模型被讀入系統(tǒng)需要CPU交由GPU計算的時候,GPU將其從主內(nèi)存拷貝至本地內(nèi)存(顯存)的帶寬僅為64GB/S—英偉達(dá)在這里的計算還是比較寬泛的,因為英偉達(dá)考慮到了1個CPU連接了4個GPU。每個GPU都可以使用16GB/S的帶寬從CPU主內(nèi)存中讀取數(shù)據(jù),因此4個加起來的帶寬就是16x4=64GB/s。
這里的瓶頸顯然就是CPU至IJGPU,如果說GPU本身的帶寬是8車道高速公路的話,那么CPU本地帶寬也許可以比作4車道的城市道路,而CPU到GPU的帶寬只能看成一般的鄉(xiāng)村道路了。從2000GB/S到200GB/S再至丨」16GB/S,這里的數(shù)據(jù)帶寬跌落是以數(shù)量級的形式存在的,這顯然不符合現(xiàn)代計算設(shè)備對數(shù)據(jù)帶寬的強(qiáng)烈“渴求”。
為了解決這個問題,英偉達(dá)也想了很多辦法,比如游說業(yè)內(nèi)企業(yè)采用自家更高速的總線NVLink,不過到目前為止只有IBM的Power家族處理器給予了支持,其余的包括英特爾和AMD在內(nèi)的企業(yè)都沒有給予回應(yīng)??紤]到Power處理器昂貴的價格以及其并不可能被英偉達(dá)完全掌控,因此英偉達(dá)開始慎重地考慮自己建立CPU平臺。終于在購買了ARM授權(quán)并宣布收購ARM后,英偉達(dá)推出了GraceCPU,并希望借此來解決前述的帶寬問題。
根據(jù)英偉達(dá)的規(guī)劃,GraceCPU和GPU的連接通道不再是傳統(tǒng)的PCIe,而是改用了第四代NVLink,其可以提供高達(dá)500GB/S的數(shù)據(jù)帶寬。GraceCPU的內(nèi)存控制器改用LPDDR5X,英偉達(dá)沒有公布其具體的位寬情況,但是給出了一個數(shù)據(jù)帶寬為500GB/s。
目前還不知道英偉達(dá)如何達(dá)到如此高的CPU帶寬,因為這里存在一個很大的問題是LPDDR5X應(yīng)該是32bit的顆粒,以現(xiàn)在LPDDR5最高6400MT/S的速率來計算的話,LPDDR5X速率可能最高在8000MT/S左右。這樣一來,GraceCPU的內(nèi)存位寬需要達(dá)到512bit才能實現(xiàn)大約500GB/S的帶寬,也就是支持16個內(nèi)存通道,這對一款CPU來說是非常不可思議的,并且GraceCPU還擁有第四代NVLink總線用于和GPU連接。這意味著CPU內(nèi)部大量的面積和晶體管需要用于外部接口和高速總線。
根據(jù)英偉達(dá)公布的GraceCPU搭配下一代HopperGPU的示意圖來看,GraceCPU內(nèi)部的CPU部分劃分為4個區(qū)域,每個區(qū)域擁有24個核心,總計有96個核心,再加上周圍大量的總線和相關(guān)接口,GraceCPU的面積應(yīng)該不會太小,我猜測其尺寸應(yīng)該和隔壁的HopperGPU相差不多??紤]到類似的NVIDIAA100GPU面積已經(jīng)超過800mm2,因此GraceCPU在2022?2023年的3nm或者更先進(jìn)的工藝加持下,其包含的晶體管面積應(yīng)該非常大,而且成本不低。
耗費(fèi)了如此巨大的成本之后,英偉達(dá)獲得了夢寐以求的針對AI計算以及氣候、材料科學(xué)、高級天氣計算等高帶寬HPC解決方案。根據(jù)黃仁勛的介紹,除了HPC$h,面向行業(yè)用戶的新產(chǎn)品,英偉達(dá)將集成8個GraceCPU,每個提供500GB/S的內(nèi)存和500GB/S的NVLink帶寬,8個GraceCPU搭配GPU后將使得內(nèi)存到GPU的數(shù)據(jù)讀取帶寬提升至4000GB/S,這對大型或者超級大的AI計算模型來說是非常有利的,尤其是相比PCIe總線一即使是2023年P(guān)CIe5.0上線,讀取帶寬翻倍,屆時8個PCIe5.0×16通道的帶寬也應(yīng)該只有大約256GB/S,即使到時候PCIe6.0都已經(jīng)發(fā)布并在產(chǎn)品中部署(可能性不大),同等條件下其帶寬也僅僅只有512GB/S,大約只有英偉達(dá)GraceCPU+GPU方案的1/8。
影響巨大:重新細(xì)分計算市場
從上文的分析可以看出,英偉達(dá)推出GraceCPU和相關(guān)產(chǎn)品的目的是為了解決AI計算和類似超大規(guī)模計算中存在的帶寬問題。畢竟在現(xiàn)有的x86架構(gòu)下,帶寬已經(jīng)嚴(yán)重制約了這類計算的發(fā)展。因此從這一點來看,GraceCPU可能能夠重塑現(xiàn)有AI計算的市場,從而更加鞏固英偉達(dá)在AI計算市場中的地位。
對英偉達(dá)來說,AI計算是其股價飆升的關(guān)鍵,并且英偉達(dá)現(xiàn)在已經(jīng)是事實上成為AI行業(yè)的風(fēng)向標(biāo)。GraceCPU發(fā)布后,英偉達(dá)將在已經(jīng)非常火爆的AI計算市場中再次細(xì)分出一個區(qū)域一也就是本文提到的,不依賴x86架構(gòu),以英偉達(dá)和ARM為主要計算架構(gòu)供應(yīng)者的全新AI計算生態(tài)圈。
這個AI計算生態(tài)圈解決了之前AI計算對帶寬的“渴求”,通過GraceCPU、英偉達(dá)的GPU、NVLink、LPDDR5X
等為大規(guī)模數(shù)據(jù)、超大規(guī)模數(shù)據(jù)的AI計算需求提供了解決菌口。對于這類全新廣品,再力口上附加的英偉達(dá)CUDA和相關(guān)AI的軟件產(chǎn)業(yè)圈,應(yīng)該很快就可以打開市場,為AI計算的發(fā)展帶來全新的方向。
其次,英偉達(dá)的GraceCPU并非針對英特爾和AMD的x86產(chǎn)品,它們在定位上的差距還是比較大的。正如前文所說,英偉達(dá)的GraceCPU在性能方面并不是重點,根據(jù)英偉達(dá)公布的數(shù)據(jù),其整數(shù)算力目標(biāo)是在SPECrate2017_int_base中提供300分以上的成績,浮點算力目標(biāo)值暫時未矢口。GraceCPU的重點依舊是解決CPU和GPU互聯(lián)中的帶寬問題,并且英偉達(dá)也提到并不排除x86計算市場,英偉達(dá)的目標(biāo)是為所有計算市場都提供可匹配的廣品。另外,目前x86市場已經(jīng)形成了一個龐大且擁有長久歷史積累的生態(tài)圈,任何企業(yè)面對這個龐然大物首先想到的應(yīng)該是加入,而不是直接挑戰(zhàn)。
不僅如此,英偉達(dá)在CPU上的努力都會成為該公司在未來發(fā)展的助力。畢竟現(xiàn)在擁有一個完整、閉環(huán)的產(chǎn)業(yè)生態(tài)是所有企業(yè)發(fā)展的目的。英特爾在GPU上努力,AMD在軟件和產(chǎn)業(yè)圈上努力,英偉達(dá)自然應(yīng)該在CPU上努力。如果英偉達(dá)借助ARM的指令集和生態(tài)圈,在企業(yè)級、服務(wù)器以及HPC領(lǐng)域培育出屬于自己的整個生態(tài)系統(tǒng),那也是非常值得期待的。
第三,英偉達(dá)目前也存在很多競爭對手,英偉達(dá)需要持續(xù)加強(qiáng)技術(shù)護(hù)城河。比如英特爾一直在持續(xù)加強(qiáng)CPU在AI方面的計算能力,推出了DLBoost、AVX-512等相關(guān)指令集,并且還通過自研GPU進(jìn)入了并行計算市場。另外,目前全球市場也涌現(xiàn)出很多專注于AI計算的企業(yè),一些巨頭也開始布局AI計算,比如亞馬遜、谷歌、百度、阿里巴巴等,都在不斷地投產(chǎn)自己的AI計算芯片。在這種情況下,如何守住基本盤并開拓新市場就是英偉達(dá)需要考慮的內(nèi)容。在ARM的加持下,英偉達(dá)在CPU端擁有了強(qiáng)力助力,加上自己在GPU端的先天優(yōu)勢就能夠?qū)⒆约旱募夹g(shù)壁壘再次抬高,繼續(xù)成為行業(yè)中不可替代的選擇。
GraceCPU暴露英偉達(dá)的野心?
從上文的分析來看,英偉達(dá)針對GraceCPU的布局主要有以下意義。首先是重新細(xì)分計算市場增加利潤增長點;其次則是有利于加強(qiáng)自己的技術(shù)壁壘,同時在CPU計算方面給出自己在未來成長的可能性;另外一點則是可以通過GraceCPU進(jìn)一步加高自己的技術(shù)壁壘,抵抗競爭對手對市場的侵蝕。
因此,在現(xiàn)在這個階段,我認(rèn)為英偉達(dá)在數(shù)據(jù)中心CPU上的所有操作都還是在為自己蓄力,并不是以正面抗衡英特爾和AMD以及整個x86產(chǎn)業(yè)生態(tài)圈的目的。如果說非要有一些想法的話,那也可能是英偉達(dá)在嘗試另起爐灶,想要在x86的束縛下解脫出來,給自己的未來發(fā)展帶來一個新的希望,這也算是其野心暴露的一種端倪吧!