張平
英偉達于2021年4月13日召開了GTC 2021大會。在會議上,英偉達CEO黃仁勛代表英偉達對計算市場的發(fā)展提出了一些看法并進行了展望,同時也發(fā)布了全新的DPU、CPU、下一代GPU以及自動駕駛芯片。本期我們將對GTC 2021會議中的要點進行解讀,并帶來部分英偉達下一代計算產(chǎn)品的解析。
GTC在早期是英偉達發(fā)布新品、宣布相關(guān)合作或產(chǎn)業(yè)信息的大會,會上往往會有新一代GPU和相關(guān)技術(shù)的發(fā)布,是游戲玩家一年一度的盛會。不過,隨著英偉達產(chǎn)業(yè)布局越來越廣產(chǎn)品越來越多, GTC逐漸轉(zhuǎn)變成了面向所有用戶包括游戲玩家、行業(yè)用戶、特殊領(lǐng)域用戶以及技術(shù)專家,有關(guān)英偉達技術(shù)、產(chǎn)品、產(chǎn)業(yè)生態(tài)等內(nèi)容的綜合性大會。在2021年的GTC上,英偉達CEO黃仁勛介紹了大量與計算相關(guān)的產(chǎn)品,包括全新的DPU、CPU、下一代GPU以及自動駕駛芯片。下面,本文帶大家一起對GTC 2021上發(fā)布的新品進行深入解讀。
綜述:英偉達的四個新技術(shù)方向
目前英偉達的產(chǎn)業(yè)發(fā)展方向主要針對五大板塊,分別是計算加速、AI自生成軟件(AI編程)、數(shù)據(jù)中心、AI和5G應(yīng)用以及在現(xiàn)實世界或者虛擬世界中的自動化系統(tǒng)等。
會上,英偉達著重提到了一個名為“Metaverse”的概念,其中文含義被稱為“元宇宙”。所謂元宇宙,實際上是一個來源于科幻小說的概念,其本質(zhì)是使用數(shù)據(jù)化來構(gòu)造一個持久、同步、實時、閉環(huán)、跨越數(shù)字和物理、跨越私有和公有、跨越開放和封閉、擁有“臨場感”、可以由個體創(chuàng)造內(nèi)容和數(shù)據(jù)的虛擬宇宙。之所以說它是“Meta(希臘語“超越”)+verse”,是因為Metaverse并不是一個虛擬世界、虛擬空間或者虛擬現(xiàn)實,也不是一個所謂簡單的虛擬游戲,英偉達認為的Metaverse是一個和我們現(xiàn)在的時空完全相同的虛擬“時空”。英偉達的所有技術(shù),,都和Metaverse相關(guān),一個Metaverse的存在,也會促進英偉達提到的所有技術(shù)的發(fā)展和應(yīng)用。
現(xiàn)在,基于Metaverse的愿景和英偉達所提出的五大板塊,英偉達給出了四個新技術(shù)方向和基于這些技術(shù)的應(yīng)用。這四個新技術(shù)應(yīng)用方向分別是RTX(Omniverse)、DGX (以及相關(guān)的Grace CPU、BlueField DPU、DOCA SDK)、EGX和5G技術(shù)、自動駕駛芯片(Hyperion、Atlan、Orin)。在此基礎(chǔ)上,英偉達還給出了這四個技術(shù)方向的應(yīng)用領(lǐng)域,分別是RTX針對Omniverse和Isaac, DGX十對Megatron(大規(guī)模語言模型)、藥物發(fā)現(xiàn)以及量子計算機,EGX和5G針對AI、Merlin(AI應(yīng)用框架)、Maxine (視頻會議平臺)、Jarvis (對話式人工智能的框架平臺)以及Morpheus (利用AI的網(wǎng)絡(luò)安全技術(shù)框架),最后的自動駕駛芯片自然對應(yīng)的是自動駕駛技術(shù)。
這四大技術(shù)是英偉達在GTC上重點介紹的發(fā)展方向,包括CPU、GPU、DPU等多款產(chǎn)品都歸類在這四大技術(shù)和五大板塊中。
英偉達的數(shù)字孿生宇宙:Omniverse
熟悉英偉達發(fā)展歷史的讀者肯定知道,英偉達起家的根本是圖形計算,其技術(shù)基礎(chǔ)是計算機圖形學(xué)。計算機圖形學(xué)的核心是模擬,它使用數(shù)學(xué)和計算機科學(xué)模擬了材質(zhì)和光線的交互,模擬物體、粒子和波的特性,現(xiàn)在已經(jīng)開始模擬智能和物理。當然,這樣的模擬已經(jīng)被英偉達做到了極致,模擬也僅僅基于一個或者數(shù)個物理定律或者規(guī)則。下一步,英偉達計劃將這些規(guī)則組合起來,結(jié)合Metaverse概念,實現(xiàn)自己的“元宇宙”計劃,這個計劃在GTC大會上被正式發(fā)布,這就是Omniverse。
更進一步來看的話, Omniverse是這樣一個平臺:它通過各種技術(shù)和標準化的軟件,搭建了一個數(shù)字孿生宇宙。理論上來說,只要技術(shù)足夠先進,算力足夠充足,你可以通過Omniverse中英偉達或者其他使用者開發(fā)的接口、軟件、庫文件等,在Omniverse內(nèi)部模擬一個村落、工廠、社區(qū)、城市或者國家,甚至整個地球。當然,受制于現(xiàn)在的技術(shù)和應(yīng)用場景,當前Omniverse更偏重面向工業(yè)行業(yè)的元宇宙。
當然,模擬某個具體的物體或者群體并不是Omniverse的目的,通過這些模擬,來實現(xiàn)對現(xiàn)實世界的數(shù)字化孿生,并通過相關(guān)處理和操作,來獲得在現(xiàn)實世界中難以得到的數(shù)據(jù)和內(nèi)容,才是Omniverse最核心的作用。
英偉達舉了一個很好理解的例子來描述Omniverse的作用。我們知道,目前智能機器人的發(fā)展如火如荼。在現(xiàn)實世界中,人們可以通過前期的數(shù)學(xué)計算、算法模擬或者各種各樣的手段為機器人設(shè)計相關(guān)運動程序,然后制造出一個真實存在的機器人,并將其放置在真實世界中進行測試,從而獲得反饋信息,再進一步去調(diào)節(jié)機器人的設(shè)計,從而獲得最終可以商業(yè)化,并交付給用戶的產(chǎn)品。
但是,這樣的測試過程存在兩個問題,一是耗資巨大,二是速度很慢。為了在真實世界中進行這樣的測試,人們不得不先造出一大堆測試產(chǎn)品,測試速度受到真實世界的物理規(guī)則的約束,比如時間、空間、能源以及人類自身的精力等。那么,解決這個問題的最終辦法是什么?并不是花更多的錢,也不是雇傭更多的工程師,而是直接將整個過程虛擬化、數(shù)字化后,在數(shù)字世界中進行測試、反饋和修改,這就是Omniverse的作用。
在Omniverse中,用戶可以建立一個到數(shù)個、數(shù)千個和現(xiàn)實世界中運行參數(shù)、狀態(tài)幾乎一樣的機器人。在合理的約束條件下,搭建相關(guān)測試場景,讓模擬的機器人在虛擬的測試場景中進行測試,并利用AI的“測試—反饋—改進”機制,實現(xiàn)機器人的自學(xué)習(xí)、自測試和自提升。其中,搭建的虛擬測試場景可以和真實世界的某處測試場完全-樣,并且遵循完全一樣的物理定律。場景設(shè)置不僅僅局限在地球上,也可以在月球、火星甚至太空中,畢竟人類已經(jīng)基本掌握了這些場景下的物理參數(shù),這種虛擬的測試場景就成為真實測試場景的“數(shù)字孿生”。最終測試的結(jié)果可以反饋到工程師手中,然后進一步用于真實場景中機器人的改進,完成了“真實場景—數(shù)字孿生場景—真實場景”的閉環(huán),這充分體現(xiàn)出了Omniverse的價值。
在GTC上,英偉達介紹了Omniverse的三大重要部分。首先是Omniverse Nucleus,顧名思義,這個部分是Omniverse的核心,用于連接用戶并實現(xiàn)3D資產(chǎn)交換和場景描述的引擎。其次是有關(guān)合成、渲染和動畫的引擎,英偉達為這部分內(nèi)容加入了包括PhysX物理模擬、NVIDIA MDL材質(zhì)模擬和NVIDIA AI等功能,使其可以更好地模擬真實世界。此外英偉達還通過這個部分將Omniverse擴展至多GPU、云計算平臺,使得Omniverse可以在各種RTX平臺上進行操作,并提供遠程流式傳輸功能等。第三個部分被稱為CloudXR,它被英偉達稱之為“星際之門”,通過這個部分,人們可以利用VR將內(nèi)容傳輸至Omniverse, AI可以使用AR將內(nèi)容從Omniverse內(nèi)傳輸出去,這相當于Omniverse和現(xiàn)實世界的接口。
除了上述三大部分外, Omniverse的重要內(nèi)容還包括Omniverse Connect庫和Omniverse Kit。其中OmniverseConnect庫可以使得Omniverse Nucleus連接應(yīng)用程序并且發(fā)布和訂閱整個Omniverse內(nèi)的資產(chǎn),并執(zhí)行更新程序等。Omniverse Kit則是構(gòu)建本地Omniverse應(yīng)用程序和微服務(wù)的工具包,也可以支持獨立擴展,支持Python或者C++等。
在最重要的3D文件格式方面,Omniverse采用了皮克斯動畫提供的USD (Universal Scene Description)格式來實現(xiàn)3D內(nèi)容的標準化和統(tǒng)一化。USD格式是皮克斯動畫公司發(fā)明的一種標準化通用場景描述格式。利用USD,人們可以實現(xiàn)3D場景的標準化并確保移植和交互的可靠性。USD在2016年成為開源標準后,英偉達對其進行了不少改進,比如將其和整個Omniverse系統(tǒng)結(jié)合起來,為其增加了協(xié)同工作、實時預(yù)覽、資源共享等相關(guān)功能,并結(jié)合建筑、制造、模擬等相關(guān)產(chǎn)業(yè)的特點進行了一些改進。
英偉達在發(fā)布會上展示了Omniverse的大量實際用途。比如借助Omniverse的同步功能,福斯特建筑師事務(wù)所實現(xiàn)了全球17個辦公地點的設(shè)計協(xié)同。ILM借助Omniverse實現(xiàn)了工作管線的匯聚和統(tǒng)一。愛立信利用Omniverse進行了5G傳輸和干擾模擬測試等工作。
一家名為TwinEarth的公司計劃使用Omniverse和2萬個GPU打造一個地球的數(shù)字李生體。著名的游戲公司動視暴雪計劃將10萬多3D資產(chǎn)全部使用Omniverse整理并建立一個可搜索的數(shù)據(jù)庫。全球著名的基礎(chǔ)設(shè)施建設(shè)公司Bently (這家公司相關(guān)的產(chǎn)業(yè)總產(chǎn)值接近每年3.5萬億美元)結(jié)合Omniverse,建造了一個名為iTwin的基礎(chǔ)設(shè)施數(shù)字孿生,用于在整個建筑的生命周期內(nèi)監(jiān)控和優(yōu)化性能。另外,在一些特色產(chǎn)品方面,比如廣告制作,相關(guān)制作人員不用再走遍全球進行廣告拍攝和制作,借助于Omniverse的特性,人們可以搭建虛擬場景并進行虛擬拍攝,并且全球的藝術(shù)家都可以通過Omniverse同步創(chuàng)意和制作過程。
除了上述用途外,英偉達還和寶馬聯(lián)手,實現(xiàn)了利用Omniverse對寶馬的汽車制造工廠進行數(shù)字孿生。在Omniverse的數(shù)字工廠中,寶馬實現(xiàn)了對工廠的全流程模擬,通過全球不同地區(qū)的專家的協(xié)同工作,對工廠流水線相關(guān)的機臺、物流、動線等進行優(yōu)化,還改善了整個工廠的人體工學(xué)設(shè)計和效率。此外,借助于Omniverse中整合的NVIDIA Isaac機器人協(xié)作平臺,寶馬準備了物流智能機器人,且借助域隨機化實現(xiàn)了機器人的自我學(xué)習(xí)和進化以及人類的遠程控制等功能。現(xiàn)在,寶馬已經(jīng)將全球31個工廠在Omniverse中進行數(shù)字孿生,寶馬宣稱,通過縮短規(guī)劃時間、提高精度和靈活性,最終寶馬還可以將規(guī)劃流程效率提升30%。
在整個Omniverse的生態(tài)圈和產(chǎn)業(yè)鏈方面,英偉達宣布目前已經(jīng)提供了12個和Omniverse有關(guān)的主流設(shè)計工具連接器,此外還有40個正在開發(fā)過程中。目前全球已經(jīng)有大量企業(yè)加入Omniverse平臺,來自游戲、媒體、娛樂、ACE、電信、基礎(chǔ)設(shè)施、汽車等不同的行業(yè)。Omniverse目前一方面提供經(jīng)由英偉達認證的硬件設(shè)備,包括臺式機、筆記本電腦和服務(wù)器,另一方面也面向企業(yè)開放相關(guān)認證,最終實現(xiàn)軟硬協(xié)同發(fā)展的目標。
從英偉達的介紹來看,Omniverse只是結(jié)合現(xiàn)有的一些模擬和應(yīng)用場景進行了可視化的處理,雖然還處于早期發(fā)展階段,但是毫無疑問這種“元宇宙”的概念是非常震撼的。隨著技術(shù)和算力進一步發(fā)展,未來Omniverse和類似的平臺可能擁有將整個社區(qū)、工廠、城市或者某些大型研究室整體數(shù)字化的能力。就像計算機從機械計算機進步到電子計算機,使得處理速度和效率提升了上億倍那樣,Omniverse將真實世界數(shù)字化,可以帶來不亞于機械計算機到電子計算機這樣巨大的效率提升。借助Omniverse和類似的元宇宙平臺,虛擬和真實的邊界可能會逐漸被融化模糊,人類的生產(chǎn)力、想象力和研發(fā)能可能會借由此進一步大幅度提升。如果一切順利的話,英偉達Omniverse在未來可能會成為PC上的一種基礎(chǔ)資源,那個時候英偉達的市值和技術(shù)實力,可能也不是現(xiàn)在的我們可以想象的了。
更強的專用計算單元:DPUBluefield-3
英偉達在之前花費69億美元收購了一家來自以色列、專注高性能網(wǎng)絡(luò)和數(shù)據(jù)處理器的企業(yè),名為Mellanox。在收購這家企業(yè)之后,英偉達獲得了夢寐以求的在大型服務(wù)器、超算、云計算設(shè)備中布置高性能網(wǎng)絡(luò)接口的能力,還獲得了在這些設(shè)備中進行有關(guān)數(shù)據(jù)處理、安全處理、數(shù)據(jù)解析等工作的全新芯片DataProcessing Unit,也就是DPU,數(shù)據(jù)處理器。
在GTC 2021上,英偉達發(fā)布了全新DPU產(chǎn)品,并且進一步解釋了為什么目前的服務(wù)器、云計算和超算設(shè)備更需要DPU。按英偉達的說法,目前AI計算和云計算使得數(shù)據(jù)中心處理數(shù)據(jù)的方式發(fā)生了變化。早期企業(yè)都在服務(wù)器上運行單一的軟件包,此時CPU任務(wù)不重,甚至資源存在很多富裕和空閑。接下來,在虛擬化出現(xiàn)后,通過虛擬化設(shè)備,軟件任務(wù)可以遷移,并且各項任務(wù)包括計算、網(wǎng)絡(luò)、存儲和安全等都可以通過虛擬化遷移至CPU上,整個平臺環(huán)境變得更為方便,但這樣做也使得CPU增加了計算負載且降低了CPU運行任務(wù)的能力,畢竟運行任務(wù)才是CPU的主要工作。隨后,云計算進一步將各種任務(wù)分解為各類微任務(wù),并且盡可能多地利用服務(wù)器的所有空閑資源。不過,隨著云計算、AI計算的發(fā)展,整個系統(tǒng)的安全形勢愈加嚴峻,在這種基礎(chǔ)上出現(xiàn)了“零信任”安全理念。這種理念的特點是不信任任何軟件,均給予其最小權(quán)限和最復(fù)雜驗證,并且不再設(shè)置相關(guān)安全區(qū)域,應(yīng)用和資源的邊界就是安全邊界。零信任的安全理念使得整個服務(wù)器或者云計算中,有關(guān)安全驗證的工作計算壓力大增,也就是基礎(chǔ)設(shè)施軟件處理成為了數(shù)據(jù)中心最大的計算任務(wù),這又使得CPU陷入極重的計算負荷中。
從目前的發(fā)展情況來看,零信任安全理念很可能成為未來發(fā)展的主流。因此, CPU繁重的安全驗證任務(wù)和相關(guān)數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)移等任務(wù)就需要新的設(shè)備來接手。英偉達給出的解決方案正是DPU,這是一種高性能、軟件可編程、多核心的新型,可編程處理器。它的特點是擁有高性能網(wǎng)絡(luò)接口、并行處理大量數(shù)據(jù)的能力以及和CPU、GPU快速傳輸數(shù)據(jù)的能力。
在2020年,英偉達就推出過BlueField-2、BlueField-2X兩款DPU產(chǎn)品,以及新的DUCA SDK,后者用在BlueField DPU上開發(fā)有關(guān)軟件定義、硬件加速的網(wǎng)絡(luò)、安全和存儲應(yīng)用,包括深度數(shù)據(jù)包檢測、安全啟動、TLS加密卸載、RegEX加速以及基于硬件的實時時鐘等,和DPU搭配可謂相得益彰。
在2021年的GTC上,英偉達發(fā)布了全新的BlueField-3,并給出了BIueField-4規(guī)模的展望。BlueField-3擁有220億晶體管,其中包含了16個Cortex-A78核心。網(wǎng)絡(luò)方面支持CONNECTX-7,其最高速度高達400Gbps,支持PCIe 5.0和DDR5內(nèi)存。其性能為SPECint測試數(shù)值為42,計算能力為1.5TOPS。相比之下,上代BlueField-2的SPECint測試數(shù)值為9,計算能力為0.7TOPS。英偉達還順便預(yù)告了下一代BlueField-4,其擁有640億晶體管, SPECint測試值高達160,計算能力超過1000TOPS,網(wǎng)絡(luò)帶寬進一步翻倍至800Gbps。在上市時間上,BlueField-3大約會在2022年第一季度上市,英偉達沒有介紹其生產(chǎn)工藝,據(jù)推測應(yīng)該是采用5nm工藝進行生產(chǎn)。BlueField-4則會在2023年發(fā)布,屆時生產(chǎn)工藝應(yīng)該更為出色了。
繼續(xù)來看BlueField-3。英偉達介紹到,其包含的16個ARM核心可以用來運行整個虛擬化軟件棧,比如VMware ESX,這相當于接替了一大部分CPU的工作。在安全特性方面,新的處理器可以支持解包或者加速IPSEC和TLS加密算法、密鑰管理等。有了這些特性和功能,CPU就可以極大地釋放計算壓力,能騰出更大的空間來運行目標應(yīng)用程序了。
在具體的應(yīng)用方面,英偉達使了自家的GeForce NOW服務(wù)進行舉例。英偉達宣稱GeForce NOW是一個交付難度非常高的、面向消費級用戶的游戲服務(wù),其需要關(guān)注的內(nèi)容非常多,包括了視覺質(zhì)量、幀率、流暢度、響應(yīng)時間、啟動時間、成本以及安全性。在之前,它的幾乎所有任務(wù)都是交由CPU來執(zhí)行的,但是現(xiàn)在英偉達將基礎(chǔ)設(shè)施從游戲?qū)嵗羞M行了分離,將加速網(wǎng)絡(luò)、存儲、安全等計算放置在BlueField DPU上執(zhí)行,極大地釋放了CPU的資源,使得CPU可以專注于更重要的、更關(guān)乎用戶體驗的游戲計算等內(nèi)容。由于BlueField DPU的存在,一個GeForce NOW的服務(wù)器反而可以支持更多的用戶使用,這使得BlueField DPU擁有非常出色的投資回報率。
解決AI計算的帶寬之困:英偉達Grace CPU
英偉達做CPU或者相關(guān)的產(chǎn)品其實是早有歷史淵源的,之前英偉達就推出過ARM架構(gòu)的多款CPU或者SoC產(chǎn)品,比如Project Denver計劃和DenverCPU,其產(chǎn)品品牌為Tegra。后來由于戰(zhàn)略、市場等原因,英偉達在面向民用市場的SoC產(chǎn)品上持續(xù)收縮,目前Tegra只供應(yīng)部分游戲主機市場,在消費級市場難覓蹤影。
當然,作為全球排名前列的集成電路企業(yè),不做不意味著沒有能力做。在GTC 2021上,英偉達宣布推出了全新的代號為“Grace”的CPU產(chǎn)品,采用下一代ARM的Neoverse架構(gòu),主要面向數(shù)據(jù)中心市場。本刊在上一期《GTC 2021, Grace CPU暴露英偉達的野心?》一文中,基于當時的信息和資料,對這款CPU進行了一定的分析,有興趣的讀者也可以翻看上期文章,在本文中我們將利用一些新的消息,并對Grace CPU進行進一步分析。
根據(jù)英偉達在GTC 2021上的解釋,他們面對的問題主要是帶寬,尤其是在目前體積巨大的AI計算模型或者框架面前,現(xiàn)有的CPU-GPU的PCIe架構(gòu)的帶寬是不可能滿足實際需求的。英偉達的數(shù)據(jù)是,PCIe在目前的情況下可以提供單向16GB/s的帶寬,在配置4路系統(tǒng)的情況下,也能夠提供64GB/s的帶寬。同樣的四路系統(tǒng),采用新的Grace CPU后,借助于CPU內(nèi)置的第四代NVLink,單個CPU連接GPU的數(shù)據(jù)帶寬可達到500GB/s,那么4路總計2000GB/s,是PCIe產(chǎn)品的30倍以上。
進一步來看Grace CPU本身的話,在架構(gòu)方面英偉達只是說采用下一代ARM的Neoverse架構(gòu),但是并沒有明確給出相關(guān)的信息。另外,英偉達還提到,Grace的SPECint性能超過300分,一個DGX系統(tǒng)中有8個Grace CPU,總體性能超過2400分。
那么,Grace CPU究竟會采用ARM哪一款架構(gòu)、其性能究竟如何呢?
根據(jù)ARM官方介紹,Neoverse架構(gòu)分為高性能的V、高性能功耗比的N和低功耗的E三大系列,拋開E系列不看的話,現(xiàn)在ARM擁有兩款Neoverse架構(gòu)分別是Neoverse N1和Neoverse V1,其中前者和Cortex-A76有衍生關(guān)系,后者則和ARM目前力推的高性能核心Cortex-X1存在衍生關(guān)系??紤]到Grace CPU在2023年面世并且明確表示采用下一代Neoverse核心的話,Neoverse N1和Neoverse V1顯然都不在選擇之中。
好在ARM在前段時間發(fā)布了新的路線圖。2021年,ARM將推出5nm的Neoverse N2,相比Neoverse N1,Neoverse N2的IPC性能提升了40%,增加了SVE指令集,支持2×128b的浮點計算,并且還加入了對BF16格式的支持,接口方面提供了PCIe 5.0、DDR5、HBM3等,最多支持128核心和128線程。2022年以后,ARM還會推出新的Neoverse架構(gòu),性能進一步提升30%,支持機器學(xué)習(xí)和矢量指令集,支持更大的核心密度等,新的核心將采用5nm或者3nm工藝制造,支持PCIe 5.0或者PCle 6.0,支持DDR5、HBM3等。
考慮到Grace CPU將在2023年才推出,因此這里的猜測就落在Neoverse N2和更遠期的Neoverse架構(gòu)上了。英偉達給出的示意圖顯示,一個Grace CPU中擁有4個區(qū)域,每個區(qū)域有24個模塊,但是不知道最終有多少模塊被用作CPU核心,因此, Grace ;CPU的核心數(shù)量可能最多96個,也可能遠比這個數(shù)據(jù)要少。畢竟NeoverseN1的SPECint2006性能大約為37分,即使采用Neoverse N2,其性能應(yīng)該在45分以上。如果這里的測試標準是統(tǒng)一或者接近的話,這意味著英偉達的Grace CPU中Neoverse核心的數(shù)量遠比示意圖中展示出來的模塊數(shù)量要少??紤]到目前AMD Zen 2架構(gòu)的EPYC處理器已經(jīng)能達到SPECint 300分以上的成績,在2023年新的工藝和架構(gòu)的支持下,要達到這樣的性能應(yīng)該更為容易,因此一個比較明顯的推測是,Grace CPU并不是面向性能的,而是耗費了大量的晶體管在NVLink和其他互聯(lián)、數(shù)據(jù)傳輸?shù)裙δ苌?,畢竟這是英偉達需要解決的最根本的問題, GraceCPU和x86 CPU也并非生死抉擇的替代關(guān)系。
在性能方面,英偉達對Grace CPU加入自己的系統(tǒng)之后的情況做了一些預(yù)測,英偉達稱Grace CPU的使用能夠大幅度降低神經(jīng)網(wǎng)絡(luò)模型計算所需要的時間,并且英偉達正在努力使得Grace CPU相關(guān)的系統(tǒng)在1萬億個參數(shù)的神經(jīng)網(wǎng)絡(luò)模型上實現(xiàn)相比目前系統(tǒng)10倍以上的性能,比如采用了64個Grace CPU+A100組合、且采用NVLink 4的設(shè)備,將使得類似模型的訓(xùn)練時間從1個月縮短至3天,或者在擁有8個Grace CPU+A100組合的(也就是單個DGX設(shè)備)設(shè)備中,使得擁有5000億個參數(shù)的模型可以實時獲得推斷結(jié)果。
目前Grace CPU系統(tǒng)的客戶已經(jīng)確定的包括瑞士國家計算中心的ALPS超級計算機,這款設(shè)備在AI上的計算能力超過20EFLOPS。注意,這里的性能應(yīng)該指的是GPU的CUDA內(nèi)核、張量核心和CPU計算能力的組合。另外,這款超算并非只有Grace CPU一種處理器,在之前的消息中,惠普企業(yè)集團宣布這款超算將采用自己的CrayEX架構(gòu),這意味著AMD的EYPC處理器也將是重要的組成部分。在這款超算建成后,將有可能成為全球AI計算得最快、效率最高的產(chǎn)品。另外一款超算也決定使用Grace CPU進行搭建,但是消息不多,其主要客戶是美國能源部旗下的洛斯阿拉模式國家實驗室,這個系統(tǒng)的主要目的是用于3D仿真,計劃于2023年交付。
英偉達的自動駕駛計劃:ATLAN現(xiàn)身
英偉達在2019年的GTC上推出了DRIVE AGX Orin,當時英偉達的計劃是在2022年正式銷售。在GTC 2021上,英偉達再次提到了Orin,并帶來了有關(guān)Orin的一些新的技術(shù)動向。
現(xiàn)在, Orin并不只是用于L2以上級別的自動駕駛了,它現(xiàn)在是整個汽車的中心計算機,利用單個Orin芯片,英偉達實現(xiàn)了包括圖像處理集群、娛樂和多媒體中心、乘客交互、信心視圖等諸多功能。所謂信心視圖,是,英偉達提出的一個全新概念,它是指汽車通過探測周圍的環(huán)境和道路情況,將其數(shù)字化后反應(yīng)在車內(nèi)屏幕上,在實現(xiàn)自動駕駛的同時還給予車內(nèi)人員以“信心”,因此被稱為“信心視圖"。換句話來說,所謂信心視圖,就是指自動駕駛技術(shù)的可視化,車內(nèi)人員可以通過信心視圖和車周圍的情況做出對比,從而監(jiān)控現(xiàn)有的自動駕駛執(zhí)行過程或者判斷汽車狀態(tài)和信息,英偉達還特別提到,未來的后視鏡將被數(shù)字化攝像頭所替代,人們不再需要車外的鏡面后視鏡就能觀察到車后信息。
在更深一層的技術(shù)層面上,英偉達通過軟件虛擬化,將Orin本身分為四個獨立的域,虛擬化之間是互相隔離的,采用了支持功能安全和信息安全的架構(gòu)設(shè)計,這種設(shè)計在整個汽車的全周期都可以進行升級,同時提供精美的視覺圖像效果。軟件技術(shù)方面,配合即將大規(guī)模上市發(fā)售的Orin,英偉達帶來了第八代Hyperion系統(tǒng),這個系統(tǒng)的主要目的是提供一個統(tǒng)一的傳感器平臺,幫助汽車廠商快速接入不同的傳感器設(shè)備并開始采集和使用數(shù)據(jù),再將其使用在自動駕駛中。Hyperion系統(tǒng)的核心是2個Orin SoC,能夠?qū)崟r處理12個外部攝像頭、3個內(nèi)部攝像頭、9個雷達和2個激光雷達的數(shù)據(jù),從而實現(xiàn)汽車的L4級別自動駕駛。另外,Hyperion還帶來了DRIVER AV和DRIVERIX所需要的所有工具,并且可以隨時記錄數(shù)據(jù)并進行事件捕捉,從而使得自動駕駛數(shù)據(jù)處理更為流程化。
根據(jù)英偉達在發(fā)布會上的描述,在2022年,應(yīng)該有很多配備了激光雷達和Orin自動駕駛平臺的自動駕駛汽車開始銷售,其合作伙伴包括國內(nèi)的造車新勢力蔚來、小鵬、理想智造、智己汽車等以及全球級別的梅賽德斯-奔馳、沃爾沃、現(xiàn)代、奧迪等諸多廠商。極有可能2022年到2023年將是高等級自動駕駛的元年,我們可以小小地期待一下這個重要時刻的到來。
在Orin之后,GTC 2021也給出了發(fā)展方向,那就是算力超過1000TOPS的DRIVER Atlan,其SPECInt的性能大約100。英偉達給出了一個有關(guān)DRIVER Atlan的簡單的架構(gòu)示意圖,可以看出,Atlan和英偉達其他的一些設(shè)備具有很強的通用性,比如DPU、CPU和GPU。DRIVER Atlan在CPU部分采用的是Grace下一代產(chǎn)品,模糊的示意圖顯示大約有2個部分,每個部分有大概8個模塊。GPU部分則采用的是安培的下一代架構(gòu)產(chǎn)品,大概擁有12個計算模塊。此外, Bluefield DPU也被使用在DRIVER Atlan之內(nèi),應(yīng)該是用于接管安全和數(shù)據(jù)轉(zhuǎn)移等任務(wù),釋放CPU資源。其余的部分還包括內(nèi)存部分、內(nèi)存IO部分、高速IO單元、加速單元、安全單元以及功能安全模塊等。英偉達在DRIVER Atlan上還啟用了400Gbps的網(wǎng)絡(luò)連接,并達到了ASIL-D最高安全等級。
有關(guān)DRIVER Atlan的用途,英偉達表示2個Orin SoC實際上就可以在很大程度上實現(xiàn)高等級自動駕駛了,但是在特殊條件下實現(xiàn)自動駕駛的話,需要更高分辨率的攝像頭、雷達等傳感器以及更復(fù)雜的AI模型、更多的冗余和安全功能等。這些所有新增的功能都需要計算才能實現(xiàn),這也就是DRIVER Atlan繼續(xù)提升算力的基礎(chǔ)。并且英偉達還考慮到未來的應(yīng)用,包括汽車廠商一款汽車持續(xù)十余年的維護和使用。英偉達認為未來的汽車并不再是一個汽車,而是一個平臺,一個數(shù)字化的、可以安裝成千上萬軟件的平臺,因此更強的性能是絕對必要的。
一個全棧計算巨無霸的誕生
GTC 2021上,英偉達CEO黃仁勛的演講時長其實并不長,只有一個半小時多一點,但是其透露出來的信息是非常令人震撼的,本文只摘選了一部分改變整個產(chǎn)業(yè)界或者和硬件發(fā)展相關(guān)的內(nèi)容給予解讀,其中包括了元宇宙的概念和Omniverse的實現(xiàn)、DPU的用途和針對超算、云計算等場景的加速,以及Grace CPU突破AI計算帶寬的桎梏,還有全新的、可以實現(xiàn)L5級別自動駕駛的DRIVER Atlan等,僅僅是這些內(nèi)容,就足以讓人感到震撼,更不要說整個GTC 2021演講中還有大量包括軟件、平臺和AI方面的內(nèi)容,著實精彩紛呈。我們推薦熱愛技術(shù)的玩家花費一點時間去看看,除了了解新技術(shù)以外,說不定還對你的生活和人生有一點新的啟發(fā),觀看地址在英偉達中文官網(wǎng)就有,中文字幕,也比較好理解。
總的來看,英偉達通過最近數(shù)年的發(fā)展,已經(jīng)遠遠不是我們印象中那個只會造顯卡,順便做做A加速和自動駕駛的企業(yè)了,英偉達開始越來越關(guān)注生態(tài)、軟件和底層,在擁有了GPU、DPU還是Omniverse,英偉達成為了業(yè)內(nèi)少有的擁有全棧計算能力的巨無霸,并且依舊在快速發(fā)展著。我們可以看到,目前無論是工業(yè)還是娛樂、無論是汽車還是醫(yī)藥、無論是線上還是線下,英偉達的解決方案總會讓你眼前一亮,甚至帶給人們一種超越現(xiàn)在時代的感覺,充滿未來感和科技感。
在本文的最后,我們還是要為Omniverse這樣的平臺叫好,它可能會改變?nèi)祟愐恢币詠慝@取數(shù)據(jù)和信息的方式,夸張一些說,Omniverse或者類似的平臺,可能是推動下一個人類科技大爆發(fā)時代的重要工具,就像鉆木取火、就像蒸汽機、就像電力一樣,引領(lǐng)人類走向下一個時代。