李實(shí)
2020年是一個(gè)不平凡的年份。由于特殊時(shí)期的大量展會(huì)被取消,企業(yè)轉(zhuǎn)而改用線上的形式發(fā)布今年的新品或者發(fā)展計(jì)劃。6月19日,英特爾召開線上發(fā)布會(huì),向全球用戶公布了旗下2020年面向企業(yè)和商業(yè)用戶的全新產(chǎn)品和技術(shù)。其中硬件方面包含了內(nèi)置AI加速技術(shù)的第三代至強(qiáng)處理器、傲騰200系列持久內(nèi)存、高容量3DNANDSSD,以及首個(gè)為AI優(yōu)化的FPGA產(chǎn)品,軟件方面則展示了英特爾在OneAPI計(jì)劃上的一些進(jìn)展和英特爾對(duì)企業(yè)級(jí)用戶在IT管理方面的一系列精選方案升級(jí)等。接下來,我們就一起來了解一下,英特爾在2020年究竟會(huì)為用戶帶來怎樣的驚喜。
支持AI計(jì)算加速的全新至強(qiáng)處理器
至強(qiáng)處理器是英特爾在服務(wù)器和數(shù)據(jù)中心領(lǐng)域的核心產(chǎn)品。在本次發(fā)布會(huì)上,英特爾推出了全新的第三代至強(qiáng)可擴(kuò)展處理器。第三代產(chǎn)品包含11款新品,其中白金系列產(chǎn)品為6款,金牌系列產(chǎn)品為5款。其中,最頂級(jí)的處理器型號(hào)為XeonPlatinum8380HL,擁有28核56線程,基礎(chǔ)頻率為2.9GHz,睿頻可達(dá)4.3GHz,TDP功耗為250W,緩存為38.5MB。內(nèi)存方面支持DDR43200(1DPC)或者DDR42933(2DPC),最大內(nèi)存容量支持每個(gè)插槽4.5TB,支持4路或者8路配置。在8路配置下,最多可以在一個(gè)機(jī)架中實(shí)現(xiàn)224個(gè)處理器核心和448路線程的配置方案,這也是英特爾目前提供的最強(qiáng)大處理器之一。
相比上代產(chǎn)品,新的第三代至強(qiáng)可擴(kuò)展處理器在工藝制程和核心數(shù)量上沒有太多的變化,其主要升級(jí)放在規(guī)格和對(duì)AI加速的支持上。新的第三代至強(qiáng)可擴(kuò)展處理器帶來了對(duì)Bfloat16規(guī)格的支持。所謂Bfloat16,是一種數(shù)據(jù)格式,也可以被稱為BF16或者Truncated16-bitfloatingpoint截?cái)?6bit浮點(diǎn)數(shù)。Bfloat16的主要形成方法是將一個(gè)完整的FP32浮點(diǎn)數(shù)的前16位截?cái)嗌伞_@個(gè)數(shù)據(jù)格式是由谷歌提出,最早使用在谷歌專用的TPU中。Bfloat16的優(yōu)勢在于,其計(jì)算精度和FP16相當(dāng),但是又具有和FP32一樣的大動(dòng)態(tài)范圍,所以Bfloat16只需要一半的比特?cái)?shù)(或者計(jì)算量)就能達(dá)到和FP32類似的模型精度。不僅如此,Bfloat16還能夠解決深度學(xué)習(xí)計(jì)算中由于精度不足導(dǎo)致底層的降低梯度消失等問題。比如每一層深度學(xué)習(xí)計(jì)算的梯度相乘得到的小于1的浮點(diǎn)數(shù),層數(shù)越來越多之后,這個(gè)數(shù)會(huì)進(jìn)一步縮小至難以使用,而使用Bfloat16就能避免出現(xiàn)這種問題。
在引入了Bfloat16支持后,英特爾帶來處理器在AI計(jì)算方面性能的躍升。英特爾的數(shù)據(jù)顯示,在其自家的深度學(xué)習(xí)測試環(huán)境中,相比之前常用的FP32數(shù)據(jù)格式,新的Bfloat16數(shù)據(jù)格式擁有1.93倍的訓(xùn)練性能,同時(shí)還能夠輸出幾乎一樣的結(jié)果;或者帶來1.9倍的推力性能,同時(shí)也輸出一樣的結(jié)果。英特爾還在更廣泛的范圍內(nèi)對(duì)比了Bfloat16數(shù)據(jù)格式和FP32數(shù)據(jù)格式的性能差異。比如阿里云使用Bfloat16運(yùn)行NLP計(jì)算的吞吐量達(dá)到傳統(tǒng)格式的1.58倍,推理計(jì)算達(dá)到傳統(tǒng)格式的1.83倍;在海鑫科金的生物統(tǒng)計(jì)學(xué)計(jì)算中,Bfloat16數(shù)據(jù)格式的計(jì)算吞吐量是FP32數(shù)據(jù)格式的1.97倍;在騰訊云的查詢引擎中,Bfloat16數(shù)據(jù)格式的計(jì)算吞吐量是FP32數(shù)據(jù)格式的1.68倍,在TTS計(jì)算中的吞吐量也達(dá)到了1.54倍,推理計(jì)算更是達(dá)到了1.89倍。
除了Bfloat16數(shù)據(jù)格式外,英特爾還帶來了對(duì)INT8數(shù)據(jù)格式的支持。這種數(shù)據(jù)格式計(jì)算負(fù)載更低,但是計(jì)算精度同時(shí)也有一定程度的下降,適合在要求較低的場合使用。英特爾的數(shù)據(jù)顯示,在AI的推理計(jì)算中,以第三代至強(qiáng)可擴(kuò)展處理器為例,F(xiàn)P32的性能指數(shù)是2.04,這還是動(dòng)用處理器內(nèi)置AVX-512加速模塊的情況下,而INT8的性能則高達(dá)6.25,Bfloat16的性能也高達(dá)3.66,這三種推理計(jì)算都能得到合理的結(jié)果,顯然在這種條件下采用INT8格式是更為合理的。
在相關(guān)處理器芯片組的選擇上,英特爾本次也帶來了C620A芯片組和新的第三代至強(qiáng)可擴(kuò)展處理器搭配的案例。新的C620A芯片組能夠提供最多20條PCIe3.0通道、最多10個(gè)USB3.0接口、最多14個(gè)SATA3.0接口以及支持包括PlatformManageability、ASR、StorageManageability等技術(shù)。英特爾展示的案例中,C620A搭配了4路第三代至強(qiáng)可擴(kuò)展處理器,每一個(gè)處理器都提供了6通道DDR4內(nèi)存、最多48條PCIe3.0通道的規(guī)格,并且四顆處理器通過英特爾UPI總線兩兩鏈接,整體規(guī)格令人咋舌。
另外,英特爾還在發(fā)布會(huì)上提到了處理器的發(fā)展路線圖等問題。2020年目前發(fā)布的至強(qiáng)可擴(kuò)展處理器采用的架構(gòu)代號(hào)是CooperLake,平臺(tái)被稱為Cedarisland,支持4~8路處理器。今年還將發(fā)布基于10nm生產(chǎn)工藝,架構(gòu)代號(hào)為IceLake、Whitley平臺(tái)的新產(chǎn)品,只支持1~2路處理器,這應(yīng)該是面向中小企業(yè)或者個(gè)人用戶的產(chǎn)品。在2021年,英特爾還將發(fā)布1~8路、架構(gòu)代號(hào)為SapphireRapids的處理器和名為“EagleStream”的平臺(tái),并加入下一代深度學(xué)習(xí)加速技術(shù)AMX。當(dāng)然現(xiàn)在沒有太多有關(guān)這些新技術(shù)的消息,只有等待英特爾接下來再為我們揭示了。
全新的英特爾200系列傲騰持久內(nèi)存
英特爾的傲騰持久內(nèi)存是近幾年IT業(yè)界最大的技術(shù)創(chuàng)新之一。隨著英特爾的推廣和其本身技術(shù)的發(fā)展和優(yōu)勢的顯現(xiàn),越來越多的IT廠商開始考慮這種介于DRAM和SSD之間的存儲(chǔ)產(chǎn)品。在本次發(fā)布會(huì)上,英特爾宣布有超過200家500強(qiáng)企業(yè)使用了傲騰內(nèi)存產(chǎn)品,帶來了包括存儲(chǔ)性能改善、數(shù)據(jù)吞吐量大幅度提升以及更快的處理時(shí)間等優(yōu)勢。如今,英特爾又推出搭配第三代至強(qiáng)可擴(kuò)展處理器的200系列傲騰持久內(nèi)存。其主要技術(shù)特性包括最大容量可以提升至每處理器4.5TB、以及25%的內(nèi)存帶寬提升等。這所有存儲(chǔ)性能的提升都帶來了I/O瓶頸效應(yīng)的降低、更快的數(shù)據(jù)處理速度以及更好的應(yīng)用性能等。
新的200系列傲騰持久內(nèi)存目前有三款產(chǎn)品,容量分別是128GB、256GB和512GB,TDP除了512GB的產(chǎn)品為18W外,其余兩款產(chǎn)品都僅為15W。速度方面,根據(jù)不同的讀寫場景,128GB和256GB款最大速度可達(dá)6.8GB/s,最小速度也有0.45GB/s和0.58GB/s,512GB款最大速度降低至5.3GB/s,但是最小速度能達(dá)到了0.47GB/s。當(dāng)然,200系列的傲騰持久內(nèi)存是配合第三代至強(qiáng)可擴(kuò)展處理器推出的,暫時(shí)不清楚是否可以使用在之前的產(chǎn)品或者普通用戶電腦中,這還有待英特爾給出更多的相關(guān)資料才能確定。
全新的英特爾3D NAND固態(tài)硬盤
英特爾在SSD產(chǎn)品上一向以高可靠性、高性能和大容量著稱。這一次英特爾發(fā)布的兩款新品SSDD7-P5500和SSDD7-P5600面向的是需要大容量存儲(chǔ)用戶。這兩款新SSD采用了英特爾最新的TLC3DNAND技術(shù)以及全新低延遲PCIe控制器,能夠滿足AI及分析工作負(fù)載的密集I/O需求,并具有提高IT效率和數(shù)據(jù)安全性的高級(jí)功能。英特爾的數(shù)據(jù)顯示,相比前代產(chǎn)品,這兩款SSD最多可降低40%的延遲、提高33%的性能。具體到每款產(chǎn)品來看,P5500可以提供高達(dá)2倍的順序性能、P5600提供最高44%的隨機(jī)混合工作負(fù)載性能提升。另外,這兩款新品都能夠降低幾乎所有場合下高達(dá)80%的隨機(jī)4K讀取延遲。
在安全性能方面,這兩款新的SSD提供了一些固件增強(qiáng)功能,用于提高IT效率和數(shù)據(jù)安全性,包括動(dòng)態(tài)名稱空間管理支持更多用戶擴(kuò)展、支持TCGOpal2.0和內(nèi)置了AES-XTS256加密、增強(qiáng)的SMART監(jiān)控、可以在不中斷I/O數(shù)據(jù)流的情況下向外界報(bào)告驅(qū)動(dòng)器運(yùn)行情況、新的Telemetry2.0數(shù)據(jù)日志、優(yōu)化的TRIM功能、新的電源損失保護(hù)方案等。
在產(chǎn)品規(guī)格方面,D7-P5500包含1.92TB、3.84TB和7.68TB這三種規(guī)格,并均支持PCIe4.0x4接口和NVMe1.3c規(guī)范,128KB數(shù)據(jù)的最大讀取速度為7000MB/s、最大寫入速度為4300MB/s。隨機(jī)4K性能為讀取/寫入1M/130KIOPS。D7-P5600則更看重隨機(jī)性能,其容量包含1.6TB、3.2TB和6.4TB三種,也支持PCIe4.0x4接口和NVMe1.3c規(guī)范,128KB數(shù)據(jù)的最大讀取速度為7000MB/s、最大寫入速度為4300MB/s,隨機(jī)4K性能則大幅度提升至讀取/寫入1M/260KIOPS。這兩款產(chǎn)品的最大功耗都為20W,且都提供5年質(zhì)保,可見英特爾對(duì)自家產(chǎn)品信心十足。
英特爾首個(gè)為AI優(yōu)化的FPGA產(chǎn)品
英特爾本次發(fā)布會(huì)上帶來了旗下首個(gè)為AI計(jì)算優(yōu)化的FPGA—Stratix10NX。根據(jù)英特爾的描述,這款產(chǎn)品是英特爾首個(gè)針對(duì)高帶寬、低延遲AI加速所設(shè)計(jì)的FPGA類產(chǎn)品,它能夠針對(duì)自然語言處理、欺詐識(shí)別、智慧城市等需要極高計(jì)算需求的場合進(jìn)行定制化、重配置、可擴(kuò)展AI加速等操作。Stratix10NX使用了HBM內(nèi)存、板載高性能網(wǎng)絡(luò)接口以及全新的AITensorBlock。值得一提的是,新加入的AITensorBlock替代了之前的DPS模塊,其內(nèi)部包含了大規(guī)模的低精度乘法器密集陣列,能對(duì)目前主流的AI計(jì)算所需要的乘加計(jì)算進(jìn)行加速,這極大提升了FPGA在AI計(jì)算方面的效能。
在相關(guān)產(chǎn)品特色方面,新的FPGA加速計(jì)算核心能夠以前代產(chǎn)品15倍的速度實(shí)現(xiàn)對(duì)INT8數(shù)據(jù)格式計(jì)算的加速,并且其硬件可編程的特性使得用戶可以根據(jù)自己的AI計(jì)算需求對(duì)硬件進(jìn)行重新定義。內(nèi)存帶寬方面,在使用了HBM內(nèi)存之后,Stratix10NX大幅減輕了數(shù)據(jù)帶寬約束,釋放了更多的計(jì)算效能。在網(wǎng)絡(luò)性能方面,Stratix10NX配置了最大57.4G的收發(fā)器搭配英特爾以太網(wǎng)絡(luò)模塊,并且這個(gè)規(guī)格也是可以根據(jù)用戶需求進(jìn)行定制和改善的。最后,Stratix10NX還可以根據(jù)不同的場合和應(yīng)用環(huán)境,以Chiplet的方式搭配客戶指定的ASIC芯片,以實(shí)現(xiàn)整個(gè)系統(tǒng)的效能最大化??偟膩砜矗⑻貭枌I計(jì)算和FPGA結(jié)合起來,顯然是瞄準(zhǔn)了定制市場對(duì)AI計(jì)算的需求,在擁有了Stratix10NX這樣的產(chǎn)品后,大量的計(jì)算將更有效率地在新的FPGA上運(yùn)行,這將進(jìn)一步推動(dòng)定制化市場AI的發(fā)展速度。
計(jì)算創(chuàng)造無限未來
從本次發(fā)布會(huì)來看,英特爾在搭建自己的面向企業(yè)和商用的AI計(jì)算平臺(tái)的道路上又前進(jìn)了一步。無論是支持全新Bfloat16格式的第三代英特爾至強(qiáng)可擴(kuò)展處理器家族,還是與之相配的200系列傲騰持久內(nèi)存,全新的大容量SSD產(chǎn)品,以及首個(gè)為AI優(yōu)化的FPGA產(chǎn)品,都帶來了英特爾2020年在AI計(jì)算加速上的重大突破。未來的世界是不是AI的世界,目前還有待進(jìn)一步觀察,但是當(dāng)下AI計(jì)算的火熱,給所有參與其中的企業(yè)帶來了一個(gè)切入市場熱點(diǎn)的最好機(jī)會(huì)。英特爾目前要做的,就是提供最合適和最強(qiáng)大的計(jì)算能力,讓計(jì)算創(chuàng)造世界的未來,也創(chuàng)造英特爾自己的未來。