徐晨
國家工業(yè)信息安全發(fā)展研究中心,北京,100040
人工智能芯片目前尚無準(zhǔn)確定義,但可以從廣義和狹義兩個角度來對其進行闡釋:首先,從廣義角度,只要能夠運行人工智能算法的芯片,都可以被視作人工智能芯片;其次,從狹義角度,人工智能芯片指針對人工智能算法做了特殊加速設(shè)計的芯片(現(xiàn)階段的人工智能算法一般以深度學(xué)習(xí)算法為主,也可以包括其他機器學(xué)習(xí)算法),這也被視為通常意義上對人工智能芯片的定義[1-3]。通常來講,只要是面向人工智能應(yīng)用而設(shè)計的芯片都可被稱為人工智能芯片。近年來,人工智能成了引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),已被美國提升至國家戰(zhàn)略層面。人工智能芯片作為人工智能技術(shù)的核心硬件,為人工智能應(yīng)用提供了強大的算力支撐,其重要性不言而喻,已引起了英偉達、英特爾、谷歌、IBM等美國科技公司的強烈關(guān)注,紛紛加速其布局以搶奪先發(fā)優(yōu)勢。
美國科技公司積極推動人工智能芯片技術(shù)的發(fā)展,在晶體管密度、計算內(nèi)核數(shù)、時鐘頻率、功耗等方面均有較大進步。英偉達繼續(xù)領(lǐng)跑圖形處理器(GPU)技術(shù),新產(chǎn)品性能較之前大幅提升;英特爾積極發(fā)展現(xiàn)場可編程邏輯門陣列(FPGA)技術(shù)和類腦芯片技術(shù),推出全球密度最高FPGA芯片和類腦神經(jīng)擬態(tài)系統(tǒng);谷歌利用張量處理器(TPU)技術(shù),推出專用集成電路(ASIC)硬件平臺,具備高性能機器學(xué)習(xí)推理能力;此外,美國初創(chuàng)公司Cerebras Systems推出規(guī)模最大的人工智能芯片,專門用于處理人工智能算法問題;初創(chuàng)公司 Myhtic推出了具有足夠的存儲與大量并行計算單元的AI芯片,可顯著減少數(shù)據(jù)移動能力;麻省理工學(xué)院的初創(chuàng)公司Lightmatter推出了加速的光子計算測試芯片,將重新定義AI智能芯片領(lǐng)域的發(fā)展。
2019年6月,美國超威半導(dǎo)體公司推出GPU芯片RX5700XT,采用RDNA架構(gòu)和7nm工藝制造,核心面積251mm2,單位面積性能較之前提升2.3倍,具有103億個晶體管、2560個流處理器、40個計算單元、160個紋理單元、加速頻率1905MHz、功耗225W;7月,英偉達推出GPU芯片RTX2080Super,采用“圖靈”架構(gòu)和12nm工藝制造,核心面積545mm2,性能提升了25%左右,具有136億個晶體管、3072個流處理器、384個張量計算核心、192個紋理單元、加速頻率1815MHz、功耗250W。這兩款GPU芯片具有強大的人工智能圖形處理能力,將大幅提升顯控系統(tǒng)的成像質(zhì)量。
2020年英偉達公布了用于超級計算任務(wù)的A100人工智能芯片,這款基于第八代Ampere架構(gòu)的芯片所采用的彈性計算技術(shù)能將每個芯片分割為多達7個獨立實例來執(zhí)行推理任務(wù),人工智能算力提升20倍以上,被業(yè)界認為是史上最大的性能飛躍。這是人類有史以來首次可以在一個平臺上實現(xiàn)對橫向擴展以及縱向擴展的負載的加速;此外,A100人工智能芯片在提高吞吐量的同時,降低了數(shù)據(jù)中心的成本[4];2020年年底,Mythic 推出了其第一代AI芯片M1108 AMP。與很多AI芯片不同,M1108采用更加成熟的模擬計算技術(shù),將足夠的存儲與大量并行計算單元打包在芯片上,可最大化內(nèi)存帶寬并減少數(shù)據(jù)移動能力。
2019年11月,英特爾發(fā)布全球最高密度的FGPA芯片Stratix? 10 GX 10M,采用14nm工藝制造,核心面積1400mm2,擁有1020萬個邏輯單元以及443億個晶體管。這款高密度的FGPA芯片采用了英特爾先進的嵌入式多芯片互連橋接(EMIB)技術(shù)將兩塊FGPA的邏輯系統(tǒng)連接,形成了多達25920個高帶寬連接,內(nèi)部數(shù)據(jù)帶寬高達6.5TB/s。此外,還具有308兆比特的內(nèi)存,6912個數(shù)據(jù)信號處理器(DSP),2304個用戶I/O引腳。該芯片將支持ASIC和SoC技術(shù)的仿真與原型設(shè)計,也將廣泛支持測試測量、計算、網(wǎng)絡(luò)、航空航天和國防等相關(guān)應(yīng)用。
2021年8月,麻省理工學(xué)院的初創(chuàng)公司Lightmatter發(fā)布了一塊AI加速的光子計算測試芯片,該芯片由毫瓦級的激光光源供電,利用硅光子和MEMS技術(shù)的處理器,其速度比傳統(tǒng)芯片快1000倍,但是功耗卻只有普通電子器件的千分之一,采用的是兩個層疊的芯片組,面積約為150mm2左右,內(nèi)部擁有超過十億FinFET晶體管、數(shù)萬光子算術(shù)單元,這將重新定義AI智能芯片領(lǐng)域的發(fā)展。
2019年3月,谷歌推出智能化專用集成電路硬件平臺Coral,包含完整的本地人工智能工具包,可在設(shè)備上創(chuàng)建、培訓(xùn)和運行神經(jīng)網(wǎng)絡(luò)。該平臺搭載谷歌Edge TPU ASIC芯片,包含可移動模塊化系統(tǒng)、USB加速器、500萬像素攝像頭等組件,最大限度地減少延遲和功耗,使低功耗設(shè)備具備高性能的機器學(xué)習(xí)推理能力。
谷歌的Edge TPU邊緣人工智能芯片是專為在邊緣運行TensorFlow Lite ML模型而設(shè)計的ASIC芯片,可用于越來越多的工業(yè)使用場景,如預(yù)測性維護、異常檢測、機器視覺、機器人學(xué)、語音識別等,可以應(yīng)用于制造、本地部署、醫(yī)療保健、零售、智能空間、交通運輸?shù)雀鱾€領(lǐng)域,具有體型小、功耗低、性能出色的優(yōu)勢,可以在邊緣部署高精度人工智能。
2020年 2 月,谷歌發(fā)布首個全球人工智能模型平臺(Model Play),該平臺搭載了Edge TPU人工智能芯片,是一款面向全球用戶的人工智能模型資源交流與交易平臺,為機器學(xué)習(xí)與深度學(xué)習(xí)提供豐富和多樣化的功能模型,可兼容多種人工智能芯片,幫助用戶快速創(chuàng)建和部署模型,顯著提高了模型開發(fā)和應(yīng)用效率,降低了人工智能開發(fā)及應(yīng)用門檻。
2019年7月,英特爾在DARPA“電子復(fù)興計劃”年度峰會上發(fā)布Pohoiki Beach神經(jīng)擬態(tài)系統(tǒng),該系統(tǒng)由64塊Loihi芯片組成,采用14nm工藝,總面積3840mm2,擁有1320億個晶體管、800萬個神經(jīng)元,處理速度比傳統(tǒng)CPU快1000倍,效率高1萬倍,功耗小100倍,將為圖像識別、自動駕駛領(lǐng)域帶來巨大的技術(shù)提升。
2020年8月,美國蘋果公司公布其最新 A14仿生芯片,該芯片的CPU性能相比上一代A13仿生芯片提升40%,GPU性能相比上一代仿生芯片提升50%,優(yōu)于包括英特爾芯片在內(nèi)的其他芯片;A14仿生芯片還搭載了定制技術(shù),這些技術(shù)可以驅(qū)動速度更快的神經(jīng)引擎,實現(xiàn)更強大的機器學(xué)習(xí)能力。2020年11月,蘋果公布A14X 仿生芯片的CPU和GPU性能基準(zhǔn),與A12Z仿生芯片相比,多核測試的性能提高了35%。
2019年8月,美國初創(chuàng)公司Cerebras Systems推出有史以來規(guī)模最大的人工智能芯片,專門設(shè)計用于處理人工智能應(yīng)用問題,顯著提升學(xué)習(xí)速度。該芯片采用臺積電16nm工藝制造,面積達46225mm2、擁有1.2萬億個晶體管、40萬個計算內(nèi)核、18吉比特片上靜態(tài)隨機存儲器,已被美國能源部的阿貢國家實驗室和勞倫斯·利弗莫爾國家實驗室應(yīng)用于人工智能計算機中。
當(dāng)前,人工智能多樣化的場景應(yīng)用對人工智能芯片的性能、功耗、延遲以及成本等指標(biāo)提出不同需求,人工智能芯片呈現(xiàn)出多技術(shù)路徑并行發(fā)展的態(tài)勢。
根據(jù)設(shè)計需求,人工智能芯片主要分為:圖形處理器(GPU)、現(xiàn)場可編程邏輯門陣列(FGPA)、專用集成電路(ASIC)、類腦芯片、通用智能芯片。通常根據(jù)具體應(yīng)用場景,在性價比、能效比、可靠性之間折中選擇。
不同技術(shù)路徑人工智能芯片的特點為:(1)GPU疊加大量計算單元和高速內(nèi)存,邏輯控制單元簡單、通用性強。但GPU不能獨立工作、功耗大、價格成本高,通常用于3D圖像處理和密集型并行計算。(2)FPGA具備可重構(gòu)數(shù)字門電路和存儲器,硬件配置靈活,能快速適應(yīng)算法的迭代更新,功耗和速度優(yōu)于GPU。但FPGA編程門檻高、峰值性能不如GPU,通常用于算法更新頻繁的小規(guī)模計算領(lǐng)域。(3)ASIC計算能力和計算效率根據(jù)算法需要定制,體積小、功耗低、計算性能高,速度比FGPA快5~10倍,功耗遠優(yōu)于GPU,量產(chǎn)后成本也將低于FGPA。但ASIC開發(fā)周期長、上市速度慢、面臨風(fēng)險高,常用于需求量較大的專用領(lǐng)域。(4)類腦芯片模擬人類大腦處理信息,以極低功耗對信息進行異步、并行、低速和分布式處理,具備感知、識別和學(xué)習(xí)等功能,性能強大且通用性強。但類腦芯片開發(fā)技術(shù)難度大,目前仍處于研發(fā)階段。(5)通用智能芯片具有可編程性、架構(gòu)動態(tài)可變性、架構(gòu)高效重組、高計算效率、低成本、低功耗等特征,可按照軟件的需求來調(diào)整芯片計算能力,是人工智能芯片發(fā)展的最終目標(biāo)。但通用智能芯片開發(fā)技術(shù)難度大,目前還沒有真正意義上的通用智能芯片。
通過在計算架構(gòu)、器件材料、電路設(shè)計、制造工藝上的改進和創(chuàng)新,人工智能芯片朝高性能、高密集度、高智能化方向發(fā)展,在算力、功耗、成本等方面不斷提升。此外,多模異構(gòu)集成和通用智能芯片也成了人工智能芯片未來的重要發(fā)展方向。
2.2.1 制造工藝進步推動芯片性能持續(xù)提升
隨著制造工藝水平的不斷提升,傳統(tǒng)架構(gòu)人工智能芯片的晶體管密度更高,核心數(shù)更多、運算速度更快、功耗更低,計算能力持續(xù)上升。當(dāng)前,大多數(shù)人工智能芯片都還在采用10nm以上工藝,隨著更先進工藝技術(shù)的不斷被嘗試使用,高密度芯片將不斷被推出。
2.2.2 多模異構(gòu)集成,實現(xiàn)優(yōu)勢互補
人工智能技術(shù)需要大數(shù)據(jù)驅(qū)動的數(shù)據(jù)算法,同時也需要小數(shù)據(jù)、小樣本算法應(yīng)用,單個類型的人工智能芯片都不能將處理效果發(fā)揮到最佳。針對多樣化的人工智能算法,采用多模異構(gòu)集成,融合不同人工智能算法,形成優(yōu)勢互補,是人工智能未來發(fā)展的重點方向。
2.2.3 通用智能芯片是未來發(fā)展的終極目標(biāo)
人工智能芯片需不斷調(diào)整架構(gòu)以適應(yīng)人工智能多變的算法,新架構(gòu)的反復(fù)開發(fā)使成本和技術(shù)難度不斷提升,通用人工智能芯片根據(jù)算法需求自動調(diào)整架構(gòu),極具靈活性和適應(yīng)性,是未來技術(shù)發(fā)展的必然方向。
人工智能芯片是實現(xiàn)未來軍用人工智能技術(shù)的核心和關(guān)鍵,推動人工智能武器、智能電子戰(zhàn)、智能作戰(zhàn)管理、智能仿真、智能情報分析與圖像識別、武器裝備自動故障診斷與排除、作戰(zhàn)機器人和智能無人機等軍用人工智能技術(shù)的發(fā)展,進而為未來戰(zhàn)爭的作戰(zhàn)樣式帶來翻天覆地的改變。
圖形處理器作為信息化裝備顯控系統(tǒng)的“大腦”,是實現(xiàn)“人機對話”的重要元件之一,其先進程度直接對是否能制敵于“千里”之外構(gòu)成了影響。GPU具備的安全性、穩(wěn)定性、可靠性以及強大并行計算能力,將增強對戰(zhàn)場信息的采集、分析、顯示能力,提升信息化裝備的快速反應(yīng)能力,為奪取信息權(quán)提供了有力的保證。
人工智能芯片為軍事訓(xùn)練提供了一種低成本、高效率、高穩(wěn)定性的解決方案,可使軍事仿真訓(xùn)練的戰(zhàn)場地形分辨率更高、地幅更大,訓(xùn)練環(huán)境更加真實、更貼近實戰(zhàn),兵力生成精度更高、速度更快,使模擬訓(xùn)練的人員感受到與真實戰(zhàn)場相近的壓力,從而有效地提高士兵的戰(zhàn)場承受能力以及指揮員的臨場指揮能力。
現(xiàn)場可編程邏輯門陣列是雷達不可或缺的核心部件,快速并行處理能力有效增強了雷達的數(shù)字信號處理能力,使其在日益復(fù)雜的電磁環(huán)境中顯著提升多目標(biāo)同時處理的能力。FGPA器件不僅擴充了雷達功能、提升了運算速度,還實現(xiàn)了雷達的編程化和模塊化處理,使其更加符合現(xiàn)代化信息戰(zhàn)爭的需求。
現(xiàn)場可編程邏輯門陣列是現(xiàn)代化信息裝備的必備芯片,90%以上的大型軍用電子設(shè)備靠其發(fā)揮作用,目前信息裝備中FGPA芯片可達近千片,價格昂貴、功耗巨大。高密度FGPA具有高集成度,在提升單位面積計算能力的同時降低了功耗,可有效縮減信息裝備尺寸,進一步提高機動作戰(zhàn)能力,適應(yīng)現(xiàn)代高科技戰(zhàn)爭發(fā)展趨勢。
指揮信息系統(tǒng)面臨著復(fù)雜多變的戰(zhàn)場環(huán)境,需要具備小樣本學(xué)習(xí)、抗噪性、通用智能等新能力,類腦芯片的設(shè)計架構(gòu)與人的大腦機構(gòu)相似,在適應(yīng)性方面表現(xiàn)出更加類人的特性,為智能化指揮信息系統(tǒng)提供了新的技術(shù)途徑。類腦芯片的發(fā)展有望不斷推動軍事智能的發(fā)展,成為未來指揮信息系統(tǒng)實現(xiàn)更高級智能化水平的有力推手。
人工智能芯片的發(fā)展還處在初級階段,科研和產(chǎn)業(yè)應(yīng)用都擁有巨大的創(chuàng)新空間,將在材料、架構(gòu)、設(shè)計理念和應(yīng)用場景等方面迎來巨大的發(fā)展機遇。未來幾年,人工智能芯片將持續(xù)火熱,技術(shù)創(chuàng)新將不斷涌現(xiàn)。
ASIC針對特定需求開發(fā),能夠更好地根據(jù)需求進行性能和功耗的定向優(yōu)化,其專用的芯片架構(gòu)與高復(fù)雜度的算法相匹配,量產(chǎn)后在性能、功耗、成本等方面均具有較大優(yōu)勢,長期來看,非常適用于人工智能應(yīng)用。隨著仿真與原型設(shè)計技術(shù)的不斷成熟,ASIC有望在今后取代GPU和FPGA,成為人工智能芯片的重要分支。
隨著人工智能應(yīng)用場景的多樣化,架構(gòu)創(chuàng)新使人工智能芯片的智能化水平越來越高。目前,短期發(fā)展采用異構(gòu)集成的方式加速各類應(yīng)用算法;中期發(fā)展著重在自重構(gòu)、自學(xué)習(xí)、自適應(yīng)方面發(fā)展,支持算法的演進和類人的自然智能;長期發(fā)展朝淡化人為干預(yù)的通用型芯片方向發(fā)展。