商惠敏
(廣東省科學技術情報研究所,廣州 510033)
人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅動力[1]。當前,人工智能技術已全面滲透到制造、醫(yī)療、交通、金融、教育、安防等眾多領域。算力、算法、數(shù)據(jù)是人工智能發(fā)展最重要的三大要素。其中,算力主要由人工智能芯片支撐,是承載人工智能核心技術的硬件基礎。
廣義而言,所謂人工智能芯片,是指專門用于運行人工智能算法且做了優(yōu)化設計的芯片。為滿足在不同場景下的人工智能應用需求,人工智能芯片逐漸表現(xiàn)出專用性、多樣性的特點。
1.2.1 按技術架構分類
GPU:即圖形處理單元,是一種由大量運算單元組成的大規(guī)模并行計算架構芯片,主要用于處理圖形、圖像領域的海量數(shù)據(jù)運算。GPU上集成了規(guī)模巨大的計算矩陣,從而具備了更強大的浮點運算能力和更快的并行計算速度,與CPU相比,更加適用于解決人工智能算法的訓練難題。英偉達的GPU目前在人工智能計算市場上占據(jù)了主導地位。
半定制化FPGA:即現(xiàn)場可編程門陣列。與GPU的固定電路不同,使用者可以根據(jù)不同的應用需求,使用硬件描述語言對 FPGA芯片上集成的基本門電路和存儲器進行重新定義。按照新的定義完成燒錄后,F(xiàn)PGA芯片內(nèi)部的電路就固化成了實際的連線,從而具備了使用者所需要的功能。此類芯片非常適合在芯片功能尚未完全定型、算法仍需不斷迭代完善的情況下使用。使用FPGA芯片需要通過定義硬件去實現(xiàn)軟件算法,對使用者的技術水平要求較高,因此在設計并實現(xiàn)復雜的人工智能算法方面難度較高。賽靈思和英特爾在FPGA領域具有較大的優(yōu)勢。
全定制化ASIC:即專用芯片,是一種根據(jù)特殊應用場景要求進行全定制化的專用人工智能芯片。與FPGA相比,ASIC芯片無法通過修改電路進行功能擴展;而與CPU、GPU等通用計算芯片相比,其性能高、功耗低、成本低(見表1),也很適合應用于對性能功耗比要求極高的移動設備端[2]。谷歌公司發(fā)布的TPU芯片是當前最知名也最有實用價值的ASIC芯片。
表1 人工智能芯片特點對比
神經(jīng)擬態(tài)芯片:即類腦芯片,是一種對人腦的神經(jīng)網(wǎng)絡結構進行物理模擬的新型芯片架構,通過模擬人腦的神經(jīng)網(wǎng)絡工作機理實現(xiàn)感知和認知等功能[3]。IBM研發(fā)的TrueNorth芯片就是一種典型的類腦芯片,其邏輯結構顛覆了經(jīng)典馮·諾依曼架構,把定制化的數(shù)字處理內(nèi)核當作神經(jīng)元,把內(nèi)存當作突觸,CPU、內(nèi)存及通信元件等完全集成在本地[4],實現(xiàn)了算存一體,突破了馮·諾依曼架構中CPU與內(nèi)存之間的內(nèi)存墻瓶頸,但目前多數(shù)仍是實驗室產(chǎn)品。
1.2.2 按部署位置分類
云端人工智能芯片:這類芯片運算能力強大,功耗較高,一般部署在公有云、私有云、混合云或數(shù)據(jù)中心、超算等計算基礎設施領域,主要用于深度神經(jīng)網(wǎng)絡模型的訓練和推理,處理語音、視頻、圖像等海量數(shù)據(jù),支持大規(guī)模并行計算,通常以加速卡的形式集成多個芯片模塊,并行完成相關計算任務。
邊緣端人工智能芯片:這類芯片一般功耗低、體積小、性能要求不高、成本也較低,相比于云端芯片來說,不需要運行特別復雜的算法,只需具備少量的人工智能計算能力,一般部署在智能手機、無人機、攝像頭、邊緣計算設備、工控設備等移動設備或嵌入式設備上。
1.2.3 按功能任務分類
人工智能訓練芯片:訓練是指向人工智能算法模型輸入大量已標注好的數(shù)據(jù)和素材,進行“學習”,對模型的參數(shù)不斷進行優(yōu)化調整,最終形成一個具備某種特定功能、結果最優(yōu)的神經(jīng)網(wǎng)絡算法模型;人工智能訓練芯片即是指專門對人工智能訓練算法進行優(yōu)化加速的芯片,由于訓練所需的數(shù)據(jù)量巨大,算法復雜度高,因此,訓練芯片對算力、能效、精度等要求非常高,而且還要具備較高的通用性,以支持已有的多種算法,甚至還要考慮未來的算法的訓練。由于對算力有著極高要求,訓練芯片一般更適合部署在大型云端設施中,而且多采用“CPU+GPU”“CPU+GPU+加速芯片”等異構模式,加速芯片可以是GPU或FPGA、ASIC專用芯片等。人工智能訓練芯片的市場主要被英偉達的GPU和谷歌的TPU所占據(jù),英特爾和AMD都在積極進入該領域[5]。
人工智能推理芯片:推理是指向已經(jīng)訓練好的人工智能算法模型輸入新的數(shù)據(jù)和素材,經(jīng)過計算后獲得符合人們預期的相應的輸出;人工智能推理芯片即是指專門對人工智能推理算法進行優(yōu)化加速的芯片,其更加關注能耗、算力、時延、成本等綜合因素。其可以部署在云端和邊緣端,實現(xiàn)難度和市場門檻相對較低,因此,這一領域的市場競爭者較多。云端推理芯片領域,英偉達、谷歌、AMD、賽靈思等傳統(tǒng)芯片廠商是主要的領導者,國內(nèi)的寒武紀、燧原科技、比特大陸也推出了性能較高、市場反響不錯的自研芯片。終端推理芯片領域,應用場景豐富,市場集中度不高,產(chǎn)品有一定的多樣性,英偉達、英特爾、高通、ARM等傳統(tǒng)芯片大廠在該領域布局較早,國內(nèi)的寒武紀、地平線、阿里平頭哥、云天勵飛等新興企業(yè)在垂直行業(yè)也有不俗表現(xiàn)。
第一階段(2006年以前):在這一階段,尚未出現(xiàn)突破性的人工智能算法,且能夠獲取的數(shù)據(jù)也較為有限,傳統(tǒng)通用CPU已經(jīng)能夠完全滿足當時的計算需要,學界和產(chǎn)業(yè)界均對人工智能芯片沒有特殊需求,因此, 人工智能芯片產(chǎn)業(yè)的發(fā)展一直較為緩慢。
第二階段(2006—2010年):在這一階段,游戲、高清視頻等行業(yè)快速發(fā)展,同時也助推了GPU產(chǎn)品的迭代升級。2006年,GPU廠商英偉達發(fā)布了統(tǒng)一計算設備架構(CUDA),第一次讓GPU具備了可編程性,讓GPU的核心流式處理器既具有處理像素、頂點、圖形等渲染能力,又同時具備通用的單精度浮點處理能力,即令GPU既能做游戲和渲染,也能做并行度很高的通用計算,英偉達稱之為GPCPU。統(tǒng)一計算設備架構推出后,GPU編程更加易用便捷,研究人員發(fā)現(xiàn),GPU所具有的并行計算特性比通用CPU的計算效率更高,更加適用于深度學習等人工智能先進算法所需的“暴力計算”場景。在GPU的助力下,人工智能算法的運算效率可以提高幾十倍,由此,研究人員開始大規(guī)模使用GPU開展人工智能領域的研究和應用。
第三階段(2010—2015年):2010年之后,以云計算、大數(shù)據(jù)等為代表的新一代信息技術高速發(fā)展并逐漸開始普及,云端采用“CPU+GPU”混合計算模式使得研究人員開展人工智能所需的大規(guī)模計算更加便捷高效,進一步推動了人工智能算法的演進和人工智能芯片的廣泛使用,同時也促進了各種類型的人工智能芯片的研究與應用。
第四階段(2016年至今):2016年,采用TPU架構的谷歌旗下DeepMind公司研發(fā)的人工智能系統(tǒng)阿爾法圍棋(AlphaGo)擊敗了世界冠軍韓國棋手李世石,使得以深度學習為核心的人工智能技術得到了全球范圍內(nèi)的極大關注。 此后,業(yè)界對于人工智能算力的要求越來越高,而GPU價格昂貴、功耗高的缺點也使其在場景各異的應用環(huán)境中受到諸多限制,因此,研究人員開始研發(fā)專門針對人工智能算法進行優(yōu)化的定制化芯片。大量人工智能芯片領域的初創(chuàng)公司在這一階段涌現(xiàn),傳統(tǒng)互聯(lián)網(wǎng)巨頭也迅速入局該領域爭奪市場,專用人工智能芯片呈現(xiàn)出百花齊放的格局,在應用領域、計算能力、能耗比等方面都有了極大的提升[6]。
英偉達、英特爾、AMD、高通等傳統(tǒng)芯片廠商憑借在芯片領域多年的領先地位,迅速切入人工智能領域,積極布局,目前處于引領產(chǎn)業(yè)發(fā)展的地位(見表2),在GPU和FPGA方面則基本位于壟斷地位。英偉達推出了Tesla系列GPU芯片,專門用于深度學習算法加速;推出了Tegra處理器,應用于自動駕駛領域,并提供配套的研發(fā)工具包。AMD于2018年推出了Radeon Instinct系列GPU,主要應用在數(shù)據(jù)中心、超算等人工智能算力基礎設施上,用于深度學習算法加速。當前,GPU作為業(yè)界使用最為廣泛、人工智能計算最成熟的通用型芯片,成為數(shù)據(jù)中心、超算等大型算力設施的首選,占據(jù)了人工智能芯片的主要市場份額。在效率和場景應用要求大幅提升和變化之前,GPU仍將是人工智能芯片領域的主要領導者。
表2 國外典型人工智能芯片產(chǎn)品
2015年以來,谷歌、IBM、Facebook、微軟、蘋果、亞馬遜等國際互聯(lián)網(wǎng)及IT巨頭紛紛跨界開展人工智能芯片研發(fā),力圖突破算力瓶頸,并把核心部件掌握在自己手中。如谷歌于2016年發(fā)布了專門針對開源框架TensorFlow開發(fā)的芯片TPU,并幫助AlphaGo擊敗李世石;近年,谷歌還推出了可在Google Cloud Platform中使用的云端芯片Cloud TPU以及用于邊緣端推理的Edge TPU,打造閉環(huán)生態(tài)。微軟于2017年發(fā)布了基于FPGA芯片組建的Project Brainwave低時延深度學習系統(tǒng),讓微軟的各種服務可以更迅速地支持人工智能功能。2018年,亞馬遜發(fā)布了高性能推理芯片AWS Inferentia,支持TensorFlow、Caffe2等主流框架。
目前,在CPU、GPU等高端通用芯片領域,我國的設計能力與國外先進水平仍然差距較大,部分自研芯片采用了ARM架構等國外成熟芯片架構和IP核等進行設計,自主研發(fā)能力較弱。但是,隨著人工智能技術大規(guī)模應用于安防、金融、政務、自動駕駛、智能家居等領域,促進了各類專用人工智能芯片的發(fā)展,我國的一些初創(chuàng)型企業(yè),如寒武紀、地平線、云天勵飛、深鑒科技等也開始在人工智能芯片領域有所建樹[7](見表3)。我國人工智能芯片企業(yè)基本都圍繞邊緣端語音、視覺芯片進行開發(fā),從事云端芯片研發(fā)尤其是云端訓練芯片的企業(yè)較少,僅華為、百度等有產(chǎn)品推出,我國云端芯片與國外技術水平差距仍然較大。此外,我國還尚未形成有影響力的“芯片—算法—平臺—應用—生態(tài)”的產(chǎn)業(yè)生態(tài)環(huán)境,企業(yè)多熱衷于追逐市場熱點,缺乏基礎技術積累,研發(fā)后勁不足[8]。
表3 中國典型人工智能芯片產(chǎn)品
IBM公司率先在類腦芯片領域取得突破,2014年推出了TrueNorth類腦芯片,采用28nm工藝,集成了54億個晶體管,包括4096個內(nèi)核、100萬個神經(jīng)元和2.56億個神經(jīng)突觸。 2019年,清華大學施路平教授團隊發(fā)布了類腦芯片“天機芯”,使用28納米工藝流片,包含約40 000個神經(jīng)元和1 000萬個突觸,支持同時運行卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡以及神經(jīng)模態(tài)脈沖神經(jīng)網(wǎng)絡等多種神經(jīng)網(wǎng)絡,是全球首款既能支持脈沖神經(jīng)網(wǎng)絡又可以支持人工神經(jīng)網(wǎng)絡的異構融合類腦計算芯片[9]。西井科技發(fā)布的DeepSouth芯片,核心是用FPGA模擬神經(jīng)元以實現(xiàn)脈沖神經(jīng)網(wǎng)絡的工作方式,包含約5 000萬個神經(jīng)元和高達50多億個神經(jīng)突觸,可以直接在芯片上完成計算,并在“無網(wǎng)絡”情況下使用,處理相同計算任務時,DeepSouth芯片的功耗僅為傳統(tǒng)芯片的幾十至幾百分之一。浙江大學與杭州電子科技大學共同研發(fā)了“達爾文”芯片,集成了500萬個晶體管,包含2 048個硅材質的仿生神經(jīng)元和約400萬個神經(jīng)突觸,可從外界接受并累積刺激,產(chǎn)生脈沖信號,處理和傳遞信息。
隨著以人工智能、物聯(lián)網(wǎng)、5G等為核心的新一代信息技術的高速發(fā)展,涌現(xiàn)出越來越多新的應用場景和需求。未來物聯(lián)網(wǎng)領域將需要體積更小、功耗更低、能效比更高的人工智能芯片。常見的邊緣端芯片如手機中的人工智能芯片,其功耗一般在幾百毫瓦至幾瓦,云端訓練芯片的工作功耗則更高,通常要達到數(shù)百瓦,而超低功耗人工智能芯片的工作功耗一般是幾十毫瓦甚至更低。同時,由于芯片的計算模塊在大多數(shù)時間里均處于休眠狀態(tài),只有在發(fā)生相關事件時才會在事件驅動技術的支持下被激活為工作狀態(tài),這樣就進一步降低了平均功耗。如在以智能手表為代表的智能可穿戴設備領域,設備的電池容量因尺寸等原因受到極大限制,而此類設備需要具備心率檢測、手勢識別、語音識別等智能生物信號處理功能,因此需要集成體積小且能效比超高的人工智能加速芯片,降低對電池的消耗;在智能家居等領域,具備人臉識別、指紋識別等功能的智能門鎖須由電池供電,而且不能經(jīng)常更換電池,否則會降低用戶體驗,這就對門鎖中執(zhí)行人臉識別等功能的智能模塊提出了極高的能效比要求。除消費電子之外,制造業(yè)等工業(yè)應用場景中也需要使用超低功耗人工智能芯片,如安裝在機械臂、管道等重要設備和環(huán)境中的智能傳感器須由電池供電,使用超低功耗人工智能芯片則可以有效減少電池消耗,大幅降低此類設備的維護成本[10]。
當前,摩爾定律已逼近極限,傳統(tǒng)通用芯片的性能提升也逐漸走向瓶頸[11],通用處理器架構越來越難以適應需求各異的人工智能算法和廣泛的應用場景,對新型架構人工智能芯片的需求日益增長,為各類初創(chuàng)型中小企業(yè)帶來新的市場機遇。然而,芯片領域過高的技術門檻和知識產(chǎn)權壁壘,嚴重阻礙了人工智能芯片的進一步技術創(chuàng)新和發(fā)展。開源芯片的興起有望突破這一瓶頸。開源芯片大幅降低了芯片設計領域的門檻,為企業(yè)節(jié)省了芯片架構和IP核等方面的授權費用,可以有效降低企業(yè)的研發(fā)成本。同時,由于開源社區(qū)的開發(fā)者們會持續(xù)不斷地對開源芯片進行更新迭代,企業(yè)可以免費獲取到最新、最優(yōu)化的版本,并向社區(qū)貢獻自己的力量,不斷提升行業(yè)整體發(fā)展水平,有效促進人工智能芯片產(chǎn)業(yè)的繁榮。2014年,美國加州大學伯克利分校的研究團隊正式發(fā)布了“RISC-V”開源精簡指令集架構,具有靈活簡潔、模塊化、擴展性強、易實現(xiàn)等優(yōu)點,可以較好地適應專用硬件設備、高性能計算設備、低功耗嵌入式設備等眾多應用領域的需求,而且“RISC-V”完全免費,可以被任何人自由地用于任何目的,因此,“RISC-V”也成為目前推廣度、普及度最高的開源芯片項目。此外,伯克利創(chuàng)建了開源服務社區(qū),向開發(fā)者們提供完善的軟件工具鏈。目前,“RISC-V”已有大量的開源實現(xiàn)和流片案例,如西部數(shù)據(jù)公司于2018年發(fā)布了基于“RISC-V”的自研處理器架構SweRV;阿里平頭哥于2019年正式發(fā)布了基于“RISC-V”的處理器玄鐵910;中科院計算所于2021年6月發(fā)布了國產(chǎn)開源高性能“RISC-V”處理器核“香山”,其首版架構“雁棲湖”即將流片。
近幾年,人工智能技術在語音識別、視頻圖像識別等應用領域取得突破性的進展,但要從單點突破走向全面開花,需要人工智能領域產(chǎn)生像CPU一樣的通用人工智能計算芯片,適用于任意人工智能應用場景。從目前來看,短期內(nèi)人工智能芯片仍以“CPU+GPU+AI加速芯片”的異構計算模式為主,中期會重點發(fā)展可自重構、自學習、自適應的人工智能芯片,未來將會走向通用的人工智能芯片。通用人工智能芯片就是能夠支持和加速任意人工智能計算場景的芯片,即通過一個通用的數(shù)學模型,最大程度概括出人工智能的本質,其在經(jīng)過一定程度的學習后,能夠精確、高效地處理任意場景下的智能計算任務。通用人工智能芯片發(fā)展的主要難點在于通用性和實現(xiàn)的復雜度,同時,還面臨著傳統(tǒng)馮·諾伊曼架構的技術瓶頸以及摩爾定律接近物理極限這兩大挑戰(zhàn)。未來,隨著芯片的制程工藝、新型半導體材料和物理器件等出現(xiàn)新突破,以及人類對于大腦和智能本身形成更深層次的認知,將有望最終實現(xiàn)真正意義上的通用人工智能芯片。
我國人工智能應用市場規(guī)模不斷增長,在5G、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算等先進技術的支撐下,已經(jīng)不斷累積,形成了海量的數(shù)據(jù)資源,為人工智能芯片提供了廣闊的發(fā)展空間[12]。我國應在人工智能芯片領域持續(xù)加大關注力度,圍繞產(chǎn)業(yè)布局、技術攻關、企業(yè)扶持、構建人工智能創(chuàng)新生態(tài)等方面進行部署,構筑人工智能芯片產(chǎn)業(yè)發(fā)展新優(yōu)勢。
(1)加強人工智能芯片產(chǎn)業(yè)布局。 加強規(guī)劃引導、分類指導,積極發(fā)揮“國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)”和“國家人工智能創(chuàng)新應用先導區(qū)”的示范引領作用,開展人工智能技術示范、政策試驗和社會實驗,加速人工智能技術和產(chǎn)品的應用推廣,持續(xù)推進與實體經(jīng)濟深度融合。探索打造人工智能芯片設計領域的產(chǎn)業(yè)園區(qū),因地制宜有針對性地開展招商引資,培育更多優(yōu)質項目和人才團隊。
(2)強化核心技術攻關,優(yōu)化產(chǎn)業(yè)技術創(chuàng)新體系。圍繞基礎前沿理論、新型體系架構、算法框架、云端訓練芯片、類腦芯片、開源芯片等方面組織科技攻關,力爭形成一批重大標志性科技成果和一批自主可控的核心軟硬件產(chǎn)品。充分發(fā)揮華為、寒武紀、平頭哥、云天勵飛、全志科技等行業(yè)龍頭骨干企業(yè)的示范引領作用,鼓勵其在部分領域實現(xiàn)底層軟硬件系統(tǒng)的開源開放,持續(xù)輸出核心研發(fā)能力,提升產(chǎn)業(yè)技術創(chuàng)新能力。
(3)支持人工智能芯片企業(yè)做大做強。培育人工智能芯片領域的創(chuàng)新型標桿企業(yè),支持創(chuàng)新型企業(yè)在科創(chuàng)板、創(chuàng)業(yè)板、新三板上市融資,打造一批人工智能芯片細分領域的“獨角獸”“瞪羚”“隱形冠軍”企業(yè)。降低人工智能芯片企業(yè)創(chuàng)新創(chuàng)業(yè)成本,提高芯片設計、流片等的補貼力度。鼓勵有條件的企業(yè)建設芯片設計領域的人工智能開放創(chuàng)新平臺,打造知識共享和經(jīng)驗交流社區(qū),鼓勵人工智能芯片硬件層面的開源開放,降低人工智能芯片技術研發(fā)和進入門檻,支持創(chuàng)新創(chuàng)業(yè)者、研發(fā)團隊和中小微企業(yè)投身人工智能芯片技術創(chuàng)新。
(4)培育以市場應用為牽引的產(chǎn)業(yè)氛圍,實現(xiàn)“芯片—算法—平臺—應用—生態(tài)”協(xié)同發(fā)展。充分發(fā)揮我國人工智能數(shù)據(jù)資源豐富、應用場景廣闊的優(yōu)勢,以創(chuàng)新應用牽引人工智能芯片發(fā)展,推動人工智能芯片、算法、平臺、應用、整機等領域的企業(yè)之間建立有機互動和合作研發(fā)戰(zhàn)略聯(lián)盟關系,開展深度合作和協(xié)同創(chuàng)新。支持國資企業(yè)、大型科研機構采用國產(chǎn)芯片、設備等建設自主可控的人工智能算力平臺,為各類應用場景提供強大的算力支撐。■