韓炳濤/HAN Bingtao,劉濤/LIU Tao,唐波/TANG Bo
( 1.中興通訊股份有限公司,中國(guó) 深圳 518057;2.移動(dòng)網(wǎng)絡(luò)和移動(dòng)多媒體技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,中國(guó) 深圳 518055 )
2012年AlexNet[1]橫空出世,掀起第3次人工智能(AI)浪潮。從此AI進(jìn)入深度學(xué)習(xí)時(shí)代。在深度學(xué)習(xí)的第1個(gè)10年,數(shù)據(jù)、算法、算力三大要素得到迅速發(fā)展。與前兩次浪潮不同的是,在第3次浪潮中AI技術(shù)一舉突破商用限制,擁有日益廣泛的行業(yè)應(yīng)用場(chǎng)景,產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大,打消了人們對(duì)于第3次浪潮何時(shí)終結(jié)的疑慮。
深度學(xué)習(xí)的特點(diǎn)是可以將基礎(chǔ)算子以層層疊加的方式組成復(fù)雜的神經(jīng)網(wǎng)絡(luò),并使用反向傳播算法統(tǒng)一實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。使用如此的簡(jiǎn)單方法即可構(gòu)建任意復(fù)雜模型。這種能力使深度學(xué)習(xí)成為一種適用于多種任務(wù)的通用算法。
在過(guò)去10年中,基礎(chǔ)模型經(jīng)歷了兩次跨越式發(fā)展。第1次跨越是以AlexNet為代表的卷積神經(jīng)網(wǎng)絡(luò)。2015年ResNet[2]的出現(xiàn)使得這一階段的發(fā)展達(dá)到高峰。在這一階段人們普遍認(rèn)為,更深的神經(jīng)網(wǎng)絡(luò)將具備更強(qiáng)的表征能力。因此,研究者主要思考如何增加神經(jīng)網(wǎng)絡(luò)的深度。ResNet通過(guò)引入跨層shortcut連接,成功將網(wǎng)絡(luò)深度提升至150層以上。之后的研究雖將網(wǎng)絡(luò)深度提升至1 000層以上,但模型性能提升幅度越來(lái)越小,因此百層左右的網(wǎng)絡(luò)成為應(yīng)用的主流選擇。此外,這一階段發(fā)展了大量基于卷積計(jì)算的算子,在提取空間和時(shí)間局部特征方面取得了很好的效果,使得圖像、語(yǔ)音模式識(shí)別準(zhǔn)確率大幅提升,產(chǎn)生了諸如語(yǔ)音輸入、人臉識(shí)別等第一批可商業(yè)化的技術(shù),為第三次AI浪潮創(chuàng)造了一個(gè)良好的開(kāi)端。
第2次跨越是以2016年出現(xiàn)的以Transformer[3]為代表的注意力機(jī)制神經(jīng)網(wǎng)絡(luò)。注意力機(jī)制此前在神經(jīng)網(wǎng)絡(luò)中僅是輔助性算子,但Transformer創(chuàng)造性地將其作為網(wǎng)絡(luò)核心算子,引發(fā)了一系列重大創(chuàng)新。Transformer最初解決了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[4]等循環(huán)神經(jīng)網(wǎng)絡(luò)計(jì)算效率低、訓(xùn)練容易過(guò)擬合等問(wèn)題。2017年基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型BERT[5]利用海量樣本的無(wú)監(jiān)督預(yù)訓(xùn)練大幅提升下游任務(wù)表現(xiàn)能力,使大規(guī)模樣本預(yù)訓(xùn)練和少量樣本精調(diào)成為模型訓(xùn)練新范式。此后,自監(jiān)督預(yù)訓(xùn)練[6]更是將這一范式推向高潮。研究人員很快發(fā)現(xiàn)語(yǔ)言模型規(guī)模越大,表現(xiàn)就越好。模型規(guī)模在短短的兩年內(nèi)迅速突破了千億參數(shù)級(jí)別。2019年,擁有1 700億參數(shù)的GTP-3[7]模型在對(duì)話、知識(shí)問(wèn)答、吟詩(shī)作賦等多項(xiàng)任務(wù)中展示出的能力令人印象深刻。深度學(xué)習(xí)從此邁入大模型時(shí)代?,F(xiàn)如今相關(guān)模型規(guī)模已經(jīng)達(dá)到百萬(wàn)億級(jí)別[8]。此外,研究人員發(fā)現(xiàn)Transformer具備跨模態(tài)通用性。2018年,ViT[9]模型證明Transformer除了適用于處理自然語(yǔ)言相關(guān)任務(wù)外,在處理圖像任務(wù)方面也不輸于卷積神經(jīng)網(wǎng)絡(luò)。最新的DALL.E、紫東太初、M6[10-12]等多模態(tài)模型更是可以同時(shí)處理文本、語(yǔ)音、圖像多模態(tài)數(shù)據(jù)。自監(jiān)督預(yù)訓(xùn)練、大模型、多模態(tài)等創(chuàng)新Transformer成為當(dāng)今最重要的深度學(xué)習(xí)模型,為深度學(xué)習(xí)的發(fā)展帶來(lái)無(wú)限可能。
除了基礎(chǔ)模型,過(guò)去10年在學(xué)習(xí)方法上也取得了重大進(jìn)展。學(xué)習(xí)方法主要包括監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩大類(lèi)。監(jiān)督學(xué)習(xí)比較容易,但需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,這個(gè)過(guò)程通常需要耗費(fèi)大量人力。強(qiáng)化學(xué)習(xí)是一種特殊的監(jiān)督學(xué)習(xí),它只需要一個(gè)回報(bào)信號(hào)而無(wú)須對(duì)每條數(shù)據(jù)進(jìn)行標(biāo)注。在強(qiáng)化學(xué)習(xí)過(guò)程中,算法以一種“試錯(cuò)”的方式對(duì)問(wèn)題空間進(jìn)行探索,從而找到一種最優(yōu)(獲取最大回報(bào))的策略。深度學(xué)習(xí)模型和強(qiáng)化學(xué)習(xí)方法相結(jié)合,產(chǎn)生多項(xiàng)重要成果,大幅拓展了深度學(xué)習(xí)的應(yīng)用邊界。2016年AlphaGo[13]戰(zhàn)勝九段專(zhuān)業(yè)棋手,AI進(jìn)入大眾視野,第3次AI浪潮開(kāi)始井噴。2017年AlphaGo Zero[14]完全不依賴人類(lèi)的圍棋知識(shí),僅從最基本的圍棋規(guī)則開(kāi)始,經(jīng)過(guò)72 h的訓(xùn)練,棋力就可遠(yuǎn)超AlphaGo。2018年AlphaZero[15]使用同一個(gè)模型和算法,同時(shí)掌握國(guó)際象棋、將棋、圍棋,顯示出強(qiáng)化學(xué)習(xí)有實(shí)現(xiàn)通用AI的潛力。強(qiáng)化學(xué)習(xí)在德州撲克、DOTA、星際爭(zhēng)霸等視頻游戲[16-18]中也達(dá)到頂尖人類(lèi)玩家的水平。在真實(shí)環(huán)境中使用強(qiáng)化學(xué)習(xí)的研究也取得很大進(jìn)展。使用強(qiáng)化學(xué)習(xí)算法不僅可以對(duì)機(jī)械臂實(shí)現(xiàn)適應(yīng)性控制,可以完成諸如網(wǎng)線插拔等靈巧型任務(wù)[19],甚至還可以操作復(fù)雜的可控核聚變托卡馬克裝置,實(shí)現(xiàn)對(duì)裝置中高溫等離子體形狀、位置的跟蹤和控制[20]。最近,強(qiáng)化學(xué)習(xí)在科學(xué)領(lǐng)域也取得不小進(jìn)展。例如,AplhaTensor[21]可以發(fā)現(xiàn)各種大小的矩陣乘法的速算方法,而人類(lèi)科學(xué)家還沒(méi)能發(fā)現(xiàn)任何一種大于3×3規(guī)模矩陣的速算方法。強(qiáng)化學(xué)習(xí)在多種任務(wù)中體現(xiàn)出通用性,使其成為實(shí)現(xiàn)“通用AI”一條重要技術(shù)路線,不斷吸引更多學(xué)者參與到研究中來(lái)。
難度最大同時(shí)也是最具發(fā)展?jié)摿Φ臒o(wú)監(jiān)督學(xué)習(xí)方法,特別是在生成式模型領(lǐng)域,在過(guò)去10年產(chǎn)生了兩個(gè)重大的方法創(chuàng)新。一個(gè)是在2014年,Goodfellow提出的生成對(duì)抗網(wǎng)絡(luò)(GAN)模型及其創(chuàng)新的對(duì)抗訓(xùn)練方法[22],被LeCun認(rèn)為是過(guò)去10年中機(jī)器學(xué)習(xí)領(lǐng)域中最有趣的想法。對(duì)抗訓(xùn)練方法通過(guò)同步優(yōu)化生成器、判別器,使兩者達(dá)到納什均衡。這種方法可以生成更加清晰的圖片,但訓(xùn)練過(guò)程不穩(wěn)定。此后對(duì)GAN的改進(jìn)成為研究熱點(diǎn),特別是在2019年BigGAN[23]改進(jìn)了大規(guī)模網(wǎng)絡(luò)下對(duì)抗訓(xùn)練不穩(wěn)定的問(wèn)題,使batch size增大至2 048,模型參數(shù)達(dá)到1.7億,在生成圖像的真實(shí)性和多樣性上取得巨大進(jìn)步,生成了可以假亂真的圖像。另一個(gè)是自監(jiān)督學(xué)習(xí),以變分自動(dòng)編碼器(VAE)[24]為代表的自動(dòng)編碼器通過(guò)將模型分割為編碼器、解碼器兩個(gè)部分,先將數(shù)據(jù)編碼到隱變量空間,再?gòu)碾[變量空間解碼恢復(fù)數(shù)據(jù)。這種方法使數(shù)據(jù)自身成為標(biāo)簽,在不使用任何人工標(biāo)注的情況下從大規(guī)模無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)特征。除了以原始數(shù)據(jù)作為標(biāo)簽外,其他多種建立自標(biāo)簽的方法也陸續(xù)被發(fā)現(xiàn)。2021年Diffusion Model[25]則是將向原始圖像添加的高斯噪音作為標(biāo)簽,讓模型從加噪的圖像中預(yù)測(cè)噪音,從而學(xué)習(xí)得到降噪編碼器。將這樣多個(gè)降噪編碼器層層疊加,就可以從噪音中得到圖像。這種方法可以使深度學(xué)習(xí)模型生成前所未有的高清、逼真圖像。2022年潛在擴(kuò)散模型(LDM)[26]大幅提升了高分辨率圖像的效率,使AI內(nèi)容生成技術(shù)更加實(shí)用化。AI在未來(lái)音樂(lè)、視頻、游戲、元宇宙內(nèi)容生成中有廣闊的應(yīng)用前景。
正是由于過(guò)去10年中深度學(xué)習(xí)算法的長(zhǎng)足發(fā)展,如今AI已在千行百業(yè)中擁有廣泛的應(yīng)用場(chǎng)景[27-36],產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大,成為數(shù)字經(jīng)濟(jì)下不可或缺通用基礎(chǔ)技術(shù),對(duì)經(jīng)濟(jì)增長(zhǎng)意義重大。
J. SEVILLA等[37]對(duì)AI主要算法所需要的算力進(jìn)行了匯總。過(guò)去10年在模型訓(xùn)練方面,模型所需的算力增長(zhǎng)超過(guò)了100萬(wàn)倍。深度學(xué)習(xí)對(duì)算力的巨大需求推動(dòng)了AI芯片快速發(fā)展。在這10年中,主流AI芯片架構(gòu)經(jīng)歷了3代進(jìn)化。
第1代(2012—2016年)AI芯片架構(gòu)是通用圖形處理器(GPGPU)。這一時(shí)期深度學(xué)習(xí)剛剛起步,網(wǎng)絡(luò)規(guī)模并不大。這一代芯片架構(gòu)沒(méi)有針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算進(jìn)行加速的特殊設(shè)計(jì),而是利用GPGPU已有的單指令多線程(SIMT)計(jì)算核心來(lái)提升向量、矩陣并行計(jì)算效率。SIMT架構(gòu)特點(diǎn)是硬件根據(jù)數(shù)據(jù)自動(dòng)分支,既可以像單指令多數(shù)據(jù)(SIMD)一樣高效,又可以像多指令多數(shù)據(jù)(MIMD)一樣靈活。但SIMT是為通用計(jì)算設(shè)計(jì)的,依賴共享內(nèi)存交換中間數(shù)據(jù),功耗大,算力并不高。
第2代AI芯片架構(gòu)從2016年開(kāi)始出現(xiàn),時(shí)至今日仍是主流。這一時(shí)期卷積神經(jīng)網(wǎng)絡(luò)成為最主流的算法。AI芯片以加速卷積神網(wǎng)絡(luò)為首要目標(biāo)。ResNet成為AI芯片性能測(cè)試標(biāo)準(zhǔn)。這一代架構(gòu)以谷歌張量處理器(TPU)[38]為代表,其主要特點(diǎn)是將AI計(jì)算抽象為標(biāo)量、向量、矩陣3類(lèi)計(jì)算。計(jì)算核心包含對(duì)應(yīng)的3種專(zhuān)用計(jì)算單元,可以提供很高的峰值算力。同時(shí)核心內(nèi)置容量較大的靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)作為本地存儲(chǔ)。因此,第2代AI芯片架構(gòu)在算力和功耗上相對(duì)于第1代架構(gòu)有了巨大的提升。但是這一代架構(gòu)在通用性上較差,在應(yīng)對(duì)各種尺寸的神經(jīng)網(wǎng)絡(luò)時(shí)難以表現(xiàn)出很好的計(jì)算效率,同時(shí)在可編程、靈活性上不如第1代架構(gòu),面對(duì)不斷涌現(xiàn)的新算法和新場(chǎng)景,日益顯示出應(yīng)用場(chǎng)景的局限性和軟件開(kāi)發(fā)的高成本弊端。
同一時(shí)期,GPGPU在計(jì)算核心中增加專(zhuān)門(mén)的矩陣計(jì)算單元Tensor Core[39],這樣既擁有高性能,又擁有強(qiáng)大的可編程性和靈活性,依靠完備的工具鏈和成熟的生態(tài),具有突出的市場(chǎng)競(jìng)爭(zhēng)力。因此,對(duì)于第2代AI芯片架構(gòu),從數(shù)量上看是百花齊放,從市場(chǎng)占有率上看卻是一枝獨(dú)秀。擁有Tensor Core的GPGPU,例如NVIDIA Volta、Ampare系列,成為這一代AI芯片的最終贏家。
第3代AI芯片架構(gòu)產(chǎn)生于2019年,這一時(shí)期出現(xiàn)了Transformer模型。該模型迅速發(fā)展,并與卷積神經(jīng)網(wǎng)絡(luò)形成了分庭抗禮的局面。特別是隨著大規(guī)模預(yù)訓(xùn)練模型和多模態(tài)的進(jìn)展,Transformer很可能會(huì)最終取代卷積神經(jīng)網(wǎng)絡(luò)(CNN)。擺在芯片架構(gòu)設(shè)計(jì)面前的挑戰(zhàn)有兩個(gè):(1)需要對(duì)Transformer進(jìn)行優(yōu)化設(shè)計(jì)。相對(duì)于CNN,同等算力的Transformer模型對(duì)帶寬的要求更高,這增加了芯片設(shè)計(jì)的難度。(2)系統(tǒng)需要具備優(yōu)秀的水平擴(kuò)展能力,以滿足急速增長(zhǎng)的大模型訓(xùn)練算力需求。這一代架構(gòu)以GraphCore[40]、Tenstorrent[41]為代表,其特點(diǎn)是在單一芯片擁有上百甚至上千個(gè)計(jì)算核心。同時(shí)芯片間具備良好的水平擴(kuò)展能力,可以實(shí)現(xiàn)從單核到百萬(wàn)核的無(wú)縫擴(kuò)展。為保證如此大規(guī)模并行計(jì)算高效運(yùn)行,需要采用軟硬件協(xié)同設(shè)計(jì),特別是需要圖編譯器對(duì)多核上的計(jì)算任務(wù)派發(fā)和數(shù)據(jù)路由做出優(yōu)化調(diào)度,以便隱藏?cái)?shù)據(jù)傳輸?shù)阮~外開(kāi)銷(xiāo),實(shí)現(xiàn)一加一等于二的并行計(jì)算效果。然而,這一代架構(gòu)大幅增加了編譯器的開(kāi)發(fā)難度,芯片可編程性和靈活性相對(duì)上一代架構(gòu)并未得到明顯的提升,工具鏈和生態(tài)建設(shè)難度大。與此同時(shí),GPGPU的TensorCore已具備專(zhuān)用的Tensformer加速引擎。第3代AI芯片架構(gòu)中誰(shuí)是最終勝利者,仍需要時(shí)間來(lái)給出答案。
算法的不斷發(fā)展對(duì)AI芯片架構(gòu)提出越來(lái)越高的要求。我們認(rèn)為未來(lái)AI芯片架構(gòu)必須要具備如下綜合能力:在性能方面,對(duì)Transformer模型有優(yōu)秀的加速能力;在功耗方面,8位整數(shù)(INT8)等效算力達(dá)到10 TOPS/W以上;在通用性方面,對(duì)各種規(guī)模的模型都可以達(dá)到較高的硬件利用率;在可編程性方面,可以通過(guò)編程支持新的算法且容易開(kāi)發(fā),具備完整的工具鏈,能夠快速完成模型的開(kāi)發(fā)和部署。
在深度學(xué)習(xí)的第2個(gè)10年,數(shù)據(jù)、算法、算力三大要素依舊占據(jù)核心地位。但隨著AI的應(yīng)用越來(lái)越廣泛和深入,綠色、生態(tài)、可信將成為AI可持續(xù)發(fā)展新的核心要素。
2019年一項(xiàng)研究表明,完成一次Trasformer(Big)模型訓(xùn)練所排放的二氧化碳高達(dá)282噸,相當(dāng)于5輛汽車(chē)整個(gè)生命周期的CO2排放量[42]。目前,全世界1%的發(fā)電量被用于AI計(jì)算。全球AI計(jì)算能耗年增長(zhǎng)率為37%。據(jù)此估算,下一個(gè)10年,AI計(jì)算將消耗全世界發(fā)電量的15%左右,將為環(huán)境帶來(lái)沉重的負(fù)擔(dān)。為了實(shí)現(xiàn)綠色可持續(xù)發(fā)展,必須不斷研究更有效率的AI芯片。
提升AI芯片效率的一個(gè)方向是空間計(jì)算。眾所周知,AI芯片功耗與數(shù)據(jù)在芯片內(nèi)搬運(yùn)的距離正相關(guān)。借助創(chuàng)新的芯片架構(gòu)設(shè)計(jì),減少完成每次操作數(shù)據(jù)在芯片內(nèi)需要移動(dòng)的距離,就可以大幅降低芯片的能耗。
這里我們對(duì)Google TPUv3和Tenstorrent Wormhole兩個(gè)AI芯片進(jìn)行對(duì)比。如圖1(a)所示,TPU計(jì)算核心設(shè)計(jì)是采用一個(gè)較大的向量和矩陣計(jì)算單元同本地SRAM相連接,完成一個(gè)神經(jīng)網(wǎng)絡(luò)算子的計(jì)算,需要將數(shù)據(jù)從Vector Memory搬移到Matrix Multiply Unit完成矩陣乘計(jì)算,然后再搬移到Vector Unit完成Element-wise計(jì)算。這種大計(jì)算、大存儲(chǔ)單元的設(shè)計(jì)導(dǎo)致每次計(jì)算數(shù)據(jù)平均移動(dòng)距離達(dá)到毫米級(jí)別,因此芯片功耗高,以至于必須采用水冷才能使TPU 集群系統(tǒng)正常運(yùn)行。在圖1(b)中,每顆Wormhole芯片包含80個(gè)Tensix計(jì)算核心。每個(gè)計(jì)算核心擁有約5 TOPS的算力以及1.5 MB的本地存儲(chǔ)。由于大多數(shù)計(jì)算能夠在單核心內(nèi)完成,因此更小的核心能夠縮短數(shù)據(jù)移動(dòng)距離。只有少數(shù)的跨核心計(jì)算才需要將數(shù)據(jù)搬運(yùn)到更遠(yuǎn)的地方。據(jù)估算,Wormhole芯片每次操作數(shù)據(jù)的平均移動(dòng)距離只有TPUv3的1/10左右。因此,Wormhole芯片功效比要高得多,達(dá)到3 TOPS/W@INT8,而TPUv3的為0.6 TFOPS/W@BF16。
▲圖1 Google TPUv3和Tenstorrent Wormhole架構(gòu)示意圖
將一個(gè)包含大計(jì)算、大存儲(chǔ)單元的計(jì)算核心拆分為多個(gè)包含小計(jì)算、小存儲(chǔ)單元的計(jì)算核心,可以有效降低每次計(jì)算數(shù)據(jù)移動(dòng)的平均距離,從而降低芯片能耗。這也成為新一代AI芯片的設(shè)計(jì)趨勢(shì)。然而,這種多核并行計(jì)算會(huì)引入額外的開(kāi)銷(xiāo),導(dǎo)致計(jì)算效率降低。相應(yīng)的解決方案是通過(guò)軟硬件架構(gòu)協(xié)同設(shè)計(jì),將一個(gè)計(jì)算任務(wù)拆分為多個(gè)子任務(wù),然后將子任務(wù)指派到不同的計(jì)算核心上,并規(guī)劃任務(wù)之間數(shù)據(jù)傳輸路徑,最優(yōu)匹配芯片的算力、存儲(chǔ)、數(shù)據(jù)傳輸帶寬、互聯(lián)拓?fù)浣Y(jié)構(gòu),減少數(shù)據(jù)移動(dòng)距離,從而實(shí)現(xiàn)性能最優(yōu)、功耗最低。這種將多個(gè)計(jì)算任務(wù)在空間(多核)上進(jìn)行調(diào)度的計(jì)算方式被稱為“空間計(jì)算”。
實(shí)現(xiàn)多核空間計(jì)算需要軟硬件協(xié)同設(shè)計(jì)。在硬件方面,為提升并行計(jì)算效率,計(jì)算核心可以增加對(duì)AI并行計(jì)算常用通信模式的硬件支持,如Scatter、Gather、Broadcast等,對(duì)數(shù)據(jù)包進(jìn)行封裝、壓縮等,在核間互聯(lián)上優(yōu)化片上網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和動(dòng)態(tài)路由能力。在軟件方面,由于空間計(jì)算的優(yōu)化非常復(fù)雜,非開(kāi)發(fā)人員所能負(fù)擔(dān),需要編譯器自動(dòng)實(shí)現(xiàn)任務(wù)的拆分、指派、路由規(guī)劃,在運(yùn)行時(shí)需要完成計(jì)算過(guò)程控制,特別是對(duì)空間計(jì)算過(guò)程中產(chǎn)生的各種異常(如丟包、亂序、擁塞)進(jìn)行處理。
未來(lái)空間計(jì)算的一條演進(jìn)路線是在存計(jì)算(At-Memory)。在存計(jì)算可以把一個(gè)大的計(jì)算核心拆分為上萬(wàn)個(gè)微型計(jì)算核心,而不僅僅是上百個(gè)小核心。在這種架構(gòu)下,每個(gè)計(jì)算數(shù)據(jù)平均移動(dòng)距離將進(jìn)一步降低至微米級(jí),功效比可以超過(guò)10 TOPS/W@INT8。例如Untether AI公司的Bo‐queria[43]芯片擁有上萬(wàn)個(gè)處理引擎(PE)。每個(gè)PE配置6 kB本地內(nèi)存,整個(gè)芯片的內(nèi)存帶寬高達(dá)PB/s級(jí)。PE與本地內(nèi)存之間的數(shù)據(jù)移動(dòng)距離僅有幾微米,功效比高達(dá)30 TFOPS/W@FP8。然而,由于存在面積限制,每個(gè)PE功能簡(jiǎn)單、靈活性差,只適用于一些特定算法,目前只能進(jìn)行推理,無(wú)法進(jìn)行訓(xùn)練。此外,將計(jì)算任務(wù)部署在上萬(wàn)個(gè)PE上,對(duì)編譯器的優(yōu)化能力提出了更高的要求。
空間計(jì)算技術(shù)的另一條演進(jìn)路線是確定性設(shè)計(jì)。編譯器優(yōu)化能力對(duì)空間計(jì)算的性能至關(guān)重要,但只能利用靜態(tài)信息對(duì)計(jì)算進(jìn)行調(diào)度。因此,重新設(shè)計(jì)系統(tǒng)的軟件-硬件界面、靜態(tài)-動(dòng)態(tài)界面,使編譯器能夠利用更多的靜態(tài)信息,成為一個(gè)新的技術(shù)演進(jìn)方向。例如,Groq公司的張量流處理器(TSP)[44]芯片采用確定性硬件設(shè)計(jì),芯片中沒(méi)有Arbiter、Crossbar、Cache等“響應(yīng)型”組件,允許編譯器進(jìn)行時(shí)鐘級(jí)的調(diào)度。編譯器可以精確地調(diào)度每個(gè)核上的計(jì)算、內(nèi)存訪問(wèn)和數(shù)據(jù)傳輸,使得指令流在運(yùn)行期內(nèi)完全避免共享資源的訪問(wèn)沖突,因此可以實(shí)現(xiàn)無(wú)鎖,系統(tǒng)極為高效。但是,這種確定性設(shè)計(jì)需要編譯器接管到硬件狀態(tài)機(jī)級(jí)別,復(fù)雜度很高。實(shí)現(xiàn)系統(tǒng)級(jí)硬件確定性非常復(fù)雜,需要實(shí)現(xiàn)全局時(shí)鐘、鏈路延遲補(bǔ)償、時(shí)鐘漂移補(bǔ)償?shù)葯C(jī)制,引入硬件對(duì)齊計(jì)數(shù)器、軟件對(duì)齊計(jì)數(shù)器、指令集。
隨著3D封裝技術(shù)的日趨成熟,空間計(jì)算還可以向3D的方向發(fā)展。將一顆大計(jì)算核心拆分為多個(gè)小核心,并在3D方向堆疊起來(lái),可以進(jìn)一步縮短數(shù)據(jù)移動(dòng)的距離,從而進(jìn)一步降低芯片功耗,提升能效比。此外,相對(duì)于傳統(tǒng)2D芯片,經(jīng)由3D封裝技術(shù),3D Mesh、3D torus等片上網(wǎng)絡(luò)(NOC)拓?fù)涓行?,從而給編譯器留下更大的調(diào)度優(yōu)化空間,進(jìn)一步提升空間計(jì)算性能。
提升AI芯片效率的第2個(gè)方向是近似計(jì)算。深度學(xué)習(xí)模型的一個(gè)特征是對(duì)精度要求不高。計(jì)算過(guò)程中出現(xiàn)的誤差并不會(huì)顯著影響模型的最終判定結(jié)果。近似算法可以減少內(nèi)存使用和計(jì)算復(fù)雜度,使計(jì)算更加高效。
低精度計(jì)算是深度學(xué)習(xí)近似計(jì)算一個(gè)重要的技術(shù)方向。使用低精度的數(shù)據(jù)類(lèi)型,可以有效減少芯片面積和功耗。例如,INT8的乘法和加法運(yùn)算所消耗的能量?jī)H為32位浮點(diǎn)數(shù)(FP32)的1/30和1/15[45]。目前混合精度訓(xùn)練技術(shù)可以使用FP16位半精度浮點(diǎn)數(shù)和FP32單精度浮點(diǎn)數(shù)配合完成模型訓(xùn)練。Transformer模型的訓(xùn)練則可以使用更低的精度浮點(diǎn)數(shù)。例如,NVIDA在其最新的Hopper架構(gòu)中實(shí)現(xiàn)了FP16和FP8混合精度訓(xùn)練Transformer模型[46]。未來(lái)仍有可能出現(xiàn)更低精度的訓(xùn)練算法。
由于推理對(duì)精度的要求更低,因此在完成模型訓(xùn)練之后,我們可以將模型轉(zhuǎn)化為更低精度的數(shù)據(jù)類(lèi)型表示,這個(gè)技術(shù)稱之為模型量化。目前,INT8量化技術(shù)已經(jīng)相當(dāng)成熟,INT4量化技術(shù)仍然面臨一些困難。特別是在模型中使用了非線性激活函數(shù)時(shí),模型準(zhǔn)確率下降很多。對(duì)此,一種思路是使用INT8和INT4自適應(yīng)混合精度量化,另一種思路是將模型量化為FP8。FP8的面積和功耗僅有INT8的一半,但模型判定準(zhǔn)確率沒(méi)有明顯下降。
近似計(jì)算的另一個(gè)演進(jìn)路線是稀疏計(jì)算。研究發(fā)現(xiàn),深度學(xué)習(xí)模型的權(quán)重存在一定的稀疏性,即部分權(quán)重值為零或者非常接近于零,特別是Transformer模型的稀疏度更大。利用模型的稀疏性可以省略不必要的計(jì)算,從而提升模型計(jì)算的效率。例如,NVIDIA A100 GPGPU中的4選2稀疏加速可以將芯片等效算力提升一倍[47],同時(shí)功耗保持不變。Ten‐storrent Wormhole芯片更是可以在模型稀疏度90%的情況下,將芯片等效算力提升100倍。未來(lái)軟硬件協(xié)同下稀疏計(jì)算仍然會(huì)是一個(gè)非常有前景的技術(shù)方向。新模型的稀疏化算法、稀疏加速計(jì)算核心仍然是研究的熱點(diǎn)。
未來(lái)10年,依靠制程提升能效比的難度越來(lái)越大,而空間計(jì)算、近似計(jì)算在提升芯片能效比方面存在巨大潛力。相對(duì)于目前的主流AI芯片,未來(lái)的芯片效能將有數(shù)十倍的提升,是AI產(chǎn)業(yè)實(shí)現(xiàn)雙碳目標(biāo)的有力保障。
深度學(xué)習(xí)模型的研發(fā)和應(yīng)用可以分為兩個(gè)階段,一是模型的訓(xùn)練,二是模型的應(yīng)用服務(wù)。完成訓(xùn)練并達(dá)到業(yè)務(wù)性能要求的模型,最終形成各種形式的模型應(yīng)用服務(wù),產(chǎn)生商業(yè)價(jià)值。當(dāng)前,從模型訓(xùn)練完成到部署的過(guò)程,還存在諸多痛點(diǎn),無(wú)法很好的滿足規(guī)?;渴鸬囊?。
首先,目標(biāo)硬件多種多樣,如X86/ARM 中央處理器(CPU)、GPGPU、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、專(zhuān)用集成電路(ASIC)芯片等。隨著新的AI芯片層出不窮,各廠商芯片之間架構(gòu)、指令集、軟件工具鏈互不兼容,缺乏統(tǒng)一標(biāo)準(zhǔn),容易引起生態(tài)碎片化問(wèn)題。上層算法和應(yīng)用與底層硬件緊耦合??缬布渴鹜荒P托枰罅恳浦补ぷ?,這大幅增加了深度學(xué)習(xí)模型的研發(fā)成本和應(yīng)用難度。其次,部署階段的場(chǎng)景主要分為云側(cè)、邊緣側(cè)、端側(cè),有基于容器化部署場(chǎng)景,也有基于嵌入式硬件部署的場(chǎng)景。不同部署場(chǎng)景對(duì)模型推理的性能需求、計(jì)算資源、App調(diào)用方式等要求不同。因此不同部署方案需要具備不同的技術(shù)。再次,模型開(kāi)發(fā)使用的訓(xùn)練框架各不相同,如TensorFlow、PyTorch、Paddle‐Paddle、Caffe、Keras、OneFlow。不同框架訓(xùn)練后保存的模型格式均不相同,在部署時(shí)需要做針對(duì)性處理,即需要一一轉(zhuǎn)換到目標(biāo)硬件支持的模型格式。但轉(zhuǎn)換路徑較為繁雜,用戶需要付出較多的學(xué)習(xí)成本。
性能優(yōu)化也是深度學(xué)習(xí)模型在落地時(shí)經(jīng)常遇到的問(wèn)題,例如計(jì)算時(shí)延高、吞吐量低、內(nèi)存占用大等。在不同的應(yīng)用場(chǎng)景和部署環(huán)境下,模型的優(yōu)化目標(biāo)不完全相同。例如,在端側(cè)部署中,內(nèi)存和存儲(chǔ)空間均非常有限,模型的優(yōu)化目標(biāo)是減小模型的大小;在自動(dòng)駕駛場(chǎng)景下,由于計(jì)算平臺(tái)算力有限,對(duì)模型的優(yōu)化側(cè)重于在有限的算力下,盡可能提升吞吐量,降低時(shí)延。模型優(yōu)化技術(shù)包括模型壓縮和硬件執(zhí)行優(yōu)化,涉及模型剪枝、量化、稀疏化、模型中間表示(IR)、可執(zhí)行文件的編譯器,以及基于硬件架構(gòu)的高性能計(jì)算等多項(xiàng)關(guān)鍵技術(shù)點(diǎn)。
為應(yīng)對(duì)上述挑戰(zhàn),中興通訊主導(dǎo)了Adlik開(kāi)源項(xiàng)目[48]。Adlik是將深度學(xué)習(xí)模型部署至特定硬件并提供模型應(yīng)用服務(wù)的端到端工具鏈,能夠與多種推理引擎協(xié)作,提供靈活的模型加速、部署、推理方案,助力用戶構(gòu)建高性能AI應(yīng)用。
Adlik的整體架構(gòu)包括模型優(yōu)化器、編譯器和引擎模塊。它支持各類(lèi)模型在云、邊、端側(cè)多種硬件上的靈活部署和高效執(zhí)行。
Adlik模型優(yōu)化器支持多種結(jié)構(gòu)化剪枝方法,能夠有效降低模型參數(shù)量和算力需求,支持多節(jié)點(diǎn)、多GPU并行剪枝以提升系統(tǒng)效率,同時(shí)支持自動(dòng)剪枝方法。用戶只需要指定神經(jīng)網(wǎng)絡(luò)類(lèi)型(如ResNet-50)和限制條件(如算力、延遲),模型優(yōu)化器會(huì)自動(dòng)決定模型每一層的通道數(shù),得到在限制條件下最優(yōu)的模型結(jié)構(gòu)[49-50]。在模型量化方面,Adlik模型優(yōu)化器支持8 bit量化,可以利用少量校準(zhǔn)數(shù)據(jù)快速實(shí)現(xiàn)8 bit 訓(xùn)練后量化(PTQ);也支持量化感知訓(xùn)練(QAT)算法,提升量化模型精度。Adlik模型優(yōu)化器提供不同的蒸餾方法,能夠應(yīng)用于各種深度學(xué)習(xí)任務(wù)(如圖像分類(lèi)、目標(biāo)檢測(cè)等)。如表1所示,針對(duì)ResNet-50模型優(yōu)化研究,在執(zhí)行剪枝、蒸餾和INT8量化后,Adlik模型推理吞吐量提升13.82倍,同時(shí)模型準(zhǔn)確率沒(méi)有降低[51]。
Adlik模型編譯器支持不同的訓(xùn)練框架模型格式和推理框架模型格式之間的轉(zhuǎn)換,并易于擴(kuò)展,如圖2所示。因此,在設(shè)計(jì)上Adlik模型編譯器采用自動(dòng)構(gòu)建有向無(wú)環(huán)圖(DAG)的方式生成源模型格式和目標(biāo)模型格式的轉(zhuǎn)換路線。用戶只需要給出源和目標(biāo)模型格式,Adlik模型編譯器就可以使用最優(yōu)轉(zhuǎn)換路線,端到端地完成模型格式的轉(zhuǎn)換[52]。目前,除了業(yè)界常用的TensorFlow和PyTorch之外,Adlik還引入了國(guó)產(chǎn)訓(xùn)練框架PaddlePaddle和OneFlow,并支持國(guó)產(chǎn)推理芯片廠商(寒武紀(jì)、燧原等)的推理模型格式。
▼表1 Adlik模型優(yōu)化器性能測(cè)試結(jié)果
▲圖2 Adlik模型編譯依賴圖
Adlik模型應(yīng)用服務(wù)存在Serving和Embedding兩種方式。Adlik Serving以獨(dú)立的微服務(wù)部署,支持多個(gè)客戶端的推理請(qǐng)求服務(wù)。支持表述性狀態(tài)轉(zhuǎn)移(REST)和遠(yuǎn)程過(guò)程調(diào)用(RPC)接口,相關(guān)模型的版本控制和管理,可以在保持業(yè)務(wù)不中斷的情況下完成模型的滾動(dòng)升級(jí)。Adlik Serving的特色是以插件的方式部署和隔離各種運(yùn)行時(shí)的環(huán)境,如Ten‐sorFlow、 OpenVINO、 Tf Lite、TensorRT、Paddle Inference等,使應(yīng)用可按需加載。Serving SDK提供模型推理開(kāi)發(fā)的基礎(chǔ)類(lèi)庫(kù)。用戶可擴(kuò)展實(shí)現(xiàn)推理運(yùn)行時(shí)的自定義開(kāi)發(fā),如實(shí)現(xiàn)多模型在進(jìn)程內(nèi)協(xié)作的推理服務(wù)、低時(shí)延嵌入式設(shè)備的推理服務(wù)等。Serving SDK提供模型上載、模型升級(jí)、模型調(diào)度、模型推理、模型監(jiān)控、運(yùn)行時(shí)隔離等基礎(chǔ)模型管理功能,以及用戶定制與開(kāi)發(fā)推理服務(wù)的C++ 應(yīng)用程序編程接口(API)。應(yīng)用根據(jù)自身的需求,定制開(kāi)發(fā)自己的模型和運(yùn)行時(shí)。Serving SDK提供標(biāo)準(zhǔn)的擴(kuò)展點(diǎn),方便用戶高效地定制新的模型和運(yùn)行時(shí)環(huán)境。
Adlik支持云、邊緣、端3種部署場(chǎng)景并提供相應(yīng)的特性支持[53]:(1)在云側(cè),支持原生容器化部署方案、優(yōu)化和編譯完成的模型,可以和Adlik Serving Engine鏡像一起打包,發(fā)布為應(yīng)用服務(wù)鏡像,并在指定硬件的容器云上運(yùn)行;(2)在邊緣側(cè),支持在啟動(dòng)的Adlik Serving Engine服務(wù)上加載優(yōu)化和編譯完成的模型,支持多模型實(shí)例調(diào)度功能,減少邊緣側(cè)計(jì)算資源的占用;(3)在端側(cè),支持用戶優(yōu)化和編譯完成的模型,結(jié)合特定的計(jì)算引擎依賴庫(kù)和交叉編譯工具鏈,可編譯為運(yùn)行在指定硬件上的可執(zhí)行文件。同時(shí)Adlik可以提供C/C++的API接口,用來(lái)提供模型編排能力,為用戶提供低延時(shí)、小體積并可在指定硬件上運(yùn)行的模型應(yīng)用。
Adlik是對(duì)生態(tài)融合的一次嘗試,用一套統(tǒng)一的工具鏈打通不同框架和硬件供應(yīng)商相互割裂的生態(tài),從而實(shí)現(xiàn)深度學(xué)習(xí)部署應(yīng)用降本增效,為下一個(gè)10年更大規(guī)模的深度學(xué)習(xí)應(yīng)用打下良好基礎(chǔ)。未來(lái)Adlik將進(jìn)一步圍繞深度學(xué)習(xí)端到端性能優(yōu)化、AI應(yīng)用在異構(gòu)平臺(tái)上的部署與運(yùn)行、高性能計(jì)算、模型運(yùn)維等技術(shù)方向發(fā)展,持續(xù)構(gòu)建社區(qū)生態(tài),推動(dòng)產(chǎn)業(yè)推動(dòng)數(shù)字化變革,為用戶打通深度學(xué)習(xí)應(yīng)用的全流程,真正實(shí)現(xiàn)高效率、低成本的AI應(yīng)用落地,助力不同行業(yè)實(shí)現(xiàn)智慧化轉(zhuǎn)型,為數(shù)字經(jīng)濟(jì)發(fā)展提供強(qiáng)勁動(dòng)力。
隨著AI廣泛應(yīng)用于金融、交通、醫(yī)療等諸多領(lǐng)域,AI自身的脆弱性、黑盒等導(dǎo)致的安全問(wèn)題和可信危機(jī)逐漸突顯。例如,以色列科研人員生成的9張萬(wàn)能人臉可以冒充超40%的人[54],微軟聊天機(jī)器人Tay發(fā)表歧視女性相關(guān)言論[55],沒(méi)有任何犯罪記錄的黑人被AI判定為更具危險(xiǎn)性,自動(dòng)駕駛汽車(chē)引發(fā)多起交通事故等。
在此背景下,世界主要國(guó)家和組織,紛紛出臺(tái)AI安全和可信的法律法規(guī)、道德倫理規(guī)范和標(biāo)準(zhǔn),用于規(guī)范和引導(dǎo)AI的安全生產(chǎn)和應(yīng)用,并將AI的安全使用上升到國(guó)家戰(zhàn)略高度。例如,中國(guó)將“促進(jìn)公平、公正、和諧、安全,避免偏見(jiàn)、歧視、隱私和信息泄露等問(wèn)題”寫(xiě)入《新一代AI倫理規(guī)范》[56]總則。
綜合AI安全、可靠、可解釋、可問(wèn)責(zé)等方面的需求,可信AI的概念被提出[57]??尚臕I被業(yè)界歸結(jié)為4個(gè)方面。(1)可靠性:AI系統(tǒng)在面臨惡意攻擊和干擾的情況下,能夠提供正確決策和正常服務(wù)的能力;(2)隱私安全性:AI的開(kāi)發(fā)和應(yīng)用不能造成個(gè)人或者群體隱私信息的泄露;(3)可解釋性(透明性):AI系統(tǒng)的決策能夠被人類(lèi)用戶理解,并能提供相應(yīng)的解釋?zhuān)唬?)公平性(包含個(gè)體公平性和群體公平性):AI系統(tǒng)不因個(gè)體或群體差異而給出不公正的輸出。因此,我們應(yīng)該規(guī)范、安全地開(kāi)發(fā)和使用AI,在享受技術(shù)發(fā)展帶來(lái)紅利的同時(shí)避免技術(shù)自身缺陷帶來(lái)的負(fù)面影響。
發(fā)展可信AI意義重大,其價(jià)值主要體現(xiàn)在以下兩個(gè)方面:
(1)有助于打破數(shù)據(jù)孤島,充分釋放數(shù)據(jù)要素價(jià)值,決定AI未來(lái)發(fā)展應(yīng)用的廣度和深度。一方面數(shù)據(jù)要素作為重要的戰(zhàn)略資源,需要充分流通和共享才能釋放巨大的價(jià)值,加速社會(huì)的數(shù)字化轉(zhuǎn)型;另一方面數(shù)據(jù)使用過(guò)程中的隱私保護(hù)已經(jīng)成為法律、法規(guī)的基本要求,例如一般數(shù)據(jù)保護(hù)條例(GDPR)[58]、《中華人民共和國(guó)網(wǎng)絡(luò)安全法》[59]等。在此背景下發(fā)展以聯(lián)邦學(xué)習(xí)[60]為代表的隱私安全機(jī)器學(xué)習(xí)方法、隱私安全計(jì)算[61]就顯得尤為重要。這對(duì)打破因隱私安全造成的數(shù)據(jù)孤島、挖掘各行各業(yè)的數(shù)據(jù)價(jià)值具有重大意義。
(2)安全、可靠、透明、合乎倫理規(guī)范的AI能消除人們對(duì)AI的疑慮,從而釋放產(chǎn)業(yè)價(jià)值。AI的內(nèi)生安全[62]已經(jīng)引發(fā)人們的擔(dān)憂,具體表現(xiàn)在:(a)貫穿AI生命周期、種類(lèi)繁多的攻擊會(huì)引起人們對(duì)可靠性的擔(dān)憂,相關(guān)攻擊包括對(duì)抗樣本攻擊、投毒攻擊、后門(mén)攻擊、模型竊取等[63-66];(b)AI的黑盒特點(diǎn)使系統(tǒng)難以給出決策依據(jù),導(dǎo)致在安全關(guān)鍵領(lǐng)域的決策難以被采納;(c)AI在某些應(yīng)用場(chǎng)景中表現(xiàn)出來(lái)的公平性缺失[67],引發(fā)人們對(duì)其道德倫理的擔(dān)憂。解決上述問(wèn)題,構(gòu)建公眾對(duì)AI的信心,才能讓AI被廣泛接納和使用,從而進(jìn)一步擴(kuò)大產(chǎn)業(yè)規(guī)模和價(jià)值。
綜上所述,可信AI決定和影響著AI發(fā)展的可持續(xù)性和未來(lái)產(chǎn)業(yè)規(guī)模,而規(guī)范、法律、標(biāo)準(zhǔn)的出臺(tái)更讓其成為發(fā)展AI的必選項(xiàng)和基本準(zhǔn)入門(mén)檻。
中興通訊在可信AI方面積極投入,創(chuàng)建了Nuersafe開(kāi)源社區(qū)(https://github.com/neursafe)。Nuersafe開(kāi)源社區(qū)包含聯(lián)邦學(xué)習(xí)、AI安全、AI公平和AI可解釋4個(gè)平臺(tái),覆蓋可信AI的4個(gè)要素。目前我們重點(diǎn)研究了聯(lián)邦學(xué)習(xí)(Neursafe-FL[68])和AI安全工具(Neursafe-Security)。下面我們將針對(duì)這兩個(gè)方面做詳細(xì)介紹。
(1)Neursafe聯(lián)邦學(xué)習(xí)。該平臺(tái)的目標(biāo)是在隱私安全的前提下,打造可靠、高效、易用的聯(lián)邦學(xué)習(xí)解決方案,如圖3所示。為了實(shí)現(xiàn)這一目標(biāo),在設(shè)計(jì)和實(shí)現(xiàn)中我們應(yīng)做出如下幾個(gè)方面的考慮:(a)進(jìn)行微服務(wù)架構(gòu)設(shè)計(jì),以滿足系統(tǒng)靈活部署的需求,提供單機(jī)、Cross-Silo、Cross-Device 3種部署模式,并可滿足科研驗(yàn)證、跨企業(yè)數(shù)據(jù)孤島、海量設(shè)備聯(lián)合訓(xùn)練等多種場(chǎng)景的需求。(b)擁有完備的框架能力,可提供分布式資源管理和作業(yè)調(diào)度能力,通過(guò)調(diào)度算法最大化聯(lián)邦學(xué)習(xí)性能。(c)通過(guò)核心組件的高可用設(shè)計(jì)和作業(yè)級(jí)的容錯(cuò)處理機(jī)制,保證系統(tǒng)持續(xù)可服務(wù)性。(d)支持Tensorflow和Pytorch兩種主流底層機(jī)器學(xué)習(xí)框架,并支持框架擴(kuò)展;通過(guò)用戶層極簡(jiǎn)的聯(lián)邦A(yù)PI設(shè)計(jì),最大程度上保留底層框架編程習(xí)慣,降低原機(jī)器學(xué)習(xí)算法向聯(lián)邦學(xué)習(xí)遷移的成本。(e)封裝基于差分隱私和安全多方計(jì)算等隱私算法庫(kù),并標(biāo)準(zhǔn)化算法接口,支持算法擴(kuò)展。(f)提供多種算法(FedAvg、Scaffold、FedProx、FedDC等[69-72])構(gòu)成的聚合和優(yōu)化算法庫(kù),滿足不同數(shù)據(jù)異構(gòu)場(chǎng)景下的收斂效率需求。
▲圖3 Neursafe聯(lián)邦學(xué)習(xí)架構(gòu)
(2)Neursafe AI安全。如圖4所示,該平臺(tái)以工具化的方式,提供AI對(duì)抗攻擊、模型魯棒性檢測(cè)以及模型加固和對(duì)抗樣本檢測(cè)等能力。該平臺(tái)可以實(shí)現(xiàn):(a)統(tǒng)一服務(wù)入口,屏蔽底層算法實(shí)現(xiàn),支持命令行、API和SDK 3種接口形式,一鍵完成對(duì)模型的對(duì)抗攻擊、魯棒性檢測(cè)、安全防御加固等功能使用。(b)支持30+的黑、白盒攻擊算法,其中30+的防御算法涵蓋了當(dāng)前主流且經(jīng)典的攻防算法。(c)對(duì)當(dāng)前主流的攻擊和防御算法進(jìn)行分類(lèi),如基于梯度的攻擊、基于遺傳算法的攻擊、基于對(duì)抗訓(xùn)練的防御等,提取同類(lèi)算法共性,在算法基類(lèi)中實(shí)現(xiàn)框架代碼,簡(jiǎn)化后續(xù)算法創(chuàng)新開(kāi)發(fā)工作量。(d)支持Auto Attack,自學(xué)習(xí)攻擊參數(shù);支持多種攻防算法的正交組合,增強(qiáng)綜合攻防能力。(e)攻防算法一次編碼,兼容Tensorflow和Pytorch,解決了主要當(dāng)前攻防工具支持底層框架單一問(wèn)題。(f)支持模型魯棒性檢測(cè)功能,能進(jìn)行模型魯棒性的綜合評(píng)估,生成界面優(yōu)化的評(píng)估報(bào)告。(g)支持模型加固、對(duì)抗樣本檢測(cè)、對(duì)抗樣本恢復(fù)3種防御手段,滿足不同場(chǎng)景下的安全防御需求,在模型已經(jīng)上線運(yùn)行的情況下可以通過(guò)增加前置檢測(cè)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)安全防御。
可信AI的研究進(jìn)展對(duì)AI的可持續(xù)發(fā)展至關(guān)重要。中興通訊將繼續(xù)關(guān)注可信AI,對(duì)未來(lái)可信AI的研究工作有如下規(guī)劃:(1)將堅(jiān)持開(kāi)源運(yùn)作,和業(yè)界一起共筑可信AI未來(lái);(2)補(bǔ)齊當(dāng)前在公平和可解釋方面的缺失,構(gòu)建可信AI的全方位能力;(3)針對(duì)可信AI中的問(wèn)題,如聯(lián)邦學(xué)習(xí)中的性能問(wèn)題、AI安全中的碎片化問(wèn)題,跟蹤業(yè)界最新進(jìn)展,對(duì)算法進(jìn)行創(chuàng)新研究,逐步掃除解決方案的落地障礙;(4)堅(jiān)持產(chǎn)品化的思維,站在用戶角度,提供簡(jiǎn)單、用戶友好的解決方案。
▲圖4 Neursafe 人工智能安全架構(gòu)
經(jīng)過(guò)3次發(fā)展浪潮,AI已經(jīng)快速走出低谷期。在第2個(gè)10年學(xué)術(shù)研究、產(chǎn)業(yè)落地的雙輪驅(qū)動(dòng)下,研究者數(shù)量、論文數(shù)量、數(shù)據(jù)量、算力、產(chǎn)業(yè)規(guī)模等維度將保持指數(shù)增長(zhǎng)態(tài)勢(shì)。綠色、高效、安全是下一個(gè)10年深度學(xué)習(xí)維持可持續(xù)指數(shù)增長(zhǎng)的3個(gè)新的核心要素,是實(shí)現(xiàn)中國(guó)新一代AI發(fā)展規(guī)劃三步走[73]、2030年AI核心產(chǎn)業(yè)突破十萬(wàn)億元的關(guān)鍵。