湯一峰
中國航空無線電電子研究所
基于憶阻器、脈沖神經(jīng)網(wǎng)絡(luò)等新器件、新算法的仿生神經(jīng)網(wǎng)絡(luò)AI計算技術(shù)正蓬勃發(fā)展,目前看它也許像量子計算技術(shù)一樣,具有實現(xiàn)前所未有算力突破的潛力。本文從“敏捷禿鷹”、“藍(lán)鴉”超級計算機入手,概述美軍無人機機載AI計算平臺最新發(fā)展。結(jié)合工業(yè)界、學(xué)術(shù)界的最新研究成果,分析相關(guān)技術(shù)將如何顛覆性改變軍用機載AI計算的硬件結(jié)構(gòu)和應(yīng)用領(lǐng)域。
2018年美國國防預(yù)研局(DARPA)提出“馬賽克戰(zhàn)”新型作戰(zhàn)樣式,其中反復(fù)提及軍用人工智能(AI),認(rèn)為軍用AI是實現(xiàn)決策中心和決策優(yōu)勢的關(guān)鍵技術(shù)。AI是一種能夠感知和理解周圍環(huán)境,并采取相應(yīng)適當(dāng)行動以最大限度實現(xiàn)目標(biāo)的物理或虛擬實體。在美軍空中作戰(zhàn)領(lǐng)域,人工智能正發(fā)揮越來越強的賦能效應(yīng)。美國空軍“天空堡”(Skyborg)、DARPA“分布式殺傷網(wǎng)”(ACK)等項目均將AI作為項目成功的重要保證。
軍用AI由軟件和硬件兩部分組成,本文重點介紹適應(yīng)未來軍用機載環(huán)境下AI計算硬件平臺的發(fā)展現(xiàn)狀和未來趨勢。
圖1 “敏捷禿鷹”有望實現(xiàn)無人機機載邊緣計算。
美空軍研究實驗室(AFRL)在2014年前后開始進行一種機載AI計算平臺研究,即“敏捷禿鷹”(Agile Condor)研究計劃。
“敏捷禿鷹”采用AI計算技術(shù),能夠在遠(yuǎn)程無人機上進行機載高性能嵌入式計算,實時對數(shù)據(jù)進行處理和傳輸,從而增強機載平臺情報數(shù)據(jù)獲取效率以及態(tài)勢感知能力,具有數(shù)據(jù)處理高效、目標(biāo)識別迅速以及帶寬需求降低的優(yōu)點。
AFRL采用MQ-9無人機搭載“敏捷禿鷹”吊艙開展原型機測試,2019年進行了集成與演示驗證。測試中,MQ-9“死神”無人機機載X波段雷達(dá)和光電系統(tǒng)向“敏捷禿鷹”吊艙AI計算平臺發(fā)送合成孔徑雷達(dá)圖像、紅外熱成像及可見光圖像,通過在線目標(biāo)識別測試,“敏捷禿鷹”取得了不錯的成果。
圖2 AI圖像處理效果。
“敏捷禿鷹”的計算板卡使用定制的OpenVPX主板,具備運行異構(gòu)計算分布式軟件的能力。根據(jù)現(xiàn)有研究結(jié)論,對大規(guī)模神經(jīng)網(wǎng)絡(luò)而言,圖形處理芯片(GPU)的卷積計算能力優(yōu)于中央處理芯片(CPU)。而CPU和GPU聯(lián)合處理又要比單CPU處理效率更高?!懊艚荻d鷹”吊艙內(nèi)置的計算板卡帶有3個插槽,每個插槽各搭載1個i7CPU和2個NVIDIA Maxwell GM107 GPU,1個i7 CPU控制2個GPU,可以提供2.5萬億次/秒的浮點運算能力,3個插槽一共可以提供7.5萬億次/秒的浮點異構(gòu)計算處理能力,而計算板卡總重才27kg。
研究還表明,與CPU+GPU配置方式相比,在某些情況下可編程或可定制的加速器硬件平臺如FPGA、ASIC、DSP能實現(xiàn)更優(yōu)化的神經(jīng)網(wǎng)絡(luò)算法。因此,“敏捷禿鷹”還有額外的插槽用于添加FPGA和DSP。
圖3 “敏捷禿鷹”系統(tǒng)框架圖。
圖4 “敏捷禿鷹”吊艙系統(tǒng)配置圖。
整套吊艙內(nèi)部使用萬兆以太網(wǎng)端口進行數(shù)據(jù)傳輸,同時另配有速率16GB/s的光纖通道。信息數(shù)據(jù)被傳輸至“敏捷禿鷹”吊艙后,先傳送到數(shù)據(jù)背板,然后使用PCIe總線和以太網(wǎng)通過PCIe中間件在各個計算插槽內(nèi)傳輸數(shù)據(jù)。
在算法實現(xiàn)上,“敏捷禿鷹”的目標(biāo)識別算法包括深度神經(jīng)網(wǎng)絡(luò)、深度卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò),這些算法使用Caffe框架進行訓(xùn)練。圖像異常檢測使用了XGBoost等技術(shù)。
“敏捷禿鷹”升級計劃將繼續(xù)提高平臺計算水平,引入仿生神經(jīng)網(wǎng)絡(luò)計算技術(shù),并降低功耗和減輕重量,未來有望集成到像“影子”(Shadow)等那樣的小型無人機。
由于GPU、FPGA運行人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法時,機載計算平臺的功耗和體積均比較大,無法滿足像“掃描鷹”(ScanEagle)、“影子”這樣的小型無人機,而新興仿生神經(jīng)網(wǎng)絡(luò)計算技術(shù)具有優(yōu)勢,可滿足小型無人機任務(wù)載荷對功耗、體積、重量的要求。
仿生神經(jīng)網(wǎng)絡(luò)計算機不同于馮·諾依曼體系結(jié)構(gòu),神經(jīng)形態(tài)計算試圖從硬件架構(gòu)實現(xiàn)對人腦的模擬,即一個神經(jīng)元可以對來自鄰近神經(jīng)元的多個刺激做出反應(yīng),整個網(wǎng)絡(luò)可以根據(jù)來自環(huán)境的不同輸入改變其狀態(tài)。這樣的硬件架構(gòu)十分接近神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,因此適合執(zhí)行人工神經(jīng)網(wǎng)絡(luò)或脈沖神經(jīng)網(wǎng)絡(luò)算法。同時,通過在“內(nèi)存中計算”,可以突破馮·諾依曼瓶頸,即處理大型問題時,打破內(nèi)存與處理器之間的數(shù)據(jù)傳輸受總線能力的限制。
圖6是一個最簡單的仿生神經(jīng)網(wǎng)絡(luò)處理核,該處理核以軸突作為輸入通道,神經(jīng)元作為輸出通道,輸入和輸出之間通過可編程的突觸進行通信。神經(jīng)元作為主要運算單元接收并整合“1”或“0”的脈沖信號,并依據(jù)這一信號做出指令,再將此指令通過各神經(jīng)元連接處的突觸輸出給其它神經(jīng)元。
圖5 美空軍實驗室規(guī)劃的機載嵌入式計算發(fā)展。
圖6 神經(jīng)處理核的邏輯圖和互聯(lián)方式。
圖7 從左至右是對TrueNorth逐層芯片結(jié)構(gòu)的分解。
圖8 NS1e(左)及NS1e-16(右)仿生神經(jīng)網(wǎng)絡(luò)計算機芯片。
早在2008年,DARPA就資助了“神經(jīng)形態(tài)自適應(yīng)可塑可擴展電子系統(tǒng)”(SyNAPSE)計劃,開展神經(jīng)形態(tài)計算技術(shù)相關(guān)研究。
首個基于SyNAPSE的研究成果即由IBM研制的芯片,被命名為TrueNorth。該芯片內(nèi)置100萬個模擬神經(jīng)元和2.56億個模擬神經(jīng)突觸,芯片內(nèi)的神經(jīng)元和突觸配備了2個ARM Cortex-A9和一塊1GBDDR內(nèi)存進行讀取計算控制,以模塊化方式構(gòu)建成一個基于晶體管的神經(jīng)網(wǎng)絡(luò)。晶體管采用三星28nm制程工藝,5.4億個晶體管僅占面積4.3cm2。
每顆TrueNorth芯片所包含的神經(jīng)網(wǎng)絡(luò)通過陣列方式互聯(lián),軸突作為輸入,神經(jīng)元作為輸出,突觸作為軸突和神經(jīng)元間的直接聯(lián)系,通過點對點的聯(lián)系方式,將任何一個核的神經(jīng)元連接到任何一個核的軸突,以完成本地或遠(yuǎn)程通信。這樣多個TrueNorth芯片互聯(lián)就可以搭建出一個仿生神經(jīng)網(wǎng)絡(luò)計算機。截至2018年,IBM已開發(fā)出NS1e、NS1e-16、NS16e等多個型號仿生神經(jīng)網(wǎng)絡(luò)芯片驗證機。
在功耗方面,一顆含54億個晶體管的TrueNorth芯片,所需功耗僅70mW,而一顆包含14億個晶體管的英特爾芯片,所需功耗則通常達(dá)到35W甚至140W。
在運算速度方面,CPU等常規(guī)芯片的運算速度利用每秒浮點運算數(shù)(FLOPS)來計量,TrueNorth以每秒突觸運算值(SOPS)來計量。對于一個典型網(wǎng)絡(luò),TrueNorth每瓦發(fā)送460億SOPS,對于高脈沖率和多活躍突觸數(shù)量的網(wǎng)絡(luò),TrueNorth每瓦可發(fā)送4000億SOPS。而目前最高效的超級計算機,每瓦僅發(fā)送45億FLOPS。
2019年美國空軍研究實驗室聯(lián)合IBM公司,以TrueNorth芯片生態(tài)系統(tǒng)為基礎(chǔ),共同開發(fā)出“藍(lán)鴉”(Blue Raven)超級計算機,被稱為世界技術(shù)領(lǐng)先的神經(jīng)形態(tài)數(shù)字突觸超級計算機?!八{(lán)鴉”計算機包含64塊TrueNorth芯片,每個芯片含100萬個神經(jīng)元節(jié)點。因此,“藍(lán)鴉”可模擬大腦中6400萬個神經(jīng)元和160億個突觸進行數(shù)據(jù)處理。“藍(lán)鴉”使用IBM專為TrueNorth開發(fā)的Eedn卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架進行訓(xùn)練。目前“藍(lán)鴉”的功率僅70W,相當(dāng)于一枚家用燈泡。
AFRL表示,“藍(lán)鴉”可大幅提高空中平臺數(shù)據(jù)處理能力,直接在機載端實現(xiàn)圖像識別、毀傷評估、導(dǎo)航等功能。從而無需將傳感器數(shù)據(jù)回傳至地面控制站數(shù)據(jù)中心,加快作戰(zhàn)人員的戰(zhàn)時決策速度。AFRL內(nèi)部已將“敏捷禿鷹”和“藍(lán)鴉”作為同一個項目進行管理,后期目標(biāo)是在4~5年內(nèi)將“藍(lán)鴉”處理速度提升至現(xiàn)有速度的4倍。
圖9 “藍(lán)鴉”由美國空軍研究實驗室和IBM公司聯(lián)合開發(fā)。
圖10 “敏捷禿鷹”和“藍(lán)鴉”已被AFRL 列為同一項目。
圖11 英特爾研發(fā)的Intel Loihi芯片。
在仿生神經(jīng)網(wǎng)絡(luò)計算領(lǐng)域,除AFRL與IBM之外,英特爾(Intel)也取得了巨大突破,該公司研發(fā)的Loihi芯片在2017年首次亮相,包含128個內(nèi)核、13萬神經(jīng)元、1.3億突觸,每個內(nèi)核模擬多個邏輯神經(jīng)元,具有支持多種學(xué)習(xí)模式的可擴展片上學(xué)習(xí)能力。2020年3月,英特爾將768顆Loihi芯片組裝成擁有1億個神經(jīng)元的超級仿生神經(jīng)計算系統(tǒng),超過了倉鼠大腦的神經(jīng)元總數(shù)。
未來進一步發(fā)展仿生神經(jīng)網(wǎng)絡(luò)計算平臺,還應(yīng)考慮使用憶阻器等新材料替換目前基于互補金屬氧化物半導(dǎo)體(CMOS)的元器件。
憶阻器密度高、功耗低,作為一種具有記憶功能的元器件,適合用于突觸結(jié)構(gòu),是硬件實現(xiàn)人工神經(jīng)網(wǎng)絡(luò)突觸的最好方式。
馬薩諸塞大學(xué)阿默斯特分校研制的基于憶阻器的三維卷積神經(jīng)網(wǎng)絡(luò)處理芯片達(dá)到了8層,而總厚度僅為300nm。
從今日芯片巨頭英特爾、ARM等公司成長歷程可知,發(fā)展壯大不僅僅依靠芯片本身的先進性,更重要的是聯(lián)合商業(yè)伙伴,搭建應(yīng)用、操作系統(tǒng)、語言開發(fā)、商業(yè)模式等一系列生態(tài)系統(tǒng)。仿生神經(jīng)網(wǎng)絡(luò)AI計算平臺的關(guān)鍵要素如基于新材料的憶阻器、基于新算法的脈沖神經(jīng)網(wǎng)絡(luò)(SNN)、仿真平臺、訓(xùn)練框架等正在蓬勃發(fā)展。相信未來仿生神經(jīng)網(wǎng)絡(luò)計算和量子計算技術(shù),將實現(xiàn)前所未有的巨大算力突破,顛覆性改變軍用機載AI計算的硬件結(jié)構(gòu)和應(yīng)用領(lǐng)域。
圖12 馬薩諸塞大學(xué)阿默斯特分校研制的8層芯片。