清華大學(xué)吳華強(qiáng)教授團(tuán)隊(duì)在基于憶阻器的存算一體研究領(lǐng)域取得新進(jìn)展。芯片算力的提升是人工智能興起的重要驅(qū)動力。深度學(xué)習(xí)模型的復(fù)雜化和參數(shù)規(guī)模的增長對底層芯片的功耗和算力提出了更高的要求,然而,傳統(tǒng)的存儲-計(jì)算分離架構(gòu)制約了硬件能力的進(jìn)一步發(fā)展。根據(jù)憶阻器的器件特性,單個器件既是存儲單元,又是計(jì)算單元,從而節(jié)省了數(shù)據(jù)搬移的功耗和延時開銷,有望實(shí)現(xiàn)全新的存算一體的新型計(jì)算系統(tǒng)。當(dāng)前,國際上的研究主要面向基于單個憶阻器陣列的功能驗(yàn)證,實(shí)現(xiàn)基于全連接結(jié)構(gòu)的矩陣向量乘加速,尚缺乏憶阻器卷積網(wǎng)絡(luò)的完整硬件實(shí)現(xiàn)方案。因此,研發(fā)面向復(fù)雜網(wǎng)絡(luò)實(shí)現(xiàn)的多陣列硬件系統(tǒng)需要解決以下問題:硬件上,需要制備具有高一致性、高可靠性的憶阻器陣列;系統(tǒng)上,憶阻器固有的非理想特性會導(dǎo)致計(jì)算準(zhǔn)確率降低;架構(gòu)上,憶阻器陣列實(shí)現(xiàn)卷積功能,需要以串行滑動的方式連續(xù)采樣、計(jì)算多個輸入塊,無法匹配全連接結(jié)構(gòu)的計(jì)算效率。
針對上述問題和挑戰(zhàn),吳華強(qiáng)團(tuán)隊(duì)通過器件、架構(gòu)和系統(tǒng)的創(chuàng)新,開發(fā)了面向大規(guī)模集成憶阻器的加工工藝,提出混合訓(xùn)練的方法在系統(tǒng)層次克服器件非理想特性帶來的性能損失,完成了憶阻器卷積網(wǎng)絡(luò)的完整硬件實(shí)現(xiàn)。他們通過開發(fā)、優(yōu)化與傳統(tǒng)CMOS芯片工藝兼容的器件制備流程,提升了多值憶阻器件的可靠性,研發(fā)出多憶阻器陣列(8個)的集成電路板,并利用FPGA開發(fā)板,部署了5層卷積網(wǎng)絡(luò),搭建出完整的多陣列存算一體硬件系統(tǒng);為解決器件非理想特性帶來的系統(tǒng)識別準(zhǔn)確率下降問題,提出混合訓(xùn)練的存算一體計(jì)算方法;進(jìn)一步提出空間并行的架構(gòu),將相同卷積核編程到多組憶阻器陣列中,提高了并行度,提升了憶阻器陣列的卷積計(jì)算效率,實(shí)現(xiàn)了系統(tǒng)加速。該研究實(shí)現(xiàn)的基于憶阻器陣列的存算一體硬件系統(tǒng),與Tesla V100 GPU相比,在圖像識別準(zhǔn)確率相當(dāng)?shù)那闆r下,該硬件系統(tǒng)具有110倍的能效優(yōu)勢。本研究工作為解決憶阻器件非理想特性導(dǎo)致的陣列內(nèi)部、陣列間的誤差累積問題提供了新思路,為突破現(xiàn)行計(jì)算機(jī)架構(gòu)“存儲墻”的限制提供了新路徑。