鄧 睿
(吉林工業(yè)職業(yè)技術(shù)學(xué)院,吉林 吉林 132000)
深度神經(jīng)網(wǎng)絡(luò)的發(fā)展促進(jìn)了人工智能行業(yè)的進(jìn)步。現(xiàn)在人們?cè)u(píng)定人工智能的技術(shù)水平的指標(biāo)主要包括模型訓(xùn)練能力、瞬時(shí)數(shù)據(jù)處理能力與算法創(chuàng)新能力三大維度。其中,論評(píng)測(cè)指標(biāo)的價(jià)值來看,算法及算法創(chuàng)新能力是最為敏感的指標(biāo)[1]。在人工智能服務(wù)器領(lǐng)域,人工智能技術(shù)的滲透同樣顯著,在數(shù)據(jù)處理方面,利用了CPU+架構(gòu)模式,數(shù)據(jù)處理能力較普通CPU架構(gòu)服務(wù)器有著突破性進(jìn)步。人工智能模式下的數(shù)據(jù)處理核心,將代替芯片處理方案,引入新型的加速部件,算法優(yōu)化部件,用以承擔(dān)部分計(jì)算任務(wù)負(fù)載。計(jì)算核心數(shù)的增加,神經(jīng)分析網(wǎng)絡(luò)的智能化,也使得服務(wù)器的計(jì)算能力顯著提升,服務(wù)器可提供的服務(wù)也就更加個(gè)性化。
兩者雖然在宏觀構(gòu)造上看差別不大,均利用GPU加速卡,但兩者仍不能等同。人工智能服務(wù)器的優(yōu)勢(shì)為:(1)技術(shù)更為先進(jìn):其中涉及的核心技術(shù)如AI算力提升,更大的互聯(lián)帶寬、更大內(nèi)存帶寬等,均可滿足大數(shù)據(jù)時(shí)代人們的使用要求;(2)設(shè)計(jì)較為創(chuàng)新:創(chuàng)新化的重要表現(xiàn)之一即為高度獨(dú)特化的設(shè)計(jì)。相較于普通服務(wù)器,人工智能服務(wù)器在數(shù)據(jù)處理核心GPU方面,配備數(shù)量更多。多核心,也可在單位時(shí)間內(nèi)完成更多任務(wù),用戶可根據(jù)使用需求的不同,定制拓?fù)渌惴?、散熱結(jié)構(gòu)與系統(tǒng)底層結(jié)構(gòu)構(gòu)造等內(nèi)容[2]。其中涉及的環(huán)節(jié)較多,由于人工智能服務(wù)器數(shù)據(jù)的處理是海量的,故在機(jī)房設(shè)計(jì)、機(jī)箱安置、系統(tǒng)設(shè)計(jì)、邏輯規(guī)劃方面,均需要技術(shù)人員統(tǒng)一規(guī)劃,才能滿足人工智能服務(wù)器持續(xù)、穩(wěn)定運(yùn)行的需求。(3)P2P通信模式:人工智能服務(wù)器工作時(shí),涉及多條線路信息的傳遞,普通GPU服務(wù)器只涉及一卡或二卡的信息交換,更多元的信息交換鮮有涉及。而針對(duì)人工智能服務(wù)器,雙卡間予以信息的傳遞是遠(yuǎn)遠(yuǎn)不足的,其中涉及的多核心數(shù)據(jù)的通信處理,數(shù)據(jù)量越多,通信量越大,應(yīng)用的模型也就越復(fù)雜。當(dāng)前相關(guān)學(xué)者制定了人工智能服務(wù)器開展的最基礎(chǔ)指標(biāo)要求:SXM3協(xié)議下,P2P帶寬高值300 GB/s;SXM2協(xié)議下,P2P帶寬高值50 GB/s;PCI3.0協(xié)議下,P2P帶寬高值32 GB/s[3];(4)卡的數(shù)量不一致:普通服務(wù)器可承載數(shù)量一二不等,但人工服務(wù)器必須增加卡的數(shù)量,最基礎(chǔ)要求為4塊GPU,對(duì)于數(shù)據(jù)處理量特別巨大的,甚至要搭建外部服務(wù)器支持系統(tǒng)不斷開人工智能服務(wù)器集群。
鑒于我國(guó)尚未在數(shù)據(jù)處理核心方面取得新的進(jìn)展,故在智能服務(wù)器全局架構(gòu)上,仍以普通服務(wù)器中的CPU架構(gòu)為基礎(chǔ)。但在數(shù)據(jù)處理核心、算法、邏輯及芯片類型方面,均有著突破性的進(jìn)展。通過融入人工智能加速部件,提升數(shù)據(jù)處理效率,能夠起到提升人工智能服務(wù)器性能的效果。計(jì)算負(fù)載的性能的提升可按照如下方式開展:①數(shù)據(jù)的復(fù)制:調(diào)動(dòng)CPU內(nèi)存,復(fù)制想要處理的數(shù)據(jù)到GPU顯存模塊中;②開啟并行數(shù)據(jù)處理:按照GPU顯存中復(fù)制的信息內(nèi)容,同步接受CPU的數(shù)據(jù)處理指令,展開并行數(shù)據(jù)計(jì)算;③顯存數(shù)據(jù)的計(jì)算:GPU處理核心收到數(shù)據(jù)與指令后,對(duì)顯存數(shù)據(jù)予以計(jì)算,所得計(jì)算結(jié)果置于顯存中;④計(jì)算結(jié)果的復(fù)制與轉(zhuǎn)移:將GPU顯存結(jié)果完整復(fù)制到CPU內(nèi)存核心中。通過上述論述可知,人工智能執(zhí)行算力的核心有所轉(zhuǎn)移,CPU負(fù)責(zé)協(xié)調(diào)數(shù)據(jù)的流位點(diǎn)及計(jì)算結(jié)果的總結(jié)輸出。其中較為繁雜的計(jì)算過程,則交由GPU完成。通過分析人工智能數(shù)據(jù)處理的特點(diǎn),在實(shí)際應(yīng)用中場(chǎng)景的不同,需對(duì)服務(wù)器的設(shè)計(jì)架構(gòu)予以細(xì)微的調(diào)整。針對(duì)數(shù)據(jù)可能性預(yù)測(cè)方面,涉及大量的推理計(jì)算過程,此時(shí)在進(jìn)行設(shè)計(jì)時(shí),須盡可能增添GPU數(shù)據(jù)處理核心,最大限度提升數(shù)據(jù)處理效率。而針對(duì)海量數(shù)據(jù)的瞬時(shí)處理,則須在算力上加強(qiáng)干預(yù)。因此,可以歸納出當(dāng)今人工智能服務(wù)器設(shè)計(jì)的先導(dǎo)思路:①保證高效的數(shù)據(jù)雙向傳遞:涉及服務(wù)器、計(jì)算部件數(shù)據(jù)加速傳輸,及時(shí)有效的響應(yīng),必須要保證高質(zhì)量的網(wǎng)絡(luò)連接為基礎(chǔ),滿足上述要求后,數(shù)據(jù)解析時(shí)也可呈現(xiàn)出低延遲、高帶寬的特征;②存儲(chǔ)容量足夠大,可滿足海量數(shù)據(jù)處理的要求:即使設(shè)備計(jì)算能力很強(qiáng),若無與之匹配的存儲(chǔ)條件、緩存、內(nèi)存、外存等,再高效的算力也無法執(zhí)行。故設(shè)計(jì)人員在設(shè)計(jì)時(shí),既要保證性能,又要保證存儲(chǔ)層次設(shè)計(jì)符合實(shí)際要求。③可根據(jù)數(shù)據(jù)處理需求的高低,適當(dāng)?shù)卦鲈O(shè)加速部件。并行計(jì)算能力強(qiáng)弱是人工智能服務(wù)器性能的敏感指標(biāo),為滿足這一要求,也可加入ASIC,F(xiàn)PGA,GPU等其他類型的加速部件。
CPU+架構(gòu)下的全局設(shè)計(jì)理念,充分借鑒了傳統(tǒng)架構(gòu)技術(shù)精髓,并通過不斷的創(chuàng)新持續(xù)化挖掘傳統(tǒng)架構(gòu)技術(shù)的潛力。針對(duì)CPU技術(shù)架構(gòu)來看,其在現(xiàn)有技術(shù)能力基礎(chǔ)上,予以算法優(yōu)化,引入多級(jí)緩存、超標(biāo)量流水線、亂序執(zhí)行等措施,經(jīng)由反復(fù)訓(xùn)練,有助于提升CPU整體性能水平,基于深度學(xué)習(xí)理念下,也可增加專用計(jì)算指令,實(shí)現(xiàn)計(jì)算能力的成倍提升;就GPU技術(shù)架構(gòu)來看,其在圖形處理單元算法歷經(jīng)不斷優(yōu)化,能在全局角度實(shí)現(xiàn)訪存存取體系的構(gòu)建,流處理單元獲得更為卓越的圖像渲染能力;當(dāng)今應(yīng)用FPGA芯片的開發(fā)者準(zhǔn)入門檻要求降低,更多的技術(shù)人員可對(duì)其開展編程設(shè)計(jì),不僅如此,鑒于FPGA芯片計(jì)算性能的卓越性以及可編程的特點(diǎn),引入專用計(jì)算能力,能夠滿足當(dāng)今社會(huì)對(duì)于人工智能的計(jì)算需求。當(dāng)今FPGA芯片在異構(gòu)計(jì)算能力方面表現(xiàn)出色,故其常應(yīng)用于邊緣智能、推理場(chǎng)景中;當(dāng)前在計(jì)算機(jī)芯片發(fā)展的前沿,ARMCortex-A76芯片能實(shí)現(xiàn)深度學(xué)習(xí),并能對(duì)數(shù)據(jù)處理中常見的累加運(yùn)算周期予以算法上的優(yōu)化;英偉達(dá)圖靈架構(gòu)GPU芯片,在計(jì)算核心的架構(gòu)上,則是基于張量算法,提升了單位時(shí)間數(shù)據(jù)處理的能力。借助GPU芯片圖形處理的深度學(xué)習(xí)功能,有助于圖像處理質(zhì)量的提升,弱化低分辨率渲染的問題。
當(dāng)前主流的網(wǎng)絡(luò)I/O技術(shù)分為以下三大方面:SR-IOV、網(wǎng)卡直通和軟件模擬。這三種技術(shù)的融合,即為當(dāng)今網(wǎng)絡(luò)I/O技術(shù)的基礎(chǔ)構(gòu)造[4]。其中軟件模擬指的是基于虛擬網(wǎng)卡形式,通過對(duì)運(yùn)行層Hypervisor予以虛擬,創(chuàng)造出與實(shí)際設(shè)備均一致的接口形式,有助于實(shí)現(xiàn)虛擬網(wǎng)卡的直接驅(qū)動(dòng)。但其缺點(diǎn)在于性能水平低。隨后相關(guān)學(xué)者提出了更為先進(jìn)的SRIOV處理方案,既能保持原有網(wǎng)卡直通的高性能優(yōu)勢(shì),也能實(shí)現(xiàn)跨設(shè)備間的虛擬機(jī)數(shù)據(jù)相互調(diào)動(dòng),具備著一定的應(yīng)用前景。當(dāng)今主流網(wǎng)絡(luò)I/O技術(shù)引入PFs(物理功能)、VFs(虛擬功能)系統(tǒng),其中物理功能可得以擴(kuò)展,一個(gè)PF能在現(xiàn)有架構(gòu)基礎(chǔ)上擴(kuò)展更多的虛擬系統(tǒng)。當(dāng)下支持SR-IOV虛擬化功能執(zhí)行,均以單獨(dú)網(wǎng)卡形式呈現(xiàn)。其中每個(gè)虛擬功能模塊,均共用一個(gè)物理網(wǎng)口,但在配置區(qū)域,每個(gè)虛擬功能模塊PCI配置均是獨(dú)立的。
根據(jù)服務(wù)器應(yīng)用的場(chǎng)景不同,選取最適配的存儲(chǔ)方案。對(duì)于非結(jié)構(gòu)性數(shù)據(jù)為主的應(yīng)用hdfs。但其應(yīng)用缺點(diǎn)在于對(duì)隨機(jī)寫的支持性能不足;對(duì)于鍵值型的寫入和查找數(shù)據(jù),可采用HBASE。此項(xiàng)技術(shù)融入了LSM tree、WAL等精巧的設(shè)計(jì)模塊,其在信息擴(kuò)展,實(shí)時(shí)查詢反應(yīng)與數(shù)據(jù)吞吐能力上較為出色。對(duì)于對(duì)象型數(shù)據(jù)或schema多層嵌套的文檔來說,采用MongoDB存儲(chǔ)更為適合,高性能、易部署、易使用,存儲(chǔ)數(shù)據(jù)非常方便。
當(dāng)今全球AI服務(wù)器市場(chǎng)已呈現(xiàn)出高速發(fā)展態(tài)勢(shì),照此發(fā)展趨勢(shì),整個(gè)人工智能技術(shù)及其衍生技術(shù)的發(fā)展,未來人工智能服務(wù)器可提供更多個(gè)性化的服務(wù)。例如智能邊緣計(jì)算、設(shè)計(jì)上的功耗優(yōu)化、軟硬件運(yùn)算平臺(tái)等。在神經(jīng)網(wǎng)絡(luò)背景下,新一代運(yùn)算性能更加強(qiáng)勁的人工智能衍生技術(shù),如類腦芯片、量子計(jì)算芯片將在幾十年后產(chǎn)生突破性的進(jìn)展。總而言之,人工智能技術(shù)正在改變?nèi)藗儾东@、檢查和分析數(shù)據(jù)的方式,人工智能服務(wù)器作為算力提升的核心構(gòu)件,不可或缺。故開展人工智能全局技術(shù)的研究,有助于為新技術(shù)的發(fā)展奠定基礎(chǔ)。