鄧 睿
(吉林工業(yè)職業(yè)技術(shù)學(xué)院,吉林 吉林 132000)
AI服務(wù)器采取異構(gòu)方式。常見的構(gòu)成形式有CPU+加速卡、CPU+TPU、CPU+GPU等。傳統(tǒng)的普通服務(wù)器數(shù)據(jù)處理核心較為單一,以CPU為主[1]。
人工智能服務(wù)器有著深度學(xué)習(xí)的功能。針對(duì)使用者使用需求的不同,于特定場景,可在特定學(xué)習(xí)過程中,自動(dòng)調(diào)整模型。在兼容度方面,可同步兼容FPGA/AISC,使用者同樣可根據(jù)自身使用要求,對(duì)于使用頻次較高的應(yīng)用,提供專屬加速通道,具備智能化的數(shù)據(jù)處理優(yōu)先級(jí)劃分程式,服務(wù)器運(yùn)行時(shí)發(fā)生崩潰的概率將得以降低;在計(jì)算密度方面,將突破以往各代人工智能服務(wù)器,整體項(xiàng)目的TCO明顯降低。
在數(shù)據(jù)表達(dá)配置方式上,人工智能服務(wù)器采用的方式則更為靈活為優(yōu)化后的異構(gòu)拓?fù)渑渲梅桨?。?dāng)前數(shù)據(jù)處理最常應(yīng)用的3類拓?fù)湫问綖閏ascade,common和balance。
以傳統(tǒng)單純CPU視角下,審視人工智能條件下數(shù)據(jù)處理核心的架構(gòu)方案。采取異構(gòu)方式,強(qiáng)化CPU綜合性能,將其稱之為CPU+。針對(duì)服務(wù)器整體,不必整體全部改造;針對(duì)無改造意義的模塊,仍可應(yīng)用傳統(tǒng)CPU架構(gòu);針對(duì)數(shù)據(jù)處理核心,人工智能計(jì)算負(fù)載核心,則應(yīng)用多核心處理方案。基于阿姆達(dá)爾性能定律,當(dāng)前人工智能技術(shù)架構(gòu)可按此導(dǎo)向開展:針對(duì)整體數(shù)據(jù)與計(jì)算結(jié)果,借助CPU完成初步匯總與歸納;而針對(duì)數(shù)據(jù)的細(xì)化分析處理,則由GPU加速部件完成。由于這類數(shù)據(jù)在基于異構(gòu)方式下,數(shù)據(jù)處理的效率可得到提升,因此也就實(shí)現(xiàn)了性能提升的效果。雖然從全局上看,人工智能與普通服務(wù)器均是基于CPU架構(gòu)模式,但在不同應(yīng)用場景下,兩者間的設(shè)計(jì)方案仍存有一定差異[2]。例如邊緣推理場景,涉及的計(jì)算量與場景限制內(nèi)容會(huì)較多,此時(shí)智能服務(wù)器在數(shù)據(jù)處理效率上將占據(jù)優(yōu)勢,調(diào)動(dòng)的數(shù)據(jù)集呈現(xiàn)出較高的數(shù)量級(jí)。云端推理場景下,其在瞬時(shí)數(shù)據(jù)吞吐量、瞬時(shí)性、能效性上要求更高;在VR云端訓(xùn)練場景下,需要具備低時(shí)延,高性能、高存儲(chǔ)、高性能,雙向數(shù)據(jù)處理時(shí)間越同步,應(yīng)用效果越佳。因此,人工智能服務(wù)器在部件構(gòu)造技術(shù)應(yīng)用方面,需根據(jù)處理核心調(diào)動(dòng)水平的不同,開展有針對(duì)性的優(yōu)化。將涉及思路予以歸納總結(jié),列舉如下:(1)數(shù)據(jù)傳輸連接時(shí)延性低。應(yīng)用場景中包括服務(wù)器→服務(wù)器間、數(shù)據(jù)處理部件→數(shù)據(jù)處理部件間,用戶→云端數(shù)據(jù)處理中心間的聯(lián)系[3]。高帶寬、低延遲是實(shí)現(xiàn)最基本要求。(2)計(jì)算能力與存儲(chǔ)層次相匹配。只有兩者達(dá)到同一處理高度后,數(shù)據(jù)處理中涉及的緩存、內(nèi)存、外存等功能的實(shí)現(xiàn)才不會(huì)遇到架構(gòu)上阻礙,性能才能根本性的得到提升。(3)并行處理能力延伸。CPU仍需作為服務(wù)器數(shù)據(jù)處理主要模塊,設(shè)計(jì)人員需在此基礎(chǔ)上,植入同樣可執(zhí)行并行式數(shù)據(jù)加速模塊,如ASIC,F(xiàn)PGA,GPU等。
人工智能服務(wù)器運(yùn)行時(shí)需搭載計(jì)算性能更為出色的計(jì)算機(jī)芯片類型,現(xiàn)今市面上應(yīng)用的主要有ASIC,F(xiàn)PGA,GPU等。(1)ASIC主要起到運(yùn)算優(yōu)化,提升運(yùn)算效率的作用。普通芯片在運(yùn)算邏輯上相較于人工智能算法模式,較為冗余,是拖長運(yùn)算時(shí)間的主要因素。ASIC在應(yīng)用時(shí)通過對(duì)上述運(yùn)算模式與神經(jīng)網(wǎng)絡(luò)運(yùn)算中尚且無須應(yīng)用計(jì)算模塊剔除。將運(yùn)算重點(diǎn)放在加速支持,性能優(yōu)化算法上,如DNN運(yùn)算中使用的加法、乘法運(yùn)算等。(2)FPGA主要起到自動(dòng)編程的作用。人工智能,智能化的重要體現(xiàn)即為自動(dòng)性[4]。用戶使用時(shí),輸入相關(guān)參數(shù),相關(guān)底層配置文件,并設(shè)定邏輯規(guī)則,系統(tǒng)將自動(dòng)輸入出多種優(yōu)化計(jì)算形式。用戶不僅能夠?qū)π酒瑑?nèi)部構(gòu)造,如存儲(chǔ)器與門電路間的連接形式進(jìn)行優(yōu)化,也能實(shí)現(xiàn)不同時(shí)刻最為適配的加速方案輸出。不僅如此FPGA還可完成多任務(wù)執(zhí)行與多任務(wù)數(shù)據(jù)同步傳輸?shù)闹噶?,這正是人工智能實(shí)時(shí)處理數(shù)據(jù),快速表達(dá)數(shù)據(jù)的有效渠道。但是這項(xiàng)技術(shù)由于功能遠(yuǎn)優(yōu)于其他芯片類型,技術(shù)含量較高,故其應(yīng)用時(shí)對(duì)技術(shù)人員編程水平要求較高。受限于我國當(dāng)今在本領(lǐng)域發(fā)展時(shí)間較短,相關(guān)技術(shù)尚未成熟,當(dāng)今這項(xiàng)技術(shù)仍存在著計(jì)算占比低及成本高的問題。且當(dāng)今國內(nèi)尚未有廠商內(nèi)生產(chǎn)此項(xiàng)芯片,主要由Intel、Xilinx公司掌握核心技術(shù)。(3)GPU適用于處理數(shù)據(jù)間無依賴、數(shù)據(jù)類型高度一致,且運(yùn)算過程連續(xù)的數(shù)據(jù)類型。如渲染曝光照片,并行渲染全局像素等。其在并行性表現(xiàn)上是當(dāng)今性能較為優(yōu)越的類型之一,得益于其運(yùn)算效率高,圖像文件渲染效果好的優(yōu)勢,未來其在人工智能服務(wù)器將占據(jù)不可或缺的地位。但在應(yīng)用GPU時(shí),一定要注意運(yùn)行環(huán)境的匹配性。例如人工智能算法的推理,分析其運(yùn)算形式,只涉及輸入與輸出,并不屬于并行性運(yùn)算的類型,故其在性能表現(xiàn)上將處于一般水平,適配的運(yùn)行環(huán)境應(yīng)用,其并行運(yùn)算的優(yōu)勢才能得到充分發(fā)揮[5]。當(dāng)今國內(nèi)尚未有廠商內(nèi)生產(chǎn)此項(xiàng)芯片,主要由AMD、NVidia公司掌握核心技術(shù)。
將其予以匯總,包括以下三大類型:網(wǎng)絡(luò)I/O技術(shù)、主板線路技術(shù)、與存儲(chǔ)技術(shù)。(1)網(wǎng)絡(luò)I/O技術(shù)主要起到網(wǎng)速提升的作用。這項(xiàng)技術(shù)具備著高擴(kuò)展性、低延時(shí)與高帶寬的優(yōu)點(diǎn)。技術(shù)原理的適配性使得其在以太網(wǎng)領(lǐng)域有著廣泛的應(yīng)用,超高網(wǎng)速100 Gbit/s的網(wǎng)速,以及可提供更加統(tǒng)一的接口標(biāo)準(zhǔn),使得此技術(shù)發(fā)展方向較為明晰,也可在傳統(tǒng)以太網(wǎng)技術(shù)的發(fā)展下,應(yīng)用原有設(shè)備,實(shí)現(xiàn)新舊網(wǎng)絡(luò)的平滑融合。(2)主板線路技術(shù)主要起到線路優(yōu)化,滿足海量數(shù)據(jù)處理需求的作用。應(yīng)用點(diǎn)對(duì)點(diǎn)的傳輸形式,且在傳統(tǒng)PCIe總線編碼方式基礎(chǔ)上,實(shí)現(xiàn)跨GPU節(jié)點(diǎn)的內(nèi)存操作,數(shù)據(jù)的處理與儲(chǔ)存不再受限于內(nèi)存,突破現(xiàn)有技術(shù)連接慢的現(xiàn)狀。(3)存儲(chǔ)技術(shù)主要用于提升單位存儲(chǔ)單元容量,采用QLC與SSD技術(shù)。實(shí)現(xiàn)了每單元存儲(chǔ)量為4 B,但可擦寫次數(shù)下降。SSD技術(shù)中訪問性能上有所提升,當(dāng)前主要應(yīng)用NVMe接口。應(yīng)用相關(guān)技術(shù)的同時(shí),要在設(shè)計(jì)方案上予以優(yōu)化,例如人工智能加速服務(wù)器在應(yīng)用上,功耗較高,故在制冷散熱、電源設(shè)計(jì)方面需重點(diǎn)考慮。為從全局上優(yōu)化服務(wù)器機(jī)房整體運(yùn)行功率以及機(jī)房中影響因素如稱重差、配電低、空間小的因素,則可在整體服務(wù)器設(shè)計(jì)方面專門定制。上述涉及的每一項(xiàng)技術(shù),都是行業(yè)發(fā)展的一項(xiàng)重大變革。
人工智能技術(shù)于各行各業(yè)的不斷滲透下,服務(wù)器產(chǎn)業(yè)被推向了新的高度。而鋪天蓋地的人工智能改變世界的宣傳也為人工智能服務(wù)器產(chǎn)業(yè)領(lǐng)域的發(fā)展加上了一層美好的濾鏡。相信在不久的將來,有關(guān)服務(wù)器核心架構(gòu)方面的技術(shù)將得到突破性的進(jìn)展,人類社會(huì)也將因?yàn)锳I技術(shù)而產(chǎn)生天翻地覆的變化。但當(dāng)前人工智能服務(wù)器領(lǐng)域仍存在不少痛點(diǎn):(1)經(jīng)濟(jì)方面,人工智能技術(shù)引入成本較為高昂,普通企業(yè)引入存在困難。(2)工程化布點(diǎn)困難,與之匹配的相關(guān)技術(shù)認(rèn)為發(fā)展至適配水平。(3)算法場景應(yīng)用局限大,僅能在有限場景開展應(yīng)用,普適性不強(qiáng)。(4)缺乏深度應(yīng)用以及頂層設(shè)計(jì)內(nèi)容。故在未來的發(fā)展中,人工智能服務(wù)器核心技術(shù)的研發(fā)仍將是熱點(diǎn)領(lǐng)域,經(jīng)由建設(shè)滿足實(shí)際應(yīng)用的評(píng)估體系與行業(yè)標(biāo)準(zhǔn)能夠促使核心技術(shù)更為穩(wěn)定的發(fā)展。AI服務(wù)器可以說是趨勢,但目前人們也還有一條較長的路要走。