算力,作為人工智能“三駕馬車”之一,也是人工智能“新基建”的重點(diǎn)。在2020世界計(jì)算機(jī)大會(huì)名家講堂上,中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民圍繞高性能人工智能算力基礎(chǔ)設(shè)施的重要性和架構(gòu)進(jìn)行了闡述,并詮釋了人工智能算力評(píng)估的意義。
人工智能算力基礎(chǔ)設(shè)施的重要性
今年4月,國(guó)家發(fā)改委首次明確了“新基建”的范圍。人工智能是“新基建”的內(nèi)容之一?!靶禄ā敝幸欢〞?huì)花很多錢。新時(shí)代人工智能的發(fā)展包含大數(shù)據(jù)、算法和算力。對(duì)于人工智能“新基建”而言,需要花不少錢購(gòu)買一臺(tái)大機(jī)器,用來(lái)處理其中人工智能算力的問(wèn)題。
人工智能有多種多樣的應(yīng)用場(chǎng)景,主要包括三類。
第一類應(yīng)用是圖像檢測(cè)、視頻檢索。這人工智能算力基礎(chǔ)設(shè)施的重要性
今年4月,國(guó)家發(fā)改委首次明確了“新基建”的范圍。人工智能是“新基建”的內(nèi)容之一。“新基建”中一定會(huì)花很多錢。新時(shí)代人工智能的發(fā)展包含大數(shù)據(jù)、算法和算力。對(duì)于人工智能“新基建”而言,需要花不少錢購(gòu)買一臺(tái)大機(jī)器,用來(lái)處理其中人工智能算力的問(wèn)題。
人工智能有多種多樣的應(yīng)用場(chǎng)景,主要包括三類。
第一類應(yīng)用是圖像檢測(cè)、視頻檢索。這一類相當(dāng)于人臉識(shí)別。學(xué)術(shù)上,其核心是卷積網(wǎng)絡(luò)。這類應(yīng)用不需要太大的機(jī)器,主要出現(xiàn)在安防、醫(yī)療診斷和自動(dòng)駕駛領(lǐng)域。例如,坐飛機(jī)安全檢查的地方需要人臉識(shí)別,把口罩摘了,識(shí)別一下就可以通過(guò),后面沒(méi)有成千上萬(wàn)的大機(jī)器進(jìn)行人臉識(shí)別。這類應(yīng)用現(xiàn)在已經(jīng)取得了很好的落地成果。
第二類應(yīng)用是博弈決策。這個(gè)問(wèn)題學(xué)術(shù)上的核心是強(qiáng)化學(xué)習(xí)。其最典型的例子是AlphaGo。AlphaGo不需要非常大的機(jī)器。它與圍棋冠軍比賽取得勝利,并且也可以完成其他決策類的任務(wù)。這類應(yīng)用也非常好。
上述兩類應(yīng)用不需要大機(jī)器,但第三類應(yīng)用——自然語(yǔ)言處理需要。
自然語(yǔ)言處理需要很大的算力,也就需要很大的機(jī)器。其發(fā)展非常迅速,典型模型包括GPT-1、GPT-2、GPT-3、BERT。它能做什么事情?一是語(yǔ)言翻譯。將中文翻譯為英文,將英文翻譯為日文,將日文翻譯為阿拉伯文……二是自動(dòng)問(wèn)答。不僅能夠回答簡(jiǎn)單的問(wèn)題,而且需要能夠回答非常復(fù)雜的問(wèn)題。三是生成文本摘要和創(chuàng)作。需要機(jī)器在讀完一篇文章之后寫出三句話的摘要,或者需要機(jī)器將給定的三句話擴(kuò)寫成一篇文章、一部劇本。這類應(yīng)用問(wèn)題中有些很復(fù)雜,要求機(jī)器具有很大的規(guī)模。
語(yǔ)言模型發(fā)展迅速。2015年,馬斯克和其他人創(chuàng)建了OpenAI公司。2019年,OpenAI核算了從2012年以來(lái)所有模型所用的計(jì)算量。結(jié)果發(fā)現(xiàn),最大規(guī)模人工智能模型所需算力已經(jīng)增長(zhǎng)了30萬(wàn)倍,每三四個(gè)月翻一番,也就是說(shuō)每三四個(gè)月計(jì)算機(jī)的算力擴(kuò)大一倍,這比摩爾定律厲害。摩爾定律指出,芯片性能翻倍的周期是18至24個(gè)月。今年5月,微軟推出了一臺(tái)專門為OpenAI設(shè)計(jì)的超級(jí)計(jì)算機(jī),托管在Azure上。這臺(tái)機(jī)器包含超過(guò)28.5萬(wàn)個(gè)處理器內(nèi)核、1萬(wàn)塊 GPU,處理人工智能問(wèn)題。其每個(gè)顯卡服務(wù)器的連接速度為400Gbps/s,它的性能在超級(jí)計(jì)算機(jī)排名中可以排到前五。
GPT-1在2018年6月發(fā)布,擁有1.17億個(gè)參數(shù),預(yù)訓(xùn)練數(shù)據(jù)量約5GB。2019年2月發(fā)布的GPT-2,擁有15億個(gè)參數(shù),預(yù)訓(xùn)練數(shù)據(jù)量40GB。2020年2月發(fā)布的Turing NLG參數(shù)達(dá)到170億個(gè)。今年5月發(fā)布GPT-3,截至到今年7月,擁有1750億個(gè)參數(shù),比Turing NLG增加了10倍以上,比GPT-2增加了116倍以上,其預(yù)訓(xùn)練數(shù)據(jù)量是45TB。
參數(shù)越多,計(jì)算效果越好,需要的機(jī)器也就越大。這就引發(fā)一個(gè)問(wèn)題:在哪臺(tái)機(jī)器上能夠訓(xùn)練這么復(fù)雜、參數(shù)數(shù)量這么多的模型?
根據(jù)GPT-3 的論文,所有模型都是在高帶寬集群中的英偉達(dá)V100 GPU上進(jìn)行訓(xùn)練的,訓(xùn)練費(fèi)用預(yù)估為1200萬(wàn)美元。1萬(wàn)塊英偉達(dá)V100 GPU大概需要訓(xùn)練15天。
下一代人工智能的發(fā)展將繼續(xù)大規(guī)模人工智能算力基礎(chǔ)設(shè)施的支持。GPT-3取得了很好的進(jìn)步,但與人類智能相比還有很大差距。人腦有100億個(gè)神經(jīng)元,有100萬(wàn)億個(gè)突觸,GPU與此相比還距離很遠(yuǎn)。因此,下一代人工智能模型可能具有超過(guò)萬(wàn)億個(gè)參數(shù)。圖靈獎(jiǎng)獲得者Geoffrey Hinton認(rèn)為,如果模型的參數(shù)個(gè)數(shù)是4.398萬(wàn)億,即現(xiàn)在GPT-3參數(shù)數(shù)量的25倍,就可以包含一切,但現(xiàn)有計(jì)算機(jī)系統(tǒng)無(wú)法勝任其訓(xùn)練任務(wù)。
自然語(yǔ)言處理需要機(jī)器無(wú)止境的算力。當(dāng)前,國(guó)內(nèi)外很多人說(shuō)“人工智能需要很大的算力”“人工智能需要很大的機(jī)器”,這里的“人工智能”所指的是自然語(yǔ)言處理這一類問(wèn)題。
人工智能算力基礎(chǔ)設(shè)施的架構(gòu)
人工智能算力基礎(chǔ)設(shè)施的系統(tǒng)結(jié)構(gòu)要素與傳統(tǒng)高性能計(jì)算機(jī)器的組成是差不多的,都是處理器、內(nèi)存、存儲(chǔ)、互連網(wǎng)絡(luò)幾個(gè)部分。
具有代表性的處理傳統(tǒng)高性能計(jì)算(傳統(tǒng)科學(xué)計(jì)算)的機(jī)器有以下四臺(tái)。
第一臺(tái)機(jī)器是天河2號(hào)。天河2號(hào)是由國(guó)防科技大學(xué)做的,在2013年6月至2015年11月期間位于世界Top500評(píng)比第一名。國(guó)際上,每年對(duì)這一領(lǐng)域的機(jī)器排名兩次,6月一次,11月一次。天河2號(hào)最關(guān)鍵、最有特點(diǎn)之處在于引入了異構(gòu)加速器。在這之前,做高性能機(jī)器使用的所有CPU都是同構(gòu)的。
第二臺(tái)機(jī)器是神威太湖之光。神威太湖之光是由無(wú)錫的一個(gè)部隊(duì)研究所做的,在2016年6月至2017年11月期間多次位于世界Top500評(píng)比第一名。它最精彩的地方在于所有的芯片都是自己造的,采用了全國(guó)產(chǎn)異構(gòu)眾核處理器。
第三臺(tái)機(jī)器是Summit。Summit是由美國(guó)人做的,在2018年6月至2019年11月期間排名位于世界Top500評(píng)比第一。其中使用了NVLink連接的GPU、本地NVMe SSD存儲(chǔ)等設(shè)備。
第四臺(tái)機(jī)器是富岳。富岳是由日本人做的,在今年6月世界Top500評(píng)比時(shí)位居第一名。它使用了同構(gòu)向量處理器、高維互聯(lián)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)半精度優(yōu)化。
深圳鵬城實(shí)驗(yàn)室在建的鵬城云腦二期花費(fèi)了42億元制造,它是一臺(tái)很大的機(jī)器,用于處理人工智能問(wèn)題。它包括4套華為Atlas 900系統(tǒng),每套系統(tǒng)128個(gè)結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)有8塊華為的昇騰加速卡,每套系統(tǒng)有1024塊加速卡。相當(dāng)于你把它看成了有1024塊GPU卡,英偉達(dá)叫GPU,我們叫升騰。鵬城云腦二期由4套系統(tǒng)結(jié)點(diǎn)間用200Gbps網(wǎng)絡(luò)互聯(lián),全交換無(wú)帶寬裁剪,全局共享存儲(chǔ)。最后總的計(jì)算性能達(dá)到半精度1Eflops,雙精度1Pflops。
人工智能算力系統(tǒng)與傳統(tǒng)高性能計(jì)算系統(tǒng)之間在處理器、互聯(lián)網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng)三個(gè)方面都存在著區(qū)別。
它們最大的區(qū)別在處理器方面。傳統(tǒng)高性能計(jì)算系統(tǒng)以雙精度性能優(yōu)化,兼顧低精度計(jì)算,更大規(guī)模的機(jī)器甚至需要采用80位或者128位的高精度。它處理的問(wèn)題本身很大,因此高性能計(jì)算系統(tǒng)可以處理80位或者128位是很厲害的。人工智能算力系統(tǒng)處理人工智能問(wèn)題,也就是處理圖像檢測(cè)和視頻檢索問(wèn)題、博弈決策問(wèn)題、自然語(yǔ)言處理問(wèn)題。這不需要80位、128位,半精度的性能就足夠了。有些8位、16位即可,最多32位。它著重半精度計(jì)算性能,面向神經(jīng)網(wǎng)絡(luò)運(yùn)算的優(yōu)化。因此,我們經(jīng)常說(shuō),用傳統(tǒng)高性能計(jì)算系統(tǒng)處理的人工智能問(wèn)題是不匹配、不合適的。
在互聯(lián)網(wǎng)絡(luò)方面,傳統(tǒng)高性能計(jì)算系統(tǒng)一般從全系統(tǒng)角度考慮網(wǎng)絡(luò)拓?fù)浜屯ㄐ判枨?,而人工智能算力系統(tǒng)需要高性能參數(shù)平面網(wǎng)絡(luò)連接訓(xùn)練單一模型的加速器組。
在存儲(chǔ)系統(tǒng)方面,傳統(tǒng)高性能計(jì)算系統(tǒng)一般采用Lustre等全局并行文件系統(tǒng),支持MPI-IO,而人工智能算力系統(tǒng)局部高性能存儲(chǔ)(NVMe SSD)存放訓(xùn)練數(shù)據(jù)集,避免從全局文件系統(tǒng)讀取數(shù)據(jù)造成瓶頸。
更大的機(jī)器能做什么?這是一個(gè)持續(xù)已久的爭(zhēng)論。在計(jì)算機(jī)領(lǐng)域,特別是在高性能計(jì)算機(jī)領(lǐng)域,在機(jī)器做出來(lái)之前,是沒(méi)有確定性應(yīng)用的,它是應(yīng)用驅(qū)動(dòng)型的。湖南大學(xué)國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心的傳統(tǒng)高性能計(jì)算機(jī)器在七八年前剛出來(lái)時(shí),人們都沒(méi)想到它能夠處理這么大的問(wèn)題。最近,面對(duì)新冠肺炎疫情,這臺(tái)機(jī)器能夠處理人從外地到長(zhǎng)沙的軌跡,很快將病人找出來(lái)。大規(guī)模的機(jī)器做出來(lái)之后,還會(huì)促進(jìn)應(yīng)用的發(fā)展。這是與其他學(xué)科不一樣的地方。因此,我們說(shuō),更大的機(jī)器不僅是將已有的問(wèn)題算得更快,更重要的是解決現(xiàn)在不能解決的問(wèn)題。
人工智能算力的評(píng)估方法
現(xiàn)在,北京、珠海、嘉興、武漢、成都等多個(gè)城市,以及華為、海爾、曙光、國(guó)防科技大學(xué)等多家企業(yè)單位,都在花錢建設(shè)人工智能機(jī)器。那么,我們有沒(méi)有基準(zhǔn)來(lái)評(píng)價(jià)這臺(tái)機(jī)器好不好、適不適合做人工智能?
我們?yōu)槭裁葱枰粋€(gè)人工智能算力基準(zhǔn)測(cè)試程序?
截至目前,還沒(méi)有一個(gè)比較合理、公平的評(píng)測(cè)用于考量人工智能機(jī)器好不好。公眾需要一個(gè)簡(jiǎn)單的指標(biāo)來(lái)回答,需要一個(gè)簡(jiǎn)單的程序測(cè)試哪套系統(tǒng)的人工智能算力更強(qiáng)。測(cè)完后會(huì)產(chǎn)生一個(gè)簡(jiǎn)單的數(shù)據(jù)值結(jié)果,用這個(gè)數(shù)據(jù)值的大小反映這臺(tái)機(jī)器對(duì)人工智能問(wèn)題處理的水平如何。這個(gè)基準(zhǔn)測(cè)試程序做好了,整個(gè)領(lǐng)域會(huì)發(fā)展得更好。如果全國(guó)各地各單位做的機(jī)器測(cè)試后的數(shù)值結(jié)果都是0.1,說(shuō)明我們國(guó)家人工智能機(jī)器的水平不高;如果我們的機(jī)器測(cè)試后的數(shù)值結(jié)果有不少0.98、0.7,說(shuō)明我們國(guó)家人工智能機(jī)器的水平很高,因?yàn)闈M分就是1。另外,好的指標(biāo)還可以反映出人工智能機(jī)器的問(wèn)題,從而引領(lǐng)該領(lǐng)域的健康發(fā)展。
傳統(tǒng)高性能計(jì)算機(jī)器的測(cè)試結(jié)構(gòu)與人工智能需要的性能不完全一致。傳統(tǒng)的高性能計(jì)算機(jī)器已經(jīng)有了一個(gè)評(píng)測(cè)軟件,世界Top500排名就是以它為基準(zhǔn)的,水平最好就是Top500的第一名,很差就在500名以外。大家都認(rèn)可用這個(gè)軟件進(jìn)行傳統(tǒng)高性能計(jì)算機(jī)器的排名。這個(gè)高性能計(jì)算算力測(cè)試程序主要使用雙精度浮點(diǎn)數(shù)運(yùn)算的算法,測(cè)試做雙精度加減乘除計(jì)算的能力,反映了通用科學(xué)計(jì)算的問(wèn)題,因此適用于測(cè)評(píng)傳統(tǒng)的機(jī)器。但這個(gè)軟件不適用于測(cè)評(píng)人工智能機(jī)器。人工智能訓(xùn)練以單精度浮點(diǎn)數(shù)或者16位浮點(diǎn)數(shù)為主,推理以Int8位為主。
有人陸續(xù)在進(jìn)行人工智能性能基準(zhǔn)測(cè)試程序的研究開(kāi)發(fā)。一些人所做的測(cè)試程序是規(guī)模固定的,支持由16個(gè)CPU構(gòu)成的人工智能機(jī)器進(jìn)行測(cè)試。一些人所做的程序需要測(cè)試多個(gè)應(yīng)用,測(cè)試一次得一分,之后再測(cè)試另一個(gè)。最明顯的一個(gè)就是hpl-ai。這個(gè)軟件是由測(cè)試Top500的團(tuán)隊(duì)做的,它很好地處理了混合精度研究,但這個(gè)軟件本身和人工智能的關(guān)系不直接。我們希望有一個(gè)軟件專門處理人工智能問(wèn)題,而不是隨便寫一個(gè)軟件測(cè)試加減乘除各種問(wèn)題,然后再間接與人工智能問(wèn)題相關(guān)。還有人所做的測(cè)試程序是最終產(chǎn)生多個(gè)分?jǐn)?shù)的。
在我看來(lái),現(xiàn)有的人工智能基準(zhǔn)測(cè)試程序都不是太好。我們預(yù)期的人工智能算力基準(zhǔn)測(cè)試程序應(yīng)當(dāng)具備下面幾點(diǎn)特性。
第一,一個(gè)分?jǐn)?shù)。我們希望有0.98、0.9這樣非常明顯、簡(jiǎn)單的分?jǐn)?shù)。分?jǐn)?shù)越接近1說(shuō)明機(jī)器水平越高。
第二,可變的問(wèn)題規(guī)模。這個(gè)軟件既可以適應(yīng)單卡內(nèi)存規(guī)模的變化,也可以適應(yīng)多卡;既可以測(cè)試小規(guī)模的機(jī)器,也可以測(cè)試中規(guī)模的和大規(guī)模的機(jī)器。我們現(xiàn)在做人工智能處理問(wèn)題,比如說(shuō)機(jī)器學(xué)習(xí),大多數(shù)人只買一塊GPU卡,用在原來(lái)的服務(wù)器上直接做人工智能的深度學(xué)習(xí),結(jié)果比原來(lái)沒(méi)有插這塊卡的普通CPU速度快10倍,人們就很滿意。一些人有錢買第二塊卡,問(wèn)題是國(guó)內(nèi)大多數(shù)做機(jī)器學(xué)習(xí)的人不會(huì)在二塊卡上處理問(wèn)題,更不會(huì)在四塊卡、一萬(wàn)塊卡上處理問(wèn)題。因此,我們需要一個(gè)軟件,既能夠適應(yīng)一塊卡,也能夠適應(yīng)二塊卡、四塊卡行、一萬(wàn)塊卡。目前,有些人已經(jīng)使用十六塊卡,但大多數(shù)人仍然只使用一塊卡。因此,擴(kuò)展是一件難度很高的事。
第三,計(jì)算要有人工智能的意義。這個(gè)軟件要反映人工智能本質(zhì),處理的是人工智能問(wèn)題,需要面向神經(jīng)網(wǎng)絡(luò)運(yùn)算。
第四,多機(jī)通信可以少,但不能沒(méi)有,也不能是EP類型的。
對(duì)人工智能算力來(lái)說(shuō),制定這樣一個(gè)指標(biāo)和測(cè)試方法并不容易。首先,單個(gè)人工智能訓(xùn)練任務(wù)很可能達(dá)不到全機(jī)規(guī)模。即使能達(dá)到,可能在訓(xùn)練時(shí)間和準(zhǔn)確率上也沒(méi)有改進(jìn),使用全機(jī)規(guī)模是沒(méi)有意義的。其次,如果要測(cè)試規(guī)模變化巨大的人工智能集群計(jì)算機(jī),測(cè)試程序必須是規(guī)??勺兊?。那么,什么樣的主流人工智能應(yīng)用是規(guī)??梢源蠓兓模孔詈笮枰紤]準(zhǔn)確率的問(wèn)題。殘差小于給定標(biāo)準(zhǔn)?還是將準(zhǔn)確度計(jì)入分?jǐn)?shù)?
清華大學(xué)與國(guó)防科技大學(xué)合作做了一個(gè)軟件,已經(jīng)在很多臺(tái)機(jī)器上進(jìn)行過(guò)測(cè)試。
我們的設(shè)計(jì)思路是AutoML。AutoML是通過(guò)算法自動(dòng)搜索合適的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),找到針對(duì)特定任務(wù)效果最好的解。其所需的計(jì)算資源極高,基礎(chǔ)算法也包含訓(xùn)練模型本身。AutoML+NN現(xiàn)有兩個(gè)主要方面:超參數(shù)搜索、網(wǎng)絡(luò)結(jié)構(gòu)搜索。超參數(shù)搜索易于實(shí)現(xiàn),但搜索空間存在一定限制(~100);網(wǎng)絡(luò)結(jié)構(gòu)搜索搜索空間往往較大(~10000)。AutoML具有足夠的并行度,常常需要同時(shí)訓(xùn)練大量候選模型來(lái)對(duì)結(jié)構(gòu)進(jìn)行評(píng)估。其搜索的結(jié)果雖然有一定的隨機(jī)性,但整體上能找到的解的優(yōu)劣程度隨著搜索所消耗的計(jì)算量而逐漸改善。
這個(gè)基于AutoML的基準(zhǔn)程序測(cè)試終止條件為:運(yùn)行一段時(shí)間(如24小時(shí)),或精度已收斂。其量度指標(biāo)為運(yùn)行過(guò)程中達(dá)到的ops。其任務(wù)自身是深度學(xué)習(xí)任務(wù)設(shè)計(jì)中的關(guān)鍵環(huán)節(jié),且任務(wù)能夠直接體現(xiàn)超算系統(tǒng)在深度學(xué)習(xí)方面的綜合性能(包括訓(xùn)練、推斷);找到的解的優(yōu)劣程度隨著搜索所消耗的計(jì)算量而逐漸提升;可以換算成計(jì)算效率(%)。
(本文根據(jù)中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民在“2020世界計(jì)算機(jī)大會(huì)”名家講堂現(xiàn)場(chǎng)演講整理而成,未經(jīng)演講人審閱)