新基建中的高性能人工智能算力基礎(chǔ)設(shè)施的架構(gòu)與測(cè)評(píng)

2020-01-04 07:09鄭緯民

機(jī)器人產(chǎn)業(yè) 2020年6期

算力，作為人工智能“三駕馬車”之一，也是人工智能“新基建”的重點(diǎn)。在2020世界計(jì)算機(jī)大會(huì)名家講堂上，中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民圍繞高性能人工智能算力基礎(chǔ)設(shè)施的重要性和架構(gòu)進(jìn)行了闡述，并詮釋了人工智能算力評(píng)估的意義。

人工智能算力基礎(chǔ)設(shè)施的重要性

今年4月，國(guó)家發(fā)改委首次明確了“新基建”的范圍。人工智能是“新基建”的內(nèi)容之一?！靶禄ā敝幸欢〞?huì)花很多錢。新時(shí)代人工智能的發(fā)展包含大數(shù)據(jù)、算法和算力。對(duì)于人工智能“新基建”而言，需要花不少錢購(gòu)買一臺(tái)大機(jī)器，用來(lái)處理其中人工智能算力的問(wèn)題。

人工智能有多種多樣的應(yīng)用場(chǎng)景，主要包括三類。

第一類應(yīng)用是圖像檢測(cè)、視頻檢索。這人工智能算力基礎(chǔ)設(shè)施的重要性

今年4月，國(guó)家發(fā)改委首次明確了“新基建”的范圍。人工智能是“新基建”的內(nèi)容之一。“新基建”中一定會(huì)花很多錢。新時(shí)代人工智能的發(fā)展包含大數(shù)據(jù)、算法和算力。對(duì)于人工智能“新基建”而言，需要花不少錢購(gòu)買一臺(tái)大機(jī)器，用來(lái)處理其中人工智能算力的問(wèn)題。

人工智能有多種多樣的應(yīng)用場(chǎng)景，主要包括三類。

第一類應(yīng)用是圖像檢測(cè)、視頻檢索。這一類相當(dāng)于人臉識(shí)別。學(xué)術(shù)上，其核心是卷積網(wǎng)絡(luò)。這類應(yīng)用不需要太大的機(jī)器，主要出現(xiàn)在安防、醫(yī)療診斷和自動(dòng)駕駛領(lǐng)域。例如，坐飛機(jī)安全檢查的地方需要人臉識(shí)別，把口罩摘了，識(shí)別一下就可以通過(guò)，后面沒(méi)有成千上萬(wàn)的大機(jī)器進(jìn)行人臉識(shí)別。這類應(yīng)用現(xiàn)在已經(jīng)取得了很好的落地成果。

第二類應(yīng)用是博弈決策。這個(gè)問(wèn)題學(xué)術(shù)上的核心是強(qiáng)化學(xué)習(xí)。其最典型的例子是AlphaGo。AlphaGo不需要非常大的機(jī)器。它與圍棋冠軍比賽取得勝利，并且也可以完成其他決策類的任務(wù)。這類應(yīng)用也非常好。

上述兩類應(yīng)用不需要大機(jī)器，但第三類應(yīng)用——自然語(yǔ)言處理需要。

自然語(yǔ)言處理需要很大的算力，也就需要很大的機(jī)器。其發(fā)展非常迅速，典型模型包括GPT-1、GPT-2、GPT-3、BERT。它能做什么事情？一是語(yǔ)言翻譯。將中文翻譯為英文，將英文翻譯為日文，將日文翻譯為阿拉伯文……二是自動(dòng)問(wèn)答。不僅能夠回答簡(jiǎn)單的問(wèn)題，而且需要能夠回答非常復(fù)雜的問(wèn)題。三是生成文本摘要和創(chuàng)作。需要機(jī)器在讀完一篇文章之后寫出三句話的摘要，或者需要機(jī)器將給定的三句話擴(kuò)寫成一篇文章、一部劇本。這類應(yīng)用問(wèn)題中有些很復(fù)雜，要求機(jī)器具有很大的規(guī)模。

語(yǔ)言模型發(fā)展迅速。2015年，馬斯克和其他人創(chuàng)建了OpenAI公司。2019年，OpenAI核算了從2012年以來(lái)所有模型所用的計(jì)算量。結(jié)果發(fā)現(xiàn)，最大規(guī)模人工智能模型所需算力已經(jīng)增長(zhǎng)了30萬(wàn)倍，每三四個(gè)月翻一番，也就是說(shuō)每三四個(gè)月計(jì)算機(jī)的算力擴(kuò)大一倍，這比摩爾定律厲害。摩爾定律指出，芯片性能翻倍的周期是18至24個(gè)月。今年5月，微軟推出了一臺(tái)專門為OpenAI設(shè)計(jì)的超級(jí)計(jì)算機(jī)，托管在Azure上。這臺(tái)機(jī)器包含超過(guò)28.5萬(wàn)個(gè)處理器內(nèi)核、1萬(wàn)塊 GPU，處理人工智能問(wèn)題。其每個(gè)顯卡服務(wù)器的連接速度為400Gbps/s，它的性能在超級(jí)計(jì)算機(jī)排名中可以排到前五。

GPT-1在2018年6月發(fā)布，擁有1.17億個(gè)參數(shù)，預(yù)訓(xùn)練數(shù)據(jù)量約5GB。2019年2月發(fā)布的GPT-2，擁有15億個(gè)參數(shù)，預(yù)訓(xùn)練數(shù)據(jù)量40GB。2020年2月發(fā)布的Turing NLG參數(shù)達(dá)到170億個(gè)。今年5月發(fā)布GPT-3，截至到今年7月，擁有1750億個(gè)參數(shù)，比Turing NLG增加了10倍以上，比GPT-2增加了116倍以上，其預(yù)訓(xùn)練數(shù)據(jù)量是45TB。

參數(shù)越多，計(jì)算效果越好，需要的機(jī)器也就越大。這就引發(fā)一個(gè)問(wèn)題：在哪臺(tái)機(jī)器上能夠訓(xùn)練這么復(fù)雜、參數(shù)數(shù)量這么多的模型？

根據(jù)GPT-3 的論文，所有模型都是在高帶寬集群中的英偉達(dá)V100 GPU上進(jìn)行訓(xùn)練的，訓(xùn)練費(fèi)用預(yù)估為1200萬(wàn)美元。1萬(wàn)塊英偉達(dá)V100 GPU大概需要訓(xùn)練15天。

下一代人工智能的發(fā)展將繼續(xù)大規(guī)模人工智能算力基礎(chǔ)設(shè)施的支持。GPT-3取得了很好的進(jìn)步，但與人類智能相比還有很大差距。人腦有100億個(gè)神經(jīng)元，有100萬(wàn)億個(gè)突觸，GPU與此相比還距離很遠(yuǎn)。因此，下一代人工智能模型可能具有超過(guò)萬(wàn)億個(gè)參數(shù)。圖靈獎(jiǎng)獲得者Geoffrey Hinton認(rèn)為，如果模型的參數(shù)個(gè)數(shù)是4.398萬(wàn)億，即現(xiàn)在GPT-3參數(shù)數(shù)量的25倍，就可以包含一切，但現(xiàn)有計(jì)算機(jī)系統(tǒng)無(wú)法勝任其訓(xùn)練任務(wù)。

自然語(yǔ)言處理需要機(jī)器無(wú)止境的算力。當(dāng)前，國(guó)內(nèi)外很多人說(shuō)“人工智能需要很大的算力”“人工智能需要很大的機(jī)器”，這里的“人工智能”所指的是自然語(yǔ)言處理這一類問(wèn)題。

人工智能算力基礎(chǔ)設(shè)施的架構(gòu)

人工智能算力基礎(chǔ)設(shè)施的系統(tǒng)結(jié)構(gòu)要素與傳統(tǒng)高性能計(jì)算機(jī)器的組成是差不多的，都是處理器、內(nèi)存、存儲(chǔ)、互連網(wǎng)絡(luò)幾個(gè)部分。

具有代表性的處理傳統(tǒng)高性能計(jì)算（傳統(tǒng)科學(xué)計(jì)算）的機(jī)器有以下四臺(tái)。

第一臺(tái)機(jī)器是天河2號(hào)。天河2號(hào)是由國(guó)防科技大學(xué)做的，在2013年6月至2015年11月期間位于世界Top500評(píng)比第一名。國(guó)際上，每年對(duì)這一領(lǐng)域的機(jī)器排名兩次，6月一次，11月一次。天河2號(hào)最關(guān)鍵、最有特點(diǎn)之處在于引入了異構(gòu)加速器。在這之前，做高性能機(jī)器使用的所有CPU都是同構(gòu)的。

第二臺(tái)機(jī)器是神威太湖之光。神威太湖之光是由無(wú)錫的一個(gè)部隊(duì)研究所做的，在2016年6月至2017年11月期間多次位于世界Top500評(píng)比第一名。它最精彩的地方在于所有的芯片都是自己造的，采用了全國(guó)產(chǎn)異構(gòu)眾核處理器。

第三臺(tái)機(jī)器是Summit。Summit是由美國(guó)人做的，在2018年6月至2019年11月期間排名位于世界Top500評(píng)比第一。其中使用了NVLink連接的GPU、本地NVMe SSD存儲(chǔ)等設(shè)備。

第四臺(tái)機(jī)器是富岳。富岳是由日本人做的，在今年6月世界Top500評(píng)比時(shí)位居第一名。它使用了同構(gòu)向量處理器、高維互聯(lián)網(wǎng)絡(luò)，能夠?qū)崿F(xiàn)半精度優(yōu)化。

深圳鵬城實(shí)驗(yàn)室在建的鵬城云腦二期花費(fèi)了42億元制造，它是一臺(tái)很大的機(jī)器，用于處理人工智能問(wèn)題。它包括4套華為Atlas 900系統(tǒng)，每套系統(tǒng)128個(gè)結(jié)點(diǎn)，每個(gè)結(jié)點(diǎn)有8塊華為的昇騰加速卡，每套系統(tǒng)有1024塊加速卡。相當(dāng)于你把它看成了有1024塊GPU卡，英偉達(dá)叫GPU，我們叫升騰。鵬城云腦二期由4套系統(tǒng)結(jié)點(diǎn)間用200Gbps網(wǎng)絡(luò)互聯(lián)，全交換無(wú)帶寬裁剪，全局共享存儲(chǔ)。最后總的計(jì)算性能達(dá)到半精度1Eflops，雙精度1Pflops。

人工智能算力系統(tǒng)與傳統(tǒng)高性能計(jì)算系統(tǒng)之間在處理器、互聯(lián)網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng)三個(gè)方面都存在著區(qū)別。

它們最大的區(qū)別在處理器方面。傳統(tǒng)高性能計(jì)算系統(tǒng)以雙精度性能優(yōu)化，兼顧低精度計(jì)算，更大規(guī)模的機(jī)器甚至需要采用80位或者128位的高精度。它處理的問(wèn)題本身很大，因此高性能計(jì)算系統(tǒng)可以處理80位或者128位是很厲害的。人工智能算力系統(tǒng)處理人工智能問(wèn)題，也就是處理圖像檢測(cè)和視頻檢索問(wèn)題、博弈決策問(wèn)題、自然語(yǔ)言處理問(wèn)題。這不需要80位、128位，半精度的性能就足夠了。有些8位、16位即可，最多32位。它著重半精度計(jì)算性能，面向神經(jīng)網(wǎng)絡(luò)運(yùn)算的優(yōu)化。因此，我們經(jīng)常說(shuō)，用傳統(tǒng)高性能計(jì)算系統(tǒng)處理的人工智能問(wèn)題是不匹配、不合適的。

在互聯(lián)網(wǎng)絡(luò)方面，傳統(tǒng)高性能計(jì)算系統(tǒng)一般從全系統(tǒng)角度考慮網(wǎng)絡(luò)拓?fù)浜屯ㄐ判枨?，而人工智能算力系統(tǒng)需要高性能參數(shù)平面網(wǎng)絡(luò)連接訓(xùn)練單一模型的加速器組。

在存儲(chǔ)系統(tǒng)方面，傳統(tǒng)高性能計(jì)算系統(tǒng)一般采用Lustre等全局并行文件系統(tǒng)，支持MPI-IO，而人工智能算力系統(tǒng)局部高性能存儲(chǔ)（NVMe SSD）存放訓(xùn)練數(shù)據(jù)集，避免從全局文件系統(tǒng)讀取數(shù)據(jù)造成瓶頸。

更大的機(jī)器能做什么？這是一個(gè)持續(xù)已久的爭(zhēng)論。在計(jì)算機(jī)領(lǐng)域，特別是在高性能計(jì)算機(jī)領(lǐng)域，在機(jī)器做出來(lái)之前，是沒(méi)有確定性應(yīng)用的，它是應(yīng)用驅(qū)動(dòng)型的。湖南大學(xué)國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心的傳統(tǒng)高性能計(jì)算機(jī)器在七八年前剛出來(lái)時(shí)，人們都沒(méi)想到它能夠處理這么大的問(wèn)題。最近，面對(duì)新冠肺炎疫情，這臺(tái)機(jī)器能夠處理人從外地到長(zhǎng)沙的軌跡，很快將病人找出來(lái)。大規(guī)模的機(jī)器做出來(lái)之后，還會(huì)促進(jìn)應(yīng)用的發(fā)展。這是與其他學(xué)科不一樣的地方。因此，我們說(shuō)，更大的機(jī)器不僅是將已有的問(wèn)題算得更快，更重要的是解決現(xiàn)在不能解決的問(wèn)題。

人工智能算力的評(píng)估方法

現(xiàn)在，北京、珠海、嘉興、武漢、成都等多個(gè)城市，以及華為、海爾、曙光、國(guó)防科技大學(xué)等多家企業(yè)單位，都在花錢建設(shè)人工智能機(jī)器。那么，我們有沒(méi)有基準(zhǔn)來(lái)評(píng)價(jià)這臺(tái)機(jī)器好不好、適不適合做人工智能？

我們?yōu)槭裁葱枰粋€(gè)人工智能算力基準(zhǔn)測(cè)試程序？

截至目前，還沒(méi)有一個(gè)比較合理、公平的評(píng)測(cè)用于考量人工智能機(jī)器好不好。公眾需要一個(gè)簡(jiǎn)單的指標(biāo)來(lái)回答，需要一個(gè)簡(jiǎn)單的程序測(cè)試哪套系統(tǒng)的人工智能算力更強(qiáng)。測(cè)完后會(huì)產(chǎn)生一個(gè)簡(jiǎn)單的數(shù)據(jù)值結(jié)果，用這個(gè)數(shù)據(jù)值的大小反映這臺(tái)機(jī)器對(duì)人工智能問(wèn)題處理的水平如何。這個(gè)基準(zhǔn)測(cè)試程序做好了，整個(gè)領(lǐng)域會(huì)發(fā)展得更好。如果全國(guó)各地各單位做的機(jī)器測(cè)試后的數(shù)值結(jié)果都是0.1，說(shuō)明我們國(guó)家人工智能機(jī)器的水平不高;如果我們的機(jī)器測(cè)試后的數(shù)值結(jié)果有不少0.98、0.7，說(shuō)明我們國(guó)家人工智能機(jī)器的水平很高，因?yàn)闈M分就是1。另外，好的指標(biāo)還可以反映出人工智能機(jī)器的問(wèn)題，從而引領(lǐng)該領(lǐng)域的健康發(fā)展。

傳統(tǒng)高性能計(jì)算機(jī)器的測(cè)試結(jié)構(gòu)與人工智能需要的性能不完全一致。傳統(tǒng)的高性能計(jì)算機(jī)器已經(jīng)有了一個(gè)評(píng)測(cè)軟件，世界Top500排名就是以它為基準(zhǔn)的，水平最好就是Top500的第一名，很差就在500名以外。大家都認(rèn)可用這個(gè)軟件進(jìn)行傳統(tǒng)高性能計(jì)算機(jī)器的排名。這個(gè)高性能計(jì)算算力測(cè)試程序主要使用雙精度浮點(diǎn)數(shù)運(yùn)算的算法，測(cè)試做雙精度加減乘除計(jì)算的能力，反映了通用科學(xué)計(jì)算的問(wèn)題，因此適用于測(cè)評(píng)傳統(tǒng)的機(jī)器。但這個(gè)軟件不適用于測(cè)評(píng)人工智能機(jī)器。人工智能訓(xùn)練以單精度浮點(diǎn)數(shù)或者16位浮點(diǎn)數(shù)為主，推理以Int8位為主。

有人陸續(xù)在進(jìn)行人工智能性能基準(zhǔn)測(cè)試程序的研究開(kāi)發(fā)。一些人所做的測(cè)試程序是規(guī)模固定的，支持由16個(gè)CPU構(gòu)成的人工智能機(jī)器進(jìn)行測(cè)試。一些人所做的程序需要測(cè)試多個(gè)應(yīng)用，測(cè)試一次得一分，之后再測(cè)試另一個(gè)。最明顯的一個(gè)就是hpl-ai。這個(gè)軟件是由測(cè)試Top500的團(tuán)隊(duì)做的，它很好地處理了混合精度研究，但這個(gè)軟件本身和人工智能的關(guān)系不直接。我們希望有一個(gè)軟件專門處理人工智能問(wèn)題，而不是隨便寫一個(gè)軟件測(cè)試加減乘除各種問(wèn)題，然后再間接與人工智能問(wèn)題相關(guān)。還有人所做的測(cè)試程序是最終產(chǎn)生多個(gè)分?jǐn)?shù)的。

在我看來(lái)，現(xiàn)有的人工智能基準(zhǔn)測(cè)試程序都不是太好。我們預(yù)期的人工智能算力基準(zhǔn)測(cè)試程序應(yīng)當(dāng)具備下面幾點(diǎn)特性。

第一，一個(gè)分?jǐn)?shù)。我們希望有0.98、0.9這樣非常明顯、簡(jiǎn)單的分?jǐn)?shù)。分?jǐn)?shù)越接近1說(shuō)明機(jī)器水平越高。

第二，可變的問(wèn)題規(guī)模。這個(gè)軟件既可以適應(yīng)單卡內(nèi)存規(guī)模的變化，也可以適應(yīng)多卡;既可以測(cè)試小規(guī)模的機(jī)器，也可以測(cè)試中規(guī)模的和大規(guī)模的機(jī)器。我們現(xiàn)在做人工智能處理問(wèn)題，比如說(shuō)機(jī)器學(xué)習(xí)，大多數(shù)人只買一塊GPU卡，用在原來(lái)的服務(wù)器上直接做人工智能的深度學(xué)習(xí)，結(jié)果比原來(lái)沒(méi)有插這塊卡的普通CPU速度快10倍，人們就很滿意。一些人有錢買第二塊卡，問(wèn)題是國(guó)內(nèi)大多數(shù)做機(jī)器學(xué)習(xí)的人不會(huì)在二塊卡上處理問(wèn)題，更不會(huì)在四塊卡、一萬(wàn)塊卡上處理問(wèn)題。因此，我們需要一個(gè)軟件，既能夠適應(yīng)一塊卡，也能夠適應(yīng)二塊卡、四塊卡行、一萬(wàn)塊卡。目前，有些人已經(jīng)使用十六塊卡，但大多數(shù)人仍然只使用一塊卡。因此，擴(kuò)展是一件難度很高的事。

第三，計(jì)算要有人工智能的意義。這個(gè)軟件要反映人工智能本質(zhì)，處理的是人工智能問(wèn)題，需要面向神經(jīng)網(wǎng)絡(luò)運(yùn)算。

第四，多機(jī)通信可以少，但不能沒(méi)有，也不能是EP類型的。

對(duì)人工智能算力來(lái)說(shuō)，制定這樣一個(gè)指標(biāo)和測(cè)試方法并不容易。首先，單個(gè)人工智能訓(xùn)練任務(wù)很可能達(dá)不到全機(jī)規(guī)模。即使能達(dá)到，可能在訓(xùn)練時(shí)間和準(zhǔn)確率上也沒(méi)有改進(jìn)，使用全機(jī)規(guī)模是沒(méi)有意義的。其次，如果要測(cè)試規(guī)模變化巨大的人工智能集群計(jì)算機(jī)，測(cè)試程序必須是規(guī)?？勺兊?。那么，什么樣的主流人工智能應(yīng)用是規(guī)?？梢源蠓兓模孔詈笮枰紤]準(zhǔn)確率的問(wèn)題。殘差小于給定標(biāo)準(zhǔn)？還是將準(zhǔn)確度計(jì)入分?jǐn)?shù)？

清華大學(xué)與國(guó)防科技大學(xué)合作做了一個(gè)軟件，已經(jīng)在很多臺(tái)機(jī)器上進(jìn)行過(guò)測(cè)試。

我們的設(shè)計(jì)思路是AutoML。AutoML是通過(guò)算法自動(dòng)搜索合適的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)，找到針對(duì)特定任務(wù)效果最好的解。其所需的計(jì)算資源極高，基礎(chǔ)算法也包含訓(xùn)練模型本身。AutoML+NN現(xiàn)有兩個(gè)主要方面：超參數(shù)搜索、網(wǎng)絡(luò)結(jié)構(gòu)搜索。超參數(shù)搜索易于實(shí)現(xiàn)，但搜索空間存在一定限制（～100）;網(wǎng)絡(luò)結(jié)構(gòu)搜索搜索空間往往較大（～10000）。AutoML具有足夠的并行度，常常需要同時(shí)訓(xùn)練大量候選模型來(lái)對(duì)結(jié)構(gòu)進(jìn)行評(píng)估。其搜索的結(jié)果雖然有一定的隨機(jī)性，但整體上能找到的解的優(yōu)劣程度隨著搜索所消耗的計(jì)算量而逐漸改善。

這個(gè)基于AutoML的基準(zhǔn)程序測(cè)試終止條件為：運(yùn)行一段時(shí)間（如24小時(shí)），或精度已收斂。其量度指標(biāo)為運(yùn)行過(guò)程中達(dá)到的ops。其任務(wù)自身是深度學(xué)習(xí)任務(wù)設(shè)計(jì)中的關(guān)鍵環(huán)節(jié)，且任務(wù)能夠直接體現(xiàn)超算系統(tǒng)在深度學(xué)習(xí)方面的綜合性能（包括訓(xùn)練、推斷）;找到的解的優(yōu)劣程度隨著搜索所消耗的計(jì)算量而逐漸提升;可以換算成計(jì)算效率（%）。

（本文根據(jù)中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民在“2020世界計(jì)算機(jī)大會(huì)”名家講堂現(xiàn)場(chǎng)演講整理而成，未經(jīng)演講人審閱）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

新基建中的高性能人工智能算力基礎(chǔ)設(shè)施的架構(gòu)與測(cè)評(píng)