張家豪
從CPU到GPU,字節(jié)采購量的變化,也反映了如今大型科技公司的計算需求中,智能計算對通用計算的趕超。圖/視覺中國
2022年下半年,生成式AI爆火的同時,硅谷著名風險資本a16z走訪了數(shù)十家AI創(chuàng)業(yè)公司和大科技公司。其發(fā)現(xiàn),創(chuàng)業(yè)公司轉手就把80%-90%的早期融資款送給了云計算平臺,以訓練自己的模型。其估算,即便這些公司的產(chǎn)品成熟了,每年也得把10%-20%的營收送給云計算公司,相當于一筆“AI稅”。
這帶來了在云上提供模型能力和訓練服務,把算力租給其他客戶和創(chuàng)業(yè)公司的大市場。僅在國內(nèi),現(xiàn)在就至少有數(shù)十家創(chuàng)業(yè)公司和中小公司在自制復雜大語言模型,它們都得從云計算平臺租GPU(Graphics Processing Unit,圖形處理器)。據(jù)a16z測算,一個公司一年的AI運算開支只有超過5000萬美元,才有足夠的規(guī)模效應支撐自己批量采購GPU。
據(jù)了解,今年春節(jié)后,擁有云計算業(yè)務的中國各互聯(lián)網(wǎng)大公司都向英偉達下了大單。字節(jié)今年向英偉達訂購了超過10億美元的GPU,另一家大公司的訂單也至少超過10億元人民幣。
僅字節(jié)一家公司今年的訂單可能已接近英偉達去年在中國銷售的商用GPU總和。去年9月,美國政府發(fā)布對A100、H100(英偉達最新兩代數(shù)據(jù)中心商用GPU)的出口限制時,英偉達曾回應稱這可能影響去年四季度其在中國市場的4億美元(約合28億元人民幣)潛在銷售。以此推算,2022年全年英偉達數(shù)據(jù)中心GPU在中國的銷售額約為100億元人民幣。
相比海外巨頭,中國大科技公司采購GPU更為急迫。過去兩年的降本增效中,一些云計算平臺減少了GPU采購,儲備不足。此外,誰也不敢保證,今天能買的高性能GPU,明天會不會就受到新的限制。
今年初之前,中國大型科技公司對GPU的需求還不溫不火。
GPU在中國大型互聯(lián)網(wǎng)科技公司中主要有兩個用途:一是對內(nèi)支持業(yè)務和做一些前沿AI研究,二是把GPU放到云計算平臺上對外售賣。
一名字節(jié)人士告訴《財經(jīng)》記者,2020年6月OpenAI發(fā)布GPT-3后,字節(jié)就曾訓練了一個數(shù)十億參數(shù)的生成式語言大模型,當時主要使用的GPU是A100前代產(chǎn)品V100。由于參數(shù)規(guī)模有限,這個模型生成能力一般,字節(jié)當時看不到它的商業(yè)化可能性,“ROI(投資回報率)算不過來”,這次嘗試不了了之。
阿里也曾在2018年-2019年積極采購GPU。一位阿里云人士稱,當時阿里的采購量至少達到上萬塊規(guī)模,購買的型號主要是V100和英偉達更早前發(fā)布的T4。不過這批GPU中只有約十分之一給到了達摩院用作AI技術研發(fā)。2021年發(fā)布萬億參數(shù)大模型M6后,達摩院曾披露訓練M6使用了480塊V100。
阿里當時購買的GPU,更多給到了阿里云用于對外租賃。但包括阿里云在內(nèi),一批中國云計算公司都高估了中國市場的AI需求。一位科技投資人稱,大模型熱潮之前,國內(nèi)主要云廠商上的GPU算力不是緊缺,而是愁賣,云廠商甚至得降價賣資源。去年阿里云先后降價六次,GPU租用價下降超兩成。
在降本增效,追求“有質量的增長”與利潤的背景下,據(jù)了解,阿里在2020年之后收縮了GPU采購規(guī)模,騰訊也在去年底砍單一批英偉達GPU。
然而沒過多久后的2022年初,ChatGPT改變了所有人的看法,共識很快達成:大模型是不容錯過的大機會。
各公司創(chuàng)始人親自關注大模型進展:字節(jié)跳動創(chuàng)始人張一鳴開始看人工智能論文;阿里巴巴董事局主席張勇接手阿里云,在阿里云峰會發(fā)布阿里大模型進展時稱,“所有行業(yè)、應用、軟件、服務,都值得基于大模型能力重做一遍”。
一名字節(jié)人士稱,過去在字節(jié)內(nèi)部申請采購GPU時,要說明投入產(chǎn)出比、業(yè)務優(yōu)先級和重要性。而現(xiàn)在大模型業(yè)務是公司戰(zhàn)略級別新業(yè)務,暫時算不清ROI也必須投入。
研發(fā)自己的通用大模型只是第一步,各公司的更大目標是推出提供大模型能力的云服務,這是真正可以匹配投入的大市場。
微軟的云服務Azure在中國云計算市場本沒有太強存在感,入華十年來主要服務跨國公司的中國業(yè)務。但現(xiàn)在客戶得排隊等待,因為它是OpenAI商業(yè)化的唯一云代理商。
阿里在4月的云峰會上再次強調(diào)MaaS(模型即服務)是未來云計算趨勢,在開放自研的通用基礎模型“通義千問”測試之外,還發(fā)布了一系列幫助客戶在云上訓練、使用大模型的工具。不久后騰訊和字節(jié)火山引擎也先后發(fā)布自己的新版訓練集群服務。騰訊稱用新一代集群訓練萬億參數(shù)的混元大模型,時間可被壓縮到四天;字節(jié)稱它們的新集群支持萬卡級大模型訓練,國內(nèi)數(shù)十家做大模型的企業(yè),多數(shù)已在使用火山引擎。
所有這些平臺使用的要么是英偉達A100、H100GPU,要么是去年禁令后英偉達專門推出的減配版A800、H800,這兩款處理器帶寬分別是原版的約四分之三和約一半,避開了高性能GPU的限制標準。
圍繞H800和A800,中國科技大公司開始了新一輪下單競爭。
一名云廠商人士稱,字節(jié)、阿里等大公司主要是和英偉達原廠直接談采購,代理商和二手市場難以滿足它們的龐大需求。
英偉達會按目錄價,根據(jù)采購規(guī)模談一個折扣。據(jù)英偉達官網(wǎng),A100售價為1萬美元/塊(約7.1萬元人民幣),H100售價為3.6萬美元/塊(約25.7萬元人民幣);據(jù)了解,A800和H800售價略低于原版。
中國公司能否搶到卡,更多是看商業(yè)關系,比如以往是不是英偉達的大客戶?!澳闶呛椭袊ミ_談,還是去美國找老黃(黃仁勛,英偉達創(chuàng)始人、CEO)直接談,都有差別?!币晃辉茝S商人士說。
部分公司也會和英偉達進行“業(yè)務合作”,在購買搶手的數(shù)據(jù)中心GPU時,也購買其他產(chǎn)品,以爭取優(yōu)先供應。這就像愛馬仕的配貨,如果你想買到熱門的包,往往也得搭配幾萬元的衣服、鞋履。
綜合我們獲得的行業(yè)信息,字節(jié)今年的新下單動作相對激進,超過10億美元級別。
一位接近英偉達的人士稱,字節(jié)到貨和沒到貨的A100與H800總計有10萬塊。其中H800今年3月才開始投產(chǎn),這部分芯片應來自今年的加購。據(jù)了解,以現(xiàn)在的排產(chǎn)進度,部分H800要到今年底才能交貨。
字節(jié)跳動2017年開始建設自己的數(shù)據(jù)中心。曾經(jīng)的數(shù)據(jù)中心更依賴適應所有計算的CPU,直到2020年,字節(jié)采購英特爾CPU的金額還高于英偉達GPU。字節(jié)采購量的變化,也反映了如今大型科技公司的計算需求中,智能計算對通用計算的趕超。
據(jù)了解,某互聯(lián)網(wǎng)大廠今年至少已給英偉達下了萬卡級別訂單,按目錄價估算價值超10億元人民幣。
騰訊則率先宣布已用上H800,騰訊云在今年3月發(fā)布的新版高性能計算服務中已使用了H800,并稱這是國內(nèi)首發(fā)。目前這一服務已對企業(yè)客戶開放測試申請,這快于大部分中國公司的進度。
據(jù)了解,阿里云也在今年5月對內(nèi)提出把“智算戰(zhàn)役”作為今年的頭號戰(zhàn)役,并設立三大目標:機器規(guī)模、客戶規(guī)模和營收規(guī)模;其中機器規(guī)模的重要指標就是GPU數(shù)量。
新的GPU到貨前,各公司也在通過內(nèi)部騰挪,優(yōu)先支持大模型研發(fā)。
能一次釋放較多資源的做法是砍掉一些沒那么重要,或短期看不到明確前景的方向?!按蠊居泻枚喟胨啦换畹臉I(yè)務占著資源。”一位互聯(lián)網(wǎng)大公司AI從業(yè)者說。
今年5月,阿里達摩院裁撤自動駕駛實驗室:300多名員工中,約三分之一劃歸菜鳥技術團隊,其余被裁,達摩院不再保留自動駕駛業(yè)務。研發(fā)自動駕駛也需要用高性能GPU做訓練。這一調(diào)整可能與大模型無直接關系,但確實讓阿里獲得了一批“自由GPU”。
字節(jié)和美團,則直接從給公司帶來廣告收入的商業(yè)化技術團隊那里勻GPU。
據(jù)《財經(jīng)》記者了解,今年春節(jié)后不久,字節(jié)把一批原計劃新增給字節(jié)商業(yè)化技術團隊的A100勻給了TikTok產(chǎn)品技術負責人朱文佳。朱文佳正在領導字節(jié)大模型研發(fā)。而商業(yè)化技術團隊是支持抖音廣告推薦算法的核心業(yè)務部門。
美團在今年一季度左右開始開發(fā)大模型。據(jù)了解,美團不久前從多個部門調(diào)走了一批80G顯存頂配版A100,優(yōu)先供給大模型,讓這些部門改用配置更低的GPU。
財力遠不如大平臺充裕的B站對大模型也有規(guī)劃。據(jù)了解,B站此前已儲備了數(shù)百塊GPU。今年,B站一方面持續(xù)加購GPU,一方面也在協(xié)調(diào)各部門勻卡給大模型。“有的部門給10塊,有的部門給20塊?!币晃唤咏麭站的人士稱。
字節(jié)、美團、B站等互聯(lián)網(wǎng)公司,原本支持搜索、推薦的技術部門一般會有一些GPU資源冗余,在不傷害原有業(yè)務的前提下,它們現(xiàn)在都在“把算力水分擠出來”。
不過這種拆東補西的做法能獲得的GPU數(shù)量有限,訓練大模型所需的大頭GPU還是得靠各公司過去的積累和等待新GPU到貨。
對英偉達數(shù)據(jù)中心GPU的競賽也發(fā)生在全球范圍。不過海外巨頭大量購買GPU更早,采購量更大,近年的投資相對連續(xù)。
2022年,Meta和甲骨文就已有對A100的大投入。Meta在去年1月與英偉達合作建成RSC超級計算集群,它包含1.6萬塊A100。同年11月,甲骨文宣布購買數(shù)萬塊A100和H100搭建新計算中心?,F(xiàn)在該計算中心已部署了超3.27萬塊A100,并陸續(xù)上線新的H100。
微軟自從2019年第一次投資OpenAI以來,已為OpenAI提供數(shù)萬塊GPU。今年3月,微軟又宣布已幫助OpenAI建設了一個新計算中心,其中包括數(shù)萬塊A100。Google在今年5月推出了一個擁有2.6萬塊H100的計算集群Compute EngineA3,服務想自己訓練大模型的公司。
中國大公司現(xiàn)在的動作和心態(tài)都比海外巨頭更急迫。以百度為例,它今年向英偉達新下的GPU訂單高達上萬塊。數(shù)量級與Google等公司相當,雖然百度的體量小得多,其去年營收為1236億元人民幣,只有Google的6%。
據(jù)了解,字節(jié)、騰訊、阿里、百度這四家中國投入AI和云計算最多的科技公司,過去A100的積累都達到上萬塊。其中字節(jié)的A100絕對數(shù)最多。不算今年的新增訂單,字節(jié)A100和前代產(chǎn)品V100總數(shù)接近10萬塊。
成長期公司中,商湯今年也宣稱,其“AI大裝置”計算集群中已總共部署了2.7萬塊GPU,其中有1萬塊A100。連看似和AI不搭邊的量化投資公司幻方之前也購買了1萬塊A100。
僅看總數(shù),這些GPU供各公司訓練大模型似乎綽綽有余——據(jù)英偉達官網(wǎng)案例,OpenAI訓練1750億參數(shù)的GPT-3時用了1萬塊V100,訓練時長未公開;英偉達測算,如果用A100來訓練GPT-3,需要1024塊A100訓練一個月,A100相比V100有4.3倍性能提升。但中國大公司過去采購的大量GPU要支撐現(xiàn)有業(yè)務,或放在云計算平臺上售賣,并不能自由地用于大模型開發(fā)和對外支持客戶的大模型需求。
這也解釋了中國AI從業(yè)者對算力資源估算的巨大差別。清華智能產(chǎn)業(yè)研究院院長張亞勤4月底參加清華論壇時說,“如果把中國的算力加1塊,相當于50萬塊A100,訓練五個模型沒問題?!盇I公司曠視科技CEO(首席執(zhí)行官)印奇接受《財新》采訪時則說:中國目前可用作大模型訓練的A100總共只有約4萬塊。
主要反映對芯片、服務器和數(shù)據(jù)中心等固定資產(chǎn)投資的資本開支,可以直觀說明中外大公司計算資源的數(shù)量級差距。
最早開始測試類ChatGPT產(chǎn)品的百度,2020年以來的年資本開支在8億到20億美元之間,阿里在60億-80億美元之間,騰訊在70億-110億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數(shù)據(jù)中心的美國科技公司的年資本開支最少均超過150億美元。
疫情三年中,海外公司資本開支繼續(xù)上漲。亞馬遜去年的資本開支已來到580億美元,Meta、Google均為314億美元,微軟接近240億美元。中國公司的投資在2021年之后則在收縮。騰訊、百度去年的資本開支均同比下滑超25%。
訓練大模型的GPU已不算充足,各家中國公司如果真的要長期投入大模型,并賺到給其他模型需求“賣鏟子”的錢,未來還需要持續(xù)增加GPU資源。
走得更快OpenAI已遇到了這一挑戰(zhàn)。5月中旬,OpenAI CEO Sam Altman在與一群開發(fā)者的小范圍交流中說,由于GPU不夠,OpenAI現(xiàn)在的API服務不夠穩(wěn)定,速度也不夠快,在有更多GPU前,GPT-4的多模態(tài)能力還無法拓展給每個用戶,他們近期也不準備發(fā)布新的消費級產(chǎn)品。技術咨詢機構Trend Force今年6月發(fā)布報告稱,OpenAI需要約3萬塊A100來持續(xù)優(yōu)化和商業(yè)化Chat GPT。
與OpenAI合作頗深的微軟也面臨類似情境:今年5月,有用戶吐槽New Bing回答速度變慢,微軟回應,這是因為GPU補充速度跟不上用戶增長速度。嵌入了大模型能力的微軟Office 365 Copilot目前也沒有大規(guī)模開放,最新數(shù)字是有600多家企業(yè)在試用——Office 365的全球總用戶數(shù)接近3億。
中國大公司如果不是僅把訓練并發(fā)布一個大模型作為目標,而是真想用大模型創(chuàng)造服務更多用戶的產(chǎn)品,并進一步支持其他客戶在云上訓練更多大模型,就需要提前儲備更多GPU。
在AI大模型訓練上,現(xiàn)在A100、H100及其特供中國的減配版A800、H800找不到替代品。據(jù)量化對沖基金Khaveen Investments測算,英偉達數(shù)據(jù)中心GPU
2022年市占率達88%,AMD和英特爾瓜分剩下的部分。
2020年GTC大會上,黃仁勛攜A100第一次亮相。
英偉達GPU目前的不可替代性,源自大模型的訓練機制,其核心步驟是預訓練(pre-training)和微調(diào)(fine-tuning),前者是打基座,相當于接受通識教育至大學畢業(yè);后者則是針對具體場景和任務做優(yōu)化,以提升工作表現(xiàn)。
預訓練環(huán)節(jié)尤其消耗算力,它對單個GPU的性能和多卡間的數(shù)據(jù)傳輸能力有極高要求。
現(xiàn)在只有A100、H100能提供預訓練所需的計算效率,它們看起來昂貴,反倒是最低廉的選擇。今天AI還在商用早期,成本直接影響一個服務是否可用。
過去的一些模型,如能識別貓是貓的VGG16,參數(shù)量只有1.3億,當時一些公司會用玩游戲的RTX系列消費級顯卡來跑AI模型。而兩年多前發(fā)布的GPT-3的參數(shù)規(guī)模已達到1750億。
大模型的龐大計算需求下,用更多低性能GPU共同組成算力已行不通了。因為使用多個GPU訓練時,需要在芯片與芯片間傳輸數(shù)據(jù)、同步參數(shù)信息,這時部分GPU會閑置,無法一直飽和工作。所以單卡性能越低,使用的卡越多,算力損耗就越大。OpenAI用1萬塊V100訓練GPT-3時的算力利用率不到50%。
A100、H100則既有單卡高算力,又有提升卡間數(shù)據(jù)傳輸?shù)母邘?。A100的FP32(指用4字節(jié)進行編碼存儲的計算)算力達到19.5TFLOPS(1TFLOPS即每秒進行一萬億次浮點運算),H100的FP32算力更高達134TFLOPS,是競品AMD MI250的約4倍。
A100、H100還提供高效數(shù)據(jù)傳輸能力,盡可能減少算力閑置。英偉達的獨家秘籍是自2014年起陸續(xù)推出的NVLink、NVSwitch等通信協(xié)議技術。用在H100上的第四代NVLink可將同一服務器內(nèi)的GPU雙向通信帶寬提升至900GB/s(每秒傳輸900GB數(shù)據(jù)),是最新一代PCle(一種點對點高速串行傳輸標準)的7倍多。
去年美國商務部對GPU的出口規(guī)定也正是卡在算力和帶寬這兩條線上:算力上線為4800TOPS,帶寬上線為600GB/s。
A800和H800算力和原版相當,但帶寬打折。A800的帶寬從A100的600GB/s
降為400GB/s,H800的具體參數(shù)尚未公開,據(jù)媒體報道,它的帶寬只有H100(900GB/s)的約一半,執(zhí)行同樣的AI任務時,H800會比H100多花10%-30%的時間。一名AI工程師推測,H800的訓練效果可能還不如A100,但更貴。
即使如此,A800和H800的性能依然超過其他大公司和創(chuàng)業(yè)公司的同類產(chǎn)品。受限于性能和更專用的架構,各公司推出的AI芯片或GPU芯片,現(xiàn)在主要用來做AI推理,難以勝任大模型預訓練。簡單來說,AI訓練是做出模型,AI推理是使用模型,訓練對芯片性能要求更高。
性能差距外,英偉達的更深護城河是軟件生態(tài)。
早在2006年,英偉達就推出計算平臺CUDA,它是一個并行計算軟件引擎,開發(fā)者可使用CUDA更高效地進行AI訓練和推理,用好GPU算力。
CUDA今天已成為AI基礎設施,主流的AI框架、庫、工具都以CUDA為基礎進行開發(fā)。
英偉達之外的GPU和AI芯片如要接入CUDA,需要自己提供適配軟件,但只有CUDA部分性能,更新迭代也更慢。PyTorch等AI框架正試圖打破CUDA的軟件生態(tài)壟斷,提供更多軟件能力以支持其他廠商的GPU,但這對開發(fā)者吸引力有限。
一位AI從業(yè)者稱,他所在的公司曾接觸一家非英偉達GPU廠商,對方的芯片和服務報價比英偉達更低,也承諾提供更及時的服務,但他們判斷,使用其他GPU的整體訓練和開發(fā)成本會高于英偉達,還得承擔結果的不確定性和花更多時間。
“雖然A100價格貴,但其實用起來是最便宜的?!彼f。對有意抓住大模型機會的大型科技公司和頭部創(chuàng)業(yè)公司來說,錢往往不是問題,時間才是更寶貴的資源。
短期內(nèi)唯一影響英偉達數(shù)據(jù)中心GPU銷量的可能只有臺積電的產(chǎn)能。H100/800為4nm制程,A100/800為7nm制程,這四款芯片均由臺積電代工生產(chǎn)。據(jù)媒體報道,英偉達今年向臺積電新增了1萬塊數(shù)據(jù)中心GPU訂單,并下了超急件,生產(chǎn)時間最多可縮短50%。正常情況下,臺積電生產(chǎn)A100需要數(shù)月。目前的生產(chǎn)瓶頸主要在先進封裝產(chǎn)能不夠,缺口達一至兩成,需要3個-6個月逐步提升。
自從適用于并行計算的GPU被引入深度學習,十多年來,AI發(fā)展的動力就是硬件與軟件,GPU算力與模型和算法的交疊向前:模型發(fā)展拉動算力需求;算力增長,又使原本難以企及的更大規(guī)模訓練成為可能。
在上一波以圖像識別為代表的深度學習熱潮中,中國AI軟件能力比肩全球最前沿水平;算力是目前的難點——設計與制造芯片需要更長的積累,涉及漫長供應鏈和浩繁專利壁壘。
大模型是模型與算法層的又一次大進展,沒時間慢慢來了,想做大模型,或提供大模型云計算能力的公司必須盡快獲得足夠多的先進算力。在這輪熱潮使第一批公司振奮或失望前,圍繞GPU的搶奪不會停止。