王永
2020年7月15日,Graphcore發(fā)布了第二代IPU Colossus Mk2 GC200以及基于第二代IPU處理器的一系列的產(chǎn)品。在此之前,Graphcore在中國(guó)的IPU開發(fā)者云也正式上線,面向中國(guó)的商業(yè)用戶、大學(xué)以及科研機(jī)構(gòu)和創(chuàng)新者免費(fèi)使用。
Graphcore作為成立于2016年的英國(guó)初創(chuàng)公司,目前已經(jīng)成長(zhǎng)為全球性企業(yè),總?cè)谫Y超過(guò)4.5億美金,其全球辦公室遍布了歐洲、亞洲和北美。目前在亞太區(qū),Graphcore在北京、上海、深圳、臺(tái)北、首爾設(shè)立了辦公室,并計(jì)劃下一步在日本東京設(shè)立新的辦公室。
“Graphcore當(dāng)前專注于三個(gè)方面:專門為AI應(yīng)用設(shè)計(jì)IPU處理器、基于IPU處理器及面向AI應(yīng)用的Poplar軟件棧、圍繞硬件和軟件打造IPU平臺(tái)?!盙raphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤在接受筆者的采訪時(shí)表示,在Graphcore的產(chǎn)品戰(zhàn)略下已經(jīng)推出了三種產(chǎn)品形態(tài):IPUMachine、IPU服務(wù)器以及大規(guī)模橫向擴(kuò)展的IPUPOD的系統(tǒng)級(jí)產(chǎn)品。
據(jù)了解,此次Graphcore推出的新品有三大顛覆性技術(shù)突破:計(jì)算、數(shù)據(jù)和通信。
從單一芯片來(lái)看,Colossus Mk2 GC200處理器是目前世界上最復(fù)雜的單一處理器,基于臺(tái)積電7納米的技術(shù),里面集成了近600億個(gè)晶體管,擁有250TFlops AI-Float的算力和900 MB的處理器內(nèi)存儲(chǔ)。處理器內(nèi)核(IPU-Tiles)從上一代的1217個(gè)提升到了1472個(gè)獨(dú)立的處理器內(nèi)核,相對(duì)于第一代產(chǎn)品,其系統(tǒng)級(jí)的性能提升了8倍以上。
“針對(duì)數(shù)據(jù)處理問(wèn)題,Graphcore提出了IPU Exchange Memory(交換式存儲(chǔ))概念?!北R濤表示,與英偉達(dá)當(dāng)前使用HBM的技術(shù)的產(chǎn)品比較,Graphcore在每個(gè)IPU-Machine: M2000(IPU-M2000) 里面通過(guò)IPU Exchange Memory技術(shù),提供了將近超過(guò)100倍的帶寬以及大約10倍的容量,這對(duì)于很多復(fù)雜的AI模型算法提升有很大幫助。
通信方面,Graphcore專為AI橫向擴(kuò)展設(shè)計(jì)了IPU-Fabric。這樣一個(gè)結(jié)構(gòu)可以做到2.8 Tbps的超低時(shí)延,同時(shí)最多可支持64000個(gè)IPU之間的橫向擴(kuò)展。通過(guò)IPU-Fabric技術(shù),用戶可以把集群無(wú)縫地從一個(gè)IPU擴(kuò)展到64000個(gè)IPU,通過(guò)直聯(lián)或以太網(wǎng)的交換機(jī)等技術(shù)進(jìn)行互聯(lián)。同時(shí),IPU-Fabric支持諸如AI運(yùn)算中的集合通信或全縮減(All-Reduce)操作。IPU-Fabric也是專門為AI應(yīng)用從零開始設(shè)計(jì)的。
事實(shí)上,如果把計(jì)算和數(shù)據(jù)結(jié)合來(lái)看,IPU和GPU有著較大區(qū)別。在數(shù)據(jù)和計(jì)算密集的前提下,GPU的優(yōu)勢(shì)明顯,反之,如果數(shù)據(jù)的稀疏性越高,和GPU相比,IPU的優(yōu)勢(shì)會(huì)越來(lái)越明顯——領(lǐng)先會(huì)達(dá)到10-50倍,尤其是在NLP研究領(lǐng)域,對(duì)很多超大規(guī)模的AI模型有巨大的幫助。
另一方面,基于7納米Mk2的IPU,Graphcore構(gòu)建了IPU-M2000。這是一個(gè)1U結(jié)構(gòu)的即插即用計(jì)算刀片,易于部署。在1U這樣極小的空間內(nèi),Graphcore集成了1PFlops的計(jì)算能力,其密度非常之高。
此外,IPU-M2000還擁有450 GB的Exchange Memory;其2.8 Tbps的IPU-Fabric也提供了超低時(shí)延的通信。在1P的算力、450GB的Exchange Memory、2.8 Tbps的IPU-Fabric三項(xiàng)技術(shù)的結(jié)合下,IPU-M2000可滿足當(dāng)前最為苛刻的機(jī)器智能工作負(fù)載。
“IPU-M2000使用了Graphcore的Poplar軟件棧,Poplar也可認(rèn)為是IPU統(tǒng)一的軟件棧。”盧濤表示,IPU-M2000擁有多種配置形態(tài),比如1個(gè)M2000的配置、4個(gè)M2000的配置、甚至IPU-POD64這樣的整機(jī)交付?!?IPU-M2000是Graphcore構(gòu)建超大規(guī)模和彈性AI計(jì)算集群中的一個(gè)基本單元,幫助客戶解決大規(guī)模集群的可擴(kuò)展性問(wèn)題?!?/p>
IPU-POD是結(jié)合計(jì)算、數(shù)據(jù)、通信三種顛覆性技術(shù)的大規(guī)模可擴(kuò)展系統(tǒng),用于超算規(guī)模的IPU-POD形態(tài)。它基于IPU-POD64構(gòu)建塊,并對(duì)AI的計(jì)算與邏輯控制進(jìn)行了解耦,易于部署,網(wǎng)絡(luò)時(shí)延極低,能夠支持超大型算法模型以及安全的多租戶使用。
對(duì)于一家初創(chuàng)企業(yè)而言,從技術(shù)到產(chǎn)品落地或許并不困難,難的是如何在需求多變且競(jìng)爭(zhēng)激烈的市場(chǎng)中找到屬于自己的位置。
“Graphcore在市場(chǎng)策略方面有三個(gè)維度:渠道合作伙伴、OEM合作伙伴,以及全球的云合作伙伴?!北R濤表示,Graphcore的首款I(lǐng)PU開發(fā)者云已經(jīng)部署在金山云上。IPU開發(fā)者云支持當(dāng)前最先進(jìn)和最復(fù)雜的AI算法模型的訓(xùn)練和推理工作,比如自然語(yǔ)言處理類和高級(jí)計(jì)算機(jī)視覺類應(yīng)用。
對(duì)于商業(yè)用戶而言,敏捷、效率是其最為關(guān)心的問(wèn)題,所以在較短時(shí)間內(nèi)讓用戶快速體驗(yàn)IPU性能以及編程的易用性是Graphcore給出的解決方案。對(duì)于大學(xué)研究機(jī)構(gòu)和個(gè)人研究者,Graphcore提供較長(zhǎng)時(shí)間內(nèi)的免費(fèi)訪問(wèn),幫助其用于研究的算法模型可以得到極大的優(yōu)化、充分釋放潛力、縮短研究成果面市時(shí)間,以及觸發(fā)新的研究方向和領(lǐng)域。
與此同時(shí),Graphcore也在中國(guó)積極組建其創(chuàng)新社區(qū)。據(jù)悉,Graphcore已在微信、知乎、微博和GitHub開通了官方頻道,旨在與開發(fā)者、創(chuàng)新者、研究者更好地交流和互動(dòng)。”
關(guān)于未來(lái)的AI計(jì)算領(lǐng)域,盧濤表示,未來(lái)會(huì)是 “CPU、GPU、IPU并行” 的時(shí)代。
“GPU或部分CPU專注于業(yè)務(wù)場(chǎng)景的實(shí)現(xiàn)和落地,而IPU專為AI創(chuàng)新者帶來(lái)更多突破?!痹诒R濤看來(lái),不管CPU還是GPU都無(wú)法從根本上解決AI問(wèn)題,因?yàn)锳I是一個(gè)面向計(jì)算圖的任務(wù)、與CPU的標(biāo)量計(jì)算和GPU的矢量計(jì)算區(qū)別很大,Graphcore找到了屬于自己的賽道。