文/林新華
“管窺GPU”九則
文/林新華
2004年,Intel宣布停止單核CPU研發(fā),全面轉(zhuǎn)向多核C P U?!扒厥渎埂?各路協(xié)處理器們蠢蠢欲動。最老牌的FPGA,頂著IBM和當(dāng)時世界第一超級計算機RoadRunner光環(huán)的CELL,以及附東京工大Tsubame驥尾的Clear Speed,一時間群雄逐鹿。然而nVIDIA的GPU在2005~2006年之間以GPGPU技術(shù)之名異軍突起,在2007年推出CUDA之后,終于一戰(zhàn)成功,結(jié)束了這場長達數(shù)年的“協(xié)處理器戰(zhàn)爭”。與現(xiàn)在偏安一隅的FPGA,瀕臨絕境的CELL和已經(jīng)銷聲匿跡的ClearSpeed相比,GPU有兩大制勝利器:CUDA這柄技術(shù)的“倚天劍”以及價格這把商業(yè)的“屠龍刀”。凡是用過FPGA和CELL編程的人,都對GPU上有CUDA艷羨不已。相比之下,真是又快又好用。而通過與出貨量巨大的面向消費級市場的Geforce和專業(yè)圖形的Quadro并線生產(chǎn)核心單元(SM),使得面向HPC市場的Tesla成本極具競爭力。
比爾·蓋茨
2005年,時任微軟CEO的比爾·蓋茨在西雅圖召開的Supercomputing2005上做主題報告,吹響了微軟進軍HPC的號角:在西雅圖和上海分別建立HPC研發(fā)團隊,在全球與10所著名高校合作成立HPC創(chuàng)新研究院(上海交大作為國內(nèi)惟一的合作單位也參與其中),并積極聯(lián)絡(luò)開源軟件社區(qū)和CAE等商業(yè)公司,希望借助中國等Windows基礎(chǔ)良好的市場,推動Windows HPC生態(tài)環(huán)境的良性發(fā)展。然而如今,HPC研發(fā)團隊重組到Azure,部門總經(jīng)理跳槽亞馬遜,市場份額無足輕重,銷售業(yè)績不溫不火。這不能不讓人感嘆,吳軍在《浪潮之巔》中關(guān)于公司基因一說頗為在理,就像擅長企業(yè)市場的HP玩不轉(zhuǎn)消費級的Palm,強悍如蘋果也才剛剛試水企業(yè)市場,做商業(yè)的微軟果然還是缺少HPC的基因。nVIDIA則運氣頗佳,在它進軍HPC領(lǐng)域時,正好趕上SGI式微,順勢招攬到一大批技術(shù)和商業(yè)人才,這些人既能融入到nVIDIA中做圖形的基因,又幫助nVIDIA迅速形成了HPC基因。
2009年“天河1號”橫空出世,2010年“天河1A”不負眾望,成功登頂TOP500,其中GPU助力良多。光環(huán)之下,CPU+GPU的異構(gòu)計算模式頓成時髦名詞。各地超算中心建設(shè)時免不得捎帶上些GPU,一些科研型用戶也嘗試購置GPU。GPU的市場份額穩(wěn)步增加,但漸漸趨于飽和,原因無外大型超算中心數(shù)量畢竟有限,而科研型用戶的需求又較小,真正占大頭的生產(chǎn)型用戶在沒找到對口GPU軟件之前又不會大規(guī)模部署GPU。目前GPU在石油行業(yè)中頗為成功,就是因為花力氣研發(fā)了幾個關(guān)鍵算法軟件,而且成果在實際生產(chǎn)中立竿見影。也有傳聞?wù)fnVIDIA期待Tesla版本的Kepler銷量能超過歷代總和。
John Hennessy
在M.J.Flynn眼里,Cray的向量機,Intel的SSE和AVX指令集與nVIDIA的GPU都可以歸到單指令、多數(shù)據(jù)(SIMD)這一模型中。斯坦福大學(xué)校長John Hennessy和伯克利計算機系前主任David Patterson在合著的《計算機體系結(jié)構(gòu):量化研究方法》最新第5版中就遵循這種思路,將這三者放在一章中串講?,F(xiàn)代的GPU使脫胎于古老向量機的SIMD編程模式重新煥發(fā)青春,這就如同多核CPU使原先針對SMP機器設(shè)計的OpenMP再次流行起來一般。與目前常用的并行工具MPI、OpenMP等多指令多數(shù)據(jù)(MIMD)模式相比,SIMD模式編程的思維方式更接近串行程序,功耗也更低,因為一條指令能同時處理多個數(shù)據(jù)。
2008年,Apple首先提出OpenCL,隨后Intel,nVIDIA和AMD各自派人跟進,希望借鑒OpenMP的成功經(jīng)驗,在CUDA之外,制定為各公司廣泛接受并支持的通用GPU編程標(biāo)準(zhǔn)。但與PC時代的Windows,智能手機時代的Android一樣,出于對抗CUDA的目的,OpenCL希望支持盡可能多的廠商設(shè)備,因此在技術(shù)上它遇到的“性能可移植性”非常棘手,即為設(shè)備A所編寫的程序如何在不修改源代碼的情況下,在設(shè)備B、設(shè)備C上繼續(xù)獲得良好的加速性能。讓人郁悶的是,雖然OpenCL的設(shè)計初衷是“通用”的CPU+GPU異構(gòu)計算標(biāo)準(zhǔn),但現(xiàn)實中出于商業(yè)利益的考慮,號稱支持OpenCL的廠商都只做了“半吊子”的實現(xiàn)。Intel的OpenCL只支持Intel CPU,nVIDIA的OpenCL只支持nVIDIA GPU,AMD的OpenCL倒是能同時支持CPU和G P U,但只是A M D自家的產(chǎn)品。隨著2011年底nVIDIA宣布會陸續(xù)開放CUDA源代碼之后,OpenCL最大的亮點“開放性”也似乎黯淡了不少。
Ian Buck
CUDA之父Ian Buck博士畢業(yè)后加入nVIDIA,從他在斯坦福做的Brook中獲得了不少啟發(fā),開創(chuàng)性地引入了SM內(nèi)部線程同步機制,實現(xiàn)了單指令多線程SIMT的編程方式,并在2007年發(fā)布1.0版本,之后每個版本都有相當(dāng)?shù)奶岣?。與FPGA和CELL相較,CUDA當(dāng)然簡單易學(xué),但對于一般應(yīng)用開發(fā)者來說,上手還是比較困難。因此當(dāng)Cray 前CTO Steve Scott加入nVIDIA成為Tesla部門的CTO之后,他力推基于編譯器指令的編程方式,聯(lián)合了老東家Cray、Portland Group和法國的CAPS,一起推出OpenACC規(guī)范,希望做到真正的簡單易學(xué)好上手。但目前并沒有支持OpenACC的免費編譯器可用:Cray的編譯器可以免費贈送,但只針對購買了Cray機器的用戶;Portland和CAPS的編譯器都是要收費的?,F(xiàn)在讓開發(fā)者自個掏錢買開發(fā)工具的比較少見,在國內(nèi)就更難了?;蛟SnVIDIA收購其中一家的編譯器,然后免費發(fā)布給開發(fā)者倒不失為一個良策。
巨型機之父Seymour Cray曾說,“如果你要耕田,你會用一頭強健的公牛,還是一群母雞?”一觀點深刻影響了上個世紀(jì)整個HPC領(lǐng)域CPU設(shè)計的理念。直至以GPU為代表的眾核芯片出現(xiàn),人們才發(fā)現(xiàn)“原來一群母雞也是可以耕田的,而且耕得還挺快!”作為Fermi下一代的Kepler,會在今年如期而至。Tesla版的Kepler核數(shù)將一舉突破1000大關(guān),每個SM所含的SP也從32增加至192。性能增加約2倍但核數(shù)增加不止了2倍,Kepler無異是準(zhǔn)備用“更多更小的母雞耕田”了。
Seymour Cray
也許是因為有了Larrabee痛苦的“流產(chǎn)”經(jīng)歷,連一向大氣的Intel這次也學(xué)習(xí)了港人懷孕前三月避而不宣的傳統(tǒng),對將要出世的第二代MIC Knights Corner諱莫如深。50+的奔騰核心配上PCIE2-X16的接口,從技術(shù)參數(shù)上看似乎與Fermi同一輩分。但年中發(fā)布的MIC遇到年底發(fā)布的Kepler,屆時不知會是一副怎樣的光景。MIC宣稱的能實現(xiàn)對現(xiàn)有OpenMP和MPI程序無改動編譯及顯著提速,具體能對多少真實應(yīng)用起效果,也只能拭目以待了。
目前以CUDA為代表的x86+GPU的異構(gòu)編程模式,其實還是以GPU計算為主,高性能高能耗的x86 CPU只負責(zé)程序的框架部分,比如邏輯判斷、I/O等邊角料的工作,既然這匹吃很多的“千里馬”干不上活,不妨換上“跑得慢但也吃的少”的駑馬——ARM。CARMA就是CUDA on ARM原型系統(tǒng)的代號。nVIDIA將在今年年中發(fā)布工程樣機,勇于吃螃蟹的西班牙巴塞羅那超算中心會在今年大規(guī)模部署CARMA。在大型超算能耗問題日益突出的情況下,或許低能耗低性能的ARM+低能耗高性能的GPU的組合在未來能與高能耗高性能的Intel CPU一競高下。
(作者系上海交通大學(xué)高性能計算中心副主任)
本文所闡述的觀點,為探討學(xué)術(shù)之用。僅代表作者本人意見,無關(guān)所在單位立場。
IBM與羅格斯大學(xué)開放超級計算機中心
美國羅格斯大學(xué)(Rutgers University)與IBM在新澤西州開放一個超級計算機中心,該中心將包括一臺價值330萬美元的超級計算機。這臺超級計算機名為“IBM Blue Gene/P”,大小大約相當(dāng)于兩臺電冰箱,它配備了數(shù)千個中央處理器,將是美國東部地區(qū)性能最強的計算機之一。IBM希望它能夠入選下一年的全球超級計算機500強名單。
這臺超級計算機的分析能力與IBM在Jeopardy電視游戲展會上展示的Watson不相上下。
私有企業(yè)也將能夠使用這臺超級計算機。據(jù)羅格斯大學(xué)發(fā)言人稱,至少有12家來自新澤西州和紐約州的公司有意使用這臺超級計算機,包括百時美施貴寶、強生、施樂、西門子和摩根大通等。
超級計算機可以處理大量數(shù)據(jù),比如基因序列和消費者購買趨勢等。例如,羅格斯大學(xué)的研究與經(jīng)濟開發(fā)副總裁邁克爾帕扎尼(Michael Pazzani)稱,在普通臺式機電腦上進行一次基因分析需要一年的時間,但在這臺超級計算機上只要1天就夠了。
帕扎尼稱:“IBM與羅格斯大學(xué)簽訂了一份長期合作協(xié)議,這只是雙方合作的第一步。我們希望能成為全球十大學(xué)術(shù)計算中心之一?!彼f,由于計算時間大大縮短,不再成為制約研究進度的因素,因此研究人員可以更好地發(fā)揮出他們的創(chuàng)造力。
加州風(fēng)險投資公司Trident Capital的伊萬戈洛斯西毛迪思(Evangelos Simoudis)稱,新澤西的高性能計算中心在美國大學(xué)之中也是比較少見的,它將專注于幫助企業(yè)和科學(xué)家。他說,只有大型企業(yè)內(nèi)部開發(fā)的超級計算機才能在規(guī)模上與羅格斯大學(xué)的超級計算機相比。
Blue Gene超級計算機將幫助羅格斯大學(xué)的研究人員執(zhí)行分析工作,最初的分析對象是癌細胞、超導(dǎo)材料和預(yù)報洪水。
羅格斯大學(xué)希望這臺超級計算機可以幫助它吸引更多全國科學(xué)基金和全國健康研究院的專用撥款。
羅格斯大學(xué)顧問專家組將決定哪些公司能夠使用這臺超級計算機以及收費標(biāo)準(zhǔn)。羅格斯大學(xué)還計劃通過它培養(yǎng)出數(shù)百名科學(xué)和計算機科學(xué)的學(xué)生。
為了在財務(wù)和生命科學(xué)創(chuàng)新領(lǐng)域保持競爭力,建立足夠強大的計算機來分析海量數(shù)據(jù)已經(jīng)成為21世紀(jì)的一項挑戰(zhàn)。同樣,隨著可用信息量的不斷增長,數(shù)據(jù)科學(xué)技術(shù)將成為美國最新的需求。
IBM與羅格斯大學(xué)早在幾年前就開始合作了,IBM與200多家大學(xué)建立了合作關(guān)系,幫助它們增強計算機分析能力,包括耶魯大學(xué)、西北大學(xué)和福德漢姆大學(xué)等。