曙光5000A 打進全球超級計算機500強(Top 500)排行榜前十榜單,使得中國成為繼美國之后,世界上第二個可以研發(fā)、生產(chǎn)百萬億次超級計算機的國家。
“百萬億次計算機到底是一個什么概念?用它計算一天,相當(dāng)于用家用的PC計算33年?!鄙虾3売嬎銠C中心姚繼鋒博士這樣解釋曙光5000A。
在前不久公布的全球超級計算機500強排行榜中,裝載了微軟Windows HPC Server 2008操作系統(tǒng)的曙光5000A實現(xiàn)了百萬億次的突破,以峰值速度233.47萬億次、Linpack值180.6萬億次的成績,躋身世界超級計算機級計算機前十名。
曙光5000A也是在美國之外的惟一進入前十名的超級計算機。由此,中國成為世界上第二個可以研發(fā)、生產(chǎn)百萬億次超級計算機的國家。
奇跡誕生于地下車庫
2008年除了北京的奧運場館外,中國科學(xué)院計算所地下車庫是一個最令人興奮和激動的地方。因為,中國史上最“牛”的計算機以及最“?!钡倪\算紀錄就是誕生于這里。
2008年9月初,中國科學(xué)院計算所地下車庫一片忙碌,這里正在緊鑼密鼓地搭建一個數(shù)據(jù)中心。造價兩億元人民幣的1920臺服務(wù)器已從天津工廠運抵北京,由于機器太多、太沉,一樓的地面無法承受,機器們只能“屈尊”于這里。
整個數(shù)據(jù)中心的搭建非常神速,僅僅用了10天左右的時間。僅一個晚上,現(xiàn)場共計700條、總長達60公里的光纖居然全部部署完畢——原因很簡單,曙光公司調(diào)動了可以調(diào)動的全部人員,包括秘書、財務(wù)等行政人員。
由于大規(guī)模的計算集群對于硬件的穩(wěn)定性要求非常高,一臺機器的一條內(nèi)存出問題就會導(dǎo)致整個任務(wù)失敗。因此整個過程中,來自曙光的工程師們一直輪流值班,并在現(xiàn)場準(zhǔn)備了大量備份硬件,一旦發(fā)現(xiàn)問題就立刻上前更換。
這樣夜以繼日地工作,目標(biāo)只有一個: 趕上11月在美國奧斯汀舉辦的第21屆超級計算機大會,躋身到世界權(quán)威的Top 500超級計算機排名的前列。這份自信來源于最近的兩次測試: 6月,在首臺安裝了Windows HPC Server 2008的服務(wù)器上進行的單節(jié)點測試中,運算效率達到了86%,為同期各類操作系統(tǒng)中最高; 7月,在32節(jié)點測試中,運算效率達到84%,幾乎實現(xiàn)了節(jié)點數(shù)目-運算能力的線形擴展。
從9月1日開始搭建計算機,到10月28日完成最后測試結(jié)果,微軟和曙光的工程師團隊與這臺重50噸的超級計算機“同吃、同住、同勞動”了七周半之久,多次在最后的期限前奇跡般地實現(xiàn)了既定目標(biāo)。
9月28日,曙光5000A的浮點運算能力達到87.6 T; 9月29日,系統(tǒng)運算能力突破百T大關(guān),達到116.3 T,得以趕在世界超級計算機大會的截止日期——10月1日之前順利申報全球超級計算機的Top500; 10月9日,達到了140.3 T的新高; 10月13日凌晨兩點左右,運算能力達到167.4 T,突破了此前曙光預(yù)計的160 T,“創(chuàng)造了中國高性能計算的歷史”; 在經(jīng)歷了10月25日的174.9 T和10月26日的179.8 T之后,2008年10月28日,曙光5000A得到了它提交給世界超級計算機大會的最終結(jié)果——180.6 T。
要知道,這些成績是在一個由地下車庫改造成、占地達2000平方米、幾乎完全不通風(fēng)、環(huán)境噪音接近70分貝的數(shù)據(jù)中心中誕生的。曙光和微軟的工程師們平均每天在這里工作14小時以上,在工作現(xiàn)場的機柜旁、停車場的角落里,不時可以看到悄然入睡的疲憊身影。
冒險者的雙贏
曙光公司副總裁聶華坦承,選擇跟微軟合作,多少有一點冒險的成分。之前,曙光的超級計算機一向依托于Unix或Linux高性能操作系統(tǒng)環(huán)境。
從2007年選擇微軟WCCS 2003開始,曙光和微軟在高性能計算機上開展合作?!爱?dāng)高性能計算做到一定境界的時候,曙光真正關(guān)心的是能否對整個高性能計算產(chǎn)業(yè)經(jīng)濟發(fā)揮作用,能否讓高性能計算機使用得更普及?!甭櫲A說,“而Windows操作系統(tǒng)顯然會讓用戶感覺更親切,調(diào)試更方便,界面更友好,這是合作的基礎(chǔ)和前提?!?/p>
對微軟而言,將初出茅廬Windows HPC Server 2008在這么大規(guī)模的計算集群上部署和應(yīng)用,尚屬首次。此前,微軟HPC團隊服務(wù)過的最大客戶是美國國家超級計算應(yīng)用中心(NCSA),當(dāng)時構(gòu)建的超級計算機由1200個雙路四核的服務(wù)器節(jié)點構(gòu)成。而此次曙光5000A由1920個四路四核的服務(wù)器節(jié)點構(gòu)成,規(guī)模是作為高性能計算技術(shù)全球領(lǐng)先者的NCSA擁有的超級計算機的4倍,這對微軟中國HPC團隊來說,挑戰(zhàn)非同尋常。
在9月29日取得116.3 TFlops的運算結(jié)果之后,工程師們在10多天的時間里一直無法取得任何新的突破,有人質(zhì)疑,Windows HPC Server 2008真的是如此大規(guī)模計算集群的正確選擇嗎?這個時侯,頂住壓力,不放棄成了惟一的選擇。在總結(jié)了前段時間屢屢失敗的教訓(xùn)后,終于在10月9日,工程師們將曙光5000A推向了140.3T的新高,并隨后多次刷新了中國超級計算機運算紀錄。
評論
技術(shù)全球化有利于自主創(chuàng)新
毫無疑問,曙光5000A超級計算機打進全球高性能計算機Top500前十名榜單,是中國自主創(chuàng)新的一個典范。
曙光5000A不僅在全球超級計算機500強的排行中取得亞洲第一、全球第十的驕人成績,更是向世界表明: 中國已經(jīng)成為繼美國之外,第二個可以研發(fā)、生產(chǎn)百萬億次超級計算機的國家。
這一成績背后值得關(guān)注的一點是,支撐5000A運行的是微軟的高性能計算平臺Windows HPC Server 2008,這也是它第一次在大規(guī)模的超級計算機上亮相。為了和曙光一起見證“中國高性能計算歷史”,微軟中國HPC團隊動用了來自全球的骨干技術(shù)力量,可謂不惜血本。最終,曙光5000A使微軟向全球表明了它在高性能計算領(lǐng)域中所潛藏的巨大能量和實力。
從這一角度來看,曙光5000A是技術(shù)創(chuàng)新全球化的一個重要案例。曙光恰好抓住了跨國公司微軟向全球公司轉(zhuǎn)變、研發(fā)力量東移所帶來的創(chuàng)新機遇。事實上,在跨國公司研發(fā)全球化的趨勢下,利用國際資源與產(chǎn)業(yè)結(jié)構(gòu)調(diào)整來開拓自己的創(chuàng)新平臺和創(chuàng)新產(chǎn)品,提高國家的創(chuàng)新能力正在成為科技界的共識。
技術(shù)全球化有利于自主創(chuàng)新。自主創(chuàng)新,從來就不是封閉創(chuàng)新。高科技發(fā)展的一個重要規(guī)律,就是在競爭中合作,既競爭又合作,這比關(guān)起門來搞競爭要強得多。
因此,我們呼吁業(yè)界總結(jié)經(jīng)驗、解放思想,反對閉關(guān)自守,克服迷信權(quán)威的思想,適應(yīng)研發(fā)全球化和經(jīng)濟全球化的挑戰(zhàn)。在跨國公司研發(fā)全球化的趨勢下,充分利用國際科技和產(chǎn)業(yè)資源,明白自己真正需要什么資源,拓展哪方面能力,從而獲取創(chuàng)新的主要收益。(文/毛江華)