浦廷民
中國中元國際工程有限公司 北京 100089
高性能計算技術(shù)是當今國家發(fā)展的戰(zhàn)略性制高點,正越來越成為一個國家科技創(chuàng)新核心競爭力的重要體現(xiàn),是推動國家安全與創(chuàng)新發(fā)展的核心引擎,在國家安全、科技創(chuàng)新、經(jīng)濟發(fā)展和社會進步等各方面都發(fā)揮著重要作用。超級計算中心與普通數(shù)據(jù)中心的用電設備、運行模式及保障等級均有差異,國家并無相應設計規(guī)范及標準,設計人員需對項目進行綜合分析,制定合理的供配電系統(tǒng)方案。
科學技術(shù)是第一生產(chǎn)力,是先進生產(chǎn)力的集中體現(xiàn)和主要標志。2016年,我國發(fā)布《國家創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略綱要》,將“推動高性能計算技術(shù)的研發(fā)和綜合應用”作為“推動產(chǎn)業(yè)技術(shù)體系創(chuàng)新,創(chuàng)造發(fā)展新優(yōu)勢”的戰(zhàn)略任務之一,科技部明確提出要“重點加強超級計算等技術(shù)研發(fā)及應用”,并部署了系列國際領(lǐng)先的超級計算機研制。
圖1 大數(shù)據(jù)基因工程分析示意圖
圖2 氣象大數(shù)據(jù)展示圖
隨著云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈和邊緣計算等高新技術(shù)的快速推廣和普及,以超級計算為核心的算力經(jīng)濟越來越成為衡量一個地方數(shù)字經(jīng)濟發(fā)展程度的代表性指標。超算在智慧城市、防災減災、資源勘探、氣象預測、地震勘探、生物模擬、材料設計、天體研究、航空航天、藥物研究、動漫渲染、金融風險分析等各方面發(fā)揮的作用越來越大。
自1964年第一臺高性能計算機CDC6600誕生,到最新一期TOP500排行榜占據(jù)首位、理論峰值達514PFlops的Fugaku(富岳),高性能計算機的計算能力已經(jīng)有了11個數(shù)量級的提升,用電量也是大幅提升至28MW。
表1 2020年6月HPC TOP500前十排名
超級計算中心的組成應根據(jù)系統(tǒng)運行特點及設備具體要求確定,應由超級計算機房、輔助區(qū)、支持區(qū)和運營管理區(qū)等功能區(qū)域組成[2]。
超級計算中心一般按運算能力(Linpack持續(xù)計算性能)進行等級分類,一般運算速度大于100PFlop/s 便可稱為大型超級計算中心,下一代世界最快的超級計算中心運算速度已能達到1-2EFlops。
超級計算機主要特點是極大的數(shù)據(jù)存儲量和極快速的數(shù)據(jù)處理速度,大型超級計算中心總用電負荷由幾兆瓦到幾十兆瓦,新一代E級超級計算機用電負荷將會達到50MW以上,隨著芯片技術(shù)發(fā)展及制冷技術(shù)提高,單個計算機柜的功率也由幾十千瓦提升至四五百千瓦,超高功率的計算機柜也更多采用高溫液冷技術(shù)進行制冷,其配電及制冷相比于普通數(shù)據(jù)中心存在很大差異。
超級計算中心用電負荷一般會分為HPL工況負荷和日常工況負荷。HPL工況負荷主要是全球超級計算機大會打榜時使用的負荷,其計算機柜幾乎滿負荷運行,負荷功率最大;日常工況計算機柜幾乎半載運行,與HPL工況的負荷相差較大。
超級計算中心主要由計算機柜、高速網(wǎng)絡柜、存儲機柜、管理機柜以及其相對應的配電及制冷系統(tǒng)組成,其供配電架構(gòu)各不相同。
計算機柜主要用于部署液冷計算節(jié)點,同時內(nèi)部配置配電模塊及分頁單元等組件,為計算節(jié)點提供物理空間、配電和制冷的基礎保障。
根據(jù)超級計算中心的業(yè)務需求,其計算機柜供電保障等級相比傳統(tǒng)數(shù)據(jù)中心IT機柜的用電保證等級略低,變壓器可按N架構(gòu)配置,為計算機柜供電的線路可自低壓母線段采用一路市電放射式供電,提供單電源保障。
為保障計算機柜的電源質(zhì)量,計算機柜會考慮配置HVDC或UPS供電,根據(jù)重要程度及客戶需要,可不配置蓄電池或配置3-7min電池。
因大型超級計算中心計算機柜用電負荷超大,且負荷等級要求不高,根據(jù)客戶需求及經(jīng)濟利益考慮,計算機柜一般不考慮柴油發(fā)電機組作為備用電源進行供電。
高速網(wǎng)絡主要是超級計算機房內(nèi)計算節(jié)點間和計算節(jié)點與高速存儲節(jié)點聯(lián)絡用的內(nèi)部網(wǎng)絡。
高速網(wǎng)絡、存儲及管理機柜等設備一般按A級數(shù)據(jù)中心標準進行供電,根據(jù)客戶需求可采用2N UPS供電或一路市電+一路UPS電源進行雙電源供電,當采用一路市電+一路UPS電源供電時,UPS按N+1標準進行配置,UPS蓄電池按單機滿載15min考慮。
高速網(wǎng)絡、存儲及管理機柜等設備用的變壓器按2N架構(gòu)配置,當一臺變壓器故障,另一臺變壓器能帶全部負荷,同時配置N+1冗余柴油發(fā)電機組作為備用電源。
計算機柜和高速網(wǎng)絡一般采用高溫冷源系統(tǒng)制冷,高溫冷源系統(tǒng)設備同樣屬于比較關(guān)鍵的動力設備,供電系統(tǒng)可靠性要求較高,一、二次高溫循環(huán)水泵、冷卻塔及冷源控制等冷源動力負荷建議采用雙路供電。采用浸沒式液冷系統(tǒng)時,系統(tǒng)有一定的熱惰性,關(guān)機或斷電后相變換熱過程仍會持續(xù)一段時間,存在短暫超壓的風險,一般會考慮不少于一組對應的一、二次泵及監(jiān)控模塊采用2N變壓器+不間斷電源的架構(gòu)提供高可靠性供電, 以保證市電斷電后維持部分冷夜的循環(huán)。
存儲及管理機柜的制冷同樣需要高可靠性電源保障,參考《數(shù)據(jù)中心設計規(guī)范》GB50174-2017中A級數(shù)據(jù)中心對IT設備的供電要求,采用一路市電和一路UPS電源雙路供電, UPS可按N配置,蓄電池后備時間一般按單機滿載15min考慮[1]。
冷源設備的變壓器配置可均按2N容錯配置,并采用柴油發(fā)電機組作為備用電源。
液冷智能化系統(tǒng)實時在線監(jiān)測參數(shù)及狀態(tài)偏離系統(tǒng)正常運行的設定范圍,系統(tǒng)即時產(chǎn)生報警,并記錄詳細的信息。系統(tǒng)液位保持在其預設安全范圍內(nèi)波動,如超過其預設安全范圍,系統(tǒng)產(chǎn)生報警,并自動開啟供、排液系統(tǒng)(泵、閥),保證液位處于預設安全范圍內(nèi),如出現(xiàn)冷媒泄漏,系統(tǒng)通過液位、壓力等參數(shù)檢測或漏液傳感器的反饋信號,及時產(chǎn)生報警和準確定位。系統(tǒng)內(nèi)冷媒流量及溫度異常,具備及時調(diào)節(jié)組件運行參數(shù)(如閥門開度,泵的轉(zhuǎn)速等)功能,保證冷媒流量及溫度處于正常范圍內(nèi)。
因計算機柜HPL工況負荷和日常工況負荷用電負荷差異很大,如考慮計算機柜HPL工況負荷及項目總體負荷,會導致外電源回路增加,高低壓柜及變壓器數(shù)量增多,為節(jié)省投資并避免電力資源浪費,需結(jié)合項目情況對供配電系統(tǒng)進行整體規(guī)劃。
超級計算機柜最大負荷發(fā)生在HPL測試工況的負荷和打榜時的負荷,測試工況一般需要調(diào)試幾個月時間,全球超級計算機大會打榜時間一般幾個小時。為保障HPL工況的總用電負荷,可綜合分析對比HPL工況最大負荷及日常工況下所有用電負荷(包括日常工況計算機柜及制冷負荷、其它通用機柜及制冷負荷、建筑用電負荷等)的情況,組建供配電系統(tǒng)架構(gòu),主要是將除HPL工況負荷以外的其他用電負荷(如:其它通用機柜用電及制冷負荷、建筑用電負荷等)與HPL工況負荷錯峰用電,不同時使用,這樣可有效降低變配電設備投資,節(jié)省外電源等電力資源[2]。
針對以上情況,一般會考慮以下兩種供配電形式:
當超級計算中心為中小規(guī)模時,變壓器裝機容量大約不超過20MVA時,其總用電負荷并不是太大,這種情況下可將計算機柜及其制冷系統(tǒng)等HPL工況下的用電負荷與其他用電負荷(如:其他通用機柜用電及制冷負荷、建筑用電負荷等)設置在同一臺變壓器上,多臺變壓器均勻配置,按兩者最大負荷設置變壓器容量,HPL工況下將其它用電負荷切除掉,當打榜完成后保證日常工況負荷及其它用電負荷的運行。
當超級計算中心為中大規(guī)模時,變壓器裝機容量可達到幾十甚至上百兆伏安,此情況下HPL工況負荷本身就很大,且用電負荷集中,針對計算機柜一般會設置多臺專用變壓器甚至專用外電源回路,以滿足HPL工況的用電保障,當打榜完成后,需對供配電系統(tǒng)進行改造,將約50%計算機柜專用變壓器調(diào)整至其他負荷使用,同時將此部分計算機柜用電調(diào)整至另外約50%計算機柜專用變壓器供電,最簡單改動最小的方式就是將為計算機柜供電的互為備用的兩臺變壓器拆除掉其中一臺,將聯(lián)絡母線投切,可將計算機柜專用變壓器裝機容量減少一半,為此需協(xié)調(diào)相關(guān)供電部門提供臨時供電方案,此方式可節(jié)省項目總用電量的申請,減少外電源回路數(shù)量,從而達到節(jié)省項目投資的目的。
圖3 變壓器數(shù)量減半之前和減半之后,變壓器與計算機柜HVDC連接關(guān)系示意圖
數(shù)據(jù)中心傳統(tǒng)的供電方式為交流供電,通過UPS實現(xiàn)不間斷供電。然而計算單元是直流用電設備,末端仍要配置開關(guān)電源將交流電進行整流和DC/DC變換,才可供計算機主板上各類元件使用。
采用高壓直流供電的超級計算中心,10kV或20kV電源經(jīng)過配電變壓器、低壓配電柜、高壓直流電源,最終為服務器提供240V或380V直流電源,高壓直流電源輸出的直流母線可以直接掛接電池,實現(xiàn)與交流UPS類似的不間斷供電。
數(shù)據(jù)中心交流供電與直流供電的供電原理圖如下所示。從圖中可以看出,由于高壓直流供電相比交流UPS供電少了兩個交直流變換環(huán)節(jié),因此可以節(jié)約4%左右的損耗。
高壓直流電源的直流母線如果不接入電池,則每個整流模塊的輸出均應設置防反灌電流二極管,保證當單一模塊供電時,不會因為瞬時的電壓跌落引起服務器工作異常。如果接入電池,則應采取適當?shù)募夹g(shù)手段,保證在電池供電模式下,電池從開始放電到放電截止的整個過程中,高壓直流電源的直流輸出電壓滿足對前一級電源直流輸出的要求。
圖4 數(shù)據(jù)中心交流供電與直流供電的供電原理圖
飛輪儲能設備是一種機電能量轉(zhuǎn)換和儲存裝置,屬于物理電池范疇,利用飛輪的轉(zhuǎn)動慣量實現(xiàn)對電能的儲存和釋放。飛輪儲能工作原理圖如下。
磁懸浮飛輪儲能設備是最新一代的飛輪儲能裝置,通過對磁懸浮軸承和高速電機的主動精密控制,使飛輪在真空腔體內(nèi)以懸浮狀態(tài)高速旋轉(zhuǎn)存儲能量,設備功率密度大,廣泛應用于醫(yī)院,數(shù)據(jù)中心等領(lǐng)域,可根據(jù)應用需要組成飛輪儲能陣列系統(tǒng),實現(xiàn)兆瓦級的功率需求。
圖5 飛輪儲能技術(shù)原理圖
飛輪儲能具有高安全、低要求、長壽命、低成本、高功率、快充放、無污染、易回收的顯著特點。
電壓閃變持續(xù)時間一般為3-5秒。當計算機柜所用UPS或HVDC不配置電池時,電壓暫降、閃變、電源切換等原因會導致計算機柜短時供電中斷,此時飛輪儲能方案可以持續(xù)保證負荷的供電穩(wěn)定性及供電質(zhì)量。飛輪和市電可實現(xiàn)無縫接力供電,充放電相對獨立,各回路間不會形成環(huán)流,穩(wěn)定可靠。
超級計算中心的設計是個復雜工程,需要在設計中切實做到從設備特性、業(yè)務需求及工藝角度出發(fā),滿足系統(tǒng)需求,優(yōu)化系統(tǒng)方案,為項目提供安全、可靠、經(jīng)濟、合理、節(jié)能、高效的供配電系統(tǒng)設計方案。