王磊,林密天津市人民檢察院技術處;施耐德電氣數(shù)據(jù)中心科研中心
數(shù)據(jù)中心制冷系統(tǒng)中斷期間溫升控制策略
王磊1,林密2
1天津市人民檢察院技術處;2施耐德電氣數(shù)據(jù)中心科研中心
在數(shù)據(jù)中心制冷系統(tǒng)中斷后,數(shù)據(jù)中心架構及其IT負載對IT設備能夠獲得的持續(xù)運行時間有重大影響。數(shù)據(jù)中心的一些技術趨勢,比如:提高功率密度,提高送風溫度,選用“合理配置”的制冷設備,以及采用氣流遏制系統(tǒng),在實際上,都可能會加快數(shù)據(jù)中心的溫升速率。然而,為關鍵制冷設備配置后備電源,選擇具有快速重啟功能的設備,保持充足的儲備制冷容量,以及部署蓄冷裝置都可以有效地應對突發(fā)的斷電情況。該研究內容包括探討影響瞬時溫升的主要因素,并提供切實可行的策略來確保斷電期間的制冷問題。
數(shù)據(jù)中心;制冷系統(tǒng)中斷;溫升;控制策略
IT設備通常都以不間斷電源(UPS)作為后備供電,UPS將在斷電后為IT設備提供電力直至發(fā)電機啟動。但是,制冷系統(tǒng)組件如CRAC(機房精密空調)或CRAH(機房空氣處理裝置)的風機、冷凍水泵和冷水機(以及連帶的冷卻塔或干式冷卻器)通常都不接UPS,但通常都接備用發(fā)電機。其結果就是,數(shù)據(jù)中心的送風溫度可能在停電后迅速升高。
雖然數(shù)據(jù)中心制冷系統(tǒng)的設計備受重視,但大多數(shù)時候所關注的重點是提高它在正常供電狀態(tài)下運行的效率和可靠性,而對緊急情況下的運行狀態(tài)缺乏關注。導致這種情況的部分原因是數(shù)據(jù)中心設計人員和管理人員缺乏簡單的工具來幫助他們預測在這些緊急情況下的制冷性能情況。然而,一個最近開發(fā)出來的建模工具可以輕松估算數(shù)據(jù)中心在制冷系統(tǒng)中斷后的溫升情況。所預測的數(shù)據(jù)中心可以采用各種不同的設施架構、后備電源的配置,以及冷凍水(蓄冷)的儲備。
同時,由于數(shù)據(jù)中心專業(yè)人員按照業(yè)內的技術趨勢選用“合理配置”的制冷容量、提高機柜的功率密度、采用氣流遏制系統(tǒng)以及提高送風溫度,使為斷電情況做好應急準備變得更加重要。在ASHRAE最近修訂的熱指南中,其允許的數(shù)據(jù)中心送風溫度比以前的允許值要高,這也是造成送風溫度提高趨勢的一部分原因。如果不設計其它的補償方式,所有這些業(yè)內趨勢都會導致斷電后安全、可靠運行時間的縮短。
一些用于提高數(shù)據(jù)中心正常運行條件下性能、效率和可管理性的趨勢和最佳實踐可能對斷電后的系統(tǒng)運行產(chǎn)生負面影響。
1.1合理配置制冷容量
合理配置(比如,使制冷容量與實際IT負載一致)的系統(tǒng)總體制冷量可以帶來多種好處,包括提高能效和降低投資成本。然而,當面對斷電后出現(xiàn)不可接受的高溫狀況時,過量的制冷容量是必要的。事實上,如果總的制冷容量恰好與熱負荷完全一致,理論上可以說設施是不可能被冷卻到其原始狀態(tài)的,因為在斷電后,熱量總是會高于IT負載。就如同多臺空調比單臺空調能更快地為臥室制冷一樣,額外的CRAH或CRAC制冷容量可以幫助數(shù)據(jù)中心更快地恢復到斷電前的狀態(tài)。需要注意的是,無論是哪種架構的數(shù)據(jù)中心,冷量分配(氣流分配)必須合理,即CRAH或CRAC的冷量可被實際利用(通過使用盲板,毛刷,冷/熱通道等)。
1.2提高功率密度和實施虛擬化
緊湊的IT設備設計使數(shù)據(jù)中心機柜功率密度不斷攀升。刀片服務器的出現(xiàn)以及某些類型的通信設備可以使機柜功率密度高達40kW/機柜。
另一項技術趨勢—“虛擬化”,也極大提高了我們利用和擴展計算功率的能力。比如,相比傳統(tǒng)非虛擬化的服務器,虛擬化的服務器可以使CPU利用率從5%-10%提高到50%,甚至更高。
提高機柜功率密度和實施虛擬化都有可能在固定空間內釋放更多的熱量,這會導致數(shù)據(jù)中心操作人員在斷電后IT進風溫度達到臨界值前可以利用的響應時間減少。
1.3提高IT設備進風溫度和冷凍水設定點溫度
ASHRAE技術委員會9.9(關鍵任務設施,技術空間和電子設備)制定并放寬了推薦用于數(shù)據(jù)中心的熱運行范圍。提高IT設備進風溫度和冷凍水設定點的溫度可以讓制冷系統(tǒng)在節(jié)能冷卻模式下額外運行更多的小時數(shù)。
根據(jù)估算,冷水機設定點溫度每升高1°C,就可以節(jié)省大約3.5%的冷水機功耗。換言之,設定點溫度降到固定環(huán)境溫度以下越多,冷卻冷凍水所需要的成本將大幅增加。(這直接適用于冷凍水系統(tǒng),這種趨勢也同樣適用于風冷式DX系統(tǒng)。)這一事實迫使數(shù)據(jù)中心經(jīng)理讓數(shù)據(jù)中心在正常工作條件下盡可能保持較高的溫度。結果就是,較高的IT設備進風溫度導致數(shù)據(jù)中心操作人員在斷電后可以利用的響應時間縮短。
1.4為機柜和機柜行部署氣流遏制系統(tǒng)
氣流遏制系統(tǒng)可以提高傳統(tǒng)數(shù)據(jù)中心制冷系統(tǒng)的可預見性和效率,比如配置高架地板或硬地板的周邊制冷系統(tǒng)(例如:洪灌送風)。然而,氣流遏制系統(tǒng)可以阻止氣流與數(shù)據(jù)中心其它區(qū)域氣流的混合,這會影響斷電期間的溫升。不同類型的氣流遏制系統(tǒng)對溫升的影響各有不同,取決于制冷設備與后備電源的連接方式。
對于采用行級冷凍水冷卻器的熱通道氣流遏制系統(tǒng),假設冷卻器沒有接UPS并且氣流遏制系統(tǒng)的門在制冷中斷時保持關閉,那么會有大量的熱風從各種位置泄漏再次循環(huán)到IT設備進風口,這將導致IT設備的進風溫度迅速上升。如果冷卻器接了UPS,但是冷凍水水泵沒有接UPS,那么冷卻器只會把風輸送到冷通道,而不會提供主動制冷。這時,只有冷卻器的熱容量(冷卻盤管,盤管內的冷凍水等)可以被利用。如果冷卻器和冷卻水泵都接了UPS,那么溫升情況將視冷水機組的配置而定(比如:蓄冷罐的配置、冷水機的啟動時間等)。
對于采用行級冷凍水冷卻器的冷通道氣流遏制系統(tǒng),如果冷卻器沒有接UPS,那么氣流遏制系統(tǒng)里的負壓將會從機柜和氣流遏制系統(tǒng)泄漏位置吸入熱風,從而導致IT設備進風溫度升高。如果行級冷卻器接了UPS,那么溫升情況將取決于冷水機組的配置(比如:蓄冷罐的配置、冷水機的啟動時間等)。
對于機柜氣流遏制系統(tǒng),情況基本上與配置行級冷卻器的冷通道和熱通道氣流遏制系統(tǒng)類似。
然而,對于采用周邊部署的冷凍水冷卻器及吊頂?shù)臒嵬ǖ罋饬鞫糁葡到y(tǒng),或者采用周邊部署的冷凍水冷卻器及穿孔地板的冷通道氣流遏制系統(tǒng),無論空氣冷卻器和冷凍水泵是否接UPS,通道氣流遏制系統(tǒng)在制冷系統(tǒng)中斷后對溫升都有緩解作用,這是因為通道遏制系統(tǒng)可以通過在開放的空間區(qū)域(冷通道)或者通過高架地板通道內的水泥板,冷凍水管等提供冷熱容。這是由于冷熱氣流的分離阻止了冷熱氣流的混合,至少在制冷系統(tǒng)中斷初期是這樣的。
空氣完全混合模型是將數(shù)據(jù)中心理想化成一個氣流完美混合的單一CRAH或CRAC以及單一的IT負載。因此,在任何給定的時間,它都擁有唯一均勻的數(shù)據(jù)中心溫度,唯一通道內溫度以及唯一冷卻器的送風溫度等。該模型從整體來看是嚴格正確的—對于某個特殊的位置并不精確-但足以滿足本研究對IT設備進風溫度的研究。簡單的空氣完全混合模型的設計參數(shù)包括冷凍水的蓄冷量,CRAH風機、冷卻水泵和制冷設備與UPS和發(fā)電機的連接情況。該模型的構建速度和簡易性使我們可以非常容易并且迅速的檢討各種假定場景下的結果。因為我們現(xiàn)在的主要目的是了解一般情況下斷電時與溫升相關的機理以及如何制定相應的設計策略(而不是針對某一特定的數(shù)據(jù)中心),空氣完全混合模型正是我們的首選工具。參考文獻[9]對該模型建模進行了詳細的論述。
表1 假想數(shù)據(jù)中心參數(shù)的假設
圖1 數(shù)據(jù)中心斷電后一系列空氣溫度的變化
表1為一假想數(shù)據(jù)中心參數(shù)的假設,利用該表中參數(shù),采用空氣完全混合模型進行數(shù)據(jù)中心制冷系統(tǒng)中斷后溫升的研究。圖1為數(shù)據(jù)中心斷電后一系列溫升的變化。從圖中可以看出,在斷電后,室溫迅速上升,而地板通道內的空氣溫度保持恒定,這是因為此時CRAH機組處于“關閉”狀態(tài)。1分鐘后發(fā)電機啟動,向CRAH風機和冷凍水水泵供電。這時室溫先下降然后再次升高-送風溫度和地板通道內的溫度也與室溫一起上升—這是因為管道系統(tǒng)里冷凍水逐漸變熱。11分鐘后,冷水機組開始冷卻冷凍水,并且所有溫度開始朝著正常值的方向進行恢復。在這個示例中,室溫在斷電后在稍微超過允許值的狀態(tài)維持了約3分鐘,然后一直保持在不可接受的高溫區(qū)域直到17分鐘后。
盡管最近數(shù)據(jù)中心的技術發(fā)展趨勢帶來了挑戰(zhàn),但是我們還是有可能通過改善設施制冷系統(tǒng)的設計來實現(xiàn)應急情況下較長的運行時間。根據(jù)設施所承擔的任務,在長時間斷電的情況下,更為實際的做法是在現(xiàn)有架構的基礎上盡量延長運行時間,同時,做好最終關閉IT設備電源的準備。
4.1保持充足的儲備制冷容量
正如我們前文所討論的,“合理配置”制冷容量的行業(yè)技術趨勢在正常運行條件下是可行的,但是即使只稍微比負載大一點的制冷容量都可以大幅延長可以用來冷卻過熱設施的時間。提高制冷系統(tǒng)效率的關鍵在于隨著IT負載的增加應相應擴大制冷機組(比如:冷水機)和制冷分配裝置(比如:CRAH)。這樣既能提高數(shù)據(jù)中心的效率,又能保持充足的儲備制冷容量。比如,一個設計最大IT負載為1MW的數(shù)據(jù)中心,在最開始的時候可能只有100kW的IT負載。當冷凍水系統(tǒng)管網(wǎng)按照數(shù)據(jù)中心最大負載設計規(guī)劃時,安裝的冷水機組可能僅支持250kW總熱負荷,或者大約140kW的IT負載。實際的“過度規(guī)劃”視冗余要求和組件效率而定。
4.2為制冷設備配置后備電源
從圖1中可以看到,第一個溫度峰值的發(fā)生是因為CRAH的風機和冷凍水水泵不能正常運行,并一直持續(xù)到發(fā)電機在斷電一分鐘后啟動為負載供電時。這次溫升的最大驅動因素是IT功耗和風量的比例。在制冷系統(tǒng)發(fā)生故障后,在設施熱容量(比如:墻體、通道、服務器等)能夠有效吸收熱量前,所有的IT功耗都將用來加熱空氣。溫升速率很容易立即達到5°C/分鐘,根據(jù)功率密度和房內布局的不同,甚至可能更高。除非CRAH風機和冷凍水水泵接了UPS和/或數(shù)據(jù)中心的負載非常小,否則,這次溫升幾乎都會超過磁帶供應商所規(guī)定的溫度梯度變化值或者ASHRAE熱指南中的相關要求。
在低負載設施中(比如:20%負載),在發(fā)電機啟動前,僅將CRAH或CRAC連接到UPS,可以幫助維持適當?shù)闹评錃饬鳎乐笽T設備熱排風直接循環(huán)回到IT設備進風口,并且可以幫助將熱量轉移到設施內具有預冷熱容量的物體內。除此之外,如果再將冷凍水水泵連接到UPS,可以在發(fā)電機啟動前更有效地減緩初次溫升的峰值,特別是采用冷凍水式CRAH機組的系統(tǒng)。這時,僅靠冷凍水和管道系統(tǒng)的熱容量就能較大程度上延長斷電后可用的運行時間。如果是未配置自然冷卻盤管的乙二醇DX系統(tǒng),那么將冷卻水泵連接到UPS一般不會發(fā)揮作用,因為需要使用發(fā)電機電源來重啟CRAC。
如果制冷機房離數(shù)據(jù)中心較遠,或者冷凍水管網(wǎng)使用雙環(huán)路系統(tǒng)(用于冗余配置和實現(xiàn)高可用性),管道內會儲存大量的冷凍水。如果數(shù)據(jù)中心位于大型多用途建筑內,數(shù)據(jù)中心很可能與建筑共用冷水機組,這也可以提供龐大的制冷容量。值得注意的是,數(shù)據(jù)中心設計者和運營者應當與設施管理人員進行溝通,以確保在緊急情況下數(shù)據(jù)中心具有最優(yōu)先權來使用儲存的冷凍水。
對于以上兩種情況,應視風機、冷凍水水泵和后備情況,它們可能需要配置獨立的UPS以避免干擾IT設備。如果風機、冷凍水水泵和IT設備使用同一個UPS系統(tǒng),則應為機械負載配置隔離變壓器。
4.3使用具有快速重啟功能的設備
冷水機控制系統(tǒng)一般能夠撐過時間短于四分之一周期的斷電(50Hz系統(tǒng)為5毫秒,60Hz系統(tǒng)為4毫秒)。如果斷電時間更長,那么在電源恢復時(市電或發(fā)電機電源)則需要重啟。重啟時間一般為10-15分鐘。隨著冷水機組技術的進步,一些冷水機組的重啟時間可以降低到4-5分鐘,縮短了60%。冷水機快速重啟功能不僅對初期的斷電至關重要,當ATS(自動轉換開關)將電源從發(fā)電機切回市電過程中瞬時掉電(100毫秒至1秒)時也非常關鍵。
讓我們再回到圖1,第二個溫度峰值的發(fā)生是因為冷水機需要10分鐘的時間進行重啟來承擔制冷負載。但是,如果重啟時間為5分鐘,數(shù)據(jù)中心的溫度將只會稍微高出可接受的限值32°C而不是超過41°C。
高成本的帶快速啟動功能的冷水機可能不足以在高密度數(shù)據(jù)中心里防止不可接受溫升的出現(xiàn)。然而,在低密度數(shù)據(jù)中心,該機組在所有情況下都是非常有用的,它可能在斷電期間將溫度完全控制在可接受的限值內。此外,它還可以實現(xiàn)在正常運行條件下采用更高的冷凍水和IT溫度,同時降低在緊急情況下溫度超過可接受限值的風險。通過分析冷水機機組的類型和緊急情況操作功能的重要性,我們需要在投資成本和運營成本之間找到一個平衡點。
4.4使用蓄冷裝置度過冷水機重啟這段時間
對于冷凍水系統(tǒng)來說,可以利用附加的冷凍水儲備制冷直到冷水機重新啟動。如果冷凍水系統(tǒng)的冷凍水水泵和CRAH風機接了UPS,以及蓄冷罐選擇的足夠大,可以將溫度在緊急情況下控制在偏離正常運行狀況很小的范圍內。
用于制冷系統(tǒng)的低壓蓄冷裝置比將冷水機接到UPS的初始成本低得多,甚至可以采用塑料材質的蓄冷裝置。蓄冷裝置的體積和類型取決于多種因素,包括空間的限制和承重的能力(如果安裝在屋頂或抬高的地板上)。尤其建議用于高密度的數(shù)據(jù)中心,因為即使非常短暫的制冷中斷都會造成很大麻煩。
蓄冷裝置應該考慮內部的溫度分層。對于直徑較大的蓄冷罐,混合層的高度可以通過利用布水器來控制熱回水進入罐內的速度來降低。此外,還應該設置旁通管以便可以在冷水機重啟后將蓄冷罐旁通。這樣做可以立即將最冷的冷凍水輸送到數(shù)據(jù)中心而不是用于重新冷卻蓄冷罐內的水。
接下來將討論利用“空氣完全混合”模型來考慮在市電中斷后各種緩解溫升策略的相對優(yōu)缺點。在圖2中,“基準線”表示的是與圖1相同的房間空氣曲線,即假定CRAH風機和冷凍水水泵只接發(fā)電機。如果將CRAH風機連接到UPS,在發(fā)電機啟動前的初始階段會有一定的溫升緩解,因為地板通道內預冷的冷熱容可以提供額外的熱容量。(需要注意的是空氣完全混合模型可能會低估將CRAH或CRAC連接到UPS所起到的作用,因為它沒有考慮恰當?shù)臍饬鞴芾硭峁┑念~外優(yōu)勢,即避免熱風容易地再循環(huán)到機柜的進風口。)
如果將CRAH風機和冷凍水水泵都連接到UPS,則可以消除初始的溫度峰值,因為管道系統(tǒng)的熱容量可以立即發(fā)揮作用。如果冷水機的重啟時間從10分鐘(從系統(tǒng)中斷算起為11分鐘)縮短到5分鐘(從系統(tǒng)中斷算起為6分鐘),可以更快的恢復到可接受的溫度范圍,最高室溫也將從41°C降至37°C。只單獨增加蓄冷裝置不會對發(fā)電機啟動前的初始階段產(chǎn)生任何作用,因為CRAH風機和冷凍水水泵都沒有連接到UPS上。但是,一旦發(fā)電機啟動,冷凍水的儲備可以有效地將數(shù)據(jù)中心的溫度控制在接近可接受限值左右直到(標準的)冷水機能夠重啟。最后,如果采用以上所有策略,只會在(具有快速啟動功能)冷水機重啟之前出現(xiàn)少許的溫度升高,但不會超過可接受的限值。
圖2 數(shù)據(jù)中心斷電時執(zhí)行各種溫升減緩策略后的室溫變化狀況
表2為以上各種四種策略的比較。使用該表,可以方便快速的為數(shù)據(jù)中心選擇最佳的溫升控制策略。
表2 控制溫升策略的比較
對于冷凍水CRAH系統(tǒng),最好的選擇是首先確保CRAH風機和冷凍水水泵連接到發(fā)電機(如圖2中的“基準線”所示),然后增加蓄冷裝置來控制冷水機重啟期間的溫升。對于高密度機房(初始溫升峰值較大),則可能有必要將CRAH風機和冷凍水水泵連接到UPS以避免在發(fā)電機啟動前出現(xiàn)不可接受的高溫。對于新建數(shù)據(jù)中心,采用帶快速啟動功能的冷水機組可能是上策,但對于改善已有數(shù)據(jù)中心在緊急情況下的響應,其他策略更為經(jīng)濟。
對于DX CRAC系統(tǒng),第一步也是將所有組件連接到發(fā)電機。對于風冷式,乙二醇冷卻式和水冷式機組,將CRAC風機連接到UPS,在發(fā)電機啟動前的初始階段發(fā)揮作用也有可能是可行的。(需要注意的是,對于部分CRAC機組,將風機連接到UPS反而可能會在電源恢復時影響DX系統(tǒng)的啟動時間)。對于不配置自然冷卻盤管的乙二醇冷卻式或水冷式DX機組,將水泵連接到UPS不會帶來額外的好處,因為冷卻液直到CRAC重啟后才能被使用。但對于配置了單獨的自然冷卻盤管的乙二醇冷卻式或水冷式DX機組,將水泵和風機連接到UPS則可以帶來好處。當然,也可以利用UPS為整個DX CRAC供電;但需要加大機組型號,而且價格昂貴,并導致正常運行條件下的效率低下。
對于帶有“多重制冷”功能的DX CRAC系統(tǒng),通過增加冷凍水盤管來提供制冷量的冗余。制冷量可以來自內部壓縮機(通過DX盤管)和外部冷水機(通過冷凍水盤管)。對于這樣的系統(tǒng),將CRAC風機和冷凍水水泵連接到UPS更為有效。因為CRAC能夠比冷水機更快的重啟,蓄冷也可以發(fā)揮作用。
[1]K.G.Brill.Moore’s law economic meltdown.Forbes.com; 2008.
[2]J.Niemann,K.Brown,V.Avelar.第135號白皮書,熱通道與冷通道氣流遏制對數(shù)據(jù)中心的影響.施耐德電氣數(shù)據(jù)中心科研中心,2011.
[3]J.Niemann,J.Bean,V.Avelar.第132號白皮書,數(shù)據(jù)中心制冷系統(tǒng)的節(jié)能冷卻模式.施耐德電氣數(shù)據(jù)中心科研中心,2011.
[4]J.G.Koomey.Growth in data center electricity use 2005–2010.Oakland,CA:Analytics Press;2011.
[5]R.Schmidt,R.Chu,M.Ellsworth,M.Iyengar,D.Porter,V. Kamath,B.Lehman.Maintaining datacom rack inlet temperatures with water cooled heat exchangers,The Pacific Rim/ASME Interna?tional Electronics Packaging Technical Conference and Exhibition, 2005,IPACK2005e73468.
[6]K.C.Karli,S.V.Patankar.Airflow distribution through perfo?rated tiles in raised-floor data centers.Building and Environment 41 (2006)734-744.
[7]R.F.Sullivan,K.G.Brill.Cooling Techniques that meet“24 by Forever”demands of your data center.The Uptime Institute,Inc. 2005-2006.
[8]ASHRAE,2005,Design Considerations for Datacom Equip?ment Centers.Atlanta:American Society of Heating,Refrigerating and Air-Conditioning Engineers,Inc.
[9]M.Lin,S.S.Shao,X.H.Zhang.Strategies for data center tem?perature control during a cooling system outage.Energy and Buildings 73(2014)146-152.