于謀川, 王建民
(昆侖數(shù)智科技有限責(zé)任公司,北京 102206)
2020年,數(shù)據(jù)中心建設(shè)被列為國(guó)家新基建戰(zhàn)略,成為支撐現(xiàn)代信息化產(chǎn)業(yè)海量數(shù)據(jù)分析與處理的重要基礎(chǔ)設(shè)施。然而隨著其規(guī)模、容量和功率密度成倍增長(zhǎng),能耗居高不下的問(wèn)題愈發(fā)凸顯。目前我國(guó)數(shù)據(jù)中心年用電量占全社會(huì)用電的2%,超過(guò)三峽大壩的年發(fā)電量,且仍在快速增長(zhǎng)[1]。在2030年實(shí)現(xiàn)碳達(dá)峰、2060年實(shí)現(xiàn)碳中和的背景下,數(shù)據(jù)中心正面臨嚴(yán)峻的節(jié)能降耗和溫室氣體排放挑戰(zhàn),如何推進(jìn)數(shù)據(jù)中心綠色節(jié)能成為重中之重的任務(wù)。
新基建和“雙碳”的形勢(shì)下,對(duì)數(shù)據(jù)中心提出新發(fā)展要求。2021年7月,工業(yè)和信息化部印發(fā)《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021—2023年)》,要求數(shù)據(jù)中心加快向以高技術(shù)、高算力、高能效、高安全為主要特征的新型數(shù)據(jù)中心演進(jìn)[2],其中“高能效”即是對(duì)數(shù)據(jù)中心提出綠色節(jié)能的要求。
數(shù)據(jù)中心的能耗貫穿其全生命周期過(guò)程,推動(dòng)數(shù)據(jù)中心綠色節(jié)能有多種可行方式。其中,在規(guī)劃階段,可以考慮高效清潔能源的利用,如鼓勵(lì)探索建設(shè)分布式光伏發(fā)電、燃?xì)夥植际焦┠艿扰涮啄茉聪到y(tǒng)等。在設(shè)計(jì)和建設(shè)階段,可以考慮增加先進(jìn)綠色技術(shù)產(chǎn)品的應(yīng)用,如采用高效IT設(shè)備、分布式供配電、液冷、自然冷源等系統(tǒng)設(shè)計(jì)方案[3]。而數(shù)據(jù)中心運(yùn)維階段是其全生命周期過(guò)程中周期最長(zhǎng)、能耗最多、同時(shí)也是節(jié)能空間最大的階段,加強(qiáng)和優(yōu)化運(yùn)維階段的綠色管理能力,對(duì)于實(shí)現(xiàn)數(shù)據(jù)中心的綠色節(jié)能發(fā)展至關(guān)重要。傳統(tǒng)數(shù)據(jù)中心對(duì)于運(yùn)維階段管理節(jié)能和系統(tǒng)節(jié)能考慮不足,大量使用單一功能的自動(dòng)化系統(tǒng),主要作為設(shè)備狀態(tài)監(jiān)視和自動(dòng)控制使用,無(wú)法實(shí)現(xiàn)對(duì)底層數(shù)據(jù)歸集與分析,導(dǎo)致無(wú)法實(shí)現(xiàn)精細(xì)化運(yùn)維和科學(xué)管控,對(duì)數(shù)據(jù)中心節(jié)能管理造成負(fù)面影響。
隨著人工智能、物聯(lián)網(wǎng)技術(shù)快速向各行業(yè)滲透,節(jié)能領(lǐng)域的理念也已經(jīng)發(fā)生了翻天覆地的變化。數(shù)據(jù)中心以其龐大數(shù)據(jù)體量和能耗現(xiàn)狀,成為AI重要的應(yīng)用領(lǐng)域。在人工智能的時(shí)代,AI節(jié)能成為數(shù)據(jù)中心實(shí)現(xiàn)持續(xù)化節(jié)能的重要途徑。
智能運(yùn)維(Artificial Intelligence for IT Operations,AIOps)指的是將AI應(yīng)用于運(yùn)維領(lǐng)域,通過(guò)機(jī)器學(xué)習(xí)從而發(fā)現(xiàn)和解決傳統(tǒng)的自動(dòng)化運(yùn)維無(wú)法解決的問(wèn)題[4]。智能運(yùn)維有三大能力特點(diǎn):一是數(shù)據(jù)感知,包括數(shù)據(jù)采集、存儲(chǔ)、預(yù)處理,為AI 分析提供訓(xùn)練和推理所需的基礎(chǔ)數(shù)據(jù);二是AI分析,包括訓(xùn)練和推理兩大能力,使用人工智能技術(shù)來(lái)訓(xùn)練數(shù)據(jù),生成各場(chǎng)景所需的算法模型,為各類策略提供支撐,同時(shí)也可以使用訓(xùn)練出來(lái)的AI 模型進(jìn)行應(yīng)用推理;三是意愿洞察,實(shí)現(xiàn)用戶意愿的識(shí)別、轉(zhuǎn)譯、驗(yàn)證和保障等功能,在自動(dòng)化管控系統(tǒng)的配合下,精準(zhǔn)實(shí)現(xiàn)用戶意愿。
數(shù)據(jù)中心智能運(yùn)維平臺(tái)典型系統(tǒng)架構(gòu)[5]可分為:采集層、綜合管理層、展示層。
(1)采集層:接口模塊將數(shù)據(jù)中心各個(gè)子系統(tǒng)采集到的數(shù)據(jù)進(jìn)行協(xié)議和信息模型轉(zhuǎn)換,將“事件”“告警”“資源”等數(shù)據(jù)轉(zhuǎn)換成智能化系統(tǒng)可識(shí)別的、統(tǒng)一的數(shù)據(jù)模型,接口適配層與上層應(yīng)用層之間的接口協(xié)議采用統(tǒng)一的內(nèi)部協(xié)議。
(2)綜合管理層:由服務(wù)器和管理軟件組成,實(shí)現(xiàn)邏輯處理分析、數(shù)據(jù)存儲(chǔ)和應(yīng)用服務(wù)功能。實(shí)時(shí)接收數(shù)據(jù)及告警信息,經(jīng)過(guò)相應(yīng)的邏輯處理分析后存儲(chǔ)數(shù)據(jù),提供向上的應(yīng)用服務(wù)供用戶端使用,提供數(shù)據(jù)存儲(chǔ)、記錄告警事件,并以各種不同的方式輸出告警。
(3)展示層:由管理終端、顯示終端及告警設(shè)備組成,為用戶提供人機(jī)交互界面,可生成各種報(bào)表,實(shí)現(xiàn)日志功能及權(quán)限管理等功能。
數(shù)據(jù)中心智能運(yùn)維平臺(tái)通過(guò)“監(jiān)控、運(yùn)維、資產(chǎn)、能效”四類功能模塊[6]呈現(xiàn)主要功能。
(1)監(jiān)控:通過(guò)數(shù)字化3D實(shí)現(xiàn)數(shù)據(jù)中心全鏈路可視。通過(guò)南向北向集成數(shù)據(jù)中心子系統(tǒng),實(shí)現(xiàn)設(shè)備的實(shí)時(shí)監(jiān)控和多子系統(tǒng)的集中管理。
(2)運(yùn)維:通過(guò)建設(shè)與實(shí)踐兼容的維護(hù)模板庫(kù),用戶可以通過(guò)不斷定制模板和流程,實(shí)現(xiàn)標(biāo)準(zhǔn)化、數(shù)字化運(yùn)維,并可以將專業(yè)知識(shí)、維護(hù)經(jīng)驗(yàn)和技能數(shù)字化,實(shí)現(xiàn)共享和持久化。
(3)資產(chǎn):通過(guò)對(duì)數(shù)據(jù)中心資產(chǎn)設(shè)備的狀態(tài)全程跟蹤,實(shí)現(xiàn)資產(chǎn)的全生命周期管理。同時(shí),利用精細(xì)化容量管理,高效地匹配空間、電力、冷量和網(wǎng)絡(luò)等維度容量使用情況,提升數(shù)據(jù)中心資源利用率。
(4)能效:利用AI技術(shù),實(shí)現(xiàn)對(duì)數(shù)據(jù)中心的看、診、調(diào)、優(yōu),通過(guò)對(duì)能耗數(shù)據(jù)分析處理,將復(fù)雜設(shè)備參數(shù)轉(zhuǎn)化為直觀化分析計(jì)算結(jié)果,指導(dǎo)能耗優(yōu)化方向。
數(shù)據(jù)中心能耗最大的地方,主要集中在IT設(shè)備能耗和制冷空調(diào)能耗(制冷機(jī)組、水泵、管路系統(tǒng)、機(jī)房空調(diào)等),其中IT設(shè)備能耗占比50%、制冷空調(diào)能耗占比30%、UPS能耗占比15%、照明和新風(fēng)能耗占比4%、弱電能耗占比1%。
一般而言,降低數(shù)據(jù)中心能耗,著重在于制冷空調(diào)功耗的優(yōu)化降低,以及IT設(shè)備功耗優(yōu)化。隨著政策的落地加上產(chǎn)業(yè)界的不斷的努力,我國(guó)數(shù)據(jù)中心在能耗控制以及PUE控制上已經(jīng)取得很大進(jìn)步。其中,通過(guò)智能運(yùn)維的方式,在制冷空調(diào)系統(tǒng)、IT設(shè)備運(yùn)行、智能照明以及其他多個(gè)方向?qū)崿F(xiàn)成功的節(jié)能研究。
2.3.1 從“制冷”到“智冷”
制冷空調(diào)系統(tǒng)是降低數(shù)據(jù)中心基礎(chǔ)設(shè)施能耗的關(guān)鍵所在,在制冷空調(diào)系統(tǒng)節(jié)能管理方面,傳統(tǒng)手段無(wú)法滿足要求,而AI恰恰可以提供新的管理方向。
(1)AI應(yīng)用
將AI深度學(xué)習(xí)算法以智能運(yùn)維平臺(tái)的形式應(yīng)用在數(shù)據(jù)中心,通過(guò)軟硬件深度耦合,分?jǐn)?shù)據(jù)采集與上傳、數(shù)據(jù)治理、模型訓(xùn)練和推理運(yùn)算四步實(shí)現(xiàn)制冷空調(diào)系統(tǒng)節(jié)能。
1)數(shù)據(jù)采集:AI算法依賴于數(shù)據(jù)中心提供的大量訓(xùn)練數(shù)據(jù),數(shù)據(jù)量的多少直接決定了AI算法的準(zhǔn)確性。數(shù)據(jù)中心智能運(yùn)維平臺(tái)將各項(xiàng)基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一管理,周期性將采集到的海量數(shù)據(jù)(包括暖通系統(tǒng)、電力系統(tǒng)、環(huán)境參數(shù)等)上傳到AI系統(tǒng),提供運(yùn)算基礎(chǔ)。
2)數(shù)據(jù)治理:數(shù)據(jù)中心的數(shù)據(jù)量龐大復(fù)雜,如何在大量數(shù)據(jù)中找到“正確”的數(shù)據(jù),是提升AI精度的關(guān)鍵。平臺(tái)對(duì)采集上來(lái)的海量數(shù)據(jù)進(jìn)行特征參數(shù)自動(dòng)識(shí)別,并根據(jù)參數(shù)業(yè)務(wù)特性進(jìn)行聚合分析,提取出影響能效指標(biāo)的主要特征值參數(shù)(如室外溫濕度、冷機(jī)數(shù)量、冷凍水供回水溫度等)。
3)模型訓(xùn)練:首先對(duì)數(shù)據(jù)中心進(jìn)行PUE模型訓(xùn)練,通過(guò)建立PUE與室外環(huán)境、IT負(fù)載、暖通系統(tǒng)控制參數(shù)之間的因果關(guān)系,利用神經(jīng)網(wǎng)絡(luò)對(duì)PUE進(jìn)行擬合,將提取到的特征參數(shù)輸入到包含多層隱含層的深度神經(jīng)網(wǎng)絡(luò)中,進(jìn)行自適應(yīng)學(xué)習(xí)。然后進(jìn)行控制策略優(yōu)化模型訓(xùn)練,建立基于強(qiáng)化學(xué)習(xí)的能耗最小化的策略模型,根據(jù)歷史數(shù)據(jù)生成潛在控制策略,并利用PUE數(shù)字孿生模型對(duì)策略進(jìn)行評(píng)價(jià),結(jié)合控制策略約束條件,最終完成控制策略優(yōu)化模型的訓(xùn)練,尋找符合約束的能效最優(yōu)控制參數(shù)。
4)推理運(yùn)算:AI系統(tǒng)以PUE模型為約束條件,實(shí)時(shí)采集的數(shù)據(jù)作為輸入量,平臺(tái)從控制參數(shù)空間高效識(shí)別出能效最優(yōu)的制冷控制參數(shù)組合(如提高水溫、增加冷水機(jī)組運(yùn)行數(shù)量等),下發(fā)到運(yùn)維平臺(tái),通過(guò)運(yùn)維專家判斷控制參數(shù)的合理性,并進(jìn)一步通過(guò)群控系統(tǒng)執(zhí)行控制動(dòng)作??刂茀?shù)經(jīng)過(guò)AI系統(tǒng)、運(yùn)維專家、群控系統(tǒng)三重過(guò)濾,確保下發(fā)質(zhì)量,保障數(shù)據(jù)中心安全穩(wěn)定運(yùn)行。
(2)工作模式
基于AI算法,智能運(yùn)維平臺(tái)可以為制冷空調(diào)系統(tǒng)提供普通控制和節(jié)能控制兩種工作模式。在普通控制模式中,群控系統(tǒng)自動(dòng)執(zhí)行所有控制邏輯,包括設(shè)備加減、頻率調(diào)節(jié)、制冷模式切換、旁通、蓄冷水罐充放冷等,智能運(yùn)維平臺(tái)僅進(jìn)行狀態(tài)信息采集監(jiān)控。在節(jié)能控制模式中,群控系統(tǒng)接受智能運(yùn)維平臺(tái)下發(fā)的一組節(jié)能控制參數(shù),如溫度(冷卻塔出水溫度、冷凍水供水溫度)、設(shè)備運(yùn)行數(shù)量、溫差/壓差等控制環(huán)路目標(biāo)值等。群控系統(tǒng)根據(jù)平臺(tái)下發(fā)的指令進(jìn)行動(dòng)作,未下發(fā)控制指令的仍由群控自行控制。
(3)應(yīng)用效果
早在2013年,國(guó)外企業(yè)就已嘗試用AI控制水冷來(lái)對(duì)大型數(shù)據(jù)中心進(jìn)行節(jié)能。而后國(guó)內(nèi)IDC頭部企業(yè)也基于AI對(duì)大型數(shù)據(jù)中心制冷空調(diào)系統(tǒng)進(jìn)行優(yōu)化控制,取得良好的應(yīng)用效果[7]。通過(guò)智能運(yùn)維的方式,可以在不改變數(shù)據(jù)中心硬件、產(chǎn)品配置的基礎(chǔ)上,對(duì)溫控全鏈路智能管理,同等條件下PUE降低7%~18%,實(shí)現(xiàn)數(shù)據(jù)中心從“制冷”到“智冷”的進(jìn)化。
2.3.2 IT設(shè)備運(yùn)行節(jié)能
(1)機(jī)房環(huán)境參數(shù)采集及AI節(jié)能優(yōu)化:以機(jī)器人對(duì)機(jī)房環(huán)境參數(shù)和IT設(shè)備運(yùn)行數(shù)據(jù)進(jìn)行采集,通過(guò)平臺(tái)進(jìn)行數(shù)據(jù)處理、熱點(diǎn)與氣流分析、模型計(jì)算,得出實(shí)施機(jī)房氣流組織優(yōu)化、空調(diào)系統(tǒng)的最優(yōu)調(diào)整控制策略,并對(duì)策略結(jié)果預(yù)分析,在保證安全的前提下進(jìn)行節(jié)能調(diào)整。
(2)服務(wù)器低耗運(yùn)行:平臺(tái)自動(dòng)監(jiān)控當(dāng)前服務(wù)器的資源使用情況,并根據(jù)業(yè)務(wù)負(fù)載將服務(wù)器的電源、處理器、風(fēng)扇等部件動(dòng)態(tài)調(diào)整到低功耗運(yùn)行狀態(tài),實(shí)現(xiàn)按業(yè)務(wù)需求供電,將服務(wù)器用電損耗降到最低。
(3)機(jī)房容量管理:通過(guò)平臺(tái)監(jiān)測(cè)機(jī)架空間容量、耗電容量和冷量現(xiàn)狀,通過(guò)容量綜合分析指導(dǎo)管理人員增加機(jī)架密度,提升資源利用率和優(yōu)化熱量分布情況,讓機(jī)房的各類資源負(fù)載更加均衡。
(4)僵尸服務(wù)器清理:通過(guò)能耗監(jiān)測(cè),智能識(shí)別低負(fù)載或零負(fù)載的僵尸服務(wù)器,指導(dǎo)設(shè)備關(guān)停,降低能耗浪費(fèi)。
2.3.3 智能照明聯(lián)動(dòng)控制
在大型數(shù)據(jù)中心設(shè)計(jì)中,多配備了燈光照明控制系統(tǒng),在傳統(tǒng)模式下,智能照明多為單系統(tǒng)自動(dòng)運(yùn)行[8]。
通過(guò)智能運(yùn)維平臺(tái),使照明系統(tǒng)能通過(guò)接口、協(xié)議對(duì)接機(jī)房動(dòng)環(huán)系統(tǒng),實(shí)現(xiàn)樓宇自控、安防聯(lián)動(dòng)。
系統(tǒng)可以進(jìn)行多模式開(kāi)啟,如設(shè)置全開(kāi)模式、分區(qū)域模式、值班照明、夜間照明等;還可通過(guò)對(duì)人和物體的感應(yīng),實(shí)現(xiàn)人來(lái)燈亮、人走燈滅的控制。通過(guò)聯(lián)動(dòng)控制的方式,深度減少照明系統(tǒng)電能消耗。
2.3.4 其他節(jié)能應(yīng)用
(1)指導(dǎo)購(gòu)電:采用聚類分析和決策樹(shù)等算法建立能源預(yù)測(cè)模型,基于負(fù)荷預(yù)測(cè)進(jìn)行需量申請(qǐng)、電力交易(購(gòu)售電)、需求響應(yīng),避免購(gòu)電申請(qǐng)不合理導(dǎo)致多付電費(fèi)(或高額罰款),為園區(qū)能源優(yōu)化調(diào)度和電力交易提供決策依據(jù)。
(2)識(shí)別功耗/溫度故障:結(jié)合功耗數(shù)據(jù)及溫度數(shù)據(jù)的環(huán)比數(shù)據(jù),發(fā)現(xiàn)設(shè)備異常,提早預(yù)測(cè)機(jī)器故障。
(3)功耗管理:在預(yù)測(cè)用電情況、負(fù)載情況前提下,調(diào)整服務(wù)器用電策略、UPS用電策略,優(yōu)化能源使用情況。
某公司通過(guò)應(yīng)用智能運(yùn)維管理系統(tǒng),對(duì)制冷空調(diào)等系統(tǒng)進(jìn)行智能控制,實(shí)現(xiàn)PUE值降低8%~15%。
(1)系統(tǒng)技術(shù)功能特性
該系統(tǒng)基于對(duì)整個(gè)數(shù)據(jù)中心的運(yùn)行數(shù)據(jù)進(jìn)行采集、訓(xùn)練和推理,找出決定數(shù)據(jù)中心PUE的數(shù)學(xué)模型,從而計(jì)算出各種環(huán)境下最佳節(jié)能策略,根據(jù)負(fù)載變化實(shí)時(shí)下發(fā)調(diào)節(jié)指令,可以做到系統(tǒng)級(jí)的能效最優(yōu)。首先是數(shù)據(jù)采集,通過(guò)700+數(shù)據(jù)采集點(diǎn),實(shí)施監(jiān)測(cè)制冷系統(tǒng)運(yùn)行狀態(tài);然后進(jìn)行數(shù)據(jù)治理,從海量數(shù)據(jù)中選出19+2PUE特征參數(shù);經(jīng)過(guò)模型訓(xùn)練,PUE預(yù)測(cè)準(zhǔn)確率達(dá)99.5%,誤差<0.005;最后進(jìn)行推理決策,最小推理周期1h,節(jié)能效果達(dá)到8%~15%。
(2)應(yīng)用案例概述
廊坊某云數(shù)據(jù)中心共4 000個(gè)機(jī)柜,單機(jī)柜平均功率8kW,負(fù)載率為70%。在全部部署了智能運(yùn)維管理系統(tǒng)并實(shí)施4個(gè)月后,相較于原制冷系統(tǒng),數(shù)據(jù)中心PUE值明顯下降,PUE由1.42降低到1.25,年節(jié)省電量3 336萬(wàn)kW·h。