蔡 榮,吳昕燁,徐 遲,金立標(biāo),曹 燦
(1.中國(guó)聯(lián)通無(wú)錫分公司,江蘇 無(wú)錫 214142;2.中國(guó)聯(lián)通江蘇省分公司,江蘇 南京 210029)
數(shù)據(jù)中心的主要能耗系統(tǒng)為IT系統(tǒng)與暖通系統(tǒng),IT設(shè)備節(jié)能技術(shù)主要用于新建數(shù)據(jù)中心。對(duì)于既有數(shù)據(jù)中心,其節(jié)能重點(diǎn)主要是暖通系統(tǒng)節(jié)能改造與運(yùn)行控制優(yōu)化。暖通系統(tǒng)作為數(shù)據(jù)中心的重要組成部分之一,既要達(dá)到安全、節(jié)能、高效運(yùn)行的狀態(tài),同時(shí)也要具有高可靠性、高可控性[1]?;诖耍瑢?duì)數(shù)據(jù)中心暖通系統(tǒng)進(jìn)行控制與高效監(jiān)管是保障數(shù)據(jù)中心安全運(yùn)行和高效節(jié)能減排的重要方式。
目前,Google、阿里、華為等云服務(wù)商都有將人工智能(Artificial Intelligence,AI)算法在水冷設(shè)備端運(yùn)用的典型例子,但主要集中在一些技術(shù)基礎(chǔ)較好、歷史數(shù)據(jù)較多以及數(shù)據(jù)處理維度較完整的互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Date Center,IDC)中。數(shù)據(jù)中心的暖通制冷功率一般由水冷式機(jī)組功率、末梢精密空調(diào)功率、冷卻/冷凍水泵功率以及冷卻塔功耗4部分構(gòu)成[2]。末端車(chē)間的精密空調(diào)功率約為整體冷卻功率的30%,控制策略也和風(fēng)冷機(jī)房基本相似。由于水冷式機(jī)組設(shè)計(jì)復(fù)雜、運(yùn)行參數(shù)繁多,各組成部分的效率也受多種參數(shù)的制約,因此將通過(guò)收集水冷式機(jī)組的各種運(yùn)行參數(shù)和歷史數(shù)據(jù)進(jìn)行建模,擬合水冷式機(jī)組的總功率,從而找出各技術(shù)參數(shù)和總功率之間的關(guān)聯(lián)。擬合建成后,采用隨機(jī)游走、遺傳算法等策略,在確保最大輸出制冷量達(dá)到末端機(jī)房負(fù)荷的條件下,維持水冷式機(jī)組良好的運(yùn)行狀況。
中國(guó)聯(lián)通華東云數(shù)據(jù)中心為自有自建,園區(qū)占地面積100 000 m2,總體規(guī)劃包含4棟IDC機(jī)房樓及配套動(dòng)力中心。整個(gè)園區(qū)分3期逐步實(shí)施,現(xiàn)已建成投產(chǎn)一期。一期項(xiàng)目占地17 031 m2,包含一棟4層IDC機(jī)房及配套動(dòng)力中心。
數(shù)據(jù)中心對(duì)環(huán)境溫度和濕度的要求較高,需要建設(shè)高效制冷系統(tǒng)對(duì)IT設(shè)備進(jìn)行散熱。同時(shí)為保障IT設(shè)備穩(wěn)定運(yùn)行,往往依賴(lài)空調(diào)、冷水機(jī)等設(shè)備來(lái)降溫,這是數(shù)據(jù)中心制冷系統(tǒng)能耗較高的主要原因[3]。數(shù)據(jù)中心制冷系統(tǒng)包括空調(diào)壓縮機(jī)、冷卻水系統(tǒng)、冷凍水系統(tǒng)以及冷卻塔等,能耗占比約40%。影響制冷系統(tǒng)能耗的因素有各類(lèi)設(shè)備的發(fā)熱、建筑圍護(hù)設(shè)備傳熱、太陽(yáng)輻射熱、系統(tǒng)能效比、氣流組織以及空調(diào)運(yùn)行時(shí)間等,可以概括為設(shè)備因素與環(huán)境因素。數(shù)據(jù)中心節(jié)能改造通常以提高制冷系統(tǒng)效率和降低冷量損耗為主,制冷系統(tǒng)能效提升對(duì)于數(shù)據(jù)中心節(jié)能意義重大。華東某IDC機(jī)房熱力圖如圖1所示。
圖1 華東某IDC機(jī)房熱力圖
現(xiàn)冷機(jī)模式水溫設(shè)置為12 ℃,回水溫度為17.7 ℃,機(jī)組電流比81%。設(shè)計(jì)水溫為7 ℃,板式換熱器(以下簡(jiǎn)稱(chēng)板換)模式時(shí)水溫會(huì)更高。目前,負(fù)載只開(kāi)一套系統(tǒng),基本已經(jīng)滿負(fù)荷運(yùn)行,后面負(fù)載上升需要再開(kāi)一套。根據(jù)室外溫度人為切換板換,切換板換的條件是濕球溫度低于10 ℃,而切換冷機(jī)的條件是機(jī)房高溫告警。機(jī)房是冷通道封閉,冷通道溫度控制在27 ℃以?xún)?nèi),回風(fēng)溫度高的地方達(dá)到34 ℃。此外,全年自然冷源使用時(shí)間為兩個(gè)半月[4]。
目前,IDC機(jī)房的節(jié)能切入點(diǎn)設(shè)備大多為制冷裝置,一般依據(jù)人工經(jīng)驗(yàn)和暖通常識(shí)來(lái)優(yōu)化機(jī)房環(huán)境溫度和氣流組織。冷卻泵、冷卻塔、冷凍泵的電量無(wú)法分開(kāi)采集,系統(tǒng)冷卻水側(cè)水利不平衡情況較為嚴(yán)重,無(wú)AI系統(tǒng)自動(dòng)控制,機(jī)組切換時(shí)需要人為調(diào)整冷卻水水利平衡??照{(diào)回風(fēng)反映了機(jī)艙內(nèi)電器的總體發(fā)熱狀況,但機(jī)械的工作負(fù)荷在動(dòng)態(tài)變化,氣流組織也在不斷改變,很難人為預(yù)測(cè)。
基于AI和大數(shù)據(jù)分析的智能化節(jié)能管理系統(tǒng)的研發(fā)重心在IDC核心數(shù)據(jù)分析層面,通過(guò)對(duì)數(shù)據(jù)的綜合分析,即可獲取節(jié)能決策中所需要的調(diào)節(jié)依據(jù)。數(shù)據(jù)采集資源主要包括自動(dòng)環(huán)控系統(tǒng)信息、自動(dòng)儀表使用信息、水冷式發(fā)電機(jī)組控制系統(tǒng)信息等。水冷式發(fā)電機(jī)組的信息包含水冷式電動(dòng)機(jī)的執(zhí)行技術(shù)參數(shù)(冷凝器進(jìn)出水溫度、蒸餾器進(jìn)出水溫度、冷凍供水電壓、主機(jī)電壓等)、泵的執(zhí)行技術(shù)參數(shù)(運(yùn)轉(zhuǎn)次數(shù)、流量等)、冷卻水塔的執(zhí)行技術(shù)參數(shù)(運(yùn)轉(zhuǎn)次數(shù)、流量等)與其他技術(shù)參數(shù)(如室外溫濕度、IT總負(fù)荷等)。風(fēng)冷機(jī)組的主要數(shù)據(jù)包含IT產(chǎn)品耗電量、室內(nèi)空調(diào)耗電量、機(jī)房室內(nèi)外濕度、機(jī)房尺寸、機(jī)房地面架空高度、機(jī)柜數(shù)機(jī)房列頭柜功耗、機(jī)柜總送風(fēng)速度、機(jī)柜進(jìn)風(fēng)口濕度、機(jī)柜出風(fēng)速度、機(jī)柜出通風(fēng)濕度、區(qū)域中央空調(diào)出通風(fēng)濕度、區(qū)域中央空調(diào)回風(fēng)口濕度以及中央空調(diào)發(fā)電機(jī)組的總功率等[5]。
AI算法將持續(xù)采集冷機(jī)、水泵、冷卻塔等冷站主要部件的溫度、流量、壓力、功率等基礎(chǔ)參數(shù),通過(guò)實(shí)時(shí)算法計(jì)算識(shí)別冷機(jī)啟停、水泵變頻、輸送系數(shù)以及冷站能效等冷站基礎(chǔ)運(yùn)行情況數(shù)據(jù),并與自控系統(tǒng)上傳數(shù)據(jù)進(jìn)行清洗比對(duì)。在累計(jì)一定基礎(chǔ)數(shù)據(jù)后,建立冷站各設(shè)備運(yùn)行特征模型,通過(guò)智能匹配最優(yōu)運(yùn)行策略下發(fā)自控系統(tǒng),根據(jù)自控系統(tǒng)回傳數(shù)據(jù)進(jìn)行實(shí)時(shí)數(shù)據(jù)迭代計(jì)算,動(dòng)態(tài)監(jiān)測(cè)與評(píng)估冷站運(yùn)行情況,診斷冷站運(yùn)行問(wèn)題,優(yōu)化下發(fā)策略,以提高冷站整體運(yùn)行效率。
智能AI控制系統(tǒng)可以對(duì)各網(wǎng)絡(luò)系統(tǒng)的啟、停、工作或失效狀態(tài)等進(jìn)行自動(dòng)檢測(cè)、管理調(diào)度。與此同時(shí),控制器還可以對(duì)各網(wǎng)絡(luò)系統(tǒng)和監(jiān)控點(diǎn)的配置、工作方法、歷史數(shù)據(jù)曲線等進(jìn)行顯示。各系統(tǒng)運(yùn)行不良時(shí),操作系統(tǒng)會(huì)產(chǎn)生非正?;蚬收蠣顟B(tài)的語(yǔ)音和圖像報(bào)警信號(hào)。管理系統(tǒng)所有工作參量、信息均以圖片方式表示,同時(shí)以圖表、曲線等方式打印記錄[6]。
控制系統(tǒng)必須具備擴(kuò)充功能,未來(lái)擴(kuò)充功能及系統(tǒng)時(shí)只需加裝一個(gè)可獨(dú)立編程軟硬件整合控制器即可。信息系統(tǒng)中的設(shè)施需要根據(jù)特性要求的變化需求進(jìn)行適當(dāng)調(diào)整,通過(guò)與綜合系統(tǒng)的融合,為其使用提供必要的機(jī)電設(shè)備運(yùn)行基礎(chǔ)。場(chǎng)內(nèi)控制器應(yīng)能安全可靠、獨(dú)立工作,各場(chǎng)內(nèi)控制器之間能進(jìn)行點(diǎn)對(duì)點(diǎn)通信,當(dāng)場(chǎng)內(nèi)某一控制器故障時(shí)不會(huì)干擾控制系統(tǒng)中其他部分的工作。
將控制值班室的網(wǎng)絡(luò)主機(jī)、網(wǎng)絡(luò)控制臺(tái)和現(xiàn)場(chǎng)控制器結(jié)合組成集散管理系統(tǒng),通過(guò)設(shè)置在控制裝置周?chē)默F(xiàn)場(chǎng)傳感器對(duì)各裝置進(jìn)行自動(dòng)控制,使各控制區(qū)域的參數(shù)符合建筑物設(shè)計(jì)要求、故障告警指示以及建筑物節(jié)能的設(shè)定。由現(xiàn)場(chǎng)控制臺(tái)經(jīng)通信端口與網(wǎng)絡(luò)系統(tǒng)控制器和監(jiān)控值班室中的網(wǎng)絡(luò)系統(tǒng)管理工作站通信后,控制系統(tǒng)工程管理站。系統(tǒng)工作站通過(guò)各地區(qū)的設(shè)備工作狀態(tài)信息對(duì)現(xiàn)場(chǎng)裝置參數(shù)實(shí)施自動(dòng)/手動(dòng)調(diào)節(jié)和監(jiān)視管理,進(jìn)而提供對(duì)受控裝置狀況的運(yùn)動(dòng)態(tài)勢(shì)分析與報(bào)告。
對(duì)于系統(tǒng)工作站的控制用戶(hù)界面,需要具有人員密碼信息管理、樹(shù)形構(gòu)造、日期信息管理、趨勢(shì)圖表信息管理、告警信息管理、群組信息管理、控件實(shí)時(shí)展示、控件信息管理以及控件記憶體加載等控制功能??刂葡到y(tǒng)具有在線編程控制功能,現(xiàn)場(chǎng)控制器應(yīng)用軟件可以在系統(tǒng)工作站編輯并輸入信息,設(shè)置正確后即可運(yùn)行。
AI節(jié)能方案采用典型的大數(shù)據(jù)平臺(tái)架構(gòu),支持主流的兼容接口協(xié)議,例如RS485、Modbus、控制器域網(wǎng)(Controller Area Network,CAN)以及傳輸控制協(xié)議 /網(wǎng)際協(xié)議(Transmission Control Protocol/ Internet Protocol,TCP/IP),同時(shí)支持從第三方平臺(tái)獲取源數(shù)據(jù)?;A(chǔ)運(yùn)行數(shù)據(jù)是實(shí)現(xiàn)大數(shù)據(jù)+機(jī)器學(xué)習(xí)機(jī)房節(jié)能的前提和必要條件,通過(guò)傳感器、數(shù)據(jù)網(wǎng)關(guān)與自控系統(tǒng)采集暖通系統(tǒng)運(yùn)行動(dòng)態(tài)數(shù)據(jù),建立運(yùn)行數(shù)據(jù)庫(kù),如圖2所示。
圖2 運(yùn)行數(shù)據(jù)庫(kù)
采用連續(xù)數(shù)據(jù)采集終端,建立云平臺(tái)數(shù)據(jù)庫(kù),實(shí)現(xiàn)高并發(fā)數(shù)據(jù)采集與存儲(chǔ)。使用基于Python的物理模型、經(jīng)驗(yàn)?zāi)P团c數(shù)據(jù)挖掘算法,動(dòng)態(tài)計(jì)算冷站運(yùn)行情況。采用機(jī)器學(xué)習(xí)算法和降維手段生成數(shù)據(jù)特征量,提取并建立冷站運(yùn)行模式。根據(jù)馬爾可夫決策理論,采用Q-Learning的強(qiáng)化學(xué)習(xí)方法,選擇最優(yōu)運(yùn)行策略。通過(guò)串口、TCP/IP等接口下發(fā)控制策略,實(shí)現(xiàn)閉環(huán)控制。此外,提供圖形可視化展示界面,直觀理解運(yùn)行狀態(tài),優(yōu)化人機(jī)交互過(guò)程。數(shù)據(jù)處理模型如圖3所示。
圖3 數(shù)據(jù)處理模型
通過(guò)建立能耗分析平臺(tái),使用不同算法模塊實(shí)現(xiàn)對(duì)數(shù)據(jù)的儲(chǔ)存、清洗、流轉(zhuǎn)、計(jì)算以及分析,完成對(duì)冷站各設(shè)備的完整閉環(huán)控制。在每個(gè)數(shù)據(jù)計(jì)算周期,根據(jù)平臺(tái)采集得到的各項(xiàng)運(yùn)行數(shù)據(jù),結(jié)合現(xiàn)場(chǎng)獲取的銘牌參數(shù)與額定數(shù)據(jù),利用各項(xiàng)功能模塊基于動(dòng)態(tài)調(diào)參的經(jīng)驗(yàn)?zāi)P团c物理模型計(jì)算冷站設(shè)備基本性能參數(shù)。在累計(jì)一定時(shí)長(zhǎng)的運(yùn)行數(shù)據(jù)后,通過(guò)基于人工智能的層次聚類(lèi)、密度聚類(lèi)等算法對(duì)數(shù)據(jù)進(jìn)行回歸、聚類(lèi),提取該冷站設(shè)備運(yùn)行的主要特征模型。同時(shí)對(duì)冷站所在地的室外溫度、濕度等具有明顯周期性的數(shù)據(jù)進(jìn)行子集劃分,并對(duì)子集進(jìn)行層次聚類(lèi),獲取當(dāng)?shù)赝獠織l件的典型周期特征。
通過(guò)AI算法提取冷站內(nèi)部與外部特征,劃分若干種冷站運(yùn)行典型工況,并利用人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network,ANN)、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)等算法建立典型工況下的主要運(yùn)行參數(shù)預(yù)測(cè)模型。將分析得到的典型工況與數(shù)據(jù)庫(kù)中存儲(chǔ)的專(zhuān)家模型進(jìn)行比對(duì)識(shí)別,根據(jù)設(shè)備自身?xiàng)l件,利用主要運(yùn)行參數(shù)預(yù)測(cè)模型判斷當(dāng)前各參數(shù)與設(shè)定值的合理性,計(jì)算優(yōu)化潛力與節(jié)能空間,為自控系統(tǒng)下發(fā)最優(yōu)設(shè)定值與控制策略。與此同時(shí),對(duì)調(diào)控后的設(shè)備運(yùn)行情況進(jìn)行實(shí)時(shí)監(jiān)控,擴(kuò)充數(shù)據(jù)集維度,提高模型精度,對(duì)優(yōu)化控制建議進(jìn)行動(dòng)態(tài)迭代,使其更加匹配冷站實(shí)際運(yùn)行工況。
持續(xù)采集設(shè)備能耗、環(huán)境溫濕度以及空調(diào)運(yùn)行參數(shù),將累計(jì)至少一個(gè)月的數(shù)據(jù)作為歷史數(shù)據(jù)集,根據(jù)實(shí)施機(jī)房狀況、采樣點(diǎn)分布以及不同空調(diào)型號(hào)分別建立制冷影響力模型、空調(diào)能耗與制冷量關(guān)聯(lián)模型、機(jī)房溫度預(yù)測(cè)模型和空調(diào)控制邏輯模型,并且評(píng)估空調(diào)的制冷量冗余情況,最終通過(guò)實(shí)時(shí)數(shù)據(jù)輸入模型生成最佳的調(diào)配參數(shù)。針對(duì)可變頻和不可變頻設(shè)備類(lèi)型,分別下發(fā)策略進(jìn)行精準(zhǔn)控制。采用深度學(xué)習(xí)、時(shí)間序列數(shù)據(jù)挖掘以及偏微分方程求解的推理框架,基于單指令多數(shù)據(jù)流(Single Instruction Multiple Data,SIMD)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)并行化加速。采用流式數(shù)據(jù)處理引擎,實(shí)現(xiàn)對(duì)實(shí)時(shí)數(shù)據(jù)的高并發(fā)數(shù)據(jù)采集及存儲(chǔ)。此外,提供K8s容器化運(yùn)行環(huán)境,支持動(dòng)態(tài)部署以及彈性擴(kuò)縮容。末端AI節(jié)能架構(gòu)如圖4所示。
圖4 末端AI節(jié)能架構(gòu)
機(jī)房空調(diào)AI節(jié)能是一個(gè)動(dòng)態(tài)循環(huán)過(guò)程,每個(gè)循環(huán)周期包括的主要步驟如下文所述。
(1)數(shù)據(jù)采集。通過(guò)智能傳感器和網(wǎng)關(guān)設(shè)備采集相關(guān)靜態(tài)和動(dòng)態(tài)數(shù)據(jù),包括環(huán)境溫濕度、設(shè)備能耗和空調(diào)運(yùn)行工況,結(jié)合機(jī)房和傳感器物理分布情況構(gòu)建靜態(tài)點(diǎn)位數(shù)據(jù)和動(dòng)態(tài)信號(hào)量的關(guān)聯(lián)數(shù)據(jù)集。
(2)分析建模。基于歷史數(shù)據(jù)集建立制冷影響力模型、空調(diào)能耗與制冷量關(guān)聯(lián)模型、機(jī)房溫度預(yù)測(cè)模型、空調(diào)控制邏輯模型以及空調(diào)制冷量冗余度模型,根據(jù)實(shí)時(shí)數(shù)據(jù)集推理和驗(yàn)證模型的準(zhǔn)確度。
(3)數(shù)據(jù)分析。采集空調(diào)運(yùn)行情況下機(jī)房的環(huán)境溫度變化,通過(guò)數(shù)據(jù)分析評(píng)估當(dāng)前機(jī)房環(huán)境溫度是否偏低或偏高,生成控制策略。
(4)設(shè)備控制。通過(guò)人工操作或程序下發(fā)自動(dòng)調(diào)整末端空調(diào)運(yùn)行參數(shù),使其達(dá)到合理制冷量輸出時(shí)能耗最低的狀態(tài),實(shí)現(xiàn)空調(diào)的運(yùn)行省電。
通過(guò)大數(shù)據(jù)和AI技術(shù)分析機(jī)房歷史溫度數(shù)據(jù)、電量數(shù)據(jù)、空調(diào)運(yùn)行數(shù)據(jù),建立機(jī)房熱交換模型。熱交換模型逐級(jí)傳參,典型的層級(jí)包括末端風(fēng)機(jī)→表冷器→水閥→分集水器→冷凍/冷機(jī)水泵→冷卻水泵/塔。除此之外,考慮外部氣象和IT負(fù)荷因素,通過(guò)對(duì)全部機(jī)房?jī)?nèi)冷量需求的精準(zhǔn)預(yù)測(cè)來(lái)調(diào)整冷站的最優(yōu)輸出,同時(shí)仿真推理得到制冷設(shè)備的最低功耗運(yùn)行狀態(tài)。精確匹配冷量需求曲線如圖5所示。
圖5 精確匹配冷量需求曲線
通過(guò)對(duì)室內(nèi)溫場(chǎng)進(jìn)行分析來(lái)確定最佳的供冷需求,具體是采集每個(gè)機(jī)房?jī)?nèi)的溫度、機(jī)柜和末端空調(diào)耗電以及精密空調(diào)的運(yùn)行數(shù)據(jù)等,建立機(jī)房熱量預(yù)測(cè)模型、區(qū)域溫度影響力模型等,使區(qū)域溫差最小,滿足每臺(tái)末端對(duì)冷量的需求。室內(nèi)調(diào)節(jié)不僅需要考慮平衡本機(jī)房?jī)?nèi)部的需求,同時(shí)還要結(jié)合全局策略滿足整個(gè)機(jī)樓的需求。
利用AI節(jié)能系統(tǒng)采集末端和冷熱源設(shè)備的運(yùn)行數(shù)據(jù),以滿足所有機(jī)房冷量需求為前提進(jìn)行后續(xù)的模型推導(dǎo),推理冷熱源設(shè)備運(yùn)行的最佳參數(shù)。AI節(jié)能系統(tǒng)需要實(shí)時(shí)分析全局、全量數(shù)據(jù),對(duì)設(shè)備穩(wěn)定性和可靠性有較高的要求。全量數(shù)據(jù)不僅包含通過(guò)群控系統(tǒng)和末端空調(diào)分散采集到的靜態(tài)、性能數(shù)據(jù),而且還依賴(lài)于大量由室內(nèi)優(yōu)化算法建模產(chǎn)生的結(jié)果數(shù)據(jù)和中間數(shù)據(jù)。除此之外,調(diào)節(jié)策略同樣需要考慮全局能耗最低,理想狀態(tài)下能夠?qū)崿F(xiàn)冷熱源和末端空調(diào)能耗的雙降。冷熱源和末端工況聯(lián)合建模如圖6所示。
圖6 冷熱源和末端工況聯(lián)合建模
華東云數(shù)據(jù)中心夏季日用電量約99 000 kW·h,冬季約92 000 kW·h,AI系統(tǒng)上線后可節(jié)電約12%。
通過(guò)收集IDC機(jī)房信息和AI建模,利用深度學(xué)習(xí)的控制方法將分析結(jié)論下發(fā)到機(jī)房的管理系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)中心節(jié)能高效運(yùn)轉(zhuǎn)。將AI算法運(yùn)用于IDC機(jī)房節(jié)電方面,能夠使機(jī)房的節(jié)電方式變得更加智能化、精細(xì)化,節(jié)電效益更加顯著。