張曉艷 高星辰
中國移動(dòng)通信集團(tuán)江蘇有限公司南京分公司
伴隨著移動(dòng)互聯(lián)網(wǎng)發(fā)展的熱潮,超大型數(shù)據(jù)中心日益增多,如何趁勢(shì)而上,領(lǐng)航新基建,做最智慧的數(shù)據(jù)中心值得我們不斷探索。筆者以規(guī)模大于等于10000 個(gè)標(biāo)準(zhǔn)機(jī)架的數(shù)據(jù)中心(標(biāo)準(zhǔn)機(jī)架為換算單位,以功率2.5千瓦為一個(gè)標(biāo)準(zhǔn)機(jī)架),也就是《國務(wù)院關(guān)于加快培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的決定》中超大型數(shù)據(jù)中心的智能化系統(tǒng)為例。總結(jié)智能化系統(tǒng)在維護(hù)優(yōu)化過程中的經(jīng)驗(yàn),探討智能化系統(tǒng)圍繞“自動(dòng)、可靠、節(jié)能、智慧”的運(yùn)維目標(biāo),在規(guī)劃、建設(shè)及運(yùn)維等環(huán)節(jié)需要關(guān)注的要點(diǎn)。
超大型數(shù)據(jù)中心的智能化系統(tǒng)一般是由基礎(chǔ)設(shè)施管理系統(tǒng)(DCIM 系統(tǒng))及多個(gè)監(jiān)控子系統(tǒng)組成,各監(jiān)控子系統(tǒng)獨(dú)立運(yùn)行。監(jiān)控子系統(tǒng)通??煞譃閯?dòng)環(huán)監(jiān)控系統(tǒng)、空調(diào)群控系統(tǒng)、智能配電系統(tǒng)、安防系統(tǒng)、視頻系統(tǒng)、消防系統(tǒng)等。
DCIM 系統(tǒng)因數(shù)據(jù)中心大型化、規(guī)模化、智能化發(fā)展需求及客戶管理需求,逐漸成為超大型數(shù)據(jù)中心的標(biāo)準(zhǔn)配置。DCIM 系統(tǒng)數(shù)據(jù)來源與各監(jiān)控子系統(tǒng)。各類客戶自有監(jiān)控平臺(tái)提出的基礎(chǔ)設(shè)施對(duì)接需求,也會(huì)通過DCIM 系統(tǒng)統(tǒng)一對(duì)接,減少各監(jiān)控子系統(tǒng)接口對(duì)接工作量。如圖1 所示。
圖1 超大型數(shù)據(jù)中心智能化系統(tǒng)框架
各監(jiān)控子系統(tǒng)與管理系統(tǒng)間接口多樣,具體如圖2 所示。
圖2 超大型數(shù)據(jù)中心系統(tǒng)間接口
一種方案是按照數(shù)據(jù)庫對(duì)接的方式,采用C/S 體系結(jié)構(gòu),在監(jiān)控服務(wù)器上提供一個(gè)套接字接口,運(yùn)營商常用此種方案。第二種方案是采用SNMP 協(xié)議,統(tǒng)一的報(bào)文結(jié)構(gòu)和字段發(fā)送數(shù)據(jù),互聯(lián)網(wǎng)公司常用此種方案。
數(shù)據(jù)庫對(duì)接是將數(shù)據(jù)匯集后統(tǒng)一傳送;而SNMP 則是分散傳送、分散接收,且支持主動(dòng)報(bào)送,所以snmp 更適合數(shù)據(jù)量大且實(shí)時(shí)性要求高的場景,在實(shí)測中數(shù)據(jù)庫對(duì)接告警延時(shí)在10-20 秒左右,SNMP 對(duì)接告警延時(shí)3 秒以內(nèi)。
超大型數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò),按照架構(gòu)分層清晰、故障處理方便、單點(diǎn)故障不影響整體運(yùn)行的原則進(jìn)行統(tǒng)一規(guī)劃及建設(shè)。樓層弱電間放置的上百臺(tái)盒式交換機(jī)應(yīng)盡可能減少路由配置,端口隔離可通過二層VLAN 隔離。
在保證安全的前提下,考慮數(shù)據(jù)中心智能化系統(tǒng)的遠(yuǎn)程訪問及維護(hù),需要將安全控制系統(tǒng)同步規(guī)劃及建設(shè)。若需實(shí)現(xiàn)CMNET 網(wǎng)絡(luò)訪問及操作內(nèi)網(wǎng)設(shè)備功能,需規(guī)劃建設(shè)4A 平臺(tái)或堡壘機(jī),做到操作留痕。若僅訪問頁面數(shù)據(jù),可規(guī)劃建設(shè)WAF 應(yīng)用防火墻及入侵檢測系統(tǒng)。如圖3 所示。
日本精工株式會(huì)社(NSK)成立于1916年,是日本國內(nèi)第一家設(shè)計(jì)生產(chǎn)軸承的廠商。目前NSK在全球26個(gè)國家和地區(qū)建立了銷售網(wǎng)絡(luò),并擁有近70家工廠,行業(yè)排名位居世界前列。恩斯克投資有限公司是NSK的中國總部,全權(quán)負(fù)責(zé)中國大陸及中國香港的生產(chǎn)、技術(shù)研發(fā)與銷售營運(yùn)。目前NSK在中國設(shè)立的生產(chǎn)、研發(fā)、銷售公司及子公司已達(dá)20多家,遍及中國各地。
圖3 園區(qū)網(wǎng)絡(luò)結(jié)構(gòu)
超大型數(shù)據(jù)中心因占地面積大,室外蓄冷罐、油庫等設(shè)備數(shù)量多,蓄冷罐登高安全及油庫防火安全成為園區(qū)重點(diǎn)安防對(duì)象,在具備傳統(tǒng)的門禁和視頻功能外,還需考慮在室外及公共區(qū)域增加入侵報(bào)警、電子巡更、停車管理等,從而建立多功能、全方位、立體化、有保障的安防管理體系。
超大型數(shù)據(jù)中心在分批建設(shè)的時(shí)候,門禁卡要保持識(shí)別方式的統(tǒng)一,避免多張門禁導(dǎo)致的維護(hù)不便。相較非接觸射頻ID 卡及IC 卡,統(tǒng)一使用具備加密功能的IC 卡更優(yōu)。隨著卡片復(fù)制技術(shù)的發(fā)展,出于安全考慮,建議合并使用生物識(shí)別技術(shù)。所以超大型數(shù)據(jù)中心建議采用“卡片+生物識(shí)別”的模式可提升管理安全性。為了實(shí)現(xiàn)園區(qū)內(nèi)集中授權(quán)及管理,建議門禁設(shè)備支持TCP/IP 通信協(xié)議。如表1 所示。
表1 識(shí)別方式對(duì)比
視頻監(jiān)控系統(tǒng)一般公共區(qū)域會(huì)歸于安防,機(jī)房內(nèi)會(huì)歸于動(dòng)環(huán)監(jiān)控。針對(duì)不同場景及安保等級(jí),視頻監(jiān)控存儲(chǔ)目前主要有以下三種模式
圖4 本地NVR 存儲(chǔ)模式
圖5 管理服務(wù)器+存儲(chǔ)設(shè)備模式
圖6 視頻云存儲(chǔ)模式
超大型數(shù)據(jù)中心攝像頭數(shù)量多、存儲(chǔ)需求大。對(duì)于輪巡及回放要求不高的數(shù)據(jù)機(jī)房及電力室,可考慮NVR 本地存儲(chǔ);而對(duì)于公共區(qū)域及機(jī)房出入口等重點(diǎn)安保場所,需724時(shí)值班監(jiān)控的區(qū)域,可考慮管理服務(wù)器。
圖7 區(qū)域監(jiān)控中心(LSC)雙機(jī)冗余架構(gòu)
傳統(tǒng)的配電監(jiān)控系統(tǒng)一般用于監(jiān)控高低壓配電設(shè)備、變壓器及電容器等運(yùn)行狀態(tài),允許通過遠(yuǎn)程的方式遙控開關(guān)、變壓器檔位,對(duì)保護(hù)故障進(jìn)行復(fù)歸。因?qū)Π踩?、響?yīng)及保密要求更高,配電監(jiān)控系統(tǒng)使用專用協(xié)議,配置單獨(dú)的管理型工業(yè)以太網(wǎng)交換機(jī),網(wǎng)絡(luò)也需要物理隔離。
超大型數(shù)據(jù)中心的配電監(jiān)控可在負(fù)荷搬運(yùn)、一鍵處理等自動(dòng)化方面進(jìn)行拓展。具備負(fù)載投退通過調(diào)整開關(guān)動(dòng)作次序減少負(fù)載對(duì)電源側(cè)的沖擊;外市電停電時(shí)根據(jù)業(yè)務(wù)負(fù)載功率啟動(dòng)與之匹配的柴油發(fā)電機(jī)組數(shù)量,縮短故障應(yīng)急時(shí)間;針對(duì)不同事件場景,通過預(yù)先設(shè)計(jì)的程序,實(shí)現(xiàn)一鍵處理等功能。
空調(diào)群控系統(tǒng)(BA 系統(tǒng))以BACnet、modbus 等協(xié)議采樣設(shè)備信息。系統(tǒng)不僅能實(shí)現(xiàn)告警監(jiān)控,還能實(shí)現(xiàn)設(shè)備的自動(dòng)化最優(yōu)配置,達(dá)到精確供冷及節(jié)能的目標(biāo)。具備根據(jù)濕球溫度自動(dòng)選擇自然冷源或機(jī)械制冷;根據(jù)溫差自動(dòng)控制冷凍泵、冷卻塔風(fēng)扇頻率;根據(jù)出水溫度選擇與負(fù)載匹配的風(fēng)扇、水泵及冷機(jī)開啟數(shù)量等功能。
由于冷源集中化,任何一套制冷單元異常,都會(huì)影響園區(qū)內(nèi)多個(gè)機(jī)房甚至多個(gè)樓宇供冷。需確保PLC 設(shè)備的質(zhì)量、自保持功能、就地操作控制箱等措施提升安全性。
另外建議控制器電源輸入配置STS(靜態(tài)轉(zhuǎn)換開關(guān)),避免單電源引起的故障;采用環(huán)網(wǎng)網(wǎng)絡(luò)架構(gòu),避免單點(diǎn)故障。
超大型數(shù)據(jù)中心每棟樓宇消防系統(tǒng)(消防告警、消防滅火、災(zāi)后通風(fēng))等隨土建一次性完成,而機(jī)房工程分批建設(shè)。所以在后續(xù)建設(shè)過程中,經(jīng)常會(huì)忽略機(jī)房門禁、微模塊天窗及列間空調(diào)與消防系統(tǒng)之間的聯(lián)動(dòng),存在安全隱患。
建議消防系統(tǒng)按照防火分區(qū)預(yù)留強(qiáng)切輸出口,接線端子布放到對(duì)應(yīng)消防分區(qū)內(nèi),后續(xù)機(jī)房工程被切設(shè)備再從接線端子接線。
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)(DCIM 系統(tǒng))通過采集動(dòng)環(huán)監(jiān)控、智能配電、空調(diào)群控、安防、視頻、消防等監(jiān)控子系統(tǒng)的數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析處理,實(shí)現(xiàn)對(duì)數(shù)據(jù)中心的智能運(yùn)維管理。主要功能模塊有容量管理、能耗管理、上下架管理、告警分級(jí)及收斂、智能巡檢、設(shè)備健康度管理等。
對(duì)于電力和制冷容量管理來說,在設(shè)計(jì)階段就要考慮未來管理的顆粒度,智能設(shè)備越多,監(jiān)控點(diǎn)位越多,系統(tǒng)就越復(fù)雜。為了準(zhǔn)確測量機(jī)柜的功耗,需要通過智能PDU 或者具備分路電流采集的列頭柜采集該機(jī)柜的輸入電流和輸入電壓;為了準(zhǔn)確計(jì)算PUE,則需要采集市電輸入總電能和IT 用電功耗;為了合理控制容量風(fēng)險(xiǎn)指導(dǎo)設(shè)備上下架,需具備需量計(jì)算功能,呈現(xiàn)實(shí)時(shí)值、平均值及峰值,還需要機(jī)柜級(jí)、列頭柜(或者微模塊)級(jí)各層級(jí)的容量數(shù)據(jù)協(xié)同管理。為了準(zhǔn)確計(jì)算冷水機(jī)組的COP,則需要測量冷凍水流量、供回水溫度和機(jī)組功耗。所以,容量管理是一個(gè)沒有“標(biāo)準(zhǔn)答案”的模塊,需要建設(shè)和維護(hù)團(tuán)隊(duì)根據(jù)數(shù)據(jù)中心的定位,做好規(guī)劃,良好的硬件及數(shù)據(jù)采集的支持才能實(shí)現(xiàn)各類功能。
超大型數(shù)據(jù)中心告警收斂功能尤為重要。告警收斂是在停電或開關(guān)跳閘的大量告警中,根據(jù)上下級(jí)設(shè)備邏輯管理,參考各類事件測試告警清單,通過算法篩選過濾無關(guān)數(shù)據(jù),提示維護(hù)人員處理源頭問題的功能。
筆者對(duì)超大型數(shù)據(jù)中心智能化系統(tǒng)及組網(wǎng)進(jìn)行了優(yōu)化改造,通過優(yōu)化安防系統(tǒng)、動(dòng)環(huán)監(jiān)控系統(tǒng)、智能配電系統(tǒng)、空調(diào)群控系統(tǒng)以及各系統(tǒng)之間的組網(wǎng),提升了維護(hù)的便利性及安全性。部分系統(tǒng)優(yōu)化改造前后對(duì)比情況如表2 所示。
表2 改造實(shí)例
通過對(duì)超大型數(shù)據(jù)中心智能化系統(tǒng)及組網(wǎng)的運(yùn)維優(yōu)化,提升了智能化系統(tǒng)使用的便利性及安全性,挖潛智能化系統(tǒng)的潛能。通過運(yùn)維優(yōu)化探討,從運(yùn)維前置的角度,幫助數(shù)據(jù)中心建設(shè)隊(duì)伍更好地把握智能化系統(tǒng)建設(shè)要點(diǎn)。功能豐富、高可靠性的智能化系統(tǒng),必將成為超大型數(shù)據(jù)中心運(yùn)維人員重要的助手,發(fā)揮重要的作用。