馬寅生, 丁 昊
(中國建設(shè)銀行股份有限公司,武漢 430074)
數(shù)據(jù)中心的供配電、暖通、給排水、消防、安防等基礎(chǔ)設(shè)施系統(tǒng)是保障各種應(yīng)用業(yè)務(wù)不間斷運(yùn)行的基石,但是長期以來相較于IT業(yè)務(wù)系統(tǒng),數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)的運(yùn)行管理一直沒有受到應(yīng)有的重視。武漢生產(chǎn)園區(qū)作為中國建設(shè)銀行核心生產(chǎn)基地之一,為切實(shí)提升防范金融風(fēng)險能力,針對園區(qū)數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)營管理中的痛點(diǎn)難點(diǎn),建設(shè)了集基礎(chǔ)設(shè)施集中監(jiān)控、運(yùn)營運(yùn)維、資產(chǎn)和能效管理等功能于一體的基礎(chǔ)設(shè)施運(yùn)維管理平臺(以下簡稱“DCIM”,Data Center Infrastructure Management),將三維建模、NFC、大數(shù)據(jù)分析等技術(shù)創(chuàng)新性地運(yùn)用于運(yùn)維,實(shí)現(xiàn)了基礎(chǔ)設(shè)施的預(yù)防性維護(hù)、問題預(yù)警、故障處置和結(jié)果檢查的全流程管控,對資產(chǎn)設(shè)備實(shí)現(xiàn)了全生命周期器件級管理。DCIM投用后納管了數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)備6 300多臺,監(jiān)控點(diǎn)位81萬點(diǎn),對UPS、柴油發(fā)電機(jī)等742臺核心設(shè)備實(shí)現(xiàn)了器件級管理,使故障點(diǎn)精準(zhǔn)定位時間縮短75%,設(shè)備故障率降低16%。本文主要研究中國建設(shè)銀行武漢生產(chǎn)園區(qū)DCIM項目的建設(shè)經(jīng)驗與應(yīng)用實(shí)踐。
目前業(yè)內(nèi)在基礎(chǔ)設(shè)施運(yùn)維管理方面存在的主要問題包括以下四點(diǎn)。
(1)運(yùn)維管理缺少全局視圖,管理信息割裂。在基礎(chǔ)設(shè)施運(yùn)維方面缺少對管理全局視圖的研究,即使使用了部分運(yùn)維工具,也局限于解決單個領(lǐng)域范圍內(nèi)的問題(比如使用流程工具解決流程管理的問題,使用巡檢App解決巡檢的問題),這種分散的運(yùn)維工具和系統(tǒng)使完整的運(yùn)維信息流被割裂到不同的系統(tǒng)中,無法從整體對運(yùn)維工作、質(zhì)量進(jìn)行管控。
(2)運(yùn)維管理的自動化水平較低。相較于IT業(yè)務(wù)管理,基礎(chǔ)設(shè)施的運(yùn)維事務(wù)如維護(hù)維修、資產(chǎn)、容量等管理仍依靠手動紙質(zhì)方式,基礎(chǔ)設(shè)施系統(tǒng)如供配電、空調(diào)暖通的自動化水平較低。
(3)管理精細(xì)化水平不夠,流程使用僵化。受限于基礎(chǔ)設(shè)施管理的自動化水平較低,因此無法實(shí)現(xiàn)龐大設(shè)備資產(chǎn)的全生命周期管理,如對設(shè)備實(shí)現(xiàn)器件級管理的手段等,難以實(shí)現(xiàn)精細(xì)化的管理。流程過于繁重,使用僵化,同時流程又沒有與對象和任務(wù)執(zhí)行關(guān)聯(lián),導(dǎo)致實(shí)際運(yùn)維操作完全脫離流程本身。
(4)缺少可視化的監(jiān)控管理工具。因為基礎(chǔ)設(shè)施不同于IT設(shè)備設(shè)施一般位于可見的位置區(qū)域,大量的基礎(chǔ)設(shè)施關(guān)鍵設(shè)備設(shè)施(如閥門、供電、供水管線等)位于天花板上、地板下甚至地下等隱蔽區(qū)域,在沒有可視化監(jiān)控工具支持的時候,對于故障點(diǎn)、影響區(qū)域、關(guān)聯(lián)系統(tǒng)的快速定位存在較大問題。
為了能清晰的解決問題,數(shù)據(jù)中心行業(yè)內(nèi)定義了傳統(tǒng)運(yùn)維向智能運(yùn)維的變化和演進(jìn)過程,共分為L0~L4五個階段,并定義了每個階段的典型特征。表1所示為各運(yùn)維階段主要特點(diǎn)。
各運(yùn)維階段主要特點(diǎn) 表1
(1)L0 手工運(yùn)維:無標(biāo)準(zhǔn)運(yùn)維流程,依賴個人或團(tuán)隊的經(jīng)驗,運(yùn)維質(zhì)量基本取決于運(yùn)維人員的經(jīng)驗和能力。
(2)L1 規(guī)范運(yùn)維:已經(jīng)形成標(biāo)準(zhǔn)化流程,可以通過培訓(xùn)等手段對運(yùn)維團(tuán)隊循環(huán)賦能,但普遍存在部分流程過于僵化或部分實(shí)踐游離于流程之外的問題,運(yùn)維效率較低,對團(tuán)隊及核心骨干的依賴度很高,運(yùn)維質(zhì)量評估難,自動化程度較低,使用簡單監(jiān)控、自動控制等系統(tǒng)輔助運(yùn)維。
(3)L2 成熟運(yùn)維:運(yùn)維流程趨于成熟,運(yùn)維質(zhì)量有較好的保障,但運(yùn)維效率不高,重視運(yùn)維團(tuán)隊的建設(shè),團(tuán)隊能力通常有較好的延續(xù)性,但無法自主優(yōu)化;輔助系統(tǒng)較為完備,部分核心子系統(tǒng)具備自動化能力。
(4)L3 數(shù)字運(yùn)維(現(xiàn)階段水平):在L2的能力基礎(chǔ)上,建立適用于大型數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理的運(yùn)維平臺,將運(yùn)維各事項納入運(yùn)維平臺,管理和驅(qū)動運(yùn)維流程的執(zhí)行,并對各項運(yùn)維過程數(shù)據(jù)進(jìn)行收集,運(yùn)維質(zhì)量可以準(zhǔn)確評估,運(yùn)維效率大幅提升;關(guān)鍵子系統(tǒng)(如配電和制冷)實(shí)現(xiàn)自動運(yùn)維,AI等機(jī)器智能嘗試在節(jié)能、故障預(yù)測等特定領(lǐng)域進(jìn)行探索與實(shí)踐。
(5)L4 自動運(yùn)維:基礎(chǔ)設(shè)施實(shí)現(xiàn)自動運(yùn)維,重復(fù)性的工作(如巡檢等)基本交由自動化系統(tǒng)實(shí)現(xiàn),分析性事務(wù)可由人工智能進(jìn)行輔助決策,運(yùn)維效率極高,運(yùn)維流程復(fù)雜度大幅下降,運(yùn)維人員需求大幅降低,基礎(chǔ)設(shè)施資源能夠根據(jù)IT及業(yè)務(wù)需求變化動態(tài)調(diào)整,實(shí)現(xiàn)少人值守、無人值守。
結(jié)合DCIM系統(tǒng)架構(gòu)圖(圖1),可以了解如下內(nèi)容。
圖1 DCIM系統(tǒng)架構(gòu)圖
(1)運(yùn)維平臺應(yīng)是對基礎(chǔ)設(shè)施運(yùn)維管理全領(lǐng)域的納管和優(yōu)化。不同于一般監(jiān)控軟件或者其他(如流程平臺等)關(guān)注特定領(lǐng)域的管理事項,運(yùn)維管理平臺應(yīng)是在梳理清楚基礎(chǔ)設(shè)施全部管理領(lǐng)域的基礎(chǔ)上,對全領(lǐng)域進(jìn)行納管,在此基礎(chǔ)上以資產(chǎn)對象為主線,將運(yùn)維的完整信息流通過資產(chǎn)管理對象串聯(lián)起來。
(2)運(yùn)維平臺應(yīng)具備運(yùn)維過程數(shù)據(jù)的收集能力,并可基于數(shù)據(jù)做相應(yīng)的分析和處理。運(yùn)維的過程數(shù)據(jù)(包括監(jiān)控、巡檢、流程等)是驅(qū)動運(yùn)維工作轉(zhuǎn)向智能的基礎(chǔ)。
(3)強(qiáng)調(diào)計劃執(zhí)行檢查優(yōu)化(“PDCA戴明環(huán)”,Plan Do Check Action)在平臺的整合。主要是解決管理“最后一公里”的問題,要確保所有的計劃都有對應(yīng)的執(zhí)行,執(zhí)行的情況可以回溯、檢查。運(yùn)維管理的計劃-執(zhí)行-檢查-結(jié)果處理優(yōu)化與整個“PDCA戴明環(huán)”是不可分割的。通過系統(tǒng)實(shí)現(xiàn)閉環(huán)管理,并不斷提升執(zhí)行力,優(yōu)化工作的各個環(huán)節(jié)。
在上述的基礎(chǔ)上,建設(shè)銀行武漢生產(chǎn)園區(qū)通過建設(shè)數(shù)字運(yùn)維平臺對數(shù)據(jù)中心龐大的基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備進(jìn)行管理,并進(jìn)一步進(jìn)行智能運(yùn)維的探索與實(shí)踐,以下是部分建設(shè)內(nèi)容的經(jīng)驗總結(jié)。
(1)電子巡檢
電子巡檢功能著力解決兩項問題,一是確保巡檢質(zhì)量。通過NFC卡片確保人員必須到達(dá)工作地點(diǎn),通過平臺對巡檢路線和巡檢時間進(jìn)行約束,確保巡檢質(zhì)量。二是提升巡檢效率。通過與后臺監(jiān)控對接,減少抄表的環(huán)節(jié),使單次巡檢的時間減少了40%,同時更多地將巡檢重點(diǎn)放在監(jiān)控覆蓋不到的地方(比如異味、異響等),同時校驗監(jiān)控系統(tǒng),更好地實(shí)現(xiàn)巡檢與監(jiān)控的互補(bǔ)。三是通過系統(tǒng)收集巡檢數(shù)據(jù),可以方便后期對數(shù)據(jù)進(jìn)行分析和檢查,不斷優(yōu)化巡檢路線、時間和次數(shù)等,提升對設(shè)備的預(yù)防性維護(hù)的能力。
(2)全生命周期器件級資產(chǎn)管理
資產(chǎn)對象是運(yùn)維平臺的基礎(chǔ),幾乎所有的運(yùn)維活動都是針對資產(chǎn)對象(如巡檢、維修、維護(hù)、監(jiān)控等),資產(chǎn)管理既要解決不全面、不精細(xì)的問題,也要對運(yùn)維的信息流進(jìn)行有效串聯(lián)。一是對設(shè)備實(shí)現(xiàn)器件級管理,消除潛在的隱患?;A(chǔ)設(shè)施系統(tǒng)的核心設(shè)備普遍生命周期較長,但是其關(guān)鍵部件的生命周期往往較短,以UPS為例,UPS本身生命周期基本是20年左右,但是電容器壽命僅為4年,對這類核心設(shè)備實(shí)現(xiàn)更精細(xì)的器件級管理,在關(guān)鍵部件壽命到期后,系統(tǒng)自動提示更換,提升了管理的精細(xì)化水平。二是實(shí)現(xiàn)設(shè)備從需求、采購入庫、使用、報廢的全生命周期管理??紤]到核心設(shè)備的生命周期較長,因此需要對從需求到報廢各階段的信息統(tǒng)一納管。
(3)可視化監(jiān)控
采用可視化監(jiān)控在出現(xiàn)故障以后可以極大提升應(yīng)急處置的效率,因為基礎(chǔ)設(shè)施系統(tǒng)管理的難點(diǎn)在于系統(tǒng)內(nèi)部和系統(tǒng)之間的邏輯、關(guān)聯(lián)關(guān)系多而且復(fù)雜(比如供配電系統(tǒng)會影響暖通、安防等相關(guān)系統(tǒng)),同時系統(tǒng)設(shè)備量大,位置分布廣,同時存在關(guān)鍵設(shè)備與管線處于隱蔽區(qū)域?;谶@些特點(diǎn),可視化監(jiān)控采用二維和三維相結(jié)合的方式實(shí)現(xiàn),通過這兩者的結(jié)合與互補(bǔ),可以更全面展現(xiàn)系統(tǒng)的物理、空間和邏輯關(guān)系。在發(fā)生故障的時候可以迅速從系統(tǒng)和空間層面對故障點(diǎn)進(jìn)行定位,其故障定位的效率可比傳統(tǒng)的方式提升約75%,故障點(diǎn)的平均定位時間可縮短至1min以內(nèi)。
表2所示為DCIM平臺應(yīng)用效果對比情況。
DCIM平臺應(yīng)用效果對比 表2
運(yùn)維管理平臺、結(jié)構(gòu)化的過程運(yùn)維數(shù)據(jù)和自動化是實(shí)現(xiàn)智慧運(yùn)維的基礎(chǔ),但后續(xù)還需尋找契合AI等技術(shù)的運(yùn)維業(yè)務(wù)場景。以下是筆者所在團(tuán)隊正著力推進(jìn)的兩個方向。
(1)從數(shù)據(jù)收集向挖掘利用轉(zhuǎn)變
運(yùn)維平臺具備了對過程數(shù)據(jù)的收集能力,在此基礎(chǔ)上應(yīng)考慮挖掘應(yīng)用場景,從數(shù)據(jù)的收集整理向挖掘利用方面轉(zhuǎn)變。例如數(shù)據(jù)中心的空調(diào)暖通系統(tǒng)由樓控系統(tǒng)進(jìn)行控制,樓控系統(tǒng)提取制冷系統(tǒng)的運(yùn)行參數(shù)及運(yùn)行狀態(tài)數(shù)據(jù)后,將數(shù)據(jù)發(fā)送給人工智能平臺,通過人工智能對歷史數(shù)據(jù)的學(xué)習(xí),訓(xùn)練出PUE優(yōu)化控制模型。模型固化到推理平臺,推理平臺根據(jù)實(shí)時氣候條件、IT負(fù)載等因素,輸出最佳的控制策略下發(fā)群控系統(tǒng)優(yōu)化制冷系統(tǒng)能耗。
(2)從數(shù)字運(yùn)維向自動運(yùn)維轉(zhuǎn)變
AI在基礎(chǔ)設(shè)施運(yùn)維活動中有廣闊的應(yīng)用前景,特別是在設(shè)備故障預(yù)測方面。運(yùn)維平臺具備了對基礎(chǔ)設(shè)施數(shù)據(jù)的收集能力,為AI運(yùn)用提供了有效的樣本數(shù)據(jù)支撐,能夠快速訓(xùn)練出較高準(zhǔn)確度的故障預(yù)測模型。通過對設(shè)備故障的預(yù)測,可以把例行的巡檢、保養(yǎng)變成更有針對性的運(yùn)維活動,隨著預(yù)測準(zhǔn)確率的不斷提升,最終可以極大地減少甚至取消日常的人工運(yùn)維。