胡貴龍
中國移動通信集團江蘇有限公司
DCIM數(shù)據(jù)中心基礎(chǔ)設(shè)施管理是一座溝通關(guān)鍵基礎(chǔ)設(shè)施和IT設(shè)備之間的橋梁,通過一整套包含硬件設(shè)施、傳感器和特定軟件的管理平臺與工具,實現(xiàn)覆蓋數(shù)據(jù)中IT關(guān)鍵設(shè)備(服務(wù)器、存儲、網(wǎng)絡(luò)、虛擬機)和場地基礎(chǔ)設(shè)施(配電、制冷、布線、機柜)等所有關(guān)聯(lián)系統(tǒng)的對象(安全、管理、環(huán)節(jié))進(jìn)行容量規(guī)劃、集中監(jiān)控、準(zhǔn)確處置、智能管理、預(yù)測模型、成本控制等功能,成為數(shù)據(jù)中心管理的主流趨勢,推動更高效、更效益、更環(huán)保的數(shù)據(jù)中心建設(shè)。
在中國當(dāng)前高速信息化技術(shù)蓬勃發(fā)展的背景下,數(shù)據(jù)平臺建設(shè)將是中國整體經(jīng)濟社會信息化發(fā)展的重要基礎(chǔ)。數(shù)據(jù)網(wǎng)絡(luò)平臺基礎(chǔ)設(shè)施影響著數(shù)據(jù)平臺建設(shè)的安全、快捷、環(huán)保與穩(wěn)定,怎樣合理保護好大型數(shù)據(jù)中心的機房安全,及時發(fā)覺危險隱患和消除故障問題,從而減少企業(yè)管理成本費用,提升運維效能,實現(xiàn)節(jié)能減排,已逐漸成為公司運營關(guān)注的重點。數(shù)據(jù)網(wǎng)絡(luò)平臺基礎(chǔ)建設(shè)運維與智能管理人員通過簡單的人機界面設(shè)計,使各種運行監(jiān)督管理軟件功能集中在同一軟件系統(tǒng)平臺,極大地簡化了用戶的運營工作。該數(shù)據(jù)中心基礎(chǔ)設(shè)施管理體系不但能保證數(shù)據(jù)中心經(jīng)濟、高效、協(xié)調(diào)地高速運行,還可以提升數(shù)據(jù)中心用戶的生產(chǎn)效率,從而減少設(shè)備運營費用,達(dá)到最優(yōu)化的管理目標(biāo),并給用戶帶來全方位、高效、安全、舒心、便捷的綜合服務(wù)。
對日益發(fā)展壯大的數(shù)據(jù)中心運營而言,目前主要面臨如下問題:
(1)管理效率低。數(shù)據(jù)中心的穩(wěn)定性和效率取決于日常運營和維護管理的效率。目前,大多數(shù)數(shù)據(jù)中心監(jiān)測和管理系統(tǒng)都很復(fù)雜,每個系統(tǒng)的獨立性導(dǎo)致信息孤島,自動化和智能程度不夠,勞動力高度依賴。
(2)資產(chǎn)管理難。數(shù)據(jù)中心管理著許多服務(wù)器、交換機以及其他信息設(shè)施,包括打開和關(guān)閉IT資產(chǎn)、維護和庫存。如果缺乏智能資產(chǎn)管理,則需要大批員工。
(3)容量使用率低、能耗較高。數(shù)據(jù)中心機架上架率低或者設(shè)備功率密度小,導(dǎo)致機架容量及電力容量使用率低。而大型數(shù)據(jù)中心的制冷系統(tǒng)缺乏有效的監(jiān)控與制冷參數(shù)動態(tài)調(diào)節(jié),引發(fā)制冷耗電量大,導(dǎo)致PUE和運營成本較高。
因此,通過研究一套數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)(DCIM),集成容量管理、機房資產(chǎn)管理、能效管理,將大大提高數(shù)據(jù)中心系統(tǒng)的效能和優(yōu)化運作能力。如圖1所示。
圖1 DCIM系統(tǒng)架構(gòu)圖
1.3.1 容量管理
提供2D可視化的實時容量監(jiān)控能力,將數(shù)據(jù)中心的電源、制冷、空間、機柜、接線和網(wǎng)絡(luò)等項目的容量狀況通過各種圖形儀表展示出來,并根據(jù)資產(chǎn)管理系統(tǒng)內(nèi)的變更情況自動更新,支持容量情況快速查看;提供3D建模仿真能力,以可用容量、容量策略、設(shè)備布局、電力保障、空調(diào)制冷、網(wǎng)絡(luò)連接等信息為基礎(chǔ),通過用戶自定義部署原則、智能搜索、放置和預(yù)留功能,智能化模擬新增設(shè)備的布局及容量影響,支撐最適合部署方案輸出。
1.3.2 機房資產(chǎn)管理
資產(chǎn)裝置(包括機柜、服務(wù)器設(shè)備、交換機和其他設(shè)備)的虛擬現(xiàn)實系統(tǒng)仿真模式,創(chuàng)建三維展示模式,逐層定位到機房、機柜與IT設(shè)施,直觀呈現(xiàn)信息的對象和位置屬性;建設(shè)基本企業(yè)固定資產(chǎn)配置管理模塊,結(jié)合RFID技術(shù)建立基本企業(yè)固定資產(chǎn)信息管理,動態(tài)閱讀并自動更新設(shè)備所有信息內(nèi)容,通過資產(chǎn)定位與追蹤的流程化管控功能,實現(xiàn)設(shè)備位置及移動信息變更的規(guī)范化與自動化,改善機房的設(shè)備管理。
1.3.3 能效管理
從體系的全過程出發(fā),遵循系統(tǒng)管理原理,通過實施一套完整的標(biāo)準(zhǔn)、規(guī)范,在組織內(nèi)建立起一個完整有效、形成文件的能源管理體系,注重建立和實施過程的控制,使組織的活動、過程及其要素不斷優(yōu)化,通過例行節(jié)能監(jiān)測、能源審計、能效對標(biāo)、內(nèi)部審核、組織能耗計量與測試、組織能量平衡統(tǒng)計、管理評審、自我評價、節(jié)能技改、節(jié)能考核等措施,不斷提高能源管理體系持續(xù)改進(jìn)的有效性,實現(xiàn)能效管理方針和承諾,達(dá)到預(yù)期的能源消耗或使用目標(biāo)。
數(shù)據(jù)中心管理是一個專業(yè)綜合體系,但目前數(shù)據(jù)中心管理人員往往依據(jù)各人習(xí)慣采用一系列離散的,不專業(yè)的工具對數(shù)據(jù)中心進(jìn)行維護。這種管理方式的優(yōu)點是獲取方式簡單,成本相對低廉,但是卻帶來了更多的問題。首先對數(shù)據(jù)中心管理者而言,沒有一個統(tǒng)一的視圖獲取所需信息;其次維護多個離散、不專業(yè)工具增加了數(shù)據(jù)維護代價,甚至在新老數(shù)據(jù)保持同步時彼此發(fā)生沖突;最后不同系統(tǒng)間的數(shù)據(jù)難以關(guān)聯(lián)和共享,在數(shù)據(jù)分析和業(yè)務(wù)預(yù)測時尤其困難。
很多企業(yè)使用ITSM管理工具進(jìn)行數(shù)據(jù)中心管理,這種工具有自己的管理功能,這些功能相對獨立,并且必須滿足某些標(biāo)準(zhǔn),但其實際管理內(nèi)容和數(shù)據(jù)中心的現(xiàn)場設(shè)備關(guān)系不大,因此導(dǎo)致了管理不全面的問題。同時很多企業(yè)將IT設(shè)施與設(shè)備的管理分成了不同的部門,盡管這一職責(zé)分配提高了人員管理和權(quán)責(zé)劃分,保證了相當(dāng)程度的專業(yè)化,但是增加了部門間的溝通成本,降低了數(shù)據(jù)中心運維的效率,甚至提高了數(shù)據(jù)中心發(fā)生事件的風(fēng)險。
為適應(yīng)企業(yè)可持續(xù)經(jīng)營發(fā)展的需要,減少企業(yè)總體經(jīng)營成本,增加業(yè)務(wù)靈活性,新一代的數(shù)據(jù)中心系統(tǒng)在IT架構(gòu)設(shè)計上更加彈性化,采用了更多如虛擬化和模塊化等高新技術(shù),使得UPS和空調(diào)等基礎(chǔ)設(shè)施更難與服務(wù)器、存儲、網(wǎng)絡(luò)等IT基礎(chǔ)架構(gòu)協(xié)調(diào)。傳統(tǒng)機柜中使用的服務(wù)器設(shè)備總量一般不會過多,功率密度不會過高,當(dāng)前的負(fù)載波動也不會過大。而在云時代,虛擬化使得負(fù)載可以在服務(wù)器之間動態(tài)遷移,爆發(fā)性訪問的特點也使得IT設(shè)備的功耗波動大且頻繁,隨之而來的是對供電和制冷容量的動態(tài)需求。刀片服務(wù)器的大量應(yīng)用使得單機柜的功率密度輕松突破10KW,不恰當(dāng)?shù)脑O(shè)計維護會導(dǎo)致局部熱點甚至宕機。
數(shù)據(jù)中心的電費支出在運維費用中占據(jù)著非常大的比重,因此提升電力效率已經(jīng)成為了數(shù)據(jù)中心的核心競爭力。通過DCIM系統(tǒng),不僅可以監(jiān)測環(huán)境數(shù)據(jù)中的PUE等關(guān)鍵能耗指標(biāo),還可以隨時監(jiān)測IT設(shè)備和基礎(chǔ)設(shè)施設(shè)備中的能耗變化,還能夠使場所服務(wù)設(shè)施和IT設(shè)備進(jìn)行相互匹配,使制冷與供熱系統(tǒng)隨著IT設(shè)備的需要變化而調(diào)整工作狀況,從而真正實現(xiàn)了按需而動,以達(dá)到最佳的能耗利用率。DCIM通過對這些數(shù)據(jù)進(jìn)行分類、管理與分析,為管理運維提供更加精準(zhǔn)合理的操作方法和運營參考意見,甚至對部分故障做出預(yù)先診斷,從而使運維變得更主動、更高效,極大地提高數(shù)據(jù)中心的安全性和運作效率。
人力和流程也是數(shù)據(jù)中心運作與保護過程中必須考量的關(guān)鍵因素之一。對正常工作時間研究表明,70%的數(shù)據(jù)中心安全事件都是人為因素導(dǎo)致的。DCIM工具可用作數(shù)據(jù)中心更新和業(yè)務(wù)流程管理的平臺。在實施數(shù)據(jù)中心更新時,DCIM工具可用來管理和審批數(shù)據(jù)中心變更涉及的人員和業(yè)務(wù)流程中的各種操作。舉例來說,如果將服務(wù)器置于機架上,則DCIM工具可利用所收集的歷史數(shù)據(jù)來匹配電源、制冷、存儲和網(wǎng)絡(luò)。在實施前,攜帶和其他資源審查和批準(zhǔn)每個步驟,并在系統(tǒng)上執(zhí)行模擬練習(xí)。它還可與API、母公司管理平臺以及ITSM工具中的過程管理系統(tǒng)相結(jié)合,以增加變更的可靠性和減少執(zhí)行時出錯的可能性。
保證數(shù)據(jù)中心的可用性,一方面依靠完善的系統(tǒng)架構(gòu)和有效的運行保護,減少問題;另一方面采取合理的緊急演習(xí)和全面的災(zāi)難恢復(fù)程序模擬,降低事件出現(xiàn)頻率,減少事故持續(xù)時間。一個完善的DCIM工具,不但能夠支持?jǐn)?shù)據(jù)中心日常運作與維護管理工作,還能夠支持管理者管理特定事項,例如管理水平的提高。
數(shù)據(jù)中心在設(shè)計時考慮余量提高可靠性,服務(wù)器運行達(dá)不到設(shè)計的銘牌功耗,因此機架容量不能夠被充分利用。DCIM以每1U位都是寶貴資源,盡可能提高設(shè)備利用率,延長數(shù)據(jù)中心壽命,提高投資回報率為目標(biāo),提供追蹤電量、制冷、空間、承重等容量、管理供電和網(wǎng)絡(luò)等連接關(guān)系、數(shù)據(jù)中心可視化建模等精細(xì)化能力,使得用戶擺脫過去手摸、眼看等粗放的判斷方式,實時了解每個機架和整個數(shù)據(jù)中心的資源消耗情況,提高資產(chǎn)利用率,延長數(shù)據(jù)中心的壽命,節(jié)約投資。
國內(nèi)數(shù)據(jù)平臺的構(gòu)建工作正全面啟動,各類數(shù)據(jù)資源公司不斷向數(shù)據(jù)平臺服務(wù)市場施壓。后期工程建設(shè)階段的運營服務(wù)日益受到各界重視,而數(shù)據(jù)中心管理軟件也日益受到了電信運營商的關(guān)注,DCIM代表著各種綜合基礎(chǔ)設(shè)施管理方式與方法,可以協(xié)助數(shù)據(jù)平臺的管理者、經(jīng)營與維護管理人員進(jìn)一步提升數(shù)據(jù)平臺設(shè)施的管理與運作效能。