文|北京捷通機房設備工程有限公司 路宗雷 李 濤
隨著信息技術的發(fā)展和普及,各行業(yè)數(shù)據(jù)中心機房數(shù)量與日俱增,其配套的環(huán)境設備也日益增多,使數(shù)據(jù)中心機房的安全越來越受到重視。一旦數(shù)據(jù)中心機房設備出現(xiàn)故障,就會影響計算機系統(tǒng)運行,若事故嚴重又不能及時處理就可能造成嚴重后果。因此,目前許多數(shù)據(jù)中心機房的管理不得不采用24小時專人值班來定時巡查機房場地設備的方法,這樣不僅加重了管理人員的負擔,而且往往不能及時排除故障。再加上目前國內普遍缺乏數(shù)據(jù)中心機房場地設備的專業(yè)管理人員,更加凸顯出了對數(shù)據(jù)中心機房進行綜合監(jiān)控管理的重要性。除此以外,數(shù)據(jù)中心機房所面臨的許多問題,也是在沒有監(jiān)控管理的情況下難以解決的。
◆ 機房設備盜竊案頻頻發(fā)生,報警、監(jiān)控、記錄功能的缺失導致犯罪分子逍遙法外;
◆ 維修人員的巡檢過程無法實施規(guī)范化的監(jiān)督管理,維護工作(何時、何人、多長時間完成)沒有客觀的記錄;
◆ 沒有機房門禁安防系統(tǒng)的情況下,在無人值守時出了問題無法及時發(fā)現(xiàn),運營商的安保部門不得不為此承擔很多額外的責任;
◆ 在供電系統(tǒng)沒有監(jiān)控的情況下,停電、市電異常、通信電源的狀態(tài)無法及時掌握,嚴重時可能導致停電后后備電池放電損壞;
◆ 機房空調常年打開,造成運營電費過高;
◆ 在機房環(huán)境沒有監(jiān)控的情況下,出現(xiàn)水浸、起火等無法及時處理等。
數(shù)據(jù)中心機房綜合監(jiān)控系統(tǒng)包括兩部分:數(shù)據(jù)中心機房環(huán)境及動力監(jiān)控系統(tǒng)、數(shù)據(jù)中心機房IT監(jiān)測系統(tǒng)。
(1)數(shù)據(jù)中心機房環(huán)境動力監(jiān)控系統(tǒng)監(jiān)控的主要內容包括:
◆ UPS設備監(jiān)控;
◆ 柴油發(fā)電機組設備監(jiān)控;
◆ 供配電設備,包括普通配電柜、智能精密配電柜的監(jiān)控;
◆ 空調設備(帶智能模塊)監(jiān)控;
◆ 新風機運行狀態(tài)監(jiān)測;
◆ 溫濕度監(jiān)測;
◆ 電源進線主電纜表面溫度監(jiān)測;
◆ 漏水報警;
◆ 防雷信號監(jiān)測;
◆ 消防信號監(jiān)測;
◆ 門禁系統(tǒng)監(jiān)測;
◆ 視頻監(jiān)控(分為模擬系統(tǒng)、數(shù)字系統(tǒng)兩種)。
(2)數(shù)據(jù)中心機房IT監(jiān)測系統(tǒng)監(jiān)控的主要內容包括:
◆ 硬件,包括網(wǎng)絡設備和服務器的監(jiān)測;
◆ 軟件,包括數(shù)據(jù)庫軟件、中間軟件和應用軟件的監(jiān)測。
2.2.1 數(shù)據(jù)中心機房環(huán)境動力監(jiān)控系統(tǒng)監(jiān)控的實施方式
(1)UPS設備監(jiān)控的實施方法:UPS電源通過智能協(xié)議轉換器,以軟件的方式與通信數(shù)據(jù)集中器進行通信,從而實現(xiàn)對UPS狀態(tài)的全面診斷和對UPS各項參數(shù)的監(jiān)視??蓪⒅匾獏?shù)(電壓、電流、頻率、電池參數(shù))存入數(shù)據(jù)庫以備查詢,并顯示相應曲線,使管理人員獲得對UPS工作狀況的全面了解。可在報警的同時顯示故障發(fā)生位置,給出故障原因。
(2)發(fā)電機設備監(jiān)控的實施方法:大型機房的24小時不間斷供電系統(tǒng)中,可配備UPS提供恒壓恒頻的不間斷電源,保護服務器和計算機在瞬間斷電時的正常工作和數(shù)據(jù)備份;為了提高供電等級,做到供電系統(tǒng)的萬無一失,可配備自動化程度高的柴油發(fā)電機組,保證交流同步發(fā)電機適應UPS這一非線性負載的特性,使其在無市電的情況下保證UPS對負載可靠供電。
(3)配電設備監(jiān)控的實施方法:可為配電設備加裝傳感器,通過智能采集模塊監(jiān)視電源的供電品質,包括電源進線的電壓、電流、頻率、電度等,并把相應數(shù)據(jù)存入數(shù)據(jù)庫,顯示重要參數(shù)的曲線。當電壓、頻率超越限值時,監(jiān)控系統(tǒng)可自動進行報警,并將其作為故障事件存入數(shù)據(jù)庫。
(4)空調設備監(jiān)控的實施方法:可通過智能協(xié)議轉換器以軟件的方式對空調實施監(jiān)控,可顯示空調的重要參數(shù)(溫度、濕度),顯示其歷史曲線,并將其存入數(shù)據(jù)庫??照{各部分工作狀態(tài)通過動畫顯示。用戶可對空調進行遠程開關操作和參數(shù)設置,一旦空調出現(xiàn)故障,用戶可得到相關處理信息,以便及時采取措施解決故障。
(5)溫度、濕度監(jiān)測的實施方法:機房的主要設備工作間均需安裝溫度和濕度傳感探頭,對溫度、濕度進行實時檢測,在監(jiān)視屏上顯示各測點溫度、濕度值。當檢測值超過各工作區(qū)規(guī)定的溫、濕度上、下限值時,在監(jiān)視屏的相應數(shù)據(jù)旁用醒目標志符的閃動來提示該值的超限報警。為在總體上監(jiān)視整個機房的溫度、濕度狀況,可在新風機的進風口和主空調機的回風口,分別檢測溫度和濕度。
(6)電纜溫度監(jiān)測的實施方法:遙測并實時顯示所設定主進線電纜的溫度。
(7)新風系統(tǒng)監(jiān)控的實施方法:可實時顯示新風機的工作狀態(tài)及參數(shù),一旦新風機停止工作或出現(xiàn)故障,由監(jiān)控主機進行告警;同時監(jiān)視過濾網(wǎng)堵塞報警。
(8)漏水報警的實施方法:可通過點式或線式漏水探測器準確反映出漏水區(qū)域。
(9)消防信號監(jiān)測的實施方法:由機房消防系統(tǒng)給出煙感等消防報警信號,通過采集設備上傳至控制主機。
(10)防雷信號監(jiān)測的實施方法:機房配電系統(tǒng)配置的避雷器系統(tǒng),當受到雷擊后給出報警信號,通過采集設備上傳至控制主機。
(11)門禁系統(tǒng)監(jiān)測的實施方法:環(huán)境監(jiān)測主控機能與門禁裝置進行通信,可收集并顯示每個門禁裝置內儲存的數(shù)名持卡人出入工作間的磁卡號和時間日期;同時可設定、消除或修正門禁裝置內的識別密碼和允許出入時間等。
(12)安全防破壞監(jiān)視的實施方法:在主要設備工作間都安裝雙鑒紅外探頭,當非常管制時期內發(fā)生破壞性入侵,雙鑒探頭即發(fā)出信號,監(jiān)視器即時顯示破壞性入侵發(fā)生位置,并驅動報警裝置進行聲光報警。
(13)視頻監(jiān)控系統(tǒng)的實施方法:通過網(wǎng)絡視頻監(jiān)控設備將遠程機房視頻音頻傳回中心,使遠程專家可以通過視頻及語音對本地的技術人員進行指導;通過圖像監(jiān)控報警聯(lián)動功能,起到對突發(fā)事件及時預警和及時處理的作用。
2.2.2 數(shù)據(jù)中心機房IT監(jiān)測系統(tǒng)監(jiān)控的實施方式
建立IT綜合管理平臺,實現(xiàn)對硬件系統(tǒng)(如網(wǎng)絡設備、服務器)和軟件系統(tǒng)(如數(shù)據(jù)庫軟件、中間軟件、應用軟件)運行狀況的監(jiān)控。
(1)硬件系統(tǒng)監(jiān)測的實施方法
①網(wǎng)絡設備監(jiān)測的實施方法
網(wǎng)絡設備監(jiān)測的主要目的是監(jiān)測網(wǎng)絡設備的可用性和性能。網(wǎng)絡設備的可用性和性能主要表現(xiàn)為網(wǎng)絡設備接口的相關狀態(tài)信息,包括接口狀態(tài)、接口流量、接口丟包率等,除此之外,網(wǎng)絡設備的可用性還包括CPU利用率、內存利用率、當前連接數(shù)、會話數(shù)、防火墻的性能指標等。
監(jiān)測系統(tǒng)不僅要對各種網(wǎng)絡設備的可用性和性能進行監(jiān)測,還要對網(wǎng)絡進行實時統(tǒng)計,保證能夠以各種數(shù)據(jù)指標、性能報表和性能趨勢圖為網(wǎng)絡的容量規(guī)劃、趨勢分析以及數(shù)據(jù)優(yōu)先級劃分的依據(jù)。
當機房網(wǎng)絡設備出現(xiàn)異常狀況時,監(jiān)測系統(tǒng)能夠實現(xiàn)以下異常狀況管理功能:
◆ 能夠對觸發(fā)事件(告警事件)進行記錄,由管理人員根據(jù)需求對各類事件進行分類,實現(xiàn)對事件的過濾;
◆ 能夠通過定義(根據(jù)事件的來源、類型、報警級別等)實現(xiàn)對事件的過濾和分析,按照事件的關聯(lián)設置功能,自動區(qū)分和抑制重復事件,減少系統(tǒng)負載;
◆ 可以按照設置,自動識別與新生成的事件相關的舊事件,從而直接反應當前的最新狀態(tài),使管理員不被過時的信息所干擾;
◆ 可在網(wǎng)絡設備出現(xiàn)故障,發(fā)出異常日志時幫助管理人員及時接收、發(fā)現(xiàn)異常日志,在配置發(fā)生改變時及時報警。
②服務器監(jiān)測的實施方法
服務器監(jiān)測應包括以下內容:
◆ 監(jiān)測服務器運行狀況,包括服務器CPU、內存、磁盤的使用情況,監(jiān)測的系統(tǒng)平臺應包括Windows、主流的UNIX等;
◆ 監(jiān)測Windows平臺和UNIX平臺上運行的相關進程、服務的運行狀況;
◆ 監(jiān)測服務器網(wǎng)卡的運行狀況,如網(wǎng)卡的流量、狀態(tài)和丟包率等;
◆ 對系統(tǒng)的日志變化情況進行監(jiān)測,支持通過匹配查詢、設置過濾條件等方式進行更深層次的分析。
(2)軟件系統(tǒng)監(jiān)測的實施方法
①數(shù)據(jù)庫軟件監(jiān)測的實施方法
在應用層面,監(jiān)測系統(tǒng)應可以直接了解數(shù)據(jù)庫執(zhí)行一段SQL語句花費的時間,例如讓程序定時執(zhí)行一些重要的與關鍵應用相關的SQL語句,如果查詢時間超過閥值或查詢結果不正確,即表明數(shù)據(jù)庫出現(xiàn)問題
在系統(tǒng)資源層面,監(jiān)測系統(tǒng)應可以監(jiān)測到數(shù)據(jù)庫服務器和客戶端的通信端口和數(shù)據(jù)庫的關鍵進程,當出現(xiàn)問題的時候能夠及時告警,使管理員能夠迅速發(fā)現(xiàn)問題。
②中間軟件監(jiān)測的實施方法
監(jiān)測系統(tǒng)應能夠對服務器上運行的支撐服務的中間軟件進行監(jiān)測,應支持市場主流的中間軟件吞吐量、執(zhí)行隊列長度、空間使用率等關鍵參數(shù)的監(jiān)控。
③應用軟件監(jiān)測的實施方法
監(jiān)測系統(tǒng)應能夠對Lotus Notes等應用軟件進行監(jiān)測,能夠通過對各個業(yè)務服務進行定時和實時的監(jiān)測,提供業(yè)務的服務水平數(shù)據(jù),包括OA、Mail系統(tǒng)所經路徑的延遲、丟包、流量、網(wǎng)絡停頓時間和網(wǎng)絡可用率,以及視頻會議的時延、延遲抖動、丟包情況。
綜上所述,完善的數(shù)據(jù)中心機房綜合監(jiān)控系統(tǒng)應該具備三大特點:能夠實現(xiàn)從設備運行情況到機柜微環(huán)境,再到機房整體環(huán)境的多層次監(jiān)控;有豐富的閾值設置以便監(jiān)測出危機的存在,且有豐富的預警方式和預警流程以保證相關人員能夠收到警訊,達到預警的目的;具備網(wǎng)絡化、智能化的特點,支持隨時隨地通過網(wǎng)絡查看機房內的情況。
傳統(tǒng)的機房環(huán)境監(jiān)控把重點放在了對機房整體環(huán)境、空調及配電柜的監(jiān)控上,忽視了對設備內部的監(jiān)控。另外,傳統(tǒng)的機房環(huán)境監(jiān)控系統(tǒng)也缺少豐富的閾值、預警方式和預警流程設置,不能在真正意義上實現(xiàn)預警功能。完善的數(shù)據(jù)中心機房綜合監(jiān)控系統(tǒng)應具有以下功能:
(1)設備內部監(jiān)控
機房監(jiān)控的目的在于保護機房內IT系統(tǒng)的正常、有效運行,在事故發(fā)生之前偵測出潛在危機,并通過各種方式將警情信息發(fā)送給相關人員及時處理。因此,機房監(jiān)控的核心應該是對IT系統(tǒng)運行狀態(tài)的監(jiān)控,而最直接有效的監(jiān)控應該是對IT設備運行狀態(tài)進行監(jiān)控。
(2)多層次的機房監(jiān)控
完善的機房監(jiān)控系統(tǒng)應該能夠實現(xiàn)從設備運行情況到機柜微環(huán)境,再到機房整體環(huán)境的多層次監(jiān)控,并能重點實現(xiàn)對設備內部的監(jiān)控。
(3)機房監(jiān)控的預警功能
預警是在事前,即故障或危害發(fā)生之前向管理人員報告潛在危機,提示相關人員進行處理,可以防止事故的發(fā)生。有效的預警可以增加系統(tǒng)平均無故障工作時間,并可以根據(jù)危機情況自動延伸到報警,即當危機出現(xiàn),可立刻將信息發(fā)送給相關人員直至危機得到有效處理,實現(xiàn)真正意義上的預警功能,最大程度地保護系統(tǒng)的運行。
1 Telecommunications Infrastructure Standard for Data Centers(ANSI/TIA-942-2005)
2 《電子信息系統(tǒng)機房設計規(guī)范》(GB 50174-2008)
3 《安全防范工程技術規(guī)范》(GB 50348-2004)