王立平 何 榮
富陽市供電局經(jīng)過多年的信息化建設(shè),已有多個(gè)信息系統(tǒng)在使用,所采用的服務(wù)器和信息系統(tǒng)日益復(fù)雜。由于對(duì)現(xiàn)有的系統(tǒng)缺乏有效的管理手段,對(duì)計(jì)算機(jī)資源分布和性能分布缺乏有效的監(jiān)控手段,對(duì)系統(tǒng)故障和效率下降缺乏預(yù)警、分析工具。因此,需要建設(shè)一套服務(wù)器綜合管理系統(tǒng)來提高基礎(chǔ)設(shè)施的可靠性、利用率和安全性等,減少混合網(wǎng)絡(luò)管理環(huán)境下的運(yùn)營成本。同時(shí),系統(tǒng)還能為信息化的長(zhǎng)期發(fā)展規(guī)劃提供必要的依據(jù),在建設(shè)基礎(chǔ)設(shè)施的同時(shí),提供規(guī)劃和實(shí)現(xiàn)信息協(xié)調(diào)和資源管理,實(shí)現(xiàn)高效的系統(tǒng)管理,從而獲得可靠的信息支持。
一、管理系統(tǒng)功能需求
實(shí)現(xiàn)所轄的主機(jī)設(shè)備、服務(wù)器的監(jiān)控管理;
實(shí)現(xiàn)告警信息的定制、獲取、處理和統(tǒng)計(jì)功能;
實(shí)現(xiàn)對(duì)信息網(wǎng)上所有服務(wù)器設(shè)備的性能數(shù)據(jù)的采集和統(tǒng)計(jì)功能;
根據(jù)監(jiān)測(cè)到的性能原始數(shù)據(jù),對(duì)信息系統(tǒng)運(yùn)行狀況,運(yùn)行趨勢(shì)等進(jìn)行分析;
提供靈活的報(bào)表定制功能,針對(duì)需求定制開發(fā)報(bào)表。
二、管理系統(tǒng)的設(shè)計(jì)與建設(shè)
富陽市供電局已經(jīng)部署了北塔的IT綜合管理系統(tǒng)的網(wǎng)管模塊,為了保證管理平臺(tái)的統(tǒng)一,通過在北塔IT綜合管理系統(tǒng)中,增加主機(jī)、數(shù)據(jù)庫管理等功能模塊,實(shí)現(xiàn)了服務(wù)器綜合管理。
1.系統(tǒng)部署
(1)主機(jī)設(shè)備管理使用SNMP協(xié)議,開放只讀權(quán)限,并使用不同的字符串。在服務(wù)端進(jìn)行設(shè)置,實(shí)現(xiàn)服務(wù)器拓?fù)鋱D。
(2)對(duì)每個(gè)數(shù)據(jù)庫服務(wù)器建立管理用戶,開放最小權(quán)限,僅能查詢對(duì)應(yīng)的視圖與表,以免管理用戶權(quán)限過大。在服務(wù)器端將每個(gè)數(shù)據(jù)庫服務(wù)添加到應(yīng)用服務(wù)中進(jìn)行管理。
(3)通過對(duì)服務(wù)告警類進(jìn)行定義,可以對(duì)所有設(shè)備的CPU、內(nèi)存、應(yīng)用服務(wù)、數(shù)據(jù)庫重要參數(shù)等信息定義閥值,設(shè)置規(guī)則,在系統(tǒng)中進(jìn)行告警。
(4)通過報(bào)表設(shè)置,定義如設(shè)備負(fù)載、告警事件、服務(wù)報(bào)表等,按類別在不同的時(shí)間段生成報(bào)表,可生成EXCEL或HTML格式,便于分析總結(jié)。
2.系統(tǒng)實(shí)現(xiàn)的主要功能
(1)進(jìn)程狀態(tài)分析
服務(wù)器進(jìn)程控制對(duì)整個(gè)服務(wù)器的運(yùn)行至關(guān)重要,會(huì)影響到其操作系統(tǒng)的正常運(yùn)行和關(guān)鍵服務(wù)的正常運(yùn)行,所以實(shí)時(shí)掌握服務(wù)器的所有進(jìn)程運(yùn)行情況是很有必要的。
管理系統(tǒng)每分鐘從服務(wù)器上獲取最新的進(jìn)程運(yùn)行數(shù)據(jù),提供各進(jìn)程的運(yùn)行趨勢(shì)分析圖,包括進(jìn)程的CPU占用趨勢(shì)圖、物理內(nèi)存利用率趨勢(shì)圖等,方便管理人員查看各進(jìn)程一段時(shí)間以來的運(yùn)行情況。
(2)文件系統(tǒng)分析
文件系統(tǒng)分析主要提供服務(wù)器上各文件系統(tǒng)的空間大小和使用情況(已用空間、剩余空間、利用率)以及文件系統(tǒng)的名稱、類型等基本信息。
管理人員可以指定系統(tǒng)的刷新間隔,以一定的頻率自動(dòng)從服務(wù)器上讀取文件系統(tǒng)信息和參數(shù),便于服務(wù)器文件系統(tǒng)的狀態(tài)監(jiān)視和處理。
(3)CPU/內(nèi)存利用率分析
管理系統(tǒng)收集服務(wù)器的CPU/內(nèi)存利用率的性能狀態(tài),并與預(yù)設(shè)的CPU/內(nèi)存利用率閾值進(jìn)行比較和處理,以便及時(shí)處理系統(tǒng)的資源分配出現(xiàn)的不正常,避免可能遭到病毒攻擊或可能的有非法服務(wù)在活動(dòng)。
(4)硬盤性能分析
管理系統(tǒng)可以收集磁盤性能I/O狀態(tài)信息。幫助用戶分析磁盤讀取的繁忙程度,由于磁盤I/O信息是影響系統(tǒng)性能的常見因素,進(jìn)而得到對(duì)優(yōu)化整個(gè)系統(tǒng)性能的參考指標(biāo)。
(5)服務(wù)器日志查詢、分析
管理系統(tǒng)可以采用syslog、WMI、telnet、ssh的方式來讀取所監(jiān)控服務(wù)器的日志,并可按分鐘、小時(shí)、日等方式對(duì)日志進(jìn)行查詢與分析。
(6)數(shù)據(jù)庫管理
信息系統(tǒng)的運(yùn)行離不開數(shù)據(jù)庫,通過管理系統(tǒng),將數(shù)據(jù)庫加入管理中,可以實(shí)現(xiàn)oracle數(shù)據(jù)庫的會(huì)話、表空間、SGA、PGA等參數(shù)以及其他各類型數(shù)據(jù)庫各項(xiàng)參數(shù)的監(jiān)控。
三、系統(tǒng)建設(shè)和應(yīng)用的幾點(diǎn)思考
1.服務(wù)器管理系統(tǒng)實(shí)施前,均是通過手工方式對(duì)各臺(tái)設(shè)備進(jìn)行管理,需要對(duì)每臺(tái)設(shè)備進(jìn)行查看,出現(xiàn)問題時(shí),并不能第一時(shí)間發(fā)現(xiàn),而且記錄的數(shù)據(jù)有限,每臺(tái)設(shè)備的硬件資源使用情況不能做到一目了然,對(duì)設(shè)備運(yùn)行分析沒有準(zhǔn)確的數(shù)據(jù)支撐。通過服務(wù)器管理系統(tǒng)的實(shí)施,管理人員不需要每臺(tái)設(shè)備進(jìn)行巡視,就能獲取設(shè)備與系統(tǒng)的實(shí)時(shí)運(yùn)行情況。
2.對(duì)網(wǎng)絡(luò)設(shè)備、主機(jī)、應(yīng)用系統(tǒng)在內(nèi)的跨廠家、跨平臺(tái)的統(tǒng)一管理;網(wǎng)絡(luò)產(chǎn)品管理、服務(wù)器管理、應(yīng)用服務(wù)管理等進(jìn)行監(jiān)控;提供了較快速的故障告警信息、被監(jiān)視設(shè)備的故障日志等信息;能對(duì)這些系統(tǒng)提供的數(shù)據(jù)進(jìn)行整理和分析,為系統(tǒng)運(yùn)維以及信息基礎(chǔ)設(shè)施方面的規(guī)劃提供有力幫助。
3.信息系統(tǒng)是不斷發(fā)展的,網(wǎng)點(diǎn)的數(shù)量也在不斷增加。因此,在系統(tǒng)管理的范圍上將最終提供涵蓋從系統(tǒng)基礎(chǔ)設(shè)施到業(yè)務(wù)系統(tǒng)的全面的管理功能。這就需要所設(shè)計(jì)的系統(tǒng)具有從橫向(管理系統(tǒng)向多個(gè)業(yè)務(wù)系統(tǒng)擴(kuò)展)和縱向(管理功能的增加)兩個(gè)方面的可擴(kuò)展能力。
(作者單位:浙江省富陽市供電局)