沈麗菁等
摘 要: 隨著集中式數(shù)據(jù)中心的建設(shè),國家電網(wǎng)公司越來越多的業(yè)務(wù)系統(tǒng)會向數(shù)據(jù)中心集中部署模式遷移,這些業(yè)務(wù)系統(tǒng)存在諸多差異,如業(yè)務(wù)方向不同、技術(shù)路線不一等,而數(shù)據(jù)中心運維工作對于各業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控的要求日益強烈。為了解決這一問題,在此旨在通過研究SNMP協(xié)議的標準及實現(xiàn)方法,建立完善的監(jiān)控模式、統(tǒng)一的監(jiān)控指標集與科學的告警機制,最終實現(xiàn)基于SNMP的業(yè)務(wù)指標監(jiān)控系統(tǒng),對于提高集中部署業(yè)務(wù)系統(tǒng)的使用水平和運維人員的效率,降低管理成本具有重要的意義。
關(guān)鍵詞: 集中部署業(yè)務(wù)系統(tǒng); SNMP; 關(guān)聯(lián)監(jiān)控; 告警
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2015)12?0150?04
0 引 言
在國家電網(wǎng)公司初步建成集中式數(shù)據(jù)中心的背景下,針對公司各已建和在建應(yīng)用系統(tǒng)逐步向集中部署模式遷移的現(xiàn)狀,亟需對新環(huán)境下集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控技術(shù)進行研究?,F(xiàn)有的監(jiān)控方式存在監(jiān)控架構(gòu)異構(gòu)、監(jiān)控模式不完善、監(jiān)控指標與評價體系不一致等問題,難以適應(yīng)集中部署業(yè)務(wù)系統(tǒng)對監(jiān)控的需求。集中部署的業(yè)務(wù)系統(tǒng)用戶規(guī)模大,各類業(yè)務(wù)應(yīng)用的特點明顯,實現(xiàn)的技術(shù)路線區(qū)別較大,這些特有的復雜度、差異度、專業(yè)度將為統(tǒng)一監(jiān)控的實現(xiàn)帶來極大的挑戰(zhàn)。統(tǒng)一監(jiān)控的關(guān)鍵在于建立完善的監(jiān)控模式、統(tǒng)一的業(yè)務(wù)系統(tǒng)指標集與自下而上的告警機制,保障公司信息化建設(shè)平穩(wěn)、有序、規(guī)范的向集中部署模式轉(zhuǎn)變,確保業(yè)務(wù)系統(tǒng)安全穩(wěn)定運行。
1 研究思路
1.1 監(jiān)控模式
對集中部署業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控以監(jiān)控系統(tǒng)業(yè)務(wù)運行為主線,并對支撐其的中間件、數(shù)據(jù)庫、網(wǎng)絡(luò)、虛擬資源、主機、機房環(huán)境等資源進行監(jiān)控。主要以圖形拓撲方式進行信息展示,并提供實時查詢與統(tǒng)一告警。
業(yè)務(wù)運行監(jiān)控包括對集中部署業(yè)務(wù)系統(tǒng)業(yè)務(wù)指標的實時收集和業(yè)務(wù)流程的檢測。業(yè)務(wù)流程的檢測分為主動探測和被動抓包兩種方式。即對集中部署業(yè)務(wù)系統(tǒng)進行虛擬用戶的主動模擬業(yè)務(wù)探測;對業(yè)務(wù)系統(tǒng)的通道通過鏡像等方式被動收集數(shù)據(jù)包進行分析,來判斷業(yè)務(wù)流的正常。
資源監(jiān)控是監(jiān)控與集中部署業(yè)務(wù)系統(tǒng)相關(guān)聯(lián)的中間件、數(shù)據(jù)庫、服務(wù)器、網(wǎng)絡(luò)設(shè)備等資源。對這些IT基礎(chǔ)資源進行獨立的監(jiān)控,當某一層出現(xiàn)問題時,其上一次層肯定是要受到關(guān)聯(lián),原因的判斷主要根據(jù)告警發(fā)生的先后順序,來判斷故障源頭。如當數(shù)據(jù)庫鏈接超過閾值時,其會占用大量內(nèi)存,使內(nèi)存占用率超過安全閾值。進而使業(yè)務(wù)系統(tǒng)響應(yīng)速度變慢,直至癱瘓。
圖1 監(jiān)控層級圖
通過對業(yè)務(wù)運行監(jiān)控與資源監(jiān)控的深入分析與挖掘,梳理出能夠全面反映集中部署業(yè)務(wù)系統(tǒng)運行狀況的監(jiān)控指標,建立統(tǒng)一的指標集與對應(yīng)的評價體系,從而實現(xiàn)對集中部署業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控。
1.2 技術(shù)路線
本文通過對集中部署業(yè)務(wù)系統(tǒng)進行基于SNMP標準協(xié)議監(jiān)控的研究,為集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控技術(shù)路線打下基礎(chǔ)。
簡單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP),由一系列協(xié)議組和規(guī)范組成,包含一個應(yīng)用層協(xié)議(Application Layer Protocol)、數(shù)據(jù)庫模型(Database Schema)和一組資源對象。該協(xié)議能夠支持網(wǎng)絡(luò)管理系統(tǒng),用以監(jiān)測連接到網(wǎng)絡(luò)上的軟硬件平臺。
基于SNMP實現(xiàn)的網(wǎng)絡(luò)管理系統(tǒng)一般由以下幾個部分組成:管理基站(SNMP Manager),管理代理(SNMP Agent),管理信息庫(Management Information Base,MIB)和管理協(xié)議。管理基站作為管理端,是運維人員進行網(wǎng)絡(luò)管理的用戶接口,它具有向被管對象發(fā)送操作指令以及接收被管對象反饋信息的作用;管理代理(Management Agent)有兩種方式,一種是網(wǎng)絡(luò)設(shè)備,如主機,網(wǎng)橋,路由器和集線器等;一種是軟件服務(wù),如Net?SNMP等。這些設(shè)備或服務(wù)上的管理代理(Management Agent)都能夠接收來自管理端發(fā)送的指令信息,并且這些代理的狀態(tài)也能夠被管理基站監(jiān)視。管理代理(Management Agent)響應(yīng)管理端的指令并進行相應(yīng)的操作,也可以在沒有請求的情況下向管理端發(fā)送信息;MIB是所有被管理對象的數(shù)據(jù)庫,代表網(wǎng)絡(luò)中所有可以管理的資源,如設(shè)備、服務(wù)等。每個MIB對象對應(yīng)一個數(shù)據(jù)變量,每個數(shù)據(jù)變量則代表被管對象的某一個方面的信息,如主機內(nèi)存占用率、CPU使用率等;管理協(xié)議,即SNMP。它的基本功能是:取得(Get),設(shè)置(Set)和代理者主動向管理站通報重要事件(Trap)。
本文所述的對于集中部署業(yè)務(wù)系統(tǒng)SNMP的監(jiān)控系統(tǒng)中,監(jiān)控系統(tǒng)本身(包含其所在設(shè)備)具有向管理代理收發(fā)指令信息的功能,相當于管理基站。圍繞各集中部署業(yè)務(wù)系統(tǒng),有許多被管對象需要被監(jiān)控,包括數(shù)據(jù)庫、中間件等軟件,還有主機、路由器、交換機等硬件,每個被管對象的信息以層次的方式組合,最終分解成數(shù)據(jù)變量固化于管理信息庫中,管理信息庫為每個對象定義對象標識符(OID)作為惟一標識。每個被管對象上都運行著管理代理(SNMP Agent),作為與管理端通信的媒介。本文設(shè)計的管理代理實際上是一種SNMP服務(wù),它不直接部署在業(yè)務(wù)系統(tǒng),即被管對象上,也不是業(yè)務(wù)系統(tǒng)的一個組件。這個服務(wù)只負責維護業(yè)務(wù)系統(tǒng)所有指標數(shù)據(jù)的OID、獲取方式,這種獲取方式可能是一個數(shù)據(jù)庫查詢SQL或者一個可以調(diào)用的API接口等,以及處理來自客戶端的SNMP請求。
2 指標模型
集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控的基礎(chǔ)和關(guān)鍵是集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控指標集。要實現(xiàn)對不同業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控,首要任務(wù)是建立相對統(tǒng)一的指標集,并在指標集的基礎(chǔ)上建立科學的評價體系,最終通過評價體系掌握各集中部署業(yè)務(wù)系統(tǒng)的真實情況,實現(xiàn)統(tǒng)一監(jiān)控。
指標集的建立首先根據(jù)集中部署業(yè)務(wù)系統(tǒng)的實際情況,參照國網(wǎng)前期的運維經(jīng)驗與現(xiàn)實需要,開發(fā)出能夠準確、充分地反映集中部署業(yè)務(wù)系統(tǒng)情況的指標,再參考國內(nèi)外成熟系統(tǒng)的先進案例完善提升,形成業(yè)務(wù)系統(tǒng)運行指標與應(yīng)用指標兩大類型指標的指標集。
業(yè)務(wù)系統(tǒng)運行指標主要反映系統(tǒng)本身的運行狀況及關(guān)聯(lián)資源如服務(wù)器、數(shù)據(jù)庫、中間件等的狀態(tài),(視運維工作需要擴展)如表1所示。
業(yè)務(wù)系統(tǒng)應(yīng)用指標主要反映集中部署業(yè)務(wù)系統(tǒng)業(yè)務(wù)水平情況,由于不同的業(yè)務(wù)系統(tǒng)有著各自特有的核心業(yè)務(wù)邏輯和業(yè)務(wù)流程,所以應(yīng)用指標也不相同,以國家電網(wǎng)公司集中部署業(yè)務(wù)系統(tǒng)電子商務(wù)平臺為例,其應(yīng)用指標(視運維工作需要擴展)如表2所示。
之后本文針對指標集建立了一套評價體系,為運行指標模塊和應(yīng)用指標模塊分別賦予權(quán)重(可配置),根據(jù)業(yè)務(wù)系統(tǒng)的實際情況,指標集中的每個指標參照評價標準會得到相應(yīng)的分數(shù)(滿分10分),最后匯總出一個總分,這個總分即為反映該集中部署業(yè)務(wù)系統(tǒng)總體情況的重要依據(jù)之一。
3 MIB設(shè)計
要實現(xiàn)基于SNMP對集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控,首先需要完成MIB的定義,將集中部署業(yè)務(wù)系統(tǒng)需要監(jiān)控的對象信息以變量的形式固化到管理信息庫中,才能被管理代理識別并被管理端訪問。
根據(jù)管理信息庫的對象命名樹結(jié)構(gòu),企業(yè)的管理信息庫對象為:
對象標識符(OID):.iso.ide_org.dod.internet.private.enterprises
MIB節(jié)點:.1.3.6.1.4.1
將國家國家電網(wǎng)公司的私有管理信息庫(Management Information Base,MIB)的根節(jié)點定義在企業(yè)管理信息庫對象下:
對象標識符(OID):.iso.ide_org.dod.internet.private.enterprises.sg
MIB節(jié)點:.1.3.6.1.4.1.****(基于安全性的考慮,本文采用*代替實際節(jié)點值)
在此根節(jié)點下擴展所有集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控信息,形成國家電網(wǎng)公司集中部署業(yè)務(wù)系統(tǒng)監(jiān)控的樹形結(jié)構(gòu)。
首先根據(jù)國家電網(wǎng)公司的業(yè)務(wù)分類定義業(yè)務(wù)節(jié)點,再在此業(yè)務(wù)節(jié)點下定義監(jiān)控節(jié)點,形成對于業(yè)務(wù)監(jiān)控的根節(jié)點:
業(yè)務(wù)節(jié)點
對象標識符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus
MIB節(jié)點:.1.3.6.1.4.1.****.1
監(jiān)控節(jié)點
對象標識符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus.kpi
MIB節(jié)點:.1.3.6.1.4.1.****.1.1
對于集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控,按照其所屬的業(yè)務(wù)分類,在業(yè)務(wù)監(jiān)控根節(jié)點下分層定義,以國家電網(wǎng)公司物資管理業(yè)務(wù)為例:
對象標識符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus.kpi.mat.elc
MIB節(jié)點:.1.3.6.1.4.1.****.1.1.1.1
其中:節(jié)點.mat代表物資管理業(yè)務(wù);節(jié)點.elc代表物資管理業(yè)務(wù)下的電子商務(wù)平臺(系統(tǒng))。
電子商務(wù)平臺的運行指標與應(yīng)用指標就定義在系統(tǒng)節(jié)點的葉節(jié)點上,以電子商務(wù)平臺的運行指標“健康運行時長”為例,其節(jié)點定義如下:
對象標識符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus.kpi.mat.elc.run
MIB節(jié)點:.1.3.6.1.4.1.****.1.1.1.1.1
至此,就完成了集中部署業(yè)務(wù)系統(tǒng)監(jiān)控指標在管理信息庫中的定義,而且該管理信息庫易維護,方便其他業(yè)務(wù)系統(tǒng)及監(jiān)控指標的擴展。
4 SNMP Agent設(shè)計
5 告警設(shè)計
科學、完備的告警機制可以為運維人員日常工作提供規(guī)范、有效的告警信息,輔助運維人員進行故障判斷,縮短故障解決時間,減輕運維壓力與被動性,為信息運維提供有力技術(shù)支撐。告警設(shè)計的關(guān)鍵在于建立告警模型,本文通過對集中部署業(yè)務(wù)系統(tǒng)及其相關(guān)聯(lián)IT資源的梳理,根據(jù)IT資源的層級架構(gòu)(見圖1的監(jiān)控層級圖)建立集中部署業(yè)務(wù)系統(tǒng)層級告警模型,自下而上分為動力環(huán)境告警層、硬件/網(wǎng)絡(luò)(包括虛擬環(huán)境)告警層、軟件/服務(wù)告警層、業(yè)務(wù)系統(tǒng)告警層,以拓撲形式建立層級關(guān)系,故障發(fā)生時,系統(tǒng)按時間順序發(fā)出告警。引入智能判斷機制,根據(jù)告警級別、告警層級對故障進行智能判斷,并生成關(guān)聯(lián)分析報告,供運維人員分析參考。
一般的告警機制屬于“事后告警”,告警發(fā)出時,故障已經(jīng)發(fā)生,失去防患于未然的意義。對于集中部署業(yè)務(wù)系統(tǒng)的告警設(shè)計,除常規(guī)的告警設(shè)計外,更加側(cè)重于對于故障的預(yù)防,加入預(yù)警的設(shè)計。預(yù)警設(shè)計的關(guān)鍵在于指標閾值的估算,閾值越精確,預(yù)警的價值也越大。本文基于國家電網(wǎng)公司多年的歷史性能數(shù)據(jù),根據(jù)平均值計算出資源性能指標數(shù)據(jù)的趨勢曲線,當趨勢指標數(shù)據(jù)超出閾值時,即存在發(fā)生告警的可能。提供靈活配置告警類別、嚴重級別、告警閾值的告警規(guī)則,系統(tǒng)依據(jù)用戶配置的告警規(guī)則提供包括短信、郵件、語音等多種方式的告警服務(wù)功能,通過告警管理降低管理被動性,逐步實現(xiàn)無人值守的運維管理。
6 結(jié) 語
本文從國家電網(wǎng)公司集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控需求出發(fā),開展對集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控技術(shù)的研究。首先根據(jù)業(yè)務(wù)系統(tǒng)的實際情況,梳理出能夠全面反映業(yè)務(wù)系統(tǒng)運行狀況的監(jiān)控指標,建立統(tǒng)一的指標集與評分體系;然后采用基于SNMP協(xié)議的管理代理方式完成MIB與SNMP Agent設(shè)計,實現(xiàn)業(yè)務(wù)指標的固化;之后通過告警模型的設(shè)計支撐業(yè)務(wù)系統(tǒng)的運維管理;最終克服傳統(tǒng)監(jiān)控方式存在的不足,實現(xiàn)了對集中部署業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控。目前,本文所述的統(tǒng)一監(jiān)控技術(shù)已應(yīng)用于國家電網(wǎng)公司集中式數(shù)據(jù)中心,對于已遷移的集中部署業(yè)務(wù)系統(tǒng)已實現(xiàn)指標集的固化,評價模型也已用于日??己耍瑢τ诩胁渴饦I(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控已初見成效。隨著更多的業(yè)務(wù)系統(tǒng)完成遷移,對于集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控的研究成果將對提高運維人員的效率,提升集中部署業(yè)務(wù)系統(tǒng)的實用化水平與應(yīng)用水平,降低管理成本發(fā)揮越來越重要的作用。
參考文獻
[1] 葛君偉.云計算環(huán)境下的資源監(jiān)測模型研究[J].計算機工程,2011(11):31?33.
[2] 魏鋼,趙杰.基于SNMP的集群服務(wù)器狀態(tài)監(jiān)視系統(tǒng)設(shè)計[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2011(1):25?28.
[3] 張彤,吳世榮.基于SNMP計算機網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)研究[J].計算機技術(shù)與發(fā)展,2011(1):88?91
[4] 張登銀,陳瑋,任勛益,等.基于SNMP的MIB庫轉(zhuǎn)化成C文件的實現(xiàn)[J].計算機技術(shù)與發(fā)展,2011(9):6?9.
[5] 朱平堯.基于SNMP協(xié)議的CMTS/CM綜合網(wǎng)管系統(tǒng)的設(shè)計與實現(xiàn)[J].中國有線電視,2011(z1):6?15.
[6] 魏煜欣,李強.一種基于SNMP網(wǎng)絡(luò)性能管理數(shù)據(jù)的采集方法[J].計算機工程與應(yīng)用,2011(2):105?107.