如何保證業(yè)務(wù)支撐系統(tǒng)安全可靠地運行?如何保證為客戶提供優(yōu)質(zhì)的服務(wù)?這是電信行業(yè)IT運維部門人員常常在考慮的問題。在不久的將來,基于智能監(jiān)控方式支撐電信企業(yè)運維的方案,可以讓他們更輕松地解決問題。
■ 中國聯(lián)合網(wǎng)絡(luò)通信有限公司唐暉
隨著計算機(jī)和通信技術(shù)的發(fā)展,通信用戶數(shù)成倍增加。為改善電信公司管理、完善業(yè)務(wù),運維支撐系統(tǒng)應(yīng)運而生,并且得到了長足發(fā)展。運維支撐系統(tǒng)包括客戶服務(wù)系統(tǒng)、業(yè)務(wù)經(jīng)營系統(tǒng)、計費系統(tǒng)、營賬系統(tǒng)等。對電信的IT運維部門來說,如何保證其業(yè)務(wù)支撐系統(tǒng)安全可靠地運行,如何保證為客戶提供優(yōu)質(zhì)的服務(wù),是他們面臨的全新挑戰(zhàn)。本文將針對電信運營企業(yè)業(yè)務(wù)支撐部門面臨的諸多運維問題,提出基于智能監(jiān)控方式來支撐電信運營企業(yè)業(yè)務(wù)系統(tǒng)運維的建議。
智能監(jiān)控系統(tǒng)包括網(wǎng)管系統(tǒng)通信、告警、事件管理、性能管理等多個子系統(tǒng)。智能監(jiān)控將日常通過人工手工方式執(zhí)行的運行維護(hù)工作借助計算機(jī)技術(shù)通過電子化方式加以實現(xiàn)。我們通常把智能監(jiān)控系統(tǒng)分為監(jiān)控代理層、數(shù)據(jù)處理層和展現(xiàn)層三個層次。其基本工作原理是:通過監(jiān)控代理層將各業(yè)務(wù)平臺資源的指標(biāo)信息傳到數(shù)據(jù)處理層,通過對數(shù)據(jù)進(jìn)行處理,形成所需要的性能信息、事件信息、告警信息,再通過展現(xiàn)層進(jìn)行配置和展示。
四大關(guān)鍵技術(shù)
智能監(jiān)控方式采用了多種先進(jìn)技術(shù),具體如下:
Agent采集技術(shù)
數(shù)據(jù)采集是智能監(jiān)控系統(tǒng)能夠?qū)崿F(xiàn)其監(jiān)控功能的前提。智能監(jiān)控系統(tǒng)是依靠Agent來實現(xiàn)數(shù)據(jù)采集功能的。Agent中的采集插件是完成采集功能的主要模塊。綜合監(jiān)控平臺提供了多種采集插件,包括命令行采集插件、SNMP采集插件、JMX采集插件、JDBC采集插件、NetFlow插件以及Syslog插件等。對平臺類資源還內(nèi)嵌了豐富的采集命令,采集命令可以是使用任何語言編寫的操作系統(tǒng)級外部命令,擴(kuò)展容易,對于今后的系統(tǒng)二次開發(fā)提供了便利條件。
事件壓制技術(shù)
事件管理能夠接受包括SNMP Trap服務(wù)器、Syslog服務(wù)器以及系統(tǒng)內(nèi)置的事件檢測引擎檢測到的事件,并按照統(tǒng)一的標(biāo)準(zhǔn)格式化事件信息,通過事件壓制規(guī)則壓制不同來源的相同事件。例如,SNMP Trap服務(wù)器報告了某路由的某端口宕事件,Syslog服務(wù)器也報告了同樣的事件,則這兩個事件將壓制為同一事件。
事件自動關(guān)聯(lián)技術(shù)
由于在實際環(huán)境中,很多事件之間存在關(guān)聯(lián)關(guān)系,如因果關(guān)系、觸發(fā)關(guān)系、影響關(guān)系等,同時由于很多被管對象之間存在父子關(guān)系,因此,可以通過建立合理的事件相關(guān)性模型和被監(jiān)管對象的父子關(guān)系,以及面向應(yīng)用過程的分析流圖,判斷已發(fā)生事件間的相關(guān)性,實現(xiàn)故障源識別和準(zhǔn)確的故障定位。
資源可用性評估技術(shù)
IT資源的可用性狀態(tài)可以分為5級:正常、警告、次要故障、主要故障、嚴(yán)重故障。資源管理可用性狀態(tài)管理就是計算資源當(dāng)前可用性狀態(tài)處于哪一級別。按照資源結(jié)構(gòu)樹的概念,子資源的可用性狀態(tài)將按照某種傳遞規(guī)則逐層向上傳遞,直到根節(jié)點。
資源可用性狀態(tài)管理,幫助運維管理組織實現(xiàn)了一種自上而下的監(jiān)控方法,真正實現(xiàn)所謂分層管理。不同級別的管理者,可以關(guān)心不同層次的資源,高級管理者只用關(guān)心高層父資源的可用性狀態(tài),而一般管理人員則需要關(guān)心子資源的可用性狀態(tài),以便定位故障根源。
由下到上的監(jiān)控層次
由圖1可以看到,智能監(jiān)控系統(tǒng)是由Agent、Center Server、IE展現(xiàn)三個層次組成的。Agent通過SNMP、平臺管理接口、自定義的應(yīng)用軟件接口規(guī)范及第三方產(chǎn)品的各種接口、協(xié)議等采集應(yīng)用軟件、主機(jī)、數(shù)據(jù)庫、網(wǎng)絡(luò)、中間件、存儲、備份等監(jiān)控數(shù)據(jù),并對監(jiān)控系統(tǒng)進(jìn)行處理。Agent處理數(shù)據(jù),處理后的數(shù)據(jù)傳給Center Server,并通過統(tǒng)一數(shù)據(jù)模型進(jìn)行數(shù)據(jù)分類、存儲,同時展現(xiàn)界面能通過IE等瀏覽器去查看、配置相應(yīng)的指標(biāo)。整個數(shù)據(jù)處理過程都是通過系統(tǒng)的內(nèi)部通信引擎進(jìn)行信息交換的。
由圖2可以看到,最底層是要監(jiān)控的對象,每個監(jiān)控對象部署命令服務(wù)器或開通相應(yīng)的接口協(xié)議。上一層是代理Agent,Agent可部署在獨立的一臺或多臺主機(jī)上,具體需要部署多少臺主機(jī),則需要根據(jù)監(jiān)控對象的數(shù)量來確定。代理上一層是服務(wù)中心,服務(wù)中心包括應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器,服務(wù)器可做雙機(jī)。如果需要出報表,還需要提供一臺報表服務(wù)器,同時告警服務(wù)中心可以通過一臺告警服務(wù)器進(jìn)行語音報警。最上一層需要配置多臺終端,用于維護(hù)人員查看系統(tǒng)情況。
將復(fù)雜問題簡單化
先進(jìn)的設(shè)計理念。本方案基于ITIL理論等IT服務(wù)管理的先進(jìn)理念設(shè)計而成,符合當(dāng)前先進(jìn)的IT服務(wù)管理標(biāo)準(zhǔn)。
完善的知識儲備。本方案通過引入IT資源結(jié)構(gòu)樹以及IT資源相關(guān)有向圖的概念,將IT系統(tǒng)的物理組成結(jié)構(gòu)以及邏輯關(guān)系全部映射到系統(tǒng)中,并且可以通過直觀的各種圖示來了解和監(jiān)控IT系統(tǒng)。
從下至上的監(jiān)控手段。從監(jiān)控IT資源的子資源的運行狀態(tài)開始來監(jiān)控IT資源本身的運行狀態(tài)。這種監(jiān)控手段有利于IT資源的故障定位。
從上至下的管理方法。方案通過提供業(yè)務(wù)視圖,建立業(yè)務(wù)與IT資源之間的映射關(guān)系,從而使管理人員可以從業(yè)務(wù)的角度來監(jiān)控IT資源對業(yè)務(wù)的影響,幫助快速恢復(fù)業(yè)務(wù),提高IT系統(tǒng)對業(yè)務(wù)的貢獻(xiàn)度。
故障發(fā)現(xiàn)的主動性。系統(tǒng)通過Manager/Agent技術(shù),對對象資源進(jìn)行自動監(jiān)視,一旦資源特征發(fā)生變化,將立即通過事件檢測引擎監(jiān)測事件發(fā)生。
告警的及時準(zhǔn)確性。當(dāng)系統(tǒng)檢測到事件發(fā)生后,經(jīng)過相應(yīng)的壓制與根源分析處理,系統(tǒng)將通過手機(jī)短信以及電話語音等方式及時準(zhǔn)確地通知相關(guān)的運維管理人員。這種通知機(jī)制還可以通過告警規(guī)則的定義實現(xiàn)提升、延遲告警等。
一鍵式配置特色。在對監(jiān)控資源進(jìn)行監(jiān)控配置時,可以通過預(yù)先設(shè)定的配置模板,實現(xiàn)一鍵式配置功能,極大地方便用戶的使用。
可配置性。本方案具有展示方式、事件類別、事件產(chǎn)生規(guī)則、告警及系統(tǒng)用戶和權(quán)限的可配置性。
開放性。采用系統(tǒng)分層設(shè)計思想,在層與層之間,都提供了開放的API接口,其通信協(xié)議建立在開放的XML基礎(chǔ)上,使系統(tǒng)具有良好的開放性。
可擴(kuò)展性。數(shù)據(jù)庫的設(shè)計采用了橫表變縱表模式,滿足當(dāng)增加一個監(jiān)控對象或監(jiān)控指標(biāo)時,數(shù)據(jù)庫結(jié)構(gòu)不需做任何修改。
被管理對象資源消耗可控制性。系統(tǒng)采用了監(jiān)控代理技術(shù),在需要被管理的資源系統(tǒng)上,安裝一個監(jiān)控代理,監(jiān)控代理負(fù)責(zé)監(jiān)管被監(jiān)管對象的屬性及其運行特征,其自身具備一定智能功能,可以過濾掉很多無關(guān)緊要的數(shù)據(jù),從而減輕對網(wǎng)絡(luò)傳輸資源的占用。
可維護(hù)性。方案建議采用將復(fù)雜問題分成若干簡單問題的分層設(shè)計思想,層與層之間耦合關(guān)聯(lián),增加系統(tǒng)的可維護(hù)性。
在不久的將來,基于智能監(jiān)控方式支撐電信運營企業(yè)業(yè)務(wù)系統(tǒng)運維的方案將逐步取代傳統(tǒng)人工維護(hù)方式。我們有理由相信,隨著智能監(jiān)控技術(shù)不斷發(fā)展和完善,基于智能監(jiān)控方式的電信運營企業(yè)運行維護(hù)系統(tǒng)必將在新一代電信運行維護(hù)系統(tǒng)中得到廣泛應(yīng)用。