周昊 李瑋 江蘇省廣電有線信息網(wǎng)絡股份有限公司泰州分公司
伴隨個人用戶數(shù)據(jù)業(yè)務的快速增長,IP城域網(wǎng)多業(yè)務的承載能力也進一步提升。在提高運營能力、確保網(wǎng)絡安全的同時,如何利用現(xiàn)代化的技術手段,搭建IP城域網(wǎng)的自動化運維平臺,在為個人用戶提供安全、豐富信息化服務的同時,提高運維工作效率,降低運維成本,成為我們需要解決的一大難題。
隨著個人數(shù)據(jù)業(yè)務的發(fā)展,IP城域網(wǎng)的業(yè)務規(guī)模不斷擴大,對運維人員的技術能力提出了更高的要求,原有的人工巡檢方式、通過各類小工具的查障手段已顯得捉襟見肘。暴露出的問題包括由于事件處理能力的不足,導致巡檢結果不夠準確、高效;存在運維報告不規(guī)范、格式不統(tǒng)一的情況,不利于運維的閉環(huán)和數(shù)據(jù)共享。
在此背景下,迫切需要對各類業(yè)務的日常運維巡檢工作進行整合,通過技術手段減輕人工任務;優(yōu)化運維流程。及時、準確地了解系統(tǒng)的運營狀況,是提高日常運維的技術含量,推動城域網(wǎng)的運維工作轉向精細化、標準化、自動化的重要前提,也是落實優(yōu)化調配的重要推手。
Zabbix是一款基于WEB界面提供分布式系統(tǒng)監(jiān)控的企業(yè)級開源解決方案。本文旨在利用新的技術體系,建立符合城域網(wǎng)運維工作的自動化平臺。IP城域網(wǎng)自動化運維平臺框架如圖1所示。
Zabbix是一個分布式的監(jiān)控系統(tǒng)。IP城域網(wǎng)自動化運維平臺采用Server-Proxy-Client架構,proxy是位于Server和Client之間的通信代理,proxy將采集的設備信息統(tǒng)一匯總給Server,Zabbix的這種分布式特性特別適合IP城域網(wǎng)這種跨機房、跨地域的網(wǎng)絡環(huán)境。
圖1 IP城域網(wǎng)自動化運維平臺框架
本項目將proxy部署在IP城域網(wǎng)的各集群節(jié)點,采集本地集群節(jié)點內的數(shù)據(jù)信息,再統(tǒng)一匯總給中心節(jié)點的Server,以減輕Server的負載壓力。
(1)設備資產(chǎn)管理
通過平臺自動化的數(shù)據(jù)采集,獲取設備型號、序列號、管理IP、MAC地址等資產(chǎn)信息,作為運維過程中重要的數(shù)據(jù)源信息提供給運維人員。
(2)設備運行狀態(tài)實時監(jiān)控
通過Zabbix,自動化巡檢功能可覆蓋所有納入監(jiān)管的設備以及監(jiān)控項的狀態(tài),快速定位故障問題,并形成結果報告,確保運維工作的閉環(huán)管理。
(3)異常告警及報警媒介
當采集的數(shù)據(jù)達到觸發(fā)條件時,觸發(fā)器就會被觸發(fā),然后通過報警媒介向關聯(lián)的用戶發(fā)送告警信息。
自動化運維平臺采用agent、SNMP、IPMI、腳本等方式,對IP城域網(wǎng)內的數(shù)通設備,硬件服務器、操作系統(tǒng)、應用服務和數(shù)據(jù)庫進行全面監(jiān)控。
其中,IP城域網(wǎng)中的數(shù)通設備、采用SNMP協(xié)議將設備端口流量、端口狀態(tài)、CPU、負載等監(jiān)控數(shù)據(jù)發(fā)送給proxy;
對于數(shù)據(jù)中心的操作系統(tǒng)、應用服務和數(shù)據(jù)庫,采用zabbix-agent插件,主動請求server獲取監(jiān)控項列表,并主動將監(jiān)控項內需要檢測的數(shù)據(jù)提交給proxy;
對物理服務器的硬件特性,采用IPMI協(xié)議對服務器CPU溫度、電壓、內存、風扇轉速等硬件指標實施監(jiān)控。
圖2 Zabbix核心設備監(jiān)控項
Zabbix對于底層硬件服務器、網(wǎng)絡設備、操作系統(tǒng)和數(shù)據(jù)庫監(jiān)控已經(jīng)非常完善,美中不足的是圖形化界面展示功能單一。在本項目中,使用第三方插件Grafana來實現(xiàn)系統(tǒng)圖形化UI的展現(xiàn)。
Grafana是一款可視化工具,擁有靈活的UI、豐富的插件;支持多種部署模式、支持多種時序數(shù)據(jù)庫的數(shù)據(jù)源特性,對每種數(shù)據(jù)源提供不同的查詢方法。支持四種面板類型:圖像、狀態(tài)、面板列表和表格,同時也支持文本類型。
圖3 Grafana圖形化展現(xiàn)效果
IP城域網(wǎng)自動化運維平臺是基于Zabbix系統(tǒng)和Grafana插件的結合應用,通過將IP城域網(wǎng)的日常運維監(jiān)控進行了重新的設計,使IP城域網(wǎng)性能監(jiān)控的穩(wěn)定性、可擴展性大幅提升;將傳統(tǒng)的運維模式轉向一體化、集中化、智能化,降低維護的難度和風險,達到了提高工作效率的目的。