葛 威
(91872部隊 北京 102442)
網(wǎng)絡(luò)監(jiān)控系統(tǒng)研究
葛 威
(91872部隊 北京 102442)
隨著信息化技術(shù)的快速發(fā)展,網(wǎng)絡(luò)服務(wù)器系統(tǒng)軟硬件架構(gòu)日益復(fù)雜,這對IT運維工作的要求也越來越高,IT運維中網(wǎng)絡(luò)監(jiān)控技術(shù)也越來越受到重視。健壯的監(jiān)控系統(tǒng)會在IT運維工作中發(fā)揮著重要作用,它不僅能夠大大提升運維工作效率,減少工作失誤,使運維人員能夠及時發(fā)現(xiàn)系統(tǒng)所出現(xiàn)的故障和問題,而且可以通過對監(jiān)控數(shù)據(jù)的分析,為系統(tǒng)架構(gòu)的重構(gòu)提供數(shù)據(jù)支撐。論文對目前主流開放式監(jiān)控系統(tǒng)進(jìn)行了介紹,并以Zabbix監(jiān)控系統(tǒng)為例,對監(jiān)控系統(tǒng)基本功能進(jìn)行了演示。
IT運維;網(wǎng)絡(luò)監(jiān)控
當(dāng)前世界是風(fēng)起“云”(計算)涌的時代,SaaS(軟件即服務(wù))改變了傳統(tǒng)軟件實施的方式,而PaaS(平臺即服務(wù))則進(jìn)一步改善了各種應(yīng)用系統(tǒng)的生態(tài)環(huán)境;“物聯(lián)網(wǎng)”全面走入我們生活的角角落落只是時間問題;“智能社會”隨著全社會網(wǎng)絡(luò)基礎(chǔ)架構(gòu)的改善而一點點呈現(xiàn)在人們面前[1]。這些在廣泛降低了用戶端軟硬件投入的基礎(chǔ)上,卻對集中式的服務(wù)器端/群等提出了更為嚴(yán)峻的考驗。怎樣才能保障系統(tǒng)工作的高效性、穩(wěn)定性、可靠性?怎樣才能動態(tài)地了解用戶的需求和分配資源給到用戶?怎樣才能應(yīng)對潛在的網(wǎng)絡(luò)中的各種風(fēng)險?這些都需要能夠及時發(fā)現(xiàn)并采取有效措施及時解決,所以系統(tǒng)監(jiān)控技術(shù)越來越受到重視,系統(tǒng)監(jiān)控工作無疑占據(jù)了日常IT運維中非常重要的地位[1~2]。
監(jiān)控系統(tǒng)是運維工程師和研發(fā)工程師的眼睛,它幫助工程師在第一時間發(fā)現(xiàn)問題。服務(wù)器的整個生命周期,都要和監(jiān)控系統(tǒng)打交道。服務(wù)器上架,需要加入基礎(chǔ)監(jiān)控,比如CPU負(fù)載、內(nèi)存等;當(dāng)服務(wù)器開始使用提供服務(wù)時,需要加入對應(yīng)的應(yīng)用服務(wù)監(jiān)控;當(dāng)系統(tǒng)發(fā)生問題時,監(jiān)控系統(tǒng)要第一時間發(fā)出報警,報警中除了提示出現(xiàn)問題的部位,還要有一些數(shù)據(jù)和簡單的分析,以幫助接到報警的人員快速定位問題。在出現(xiàn)故障以后進(jìn)行問題分析時,還要靠監(jiān)控系統(tǒng)提供記錄的故障發(fā)生時服務(wù)器的狀況數(shù)據(jù),使得運維工程師可以通過不同維度進(jìn)行分析,找出問題原因[3]。
根據(jù)監(jiān)控系統(tǒng)在IT運維中的角色,理想的監(jiān)控系統(tǒng)應(yīng)該具有如下特點[2,4]:
1)監(jiān)控數(shù)據(jù)收集及可視化。監(jiān)控系統(tǒng)能夠自定義監(jiān)控的內(nèi)容,可以自己編寫腳本實現(xiàn)相關(guān)數(shù)據(jù)的收集;數(shù)據(jù)應(yīng)保存在數(shù)據(jù)庫中,以便以后需要的時候可以對這些數(shù)據(jù)進(jìn)行分析計算;能夠方便、快速地將監(jiān)控項目加入到服務(wù)器上,而不需要繁瑣的操作;數(shù)據(jù)可視化要能夠直觀清楚表達(dá)數(shù)據(jù)內(nèi)容。
2)異常數(shù)據(jù)報警。可以定義復(fù)雜的報警邏輯,可以實現(xiàn)監(jiān)控項目之間報警的關(guān)聯(lián)性,而不是只針對單一故障獨立報警;用戶可以根據(jù)實際情況自定義報警方式,如發(fā)送郵件或短息等;報警內(nèi)容能夠根據(jù)實際情況自行設(shè)置,可以獲取服務(wù)器的基本信息;報警后可以自動執(zhí)行簡單的命令,最大程度的做到自動修復(fù)故障、恢復(fù)服務(wù)器狀態(tài)。
3)和其它系統(tǒng)協(xié)同工作。有強(qiáng)大的API(應(yīng)用程序接口)提供使用,以便實現(xiàn)其它系統(tǒng)調(diào)用;監(jiān)控數(shù)據(jù)具有開放行,數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)設(shè)計簡單、合理、直觀;監(jiān)控可視化的圖表信息可以提供給用戶方便使用。
MRTG(Multi Router Traffic Grapher)是一套可以用來繪制網(wǎng)絡(luò)流程圖的軟件,由瑞士奧爾騰的Tobias Oetiker與Dave Rand所開發(fā)。MRTG最早的版本是在1995年春推出的,用Perl語言寫成,可跨平臺使用,數(shù)據(jù)采集使用SNMP協(xié)議,MRTG將收集到的數(shù)據(jù)通過Web頁面以GIF或PNG格式繪制出圖像,并以日、周、月為單位分別繪制出,可以查詢最大值和最小值。MRTG原本只能繪制出網(wǎng)絡(luò)設(shè)備的流量,后來發(fā)展出了各種插件。因此,網(wǎng)絡(luò)設(shè)備以外的其他設(shè)備也可以由MRTG監(jiān)控,例如,服務(wù)器的硬盤使用容量、CPU負(fù)載等。
Cacti(仙人掌)是一套基于PHP、MySQL、SNMP和RRDtool開發(fā)的網(wǎng)絡(luò)流量監(jiān)測圖形分析工具,它通過snmpget來獲取數(shù)據(jù),使用RRDtool繪圖,但使用者無須了解RRDtool的復(fù)雜參數(shù),它提供了非常強(qiáng)大的數(shù)據(jù)和用戶管理功能,可以指定每一個用戶能查看的樹狀結(jié)構(gòu)、主機(jī)設(shè)備等,還可以與LDAP結(jié)合進(jìn)行用戶認(rèn)證,同時也能自定義模板,在歷史數(shù)據(jù)的展示監(jiān)控方面,其功能非常強(qiáng)大。Cacti通過添加模板,使不同設(shè)備的監(jiān)控添加具有可復(fù)用性,并且具備可自定義繪圖功能,具有強(qiáng)大的運算能力(數(shù)據(jù)的疊加功能)[5~6]。
SmokePing主要用于監(jiān)視網(wǎng)絡(luò)性能,包括常規(guī)的ping、www服務(wù)器性能、DNS查詢性能、SSH性能等,底層使用RRDtool作為支持,特點是繪制的圖形非常漂亮,網(wǎng)絡(luò)丟包和延遲用顏色和陰影來表示,支持將多張圖疊放在一起。
Graphite是一個用于采集網(wǎng)站實時信息并進(jìn)行統(tǒng)計的開源項目,Graphite服務(wù)支持平均每分鐘4800次更新操作,采用簡單文本協(xié)議,具有繪圖功能,其即插即用的功能可以方便的用于任何需要監(jiān)控的系統(tǒng)中。和其他監(jiān)控工具不同的是,Graphite本身并不收集具體數(shù)據(jù),這些數(shù)據(jù)收集的工作通常由第三方工具或插件完成(如Ganglia、Nagios、Col?lectd等),因此,可以說Graphite是一個繪圖工具[7]。
Nagios是一個企業(yè)級的監(jiān)控系統(tǒng),可以監(jiān)控服務(wù)的運行狀態(tài)和網(wǎng)絡(luò)信息等,并能監(jiān)控所指定的本地或遠(yuǎn)程主機(jī)參數(shù)以及服務(wù),同時提供異常告警通知功能等。Nagios可以運行在Linux和UNIX平臺上,同時提供一個可選的基于瀏覽器的Web界面,以方便系統(tǒng)管理人員查看網(wǎng)絡(luò)狀態(tài)、各種系統(tǒng)問題,以及日志等。Nagios的功能側(cè)重于監(jiān)控服務(wù)的可用性,能及時根據(jù)觸發(fā)條件報警。目前,Nagios占領(lǐng)了一定的市場份額,但并沒有與時俱進(jìn),已經(jīng)不能滿足多變的監(jiān)控需求,架構(gòu)的擴(kuò)展性和使用的便捷性有待增強(qiáng),其高級功能集成在商業(yè)版Nag?iosXI中[8~9]。
ZenossCore(簡稱Zenoss)是開源企業(yè)級IT管理軟件,它允許IT管理員依靠單一的Web控制臺來監(jiān)控網(wǎng)絡(luò)架構(gòu)的狀態(tài)和健康度。Zenoss的強(qiáng)大功能在于配置管理數(shù)據(jù)庫,用于發(fā)現(xiàn)和管理公司IT環(huán)境的各類資產(chǎn)(包括服務(wù)器、網(wǎng)絡(luò)和其他設(shè)備)。Zenoss可以創(chuàng)建關(guān)鍵資產(chǎn)清單和對應(yīng)的組件(接口、服務(wù)、進(jìn)程、已安裝的軟件等)。建立好模型后,Zenoss就可以監(jiān)控和報告IT架構(gòu)中各種資源的狀態(tài)和性能狀況了,同時還提供與CMDB(配置管理數(shù)據(jù)庫)關(guān)聯(lián)的時間和錯誤管理系統(tǒng),以協(xié)助提高各類事件和提醒的管理效率,以此提高IT管理人員的工作效率。
Ganglia是一個跨平臺的、可擴(kuò)展的、高性能的分布式監(jiān)控系統(tǒng),如集群和網(wǎng)格。它基于分層設(shè)計,用RRDtool存儲數(shù)據(jù),具有可視化界面,適合于對集群系統(tǒng)的自動化監(jiān)控,其精心設(shè)計的數(shù)據(jù)結(jié)構(gòu)和算法使得監(jiān)控端到被監(jiān)控端的連接開銷非常低,目前已經(jīng)有成千上萬的集群正在使用Ganglia監(jiān)控系統(tǒng),可以輕松的處理2000個節(jié)點的集群環(huán)境。
開源OpenTSDB用Hbase數(shù)據(jù)庫存儲所有時序(無須采樣)的數(shù)據(jù),來構(gòu)建一個分布式、可伸縮的時間序列數(shù)據(jù)庫,它支持秒級數(shù)據(jù)采集,支持永久存儲,可以做容量規(guī)劃,并很容易接入到現(xiàn)有的報警系統(tǒng)中。OpenTSDB可以從大規(guī)模的集群(包括集群中的網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、應(yīng)用程序)中獲取相應(yīng)的采集指標(biāo),并進(jìn)行存儲、索引和服務(wù),從而使這些數(shù)據(jù)更容易讓人理解,如Web化、圖形化等。在對實時性要求比較高的場合,OpenTSDB是一個很好的選擇,它支持秒級的數(shù)據(jù)采集,這在其他監(jiān)控系統(tǒng)中是無法想象的。因得益于其存儲系統(tǒng)的選擇,所以它支持大數(shù)據(jù)分析。因此這個開源軟件在未來的環(huán)境中會有更多的用戶,也會獲得更廣泛的支持。
1)Zabbix概述
Zabbix是一個提供Web管理界面的企業(yè)級網(wǎng)絡(luò)分布式監(jiān)控解決方案,能監(jiān)視各種網(wǎng)絡(luò)參數(shù),保證服務(wù)器系統(tǒng)的安全運營;并提供靈活的通知機(jī)制以讓系統(tǒng)管理員快速定位/解決存在的各種問題。Zabbix由zabbixserver與可選組件zabbixagent兩部分構(gòu)成[10]:
(1)zabbixagent需要安裝在被監(jiān)視的目標(biāo)設(shè)備上,它主要完成對硬件信息或與操作系統(tǒng)有關(guān)的內(nèi)存、CPU等信息的收集。
(2)zabbixserver可以通過SNMP,zabbixagent,ping、端口監(jiān)視等方法獲取監(jiān)控數(shù)據(jù),實現(xiàn)對遠(yuǎn)程設(shè)備/網(wǎng)絡(luò)狀態(tài)的監(jiān)視和數(shù)據(jù)分析等功能。zabbix?server可以單獨監(jiān)視遠(yuǎn)程設(shè)備的狀態(tài),同時也可以與zabbixagent配合,輪詢zabbixagent主動讀取監(jiān)視數(shù)據(jù),或被動接收zabbixagent發(fā)送的數(shù)據(jù)[11]。
2)Zabbix基本功能
(1)具備常見的商業(yè)監(jiān)控軟件所具備的功能(服務(wù)器、網(wǎng)絡(luò)設(shè)備、應(yīng)用軟件等性能監(jiān)控)。
(2)具備協(xié)議監(jiān)控、多種告警方式、詳細(xì)的報表圖表繪制。
(3)支持自動發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備和服務(wù)器。
(4)支持分布式,能集中展示、管理分布式的監(jiān)控點。
(5)擴(kuò)展性強(qiáng),提供通用接口,可以自己開發(fā)完善各類監(jiān)控。
本文以目前較為流行的Zabbix網(wǎng)絡(luò)監(jiān)控平臺為例,進(jìn)行網(wǎng)絡(luò)監(jiān)控基本功能的演示。
首先需要搭建一個小型的網(wǎng)絡(luò)環(huán)境,在網(wǎng)絡(luò)環(huán)境中部署相關(guān)的服務(wù)器和客戶端硬件設(shè)備,然后將需要演示驗證的軟件系統(tǒng)部署到服務(wù)器或客戶端中,最后對Zabbix系統(tǒng)各功能進(jìn)行操作演示,網(wǎng)絡(luò)環(huán)境示意圖如圖1所示。演示環(huán)境中包含服務(wù)器、客戶端、網(wǎng)絡(luò)交換機(jī)等設(shè)備,其中:服務(wù)器由一臺筆記本電腦構(gòu)成,安裝Vmware ESXI虛擬化操作系統(tǒng),并在其操作系統(tǒng)內(nèi)構(gòu)建兩個Linux系統(tǒng)服務(wù)器,分別安裝Zabbix軟件和其它應(yīng)用服務(wù)軟件(如郵件、FTP服務(wù)器等);客服端A和客戶端B分別由一臺筆記本電腦構(gòu)建,其中在客戶端B上安裝可選組件zabbixagent,客戶端筆記本電腦通過交換機(jī)和其他設(shè)備連通;交換機(jī)用來組建網(wǎng)絡(luò)環(huán)境,實現(xiàn)服務(wù)器筆記本電腦、兩個客戶端筆記本電腦互聯(lián)互通,網(wǎng)絡(luò)地址分配如表1所示。
圖1 網(wǎng)絡(luò)環(huán)境示意圖
表1 演示驗證IP地址配置
Zabbix通過收集終端信息,匯總到Zabbix服務(wù)器端統(tǒng)一展現(xiàn)和分析。首先,客戶端A通過web界面登錄已安裝在服務(wù)器的Zabbix系統(tǒng),創(chuàng)建監(jiān)控主機(jī)(Host)、監(jiān)控項(Item)等需要展示和查看的相關(guān)監(jiān)控數(shù)據(jù)。通過監(jiān)控內(nèi)容的設(shè)置,可以實現(xiàn)對客戶端B的被動監(jiān)控,并且客戶端A作為一個網(wǎng)絡(luò)終端,也同樣可以被Zabbix系統(tǒng)主動監(jiān)控。利用Zab?bix自動發(fā)現(xiàn)功能,可以檢測到交換機(jī)設(shè)備,并利用SNMP協(xié)議(交換機(jī)端SNMP協(xié)議功能需開放),可以監(jiān)控到交換機(jī)各端口聯(lián)通狀態(tài)、端口流量等大部分信息。此外,Zabbix監(jiān)控系統(tǒng)還可以對虛擬機(jī)(如本例中郵件服務(wù)器)進(jìn)行同樣的狀態(tài)監(jiān)控?;谒鶆?chuàng)建的上述監(jiān)控信息,可進(jìn)一步創(chuàng)建事件(Event)和動作(Action)等功能,比如通過設(shè)定某項監(jiān)控數(shù)據(jù)閥值,當(dāng)監(jiān)控數(shù)據(jù)超過(或低于)該閥值時,觸發(fā)報警事件,并根據(jù)用戶設(shè)定,實現(xiàn)相關(guān)動作的自動執(zhí)行,最常見的是當(dāng)發(fā)生故障時,自動向用戶發(fā)出故障報警的郵件,或者自動向故障設(shè)備發(fā)出一些簡單的執(zhí)行指令,修復(fù)故障以恢復(fù)狀態(tài)[12~13]。
下面以我們搭建的演示環(huán)境,通過具體監(jiān)控功能設(shè)置,對Zabbix系統(tǒng)功能設(shè)置等進(jìn)行說明。
1)對客戶端A設(shè)備的監(jiān)控:
(1)創(chuàng)建監(jiān)控主機(jī):進(jìn)入Zabbix系統(tǒng)web管理頁面,點擊“Create Host”,輸入被監(jiān)控設(shè)備的名稱(TestHost)、主 機(jī) 組 名 稱(testgroup)、和 IP(192.168.12.201)。
(2)添加監(jiān)控項(Item):進(jìn)入上步創(chuàng)建的Host頁面,單擊“Item”后選擇“Create Item”,在“Name”項中輸入任意名稱(本例為CPU Load);在“Type”選項中選擇“zabbix agent”;在“Key”欄中輸入需要監(jiān)控CPU負(fù)載的參數(shù)“system.cpu.load”;可以在“Type of information”中選擇該監(jiān)控的數(shù)據(jù)類型“Numeric(float)”。
(3)添加觸發(fā)器(Trigger):Trigger是Zabbix報警的核心之一,本例將監(jiān)控項關(guān)聯(lián)一個觸發(fā)器,當(dāng)CPU負(fù)載超過某個閾值時,會觸發(fā)這個Trigger。在Trigger設(shè)置頁面中的“Name”中輸入任意名稱(本例為 CUP load is too high),在“Experssion”中輸入“{TestHost:system.cpu.load.last()}>40”,這里使用Zabbix的語法定義了一個表達(dá)式,表示剛剛創(chuàng)建的監(jiān)控項獲取的數(shù)據(jù)大于40。
(4)設(shè)置動作(Action):Zabbix系統(tǒng)中可以由Trigger由正常變?yōu)楫惓r觸發(fā)動作發(fā)生。如果當(dāng)出現(xiàn)問題時,需要Zabbix發(fā)送郵件通知,則在web頁面的“Administration”中選擇“Media”,可以看到Zabbix已經(jīng)默認(rèn)定義了三種媒介:Email是郵件、Jabber是XMPP、SMS是短信。在本例中,單擊Email,“Name”為該媒介的名字;Type選擇 Email;SMTP為郵件服務(wù)器(如填寫該環(huán)境內(nèi)的郵件服務(wù)器);SMTP email是發(fā)送報警郵件的郵箱。報警郵箱設(shè)置好后,選擇“Configuration”中的“Actions”單擊“Create action”新創(chuàng)建一個Action,Action名字可任意(如CPU Load is too high);在“Condition”標(biāo)簽頁中配置Action觸發(fā)的場景,這里選擇“Trigger name like CPU Load”,則Condition有三個條件如圖2所示,觸發(fā)條件為:服務(wù)器不在維護(hù)狀態(tài)中,Trig?ger的狀態(tài)是PROBLEM,并且Trigger的名字是“CPU Load”。通過這些條件,這個Action就和前面建立的Trigger關(guān)聯(lián)起來了;在“Operation”標(biāo)簽頁中的參數(shù)設(shè)置如圖3所示,其中“User”選項可添加需要郵件通知的人員。通過上述設(shè)置,即可對客戶端A的CPU負(fù)載進(jìn)行監(jiān)控和自動報警。
圖2 Action觸發(fā)條件
圖3 Operation標(biāo)簽頁選項示例
2)對客戶端B設(shè)備的監(jiān)控:
由于客戶端B設(shè)備已安裝zabbixagent組件,本例利用Zabbix系統(tǒng)被監(jiān)控設(shè)備主動工作模式對客戶端B設(shè)備監(jiān)控。運行在被監(jiān)控設(shè)備上的代理組件(zabbixagent)需要首先從Zabbix服務(wù)器端獲取需要采集數(shù)據(jù)的監(jiān)控項目列表及配置信息。而被監(jiān)控設(shè)備代理組件確定它所需要連接的Zabbix服務(wù)器的方法是:從其自身的配置文件(zab?bix_agentd.conf)中讀取ServerActive配置項內(nèi)容。該配置項的值指定了被監(jiān)控設(shè)備代理組件所需要連接的Zabbix服務(wù)器的IP地址或主機(jī)名,本例中將此項設(shè)為192.168.12.101;被監(jiān)控項目列表及其配置信息的讀取頻率則是由上述配置文件中的Re?freshActiveChecks配置項指定,但是如果讀取出錯,則它將在60ns后重試。設(shè)置完該配置文件后,與對客戶端A設(shè)備監(jiān)控設(shè)置步驟和參數(shù)類似,僅是在監(jiān)控項設(shè)置中將“Type”選項中選擇“zabbix agent(active)”項。
3)對交換機(jī)設(shè)備的監(jiān)控:
Zabbix可以實現(xiàn)通過掃描IP地址來發(fā)現(xiàn)監(jiān)控節(jié)點,只要節(jié)點滿足發(fā)現(xiàn)條件即可發(fā)現(xiàn)。本例通過配置Zabbix的自動發(fā)現(xiàn)(Discovery)功能來實現(xiàn)自動掃描交換機(jī)節(jié)點。進(jìn)入“Configuration”中的“Dis?conery”,單擊“Create rule”創(chuàng)建發(fā)現(xiàn)規(guī)則,定義該發(fā)現(xiàn)規(guī)則名字(如discovery switch);在“IP range”中填寫 192.168.12.1-200;在“Check Type”中 選 擇“SNMP v2 agent”。完成配置發(fā)現(xiàn)規(guī)則后,還要配置該規(guī)則觸發(fā)后的動作(Action),方法步驟與前述類似,本例中在“Action”中的“Operation”標(biāo)簽頁中設(shè)置自動添加主機(jī)監(jiān)控(Add host),實現(xiàn)發(fā)現(xiàn)交換機(jī)后自動添加被監(jiān)控的交換機(jī)設(shè)備;最后可以手動為該被監(jiān)控設(shè)備添加監(jiān)控項,步驟如前所述,僅所選參數(shù)不同:“type”選擇“SNMP v2 agent”,并根據(jù)所需監(jiān)控的數(shù)據(jù)填寫“SNMP OID”對象標(biāo)識符[14~16]。對虛擬機(jī)監(jiān)控與對客戶端設(shè)備監(jiān)控類似,在此不再贅述。本例功能演示效果圖如圖4所示。
圖4 運維監(jiān)控系統(tǒng)演示效果圖
當(dāng)前正處于信息化時代,IT運維是一項非常繁瑣復(fù)雜的工作,尤其是對于大型現(xiàn)代化企業(yè),運維成本耗費巨大,而網(wǎng)絡(luò)監(jiān)控技術(shù)是提高信息化系統(tǒng)運行可靠度、降低運維成本的一項重要手段,企業(yè)應(yīng)該根據(jù)自身實際情況選擇適合自己的監(jiān)控系統(tǒng)和軟件,應(yīng)該在網(wǎng)絡(luò)監(jiān)控系統(tǒng)方面投入更大的精力和關(guān)注度。
[1]付賢樹,朱艷超.虛擬化數(shù)據(jù)中心的IT運維管理淺談與實踐[J].電子技術(shù)與軟件工程.2014,15(08):195-196.FU Xianshu,ZHU Yanchao.Discussion and Practice on IT operation and maintenance management of virtualized data center[J].Electronic technology and software engi?neering,2014,15(08):195-196.
[2]蔡昭權(quán),索劍,汪華斌.基于Esper和Nagios的網(wǎng)絡(luò)監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)[J].計算機(jī)工程與科學(xué),2012,26(09):8-12.CAI Zhaoquan,SUO Jian,WANG Huabin.Design and im?plementation of network monitoring system based on Esper and Nagios[J].Computer engineering and Science,2012,26(09):8-12.
[3]湯兵勇.云計算概論[M].北京:化學(xué)工業(yè)出版社,2013:2-6.TANG Bingyong.An introduction to cloud computing[M].Beijing:Chemical Industry Press,2013:2-6.
[4]張術(shù)平.探討計算機(jī)網(wǎng)絡(luò)監(jiān)控系統(tǒng)的應(yīng)用與發(fā)展[J].無線互聯(lián)科技,2014,20(05):10-11.ZHANG Shuping.Discussion of the application and devel?opment of computer network monitoring system[J].Wire?less Interconnect Technology,2014,20(05):10-11.
[5]朱姝.淺談網(wǎng)絡(luò)監(jiān)控系統(tǒng)的設(shè)計思路[J].電腦知識與技術(shù),2012,16(23):24-26.ZHU Shu.An introduction to the design idea of network monitoring system[J].Computer knowledge and technolo?gy,2012,16(23):24-26.
[6]李志剛.淺談計算機(jī)網(wǎng)絡(luò)監(jiān)控系統(tǒng)的應(yīng)用[J].吉林廣播電視大學(xué)學(xué)報,2010,21(11):15-17.LI Zhigang.An introduction to the application of computer network monitoring system[J].Journal of Jilin TV&Ra?dio University,2010,21(11):15-17.
[7]張水平,孫云星,張鳳.SOA架構(gòu)的分布式網(wǎng)絡(luò)監(jiān)管系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)工程與設(shè)計,2011,18(7):22-25.ZHANG Shuiping,SUN Yunxing,ZHANG Feng.Design and implementation of a distributed network monitoring system based on SOA architecture[J].Computer engineer?ing and design,2011,18(7):22-25.
[8]宋磊,王靜文.OpenBSD下基于Nagios的網(wǎng)絡(luò)服務(wù)監(jiān)控報警系統(tǒng)的研究[J].電腦編程技巧與維護(hù),2009,33(14):112-113.SONG Lei,WANG Jingwen.Research on monitoring and alarming system of network service based on Nagios of OpenBSD[J].Computer programming skills and mainte?nance,2009,33(14):112-113.
[9]陳子國,劉金剛.基于nagios的網(wǎng)絡(luò)監(jiān)控系統(tǒng)的設(shè)計和實現(xiàn)[J].微計算機(jī)信息,2010,31(36):32-34.CHEN Ziguo,LIU Jingang.Design and implementation of network monitoring system based on Nagios[J].Microcom?puter information,2010,31(36):32-34.
[10]黃儉.ZABBIX在服務(wù)器監(jiān)控中的應(yīng)用與研究[J].科技信息,2010,34(20):26-29.HUANG Jian.Application and research of ZABBIX in server monitoring[J].Sci-tech Information,2010,34(20):26-29.
[11]李朝陽.利用ZABBIX進(jìn)行系統(tǒng)和網(wǎng)絡(luò)管理[J].計算機(jī)時代,2008,29(10):31-33.LI Chaoyang.Using ZABBIX for system and network management[J].Computer age.2008,29(10):31-33.
[12]李渤,陳瑩.IT的運維管理與實現(xiàn)[J].計算機(jī)光盤軟件與應(yīng)用,2013,29(18):10-13.LI Bo,CHEN Ying.Management and implementation of IT operation and maintenance[J].Software and applica?tion of computer CD,2013,29(18):10-13.
[13]姚仁婕.Zabbix監(jiān)控系統(tǒng)深度實踐[M].北京:電子工業(yè)出版社,2016:115-126.YAO Renjie.Deep practice of Zabbix monitoring system[M].Beijing:Electronics Industry,2016:115-126.
[14]黎皓.基于SNMP的網(wǎng)絡(luò)性能管理系統(tǒng)研究[J].通訊世界,2013,42(9):8-10.LI Hao.Research on network performance management system based on SNMP[J].Communication world,2013,42(9):8-10.
[15]趙輝,胥光輝,吳君青.一種新的SNMP操作實現(xiàn)方法[J].計算機(jī)應(yīng)用,2007,25(S1):35-37.ZHAO Hui,XU Guanghui,WU Junqing.A new imple?mentation method of SNMP operation[J].Computer ap?plication,2007,25(S1):35-37.
[16]呂斌斌.基于SNMP對服務(wù)器進(jìn)行監(jiān)管的研究和實現(xiàn)[J].湖州師范學(xué)院學(xué)報,2006,17(S1):26-29.LV Binbin.Research and implementation of server moni?toring based on SNMP[J].Journal of Huzhou Teachers College,2006,17(S1):26-29.
Research on System of Network Monitoring
GE Wei
(No.91872 Troops of the PLA,Beijing 102442)
With the rapid development of the information technology,the system hardware and software architecture of serv?ers are becoming increasingly complex,so the requirements of IT operation and maintenance are also getting higher and higher,and network monitoring technology has been paid more and more attention in IT operation and maintenance.A robust monitoring system will play an important role in IT operation and maintenance,which not only can greatly enhance the efficiency of operation and main?tenance,reduce errors,make operation and maintenance experts detect the faults and problems of system in time,but also through the analysis of the monitoring data,can provide data support for reconfigurable system architecture.In this paper,the mainstream open monitoring system is introduced,and the Zabbix monitoring system is taken as an example to demonstrate the basic functions of the monitoring system.
IT operation and maintenance,network monitoring
Class Number TP277
TP277
10.3969/j.issn.1672-9722.2017.12.027
2017年7月12日,
2017年8月21日
葛威,男,碩士,研究方向:計算機(jī)科學(xué)與技術(shù)、故障檢測及測試診斷技術(shù)。