夏正偉 方 吉
(1.武漢大學(xué)圖書館,湖北 武漢 430072;2.華中科技大學(xué)圖書館,湖北 武漢 430074)
夏正偉 男,1979年生。碩士,館員。研究方向:數(shù)字圖書館、網(wǎng)絡(luò)管理、網(wǎng)絡(luò)安全。
方 吉 男,1982年生。碩士,館員。研究方向:數(shù)字圖書館、存儲管理、云計(jì)算。
湖北省高等學(xué)校數(shù)字圖書館是依托現(xiàn)代化的分布式網(wǎng)絡(luò)、存儲及數(shù)字圖書館技術(shù),服務(wù)于湖北省全省110多家高校、數(shù)百萬用戶的區(qū)域性數(shù)字圖書館共享服務(wù)體系[1]。為了向湖北全省上百萬讀者提供穩(wěn)定的文獻(xiàn)資源信息服務(wù),必須運(yùn)用先進(jìn)的網(wǎng)絡(luò)管理技術(shù)建立一個適合湖北省高等學(xué)校數(shù)字圖書館分布式網(wǎng)絡(luò)環(huán)境的監(jiān)控管理系統(tǒng),向管理人員提供系統(tǒng)運(yùn)行管理、設(shè)備與應(yīng)用服務(wù)監(jiān)控、故障通知和服務(wù)質(zhì)量監(jiān)測等功能。
針對湖北省高等學(xué)校數(shù)字圖書館網(wǎng)絡(luò)監(jiān)控管理的需求,提出了一個基于Nagios的網(wǎng)絡(luò)監(jiān)控管理系統(tǒng)的框架,并在此基礎(chǔ)上進(jìn)行二次開發(fā),實(shí)現(xiàn)對網(wǎng)絡(luò)中的設(shè)備、主機(jī)以及各種應(yīng)用服務(wù)的故障預(yù)警及部分故障的自動修復(fù)、性能采集和展現(xiàn)。管理人員通過瀏覽器隨時隨地對網(wǎng)絡(luò)運(yùn)行的狀況進(jìn)行實(shí)時監(jiān)控;對網(wǎng)絡(luò)性能的采集,則為領(lǐng)導(dǎo)層提供準(zhǔn)確的統(tǒng)計(jì)信息和趨勢預(yù)測,為湖北省高校數(shù)字圖書館的下一步建設(shè)提供參考。
調(diào)研發(fā)現(xiàn),國內(nèi)外圖書館在數(shù)字圖書館高速發(fā)展的過程中遇到了不同程度的網(wǎng)絡(luò)管理與監(jiān)控問題,主要是以下幾個方面[2]:
①數(shù)字圖書館環(huán)境下設(shè)備和應(yīng)用服務(wù)增長較快、數(shù)量繁多,傳統(tǒng)網(wǎng)絡(luò)管理手段無法滿足需求;
②圖書館對網(wǎng)絡(luò)管理軟件基本上沒有資金投入計(jì)劃,圖書館界技術(shù)部門人員溝通交流相對較少,數(shù)字圖書館管理手段相對落后;
③數(shù)字圖書館環(huán)境下的數(shù)據(jù)監(jiān)測和收集重視程度不夠,容易給遠(yuǎn)期規(guī)劃帶來困惑和不確定性。
盡管圖書館對數(shù)字圖書館網(wǎng)絡(luò)管理有著強(qiáng)烈需求,但由于經(jīng)費(fèi)問題,大多數(shù)圖書館只能采用設(shè)備生產(chǎn)廠商提供的隨機(jī)軟件對部分設(shè)備進(jìn)行管理,難以實(shí)現(xiàn)全面的網(wǎng)絡(luò)與應(yīng)用監(jiān)控管理。傳統(tǒng)的網(wǎng)絡(luò)管理一般較多依賴于SNMP(Simple Network Management Protocol,簡單網(wǎng)絡(luò)管理協(xié)議)協(xié)議實(shí)現(xiàn)對設(shè)備狀態(tài)的監(jiān)控,而對于眾多數(shù)字圖書館相關(guān)的應(yīng)用及服務(wù)來說,一般缺乏對SNMP協(xié)議的支持,常規(guī)的網(wǎng)絡(luò)監(jiān)控手段無法對服務(wù)的健康狀態(tài)進(jìn)行有效的監(jiān)控。
然而,兼容性、可移植性、互操作性、易用性和易管理性是網(wǎng)絡(luò)管理技術(shù)發(fā)展的趨勢[3]。在管理對象上,越來越側(cè)重于對系統(tǒng)業(yè)務(wù)和應(yīng)用的管理。數(shù)字圖書館網(wǎng)絡(luò)管理系統(tǒng)需要具有為適應(yīng)不同規(guī)模的數(shù)字圖書館以及未來數(shù)字圖書館聯(lián)盟發(fā)展的能力,應(yīng)該能夠適應(yīng)分布式、集中式和集中分布式等多種結(jié)構(gòu),并且能實(shí)現(xiàn)實(shí)時監(jiān)控、及時報(bào)警和智能故障恢復(fù)等功能[4]。具有開放架構(gòu)和易擴(kuò)展性的開源網(wǎng)絡(luò)管理監(jiān)控軟件,正受到越來越多的關(guān)注,如Nagios、GroundWork、Qlusters等。對于缺乏資金投入的圖書館,應(yīng)用開源網(wǎng)管軟件并根據(jù)需要進(jìn)行二次開發(fā)和擴(kuò)展,為實(shí)現(xiàn)智能化的數(shù)字圖書館網(wǎng)絡(luò)管理創(chuàng)造了條件。
通過湖北省高校數(shù)字圖書館的網(wǎng)絡(luò)監(jiān)控管理需求分析,選擇開放源代碼軟件Nagios作為網(wǎng)絡(luò)監(jiān)控管理的核心,在此基礎(chǔ)上,進(jìn)行相關(guān)插件的開發(fā),以達(dá)到對計(jì)劃管理對象的監(jiān)控。Nagios是一個開放源代碼的網(wǎng)絡(luò)管理監(jiān)控框架,由Nagios核心模塊和擴(kuò)展部分(插件)構(gòu)成。Nagios的核心模塊負(fù)責(zé)調(diào)度、服務(wù)狀態(tài)檢查,以及進(jìn)行一些通知和自動恢復(fù)機(jī)制等附加操作,插件則用于服務(wù)狀態(tài)檢查,它們都由Nagios服務(wù)調(diào)用[5]。
系統(tǒng)主要由4個層次組成,分別是信息采集層、事件處理層、網(wǎng)絡(luò)管理層以及Web交互層[6],其邏輯結(jié)構(gòu)如圖1所示。
湖北省高校數(shù)字圖書館主要的被管對象歸納如下:Windows類服務(wù)器、Unix類服務(wù)器、網(wǎng)絡(luò)設(shè)備、機(jī)房溫度、UPS電源以及各類網(wǎng)絡(luò)應(yīng)用服務(wù)等。其中,機(jī)房溫度、UPS電源狀態(tài)是所有服務(wù)器及網(wǎng)絡(luò)服務(wù)運(yùn)行的基礎(chǔ);被管對象中Windows類和Unix類服務(wù)器需要監(jiān)測其內(nèi)存使用率、CPU負(fù)載、磁盤使用率;網(wǎng)絡(luò)設(shè)備需要監(jiān)測丟包率、SNMP狀態(tài)信息以及帶寬和流量;網(wǎng)絡(luò)應(yīng)用服務(wù)主要檢測HTTP服務(wù)的狀態(tài)。
在對上述被管對象的監(jiān)測過程中,發(fā)現(xiàn)故障需要進(jìn)行事件記錄,并根據(jù)事件通知規(guī)則通過E-mail、短信或者即時通信工具等向管理員發(fā)出通知。當(dāng)監(jiān)測到應(yīng)用服務(wù)狀態(tài)異常時,網(wǎng)絡(luò)監(jiān)控管理系統(tǒng)還能觸發(fā)預(yù)先定義的修復(fù)腳本,嘗試重新啟動應(yīng)用服務(wù),實(shí)現(xiàn)部分服務(wù)的自修復(fù)。
根據(jù)目前湖北省高校數(shù)字圖書館的規(guī)模,采用了集中管理模式,將Nagios部署在一臺Linux服務(wù)器上,對湖北省高校數(shù)字圖書館兩個數(shù)據(jù)中心進(jìn)行管理,被管對象包括6臺Linux服務(wù)器、30臺Windows服務(wù)器、2臺思科網(wǎng)絡(luò)交換機(jī)、UPS電源以及4條互聯(lián)網(wǎng)專線。具體見表1。
在網(wǎng)絡(luò)管理的諸多功能中,故障報(bào)警是最重要、最基本的。通過故障報(bào)警迅速發(fā)現(xiàn)和排除網(wǎng)絡(luò)故障,是網(wǎng)絡(luò)正常運(yùn)營的必要條件。Nagios系統(tǒng)支持多種故障報(bào)警方式,如E-mail、SMS短信息、即時通訊等。
Email方式的故障通知需要管理員定時收取郵件,實(shí)時性不高。即時通訊比E-mail方式有更高的實(shí)時性,能直接以彈出消息的方式通知管理員,但在網(wǎng)絡(luò)中斷的情況下,消息將無法發(fā)出。SMS短信息的方式更加靈活可靠,并且沒有地域限制,在網(wǎng)絡(luò)中斷的情況下,管理員也能通過手機(jī)短信得到通知,但需要服務(wù)器上安裝GPRS Modem(短信貓)。
表1 網(wǎng)絡(luò)監(jiān)控被管對象表
根據(jù)未知、警告、嚴(yán)重等不同的故障級別,故障報(bào)警發(fā)送方式的選擇策略見表2。
首先,需要安裝支持環(huán)境Apache、GCC編譯器、GD開發(fā)庫組件、RRDTool以及PNP等,在Linux系統(tǒng)中建立支持Nagios運(yùn)行的用戶nagios和用戶組nagcmd,并將nagios用戶和apache用戶加入nagcmd組。然后編譯和安裝Nagios核心系統(tǒng),為Nagios web界面創(chuàng)建用戶賬號,完成插件的開發(fā)與部署,最后進(jìn)行監(jiān)控對象、故障通知的配置。
表2 故障報(bào)警發(fā)送策略
部署的系統(tǒng)可以通過Web方式訪問,管理人員通過瀏覽器登錄后,可以完成有關(guān)管理操作。圖2是監(jiān)控系統(tǒng)運(yùn)行的主界面。
筆者實(shí)現(xiàn)的系統(tǒng)具有以下特征:
①擴(kuò)展了常規(guī)網(wǎng)絡(luò)管理的范疇:除網(wǎng)絡(luò)設(shè)備、主機(jī)外,對網(wǎng)絡(luò)中的應(yīng)用服務(wù)、機(jī)房溫度、UPS電源狀態(tài)等也可進(jìn)行管理;
②結(jié)構(gòu)合理,設(shè)計(jì)了一個開放性好、效率高的框架,具體功能模塊通過插件來實(shí)現(xiàn),用戶可以視需求來設(shè)計(jì)有關(guān)插件,可擴(kuò)展性強(qiáng);
③系統(tǒng)基于B/S結(jié)構(gòu),使管理人員可以隨時隨地通過Web頁面對網(wǎng)絡(luò)進(jìn)行管理;
④對重復(fù)、相關(guān)的事件進(jìn)行關(guān)聯(lián),避免事件風(fēng)暴的產(chǎn)生;
⑤利用事件處理腳本實(shí)現(xiàn)了部分故障的自動修復(fù)。
筆者實(shí)現(xiàn)的網(wǎng)絡(luò)監(jiān)控管理系統(tǒng)還存在一些可改進(jìn)的地方,如系統(tǒng)的配置過程較復(fù)雜,在網(wǎng)絡(luò)拓?fù)渖系娘@示能力較弱等。在下一階段的研究中,可進(jìn)一步對現(xiàn)有系統(tǒng)進(jìn)行改進(jìn)和完善,實(shí)現(xiàn)系統(tǒng)配置的簡單化,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的可視化。
[1]湖北省高等學(xué)校數(shù)字圖書館管理中心:湖北省高等學(xué)校數(shù)字圖書館的建設(shè).高校圖書情報(bào)論壇,2007(6):1-5.
[2]汪精明.高校校園網(wǎng)管理綜述.計(jì)算機(jī)與信息技術(shù),2009(5):75-76.
[3]雷震甲.計(jì)算機(jī)網(wǎng)絡(luò)管理.西安:西安電子科技大學(xué)出版社,2006:25-34.
[4]管海兵,白彩英.計(jì)算機(jī)網(wǎng)絡(luò)管理系統(tǒng)設(shè)計(jì)與應(yīng)用.上海:上海交通大學(xué)出版社,2004:56-78,125-134.
[5]Imamagic Emir,Dobrenic Dobrisa.Grid infrastructure monitoring system based on Nagios.In:Proceedings of the 2007 Workshop on Grid Monitoring, GMW’07,2007:23-28.
[6]I Raad,P Vial,W Raad.Telecommunications network management applications in an educational environment.International Journal of Engineering Education,2006(4):896-905.
[7]李晨光.Linux系統(tǒng)網(wǎng)絡(luò)管理模塊的實(shí)現(xiàn).鐵路計(jì)算機(jī)應(yīng)用,2008(6):35-38.