臺(tái)憲青 吳夢(mèng)悅 馬玉峰 趙旦譜
1(中國(guó)科學(xué)院電子學(xué)研究所蘇州研究院 江蘇 蘇州 215121)2(江蘇物聯(lián)網(wǎng)研究發(fā)展中心 江蘇 無錫 214135)
當(dāng)前,隨著云、分布式、虛擬化等技術(shù)的發(fā)展,多層級(jí)、分布式、多中心的服務(wù)體系架構(gòu)已經(jīng)普遍存在于公司、企業(yè)、政府等多種單位機(jī)構(gòu)中。服務(wù)器在服務(wù)體系架構(gòu)中扮演著重要的角色,并且會(huì)影響該體系架構(gòu)的服務(wù)質(zhì)量。因此,為了保障服務(wù)體系架構(gòu)的穩(wěn)定運(yùn)行,運(yùn)維人員需要通過對(duì)服務(wù)器進(jìn)行監(jiān)控的方式,時(shí)刻記錄服務(wù)器資源的狀態(tài)信息[1-3]。
然而,隨著服務(wù)體系架構(gòu)的不斷擴(kuò)大,對(duì)服務(wù)器集群的運(yùn)維和監(jiān)管變得日益復(fù)雜。另外,由于服務(wù)器集群上的數(shù)據(jù)量巨大,對(duì)服務(wù)器狀態(tài)的監(jiān)控和故障定位已然給運(yùn)維人員帶來了很大的難度[4-5],導(dǎo)致投在運(yùn)維上的人力物力成本逐漸加大。此時(shí),如何設(shè)計(jì)一種直觀、高效的服務(wù)器資源監(jiān)控系統(tǒng),從而規(guī)范、合理的管理服務(wù)器集群,已經(jīng)是一個(gè)亟待解決的問題[6-9]。
本文考慮了數(shù)據(jù)中心中服務(wù)器資源的有效監(jiān)控問題,并結(jié)合中科院先導(dǎo)科技專項(xiàng)(編號(hào):XDA19000000)軟件平臺(tái)對(duì)數(shù)據(jù)中心服務(wù)器集群的監(jiān)控需求,建立一套完整的實(shí)時(shí)針對(duì)分布式集群服務(wù)器資源的監(jiān)控系統(tǒng)。該系統(tǒng)可以實(shí)現(xiàn)如下功能:
(1) 統(tǒng)一管理數(shù)據(jù)中心的用戶權(quán)限、服務(wù)器及相關(guān)設(shè)備;
(2) 實(shí)時(shí)采集服務(wù)器運(yùn)行的狀態(tài)信息,并進(jìn)行統(tǒng)計(jì)分析和異常報(bào)警;
(3) 全面掌控應(yīng)用系統(tǒng)的進(jìn)程狀態(tài)和計(jì)算資源使用情況,以便第一時(shí)間察覺服務(wù)宕機(jī)等情況的發(fā)生,減少服務(wù)失效造成的損失。
本系統(tǒng)主要由六個(gè)模塊組成:① 數(shù)據(jù)采集模塊,② 數(shù)據(jù)存儲(chǔ)模塊,③ 統(tǒng)計(jì)分析模塊,④ 異常報(bào)警模塊,⑤ 系統(tǒng)管理模塊,⑥數(shù)據(jù)可視化模塊。系統(tǒng)架構(gòu)圖如圖1所示。
圖1 服務(wù)器資源監(jiān)控系統(tǒng)架構(gòu)圖
每個(gè)模塊的功能概括如下:
① 數(shù)據(jù)采集模塊:該模塊負(fù)責(zé)實(shí)時(shí)采集服務(wù)器資源狀態(tài)信息,并將信息發(fā)送到存儲(chǔ)模塊進(jìn)行長(zhǎng)期保存。為了減少采集代理對(duì)宿主機(jī)產(chǎn)生大負(fù)載,本系統(tǒng)的采集模塊將基于輕量級(jí)的采集工具Telegraf進(jìn)行開發(fā)[10]。
② 數(shù)據(jù)存儲(chǔ)模塊:該模塊用于接收采集模塊的數(shù)據(jù)并進(jìn)行持久化存儲(chǔ)。本系統(tǒng)設(shè)計(jì)將根據(jù)業(yè)務(wù)需求,采用關(guān)系數(shù)據(jù)庫(kù)MySQL和時(shí)序數(shù)據(jù)庫(kù)OpenTSDB組合的方式,對(duì)服務(wù)器進(jìn)行實(shí)時(shí)監(jiān)控。MySQL主要用于存儲(chǔ)用戶權(quán)限、機(jī)房設(shè)備等基本數(shù)據(jù),而OpenTSDB主要用于存儲(chǔ)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),并提供高并發(fā)訪問特性。
③ 統(tǒng)計(jì)分析模塊:該模塊對(duì)數(shù)據(jù)存儲(chǔ)模塊(OpenTSDB)中的實(shí)時(shí)數(shù)據(jù)進(jìn)行多個(gè)維度(比如物理維度、時(shí)間維度等)的統(tǒng)計(jì)和處理。統(tǒng)計(jì)分析的結(jié)果主要用于分析服務(wù)器的資源使用特性和規(guī)律,并為服務(wù)器的異常判斷提供依據(jù)。
④ 異常報(bào)警模塊:該模塊將對(duì)采集的數(shù)據(jù)進(jìn)行實(shí)時(shí)的異常檢測(cè),并對(duì)硬件資源和進(jìn)程狀態(tài)異常進(jìn)行實(shí)時(shí)報(bào)警,避免服務(wù)器長(zhǎng)時(shí)間故障和受到安全威脅造成的損失。
⑤ 系統(tǒng)管理模塊:該模塊將對(duì)中心機(jī)房設(shè)備、應(yīng)用服務(wù)進(jìn)程、用戶權(quán)限等信息進(jìn)行統(tǒng)一管理,提高機(jī)房管理人員的監(jiān)管效率。
⑥ 數(shù)據(jù)可視化模塊:該模塊提供多維、直觀的可視化效果,用戶可依據(jù)自己的需求來定制化配置界面。
由于數(shù)據(jù)中心的數(shù)據(jù)量巨大,為了不影響數(shù)據(jù)中心的整體性能,數(shù)據(jù)采集模塊將基于占用內(nèi)存小、對(duì)宿主機(jī)器產(chǎn)生負(fù)荷小的Telegraf采集器進(jìn)行開發(fā)。首先介紹采集模塊需要采集的信息項(xiàng),然后詳細(xì)地介紹基于Telegraf的采集插件開發(fā)。
2.1.1采集信息項(xiàng)
本監(jiān)控系統(tǒng)需要從數(shù)據(jù)中心服務(wù)器中采集到的詳細(xì)信息如表1-表7所示。這些信息主要分為三種類型:系統(tǒng)信息(表1)、計(jì)算資源狀態(tài)信息(表2-表5)、服務(wù)進(jìn)程信息(表6和表7)。
表1 系統(tǒng)信息
表2 CPU類信息
表3 Mem類信息
續(xù)表3
表4 Net類信息
表5 Disk類信息
表6 Process總體信息
表7 Process詳細(xì)信息
計(jì)算資源狀態(tài)信息包括CPU、內(nèi)存、網(wǎng)絡(luò)、磁盤的相關(guān)運(yùn)行狀態(tài)信息。服務(wù)進(jìn)程信息包括服務(wù)器進(jìn)程總體信息和進(jìn)程的詳細(xì)信息,其中進(jìn)程總體信息是指系統(tǒng)進(jìn)程總數(shù)以及處在各種狀態(tài)的進(jìn)程數(shù)量;詳細(xì)進(jìn)程信息是指單個(gè)進(jìn)程信息的進(jìn)程名、進(jìn)程ID以及計(jì)算資源利用率。
2.1.2采集器Telegraf插件化開發(fā)
Telegraf結(jié)構(gòu)由Input、Processor、Aggreator和Output四個(gè)模塊組成,如圖2所示。其中,Input是數(shù)據(jù)輸入端,支持多種協(xié)議方式的數(shù)據(jù)采集;Processor對(duì)采集的數(shù)據(jù)進(jìn)行簡(jiǎn)單的格式化、編碼和過濾;Aggregator提供數(shù)據(jù)的簡(jiǎn)單聚合功能,如最大值、最小值操作;Output是數(shù)據(jù)輸出端,主要用于將采集到的數(shù)據(jù)發(fā)送到存儲(chǔ)端,能夠支持的多種類型的數(shù)據(jù)庫(kù)和存儲(chǔ)方式,如關(guān)系數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、文件系統(tǒng)等。
由于Telegraf僅支持服務(wù)器端的系統(tǒng)信息和計(jì)算資源狀態(tài)信息采集,而不支持應(yīng)用進(jìn)程相關(guān)信息的采集,所以,為了能夠采集到服務(wù)器的進(jìn)程信息,我們需要在Input插件模塊中添加“process”插件。
圖3是Process插件的主函數(shù)開發(fā)流程圖。在該流程中,首先,調(diào)用Init()函數(shù)初始化Input插件,將其命名為“process”。然后,定義Description()函數(shù)對(duì)其功能、屬性進(jìn)行描述;定義SampleConfig()函數(shù)對(duì)其參數(shù)進(jìn)行配置。最后,創(chuàng)建核心函數(shù)Gather()用來進(jìn)行監(jiān)控?cái)?shù)據(jù)的統(tǒng)計(jì),統(tǒng)計(jì)好的數(shù)據(jù)在Gather()函數(shù)中進(jìn)行封裝,并回到主函數(shù)中完成插件的注冊(cè)。
圖3 Telegraf input插件開發(fā)主函數(shù)流程圖
Gather()函數(shù)的開發(fā)流程如圖4所示。首先,傳入?yún)?shù)acc。接著,獲取空的fields數(shù)組進(jìn)行屬性定義。然后,通過runtime.GOOS獲取系統(tǒng)類型,并調(diào)用getFromProc()函數(shù)(圖5)讀取服務(wù)器/proc目錄下的內(nèi)核信息進(jìn)行進(jìn)程信息的統(tǒng)計(jì),最后對(duì)measurement、fields數(shù)組封裝。
圖4 gather()函數(shù)流程圖
本監(jiān)控系統(tǒng)的存儲(chǔ)模塊主要用于存儲(chǔ)兩類信息:靜態(tài)的基本信息和動(dòng)態(tài)的監(jiān)控信息。基本信息包括用戶、權(quán)限、機(jī)房、機(jī)柜、服務(wù)器、應(yīng)用服務(wù)等,多為結(jié)構(gòu)化數(shù)據(jù),主要用于聯(lián)表查詢,因此采用關(guān)系數(shù)據(jù)庫(kù)MySQL來存儲(chǔ)。MySQL中包含的表ER圖如圖6所示。
圖6 MySQL表ER圖
監(jiān)控信息多為海量連續(xù)的時(shí)間序列數(shù)據(jù)信息。為了提高該種類型數(shù)據(jù)的存儲(chǔ)效率,采用基于HBASE改進(jìn)的OpenTSDB時(shí)序數(shù)據(jù)庫(kù)來對(duì)監(jiān)控信息數(shù)據(jù)進(jìn)行存儲(chǔ)。在該數(shù)據(jù)庫(kù)的執(zhí)行過程中,為了提高存儲(chǔ)和傳輸效率,采用key-Value的存儲(chǔ)形式,以此來減少傳輸和存儲(chǔ)過程中所占用的空間大小,其中key的值可以結(jié)合具體應(yīng)用場(chǎng)景來設(shè)置為時(shí)間、機(jī)器編號(hào)等值。監(jiān)控信息的數(shù)據(jù)存儲(chǔ)格式如下所示:
metric:cpu_usage
timestamp:1234567890
value:0.42
tags:host=web42,pool=static
其中:metric表示監(jiān)控信息名稱;timestamp表示數(shù)據(jù)產(chǎn)生的時(shí)間;value表示監(jiān)控信息(metric)的具體值;tags是對(duì)監(jiān)控?cái)?shù)據(jù)的描述,通過tags可實(shí)現(xiàn)數(shù)據(jù)的快速定位、檢索和統(tǒng)計(jì)分析。
統(tǒng)計(jì)分析模塊對(duì)數(shù)據(jù)分析過程分為三部分:數(shù)據(jù)讀取、聚合分析、數(shù)據(jù)存儲(chǔ),如圖7所示。首先,讀取OpenTSDB中存儲(chǔ)的原始數(shù)據(jù)。然后,進(jìn)行多維度的計(jì)算分析,依靠服務(wù)協(xié)調(diào)來保證計(jì)算過程的準(zhǔn)確性、實(shí)時(shí)性、擴(kuò)展性,獲取數(shù)據(jù)的周期特性和統(tǒng)計(jì)特性,便于管理人員和運(yùn)維人員掌握數(shù)據(jù)中心服務(wù)器總體資源的概況。最后,將統(tǒng)計(jì)結(jié)果存入到OpenTSDB數(shù)據(jù)庫(kù)。
圖7 統(tǒng)計(jì)分析過程圖
在數(shù)據(jù)的讀取過程中,采集器以秒級(jí)頻率采集數(shù)據(jù)。由于單線程讀取數(shù)據(jù)的時(shí)間效率很低,當(dāng)時(shí)間跨度較大時(shí),讀取過程采用多線程方式。而當(dāng)時(shí)間長(zhǎng)度大于小時(shí)級(jí)別時(shí),為進(jìn)一步提高讀取效率,對(duì)時(shí)間間隔進(jìn)行劃分,采用低粒度的時(shí)間間隔讀取數(shù)據(jù),每一個(gè)小的時(shí)間間隔用一個(gè)線程來讀取,讀取的數(shù)據(jù)發(fā)送到統(tǒng)計(jì)分析服務(wù)器進(jìn)行分析處理。數(shù)據(jù)讀取邏輯如圖8所示。
圖8 多線程數(shù)據(jù)讀取邏輯圖
另外,OpenTSDB支持http接口協(xié)議,對(duì)服務(wù)器IP、時(shí)間戳、監(jiān)控信息項(xiàng)進(jìn)行封裝,通過httpClient向OpenTSDB發(fā)出請(qǐng)求,其將結(jié)果通過同樣的格式返回,統(tǒng)計(jì)分析模塊對(duì)結(jié)果進(jìn)行Json解析,最后以Java對(duì)象格式獲取數(shù)據(jù)。HTTP請(qǐng)求OpenTSDB邏輯如圖9所示。
圖9 OpenTSDB HTTP協(xié)議訪問流程圖
聚合分析模塊使用HTTP接口從OpenTSDB讀取監(jiān)控信息進(jìn)行分析處理,并將結(jié)果使用HTTP接口寫回時(shí)序數(shù)據(jù)庫(kù),以備前段頁(yè)面進(jìn)行展示和歷史紀(jì)錄查詢。
聚合分析主要是對(duì)一段時(shí)間內(nèi)各類監(jiān)控信息數(shù)據(jù)求均值,用于資源狀態(tài)的評(píng)估。對(duì)于秒級(jí)和分鐘級(jí)的聚合操作直接利用時(shí)序數(shù)據(jù)庫(kù)的高并發(fā)特性聚合讀取,而對(duì)于小時(shí)、日、月、年等級(jí)別的數(shù)據(jù)聚合則要通過數(shù)據(jù)分級(jí)統(tǒng)計(jì),粗粒度時(shí)間聚合在細(xì)粒度數(shù)據(jù)聚合基礎(chǔ)之上進(jìn)行計(jì)算。分級(jí)統(tǒng)計(jì)邏輯如圖10所示。
圖10 分級(jí)統(tǒng)計(jì)邏輯圖
在圖10中,分級(jí)統(tǒng)計(jì)采用雙隊(duì)列多線程池方式,細(xì)時(shí)間粒度的數(shù)據(jù)完成自身數(shù)據(jù)的聚合操作,同時(shí)將數(shù)據(jù)存入數(shù)據(jù)庫(kù)作為粗時(shí)間粒度數(shù)據(jù)聚合的基礎(chǔ),實(shí)現(xiàn)一次數(shù)據(jù)讀取、多次數(shù)據(jù)處理的效果。同時(shí)計(jì)算型線程和IO型線程分離,提高了統(tǒng)計(jì)分析的效率。
本系統(tǒng)需支持多個(gè)機(jī)房百臺(tái)至千臺(tái)級(jí)別服務(wù)器的監(jiān)控,實(shí)時(shí)采集周期最小支持為1秒,監(jiān)控信息項(xiàng)為60條,統(tǒng)計(jì)分析維度達(dá)10個(gè)維度。為滿足海量數(shù)據(jù)的實(shí)時(shí)處理要求,系統(tǒng)采用分布式集群方式對(duì)監(jiān)控信息進(jìn)行處理,通過服務(wù)協(xié)調(diào)來保障新增服務(wù)器數(shù)據(jù)被處理、且只被單個(gè)統(tǒng)計(jì)服務(wù)實(shí)例處理。其中為防止統(tǒng)計(jì)分析服務(wù)實(shí)例宕機(jī)造成的個(gè)別服務(wù)器數(shù)據(jù)不被處理,使用Hash取模法對(duì)服務(wù)器id進(jìn)行計(jì)算,獲得該服務(wù)器所屬的服務(wù)實(shí)例。當(dāng)出現(xiàn)服務(wù)實(shí)例宕機(jī)的狀況便對(duì)所有服務(wù)器id進(jìn)行重Hash計(jì)算。統(tǒng)計(jì)分析模塊實(shí)現(xiàn)流程圖如圖11所示。
圖11 統(tǒng)計(jì)分析模塊實(shí)現(xiàn)流程圖
各個(gè)統(tǒng)計(jì)服務(wù)是并行計(jì)算的,統(tǒng)計(jì)服務(wù)實(shí)例可以根據(jù)監(jiān)控服務(wù)器數(shù)量增加或減少,實(shí)現(xiàn)了統(tǒng)計(jì)服務(wù)的彈性部署,合理利用資源。
采用zookeeper集群監(jiān)控當(dāng)前在線的統(tǒng)計(jì)服務(wù)實(shí)例的運(yùn)行狀態(tài),當(dāng)一臺(tái)統(tǒng)計(jì)服務(wù)器上線時(shí),會(huì)向其注冊(cè)臨時(shí)節(jié)點(diǎn),該臨時(shí)節(jié)點(diǎn)的值為當(dāng)前服務(wù)器的IP地址和端口號(hào)構(gòu)成的可路由的地址,當(dāng)一臺(tái)統(tǒng)計(jì)服務(wù)實(shí)例下線的時(shí)候,臨時(shí)節(jié)點(diǎn)便被刪除。當(dāng)服務(wù)器增加或者服務(wù)器減少,zookeeper集群都會(huì)通知協(xié)調(diào)分配服務(wù),重新進(jìn)行任務(wù)的劃分。
協(xié)調(diào)分配服務(wù)通過watcher監(jiān)聽器監(jiān)聽服務(wù)器的變化,更新本地緩存表并對(duì)新增加的服務(wù)器進(jìn)行編號(hào),利用Hash算法對(duì)服務(wù)器id進(jìn)行取模計(jì)算,獲取對(duì)應(yīng)的統(tǒng)計(jì)服務(wù)實(shí)例,或者刪除某服務(wù)器id。
進(jìn)程掛機(jī)或者資源占用異常會(huì)影響服務(wù)器的處理速度或提供服務(wù)的能力,因此需要設(shè)定報(bào)警規(guī)則對(duì)異常事件進(jìn)行報(bào)警。異常報(bào)警模塊將提供報(bào)警規(guī)則設(shè)定和管理、歷史報(bào)警事件記錄的功能。
本文主要針對(duì)系統(tǒng)負(fù)載、計(jì)算資源和服務(wù)狀態(tài)三個(gè)方面進(jìn)行異常檢測(cè)和報(bào)警通知。其報(bào)警模塊架構(gòu)圖如圖12所示。
圖12 異常報(bào)警模塊架構(gòu)圖
在本系統(tǒng)的報(bào)警規(guī)則中,當(dāng)各個(gè)指標(biāo)滿足一定的報(bào)警條件時(shí),報(bào)警模塊將根據(jù)不同的閾值觸發(fā)不同級(jí)別的報(bào)警。表8定義了warning和critical兩種默認(rèn)的報(bào)警級(jí)別。
表8 默認(rèn)報(bào)警規(guī)則表
另外,本系統(tǒng)還提供報(bào)警規(guī)則配置接口,供用戶進(jìn)行規(guī)則的自定義。異常報(bào)警模塊的原理如圖13所示。
圖13 異常報(bào)警模塊邏輯圖
從OpenTSDB數(shù)據(jù)庫(kù)中讀取最新采集到的數(shù)據(jù)經(jīng)過預(yù)處理操作,并和redis緩存的報(bào)警閾值數(shù)據(jù)進(jìn)行對(duì)比,對(duì)于連續(xù)超過閾值和限定次數(shù)的事件判定為異常,可為各種報(bào)警方式提供觸發(fā)信息。
系統(tǒng)管理模塊包括對(duì)用戶權(quán)限信息管理和中心機(jī)房設(shè)備管理兩部分,如圖14所示。
圖14 系統(tǒng)管理模塊功能結(jié)構(gòu)圖
在用戶權(quán)限的管理中,系統(tǒng)根據(jù)用戶的角色和所屬機(jī)構(gòu)進(jìn)行角色權(quán)限訪問控制。在機(jī)房設(shè)備管理中,系統(tǒng)采用樹形層級(jí)結(jié)構(gòu)來管理中心機(jī)房中的所有設(shè)備,以便維護(hù)人員可以根據(jù)層級(jí)關(guān)系查看總體概況。
在本節(jié)中,我們將依次展示所開發(fā)的資源監(jiān)控系統(tǒng)在數(shù)據(jù)采集、異常報(bào)警和系統(tǒng)管理方面的效果。
圖15展示了系統(tǒng)在部分硬件指標(biāo)上的數(shù)據(jù)采集結(jié)果。通過可視化分析工具,我們可以通過文字、柱狀圖、折線圖等多種方式,直觀、清晰地發(fā)現(xiàn)服務(wù)器在CPU、磁盤以及網(wǎng)絡(luò)方面的實(shí)時(shí)狀態(tài)結(jié)果。
圖15 硬件指標(biāo)數(shù)據(jù)實(shí)時(shí)顯示
圖16展示了報(bào)警規(guī)則設(shè)置界面,供用戶根據(jù)實(shí)際情況進(jìn)行報(bào)警規(guī)則自定義,用戶可定義指標(biāo)閾值和報(bào)警條件,并選擇報(bào)警方式。
圖16 報(bào)警規(guī)則配置界面
圖17展示了系統(tǒng)給操作者提供的信息管理統(tǒng)一接口,以列表和表格的形式展示用戶、角色、機(jī)構(gòu)、權(quán)限、機(jī)房、機(jī)柜、服務(wù)器、應(yīng)用服務(wù)、服務(wù)實(shí)例的信息,用戶可在界面對(duì)數(shù)據(jù)進(jìn)行查看、編輯和刪除操作。
圖17 系統(tǒng)管理模塊界面
本系統(tǒng)針對(duì)數(shù)據(jù)中心大規(guī)模服務(wù)器資源的監(jiān)控需求,設(shè)計(jì)并實(shí)現(xiàn)了一套完整的解決方案。在該方案中,采集端使用輕量級(jí)負(fù)載小的采集代理Telegraf,對(duì)服務(wù)器系統(tǒng)信息、計(jì)算資源狀態(tài)信息、服務(wù)進(jìn)程信息進(jìn)行采集,并將采集結(jié)果發(fā)送到時(shí)序數(shù)據(jù)庫(kù)OpenTSDB中存儲(chǔ)。OpenTSDB以較小的存儲(chǔ)空間和時(shí)序函數(shù)優(yōu)越的查詢性能,保證監(jiān)控時(shí)序數(shù)據(jù)的高效存儲(chǔ)和快速處理海量數(shù)據(jù)的能力。統(tǒng)計(jì)分析模塊采用分布式集群技術(shù)、多機(jī)協(xié)同數(shù)據(jù)處理方法和分級(jí)聚合分析算法,對(duì)海量監(jiān)控?cái)?shù)據(jù)實(shí)現(xiàn)實(shí)時(shí)的分析處理。異常報(bào)警模塊提供多種報(bào)警方式和報(bào)警手段。資源可視化模塊提供了豐富的可視化形式和直觀的監(jiān)控信息展示方式。最后,系統(tǒng)實(shí)現(xiàn)用戶信息、機(jī)房設(shè)備、服務(wù)應(yīng)用的統(tǒng)一管理,將繁雜的信息管理系統(tǒng)化和條理化。