李曉林,嚴 峻,陳國華,張明強,廖劍雄
(塔里木油田公司信息與通訊技術(shù)中心,庫爾勒 841000)
油田信息運維監(jiān)控平臺于2008年開始建設(shè),并于2009年上線投入使用。2013年以后,運維監(jiān)控平臺對報警跟蹤、督辦及分析等問題進行了整改?,F(xiàn)有運維監(jiān)控服務(wù)已無法滿足現(xiàn)在用戶的各種需求,如何加強運維監(jiān)控能力,提升運維監(jiān)控服務(wù)水平,提高運維服務(wù)質(zhì)量,是我們今后面臨的主要問題與發(fā)展方向。
運維監(jiān)控平臺在近十年發(fā)展大致可劃分為兩個階段,一是2009年至2013年,主要對運維監(jiān)控平臺進行技術(shù)上的監(jiān)控部署與維護;二是2014年至今,在經(jīng)過系列整改已形成了較為完備的運維監(jiān)控服務(wù)體系。
運維監(jiān)控平臺支持豐富多樣的監(jiān)控參數(shù)和靈活多變的建模管理,監(jiān)控范圍包括各種性能、網(wǎng)絡(luò)、數(shù)據(jù)庫、應(yīng)用系統(tǒng)、存儲等監(jiān)控參數(shù),實現(xiàn)監(jiān)控的數(shù)據(jù)接口有200多種。平臺運行至今,共計發(fā)現(xiàn)5萬余次不同等級的監(jiān)控報警。這些報警共分為三級,一級報警為油田核心設(shè)備或系統(tǒng),一旦發(fā)生故障將嚴重影響油田生產(chǎn)生活,“7×24”小時響應(yīng)報警;二級報警為油田單個設(shè)備或非核心系統(tǒng),發(fā)生故障不影響油田生產(chǎn)生活,但可能會影響非關(guān)鍵用戶使用,“7×16”小時響應(yīng)報警;三級報警為油田非重要設(shè)備或系統(tǒng)(例如:應(yīng)急系統(tǒng)、測試服務(wù)器等),發(fā)生的故障或問題不影響油田生產(chǎn)生活,不直接影響用戶使用,運維人員“5×8”小時響應(yīng)報警。
圖1 運維監(jiān)控報警閉環(huán)處理流程
如圖2所示,為減少運維人員的非必要工作量,同時也對各類計劃運維事件進行統(tǒng)一規(guī)范管理,我們制訂了運維計劃管理流程,并按流程開發(fā)了運維計劃管理系統(tǒng)。該系統(tǒng)通過對各類計劃運維網(wǎng)上申請、審批,并與報警閉環(huán)管理系統(tǒng)進行事件聯(lián)動,對申請審批后的運維操作所產(chǎn)生的監(jiān)控報警事件進行標識,運維人員按標識判斷是否開啟“報警閉環(huán)與跟蹤督辦”,計劃運維操作完成后通過關(guān)閉計劃運維任務(wù)恢復正常監(jiān)控預警。
對運維監(jiān)控平臺產(chǎn)生的監(jiān)控預警,在經(jīng)過篩選后,我們會對其中一些較為重要的報警事件進行分析,找出故障發(fā)生的原因。分析的主要手段是通過基于日志的故障定位與分析系統(tǒng),該系統(tǒng)收集被監(jiān)控設(shè)備或系統(tǒng)的所有運行日志,分析的主要對象就是這些日志。我們通過深度挖掘與該故障關(guān)聯(lián)的多層應(yīng)用環(huán)境中所有相關(guān)日志記錄,并對日志事件進行分析并建立索引,找出故障報警的關(guān)鍵指標。
圖2 運維計劃管理流程圖
目前,油田數(shù)據(jù)中心運維監(jiān)控以vantage平臺為主,但隨著信息化的發(fā)展與業(yè)務(wù)整合,運維監(jiān)控平臺出現(xiàn)監(jiān)控盲區(qū),不同專用監(jiān)控平臺難以與運維監(jiān)控平臺整合,無法實現(xiàn)統(tǒng)一監(jiān)控管理。
運維監(jiān)控平臺至今已較為平穩(wěn)運行近十年,但因該軟件生產(chǎn)廠商于2012年停止對該軟件更新,該平臺越來越難以承受運行壓力。
運維監(jiān)控平臺通常經(jīng)過日志系統(tǒng)對監(jiān)控報警進行故障分析和排查,但有時故障是由于應(yīng)用程序本身產(chǎn)生的,此類故障因為某些原因并未完全反映在日志中。運維監(jiān)控平臺對代碼、Web或SQL等方面發(fā)生的問題進行分析時缺少相關(guān)的分析手段。
目前,國內(nèi)外大數(shù)據(jù)平臺技術(shù)發(fā)展較快,相關(guān)產(chǎn)品也較為成熟,重要的是它可以存儲非結(jié)構(gòu)化數(shù)據(jù),而且對于TB級的數(shù)據(jù)搜索通常也只需幾秒。那么采用大數(shù)據(jù)技術(shù)搭建運維監(jiān)控平臺,可充分發(fā)揮其數(shù)據(jù)采集與分析優(yōu)勢,幫助運維監(jiān)控平臺豐富數(shù)據(jù)來源和提升處理分析速度。采用大數(shù)據(jù)技術(shù)的運維監(jiān)控平臺不論是在數(shù)據(jù)接口,還是數(shù)據(jù)類型都比傳統(tǒng)的數(shù)據(jù)管理方式更具優(yōu)勢。
通過應(yīng)用性能數(shù)據(jù)分析、代碼級問題定位、性能分析等手段,實現(xiàn)應(yīng)用系統(tǒng)故障與性能問題快速定位與分析,是第三代運維監(jiān)控中必不可少的能力之一。我們認為應(yīng)用系統(tǒng)性能監(jiān)測與分析應(yīng)包含以下功能:一是數(shù)字體驗監(jiān)控;二是應(yīng)用發(fā)現(xiàn)、追蹤、診斷;三是作為應(yīng)用分析。
用戶訪問行為監(jiān)測是對用戶的來源、瀏覽情況、回訪等各種網(wǎng)站訪問行為進行監(jiān)測,以獲得各種基本數(shù)據(jù),給我們提供更加精準的分析數(shù)據(jù),通過分析我們可以為運維監(jiān)控實現(xiàn)以下功能:將用戶體驗監(jiān)測數(shù)據(jù)結(jié)合位置信息投射在地圖上,動態(tài)感知應(yīng)用系統(tǒng)用戶位置分布。通過大數(shù)據(jù)分析技術(shù)的應(yīng)用發(fā)現(xiàn)數(shù)據(jù)之間的特點與關(guān)系。將用戶體驗數(shù)據(jù)應(yīng)用于信息生產(chǎn)調(diào)度中,可及時了解應(yīng)用系統(tǒng)用戶并發(fā)、用戶數(shù)量趨勢分析與預測、用戶影響與分布以及通過應(yīng)用性能與用戶數(shù)量的對比趨勢分析幫助用戶提前做出響應(yīng)。
運維監(jiān)控平臺在油田數(shù)據(jù)中心應(yīng)用至今,其總體監(jiān)控運維服務(wù)體系已全部形成,它腳步一直隨著油田數(shù)據(jù)中心的發(fā)展與變化而前行,在不遠的將來,會發(fā)生一次巨大的脫變,它將應(yīng)用國內(nèi)外先進成熟的監(jiān)控技術(shù),收集整個應(yīng)用交付鏈的各層監(jiān)測數(shù)據(jù),包括:軟硬件狀態(tài)監(jiān)測數(shù)據(jù)、系統(tǒng)集成數(shù)據(jù)、配置日志數(shù)據(jù)、性能容量、安全審計等數(shù)據(jù),并應(yīng)用大數(shù)據(jù)技術(shù)進行處理和分析,以用戶體驗為導向,以應(yīng)用可用性為核心,以信息基礎(chǔ)設(shè)施為重點,建成塔里木油田第三代運維監(jiān)控服務(wù)平臺,實現(xiàn)油田數(shù)據(jù)中心一體化運維監(jiān)控服務(wù),為油田IT業(yè)務(wù)的連續(xù)、高效、安全、平穩(wěn)運行提供有力支撐。■