胡丹
摘 要:本文針對IT網(wǎng)絡(luò)運維中的幾種常見問題,結(jié)合自身網(wǎng)絡(luò)環(huán)境、運維策略并參考ITIL中的基本管理要求,綜合分析出問題關(guān)鍵。利用IT運維服務(wù)平臺的API數(shù)據(jù)接口采集實時運維數(shù)據(jù),運用R語言編程對運維數(shù)據(jù)清洗后分析,并將數(shù)據(jù)可視化結(jié)果嵌入基于Rshiny技術(shù)構(gòu)建的網(wǎng)站進行發(fā)布。分析結(jié)果也可作為優(yōu)化IT運維服務(wù)平臺功能、建設(shè)適于自身業(yè)務(wù)場景的ITIL運維標準的重要參考依據(jù)。使用該分析方法,解決了日常IT運維中難以合理評估及量化運維工作量、運維團隊缺乏數(shù)據(jù)支撐的調(diào)度策略優(yōu)化以及運維技術(shù)人員難以直觀獲取大規(guī)模WIFI無線網(wǎng)部署環(huán)境下設(shè)備狀態(tài)的總體情況等常見運維問題。
關(guān)鍵詞:數(shù)據(jù)分析;數(shù)據(jù)可視化;ITIL標準;網(wǎng)絡(luò)故障;R語言
中圖分類號:TP307 ? ? ?文獻標識碼:A ? ? ? 文章編號:1003-5168(2021)30-0009-03
Abstract: In order to solve several common problems in IT service works, the key points of the problems are comprehensively analyzed in combination with its own network environment, operation strategies and with reference to the basic management requirements in ITIL. The real-time maintenance data are collected by using the API data interface of IT service system platform, then R language programming is used to clean and analyze the maintenance data and the results of data visual analysis on Rshiny website are published. The analysis results can also be used as an important reference for optimizing the function of IT service platform and building ITIL standards suitable for their own network scenarios. Using this analysis method, three common maintenance problems in IT services are solved: 1. It is difficult to reasonably evaluate and quantify the maintenance workload in daily IT services; 2. The operation and maintenance team lacks data supported scheduling strategy optimization; 3. It is difficult for technicians to directly obtain the overall equipment status of a large-scale WiFi wireless network.
Keywords: data analysis; data visualization; ITIL standard; network failure; R language
在業(yè)務(wù)日趨細分化、復(fù)雜化的今天,各類機構(gòu)的日常辦公與業(yè)務(wù)管理高度依賴于IT環(huán)境,運行稍有不慎就可能造成巨大損失。因此,IT運維工作的有效性與及時性顯得極為重要。大中型企事業(yè)單位的IT設(shè)備和業(yè)務(wù)系統(tǒng)數(shù)量眾多且架構(gòu)復(fù)雜,IT運維難度極大。
ITIL、ITSM、ITSS等IT運維標準,雖然內(nèi)容有差異,但其核心思想均是通過運用IT管理流程化、數(shù)據(jù)記錄標準化等方法,提高工作效率和服務(wù)質(zhì)量,從而更好地為業(yè)務(wù)系統(tǒng)穩(wěn)定運行保駕護航。建立IT運維標準和搭建IT運維工具的目的也在于此,通過對IT業(yè)務(wù)進行有序化、透明化的管理,各類IT運維標準的底層是對IT基礎(chǔ)設(shè)施的設(shè)備管理,最上層是對業(yè)務(wù)系統(tǒng)的流程化管理。
1 研究說明
1.1 數(shù)據(jù)來源
本文研究數(shù)據(jù)來源于武漢大學IT運維平臺中網(wǎng)絡(luò)故障報修數(shù)據(jù)和其公共無線WIFI網(wǎng)絡(luò)的設(shè)備監(jiān)控數(shù)據(jù),時間為2020年8月至2021年7月。其中,網(wǎng)絡(luò)故障報修事件2368起,無線網(wǎng)設(shè)備約1.5萬臺。
1.2 研究內(nèi)容
本次對以下IT運維/網(wǎng)絡(luò)運維中常見的痛點問題進行研究并分析解決方案。
(1)日常運維工作量難以合理評估和量化;
(2)運維團隊調(diào)整和優(yōu)化運維策略缺乏充足并有效的運維數(shù)據(jù)做支撐;
(3)技術(shù)人員難以直接獲得大規(guī)模WIFI無線網(wǎng)絡(luò)的整體設(shè)備狀態(tài)。
上述問題對應(yīng)到ITIL運維模型時,問題(1)(2)主要對應(yīng)到運維流程管理中的事件管理模塊。問題(3)主要涉及IT基礎(chǔ)架構(gòu)監(jiān)控中的故障管理,所監(jiān)控的設(shè)備子類為無線AC設(shè)備與無線AP設(shè)備。
1.3 研究工具
R語言是統(tǒng)計、預(yù)測分析和數(shù)據(jù)可視化的全球通用語言。它提供各種用于分析和理解數(shù)據(jù)的方法,從最基礎(chǔ)的到最前沿的,無所不包[1]。同時,R是一個開源項目,其是在很多操作系統(tǒng)上都可以免費得到的優(yōu)秀工具。
文中部分R工具包:數(shù)據(jù)可視化包ggplot2;繪制地圖或2D/3D可視化的rayshader工具包;用于發(fā)布交互式web網(wǎng)站Shiny工具包。
2 研究結(jié)果可視化與分析
由于IT運維體系中數(shù)據(jù)字段眾多,此處只介紹與分析過程和結(jié)果相關(guān)的字段。
涉及字段名稱及含義如下:(1)ID:工單編碼;(2)進行狀態(tài):實時維修狀態(tài);(3)創(chuàng)建時間:工單創(chuàng)建時間;(4)故障區(qū)域:辦公區(qū)/宿舍區(qū);(5)校區(qū):1/2/3/4校區(qū);(6)樓棟:故障發(fā)生樓棟名;(7)故障類型:有線故障/無線故障。
2.1 各校區(qū)報修數(shù)量分析
針對本文1.2章節(jié)中問題(1),分析總體故障報修情況可用直方圖[2]、時間序列分析等方法,實現(xiàn)效果如圖1所示。
由圖1可知,運維量和故障類型存在明顯的時間和地區(qū)分布差異。故障分布情況經(jīng)分析有如下特點:無線網(wǎng)絡(luò)故障遠多于有線網(wǎng)絡(luò)故障,因此無線網(wǎng)絡(luò)故障突發(fā)時對該時間段的運維總量影響顯著;全年中每日運維量與每日無線故障數(shù)的峰值分布基本一致,但有線網(wǎng)故障也有其自身的小高峰分布特點;四個校區(qū)分別有不同的故障發(fā)生小高峰,一般這些峰值由局部設(shè)備升級、熱門網(wǎng)絡(luò)應(yīng)用造成網(wǎng)絡(luò)擁堵等原因造成。
進一步分析可得,暑期開學和寒假開學時報修總量急劇增多,九月新生入校時報修量為全年最高,此時大部分報修故障為無線網(wǎng)絡(luò)故障。由各校區(qū)報修情況匯總來看,三校區(qū)故障所占比例最高,且該校區(qū)的故障峰值主要發(fā)生在暑期和寒假剛開學時,推斷可能是由于理工科在校學生對校園網(wǎng)體驗預(yù)期偏高,建議對網(wǎng)絡(luò)延遲較敏感或娛樂需求偏多的學生切換至電信運營商賬號進行資費與體驗升級。
選取圖1部分實現(xiàn)代碼為例,如下:
data_read<- read_excel(“l(fā)ist_whu.xlsx”)
#將讀取自API接口的數(shù)據(jù)寫入excel
#讀取excel數(shù)據(jù)并導(dǎo)入數(shù)據(jù)框
data_it<-sqldf("select * from data_read
where 進行狀態(tài) like ‘%closed%
and 創(chuàng)建時間 like ‘%%
and 樓棟 not like ‘%未填寫%
and 故障區(qū)域 like ‘%學生宿舍區(qū)%
and 校區(qū) like ‘%%")
#使用sql語法查詢實現(xiàn)清洗掉異常數(shù)據(jù)
#通過修改sql查詢條件,調(diào)整數(shù)據(jù)樣本
ggplot(data_it ,aes(創(chuàng)建日期,fill=故障類型)
windowsize =c(4000,2000))+geom_histogram(bins=300)+facet_grid(校區(qū)~.~故障類型,scales=‘free_x)
#使用ggplot2可視化分析包,繪制直方圖
#設(shè)置繪圖區(qū)的分辨率、樣本密度、子圖等
2.2 各樓棟報修數(shù)量分析(各校區(qū)分別排序)
為進一步分析本文1.2章節(jié)中的問題(2),分析運維總量中的故障類型和分布構(gòu)成等,對數(shù)據(jù)進行熱圖分析[3],并將結(jié)果3D化。如圖2所示,不同樓棟在不同時間的報修量差異較大,通過細致研讀數(shù)據(jù)并繪圖,也分析部分深層運維問題的成因和解決方案,以便及時調(diào)整運維策略。
例如,針對出現(xiàn)運維量陡增的樓棟,綜合分析背景和故障分布得知:2020年寒假前,二校區(qū)故障報修量陡增,經(jīng)分析,主要原因是宿舍網(wǎng)絡(luò)工程改造時后勤溝通不足;而2021年5月,當年新的三學期制帶來的暑期網(wǎng)絡(luò)改造提前和校外學生搬遷回校,部分宿舍僅有一周時間安裝調(diào)試無線網(wǎng)絡(luò),雖已緊急組織團隊趕工完成,但因部分建筑弱電結(jié)構(gòu)不合理造成部分網(wǎng)絡(luò)匯聚的結(jié)構(gòu)并不是最優(yōu)方案,需在學生入住后進一步調(diào)整結(jié)構(gòu)解決問題,給運維帶來較大難度。
代碼節(jié)選示例如下:
3d_it<-ggplot(data_it ,aes(創(chuàng)建日期,樓棟,fill=故障類型,color=故障類型))+geom_bin2d(bins=300)
#針對時間維度和樓棟地點進行分類顯示
plot_gg(3d_it,windowsize = c(1920, 1080))
#2D熱圖結(jié)果保存并轉(zhuǎn)換為3D熱圖
runApp(“d:/data”, port = 2727,launch.browser =T,host = “127.0.0.1”)
#shiny工具包實現(xiàn)基于R語言的WEB發(fā)布
2.3 各類網(wǎng)絡(luò)設(shè)備狀態(tài)數(shù)據(jù)分析
由于當前無線AP設(shè)備數(shù)量龐大、種類繁多,加之AC的單機性能有限等,本校擁有近十臺不同品牌、不同型號的AC控制器設(shè)備。一旦遇到設(shè)備小范圍故障,運維人員需進一步判斷是否可能發(fā)展成大范圍故障,同時需考慮到AP數(shù)量龐大帶來的設(shè)備巡檢困難。為解決本文1.2章節(jié)中的問題(3),即分析數(shù)據(jù)并繪制得到全校近1.5萬臺AP設(shè)備的可用性和分布情況、校區(qū)分布、不同AC控制器分布、不同AP型號分布等。
主要實現(xiàn)代碼如下:
ggplot(data_device ,aes(AP型號,所屬AC,fill=運行狀態(tài)))+geom_jitter(bins=300)
3 結(jié)語
本文通過采集運維事件數(shù)據(jù)和設(shè)備狀態(tài)數(shù)據(jù),對校內(nèi)IT運維工作中的一些數(shù)據(jù)進行可視化分析,并針對文中提出的幾個運維常見問題進行分析,并以分析結(jié)果為依據(jù)調(diào)整運維策略。
在完成R語言編程的過程中,也發(fā)現(xiàn)R語言在類似分析研究工作中的優(yōu)缺點均較為明顯,希望嘗試本方法的分析人員需自行權(quán)衡。優(yōu)點有:代碼結(jié)構(gòu)清晰語法簡單,R語言對中文支持良好,結(jié)果直觀可讀性強等。缺點有:分析人員需同時具有一定的計算機和數(shù)學技能,R語言學習曲線略為陡峭,繪制部分高級圖表時對電腦性能有一定要求。
總體來說,本文對IT運維數(shù)據(jù)的分析效果良好,該分析方法適于在該領(lǐng)域廣泛應(yīng)用。
參考文獻:
[1] 卡巴科弗.R語言實戰(zhàn)[M].北京:人民郵電出版社,2013:1.
[2] 張杰.R語言數(shù)據(jù)可視化之美[M].北京:電子工業(yè)出版社,2019:157-158.
[3] 哈德利·威克姆.ggplot2:數(shù)據(jù)分析與圖形藝術(shù)[M].西安:西安交通大學出版社,2013:58-59.