胡丹
摘 要:本文針對(duì)IT網(wǎng)絡(luò)運(yùn)維中的幾種常見問題,結(jié)合自身網(wǎng)絡(luò)環(huán)境、運(yùn)維策略并參考ITIL中的基本管理要求,綜合分析出問題關(guān)鍵。利用IT運(yùn)維服務(wù)平臺(tái)的API數(shù)據(jù)接口采集實(shí)時(shí)運(yùn)維數(shù)據(jù),運(yùn)用R語(yǔ)言編程對(duì)運(yùn)維數(shù)據(jù)清洗后分析,并將數(shù)據(jù)可視化結(jié)果嵌入基于Rshiny技術(shù)構(gòu)建的網(wǎng)站進(jìn)行發(fā)布。分析結(jié)果也可作為優(yōu)化IT運(yùn)維服務(wù)平臺(tái)功能、建設(shè)適于自身業(yè)務(wù)場(chǎng)景的ITIL運(yùn)維標(biāo)準(zhǔn)的重要參考依據(jù)。使用該分析方法,解決了日常IT運(yùn)維中難以合理評(píng)估及量化運(yùn)維工作量、運(yùn)維團(tuán)隊(duì)缺乏數(shù)據(jù)支撐的調(diào)度策略優(yōu)化以及運(yùn)維技術(shù)人員難以直觀獲取大規(guī)模WIFI無(wú)線網(wǎng)部署環(huán)境下設(shè)備狀態(tài)的總體情況等常見運(yùn)維問題。
關(guān)鍵詞:數(shù)據(jù)分析;數(shù)據(jù)可視化;ITIL標(biāo)準(zhǔn);網(wǎng)絡(luò)故障;R語(yǔ)言
中圖分類號(hào):TP307 ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? 文章編號(hào):1003-5168(2021)30-0009-03
Abstract: In order to solve several common problems in IT service works, the key points of the problems are comprehensively analyzed in combination with its own network environment, operation strategies and with reference to the basic management requirements in ITIL. The real-time maintenance data are collected by using the API data interface of IT service system platform, then R language programming is used to clean and analyze the maintenance data and the results of data visual analysis on Rshiny website are published. The analysis results can also be used as an important reference for optimizing the function of IT service platform and building ITIL standards suitable for their own network scenarios. Using this analysis method, three common maintenance problems in IT services are solved: 1. It is difficult to reasonably evaluate and quantify the maintenance workload in daily IT services; 2. The operation and maintenance team lacks data supported scheduling strategy optimization; 3. It is difficult for technicians to directly obtain the overall equipment status of a large-scale WiFi wireless network.
Keywords: data analysis; data visualization; ITIL standard; network failure; R language
在業(yè)務(wù)日趨細(xì)分化、復(fù)雜化的今天,各類機(jī)構(gòu)的日常辦公與業(yè)務(wù)管理高度依賴于IT環(huán)境,運(yùn)行稍有不慎就可能造成巨大損失。因此,IT運(yùn)維工作的有效性與及時(shí)性顯得極為重要。大中型企事業(yè)單位的IT設(shè)備和業(yè)務(wù)系統(tǒng)數(shù)量眾多且架構(gòu)復(fù)雜,IT運(yùn)維難度極大。
ITIL、ITSM、ITSS等IT運(yùn)維標(biāo)準(zhǔn),雖然內(nèi)容有差異,但其核心思想均是通過運(yùn)用IT管理流程化、數(shù)據(jù)記錄標(biāo)準(zhǔn)化等方法,提高工作效率和服務(wù)質(zhì)量,從而更好地為業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行保駕護(hù)航。建立IT運(yùn)維標(biāo)準(zhǔn)和搭建IT運(yùn)維工具的目的也在于此,通過對(duì)IT業(yè)務(wù)進(jìn)行有序化、透明化的管理,各類IT運(yùn)維標(biāo)準(zhǔn)的底層是對(duì)IT基礎(chǔ)設(shè)施的設(shè)備管理,最上層是對(duì)業(yè)務(wù)系統(tǒng)的流程化管理。
1 研究說(shuō)明
1.1 數(shù)據(jù)來(lái)源
本文研究數(shù)據(jù)來(lái)源于武漢大學(xué)IT運(yùn)維平臺(tái)中網(wǎng)絡(luò)故障報(bào)修數(shù)據(jù)和其公共無(wú)線WIFI網(wǎng)絡(luò)的設(shè)備監(jiān)控?cái)?shù)據(jù),時(shí)間為2020年8月至2021年7月。其中,網(wǎng)絡(luò)故障報(bào)修事件2368起,無(wú)線網(wǎng)設(shè)備約1.5萬(wàn)臺(tái)。
1.2 研究?jī)?nèi)容
本次對(duì)以下IT運(yùn)維/網(wǎng)絡(luò)運(yùn)維中常見的痛點(diǎn)問題進(jìn)行研究并分析解決方案。
(1)日常運(yùn)維工作量難以合理評(píng)估和量化;
(2)運(yùn)維團(tuán)隊(duì)調(diào)整和優(yōu)化運(yùn)維策略缺乏充足并有效的運(yùn)維數(shù)據(jù)做支撐;
(3)技術(shù)人員難以直接獲得大規(guī)模WIFI無(wú)線網(wǎng)絡(luò)的整體設(shè)備狀態(tài)。
上述問題對(duì)應(yīng)到ITIL運(yùn)維模型時(shí),問題(1)(2)主要對(duì)應(yīng)到運(yùn)維流程管理中的事件管理模塊。問題(3)主要涉及IT基礎(chǔ)架構(gòu)監(jiān)控中的故障管理,所監(jiān)控的設(shè)備子類為無(wú)線AC設(shè)備與無(wú)線AP設(shè)備。
1.3 研究工具
R語(yǔ)言是統(tǒng)計(jì)、預(yù)測(cè)分析和數(shù)據(jù)可視化的全球通用語(yǔ)言。它提供各種用于分析和理解數(shù)據(jù)的方法,從最基礎(chǔ)的到最前沿的,無(wú)所不包[1]。同時(shí),R是一個(gè)開源項(xiàng)目,其是在很多操作系統(tǒng)上都可以免費(fèi)得到的優(yōu)秀工具。
文中部分R工具包:數(shù)據(jù)可視化包ggplot2;繪制地圖或2D/3D可視化的rayshader工具包;用于發(fā)布交互式web網(wǎng)站Shiny工具包。
2 研究結(jié)果可視化與分析
由于IT運(yùn)維體系中數(shù)據(jù)字段眾多,此處只介紹與分析過程和結(jié)果相關(guān)的字段。
涉及字段名稱及含義如下:(1)ID:工單編碼;(2)進(jìn)行狀態(tài):實(shí)時(shí)維修狀態(tài);(3)創(chuàng)建時(shí)間:工單創(chuàng)建時(shí)間;(4)故障區(qū)域:辦公區(qū)/宿舍區(qū);(5)校區(qū):1/2/3/4校區(qū);(6)樓棟:故障發(fā)生樓棟名;(7)故障類型:有線故障/無(wú)線故障。
2.1 各校區(qū)報(bào)修數(shù)量分析
針對(duì)本文1.2章節(jié)中問題(1),分析總體故障報(bào)修情況可用直方圖[2]、時(shí)間序列分析等方法,實(shí)現(xiàn)效果如圖1所示。
由圖1可知,運(yùn)維量和故障類型存在明顯的時(shí)間和地區(qū)分布差異。故障分布情況經(jīng)分析有如下特點(diǎn):無(wú)線網(wǎng)絡(luò)故障遠(yuǎn)多于有線網(wǎng)絡(luò)故障,因此無(wú)線網(wǎng)絡(luò)故障突發(fā)時(shí)對(duì)該時(shí)間段的運(yùn)維總量影響顯著;全年中每日運(yùn)維量與每日無(wú)線故障數(shù)的峰值分布基本一致,但有線網(wǎng)故障也有其自身的小高峰分布特點(diǎn);四個(gè)校區(qū)分別有不同的故障發(fā)生小高峰,一般這些峰值由局部設(shè)備升級(jí)、熱門網(wǎng)絡(luò)應(yīng)用造成網(wǎng)絡(luò)擁堵等原因造成。
進(jìn)一步分析可得,暑期開學(xué)和寒假開學(xué)時(shí)報(bào)修總量急劇增多,九月新生入校時(shí)報(bào)修量為全年最高,此時(shí)大部分報(bào)修故障為無(wú)線網(wǎng)絡(luò)故障。由各校區(qū)報(bào)修情況匯總來(lái)看,三校區(qū)故障所占比例最高,且該校區(qū)的故障峰值主要發(fā)生在暑期和寒假剛開學(xué)時(shí),推斷可能是由于理工科在校學(xué)生對(duì)校園網(wǎng)體驗(yàn)預(yù)期偏高,建議對(duì)網(wǎng)絡(luò)延遲較敏感或娛樂需求偏多的學(xué)生切換至電信運(yùn)營(yíng)商賬號(hào)進(jìn)行資費(fèi)與體驗(yàn)升級(jí)。
選取圖1部分實(shí)現(xiàn)代碼為例,如下:
data_read<- read_excel(“l(fā)ist_whu.xlsx”)
#將讀取自API接口的數(shù)據(jù)寫入excel
#讀取excel數(shù)據(jù)并導(dǎo)入數(shù)據(jù)框
data_it<-sqldf("select * from data_read
where 進(jìn)行狀態(tài) like ‘%closed%’
and 創(chuàng)建時(shí)間 like ‘%%’
and 樓棟 not like ‘%未填寫%’
and 故障區(qū)域 like ‘%學(xué)生宿舍區(qū)%’
and 校區(qū) like ‘%%’")
#使用sql語(yǔ)法查詢實(shí)現(xiàn)清洗掉異常數(shù)據(jù)
#通過修改sql查詢條件,調(diào)整數(shù)據(jù)樣本
ggplot(data_it ,aes(創(chuàng)建日期,fill=故障類型)
windowsize =c(4000,2000))+geom_histogram(bins=300)+facet_grid(校區(qū)~.~故障類型,scales=‘free_x’)
#使用ggplot2可視化分析包,繪制直方圖
#設(shè)置繪圖區(qū)的分辨率、樣本密度、子圖等
2.2 各樓棟報(bào)修數(shù)量分析(各校區(qū)分別排序)
為進(jìn)一步分析本文1.2章節(jié)中的問題(2),分析運(yùn)維總量中的故障類型和分布構(gòu)成等,對(duì)數(shù)據(jù)進(jìn)行熱圖分析[3],并將結(jié)果3D化。如圖2所示,不同樓棟在不同時(shí)間的報(bào)修量差異較大,通過細(xì)致研讀數(shù)據(jù)并繪圖,也分析部分深層運(yùn)維問題的成因和解決方案,以便及時(shí)調(diào)整運(yùn)維策略。
例如,針對(duì)出現(xiàn)運(yùn)維量陡增的樓棟,綜合分析背景和故障分布得知:2020年寒假前,二校區(qū)故障報(bào)修量陡增,經(jīng)分析,主要原因是宿舍網(wǎng)絡(luò)工程改造時(shí)后勤溝通不足;而2021年5月,當(dāng)年新的三學(xué)期制帶來(lái)的暑期網(wǎng)絡(luò)改造提前和校外學(xué)生搬遷回校,部分宿舍僅有一周時(shí)間安裝調(diào)試無(wú)線網(wǎng)絡(luò),雖已緊急組織團(tuán)隊(duì)趕工完成,但因部分建筑弱電結(jié)構(gòu)不合理造成部分網(wǎng)絡(luò)匯聚的結(jié)構(gòu)并不是最優(yōu)方案,需在學(xué)生入住后進(jìn)一步調(diào)整結(jié)構(gòu)解決問題,給運(yùn)維帶來(lái)較大難度。
代碼節(jié)選示例如下:
3d_it<-ggplot(data_it ,aes(創(chuàng)建日期,樓棟,fill=故障類型,color=故障類型))+geom_bin2d(bins=300)
#針對(duì)時(shí)間維度和樓棟地點(diǎn)進(jìn)行分類顯示
plot_gg(3d_it,windowsize = c(1920, 1080))
#2D熱圖結(jié)果保存并轉(zhuǎn)換為3D熱圖
runApp(“d:/data”, port = 2727,launch.browser =T,host = “127.0.0.1”)
#shiny工具包實(shí)現(xiàn)基于R語(yǔ)言的WEB發(fā)布
2.3 各類網(wǎng)絡(luò)設(shè)備狀態(tài)數(shù)據(jù)分析
由于當(dāng)前無(wú)線AP設(shè)備數(shù)量龐大、種類繁多,加之AC的單機(jī)性能有限等,本校擁有近十臺(tái)不同品牌、不同型號(hào)的AC控制器設(shè)備。一旦遇到設(shè)備小范圍故障,運(yùn)維人員需進(jìn)一步判斷是否可能發(fā)展成大范圍故障,同時(shí)需考慮到AP數(shù)量龐大帶來(lái)的設(shè)備巡檢困難。為解決本文1.2章節(jié)中的問題(3),即分析數(shù)據(jù)并繪制得到全校近1.5萬(wàn)臺(tái)AP設(shè)備的可用性和分布情況、校區(qū)分布、不同AC控制器分布、不同AP型號(hào)分布等。
主要實(shí)現(xiàn)代碼如下:
ggplot(data_device ,aes(AP型號(hào),所屬AC,fill=運(yùn)行狀態(tài)))+geom_jitter(bins=300)
3 結(jié)語(yǔ)
本文通過采集運(yùn)維事件數(shù)據(jù)和設(shè)備狀態(tài)數(shù)據(jù),對(duì)校內(nèi)IT運(yùn)維工作中的一些數(shù)據(jù)進(jìn)行可視化分析,并針對(duì)文中提出的幾個(gè)運(yùn)維常見問題進(jìn)行分析,并以分析結(jié)果為依據(jù)調(diào)整運(yùn)維策略。
在完成R語(yǔ)言編程的過程中,也發(fā)現(xiàn)R語(yǔ)言在類似分析研究工作中的優(yōu)缺點(diǎn)均較為明顯,希望嘗試本方法的分析人員需自行權(quán)衡。優(yōu)點(diǎn)有:代碼結(jié)構(gòu)清晰語(yǔ)法簡(jiǎn)單,R語(yǔ)言對(duì)中文支持良好,結(jié)果直觀可讀性強(qiáng)等。缺點(diǎn)有:分析人員需同時(shí)具有一定的計(jì)算機(jī)和數(shù)學(xué)技能,R語(yǔ)言學(xué)習(xí)曲線略為陡峭,繪制部分高級(jí)圖表時(shí)對(duì)電腦性能有一定要求。
總體來(lái)說(shuō),本文對(duì)IT運(yùn)維數(shù)據(jù)的分析效果良好,該分析方法適于在該領(lǐng)域廣泛應(yīng)用。
參考文獻(xiàn):
[1] 卡巴科弗.R語(yǔ)言實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013:1.
[2] 張杰.R語(yǔ)言數(shù)據(jù)可視化之美[M].北京:電子工業(yè)出版社,2019:157-158.
[3] 哈德利·威克姆.ggplot2:數(shù)據(jù)分析與圖形藝術(shù)[M].西安:西安交通大學(xué)出版社,2013:58-59.