徐孟江 田 良
(中國聯(lián)通貴州省分公司,貴州 貴陽 550001)
如今互聯(lián)網(wǎng)以驚人的速度飛速發(fā)展,對于早期一些基于短信、彩信、語音的預(yù)警方式逐漸形成了一些效率上的瓶頸,同時,部分統(tǒng)計數(shù)據(jù)無法通過短信、語音形式進(jìn)行實時發(fā)布,無法滿足日常工作中高效維護(hù)的需要。
我分公司集中監(jiān)控調(diào)度工作完成后,經(jīng)過不斷優(yōu)化調(diào)整,至2018 年,雖然一定程度上集約了人力,但大部分工作仍需通過手工方式進(jìn)行操作,其中之一為人工每小時將專業(yè)網(wǎng)管或?qū)I(yè)綜合網(wǎng)管數(shù)據(jù)查詢、導(dǎo)出后,按照相應(yīng)的模板統(tǒng)計、填報數(shù)據(jù),再由人工發(fā)布至相應(yīng)的釘釘群,工作效率較低,且容易造成數(shù)據(jù)統(tǒng)計錯誤,及時性不高,U 盤拷貝數(shù)據(jù)也存在一定的網(wǎng)絡(luò)隱患。在公司互聯(lián)網(wǎng)化轉(zhuǎn)型,提質(zhì)增效等工作指引下,開展了釘釘群機器人運維監(jiān)控調(diào)度自動化創(chuàng)新。
在機器人管理頁面選擇“自定義”機器人,輸入機器人名字并選擇要發(fā)送消息的群。如果需要的話,可以為機器人設(shè)置一個頭像。點擊“完成添加”,完成后會生成webhook 地址。
點擊“復(fù)制”按鈕,即可獲得這個機器人對應(yīng)的Webhook 地址 , 其 格 式 如 下 :https://oapi.dingtalk.com/robot/send?access_token=xxxxxxxx
獲取到Webhook 地址后,指定系統(tǒng)可以向這個地址發(fā)起HTTP POST 請求,即可實現(xiàn)給該釘釘群發(fā)送消息。發(fā)起POST請求時,必須將字符集編碼設(shè)置成UTF-8。
當(dāng)前自定義機器人支持文本(text)、連接(link)、markdown markdown)、ActionCard、FeedCard 消息類型,可以根據(jù)使用場景選擇合適的消息類型,達(dá)到最好的展示樣式。
自定義機器人發(fā)送消息時,可以通過手機號碼指定“被@人列表”。在“被@人列表”里面的人員收到該消息時,會有@消息提醒(免打擾會話仍然通知提醒,首屏出現(xiàn)“有人@你”)。
每個釘釘群機器人每分鐘最多可發(fā)送20 條消息。若消息發(fā)送太頻繁會嚴(yán)重影響群成員的使用體驗,因此可將大量發(fā)消息的場景(譬如單設(shè)備告警消息)進(jìn)行整合,通過markdown 消息以摘要的形式發(fā)送到釘釘群中。
系統(tǒng)每小時0 分,定時對全省的基站斷站信息進(jìn)行統(tǒng)計,并生成通報數(shù)據(jù),調(diào)用釘釘自定義機器人接口,將數(shù)據(jù)發(fā)送至省公司運維釘釘群中。
系統(tǒng)根據(jù)基站類型和基站等級兩種維度進(jìn)行數(shù)據(jù)統(tǒng)計。
系統(tǒng)在生成通報數(shù)據(jù)時,按照預(yù)設(shè)的閾值進(jìn)行數(shù)據(jù)封裝(閾值隨時可以進(jìn)行增刪改),預(yù)設(shè)的閾值為:
(1)單一區(qū)縣斷站數(shù)小于20 個,不單獨進(jìn)行提示,顯示為:零星分布。
(2)單一區(qū)縣斷站數(shù)大于等于20 個,單獨進(jìn)行提示,顯示為:區(qū)縣名稱。
2.4.1 消息類型及數(shù)據(jù)格式text 類型
代碼如下:
參數(shù)說明如表1。
表1
消息內(nèi)容(content)只支持md 語法的子集,具體支持的元素如表2。
表2
2.4.2 全省告警信息通報實現(xiàn)效果
截止11 月2 日13:00 全省基站斷站XXX 個,其中2G-XX,3G-XX,4G-XX;
(1)貴陽市XX 個(A-X,B-X,C-X),零星分布;
(2)遵義市XX 個(A-X,B-X,C-X),零星分布;
(3)...................................
斷站詳情——-->(此為url,點開可查看詳情)
釘釘群機器人每小時0 分,定時對全省各地市的基站斷站信息,根據(jù)設(shè)備類型和設(shè)備等級兩種維度進(jìn)行數(shù)據(jù)統(tǒng)計,并按照相應(yīng)模板生成通報信息,調(diào)用釘釘自定義機器人接口,將信息發(fā)送至地市分公司運維釘釘群中。同時加入發(fā)送失敗檢測機制,確保信息正常發(fā)送。
2.5.1 消息類型及數(shù)據(jù)格式
表3
2.5.2 地市告警信息通報實現(xiàn)效果
截止11 月2 日13:00 貴陽市基站斷站XXX 個,其中2G-XX,3G-XX,4G-XX;
(1)貴安新區(qū)XX 個(A-X,B-X,C-X)。
(2)......................
斷站詳情——-->(此為url,點開可查看詳情)
監(jiān)控調(diào)度中心利用互聯(lián)網(wǎng)手段,通過釘釘軟件開放的webhook 能力進(jìn)行二次開發(fā),結(jié)合集中監(jiān)控調(diào)度工作內(nèi)容,在進(jìn)行網(wǎng)絡(luò)安全處理后,與運行維護(hù)部相應(yīng)的專業(yè)綜合網(wǎng)管系統(tǒng)對接,進(jìn)行相應(yīng)的軟件開發(fā)、規(guī)則設(shè)置后,將故障通報工作由人工轉(zhuǎn)變?yōu)樽詣樱嵘斜O(jiān)控調(diào)度效率,釋放部分人力。
通過釘釘開放的webhook 能力,自主研發(fā),在全省及各市州運維群設(shè)置釘釘機器人。在后端進(jìn)行相應(yīng)的軟件開發(fā),定時同步并統(tǒng)計各專業(yè)綜合網(wǎng)管告警,按照監(jiān)控調(diào)度通報規(guī)則,對數(shù)據(jù)進(jìn)行封裝后,根據(jù)釘釘機器人的webhook 地址,發(fā)起http post請求,將數(shù)據(jù)通報至相應(yīng)的釘釘群(如全省數(shù)據(jù)通報到省群,貴陽數(shù)據(jù)通報到貴陽群,還可通過url 鏈接可查看詳情)。
釘釘機器人啟用前,每小時1 次由監(jiān)控人員統(tǒng)計通報的數(shù)據(jù),需要從各系統(tǒng)中導(dǎo)出進(jìn)行加工,再進(jìn)行通報,全省10 個本地網(wǎng),每個歷時10-15 分鐘左右才能完成,耗時耗力。啟用釘釘機器人后,每小時1 次的通報僅1 分鐘即可實現(xiàn),工作效率大幅提升,部分人力得到釋放。
主要成效如下:
(1)效率提升:自主開發(fā),利舊原有1 臺x86 服務(wù)器(約3 萬元)實現(xiàn)功能。按照全省及10 個本地網(wǎng)計算,每個小時工作耗時由原來的10-15 分鐘縮減為1 分鐘以內(nèi),每人每日(12 小時制)節(jié)省2-3 小時。工作效率大幅提升,監(jiān)控人員將更多精力投入到核心網(wǎng)、核心局房等重要網(wǎng)元的監(jiān)控調(diào)度上。
(2)差錯性:人工統(tǒng)計數(shù)據(jù)、存在一定的延遲性、數(shù)據(jù)不準(zhǔn)確性和人為差錯。改為系統(tǒng)實現(xiàn)后,數(shù)據(jù)及時性大幅提升、準(zhǔn)確性更高。
(3)功能迭代:后期還可在該基礎(chǔ)上進(jìn)行功能的迭代開發(fā),將其他的運維日常工作自動化,對運維密集型、重復(fù)性勞動工作的效率提升潛力巨大。
(4)安全管控:傳統(tǒng)方式從多個專業(yè)網(wǎng)管或綜合網(wǎng)管(內(nèi)網(wǎng))統(tǒng)計數(shù)據(jù)后,通過U 盤進(jìn)行拷貝,再發(fā)送到公網(wǎng),存在一定的病毒傳播、網(wǎng)絡(luò)安全等風(fēng)險,現(xiàn)統(tǒng)一進(jìn)行安全管控,降低了風(fēng)險。
越來越多的企業(yè)選擇使用移動端進(jìn)行日常工作處理、業(yè)務(wù)交互、消息發(fā)布,以加強企業(yè)內(nèi)部協(xié)作,提高生產(chǎn)、服務(wù)效率,員工也更能夠接受和適應(yīng)移動端的相關(guān)應(yīng)用。貴州聯(lián)通基于釘釘群機器人的消息發(fā)布方式,有效的解決了日常工作中告警消息、統(tǒng)計數(shù)據(jù)的實時發(fā)布,極大的提高了消息發(fā)布的及時性、準(zhǔn)確性,大幅提升了一線工作人員和領(lǐng)導(dǎo)層的相關(guān)工作。通過分權(quán)分域,將更多的系統(tǒng)信息通過釘釘群機器人發(fā)布到不同專業(yè)、不同地市或不同維度的釘釘群中,提升了自動化運維能力和工作效率。