楊光
隨著信息化應(yīng)用的逐步深入,國內(nèi)大中型企事業(yè)單位的IT運維管理服務(wù)能力遭遇前所未有的挑戰(zhàn),這包括:基礎(chǔ)環(huán)境復(fù)雜、過程管理復(fù)雜、知識積累復(fù)雜等等。國神集團在構(gòu)建現(xiàn)代IT服務(wù)管理體系的過程中,結(jié)合業(yè)務(wù)特點以及人員、流程、工具現(xiàn)狀,充分利用綜合業(yè)務(wù)管理平臺,讓數(shù)據(jù)自己“說話”,全面化解運維難題,實現(xiàn)“五個中心”建設(shè)目標,為兩化融合提供了重要技術(shù)保障。
IT運維遭遇“三大難題”
神華國能集團有限公司前身為國網(wǎng)能源開發(fā)有限公司,成立于2008年4月,2012年4月從國家電網(wǎng)公司整體重組并入神華集團。神華神東電力有限責任公司成立于1996年11月,于2007年8月31日整體注入中國神華能源股份有限公司。2012年12月,神華集團對兩公司進行管理整合,實行“一個平臺、兩個公司、一體化運營”管理模式,簡稱“國神集團”。截至2015年7月底,國神集團在全國16個省、市、自治區(qū)擁有全資和控股子(分)公司61家。
隨著國神集團業(yè)務(wù)結(jié)構(gòu)復(fù)雜程度不斷加深,業(yè)務(wù)運營及發(fā)展對信息化系統(tǒng)的依賴程度逐步加強,這對IT運維人員的管理能力和技術(shù)水平提出了更高要求。尤其是近兩年來云計算、虛擬化技術(shù)的不斷成熟、發(fā)展,在導(dǎo)入企業(yè)生產(chǎn)環(huán)境的同時,很大程度上降低了在IT硬件資源方面的資金投入,同時為業(yè)務(wù)系統(tǒng)的高可用性提供了基礎(chǔ)保障,然而在獲取這些成績的同時,運維管理的復(fù)雜程度也在不斷攀升。為了確保業(yè)務(wù)系統(tǒng)的持續(xù)性運行目標,國神集團亟須解決以下三個方面的難題:
第一,基礎(chǔ)環(huán)境復(fù)雜。健康的IT基礎(chǔ)架構(gòu)環(huán)境是業(yè)務(wù)系統(tǒng)運行的關(guān)鍵。在面向機房動力環(huán)境、網(wǎng)絡(luò)結(jié)構(gòu)環(huán)境、服務(wù)器以業(yè)務(wù)程序時,涉及了多廠商、多設(shè)備型號以及多版本的情況,這無疑是當前IT運維管理過程中所面臨的最大挑戰(zhàn)之一。
第二,過程管理復(fù)雜。在IT服務(wù)管理中的過程管理是高效運維的關(guān)鍵。其中,人員因素起到了非常關(guān)鍵性的作用,在“專家級”人才短缺的情況下,科學(xué)嚴謹?shù)倪^程管理和順手的工具,將會彌補運維短板。
第三,知識積累復(fù)雜。知識管理是IT服務(wù)管理能力提升的關(guān)鍵。在缺乏知識管理工具的情況下,運維管理過程中很難將個人經(jīng)驗等隱性知識轉(zhuǎn)化為顯性知識。如何進行知識管理工具的選型及導(dǎo)入,對于國神集團信息化部門未來發(fā)展至關(guān)重要。
“五中心”落地是關(guān)鍵
由于國神集團高度重視工業(yè)化與信息化(兩化)融合工作,把信息化建設(shè)作為跨越式發(fā)展、再造管理決策和技術(shù)創(chuàng)新高效管控體系的重要手段,在兩化融合方面為我國工業(yè)信息化作出了典范。面對未來創(chuàng)新發(fā)展的需要,神華國能集團總部在構(gòu)建IT服務(wù)管理體系的過程中,結(jié)合業(yè)務(wù)特點以及人員、流程、工具現(xiàn)狀,提出以流程為導(dǎo)向的“五個中心”運維體系建設(shè)目標。
綜合展示中心:綜合展示中心以統(tǒng)一化的視圖架構(gòu),展示出國神集團IT基礎(chǔ)架構(gòu)構(gòu)成,并結(jié)合人員信息、資源信息提供綜合管控依據(jù)。
服務(wù)及支持中心:服務(wù)及支持中心為運維管理提供服務(wù)支持,以面向服務(wù)的流程管理工具支持國神集團故障管理、變更管理以及服務(wù)請求管理,確保IT服務(wù)質(zhì)量持續(xù)提升。
信息綜合管理中心:信息綜合管理中心作為信息發(fā)布管理入口,使信息實現(xiàn)各級用戶的共享,并結(jié)合國神集團資產(chǎn)管理、項目管理、文檔管理,使綜合業(yè)務(wù)管理更具抓手。
信息化診斷中心:信息化診斷中心作為增強診斷IT基礎(chǔ)架構(gòu)中風(fēng)險及漏洞的重要支持中心,在IT基礎(chǔ)架構(gòu)出現(xiàn)異?;蚬收蠒r,為故障的排查提供快速解決入口。在故障處理的過程中能夠及時、準確定位故障源。
運維監(jiān)控中心:運維監(jiān)控中心是面向運行組日常運行的控制中心,為監(jiān)控組提供統(tǒng)一的監(jiān)控視圖,便于直觀地獲取IT基礎(chǔ)架構(gòu)中的告警或異常,并通過綜合展示中心管理國神集團IT基礎(chǔ)架構(gòu)資源運行態(tài)勢。
為了實現(xiàn)“五中心”建設(shè)目標,在籌備過程中,國神集團經(jīng)過考察、測試和二次開發(fā)成本評估分析,采用銳捷RIIL IT綜合業(yè)務(wù)管理平臺。在部署過程中,其采用網(wǎng)絡(luò)與無線管理系統(tǒng)開放性的管理架構(gòu),面向用戶層提供統(tǒng)一的管理視圖,形成集成業(yè)務(wù)系統(tǒng)性能指標、故障健康、短信實時告警和數(shù)據(jù)分析的一體化平臺。
“五化”開啟主動運維
智能網(wǎng)絡(luò)與無線管理平臺已經(jīng)成為國神集團信息化系統(tǒng)運維的重要支撐工具,在完成IT基礎(chǔ)架構(gòu)資源管理的同時,一改傳統(tǒng)的、被動救火式的運維管理方式,更多地轉(zhuǎn)變?yōu)橹鲃有缘倪\維管理模式,并極大限度地提升了IT運維管理效率及運維質(zhì)量。
第一,自主化。平臺面向使用者提供自助化的職責分工與功能匹配。功能特點包括:全網(wǎng)資源告警分布、關(guān)鍵設(shè)備性能視圖,關(guān)鍵鏈路流量數(shù)據(jù)等,系統(tǒng)使用者能夠更加快速地掌握IT基礎(chǔ)環(huán)境的運行情況。在統(tǒng)一的平臺中應(yīng)用各類面向人員及設(shè)備的統(tǒng)計性數(shù)據(jù),從宏觀的角度掌握人員、設(shè)備、服務(wù)的狀態(tài)。同時,在自助化的工作臺中增加公告通知及待辦處理任務(wù)使工作窗口更加集中。
第二,可視化。在生產(chǎn)運營的過程中可視化的網(wǎng)絡(luò)拓撲結(jié)構(gòu)管理,及時掌握全網(wǎng)資源的可用性狀態(tài)以及性能狀態(tài)。當二級單位廣域網(wǎng)鏈路故障時,以告警的方式對外呈現(xiàn),便于運維人員及時了解全網(wǎng)運行狀態(tài),實時分析網(wǎng)絡(luò)資源及鏈路資源的變化趨勢,結(jié)合國神集團業(yè)務(wù)使用情況,為資源保障及擴容提供合理數(shù)據(jù)支持。
第三,主動化。智能網(wǎng)絡(luò)及無線管理平臺,通過兩個維度進行IT基礎(chǔ)資源的管控,可用性管理及性能管理。二者均以不同的周期進行被管資源探測及性能數(shù)據(jù)收集,依據(jù)預(yù)先設(shè)定的閾值條件當達到閾值范圍后將通過告警的方式進行通知。告警臺收到信息后,運維工程師能夠第一時間獲取告警資源名稱、告警資源IP地址、詳細的告警內(nèi)容等。通過不同的告警等級,初步判斷出告警的影響范圍,從而為提高故障解決效率提供工具層面的支持。
值得關(guān)注的是,國神集團實現(xiàn)了告警信息處理和知識庫進行對接。針對告警處理過程生成相應(yīng)的解決方案,進行評審后可以直接進入到知識庫中進行管理。知識庫將面向所有運維工程師開放使用,確保運維知識得以積累及傳播。
第四,集中化。設(shè)備日志作為事前預(yù)警及事后分析的參照,同時在信息安全方面提供更具參考價值的信息。在日志數(shù)據(jù)采集完成之后,可以根據(jù)不同的維度進行日志分析,如:異常日志頻發(fā)的IT資源、ERR級別及Critical級別變化趨勢以及日志告警數(shù)量等。系統(tǒng)在收集日志后,根據(jù)不同的日志內(nèi)容進行關(guān)鍵字匹配,將符合匹配內(nèi)容的日志信息直接生成為告警信息。
第五,智能化。RIIL的智能分析特點大幅提升了國神集團業(yè)務(wù)系統(tǒng)連續(xù)性管理服務(wù)水平。建立以業(yè)務(wù)視圖為導(dǎo)向的管理窗口,將業(yè)務(wù)系統(tǒng)抽象為業(yè)務(wù)卡片,通過健康度、繁忙度及可用性來綜合性的評估業(yè)務(wù)系統(tǒng)的健康水平。
國神集團相關(guān)負責人表示:“觀看RIIL業(yè)務(wù)卡片和各類運行數(shù)據(jù)曲線圖,能夠非常直觀地讓我們了解到IT資源的性能變化趨勢?!寯?shù)據(jù)自己說話也是目前IT服務(wù)管理領(lǐng)域最可靠的決策方式,只有使更多真實的運行數(shù)據(jù)為運營提供參考,發(fā)現(xiàn)人員、流程及工具方面的漏洞及隱患,才能最終提高運維管理水平?!?