曾德華
【摘要】伴隨著信息化的不斷深入,企業(yè)數(shù)據(jù)量呈指數(shù)倍上升趨勢,傳統(tǒng)IT運維管理出現(xiàn)了瓶頸,迫切需要IT運維自動化提升IT運維效能,高效、靈活地實現(xiàn)IT對業(yè)務(wù)的支撐,本文重點分析了IT運維自動化現(xiàn)狀及存在的問題,探索建立高效IT運維自動化系統(tǒng)的關(guān)鍵因素和未來發(fā)展方向。
【關(guān)鍵詞】IT運維;自動化;存在問題;關(guān)鍵因素;探索
IT運維自動化是指通過將IT運維日常的、大量的重復(fù)性工作自動化,把過去的手工執(zhí)行轉(zhuǎn)為自動化操作,從傳統(tǒng)被動式服務(wù)轉(zhuǎn)變?yōu)橹鲃宇A(yù)防式服務(wù),從而全面提升IT運維效能。IT運維自動化的價值不僅在于保障系統(tǒng)本身的正常運行,降低運行成本,提高運行效率,更重要的是更高效、靈活地實現(xiàn)IT對業(yè)務(wù)的支撐,應(yīng)對加速變化的業(yè)務(wù)流程,與業(yè)務(wù)融為一體,不斷創(chuàng)新。
1.IT運維自動化研究的背景
伴隨著信息化的不斷深入,企業(yè)數(shù)據(jù)量呈指數(shù)倍上升趨勢,面對越來越復(fù)雜的業(yè)務(wù),面對越來越多樣化的用戶需求,不斷擴(kuò)展的IT應(yīng)用需要更加合理的模式來保障IT服務(wù)靈活便捷、安全穩(wěn)定。傳統(tǒng)IT運維管理也逐漸出現(xiàn)了一些瓶頸,從初期的幾臺服務(wù)器發(fā)展到龐大的數(shù)據(jù)中心,單靠人工已經(jīng)無法滿足在技術(shù)、業(yè)務(wù)、管理等方面的要求,標(biāo)準(zhǔn)化、自動化、架構(gòu)優(yōu)化、過程優(yōu)化等降低IT服務(wù)成本的因素越來越被人們所重視。IT運維從誕生發(fā)展至今,自動化作為其重要屬性之一已經(jīng)不僅僅只是代替人工操作,更重要的是深層探知和全局分析,關(guān)注的是在當(dāng)前條件下如何實現(xiàn)性能與服務(wù)最優(yōu)化,同時保障投資收益最大化。
2.IT運維自動化現(xiàn)狀及存在的問題
目前許多企業(yè)的IT運維已經(jīng)實現(xiàn)從人工運維過渡到計算機(jī)管理,但大部分還停留在IT運維管理軟件的應(yīng)用深化,管理流程的制定、梳理和優(yōu)化,管理制度的完善階段,尚處于“半自動化”的狀態(tài)。傳統(tǒng)IT運維仍然是等到IT故障出現(xiàn)后再由運維人員采取相應(yīng)的補(bǔ)救措施。運維管理部門平常的工作就像是“救火隊”。運維人員總是隨時緊張的待命,以便應(yīng)付計算機(jī)系統(tǒng)各種各樣的需求,即使這樣,運維部門的服務(wù)質(zhì)量和維護(hù)成本仍存在很多問題,主要表現(xiàn)在以下三個方面:
(1)被動運維效率低下
在IT運維過程中,只有當(dāng)事件已經(jīng)發(fā)生并已造成業(yè)務(wù)影響時才能發(fā)現(xiàn)并著手處理,這種被動“救火”不但使IT運維人員終日忙碌,也使IT運維本身質(zhì)量很難提高。目前大多數(shù)企業(yè)的IT運維人員日常大部分時間和精力是處理一些簡單重復(fù)的問題,而且由于故障預(yù)警機(jī)制不完善,往往是故障發(fā)生后或報警后才會進(jìn)行處理,不但事倍功半而且常常會出現(xiàn)惡性連鎖反應(yīng)。
(2)缺乏一套流程化、標(biāo)準(zhǔn)化的IT運維機(jī)制
目前許多企業(yè)在IT運維管理過程中自動化的運維管理模式不足,也沒有明確的角色定義和責(zé)任劃分,使得問題出現(xiàn)后很難快速、準(zhǔn)確地找到根本原因,無法及時地找到相應(yīng)的人員進(jìn)行處理和修復(fù),或者是在處理過程中存在問題,缺乏發(fā)現(xiàn)故障的流程化,而在解決問題時不但缺乏標(biāo)準(zhǔn)化的解決方案,也缺乏一個完整的跟蹤記錄。
(3)缺乏高效的IT運維技術(shù)工具
隨著信息化的深入,企業(yè)IT系統(tǒng)日趨復(fù)雜,林林總總的網(wǎng)絡(luò)設(shè)備、服務(wù)器、中間件、業(yè)務(wù)系統(tǒng)等讓IT運維人員難以從容應(yīng)對,即使加班加點地維護(hù)、部署、管理也經(jīng)常會因設(shè)備出現(xiàn)故障而導(dǎo)致業(yè)務(wù)的中斷,嚴(yán)重影響企業(yè)的正常運轉(zhuǎn)。出現(xiàn)這些問題部分原因是企業(yè)缺乏事件的監(jiān)控和診斷工具等IT運維技術(shù)工具,因為在沒有高效的技術(shù)工具的支持下故障事件很難得到主動、快速的處理。
3.建立高效IT運維自動化系統(tǒng)的關(guān)鍵因素
(1)梳理IT運維管理自動化流程。
依據(jù)ITIL等標(biāo)準(zhǔn)化的最佳實踐,實現(xiàn)配置、變更、事件等管理的自動化,通過流程管理,將人員、經(jīng)驗、知識、工具及工作有效地整合在一起,起到互相促進(jìn)的作用,同時也使得IT運維管理可量化、可衡量。
(2)建立自動監(jiān)控管理平臺。
通過監(jiān)控工具實現(xiàn)對用戶操作規(guī)范的約束和對IT資源進(jìn)行實時監(jiān)控,包括服務(wù)器、數(shù)據(jù)庫、中間件、存儲備份、網(wǎng)絡(luò)、安全、機(jī)房、業(yè)務(wù)應(yīng)用和客戶端等內(nèi)容,通過自動監(jiān)控管理平臺實現(xiàn)故障或問題綜合處理和集中管理,將海量的網(wǎng)絡(luò)和服務(wù)器等節(jié)點進(jìn)行實時的監(jiān)控,通過有效的閥值設(shè)定,實現(xiàn)準(zhǔn)確的故障以及與故障報警以及準(zhǔn)確定位。例如,在自定義周期內(nèi)進(jìn)行自動觸發(fā)完成對IT運維的例行巡檢,形成檢查報告。包括自動運行維護(hù),以完成對系統(tǒng)補(bǔ)丁的同步分發(fā)與升級、數(shù)據(jù)備份、病毒查殺等工作。
(3)合理選擇配置自動化工具。
配置變更檢測自動化。IT設(shè)備配置參數(shù)一旦發(fā)生變化,將觸發(fā)變更流程轉(zhuǎn)給相關(guān)技術(shù)人員進(jìn)行確認(rèn),通過自動檢測協(xié)助IT運維人員發(fā)現(xiàn)和維護(hù)配置。
維護(hù)事件提醒自動化。通過對IT設(shè)備和應(yīng)用活動的時時監(jiān)控,當(dāng)發(fā)生異常事件時系統(tǒng)自動啟動報警和響應(yīng)機(jī)制,第一事件通知相關(guān)責(zé)任人。
系統(tǒng)健康檢測自動化。定期自動地對IT設(shè)備硬件和應(yīng)用系統(tǒng)進(jìn)行健康巡檢,配合IT運維團(tuán)隊實施對系統(tǒng)的健康檢查和監(jiān)控。
維護(hù)報告生成自動化。定期自動的對系統(tǒng)做日志的收集分析,記錄系統(tǒng)運行狀況,并通過階段性的監(jiān)控、分析和總結(jié),定時提供IT運維的可用性、性能、系統(tǒng)資源利用狀況分析報告。
(4)建立事件處理知識庫和跟蹤體系。
明確角色定義和責(zé)任劃分, 建立流程化的故障和事件處理機(jī)制,利用系統(tǒng)不斷完善的事件規(guī)范化處理和跟蹤指南,減少IT運維操作的隨意性和強(qiáng)化運維的執(zhí)行力度,大幅度降低故障發(fā)生的概率。當(dāng)系統(tǒng)分配任務(wù)后,處理人員只需要參照相關(guān)知識庫,一步一步操作,確保在指定時間內(nèi)完成流程所規(guī)定的環(huán)節(jié)與工作。通過建立服務(wù)跟蹤體系,來保證服務(wù)達(dá)到規(guī)定的水平等級,即使服務(wù)失敗,也可以正確分析原因,幫助IT服務(wù)部門做出正確的應(yīng)對決策。同時,用戶還應(yīng)可以通過自助服務(wù)臺、電話服務(wù)臺等隨時追蹤該故障請求的處理狀態(tài)。
(5)確立IT運維流程處理優(yōu)先級。
設(shè)立IT運維關(guān)鍵流程,引入優(yōu)先處理原則,制定IT運維的每個關(guān)鍵流程,分配不同的優(yōu)先級,例行的事按常規(guī)處理,特別事件要按優(yōu)先級次序處理,也就是把事件細(xì)分為例行事件和例外關(guān)鍵事件,保證關(guān)鍵業(yè)務(wù)的最佳響應(yīng)。
4.IT運維自動化未來發(fā)展展望
隨著云計算和虛擬化技術(shù)的發(fā)展,在為企業(yè)信息化建設(shè)節(jié)省大量成本的同時,也給企業(yè)的IT運維工作帶來了前所未有的挑戰(zhàn),虛擬化的實施徹底改變了傳統(tǒng)的IT基礎(chǔ)架構(gòu),由原本固化單一的物理基礎(chǔ)架構(gòu)轉(zhuǎn)變?yōu)樘摂M多變的動態(tài)云架構(gòu),又使得運維工作產(chǎn)生了進(jìn)一步的變化。中小公司不必再考慮諸如容災(zāi)、備份方面的事宜,資源的按需交易不僅使得資源不再浪費,也使得業(yè)務(wù)調(diào)整時的伸縮變得更加容易且經(jīng)濟(jì)上更加劃算,大大簡化了傳統(tǒng)意義上的運維工作,IT運維自動化工作的重點也將轉(zhuǎn)移到智能平臺架構(gòu)的選型與優(yōu)化上來,運維需要更關(guān)注業(yè)務(wù)特性及與之相關(guān)的技術(shù)體系,幫助研發(fā)決定各類云服務(wù)的選型、評估其對業(yè)務(wù)的適用性。隨著自動化運維技術(shù)的發(fā)展,運維人員有更多精力、條件,投入到整個服務(wù)架構(gòu)的梳理、設(shè)計中,甚至以提供基礎(chǔ)組件的方式參與到研發(fā)過程,使得產(chǎn)品天生具有較高的可運維性。
參考文獻(xiàn)
[1]Jan van Bon,章斌譯.基于工TIL的全球最佳實踐.IT服務(wù)管理[M].清華大學(xué)出版社,2006,1.
[2]楊小曄.IT運維管理平臺的設(shè)計與實現(xiàn)[D].北京郵電大學(xué),2011.
[3]張鵬.基于ITIL的IT運維管理中心的分析與設(shè)計[D].北京郵電大學(xué),2011.
[4]王麗麗.IT運維管理流程優(yōu)化研究[D].北京林業(yè)大學(xué),2010.