王昕 景旭 楊會君
[摘? ? 要] 隨著高校信息化的發(fā)展,教學(xué)、科研等軟硬件資源平臺的增加,加劇了資源浪費和用戶需求的矛盾。以O(shè)penStack為代表的開源云平臺引入雖解決了信息資源管理和按需分配問題,但運維服務(wù)效率和運維成本面臨巨大的挑戰(zhàn)。文章立足于高效率、低成本的云平臺管理理念,通過借鑒ITIL思想,以O(shè)penStack為開源云框架,以底層的平臺、軟硬件資源為對象,提出了基于流程的、層次化高校云運維模式。通過基于ITIL改造傳統(tǒng)的云運維業(yè)務(wù)流程,提高服務(wù)效率、節(jié)約資源、促進運維過程規(guī)范化,最終為IT服務(wù)水平的量化提供客觀、科學(xué)的依據(jù)和標準。
[關(guān)鍵詞] 開源云平臺;運維;OpenStack;ITIL
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 11. 076
[中圖分類號] G647? ? [文獻標識碼]? A? ? ? [文章編號]? 1673 - 0194(2019)11- 0176- 02
1? ? ? 引? ? 言
隨著計算機技術(shù)的高速發(fā)展和信息時代的來臨,為了提升教學(xué)水平、科研能力,學(xué)校投入大量資金用于教學(xué)科研平臺建設(shè),由于缺乏高效、科學(xué)的管理模式,存在平臺可擴展性差、資源分配缺乏彈性、無法按需進行部署等問題,導(dǎo)致現(xiàn)有資源利用率低,無法滿足用戶需求。
以O(shè)penStack[1]為代表的開源云平臺解決了計算、網(wǎng)絡(luò)、存儲等硬件資源的共享性問題,通過引入分布式計算和虛擬化技術(shù)使得用戶可以通過網(wǎng)絡(luò)隨時隨地、按需使用、按需付費、節(jié)約了用戶使用成本;同時虛擬化技術(shù)的引入使得管理層次增加、管理過程復(fù)雜、極大增加了日常運維的難度。ITIL(Information Technology Infrastructure Library,信息基礎(chǔ)架構(gòu)庫)[2]運維實踐理論的提出,被證明可用于企業(yè)管理中,并起到優(yōu)化企業(yè)IT管理流程、提高內(nèi)外部客戶的滿意度、提升IT服務(wù)水平,幫助降低IT服務(wù)成本,提高企業(yè)經(jīng)濟效益[3]。
本文立足于為高校師生提供更好的技術(shù)和服務(wù),將ITIL流程化思想和OpenStack引入高校教學(xué)、科研平臺管理,實現(xiàn)高校傳統(tǒng)的“以IT技術(shù)為中心 ”,“被動式”[4]的運維模式向“以客戶和服務(wù)為中心”,“主動式”[5]的現(xiàn)代運維模式轉(zhuǎn)化,有效提高服務(wù)管理效率,降低高校的日常運維復(fù)雜性和總成本。
2? ? ? 基于ITIL的層次化運維模型
鑒于傳統(tǒng)的、以技術(shù)為中心的被動式運維管理模式對IT部門的日常運維提出的巨大挑戰(zhàn),同時作為IT服務(wù)管理的最佳實踐標準,大量的成功案例表明實施ITIL可以將IT部門的運營效率提高25%~30%[6],為了解決OpenStack開源云平臺造成的系統(tǒng)層次多、運維復(fù)雜等問題,切實改善運維效果,本文以ITIL流程框架為主導(dǎo),以O(shè)penStack開源云平臺中的軟硬件資源作為管理對象,提出了基于ITIL流程化的、層次化的高校云運維管理模型, 模型自下而上設(shè)計了云資源管理平臺層、運維平臺層和用戶服務(wù)層三部分。用戶服務(wù)層接受來自外部用戶的服務(wù)請求并將其請求以流程化的方式傳遞給運維層進行處理,并向外部用戶反饋處理結(jié)果。運維平臺層通過調(diào)用OpenStack云管理平臺接口為用戶請求提供資源分配服務(wù),同時為服務(wù)層提供故障申報、故障解決等一系列流程化管理功能和最終結(jié)果反饋接口,在整個模型中起承上啟下的作用。云資源管理平臺層直接對計算、網(wǎng)絡(luò),存儲等資源進行管理,接收運維平臺層提出的各種資源服務(wù)請求,為上層的運維模塊屏蔽了底層軟硬件資源細節(jié)。
3? ? ? 運維流程設(shè)計
鑒于傳統(tǒng)運維模式存在環(huán)節(jié)繁雜、故障重復(fù)遞交率高、資源管理分散、處理周期長等問題,本文用流程化的思想對其進行改造,通過設(shè)計自上而下、逐步細化的業(yè)務(wù)分解流和自下而上、逐步解決的任務(wù)反饋流,優(yōu)化高校云平臺運維流程。此外,考慮到業(yè)務(wù)部門缺乏專業(yè)IT知識,對故障細節(jié)描述不清晰,影響后續(xù)服務(wù)臺故障分類的科學(xué)性和指派的準確性增加了現(xiàn)場工程師流程。
在正向分解流中,模型在服務(wù)臺之上增設(shè)了現(xiàn)場工程師環(huán)節(jié),即通過現(xiàn)場工程師對故障進行初步判斷和處理,不僅可以縮短響應(yīng)時間,也為服務(wù)臺提供故障的初步分類;其次服務(wù)臺作為故障申報、資源申請的唯一入口,負責(zé)故障和資源的記錄、分類并按流程將業(yè)務(wù)指派給相應(yīng)的運維人員進行處理;最后由OpenStack平臺調(diào)用相應(yīng)的軟硬件資源。在逆向的反饋流中,OpenStack根據(jù)服務(wù)請求調(diào)用底層的軟、硬件資源,進行計算、處理、封裝,反饋給上層的運維人員;其次運維人員根據(jù)云平臺層提供的服務(wù),在運維層實施資源分配與故障處理等流程,處理結(jié)果上報給平臺與外部用戶的唯一接口——服務(wù)臺;服務(wù)臺將處理結(jié)果反饋給外部用戶和業(yè)務(wù)部門。
本設(shè)計的優(yōu)勢除了在不同層之間運用流程化思想,運維層內(nèi)部如事件管理、問題管理、變更管理、發(fā)布管理、日志管理和案例庫維護等功能也運用了流程化思想。
3.1? ?事件管理
本文的事件是指引起IT服務(wù)中斷或服務(wù)質(zhì)量下降的活動。服務(wù)臺接收現(xiàn)場工程師上報的事件后,首先進行記錄,然后根據(jù)故障類型和嚴重程度進行分類,以便指派給不同的運維工程師處理,處理完畢后關(guān)閉事件,同時將處理過程記錄形成工作日志,最終將事件處理過程中形成的典型案例整理成運維案例庫。此外通過對事件進行統(tǒng)計分析,將無法解決的事件升級為問題管理。
3.2? ?問題管理
問題來源于事件統(tǒng)計分析中的高頻事件和事件升級,是運維工程師經(jīng)過多次循環(huán)、反復(fù)討論確定解決方案,上報并通過專家組評審,最終形成問題。故問題管理模塊主要通過問題來源、記錄、指派、方案制定、評審和實施等多個環(huán)節(jié),解決嚴重影響業(yè)務(wù)系統(tǒng)正常運行的故障。并最終將問題管理、解決流程和案例分別形成知識,記錄到工作日志和運維案例庫。然而如果關(guān)系到影響整個IT基礎(chǔ)設(shè)施重構(gòu)的問題,則將問題升級并進入變更流程。
3.3? ?變更與發(fā)布管理
本文將系統(tǒng)整體升級或業(yè)務(wù)規(guī)模拓展等關(guān)系到系統(tǒng)重構(gòu)的問題升級為變更管理,同時遞交專家組進行風(fēng)險和影響等綜合評估,進一步制定詳細的變更方案提交評審,通過的方案將通過遞交請求進入下一個模塊——發(fā)布管理。在發(fā)布流程中,首先由專家組綜合上一環(huán)節(jié)的請求制定資源發(fā)布方案,同時為確保系統(tǒng)有足夠的資源承擔(dān)業(yè)務(wù)需求,在發(fā)布前增加資源審核環(huán)節(jié),只有審核通過后才能發(fā)布具體實施內(nèi)容,并進一步組織相關(guān)人員進行培訓(xùn)和測試,改善了傳統(tǒng)的變更管理通過方案評審后直接進入發(fā)布流程帶來的資源不確定性,從而將基礎(chǔ)設(shè)施改變造成的業(yè)務(wù)系統(tǒng)無法正常運行損失降到最低。
3.4? ?資源管理
隨著高校資源規(guī)模的不斷擴大,傳統(tǒng)的運維方式對資源的可擴展性和容錯性管理不夠靈活,資源彼此孤立,不能共享,突發(fā)性故障和即時性負載均衡缺乏靈活性等問題日益突出。本文基于流程化思想,以O(shè)penStack作為底層基礎(chǔ)設(shè)施管理的服務(wù)平臺,利用分布式架構(gòu)和虛擬化技術(shù)將計算、存儲和網(wǎng)絡(luò)等硬件資源以資源池形式進行管理,以虛擬機的方式按需對外提供服務(wù),極大地提高了資源分配的靈活性。
4? ? ? 運維角色設(shè)計
隨著教學(xué)、科研等業(yè)務(wù)平臺的增多,對運維人員的業(yè)務(wù)素質(zhì)、知識背景等提出新的要求,為提高運維人員工作效率、加強運維團隊成員的融合度,探索專業(yè)化的問題解決策略,本文根據(jù)運維模型對專業(yè)技能的要求設(shè)計了如下三種角色。
4.1? ?現(xiàn)場工程師
IT服務(wù)實踐中存在大量的一般性和小型故障,由于用戶缺乏IT專業(yè)知識,導(dǎo)致故障描述模糊,影響運維效率,模型在服務(wù)臺之前增設(shè)現(xiàn)場工程師角色作為用戶和運維平臺層之間的過濾器?,F(xiàn)場工程師主要對業(yè)務(wù)部門申報的故障進行初步判斷和處理,及時解決用戶申報的一般故障,只將無法解決的故障提交給服務(wù)臺。
4.2? ?運維工程師
信息化技術(shù)的進步導(dǎo)致業(yè)務(wù)功能越來越強大,架構(gòu)越來越復(fù)雜,同時由于基于OpenStack基礎(chǔ)設(shè)施云的分布式和虛擬化特性,導(dǎo)致故障處理和系統(tǒng)升級需要不同領(lǐng)域的技術(shù)人員協(xié)同處理。故本文在運維層中設(shè)計了系統(tǒng)工程師、網(wǎng)絡(luò)工程師、存儲工程師、云平臺管理工程師等運維工程師角色,為后續(xù)的問題管理、變更管理等流程提供強大的技術(shù)力量。
4.3? ?專家組
變更和發(fā)布作為運維具體方案落地的重要流程,只有經(jīng)過嚴格論證、評審才能得以具體實施。模型設(shè)計了由運維工程師和企業(yè)工程師組成的專家組,負責(zé)故障的處理、變更、發(fā)布等方案的論證、評審與實施,從而確保因基礎(chǔ)設(shè)施改變、整體升級、系統(tǒng)重構(gòu)等重大決策不合理造成的損失降到最低。
5? ? ? 結(jié)? ? 論
本文以新工科背景下,解決高校教學(xué)、科研及軟硬件資源的多態(tài)性和復(fù)雜性為切入點,設(shè)計了基于ITIL的流程化、層次化的運維模型。通過層次化管理模式,改變傳統(tǒng)的“重建設(shè)、輕運維”,“重技術(shù)、輕管理”的管理模式;通過自上而下、逐步細化的模塊化設(shè)計,實現(xiàn)了運維管理與業(yè)務(wù)部門的有效銜接,改善了“被動救火式”的人工運維現(xiàn)狀;通過設(shè)計前饋的業(yè)務(wù)流和反饋的任務(wù)流,有效提高了故障的解決效率,增加了客戶的滿意度;通過引入ITIL流程化框架,解決了運維成本居高不下的現(xiàn)象。為促進新工科模式下產(chǎn)教研融合,促進運維方式的規(guī)范化、流程化提供理論依據(jù)和實踐標準。
主要參考文獻
[1]李喆, 魏巍. 基于OpenStack平臺的私有云[J]. 天津科技, 2016(7):80-83.
[2]孟占永,張華,袁東,等. ITIL在高校IT運維服務(wù)管理中的應(yīng)用[J]. 河南科技, 2012(23):55-56.
[3]周宇潔. ITIL管理理論在IT運維服務(wù)中的應(yīng)用[D].上海:上海交通大學(xué),2010.
[4]黃椿棉. 加強企業(yè)IT運行維護管理初探[J]. 企業(yè)科技與發(fā)展, 2015(5):95-96.
[5]章政海. 以“客戶為中心”的IT運維體系的構(gòu)建[C]// 電力行業(yè)信息化年會, 2014.
[6]李煥中.淺談如何通過ITIL理念提升信息運維水平[J].數(shù)字通信世界,2015(12):29.