王文興 李文倚 楊旸
摘要:構(gòu)建一個智能的自動化運維監(jiān)控平臺,以運行監(jiān)控和故障報警這兩個方面為重點,將所有信息系統(tǒng)中所涉及的系統(tǒng)功能模塊和數(shù)據(jù)庫等納入運維監(jiān)控平臺中,主要收集網(wǎng)絡(luò)數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫及iis、tomcat等日志數(shù)據(jù),然后將收集到的數(shù)據(jù)進(jìn)行提取需要的數(shù)據(jù)到監(jiān)控報警模塊,進(jìn)行報警規(guī)則設(shè)置、報警閥值設(shè)置、報警聯(lián)系人設(shè)置和報警方式設(shè)置等。為實現(xiàn)自動化監(jiān)測的功能,該次研究主要包括實現(xiàn)三部分:短信通知功能、錯誤現(xiàn)場拍照和數(shù)據(jù)庫備份檢查功能,實現(xiàn)運維規(guī)范化、報警準(zhǔn)確化、預(yù)警自動化的運維管理系統(tǒng)。
關(guān)鍵詞:自動化監(jiān)測;故障報警;短信通知;錯誤現(xiàn)場拍照
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)32-0009-02
1 背景
近幾年,隨著公司信息化應(yīng)用的快速發(fā)展,公司管理的部門、各院、中心建設(shè)完成的信息系統(tǒng)已達(dá)到一定的規(guī)模。隨著業(yè)務(wù)規(guī)模的增長,任務(wù)將不斷增加,如客戶端軟硬件環(huán)境變化,特別是安全類軟件或設(shè)置導(dǎo)致的兼容性問題;隨著服務(wù)器端軟硬件升級可能導(dǎo)致的代碼、配置等兼容性問題;還有由于使用方法不當(dāng)或者其他因素導(dǎo)致的無效數(shù)據(jù)的維護(hù)問題等問題越來越突出。
目前公司內(nèi)已經(jīng)有多達(dá)40余個信息系統(tǒng)的建設(shè)以及公司新老信息系統(tǒng)的日常維護(hù)工作,并且各課題組成員幾乎都交叉承擔(dān)了多個課題工作任務(wù),人員緊張,沒有足夠的人力來完成課題開發(fā)和運維工作。因此,需要設(shè)立一個有針對性的運維系統(tǒng),以保障各個系統(tǒng)運維工作的有序進(jìn)行、運維經(jīng)驗的有效管理,進(jìn)而保證各個系統(tǒng)的穩(wěn)定運行。
為了更好地協(xié)助運維人員對信息系統(tǒng)進(jìn)行日常運維,近年專門設(shè)立運維課題,針對性地對自動化運維監(jiān)測系統(tǒng)的進(jìn)行研究設(shè)計和開發(fā)工作。
2 問題與研究思路
目前的運維工作較大程度依賴于客戶提出的問題,而該系統(tǒng)主要針對用戶量較大的如科研管理平臺、公文系統(tǒng)、流程審批系統(tǒng),等現(xiàn)有的系統(tǒng)提供自動化的預(yù)警檢測;同時,上述幾個系統(tǒng)目前的問題只能用戶提出出錯問題,而沒有建立自動化的運維的錯誤信息;而且各系統(tǒng)在其數(shù)據(jù)庫服務(wù)器上的是否處于聯(lián)通的狀態(tài),各系統(tǒng)的數(shù)據(jù)的自動備份工作等問題尚未實現(xiàn)自動化監(jiān)測的能力。
因此為服務(wù)于日常信息系統(tǒng)運維工作,減少運維人員工作量為目標(biāo)思想,以網(wǎng)絡(luò)、數(shù)據(jù)庫、操作系統(tǒng)底層接口等技術(shù)為保障,以監(jiān)測文件夾內(nèi)容變化的方式實現(xiàn)對數(shù)據(jù)庫備份結(jié)果的監(jiān)測[1]。針對在線系統(tǒng)優(yōu)化完善問題,加強系統(tǒng)版本控制與整體測試,避免優(yōu)化完善問題帶來其他問題;在技術(shù)支持方面,通過積累問題解決方法,逐步建立自動化支持平臺,為技術(shù)支持人員及用戶提供參考,提高技術(shù)支持效率[2]。同時,由于需要運維的各個系統(tǒng)都是已經(jīng)在線運行的軟件系統(tǒng),承擔(dān)了公司內(nèi)外各個業(yè)務(wù)單位的管理、科研、生產(chǎn)等多種工作,研究的目標(biāo)為保持各個信息系統(tǒng)的安全平穩(wěn)運行,在不影響正常運行狀態(tài)下部署自動化監(jiān)控運維程序[3]。
3 設(shè)計思路與實現(xiàn)
為解決前面的問題,實現(xiàn)自動化監(jiān)測的功能,通過對各系統(tǒng)運維人員的需求調(diào)研,在已有的傳統(tǒng)的正常運維管理的基礎(chǔ)之上,該次研究主要包括實現(xiàn)三部分的功能:短信通知功能、錯誤現(xiàn)場拍照和數(shù)據(jù)庫備份檢查功能。圖1是該系統(tǒng)設(shè)計的各功能模塊的業(yè)務(wù)模型圖。
3.1 短信通知功能
使用IDEA,JDK1.6,Java語言,SQL Server 2008數(shù)據(jù)庫開發(fā),具體功能設(shè)計為:定時從數(shù)據(jù)庫中獲取需要監(jiān)測的路徑,測試連接情況。如果監(jiān)測到狀態(tài)變動(從上一次正常聯(lián)通到該次連接失敗,或者從上一次連接失敗到該次連接成功),則根據(jù)運維系統(tǒng)中記錄的相應(yīng)管理人員手機號碼發(fā)送短信,提醒運維人員查看郵件報警的詳細(xì)信息,并解決問題。同時把此次短信內(nèi)容、收件人和時間記錄在運維服務(wù)器。
3.2 錯誤現(xiàn)場拍照
使用IDEA,JDK1.6,Java語言,SQL Server 2008數(shù)據(jù)庫開發(fā),具體功能設(shè)計為:定時從數(shù)據(jù)庫中獲取需要監(jiān)測的路徑,測試連接情況。如果監(jiān)測到狀態(tài)變動,則利用java環(huán)境自帶的thread dump功能實現(xiàn)java環(huán)境下的現(xiàn)場拍照,把錯誤信息通過郵件發(fā)送至運維系統(tǒng)中記錄的相應(yīng)管理人員郵箱,以供運維人員根據(jù)錯誤現(xiàn)場追蹤和修復(fù)錯誤,同時把此次郵件內(nèi)容、收件人和時間記錄在運維服務(wù)器。
3.3 數(shù)據(jù)庫備份檢查功能
使用VS2010,F(xiàn)rameWork4.5,C#語言,SQL Server 2008數(shù)據(jù)庫開發(fā),具體功能設(shè)計為:對目標(biāo)文件夾內(nèi)的文件變動進(jìn)行監(jiān)測,在變動發(fā)生時、結(jié)束時,將文件屬性情況各發(fā)一封郵件通知指定用戶。各系統(tǒng)管理員自行部署到數(shù)據(jù)庫服務(wù)器,可以監(jiān)測一個或多個文件夾,可以由一個或多個郵箱接收監(jiān)測信息,可以監(jiān)測文件夾內(nèi)文件的增、刪、改和重命名情況。同時根據(jù)管理員的設(shè)計自動實現(xiàn)數(shù)據(jù)的遷移和備份工作。下面代碼為發(fā)送報警郵件的代碼實現(xiàn)函數(shù)。
4 總結(jié)與展望
該文完成了自動化運維監(jiān)測系統(tǒng)的設(shè)計和實現(xiàn),監(jiān)測系統(tǒng)每周末完成數(shù)據(jù)庫全庫備份,并將數(shù)據(jù)文件傳輸?shù)搅硪慌_獨立物理機,以備必要時進(jìn)行數(shù)據(jù)恢復(fù)。同時,系統(tǒng)通過異常監(jiān)測程序,完成對數(shù)據(jù)庫運行實例、Weblogic數(shù)據(jù)庫連接池、應(yīng)用相應(yīng)時間、應(yīng)用阻塞情況進(jìn)行監(jiān)測,并通過郵件和短信發(fā)送通知,保持系統(tǒng)平穩(wěn)運行。
參考文獻(xiàn):
[1] 石堅. 校園網(wǎng)運維管理系統(tǒng)的分析與研究[J]. 價值工程, 2016(3).
[2] 陸春, 黃杰, 陳云. 高校信息系統(tǒng)運維自動化的研究與實踐[J]. 中國教育信息化: 高教職教, 2014(5): 85-87.
[3] 熊宇梁. 基于BS架構(gòu)的IT資源監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[D]. 北京: 北京郵電大學(xué), 2014.
【通聯(lián)編輯:謝媛媛】