林亮滾
(廣東省氣象公共服務(wù)中心(廣東氣象影視宣傳中心),廣州510640)
在目前的運(yùn)維工作中,有些單位的運(yùn)維管理還是采用傳統(tǒng)的運(yùn)維管理模式,這種方式孤立且被動(dòng),難以確保各個(gè)系統(tǒng)中運(yùn)維工作的順利開展和有序、穩(wěn)定進(jìn)行。主要表現(xiàn)在以下3方面。
在傳統(tǒng)運(yùn)維工作中,主要依賴人工處理的方式,且運(yùn)維人員往往都處于較為被動(dòng)的位置。較多的是運(yùn)維人員根據(jù)信息系統(tǒng)的使用人員反饋的錯(cuò)誤,對(duì)故障進(jìn)行處理。而一旦在問題發(fā)生過程中,出現(xiàn)人員緊張等問題,則會(huì)導(dǎo)致沒有足夠的人員進(jìn)行運(yùn)維工作,難以及時(shí)、準(zhǔn)確地找到問題并進(jìn)行修復(fù),將會(huì)嚴(yán)重影響系統(tǒng)的有序運(yùn)行。
在目前的系統(tǒng)監(jiān)測(cè)當(dāng)中,并未完全實(shí)現(xiàn)自動(dòng)化。在系統(tǒng)運(yùn)行方面,各系統(tǒng)的數(shù)據(jù)庫(kù)在有效聯(lián)通和備份等方面都有待進(jìn)一步完善。而在報(bào)警、預(yù)警方面,運(yùn)維人員往往只能在故障發(fā)生以后進(jìn)行故障處理,預(yù)警機(jī)制并不完善,以致監(jiān)控工作的實(shí)際作用難以真正地發(fā)揮出來,不僅加大了運(yùn)維人員的工作負(fù)擔(dān),還大大地影響了各個(gè)系統(tǒng)的穩(wěn)定運(yùn)行。
在信息化的建設(shè)過程中,系統(tǒng)隨著業(yè)務(wù)發(fā)展而變得日趨復(fù)雜。面對(duì)多種多樣的網(wǎng)絡(luò)設(shè)備、服務(wù)器和中間件等系統(tǒng),依靠傳統(tǒng)的技術(shù)往往難以實(shí)現(xiàn)系統(tǒng)的高效運(yùn)行,還十分容易因故障的發(fā)生或問題沒有及時(shí)解決而導(dǎo)致業(yè)務(wù)中斷,進(jìn)而影響單位的效益和正常運(yùn)轉(zhuǎn)。而出現(xiàn)這種問題,主要還是在運(yùn)維系統(tǒng)方面,缺乏能對(duì)故障進(jìn)行監(jiān)控和診斷的高效技術(shù),依靠運(yùn)維人員難以高效、及時(shí)地解決故障問題。
自動(dòng)化運(yùn)維是指運(yùn)用運(yùn)行腳本及第三方工具讓某些運(yùn)維過程變?nèi)斯樽詣?dòng)化,如初始自動(dòng)化、監(jiān)控自動(dòng)化、報(bào)警處理自動(dòng)化等,在減少人力投入和成本的基礎(chǔ)上,讓系統(tǒng)自身來承擔(dān)更多的勞動(dòng)力,確保業(yè)務(wù)系統(tǒng)能夠?qū)崿F(xiàn)高效、準(zhǔn)確地運(yùn)行,也進(jìn)一步保障運(yùn)維人員的日常運(yùn)維工作。而想要構(gòu)建一個(gè)運(yùn)維自動(dòng)化的監(jiān)測(cè)系統(tǒng),則可以著重從運(yùn)行監(jiān)控和故障報(bào)警2方面出發(fā)。
首先,在監(jiān)控運(yùn)行方面,可以通將各個(gè)系統(tǒng)中的模塊和數(shù)據(jù)庫(kù)納入監(jiān)控平臺(tái),如網(wǎng)絡(luò)數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、iis、tomcat等日志數(shù)據(jù),在以數(shù)據(jù)庫(kù)、操作系統(tǒng)為底層接口的技術(shù)基礎(chǔ)上,對(duì)系統(tǒng)文件夾的內(nèi)容變化進(jìn)行跟蹤和反饋,從而實(shí)現(xiàn)對(duì)已備份結(jié)果的全方位監(jiān)測(cè)。其次,在故障報(bào)警方面,原有流程通常都是發(fā)現(xiàn)問題,進(jìn)行故障排查然后再進(jìn)行經(jīng)驗(yàn)分析,此方法更多的是借助人工干預(yù)。為了實(shí)現(xiàn)自動(dòng)化運(yùn)維,可以在排查問題的思路上設(shè)置不同的問題診斷場(chǎng)景,以此來實(shí)現(xiàn)異常情況下的自動(dòng)修復(fù)。對(duì)于報(bào)警裝置,可借助上述的數(shù)據(jù)采集模塊,設(shè)置監(jiān)控腳本,添加自定義的監(jiān)控項(xiàng)。
為了能夠?yàn)榭焖佟?zhǔn)確地對(duì)系統(tǒng)故障進(jìn)行有效的定位和錯(cuò)誤判斷,本次研究主要是在傳統(tǒng)正常運(yùn)維的基礎(chǔ)上實(shí)現(xiàn)自動(dòng)化故障報(bào)警功能,以便于運(yùn)維人員能夠更快地解決實(shí)際問題。對(duì)此,可通過短信通知、錯(cuò)誤拍照、數(shù)據(jù)庫(kù)備份3種方式來實(shí)現(xiàn)。
短信通知功能可通過使用IDEA、Java語言、SQL Server 2008數(shù)據(jù)庫(kù)開發(fā)設(shè)計(jì),實(shí)現(xiàn)可以定時(shí)地從數(shù)據(jù)庫(kù)中獲得監(jiān)測(cè)路徑,以便于運(yùn)維人員能夠更及時(shí)地獲得測(cè)試連接情況。一旦出現(xiàn)了連接異常,如連接失敗或二次連接成功,就可以通過系統(tǒng)中的運(yùn)維數(shù)據(jù)定時(shí)發(fā)送短信通知,以此來提示運(yùn)維人員及時(shí)對(duì)故障問題進(jìn)行解決,并將此次故障的內(nèi)容及時(shí)間等詳細(xì)記錄在運(yùn)維服務(wù)器中[1]。
對(duì)于系統(tǒng)中所發(fā)生的某些錯(cuò)誤信息,可以通過利用Java環(huán)境自帶的thread dump功能實(shí)現(xiàn)Java環(huán)境下的現(xiàn)場(chǎng)拍照,以便運(yùn)維人員能夠更為清晰準(zhǔn)確地了解和掌控問題發(fā)生的具體情況,確保在實(shí)時(shí)的檢測(cè)中快速地掌握變動(dòng)情況。一旦系統(tǒng)有異?;蜃儎?dòng)發(fā)生,則會(huì)自動(dòng)拍下圖片,并將圖片及相關(guān)的運(yùn)維記錄發(fā)送至指定的運(yùn)維管理人員的郵箱,以便更為快速地進(jìn)行錯(cuò)誤現(xiàn)場(chǎng)追蹤,并對(duì)其進(jìn)行錯(cuò)誤修復(fù),實(shí)現(xiàn)自動(dòng)化的故障監(jiān)測(cè)。在錯(cuò)誤信息處理結(jié)束之后,將此次的郵件內(nèi)容、時(shí)間及收件人員記錄在服務(wù)器中,為下一次同等故障或其他故障發(fā)生時(shí)提供參考。
通過對(duì)數(shù)據(jù)庫(kù)備份進(jìn)行檢查來完成異常監(jiān)測(cè)。對(duì)此功能的實(shí)現(xiàn)主要可以通過對(duì)VS2010、FrameWork4.5、C#語言、SQL Server 2008數(shù)據(jù)庫(kù)的開發(fā),對(duì)目標(biāo)文件夾內(nèi)容的變動(dòng)進(jìn)行監(jiān)控。一旦文件夾的文件有所變動(dòng)或者有異常情況,則會(huì)立即將其變動(dòng)通過郵件等方式發(fā)送至指定的運(yùn)維人員,通知其變動(dòng)的發(fā)生時(shí)間、結(jié)束時(shí)間及詳細(xì)的變動(dòng)情況。而系統(tǒng)的監(jiān)管人員還可以通過部署數(shù)據(jù)庫(kù)服務(wù)器,對(duì)一個(gè)文件或者多個(gè)文件進(jìn)行有效監(jiān)測(cè),及時(shí)掌握其中文件的增加、刪除、修改等具體情況。同時(shí),還可以通過管理人員的自動(dòng)設(shè)置和調(diào)度,有效地實(shí)現(xiàn)數(shù)據(jù)的備份、遷移等工作,以更自動(dòng)化、準(zhǔn)確化的形式來實(shí)現(xiàn)運(yùn)維管理。
自動(dòng)化的運(yùn)維監(jiān)測(cè)系統(tǒng)建立,可以有效地實(shí)現(xiàn)大規(guī)模的監(jiān)控和全方位的準(zhǔn)確告警。通過AMP可以對(duì)網(wǎng)絡(luò)設(shè)備、中間件、數(shù)據(jù)庫(kù)等進(jìn)行統(tǒng)一性的告警,實(shí)現(xiàn)準(zhǔn)確化、多方位的運(yùn)維監(jiān)控效果。并且自動(dòng)化監(jiān)測(cè),可以更多地根據(jù)警告觸發(fā)條件來設(shè)置和調(diào)度運(yùn)維操作,讓系統(tǒng)可以實(shí)現(xiàn)智能化處理。如對(duì)于文件空間的已滿狀態(tài),就可以通過提前預(yù)設(shè)清除的操作,進(jìn)一步減少警告風(fēng)暴,降低人員的運(yùn)維壓力,從而有效地提高告警處理的及時(shí)性。對(duì)于數(shù)據(jù)庫(kù)的專業(yè)化監(jiān)測(cè),還可以有效地對(duì)其中的資源進(jìn)行優(yōu)化及預(yù)測(cè),實(shí)現(xiàn)預(yù)警的準(zhǔn)確化,提高運(yùn)維效率。監(jiān)測(cè)系統(tǒng)可以通過每周定時(shí)地進(jìn)行數(shù)據(jù)庫(kù)備份,將系統(tǒng)中的文件進(jìn)行轉(zhuǎn)移和傳輸,以便必要時(shí)對(duì)數(shù)據(jù)進(jìn)行恢復(fù)。自動(dòng)化的監(jiān)測(cè)系統(tǒng),可以在發(fā)生故障及異常時(shí),及時(shí)地將具體信息通過多元化的方式發(fā)送至運(yùn)維人員,不僅提高了運(yùn)維的準(zhǔn)確性,還能夠有效地確保系統(tǒng)得到及時(shí)的維護(hù),幫助各個(gè)系統(tǒng)都能夠平穩(wěn)、有序地進(jìn)行工作。
綜上所述,自動(dòng)化的運(yùn)維監(jiān)測(cè)系統(tǒng)應(yīng)用可以有效地幫助單位降低運(yùn)維成本,提高運(yùn)維效率。同時(shí),可以防止代碼或配置產(chǎn)生問題時(shí),導(dǎo)致維運(yùn)壓力增大而影響整個(gè)系統(tǒng)的運(yùn)行。且通過對(duì)自動(dòng)化監(jiān)控技術(shù)的使用,可以有效地對(duì)系統(tǒng)信息錯(cuò)誤及風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)、告警等,以便提高運(yùn)維的及時(shí)性和準(zhǔn)確性,進(jìn)一步在發(fā)現(xiàn)問題和解決問題中,通過跟蹤、記錄、反饋來優(yōu)化和完善,確保各系統(tǒng)都能夠安全平穩(wěn)地運(yùn)行。