諶力
伴隨金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的加速,IT運(yùn)維正在向智能運(yùn)維全面邁進(jìn)。作為率先實(shí)現(xiàn)智能運(yùn)維工程化的全棧IT運(yùn)維服務(wù)商,云智慧(北京)科技有限公司總裁劉洪濤先生向《新金融世界》分享了智能運(yùn)維對于金融數(shù)字化和FinTech的意義,以及智能運(yùn)維在金融機(jī)構(gòu)落地過程中的注意要點(diǎn)。
金融數(shù)字化的運(yùn)維變革
數(shù)字化時(shí)代,IT對金融業(yè)務(wù)的重要程度與日俱增,是推動機(jī)構(gòu)進(jìn)行智能運(yùn)維變革的關(guān)鍵。
在幾年前,很多金融機(jī)構(gòu)會在半夜12點(diǎn)-1點(diǎn)暫停交易進(jìn)行系統(tǒng)維護(hù),而如今的金融交易必須達(dá)到24小時(shí)不間斷的秒級響應(yīng)要求。這就意味著,IT對金融而言已經(jīng)由業(yè)務(wù)支撐系統(tǒng)變?yōu)闃I(yè)務(wù)本身。
劉洪濤表示:“我們在跟金融行業(yè)用戶交流的時(shí)候,大家談的都是業(yè)務(wù)。過去,運(yùn)維關(guān)注的是底層設(shè)備的高可用和穩(wěn)定性。而現(xiàn)在,一切聚焦到業(yè)務(wù)層面,衡量指標(biāo)從SLA變成了MTTR(平均故障修復(fù)時(shí)間)。這就需要覆蓋所有業(yè)務(wù)鏈的全局監(jiān)控、管理和分析,把監(jiān)控的點(diǎn)和面都做完整,還要與業(yè)務(wù)指標(biāo)進(jìn)行關(guān)聯(lián)。所以現(xiàn)在的運(yùn)維比傳統(tǒng)運(yùn)維復(fù)雜度高很多?!眲⒑闈f。
當(dāng)前金融運(yùn)維的另外一個挑戰(zhàn)來自于數(shù)字化轉(zhuǎn)型的推進(jìn)。FinTech新技術(shù)的應(yīng)用,導(dǎo)致IT規(guī)模和復(fù)雜度呈指數(shù)增長,單純依靠人力的故障修復(fù)方法顯然是不可取的。不僅如此,IT系統(tǒng)每時(shí)每刻要產(chǎn)生海量數(shù)據(jù),依靠人工設(shè)定告警閾值、分析處理海量告警信息同樣不現(xiàn)實(shí)。所以,通過AI對歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),設(shè)置更加有效的動態(tài)告警閾值,利用根因分析追蹤導(dǎo)致事件發(fā)生的根本原因,實(shí)現(xiàn)告警事件的及時(shí)處置,有效降低MTTR。
智能運(yùn)維的認(rèn)知和核心技術(shù)
到目前為止,業(yè)界針對AIOps的認(rèn)知尚未統(tǒng)一,有人說AIOps是算法,有的則認(rèn)為是自動化運(yùn)維。劉洪濤表示:“其實(shí)AIOps并不是像APM那樣的產(chǎn)品,而是一種理念。用AI技術(shù)去提升金融機(jī)構(gòu)的運(yùn)維能力,讓它具有智能化,更高效解決金融業(yè)務(wù)運(yùn)行中遇到的問題。同時(shí),AI是一種可以工程化的實(shí)用科技,AIOps就是AI在IT運(yùn)維領(lǐng)域的落地?!?/p>
談到AIOps的核心技術(shù),劉洪濤認(rèn)為“:目前,算法不是關(guān)鍵,因?yàn)楹芏嗨惴ㄒ呀?jīng)非常成熟且開源了。但是,客戶的應(yīng)用場景千差萬別,需求也各不相同,到底哪種算法用什么模式匹配到客戶場景中,這才是核心。這是個‘AIOps工程化的過程,對于智能運(yùn)維提供商來說,既要有算法能力,又要理解客戶的應(yīng)用場景,還要有工程化落地的能力。”
此外,AIOps需要完整的歷史數(shù)據(jù)、日志數(shù)據(jù)和實(shí)時(shí)監(jiān)測數(shù)據(jù)。因此,要實(shí)現(xiàn)AIOps落地,數(shù)據(jù)采集能力同樣必不可少,只有這樣才能通過AI得到有價(jià)值的結(jié)果。
金融行業(yè)智能運(yùn)維落地的理念和建議
針對AIOps在金融行業(yè)的落地,云智慧秉承的理念是: “以數(shù)據(jù)為基礎(chǔ),算法為支撐,場景為導(dǎo)向”。
部署智能運(yùn)維首先要理解傳統(tǒng)運(yùn)維管理與智能運(yùn)維的邏輯差異:傳統(tǒng)運(yùn)維依賴流程,靠工單系統(tǒng)把事件串起來。智能運(yùn)維是基于數(shù)據(jù)和智能化分析結(jié)果進(jìn)行運(yùn)維管理,與傳統(tǒng)運(yùn)維的邏輯完全不一樣。
與過去依靠ITSM平臺管理所有IT問題不同,智能運(yùn)維注重場景化,解決的是某一類問題。當(dāng)然,智慧運(yùn)維的基礎(chǔ)仍然是數(shù)據(jù),在數(shù)據(jù)之上構(gòu)建AI分析能力,在AI之上是事件管理等產(chǎn)品模塊。這些模塊以松耦合的方式,根據(jù)用戶需求的不同任意組合,最后通過可視化運(yùn)維監(jiān)控中心,把IT價(jià)值直觀呈現(xiàn)出來,讓管理者和業(yè)務(wù)運(yùn)營負(fù)責(zé)人都能看懂IT。
劉洪濤建議:“智能運(yùn)維不要上來就做大而全的,我們的建議是‘小步快跑,階梯式前進(jìn)。具體來說,先從某個運(yùn)維問題總結(jié)出來的場景入手,而落地時(shí)要充分考慮未來幾個、甚至幾十個場景的整體需求。這種做法的好處在于效率最高,IT團(tuán)隊(duì)在逐步積累AIOps經(jīng)驗(yàn)的同時(shí),讓業(yè)務(wù)部門快速看到AIOps成效,自然更愿意配合IT變革,推進(jìn)業(yè)務(wù)與IT的融合。所以,我們的建議是做好規(guī)劃,階段式實(shí)現(xiàn)AIOps落地?!?/p>
金融行業(yè)智能運(yùn)維的四大典型場景
云智慧總結(jié)了現(xiàn)階段金融機(jī)構(gòu)推進(jìn)AIOps智能運(yùn)維落地的四個典型場景。
一、統(tǒng)一監(jiān)控。這是幾乎所有用戶在完成系統(tǒng)構(gòu)建之后都要用到的。統(tǒng)一監(jiān)控服務(wù)是于業(yè)務(wù)的。過去的監(jiān)控系統(tǒng)主要監(jiān)控底層硬件設(shè)備和豎井式IT系統(tǒng),但對金融機(jī)構(gòu)來說,這些分散的監(jiān)控系統(tǒng)無法有效支撐業(yè)務(wù)運(yùn)轉(zhuǎn)。因此,必須有一個開放的統(tǒng)一監(jiān)控平臺,把一個個業(yè)務(wù)和孤立的監(jiān)控系統(tǒng)整合起來,同時(shí)依托這個平臺獲得完整的IT數(shù)據(jù)。
二、根因分析。系統(tǒng)產(chǎn)生的大量告警信息怎么判斷?依靠人工處理和工程師的經(jīng)驗(yàn)判斷故障變得越來越困難。利用智能算法對異常或者故障的根因進(jìn)行分析,給出故障的根因推薦以及深入分析結(jié)果,讓事件得到迅速處理。
三、動態(tài)基線。由于業(yè)務(wù)指標(biāo)受時(shí)間、季節(jié)、事件等因素影響不斷波動,這就導(dǎo)致IT指標(biāo)的變化同樣是動態(tài)的?;跉v史數(shù)據(jù),利用智能算法深度學(xué)習(xí),對未來一段時(shí)間內(nèi)每個時(shí)間點(diǎn)的數(shù)值進(jìn)行精準(zhǔn)預(yù)測,將預(yù)測值作為基線來監(jiān)控和告警,提高運(yùn)維的事件響應(yīng)和處理效率。
四、故障預(yù)測。很多問題的發(fā)生都是有征兆的,故障預(yù)測基于歷史告警消息的相關(guān)性,對當(dāng)前處于故障狀態(tài)的警報(bào)可能造成的影響進(jìn)行預(yù)測判斷,從而實(shí)現(xiàn)故障的提前預(yù)警。