国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能運維在金融行業(yè)的應用研究

2018-11-23 11:30李俊
卷宗 2018年32期
關鍵詞:大數(shù)據(jù)人工智能

李俊

摘 要:如何高效地進行大規(guī)模系統(tǒng)運維,一直是金融行業(yè)數(shù)據(jù)中心思考的問題。人工智能技術的發(fā)展正慢慢改變運維體系,讓運維更加智能成為了可能。本文介紹了智能運維的產生和發(fā)展,探討了智能運維的系統(tǒng)建設和關鍵場景以及技術。

關鍵詞:大數(shù)據(jù);智能運維;人工智能

1 引言

隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、金融科技等技術的迅速發(fā)展,當前各個行業(yè)的企業(yè)紛紛進行數(shù)字化轉型以應對日益激烈的市場競爭,企業(yè)的數(shù)字化服務越來越依賴于大型復雜的IT系統(tǒng)。為了更好的用戶體驗,這些IT系統(tǒng)需要可以穩(wěn)定、連續(xù)地運轉,系統(tǒng)的部署、運行和維護都需要專業(yè)人員負責。傳統(tǒng)運維方式在大規(guī)模系統(tǒng)運維的時候常常會碰到一些問題。例如:百度在定位系統(tǒng)瓶頸時,影響網(wǎng)站PageView的屬性有運營商、省份、城市、移動設備類型、軟件版本號、移動模塊號、瀏覽器版本、服務器模塊等十幾個屬性,每個屬性有幾百億條數(shù)據(jù),運維人員人工分析其中的規(guī)律是不可行的。如何區(qū)分“正常狀態(tài)下實時交易量為零”與“故障狀態(tài)下實時交易量為零” 的不同情形,這需要結合多方面的數(shù)據(jù)進行智能判斷。

2 智能運維的產生與發(fā)展

智能運維(AIOps)這個概念最早由Gartner于2016年提出,將人工智能應用于運維領域,基于已有的運維數(shù)據(jù)(日志、監(jiān)控信息、應用信息等),通過人工智能的方式來進一步解決傳統(tǒng)運維沒辦法解決的問題。

學術上,多倫多大學的Geoffrey Hinton的教授和Yoshua Bengio、Yann LeCun一起提出了可行的深度學習方案,大幅的提高了計算機視覺在圖片識別的正確率。2012年Google Brain用16000個CPU核的計算平臺訓練10億神經(jīng)元的深度網(wǎng)絡,無外界干涉下自動識別出了貓。最近5-6年,人工智能特別是深度學習在圖像、聲音和語義等各個領域取得了長足的進步,為人工智能算法應用于智能運維領域提供了理論基礎。

近幾年一些互聯(lián)網(wǎng)公司不斷在智能運維進行探索和實踐,也取得了一定成果。Google使用“類神經(jīng)網(wǎng)絡”技術分析其眾多數(shù)據(jù)中心的工作情況,決定何時管理數(shù)據(jù)中心的設備,比如清理熱交換器,提高設備冷卻性能,大大提高數(shù)據(jù)中心的運維效率。百度實現(xiàn)了一套基于日志 Trace 的智能故障定位系統(tǒng)及其背后的一套技術方案,最終能夠實現(xiàn)PageView根因定位能力,并能夠根據(jù)根因做統(tǒng)計上的多維度匯聚,該系統(tǒng)應用于百度核心搜索系統(tǒng),極大的提升了重大異常問題定位效率。

3 金融行業(yè)的智能運維應用研究

3.1 特色和挑戰(zhàn)

和互聯(lián)網(wǎng)行業(yè)一樣,金融機構IT系統(tǒng)規(guī)模都比較大,需要管理萬臺服務器級別以上的大規(guī)模基礎設施。但是和互聯(lián)網(wǎng)行業(yè)不同的是,金融機構面臨著嚴格的金融監(jiān)管要求,需要維持穩(wěn)定的金融秩序,系統(tǒng)的穩(wěn)定性和連續(xù)性要求極高,允許大的系統(tǒng)變更的次數(shù)要遠遠少于互聯(lián)網(wǎng)公司。金融機構IT架構以前采用大型機,現(xiàn)在是小型機為主,部分采用了X86服務器,云計算正在小規(guī)模試點,整體IT環(huán)境是多代共存。同時,商業(yè)軟件和開源軟件不同,面臨接口不開放,集成成本高的問題。所以,金融行業(yè)智能運維的場景和要求有一定的行業(yè)特色。

3.2 智能運維系統(tǒng)設計

圖1 智能運維系統(tǒng)邏輯架構圖

智能運維系統(tǒng)分成數(shù)據(jù)接入層、數(shù)據(jù)存儲層、數(shù)據(jù)分析層和智能運維應用層。邏輯架構示意圖(圖1)如下。1)數(shù)據(jù)接入層:通過開放的API接口,廣泛接入企業(yè)IT系統(tǒng)的服務器、網(wǎng)絡、中間件、業(yè)務系統(tǒng)日志以及CMDB等與運維相關的數(shù)據(jù)。接入數(shù)據(jù)的形式不僅包括離線的歷史數(shù)據(jù)、還包括流式的實時數(shù)據(jù)。2)數(shù)據(jù)存儲層:對接入的運維大數(shù)據(jù)進行統(tǒng)一集中、高效的存儲和管理。流式數(shù)據(jù)通過消息隊列緩存以實現(xiàn)高速交換的需求,流式數(shù)據(jù)和離線數(shù)據(jù)最終進入運維數(shù)據(jù)倉庫。3)數(shù)據(jù)分析層:對集中整合的各個系統(tǒng)的運維數(shù)據(jù),采用多維分析、搜索、時間序列、知識圖譜、預測等多種分析技術以支撐智能運維應用。4)智能運維應用層:針對不同的智能運維場景,支持不同的應用。包括實時智能監(jiān)控、日志聚合和檢索、異常檢測、根因分析、告警聚合服務和容量規(guī)劃等。

3.3 智能運維系統(tǒng)和CMDB的關系

CMDB是IT架構中設備的各種配置信息,與服務支持和交付流程緊密相連,它是系統(tǒng)運維最底層最核心的數(shù)據(jù)庫。智能運維系統(tǒng)接入了CMDB的數(shù)據(jù),在CMDB基礎上建設了運維數(shù)據(jù)倉庫。運維數(shù)據(jù)倉庫和CMDB是整個運維系統(tǒng)的最重要的兩個資料庫。CMDB側重于操作、流程支持,是IT運營的核心數(shù)據(jù)庫。運維數(shù)據(jù)倉庫是海量運維數(shù)據(jù)存儲,用于做運維大數(shù)據(jù)分析,是智能運維的核心資料庫。

3.4 關鍵場景與技術

3.4.1 實時智能監(jiān)控

對于金融交易系統(tǒng)一次小小的故障都會造成不小的經(jīng)濟損失,所以不僅需要監(jiān)控歷史數(shù)據(jù),同時需要監(jiān)控當前運行數(shù)據(jù),實時監(jiān)控反而更加重要。對于離線歷史數(shù)據(jù)的管理,系統(tǒng)將他們存放在運維數(shù)據(jù)倉庫中,這些數(shù)據(jù)大多為非結構化數(shù)據(jù)、半結構化數(shù)據(jù),可以采用分布式的Hadoop HDFS存儲,支持海量數(shù)據(jù)而且便于擴展。對于流式實時數(shù)據(jù)的管理,系統(tǒng)接入層將數(shù)據(jù)實時推送到消息隊列Kafka組件中,然后通過Kafka交換,以減少對業(yè)務系統(tǒng)的影響。在數(shù)據(jù)分析層,對于流式數(shù)據(jù)的處理,系統(tǒng)通過Spark Streaming組件去獲取各平臺剛剛傳入Kafka的系統(tǒng)日志、應用日志、監(jiān)控數(shù)據(jù)等數(shù)據(jù),實時發(fā)送到智能運維應用,智能監(jiān)控通過可視化技術動態(tài)地將數(shù)據(jù)展現(xiàn)給運維人員。HDFS、Kafka、Spark Streaming這些都是Hadoop組件,它們被良好的集成在Hadoop技術體系中。

3.4.2 日志聚合與檢索

當運維人員需要排錯時,需要逐臺登錄服務器查看。另外,日志查詢方式比較單一, Windows 服務器需要手動查看Event Log,Linux服務器需要通過less、grep和awk等常見的Linux指令,無法從時間段、關鍵字、字段值統(tǒng)計等方面進行多維度查詢。智能運維平臺對日志聚合,統(tǒng)一存儲。而且通過ElasticaSearch組件對數(shù)據(jù)建立索引,便于檢索。不同于以往每次僅可查看數(shù)量有限的幾種日志,運維人員可通過智能運維平臺所提供的關鍵字、統(tǒng)計函數(shù)、單條件、多條件、模糊查找等功能,在多個系統(tǒng)中快速定位故障信息,幫助運維人員從全局視角查看系統(tǒng)的運維數(shù)據(jù)信息,大大縮短了故障分析的時間。

3.4.3 異常檢測

金融機構通常會實時監(jiān)控交易系統(tǒng)的業(yè)務狀態(tài),每分鐘交易信息進行匯總統(tǒng)計。匯總信息包括業(yè)務量、交易成功率、交易響應時間三個指標,各指標解釋如下:1)業(yè)務量:每分鐘總共發(fā)生的交易總筆數(shù);2)交易成功率:每分鐘交易成功筆數(shù)和業(yè)務量的比率;3)交易響應時間:一分鐘內每筆交易在后端處理的平均耗時(單位:毫秒)。當分支機構網(wǎng)絡傳輸節(jié)點故障,前端交易無法上送請求,會導致業(yè)務量陡降。當分支機構側參數(shù)數(shù)據(jù)變更或者配置錯誤,數(shù)據(jù)中心后端處理失敗率增加,影響交易成功率指標。當數(shù)據(jù)中心后端處理系統(tǒng)異常(如操作系統(tǒng)CPU負荷過大)引起交易處理緩慢,影響交易響應時間指標。當數(shù)據(jù)中心后端處理系統(tǒng)應用進程異常,導致交易失敗或響應緩慢。當這三個指標出現(xiàn)業(yè)務量陡降、響應時間陡升等情況,系統(tǒng)可能存在著潛在故障。通??梢詮慕灰琢俊⒔灰最愋?、地域分布、交易時間段等多個維度進行分析,通過歷史和當前數(shù)據(jù)對比。但是金融系統(tǒng)的交易數(shù)據(jù)存在時間波動:工作日和非工作日的交易量存在差別,一天內交易量存在業(yè)務低谷時間段和正常業(yè)務時間段。簡單的對比前一段時間的業(yè)務量,往往不夠精確,基于時間序列的Holt-Winters分析方法可以對數(shù)據(jù)進行二次指數(shù)平滑,提高異常檢測的精確度。

3.4.4 根因分析

異常檢測發(fā)現(xiàn)異常后,如何快速找到異常的根本原因?在傳統(tǒng)運維中,我們通常通過自上而下的方式逐級人工排查,也就是先從應用系統(tǒng),再到數(shù)據(jù)庫、再到操作系統(tǒng),最后是服務器硬件、網(wǎng)絡等底層資源。這種方式可以分析出比較簡單、明顯的系統(tǒng)故障,但是無法有效的分析出性能瓶頸、內存泄漏等一些復雜的多因素影響的問題。智能運維系統(tǒng)通過結合CMDB中的配置信息以及其他一些運維數(shù)據(jù),學習出故障的傳播路徑,幫助運維快速定位問題。同時運維專家也可以對故障根原因信息進行標注以改善人工智能的準確性,同時改善智能運維系統(tǒng)的智能水平。再進一步,當智能系統(tǒng)的智能水平達到一定程度后,系統(tǒng)甚至可以考慮自動采取措施來修復故障。

3.4.5 告警聚合

在傳統(tǒng)運維中,運維人員有時會陷入重復告警的困擾。例如一個服務器宕機,在它恢復運行的這段時間內,會不斷收到告警信息。與此同時,其關聯(lián)的應用系統(tǒng)、中間件的各級資源也會不斷地產生報警。智能運維系統(tǒng)通過CMDB系統(tǒng)中的配置信息獲取監(jiān)控對象之間的依賴關系,自動尋找故障的底層故障點進行告警,忽略關聯(lián)告警信息。對于一段時間窗口告警信息,系統(tǒng)智能合并成一條信息,而不是反復重復告警。智能運維系統(tǒng)還可以通過CMDB系統(tǒng)中的變更信息,智能地忽略應版本變更引起的告警信息。

3.4.6 容量規(guī)劃

在傳統(tǒng)運維中,容量規(guī)劃會更根據(jù)業(yè)務量的規(guī)模等因素來人為預估服務器的節(jié)點數(shù)、硬件配置等資源。通過基于運維系統(tǒng)產生的實際、真實的數(shù)據(jù),通過一些模型例如:ARMA 和GARCH 模型,來預測未來3個月或者1年需要的資源配置。這種基于數(shù)據(jù)的預測方法相對經(jīng)驗預估相對要科學,并且準確得多,從而避免了資源的浪費。特別是在云計算的環(huán)境中,結合云計算彈性計算,按需分配的特點,極大的提高了數(shù)據(jù)中心的資源利用率。

4 結語

綜上所述,由于開源大數(shù)據(jù)技術和人工智能技術的發(fā)展,金融機構在接入運維大數(shù)據(jù)、分析和存儲運維大數(shù)據(jù)以及一些智能運維場景的應用已經(jīng)沒有技術障礙。但是,通過人工智能技術檢測出故障的根原因后,如何通過采取”自動修復“技術自動修復故障,在無需人工干預的場景下,還存在如何保證整體系統(tǒng)穩(wěn)定、安全等一系列的問題,還需要進一步研究和探索,以滿足金融機構對高安全、高穩(wěn)定性的要求。

參考文獻

[1]袁俊德.以“七臺兩庫”領銜智能化運維[J].金融電子化,2017(08):75-77.

[2]高建.陽光保險邁入智能運維1.0時代[J].金融電子化,2017(08):84-85.

[3]楊斌.大數(shù)據(jù)技術領航智能運維[J].金融電子化,2017(08):86-87.

猜你喜歡
大數(shù)據(jù)人工智能
我校新增“人工智能”本科專業(yè)
人工智能與就業(yè)
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
上栗县| 沙洋县| 遂宁市| 余庆县| 临湘市| 抚远县| 措勤县| 达拉特旗| 山阳县| 浦东新区| 青川县| 高陵县| 吐鲁番市| 阜南县| 洪江市| 湘乡市| 蕉岭县| 弥勒县| 双桥区| 永州市| 义乌市| 阜新市| 奎屯市| 白玉县| 安远县| 稷山县| 高雄县| 吉木乃县| 夹江县| 牡丹江市| 兴安县| 邯郸县| 岑巩县| 扶余县| 乡城县| 莫力| 夏邑县| 双桥区| 衡阳市| 横峰县| 卢氏县|