張 軍
(中國(guó)電子科技集團(tuán)公司第三十四研究所,廣西 桂林541004;)
大數(shù)據(jù)分析方案
張 軍
(中國(guó)電子科技集團(tuán)公司第三十四研究所,廣西 桂林541004;)
隨著信息化建設(shè)在企業(yè)內(nèi)部的不斷深化,通過信息化技術(shù)不僅增強(qiáng)了企業(yè)的核心競(jìng)爭(zhēng)力、加速了企業(yè)的發(fā)展,而且為企業(yè)積累了海量的數(shù)據(jù)信息。為有效利用企業(yè)IT資源在運(yùn)行中積累的各種數(shù)據(jù),讓企業(yè)從戰(zhàn)略角度更準(zhǔn)確地遇見未來,從而在經(jīng)營(yíng)模式、管理方式、戰(zhàn)略決策給企業(yè)帶來巨大的變化和創(chuàng)新。提出了一套大數(shù)據(jù)分析平臺(tái)建設(shè)方案,從“數(shù)據(jù)匯入、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)展示”全過程對(duì)數(shù)據(jù)進(jìn)行管理和分析。
大數(shù)據(jù);分析;事件歸并;數(shù)據(jù)集中
當(dāng)前全球已進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)量巨大,增長(zhǎng)速度極快,類型豐富,單元價(jià)值極小但規(guī)模價(jià)值很大。根據(jù)2012年出版的涂子沛的《大數(shù)據(jù)》一書記載[1],2010年全球企業(yè)一年新增的數(shù)據(jù)就超過了7000PB,全球消費(fèi)者新存儲(chǔ)的數(shù)據(jù)約為6000PB,這相當(dāng)于十多萬個(gè)美國(guó)國(guó)會(huì)圖書館的藏書量。最可怕的是,從2010年至今仍然不停地出現(xiàn)各種各樣的新設(shè)備、新技術(shù)、新機(jī)器幫助政府、企業(yè)和個(gè)人產(chǎn)生更多的數(shù)據(jù)。中國(guó)工程院院士大數(shù)據(jù)專家李國(guó)杰曾在報(bào)告中稱:大數(shù)據(jù)將帶來一場(chǎng)社會(huì)變革,特別是公共管理和公共服務(wù)領(lǐng)域;有行業(yè)報(bào)告顯示,某國(guó)政府通過大數(shù)據(jù)技術(shù)每年可節(jié)省330億英鎊[2]。據(jù)IDC2014年報(bào)告分析中國(guó)大數(shù)據(jù)技術(shù)與服務(wù)正在快速的增長(zhǎng),年增長(zhǎng)率約38.6%,預(yù)計(jì)2017年的市場(chǎng)規(guī)模將達(dá)到8.5億美元[3]。
在大數(shù)據(jù)時(shí)代,企業(yè)和組織受到大數(shù)據(jù)的影響越來越大,未來各行各業(yè)都無法避免受其影響?;ヂ?lián)網(wǎng)企業(yè)正在通過大數(shù)據(jù)來刻畫用戶行為喜好特征,實(shí)現(xiàn)信息精準(zhǔn)推送,增加用戶粘性流量以及業(yè)務(wù)收入[4]。企業(yè)正在通過大數(shù)據(jù)來評(píng)價(jià)鑒別個(gè)人的信用風(fēng)險(xiǎn),從而調(diào)整信用額度來降低企業(yè)風(fēng)險(xiǎn)成本或增加業(yè)務(wù)收入。電信運(yùn)營(yíng)商隨著個(gè)性化業(yè)務(wù)不斷增減,產(chǎn)生了大量的運(yùn)營(yíng)數(shù)據(jù),其需要進(jìn)行分析才能提升業(yè)務(wù)價(jià)值,但采用傳統(tǒng)數(shù)據(jù)庫技術(shù)在性能和擴(kuò)展成本上都嚴(yán)重制約著這一需求。
大數(shù)據(jù)分析平臺(tái)通過采用數(shù)據(jù)建模技術(shù)、節(jié)點(diǎn)管理技術(shù)、事件收集和事件歸并技術(shù)等先進(jìn)的技術(shù),解決了傳統(tǒng)數(shù)據(jù)分析平臺(tái)數(shù)據(jù)庫容量擴(kuò)展困難、維護(hù)成本高、分析時(shí)效性低的問題,實(shí)現(xiàn)了不同來源的異構(gòu)數(shù)據(jù)的集中挖掘分析與展示。
隨著信息化建設(shè)的不斷深入,企業(yè)和組織圍繞業(yè)務(wù)要求已經(jīng)建設(shè)了大量的網(wǎng)絡(luò)設(shè)備、安全設(shè)備、終端、服務(wù)器、業(yè)務(wù)系統(tǒng)等IT資源。這些IT資源在運(yùn)行過程中積累了大量的各種類型的數(shù)據(jù),包括網(wǎng)絡(luò)基礎(chǔ)資源運(yùn)行相關(guān)的數(shù)據(jù)、網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù)、業(yè)務(wù)相關(guān)的數(shù)據(jù)等等[4]。普遍存在的問題有:
a)沒有將這些數(shù)據(jù)集中收集和存儲(chǔ)起來,對(duì)其進(jìn)行分析獲取其中潛在的價(jià)值;
b)雖然IT資源產(chǎn)生的部分?jǐn)?shù)據(jù)正在被利用,但是數(shù)據(jù)量越來越大,已有的分析利用手段越來越低,數(shù)據(jù)的維護(hù)和利用壓力正在變大。
隨著數(shù)量的增加,遇到的一些數(shù)據(jù)分析相關(guān)的典型問題如下:
1)已建安管平臺(tái)遭遇瓶頸
為解決單個(gè)安全設(shè)備很難發(fā)現(xiàn)的安全問題,需要將安全設(shè)備產(chǎn)生的數(shù)據(jù)結(jié)合起來分析才能發(fā)現(xiàn)那些潛在的威脅。雖然安全廠商已經(jīng)推出了安全管理平臺(tái)這類產(chǎn)品來解決安全設(shè)備間的信息孤島問題,但是其在融合新的數(shù)據(jù)時(shí)仍存在瓶頸,主要表現(xiàn)有:
a)數(shù)據(jù)處理過程中的定義不夠直觀、方便;
b)在進(jìn)行數(shù)據(jù)分析時(shí),分析規(guī)則功能簡(jiǎn)單,無法對(duì)數(shù)據(jù)構(gòu)建有效的分析模型;
c)一般的數(shù)據(jù)庫已無法適應(yīng)大數(shù)據(jù)的存儲(chǔ)與訪問需求。構(gòu)建在關(guān)系型數(shù)據(jù)庫上的安全管理平臺(tái)已無法適應(yīng)這種數(shù)據(jù)增長(zhǎng)的需要。
2)大量監(jiān)管數(shù)據(jù)無法分析
具有監(jiān)管職能的用戶為實(shí)現(xiàn)對(duì)目標(biāo)結(jié)構(gòu)、網(wǎng)絡(luò)、信息系統(tǒng)等的安全監(jiān)管,部署大量檢測(cè)類設(shè)備和系統(tǒng)積累了大量的監(jiān)測(cè)數(shù)據(jù),數(shù)據(jù)量較大、存儲(chǔ)分散、沒有集中化的分析工具,導(dǎo)致面對(duì)這些數(shù)據(jù)無法分析,不能從中發(fā)現(xiàn)對(duì)被監(jiān)管對(duì)象安全監(jiān)管有價(jià)值的潛在信息。
3)業(yè)務(wù)數(shù)據(jù)分析變得困難
用戶需要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,但是業(yè)務(wù)規(guī)模的不斷擴(kuò)大,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等各種新技術(shù)在業(yè)務(wù)中的不算應(yīng)用帶來業(yè)務(wù)模式的不斷新增,需要分析的業(yè)務(wù)數(shù)據(jù)越來越大,在傳統(tǒng)關(guān)系型數(shù)據(jù)庫及數(shù)據(jù)倉庫上構(gòu)建的業(yè)務(wù)分析系統(tǒng)面臨分析容量擴(kuò)展困難、維護(hù)成本高、分析時(shí)效性低等諸多問題,企業(yè)和組織需要尋找一種新的方案解決當(dāng)前面臨的困境。
基于對(duì)以上現(xiàn)狀及問題的考慮分析,企業(yè)和組織進(jìn)行大數(shù)據(jù)分析需要走完五個(gè)主要任務(wù),包括:
1)能建立大數(shù)據(jù)存儲(chǔ)支撐,實(shí)現(xiàn)對(duì)需要分析的大數(shù)據(jù)的存儲(chǔ);
2)能完成對(duì)分析數(shù)據(jù)輸入,實(shí)現(xiàn)從各種不同的系統(tǒng)或設(shè)備中收集需要分析的數(shù)據(jù),將數(shù)據(jù)集中匯入到大數(shù)據(jù)存儲(chǔ)支撐中;
3)能完成分析前的數(shù)據(jù)預(yù)處理,實(shí)現(xiàn)在數(shù)據(jù)輸入過程中、數(shù)據(jù)輸入后、數(shù)據(jù)分析前對(duì)數(shù)據(jù)格式進(jìn)行統(tǒng)一,數(shù)據(jù)內(nèi)容進(jìn)行補(bǔ)充或修改,數(shù)據(jù)過濾、歸并等;
4)能完成快速支撐變化的各種數(shù)據(jù)分析需求。實(shí)現(xiàn)以分析引擎和規(guī)則為基礎(chǔ),對(duì)大數(shù)據(jù)進(jìn)行實(shí)時(shí)或歷史分析,對(duì)企業(yè)和組織中不斷變化的數(shù)據(jù)分析需求進(jìn)行快速支撐;
5)能完成分析結(jié)果輸出,實(shí)現(xiàn)對(duì)分析結(jié)果的多種展示,并能將分析結(jié)果按照接口進(jìn)行輸出。
大數(shù)據(jù)分析平臺(tái)提供一套完成的數(shù)據(jù)管理平臺(tái)架構(gòu),從“數(shù)據(jù)匯入、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)展示”全過程對(duì)數(shù)據(jù)進(jìn)行管理。通過各種采集方式將不同來源且異構(gòu)的的數(shù)據(jù)集中匯入,將預(yù)處理后的數(shù)據(jù)進(jìn)行分布式存儲(chǔ),基于數(shù)據(jù)特性建模并引入分析規(guī)則進(jìn)行數(shù)據(jù)的挖掘分析,通過多類型方式按需實(shí)現(xiàn)界面可視化展示及交互應(yīng)用。
大數(shù)據(jù)分析平臺(tái)包含數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層、核心業(yè)務(wù)層、平臺(tái)展示層,如圖1所示。
圖1 大數(shù)據(jù)分析平臺(tái)功能架構(gòu)
2.3.1 平臺(tái)展示層
平臺(tái)展示層記賬了各類展現(xiàn)視圖,包含集中展示視圖、任務(wù)展示視圖、功能展示視圖。其中集中展示視圖將各種信息匯集起來進(jìn)行綜合展示;任務(wù)展示視圖基于每個(gè)過程生成的任務(wù)進(jìn)行展現(xiàn);管理展示視圖實(shí)現(xiàn)對(duì)平臺(tái)配置操作應(yīng)用的交互展現(xiàn)。
2.3.2 核心業(yè)務(wù)層
提供系統(tǒng)核心功能實(shí)現(xiàn),包括可視化建模管理、組件庫管理、任務(wù)管理、采集管理、匯入管理、數(shù)據(jù)表管理、知識(shí)庫管理、用戶授權(quán)管理、平臺(tái)智能管理等功能。
2.3.3 數(shù)據(jù)分析層
數(shù)據(jù)分析層主要包含過程分析功能和流式分析功能[5]。
過程分析功能包含統(tǒng)計(jì)分析、多維分析、關(guān)聯(lián)分析。統(tǒng)計(jì)分析可定量的統(tǒng)計(jì)某類數(shù)據(jù)信息;多維分析可從一類數(shù)據(jù)的多個(gè)維度進(jìn)行縱向和橫向綜合分析給出結(jié)果;關(guān)聯(lián)分析實(shí)現(xiàn)對(duì)多類型多來源的數(shù)據(jù)通過場(chǎng)景與規(guī)則進(jìn)行關(guān)聯(lián)分析結(jié)果。
流式分析功能引用常見流式分析技術(shù),保證數(shù)據(jù)信息被持續(xù)不斷完整地處理和保證數(shù)據(jù)信息被正確完整地執(zhí)行,實(shí)現(xiàn)大數(shù)據(jù)持續(xù)不斷可靠的計(jì)算運(yùn)行。
2.3.4 基礎(chǔ)架構(gòu)層
為整個(gè)系統(tǒng)提供數(shù)據(jù)存儲(chǔ)的基礎(chǔ)支撐,包含分布式存儲(chǔ)、分布式計(jì)算、數(shù)據(jù)倉庫、分布式查詢、元數(shù)據(jù)存儲(chǔ)。
2.3.5 數(shù)據(jù)采集層
通過主動(dòng)及被動(dòng)方式采集實(shí)時(shí)數(shù)據(jù),支持?jǐn)?shù)據(jù)采集協(xié)議獲取其它外部數(shù)據(jù)源信息;數(shù)據(jù)采集層對(duì)采集到的數(shù)據(jù)進(jìn)行歸一化過濾、歸并及實(shí)時(shí)分析的處理。
平臺(tái)的多維數(shù)據(jù)分析功能都是基于多維分析技術(shù)來實(shí)現(xiàn)。多維分析技術(shù)通過對(duì)業(yè)務(wù)數(shù)據(jù)的充分理解,首先通過數(shù)據(jù)索引建模技術(shù)完成數(shù)據(jù)倉庫的構(gòu)建,然后在數(shù)據(jù)倉庫基礎(chǔ)上利用統(tǒng)計(jì)、關(guān)聯(lián)、挖掘等分析手段為構(gòu)建數(shù)據(jù)分析模型、數(shù)據(jù)分析任務(wù),然后通過數(shù)據(jù)分析任務(wù)執(zhí)行輸出分析結(jié)果。
每個(gè)分析模型都被描述為大數(shù)據(jù)處理與分析系統(tǒng)的一個(gè)分析過程。這些分析過程可以定期執(zhí)行,用戶可以直接可視化的查看這些分析過程分析出的結(jié)果。
大數(shù)據(jù)處理與分析系統(tǒng)支持可視化的定義分析過程。伴隨著客戶對(duì)該系統(tǒng)的熟悉和對(duì)數(shù)據(jù)認(rèn)識(shí)的加深,后續(xù)用戶可自行添加分析過程。
業(yè)務(wù)分析模型的建設(shè)具有以下特點(diǎn):
1)數(shù)據(jù)源靈活可配;
2)異構(gòu)數(shù)據(jù)分析;
3)可視化過程定義;
4)豐富的過程組件;
測(cè)得補(bǔ)強(qiáng)件中心高度左邊測(cè)點(diǎn)和上邊測(cè)點(diǎn)的軸向與環(huán)向應(yīng)變隨時(shí)間變化曲線如圖7所示。其中應(yīng)變片3讀數(shù)不理想,可能出現(xiàn)了松動(dòng)。屈曲后應(yīng)變出現(xiàn)了突變,與開孔圓柱殼應(yīng)變變化不同,補(bǔ)強(qiáng)后改變了應(yīng)力分布。
5)變量綁定;
6)支持第三方擴(kuò)展。
平臺(tái)中數(shù)據(jù)采集層、數(shù)據(jù)匯聚層設(shè)計(jì)的所有節(jié)點(diǎn)均使用統(tǒng)一的節(jié)點(diǎn)技術(shù)。該節(jié)點(diǎn)技術(shù)采用了微內(nèi)核架構(gòu),將核心功能與業(yè)務(wù)服務(wù)功能進(jìn)行剝離。
該技術(shù)可大幅度改善系統(tǒng)的非功能性技術(shù)指標(biāo),簡(jiǎn)化系統(tǒng)的整體復(fù)雜度,提高系統(tǒng)運(yùn)行的穩(wěn)定性、健壯性、易擴(kuò)展、易部署、易管理??赏ㄟ^添加節(jié)點(diǎn)的方式擴(kuò)展系統(tǒng)的處理能力;可通過添加組件的方式擴(kuò)展系統(tǒng)的業(yè)務(wù)能力,保證系統(tǒng)的可擴(kuò)展性。
平臺(tái)可通過代理收集多類安全事件源產(chǎn)生的日志信息,如安全設(shè)備、網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)以及應(yīng)用系統(tǒng)等??芍С值娜罩靖袷桨?syslog、snmp、trap、文件、ODBC 等多種采集格式。
平臺(tái)的事件歸并技術(shù)可以根據(jù)用戶指定的信息特征、字段等信息進(jìn)行歸并,當(dāng)多個(gè)信息的指定特征、字段的內(nèi)容一致時(shí),產(chǎn)生一個(gè)歸并信息。同時(shí)用戶可以自己指定是否丟棄原始信息。
平臺(tái)通過使用SQL 92語法標(biāo)準(zhǔn)制訂事件過濾條件,使用戶直觀的定義事件過濾條件,在事件收集、事件監(jiān)視、報(bào)表定制中可以體現(xiàn)其強(qiáng)大的靈活性,滿足各種業(yè)務(wù)需要。
平臺(tái)通過基于狀態(tài)機(jī)的實(shí)時(shí)關(guān)聯(lián)檢測(cè)技術(shù)使用狀態(tài)機(jī)來抽象和描述攻擊的過程和場(chǎng)景,狀態(tài)機(jī)間的狀態(tài)轉(zhuǎn)換條件由不同安全事件觸發(fā)。同時(shí),實(shí)施關(guān)聯(lián)分析技術(shù)通過對(duì)時(shí)間的關(guān)聯(lián),可以有效地幫助用戶過濾事件,在大量事件中提取有用的信息。
大數(shù)據(jù)分析平臺(tái)可以使用內(nèi)置的攻擊狀態(tài)機(jī)模型來抽取和描述攻擊行為,支持用戶手工建立攻擊關(guān)聯(lián)場(chǎng)景,可有效地從大量安全事件中準(zhǔn)確識(shí)別出真實(shí)的安全威脅,幫助用戶快速響應(yīng)安全問題,不斷優(yōu)化網(wǎng)絡(luò)的安全狀況。
基于先進(jìn)的數(shù)據(jù)采集技術(shù),獲取企業(yè)和組織內(nèi)部不同信息系統(tǒng)中的異構(gòu)數(shù)據(jù),通過數(shù)據(jù)過程分析和流式分析實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)的挖掘和分析,實(shí)現(xiàn)對(duì)信息的可視化展示,從而發(fā)現(xiàn)有價(jià)值的信息,為企業(yè)和組織的領(lǐng)導(dǎo)層和相關(guān)業(yè)務(wù)組織結(jié)構(gòu)的運(yùn)營(yíng)決策提供數(shù)據(jù)支撐。
大數(shù)據(jù)對(duì)企業(yè)和組織的影響既是一種挑戰(zhàn)也是一種機(jī)遇,企業(yè)和組織想要在大數(shù)據(jù)時(shí)代保持高效運(yùn)轉(zhuǎn)、實(shí)現(xiàn)創(chuàng)新、取得領(lǐng)先優(yōu)勢(shì),就必須積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代變化趨勢(shì),應(yīng)對(duì)的核心策略就是要在業(yè)務(wù)中引入大數(shù)據(jù)分析,發(fā)掘企業(yè)和組織所擁有的數(shù)據(jù)中蘊(yùn)含的價(jià)值。
[1]涂子沛.大數(shù)據(jù)[M].廣西:廣西師范大學(xué)出版社,2012.
[2]李國(guó)杰.數(shù)據(jù)共享-大數(shù)據(jù)時(shí)代國(guó)家治理體系現(xiàn)代化的前提[C].開放政府?dāng)?shù)據(jù),北京,中國(guó)人民大學(xué),2014.
[3]中科智遠(yuǎn)(北京)科技股份有限公司,2014-2015年度中國(guó)IDC產(chǎn)業(yè)發(fā)展研究報(bào)告[R].2015年4月.19-20.
[4]涂子沛.數(shù)據(jù)之巔:大數(shù)據(jù)革命,歷史、現(xiàn)實(shí)與未來[M].北京:中信出版集團(tuán)股份有有限公司,2014.
[5]阿涅斯瓦蘭.顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術(shù)的實(shí)時(shí)應(yīng)用[M].北京:電子工業(yè)出版社,2015.
An Analysis Schem e for Big Data
ZHANG Jun
(No.34th Institute of CETC,Guilin Guangxi541004,China)
With the in-depth development of IT construction in the enterprises,information technology greatly strengths the core competitiveness and speeds up the development,while accumulatesmassive data information for the enterprises.Formaking effective use of various data collected in the applation IT resources,the enterprises shouldmore precisely and strategically forecast its future development,thus bringing huge change and innovation to the enterprise in terms of businessmodel,managementstyle and strategic policy.This paper also proposes a construction scheme for big data analysis platform,thus to implement the whole-processmanagement and analysis of data information from data imputing,storing,analysis and displa.
big data;analysis;eventmerging;data concentration
TN915
A
1009-8054(2016)06-0105-03
2016-03-08
張 軍(1982—),男,學(xué)士,工程師,主要研究方向?yàn)樾畔⒒芾砗托畔⑾到y(tǒng)安全。