国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

企業(yè)大數(shù)據(jù)建設(shè)的技術(shù)瓶頸

2016-11-04 18:06張磊顧景民
科技視界 2016年23期
關(guān)鍵詞:系統(tǒng)架構(gòu)數(shù)據(jù)分析瓶頸

張磊+顧景民

【摘 要】隨著大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)運(yùn)用到企業(yè)各個(gè)領(lǐng)域,數(shù)據(jù)量成指數(shù)倍增長(zhǎng),運(yùn)用現(xiàn)今大數(shù)據(jù)、云計(jì)算等技術(shù),大數(shù)據(jù)平臺(tái)承載能力已經(jīng)力不從心,在某種程度上陷入了停滯。企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)的過(guò)程中面臨著很多的技術(shù)難題,因此要優(yōu)化企業(yè)大數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu),并深入了解大數(shù)據(jù)的系統(tǒng)瓶頸,尋求解決之道,迎接大數(shù)據(jù)的新時(shí)代。

【關(guān)鍵詞】大數(shù)據(jù);系統(tǒng)架構(gòu);瓶頸;采集處理;數(shù)據(jù)分析

0 引言

進(jìn)入大數(shù)據(jù)時(shí)代,海量數(shù)據(jù),成為一個(gè)企業(yè)的最大的資產(chǎn)這項(xiàng)資產(chǎn)非常龐大,數(shù)據(jù)的類型繁多復(fù)雜,由于數(shù)據(jù)存儲(chǔ)管理極為分散,造成了過(guò)量的數(shù)據(jù)冗余和數(shù)據(jù)的不一致性,使得數(shù)據(jù)資源難于查詢?cè)L問(wèn),管理層無(wú)法從中輕易獲得有效的決策數(shù)據(jù)支持;一些信息集成度低、互聯(lián)性差、信息管理分散,數(shù)據(jù)的完整性、準(zhǔn)確性、及時(shí)性等方面存在較大差距;數(shù)據(jù)中蘊(yùn)藏著巨大信息資源,但是沒(méi)有通過(guò)有效工具充分挖掘利用,信息資源的增值作用還沒(méi)有在管理決策過(guò)程中充分發(fā)揮。如何從這些數(shù)據(jù)資產(chǎn)抽取發(fā)再其中巨大的價(jià)值,成為眾多企業(yè)需要解決的嚴(yán)峻問(wèn)題。

1 大數(shù)據(jù)平臺(tái)

1.1 何為大數(shù)據(jù)

大數(shù)據(jù)指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。簡(jiǎn)單的來(lái)講,大數(shù)據(jù)是一個(gè)非常龐大,非常復(fù)雜的數(shù)據(jù)集合,以至于傳統(tǒng)的數(shù)據(jù)庫(kù)管理員、數(shù)據(jù)處理程序?qū)ζ涫譄o(wú)策。

1.2 大數(shù)據(jù)的平臺(tái)架構(gòu)

大數(shù)據(jù)平臺(tái)是解決大數(shù)據(jù)計(jì)算的方案的綜合性平臺(tái),是以存儲(chǔ)、運(yùn)算、展現(xiàn)作為目的的。提供可靠的、可以支撐業(yè)務(wù)性能要求的數(shù)據(jù)存儲(chǔ),對(duì)海量數(shù)據(jù)進(jìn)行計(jì)算與分析,對(duì)分析結(jié)果綜合形象的展現(xiàn)。

大數(shù)據(jù)系統(tǒng)優(yōu)化架構(gòu)分為基礎(chǔ)架構(gòu)層、中間層重量級(jí)綜合平臺(tái)和上層輕量級(jí)構(gòu)件平臺(tái)三層架構(gòu)。

基礎(chǔ)架構(gòu)平臺(tái)。大數(shù)據(jù)基礎(chǔ)架構(gòu)依賴于云計(jì)算技術(shù),擴(kuò)展了云,又融于云,包括存儲(chǔ)、網(wǎng)絡(luò)、計(jì)算等資源。云計(jì)算技術(shù)融合分布式計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡等計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù),為大數(shù)據(jù)平臺(tái)提供強(qiáng)有力的基礎(chǔ)架構(gòu)。

中間層重量級(jí)綜合平臺(tái)。中間層融入系統(tǒng)數(shù)據(jù)集成系統(tǒng)、存儲(chǔ)系統(tǒng)、數(shù)據(jù)分析計(jì)算系統(tǒng)、綜合數(shù)據(jù)服務(wù)系統(tǒng)四大系統(tǒng),完成從大數(shù)據(jù)源數(shù)據(jù)采集、存儲(chǔ)、挖掘分析、服務(wù)應(yīng)用的數(shù)據(jù)綜合平臺(tái)。中間層由以技術(shù)主導(dǎo)大數(shù)據(jù)綜合平臺(tái)和以業(yè)務(wù)流程整合為先鋒的BPM綜合流程管理相輔相成,構(gòu)建企業(yè)穩(wěn)固的大數(shù)據(jù)綜合平臺(tái)。

上層輕量級(jí)構(gòu)件平臺(tái)?;跇?gòu)件化的綜合平臺(tái)可以復(fù)用已有的應(yīng)用系統(tǒng)、應(yīng)用框架,并有較強(qiáng)的用戶需求變化適應(yīng)能力。用戶可以通過(guò)基本的系統(tǒng)配置,進(jìn)行簡(jiǎn)單的托拽,就可以實(shí)現(xiàn)不同風(fēng)格的門(mén)戶系統(tǒng)與分析系統(tǒng)?;跇?gòu)件的統(tǒng)一門(mén)戶平臺(tái)與BI分析系統(tǒng),將是上層應(yīng)用發(fā)展的趨勢(shì)。

建立統(tǒng)一的構(gòu)件化的企業(yè)門(mén)戶系統(tǒng)。將各業(yè)務(wù)應(yīng)用做構(gòu)件化的portlet等,使門(mén)戶集成更方便快捷。BI分析系統(tǒng)是一個(gè)集數(shù)據(jù)整合、展現(xiàn)、分析挖掘及共享一體的大數(shù)據(jù)可視化數(shù)據(jù)平臺(tái)。BI分析系統(tǒng)中各個(gè)元素指標(biāo)構(gòu)件化,可以與系統(tǒng)門(mén)戶集成,也可以采用移動(dòng)構(gòu)件化模式,滿足快速移動(dòng)開(kāi)發(fā)。

2 企業(yè)實(shí)施大數(shù)據(jù)系統(tǒng)過(guò)程中應(yīng)解決的技術(shù)難點(diǎn)

企業(yè)在實(shí)施大數(shù)據(jù)建設(shè)的過(guò)程中需要著重解決以下技術(shù)難點(diǎn),主要包括數(shù)據(jù)采集處理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析等,解決了這些問(wèn)題,借助于大數(shù)據(jù)平臺(tái)對(duì)企業(yè)海量數(shù)據(jù)的處理分析,就可以從中挖掘出通過(guò)傳統(tǒng)信息化手段所不能分析決策數(shù)據(jù)。

大數(shù)據(jù)平臺(tái)優(yōu)化的系統(tǒng)架構(gòu)中,中間重平臺(tái)層面,承載大數(shù)據(jù)平臺(tái)核心技術(shù)架構(gòu),大數(shù)據(jù)的快速存儲(chǔ)、安全性、準(zhǔn)確性和實(shí)時(shí)性等都給大數(shù)據(jù)平臺(tái)提出了挑戰(zhàn)。

2.1 數(shù)據(jù)采集處理

大數(shù)據(jù)環(huán)境下,數(shù)據(jù)來(lái)源非常豐富且數(shù)據(jù)類型多樣,存儲(chǔ)和分析挖掘的數(shù)據(jù)量龐大,對(duì)數(shù)據(jù)展現(xiàn)的要求較高,并且很看重?cái)?shù)據(jù)處理的高效性和可用性。

傳統(tǒng)的數(shù)據(jù)挖掘、分析處理方法和工具,在非結(jié)構(gòu)化、高速化的大數(shù)據(jù)處理要求面前顯得過(guò)于乏力,需要?jiǎng)?chuàng)新開(kāi)發(fā)適應(yīng)新型大數(shù)據(jù)處理需求的數(shù)據(jù)挖掘和數(shù)據(jù)處理方法。

非結(jié)構(gòu)化數(shù)據(jù)是指不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),包括所有格式的文檔、圖片、XML、HTML、圖像和音頻/視頻信息等等。在處理非結(jié)構(gòu)化信息、全文信息、多媒體信息和海量信息等領(lǐng)域的技術(shù)還未成熟,在非結(jié)構(gòu)化數(shù)據(jù)的管理和全文檢索方面需要亟待解決的技術(shù)問(wèn)題。

據(jù)IDC的一項(xiàng)調(diào)查報(bào)告中指出:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。非結(jié)構(gòu)化數(shù)據(jù),顧名思義,是存儲(chǔ)在文件系統(tǒng)的信息,而不是數(shù)據(jù)庫(kù)。

數(shù)據(jù)采集處理完整架構(gòu)圖對(duì)ETL功能架構(gòu)中的抽取、清洗、轉(zhuǎn)換、加載進(jìn)行了詳盡的描述。

數(shù)據(jù)ETL工具,比較快速、高效、安全、穩(wěn)定的當(dāng)屬I(mǎi)nformatica等系列產(chǎn)品,它具有靈活開(kāi)發(fā)和部署、安全可靠的企業(yè)數(shù)據(jù)、無(wú)可比擬的性能和可擴(kuò)展性等優(yōu)點(diǎn)。當(dāng)然也有開(kāi)源Kettle等輕便、實(shí)用的產(chǎn)品。

2.2 數(shù)據(jù)質(zhì)量

影響數(shù)據(jù)質(zhì)量的因素主要來(lái)源于四個(gè)方面:數(shù)據(jù)、技術(shù)、流程和管理因素。技術(shù)因素是數(shù)據(jù)質(zhì)量的基石,為數(shù)據(jù)質(zhì)量鋪平道路。

技術(shù)因素主要是指由于具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量問(wèn)題的產(chǎn)生環(huán)節(jié)主要包括數(shù)據(jù)創(chuàng)建、數(shù)據(jù)獲取、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)使用、數(shù)據(jù)維護(hù)等方面的內(nèi)容。

通過(guò)MTC-DQM 數(shù)據(jù)質(zhì)量管理管理,數(shù)據(jù)質(zhì)量管理系統(tǒng)來(lái)解決數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量管理系統(tǒng)的技術(shù)實(shí)現(xiàn)程度很大程度決定數(shù)據(jù)質(zhì)量的高低。

2.3 數(shù)據(jù)分析

大數(shù)據(jù)發(fā)展的另一個(gè)大的瓶頸是數(shù)據(jù)分析技術(shù)。數(shù)據(jù)能發(fā)揮的潛力是無(wú)窮的。發(fā)掘數(shù)據(jù),使其發(fā)出耀眼的光芒是數(shù)據(jù)分析重要任務(wù)。舉一個(gè)簡(jiǎn)單的例子:視頻數(shù)據(jù)與考勤圖片分析。視頻分析本身就是一個(gè)非常困難的問(wèn)題。我們有很多監(jiān)控視頻,能分析出人物的少之又少,能高階分析出視頻中的規(guī)律性信息基本沒(méi)有。另一個(gè)是考勤信息分析,人臉考勤基本都是靠人工一個(gè)一個(gè)核對(duì),基本沒(méi)有系統(tǒng)能自動(dòng)識(shí)別出來(lái),并且能分析出深度的考勤信息。另一個(gè)例子中國(guó)的語(yǔ)言復(fù)雜化這對(duì)于大數(shù)據(jù)發(fā)展也是一個(gè)瓶頸。我們的數(shù)據(jù)質(zhì)量差、噪音多,所以造成了數(shù)據(jù)分析難度的加大。所以這個(gè)時(shí)候就需要算法和模型進(jìn)行優(yōu)化,來(lái)滿足我們大數(shù)據(jù)的需求。

并不是要有很完美的數(shù)據(jù)才能做分析,完美的數(shù)據(jù)永遠(yuǎn)是等不來(lái)的,因此需要進(jìn)行數(shù)據(jù)整合來(lái)進(jìn)行數(shù)據(jù)分析,把碎片化的數(shù)據(jù)整合起來(lái)形成整體進(jìn)行分析,做好數(shù)據(jù)的修正分析工作,這需要相當(dāng)?shù)募夹g(shù)模型支撐。

數(shù)據(jù)分析軟件面對(duì)當(dāng)今的海量數(shù)據(jù)已顯得力不從心,當(dāng)然隨著數(shù)據(jù)分析技術(shù)的發(fā)展,Apache的Hadoop、LexisNexis的HPCC系統(tǒng)等,逐步提升數(shù)據(jù)分析引擎分析能力,給復(fù)雜數(shù)據(jù)分析提供技術(shù)支撐。

大數(shù)據(jù)分析結(jié)果的解讀和應(yīng)用。數(shù)據(jù)分析師不但能夠解讀大數(shù)據(jù),同時(shí)還能發(fā)現(xiàn)各個(gè)業(yè)務(wù)要素之間的關(guān)聯(lián),為數(shù)據(jù)分析的可靠性和準(zhǔn)確性提供更好的保證。

3 發(fā)展前景

大數(shù)據(jù)數(shù)據(jù)分析能力成為企業(yè)核心競(jìng)爭(zhēng)力。當(dāng)“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,企業(yè)對(duì)于數(shù)據(jù)管理便有了更清晰的界定,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運(yùn)用數(shù)據(jù)資產(chǎn),成為企業(yè)數(shù)據(jù)管理的核心。

根據(jù)大數(shù)據(jù)發(fā)展分析趨勢(shì)報(bào)告,到2020年全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,預(yù)測(cè)未來(lái)大數(shù)據(jù)產(chǎn)品在三大行業(yè)的應(yīng)用就將產(chǎn)生7千億美元的潛在市場(chǎng),未來(lái)中國(guó)大數(shù)據(jù)產(chǎn)品的潛在市場(chǎng)規(guī)模有望達(dá)到1.57萬(wàn)億元,給IT行業(yè)開(kāi)拓了一個(gè)新的黃金時(shí)代。

隨著大數(shù)據(jù)的進(jìn)一步發(fā)展,阻礙大數(shù)據(jù)的發(fā)展的系統(tǒng)瓶頸迎刃而解,這將掀起大數(shù)據(jù)二次革命,進(jìn)入大數(shù)據(jù)的新時(shí)代。

【參考文獻(xiàn)】

[1]馮永強(qiáng),張良,馮怡,朱尚杰.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].信息化建設(shè),2015(12).

[2]趙國(guó)棟.大數(shù)據(jù)時(shí)代的三大發(fā)展趨勢(shì)[J].高科技與產(chǎn)業(yè)化,2013(05).

[3]2016-2022年大數(shù)據(jù)市場(chǎng)現(xiàn)狀調(diào)研分析及發(fā)展前景報(bào)告[R].

[4]張常淳.基于MapReduce的大數(shù)據(jù)連接算法的設(shè)計(jì)與優(yōu)化[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.

[責(zé)任編輯:李書(shū)培]

猜你喜歡
系統(tǒng)架構(gòu)數(shù)據(jù)分析瓶頸
突破霧霾治理的瓶頸
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
突破瓶頸 實(shí)現(xiàn)多贏
如何渡過(guò)初創(chuàng)瓶頸期
繞過(guò)瓶頸