基于Spark的數(shù)據(jù)抽取整合決策分析系統(tǒng)設(shè)計(jì)

2018-09-10 07:22張運(yùn)濤鞏華倫徐召陽

信息技術(shù)時(shí)代·下旬刊 2018年4期

關(guān)鍵詞：決策

張運(yùn)濤鞏華倫徐召陽

摘要：隨著信息化的不斷發(fā)展，各行各業(yè)已開發(fā)了眾多計(jì)算機(jī)信息系統(tǒng)積累了大量的基礎(chǔ)數(shù)據(jù)。然而，由于系統(tǒng)建設(shè)時(shí)期，開發(fā)部門、所使用設(shè)備、技術(shù)發(fā)展階段和能力水平的不同，造成了數(shù)據(jù)存儲(chǔ)分散和過量的數(shù)據(jù)冗余和數(shù)據(jù)不一致性的問題，使得對(duì)數(shù)據(jù)資源難以高效的利用，管理層無法快速從海量數(shù)據(jù)中獲得有效的決策數(shù)據(jù)支持。因此如何有效的數(shù)據(jù)收集，數(shù)據(jù)存儲(chǔ)，數(shù)據(jù)抽取，整合不同來源的基礎(chǔ)數(shù)據(jù)是當(dāng)前我們需要解決的主要問題。

關(guān)鍵詞：海量數(shù)據(jù)；決策；spark；數(shù)據(jù)抽取

背景

隨著數(shù)據(jù)量的不斷增加各企業(yè)對(duì)如何實(shí)現(xiàn)海量數(shù)據(jù)的收集存儲(chǔ)抽取整合為一體系統(tǒng)需求比較強(qiáng)烈，因?yàn)楹Ａ康臄?shù)據(jù)只有合理有效的被利用才能發(fā)揮出數(shù)據(jù)本身的最大價(jià)值，為了能夠準(zhǔn)確快速高效的為企業(yè)管理者提供決策支撐，解決數(shù)據(jù)源分散、數(shù)據(jù)冗雜等特點(diǎn)，并對(duì)海量數(shù)據(jù)集整合，實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)可視化查詢和關(guān)聯(lián)查詢，解決實(shí)際需求，解決數(shù)據(jù)整合的繁瑣，加快企業(yè)業(yè)務(wù)效率。

系統(tǒng)架構(gòu)設(shè)計(jì)

基于spark的數(shù)據(jù)抽取整合決策分析系統(tǒng)一個(gè)基于數(shù)據(jù)處理系統(tǒng)，主要是面對(duì)數(shù)據(jù)源異構(gòu)，缺乏規(guī)范的處理方法和經(jīng)驗(yàn)的數(shù)據(jù)集成系統(tǒng)，可以通過本系統(tǒng)可以達(dá)到將不同數(shù)據(jù)源數(shù)據(jù)庫中多個(gè)相似的數(shù)據(jù)表整合為一個(gè)數(shù)據(jù)表的過程，可以將雜亂的海量數(shù)據(jù)進(jìn)行抽取統(tǒng)一化整理，提高數(shù)據(jù)整合的效率。通過本系統(tǒng)可以查看整合后數(shù)據(jù)的來源保證數(shù)據(jù)的可靠性；此外自動(dòng)聚類算法實(shí)現(xiàn)數(shù)據(jù)表和數(shù)據(jù)表之間關(guān)系的分析，在我們查詢表的數(shù)據(jù)同時(shí)是可以查看到哪些表是相關(guān)聯(lián)的。

本系統(tǒng)主要的功能分為以下幾個(gè)：

（1）數(shù)據(jù)收集：收集不同系統(tǒng)，平臺(tái)，時(shí)期產(chǎn)生的多源異構(gòu)數(shù)據(jù)。系統(tǒng)需要實(shí)現(xiàn)對(duì)數(shù)據(jù)表的管理包括創(chuàng)建刪除修改基本操作，字段整合，數(shù)據(jù)遷移。根據(jù)系統(tǒng)對(duì)數(shù)據(jù)處理的時(shí)效性可將數(shù)據(jù)據(jù)歸集分成離線和實(shí)時(shí)兩種。對(duì)于離線的數(shù)據(jù)集，采用DataX工具來進(jìn)行異構(gòu)數(shù)據(jù)源的同步。而對(duì)實(shí)時(shí)數(shù)據(jù)的處理，采用的是Kafka來進(jìn)行實(shí)時(shí)數(shù)據(jù)的對(duì)接。Kafka每秒可以處理幾十萬條消息，它的延遲最低只有幾毫秒，每個(gè)topic可以分多個(gè)partition，consumer group 對(duì)partition進(jìn)行consume操作。Kafka集群支持熱擴(kuò)展，可以收集各種服務(wù)的日志。其作為中間件不僅可以對(duì)消息起到緩存作用，并可以對(duì)實(shí)時(shí)計(jì)算提供源源不斷的數(shù)據(jù)。對(duì)無論何種方式收集來的數(shù)據(jù)，我們都需要驗(yàn)證數(shù)據(jù)的合法性，準(zhǔn)確性，防止數(shù)據(jù)傳輸收集過程中被篡改。在我們對(duì)數(shù)據(jù)集進(jìn)行存儲(chǔ)時(shí)，要加上元數(shù)據(jù)的標(biāo)識(shí)，包括數(shù)據(jù)的來源，數(shù)據(jù)的安全級(jí)別以及其他必要的屬性，以便后期的數(shù)據(jù)檢索和管理。

（2）數(shù)據(jù)處理：對(duì)于收集到的原生數(shù)據(jù)不可避免的會(huì)存在數(shù)據(jù)格式無法滿足數(shù)據(jù)處理要求的情況，需要對(duì)這些數(shù)據(jù)集進(jìn)行處理轉(zhuǎn)化為所需的較為規(guī)整的數(shù)據(jù)。主要包含數(shù)據(jù)的標(biāo)準(zhǔn)化，清洗與整合操作。對(duì)于離線數(shù)據(jù)主要是定時(shí)批量去統(tǒng)計(jì)數(shù)據(jù)。而對(duì)與實(shí)時(shí)數(shù)據(jù)的處理采用的是Spark Streaming，其本身具有低延遲高性能容錯(cuò)性等特點(diǎn)可以較好的滿足數(shù)據(jù)實(shí)時(shí)處理要求。

（3）數(shù)據(jù)的存儲(chǔ)和安全：大數(shù)據(jù)一重要問題是保證數(shù)據(jù)的存儲(chǔ)和安全，本系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的需求，構(gòu)建了一套具有高可擴(kuò)展性，數(shù)據(jù)處理能力的多元異構(gòu)數(shù)據(jù)存儲(chǔ)中心，包含海量分布式文件系統(tǒng)，非關(guān)系型數(shù)據(jù)。本系統(tǒng)以數(shù)據(jù)為中心數(shù)據(jù)安全則是重中之重，可以從訪問控制，數(shù)據(jù)保護(hù)，網(wǎng)絡(luò)安全，和事件監(jiān)控四個(gè)方面保護(hù)數(shù)據(jù)安全。

業(yè)務(wù)流程分析設(shè)計(jì)

主要的業(yè)務(wù)流程為開始創(chuàng)建數(shù)據(jù)表，即基礎(chǔ)表信息的創(chuàng)建；然后為數(shù)據(jù)表添加映射，該映射為原始數(shù)據(jù)表與整合數(shù)據(jù)表之間的映射，映射的目的是進(jìn)行整合數(shù)據(jù)表的準(zhǔn)備工作；然后將字段按照映射進(jìn)行整合，將整合后的數(shù)據(jù)表按照字段基礎(chǔ)屬性創(chuàng)建實(shí)體表，并將原先的數(shù)據(jù)按照整合字段與字段之間的映射關(guān)系遷移到所創(chuàng)建的實(shí)體整合表中；其次對(duì)所遷移的數(shù)據(jù)進(jìn)行一致性檢測(cè)，檢測(cè)并去除格式不符或一致的數(shù)據(jù)，然后將數(shù)據(jù)標(biāo)準(zhǔn)輸出，以下是主要的業(yè)務(wù)流程圖2-1。

Spark計(jì)算框架

Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的并行框架，擁有Hadoop Mapreduce所具有的優(yōu)點(diǎn)，但不同的是，其中間結(jié)果可以保存在內(nèi)存中，從而減少了讀寫HDFS文件的次數(shù)，因此會(huì)具有較快的處理速度。Spark提供了量的的庫，開發(fā)者可以在一個(gè)應(yīng)用程序中無縫組合使用這些庫，具有更通用性。對(duì)于本系統(tǒng)來說，主要使用的是Spark Streaming，核心思想是將Stream數(shù)據(jù)分成小的時(shí)間片段，以類似batch批處理的方式來處理這小部分?jǐn)?shù)據(jù)，實(shí)現(xiàn)實(shí)時(shí)的計(jì)算處理。

平臺(tái)系統(tǒng)架構(gòu)

本系統(tǒng)利用 Kafka 和 Spark Streaming 框架設(shè)計(jì)的分布式流數(shù)據(jù)處理平臺(tái)的系統(tǒng)架構(gòu)如圖所示，包括數(shù)據(jù)接收部分、Kafka 消息訂閱系統(tǒng)、數(shù)據(jù)處理程序、以及數(shù)據(jù)存儲(chǔ)部分。通過對(duì)數(shù)據(jù)整合系統(tǒng)的設(shè)計(jì)與開發(fā)，對(duì)數(shù)據(jù)整合知識(shí)認(rèn)識(shí)更深入，以及數(shù)據(jù)整合系統(tǒng)在今后企業(yè)管理中的必要性，數(shù)據(jù)整合也需要不斷去深入挖掘數(shù)據(jù)進(jìn)行對(duì)數(shù)據(jù)的利用。分析數(shù)據(jù)間的關(guān)聯(lián)、內(nèi)容等特性。對(duì)于數(shù)據(jù)的安全和完整性，所有的企業(yè)都是尤為重視的，面對(duì)大的數(shù)據(jù)量和多種類的數(shù)據(jù)類型，要完善對(duì)數(shù)據(jù)的維護(hù)，使數(shù)據(jù)更具有安全性和權(quán)威性。

參考文獻(xiàn)

[1]Janis Kampars.An Approach to Parallelization of Remote Data Integration Tasks[D].Riga Technical University： Janis Kampars； Janis Grabis，2011.

[2]滑玉.JSP程序設(shè)計(jì)[M].人民郵電出版社：范立鋒，喬世權(quán)，程文彬，2009.

[3]何麗，龔?fù)?jQuery在AJAX技術(shù)框架中頁面加載的應(yīng)用[J].計(jì)算機(jī)時(shí)代，2011，（8）： 25-26

[4]Wenlan Chen.Enterprise Information Management System Based on J2EE and MVC Mode[M].Springer Berlin Heidelberg：2014-06-15.

[5]韓德志，陳旭光，雷雨馨，等.基于 Spark Streaming 的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)及其應(yīng)用.計(jì)算機(jī)應(yīng)用，2017，37（5）：1263–1269.

[6]龔瓊宇.科學(xué)數(shù)據(jù)整合技術(shù)應(yīng)用研究[C].中國疾病預(yù)防控制中心：龔瓊宇，2009.

[7]李藝.大數(shù)據(jù)挖掘：系統(tǒng)方法與實(shí)例分析[M].機(jī)械工業(yè)出版社：周英，卓金武，卞月青，2016.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Spark的數(shù)據(jù)抽取整合決策分析系統(tǒng)設(shè)計(jì)