国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)選型探討

2020-11-10 06:00宋曉波
無線互聯(lián)科技 2020年15期
關(guān)鍵詞:選型結(jié)構(gòu)化數(shù)據(jù)處理

宋曉波

(華信咨詢?cè)O(shè)計(jì)研究院有限公司,浙江 杭州 310000)

0 引言

隨著運(yùn)營(yíng)商集約化、互聯(lián)網(wǎng)化等策略的推進(jìn)和5G時(shí)代的來臨,運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)面臨數(shù)據(jù)處理體量急劇增長(zhǎng)的挑戰(zhàn)。如何在新形勢(shì)下構(gòu)建適應(yīng)未來業(yè)務(wù)戰(zhàn)略的大數(shù)據(jù)平臺(tái)成為迫切需要解決的問題[1]。

大數(shù)據(jù)需要特殊的技術(shù),以快速有效地處理海量數(shù)據(jù)滿足應(yīng)用需求,包括大規(guī)模并行處理(Massively Parallel Processing,MPP)數(shù)據(jù)庫、大數(shù)據(jù)采集技術(shù)、分布式存儲(chǔ)技術(shù)、分布式計(jì)算技術(shù)等。

1 運(yùn)營(yíng)商大數(shù)據(jù)面臨問題

由于技術(shù)、數(shù)據(jù)系統(tǒng)限制等問題,運(yùn)營(yíng)商利用大數(shù)據(jù)主要遇到以下問題。

海量數(shù)據(jù)存儲(chǔ)和處理壓力;數(shù)據(jù)處理種類多,單一技術(shù)難以實(shí)現(xiàn):傳統(tǒng)數(shù)據(jù)平臺(tái)無法支持非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理,無法滿足互聯(lián)網(wǎng)類業(yè)務(wù)發(fā)展要求;實(shí)時(shí)應(yīng)用需求難以滿足;挖掘能力不足;數(shù)據(jù)不全,無法形成跨專業(yè)、跨域的數(shù)據(jù)關(guān)聯(lián),無法呈現(xiàn)端到端全局?jǐn)?shù)據(jù),價(jià)值不能深度被挖掘;應(yīng)用支撐能力不足:數(shù)據(jù)共享與開放能力不足,不能有效支撐應(yīng)用。

2 運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)技術(shù)選型思路

運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)經(jīng)歷了從早期的對(duì)稱多處理器(Symmetric Multiprocessing,SMP)架構(gòu)到MPP架構(gòu)、Hadoop架構(gòu)及Hadoop和MPP混搭架構(gòu)[2]。

SMP架構(gòu)即對(duì)稱多處理器結(jié)構(gòu),難以支撐運(yùn)營(yíng)商海量數(shù)據(jù)存儲(chǔ)和處理要求,平臺(tái)擴(kuò)展能力成了瓶頸,并且平臺(tái)投資成本高,運(yùn)維成本也相應(yīng)劇增。

MPP架構(gòu)具有高效的結(jié)構(gòu)化數(shù)據(jù)處理能力和交互分析能力,SQL和報(bào)表工具兼容性好,開發(fā)和運(yùn)維成本低等特點(diǎn)。但MPP數(shù)據(jù)庫在非結(jié)構(gòu)化數(shù)據(jù)處理和實(shí)時(shí)處理方面能力有限。

Hadoop架構(gòu)具有分布式數(shù)據(jù)存儲(chǔ)、分布式并行計(jì)算、支持橫向擴(kuò)展、支持X86集群架構(gòu)等特點(diǎn),適合運(yùn)營(yíng)商的非結(jié)構(gòu)化數(shù)據(jù)采集存儲(chǔ)、海量數(shù)據(jù)處理、實(shí)時(shí)處理等應(yīng)用場(chǎng)景。

Hadoop和MPP混搭架構(gòu)結(jié)合兩者優(yōu)勢(shì),既具有非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和海量數(shù)據(jù)處理能力,又具有高效的結(jié)構(gòu)化數(shù)處理和分析能力及良好的第三方應(yīng)用工具兼容性。當(dāng)前該架構(gòu)在運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)中使用較多。

2.1 MPP選型

目前市場(chǎng)上的MPP數(shù)據(jù)庫多種多樣,例如有Teradata,Vertica,Greenplum,GBase等,建議結(jié)合運(yùn)營(yíng)商實(shí)際數(shù)據(jù)應(yīng)用情況進(jìn)行評(píng)測(cè)和選型,如表1所示。

表1 某運(yùn)營(yíng)商MPP數(shù)據(jù)庫選型評(píng)測(cè)項(xiàng)目

2.2 Hadoop發(fā)行版選型

目前Hadoop發(fā)行版主要有CDH,HDP以及MapR,在組件和版本方面大致相同,但HDP完全開源、可視化工具強(qiáng)大;而CDH在I/O性能和MapReduce性能方面皆優(yōu)于HDP和MapR。因此Hadoop發(fā)行版選型建議:

在計(jì)算性能和穩(wěn)定性要求較高的場(chǎng)景,最佳Hadoop發(fā)行版選擇CDH;

在需要大量二次開發(fā)的場(chǎng)景中,最佳Hadoop發(fā)行版選擇HDP;

在可視化要求較高的場(chǎng)景,最佳Hadoop發(fā)行版可選擇CDH或HDP。

2.3 數(shù)據(jù)采集組件選型

運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集的數(shù)據(jù)包括BSS,OSS,MSS的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)和用戶上網(wǎng)、用戶行為等半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。如果屬于高延遲的業(yè)務(wù),可以采用批處理采集方式,實(shí)時(shí)分析則需要使用實(shí)時(shí)采集技術(shù)。

離線采集(批處理采集):對(duì)于運(yùn)營(yíng)商BSS,OSS,MSS的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù),需定期按需接入數(shù)據(jù)源數(shù)據(jù),經(jīng)過校驗(yàn)、清洗、轉(zhuǎn)換等步驟,對(duì)接入數(shù)據(jù)統(tǒng)一進(jìn)行處理,加載到大數(shù)據(jù)平臺(tái)。

實(shí)時(shí)采集:對(duì)于運(yùn)營(yíng)商信令日志、用戶行為等實(shí)時(shí)性要高的業(yè)務(wù)數(shù)據(jù),采用實(shí)時(shí)采集技術(shù)實(shí)時(shí)接入數(shù)據(jù)源數(shù)據(jù)。常用的數(shù)據(jù)采集組件特性如表2所示。

表2 常用的數(shù)據(jù)采集組件特性

2.4 數(shù)據(jù)存儲(chǔ)組件選型

數(shù)據(jù)存儲(chǔ)是大數(shù)據(jù)平臺(tái)的核心,運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)按數(shù)據(jù)分類,可分為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和半結(jié)構(gòu)化存儲(chǔ)[3]。

結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ):通常使用MPP數(shù)據(jù)庫存儲(chǔ)運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集和整合后的核心數(shù)據(jù)倉庫數(shù)據(jù)和分析型數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ):使用分布式文件系統(tǒng)進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),如運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集的圖片、文檔、網(wǎng)絡(luò)等非結(jié)構(gòu)化數(shù)據(jù),通?;贖adoop HDFS進(jìn)行存儲(chǔ)。

半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ):適合使用NoSQL數(shù)據(jù)庫進(jìn)行存儲(chǔ),具有非關(guān)系型、分布式、輕量級(jí)、支持水平擴(kuò)展等特點(diǎn),選型時(shí)需結(jié)合其特性和應(yīng)用場(chǎng)景考慮。

2.5 數(shù)據(jù)計(jì)算組件選型

根據(jù)應(yīng)用類型不同,大數(shù)據(jù)平臺(tái)數(shù)據(jù)計(jì)算可分為實(shí)時(shí)、交互式、批處理/非交互式3類,常用的數(shù)據(jù)計(jì)算組件特性比較如表3所示。

表3 常用的數(shù)據(jù)計(jì)算組件特性比較

3 結(jié)語

本文針對(duì)運(yùn)營(yíng)商大數(shù)據(jù)問題,探討如何進(jìn)行運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)選型,主要從平臺(tái)架構(gòu)選型和平臺(tái)技術(shù)選型方面展開,并給出選型建議。在實(shí)際大數(shù)據(jù)平臺(tái)選型時(shí),應(yīng)考慮運(yùn)營(yíng)商當(dāng)前IT系統(tǒng)架構(gòu)的復(fù)雜性和企業(yè)IT人員技術(shù)能力和運(yùn)維能力,根據(jù)不同應(yīng)用場(chǎng)景以及技術(shù)的多樣性進(jìn)行綜合考慮,形成適合運(yùn)營(yíng)商本身的大數(shù)據(jù)平臺(tái)方案。

猜你喜歡
選型結(jié)構(gòu)化數(shù)據(jù)處理
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
不銹鋼二十輥冷軋機(jī)組橫切剪的選型計(jì)算
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
昆鋼鐵路內(nèi)燃機(jī)車選型實(shí)踐與探索
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
產(chǎn)品選型
基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
五河县| 通城县| 阳江市| 梧州市| 汝阳县| 武汉市| 苏尼特右旗| 海晏县| 延长县| 牟定县| 河曲县| 嵊泗县| 元氏县| 淮滨县| 河池市| 彭阳县| 兴和县| 平乡县| 峡江县| 伊川县| 温州市| 台北市| 通榆县| 津南区| 石河子市| 天峻县| 云阳县| 伊金霍洛旗| 佛教| 武鸣县| 二手房| 当阳市| 乐都县| 淮南市| 资兴市| 彩票| 弋阳县| 安岳县| 宜君县| 江安县| 双流县|