運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)選型探討

2020-11-10 06:00宋曉波

無線互聯(lián)科技 2020年15期

宋曉波

(華信咨詢?cè)O(shè)計(jì)研究院有限公司，浙江杭州 310000)

0 引言

隨著運(yùn)營(yíng)商集約化、互聯(lián)網(wǎng)化等策略的推進(jìn)和5G時(shí)代的來臨，運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)面臨數(shù)據(jù)處理體量急劇增長(zhǎng)的挑戰(zhàn)。如何在新形勢(shì)下構(gòu)建適應(yīng)未來業(yè)務(wù)戰(zhàn)略的大數(shù)據(jù)平臺(tái)成為迫切需要解決的問題[1]。

大數(shù)據(jù)需要特殊的技術(shù)，以快速有效地處理海量數(shù)據(jù)滿足應(yīng)用需求，包括大規(guī)模并行處理(Massively Parallel Processing，MPP)數(shù)據(jù)庫、大數(shù)據(jù)采集技術(shù)、分布式存儲(chǔ)技術(shù)、分布式計(jì)算技術(shù)等。

1 運(yùn)營(yíng)商大數(shù)據(jù)面臨問題

由于技術(shù)、數(shù)據(jù)系統(tǒng)限制等問題，運(yùn)營(yíng)商利用大數(shù)據(jù)主要遇到以下問題。

海量數(shù)據(jù)存儲(chǔ)和處理壓力；數(shù)據(jù)處理種類多，單一技術(shù)難以實(shí)現(xiàn)：傳統(tǒng)數(shù)據(jù)平臺(tái)無法支持非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理，無法滿足互聯(lián)網(wǎng)類業(yè)務(wù)發(fā)展要求；實(shí)時(shí)應(yīng)用需求難以滿足；挖掘能力不足；數(shù)據(jù)不全，無法形成跨專業(yè)、跨域的數(shù)據(jù)關(guān)聯(lián)，無法呈現(xiàn)端到端全局?jǐn)?shù)據(jù)，價(jià)值不能深度被挖掘；應(yīng)用支撐能力不足：數(shù)據(jù)共享與開放能力不足，不能有效支撐應(yīng)用。

2 運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)技術(shù)選型思路

運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)經(jīng)歷了從早期的對(duì)稱多處理器(Symmetric Multiprocessing，SMP)架構(gòu)到MPP架構(gòu)、Hadoop架構(gòu)及Hadoop和MPP混搭架構(gòu)[2]。

SMP架構(gòu)即對(duì)稱多處理器結(jié)構(gòu)，難以支撐運(yùn)營(yíng)商海量數(shù)據(jù)存儲(chǔ)和處理要求，平臺(tái)擴(kuò)展能力成了瓶頸，并且平臺(tái)投資成本高，運(yùn)維成本也相應(yīng)劇增。

MPP架構(gòu)具有高效的結(jié)構(gòu)化數(shù)據(jù)處理能力和交互分析能力，SQL和報(bào)表工具兼容性好，開發(fā)和運(yùn)維成本低等特點(diǎn)。但MPP數(shù)據(jù)庫在非結(jié)構(gòu)化數(shù)據(jù)處理和實(shí)時(shí)處理方面能力有限。

Hadoop架構(gòu)具有分布式數(shù)據(jù)存儲(chǔ)、分布式并行計(jì)算、支持橫向擴(kuò)展、支持X86集群架構(gòu)等特點(diǎn)，適合運(yùn)營(yíng)商的非結(jié)構(gòu)化數(shù)據(jù)采集存儲(chǔ)、海量數(shù)據(jù)處理、實(shí)時(shí)處理等應(yīng)用場(chǎng)景。

Hadoop和MPP混搭架構(gòu)結(jié)合兩者優(yōu)勢(shì)，既具有非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和海量數(shù)據(jù)處理能力，又具有高效的結(jié)構(gòu)化數(shù)處理和分析能力及良好的第三方應(yīng)用工具兼容性。當(dāng)前該架構(gòu)在運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)中使用較多。

2.1 MPP選型

目前市場(chǎng)上的MPP數(shù)據(jù)庫多種多樣，例如有Teradata，Vertica，Greenplum，GBase等，建議結(jié)合運(yùn)營(yíng)商實(shí)際數(shù)據(jù)應(yīng)用情況進(jìn)行評(píng)測(cè)和選型，如表1所示。

表1 某運(yùn)營(yíng)商MPP數(shù)據(jù)庫選型評(píng)測(cè)項(xiàng)目

2.2 Hadoop發(fā)行版選型

目前Hadoop發(fā)行版主要有CDH，HDP以及MapR，在組件和版本方面大致相同，但HDP完全開源、可視化工具強(qiáng)大；而CDH在I/O性能和MapReduce性能方面皆優(yōu)于HDP和MapR。因此Hadoop發(fā)行版選型建議：

在計(jì)算性能和穩(wěn)定性要求較高的場(chǎng)景，最佳Hadoop發(fā)行版選擇CDH；

在需要大量二次開發(fā)的場(chǎng)景中，最佳Hadoop發(fā)行版選擇HDP；

在可視化要求較高的場(chǎng)景，最佳Hadoop發(fā)行版可選擇CDH或HDP。

2.3 數(shù)據(jù)采集組件選型

運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集的數(shù)據(jù)包括BSS，OSS，MSS的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)和用戶上網(wǎng)、用戶行為等半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。如果屬于高延遲的業(yè)務(wù)，可以采用批處理采集方式，實(shí)時(shí)分析則需要使用實(shí)時(shí)采集技術(shù)。

離線采集(批處理采集)：對(duì)于運(yùn)營(yíng)商BSS，OSS，MSS的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)，需定期按需接入數(shù)據(jù)源數(shù)據(jù)，經(jīng)過校驗(yàn)、清洗、轉(zhuǎn)換等步驟，對(duì)接入數(shù)據(jù)統(tǒng)一進(jìn)行處理，加載到大數(shù)據(jù)平臺(tái)。

實(shí)時(shí)采集：對(duì)于運(yùn)營(yíng)商信令日志、用戶行為等實(shí)時(shí)性要高的業(yè)務(wù)數(shù)據(jù)，采用實(shí)時(shí)采集技術(shù)實(shí)時(shí)接入數(shù)據(jù)源數(shù)據(jù)。常用的數(shù)據(jù)采集組件特性如表2所示。

表2 常用的數(shù)據(jù)采集組件特性

2.4 數(shù)據(jù)存儲(chǔ)組件選型

數(shù)據(jù)存儲(chǔ)是大數(shù)據(jù)平臺(tái)的核心，運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)按數(shù)據(jù)分類，可分為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和半結(jié)構(gòu)化存儲(chǔ)[3]。

結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)：通常使用MPP數(shù)據(jù)庫存儲(chǔ)運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集和整合后的核心數(shù)據(jù)倉庫數(shù)據(jù)和分析型數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)：使用分布式文件系統(tǒng)進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)，如運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集的圖片、文檔、網(wǎng)絡(luò)等非結(jié)構(gòu)化數(shù)據(jù)，通?；贖adoop HDFS進(jìn)行存儲(chǔ)。

半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)：適合使用NoSQL數(shù)據(jù)庫進(jìn)行存儲(chǔ)，具有非關(guān)系型、分布式、輕量級(jí)、支持水平擴(kuò)展等特點(diǎn)，選型時(shí)需結(jié)合其特性和應(yīng)用場(chǎng)景考慮。

2.5 數(shù)據(jù)計(jì)算組件選型

根據(jù)應(yīng)用類型不同，大數(shù)據(jù)平臺(tái)數(shù)據(jù)計(jì)算可分為實(shí)時(shí)、交互式、批處理/非交互式3類，常用的數(shù)據(jù)計(jì)算組件特性比較如表3所示。

表3 常用的數(shù)據(jù)計(jì)算組件特性比較

3 結(jié)語

本文針對(duì)運(yùn)營(yíng)商大數(shù)據(jù)問題，探討如何進(jìn)行運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)選型，主要從平臺(tái)架構(gòu)選型和平臺(tái)技術(shù)選型方面展開，并給出選型建議。在實(shí)際大數(shù)據(jù)平臺(tái)選型時(shí)，應(yīng)考慮運(yùn)營(yíng)商當(dāng)前IT系統(tǒng)架構(gòu)的復(fù)雜性和企業(yè)IT人員技術(shù)能力和運(yùn)維能力，根據(jù)不同應(yīng)用場(chǎng)景以及技術(shù)的多樣性進(jìn)行綜合考慮，形成適合運(yùn)營(yíng)商本身的大數(shù)據(jù)平臺(tái)方案。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡