宋曉波
(華信咨詢?cè)O(shè)計(jì)研究院有限公司,浙江 杭州 310000)
隨著運(yùn)營(yíng)商集約化、互聯(lián)網(wǎng)化等策略的推進(jìn)和5G時(shí)代的來臨,運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)面臨數(shù)據(jù)處理體量急劇增長(zhǎng)的挑戰(zhàn)。如何在新形勢(shì)下構(gòu)建適應(yīng)未來業(yè)務(wù)戰(zhàn)略的大數(shù)據(jù)平臺(tái)成為迫切需要解決的問題[1]。
大數(shù)據(jù)需要特殊的技術(shù),以快速有效地處理海量數(shù)據(jù)滿足應(yīng)用需求,包括大規(guī)模并行處理(Massively Parallel Processing,MPP)數(shù)據(jù)庫、大數(shù)據(jù)采集技術(shù)、分布式存儲(chǔ)技術(shù)、分布式計(jì)算技術(shù)等。
由于技術(shù)、數(shù)據(jù)系統(tǒng)限制等問題,運(yùn)營(yíng)商利用大數(shù)據(jù)主要遇到以下問題。
海量數(shù)據(jù)存儲(chǔ)和處理壓力;數(shù)據(jù)處理種類多,單一技術(shù)難以實(shí)現(xiàn):傳統(tǒng)數(shù)據(jù)平臺(tái)無法支持非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理,無法滿足互聯(lián)網(wǎng)類業(yè)務(wù)發(fā)展要求;實(shí)時(shí)應(yīng)用需求難以滿足;挖掘能力不足;數(shù)據(jù)不全,無法形成跨專業(yè)、跨域的數(shù)據(jù)關(guān)聯(lián),無法呈現(xiàn)端到端全局?jǐn)?shù)據(jù),價(jià)值不能深度被挖掘;應(yīng)用支撐能力不足:數(shù)據(jù)共享與開放能力不足,不能有效支撐應(yīng)用。
運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)經(jīng)歷了從早期的對(duì)稱多處理器(Symmetric Multiprocessing,SMP)架構(gòu)到MPP架構(gòu)、Hadoop架構(gòu)及Hadoop和MPP混搭架構(gòu)[2]。
SMP架構(gòu)即對(duì)稱多處理器結(jié)構(gòu),難以支撐運(yùn)營(yíng)商海量數(shù)據(jù)存儲(chǔ)和處理要求,平臺(tái)擴(kuò)展能力成了瓶頸,并且平臺(tái)投資成本高,運(yùn)維成本也相應(yīng)劇增。
MPP架構(gòu)具有高效的結(jié)構(gòu)化數(shù)據(jù)處理能力和交互分析能力,SQL和報(bào)表工具兼容性好,開發(fā)和運(yùn)維成本低等特點(diǎn)。但MPP數(shù)據(jù)庫在非結(jié)構(gòu)化數(shù)據(jù)處理和實(shí)時(shí)處理方面能力有限。
Hadoop架構(gòu)具有分布式數(shù)據(jù)存儲(chǔ)、分布式并行計(jì)算、支持橫向擴(kuò)展、支持X86集群架構(gòu)等特點(diǎn),適合運(yùn)營(yíng)商的非結(jié)構(gòu)化數(shù)據(jù)采集存儲(chǔ)、海量數(shù)據(jù)處理、實(shí)時(shí)處理等應(yīng)用場(chǎng)景。
Hadoop和MPP混搭架構(gòu)結(jié)合兩者優(yōu)勢(shì),既具有非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和海量數(shù)據(jù)處理能力,又具有高效的結(jié)構(gòu)化數(shù)處理和分析能力及良好的第三方應(yīng)用工具兼容性。當(dāng)前該架構(gòu)在運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)中使用較多。
目前市場(chǎng)上的MPP數(shù)據(jù)庫多種多樣,例如有Teradata,Vertica,Greenplum,GBase等,建議結(jié)合運(yùn)營(yíng)商實(shí)際數(shù)據(jù)應(yīng)用情況進(jìn)行評(píng)測(cè)和選型,如表1所示。
表1 某運(yùn)營(yíng)商MPP數(shù)據(jù)庫選型評(píng)測(cè)項(xiàng)目
目前Hadoop發(fā)行版主要有CDH,HDP以及MapR,在組件和版本方面大致相同,但HDP完全開源、可視化工具強(qiáng)大;而CDH在I/O性能和MapReduce性能方面皆優(yōu)于HDP和MapR。因此Hadoop發(fā)行版選型建議:
在計(jì)算性能和穩(wěn)定性要求較高的場(chǎng)景,最佳Hadoop發(fā)行版選擇CDH;
在需要大量二次開發(fā)的場(chǎng)景中,最佳Hadoop發(fā)行版選擇HDP;
在可視化要求較高的場(chǎng)景,最佳Hadoop發(fā)行版可選擇CDH或HDP。
運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集的數(shù)據(jù)包括BSS,OSS,MSS的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)和用戶上網(wǎng)、用戶行為等半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。如果屬于高延遲的業(yè)務(wù),可以采用批處理采集方式,實(shí)時(shí)分析則需要使用實(shí)時(shí)采集技術(shù)。
離線采集(批處理采集):對(duì)于運(yùn)營(yíng)商BSS,OSS,MSS的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù),需定期按需接入數(shù)據(jù)源數(shù)據(jù),經(jīng)過校驗(yàn)、清洗、轉(zhuǎn)換等步驟,對(duì)接入數(shù)據(jù)統(tǒng)一進(jìn)行處理,加載到大數(shù)據(jù)平臺(tái)。
實(shí)時(shí)采集:對(duì)于運(yùn)營(yíng)商信令日志、用戶行為等實(shí)時(shí)性要高的業(yè)務(wù)數(shù)據(jù),采用實(shí)時(shí)采集技術(shù)實(shí)時(shí)接入數(shù)據(jù)源數(shù)據(jù)。常用的數(shù)據(jù)采集組件特性如表2所示。
表2 常用的數(shù)據(jù)采集組件特性
數(shù)據(jù)存儲(chǔ)是大數(shù)據(jù)平臺(tái)的核心,運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)按數(shù)據(jù)分類,可分為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和半結(jié)構(gòu)化存儲(chǔ)[3]。
結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ):通常使用MPP數(shù)據(jù)庫存儲(chǔ)運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集和整合后的核心數(shù)據(jù)倉庫數(shù)據(jù)和分析型數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ):使用分布式文件系統(tǒng)進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),如運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)采集的圖片、文檔、網(wǎng)絡(luò)等非結(jié)構(gòu)化數(shù)據(jù),通?;贖adoop HDFS進(jìn)行存儲(chǔ)。
半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ):適合使用NoSQL數(shù)據(jù)庫進(jìn)行存儲(chǔ),具有非關(guān)系型、分布式、輕量級(jí)、支持水平擴(kuò)展等特點(diǎn),選型時(shí)需結(jié)合其特性和應(yīng)用場(chǎng)景考慮。
根據(jù)應(yīng)用類型不同,大數(shù)據(jù)平臺(tái)數(shù)據(jù)計(jì)算可分為實(shí)時(shí)、交互式、批處理/非交互式3類,常用的數(shù)據(jù)計(jì)算組件特性比較如表3所示。
表3 常用的數(shù)據(jù)計(jì)算組件特性比較
本文針對(duì)運(yùn)營(yíng)商大數(shù)據(jù)問題,探討如何進(jìn)行運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)選型,主要從平臺(tái)架構(gòu)選型和平臺(tái)技術(shù)選型方面展開,并給出選型建議。在實(shí)際大數(shù)據(jù)平臺(tái)選型時(shí),應(yīng)考慮運(yùn)營(yíng)商當(dāng)前IT系統(tǒng)架構(gòu)的復(fù)雜性和企業(yè)IT人員技術(shù)能力和運(yùn)維能力,根據(jù)不同應(yīng)用場(chǎng)景以及技術(shù)的多樣性進(jìn)行綜合考慮,形成適合運(yùn)營(yíng)商本身的大數(shù)據(jù)平臺(tái)方案。