国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

輿情系統(tǒng)的架構(gòu)實踐

2020-01-07 00:43百分點大數(shù)據(jù)技術(shù)團隊
中國信息化周報 2020年47期
關(guān)鍵詞:數(shù)據(jù)處理算子輿情

百分點大數(shù)據(jù)技術(shù)團隊

輿情監(jiān)測系統(tǒng),可以看作是一個價值信息挖掘的平臺體系。

基礎(chǔ)架構(gòu)分析

輿情監(jiān)測系統(tǒng)重點如下:

資源構(gòu)建能力 通過數(shù)據(jù)采集和信息挖掘,構(gòu)建輿情系統(tǒng)的資源基礎(chǔ),形成標準一致的信息輸出接口。

業(yè)務(wù)應(yīng)用能力 依托底層的輿情資源,構(gòu)建貼合場景的業(yè)務(wù)應(yīng)用,既服務(wù)于輿情 SaaS 客戶,還服務(wù)于人工分析師,輸出專業(yè)能力的同時,幫助提升組織效率。

整個架構(gòu)分為兩個層次:a.資源層:整合數(shù)據(jù)采集、計算、存儲,形成整體的輿情資產(chǎn)核心能力。b. 業(yè)務(wù)層:基于輿情場景,構(gòu)建各種上層應(yīng)用。具體情況如下:

數(shù)據(jù)采集層 依托百分點大數(shù)據(jù)采集系統(tǒng),構(gòu)建了超過1000個服務(wù)器節(jié)點的大規(guī)模數(shù)據(jù)采集集群,覆蓋90%以上的全網(wǎng)公開價值信息;包括新聞、報刊、微博、微信、APP、論壇、博客、視頻、Facebook、Twitter、短視頻等近14個信源數(shù)據(jù),本文我們不展開講述采集系統(tǒng)的構(gòu)建。

數(shù)據(jù)計算層 數(shù)據(jù)計算層承擔著輿情數(shù)據(jù)處理的核心部分,除了采集數(shù)據(jù)的 ETL 過程,我們還構(gòu)建了高效、智能的核心指標計算體系,通過高效的流式處理引擎,支撐文本、規(guī)則指標的計算,挖掘價值信息。

數(shù)據(jù)存儲層 我們綜合構(gòu)建了適用于實時業(yè)務(wù)檢索和離線數(shù)據(jù)拉取計算的存儲架構(gòu),核心基于 ElasticSearch(ES) 和 Hbase 存儲實時輿情數(shù)據(jù),基于 HBase + Hive(HDFS)構(gòu)建離線數(shù)據(jù)倉庫,為上層業(yè)務(wù)分析、數(shù)據(jù)應(yīng)用構(gòu)建提供高效、統(tǒng)一的信息檢索服務(wù)。

需要指出的是,基于輿情數(shù)據(jù)應(yīng)用場景,我們不僅構(gòu)建了超過100個數(shù)據(jù)節(jié)點的 lambda架構(gòu)的大數(shù)據(jù)生態(tài)處理平臺,支撐每天億級數(shù)據(jù)的實時和離線處理,還依托百分點人工智能實驗室,結(jié)合輿情數(shù)據(jù)應(yīng)用閉環(huán),構(gòu)建了以 GPU 為硬件基礎(chǔ)的深度學習文本算力平臺,應(yīng)用先進的遷移學習技術(shù),服務(wù)于模型化的指標挖掘。

業(yè)務(wù)服務(wù)層 在業(yè)務(wù)層,我們將輿情的業(yè)務(wù)模塊化,形成眾多獨立部署的微服務(wù),將用戶管理、話題管理、標簽管理、數(shù)據(jù)檢索、多維分析、標簽分析等核心業(yè)務(wù)暴露為統(tǒng)一的 REST 接口,構(gòu)建了多個調(diào)度中心,負責處理輿情報告、預警、數(shù)據(jù)處理、服務(wù)監(jiān)控等服務(wù)。

技術(shù)棧主要以SpringCloud框架和容器云 Docker 虛擬化為主,底層基于 Kubernetes 做資源管理和服務(wù)編排,構(gòu)建了超過 200個鏡像節(jié)點的線上微服務(wù)集群,支撐每天近萬用戶的復雜檢索和 API 調(diào)用。

業(yè)務(wù)應(yīng)用層 我們構(gòu)建了面向客戶的輿情 SaaS 平臺,為終端客戶提供智能化的輿情監(jiān)測、輿情分析、輿情報告、輿情預警、專題管理等便捷體驗,支持 PC、移動端、微信小程序等;同時,我們還構(gòu)建了面向輿情運營分析師的多工種協(xié)作平臺,將輿情服務(wù)的全流程拆解、工具化,提供了支持眾包的客戶運營、數(shù)據(jù)清洗、報告制作、預警下發(fā)、價值挖掘等獨立的工具平臺,支持近百人的同時在線協(xié)作。

作為輿情系統(tǒng)的底層支撐,下面我們將簡單分享我們在平臺資源層的架構(gòu)實踐,即:高效的數(shù)據(jù)流處理架構(gòu)、穩(wěn)定的數(shù)據(jù)存儲平臺、完善的指標挖掘體系。

數(shù)據(jù)流處理方案

基于輿情業(yè)務(wù)特點,數(shù)據(jù)處理需要滿足以下要求:a.數(shù)據(jù)處理高效:數(shù)據(jù)采集到數(shù)據(jù)持久化存儲,中間的數(shù)據(jù)處理時間不能超過30s,最大限度保證輿情消息的及時性。b.數(shù)據(jù)處理穩(wěn)定:輿情數(shù)據(jù)有明顯的峰谷周期,夜間數(shù)據(jù)較少,白天出現(xiàn)多個信息波峰,同時互聯(lián)網(wǎng)輿情事件具有突發(fā)性,數(shù)據(jù)處理平臺需要具備削峰填谷的能力。c.開發(fā)運維方便:開發(fā)友好,運維簡單。

百分點輿情實時流處理架構(gòu),伴隨技術(shù)演進,經(jīng)歷了多個階段。2015年,我們引入了 Storm 作為實時流處理引擎,當時已經(jīng)能夠支撐高效的數(shù)據(jù)流處理,但隨著業(yè)務(wù)量的增長,計算節(jié)點的維護成本越來越高,復雜的業(yè)務(wù)流程也加大了研發(fā)運維的復雜度,硬件資源利用瓶頸時有發(fā)生。2019年初,我們最終引入 Flink 作為我們的核心流處理組件,全面升級到以 Flink 為中心的微批處理計算平臺。

Storm和 Flink 都是流數(shù)據(jù)處理領(lǐng)域成熟的開源組件,但二者有著明顯的區(qū)別,Storm 是基于拓撲(Topology)的無狀態(tài)無限流處理平臺,能夠保證數(shù)據(jù)不丟失,但窗口函數(shù)等高級功能支持較弱;而 Flink 是一個統(tǒng)一了流處理和批處理的分布式數(shù)據(jù)處理引擎,除具備Storm 的高吞吐率、低延遲、可擴展、支持容錯外,還支持非常靈活的窗口處理,同時有更好的反壓機制,對于保證流處理的穩(wěn)定性有很大的作用。

Flink 集群由 Flink Master、TaskManager 組成,F(xiàn)link Master 中對應(yīng)多個 JobManager,每個 JobManager 負責管理單個 Job 的調(diào)度和執(zhí)行,而 Resource Manager 負責整個集群的內(nèi)外部資源調(diào)度,F(xiàn)link 可以支持嫁接在 Kubernetes、Mesos、Yarn 等資源調(diào)度管理系統(tǒng)之上,結(jié)合我們現(xiàn)有的大數(shù)據(jù)處理平臺,我們使用 Yarn 作為我們 Flink 集群的底層資源管理系統(tǒng)。

邏輯上,算子(Operator)是 Flink 最基本的數(shù)據(jù)處理單元,一個 Job 是由一系列 Task 組成的 DAG,而每個 Task 中是由一個鏈式的 Operators Chain 構(gòu)成,因此,我們將輿情數(shù)據(jù)處理中的數(shù)據(jù)清洗、標簽計算、數(shù)據(jù)拉通等計算,從 Storm Topology 中的多個 Spout、Bolt 中遷移到重新設(shè)計細化的算子序列,讓計算單元粒度更細、資源并發(fā)度更可控。

以其中一個<數(shù)據(jù) Level1 清洗> Job 為例:

我們將數(shù)據(jù)清洗階段的各步驟(類型轉(zhuǎn)化、黑名單過濾、媒體來源歸一、地域提取、消重)提取成獨立算子,單獨設(shè)置資源和并行度,并且針對全局只讀的字典變量(如數(shù)據(jù)運營設(shè)置的網(wǎng)站黑名單、定期更新的網(wǎng)站媒體庫、定期更新的標準地理庫等),通過廣播變量定期更新到各個算子,優(yōu)雅的動態(tài)更新業(yè)務(wù)規(guī)則。

使用 Flink 集群的核心優(yōu)勢:

資源調(diào)度 采用統(tǒng)一的 Yarn 作為 Flink 資源調(diào)度,相比使用裸機的 Storm,大幅提高了資源利用率,同時使資源伸縮變得更方便。

新的 Flink 集群,在資源利用率持續(xù)控制在60%左右的情況下,物理機資源節(jié)約了50%,不僅節(jié)約了硬件成本,還提高了數(shù)據(jù)處理的能力。

Flink On Yarn 提供2種任務(wù)提交方式:a. Yarn Session:多 Job 共享一個 Flink 集群,YARN 資源共享;b. Flink Run :獨立 Job 獨占 Yarn Session,任務(wù)間互不影響。

我們使用第二種方式提交,能做到更好的業(yè)務(wù)資源隔離和集群任務(wù)監(jiān)控。

動態(tài)反壓機制 Flink 提供比 Storm 更好的動態(tài)反壓機制,能夠動態(tài)感知被阻塞的 Operator,自適應(yīng)地降低源頭或上游數(shù)據(jù)的發(fā)送速率,從而維持整個系統(tǒng)的穩(wěn)定。

針對輿情場景下的數(shù)據(jù)流量波峰波谷和不確定的熱點事件,F(xiàn)link 集群很好的平衡了數(shù)據(jù)流速,解決了 Storm 集群頻發(fā)的高負載故障。

廣播變量 Flink提供靈活的廣播變量,通過將全局共享的數(shù)據(jù)廣播出去,不同的任務(wù)在同一個節(jié)點上都能獲取,數(shù)據(jù)只保存一份,相比于分布式緩存,節(jié)省了內(nèi)存開銷。

邏輯解耦 Flink 基于細粒度的算子鏈構(gòu)建業(yè)務(wù)任務(wù),把業(yè)務(wù)抽象成粒度足夠小的算子,代碼邏輯高度解耦。單個算子可單獨配置并行度,其 Operator Chain 機制還能自動優(yōu)化執(zhí)行邏輯,將并行度一致的算子轉(zhuǎn)化為線程內(nèi)的方法調(diào)用,減少網(wǎng)絡(luò)通信,提高運行效率。

猜你喜歡
數(shù)據(jù)處理算子輿情
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
擬微分算子在Hp(ω)上的有界性
各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應(yīng)用
一類Markov模算子半群與相應(yīng)的算子值Dirichlet型刻畫
Roper-Suffridge延拓算子與Loewner鏈
輿情
輿情
輿情
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
蕉岭县| 平度市| 靖远县| 龙州县| 江达县| 开江县| 渝北区| 余姚市| 承德市| 永昌县| 东丰县| 阿拉善左旗| 临洮县| 胶州市| 江油市| 扎鲁特旗| 渑池县| 南郑县| 滦南县| 宿州市| 新安县| 石棉县| 水富县| 边坝县| 龙门县| 永川市| 北流市| 盱眙县| 台中市| 东安县| 牡丹江市| 彩票| 泸州市| 洪江市| 紫云| 新密市| 娱乐| 扬中市| 永泰县| 丹东市| 固阳县|