国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

油氣生產(chǎn)實(shí)時(shí)數(shù)據(jù)處理方案研究

2021-12-30 14:10:50胡修濤
科技信息·學(xué)術(shù)版 2021年5期
關(guān)鍵詞:大數(shù)據(jù)

胡修濤

摘要:按照“一切系統(tǒng)皆上云”的工作要求,依托油田智云,采取應(yīng)用集中、數(shù)據(jù)分散的方式優(yōu)化生產(chǎn)指揮系統(tǒng)部署模式,開(kāi)展實(shí)時(shí)大數(shù)據(jù)匯聚體系研究,解決分散數(shù)據(jù)源尋址及數(shù)據(jù)高效處理的難題,支撐生產(chǎn)指揮系統(tǒng)的云化部署,助力油田降本增效。

關(guān)鍵詞:云化部署、大數(shù)據(jù)、流式計(jì)算、消息隊(duì)列

一、緒論

1、數(shù)據(jù)部署架構(gòu)現(xiàn)狀及趨勢(shì)

目前常見(jiàn)的數(shù)據(jù)部署方式有集中式和分布式兩種。由于歷史原因,集中式架構(gòu)多用于傳統(tǒng)銀行、電信等行業(yè)。主機(jī)資源集中在大型主機(jī)或小型機(jī)上。近年來(lái),隨著邊緣計(jì)算、區(qū)塊鏈技術(shù)的發(fā)展,分布式架構(gòu)在 Google、阿里巴巴、騰訊等互聯(lián)網(wǎng)公司廣泛應(yīng)用基礎(chǔ)上、也越來(lái)越多的被其他行業(yè)關(guān)注和應(yīng)用。

在集中式架構(gòu)下為了應(yīng)對(duì)更高的性能,更大的數(shù)據(jù)量,往往只能向上升級(jí)到更高配置的機(jī)器,如升級(jí)更強(qiáng)的 CPU,升級(jí)多核,升級(jí)內(nèi)存,升級(jí)存儲(chǔ)等,但單機(jī)的性能永遠(yuǎn)都有瓶頸,隨著業(yè)務(wù)量的增長(zhǎng),只能橫向擴(kuò)展出同樣架構(gòu)的服務(wù)器。在集中式架構(gòu)下,由于單個(gè)服務(wù)器的造價(jià)昂貴,無(wú)法做到按需擴(kuò)展。而分布式架構(gòu)的解決方案是基于廉價(jià)的 PC Server 來(lái)做 Scale Out,借助高速網(wǎng)絡(luò)組建的 PC 集群在整體上提供的計(jì)算能力已大幅高于傳統(tǒng)主機(jī),并且成本很低,橫向的擴(kuò)展性還可帶來(lái)系統(tǒng)良好的成長(zhǎng)性。隨著數(shù)據(jù)量越來(lái)越大,用戶(hù)對(duì)數(shù)據(jù)的計(jì)算效率、實(shí)時(shí)性需求越來(lái)越強(qiáng),分布式架構(gòu)在經(jīng)濟(jì)性、安全自主、靈活性和可伸縮性方面的優(yōu)勢(shì),注定了分布式架構(gòu)應(yīng)用的廣泛性。

2、數(shù)據(jù)處理現(xiàn)狀及趨勢(shì)

大數(shù)據(jù)計(jì)算主要有批量計(jì)算和流式計(jì)算兩種形態(tài),目前,關(guān)于大數(shù)據(jù)批量計(jì)算系統(tǒng)的研究和討論相對(duì)充分,而如何構(gòu)建低延遲、高吞吐且持續(xù)可靠運(yùn)行的大數(shù)據(jù)流式計(jì)算系統(tǒng)是當(dāng)前亟待解決的問(wèn)題且研究成果和實(shí)踐經(jīng)驗(yàn)相對(duì)較少。

①批量計(jì)算

批量計(jì)算首先進(jìn)行數(shù)據(jù)的存儲(chǔ),然后再對(duì)存儲(chǔ)的靜態(tài)數(shù)據(jù)進(jìn)行集中計(jì)算。Hadoop是典型的大數(shù)據(jù)批量計(jì)算架構(gòu),由HDFS分布式文件系統(tǒng)負(fù)責(zé)靜態(tài)數(shù)據(jù)的存儲(chǔ),并通過(guò)MapReduce將計(jì)算邏輯分配到各數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)計(jì)算和價(jià)值發(fā)現(xiàn)。

②流式計(jì)算

流式計(jì)算中,通過(guò)將流動(dòng)的數(shù)據(jù)到來(lái)后在直接在內(nèi)存中進(jìn)行數(shù)據(jù)的實(shí)時(shí)計(jì)算。如Twitter的Storm、Yahoo的S4就是典型的流式數(shù)據(jù)計(jì)算架構(gòu),數(shù)據(jù)在任務(wù)拓?fù)渲斜挥?jì)算,并輸出有價(jià)值的信息。

流式計(jì)算和批量計(jì)算分別適用于不同的大數(shù)據(jù)應(yīng)用場(chǎng)景:對(duì)于先存儲(chǔ)后計(jì)算,實(shí)時(shí)性要求不高,同時(shí),數(shù)據(jù)的準(zhǔn)確性、全面性更為重要的應(yīng)用場(chǎng)景,批量計(jì)算模式更合適;對(duì)于無(wú)需先存儲(chǔ),可以直接進(jìn)行數(shù)據(jù)計(jì)算,實(shí)時(shí)性要求很?chē)?yán)格,但數(shù)據(jù)的精確度要求稍微寬松的應(yīng)用場(chǎng)景,流式計(jì)算具有明顯優(yōu)勢(shì)。流式計(jì)算能夠依賴(lài)kafka的消息系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的高吞吐流轉(zhuǎn),基于內(nèi)存的計(jì)算框架能夠?qū)崿F(xiàn)基于海量數(shù)據(jù)的數(shù)據(jù)分析計(jì)算功能,在數(shù)據(jù)的高速處理方面具備明顯的優(yōu)勢(shì)。

二、技術(shù)研究?jī)?nèi)容

基于實(shí)時(shí)數(shù)據(jù)的處理需求,調(diào)研常用的數(shù)據(jù)處理方案,主要包括傳統(tǒng)數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)Strom流式計(jì)算、Spark Stream處理架構(gòu)三種。

(1)傳統(tǒng)數(shù)據(jù)處理架構(gòu)

傳統(tǒng)oracle觸發(fā)器+存儲(chǔ)過(guò)程的實(shí)時(shí)數(shù)據(jù)處理方案,能充分發(fā)揮企業(yè)級(jí)數(shù)據(jù)庫(kù)處理優(yōu)勢(shì),快速解決實(shí)際業(yè)務(wù)需要。隨著PCS云化對(duì)數(shù)據(jù)集中共享要求,實(shí)時(shí)數(shù)據(jù)量增大,oracle單機(jī)處理能力支撐不足,需要進(jìn)行數(shù)據(jù)處理架構(gòu)升級(jí)。

(2)大數(shù)據(jù)Strom流式處理方案

在不改變?cè)邢到y(tǒng)架構(gòu)的基礎(chǔ)上,借助消息隊(duì)列對(duì)數(shù)據(jù)削峰,使用大數(shù)據(jù)storm流式計(jì)算方式實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)的三級(jí)同步及實(shí)時(shí)預(yù)處理,該架構(gòu)在離線(xiàn)計(jì)算及交互式查詢(xún)能力支撐不足。

(3)大數(shù)據(jù)Spark 流式處理方案

補(bǔ)充storm流式計(jì)算交互式查詢(xún)能力支撐不足的情況,采用大數(shù)據(jù)Spark Streaming的流式計(jì)算和離線(xiàn)計(jì)算環(huán)境,進(jìn)行實(shí)時(shí)大數(shù)據(jù)處理。

(4)實(shí)時(shí)大數(shù)據(jù)匯聚及處理方案對(duì)比

考慮集群配置優(yōu)化、運(yùn)維開(kāi)發(fā)成本、業(yè)務(wù)交互性查詢(xún)因素,最終確定采用大數(shù)據(jù)Spark Stream的處理環(huán)境,提升實(shí)時(shí)數(shù)據(jù)處理能力,保障數(shù)據(jù)處理環(huán)境的穩(wěn)定運(yùn)行。

實(shí)時(shí)大數(shù)據(jù)匯聚體系,針對(duì)實(shí)時(shí)數(shù)據(jù),數(shù)據(jù)服務(wù)引擎采用實(shí)時(shí)計(jì)算框架、離線(xiàn)計(jì)算框架實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)加載和離線(xiàn)計(jì)算。按照不同的數(shù)據(jù)需求,應(yīng)用高速緩存技術(shù),實(shí)現(xiàn)階段數(shù)據(jù)、結(jié)果數(shù)據(jù)的快速取用。

數(shù)據(jù)高速接入技術(shù):采用消息隊(duì)列的方法,對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行削峰處理,平衡高頻實(shí)時(shí)數(shù)據(jù)接入擁塞的問(wèn)題,通過(guò)搭建多個(gè)通道,提高數(shù)據(jù)接入效率。

數(shù)據(jù)流式計(jì)算技術(shù):采用高吞吐、分布式技術(shù)對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行匯總和處理,可支撐海量實(shí)時(shí)數(shù)據(jù)集中匯總計(jì)算,形成滿(mǎn)足不同專(zhuān)業(yè)頻度需要的數(shù)據(jù)。Spark 是專(zhuān)為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,基于內(nèi)存計(jì)算的分布式處理軟件,支持實(shí)時(shí)流式計(jì)算,離線(xiàn)計(jì)算。

數(shù)據(jù)緩存技術(shù)能夠?qū)?shí)時(shí)計(jì)算模型及公式、實(shí)時(shí)計(jì)算結(jié)果保存在內(nèi)存中,減少數(shù)據(jù)庫(kù)的讀取次數(shù),發(fā)揮高速緩存的優(yōu)勢(shì)。

三、總結(jié)

隨著油氣生產(chǎn)實(shí)時(shí)數(shù)據(jù)量的逐步增大、oracle單機(jī)處理能力無(wú)法支撐分公司數(shù)據(jù)集中處理需求。采用實(shí)時(shí)大數(shù)據(jù)匯聚處理方案,能夠發(fā)揮在實(shí)時(shí)數(shù)據(jù)接入、數(shù)據(jù)緩存、多節(jié)點(diǎn)運(yùn)算上的技術(shù)優(yōu)勢(shì),提高實(shí)時(shí)數(shù)據(jù)處理的穩(wěn)定性和高效性,支撐分公司云化部署應(yīng)用。

猜你喜歡
大數(shù)據(jù)
基于在線(xiàn)教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
基于大數(shù)據(jù)的小微電商授信評(píng)估研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
海淀区| 盐源县| 葵青区| 河东区| 清涧县| 东莞市| 彩票| 公安县| 巍山| 云霄县| 丰宁| 黄山市| 云阳县| 山西省| 临澧县| 绥德县| 丰原市| 清苑县| 安新县| 玉田县| 朔州市| 太和县| 汪清县| 根河市| 南木林县| 蒲城县| 武汉市| 永吉县| 嘉峪关市| 龙州县| 辽宁省| 枣强县| 银川市| 东平县| 大宁县| 闽侯县| 仲巴县| 特克斯县| 花莲县| 和田县| 攀枝花市|