国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理框架構(gòu)建及應(yīng)用研究

2024-05-02 06:10龍虎李娜
電腦知識(shí)與技術(shù) 2024年5期
關(guān)鍵詞:大數(shù)據(jù)技術(shù)應(yīng)用

龍虎 李娜

摘要:大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)具有實(shí)時(shí)性、突發(fā)性、無序性、易失性和無限性等特征,因此,傳統(tǒng)的分布式計(jì)算機(jī)系統(tǒng)很難滿足計(jì)算需求,需要利用流計(jì)算來處理流數(shù)據(jù),流計(jì)算可以針對(duì)海量的不同數(shù)據(jù)源的流數(shù)據(jù)進(jìn)行實(shí)時(shí)分析與處理。在梳理大數(shù)據(jù)技術(shù)架構(gòu)的基礎(chǔ)上,對(duì)流數(shù)據(jù)及流數(shù)據(jù)處理框架進(jìn)行了闡述,給出了流數(shù)據(jù)處理的三種常用框架,利用文獻(xiàn)研究法和系統(tǒng)法對(duì)大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理進(jìn)行深入研究,提出了大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理框架及應(yīng)用領(lǐng)域,希望能為大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理的研究者提供借鑒。

關(guān)鍵詞:大數(shù)據(jù)技術(shù);流數(shù)據(jù)處理框架;應(yīng)用

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2024)05-0066-03

大數(shù)據(jù)技術(shù)背景下,海量多源異構(gòu)流數(shù)據(jù)不斷涌現(xiàn),其具有實(shí)時(shí)性、復(fù)雜性、易失性、突發(fā)性、多樣性、無序性等多個(gè)特征,如何有效地處理海量流數(shù)據(jù)是當(dāng)前大數(shù)據(jù)技術(shù)領(lǐng)域研究的熱點(diǎn)問題。流數(shù)據(jù)不同于靜態(tài)數(shù)據(jù),其具有數(shù)據(jù)來源種類多且體量大,格式復(fù)雜等諸多特征,針對(duì)流數(shù)據(jù)需要采用實(shí)時(shí)計(jì)算即流計(jì)算,利用流計(jì)算對(duì)數(shù)據(jù)進(jìn)行處理主要包括數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)實(shí)時(shí)計(jì)算和實(shí)時(shí)查詢等,其中,數(shù)據(jù)實(shí)時(shí)采集階段主要是采集多個(gè)數(shù)據(jù)源的海量數(shù)據(jù),數(shù)據(jù)實(shí)時(shí)計(jì)算主要是對(duì)采集到的數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析和計(jì)算,實(shí)時(shí)查詢服務(wù)主要是經(jīng)由流計(jì)算框架得出的結(jié)果供用戶實(shí)時(shí)查詢。流數(shù)據(jù)處理框架主要有Apache Storm 流計(jì)算框架、Spark Streaming實(shí)時(shí)計(jì)算框架和ApacheSamza計(jì)算框架三種,流數(shù)據(jù)來源種類繁多,如在線廣告數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、氣象數(shù)據(jù)、網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)等。流數(shù)據(jù)主要用在航空航天、大型網(wǎng)站網(wǎng)店的實(shí)時(shí)用戶訪問情況分析、網(wǎng)絡(luò)監(jiān)控、金融服務(wù)電商網(wǎng)站的實(shí)時(shí)廣告推薦等方面。大數(shù)據(jù)技術(shù)下流數(shù)據(jù)主要利用實(shí)時(shí)計(jì)算來對(duì)流數(shù)據(jù)進(jìn)行處理,因數(shù)據(jù)來源較多,數(shù)據(jù)格式復(fù)雜,數(shù)據(jù)體量巨大,需要構(gòu)建一個(gè)新的大數(shù)據(jù)流數(shù)據(jù)處理框架,以滿足流數(shù)據(jù)應(yīng)用需求。

1 大數(shù)據(jù)技術(shù)

大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和架構(gòu),用于以經(jīng)濟(jì)的方式,以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值[1]。大數(shù)據(jù)關(guān)鍵技術(shù)主要包括大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)管理技術(shù)、大數(shù)據(jù)安全技術(shù)、大數(shù)據(jù)分析與大數(shù)據(jù)挖掘、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用等,數(shù)據(jù)的采集是處理數(shù)據(jù)的基礎(chǔ),獲取的數(shù)據(jù)主要有靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù),獲取數(shù)據(jù)也是獲取信息的過程,如利用傳感器可以獲取溫度、壓力、電流、震動(dòng)等數(shù)據(jù),數(shù)據(jù)預(yù)處理主要是在數(shù)據(jù)分析處理之前的一些數(shù)據(jù)處理,如數(shù)據(jù)的清洗、數(shù)據(jù)的變換等,數(shù)據(jù)存儲(chǔ)技術(shù)主要解決海量數(shù)據(jù)存儲(chǔ)問題,如利用NoSQL數(shù)據(jù)庫實(shí)現(xiàn)大規(guī)模數(shù)據(jù)存儲(chǔ)。大數(shù)據(jù)存儲(chǔ)與管理技術(shù)主要是將采集到的數(shù)據(jù)存儲(chǔ)起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。大數(shù)據(jù)管理是一個(gè)包括數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)治理、數(shù)據(jù)組織以及管理和支付大型數(shù)據(jù)存儲(chǔ)庫的策略、過程和技術(shù)。大數(shù)據(jù)安全技術(shù)中的主要關(guān)鍵技術(shù)為大數(shù)據(jù)訪問控制、安全檢索、安全計(jì)算。大數(shù)據(jù)訪問控制方面主要包括基于密碼學(xué)的訪問控制、角色挖掘、風(fēng)險(xiǎn)自適應(yīng)訪問控制等;安全檢索主要包括PIR系列與ORAM、對(duì)稱可搜索加密、非對(duì)稱可搜索加密、密文區(qū)間檢索等;安全計(jì)算的目的是在復(fù)雜、惡劣的環(huán)境下以安全方式計(jì)算出正確結(jié)果,主要包括同態(tài)加密、可驗(yàn)證計(jì)算、安全多方計(jì)算、函數(shù)加密、外包計(jì)算等,其中,同態(tài)加密技術(shù)既可處理加密數(shù)據(jù)又可維持?jǐn)?shù)據(jù)的機(jī)密性。可驗(yàn)證計(jì)算是實(shí)現(xiàn)外包計(jì)算的完整性即正確性的最可靠技術(shù),它通過使用密碼學(xué)工具,確保外包計(jì)算的完整性,而無須對(duì)服務(wù)器失敗率或失敗的相關(guān)性做任何假設(shè)。安全多方計(jì)算的目的是使得多個(gè)參與方能夠以一種安全的方式正確實(shí)行分布式計(jì)算任務(wù),每個(gè)參與方除了自己的輸入和輸出以及由其可以推出的信息外得不到任何額外信息。函數(shù)加密是屬性加密的一般化,外包計(jì)算允許計(jì)算資源受限的用戶端將計(jì)算復(fù)雜性較高的計(jì)算外包給遠(yuǎn)端的半可信或惡意服務(wù)器完成。

大數(shù)據(jù)分析是對(duì)海量數(shù)據(jù)的分析[2],以機(jī)器學(xué)習(xí)算法為基礎(chǔ),從海量數(shù)據(jù)中提取信息的過程。大數(shù)據(jù)挖掘是從海量的和不完全的以及隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含的、潛在的有用信息和知識(shí)的過程。數(shù)據(jù)挖掘技術(shù)主要有人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、鄰近算法等。數(shù)據(jù)可視化技術(shù)涉及計(jì)算機(jī)視覺、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)圖形學(xué)等多個(gè)領(lǐng)域,數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示,大量的數(shù)據(jù)構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,以從不同的角度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。大數(shù)據(jù)應(yīng)用技術(shù)主要包括商業(yè)智能技術(shù)、電信數(shù)據(jù)信息處理與挖掘技術(shù)、電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù)、氣象信息分析技術(shù)、環(huán)境監(jiān)測(cè)技術(shù)、Web信息挖掘技術(shù)、多媒體數(shù)據(jù)并行化處理技術(shù)、云計(jì)算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)具有實(shí)時(shí)性、突發(fā)性、無序性、易失性和無限性等特征,因此,傳統(tǒng)的分布式計(jì)算機(jī)系統(tǒng)很難滿足計(jì)算需求,需要利用流計(jì)算來處理流數(shù)據(jù),流計(jì)算可以針對(duì)海量的不同數(shù)據(jù)源的流數(shù)據(jù)進(jìn)行實(shí)時(shí)分析與處理。

2 流數(shù)據(jù)處理框架

流數(shù)據(jù)(Stream Data)是由通信領(lǐng)域的美國學(xué)者M(jìn)onika R.Henziger提出的[3],將其定義為只能以事先規(guī)定好的順序被讀取一次的數(shù)據(jù)的一個(gè)序列。流數(shù)據(jù)形式化描述為:考慮一個(gè)向量α,其屬性域?yàn)閇1...n](n為秩),則向量α在時(shí)間t的狀態(tài)可表示為α(t)= <α1 (t)...αi(t) , ...αn(t)>,i=1,2...n,可以設(shè)定在時(shí)刻s,α是0向量,即對(duì)于所有屬性I, αi(s)=0。向量值的改變是基于時(shí)間變量的線性疊加,即時(shí)刻t 各個(gè)分量的更新是基于(t-1) 時(shí)刻以二元組流的形式出現(xiàn)的。流數(shù)據(jù)的特征主要表現(xiàn)為數(shù)據(jù)的實(shí)時(shí)性、數(shù)據(jù)來源眾多、數(shù)據(jù)規(guī)模大且格式復(fù)雜、數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而降低,數(shù)據(jù)處理的重點(diǎn)在于即時(shí)響應(yīng)分析。流數(shù)據(jù)是一種實(shí)時(shí)到達(dá)的具有規(guī)模大、基數(shù)高、統(tǒng)計(jì)特征復(fù)雜變化特性的數(shù)據(jù)流。

流數(shù)據(jù)(Data stream) 是一種實(shí)時(shí)的數(shù)據(jù),其概念來源于數(shù)據(jù)庫領(lǐng)域,可將流數(shù)據(jù)看作無邊界的,瞬時(shí)的數(shù)據(jù)項(xiàng)序列,同源流數(shù)據(jù)中的數(shù)據(jù)項(xiàng)都具有相同的模式應(yīng)用于網(wǎng)絡(luò)監(jiān)控、金融服務(wù)以及氣象監(jiān)控等領(lǐng)域[4]。流數(shù)據(jù)的特點(diǎn)主要表現(xiàn)在數(shù)據(jù)的實(shí)時(shí)性,數(shù)據(jù)到達(dá)次序獨(dú)立,不受應(yīng)用系統(tǒng)的控制,數(shù)據(jù)規(guī)模較大且很難預(yù)知最大值等多個(gè)方面。流數(shù)據(jù)處理框架主要有Apache Storm 流計(jì)算框架、Spark Streaming 實(shí)時(shí)計(jì)算框架和Apache Samza 計(jì)算框架三種。ApacheStorm流計(jì)算框架的特點(diǎn)主要有容錯(cuò)性好、可伸縮性高、應(yīng)用場(chǎng)景廣泛,如金融領(lǐng)域、預(yù)警系統(tǒng)、電商商品的實(shí)時(shí)推薦等;Spark Streaming實(shí)時(shí)計(jì)算框架的特點(diǎn)主要有高可擴(kuò)展性、高吞吐量、容錯(cuò)能力強(qiáng)等,其應(yīng)用在網(wǎng)絡(luò)監(jiān)控、異常檢測(cè)等方面;Apache Samza計(jì)算框架的特點(diǎn)是容錯(cuò)性好、可擴(kuò)展性,其應(yīng)用場(chǎng)景主要在欺詐檢測(cè)和異常檢測(cè)等方面。

1) Apache Storm流計(jì)算框架。Apache Storm是一個(gè)實(shí)時(shí)的計(jì)算框架,可以支持多種編程語言,對(duì)流數(shù)據(jù)處理的響應(yīng)速度快,響應(yīng)時(shí)延可以控制在毫秒級(jí),支持海量數(shù)據(jù)處理,數(shù)據(jù)規(guī)??梢赃_(dá)到PB量級(jí),能夠有效和可靠地處理流數(shù)據(jù),Storm框架可以很好地與數(shù)據(jù)庫系統(tǒng)進(jìn)行整合,在數(shù)據(jù)實(shí)時(shí)分析、持續(xù)計(jì)算、機(jī)器學(xué)習(xí)等方面能夠得到很好的應(yīng)用。Storm運(yùn)行在分布式集群中,其集群采用Master-work的節(jié)點(diǎn)方式,利用Zookeeper作為分布式協(xié)調(diào)組件。

2) Spark Streaming實(shí)時(shí)計(jì)算框架。Spark Stream?ing 是一種側(cè)重極低延遲實(shí)時(shí)流處理計(jì)算框架。Spark Streaming的編程主要是對(duì)DStream的操作[5],在進(jìn)行DStream操作前,需要對(duì)Spark Streaming進(jìn)行初始化,生成StreamingContext。Spark Streaming可以結(jié)合批處理和交互查詢,適合一些需要對(duì)歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)進(jìn)行結(jié)合分析應(yīng)用。

3) Apache Samza計(jì)算框架。Apache Samza為分布式流處理框架,主要用于實(shí)時(shí)數(shù)據(jù)的處理,強(qiáng)調(diào)的是對(duì)數(shù)據(jù)流的低延遲快速處理,Samza的并行計(jì)算是基于Kafka提供的分區(qū)數(shù)據(jù)流,其編程語言主要采用的是Java、Scala等,響應(yīng)延遲可以達(dá)到毫秒級(jí),其狀態(tài)維護(hù)是通過本地存儲(chǔ)和Kafka Changelog來實(shí)現(xiàn)的,并行模式采用的是基于分區(qū)隊(duì)列的多節(jié)點(diǎn)多任務(wù)并行模式。

3 大數(shù)據(jù)流數(shù)據(jù)處理框架構(gòu)建及應(yīng)用

大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)具有實(shí)時(shí)性、突發(fā)性、無序性、易失性和無限性等特征,因此,傳統(tǒng)的分布式計(jì)算機(jī)系統(tǒng)很難滿足計(jì)算需求,需要利用流計(jì)算來處理流數(shù)據(jù),流計(jì)算可以針對(duì)海量的不同數(shù)據(jù)源的流數(shù)據(jù)進(jìn)行實(shí)時(shí)分析與處理。流計(jì)算系統(tǒng)通常需要具備高性能、海量式、實(shí)時(shí)性、易用性和可靠性等方面的特征,高性能主要是能夠達(dá)到大數(shù)據(jù)流數(shù)據(jù)處理要求,實(shí)時(shí)性主要是能夠?qū)崟r(shí)處理流數(shù)據(jù),易用性主要是能夠?qū)崿F(xiàn)快速部署,可靠性主要是能夠可靠地處理流數(shù)據(jù)。流計(jì)算機(jī)即為實(shí)時(shí)計(jì)算,其計(jì)算框架可以采用開源的,如Twitter Storm 以及Yahoo!S4等,Twitter Storm 是一個(gè)開源的實(shí)時(shí)計(jì)算框架,能夠有效地、實(shí)時(shí)地、高效地、可靠地處理海量的流數(shù)據(jù),Yahoo!S4是一個(gè)開源流計(jì)算框架,具有通用性和可擴(kuò)展性好等諸多特征,此外,還有商業(yè)級(jí)的流計(jì)算框架,如IBM InfoSphere Streams和IBM Stream Base等。流計(jì)算機(jī)系統(tǒng)能夠快速及時(shí)地處理實(shí)時(shí)流數(shù)據(jù)。

3.1 大數(shù)據(jù)流數(shù)據(jù)的流計(jì)算模型

流數(shù)據(jù)不同于傳統(tǒng)離線數(shù)據(jù),流數(shù)據(jù)需要進(jìn)行實(shí)時(shí)處理,以滿足應(yīng)用的實(shí)時(shí)性需求。大數(shù)據(jù)流數(shù)據(jù)采集主要是針對(duì)海量的流數(shù)據(jù)進(jìn)行采集,如運(yùn)行監(jiān)控?cái)?shù)據(jù)、社交媒體數(shù)據(jù)、在線廣告數(shù)據(jù)等,流數(shù)據(jù)采集完成后需要進(jìn)行分析計(jì)算,可以利用實(shí)時(shí)流數(shù)據(jù)處理算法來解決流數(shù)據(jù)分析處理,大數(shù)據(jù)流數(shù)據(jù)處理需要考慮到數(shù)據(jù)流大規(guī)模實(shí)時(shí)持續(xù)達(dá)到的特性,處理完成后的流數(shù)據(jù),用戶可以進(jìn)行實(shí)時(shí)查詢,查詢的結(jié)果會(huì)實(shí)時(shí)推送給用戶。

3.2 大數(shù)據(jù)流數(shù)據(jù)處理框架構(gòu)建

大數(shù)據(jù)流數(shù)據(jù)是一種實(shí)時(shí)數(shù)據(jù),具有海量、快速、時(shí)變等諸多特征,需要利用實(shí)時(shí)計(jì)算來對(duì)流數(shù)據(jù)進(jìn)行處理,實(shí)時(shí)計(jì)算能使用戶獲得實(shí)時(shí)的數(shù)據(jù)結(jié)果。大數(shù)據(jù)流數(shù)據(jù)因數(shù)據(jù)的實(shí)時(shí)性需要利用流計(jì)算來實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)分析與處理,因數(shù)據(jù)來源較多,數(shù)據(jù)格式復(fù)雜,數(shù)據(jù)體量巨大,需要構(gòu)建一個(gè)新的大數(shù)據(jù)流數(shù)據(jù)處理框架。

大數(shù)據(jù)流數(shù)據(jù)傳輸主要是指流數(shù)據(jù)的實(shí)時(shí)傳輸,大數(shù)據(jù)流數(shù)據(jù)實(shí)時(shí)分析與處理主要是針對(duì)流數(shù)據(jù)的分析與處理,流數(shù)據(jù)的輸入方式主要是數(shù)據(jù)流,數(shù)據(jù)的輸入呈現(xiàn)為流式持續(xù)抵達(dá)狀態(tài),流處理模式的數(shù)據(jù)總量是無法預(yù)知的,處理的是海量的流數(shù)據(jù),流數(shù)據(jù)的聚類算法[5]主要有基于劃分的聚類、基于層次的聚類、基于密度的聚類以及基于網(wǎng)格的聚類,其中,基于劃分的聚類主要是利用基于窗口將流數(shù)據(jù)分塊,采用類似批處理的方式對(duì)窗口內(nèi)數(shù)據(jù)進(jìn)行聚類,進(jìn)而獲得流數(shù)據(jù)聚類的結(jié)果;基于層次的聚類主要是將流數(shù)據(jù)劃分為在線和離線兩個(gè)階段,在現(xiàn)階段提供微聚類結(jié)構(gòu),以周期性地存儲(chǔ)統(tǒng)計(jì)結(jié)果,離線階段提供宏聚類,使用微聚類輸出信息;基于密度的聚類主要是通過查找被低密度區(qū)域包圍的高密度區(qū)域來進(jìn)行聚類,如Den-Stream算法等;基于網(wǎng)格的聚類主要是結(jié)合基于密度和基于距離的優(yōu)點(diǎn),通過劃分網(wǎng)絡(luò),將數(shù)據(jù)映射到距離最近的網(wǎng)格上,并通過網(wǎng)格密度對(duì)網(wǎng)格進(jìn)行分簇。大數(shù)據(jù)流數(shù)據(jù)呈現(xiàn)是指用戶通過實(shí)時(shí)查詢服務(wù)獲取實(shí)時(shí)查詢結(jié)果,此外,實(shí)時(shí)數(shù)據(jù)會(huì)不斷更新,其更新的結(jié)果也會(huì)推送給用戶,大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理框架如圖1所示。

大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理框架主要包括大數(shù)據(jù)流數(shù)據(jù)源、大數(shù)據(jù)流數(shù)據(jù)采集與傳輸、大數(shù)據(jù)流數(shù)據(jù)實(shí)時(shí)分析與處理、大數(shù)據(jù)流數(shù)據(jù)呈現(xiàn)等多個(gè)部分,其中,數(shù)據(jù)源部分主要是指海量的流數(shù)據(jù),如在線網(wǎng)購數(shù)據(jù)、氣象數(shù)據(jù)、社交媒體數(shù)據(jù)、網(wǎng)絡(luò)監(jiān)控?cái)?shù)據(jù)等。大數(shù)據(jù)流數(shù)據(jù)采集主要是針對(duì)海量的流數(shù)據(jù)進(jìn)行采集。流數(shù)據(jù)是一個(gè)沒有界限的數(shù)據(jù)序列,數(shù)據(jù)產(chǎn)生的速度較快,因此,在流數(shù)據(jù)采集中需要保證其實(shí)時(shí)性。大數(shù)據(jù)流數(shù)據(jù)實(shí)時(shí)分析與處理方面,流數(shù)據(jù)分析與處理主要可以利用Apache Storm 流計(jì)算框架、SparkStreaming實(shí)時(shí)計(jì)算框架、Apache Samza計(jì)算框架等,針對(duì)不同的需求和應(yīng)用場(chǎng)景可以采用不同的計(jì)算框架。大數(shù)據(jù)流數(shù)據(jù)呈現(xiàn)是指用戶通過實(shí)時(shí)查詢服務(wù)獲取實(shí)時(shí)查詢結(jié)果,此外,實(shí)時(shí)數(shù)據(jù)會(huì)不斷更新,其更新的結(jié)果也會(huì)推送給用戶。

3.3 應(yīng)用

大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)是一種實(shí)時(shí)到達(dá)的規(guī)模大、基數(shù)高、統(tǒng)計(jì)特征復(fù)雜變化的數(shù)據(jù)流,大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理的應(yīng)用主要是針對(duì)實(shí)時(shí)類數(shù)據(jù),如金融領(lǐng)域的手機(jī)銀行在線實(shí)時(shí)服務(wù)數(shù)據(jù)、基金等實(shí)時(shí)數(shù)據(jù)、廣告營銷領(lǐng)域?qū)崟r(shí)數(shù)據(jù)、物聯(lián)網(wǎng)監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)、交通流監(jiān)控實(shí)時(shí)數(shù)據(jù)、健康醫(yī)療實(shí)時(shí)數(shù)據(jù)等,其中,在金融領(lǐng)域如在線實(shí)時(shí)交易數(shù)據(jù)、用戶在線行為數(shù)據(jù)、用戶的在線交易的位置信息數(shù)據(jù)等,針對(duì)用戶行為進(jìn)行實(shí)時(shí)分析和個(gè)性化推薦。

4 結(jié)束語

大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)處理不再局限于傳統(tǒng)的抽樣處理,而是對(duì)整個(gè)數(shù)據(jù)的全樣本處理,體現(xiàn)的是效率而非絕對(duì)精確,需要的是相關(guān)而非因果。大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)以其實(shí)時(shí)性、無序性、突發(fā)性等諸多顯著特征,具有與傳統(tǒng)數(shù)據(jù)處理有著很大不同,也為大數(shù)據(jù)時(shí)代數(shù)據(jù)處理帶來了新的挑戰(zhàn)。大數(shù)據(jù)技術(shù)下的流數(shù)據(jù)處理和應(yīng)用目前還處于未成熟階段,需要進(jìn)一步進(jìn)行研究,尤其是大數(shù)據(jù)流數(shù)據(jù)處理的關(guān)鍵處技術(shù)以及大數(shù)據(jù)流數(shù)據(jù)的計(jì)算理論和方法。

參考文獻(xiàn):

[1] 牟少敏.機(jī)器學(xué)習(xí)與大數(shù)據(jù)技術(shù)[M].北京:人民郵電出版社,2018.

[2] 龍虎.大數(shù)據(jù)概論[M].北京:清華大學(xué)出版社,2021.

[3] ZHANG Q. Research and Analysis of Computer Application Technology Based on Big Data Environment[J]. Advances in Computer, Signals and Systems,2023,7(5).

[4] 王桂玲,韓燕波,張仲妹,等.基于云計(jì)算的流數(shù)據(jù)集成與服務(wù)[J].計(jì)算機(jī)學(xué)報(bào),2017,40(1):107-125.

[5] 李靜林,袁泉.流數(shù)據(jù)分析技術(shù)[M].北京:北京郵電大學(xué)出版社,2020.

[6] 王建民.領(lǐng)域大數(shù)據(jù)應(yīng)用開發(fā)與運(yùn)行平臺(tái)技術(shù)研究[J].軟件學(xué)報(bào),2017,28(6):1516-1528.

[7] LIU F R,WANG Y,LI Z Y,et al.Formula omitted]S:Adaptive anomaly detection on sporadic data streams[J].Computer Com?munications,2023(209):151-162.

【通聯(lián)編輯:王 力】

猜你喜歡
大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)技術(shù)在電子商務(wù)中的應(yīng)用
大數(shù)據(jù)技術(shù)對(duì)新聞業(yè)務(wù)的影響研究
論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
多媒體技術(shù)在小學(xué)語文教學(xué)中的應(yīng)用研究
分析膜技術(shù)及其在電廠水處理中的應(yīng)用
GM(1,1)白化微分優(yōu)化方程預(yù)測(cè)模型建模過程應(yīng)用分析
煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
武清区| 清苑县| 望江县| 民丰县| 扬中市| 东港市| 凤翔县| 资溪县| 依安县| 榆树市| 若尔盖县| 周口市| 中西区| 黄冈市| 浦北县| 琼海市| 那曲县| 阿尔山市| 曲阜市| 东源县| 阳山县| 广汉市| 兴安县| 武陟县| 宣化县| 四川省| 五莲县| 巴林左旗| 陵水| 合山市| 平阳县| 旬邑县| 安阳县| 莫力| 嘉黎县| 敖汉旗| 南宁市| 盐池县| 吕梁市| 乐亭县| 榆社县|