国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲及應(yīng)用研究

2021-12-06 02:20
科技視界 2021年32期
關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)量數(shù)據(jù)庫

吳 飛

(中國直升機設(shè)計研究所,江西 景德鎮(zhèn)333001)

0 引言

隨著企業(yè)的業(yè)務(wù)成熟和數(shù)字化轉(zhuǎn)型的不斷推進,業(yè)務(wù)系統(tǒng)的數(shù)量和存儲的數(shù)據(jù)量均呈現(xiàn)爆發(fā)性增長,結(jié)合日益發(fā)展成熟的大數(shù)據(jù)技術(shù)和數(shù)據(jù)中臺概念的落地,企業(yè)內(nèi)部也在構(gòu)建存儲、管理和利用海量數(shù)據(jù)的大數(shù)據(jù)平臺。數(shù)據(jù)倉庫在大數(shù)據(jù)環(huán)境中承擔著數(shù)據(jù)存儲的職責,能夠很好地滿足海量數(shù)據(jù)存儲及分析利用的要求,但是其本身在應(yīng)用上也存在一定的局限性,主要表現(xiàn)為在海量數(shù)據(jù)的查詢、狀態(tài)管控和展現(xiàn)上存在著效率低下的問題。為了更好地利用大數(shù)據(jù)的優(yōu)勢,可以采用多層數(shù)據(jù)存儲的方式使數(shù)據(jù)既能完整統(tǒng)一,也能滿足數(shù)據(jù)快速查詢和分析利用的要求。

1 大數(shù)據(jù)概述

大數(shù)據(jù)作為互聯(lián)網(wǎng)發(fā)展中的一次技術(shù)創(chuàng)新對全社會產(chǎn)生了巨大的沖擊,數(shù)據(jù)量成倍增長后從量變引起了質(zhì)變,深刻影響著企業(yè)的經(jīng)營決策活動?!按髷?shù)據(jù)”本身是一個很多技術(shù)概念的集合,即不能在有限時間內(nèi)使用常用工具軟件對數(shù)據(jù)進行采集、存儲和處理的數(shù)據(jù)綜合體。大數(shù)據(jù)一般存在以下4個特點:數(shù)據(jù)規(guī)模大、數(shù)據(jù)格式多、數(shù)據(jù)處理快和數(shù)據(jù)價值低[1]。

(1)數(shù)據(jù)量大,指涉及的數(shù)據(jù)體量巨大[2]。企業(yè)中的應(yīng)用系統(tǒng)經(jīng)過長年累月的使用,積累了越來越多的數(shù)據(jù),且隨著日常管理工作的日趨完善,信息系統(tǒng)仍在不斷構(gòu)建,數(shù)據(jù)量很容易就達到了PB級,這大大地超過了傳統(tǒng)數(shù)據(jù)庫所能存儲和分析的量級。

(2)數(shù)據(jù)類型多,指數(shù)據(jù)源廣泛且類別各異。企業(yè)中的數(shù)據(jù)已不再僅僅包含數(shù)據(jù)庫中所存儲的結(jié)構(gòu)化數(shù)據(jù),還包括文本等半結(jié)構(gòu)化和音視頻等非結(jié)構(gòu)化數(shù)據(jù),同時文本、圖片、音視頻等類型數(shù)據(jù)的占比日益增加。

(3)數(shù)據(jù)處理快,指數(shù)據(jù)分析加工快。企業(yè)中每秒都在產(chǎn)生數(shù)據(jù),對數(shù)據(jù)處理的及時性也隨之提出更高的要求,數(shù)據(jù)處理過慢則影響數(shù)據(jù)的使用。考慮數(shù)據(jù)價值的有效性,數(shù)據(jù)處理遵循1秒定律。

(4)數(shù)據(jù)價值低,不是指大數(shù)據(jù)本身沒有價值,而是指有價值的數(shù)據(jù)在數(shù)據(jù)量中的占比低。企業(yè)中隨著整體數(shù)據(jù)量的增大,無效的數(shù)據(jù)也隨之變多,數(shù)據(jù)的價值需要不斷的整理、挖掘和分析才能得到很好的體現(xiàn),數(shù)據(jù)可用性程度較低。

2 數(shù)據(jù)存儲設(shè)計

在設(shè)計大數(shù)據(jù)環(huán)境下數(shù)據(jù)的存儲時,將采用的數(shù)據(jù)存儲分為了三層:操作數(shù)據(jù)存儲層、數(shù)據(jù)倉庫層、分析結(jié)果存儲層。其中,操作數(shù)據(jù)存儲層主要使用關(guān)系型數(shù)據(jù)庫,目的是在直接將數(shù)據(jù)抽取到數(shù)據(jù)倉庫的過程中增加緩沖,確保數(shù)據(jù)倉庫的穩(wěn)定,同時將一些不符合規(guī)則的數(shù)據(jù)篩選出來;大數(shù)據(jù)倉庫層則是使用Hive(數(shù)據(jù)倉庫工具)進行數(shù)據(jù)的存儲,將各類數(shù)據(jù)匯總后按數(shù)據(jù)主題分別存儲;分析結(jié)果數(shù)據(jù)存儲層使用的是關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫組合的方式存儲數(shù)據(jù),提供數(shù)據(jù)給上層應(yīng)用訪問,詳細的總體設(shè)計情況如圖1所示。

圖1 數(shù)據(jù)存儲設(shè)計

2.1 操作數(shù)據(jù)存儲層

操作數(shù)據(jù)存儲層是大數(shù)據(jù)存儲應(yīng)用中的一個重要組成部分,也被稱為貼源層。在操作數(shù)據(jù)存儲層的設(shè)計上主要參考了數(shù)據(jù)倉庫的設(shè)計和數(shù)據(jù)建模方法,方法的比較主要體現(xiàn)在ER模型(實體聯(lián)系模型)和維模型上,但是ER模型和維模型在大數(shù)據(jù)存儲的設(shè)計中不是互斥的,ER模型可以完整地展示數(shù)據(jù)之間的聯(lián)系,而維模型可以保留實際的數(shù)據(jù)結(jié)構(gòu)。因此不能簡單地區(qū)分哪種模型更優(yōu),需要根據(jù)實際應(yīng)用場景決定使用哪種數(shù)據(jù)存儲設(shè)計,從而使數(shù)據(jù)更好地反映企業(yè)的業(yè)務(wù)情況。操作數(shù)據(jù)存儲層具備了數(shù)據(jù)倉庫和聯(lián)機事務(wù)處理過程的一些特點,它也是通過集成各業(yè)務(wù)數(shù)據(jù),按主題存儲業(yè)務(wù)最新和詳細數(shù)據(jù)的集合,能夠?qū)崿F(xiàn)全數(shù)據(jù)臨時存儲以及處理的要求。結(jié)合單位內(nèi)部實際需求,操作數(shù)據(jù)存儲主要完成了數(shù)據(jù)緩沖、轉(zhuǎn)移查詢和數(shù)據(jù)狀態(tài)控制功能。

2.1.1 數(shù)據(jù)緩沖

大數(shù)據(jù)環(huán)境集成的數(shù)據(jù)來源十分復雜,一般表現(xiàn)為來源于多個應(yīng)用系統(tǒng),且數(shù)據(jù)的存儲方式、業(yè)務(wù)模型等都各不相同,從而大大提高了數(shù)據(jù)抽取的難度。因此,操作數(shù)據(jù)存儲層用于臨時存儲從業(yè)務(wù)系統(tǒng)中集成的數(shù)據(jù),存儲的數(shù)據(jù)與源數(shù)據(jù)的結(jié)構(gòu)一致并且數(shù)據(jù)的關(guān)聯(lián)關(guān)系也一致,僅對部分字段進行轉(zhuǎn)換。因此在數(shù)據(jù)集成時基本不用考慮抽取轉(zhuǎn)換的過程,更多的關(guān)注點在數(shù)據(jù)集成的方式和頻率、數(shù)據(jù)量以及源數(shù)據(jù)的結(jié)構(gòu)。

當源數(shù)據(jù)應(yīng)用系統(tǒng)出現(xiàn)問題時,數(shù)據(jù)緩沖可以確保數(shù)據(jù)倉庫完全不受影響,而數(shù)據(jù)倉庫中存放的是完整的、所有的數(shù)據(jù),其安全性和穩(wěn)定性可以得到最好的保證。

2.1.2 轉(zhuǎn)移查詢

在大數(shù)據(jù)環(huán)境應(yīng)用之前,各業(yè)務(wù)系統(tǒng)自身根據(jù)業(yè)務(wù)需要生成大量的分析報表,但是往往有些分析報表非常復雜,業(yè)務(wù)系統(tǒng)在實現(xiàn)大量復雜sql語句(結(jié)構(gòu)化查詢語言)時對業(yè)務(wù)系統(tǒng)的運行造成了巨大的壓力。分析查詢操作也可以直接在數(shù)據(jù)倉庫中進行,然而數(shù)據(jù)倉庫中數(shù)據(jù)存儲量大,數(shù)據(jù)存儲模式不再是關(guān)系型而轉(zhuǎn)變?yōu)槊嫦蛑黝}的方式,在應(yīng)對簡單報表生成和查詢時反而顯得效率低下,難以滿足用戶查詢要求。操作數(shù)據(jù)存儲層的數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)關(guān)聯(lián)關(guān)系和數(shù)據(jù)的完整性等方面都和源系統(tǒng)一致,因此可以在操作數(shù)據(jù)存儲層實現(xiàn)業(yè)務(wù)系統(tǒng)的報表生成和數(shù)據(jù)檢索功能,從而減輕業(yè)務(wù)系統(tǒng)的檢索量。

2.1.3 數(shù)據(jù)狀態(tài)控制

在應(yīng)用系統(tǒng)眾多的今天,企業(yè)內(nèi)部仍然沒有實現(xiàn)所有業(yè)務(wù)工作都能使用系統(tǒng)管理,而是通過郵件將Excel表分發(fā)到各部門再匯總統(tǒng)計,這部分工作往往由專人負責但是缺乏對數(shù)據(jù)的管控,數(shù)據(jù)無法有效地留存和再利用。此類規(guī)范性的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中很受歡迎,數(shù)據(jù)的質(zhì)量有保障,也可以很容易地對其進行分析,因此數(shù)據(jù)錄入必不可少。

數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過清洗和轉(zhuǎn)換的,數(shù)據(jù)錄入的數(shù)據(jù)不能直接存進數(shù)據(jù)倉庫,需要經(jīng)過審批后才能確定為有效數(shù)據(jù),這種簡單的審批操作無法直接在數(shù)據(jù)倉庫中進行。操作數(shù)據(jù)存儲層可以作為源數(shù)據(jù)庫存儲錄入的數(shù)據(jù),同時使用字段控制數(shù)據(jù)的狀態(tài)滿足數(shù)據(jù)審批和數(shù)據(jù)抽取的要求,僅當數(shù)據(jù)狀態(tài)位為“1”時,數(shù)據(jù)才會從操作數(shù)據(jù)存儲層中抽取到數(shù)據(jù)倉庫中。

2.2 數(shù)據(jù)倉庫層

數(shù)據(jù)倉庫是一個基于主題存儲的、數(shù)據(jù)高度集中的、分布式的、全生命周期的存放海量數(shù)據(jù)的集合,數(shù)據(jù)倉庫中存放了完整可用的企業(yè)數(shù)據(jù)[3]。數(shù)據(jù)倉庫和傳統(tǒng)的關(guān)系型、非關(guān)系型數(shù)據(jù)庫不同,傳統(tǒng)的數(shù)據(jù)庫在設(shè)計時更多考慮的是系統(tǒng)功能,而數(shù)據(jù)倉庫存儲數(shù)據(jù)是按照主題劃分的。業(yè)務(wù)系統(tǒng)中存儲的數(shù)據(jù)歸屬于各業(yè)務(wù)本身,對相同物品的描述、計量方式、存儲類型等方面都存在差異。將存儲在各應(yīng)用系統(tǒng)中的數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取和轉(zhuǎn)換后形成一致性的表達,再將數(shù)據(jù)存儲至數(shù)據(jù)倉庫進行管理。數(shù)據(jù)倉庫的數(shù)據(jù)是全生命周期的,其可以對最新數(shù)據(jù)進行檢索,也可以對歷史數(shù)據(jù)進行追溯。數(shù)據(jù)倉庫存儲的數(shù)據(jù)理論上不應(yīng)該再進行修改,當集成的數(shù)據(jù)源中的數(shù)據(jù)發(fā)生變化后,再加載到數(shù)據(jù)倉庫時會形成新的數(shù)據(jù)條目,以此可以追溯數(shù)據(jù)的變化。但是考慮到數(shù)據(jù)本身的重要程度遠遠大于數(shù)據(jù)修改的代價,因此在本單位的數(shù)據(jù)倉庫設(shè)計中主要考慮了數(shù)據(jù)存儲和少量的數(shù)據(jù)更改。

2.2.1 數(shù)據(jù)存儲

數(shù)據(jù)存儲主要考慮業(yè)務(wù)的數(shù)據(jù)模式,根據(jù)業(yè)務(wù)的數(shù)據(jù)要求確定數(shù)據(jù)模型,一般建議使用星型模型,即將采集的數(shù)據(jù)經(jīng)過預(yù)處理存入事實表,少量關(guān)鍵信息處理為維表[4]。在信息檢索時可以很方便地對事實表進行操作,不必進行大量的join操作,能夠明顯地提升檢索效率。同時星型模型的事實表可讀性比較好,不用關(guān)聯(lián)多個表就能獲取大部分核心信息,設(shè)計維護都相對簡單。如數(shù)據(jù)是基于時間維度產(chǎn)生的,就可以將時間信息從數(shù)據(jù)表中剝離,并以時間信息為維表構(gòu)建數(shù)據(jù)存儲模型,將其余信息存入事實表,通過這種存儲方式可以很清晰地對各個歷史時間段內(nèi)某個主題的數(shù)據(jù)進行獲取利用。

2.2.2 數(shù)據(jù)更改

數(shù)據(jù)倉庫中的數(shù)據(jù)是從各系統(tǒng)抽取而來的,原則上并不能修改,而且數(shù)據(jù)倉庫的技術(shù)本身也未提供修改的方法,但是考慮到有些集成的數(shù)據(jù)是通過人工錄入得到的,雖然考慮了數(shù)據(jù)需要經(jīng)過審批才能被生效,但是并不能確保數(shù)據(jù)100%準確無誤。而錯誤的數(shù)據(jù)存儲進數(shù)據(jù)倉庫后很可能會對分析計算產(chǎn)生不良的影響,降低分析結(jié)果的準確率,因此需要確保數(shù)據(jù)可以被更改,可以通過維表將需要修改的數(shù)據(jù)分區(qū)進行刪除并重新創(chuàng)建達到數(shù)據(jù)更改的目的。

2.3 分析結(jié)果數(shù)據(jù)存儲層

分析結(jié)果數(shù)據(jù)存儲層主要是將經(jīng)過各種算法加工的數(shù)據(jù)與視覺編碼進行映射后進行存儲,這類結(jié)果數(shù)據(jù)一般有訪問頻率高和獲取速度快兩大使用特點,因此分析結(jié)果數(shù)據(jù)一般存入聯(lián)機事務(wù)處理數(shù)據(jù)庫中,以提高需要經(jīng)常訪問的數(shù)據(jù)的效率。數(shù)據(jù)庫的選用和設(shè)計完全根據(jù)業(yè)務(wù)需求而定,如經(jīng)過聯(lián)機分析計算后的數(shù)據(jù)主要被拿來作圖表的呈現(xiàn)和報表的生成,則可以選用關(guān)系型數(shù)據(jù)庫存儲結(jié)果數(shù)據(jù);若分析后的數(shù)據(jù)仍然是比較離散的,引用數(shù)據(jù)者對離散數(shù)據(jù)還需要進行二次加工和分析,則可以選用非關(guān)系型數(shù)據(jù)庫存儲結(jié)果數(shù)據(jù)。為了滿足數(shù)據(jù)對應(yīng)用訪問的要求,分析結(jié)果數(shù)據(jù)存儲層一般采用關(guān)系型和非關(guān)系型數(shù)據(jù)庫聯(lián)合構(gòu)建的方式,可以滿足企業(yè)內(nèi)部數(shù)據(jù)安全、高效使用的要求。

2.3.1 數(shù)據(jù)安全

數(shù)據(jù)經(jīng)過分析處理后存儲到分析結(jié)果數(shù)據(jù)庫中,將數(shù)據(jù)倉庫和用戶隔離開。用戶訪問需要的數(shù)據(jù)時只能訪問分析結(jié)果,不能直接去訪問數(shù)據(jù)倉庫,避免了用戶直接連接數(shù)據(jù)倉庫,保證數(shù)據(jù)倉庫中的數(shù)據(jù)無法直接訪問,減少人為修改的可能。同時也可以降低用戶對數(shù)據(jù)的訪問范圍,對數(shù)據(jù)的使用無須訪問多個主題中的數(shù)據(jù),僅得到結(jié)果即可。

2.3.2 高效查詢

數(shù)據(jù)倉庫本身數(shù)據(jù)量大,且被設(shè)計為給聯(lián)機分析處理提供數(shù)據(jù)支撐,不適合直接作為查詢的源端使用,在獲取數(shù)據(jù)的基礎(chǔ)上還要再進一步分析計算,最短的時間也在5s以上,這對于使用頁面訪問數(shù)據(jù)來說是無法接受的,因此需要將計算后的數(shù)據(jù)存儲在可以高效查詢的數(shù)據(jù)庫中,以提高數(shù)據(jù)的訪問和使用效率。

2.3.3 應(yīng)用解耦

數(shù)據(jù)經(jīng)過分析計算后將結(jié)果數(shù)據(jù)存入分析結(jié)果數(shù)據(jù)庫中,再將分析結(jié)果取出提供給其他應(yīng)用使用。通過將各應(yīng)用與數(shù)據(jù)倉庫解耦的方式,一方面減少了應(yīng)用高頻率且重復性強的訪問數(shù)據(jù)倉庫,減輕數(shù)據(jù)倉庫的壓力,另一方面當數(shù)據(jù)倉庫設(shè)計發(fā)生改變時,應(yīng)用層仍然可以使用原方式使用數(shù)據(jù)。

3 結(jié)論

目前,大數(shù)據(jù)思想已經(jīng)深入企業(yè)中,企業(yè)在管理和研發(fā)過程中均在探索大數(shù)據(jù)與實際業(yè)務(wù)的結(jié)合,通過數(shù)據(jù)存儲的三層設(shè)計有效地解決了企業(yè)內(nèi)部對于大數(shù)據(jù)的存儲和利用問題,為企業(yè)更好地利用大數(shù)據(jù)技術(shù)提供了新的思路和解決方法。

猜你喜歡
數(shù)據(jù)倉庫數(shù)據(jù)量數(shù)據(jù)庫
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
麻城市| 莫力| 灵璧县| 崇州市| 奉新县| 英吉沙县| 壤塘县| 衡山县| 滦南县| 防城港市| 新疆| 中牟县| 瓮安县| 山东省| 保靖县| 耒阳市| 巨野县| 淮北市| 瑞安市| 伊金霍洛旗| 德兴市| 汶川县| 蒙山县| 浦城县| 清原| 青川县| 磐安县| 陇川县| 新乡市| 湄潭县| 盖州市| 大悟县| 肃南| 遵义县| 洮南市| 江北区| 闻喜县| 台安县| 铁岭市| 肇东市| 常宁市|