国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)分析的分布式MOLAP技術(shù)要點

2018-02-02 18:07劉磊
電腦知識與技術(shù) 2018年1期
關(guān)鍵詞:分布式大數(shù)據(jù)

劉磊

摘要:實際工作中需要使用大數(shù)據(jù)技術(shù),但是由于其帶有規(guī)模效應(yīng),不利于數(shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)存儲等工作。為了確保工作質(zhì)量,相關(guān)技術(shù)人員通過研究和試驗,發(fā)現(xiàn)使用分布式文件系統(tǒng)優(yōu)勢明顯,應(yīng)用MapReduce編程模型可以解決上述問題。具體而言,使用MOLAP技術(shù)之后,利用多維模型進行維度的映射,同時使用線性化算法將測量到的維度等數(shù)據(jù)存儲到分布式文件中。該文對在大數(shù)據(jù)背景下分布式MOLAP技術(shù)要點進行分析,希望給有關(guān)人士一些借鑒。

關(guān)鍵詞:大數(shù)據(jù);分布式;MOLAP技術(shù)

中圖分類號:TP3 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)01-0009-02

Abstract: In practical work, large data technology is needed, but because of its scale effect, it is not conducive to data analysis, data management, data storage and so on. In order to ensure the quality of work, the relevant technical personnel through research and experiment, found that the use of distributed file system has obvious advantages, the application of MapReduce programming model can solve these problems. Specifically, after using MOLAP technology, the multi-dimensional model is used to map the dimensions, and the linear algorithm is used to store the measured dimensions and other data into the distributed file. Below on the background of big data distributed MOLAP technology analysis, hoping to draw some reference for the relevant people.

Key words: Big data; distributed; MOLAP Technology

對于MOLAP技術(shù)也稱之為DOLAP,其使用了多維數(shù)據(jù)模型,包括維和和事實兩個部分,具體操作中必須要找到維和與事實之間的映射關(guān)系。DOLAP使用了星象模式,同時使用了關(guān)系數(shù)據(jù)庫,將事實數(shù)據(jù)和維信息都存儲到數(shù)據(jù)庫表中。通過外鍵操作做好對事實數(shù)據(jù)的映射、維信息的映射等。

1 分析維編碼算法和維的遍歷算法

1.1 對維編碼算法進行深度分析

技術(shù)人員都清楚,實際工作中應(yīng)用OLAP技術(shù)進行操作時,需要對維進行頻繁的操作,由此可見,實際運行中遍歷算法和維編碼是非常關(guān)鍵的技術(shù)。下面就深入對兩種技術(shù)進行分析,希望相關(guān)人員掌握要領(lǐng)。對于維編碼的方法而言,主要包括兩種,分別是十進制編碼和二進制編碼。對于二進制編碼而言,內(nèi)部也將其稱之為位圖編碼,操作中對相關(guān)編碼進行拼接,進而得到維的級別信息,除此之外,還可以結(jié)合編碼位移做到對維的遍歷,達到最終的技術(shù)效果。但是實際使用二進制編碼過程中,很容易導(dǎo)致稀疏問題。對于實際運用的十進制編碼而言,具體運行操作過程中,系統(tǒng)會對所有級別的維值都使用十進制數(shù)進行編碼,雖然可以達到相關(guān)目的,但是也存在一定的問題,其不能直接得到維值和編碼,同時也不能得到相應(yīng)的映射。在大數(shù)據(jù)背景下運行,為了有效避免出現(xiàn)稀疏等問題,在DOLAP技術(shù)當(dāng)中進行了處理,其應(yīng)用十進制進行編碼,在此基礎(chǔ)上,還開創(chuàng)了一種維的遍歷算法,通過這一算法對維值、編碼間的映射進行計算。具體而言,設(shè)l是維d中的某個維級別,對x∈[1,|md(l)|],vx∈md(l),vx的編碼為code(vx),那么就有code(vx)=x1.[1],具體的算法如下:

維編碼算法.Input: Dimension d: A target dimension;

Function: DimensionCoding.

1. FOR i=1 TO |L(d)|;

2. FOR j=0 TO |md(li)|?1;

3. Dimension value of vi,j∈md(li)

4. Vi

5. j.code=j;

5. END FOR

6. END FOR

在現(xiàn)實環(huán)境中大多數(shù)維屬于數(shù)值型,例如其流水號、價格、經(jīng)度、高度等,可以結(jié)合其值域進行劃分,由此可見,對于數(shù)值的維可以很容易滿足約束條件,但是還有非數(shù)值的維,包括部門、城市、日期等,根據(jù)這一情況,實際操作時可以使用空值填補維值數(shù),在同一節(jié)點上包含相同數(shù)目的子節(jié)點,相關(guān)人員可以參考日期維編碼結(jié)果。一般在月級別上每個月的天數(shù)都是不同的,但是為了滿足在這一技術(shù)系統(tǒng)中的相關(guān)定義,就要設(shè)定每月都是31天,針對這一情況,實際操作時一般技術(shù)人員會在2月插入29日,或者插入30日和31日。維在實際應(yīng)用中會變得更加復(fù)雜,為了提高工作效率,要將其進行簡化,維層次的劃分方法有很多,包括維值數(shù)法,但是必須滿足定義條件。具體處理時可以選用取舍和合并的方法,將TCP-H的雪花模式進行化簡,將其變?yōu)樾切湍J剑玫降慕Y(jié)果可以是SSB數(shù)據(jù)集中的維模式。對于SUPPLIER維表而言,可以選用區(qū)域?qū)傩裕∟ation,Region,City)作為劃分維層次的重要依據(jù),最終會得到維層次Nation-Region-City。除此之外,可以在維Nation-Region-City維值樹中添加空值,這樣就滿足相關(guān)定義,符合其約束條件[2]。endprint

1.2 分析維的遍歷算法

對于DOLAP的維技術(shù)人員可以將其視為單根樹,記作Td,但是要記住ALL是Td的根節(jié)點,可以記做第0級別,對每個級別中的維值視為節(jié)點。對于其中每個兄弟節(jié)點而言,都有其相同數(shù)目的子節(jié)點。具體進行OLAP操作時,需要對維值樹Td進行遍歷操作,而且操作頻率較高,工作量比較大。例如要沿著Td下降,或者沿著Td攀升,設(shè)其有關(guān)系i∈[1,m1],li+1dli,然后就有l(wèi)i+1→li,技術(shù)人員要清楚,其中的(vi+1)=vi是比較重要的一個操作內(nèi)容,利用制定的編碼機制,可以表示為vi∈md(li),vi+1∈md(li+1),這樣就會得到vi與vi+1二者上卷之間的關(guān)系ρd。這種上卷關(guān)系,我們可以通過編碼運算實現(xiàn)Td中的上卷操作[3]。

2 分析數(shù)據(jù)的存儲

對于傳統(tǒng)的DOLAP技術(shù)而言,進行數(shù)據(jù)立方存儲成本比較高,而且操作復(fù)雜,尤其對高維數(shù)據(jù)立方進行存儲,或者對維包進行存儲,其里面含有大量的維值,其存儲成本就更大。在傳統(tǒng)技術(shù)當(dāng)中,利用訪問過程中的多維數(shù)組提高OLAP的操作,但是在大數(shù)據(jù)環(huán)境下這一操作非常難實現(xiàn),其多維組是利用計算機得到的,沒有必要進行存儲,由此可見,其使用數(shù)據(jù)立方進行存儲代價非常小。DOLAP技術(shù)可以對維進行簡化,確保在同一級別上維的編碼時連續(xù)十進制數(shù),在此基礎(chǔ)上,每一個兄弟節(jié)點都有一個相同的子節(jié)點,針對這一情況可以得知,每個維信息只需要維級別的信息進行存儲,降低了存儲的代價。技術(shù)人員可以設(shè)維d由m個維級別組成[4],直接記作{li|i∈[1,m]},這樣就有d,其存儲可以表示這一維級別和維級別規(guī)模的序偶所組成的集合,記做{li,|li||i∈[1,m]},在這一公式中l(wèi)i表示這一維級別的名稱,由此可見,在這方面使用DOLAP技術(shù)之后,工作人員就可以使用XML文件進行信息的存儲,同時將其保存到集群主節(jié)點中。

3 對OLAP算法進行深入分析

通過對OLAP算法和MapReduce進行分析,發(fā)現(xiàn)其建立了不同視圖,在使用OLAP算法時[5],可以將其抽象為四元組進行表示,分別是Target,Range,Aggregation,Result,其中,Target代表待分析的數(shù)據(jù)立方(元數(shù)據(jù));Range代表立方中待分析數(shù)據(jù)的數(shù)據(jù)范圍。Aggregation指的是聚集函數(shù),例如mean、sum、maximum、minimum。其中的Result表示元數(shù)據(jù),如果Target最高值比Result的最高維級別低時,就表示已經(jīng)完成了上卷操作,無論輸入還是輸出都是數(shù)據(jù)立方。技術(shù)人員要清楚,經(jīng)過查詢之后會生成新的立方,由此可見,Result、Target二者的維度可能有所不同。一般都使用維度進行度量的查詢,對于OLAP算法而言,在操作查詢中也是由維度構(gòu)成的,Range屬于一個多維二元組,準(zhǔn)確指出了Target需要分析數(shù)據(jù)的范圍。該算法和傳統(tǒng)的MapReduce進行對比,可以使用比較特殊的多維模型對度量、維和等進行組織。存儲代價比較小。因此在實踐中得到了普及,一線人員也非常青睞這一方法。

4 總結(jié)

通過以上對大數(shù)據(jù)下DOLAP技術(shù)的分析,發(fā)現(xiàn)這一技術(shù)主要包含以下四方面的內(nèi)容,第一點,該技術(shù)可以使用比較特殊的多維模型對度量、維和等進行組織。第二點,通過對維編碼、遍歷算法的分析,可以做到對維值樹上的上卷下鉆操作。第三點,傳統(tǒng)維的存儲方式比較復(fù)雜,代價較大,為了提高工作效率,對存儲方法進行了簡化,并做到維和度量的映射關(guān)系。第四點,技術(shù)人員通過深入研究,最終提出了一種OLA算法,將這一算法和HaoLap進行對比,發(fā)現(xiàn)后者在數(shù)據(jù)裝載方面沒有優(yōu)勢,OLA算法的優(yōu)勢非常明顯,在此基礎(chǔ)上對這一算法的特點進行總結(jié),希望為以后的發(fā)展奠定基礎(chǔ)。

參考文獻:

[1] 宋杰, 郭朝鵬, 王智,等. 大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J]. 軟件學(xué)報, 2014, 25(4).

[2] 姜博. 大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J]. 通訊世界, 2015(24).

[3] 熊寧. 大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J]. 信息技術(shù)與信息化, 2015(2).

[4] 周青. 大數(shù)據(jù)分析在智能變電站狀態(tài)監(jiān)測系統(tǒng)中的應(yīng)用研究[D]. 華北電力大學(xué), 2016.

[5] 蔣外文, 熊東平, 張肖霞. 基于多維數(shù)據(jù)庫的MOLAP存儲及查詢技術(shù)研究[J]. 計算機工程與應(yīng)用, 2005, 33(24).endprint

猜你喜歡
分布式大數(shù)據(jù)
基于預(yù)處理MUSIC算法的分布式陣列DOA估計
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
西門子 分布式I/O Simatic ET 200AL
家庭分布式儲能的發(fā)展前景
五河县| 康平县| 房山区| 手游| 龙川县| 滦平县| 泾源县| 苏尼特右旗| 调兵山市| 乐陵市| 云阳县| 商都县| 七台河市| 临高县| 水城县| 修文县| 金阳县| 黄平县| 株洲市| 嵊泗县| 临漳县| 永平县| 西林县| 蒙阴县| 曲周县| 广饶县| 历史| 开化县| 永寿县| 蒙城县| 龙门县| 彩票| 磐石市| 泰和县| 新宾| 大名县| 北宁市| 徐汇区| 兴隆县| 普格县| 沈阳市|