国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)湖

2017-03-06 16:43郭文惠
電腦知識(shí)與技術(shù) 2016年30期
關(guān)鍵詞:池中原始數(shù)據(jù)文本

郭文惠

摘要:“數(shù)據(jù)湖”是通過(guò)將原始數(shù)據(jù)分類存儲(chǔ)到不同數(shù)據(jù)池,并在各數(shù)據(jù)池里將數(shù)據(jù)整合轉(zhuǎn)化成容易分析的統(tǒng)一存儲(chǔ)格式進(jìn)行存儲(chǔ),以方便用戶對(duì)大量原始數(shù)據(jù)池中原本幾近廢棄的數(shù)據(jù)加以分析利用,從而產(chǎn)生經(jīng)濟(jì)效益。該文首先介紹了數(shù)據(jù)湖的結(jié)構(gòu),其次介紹了數(shù)據(jù)湖中各數(shù)據(jù)池的特點(diǎn)及應(yīng)用;最后介紹了各數(shù)據(jù)池之間的聯(lián)系并舉例說(shuō)明了數(shù)據(jù)湖的架構(gòu)。

關(guān)鍵詞:數(shù)據(jù)湖;數(shù)據(jù)池

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)30-0004-03

隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,數(shù)據(jù)量日益增多,因而大數(shù)據(jù)管理[3]也是大數(shù)據(jù)發(fā)展中的一大挑戰(zhàn)。數(shù)據(jù)池可存儲(chǔ)大量不同來(lái)源、格式各異的數(shù)據(jù)的存儲(chǔ)空間,而數(shù)據(jù)湖[1,2,5]則是包含多個(gè)數(shù)據(jù)池的存儲(chǔ)空間,而且每個(gè)數(shù)據(jù)池中的數(shù)據(jù)都是來(lái)源相同并在池內(nèi)進(jìn)行整合形成格式統(tǒng)一的數(shù)據(jù)。目前使用的數(shù)據(jù)湖大多都是單向的,即這些數(shù)據(jù)湖的功能只是存儲(chǔ)大量廢棄數(shù)據(jù),因未對(duì)其中數(shù)據(jù)進(jìn)行分類、整合[3,4],故無(wú)法將這些數(shù)據(jù)提取并加以利用。原因有如下三點(diǎn):一是這些廢棄數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)湖中時(shí)沒(méi)有對(duì)其進(jìn)行類別標(biāo)記;二是存儲(chǔ)時(shí)沒(méi)有對(duì)同類數(shù)據(jù)進(jìn)行整合;三是數(shù)據(jù)存儲(chǔ)為文本方式,給數(shù)據(jù)分析帶來(lái)困難。

為使得數(shù)據(jù)湖不再是“數(shù)據(jù)沼澤[6]”,本文將介紹一種雙向數(shù)據(jù)湖,即既可存儲(chǔ)數(shù)據(jù)又可對(duì)數(shù)據(jù)湖中的數(shù)據(jù)加以分析和使用,方法是將單向數(shù)據(jù)湖分割為五個(gè)不同類型的數(shù)據(jù)池,包括原始數(shù)據(jù)池、模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池、文本數(shù)據(jù)池和檔案數(shù)據(jù)池,分別用來(lái)存儲(chǔ)不同類型的數(shù)據(jù)并對(duì)它們之間建立聯(lián)系來(lái)共享信息。用戶可大量提取數(shù)據(jù)湖中的數(shù)據(jù),找出數(shù)據(jù)間的聯(lián)系,進(jìn)而用于特定的商業(yè)分析。

1 數(shù)據(jù)池

數(shù)據(jù)池是用來(lái)存放數(shù)據(jù)的,一個(gè)數(shù)據(jù)池中一般包含如下幾種數(shù)據(jù):

目標(biāo)數(shù)據(jù):數(shù)據(jù)池內(nèi)存儲(chǔ)的真正能對(duì)其加以分析使用的數(shù)據(jù)。

池元數(shù)據(jù):是描述池內(nèi)數(shù)據(jù)物理特性的數(shù)據(jù),如:數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)和數(shù)據(jù)池的組成等。

元處理過(guò)程:是說(shuō)明將數(shù)據(jù)池內(nèi)的原始數(shù)據(jù)轉(zhuǎn)化為可用的標(biāo)準(zhǔn)化數(shù)據(jù)的步驟的文件。

數(shù)據(jù)轉(zhuǎn)化標(biāo)準(zhǔn):是說(shuō)明轉(zhuǎn)化原始數(shù)據(jù)時(shí)應(yīng)遵循的標(biāo)準(zhǔn)的文件。

池描述:池描述包含對(duì)數(shù)據(jù)池的外部描述和內(nèi)部描述。外部描述包括數(shù)據(jù)池的功能、大小等。內(nèi)部描述包括數(shù)據(jù)池內(nèi)數(shù)據(jù)的來(lái)源、體積、更新頻率、提取、轉(zhuǎn)化及其標(biāo)準(zhǔn)以及數(shù)據(jù)之間的聯(lián)系等。

池目標(biāo):池目標(biāo)是說(shuō)明池內(nèi)的數(shù)據(jù)未來(lái)可能要用于什么樣的商業(yè)活動(dòng),是將數(shù)據(jù)標(biāo)準(zhǔn)化的依據(jù)。

1.1原始數(shù)據(jù)池

原始數(shù)據(jù)池是一種單一數(shù)據(jù)湖。它僅僅是存儲(chǔ)大量原始數(shù)據(jù),不對(duì)其進(jìn)行任何處理,但難以從中提取出想要的數(shù)據(jù)并使用它。

原始數(shù)據(jù)池中的數(shù)據(jù)需要進(jìn)行分類存儲(chǔ),這樣可方便用戶提取所需數(shù)據(jù)。故需構(gòu)建模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池和文本數(shù)據(jù)池。

1.2 模擬數(shù)據(jù)池

模擬數(shù)據(jù)池是專門用來(lái)存放模擬數(shù)據(jù)的數(shù)據(jù)池,將模擬數(shù)據(jù)從原始數(shù)據(jù)池提取到模擬數(shù)據(jù)池中,并將提取到的數(shù)據(jù)轉(zhuǎn)化成統(tǒng)一并易于用戶使用的格式。

模擬數(shù)據(jù)是由機(jī)械設(shè)備產(chǎn)生的數(shù)據(jù),一般為測(cè)量數(shù)據(jù),如溫度、濕度、重量等,通常存儲(chǔ)在記錄磁帶或日志磁帶中。而這類數(shù)據(jù)通常存在兩大問(wèn)題。第一,數(shù)據(jù)量龐大;第二,會(huì)丟失一些參數(shù),不利于數(shù)據(jù)分析。因此需要將模擬數(shù)據(jù)池中的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,以便加以利用。

1.2.1 模擬數(shù)據(jù)池中數(shù)據(jù)的轉(zhuǎn)化

一般對(duì)模擬數(shù)據(jù)池中數(shù)據(jù)進(jìn)行簡(jiǎn)化,只保留真正有用的記錄,以減少存儲(chǔ)空間。常用方法如下:刪除重復(fù)數(shù)據(jù)、數(shù)據(jù)壓縮、內(nèi)插、過(guò)濾、抽樣、近似、編碼、分類、設(shè)閾值等。通過(guò)以上方法減少數(shù)據(jù)種類,最后整合[3,4]分類存儲(chǔ)于模擬數(shù)據(jù)池中以待后續(xù)使用。

1.3 應(yīng)用數(shù)據(jù)池

應(yīng)用數(shù)據(jù)是執(zhí)行一個(gè)應(yīng)用或事務(wù)時(shí)產(chǎn)生的數(shù)據(jù),如銷售數(shù)據(jù)、支付數(shù)據(jù)、制造過(guò)程控制數(shù)據(jù)、貨物裝運(yùn)數(shù)據(jù)、庫(kù)存管理數(shù)據(jù)等。應(yīng)用數(shù)據(jù)池是專門用來(lái)存放應(yīng)用數(shù)據(jù)的,是以標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的數(shù)據(jù)格式存入應(yīng)用數(shù)據(jù)池中。所有應(yīng)用數(shù)據(jù)池里的記錄都要進(jìn)行數(shù)據(jù)集成[7],以使公司業(yè)務(wù)領(lǐng)域統(tǒng)一,集成[5]過(guò)程與模擬數(shù)據(jù)池中的數(shù)據(jù)轉(zhuǎn)化類似。為了對(duì)應(yīng)用數(shù)據(jù)池里的數(shù)據(jù)進(jìn)行數(shù)據(jù)集成,通常首先需建立數(shù)據(jù)模型,然后據(jù)此模型進(jìn)行數(shù)據(jù)集成。

1.4 文本數(shù)據(jù)池

文本數(shù)據(jù)池是用來(lái)存放文本數(shù)據(jù)的數(shù)據(jù)池,其原始數(shù)據(jù)是一些來(lái)源不同、形式各異的文本數(shù)據(jù),如:郵件、錄音,甚至是一些物理設(shè)備(如光識(shí)別技術(shù))產(chǎn)生的數(shù)據(jù)。類似于其他數(shù)據(jù)池,一旦原始數(shù)據(jù)進(jìn)入文本數(shù)據(jù)池后,在文本數(shù)據(jù)池中就要對(duì)它進(jìn)行標(biāo)準(zhǔn)化即文本消歧。其主要規(guī)則如下:

l 文本由形式各異、結(jié)構(gòu)混亂的狀態(tài)變?yōu)楦袷浇y(tǒng)一、可直接使用的狀態(tài);

l 文本消歧后不得改變文本原來(lái)的含義。

在文本數(shù)據(jù)池中,數(shù)據(jù)可按情感分類進(jìn)行存儲(chǔ),首先在文本數(shù)據(jù)池中預(yù)先設(shè)定不同情感類別,當(dāng)一個(gè)新的文本進(jìn)入數(shù)據(jù)池時(shí),情感通過(guò)機(jī)器學(xué)習(xí)根據(jù)上下文語(yǔ)境確定其情感色彩,然后與數(shù)據(jù)池中的情感類別進(jìn)行比對(duì),找到相應(yīng)類別時(shí),就將之存儲(chǔ)為一類。

1.5 文檔數(shù)據(jù)池

文檔數(shù)據(jù)池主要存儲(chǔ)來(lái)自模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池、文本數(shù)據(jù)池中未來(lái)使用概率較小的數(shù)據(jù)。所有進(jìn)入檔案數(shù)據(jù)池中的數(shù)據(jù)都要重新對(duì)其進(jìn)行標(biāo)準(zhǔn)化操作,使該數(shù)據(jù)直接與原始數(shù)據(jù)聯(lián)系起來(lái),保證當(dāng)用戶日后使用該數(shù)據(jù)的時(shí)候,其元數(shù)據(jù)和元操作過(guò)程都不至丟失。

1.6 各數(shù)據(jù)池之間的聯(lián)系

數(shù)據(jù)湖中各數(shù)據(jù)池是緊密相連的。一個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)湖中首先進(jìn)入原始數(shù)據(jù)池,然后根據(jù)其類別被提取到模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池或文本數(shù)據(jù)池中,在數(shù)據(jù)池中對(duì)其進(jìn)行標(biāo)準(zhǔn)化后再根據(jù)未來(lái)使用概率的大小決定是存儲(chǔ)在本數(shù)據(jù)池中或文本數(shù)據(jù)池中,最后將未來(lái)使用概率較小的數(shù)據(jù)存儲(chǔ)在文檔數(shù)據(jù)池中并重新對(duì)其標(biāo)準(zhǔn)化。

2 數(shù)據(jù)湖的實(shí)現(xiàn)

目前,實(shí)現(xiàn)數(shù)據(jù)湖常用的手段是Hadoop。進(jìn)化后的Hadoop數(shù)據(jù)管理架構(gòu)依托Apache Falcon數(shù)據(jù)管理平臺(tái),將數(shù)據(jù)群與程序,運(yùn)算規(guī)則、顯示器和歷史記錄聯(lián)系到一起,完成數(shù)據(jù)湖的使用目標(biāo)。下面以GE數(shù)據(jù)湖平臺(tái)[1]為例說(shuō)明數(shù)據(jù)湖的實(shí)現(xiàn)。

GE工業(yè)數(shù)據(jù)湖體系將數(shù)據(jù)的管理、運(yùn)算和存儲(chǔ)進(jìn)行預(yù)先規(guī)劃,它將優(yōu)化整個(gè)程序鏈上的信息負(fù)載量。首先,他將優(yōu)化關(guān)鍵任務(wù)工作負(fù)載,為產(chǎn)業(yè)互聯(lián)網(wǎng)應(yīng)用提供信息,以解決服務(wù)等級(jí)協(xié)議(SLA)中的重點(diǎn);其次,它能夠快速的錄入、存儲(chǔ)和計(jì)算各種運(yùn)算數(shù)據(jù)以支持多個(gè)模式和數(shù)據(jù)類型;再次,它可以進(jìn)行高性能數(shù)據(jù)分析;最后,數(shù)據(jù)湖將對(duì)數(shù)據(jù)進(jìn)行管理并形成數(shù)據(jù)連接。表1是GE工業(yè)數(shù)據(jù)湖所使用的Hadoop系統(tǒng)。

3 使用數(shù)據(jù)湖進(jìn)行數(shù)據(jù)分析

問(wèn)題的分析過(guò)程大致分為兩步:搜集數(shù)據(jù)和分析數(shù)據(jù)。

首先,通過(guò)機(jī)器學(xué)習(xí)(Machine Learning)和概念搜索(Concept Search)在數(shù)據(jù)湖中搜集那些標(biāo)準(zhǔn)不清晰的數(shù)據(jù)。查找方法有很多種,比如,首先查找數(shù)據(jù)的限制因素,然后檢查數(shù)據(jù)標(biāo)簽,最后找到大量的數(shù)據(jù)。

其次,由于數(shù)據(jù)湖中的數(shù)據(jù)是以一種統(tǒng)一的、適合一般用戶直接提取用作分析使用的格式存儲(chǔ)的,故當(dāng)用戶搜索到目標(biāo)數(shù)據(jù)時(shí),便可將其直接植入業(yè)務(wù)開(kāi)始對(duì)數(shù)據(jù)進(jìn)行分析。分析方法有如下幾種:1)對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單排序,突出顯示重要數(shù)據(jù);2)匯總數(shù)據(jù),找回丟失的數(shù)據(jù);3)比較數(shù)據(jù);4)去除奇異值;5)數(shù)據(jù)可視化[8,9,10]。

總之,將數(shù)據(jù)進(jìn)行分類存儲(chǔ)于不同數(shù)據(jù)池中,然后將各數(shù)據(jù)池中的數(shù)據(jù)以統(tǒng)一的標(biāo)準(zhǔn)格式進(jìn)行存儲(chǔ),把不可用數(shù)據(jù)變?yōu)榭捎脭?shù)據(jù),帶給用戶極大的搜索便捷和商業(yè)價(jià)值。

4 總結(jié)與展望

數(shù)據(jù)湖實(shí)現(xiàn)了把原始數(shù)據(jù)按類存儲(chǔ)到不同的數(shù)據(jù)池中,并在各數(shù)據(jù)池中將其中數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的可直接提取進(jìn)行分析使用的格式進(jìn)行存儲(chǔ)。它的產(chǎn)生具有極大的商業(yè)價(jià)值。首先它把不同種類的數(shù)據(jù)匯集到了一起。其次它將很多原本無(wú)法用作分析的數(shù)據(jù)變得不需要預(yù)定義的模型就可以提取使用,對(duì)大數(shù)據(jù)分析做出了極大貢獻(xiàn)。然而數(shù)據(jù)湖架構(gòu)也存在這多方面的挑戰(zhàn),其一,數(shù)據(jù)湖中很多數(shù)據(jù)永遠(yuǎn)不會(huì)刪除,所需存儲(chǔ)空間架構(gòu)龐大。其二,信息安全問(wèn)題。數(shù)據(jù)湖架構(gòu)可看作是將所有雞蛋放進(jìn)一個(gè)籃子里,如果其中一個(gè)數(shù)據(jù)池的安全被破壞,那么數(shù)據(jù)湖中所有數(shù)據(jù)將可能被訪問(wèn)。故,我們還需要在數(shù)據(jù)湖的存儲(chǔ)和安全方面作更多工作。

參考文獻(xiàn):

[1] 王一揚(yáng).GE的工業(yè)數(shù)據(jù)湖平臺(tái)[J].新理財(cái),2015:45-46.

[2] Walker,Coral,Personal Data Lake with Data Gravity Pull[C].5th IEEE International Conference on Big Data and Cloud Computing, BDCloud 2015:160-173.

[3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1),146-169.

[4] 白如江,冷伏海.“大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究[J],情報(bào)理論與實(shí)踐(ITA),2014 (37):94-99.

[5] Sun, Dapeng (1). Big data learning resources integration and processing in cloud environments[J]. Journal of Chemical and Pharmaceutical Research,2014,6(5):936-943.

[6] 邱燕娜.數(shù)據(jù)湖不能成為數(shù)據(jù)沼澤[N].中國(guó)計(jì)算機(jī)報(bào),20159(28):011.

[7] 張曉劍.基于數(shù)據(jù)池的異構(gòu)數(shù)據(jù)集成[J].微處理機(jī),2009(2):61-66.

[8] 何清,李寧.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327-336.

[9] 齊紅.基于搜索空間劃分的概念生成算法[J].軟件學(xué)報(bào),2005,16(12):2029-2035.

[10] 張健.與計(jì)算服務(wù)等級(jí)協(xié)議(SLA)研究[J].電信網(wǎng)技術(shù),2012(2):7-10.

[11]丁兆明,杜學(xué)軍,王治平,等.大數(shù)據(jù)存儲(chǔ)和分析技術(shù)應(yīng)用及標(biāo)準(zhǔn)化[J].大數(shù)據(jù)與云計(jì)算標(biāo)準(zhǔn)研究專題,2013(5):31-35.

[12] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考*[J].中國(guó)科學(xué)院院刊.2012.27(6):647-657.

猜你喜歡
池中原始數(shù)據(jù)文本
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
池中景象
在808DA上文本顯示的改善
老伴
基于doc2vec和TF-IDF的相似文本識(shí)別
全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
世界經(jīng)濟(jì)趨勢(shì)
洛川县| 邯郸市| 腾冲县| 聂荣县| 文登市| 大连市| 绥江县| 惠安县| 满城县| 眉山市| 景宁| 武平县| 东明县| 富宁县| 手游| 和林格尔县| 石阡县| 博乐市| 长子县| 本溪市| 紫云| 涪陵区| 南部县| 湖口县| 承德县| 察隅县| 四川省| 恩施市| 灵寿县| 砀山县| 城口县| 历史| 禹城市| 崇信县| 张家界市| 西乌珠穆沁旗| 和田市| 永靖县| 邯郸市| 台南县| 昌宁县|