Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)研究

2021-11-07 10:32:17劉建斌王明乾

科技信息·學(xué)術(shù)版 2021年22期

劉建斌王明乾

摘要：隨著移動信息技術(shù)不斷得到發(fā)展，傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)已經(jīng)無法應(yīng)對海量數(shù)據(jù)信息的沖擊。在此背景下，Hadoop技術(shù)因?yàn)槠溟_源免費(fèi)的特點(diǎn)，能夠在構(gòu)建科研大數(shù)據(jù)存儲系統(tǒng)節(jié)省不少經(jīng)費(fèi)開支同時(shí)，還能為科研大數(shù)據(jù)存儲系統(tǒng)提供較強(qiáng)的存儲可靠性?；诖?，本文通過分析Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)的需求，為Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)提供設(shè)計(jì)理念和思路。

關(guān)鍵詞：Hadoop技術(shù);科研大數(shù)據(jù);存儲系統(tǒng)

Hadoop最早是由Apache基金會所發(fā)布的一款分布式系統(tǒng)基礎(chǔ)架構(gòu)。借助Hadoop技術(shù)，可以使用戶在完全不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序，并利用其中的集群功能進(jìn)行高速運(yùn)算和存儲。此外，Hadoop還具有可靠性高、擴(kuò)展性強(qiáng)、容錯(cuò)率大等顯著特點(diǎn)，將其應(yīng)用于科研大數(shù)據(jù)存儲系統(tǒng)的設(shè)計(jì)構(gòu)造中，能夠滿足現(xiàn)代社會日益擴(kuò)大的海量存儲需求[1]。因此，在Hadoop技術(shù)下對科研大數(shù)據(jù)存儲系統(tǒng)展開研究，具有與時(shí)俱進(jìn)的現(xiàn)實(shí)意義。

1Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)的需求

1.1海量存儲需求

當(dāng)前階段，隨著數(shù)據(jù)量逐漸由TB、PB朝著EB的量級方向發(fā)展，傳統(tǒng)的存儲系統(tǒng)已經(jīng)無法快速處理海量的存儲需求。因此，在Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)，首先要具備處理海量數(shù)據(jù)信息，并根據(jù)大數(shù)據(jù)采集信息，對信息做出分析、決策的能力[2]。其次，面對用戶的數(shù)據(jù)存儲需求，科研大數(shù)據(jù)存儲系統(tǒng)需要具備數(shù)據(jù)的快速存儲、查詢、讀取、傳輸?shù)哪芰ΑＷ詈?，科研大?shù)據(jù)存儲系統(tǒng)通常具有多種結(jié)構(gòu)類型或數(shù)據(jù)源，導(dǎo)致其存儲方式主要以半結(jié)構(gòu)化存儲為主。因此，為了滿足這一需求，基于Hadoop技術(shù)的科研大數(shù)據(jù)存儲系統(tǒng)還要具備存儲格式、存儲介質(zhì)并存的能力。

1.2安全性需求

隨著互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)的安全性問題被不斷提及。因此，確保系統(tǒng)擁有足夠的安全性，將成為Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)研究的重點(diǎn)。首先，科研大數(shù)據(jù)存儲系統(tǒng)應(yīng)該確保數(shù)據(jù)時(shí)刻處于完整狀態(tài)，并確保數(shù)據(jù)不會被截獲、接聽、丟失或破壞。同時(shí)，還應(yīng)借助監(jiān)控功能為系統(tǒng)中的大數(shù)據(jù)傳輸提供安全保障。其次，對科研大數(shù)據(jù)存儲系統(tǒng)的用戶權(quán)限加以限制，以防止用戶通過獲取超級權(quán)限侵犯數(shù)據(jù)庫安全。再次，科研大數(shù)據(jù)存儲系統(tǒng)要想順利運(yùn)行，需要依托互聯(lián)網(wǎng)。因此，需要確?？蒲写髷?shù)據(jù)存儲系統(tǒng)運(yùn)行的互聯(lián)網(wǎng)絡(luò)，并通過檢查運(yùn)行日志的方式，確保其安全性。最后，為了確保大數(shù)據(jù)存儲的安全性和準(zhǔn)確性，快速備份功能十分重要。另外，為了不讓數(shù)據(jù)過于冗余，還需要對數(shù)據(jù)庫中的過期信息進(jìn)行及時(shí)清理，從而為新數(shù)據(jù)騰出空間。

1.3可靠性需求

對于Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)，除了安全性外，最重要的就是系統(tǒng)的可靠性。首先，傳統(tǒng)的存儲系統(tǒng)在數(shù)據(jù)備份時(shí)，通常使用將數(shù)據(jù)強(qiáng)行寫入磁盤的方式進(jìn)行。這種方式雖然能夠提升系統(tǒng)的準(zhǔn)確性，但是在使用成本以及效率方面，和Hadoop技術(shù)相比均處于劣勢。其次，傳統(tǒng)的存儲系統(tǒng)主要基于SAN和NAS網(wǎng)絡(luò)運(yùn)行。身處這兩種網(wǎng)絡(luò)中，其網(wǎng)絡(luò)帶寬將明顯小于大數(shù)據(jù)傳輸?shù)乃俾?，從而延緩大?shù)據(jù)傳輸?shù)男堋６贖adoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)，則能夠借助直連式存儲（DAS）大幅度降低網(wǎng)絡(luò)帶寬延遲，從而提升系統(tǒng)的可靠性。再次，為了在確保大數(shù)據(jù)運(yùn)行效率的同時(shí)，降低系統(tǒng)運(yùn)行成本，Hadoop技術(shù)是當(dāng)前階段的最好選擇。最后，科研大數(shù)據(jù)存儲系統(tǒng)通常要面對多用戶登陸使用的情況，因此科研大數(shù)據(jù)存儲系統(tǒng)還應(yīng)該具備在多用戶訪問情況，大數(shù)據(jù)傳輸穩(wěn)定、可靠的能力。

2Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)

2.1文件系統(tǒng)設(shè)計(jì)

在文件系統(tǒng)設(shè)計(jì)中，通常以節(jié)點(diǎn)作為數(shù)據(jù)的劃分點(diǎn)，并分為數(shù)據(jù)節(jié)點(diǎn)和非數(shù)據(jù)節(jié)點(diǎn)兩種。其中，數(shù)據(jù)節(jié)點(diǎn)包括DateNode節(jié)點(diǎn)，非數(shù)據(jù)節(jié)點(diǎn)包括Master節(jié)點(diǎn)。在Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)中，DateNode節(jié)點(diǎn)的作用在于讓系統(tǒng)保持正常運(yùn)行。而Master節(jié)點(diǎn)的作用在于能夠?yàn)檎麄€(gè)系統(tǒng)狀態(tài)提供監(jiān)控。

2.2文件塊存儲策略

在文件塊存儲過程中，文件塊的主副本有且只有一個(gè)。簡單而言，在科研大數(shù)據(jù)存儲過程中，文件塊的更新完全由主副本進(jìn)行控制。因此，可以基于Hadoop技術(shù)設(shè)計(jì)控制信息快。首先，主副本節(jié)點(diǎn)編號。在節(jié)點(diǎn)添加過程中，可以借助Hadoop技術(shù)中的Master節(jié)點(diǎn)得出節(jié)點(diǎn)編號。其次，副本數(shù)量。副本數(shù)量包含主副本和其他副本。通過查詢，如果結(jié)果顯示為1，則沒有其他副本。如果結(jié)果顯示為0，則沒有此文件塊。最后，副本節(jié)點(diǎn)編號列表。通過保存節(jié)點(diǎn)編號的方式，對編號地址進(jìn)行訪問?；诖?，科研大數(shù)據(jù)存儲系統(tǒng)先通過Master節(jié)點(diǎn)為用戶生成快照，然后借助快照創(chuàng)建文件塊。

2.3科研資源網(wǎng)架構(gòu)

為了方便用戶隨時(shí)查詢、檢索、使用科研資源網(wǎng)，需要通過Hadoop技術(shù)重新設(shè)計(jì)科研資源網(wǎng)架構(gòu)。一方面，通過向云計(jì)算服務(wù)商發(fā)送申請，然后借由云存儲中的NameNode找尋Block中的ID，然后憑借該ID獲取所需的數(shù)據(jù)信息。在此過程中，為了有效節(jié)約服務(wù)器的存儲空間，將由系統(tǒng)管理員決定是否對發(fā)送過的數(shù)據(jù)進(jìn)行刪除。另一方面，當(dāng)NameNode將數(shù)據(jù)發(fā)送至云計(jì)算服務(wù)商DataNoe時(shí)，數(shù)據(jù)將在映像文件中保存，并通過Sceondary、NameNode等對數(shù)據(jù)進(jìn)行備份。

結(jié)語

Hadoop技術(shù)作為一種面向海量數(shù)據(jù)信息的分布式系統(tǒng)，能夠有效應(yīng)對TB量級以上的數(shù)據(jù)量。因此，將Hadoop技術(shù)應(yīng)用于科研大數(shù)據(jù)存儲系統(tǒng)中，并通過文件系統(tǒng)設(shè)計(jì)、文件塊存儲策略、科研資源網(wǎng)架構(gòu)、數(shù)據(jù)庫訪問層構(gòu)建四個(gè)方面的設(shè)計(jì)，充分發(fā)揮Hadoop技術(shù)的效能，從而為科研大數(shù)據(jù)存儲系統(tǒng)的建立奠定技術(shù)基礎(chǔ)。

參考文獻(xiàn)

[1]李特，楊萌.基于Hadoop技術(shù)的科研大數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)[J].信息與電腦（理論版），2021，33（16）：114-116.

[2]謝翌.基于Hadoop架構(gòu)的高校科研數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù)，2021，44（11）：182-186.

第一作者簡介：劉建斌（1990年5月），男，漢族，籍貫：山西省忻州市人，學(xué)歷：碩士，職稱：助教，研究方向：數(shù)據(jù)存儲技術(shù)。

第二作者簡介：王明乾（1989年12月），男，漢族，籍貫：河北清河，學(xué)歷：碩士，職稱：助教，研究方向：云計(jì)算。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)研究