劉建斌 王明乾
摘要:隨著移動信息技術(shù)不斷得到發(fā)展,傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)已經(jīng)無法應(yīng)對海量數(shù)據(jù)信息的沖擊。在此背景下,Hadoop技術(shù)因?yàn)槠溟_源免費(fèi)的特點(diǎn),能夠在構(gòu)建科研大數(shù)據(jù)存儲系統(tǒng)節(jié)省不少經(jīng)費(fèi)開支同時(shí),還能為科研大數(shù)據(jù)存儲系統(tǒng)提供較強(qiáng)的存儲可靠性?;诖?,本文通過分析Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)的需求,為Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)提供設(shè)計(jì)理念和思路。
關(guān)鍵詞:Hadoop技術(shù);科研大數(shù)據(jù);存儲系統(tǒng)
Hadoop最早是由Apache基金會所發(fā)布的一款分布式系統(tǒng)基礎(chǔ)架構(gòu)。借助Hadoop技術(shù),可以使用戶在完全不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,并利用其中的集群功能進(jìn)行高速運(yùn)算和存儲。此外,Hadoop還具有可靠性高、擴(kuò)展性強(qiáng)、容錯(cuò)率大等顯著特點(diǎn),將其應(yīng)用于科研大數(shù)據(jù)存儲系統(tǒng)的設(shè)計(jì)構(gòu)造中,能夠滿足現(xiàn)代社會日益擴(kuò)大的海量存儲需求[1]。因此,在Hadoop技術(shù)下對科研大數(shù)據(jù)存儲系統(tǒng)展開研究,具有與時(shí)俱進(jìn)的現(xiàn)實(shí)意義。
1Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)的需求
1.1海量存儲需求
當(dāng)前階段,隨著數(shù)據(jù)量逐漸由TB、PB朝著EB的量級方向發(fā)展,傳統(tǒng)的存儲系統(tǒng)已經(jīng)無法快速處理海量的存儲需求。因此,在Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng),首先要具備處理海量數(shù)據(jù)信息,并根據(jù)大數(shù)據(jù)采集信息,對信息做出分析、決策的能力[2]。其次,面對用戶的數(shù)據(jù)存儲需求,科研大數(shù)據(jù)存儲系統(tǒng)需要具備數(shù)據(jù)的快速存儲、查詢、讀取、傳輸?shù)哪芰ΑW詈?,科研大?shù)據(jù)存儲系統(tǒng)通常具有多種結(jié)構(gòu)類型或數(shù)據(jù)源,導(dǎo)致其存儲方式主要以半結(jié)構(gòu)化存儲為主。因此,為了滿足這一需求,基于Hadoop技術(shù)的科研大數(shù)據(jù)存儲系統(tǒng)還要具備存儲格式、存儲介質(zhì)并存的能力。
1.2安全性需求
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的安全性問題被不斷提及。因此,確保系統(tǒng)擁有足夠的安全性,將成為Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)研究的重點(diǎn)。首先,科研大數(shù)據(jù)存儲系統(tǒng)應(yīng)該確保數(shù)據(jù)時(shí)刻處于完整狀態(tài),并確保數(shù)據(jù)不會被截獲、接聽、丟失或破壞。同時(shí),還應(yīng)借助監(jiān)控功能為系統(tǒng)中的大數(shù)據(jù)傳輸提供安全保障。其次,對科研大數(shù)據(jù)存儲系統(tǒng)的用戶權(quán)限加以限制,以防止用戶通過獲取超級權(quán)限侵犯數(shù)據(jù)庫安全。再次,科研大數(shù)據(jù)存儲系統(tǒng)要想順利運(yùn)行,需要依托互聯(lián)網(wǎng)。因此,需要確??蒲写髷?shù)據(jù)存儲系統(tǒng)運(yùn)行的互聯(lián)網(wǎng)絡(luò),并通過檢查運(yùn)行日志的方式,確保其安全性。最后,為了確保大數(shù)據(jù)存儲的安全性和準(zhǔn)確性,快速備份功能十分重要。另外,為了不讓數(shù)據(jù)過于冗余,還需要對數(shù)據(jù)庫中的過期信息進(jìn)行及時(shí)清理,從而為新數(shù)據(jù)騰出空間。
1.3可靠性需求
對于Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng),除了安全性外,最重要的就是系統(tǒng)的可靠性。首先,傳統(tǒng)的存儲系統(tǒng)在數(shù)據(jù)備份時(shí),通常使用將數(shù)據(jù)強(qiáng)行寫入磁盤的方式進(jìn)行。這種方式雖然能夠提升系統(tǒng)的準(zhǔn)確性,但是在使用成本以及效率方面,和Hadoop技術(shù)相比均處于劣勢。其次,傳統(tǒng)的存儲系統(tǒng)主要基于SAN和NAS網(wǎng)絡(luò)運(yùn)行。身處這兩種網(wǎng)絡(luò)中,其網(wǎng)絡(luò)帶寬將明顯小于大數(shù)據(jù)傳輸?shù)乃俾?,從而延緩大?shù)據(jù)傳輸?shù)男堋6贖adoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng),則能夠借助直連式存儲(DAS)大幅度降低網(wǎng)絡(luò)帶寬延遲,從而提升系統(tǒng)的可靠性。再次,為了在確保大數(shù)據(jù)運(yùn)行效率的同時(shí),降低系統(tǒng)運(yùn)行成本,Hadoop技術(shù)是當(dāng)前階段的最好選擇。最后,科研大數(shù)據(jù)存儲系統(tǒng)通常要面對多用戶登陸使用的情況,因此科研大數(shù)據(jù)存儲系統(tǒng)還應(yīng)該具備在多用戶訪問情況,大數(shù)據(jù)傳輸穩(wěn)定、可靠的能力。
2Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)
2.1文件系統(tǒng)設(shè)計(jì)
在文件系統(tǒng)設(shè)計(jì)中,通常以節(jié)點(diǎn)作為數(shù)據(jù)的劃分點(diǎn),并分為數(shù)據(jù)節(jié)點(diǎn)和非數(shù)據(jù)節(jié)點(diǎn)兩種。其中,數(shù)據(jù)節(jié)點(diǎn)包括DateNode節(jié)點(diǎn),非數(shù)據(jù)節(jié)點(diǎn)包括Master節(jié)點(diǎn)。在Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)中,DateNode節(jié)點(diǎn)的作用在于讓系統(tǒng)保持正常運(yùn)行。而Master節(jié)點(diǎn)的作用在于能夠?yàn)檎麄€(gè)系統(tǒng)狀態(tài)提供監(jiān)控。
2.2文件塊存儲策略
在文件塊存儲過程中,文件塊的主副本有且只有一個(gè)。簡單而言,在科研大數(shù)據(jù)存儲過程中,文件塊的更新完全由主副本進(jìn)行控制。因此,可以基于Hadoop技術(shù)設(shè)計(jì)控制信息快。首先,主副本節(jié)點(diǎn)編號。在節(jié)點(diǎn)添加過程中,可以借助Hadoop技術(shù)中的Master節(jié)點(diǎn)得出節(jié)點(diǎn)編號。其次,副本數(shù)量。副本數(shù)量包含主副本和其他副本。通過查詢,如果結(jié)果顯示為1,則沒有其他副本。如果結(jié)果顯示為0,則沒有此文件塊。最后,副本節(jié)點(diǎn)編號列表。通過保存節(jié)點(diǎn)編號的方式,對編號地址進(jìn)行訪問?;诖?,科研大數(shù)據(jù)存儲系統(tǒng)先通過Master節(jié)點(diǎn)為用戶生成快照,然后借助快照創(chuàng)建文件塊。
2.3科研資源網(wǎng)架構(gòu)
為了方便用戶隨時(shí)查詢、檢索、使用科研資源網(wǎng),需要通過Hadoop技術(shù)重新設(shè)計(jì)科研資源網(wǎng)架構(gòu)。一方面,通過向云計(jì)算服務(wù)商發(fā)送申請,然后借由云存儲中的NameNode找尋Block中的ID,然后憑借該ID獲取所需的數(shù)據(jù)信息。在此過程中,為了有效節(jié)約服務(wù)器的存儲空間,將由系統(tǒng)管理員決定是否對發(fā)送過的數(shù)據(jù)進(jìn)行刪除。另一方面,當(dāng)NameNode將數(shù)據(jù)發(fā)送至云計(jì)算服務(wù)商DataNoe時(shí),數(shù)據(jù)將在映像文件中保存,并通過Sceondary、NameNode等對數(shù)據(jù)進(jìn)行備份。
結(jié)語
Hadoop技術(shù)作為一種面向海量數(shù)據(jù)信息的分布式系統(tǒng),能夠有效應(yīng)對TB量級以上的數(shù)據(jù)量。因此,將Hadoop技術(shù)應(yīng)用于科研大數(shù)據(jù)存儲系統(tǒng)中,并通過文件系統(tǒng)設(shè)計(jì)、文件塊存儲策略、科研資源網(wǎng)架構(gòu)、數(shù)據(jù)庫訪問層構(gòu)建四個(gè)方面的設(shè)計(jì),充分發(fā)揮Hadoop技術(shù)的效能,從而為科研大數(shù)據(jù)存儲系統(tǒng)的建立奠定技術(shù)基礎(chǔ)。
參考文獻(xiàn)
[1]李特,楊萌.基于Hadoop技術(shù)的科研大數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)[J].信息與電腦(理論版),2021,33(16):114-116.
[2]謝翌.基于Hadoop架構(gòu)的高校科研數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2021,44(11):182-186.
第一作者簡介:劉建斌(1990年5月),男,漢族,籍貫:山西省忻州市人,學(xué)歷:碩士,職稱:助教,研究方向:數(shù)據(jù)存儲技術(shù)。
第二作者簡介:王明乾(1989年12月),男,漢族,籍貫:河北清河,學(xué)歷:碩士,職稱:助教,研究方向:云計(jì)算。