劉 樂(lè)
(陜西職業(yè)技術(shù)學(xué)院,陜西西安,710054)
數(shù)字圖書(shū)館中海量異構(gòu)數(shù)據(jù)存儲(chǔ)組織研究
劉 樂(lè)
(陜西職業(yè)技術(shù)學(xué)院,陜西西安,710054)
在大數(shù)據(jù)時(shí)代,圖書(shū)館工作中最為重要的問(wèn)題就是數(shù)據(jù)的存儲(chǔ)以及存取。圖書(shū)館數(shù)字化的管理方式也提升了資料的數(shù)據(jù)容量,數(shù)字圖書(shū)館也面臨著更高的存儲(chǔ)要求。
數(shù)字圖書(shū)館;大數(shù)據(jù);存儲(chǔ);應(yīng)用
圖書(shū)館與其他行業(yè)相比,在數(shù)據(jù)存儲(chǔ)上有著較大的不同,主要體現(xiàn)在圖書(shū)館的數(shù)據(jù)量非常龐大,數(shù)據(jù)存儲(chǔ)的時(shí)間較長(zhǎng),并且數(shù)據(jù)具有多種類型,對(duì)數(shù)據(jù)存儲(chǔ)的安全性要求較高。隨著圖書(shū)館信息化程度不斷提高,數(shù)據(jù)存儲(chǔ)系統(tǒng)也面臨著更高的要求,要能夠?qū)崿F(xiàn)系統(tǒng)的自動(dòng)精簡(jiǎn)配置、數(shù)據(jù)的壓縮以及刪除重復(fù)數(shù)據(jù)等技術(shù),只有這樣才能夠管理好海量的數(shù)據(jù)。
所謂數(shù)字圖書(shū)館,也可以稱為一種系統(tǒng),它屬于信息檢索系統(tǒng)。數(shù)字圖書(shū)館就是把傳統(tǒng)的資源經(jīng)過(guò)數(shù)字化之后進(jìn)行存儲(chǔ),用戶能夠通過(guò)圖書(shū)館的終端設(shè)備或者通過(guò)互聯(lián)網(wǎng)對(duì)數(shù)字化的資源進(jìn)行瀏覽。當(dāng)今時(shí)代早已成為信息化的時(shí)代,所以,世界各國(guó)都在建立數(shù)字圖書(shū)館,企圖通過(guò)數(shù)字圖書(shū)館來(lái)促進(jìn)國(guó)民教育,提高國(guó)民的綜合素質(zhì)。隨著信息化的不斷發(fā)展,對(duì)數(shù)字圖書(shū)館的研究也在最近幾年越來(lái)越多,包括了數(shù)字資源的加工、存儲(chǔ)等一系列過(guò)程。
現(xiàn)代圖書(shū)館的結(jié)構(gòu)非常復(fù)雜,其中不僅需要對(duì)圖書(shū)館讀者的信息數(shù)據(jù)進(jìn)行存儲(chǔ),比如讀者的圖書(shū)借閱信息和出入信息等,還需要將圖書(shū)資料進(jìn)行數(shù)字化的處理,同時(shí)進(jìn)行存儲(chǔ)和管理。在圖書(shū)館當(dāng)中,對(duì)圖書(shū)本身的數(shù)據(jù)管理以及對(duì)數(shù)字化的圖書(shū)資料進(jìn)行管理和存儲(chǔ),二者是數(shù)據(jù)量最大的部分,尤其是一些大型圖書(shū)館,資源種類齊全,并且借閱量較大,內(nèi)容齊全,設(shè)備種類多樣,這就增加了數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)量。圖書(shū)館需要面對(duì)的數(shù)據(jù)量隨著時(shí)間的推移呈現(xiàn)出線性增長(zhǎng)的趨勢(shì),并且由于圖書(shū)館中各種各樣的服務(wù)設(shè)備也越來(lái)越多,信息化程度越來(lái)越高,同時(shí)圖書(shū)館對(duì)圖書(shū)和讀者的管理也更加規(guī)范,另外讀者對(duì)圖書(shū)館中的數(shù)字資源需求不斷加深,都導(dǎo)致了圖書(shū)館數(shù)據(jù)量增長(zhǎng)速度越來(lái)越快。目前,我國(guó)大型圖書(shū)館的數(shù)據(jù)增長(zhǎng)量已經(jīng)達(dá)到了最高30TB每年。面對(duì)如此巨大的數(shù)據(jù),而圖書(shū)館的儲(chǔ)存容量一般為100TB,相當(dāng)于圖書(shū)館的數(shù)據(jù)儲(chǔ)存空間能夠滿足幾年的使用需要,所以必須采取針對(duì)性的措施。并且使用碎片整理技術(shù),不能夠有效地挖掘出未使用的空間,所以該技術(shù)只適用于小型圖書(shū)館。
3.1 利用分布式文件管理系統(tǒng),有效利用空間
在海量資源面前,要想存儲(chǔ)全部數(shù)據(jù)必然需要大規(guī)模的服務(wù)器,這也是近年來(lái)比較流行的一種方法。目前國(guó)外比較流行的方法是構(gòu)建分布式文件系統(tǒng),這也是許多大型公司采取的方法。比較著名的有谷歌的GFS系統(tǒng),雅虎的HDFS系統(tǒng),以及亞馬遜的Dymamo。谷歌采用的GFS系統(tǒng)屬于可擴(kuò)展的分布式文件系統(tǒng),主要應(yīng)用于對(duì)大數(shù)據(jù)量的信息進(jìn)行訪問(wèn)。而且該系統(tǒng)能夠在普通硬件上使用,花費(fèi)較低,所以應(yīng)用于大型數(shù)字圖書(shū)館具有可操作性。GFS的系統(tǒng)機(jī)構(gòu)比較簡(jiǎn)單,包括了一臺(tái)主機(jī)和多個(gè)服務(wù)模塊。數(shù)據(jù)在GFS文件系統(tǒng)當(dāng)中會(huì)被分割為大小相同的多個(gè)模塊,在不同的模塊服務(wù)區(qū)上進(jìn)行存儲(chǔ),每個(gè)模塊都有多個(gè)備份。而主機(jī)只需要對(duì)元數(shù)據(jù)進(jìn)行維護(hù)即可,比如文件的目錄以及模塊的相對(duì)位置等,同時(shí)要管理模塊服務(wù)區(qū)。當(dāng)對(duì)內(nèi)容資源進(jìn)行訪問(wèn)時(shí),首先在客戶端通過(guò)主機(jī)獲取元數(shù)據(jù)信息,然后通過(guò)元數(shù)據(jù)獲得所需數(shù)據(jù)在文件中的具體位置,向模塊服務(wù)區(qū)發(fā)出命令,將目標(biāo)文件的數(shù)據(jù)展現(xiàn)出來(lái)。HDFS文件系統(tǒng)時(shí)對(duì)GFS系統(tǒng)的一種改變,在該系統(tǒng)中,包括了一臺(tái)主控節(jié)點(diǎn)和多臺(tái)數(shù)據(jù)節(jié)點(diǎn)。這樣的結(jié)構(gòu)構(gòu)成與GFS相仿。但是在文件訪問(wèn)模式的設(shè)計(jì)上二者出現(xiàn)了差別,HDFS采用了一次錄入多次訪問(wèn)的模式,將一致性問(wèn)題簡(jiǎn)化。存放副本時(shí),HDFS通過(guò)使用機(jī)架感知策略提高了數(shù)據(jù)的可用性、安全性和網(wǎng)絡(luò)傳輸利用率。亞馬遜提出的Dunamo系統(tǒng)通過(guò)一致性哈希實(shí)現(xiàn)對(duì)集群節(jié)點(diǎn)的動(dòng)態(tài)調(diào)整,在管理數(shù)據(jù)版本時(shí),使用到了向量時(shí)鐘。亞馬遜所使用的文件系統(tǒng)與GFS和HDFS相比,它最大的特征是它屬于去中心化的文件系統(tǒng),所需對(duì)于人工依賴性不強(qiáng),所需的人工管理較小。分布式文件系統(tǒng)具有良好的存儲(chǔ)數(shù)據(jù)功能,所以在大型分布式服務(wù)上應(yīng)用較多。
3.2 使用非結(jié)構(gòu)化的數(shù)據(jù)索引技術(shù),保證高效存取
數(shù)字圖書(shū)館信數(shù)據(jù)的存儲(chǔ)不僅是要高效地保存信息資源,同時(shí)也是為了更好的方便用戶。而用戶查找數(shù)據(jù)就需要使用到數(shù)據(jù)索引,不同的索引技術(shù)效果不同,只有索引結(jié)果的準(zhǔn)確度較高時(shí)才能夠達(dá)到用戶的滿意。由于索引機(jī)制的效率不斷提升,所以非結(jié)構(gòu)化的數(shù)據(jù)管理也逐漸在現(xiàn)實(shí)中應(yīng)用。非結(jié)構(gòu)化數(shù)據(jù)索引技術(shù)中還涉及到了索引緩存技術(shù)、索引分片技術(shù)等,最近幾年,已經(jīng)根據(jù)非非結(jié)構(gòu)化數(shù)據(jù)的不同誕生了許多索引技術(shù)。當(dāng)前,XML索引技術(shù)包括了兩個(gè)種類,結(jié)構(gòu)摘要類索引以及節(jié)點(diǎn)記錄類索引。對(duì)于結(jié)構(gòu)摘要類索引,其中的基礎(chǔ)為樹(shù)結(jié)構(gòu)的節(jié)點(diǎn)路徑信息,該索引采用的方式比較簡(jiǎn)單,所以其樹(shù)結(jié)構(gòu)只需要對(duì)不同的路徑數(shù)據(jù)進(jìn)行維護(hù)即可,同時(shí)在這種索引方式中,也不可能有重復(fù)節(jié)點(diǎn)存在的可能。所謂節(jié)點(diǎn)記錄類索引技術(shù),就是將XML的數(shù)據(jù)進(jìn)行分解,使其成為包含數(shù)據(jù)單元的記錄集合,數(shù)據(jù)的位置信息同樣也是在該記錄中保存。要想支持高維數(shù)據(jù),可以對(duì)多維數(shù)據(jù)索引模型進(jìn)行修改,使索引模型能夠較好的支持高維數(shù)據(jù),目前的技術(shù)主要包括了四個(gè)種類。第一是樹(shù)形索引技術(shù);第二,對(duì)高維數(shù)據(jù)進(jìn)行壓縮,然后存儲(chǔ);第三種方法基于距離尺度,將高維數(shù)據(jù)的維度降低,使其轉(zhuǎn)變?yōu)橐痪S數(shù)據(jù),進(jìn)而再對(duì)高維數(shù)據(jù)進(jìn)行檢索;第四種方法主要基于Hash函數(shù),其目的同樣是將高維數(shù)據(jù)的維數(shù)降低,使其轉(zhuǎn)化為一維數(shù)據(jù),這種方法與第三種方法雖然原理不同,達(dá)到的效果基本一致,都是縮小了數(shù)據(jù)查詢范圍。
3.3 提升存儲(chǔ)空間的利用率
當(dāng)前,數(shù)字圖書(shū)館對(duì)電子數(shù)據(jù)的存儲(chǔ)方法只要是要求電子圖書(shū)商家進(jìn)行數(shù)據(jù)備份,但是采用這種方法進(jìn)行數(shù)據(jù)存儲(chǔ),顯然效率較低。為了能夠?qū)?shù)據(jù)存儲(chǔ)的效率大幅提升,最好的途徑就是使用重復(fù)數(shù)據(jù)刪除技術(shù)以及數(shù)據(jù)壓縮技術(shù)。目前可以采取Delta技術(shù),該技術(shù)能夠?qū)ξ募A內(nèi)部以及文件夾之間的數(shù)據(jù)信息進(jìn)行對(duì)比,將其中的多余數(shù)據(jù)刪除,壓縮數(shù)據(jù),當(dāng)數(shù)據(jù)相似度越高時(shí),壓縮比就越小。其次還可以通過(guò)消重技術(shù)來(lái)增加空間利用率。由于圖書(shū)館數(shù)據(jù)的存儲(chǔ)多是采用數(shù)據(jù)備份,但數(shù)據(jù)經(jīng)過(guò)較多次的備份之后,重復(fù)數(shù)據(jù)就會(huì)大量產(chǎn)生,而重復(fù)數(shù)據(jù)刪除技術(shù)主要就是在備份過(guò)程中發(fā)揮作用,當(dāng)進(jìn)行備份時(shí),該技術(shù)能夠很好地將其中相同的內(nèi)容刪除,達(dá)到節(jié)約空間的效果。重復(fù)數(shù)據(jù)刪除又包括了兩種,一種是空間數(shù)據(jù)消除,另一種是時(shí)間數(shù)據(jù)消除。圖書(shū)館的數(shù)字化書(shū)籍?dāng)?shù)據(jù)本質(zhì)上屬于自然數(shù)據(jù),這種數(shù)據(jù)具有變化率低、數(shù)據(jù)備份完備、數(shù)據(jù)保存時(shí)間長(zhǎng)、數(shù)據(jù)內(nèi)容可感知性等特點(diǎn)。在備份重要的數(shù)據(jù)時(shí),應(yīng)該使用冗余級(jí)別的主機(jī),或者使用RAID硬盤(pán)。在對(duì)比較關(guān)鍵的數(shù)據(jù)信息進(jìn)行備份時(shí),可采用RAID陣列的軟件鏡像,鏡像通過(guò)兩個(gè)相互獨(dú)立的硬件來(lái)控制。這個(gè)方法具有一定的可操作性,同時(shí)還有一定的優(yōu)點(diǎn),當(dāng)設(shè)備中的某一部分意外發(fā)生故障時(shí),整個(gè)系統(tǒng)的使用不會(huì)受到任何影響,而且更換非常容易。比如當(dāng)網(wǎng)卡、控制器、視頻設(shè)備或者語(yǔ)音設(shè)備等發(fā)生故障時(shí),整個(gè)系統(tǒng)的運(yùn)行不會(huì)受到影響。另外還可以使用RAID4冗余技術(shù),使用該技術(shù)對(duì)數(shù)據(jù)進(jìn)行備份不僅效果好,同時(shí)還最為經(jīng)濟(jì)。該技術(shù)需要一個(gè)冗余盤(pán)和多個(gè)數(shù)據(jù)盤(pán)構(gòu)成,在盤(pán)的對(duì)應(yīng)模塊當(dāng)中,存儲(chǔ)著相應(yīng)為的1的數(shù)量需要使偶數(shù)個(gè)。當(dāng)其中的某個(gè)數(shù)據(jù)盤(pán)發(fā)生意外故障時(shí),必須要更換新的數(shù)據(jù)盤(pán),而要將原有數(shù)據(jù)恢復(fù)到新的數(shù)據(jù)盤(pán)當(dāng)中,只需要根據(jù)偶數(shù)個(gè)1的規(guī)則就可以完成相應(yīng)操作。在對(duì)數(shù)字圖書(shū)館的數(shù)據(jù)進(jìn)行備份的實(shí)際操作當(dāng)中,備份的方案有很多種,停機(jī)備份是使用比較多的方案,將需要操作的數(shù)據(jù)正常關(guān)閉,然后對(duì)數(shù)據(jù)進(jìn)行冷備份。
3.4 采用自動(dòng)精簡(jiǎn)配置技術(shù),提高存儲(chǔ)空間利用效率
在傳統(tǒng)情況下,針對(duì)某個(gè)應(yīng)用,為了保證該應(yīng)用的增長(zhǎng)空間足夠使用,采取的空間分配方法均是完全供給,而這樣的分配手段必定會(huì)導(dǎo)致存在大量的閑置空間,不僅浪費(fèi)了存儲(chǔ)空間,同時(shí)也浪費(fèi)了能源。要解決這種問(wèn)題,可以采用自動(dòng)精簡(jiǎn)配置技術(shù),該技術(shù)能夠?qū)Υ鎯?chǔ)空間進(jìn)行有效的管理。通常情況下,使用該技術(shù)不僅保證了應(yīng)用性能不會(huì)受到影響,同時(shí)還能夠?qū)⒋鎯?chǔ)空間的利用效率大幅提升,幫助用戶實(shí)現(xiàn)100%的存儲(chǔ)空間利用率。該技術(shù)會(huì)根據(jù)數(shù)據(jù)的空間需求量進(jìn)行自動(dòng)分配,所以不會(huì)產(chǎn)生任何的多余空間。自動(dòng)精簡(jiǎn)分配技術(shù)的另一個(gè)明顯特點(diǎn)就是還能夠?qū)崿F(xiàn)分配卷的自動(dòng)擴(kuò)展功能,不需要任何的手動(dòng)操作。當(dāng)數(shù)據(jù)占用空間需求變大時(shí),不需要人工修改存儲(chǔ)的容量設(shè)置,能夠?qū)崿F(xiàn)自動(dòng)調(diào)整。將數(shù)據(jù)信息通過(guò)虛擬技術(shù)進(jìn)行集成存儲(chǔ),不僅實(shí)現(xiàn)了存儲(chǔ)空間利用率的大幅提升,同時(shí)還降低了總功耗,所以這種技術(shù)還能夠有效的降低機(jī)房能耗,節(jié)省了能源。
在大數(shù)據(jù)時(shí)代,數(shù)字圖書(shū)館要想尋求長(zhǎng)遠(yuǎn)的發(fā)展,必須要做好數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理工作,有效的對(duì)海量異構(gòu)數(shù)據(jù)進(jìn)行存儲(chǔ),提高存儲(chǔ)率。有條件數(shù)字圖書(shū)館可以選擇增加存儲(chǔ)服務(wù)器的方法,增加存儲(chǔ)空間。而一般情況下,數(shù)字圖書(shū)館可以采用分布式文件系統(tǒng),有效地利用空間,同時(shí)在存儲(chǔ)數(shù)據(jù)時(shí),必須要考慮到數(shù)據(jù)索引問(wèn)題,可以采用非結(jié)構(gòu)化的索引技術(shù),縮小數(shù)據(jù)查詢范圍,提高查詢精度。另外,還可以通過(guò)重復(fù)數(shù)據(jù)刪除技術(shù),數(shù)據(jù)壓縮技術(shù),自動(dòng)精簡(jiǎn)配置技術(shù),在有限的空間下提升存儲(chǔ)空間利用效率,實(shí)現(xiàn)更多數(shù)據(jù)的存儲(chǔ)。
[1] cADAL管理中心,大學(xué)數(shù)字圖書(shū)館國(guó)際合作計(jì)劃在中國(guó)的背景情況[OL].2010,http;//www.eadal.Zju.edu.cn
[2] 彭磊.建立SAN(存儲(chǔ)局域網(wǎng))——高校圖書(shū)館數(shù)據(jù)存儲(chǔ)系統(tǒng)發(fā)展的趨勢(shì)[J].現(xiàn)代情報(bào),2004,(04):36-37.
[3] Hubert Yoshida.大數(shù)據(jù)存儲(chǔ)平臺(tái)必須具有彈性[J].微電腦世界,2012,(10):97.
[4] 劉青寶等,鄧蘇,張維明等.海量信息組織與集成技術(shù)[J].計(jì)算機(jī)世界報(bào),2004,(B8):94-95.
[5] 陳耀盛.網(wǎng)絡(luò)信息組織〔M].北京:科學(xué)技術(shù)出版社.2004:25-34.
Research on massive heterogeneous data storage in Digital Library
Liu Le
(Shaanxi Vocational and Technical College,Xi'an,Shaanxi,710054)
In the age of big data, an important problem is the data storage and access to the library work. Management mode of digital library also increased data capacity, digital library is facing higher storage requirements.
digital library;data storage;application